pyspark에서 gzip으로 압축되어 있는 파일 읽는 방법

pyspark를 통해 다양한 파일을 읽을 수 있습니다. 보통 .text 또는 .log와 같은 확장자로 되어진 plainText를 읽기도 하지만 압축된 파일인 .gz 과 같은 파일을 읽어야할 때도 있습니다.

이렇게 .gz과 같이 압축된 파일을 pyspark를 통해 읽으려면 어떻게 해야할까요?

rdd = sc.textFile("data/label.gz")
print rdd.take(10)

정답은 생각보다 간단합니다. textFile method를 사용하여 .text나 .log파일을 읽듯이 그대로 입력하여 읽으면 됩니다.

Spark Document에 따르면 아래와 같이 나와 있습니다.

All of Spark’s file-based input methods, including textFile, support running on directories, compressed files, and wildcards as well. For example, you can use textFile("/my/directory"), textFile("/my/directory/*.txt"), and textFile("/my/directory/*.gz").

즉, compressed file이든 textFile이든 모두 file base input이 가능하며 추가적으로 wild card(*)를 사용하여 복수의 text도 읽을 수 있음이 확인됩니다.

http://spark.apache.org/docs/2.1.0/programming-guide.html#external-datasets

Spark Programming Guide - Spark 2.1.0 Documentation

Spark Programming Guide Overview At a high level, every Spark application consists of a driver program that runs the user’s main function and executes various parallel operations on a cluster. The main abstraction Spark provides is a resilient distributed

spark.apache.org

저작자표시 비영리 변경금지 (새창열림)

'빅데이터 > 하둡' 카테고리의 다른 글

하둡 맵리듀스 동작방법 (0)	2020.11.26
하둡 맵리듀스 접근법 (0)	2020.11.24
HDFS cilent 사용시 HA구성된 node 연결하기 (0)	2020.03.11
pyspark에러 ImportError: No module named XXXX (1)	2020.02.10
[local hadoop]localhost port 22: Connection refused 에러 발생시 해결방법 in MacOS (0)	2020.01.16
Java로 AWS s3에 간단히 file write하기(hadoop-aws 라이브러리 사용, NativeS3FileSystem) (0)	2019.07.11

데브원영

Big-data Engineering

pyspark에서 gzip으로 압축되어 있는 파일 읽는 방법

'빅데이터 > 하둡' 카테고리의 다른 글

티스토리툴바

pyspark에서 gzip으로 압축되어 있는 파일 읽는 방법

'빅데이터 > 하둡' 카테고리의 다른 글

'빅데이터/하둡' Related Articles

티스토리툴바