pyspark를 통해 다양한 파일을 읽을 수 있습니다. 보통 .text 또는 .log와 같은 확장자로 되어진 plainText를 읽기도 하지만 압축된 파일인 .gz 과 같은 파일을 읽어야할 때도 있습니다.
이렇게 .gz과 같이 압축된 파일을 pyspark를 통해 읽으려면 어떻게 해야할까요?
rdd = sc.textFile("data/label.gz")
print rdd.take(10)
정답은 생각보다 간단합니다. textFile method를 사용하여 .text나 .log파일을 읽듯이 그대로 입력하여 읽으면 됩니다.
Spark Document에 따르면 아래와 같이 나와 있습니다.
All of Spark’s file-based input methods, including textFile, support running on directories, compressed files, and wildcards as well. For example, you can use textFile("/my/directory"), textFile("/my/directory/*.txt"), and textFile("/my/directory/*.gz").
즉, compressed file이든 textFile이든 모두 file base input이 가능하며 추가적으로 wild card(*)를 사용하여 복수의 text도 읽을 수 있음이 확인됩니다.
http://spark.apache.org/docs/2.1.0/programming-guide.html#external-datasets
반응형
'빅데이터 > 하둡' 카테고리의 다른 글
하둡 맵리듀스 동작방법 (0) | 2020.11.26 |
---|---|
하둡 맵리듀스 접근법 (0) | 2020.11.24 |
HDFS cilent 사용시 HA구성된 node 연결하기 (0) | 2020.03.11 |
pyspark에러 ImportError: No module named XXXX (1) | 2020.02.10 |
[local hadoop]localhost port 22: Connection refused 에러 발생시 해결방법 in MacOS (0) | 2020.01.16 |
Java로 AWS s3에 간단히 file write하기(hadoop-aws 라이브러리 사용, NativeS3FileSystem) (249) | 2019.07.11 |