Pyspark2 [Spark] CSV vs Parquet(columnar format) in spark 성능비교하기 [File 크기] 컬럼 수: 21개의 컬럼 레코드 수: 총 3,647,595 rows(records) csv: 578MB parquet: 44.7MB (gz.parquet: 34.6MB) [비교 관점] spark에서의 성능이란 file을 스캔할 때 스캔한 양(읽어들인 양)과 스캔시간이 중요 [CSV vs Parquet 특징 비교] (json은 덤ㅎㅎ) 1. CSV csv는 일반적인 text, 즉 row단위로 읽는 file format 1) 1개의 column select df_csv.select(F.col("Exam_No")).show(100000) Physical plan == Physical Plan == CollectLimit (3) +- * Project (2) +- Scan csv (1) (1).. 2023. 1. 25. [Spark] Install PySpark with PiP & 파일 읽고, 쓰기 실습 이번 포스트는 예전에 포스트했었던 spark를 설치하여 jupyter notebook 환경에서 pyspark를 사용하는 것보다 활용하기 쉬운 pip를 통해 pyspark를 다운로드하고 확인하고, 실습해보겠습니다. 여기서 pyspark를 pip를 통해 다운로드 한다고 실행되는 것은 아닙니다. spark-3.2.1-bin-hadoop2.7.tgz를 다운 받아 압축풀기 spark-3.2.1-bvin-hadoop2.7의 경로에 대해서 HADOOP_HOME설정 jdk를 다운받아 jdk경로로 JAVA_HOME 설정 winutils파일도 HADOOP_HOME\bin 폴더에 위치해 있어야 함 자세한 건 아래의 링크에 나와있습니다. 예전 포스트 링크 2021.02.17 - [BigData/Spark & Spark Tun.. 2022. 3. 9. 이전 1 다음