본문 바로가기

분류 전체보기61

[Spark] Install PySpark with PiP & 파일 읽고, 쓰기 실습 이번 포스트는 예전에 포스트했었던 spark를 설치하여 jupyter notebook 환경에서 pyspark를 사용하는 것보다 활용하기 쉬운 pip를 통해 pyspark를 다운로드하고 확인하고, 실습해보겠습니다. 여기서 pyspark를 pip를 통해 다운로드 한다고 실행되는 것은 아닙니다. spark-3.2.1-bin-hadoop2.7.tgz를 다운 받아 압축풀기 spark-3.2.1-bvin-hadoop2.7의 경로에 대해서 HADOOP_HOME설정 jdk를 다운받아 jdk경로로 JAVA_HOME 설정 winutils파일도 HADOOP_HOME\bin 폴더에 위치해 있어야 함 자세한 건 아래의 링크에 나와있습니다. 예전 포스트 링크 2021.02.17 - [BigData/Spark & Spark Tun.. 2022. 3. 9.
[ELK] Logstash를 이용해 Elasticsearch csv파일 import 안녕하세요 오늘은 저번 포스팅에서 설치한 ELK를 통해 실제 분석할 데이터를 적재하여 시각화하는 Process까지 진행하도록 하겠습니다. 우선 분석할 샘플 데이터가 필요하겠습니다. 저는 '서울시 자치구별 신호등 및 횡단보도 수량'(2022년 2월 25일 기준)을 준비하겠습니다. 파일을 다운받을 수 있는 링크는 아래와 같습니다. https://data.seoul.go.kr/dataList/OA-21237/F/1/datasetView.do 열린데이터광장 메인 데이터분류,데이터검색,데이터활용 data.seoul.go.kr csv파일의 형식은 다음과 같습니다. 여기서 주의해야 할 점은 지금의 csv파일을 그대로 적재하게 된다면 첫행의 '자치구', '횡단보도 개수', '신호등 개수'도 하나의 record로 인식하.. 2022. 3. 7.
[AWS] Python으로 AWS S3에 이미지 파일 업로드 python에서 AWS 객체 스토리지 서비스인 S3에 접근하여 로컬에 저장된 이미지 파일을 업로드하는 실습입니다. S3란? Amazon S3(Amazon Simple Storage Service)는 업계 최고의 확장성과 데이터 가용성 및 보안과 성능을 제공하는 객체 스토리지 서비스이다. 즉, 어떤 규모 어떤 사업의 고객이든 이 서비스를 사용하여 웹 사이트, 모바일 애플리케이션, 백업 및 복원, 아카이브, 엔터프라이즈 애플리케이션, IoT 디바이스, 빅데이터 분석 등과 같은 다양한 사용 사례에서 원하는 만큼의 데이터를 저장하고 보호할 수 있다. Amazon S3 작동 방식 S3는 데이터를 버킷 내의 객체로 저장하는 객체 스토리지 서비스다. 객체는 해당 파일을 설명하는 모든 메타데이터이다. S3에 데이터를 .. 2022. 3. 7.
[ELK] ELK 설치(Elasticsearch, Logstash, Kibana) ELK란? Logstash -> 데이터를 수집하여 변환한 후, Elasticsearch 같은 stash로 전송하는 데이터 처리 파이프라인. Elasticsearch -> 검색 및 분석 엔진. JSON 기반의 분산형 RESTFul 검색 엔진. Kibana -> Elasticsearch에서 차트와 그래프를 이용해 데이터 시각화를 가능하게 해주는 도구. ElasticSearch 설치 필자의 OS 환경 - CentOS Linux release 7.9.2009 (core) 64bit - openjdk version "1.8.0_292" ※ Elasticsearch는 최소 1.8이상의 JDK를 필요로 합니다. ( JDK 버전에 따른 호환성은 링크를 확인해주세요) - 다음의 명령어 또는 해당 홈페이지에서 설치파일을 .. 2022. 2. 11.