본문 바로가기

분류 전체보기61

[Dacon] 풍력 발전량 예측 AI 경진대회 - AutoML(mljar-supervised) Dacon 풍력 발전량 예측 대회를 진행하였다. 지금껏 사용해 온 모델을 학습시킨 후 예측값을 추출한 후 제출하였는데 점수가 좋게 나오진 않았다. 성능 향상 방법을 구글링을 통해 찾아서 전처리를 여러 가지 방법으로 처리하여 진행을 해도 뛰어난 성능 향상을 느끼진 못했다. 그러다 예전에 Pycaret을 사용한 경험이 생각이 나서 AutoML에 대해 찾아보았다. mljar-supervised라는 AutoML을 찾아 이 데이터에 적용해 보았다. 라이브러리 설치부터 제출까지 해보는 시간을 가져보자. AutoML(mljar-supervised) 설치 https://supervised.mljar.com/ pip install mljar-supervised 위 명령어를 통해 AutoML 라이브러리를 설치할 수 있다... 2023. 2. 17.
[VSCODE] 설치되어 있는 EXTENSIONS(확장팩) 확인 Ctrl + Shift + x 상단 검색 input에 @로 시작하는 명령을 입력 @installed 설치 확장팩 확인 @disabled 설치 확장팩 중, 비활성 상태인 확장팩 확인 2023. 2. 14.
[MLS-C01] AWS Certified Machine Learning Specialty 시험 소개 시험 소개 AWS Certified Machine Learning Specialty(이하 MLS-C01) 시험은 응시 자격 조건이 따로 없는데도, 다른 시험에 비해 후기가 많이 없는 편이다. 그 이유는 1. 비싸서, 2. 비싸서, 3. 비싸서 일 것이다.. 게다가 유효기간은 3년 AWS 자격증 등급은 foundational(practitioner), associate, professional, specialty가 있다. 각 등급별 응시료는 다음과 같다. Specialty는 참으로... 비싼 시험이다.. 바로 associate 을 도전하거나 (150 USD), practitioner 를 따고 50% 할인 받고, 다음 단계인 associate 취득 (100 + 75 = 175 USD) 사이에서 대부분이 고민.. 2023. 2. 1.
[Spark] CSV vs Parquet(columnar format) in spark 성능비교하기 [File 크기] 컬럼 수: 21개의 컬럼 레코드 수: 총 3,647,595 rows(records) csv: 578MB parquet: 44.7MB (gz.parquet: 34.6MB) [비교 관점] spark에서의 성능이란 file을 스캔할 때 스캔한 양(읽어들인 양)과 스캔시간이 중요 [CSV vs Parquet 특징 비교] (json은 덤ㅎㅎ) 1. CSV csv는 일반적인 text, 즉 row단위로 읽는 file format 1) 1개의 column select df_csv.select(F.col("Exam_No")).show(100000) Physical plan == Physical Plan == CollectLimit (3) +- * Project (2) +- Scan csv (1) (1).. 2023. 1. 25.