07-22 Live Session
Spark 이란
Pandas의 스테로이드 버전 + SQL + Scikit-learn + Streaming
Spark이 데이터 인프라에서 갖는 위치
지표가 자동적으로 계산 되어야 함. 그래야 A/B 테스트가 가능함
Airflow 란
- 각 ETL 이 언제 실행되어야 하나.
- ETL 스케쥴링 지원
- ETL 코드 작성을 도와주는 프로그램이기도 함
구성요소
Web server, Scheduler, Worker
타이베이 시 주택 가격 예측 숙제
- Regression vs. Classification 모델링
- RMSE 로 모델의 정확성 측정
- MinMaxScaler도 적용해볼것
- ML Pipeline을 사용해보는 것도 추천
- FE를 통해 새로운 피쳐를 만들어내는 것도 방법
- 새로운 feature 생성
- feature selection
- Linear Regression 으로 시작해서 GBT 까지 해볼 것.
Leave a comment