07-22 Live Session

less than 1 minute read

Spark 이란

Pandas의 스테로이드 버전 + SQL + Scikit-learn + Streaming

Spark이 데이터 인프라에서 갖는 위치

지표가 자동적으로 계산 되어야 함. 그래야 A/B 테스트가 가능함

Airflow 란

  • 각 ETL 이 언제 실행되어야 하나.
  • ETL 스케쥴링 지원
  • ETL 코드 작성을 도와주는 프로그램이기도 함

구성요소

Web server, Scheduler, Worker

타이베이 시 주택 가격 예측 숙제

  • Regression vs. Classification 모델링
    • RMSE 로 모델의 정확성 측정
  • MinMaxScaler도 적용해볼것
    • ML Pipeline을 사용해보는 것도 추천
  • FE를 통해 새로운 피쳐를 만들어내는 것도 방법
    • 새로운 feature 생성
    • feature selection
  • Linear Regression 으로 시작해서 GBT 까지 해볼 것.

요즘 시대의 마케팅

마케팅 분석 필수 데이터 - 접점 (Touch Point)

마케팅 필수 측정 데이터 - 채널 기여도 (Attribution) 측정

마케팅 필수 측정 데이터 - 고객가치

디지털 마케팅 데이터 수집

사용자 경로 데이터 수집의 어려움

쿠키 - 온라인 광고 타켓팅을 가능하게 해주는 기술

UTM - 마케팅 채널 기여도 계산 표준

딥링크

Leave a comment