데이터 사이언스 정보

ML Engineering 총 지식 아카이브

머루아빠승우 2025. 5. 11. 23:52

* 해당 글은 학습용으로 부정확한 내용이 있을 수 있습니다.

- 관련 글과 정보를 링크를 통해 총 정리 및 아카이빙을 진행할 예정입니다.

- 지속적인 갱신이 진행되오며, 글의 세부목차만 제시됩니다. 상세 내용은 링크를 참고해주세요.

- 지식의 축적과 이해한 내용을 기록함으로서 데이터 사이언티스트로서 전문성을 갖추고자 합니다. (응원 부탁!)


기계학습(ML Pipeline) 개발 프로세스

 

0. 문제 정의 및 기획

1. EDA, 전처리

2. 변수 선택

  • 변수 선택(Feature Selection)
  • 변수 추출(Feature Extraction, 차원 축소)
    • PCA(주성분분석)
    • LDA(선형판별분석, 차원축소로서)
    • t-SNE, SVD, MDS 등
  • 변수 선택/추출 평가 및 교차검증

참고:변수 선택(Feature Selection)은 기존 변수 중 일부만 선택변수 추출(Feature Extraction, 차원 축소)은 기존 변수를 조합해 새로운 저차원 변수 생성PCA, LDA 등 차원 축소 기법은 "변수 선택" 단계에서 다루는 것임

3. 모델링

  • 알고리즘 선택 (LDA, SVM, Random Forest, XGBoost 등)
  • 하이퍼파라미터 튜닝
  • 모델 학습 및 피팅
  • 앙상블/스태킹 등 고급 모델링

4. 성능평가

  • 평가 지표 선정 (정확도, F1, ROC-AUC 등)
  • 교차검증
  • 오버피팅/언더피팅 진단
  • 모델 비교 및 최종 선정