데이터 사이언스 정보
ML Engineering 총 지식 아카이브
머루아빠승우
2025. 5. 11. 23:52
* 해당 글은 학습용으로 부정확한 내용이 있을 수 있습니다.
- 관련 글과 정보를 링크를 통해 총 정리 및 아카이빙을 진행할 예정입니다.
- 지속적인 갱신이 진행되오며, 글의 세부목차만 제시됩니다. 상세 내용은 링크를 참고해주세요.
- 지식의 축적과 이해한 내용을 기록함으로서 데이터 사이언티스트로서 전문성을 갖추고자 합니다. (응원 부탁!)
기계학습(ML Pipeline) 개발 프로세스
0. 문제 정의 및 기획
- 우리가 풀고자한 문제는 무엇인가? (문제를 바라보는 방법)
- 어떤 방식으로 문제를 해결할 것인가? (문제 해결 방법 선택)
- 현실적인 어려움과 한계는 어디까지인가? (알고리즘 구현 및 개발의 어려움)
- 리소스(시간, 물적 자원)는 제한되어 있고, 모델링을 구현하는데는 시간이 필요한 상황에 다양한 모델을 검증하고 구현하는 과정은 많은 피로도를 요구한다 어쩌면 좋을까? (시간 리소스에 대한 고민)
1. EDA, 전처리
- 데이터 탐색(EDA)
- 결측치/이상치 처리
- 데이터 타입 변환
- 스케일링/정규화
- 데이터 분할(Train/Test/Validation)
2. 변수 선택
- 변수 선택(Feature Selection)
- Filter 방법 (상관계수, 분산, 통계적 검정 등)
- Wrapper 방법 (Forward, Backward, Stepwise)
- Embedded 방법 (Lasso, Decision Tree 기반 등)
- 변수 추출(Feature Extraction, 차원 축소)
- PCA(주성분분석)
- LDA(선형판별분석, 차원축소로서)
- t-SNE, SVD, MDS 등
- 변수 선택/추출 평가 및 교차검증
참고:변수 선택(Feature Selection)은 기존 변수 중 일부만 선택변수 추출(Feature Extraction, 차원 축소)은 기존 변수를 조합해 새로운 저차원 변수 생성PCA, LDA 등 차원 축소 기법은 "변수 선택" 단계에서 다루는 것임
3. 모델링
- 알고리즘 선택 (LDA, SVM, Random Forest, XGBoost 등)
- 하이퍼파라미터 튜닝
- 모델 학습 및 피팅
- 앙상블/스태킹 등 고급 모델링
4. 성능평가
- 평가 지표 선정 (정확도, F1, ROC-AUC 등)
- 교차검증
- 오버피팅/언더피팅 진단
- 모델 비교 및 최종 선정