일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- metacodem
- 오블완
- ssafy 13기
- SSAFY
- 데이터분석가
- 자기계발
- 개발자부트캠프
- JLPT
- 데이터 사이언티스트
- 데이터전문가
- 데이터애널리스트
- ML
- matacodem
- 파이썬
- 독학
- 메타코드
- 머신러닝
- DS
- 부트캠프
- 티스토리챌린지
- 데이터 엔지니어
- 데이터엔지니어
- streamlit
- 데이터사이언티스트
- metacode
- 메타코드m
- 싸피
- 자기개발
- 일본어공부
- 데이터분석
Archives
- Today
- Total
아카이브
ML Engineering 총 지식 아카이브 본문
* 해당 글은 학습용으로 부정확한 내용이 있을 수 있습니다.
- 관련 글과 정보를 링크를 통해 총 정리 및 아카이빙을 진행할 예정입니다.
- 지속적인 갱신이 진행되오며, 글의 세부목차만 제시됩니다. 상세 내용은 링크를 참고해주세요.
- 지식의 축적과 이해한 내용을 기록함으로서 데이터 사이언티스트로서 전문성을 갖추고자 합니다. (응원 부탁!)
기계학습(ML Pipeline) 개발 프로세스
0. 문제 정의 및 기획
- 우리가 풀고자한 문제는 무엇인가? (문제를 바라보는 방법)
- 어떤 방식으로 문제를 해결할 것인가? (문제 해결 방법 선택)
- 현실적인 어려움과 한계는 어디까지인가? (알고리즘 구현 및 개발의 어려움)
- 리소스(시간, 물적 자원)는 제한되어 있고, 모델링을 구현하는데는 시간이 필요한 상황에 다양한 모델을 검증하고 구현하는 과정은 많은 피로도를 요구한다 어쩌면 좋을까? (시간 리소스에 대한 고민)
1. EDA, 전처리
- 데이터 탐색(EDA)
- 결측치/이상치 처리
- 데이터 타입 변환
- 스케일링/정규화
- 데이터 분할(Train/Test/Validation)
2. 변수 선택
- 변수 선택(Feature Selection)
- Filter 방법 (상관계수, 분산, 통계적 검정 등)
- Wrapper 방법 (Forward, Backward, Stepwise)
- Embedded 방법 (Lasso, Decision Tree 기반 등)
- 변수 추출(Feature Extraction, 차원 축소)
- PCA(주성분분석)
- LDA(선형판별분석, 차원축소로서)
- t-SNE, SVD, MDS 등
- 변수 선택/추출 평가 및 교차검증
참고:변수 선택(Feature Selection)은 기존 변수 중 일부만 선택변수 추출(Feature Extraction, 차원 축소)은 기존 변수를 조합해 새로운 저차원 변수 생성PCA, LDA 등 차원 축소 기법은 "변수 선택" 단계에서 다루는 것임
3. 모델링
- 알고리즘 선택 (LDA, SVM, Random Forest, XGBoost 등)
- 하이퍼파라미터 튜닝
- 모델 학습 및 피팅
- 앙상블/스태킹 등 고급 모델링
4. 성능평가
- 평가 지표 선정 (정확도, F1, ROC-AUC 등)
- 교차검증
- 오버피팅/언더피팅 진단
- 모델 비교 및 최종 선정
'데이터 사이언스 정보' 카테고리의 다른 글
[네이버 컨퍼런스] AI 기반 장소 추천 시스템 (DAN24) (8) | 2025.07.13 |
---|---|
Train/Test/Validation 데이터 분할(Data Split) (0) | 2025.05.14 |
변수 선택(Feature Selection) (0) | 2025.05.12 |
모델을 구현하는 과정은 괴롭다! (시간 리소스에 대한 고민) (1) | 2025.05.12 |