일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- ML
- 데이터분석
- 자기개발
- 데이터분석가
- 개발자부트캠프
- 데이터 사이언티스트
- 데이터전문가
- 일본어공부
- 머신러닝
- DS
- metacode
- 파이썬
- 부트캠프
- 티스토리챌린지
- metacodem
- SSAFY
- 독학
- matacodem
- 데이터사이언티스트
- 데이터엔지니어
- 오블완
- 메타코드
- 데이터 엔지니어
- streamlit
- 메타코드m
- JLPT
- 자기계발
- 싸피
- 데이터애널리스트
- ssafy 13기
- Today
- Total
아카이브
[데이터 사이언티스트] kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자 (5) 본문
[데이터 사이언티스트] kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자 (5)
머루아빠승우 2024. 10. 26. 18:51kaggle 데이터를 활용한 실전 머신러닝 5차시입니다.
데이터분석과 더불어 개인의 포토폴리오가
요즘 취업시장 작성이 중요해졌지요.
남다른 경쟁력을 갖기 위해선
학위, 프로젝트 경험이 있어야 좋은 소식을
기대해 볼 수 있을 것으로 보입니다.
현재 저는 메타코드 앰배서더 활동으로
데이터 사이언티스트 직무에 관련 강의를 수강하고 있어요.
이커머스 데이터 분석 포트폴리오를 만들어 가고 있습니다
데이터 사이언티스트에 관심이 있으시다면
제 게시글을 보시고 메타코드에서 함께 성장해보심 어떨까요?
메타코드M
AI 강의 & 커뮤니티 플랫폼ㅣ300만 조회수 기록한 IT 현직자들의 교육과 함께 하세요
metacodes.co.kr
캐글 데이터를 활용한 실전 머신러닝
해당 강좌는 캐글 데이터를 활용해 머신러닝 모델과 예측기법을
적용해보는 실습입니다.
실제가 강의시간은 3시간 40분인데 저는 학업과 병행하다보니
현재 3주에 걸쳐서 수강을 하고 있네요 ㅎㅎ..
3강의 주제는 모델 성능 개선입니다!
이전에 작성한 게시글을 통해 기본적인 EDA, 모델링, 모델을 실행하는 과정에 대한
상세한 학습 내용이 있으니 관심있으면 확인해주세요!
kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자
metacodes.co.kr
학습 과정
이번 주차는 앙상블 학습을 이용해 모델의 성능을
높이는 과정이 핵심입니다.
앙상블 모델이란?
여러 개의 기본 모델을 활용하여 하나의 새로운 모델을 만들어내는 개념입니다.
앙상블 학습(Ensemble Learning)의 특징
- 단일 모델의 약점을 다수의 모델들을 결합하여 보완
- 뛰어난 성능을 가진 모델들로만 구성하는 것보다 성능이 떨어지더라도 서로 다른 유형의 모델을 섞는 것이 오히려 전체 성능이 도움이 될 수 있음.
- 랜덤 포레스트 및 뛰어난 부스팅 알고리즘들을 모두 결정 트리 알고리즘을 기반 알고리즘으로 적용함
- 결정 트리의 단점인 과적합(Over fitting)을 수십 ~ 수천 개의 많은 분류기를 결합해 보완하고 장점인 직관적인 분류 기준은 강화됨
이번에 학습한 보팅(Voting)개념에 대해 소개해드릴게요
보팅은 여러 개의 분류기가 투표를 통해 최종 예측 결과를 결정하는 방식입니다.
보팅의 경우, 일반적으로 서로 다른 알고리즘을 가진 분류기를 결합하여 성능을 높입니다.
<보팅의 유형>
1) 하드 보팅: 다수결 원칙으로, 예측한 결괏값들 중 다수의 분류기가 결정한 예측값을 최종 보팅 결괏값으로 선정하는 것
2)소프트 보팅: 분류기들의 레이블 값 결정 확률을 모두 더하고 이를 평균해서 이들 중 확률이 가장 높은 레이블 값을 최종 보팅 결괏값으로 선정
3) 하이브리드 보팅: 이 두개를 합친게 하이브리드 피보팅모델입니다 XGBoost가 있어요.
저 나름대로 XGboost의 할당 인자를 분석해보았는데요.
학습을 하면 할수록 모델의 과적합을 방지하기 위해 어떤 수학적 접근을 사용했는지
알 수 있던 것 같아요. 이 해당 알고리즘을 떠올린 사람은 천재가 아닐까요..?
모델의 크기, 노드의 수, 걸리는 처리 시간까지 고려해서 데이터를 처리 하는 과정이
기업에서도 최소한의 리소스로 결과를 내야하기에 이런 인자들을
최적화할 수 있는 방안에 대해 공부해야겠다는 생각을 하게 되었습니다.
앞서 소개한 MAPE를 기준으로
앙상블 모델에 따라 각 상품의 예측 수량 값을 시각화한 값입니다.
조금더 예측값이 현실과 차이 (잔차)가 작도록 모델을 학습시킬 수 있다니..
저만 재밌나요?

다음 시간에는 Stacking model : 여러 모델의 예측값을 피처로 활용하여 재예측에 대해 다뤄볼 예정입니다~
이상 메타코드 앰배서더 최승우였습니다.
*본 게시글은 메타코드 앰배서더 활동으로 작성된 게시글입니다.
'공모전 및 대외활동 > 앰배서더' 카테고리의 다른 글
[데이터 사이언티스트] kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자 (7) (0) | 2024.10.28 |
---|---|
[데이터 사이언티스트] kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자 (6) (2) | 2024.10.27 |
[데이터 분석 부트캠프] - 전액 환불/ 직장인 전용 파트타임 부트캠프 홍보 (5) | 2024.10.20 |
[데이터 사이언티스트] kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자 (4) (8) | 2024.10.13 |
[SSAFY 13기 모집] 마이스터고 졸업자도 SSAFY와 함께해요! (2) | 2024.10.13 |