[데이터 사이언티스트] kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자 (3)
안녕하세요!!
kaggle 데이터를 활용한 실전 머신러닝
벌써 3차시입니다.
실무에 강한 데이터 사이언티스트로 성장하기 위해선
내가 속한 도메인의 지식을 ML에 활용할 수 있는 능력을 확보해야한다고 생각합니다.
인사이트를 통해 의사결정을 내리기 위해선,
근거가 중요합니다.
그렇기에,
비즈니스적인 인사이트를 맛볼 수 있는 프로젝트를
다양하게 해봐야한다고 생각해요.
그렇게 수강하게 된 강의가 해당 강의입니다.

비단, 저만의 생각이 아니라고 생각해요!
데이터 직군을 희망하는 분들에게 어떤 공부와 프로젝트가 필요할지
저의 게시글과 METACODE와 함께 알아가보면 좋을 것 같습니다.😁
kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자
metacodes.co.kr
커리큘러 소개

현재 저는 1주차강의는 모두 수강하여
해당 후기를 기록해두었어요.
기본적인 EDA와 데이터셋 설정
그리고 환경 설정에 관심 있는 분들은
제 블로그 글을 확인하시면 좋을 것 같습니다!
[데이터사이언티스트] kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자 (1)
안녕하세요. 메타코드 앰배서더 최승우입니다.오늘도 지난 강의에 이어, 데이터 사이언티스트 & 데이터 애널리스트로 성장하기 위해제가 직접 학습한 내용을 소개해드리고자 합니다~ 과거에
meorudady.tistory.com
[데이터 사이언티스트] kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자 (2)
안녕하쎄요~오늘도 찾아온 공부의 시간입니다. 데이터 사이언티스트로 성장하기 위해 또 다시 달려가보고자 합니다.요즘 공부하면서 느낀 점은 데이터 분석에는 정답이 없다 입니다.ㅎㅎ 실제
meorudady.tistory.com
모델링 개요 차시
이번 모델링 개요 2차시부터는 시계열 데이터인 데이터셋에 맞춰
ML(머신러닝)을 실행하기 위한 전초 과정을 준비합니다.
해당 데이터셋은 아래 이미지와 같아요!
저희 목표는 월별/ 일별 과 같은 시기에 따른 품목별 수요량을 예측하는 것입니다!


머신러닝으로 학습을 위해선 학습 데이터와 평가 데이터를 나눠야하지요.
실제로 데이터를 전처리하는 과정은 이 머신 러닝을 위해서라고 해도
과언이 아니거든요. 실제로 정확한 모델 학습을 위해 시계열, 정형, 텍스트 데이터를
케이스에 맞춰서 분석해야합니다.

이번 데이터의 경우 시계열 데이터이기에
공휴일, 대체공휴일, 주말에 경우 예측 소비량을 0으로 할당해야해요.
공휴일에는 마트 문이 닫으니까요 ㅎㅎ
뿐만아니라 이런 현실적인 요인을 고려해야하는 것이 필요합니다.

이번에 사용한 예측 모델은 PROPHET입니다.
아래 특징을 가지고 있어 시계열 데이터 모델을 다룰 때 사용됩니다
- 페이스북에서 개발한 시계열 기반 예측 알고리즘
- 시계열 예측모델 중에 정확도가 높은 편으로 유명. 다양한 파라메터 제공
- 날짜별 공휴일 정보, 시즈널리티 등 다양한 feature를 추가할수 있어 시계열 예측 모델의 단점을 일부 개선
시계열 예측 패키지 Prophet 소개
Prophet을 이용하여 시계열 데이터를 예측하는 방법에 대해 소개합니다.
hyperconnect.github.io

해당 코드를 실행시켜 학습데이터를 학습시키면서
모델 평가지표 중 하나인 MdAPE (Median Absoulte Percentage Error)를 사용해 평가해주었습니다.
MAPE는 아래와 같은 특징이 있어 쉽게 의미 확인 가능한 지표에요.
- 실제값 대비 절대값 오차의 비율로 오차율을 구한후 1에서 빼서 정확도를 표현
- 0~1 사이의 값을 가지므로 스케일에 영향받지 않아 비교가 용이
- 단 실제값이 너무 작을 경우(분모) 수치 변동성이 큼
해당 지표로 확인해보면서 실제 모델의 학습 성능을 평가해주었어요.
점차 현실적인 부분을 반영해서 피처 엔지니어링을 통해 점차
성능을 올려갔습니다!
강사님이 설명해주시는 내용을 따라가니 유의미하게 반영할만한
인사이트가 떠오르더라구요.
유익한 시간이었습니다.
마지막으로 노트한 코드를 공유합니다.

본 게시글은 메타코드 앰배서더로 활동하며 작성한 글입니다.