아카이브

[데이터 사이언티스트] kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자 (7) 본문

공모전 및 대외활동/앰배서더

[데이터 사이언티스트] kaggle 데이터를 활용한 실전 머신러닝 | IT기업 Data Scientist 현직자 (7)

머루아빠승우 2024. 10. 28. 23:46

 kaggle 데이터를 활용한 실전 머신러닝 7차시입니다.

데이터분석과 더불어 개인의 포토폴리오가

 요즘 취업시장 작성이 중요해졌지요.

남다른 경쟁력을 갖기 위해선

학위, 프로젝트 경험이 있어야 좋은 소식을

기대해 볼 수 있을 것으로 보입니다.

메타코드는 데이터에 관한 AI / ML/ 데이터 분석 역량을 키워볼 수 있어요.

최근에는 학습 말고도 커뮤니티 게시판에서

유익한 채용공고, 공모전, 기업분석 정보도 공유되고 있습니다.

다양한 커뮤니티 활동에서 유익한 정보와

데이터 사이언티스트에 관심이 있으시다면

제 게시글을 보시고 메타코드에서 함께 성장해보심 어떨까요?


캐글 데이터를 활용한 실전 머신러닝

이번 시간에는 Deep Learning with Pytorch이 메인 주제입니다.

파이토치를 왜 이용해야하는가? 언제 써야하는가 궁금하신 분들이 계실텐데요.

간단한 모델을 개발 할 때는 리소스가 가볍게 앙상블 모델을 사용하지만


- MLP Regressor 보다 복잡한 구조 테스트 진행하고자 할 때!!
- 예를 들어, Convolutional Neural Networks (CNN), Recurrent Neural Networks (RNN),
- Long Short-Term Memory Networks (LSTM), Gated Recurrent Unit (GRU), Transformer Models

와 같은 문제의 경우 접근할 때 사용되는 파이토치입니다.

 

해당 어려워보이는 전문 용어는 ML을 본격적으로 학습하고자 할 때 따로 정리해보도록 하겠습니다.

이제 얼마 안남았어요!

으하하 한 주차 강의가 끝나면 해당 강의도 수강입니다.


학습 과정

이번 주차는 파이토치를 이용해서 데이터 프로세싱을 진행할 겁니다.

말은 거창하지만 알맹이는 저희가 딥러닝과 같은 AI 분야를 공부할 때

고급 수학을 사용해야하기에 사용하는 라이브러리에요.

결국에 아무리 피처 엔지니어링을 진행하더라도.

결과적으로 알고리즘을 조금 더 공부하려면 파이토치를 통한

분석이 필요하다고 하더군요. 공부해야할 내용이 보입니다.

데이터의 형태의 경우 차원에 따라 그 이름이 다른데요.

. 벡터를 1차원 텐서, 행렬을 2차원 텐서, 행렬이 여러 개 모이면 이때부터 3차원 텐서라고 합니다.

이 텐서 등의 다양한 수학 함수가 포함되어져 있으며 Numpy와 유사한 구조를 가지는 것이

바로 파이토치입니다!


기본적으로 사용할 모듈과 라이브러리를 소개해주셨으나..

파이토치는 본격적으로 한 번 공부를 해봐야할 것 같더군요.

실제로 파이토치를 응용해서 예측 모델을 이용하는 코드를 강사님과 작성해보았는데요.

에포치, 텐서 사이즈를 조정하고 회귀 모델을 구현하기위해 nn.을 사용하고..

 

아주 복잡하기 그지없습니다. 그래도 일단 강사님께서 진행하신 시각화 결과를 보고

어떤 인사이트를 얻으면 되는지 집중해보고자 공부했어요.

일반적으로 예측했던 모델을 보였거든요. 해당 방식으로도 충분히 예측값이

잘나왔었는데 실제로 파이토치로 딥러닝을 진행했을 때 결과가 어떨지 궁금했어요.

파이토치로 예측값을 낸 것과 품목별로 실제 값을 시각화했을 때 나온 성능이에요.

그닥 좋은 결과가 보이지 않는 이유걸 보실 수 있어요.

뭔가 선이 실제를 많이 따르지 않는데 그 이유는 강사님께서도, 해당 프로젝트는

딥러닝을 통해서 예측하는 모델을 생성하기 어렵다는 결론을 내면 된다고 하시더라구요.

굉장히 유익한 정보이지 않나요?

파이토치에 관한 키노트 정리

마지막으로 본 학습의 인사이트를 정리하고 마치겠습니다.

 

- Tabular dataset 에 딥러닝은 적절하지 않은 경우가 많음
- 딥러닝은 데이터양이 엄청나게 많고 비정형(이미지, 텍스트 등) 데이터에서 높은 성능을 주로 보임
- 딥러닝은 연산량이 많고 시간이 오래걸리며, 유지보수가 어렵고 GPU장비가 필수 등 제약점이

 많아 실전 예측 문제에서 잘 사용하지 않음
- 딥러닝은 LLM, 이미지 등 GenAI 모델을 개발하는 경우 등 특정 TASK에 적용하는 추세

 

 

*본 게시글은 메타코드 앰배서더 활동으로 작성된 게시글입니다.