일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 메타코드m
- 데이터 사이언티스트
- ssafy 13기
- SSAFY
- DS
- 데이터분석
- 부트캠프
- 데이터사이언티스트
- ML
- 싸피
- 오블완
- streamlit
- 데이터분석가
- 데이터애널리스트
- 일본어공부
- JLPT
- 개발자부트캠프
- matacodem
- 파이썬
- 자기개발
- 데이터 엔지니어
- metacodem
- 티스토리챌린지
- 머신러닝
- 독학
- metacode
- 데이터전문가
- 자기계발
- 메타코드
- 데이터엔지니어
- Today
- Total
목록오블완 (3)
아카이브

데이터를 추출할 때 우리는 도서관에 가는 상황과 유사하다.책장에 너무 많은 책들이 있고 우리는 이걸 일일히 책장에 도달해 책을 찾고 꺼내온다.이 과정에서 속도 개선이 필요하기에 메모리(간이 책장)을 만들어 시간을 줄이고자 하는 것이 Aparche Spark되시겠다!아파치 스파크란? 인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크 기존 Hadopp MapReduce의 문제점부하가 심하고 속도가 느림 - 처리과정마다 HDD 거쳐 공유MapReduce 프로그래밍은 어렵고 복잡Spark 적용 환경환경: Hadoop, Mesos, stand alone, cloud Data sources: HDFS, Cassandra, Hbase, Hive, Tachyon, any Hadoo..
import numpy as npimport matplotlib.pyplot as pltfrom sklearn import datasetsfrom sklearn.model_selection import train_test_splitfrom sklearn.svm import SVCfrom sklearn.metrics import classification_report, accuracy_score# 데이터 로드iris = datasets.load_iris()X = iris.data[:, :2] # 두 개의 특성만 사용하여 시각화 가능하도록y = iris.target# 학습 및 테스트 데이터 분리X_train, X_test, y_train, y_test = train_test_split(X, y, test_..

데이터를 저장하고 계산할 수 있는 능력 → 메모리에 달려 있다.데이터의 용량이 커지면서 메모리로는 감당이 안되는 시점이 옴 →감당할 수 있는 환경이 필요함단순히 저장만이 아니라 불러오는 CPU의 능력도 맞춰서 데이터가 저장되고 불러와야함데이터 처리 능력 향샹 방안멀티 클러스터 : 처리하는 컴퓨터를 늘리자snow, Rmpi : 복수 컴퓨터간 통신이 이뤄질 수 있는 소프트웨어 R mpi는 R에서 쓸 수 있는 mpi임다른 컴퓨터가 얼마만큼의 일을 하고 있는지 서로 통신하려고 만들어진 것임multicore : 하나의 컴퓨터 내에서 처리할 수 있는 공간을 만들자 ex) duel core 등처리 중요성을 두는 방식. 동시에는 진행되지만 cpu 할당이 다름parallel : snow + multicore 💡하둡은 ..