일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 데이터분석가
- 일본어공부
- matacodem
- 자기계발
- 데이터분석
- 파이썬
- 오블완
- 머신러닝
- metacode
- JLPT
- 개발자부트캠프
- 자기개발
- 데이터엔지니어
- ssafy 13기
- 데이터사이언티스트
- metacodem
- streamlit
- 독학
- 데이터 사이언티스트
- 티스토리챌린지
- DS
- ML
- 부트캠프
- 메타코드m
- 데이터 엔지니어
- 메타코드
- 데이터전문가
- 싸피
- SSAFY
- 데이터애널리스트
- Today
- Total
목록데이터 엔지니어 (2)
아카이브

데이터를 추출할 때 우리는 도서관에 가는 상황과 유사하다.책장에 너무 많은 책들이 있고 우리는 이걸 일일히 책장에 도달해 책을 찾고 꺼내온다.이 과정에서 속도 개선이 필요하기에 메모리(간이 책장)을 만들어 시간을 줄이고자 하는 것이 Aparche Spark되시겠다!아파치 스파크란? 인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크 기존 Hadopp MapReduce의 문제점부하가 심하고 속도가 느림 - 처리과정마다 HDD 거쳐 공유MapReduce 프로그래밍은 어렵고 복잡Spark 적용 환경환경: Hadoop, Mesos, stand alone, cloud Data sources: HDFS, Cassandra, Hbase, Hive, Tachyon, any Hadoo..

데이터를 저장하고 계산할 수 있는 능력 → 메모리에 달려 있다.데이터의 용량이 커지면서 메모리로는 감당이 안되는 시점이 옴 →감당할 수 있는 환경이 필요함단순히 저장만이 아니라 불러오는 CPU의 능력도 맞춰서 데이터가 저장되고 불러와야함데이터 처리 능력 향샹 방안멀티 클러스터 : 처리하는 컴퓨터를 늘리자snow, Rmpi : 복수 컴퓨터간 통신이 이뤄질 수 있는 소프트웨어 R mpi는 R에서 쓸 수 있는 mpi임다른 컴퓨터가 얼마만큼의 일을 하고 있는지 서로 통신하려고 만들어진 것임multicore : 하나의 컴퓨터 내에서 처리할 수 있는 공간을 만들자 ex) duel core 등처리 중요성을 두는 방식. 동시에는 진행되지만 cpu 할당이 다름parallel : snow + multicore 💡하둡은 ..