'데이터 엔지니어' 카테고리의 글 목록

Notice

📢공사중📢

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록데이터 엔지니어 (2)

아카이브

[Apache Spark] 스파크에 대해 알아보자 + 파이썬 스파크 설치 [임시]

데이터를 추출할 때 우리는 도서관에 가는 상황과 유사하다.책장에 너무 많은 책들이 있고 우리는 이걸 일일히 책장에 도달해 책을 찾고 꺼내온다.이 과정에서 속도 개선이 필요하기에 메모리(간이 책장)을 만들어 시간을 줄이고자 하는 것이 Aparche Spark되시겠다!아파치 스파크란? 인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크 기존 Hadopp MapReduce의 문제점부하가 심하고 속도가 느림 - 처리과정마다 HDD 거쳐 공유MapReduce 프로그래밍은 어렵고 복잡Spark 적용 환경환경: Hadoop, Mesos, stand alone, cloud Data sources: HDFS, Cassandra, Hbase, Hive, Tachyon, any Hadoo..

데이터 엔지니어 2024. 11. 19. 16:09

[Hadoop] 하둡에 대해 알아보자

데이터를 저장하고 계산할 수 있는 능력 → 메모리에 달려 있다.데이터의 용량이 커지면서 메모리로는 감당이 안되는 시점이 옴 →감당할 수 있는 환경이 필요함단순히 저장만이 아니라 불러오는 CPU의 능력도 맞춰서 데이터가 저장되고 불러와야함데이터 처리 능력 향샹 방안멀티 클러스터 : 처리하는 컴퓨터를 늘리자snow, Rmpi : 복수 컴퓨터간 통신이 이뤄질 수 있는 소프트웨어 R mpi는 R에서 쓸 수 있는 mpi임다른 컴퓨터가 얼마만큼의 일을 하고 있는지 서로 통신하려고 만들어진 것임multicore : 하나의 컴퓨터 내에서 처리할 수 있는 공간을 만들자 ex) duel core 등처리 중요성을 두는 방식. 동시에는 진행되지만 cpu 할당이 다름parallel : snow + multicore 💡하둡은 ..

데이터 엔지니어 2024. 11. 7. 11:03

이전 Prev 1 Next 다음

목록데이터 엔지니어 (2)

아카이브

티스토리툴바