아카이브

[Apache Spark] 스파크에 대해 알아보자 + 파이썬 스파크 설치 [임시] 본문

데이터 엔지니어

[Apache Spark] 스파크에 대해 알아보자 + 파이썬 스파크 설치 [임시]

머루아빠승우 2024. 11. 19. 16:09

데이터를 추출할 때 우리는 도서관에 가는 상황과 유사하다.

책장에 너무 많은 책들이 있고 우리는 이걸 일일히 책장에 도달해 책을 찾고 꺼내온다.

이 과정에서 속도 개선이 필요하기에 메모리(간이 책장)을 만들어 시간을 줄이고자 하는 것이 Aparche Spark되시겠다!

아파치 스파크란? 인메모리 기반의 대용량 데이터 고속 처리 엔진으로 범용 분산 클러스터 컴퓨팅 프레임워크

 

기존 Hadopp MapReduce의 문제점

  • 부하가 심하고 속도가 느림 - 처리과정마다 HDD 거쳐 공유
  • MapReduce 프로그래밍은 어렵고 복잡

Spark 적용 환경

  • 환경: Hadoop, Mesos, stand alone, cloud 
  • Data sources: HDFS, Cassandra, Hbase, Hive, Tachyon, any Hadoop dat

Spark 설치 해봅시다.

https://spark.apache.org/downloads.html

 

Downloads | Apache Spark

Download Apache Spark™ Choose a Spark release: Choose a package type: Download Spark: Verify this release using the and project release KEYS by following these procedures. Note that Spark 3 is pre-built with Scala 2.12 in general and Spark 3.2+ provides

spark.apache.org

해당 링크에서 다운받으실 수 있어요

1. 버전 설정

2. 패키지 타입 그대로 했습니다.

3. tgz 다운 받아요 오래걸립니다.

경로 설정에 관해서는 다음에.. 자세히 다뤄볼게요.

 

하둡 - 스파크 - R 연동이 가능한데

저는 파이썬에서 스파크를 실행하는 것을 목표로

한 번 해볼게요.


1. 파이스파크 설치 PyPi

pip install pyspark

패키지 설치하는데 4분정도 걸렸어요.

 

2. 설치 잘 됐는지 확인

import os
import sys
try:
    from pyspark import SparkContext
    from pyspark import SparkConf
    print("Successfully imported Spark Modules")
except ImportError as e:
    print("Can not import Spark Modules",e)
    sys.exit(1)

해당 코드 실행해주시고

요래뜨면 잘 된겁니다!

 

 

'데이터 엔지니어' 카테고리의 다른 글

[Hadoop] 하둡에 대해 알아보자  (3) 2024.11.07