Apache Spark: 인메모리 데이터 처리 엔진 활용 🚀

빅데이터 시대에 접어들면서 대용량 데이터를 빠르고 효율적으로 처리할 수 있는 기술의 중요성이 날로 커지고 있습니다. 이러한 요구에 부응하여 등장한 것이 바로 Apache Spark입니다. Spark는 인메모리 기반의 데이터 처리 엔진으로, 기존의 Hadoop MapReduce보다 훨씬 빠른 속도로 데이터를 분석하고 처리할 수 있는 강력한 도구입니다.

이 글에서는 Apache Spark의 기본 개념부터 실제 활용 방법까지 상세히 다루어보겠습니다. 데이터 엔지니어링과 분석에 관심 있는 분들께 유용한 정보가 될 것입니다. 특히 재능넷과 같은 플랫폼에서 데이터 관련 서비스를 제공하거나 받고자 하는 분들에게 큰 도움이 될 것입니다.

💡 알아두세요: Apache Spark는 단순한 데이터 처리 도구를 넘어 머신러닝, 그래프 처리, 스트리밍 데이터 처리 등 다양한 분야에서 활용되고 있습니다. 이 기술을 익히면 빅데이터 생태계에서 큰 경쟁력을 가질 수 있습니다!

1. Apache Spark 소개 🌟

Apache Spark는 2009년 UC 버클리의 AMPLab에서 시작된 오픈소스 프로젝트입니다. 초기에는 Hadoop의 MapReduce를 대체하기 위한 목적으로 개발되었지만, 현재는 그 이상의 기능을 제공하는 종합적인 데이터 처리 플랫폼으로 발전했습니다.

1.1 Spark의 주요 특징

속도: 인메모리 컴퓨팅을 통해 디스크 기반 시스템보다 100배 이상 빠른 처리 속도를 제공합니다.
사용 편의성: Java, Scala, Python, R 등 다양한 프로그래밍 언어를 지원합니다.
범용성: 배치 처리, 실시간 스트리밍, 머신러닝, 그래프 처리 등 다양한 작업을 하나의 엔진으로 수행할 수 있습니다.
확장성: 소규모 노트북에서부터 대규모 클러스터까지 다양한 환경에서 실행 가능합니다.

1.2 Spark의 구성 요소

Spark는 다음과 같은 주요 구성 요소로 이루어져 있습니다:

Spark Core: 기본적인 기능을 제공하는 엔진입니다. 작업 스케줄링, 메모리 관리, 장애 복구 등을 담당합니다.
Spark SQL: 구조화된 데이터 처리를 위한 모듈로, SQL 쿼리를 실행할 수 있습니다.
Spark Streaming: 실시간 데이터 스트림을 처리하기 위한 모듈입니다.
MLlib: 머신러닝 알고리즘을 구현한 라이브러리입니다.
GraphX: 그래프 처리와 병렬 그래프 연산을 위한 모듈입니다.

🔔 참고: Spark의 다양한 구성 요소들은 재능넷과 같은 플랫폼에서 데이터 분석, 머신러닝 모델 개발, 실시간 데이터 처리 등 다양한 서비스를 제공하는 데 활용될 수 있습니다.

1.3 Spark vs Hadoop MapReduce

Spark와 Hadoop MapReduce는 모두 빅데이터 처리를 위한 프레임워크지만, 몇 가지 중요한 차이점이 있습니다:

처리 속도: Spark는 인메모리 처리를 통해 MapReduce보다 훨씬 빠른 속도를 제공합니다.
프로그래밍 모델: Spark는 더 유연하고 표현력이 풍부한 프로그래밍 모델을 제공합니다.
실시간 처리: Spark는 실시간 데이터 처리가 가능한 반면, MapReduce는 주로 배치 처리에 사용됩니다.
사용 편의성: Spark는 더 직관적이고 사용하기 쉬운 API를 제공합니다.

2. Spark의 핵심 개념 🧠

Apache Spark를 효과적으로 활용하기 위해서는 몇 가지 핵심 개념을 이해해야 합니다. 이 섹션에서는 Spark의 기본 구조와 주요 개념들을 자세히 살펴보겠습니다.

2.1 RDD (Resilient Distributed Dataset)

RDD는 Spark의 기본적인 데이터 구조입니다. 'Resilient'(탄력적인), 'Distributed'(분산된), 'Dataset'(데이터셋)의 약자로, 다음과 같은 특징을 가집니다:

불변성(Immutability): RDD는 한 번 생성되면 변경할 수 없습니다. 변형이 필요한 경우 새로운 RDD를 생성합니다.
분산 처리(Distributed Processing): 데이터가 클러스터의 여러 노드에 분산되어 저장되고 처리됩니다.
탄력성(Resilience): 노드 실패 시 자동으로 복구가 가능합니다.
지연 평가(Lazy Evaluation): 실제 결과가 필요할 때까지 연산을 미룹니다.

💡 Tip: RDD의 개념을 잘 이해하면 Spark 프로그래밍을 더 효율적으로 할 수 있습니다. 특히 재능넷과 같은 플랫폼에서 데이터 분석 서비스를 제공할 때, RDD를 활용하면 대용량 데이터를 효과적으로 처리할 수 있습니다.

2.2 Transformations와 Actions

Spark의 연산은 크게 Transformations와 Actions로 나눌 수 있습니다:

Transformations

기존 RDD에서 새로운 RDD를 생성하는 연산입니다.
지연 평가되며, 실제로 Action이 호출될 때까지 실행되지 않습니다.
예: map(), filter(), flatMap(), groupByKey() 등

Actions

실제 결과를 반환하거나 저장하는 연산입니다.
Action이 호출되면 그 전까지의 모든 Transformations가 실행됩니다.
예: count(), collect(), save(), reduce() 등

2.3 DAG (Directed Acyclic Graph)

DAG는 Spark의 실행 계획을 나타내는 그래프입니다. Transformations와 Actions의 순서를 시각화하여 보여줍니다.

각 노드는 RDD를 나타내며, 엣지는 Transformation을 나타냅니다.
Spark는 DAG를 분석하여 최적의 실행 계획을 수립합니다.
이를 통해 불필요한 셔플링을 줄이고 성능을 최적화합니다.

2.4 Spark Session

Spark 2.0부터 도입된 SparkSession은 Spark 애플리케이션의 진입점 역할을 합니다.

SparkContext, SQLContext, HiveContext 등을 통합한 인터페이스입니다.
데이터를 읽고 쓰는 작업, SQL 쿼리 실행, 설정 관리 등 다양한 기능을 제공합니다.


from pyspark.sql import SparkSession

# SparkSession 생성
spark = SparkSession.builder \
    .appName("MySparkApp") \
    .getOrCreate()

# 데이터 읽기
df = spark.read.csv("data.csv")

# SQL 쿼리 실행
result = spark.sql("SELECT * FROM my_table")

# SparkSession 종료
spark.stop()

🌟 Pro Tip: SparkSession을 효과적으로 활용하면 Spark의 다양한 기능을 손쉽게 사용할 수 있습니다. 재능넷에서 데이터 분석 서비스를 제공할 때, SparkSession을 통해 SQL, 데이터프레임, 머신러닝 등 다양한 작업을 통합적으로 관리할 수 있습니다.

3. Spark의 주요 컴포넌트 🧩

Apache Spark는 다양한 데이터 처리 요구사항을 충족시키기 위해 여러 컴포넌트를 제공합니다. 각 컴포넌트는 특정 유형의 데이터 처리에 특화되어 있어, 사용자는 필요에 따라 적절한 컴포넌트를 선택하여 사용할 수 있습니다.

3.1 Spark SQL

Spark SQL은 구조화된 데이터 처리를 위한 Spark의 모듈입니다. SQL 쿼리를 사용하여 데이터를 분석할 수 있으며, 다음과 같은 특징을 가집니다:

DataFrame API: 구조화된 데이터를 다루기 위한 고수준 API를 제공합니다.
SQL 지원: 표준 SQL을 사용하여 데이터를 쿼리할 수 있습니다.
다양한 데이터 소스: Parquet, JSON, CSV 등 다양한 형식의 데이터를 읽고 쓸 수 있습니다.
최적화 엔진: Catalyst 옵티마이저를 통해 쿼리 실행 계획을 최적화합니다.


from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("SparkSQLExample").getOrCreate()

# CSV 파일에서 DataFrame 생성
df = spark.read.csv("data.csv", header=True, inferSchema=True)

# DataFrame 등록
df.createOrReplaceTempView("my_table")

# SQL 쿼리 실행
result = spark.sql("SELECT * FROM my_table WHERE age &gt; 30")
result.show()

⚠️ 주의: Spark SQL을 사용할 때는 데이터의 스키마를 정확히 파악하고 있어야 합니다. 잘못된 스키마 추론은 성능 저하나 오류를 일으킬 수 있습니다.

3.2 Spark Streaming

Spark Streaming은 실시간 데이터 스트림을 처리하기 위한 확장 모듈입니다. 다음과 같은 특징을 가집니다:

마이크로 배치 처리: 실시간 데이터를 작은 배치로 나누어 처리합니다.
다양한 소스 지원: Kafka, Flume, Kinesis 등 다양한 스트리밍 소스를 지원합니다.
고급 API: DStream (Discretized Stream) API를 통해 스트리밍 데이터를 쉽게 처리할 수 있습니다.
장애 복구: 체크포인팅을 통해 장애 발생 시 복구가 가능합니다.


from pyspark import SparkContext
from pyspark.streaming import StreamingContext

sc = SparkContext("local[2]", "StreamingExample")
ssc = StreamingContext(sc, 1)  # 1초 간격의 배치

lines = ssc.socketTextStream("localhost", 9999)
words = lines.flatMap(lambda line: line.split(" "))
pairs = words.map(lambda word: (word, 1))
word_counts = pairs.reduceByKey(lambda x, y: x + y)

word_counts.pprint()

ssc.start()
ssc.awaitTermination()

3.3 MLlib (Machine Learning Library)

MLlib은 Spark의 분산 머신러닝 라이브러리입니다. 대규모 데이터셋에 대해 확장 가능한 머신러닝 알고리즘을 제공합니다:

다양한 알고리즘: 분류, 회귀, 클러스터링, 협업 필터링 등 다양한 알고리즘을 지원합니다.
파이프라인 API: 머신러닝 워크플로우를 쉽게 구성할 수 있습니다.
특성 추출 및 변환: 데이터 전처리를 위한 다양한 도구를 제공합니다.
분산 처리: 대규모 데이터셋에 대해 병렬 처리가 가능합니다.


from pyspark.ml import Pipeline
from pyspark.ml.classification import LogisticRegression
from pyspark.ml.feature import HashingTF, Tokenizer

# 데이터 준비
training = spark.createDataFrame([
    (0, "a b c d e spark", 1.0),
    (1, "b d", 0.0),
    (2, "spark f g h", 1.0),
    (3, "hadoop mapreduce", 0.0)
], ["id", "text", "label"])

# 파이프라인 구성
tokenizer = Tokenizer(inputCol="text", outputCol="words")
hashingTF = HashingTF(inputCol="words", outputCol="features")
lr = LogisticRegression(maxIter=10, regParam=0.001)
pipeline = Pipeline(stages=[tokenizer, hashingTF, lr])

# 모델 학습
model = pipeline.fit(training)

# 예측
test = spark.createDataFrame([
    (4, "spark i j k"),
    (5, "l m n"),
    (6, "spark hadoop spark"),
    (7, "apache hadoop")
], ["id", "text"])

prediction = model.transform(test)
prediction.select("id", "text", "probability", "prediction").show()

💡 Tip: MLlib을 활용하면 재능넷과 같은 플랫폼에서 사용자 행동 예측, 추천 시스템 구축 등 다양한 머신러닝 기반 서비스를 개발할 수 있습니다.

3.4 GraphX

GraphX는 그래프 처리와 그래프 병렬 연산을 위한 Spark의 컴포넌트입니다:

그래프 추상화: 방향성 다중 그래프를 표현할 수 있습니다.
그래프 알고리즘: PageRank, 연결 요소 찾기, 최단 경로 등의 알고리즘을 제공합니다.
그래프 생성 및 변환: 다양한 소스에서 그래프를 생성하고 변환할 수 있습니다.
RDD와의 통합: 그래프 데이터를 RDD로 변환하여 처리할 수 있습니다.


from pyspark.sql import SparkSession
from graphframes import GraphFrame

spark = SparkSession.builder.appName("GraphXExample").getOrCreate()

# 정점 데이터 생성
vertices = spark.createDataFrame([
    ("1", "Alice", 34),
    ("2", "Bob", 36),
    ("3", "Charlie", 30),
], ["id", "name", "age"])

# 엣지 데이터 생성
edges = spark.createDataFrame([
    ("1", "2", "friend"),
    ("2", "3", "colleague"),
    ("3", "1", "friend"),
], ["src", "dst", "relationship"])

# 그래프 생성
g = GraphFrame(vertices, edges)

# PageRank 알고리즘 실행
results = g.pageRank(resetProbability=0.15, tol=0.01)
results.vertices.select("id", "pagerank").show()

# 연결 요소 찾기
cc = g.connectedComponents()
cc.select("id", "component").show()

4. Spark 설치 및 환경 설정 🛠️

Apache Spark를 효과적으로 사용하기 위해서는 적절한 설치와 환경 설정이 필요합니다. 이 섹션에서는 Spark를 설치하고 기본적인 환경을 구성하는 방법을 단계별로 살펴보겠습니다.

4.1 Spark 다운로드 및 설치

Java 설치: Spark는 Java 8 이상이 필요합니다. 다음 명령어로 Java 버전을 확인할 수 있습니다:
```
java -version
```
Spark 다운로드 : Apache Spark 공식 웹사이트에서 최신 버전의 Spark를 다운로드합니다.
```
wget https://downloads.apache.org/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz
```
압축 해제: 다운로드한 파일의 압축을 해제합니다.
```
tar -xzf spark-3.2.0-bin-hadoop3.2.tgz
```
환경 변수 설정: .bashrc 또는 .bash_profile 파일에 다음 내용을 추가합니다.
```
export SPARK_HOME=/path/to/spark-3.2.0-bin-hadoop3.2
export PATH=$PATH:$SPARK_HOME/bin
```

💡 Tip: 재능넷과 같은 플랫폼에서 Spark를 활용할 때는 클라우드 환경에서의 설치도 고려해 보세요. AWS EMR, Google Cloud Dataproc 등의 서비스를 이용하면 Spark 클러스터를 쉽게 구축할 수 있습니다.

4.2 PySpark 설치

Python에서 Spark를 사용하기 위해 PySpark를 설치합니다:

pip install pyspark

4.3 Spark 설정

Spark의 주요 설정 파일은 $SPARK_HOME/conf 디렉토리에 있습니다. 주요 설정 파일들은 다음과 같습니다:

spark-defaults.conf: Spark 애플리케이션의 기본 설정을 정의합니다.
spark-env.sh: Spark 환경 변수를 설정합니다.
log4j.properties: 로깅 설정을 관리합니다.

예를 들어, spark-defaults.conf 파일에 다음과 같은 설정을 추가할 수 있습니다:


spark.master                     spark://master:7077
spark.executor.memory            4g
spark.driver.memory              2g
spark.serializer                 org.apache.spark.serializer.KryoSerializer

4.4 Spark 실행 확인

설치가 완료되면 다음 명령어로 Spark 셸을 실행하여 설치를 확인할 수 있습니다:

spark-shell

PySpark의 경우:

pyspark

5. Spark 프로그래밍 기초 💻

이제 Spark의 기본적인 프로그래밍 방법에 대해 알아보겠습니다. 여기서는 PySpark를 사용한 예제를 중심으로 설명하겠습니다.

5.1 SparkSession 생성

모든 Spark 프로그램은 SparkSession 생성으로 시작합니다. SparkSession은 Spark 애플리케이션의 진입점 역할을 합니다.


from pyspark.sql import SparkSession

spark = SparkSession.builder \
    .appName("MySparkApp") \
    .getOrCreate()

5.2 RDD 생성 및 조작

RDD (Resilient Distributed Dataset)는 Spark의 기본적인 데이터 구조입니다.


# 리스트로부터 RDD 생성
rdd = spark.sparkContext.parallelize([1, 2, 3, 4, 5])

# RDD 변환 (Transformation)
squared_rdd = rdd.map(lambda x: x**2)

# RDD 액션 (Action)
result = squared_rdd.collect()
print(result)  # [1, 4, 9, 16, 25]

5.3 DataFrame 사용

DataFrame은 구조화된 데이터를 다루기 위한 고수준 API입니다.


# 데이터 생성
data = [("Alice", 34), ("Bob", 45), ("Charlie", 29)]
df = spark.createDataFrame(data, ["name", "age"])

# DataFrame 조작
df.show()
df.filter(df.age &gt; 30).show()
df.groupBy("age").count().show()

5.4 SQL 쿼리 실행

Spark SQL을 사용하여 SQL 쿼리를 실행할 수 있습니다.


# DataFrame을 임시 뷰로 등록
df.createOrReplaceTempView("people")

# SQL 쿼리 실행
result = spark.sql("SELECT * FROM people WHERE age &gt; 30")
result.show()

5.5 머신러닝 예제 (MLlib 사용)

Spark의 MLlib를 사용하여 간단한 머신러닝 모델을 만들어 보겠습니다.


from pyspark.ml.feature import VectorAssembler
from pyspark.ml.regression import LinearRegression

# 데이터 준비
data = [(1, 2.0), (2, 4.0), (3, 6.0), (4, 8.0), (5, 10.0)]
df = spark.createDataFrame(data, ["x", "y"])

# 특성 벡터 생성
assembler = VectorAssembler(inputCols=["x"], outputCol="features")
df_assembled = assembler.transform(df)

# 모델 학습
lr = LinearRegression(featuresCol="features", labelCol="y")
model = lr.fit(df_assembled)

# 예측
predictions = model.transform(df_assembled)
predictions.show()

⚠️ 주의: 실제 프로덕션 환경에서는 더 큰 데이터셋과 복잡한 모델을 다루게 될 것입니다. 이 예제는 기본 개념을 설명하기 위한 것입니다.

5.6 Spark Streaming 예제

실시간 데이터 처리를 위한 Spark Streaming의 기본 사용법을 알아보겠습니다.


from pyspark.streaming import StreamingContext

# StreamingContext 생성
ssc = StreamingContext(spark.sparkContext, 1)  # 1초 간격의 배치

# 소켓에서 데이터 스트림 생성
lines = ssc.socketTextStream("localhost", 9999)

# 단어 수 세기
words = lines.flatMap(lambda line: line.split(" "))
pairs = words.map(lambda word: (word, 1))
word_counts = pairs.reduceByKey(lambda x, y: x + y)

# 결과 출력
word_counts.pprint()

# 스트리밍 시작
ssc.start()
ssc.awaitTermination()

6. Spark 최적화 및 성능 튜닝 🚀

Spark 애플리케이션의 성능을 최적화하는 것은 매우 중요합니다. 여기서는 Spark 성능 향상을 위한 몇 가지 핵심 전략과 팁을 소개하겠습니다.

6.1 데이터 파티셔닝

적절한 데이터 파티셔닝은 Spark 작업의 성능을 크게 향상시킬 수 있습니다.

파티션 수 조정: spark.sql.shuffle.partitions 설정을 조정하여 셔플 연산의 파티션 수를 제어할 수 있습니다.
파티션 재분배: repartition() 또는 coalesce() 메서드를 사용하여 데이터 분포를 최적화할 수 있습니다.


# 파티션 수 조정
spark.conf.set("spark.sql.shuffle.partitions", 100)

# 데이터 재분배
df_repartitioned = df.repartition(10)

6.2 캐싱 및 영속화

자주 사용되는 데이터셋을 메모리에 캐싱하면 반복적인 연산 속도를 크게 향상시킬 수 있습니다.


# DataFrame 캐싱
df.cache()

# RDD 영속화
rdd.persist(StorageLevel.MEMORY_AND_DISK)

💡 Tip: 캐싱은 메모리 사용량을 증가시키므로, 꼭 필요한 데이터셋만 선별적으로 캐싱하세요.

6.3 브로드캐스트 변수 사용

작은 크기의 룩업 테이블이나 설정 정보를 모든 노드에 효율적으로 전달하기 위해 브로드캐스트 변수를 사용할 수 있습니다.


lookup_table = {"A": 1, "B": 2, "C": 3}
broadcast_lookup = spark.sparkContext.broadcast(lookup_table)

def lookup_value(key):
    return broadcast_lookup.value.get(key, 0)

df_with_lookup = df.withColumn("looked_up_value", lookup_value(df.key))

6.4 UDF 최적화

사용자 정의 함수(UDF)는 편리하지만 성능 저하를 일으킬 수 있습니다. 가능한 경우 내장 함수를 사용하거나 Pandas UDF를 고려해보세요.


from pyspark.sql.functions import pandas_udf
from pyspark.sql.types import IntegerType

@pandas_udf(IntegerType())
def optimized_udf(s: pd.Series) -&gt; pd.Series:
    return s * 2

df_optimized = df.withColumn("doubled", optimized_udf(df.value))

6.5 조인 최적화

대규모 데이터셋 간의 조인 연산은 비용이 많이 듭니다. 다음과 같은 전략을 고려해보세요:

브로드캐스트 조인: 작은 테이블을 큰 테이블과 조인할 때 유용합니다.
버킷팅: 미리 정의된 열을 기준으로 데이터를 버킷으로 구성하여 조인 성능을 향상시킵니다.


# 브로드캐스트 조인
from pyspark.sql.functions import broadcast

joined_df = df1.join(broadcast(df2), "key")

# 버킷팅
df1.write.bucketBy(8, "key").sortBy("key").saveAsTable("bucketed_table")

6.6 메모리 관리

Spark 작업의 메모리 사용량을 모니터링하고 최적화하는 것이 중요합니다.

메모리 할당: spark.executor.memory 및 spark.driver.memory 설정을 조정하여 메모리 할당을 최적화합니다.
가비지 컬렉션: spark.executor.extraJavaOptions 설정을 통해 JVM 가비지 컬렉션 옵션을 조정할 수 있습니다.


spark.conf.set("spark.executor.memory", "4g")
spark.conf.set("spark.driver.memory", "2g")
spark.conf.set("spark.executor.extraJavaOptions", "-XX:+UseG1GC")

7. Spark 실전 활용 사례 🌟

이제 Apache Spark를 실제 비즈니스 시나리오에 적용하는 방법을 살펴보겠습니다. 재능넷과 같은 플랫폼에서 활용할 수 있는 다양한 사례를 소개합니다.

7.1 대규모 로그 분석

웹사이트 로그를 분석하여 사용자 행동 패턴을 파악하는 예제입니다.


from pyspark.sql.functions import col, hour

# 로그 데이터 로드
logs = spark.read.json("logs/*.json")

# 시간대별 페이지뷰 분석
hourly_pageviews = logs.groupBy(hour("timestamp").alias("hour")) \
    .agg({"page": "count"}) \
    .orderBy("hour")

hourly_pageviews.show()

7.2 실시간 추천 시스템

사용자의 실시간 활동을 기반으로 콘텐츠를 추천하는 시스템을 구축합니다.


from pyspark.ml.recommendation import ALS
from pyspark.sql.functions import col

# 사용자-아이템 상호작용 데이터 로드
interactions = spark.read.parquet("user_interactions.parquet")

# ALS 모델 학습
als = ALS(userCol="user_id", itemCol="item_id", ratingCol="rating", coldStartStrategy="drop")
model = als.fit(interactions)

# 실시간 추천
def get_recommendations(user_id, top_n=10):
    user_items = interactions.filter(col("user_id") == user_id).select("item_id")
    recommendations = model.recommendForUserSubset(user_items, top_n)
    return recommendations

# 사용자 1234에 대한 추천
recommendations = get_recommendations(1234)
recommendations.show()

7.3 이상 거래 탐지

금융 거래 데이터에서 이상한 패턴을 실시간으로 탐지하는 시스템을 구축합니다.


from pyspark.sql.functions import window
from pyspark.ml.feature import VectorAssembler
from pyspark.ml.clustering import KMeans

# 스트리밍 데이터 소스 설정
transactions = spark \
    .readStream \
    .format("kafka") \
    .option("kafka.bootstrap.servers", "localhost:9092") \
    .option("subscribe", "transactions") \
    .load()

# 특성 벡터 생성
assembler = VectorAssembler(inputCols=["amount", "location_id"], outputCol="features")
transactions_vectorized = assembler.transform(transactions)

# K-means 모델 학습 (오프라인에서 미리 학습된 모델 사용)
kmeans = KMeans.load("kmeans_model")

# 이상 거래 탐지
def detect_anomalies(df, epoch_id):
    predictions = kmeans.transform(df)
    anomalies = predictions.filter(predictions.prediction == 4)  # 클러스터 4를 이상으로 가정
    anomalies.write.save("anomalies")  # 이상 거래 저장

# 스트리밍 쿼리 실행
query = transactions_vectorized \
    .writeStream \
    .foreachBatch(detect_anomalies) \
    .start()

query.awaitTermination()

7.4 대규모 텍스트 분석

재능넷 플랫폼의 리뷰 데이터를 분석하여 감성 분석을 수행합니다.


from pyspark.ml.feature import Tokenizer, HashingTF, IDF
from pyspark.ml.classification import LogisticRegression
from pyspark.ml import Pipeline

# 리뷰 데이터 로드
reviews = spark.read.parquet("reviews.parquet")

# 텍스트 처리 및 특성 추출 파이프라인 구성
tokenizer = Tokenizer(inputCol="text", outputCol="words")
hashingTF = HashingTF(inputCol="words", outputCol="rawFeatures", numFeatures=10000)
idf = IDF(inputCol="rawFeatures", outputCol="features")
lr = LogisticRegression(maxIter=10, regParam=0.001)

pipeline = Pipeline(stages=[tokenizer, hashingTF, idf, lr])

# 모델 학습
model = pipeline.fit(reviews)

# 새로운 리뷰에 대한 감성 예측
new_reviews = spark.createDataFrame([
    (0, "This service was amazing!"),
    (1, "I had a terrible experience.")
], ["id", "text"])

predictions = model.transform(new_reviews)
predictions.select("text", "prediction").show()

💡 Tip: 이러한 분석 결과를 재능넷 플랫폼에 통합하면 사용자 경험을 크게 향상시킬 수 있습니다. 예를 들어, 개인화된 추천, 사기 거래 방지, 서비스 품질 모니터링 등에 활용할 수 있습니다.