머신러닝: 추천 시스템 - 협업 필터링 가이드

Notice

Recent Posts

Recent Comments

Link

« 2026/04 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30

Tags more

Archives

Today

Total

관리 메뉴

move84

머신러닝: 추천 시스템 - 협업 필터링 가이드 본문

머신러닝

머신러닝: 추천 시스템 - 협업 필터링 가이드

move84 2025. 3. 22. 15:45

💡 서론: 추천 시스템의 세계로

추천 시스템 (Recommendation System)은 오늘날 우리 일상생활에서 떼려야 뗄 수 없는 존재가 되었다. 넷플릭스 (Netflix)에서 영화를 추천받고, 아마존 (Amazon)에서 상품을 발견하고, 유튜브 (YouTube)에서 새로운 영상을 접하는 모든 순간, 강력한 추천 시스템이 우리 뒤에서 작동하고 있다. 이러한 시스템은 사용자 (User)의 선호도를 파악하여 개별 맞춤형 콘텐츠 (Content)를 제공함으로써 사용자 경험을 향상시키고, 플랫폼의 참여도를 높이는 데 기여한다. 이 글에서는 추천 시스템의 핵심 기술 중 하나인 협업 필터링 (Collaborative Filtering)에 대해 자세히 알아보겠다.

🤝 협업 필터링이란 무엇인가?

협업 필터링 (Collaborative Filtering)은 사용자들의 행동 패턴 (Behavior Pattern)을 기반으로 사용자의 선호도를 예측하는 기술이다. 즉, '비슷한' 사용자들이 '좋아하는' 항목을 '나'에게 추천하는 방식이다. 이는 크게 두 가지 접근 방식으로 나뉜다.

사용자 기반 협업 필터링 (User-based Collaborative Filtering): 나와 유사한 취향을 가진 사용자를 찾아서, 그들이 선호하는 항목을 추천한다. 예를 들어, A와 B가 특정 영화들을 비슷하게 좋아한다면, A가 아직 보지 않은 B가 좋아하는 영화를 A에게 추천할 수 있다.
항목 기반 협업 필터링 (Item-based Collaborative Filtering): 특정 항목과 유사한 항목을 찾아서 추천한다. 예를 들어, '아바타' 영화를 좋아하는 사용자는 '아바타 2'와 같은 유사한 영화를 추천받을 수 있다.

🔍 사용자 기반 협업 필터링: 자세히 들여다보기

사용자 기반 협업 필터링은 다음과 같은 단계로 진행된다.

사용자 간 유사도 계산 (Similarity Calculation): 각 사용자 간의 '유사도'를 측정한다. 이 유사도는 사용자들의 아이템 (Item) 선호도 (Rating)를 바탕으로 계산된다. 일반적으로, '코사인 유사도 (Cosine Similarity)'나 '피어슨 상관 계수 (Pearson Correlation Coefficient)'와 같은 지표가 사용된다.
최근접 이웃 선택 (Nearest Neighbor Selection): 유사도가 높은, 즉 나와 취향이 비슷한 사용자를 선택한다. 이웃의 수를 정하는 것은 시스템의 성능에 영향을 미치는 중요한 요소이다.
예측 (Prediction): 선택된 이웃들의 선호도를 기반으로, 아직 내가 평가하지 않은 항목에 대한 나의 선호도를 예측한다.
추천 (Recommendation): 예측된 선호도가 높은 항목을 추천한다.

💻 코드 예제 (Python)

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 사용자-항목 평점 행렬 (User-Item Rating Matrix)
ratings = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [0, 0, 0, 4],
    [0, 1, 5, 5]
])

# 사용자 간 코사인 유사도 계산
user_similarity = cosine_similarity(ratings)

# 특정 사용자와 가장 유사한 사용자 찾기 (예: 사용자 0)
target_user = 0
similar_users = user_similarity[target_user].argsort()[::-1]
similar_users = similar_users[1:3] # 가장 유사한 사용자 2명

# 예측
predicted_ratings = ratings.copy().astype(float)
for item in range(ratings.shape[1]):
    if ratings[target_user, item] == 0:
        weighted_sum = 0
        similarity_sum = 0
        for user in similar_users:
            if ratings[user, item] > 0:
                weighted_sum += user_similarity[target_user, user] * ratings[user, item]
                similarity_sum += user_similarity[target_user, user]
        if similarity_sum > 0:
            predicted_ratings[target_user, item] = weighted_sum / similarity_sum

print("예측된 평점:", predicted_ratings[target_user])

위 코드에서 ratings는 사용자-항목 평점 행렬을 나타낸다. 각 행은 사용자를, 각 열은 항목을 의미하며, 값은 사용자가 해당 항목에 부여한 평점을 나타낸다 (0은 평점을 부여하지 않음을 의미). 코사인 유사도를 사용하여 사용자 간의 유사도를 계산하고, 특정 사용자와 가장 유사한 사용자를 찾은 후, 그들의 평점을 기반으로 예측을 수행한다.

💡 항목 기반 협업 필터링: 원리 탐구

항목 기반 협업 필터링은 다음과 같은 단계를 따른다.

항목 간 유사도 계산: 각 항목 간의 '유사도'를 측정한다. 이는 사용자들이 특정 항목을 함께 평가하는 경향을 분석하여 이루어진다. '코사인 유사도'가 주로 사용된다.
유사한 항목 선택: 특정 항목과 유사도가 높은 항목들을 선택한다.
예측 및 추천: 사용자가 이미 선호하는 항목과 유사한 항목을 추천한다. 예를 들어, 사용자가 '아바타'를 좋아한다면, '아바타'와 유사한 다른 영화들을 추천한다.

💻 코드 예제 (Python)

import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 사용자-항목 평점 행렬 (User-Item Rating Matrix)
ratings = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [0, 0, 0, 4],
    [0, 1, 5, 5]
])

# 항목 간 코사인 유사도 계산
item_similarity = cosine_similarity(ratings.T) # 행렬 전치

# 특정 항목과 가장 유사한 항목 찾기 (예: 항목 0)
target_item = 0
similar_items = item_similarity[target_item].argsort()[::-1]
similar_items = similar_items[1:3] # 가장 유사한 항목 2개

# 예측
predicted_ratings = ratings.copy().astype(float)
for user in range(ratings.shape[0]):
    if ratings[user, target_item] > 0: # 이미 평가한 항목에 대해서만 예측
        for item in range(ratings.shape[1]):
            if ratings[user, item] == 0: # 평점이 없는 항목만 예측
                weighted_sum = 0
                similarity_sum = 0
                for similar_item in similar_items:
                    if ratings[user, similar_item] > 0: # 평가된 항목만 고려
                        weighted_sum += item_similarity[target_item, similar_item] * ratings[user, similar_item]
                        similarity_sum += item_similarity[target_item, similar_item]
                if similarity_sum > 0:
                    predicted_ratings[user, item] = weighted_sum / similarity_sum

print("예측된 평점:", predicted_ratings)

위 코드에서 ratings.T를 사용하여 행렬을 전치하여 항목 간의 유사도를 계산한다. 그 후 특정 항목과 유사한 항목을 찾고, 사용자가 해당 항목을 평가한 경우, 유사한 항목의 평점을 기반으로 다른 항목에 대한 평점을 예측한다.

🤔 협업 필터링의 장단점

협업 필터링은 다음과 같은 장점과 단점을 가진다.

장점:

간단한 구현: 비교적 구현이 용이하고, 직관적인 이해가 가능하다.
콘텐츠에 대한 지식 불필요: 아이템의 내용이나 속성에 대한 사전 지식 없이도 추천을 수행할 수 있다.
다양한 추천 가능: 사용자의 취향을 기반으로 하여, 예상치 못한 항목을 추천할 수 있다.

단점:

콜드 스타트 문제 (Cold Start Problem): 새로운 사용자 또는 항목에 대한 정보가 부족하여 추천 품질이 낮아질 수 있다.
희소성 문제 (Sparsity Problem): 사용자-항목 평점 행렬이 희소할 경우, 유사도 계산의 정확도가 떨어질 수 있다.
확장성 문제 (Scalability Problem): 대규모 데이터셋에서는 계산 비용이 증가하여, 성능 저하가 발생할 수 있다.

🚀 협업 필터링의 발전 방향

협업 필터링은 꾸준히 발전해 왔다. 최근에는 다음과 같은 기술들이 연구되고 있다.

행렬 분해 (Matrix Factorization): 잠재 요인 (Latent Factor)을 사용하여 사용자-항목 간의 관계를 모델링하고, 예측의 정확도를 높인다. SVD (Singular Value Decomposition)와 같은 기법이 사용된다.
딥러닝 (Deep Learning) 기반 협업 필터링: 딥러닝 모델을 활용하여, 복잡한 패턴을 학습하고, 더 정확한 예측을 수행한다.
하이브리드 추천 시스템 (Hybrid Recommendation System): 협업 필터링과 내용 기반 필터링 (Content-based Filtering)을 결합하여, 콜드 스타트 문제를 해결하고, 추천의 다양성을 확보한다.

✨ 결론: 협업 필터링, 추천 시스템의 초석

협업 필터링은 추천 시스템의 기본 원리를 이해하는 데 중요한 기술이다. 사용자들의 행동 패턴을 분석하여 개인 맞춤형 추천을 제공하며, 다양한 응용 분야에서 활용되고 있다. 협업 필터링의 장단점을 이해하고, 발전 방향을 고려하여, 더 나은 추천 시스템을 개발할 수 있다.

📚 핵심 용어 정리

추천 시스템 (Recommendation System): 사용자에게 적합한 콘텐츠를 제안하는 시스템.
협업 필터링 (Collaborative Filtering): 사용자들의 행동 패턴을 기반으로 추천하는 기술.
사용자 기반 협업 필터링 (User-based Collaborative Filtering): 나와 유사한 사용자의 선호도를 기반으로 추천.
항목 기반 협업 필터링 (Item-based Collaborative Filtering): 특정 항목과 유사한 항목을 추천.
유사도 (Similarity): 두 사용자 또는 항목 간의 관계를 나타내는 지표.
코사인 유사도 (Cosine Similarity): 두 벡터 간의 각도를 사용하여 유사도를 계산하는 방법.
콜드 스타트 문제 (Cold Start Problem): 새로운 사용자 또는 항목에 대한 정보 부족으로 인한 문제.
희소성 문제 (Sparsity Problem): 사용자-항목 평점 행렬의 희소성으로 인한 문제.
행렬 분해 (Matrix Factorization): 잠재 요인을 사용하여 사용자-항목 간의 관계를 모델링하는 기법.

[Korean/English Key Terms Summary]

추천 시스템 (Recommendation System) / Recommendation System
협업 필터링 (Collaborative Filtering) / Collaborative Filtering
사용자 기반 협업 필터링 (User-based Collaborative Filtering) / User-based Collaborative Filtering
항목 기반 협업 필터링 (Item-based Collaborative Filtering) / Item-based Collaborative Filtering
유사도 (Similarity) / Similarity
코사인 유사도 (Cosine Similarity) / Cosine Similarity
콜드 스타트 문제 (Cold Start Problem) / Cold Start Problem
희소성 문제 (Sparsity Problem) / Sparsity Problem
행렬 분해 (Matrix Factorization) / Matrix Factorization

'머신러닝' 카테고리의 다른 글

머신러닝: 하이브리드 추천 방식 (Hybrid Recommendation Approaches) (0)	2025.03.22
머신러닝: 추천 시스템 - 콘텐츠 기반 필터링 (0)	2025.03.22
머신러닝과 지리 공간 데이터 분석: 개념, 활용 및 Python 예시 (0)	2025.03.22
머신러닝: 시공간 모델링 (Spatio-Temporal Modeling) 완벽 가이드 (0)	2025.03.22
자기지도 학습 기반 이상치 탐지 (0)	2025.03.21

'머신러닝' Related Articles

move84

머신러닝: 추천 시스템 - 협업 필터링 가이드 본문

머신러닝: 추천 시스템 - 협업 필터링 가이드

💡 서론: 추천 시스템의 세계로

🤝 협업 필터링이란 무엇인가?

🔍 사용자 기반 협업 필터링: 자세히 들여다보기

💻 코드 예제 (Python)

💡 항목 기반 협업 필터링: 원리 탐구

💻 코드 예제 (Python)

🤔 협업 필터링의 장단점

🚀 협업 필터링의 발전 방향

✨ 결론: 협업 필터링, 추천 시스템의 초석

📚 핵심 용어 정리

'머신러닝' 카테고리의 다른 글

티스토리툴바