머신러닝: 추천 시스템 평가 지표

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

move84

머신러닝: 추천 시스템 평가 지표 본문

머신러닝

머신러닝: 추천 시스템 평가 지표

move84 2025. 3. 22. 15:48

머신러닝 기반 추천 시스템의 세계에 오신 것을 환영합니다! 🧐 오늘 우리는 추천 시스템의 성능을 측정하고 개선하는 데 필수적인 평가 지표에 대해 자세히 살펴보겠습니다. 추천 시스템은 사용자에게 관련성 있는 항목을 제안하여 사용자 경험을 향상하고 참여를 유도하는 것을 목표로 합니다. 이러한 시스템의 효율성을 평가하기 위해서는 다양한 지표를 이해하고 적용하는 것이 중요합니다.

💡 추천 시스템 평가 지표 (Evaluation Metrics for Recommender Systems)

추천 시스템의 성능을 평가하는 데 사용되는 주요 지표를 자세히 알아보겠습니다. 각 지표는 추천 시스템의 다양한 측면을 평가하며, 시스템의 강점과 약점을 파악하는 데 도움이 됩니다.

정확도 기반 지표 (Accuracy-Based Metrics)
- 정확도 (Accuracy, 정확도): 추천된 항목 중 사용자가 실제로 '좋아요'를 누른 항목의 비율을 측정합니다. 단순하지만, 사용자의 선호도를 직접적으로 반영합니다.
  - 예시: 10개의 항목을 추천했고, 그중 3개를 사용자가 좋아했다면, 정확도는 3/10 = 0.3 (30%)입니다.
  - 단순한 예시를 위해 다음과 같은 파이썬 코드를 고려해 봅시다:
```
def calculate_accuracy(recommended_items, liked_items):
    correct_recommendations = set(recommended_items) & set(liked_items)
    accuracy = len(correct_recommendations) / len(recommended_items) if recommended_items else 0
    return accuracy

recommended = ['A', 'B', 'C', 'D', 'E']
liked = ['B', 'D', 'F']
accuracy = calculate_accuracy(recommended, liked)
print(f"정확도: {accuracy}") # 출력: 정확도: 0.4
```
- 정밀도 (Precision, 정밀도): 추천된 항목 중에서 관련 있는 항목의 비율을 측정합니다. 추천된 항목이 얼마나 '적절'한지를 평가합니다.
  - 예시: 10개의 항목을 추천했는데, 그중 5개가 사용자에게 관련이 있었다면, 정밀도는 5/10 = 0.5 (50%)입니다.
  - Precision = (True Positives) / (True Positives + False Positives)
- 재현율 (Recall, 재현율): 사용자가 '좋아요'를 누른 모든 항목 중에서 추천된 항목의 비율을 측정합니다. 시스템이 얼마나 많은 관련 항목을 '찾아냈는지'를 평가합니다.
  - 예시: 사용자가 총 10개의 항목을 좋아했는데, 추천 시스템이 그중 7개를 추천했다면, 재현율은 7/10 = 0.7 (70%)입니다.
  - Recall = (True Positives) / (True Positives + False Negatives)
- F1 점수 (F1 Score, F1 점수): 정밀도와 재현율의 조화 평균으로, 두 지표를 모두 고려한 종합적인 성능 지표입니다.
  - F1 Score = 2 * (Precision * Recall) / (Precision + Recall)

순위 기반 지표 (Ranking-Based Metrics)
- 평균 정밀도 (Mean Average Precision, MAP, 평균 평균 정밀도): 여러 사용자 및 쿼리에 대한 평균 정밀도를 계산합니다. 순위 기반 추천 시스템에서 중요한 지표입니다.
  - MAP는 각 사용자에 대해 계산된 Average Precision (AP, 평균 정밀도)의 평균입니다. AP는 추천된 각 항목의 순위와 관련성을 고려합니다. 관련 항목이 상위 순위에 있을수록 AP 값이 높아집니다.
  - MAP@K는 추천된 상위 K개의 항목만 고려하여 MAP를 계산합니다.
- NDCG (Normalized Discounted Cumulative Gain, 정규화된 할인 누적 이득): 추천된 항목의 순위와 관련성을 모두 고려하는 지표입니다. 상위 순위에 있는 관련 항목에 더 높은 가중치를 부여합니다.
  - DCG (Discounted Cumulative Gain)는 각 항목의 관련성과 순위에 따라 가중치를 부여하여 계산됩니다. NDCG는 DCG를 이상적인 DCG (IDCG, Ideal DCG)로 정규화하여 서로 다른 사용자의 추천 결과를 비교할 수 있도록 합니다.
  - NDCG = DCG / IDCG
  - 예시: 항목 A, B, C가 추천되었고, 관련성 점수가 각각 3, 2, 1이라고 가정합니다. 순위에 따라 가중치를 부여하면 DCG는 다음과 같이 계산됩니다: DCG = 3 + 2/log2(2) + 1/log2(3) = 3 + 2 + 0.63 = 5.63. IDCG는 가장 관련성 높은 항목이 먼저 추천되었을 때의 DCG입니다. (예: 3, 2, 1) IDCG = 3 + 2 + 1 = 6. NDCG = 5.63 / 6 = 0.94.
- MRR (Mean Reciprocal Rank, 평균 역수 순위): 첫 번째로 추천된 관련 항목의 순위 역수의 평균입니다.
  - MRR은 검색 시스템이나 정보 검색에서 주로 사용됩니다. 사용자가 원하는 항목이 추천 목록의 상위에 있을수록 MRR 값이 높아집니다.
  - 예시: 사용자가 찾고 있는 항목이 첫 번째 추천 항목으로 나타나면 역수 순위는 1/1 = 1입니다. 두 번째로 나타나면 1/2 = 0.5입니다. 여러 사용자의 경우, 각 사용자의 역수 순위의 평균을 계산합니다.

커버리지 및 다양성 기반 지표 (Coverage and Diversity-Based Metrics)
- 커버리지 (Coverage, 커버리지): 추천 시스템이 전체 항목 중 얼마나 많은 항목을 추천하는지를 측정합니다. 추천 시스템이 다양한 항목을 다루는지 평가합니다.
  - 예시: 100개의 항목이 있고, 추천 시스템이 70개의 항목을 추천한다면, 커버리지는 70/100 = 0.7 (70%)입니다.
- 다양성 (Diversity, 다양성): 추천된 항목들이 얼마나 다양한지를 측정합니다. 사용자에게 획일적인 항목이 아닌, 다양한 종류의 항목을 추천하는 것이 중요합니다.
  - 다양성은 항목 간의 유사성을 측정하여 평가할 수 있습니다. 유사성이 낮은 항목들이 추천될수록 다양성이 높습니다.

사용자 경험 관련 지표 (User Experience Related Metrics)
- 클릭률 (Click-Through Rate, CTR, 클릭률): 추천된 항목을 사용자가 클릭한 비율을 측정합니다. 사용자 참여도를 나타냅니다.
- 전환율 (Conversion Rate, 전환율): 추천을 통해 사용자가 특정 목표 (예: 구매)를 달성한 비율을 측정합니다. 비즈니스 목표 달성에 대한 지표입니다.
- 세션 시간 (Session Time, 세션 시간): 추천 시스템을 사용한 후 사용자가 서비스에 머무는 시간을 측정합니다. 사용자 만족도를 나타냅니다.

📚 핵심 용어 정리 (Key Terms Summary)

정확도 (Accuracy / 정확도): 추천된 항목 중 사용자가 실제로 좋아한 항목의 비율.
정밀도 (Precision / 정밀도): 추천된 항목 중에서 관련 있는 항목의 비율.
재현율 (Recall / 재현율): 사용자가 '좋아요'를 누른 모든 항목 중에서 추천된 항목의 비율.
F1 점수 (F1 Score / F1 점수): 정밀도와 재현율의 조화 평균.
MAP (Mean Average Precision / 평균 평균 정밀도): 여러 사용자 및 쿼리에 대한 평균 정밀도.
NDCG (Normalized Discounted Cumulative Gain / 정규화된 할인 누적 이득): 추천된 항목의 순위와 관련성을 모두 고려하는 지표.
MRR (Mean Reciprocal Rank / 평균 역수 순위): 첫 번째로 추천된 관련 항목의 순위 역수의 평균.
커버리지 (Coverage / 커버리지): 추천 시스템이 전체 항목 중 얼마나 많은 항목을 추천하는지.
다양성 (Diversity / 다양성): 추천된 항목들이 얼마나 다양한지.
CTR (Click-Through Rate / 클릭률): 추천된 항목을 사용자가 클릭한 비율.
전환율 (Conversion Rate / 전환율): 추천을 통해 사용자가 특정 목표를 달성한 비율.

🎉 마무리 (Conclusion)

이 글에서는 머신러닝 기반 추천 시스템의 성능을 평가하기 위한 다양한 지표를 살펴보았습니다. 각 지표는 추천 시스템의 특정 측면을 평가하며, 시스템의 강점과 약점을 파악하는 데 도움을 줍니다. 사용자의 요구에 맞는, 관련성 높고 효과적인 추천 시스템을 구축하기 위해서는 이러한 지표들을 이해하고 적절하게 활용하는 것이 중요합니다. 다양한 지표를 종합적으로 고려하여 추천 시스템을 지속적으로 개선해 나가세요! 💪

'머신러닝' 카테고리의 다른 글

머신러닝 Data Pipeline 모니터링: 데이터 흐름을 감시하는 방법 (0)	2025.03.22
머신러닝 모델 드리프트 분석: 시간의 흐름에 따른 모델 성능 변화 파악하기 (0)	2025.03.22
머신러닝: 하이브리드 추천 방식 (Hybrid Recommendation Approaches) (0)	2025.03.22
머신러닝: 추천 시스템 - 콘텐츠 기반 필터링 (0)	2025.03.22
머신러닝: 추천 시스템 - 협업 필터링 가이드 (0)	2025.03.22

'머신러닝' Related Articles

move84

머신러닝: 추천 시스템 평가 지표 본문

머신러닝: 추천 시스템 평가 지표

'머신러닝' 카테고리의 다른 글

티스토리툴바