추천시스템

[논문 리뷰] Causal Intervention for Leveraging Popularity Bias in Recommendation

Sane_ 2025. 3. 24. 00:21

개요

 

이번 포스팅은 추천시스템에서 인과 추론 기반으로 인기도를 활용해 예측 성능을 높인 프레임워크에 대해 리뷰해도록 하겠습니다.

 

 

논문 요약

  • 추천 시스템에서 인기 편향을 혼란 변수로 분석하고, Do-calculus를 활용해 부정적 편향을 제거하는 PD와 원하는 인기를 전략적으로 반영하는 PDA 프레임워크를 제안
  • 세 개의 실 세계 데이터셋(Kwai, Douban, Tencent)에서 실험을 통해 PD가 인기 편향을 효과적으로 줄이고, PDA가 예측 인기를 활용해 성능을 크게 향상시킴을 입증
  • 인과 개입을 통해 편향 제거와 활용을 분리함으로써 추천의 공정성과 실용성을 동시에 높이는 새로운 접근법을 제시

 

 

논문 배경 및 연구 문제 

추천시스템에서 인기 편향은 대표적인 문제 중 하나입니다. 소수의 인기 아이템이 추천 리스트를 독점하게 되면서 개인화가 제대로 진행되지 않게 됩니다. 인기 아이템은 롱테일 분포를 가지며 과도하게 노출되는 경향이 있으며 모델 관점에서도 이를 학습, 노출을 반복하게 되면서 점점 인기도에 대한 편향이 더 심해집니다. 

 

인기 편향 문제를 해결하기 위해 다양한 방법론들이 제시되었습니다. 예를 들어, Inverse Propensity Scoring (IPS)는 경향성을 재가중해서 편향을 줄이려 하지만 경향성 추정이 어렵고 모델 분산이 큽니다. Causal Embedding은 편향 없는 데이터를 사용하지만, 무작위 노출로 사용자 경험이 나빠질 수 있고 데이터가 작아서 학습이 불안정합니다. Ranking Adjustment는 비인기 아이템 점수를 조정하는데, 이론적 근거가 부족하고 사용자의 진짜 관심을 반영하지 못합니다. 공통적으로, 인기 편향을 없애려다 보니 품질이나 트렌드 같은 유익한 신호까지 잃어버리는 문제가 있습니다.

 

이 논문에서는 인기 편향을 제거하는 대신 잘 활용해서 추천 정확도를 높이자는 접근법을 제안합니다. 인과 그래프를 통해 편향의 나쁜 영향을 분리하고, 품질이나 트렌드를 반영하는 "원하는 편향"을 주입하는 방식입니다. 

 

 

연구 목적

이 논문의 목표는 "인기 편향의 부정적 영향을 없애고, 미래 인기 트렌드를 예측해서 추천에 반영하는 것"입니다. 이러한 프레임워크로 PDA(Popularity-bias Deconfounding and Adjusting)를 제안합니다. 

기존 방법(IPS, Causal Embedding, Ranking Adjustment)이 편향 제거에만 초점을 맞췄다면, PDA는 활용까지 고려한 점이 차별화되는 포인트입니다. 
 

방법론

인과 관점에서의 추천이란

 

인과 그래프로 표현한 추천 과정

인과 관점에서는 추천 과정을 어떻게 나타낼 수 있을까요? 위 추천 시스템을 인과 그래프로 풀어낸 그림을 통해서 알아보도록 하겠습니다. 그래프에 나오는 노드는 U(사용자), I(아이템), C(상호작용 확률), Z(아이템 인기)를 나타냅니다.
첫째, 전통적인 추천 방식입니다. 사용자 특성과 아이템 속성이 상호작용을 결정하지만, 인기 편향을 명시적으로 고려하지 않습니다. 예를 들면, CF나 MF에서 유저, 아이템 행렬 기반 예측은 데이터의 상관관계만 반영하게 됩니다. 
두번째, 인기 반영 그래프입니다. 전통적인 추천 방식에 인기 효과를 반영한 것으로 인기가 노출(Z->I)과 선택(Z->C)에 영향을 미치게 됩니다. 인기는 아이템, 상호작용 확률 양방향에 영향을 주면서 교란 요인(confounder)이 되고 편향이 커지게 되는 구조입니다. 경로별 인과 구조를 정리하면 다음과 같습니다. 
  • Z→ I -> C: 아이템 인기 Z가 노출 메커니즘에 영향을 미침. 예: 인기 있는 아이템이 추천 리스트 상위에 배치될 가능성이 높아진다.
  • Z→C: 사용자의 순응성(conformity)으로 인해 인기 있는 아이템이 선택될 확률이 증가한다.
두가지 경로 중 Z -> I -> C 경로는 편향을 증폭시킴으로써 나쁜 편향에 해당되며 Z-> C는 선택적으로 반영하고자 하는 긍정 영향에 해당됩니다. 
세번째, 편향 조정 그래프입니다. 해당 논문에서 주장하는 프레임워크에 해당하는 인과 그래프입니다. 기존에는 인기의 나쁜 영향(Z->I)를 제거만 하는데 집중했다면, 여기서는 Z-> I 경로를 차단 및 개입해서 편향 증폭을 막고(cut off Z -> I),  사용자 순응성만 간접적으로 반영합니다.  

 

 

PDA의 구성 요소 

인기 편향의 부정적인 영향을 제거한 PD, 원하는 인기를 반영한 PDA 수식에 대해 알아보도록 하겠습니다.

 

 

PD : Deconfounded Training

PD는 '인기 편향이 노출에 미치는 부정적 영향을 제거하여, 사용자와 아이템 간의 진정한 상호작용 확률을 학습'하는것이 목적입니다. 해당 논문에서는 부정적 인기 영향 제거한 인과 효과를 추론하기 위해서 do-calculus를 사용하며 이를 $ P(C | do(U,I)) $와 같은 수식으로 표현할 수 있습니다.

(do-calculus에 대한 좋은 설명이 있길래 링크 첨부합니다 https://profleeedudata9591.tistory.com/73)

 

 

PD 프레임워크에서 do-연산 수식 : 

$$ \begin{align} P(C| do(U,I))  &= P_{G'}(C|U,I) \\
               &= \sum_{z}P_{G'}(C|U,I,z)P_{G'}(z|U,I) \\
&= \sum_{z}P_{G'}(C|U,I,z)P_{G'}(z) \\
&= \sum_{z}P(C|U,I,z)P(z)  \end{align} $$

 

 여기서 $G'$는 인과 그래프 (c)를 의미하고 $ P_{G'}(\dot) $은 그래프 G'에서의 확률값입니다. 최종 결과에서 $P(z)$는 상수이며 상품 순위도를 결정할때는 영향을 안주니까 고려하지 않아도 무방하며 $P(C|U,I,z)$에 결정됨을 알 수 있습니다. 이 식은 2단계로 나누어서 추정해보겠습니다.  

 

Step 1 :  $ P(C |U,I, z) $ 추정

 

 

$$ P_{\theta}(c = 1 | u,i, m_{i}^{t}) = ELU'(f_{\theta}(u,i)) X (m_{i}^{t})^{\gamma} $$ 

  • $f_{\theta}(u,i)$는 유저, 아이템 매칭 모델을 나타내며, 해당 논문에서는 간단한 Matrix Factorization 모델 기반 BPR 손실 최적화로 파라미터를 학습했습니다.
  • $ELU'(\cdot)$는 지수 기반 활성화 함수로 항상 양의 값을 얻기위해 적용합니다.
  • $(m_{i}^{t})^{\gamma}$는 $t$시점에서 $i$ 상품의 인기도를 나타내며 $\gamma$는 인기 영향도를 조절하기 위한 파라미터입니다. 

Step 2 :  $ \sum_{z}P(C | U, I, z)P(z) $ 추정

 

$$ \begin{align} P(C| do(U,I))  &= \sum_{z}P(C|U,I,z)P(z) \\
               &= \sum_{z}ELU'(f_{\theta}(u,i)) X z^{\gamma}P(z) \\
&= ELU'(f_{\theta}(u,i)) \sum_{z}z^{\gamma}P(z) \\
&= ELU'(f_{\theta}(u,i)) E(Z^{\gamma})  \end{align} $$

 

 

Step1에서 추정한 $ P(C|U,I,z) $값을 do-calculus 공식에 대입하면 위와 같은 최종 PD 수식을 도출할 수 있습니다. 즉, 부정적 인기 편향을 제거한 PD의 수식은 유저와 아이템의 순수한 상호작용 확률인 $ELU'(f_{\theta}(u,i))$에 인기의 기대값인 $E(Z^{\gamma})$을 곱한 식이 됩니다. 

 

 

PDA : Inference Adjustment

PD에서는 부정적인 인기 편향을 제거했으며, PDA에서는 긍정적인 인기 영향(해당 연구에서는 예측된 인기)를 사용해서 예측 성능을 최적화합니다. PDA에서도 do-calculus를 사용해서 수식을 전개하며 $do(Z=\tilde{z})$를 통해 예측된 인기 $\tilde{z}$를 모델에 주입합니다. 이를 수식으로 $P(C|do(U,I), do(Z=\tilde{z})$와 같이 표현할 수 있습니다. 

 

PDA 프레임워크에서의 do-calculus 수식:

$$P(C|do(U=u, I=i), do(Z=\tilde{z}) =  P_{\theta}(c=1|u,i,\tilde{m_{i}}) $$

 

$U, I, Z$의 개입(do-calculus)을 적용한 상태에서 상호작용 확률 C는 위 수식처럼 전개됩니다. 인과 그래프 $G'$에서는 Z와 C 사이에 백도어 경로가 없기 때문에 $do(Z=\tilde{z})$를 적용한 개입 확률은 조건부 확률 $P_{\theta}(c=1|u,i,\tilde{m_{i}})$와 동일하게 됩니다. 

 

논문에서는 $P_{\theta}(c=1|u,i,\tilde{m_{i}})$를 계산하기 위해, 학습 단계(Deconfounded Training)에서 사용된 모델 구조를 활용합니다. 추론 단계에서는 $z$를 예측된 인기(활용하고자 하는 인기 영향) $\tilde{z}$ (즉, $\tilde{m_{i}}$)로 대체합니다. 따라서 최종 PDA 점수 계산식은 아래와 같습니다. 

 

$$ P_{]theta}(c=1|u,i,\tilde{m_{i}}) = ELU'(f_{\theta}(u,i)) X (\tilde{m_{i}})^{\tilde{\gamma}} $$ 

 

 

여기서 예측된 인기 $\tilde{m_{i}}$는 간단한 선형 추정 방식으로 계산했으며, 논문에서는 인기 예측 자체가 연구 핵심이 아니므로 단순한 방법을 사용하고 있습니다. 시뮬레이션에서는 인기 예측이 성능에 영향을 줄 수 있고 개선 여지가 있음을 언급합니다.

 

 

PDA framework workflow

 

 

실험

실험은 세 데이터셋으로 진행합니다.

  • Kwai: Kuaishou 클릭 데이터(37,663 사용자, 128,879 아이템).
  • Douban Movie: 영화 평점 데이터(47,890 사용자, 26,047 아이템).
  • Tencent: 단편 비디오 좋아요 데이터(80,339 사용자, 27,070 아이템).

데이터를 시간순으로 나눠서 마지막 단계로 테스트했고, Recall, Precision, HR, NDCG 같은 지표로 평가하고 있습니다. PD, PDA 성능을 각각 비교했으며 PD와 비교 모델은 MostPop, BPRMF, xQuAD, BPR-PC, DICE와 같은 기존 모델, PDA는 MostRecent, BPRMF(t)-pop, BPRMF-A, DICE-A와 같은 인기 반영 모델들과 비교합니다.

 

1) PD 실험 결과 

  • 기존 모델 대비 PD에서 Kwai119%, Douban 44.5%, Tencent 29% 성능 향상

1-1) Recommendation Rate 분석 진행

PD를 통해 인기 편향의 부정적 효과를 완화하는지 확인하기 위해 추천 결과 분석을 진행합니다. 기존 추천 방식처럼 인기 있는 아이템을 과도하게 선호하지 않는지, 모든 인기도 그룹에 걸쳐 추천이 균등하게 분포되는지를 확인하기 위함입니다. 

 

 

RR(Recommendation Rate)는 각 아이템 그룹에 대해 추천된 횟수를 전체 추천 횟수로 나눈 비율로 인기 추천 경향을 파악하기 위한 지표입니다. 저자는 전체 아이템 그룹을 총 10개로 나누어서 상품 인기도 총합을 그룹개수만큼 나누어서 그룹별 상품을 구성하고 있습니다. 그룹이 1에 가까울수록 인기 상품으로 구성되어 있으며 10에 가까울수록 비인기 상품으로 구성하는 방식입니다. 

 

모든 데이터에서 PD가 이상적인 RR, Training과 대체적으로 가장 가까운 값들을 보이며 (d)에서 오차를 보면 모델 중 가장 낮은 값을 가집니다. 위 결과를 통해 PD 방법론이 인기 편향을 완화하고 있음을 증명하고 있습니다.  

 

2) PDA 실험 결과 

  • 예측 인기 주입한 PDA에서 PD보다 더 좋은 성능을 보이며, BPRMF 대비 최대 532% 개선된 성능을 보임(Kwai)
  • 미래 인기 반영은 예측 성능 향상으로 이어짐 

 

 

결론

  • 추천 시스템에서 인기 편향의 부정적 영향을 제거하고, 이를 활용해 성능을 높이는 PDA 프레임워크를 제안
  • 인과 그래프와 do-calculus를 통해 편향을 분리하고, 예측된 인기를 주입해 추천 정확도를 크게 향상 시킴

 

마치며

 

기존 논문과 다르게 인기 편향을  제거하는게 아니라 활용한다는 관점에서 흥미로운 논문이였습니다. 실제 현업에서도 상품 인기도를 반영하는게 추천 성능 개선의 핵심 중 하나인 것 같다는 생각이 드네요. 인기 상품이 중요한 도메인일 경우 더욱 유용하게 활용할 수 있을 것 같습니다.