Offline Evaluation of Ranking Policies with Click Models #8
Labels
2018
KDD
International Conference on Knowledge Discovery and Data Mining
Unbiased LTR
Unbiased Learning-to-Rank
0. 論文概要
Shuai Li, Yasin Abbasi-Yadkori, Branislav Kveton, S. Muthukrishnan, Vishwa Vinay, and Zheng Wen. 2018. Offline Evaluation of Ranking Policies with Click Models. In KDD ’18: The 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, August 19–23, 2018, London, United Kingdom.
1. 要約
2. 背景
3. 手法
Notation
以上を用いて, 次のような過程でinteractionが起こるとします.
この時, コンテクストxに対する推薦ランキングAの性能を以下のように定義します.
本論文の目的は, 過去に走っていた何れかの方策πによって生まれたログデータSを用いて, 新たな方策hの性能を推定することです. 方策hの性能は, 先ほど定義したxごとの性能について, xの分布で期待値を取ったものとします.
Estimators
ここでは, 異なる仮定に基づいたいくつかのpolicy valueの推定量を紹介しています.
List Estimatorはclick modelを導入しないbaseline推定量で, 任意のリストに対するimportance weightの推定を通して, hのpolicy valueを推定する方法です. ただ, importance weightが大きくなりすぎると, 推定量の分散が大きくなってしまうので, Mでclippingしています.
IP Estimatorは, k番目にランキングされたアイテムaをクリックする確率が, そのアイテムとランキングにしか依存しないという仮定を置きます. (つまり, 推薦ランキングの他の構成要素と独立)
List Estimatorよりも, importance weightの数が少なく, logging policyとtarget policyで完全にリストが一致していないリストの情報も推定に寄与させることができるため, varianceを抑えることができると考えられます.
RCMは, クリックがアイテムにもそのランキングにも依存しないという(自己否定的な?)モデル化です.
RCBMは, クリックがランキングのみに依存するというモデル化です. これら仮定が成り立つならば, 任意のpolicyについて, ログデータの平均クリック率を計算することで簡単にその性能を推定することができます.
PBMは, click modelの中でも標準的なモデル化で, クリック確率が以下のように分解できるとします.
ここで, μはxが与えられた時にaをクリックする確率で, pはxが与えられた時にk番目のアイテムを認知する確率です. ここで全てのpositionについて認知確率が既知とすると, PBMによる推定量は以下のようにして得られます.
この推定量は, IPよりもimportance weightの数のオーダーが小さいため, varianceが小さくなると考えられますが, より厳しいPBMの仮定が成り立っていなければなりません.
DCTRでは, クリック確率がpositionごとの認知確率と独立であるという条件をPBMに追加したモデル化になります. つまり, 何を推薦するかのみによって, 推薦のvalueが決定することになります. DCTRに基づいた推定量は, PBM推定量で用いられている認知確率pを全て一定にすることにより得ることができます.
・まとめ
たくさんの推定量を見てきましたが, ログデータSの大きさが小さい時は, より厳しい仮定に基づいた推定量が汎化しますが, Sが一定の大きさを持つならば, より現実的な仮定をおく方がbiasを小さくできます.
Analysis
理論分析の結果が多いので, 重要な結果のみ絞ってまとめます.
4. 実験
Yandex datasetというものを使って性能評価していますが, このデータセットにはコンテクスト情報が含まれないため, コンテクストが全て同一であるというきつい仮定を置いています.
実験手順(あまりよくわからなかったので、間違えているかもしれません。)
結果は以下の通り. それぞれの図はログデータの数やKの大きさが異なる状況での結果を表している.
IP, PBM, Itemなど適度な仮定に基づく推定量がList EstimatorやRCMよりもよい推定精度を見せた.
5. コメント
6. 関連論文ピックアップ
The text was updated successfully, but these errors were encountered: