Policy Evaluation and Optimization with Continuous Treatments #9
Labels
2018
AISTATS
International Conference on Artifi- cial Intelligence and Statistics
Treatment Policy Optimization
0. 論文概要
Nathan Kallus and Angela Zhou. Policy Evaluation and Optimization with Continuous Treatments.. Proceedings of the 21st International Conference on Artificial Intelligence and Statistics (AISTATS) 2018, Lanzarote, Spain. JMLR: W&CP volume 7X.
1. 要約
2. 背景
3. 手法
Notation
本論文では以下のNotationを用いています.
Off-Policy Continuous Estimator
介入が離散変数である場合のOff-Policy Estimatorとして最も標準的なのはIPW推定量である.
しかし, 介入が連続変数である場合を考えた時, 方策τは連続確率分布となるため, 上記の推定量を用いるとindicator functionが全て0になってしまうという問題が生じる.
この問題に対して本論文は, non-parametric regressionなどで用いられるkernel関数を適用することを考える.
(kernel関数については, nadaraya watson estimatorなどと調べると色々出てきます.)
ここでhはバンド幅である.kernel関数を適用し介入が連続変数である場合にも対応した推定量の基本形は以下の通り. つまり, あるpolicyを評価するときに, そのpolicyと近い介入を受けたログ中のデータの情報を重視してpolicy valueを推定していると解釈できる. さらにこれにSelf-NormalizeやDoubly Robustを適用することも可能である.
Theoretical Analysis
まず, 基本形の推定量の真のpolicy valueに対するMSEを導出し, そのMSEを最小化するバンド幅を求める.
次に, 基本形の推定量は真のpolicy valueに確率収束する(一致性).
これらの結果から, 基本形の推定量はpolicy valueの推定量としてある程度妥当な性質を有していると言える.
論文では, policy valueに対する推定精度だけではなく, 推定量を最大化して得られる新たなpolicyの汎化性能についてもrademacher complexityを用いて分析している.
4. 実験
人工データ実験1
人工データを使ってOff-Policy Evaluationを行う. Baselineは, Direct Method (DM), 適当に介入を離散化した上で既存のOff-Policy Evaluationを行うdiscretized OPE. continuous OPEにはSelf-Normalizedを用いた.
介入割り当てにConfoundingなし.
介入割り当てにConfoundingあり.
人工データ実験2
先ほどとは異なる人工データを使って, Policy Optimizationを行い, 目的変数を最小化する性能を評価した.
実データ実験
Warfarin case studyというデータを使って, Warfarinという薬の投薬量を最適化する問題を解く. ここでは, INRという目的変数を最小化することを目指すが, これはunavailableなので人工的にoutcomeの値を生成した.
総じて差があまりわからない... もう少しextensiveな人工データによる評価があると嬉しかった.
5. コメント
6. 関連論文ピックアップ
Miroslav Dudík, John Langford, and Lihong Li. Doubly robust policy evaluation and learning.
In International Conference on Machine Learning (ICML), 2011.
The text was updated successfully, but these errors were encountered: