-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
PinSage: A new graph convolutional neural network for web-scale recommender systems #35
Comments
ディープラーニング手法は、視覚認識、音声認識、機械翻訳などの幅広い機械学習や人工知能のタスクにおいて、前例のない性能を達成してきました。しかし、驚くべき進歩にもかかわらず、ディープラーニングの研究は、主にグリッド(画像など)やシーケンス(音声、テキストなど)のようなユークリッド領域で定義されたデータに焦点を当ててきました。しかし、最も興味深いデータや課題は、グラフ、マニフォールド、レコメンダーシステムなどの非ユークリッド領域で定義されたデータである。主な問題は、このような複雑なデータ型のための基本的な深層学習操作をどのように定義するかということです。サービスが成長し、グローバル化している中で、日常的な利用にはスケールしないシステムという選択肢はありません。私たちの答えは、何十億ものオブジェクトを含むウェブスケールのグラフのノードの埋め込みを学習することができるランダムウォークグラフ畳み込みネットワークであるPinSageの形で出てきました。 BackgroundPinterestの最大の価値の一つは、何億人ものユーザーが付加した文脈を考慮して、好みに応じたビジュアルなレコメンドを行うことで、人々が自分の興味に合ったアイデアや商品を発見できるようにすることです。Pinterestの利用者数が2億人以上のMAUを超え、保存されたオブジェクトの数が100Bを超えた今、私たちは追いつくだけでなく、レコメンデーションをよりスマートにするための技術を継続的に構築していかなければなりません。 Challenges近年、グラフをモデル化するためのグラフ畳み込みネットワーク(GCN)が提案され、さまざまなレコメンダーシステムのベンチマークで成功を収めている。しかし、ベンチマークタスクでの成果は、実際の運用環境での成果には至っていない。主な課題は、数十億のノードと数百億のエッジを持つグラフに対して、GCNベースのノードエンベッディングの学習と推論の両方をスケーリングすることである。GCNのスケーリングが困難なのは、ビッグデータ環境で作業する場合、その設計の基礎となる多くのコアな仮定が違反しているからです。例えば、既存のGCNベースのレコメンダーシステムはすべて、トレーニング中に完全グラフのラプラシアン上で動作する必要があります。 Key Innovationsここでは、私たちが開発し、Pinterestの本番で展開した、拡張性の高いGCNフレームワークを紹介します。このフレームワークは、PinSageと名付けられたランダムウォークベースのGCNで、30億ノードと180億エッジを持つ巨大なグラフ上で動作します。PinSageは、いくつかの重要な洞察を活用して、GCNのスケーラビリティを劇的に向上させています。 1. On-the-fly convolutions従来のGCNアルゴリズムは、特徴行列に完全グラフのラプラシアンの累乗を乗じてグラフの畳み込みを実行します。これとは対照的に,我々のPinSageアルゴリズムは,ノード周辺をサンプリングして動的に計算グラフを構築することで,効率的で局所的な畳み込みを実行する.これらの動的に構築された計算グラフ(図1)は,特定のノードの周りで局所的な畳み込みを実行する方法を指定し,学習中にグラフ全体を操作する必要性を軽減します. Constructing convolutions via random walksノードの完全な隣接領域で畳み込みを実行すると膨大な計算グラフになるので、サンプリングに頼ります。我々のアプローチの重要な革新点は、ノード近傍をどのように定義するか、つまり、畳み込みを行う近傍のセットをどのように選択するかということです。これまでのGCNのアプローチでは、単にK-hopグラフの近傍を調べるだけでしたが、PinSageでは、ランダムウォークをシミュレートし、訪問回数が最も多い近傍を選択することで、重要度に基づいた近傍を定義しています。この方法の利点は2つあります。 Efficient MapReduce inference完全に訓練されたGCNモデルを用いても、訓練中に見られなかったノードを含むすべてのノードの埋め込み値を生成するために、訓練されたモデルを直接適用することは困難です。局所的な共解像度を持つノードのエンベッディングを黙って計算すると、ノードのK-hop近傍の重なりが原因で、計算を繰り返すことになります。 Offline Evaluation我々は、PinSageをPinterestのデータ上に実装し、評価しています。PinSageは、ビジュアルエンベッディングとアノテーションエンベッディングを入力特徴として持つ二部構成のPin-boardグラフで、PinSageを実装しています。視覚的エンベッディングは、Pinterestに配備されている最新の畳み込みニューラルネットワークからのものを使用しています。アノテーションのエンベッディングは、PinterestのWord2Vecベースの生産モデルを用いて学習します。PinSageの性能を、Pinのエンベッディングを生成する以下のコンテンツベースのディープラーニングベースラインと比較して評価します。 User Studiesまた、異なる学習済み表現の間でヘッド・トゥ・ヘッド比較を行うことで、PinSageの有効性を調査しています。この研究では,ユーザはクエリピンの画像と,2つの異なるレコメンデーションアルゴリズムによって取得された2つのピンを提示されます.ユーザーは、2つの候補Pinのうち、どちらのPinがよりクエリPinに関連しているかを選択するように求められます。ユーザは、視覚的外観、オブジェクトのカテゴリ、個人のアイデンティティなどの観点から、推薦されたアイテムとクエリアイテムとの間の様々な相関関係を見つけるように指示されます。両方の推奨項目が同じように関連していると思われる場合、ユーザは「等しい」を選択することができます。同じ質問を評価するユーザーの2/3の間でコンセンサスが得られなかった場合、結果は結論が出ていないものとみなします。 表1は、PinSageと4つのベースラインの間のヘッド・トゥ・ヘッド比較の結果を示しています。ここでは、クエリPinから始まるランダムウォークをシミュレートしてランキングスコアを生成するために、偏ったランダムウォークを使用する純粋なグラフベースの手法であるPixieを含めています。トップスコアを持つアイテムをレコメンデーションとして取得する。 A/B Testホームフィードと関連ピン広告の両方でA/B実験を開始し、アノテーション埋め込みベースのベースラインと比較したところ、ユーザーのエンゲージメント率の面で約30%の相対的な改善が見られました。 Conclusion私たちは、数十億個のオブジェクトを含むウェブスケールのグラフのノードのエンベッディングを学習することができ、高いスケーラビリティを持つランダムウォークグラフコンボリューションネットワーク「PinSage」を開発しました。 |
Meta
どんなもの?(3行ぐらいで)
詳細
所感
参考リンク
The text was updated successfully, but these errors were encountered: