KDD 2018 参加レポート

Data LabsデータサイエンティストのTakaguchiです。

Data Labsは、LINEメッセンジャーを始めとするLINEファミリーサービスのデータを事業へ活用するための専門的な開発組織です。我々の所属するData Analysisチームでは、最新の知見を業務に取り入れるべく研究論文の紹介や研究会への参加などを積極的に行っています。

その一環として、LINEには「エンジニアは業務に関係のある海外カンファレンスへの参加費用すべてを一年に一回は会社に負担してもらえる」という制度があり、同僚のTakayanagiと2018年8月19日〜23日に開催された国際会議KDD 2018に聴講参加してきた内容について報告します。

KDD について

KDDはKnowledge Discovery and Data Miningの略称で、アメリカ計算機学会(ACM)が主催する機械学習やデータマイニング関連の国際会議です。

http://www.kdd.org/kdd2018/

研究論文が採択されるためのハードルが非常に高いトップカンファレンスの1つであり、質の高い研究論文が集まります。
学術的な研究を対象とするResearchトラックに加えて、企業などでの実務タスクへの活用を重視するApplied Data Scienceトラックが設けられていることが特徴的です。講演者と参加者ともに企業に所属する人の割合がとても高い印象で、学術とビジネスの垣根が非常に低いことを実感しました。

本会議への企業スポンサーの規模にもこの研究分野に対する企業の大きな期待感が現れており、企業スポンサーシップの総額が過去最高の約120万ドルであったと公表されていました。

参加したセッションの概要

KDDは多数のセッションが同時並行で進む大規模な会議なので、焦点を定めて聴講する必要があります。

そこで、会議全体を通じて

  • Takaguchi:「データ分析結果の解釈性」
  • Takayanagi:「インターネット広告周辺のデータ分析・機械学習」
    • を各々の個人的なテーマとして設定し、会議を聴講してきました。以下、この2人の視点から印象に残ったセッションを順に紹介します。

      Takaguchi’s ViewPoint

      データ分析を主な業務とするデータサイエンティストにとって、データから導いた客観的な根拠に基づいてビジネス上の意思決定を支援することが重要なミッションです。組織の具体的なアクションに結びつけるために、なぜデータ分析結果を〇〇と解釈できるのか?という問いに答えることが要求されます。

      そこで、「データ分析結果の解釈性について最新の研究動向を学ぶ」というモチベーションをもって各セッションに参加しました。

      1日目のチュートリアルではCausal Inference and Counterfactual Reasoningというセッションに参加しました。

      Causal Inference(因果推論)とは、注目している変数に対してどの要因がどの程度効いているかを観測されたデータから推測する方法論です。本チュートリアルでは、因果推論の基本となる反実仮想の概念から高次元データの取り扱いまで、幅広い話題が統一的に紹介されました。200~300人は入るであろう部屋が超満員になって立ち見の聴講者もあり、この話題に対する関心の高さが伺えました。安定した推定結果を得るために、同一のデータに対してモデルの仮定を変えて再検証したり、複数の手法で結果の一貫性を検討したりすることが重要であると強調されていました。

      2日目のワークショップでは、ODD Workshop on Outlier Detection De‐constructedというセッションに参加しました。

      Outlier(外れ値)とは、データ全体の分布から大きく外れたデータ点のことを指します。外れ値は、たとえばセンサーの故障や異常な行動をするユーザー(スパムアカウントなど)に対応すると考えられ、データ分析が活用される代表的問題の1つです。実務においては「どのデータ点が外れ値か」を発見するだけでなく、「外れ値と判定されたデータ点はどういう意味で外れ値か」を解釈できることが重要です。本ワークショップでも外れ値の解釈性は大きく取り扱われており、4つある基調講演すべてで解釈性の問題が取り上げられていました。

      とくにOutlier Detection for Mining Social Misbehaviorと題したSnap Researchのデータサイエンティストによる基調講演では「フェイクアカウントによる友達カウントの水増しを検知する」「ライブストリーミングサービスにおける視聴カウントの水増しを検知する」といった具体的な問題が取り上げられ、実サービスの規模で外れ値の検知と解釈を活用する方法論が多く含まれていました。


      3日目〜5日目の本会議では、前述のApplied Data ScienceセッションおよびApplied Data Science Invited talkセッションを中心に参加しました。

      ここでは2つの論文を取り上げて内容を紹介します。

      Learning and Transferring IDs Representation in E-commerce

      Alibaba Group による論文で、e-コマースのデータに現れる複数種類のID(ユーザー ID, 商品 ID, 店舗 ID など)を同時に取り扱って低次元空間へ埋め込む表現学習の方法について提案されました。
      複数種類のIDを同時に取り扱うことにより、たとえば「ある商品と別の商品が類似する」といったときに購入するユーザーが共通しているという意味で類似するのか、あるいは取り扱い店舗が共通しているという意味で類似するのかといった詳細な解釈が可能となります。講演によれば本論文の手法はすでに実際のサービスにおける商品推薦に実装されているとのことで、強い説得力がありました。

      Winner’s Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments

      Airbnbによる論文で、注目する変数に対する施策の効果を複数のA/Bテストを通じて統合すると効果を過大に見積もってしまうバイアスがあることを示し、そのバイアスを補正する方法が提案されました。本論文で取り上げられている複数のA/Bテストだけでなく、1つのテストで複数の変数が関わる場合にも、数字の扱いに慣れているデータサイエンティストであっても誤った結論を導きやすい落とし穴が存在します。
      A/Bテストの実施にはコストがかかり、テスト結果の解釈はサービス改善の意思決定に直結するだけに、このようなバイアスについての知見はおさえておきたいところです。
      Airbnbからはこの論文以外にも複数の論文が採択されており(うち1件はApplied Data Scienceトラックの最優秀論文)、本会議において大きな存在感を示していました。

      Takayanagi’s ViewPoint

      インターネット広告業界においてはわずかな予測精度の改善が直接的に会社の利益に結びつくことが多く、データ分析や機械学習の研究開発で培われた技術や叡智が徹底活用されており、各社がしのぎを削っています。
      弊社では運用型広告配信プラットフォームである「LINE Ads Platform」を提供しており(先日その機能の大幅刷新が公表されました)、ここにも多数のデータ分析や機械学習の技術が使われています。

      そこで「より良い広告配信プラットフォームに活かせる研究はないか?」というモチベーションで各セッションに参加しましたので、それを簡単に紹介します。

      1日目のチュートリアルでは、Online Evaluation for Effective Web Service Developmentというセッションに参加しました。

      年間3000個のA/Bテストを行っているYandex(ロシアで有名なポータルサイト運営会社)の方々を講師として、いわゆるベタな統計検定の話からKPI設計時の注意点、フーリエ変換を使ったKPIトレンドの検出、A/Bテストであった本当に怖い話などなどたくさんのトピックがありました。
      個人的には特に(間違ってCTRが300%増大するようなバグを埋め込んだ反省から)軽微な修正でも常にA/Bテストをしなさいという助言や、少ないサンプルサイズで検定を効率的に行うために、いわゆる金融工学でよく使われているモンテカルロ法の分散減少法を用いている点が面白いなと感じました。

      2日目のワークショップでは、AdKDD&TargetAdというセッションに参加しました。
      階層ベイズモデルを用いてCTRを予測する話や、ユーザがコンバージョンするまでにクリックした広告をどう評価するのか(アトリビューション分析)といった実務的にも重要な話題についてのトークが多数ありました。

      3日目〜5日目の本会議では、Takaguchiと同様に、Applied Data ScienceセッションおよびApplied Data Science Invited talkセッションを中心に参加しました。ここでは2つの論文を取り上げて内容を紹介します。

      False Discovery Rate Controlled Heterogeneous Treatment Effect Detection for Online Controlled Exper

      「ABテストの結果に寄与するheterogeneity(例:国・性別・使用デバイスなど)をどのように検出するか、また検出されたものがどの程度誤検出(False Discovery)なのか」という問題を解決するためのアルゴリズムの提案です。具体的には、いわゆる多重検定の文脈で登場してくるFalse Discover Rate (FDR)をある一定水準以下に制御しつつ、heterogeneityを同定するものです。
      「寄与する因子(heterogeneity)を同定しつつその正しさも測れる」手法はABテストを正しく効率良く行うためには必須なものと考えるので、この論文に限らず調査を続けようと思いました。

      Computational Advertising at Scale

      個人的にAdKDDよりも面白いなと感じた講演(Invited Talk)がこれでした。話者はCriteoのResearch HeadのSuju Rajan氏で、いままでのCriteoのReseachチームが行ってきた研究のダイジェストな要約という側面が強かったのですが、全体を通してみると各々の研究がどのようにリアルな広告配信システムに組み込まれているのがよく理解でき、とても興奮しました。

      「CTR予測モデルはやはりCriteo社が考案したField-aware Factorization Machinesを使っているのか!」や、日本でも研究例がありますがコンバージョンの時間遅れをどのようにモデルに組み込むのか、また勝った広告オークションの結果しか手元には残らないBID Skewedの問題、アトリビューションの考え方・方法論などなど盛りだくさんの内容でした。後日動画がYoutubeにアップロードされた際には復習を兼ねて視聴しようと思っています。また本会議中には多数の企業ブースも出展されており、そこのブースにいる方々に有用なお話をたくさん聞くことができたのもとても良い経験でした。

      私も多数質問をし、手法や研究内容に対する理解を大変深めさせていただきました。


      ▲Criteoさんのブースで、ある予測手法の細かい点を質問している同僚エンジニア)

      おわりに

      本会議に参加したことによって、この研究分野における最先端の動向と人々の熱気を肌で感じることができました。研究発表の内容は直接参加せずとも論文原稿から読み取れますが、研究も人の営みなので人を知り雰囲気を知ることには意義があると思います。

      Data Labs Data Analysisチームでは、データサイエンティストを積極的に募集しています。最新の研究動向を学んで業務に活かせる機会がたくさんありますので、興味のある方はぜひ応募をご検討ください。