新卒エンジニアの仕事〜2020年入社のデータサイエンティスト編〜

はじめに

こんにちは、2020年春に新卒としてLINE株式会社に入社した小坪琢人です。主にLINE Pay、LINEウォレット関連のデータ分析を行うチームに所属しています。

学生時代は時系列データ (株価や気温変化など)に関する解析手法について研究を行っていました。研究以外では企業・学会が主催するコンペティションやR言語の勉強会に参加していました。このような活動を通じて、データサイエンティストという職業に興味を持ちました。学部時代に就職活動をしていたときは、そもそもデータサイエンティストという職業すら知らなかったので、その点でも大学院に行く価値があったと思います。

就職活動はデータ分析チームがある事業会社かつR言語が使用できるという軸で行いました。LINEのデータサイエンスチームはRやpythonの得意な方、あるいは両方を業務に合わせて使用することができます。LINEには「OASIS」というデータ分析ツールがあり、SQLでデータを抽出→ Rやpythonで集計・分析という一般的なフローを誰でも簡単に行うことができます。

全体研修・エンジニア研修を終えて、興味を持っていた LINE Payに関する分析チームに配属しました。
この記事では、6月末にチームに配属されてからの自分の取り組みやデータサイエンティストの仕事についてお話ししていきたいと思います。

食いだおれPayトクキャンペーンの効果検証

2020年7月に行われた、食いだおれPayトクキャンペーンの効果検証について紹介します。期間中に対象の店舗で3000円以上利用すると利用金額に応じて後日クーポンが配布されるという枠組みのキャンペーンです。

効果検証の主な目的は、キャンペーンの影響により店舗の売上がいくら上がったかを定量的に評価することです。例えば下記のようにキャンペーンを実施した店舗Aの売上が下記のように得られた場合を想定します。ここで単純に 150万円-100万円=50万円 をキャンペーンの影響とすることは問題があります。なぜならキャンペーン以外の要因による売上の増加(例えば、事業自体の成長率など)を含むためです。事業自体が成長している場合、キャンペーンの有無に関係なく売上が伸びている可能性が高く、この方法だとキャンペーンの影響を過大に見積もることになります。キャンペーンの影響による売上の増加を適切に推定するためには、祝日などの影響や店舗独自のキャンペーンなどを考慮する必要があります。この手法は前後比較と呼ばれる最も簡易的な効果検証の手法になります。

キャンペーンを実施した店舗A
キャンペーン前の売り上げ100万円
キャンペーン中の売り上げ150万円

前後比較における問題点を解決する手法として差分の差分法 (difference in defferences) という手法があります。先ほどの情報に加えて、キャンペーンを実施していない店舗Bの売上を用いて, (150-100) – (60 – 50)= 40万円というような推定を行います。店舗A, Bの成長率が同様であるという仮定の下で、店舗Aの売上の増分から店舗Bの売上の増分を引くことで、キャンペーンのみの効果を推定しています。実際の分析においてはキャンペーンを実施した店舗も実施していない店舗も複数あるため、様々な調整を行っています。この様にデータサイエンスチームでは統計解析手法や統計検定を利用して、キャンペーンの効果を適切に推定し、次回のキャンペーン設計に活かす意思決定を支援することで事業に貢献しています。

キャンペーンを実施した店舗Aキャンペーンを実施していない店舗B
キャンペーン前の売り上げ100万円50万円
キャンペーン中の売り上げ150万円60万円
その他の業務について

下記のような業務を各自が並行して作業を進めています。開発系のチームに比べると個人でタスクを進めることが多いと思います。データやサービスに関して知らないことはSlackやミーティングで適宜確認しながら作業を進めています。

  • LINE関連サービスのLINE公式アカウントや「ウォレット」タブにおけるターゲティング広告対象者の選定
  • キャンペーン等におけるモニタリング用のダッシュボード作成 (OASIS、Tableau)
  • キャンペーンやイシューに対するアドホックなデータ分析

働く環境について

データサイエンスチームとしての活動

LINEのデータサイエンスチーム (以下DSチーム) はサービスごとに4つのチームに別れています。基本的には担当サービスの業務に従事していますが、チームを跨いだプロジェクトや日常的な他サービスへの質問は活発に行われています。毎週一時間ほど、DSチーム全体で分析事例共有会を行っており各種サービスや分析手法の共有を行っています。
https://speakerdeck.com/line_devday2019/data-science-drives-improvement-of-line-messenger?slide=6

DSチームが1つの組織として横断的にLINEのサービスに関わるという構成はLINEの特徴だと感じています。そのため、普段関わりの少ないサービスについても利用方法や注意点などを気軽に入手できるという強みがあります。また、分析事例などをDSチームの外側に向けて公開する取り組みも進めています。他のサービスでの活用事例を紹介することで、「データを使って何ができるか?」をLINE全体で共有することができると考えています。

リモート環境でのコミュニケーション

  1. 所属チームでの進捗共有会 (週1回)
  2. メンターとの1on1 (週1回)
  3. マネージャーとの1on1 (週1回)
  4. LINE Payの事業チームとのミーティング (週1回)
  5. LINE PayのCEOを交えたミーティング (月1回)

メンターやマネージャーとのミーティングでは, 業務の進捗報告やちょっとした世間話をしています笑。業務上の質問は基本的にはSlackでやりとりしますが、ミーティングで再度確認することもよくあります。その中での取り組みとして、新たに得た知見はwikiなどに記録するようにしています。LINE Payの事業チームとのミーティングでは、分析案件の中から共有すべき内容を選定し、事業チームと議論しています。事業に関するドメイン知識やビジネスの経験則などデータ上では知り得ない情報を加えて議論できるので、非常に有意義だと感じています。

LINE Payの事業チームとのミーティングの様子

おわりに

LINEはユーザの規模が大きいので、1%のユーザの増減が売上に大きく影響します。例えばLINEスタンプのレコメンド機能を強化して、0.1%のユーザが100円のスタンプを1つ購入すると840万円程度の売上を生み出すことができます。(2020年9月時点の日本の月間アクティブユーザ数: 8600万人) このようなインパクトを身近に感じることができるのは、LINEで働く1つのやりがいであり、特にデータを扱う私たちの仕事では常に感じることです。LINEには豊富なデータだけではなく、優秀なエンジニアがたくさんいるので、働く環境としても学ぶ環境としても非常に良いと感じています。

LINEのデータサイエンティストという仕事に少しでも興味を持っていただければうれしいです!

参考ページ