UseR!2018に参加し、社内Rパッケージ「liner」の活用事例を紹介しました

ドーモ、Data LabsのYutani (湯谷)です。

私の所属しているData Labsは、LINEメッセンジャーを含めた全サービスのデータの分析・研究・応用のための専門的な開発組織です。
サービスの事業領域を超えて、各サービスのログや利用動向などのデータを横断的に処理し、より精密なデータ分析と情報フィルタリングを提供し、全サービスのデータの効率的な活用を目標に日々精進しています。

2018年7月10日〜13日に開催されたUseR!2018に参加しポスター発表を行いました。その様子の一部をブログで紹介します。

UseR!とは

UseR!は、世界中からRユーザが集まるR界最大のカンファレンスです。毎年1回、世界各地で開催されており、2018年はオーストラリアのブリスベンでした。

カンファレンスではRに関連する最新情報や研究成果などが発表されます。UseR!のプログラムには、招待制の基調講演、公募制の通常講演・ポスター発表・チュートリアルがあります。今回、弊社からは、社内Rパッケージ「liner」の活用事例をTakayanagi (高柳)と私がポスター発表を行いました。

linerパッケージとは

linerは、円滑なデータ分析業務をサポートするために作られたRパッケージです。データの取得、分析、レポーティング、そして結果の共有にいたるまで、様々な便利機能を提供しています。

例えば、様々なデータソースへの接続の設定をまとめたり、分析結果の可視化にコーポレートカラーを使ったり、SlackやLINEに通知を送ったり、といったものです(RStudioからLINE LIVEを観る、といった謎機能もあります)。

派手な機能はありませんが、データサイエンティストを余計な手間から解放する重要なパッケージです。私が所属するチームではRユーザが多いこともあり、おおいに活用されています。

ポスター発表の様子

ポスター発表は1日目の夕方と2日目の昼に分けて行われました。私たちの出番は前半でした。ポスターのサイズが想定と異なり、直前で修正するというドタバタもありましたが、なんとか間に合いました。いつも冷静なTakayanagiの顔にも焦りがにじんでいます。

始まってみれば盛況で、ポスターの前には人が絶えませんでした。企業内でのRの活用事例ということで、同じように企業で働いてRを使っている人から具体的な質問が多く寄せられました。聞いてみるとみな同じような悩みを抱えていたりして、共感の言葉もたくさんもらえました。慣れない英語にしどろもどろでしたが、楽しい時間になりました。



気になったセッション

4日間で見たセッションすべてを紹介すると長くなってしまうので、私と高柳が個人的に気になったものをいくつかピックアップします。他にも、セッションは全てR ConsortiumのYouTubeチャンネルから観ることができます。気になるものがあればぜひチェックしてみてください。

The Grammar of Animation

スライド

gganimateパッケージの紹介。可視化は、昨今のJavaScriptベースのライブラリの隆盛によって「static ↔︎ interactive」という軸で語られがちですが、そこにもう一つ「animated」という軸を加えよう、という提案が新鮮でした。ggplot2がその背後にある「The grammar of graphics」の思想によって可視化の新たな地平を切り開いてきたように、grammar of animationもまた新たな扉を開いていくのかもしれません。

Moving from Prototype to Production in R: A Look Inside the Machine Learning Infrastructure at Netflix

スライド

「NetfixがどのようにRを活用しているのか?」からはじまり、現在開発している内製Workflow管理ツール「Metaflow」の紹介Talkでした。Netflixでは約30%の人がRを用いてデータ分析をしており、それに関するデータ処理のバッチ・システム化を企図し、データサイエンティストでも簡単にWorkflow(日次バッチなど)を書くことのできるMetaflowというツールを内製しているとのことでした。近い内にOSS化するとのことです。

現在ですと、LuigiやAirflowが比較的人気あるWorkflow管理ツールかなと思いますが、ここにRに特化したMetaflowも入ってきそうで、まさに群雄割拠のWorkflow管理ツール戦国時代というところでしょうか。

Recipes for Data Processing


スライド

Apache SparkやScikit-Learnで使われている”機械学習パイプライン処理”のデータ前処理特化版のパッケージ、その名も recipe パッケージの紹介でした。

Linuxの”パイプ”で処理をつなげるか如く、「Rでデータ前処理のパイプラインを構築&記憶しておき、それを実際のデータに適用する」という書き方ができるようになります。

こうすることで、煩雑になりがちなデータの前処理を再現性高く、Codeも綺麗な状態に保つことができ、大変有用なパッケージだなと思いました。

Statistical Inference: A Tidy Approach using R

スライド

Rは統計学に強い言語なので、統計検定の手法の豊富さが1つの売りでしたが、いささか、その書き方がOld Fashionなところがネックでした。

このTalkでは、この問題を解決するために開発している infer パッケージの使い方や機能を紹介しています。

このパッケージを用いることで、より”ナウい”Rの書き方(所謂tidyverse的な記法)で統計検定ができるようになり、他のデータ処理と親和性高くプログラミングできるので大変便利だなという印象を持ちました。

参加してみて

インターネット上だけでもさまざな情報が手に入る時代ですが、やはりR界の最前線の空気感に触れられたのはよかったです。また、休憩時間には(勇気さえあれば)有名人を捕まえて直接質問することもできます。UseR!は、知り合い同士がわいわいする雰囲気でありながら、新しく来た人にもウェルカムな空気があり、日本のRコミュニティと似た温かさを感じました。また参加したいです。

LINEではRを仕事でバリバリ使いたいデータサイエンティストを募集しています。ぜひ私たちといっしょに来年のUseR!に行きましょう!(もちろんR派ではない人も大歓迎です)

Related Post