LINE株式会社は、2023年10月1日にLINEヤフー株式会社になりました。LINEヤフー株式会社の新しいブログはこちらです。 LINEヤフー Tech Blog

Blog


Hadoop Conference Japan 2013 Winterで話してきました!

こんにちは.サービス開発2チームの中村です.

先日1/23に行われた日本最大級のHadoopユーザー会イベント,「Hadoop Conference Japan 2013 Winter at 東京ビッグサイト」にて,私,中村と同チームの大平が講演させていただきました.

Storage infrastructure using HBase behind LINE messages from NAVER Japan

中村の方からは,まずLINEのサービスやストレージの要件と現在の1億ユーザーを支えるHBaseで扱う規模感を共有しました.後半では,HBaseのサービス投入から1年経過して,我々のために作ったもの・得られたノウハウについて少しだけ紹介しました.

ポイントは,HBaseをリアルタイムサービスのストレージとして採用し,ノンストップ環境の中でどのように可用性の高いストレージの構築を目指しているか,という点です.このために,HBaseが備えるレプリケーションやリージョンの自動管理機能などは使用せず,自分たちのサービスに特化させた方法を利用しています.

後半の内容は,敢えてHBaseに慣れ親しんでいる方向けにお話しましたが,HBaseのアーキテクチャやデータ構造を理解すれば容易にわかる話ですので,Cloudera 嶋内さんの講演馬本を熟読していただければ,と思います.もちろん理解にはHadoopやNoSQLに対する基本概念を要します.

Fast and peaceful data collection into the Hadoop. from NAVER Japan

大平の方からは,日々の解析に使用するデータをどのような手段でHadoopに保存するか,ケーススタディという形で紹介いたしました.
一般的には,バッチ処理的な仕組みでデータを登録しますが,データ規模が大きくなればなるほど負荷高騰や処理時間の増大という問題が深刻になってきます.その解決策の一例として,FluentdKodama (MySQL Binlog API)などのOSSを用いて,データソースからストリーム的にデータ登録を行なう事例を説明させていただいています.

最後に,運営のリクルート様,及び,主催のHadoopユーザー会の皆様に感謝いたします.私達の発表が皆様のお役に立てたら幸いです.