Data

LINEの大規模なData PlatformにData Lineageを導入した話

こんにちは、Data Platform室IU Devチームの島村です。
Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサービスから利用されています。

IUにおいて、Data Pipelineが複雑になるにつれて、データに関する問題が発生した際のデータの関係性の把握が難しくなっていました。この問題を解決するために、IU Webでは、Data Lineage機能を導入しました。この記事では、導入したData Lineage機能と、機能開発時に発生した問題及びその解決方法についてご紹介します。

【インターンレポート】IU Web 検索補完機能の実装

こんにちは。東京大学大学院修士1年の鈴木凌斗と申します。

8月23日から6週間、技術職 就業型コースのインターンシップに参加しました。

今回のインターンではData Platform室 IU Devチームに所属し、LINE社内で利用している「IU Web」というデータカタログの検索機能改善に取り組みました。本ブログでは、その内容について紹介します。

【インターンレポート】Spark streamingを用いたログ分析パイプラインの開発

2021年夏のインターンシップに参加した海野良介です。普段はゲーム環境での強化学習の利用についての研究を行なっています。今回のインターンシップでは、Data Platform室・Data Engineering3チームに所属しました。この記事では、インターン期間中に私が取り組んだ内容について紹介します。

ICDE2021参加報告

IEEE主催のICDE 2021 (37th IEEE International Conference on Data Engineering)は、データベース・データ工学分野におけるトップカンファレンスです。SIGMODやVLDBと並ぶDB系三大会議として知られています。本年度は、4月19日〜22日にかけてギリシャのハニアで開催予定でしたが、昨今のCOVID-19の感染拡大の影響から、オンラインのバーチャルカンファレンスとして開催されました。LINEからは、高橋と2019年の夏にLINEのインターンに参加した高木駿さんとの共同研究の成果が採択され、発表の機会を頂きました。採択率は28%と例年と比べると高い水準でした (これまでは20%を下回るような採択率でした)。

ダウンタイムなしでHadoopクラスタを移行した時の話

こんにちは、Data Platform室の小野です。Data Platform室では、昨年のLINE DEVELOPER DAYでも発表があったように、大規模なHadoopクラスタを運用しています。


この記事では、そのときどのようにHadoopクラスタを移行したのか、そしてどのような問題が起こったのかについて、ご紹介します。

LINEのストレージ効率化を支えるJPEG↔HEIF変換プロジェクト「Antman」開発記

写真や動画などのLINEのメディアデータは、すべてLINEのメディアプラットフォームが運営するメディアストレージ「OBS(Object Storage)」で管理しています。OBSは、LINEとLINEファミリーサービスで使うメディアデータを管理しており、計100PB(PetaByte:ペタバイト)くらいのストレージを使用しています。そのうち約30PBを占めているのが、このLINEのアルバム機能なのです。すべてのデータをサーバーに保存しなければならないので、ストレージサーバーの費用だけでも無視できないくらい高い費用がかかっています。