Taishi Eguchi
2022-12-26IU Devチーム
はじめに
こんにちは。東京大学大学院修士1年の江口大志です。10月から12月にかけてのパートタイムジョブという形で、LINEでソフトウェアエンジニアとして働きました。
今回はData Platform室のIU Devチームに所属し、LINE社内のData Catalogの検索精度の改善に取り組みました。本ブログではその内容について紹介します。
背景
LINEでは、社内のデータ利活用を促進するためにInformation Universe(以下、IU)と呼ばれる内製のデータプラットフォームを利用していて、LINEのほぼ全てのサービスから生成されるデータが集積されています。
図. LINEの内製のデータプラットフォーム(参考)
現在IUでは、4万テーブルに約400 PBのデータが入っており、それらのデータは毎日150,000ものジョブで生成・変更され増え続けています
「IU Web」は、IUのデータを安全かつ効率的に活用できるように、Data Catalogとして以下のような機能を提供しています。
データの検索機能
データの権限管理
データのメタデータの管理機能(Data Linea