LINE Data Platform室IU DevチームでData Catalog(IU Web)の開発をしています。
はじめに こんにちは、Data Platform室IU Devチームの島村です。 Data Platform室では、約400ペタバイトのデータ分析基盤を運用しております。このData Platformは、「Information Universe」(以下、IU) と呼ばれており、LINEの様々なアプリケーションから生成されるデータをLINE社員が活用できるように、データの収集、処理、分析、可視化を提供しています。私が所属するIU Devチームでは、「IU Web」を開発しています IU Webは、IUのデータを安全にかつ効率的に活用できるようにするData Catalog機能を提供しており、LINEグループのあらゆるサービスから利用されています。 IUにおいて、Data Pipelineが複雑になるにつれて、データに関する問題が発生した際のデータの関係性の把握が難しくなっていました。この問題を解決するために、IU Webでは、Data Lineage機能を導入しました。この記事では、導入したData Lineage機能と、機能開発時に発生した問題及びその解決方法についてご紹介
こんにちは。東京大学大学院修士1年の鈴木凌斗と申します。8月23日から6週間、技術職 就業型コースのインターンシップに参加しました。 今回のインターンではData Platform室 IU Devチームに所属し、LINE社内で利用している「IU Web」というデータカタログの検索機能改善に取り組みました。本ブログでは、その内容について紹介します。 背景 IU Webについて 参考:LINEがサービス横断で実現する"データ活用の民主化" LINEでは全社横断でデータを活用するために「IU」(Information Universe) と呼ばれるデータプラットフォームを利用していて、LINEのほぼすべてのサービスのデータがここに集積されています。現時点でサーバ台数は2,000台以上、ストレージ使用量は約300PBとなっています。 「IU Web」はIUのデータを管理するデータカタログとして以下を提供します。 どのようなデータが存在するか データの権限は誰にあるか データのメタ情報 データの検索機能 社内ユーザは、IUに存在する大量のデータの中から目的のデータにアクセスするためにIU
2021年夏のインターンシップに参加した海野良介です。普段はゲーム環境での強化学習の利用についての研究を行なっています。今回のインターンシップでは、Data Platform室・Data Engineering3チームに所属しました。この記事では、インターン期間中に私が取り組んだ内容について紹介します。 背景・課題 現在Data Platform室では300PB以上のディスク容量、2000以上のデータノードからなる、大規模なHadoopクラスタを運用しています。これらのクラスタ上では、監査目的のためにHadoopクラスタ内での全てのアクティビティログ(Audit log)を記録しています。記録されたAudit Logに対しては1日単位でバッチ処理によるテーブル形式への変換が行われています。このテーブルはHadoopクラスタで問題が発生した際に原因分析などの手段として利用されます。しかし現状の1日ごとにバッチ処理を行う場合ですと、問題発生からAudit logを使った分析までの間に遅延が発生してしまいます。そこで、Audit logを低遅延なシステムで分析し、問題が発生した際の原因調査や
ML Privacyチーム マネージャー / シニアリサーチャー 博士(工学)
LINE Data Scienceセンター、Machine Learning Researchチームの高橋です。2019年夏季インターンの高木さんとの共同研究成果をトップカンファレンスICDE2021で発表しました。 ICDE 2021について IEEE主催のICDE 2021 (37th IEEE International Conference on Data Engineering)は、データベース・データ工学分野におけるトップカンファレンスです。SIGMODやVLDBと並ぶDB系三大会議として知られています。本年度は、4月19日〜22日にかけてギリシャのハニアで開催予定でしたが、昨今のCOVID-19の感染拡大の影響から、オンラインのバーチャルカンファレンスとして開催されました。LINEからは、高橋と2019年の夏にLINEのインターンに参加した高木駿さんとの共同研究の成果が採択され、発表の機会を頂きました。採択率は28%と例年と比べると高い水準でした (これまでは20%を下回るような採択率でした)。 発表内容 我々の発表内容は、生成モデルのプライバシ保護に
こんにちは、Data Platform室の小野です。Data Platform室では、昨年のLINE DEVELOPER DAYでも発表があったように、大規模なHadoopクラスタを運用しています。 先日、分析基盤に特化したデータセンターのルームが構築され、ここへクラスタの移行作業を行いました。このクラスタは全社的に使われており、毎日10万個以上のジョブが走っています。そのため、クラスタを止めずに移行することが求められました。 この記事では、そのときどのようにHadoopクラスタを移行したのか、そしてどのような問題が起こったのかについて、ご紹介します。 今回は、以下の4つのコンポーネントに絞って、ご紹介します。 ResourceManager NameNode JournalNode Zookeeper 現在使用し ているソースのバージョンについては、LINE独自でパッチをあてたり、いくつかバックポートを行なっていたりするため、オープンソースとして公開されているソースと完全に一致するものではないですが、Hadoopは3.1.2、Zookeeperは3.5.5がベースとなっていま