2021年夏のインターンシップに参加した海野良介です。普段はゲーム環境での強化学習の利用についての研究を行なっています。今回のインターンシップでは、Data Platform室・Data Engineering3チームに所属しました。この記事では、インターン期間中に私が取り組んだ内容について紹介します。 背景・課題 現在Data Platform室では300PB以上のディスク容量、2000以上のデータノードからなる、大規模なHadoopクラスタを運用しています。これらのクラスタ上では、監査目的のためにHadoopクラスタ内での全てのアクティビティログ(Audit log)を記録しています。記録されたAudit Logに対しては1日単位でバッチ処理によるテーブル形式への変換が行われています。このテーブルはHadoopクラスタで問題が発生した際に原因分析などの手段として利用されます。しかし現状の1日ごとにバッチ処理を行う場合ですと、問題発生からAudit logを使った分析までの間に遅延が発生してしまいます。そこで、Audit logを低遅延なシステムで分析し、問題が発生した際の原因調査や
こんにちは、Data Platform室の小野です。Data Platform室では、昨年のLINE DEVELOPER DAYでも発表があったように、大規模なHadoopクラスタを運用しています。 先日、分析基盤に特化したデータセンターのルームが構築され、ここへクラスタの移行作業を行いました。このクラスタは全社的に使われており、毎日10万個以上のジョブが走っています。そのため、クラスタを止めずに移行することが求められました。 この記事では、そのときどのようにHadoopクラスタを移行したのか、そしてどのような問題が起こったのかについて、ご紹介します。 今回は、以下の4つのコンポーネントに絞って、ご紹介します。 ResourceManager NameNode JournalNode Zookeeper 現在使用しているソースのバージョンについては、LINE独自でパッチをあてたり、いくつかバックポートを行なっていたりするため、オープンソースとして公開されているソースと完全に一致するものではないですが、Hadoopは3.1.2、Zookeeperは3.5.5がベースとなっていま
LINE Data Labs データエンジニア
この記事は LINE Advent Calendar 2018 の 3 日目の記事です。 LINE Data Labs のデータエンジニアの吉田啓二です。私が昨年末から今年にかけて担当したデータエンジニアリング関連ソフトウェアの障害対応内容をいくつかご紹介します。 1. Apache Hadoop YARN : ResourceManager Failover 1-1. システム概要 Data Labs が管理している Hadoop クラスタの中で、各 LINE サービスのデータを収集して一元管理しているものがあります。 Apache Sqoop などを使用して各 LINE サービスのデータが HDFS へ取り込まれます。 YARN クラスタ上では MapReduce, Tez, Spark などのアプリケーションが実行され、これらのデータに対する集計・加工などの処理が実施されます。システム構成は以下の通りです。 この Hadoop クラスタは HDP-2.6.2.0 (2.6.2.0-205) で構築されており、 YARN のバージョンは 2.7.3 です。 1-2. 発生事象 こ
LINE Engineering Blog official account
(This is the 8th article of LINE Advent Calendar 2016) Hello everyone, this is Neil Tu from Data Labs. I am in charge of Hadoop architecture at Line Corp. I construct and manage Hadoop clusters and their ecosystems, and supply a high availability, and high performance platform for the engineers and data analysts in our group. Today, the topic we are going to talk about is "Comprehensive Security for Hadoop". Abstract Nowadays, Hadoop has become a popular platform for data storage, data analysis,
Messaging Platform Engineering
こんにちは.サービス開発2チームの中村です. 先日1/23に行われた日本最大級のHadoopユーザー会イベント,「Hadoop Conference Japan 2013 Winter at 東京ビッグサイト」にて,私,中村と同チームの大平が講演させていただきました. Storage infrastructure using HBase behind LINE messages from NAVER Japan 中村の方からは,まずLINEのサービスやストレージの要件と現在の1億ユーザーを支えるHBaseで扱う規模感を共有しました.後半では,HBaseのサービス投入から1年経過して,我々のために作ったもの・得られたノウハウについて少しだけ紹介しました. ポイントは,HBaseをリアルタイムサービスのストレージとして採用し,ノンストップ環境の中でどのように可用性の高いストレージの構築を目指しているか,という点です.このために,HBaseが備えるレプリケーションやリージョンの自動管理機能などは使用せず,自分たちのサービスに特化させた方法を利用しています. 後半の内容は,敢えてHBase