Hadoop

ダウンタイムなしでHadoopクラスタを移行した時の話

こんにちは、Data Platform室の小野です。Data Platform室では、昨年のLINE DEVELOPER DAYでも発表があったように、大規模なHadoopクラスタを運用しています。


この記事では、そのときどのようにHadoopクラスタを移行したのか、そしてどのような問題が起こったのかについて、ご紹介します。

データエンジニアリング関連ソフトウェアの障害対応事例

この記事は LINE Advent Calendar 2018 の 3 日目の記事です。 LINE Data Labs のデータエンジニアの吉田啓二です。私が昨年末から今年にかけて担当したデータエンジニアリング関連ソフトウェアの障害対応内容をいくつかご紹介します。 1. Apache Hadoop YARN : ResourceManager Failover 1-1. システム概要 Data Labs が管理している Hadoop クラスタの中で、各 LINE サービスのデータを収集して一元管理しているものがあります。 Apache Sqoop などを使用して各 LINE サービスのデータが HDFS へ取り込まれます。 YARN クラスタ上では MapReduce, Tez, Spark などのアプリケーションが実行され、これらのデータに対する集計・加工などの処理が実施されます。システム構成は以下の通りです。 この Hadoop クラスタは HDP-2.6.2.0 (2.6.2.0-205) で構築されており、 YARN のバージョンは 2.7.3 です。 1-2. 発生事象 この Hadoop […]

Comprehensive Security for Hadoop

(This is the 8th article of LINE Advent Calendar 2016)

Hello everyone, this is Neil Tu from Data Labs. I am in charge of Hadoop architecture at Line Corp. I construct and manage Hadoop clusters and their ecosystems, and supply a high availability, and high performance platform for the engineers and data analysts in our group.

Today, the topic we are going to talk about is “Comprehensive Security for Hadoop”.

Abstract

Nowadays, Hadoop has become a popular platform for data storage, data analysis, reporting, and distributed calculations. Basically, Hadoop cluster is an open platform that supplies users with the required resources and HDFS capacity to execute queries. But as you know, Hadoop cluster comprises of many different componments with their own administration models, such as HDFS, Yarn, hive etc. It needs to access each componment to modify or edit access permissions. This is hard to manage, so a central management tool is necessary. Maybe it is better to name it ‘Framework’. Currently, there are some united open source administration management frameworks. Ranger for Hortonworks, and Sentry for Cloudera. Beside this, Ambari, HDFS and Yarn all provide a UI to track the status of a job or the job history. Sometimes you don’t want the information of a cluster to be seen by others, so you may need a tool which can do the user authentication for you. For this requirement, Knox can help you to achieve. You can regard Knox as a reverse proxy which provides a single REST API access point of authentication and access for Hadoop services.