LINE Data Labs에서 데이터 개발자로 일하고 있습니다.
안녕하세요. LINE Data Labs에서 데이터 엔지니어로 일하고 있는 Keiji Yoshida입니다. 저는 이번 글에서 데이터 엔지니어링 관련 소프트웨어 장애 대응 사례를 몇 가지 소개하고자 합니다. Apache Hadoop YARN 리소스 매니저 failover 발생 문제와 해결 방안 YARN은 Apache의 오픈 소스 분산 처리 프레임워크인 Hadoop의 주요 기능 중 하나로 리소스 관리 및 작업 스케줄링을 담당합니다. Failover는 주 시스템에 장애가 발생했을 때 예비 시스템이 기능을 넘겨받아 운용하는 백업 모드입니다. 시스템 개요 LINE Data Labs가 관리하는 Hadoop 클러스터 가운데 각 LINE 서비스의 데이터를 수집하여 하나로 모아 관리하는 것이 있습니다. 각 LINE 서비스의 데이터는 Apache Sqoop 등을 사용하여 HDFS에 저장됩니다. YARN 클러스
LINE Data Labs의 데이터 엔지니어 Keiji Yoshida입니다. 저희 부서는 2017년부터 LINE 직원이라면 누구든지 담당하는 서비스의 데이터를 필요할 때 분석할 수 있는 환경을 구축하여 제공하는 작업을 수행해왔습니다. 이번 글을 통해 이 작업을 여러분께 소개하고자 합니다. LINE Data Labs란 LINE Data Labs는 LINE의 각 서비스의 데이터를 수집, 처리, 집계, 분석하는 작업을 전문화하여 분석된 데이터를 활용하여 각각의 서비스가 성장할 수 있도록 지원하는 부서입니다. 약 50명의 머신 러닝 엔지니어, 데이터 사이언티스트, 데이터 기획자, 데이터 엔지니어가 서로 협력하여 데이터를 수집하고 데이터 집계 및 가시화에 필요한 BI(Business Intelligence)/리포팅 서비스를 제공하는 것뿐만 아니라 서비스 관계자들이 의사 결정할 때 활용할 수 있도록 수집된 데이터를 분석하고 그 결과를 제공하고 있습니다. 또한 각 서비스에 머신 러닝을