回り回ってデータエンジニアと呼ばれています
はじめに こんにちは。LINE Plus Messaging Data Eng Dev (NP)チームのデータエンジニア Jeong Woo-Yeongです。HiveQL(Hive SQL)プロセスをSpark SQLに移行する課題に取り組んでいます。主に、INSERT OVERWRITE TABLEというSQL文を使ってデータを格納しましたが、Sparkの設定によって、Hiveではみられなかったさまざまな現象が発生しました。この記事では、その原因と解決方法を探す過程で分かったことを紹介します。まず、作業を始めることになった背景と作業環境を紹介し、HiveQLからSpark SQLに移行した過程を共有し、Sparkの設定によって発生したさまざまな現象と各現象の再現方法や原因と対応方法について説明します。 作業の背景、対象、および環境 作業の背景 まず、今回の作業を始めることになった背景を紹介します。LINEのデータ環境を管理するデータプラットフォーム室では、これまで使用してきたHiveの使用を段階的に停止してSpark環境に移行するという方針となりました。Hiveのコミュニ
はじめに LINEの「タイムライン」に「ディスカバー」機能と、新たな購読モデルとなる「フォロー」機能が追加されました。ユーザーにとっては目新しい機能ではないかもしれませんが、これらの機能を実装するにあたって、私たちが何に悩み、工夫したかをみなさんに共有したく、この記事を書くことになりました。今回の記事を皮切りに全3回のシリーズで、詳しい情報をお届けしたいと思います。 LINE Timelineの新たな挑戦vol.1 - おすすめのコンテンツが発見できる「ディスカバー」と新しい購読モデルの「フォロー」 LINE Timelineの新たな挑戦vol.2 - ディスカバー配信システムの紹介 LINE Timelineの新たな挑戦vol.3 - ディスカバー・レコメンド・モデルの詳細 新たな挑戦の始まり 「ディスカバー」と「フォロー」は、サービス観点から数年前より議論されてきたテーマでしたが、LINEはプライベート空間という認識が強いソーシャル環境であることを考慮する必要があったため、私たちはその扱いについて長い間悩んできました。既存のタイムラインは、友だち
ソフトウェアエンジニアです。Ads Platformの開発チームに所属しています。
この記事は、 LINE Engineering Blog 「夏休みの自由研究 -Summer Homework-」 の 12 日目の記事です。 こんにちは、LINE Ads Platformの開発チームに所属している新卒1年目の佐藤邦彦です。本記事では、Pythonを使って任意のSignal-to-Noise比(SN比)の音声波形を作る方法を紹介します。なお、本記事の内容は、Clova等の弊社音声事業とは関係ありません。 音声のDeep Learning 画像処理分野においてDeep Learningが技術革新を起こしてから久しいですが、同様のことが音声処理の分野においても起きています。Deep Learningによって音声認識の精度は格段に上がり、Amazon EchoやGoogle Home, LINE ClovaなどのAIスピーカーが市場に普及しました。また、コンピュータによる音声生成(Text-to-Speech)の精度も上がり、その質は人間の声と区別が付きづらいほどです。 Deep Learningで音源分離したい 上記に挙げた音声処理以外にもDeep Learningによっ
LINE Data Labs データエンジニア
この記事は、 LINE Engineering Blog 「夏休みの自由研究 -Summer Homework-」 の 2 日目の記事です。 LINE Data Labs のデータエンジニアの吉田啓二です。昨年から行っている「 LINE の全社員が必要に応じて担当サービスのデータを分析できる環境を構築・提供する」という取り組みをご紹介します。 LINE Data Labs とは LINE Data Labsは、 LINE の各サービスのデータの収集・処理・集計・分析を専門的に行うことで、データの分析・活用という側面から各サービスの成長を支えることを目的とした部署です。Hadoop クラスタへの各サービスデータの収集、データを集計・可視化する BI/レポーティングツールの提供、データ分析による各サービスの状態把握・意思決定支援、各サービスの価値向上を目的とした機械学習の適用など、データに関する多岐に渡る業務を、合計約 50 名の機械学習エンジニア・データサイエンティスト・データプランナー・データエンジニアが、お互いに協力して遂行しています。 BI/レポーティングツール提供業務の課題 LI