前言
大家好,我是來自 LINE Taiwan 資料工程團隊的 Charlie Wang,這次很高興有機會可以在自己的辦公室跟前來企業參訪的學弟妹們分享自己在數據這塊的一些經驗,相信各位在學時已經有學到許多的內容,只是需要更多的了解來去幫大家整理相關的知識,以下就透過文章的方式介紹給大家。
整場活動影片
投影片:數據的多重宇宙 @ LINE Taiwan - Speaker Deck
LINE 資料工程團隊介紹 - 資料與應用
為了達到 Closing the distance 的目標,LINE 除了核心的通訊功能外,還發展了很多周邊的服務,像是新聞、購物、旅遊、音樂、貼文串等等,成為了智慧生活入口,24小時隨時滿足用戶需求,讓你一整天的活動都有LINE可以陪伴,而這些服務就產生了大量的內容跟數據。Data Development 團隊透過機器學習或統計方法,從巨量資料中深入瞭解內容與使用者,進而優化這些服務的使用者體驗。
另一方面,LINE 也是一個大家很重視的行銷工具,我們有官方帳號以及許多廣告版位。透過使用者與各服務的互動,我們可以更全面了解使用者的輪廓與偏好,幫助服務精準定位目標客群,做精準行銷以及更多商業應用。
舉例來說,我們做了許多推薦系統,根據服務不同,推薦的形式也不一樣,像是有推薦 POI、推薦商品、推薦廣告等方式。由於各服務有許多文字內容,所以我們基於自然語言處理 (NLP) 打造很多應用,像是文章分類,命名實體辨識 (NER),自動關鍵詞擷取,甚至是文章生成,有些服務可以直接且有效的整合我們所提供的 API,像是訊息查證服務就是整合了我們的近似文章搜尋,來加速假訊息的查找與驗證。在商業應用方面,我們做了知識圖譜來了解使用者與服務間的關係;也做了很多 MarTech 應用,像是利用增益模型 (Uplift Modeling) 來找出容易被說服的使用者,利用RFM/CLV模型找出有價值的顧客。另外也做了許多資料分析報表來提出商業上的洞見。
活動分享

何謂數據轉型?數據運營 ↔ 運營數據
就像2000年初網路泡沫一樣,開始有人唱衰數據或AI無用論,也導致COVID-19爆發之際、出現優先資遣資料科學團隊的現象,然而實際上資料科學有多大的效益,其實是奠基於數據轉型的程度。
何謂數據轉型?根據阿里巴巴前數據長車品覺指出,其實不脫離數據運營與運營數據的循環關係:要讓員工開始習慣透過數據來做決策、而習慣養成後開始會有管理與維護數據的需求出現,最後產生的良性數據轉型循環。在數據運營上,普遍可透過供給面與需求面方式來拆解問題,如營收=購買人數*人均客單價 來做分別管理;其次尋找benchmark也很重要,不同的比較基準會有不同的詮釋方向;最後,透過拆解而提出對應的解方與尋找可能支持假說的數據,更能讓分析建議上更具體落地。而運營數據上,則就像是料理供應鏈一樣,若每一次數據專案都需要從源頭提取資料,就會拉長整個專案時間,使得數據運用的效率減低、連帶不符用戶與管理階層對於數據運用的期待;
因此會需要管理整個數據供應鏈的流程,涵蓋了數據存儲備份、資料清整、統一口徑的Data Mart等議題,甚至進階地透過演算法提取圖文特徵、關鍵字、User-Bert與Embedding,或是外部數據爬蟲與採買、開發工具的管理等都能有效建制良好的數據基礎設施(Data Infra),而好的基礎設施,能幫助整個企業妥善運用數據至各個業務層面,進而加速數據轉型的成功。
有什麼方法可以加速數據轉型?數據產品的誕生
然而數據運用常常是以專案的形式運行,受限於數據人才的人數與工時,無法使得數據轉型的速度更加快速;而數據分析本身應該也是一種能力、而非一種職位,建議的落地程度也取決於業務方的資源與規劃程度,若我們能找到一種槓桿方式、能夠加速數據轉型,就會是對企業來說很好的解決方案。而我們的答案便是數據產品!而什麼是數據產品?廣泛定義下,只要能透過data-driven做到decision-making的工程設計,都能算是數據產品的一環:因此Dashboard若能做到讓同事一眼找到問題、且知道該怎麼因應,就也會是好的數據產品;又或者如推薦系統,當我們擁有多元不同的內容、卻受限於曝光版位的限制,根據用戶特性來決定最適合的內容推薦給他,自然也會是數據產品的典型!
而Data Dev Team,就是在思考如何跨服務強化數據賦能
面對LINE Service如此多元的商業模式下,逐一提供數據解決方案自然不是最佳辦法,而Data-Dev Team就是致力於如何做到跨服務來強化數據賦能:例如透過常見服務的商業模式,設計RFM-CLV的方式來達成快速導入到各種服務的模型設計;又或者建立了Smart Text的內部平台,提供各服務面對NLP議題時、能有快速整合LINE系統的API,來解決各種文字處理上會碰到的問題!甚至,建立完善的演算法機制如人臉辨識、語音轉文字等,整合至CLOVA服務上,也能將數據產品化為對外營收來源之一。
在Data-Dev的運作裡,我們透過PoC方式來探索各種潛在內部需求與可能的解決方案,一旦確立良好通用的解決方案,便能著手規劃泛用性的工程架構,提供給LINE Service內部快速的數據運用導入工具!
Q&A
- 想知道 LINE 這個多角化組織中,LINE 資料工程團隊包含什麼職位、怎麼分工、分別負責什麼工作內容?
- 主要包含了Data Engineer, ML Service Engineer, Data Scientist, Data Analyst四種類型,Data Engineer著重在資料處理的前端、確保資料搜集、存儲管理、排程自動化、與品質檢驗等穩定性;ML Service Engineer則是資料專案的後端,協助專案的部署上線、程式碼版本控管、運算資源與預測表現的監控與配置;Data Scientist專注在探索各種數據專案的可能解決方案,而Data Analyst專注在商業問題的定義與數據運用上。
- LINE 資料工程團隊面試時重視的能力與特質
- 能獨立作業的能力,涵蓋了定義問題、相關文獻探討、適時尋求協助、程式開發等,畢竟在數據運用仍算新穎的領域裡,能夠自動自發、積極應變才會是最佳的特質之一。
結論
這次與大家分享了我從數據分析師到科學家的一些看法,並說明許多再加入這領域時所需要的知識,希望這次的內容可以幫助到來企業參訪的各位學弟妹!
透過一次次的企業參訪,去了解工作更真實的樣貌、把握機會親身體驗企業文化,如果我的分享對螢幕前正在看文章的各位有幫助,並且對加入 LINE 資料工程部門有興趣,目前熱騰騰的職缺都已經出來囉,歡迎參考以下的資訊:
- Machine Learning Engineer
- Machine Learning Engineer - LINE TODAY
- Data Engineer - LINE TODAY
- CLOVA Product Engineer
最後,不管你是技術社群、學校、社團、系學會,若對於來 LINE 辦公室舉辦活動有興趣,歡迎發送各位的需求到這個連絡信箱: dl_twn_devrel@linecorp.com
那我們就下次活動見囉!

活動小結
立即加入「LINE 開發者官方社群」官方帳號,就能收到第一手 Meetup 活動,或與開發者計畫有關的最新消息的推播通知。▼
「LINE 開發者官方社群」官方帳號 ID:@line_tw_dev
關於「LINE 開發社群計畫」
LINE 於 2019 年開始在台灣啟動「LINE 開發社群計畫」,將長期投入人力與資源在台灣舉辦對內對外、線上線下的開發者社群聚會、徵才日、開發者大會等,已經舉辦 30 場以上的活動。歡迎讀者們能夠持續回來察看最新的狀況。詳情請看: