LINE 開發社群計畫: 20190729 R-Ladies Taipei x LINE Taiwan @LINE

大家好,我是 LINE Taiwan Technical Writer – Claire Wang。LINE 致力於舉辦對內的技術交流、教育訓練,以及對外的社群聚會、校園演講、開發者徵才日與開發者大會等各式各樣的活動。我們希望創造更多技術分享與跨國交流的機會,同時持續招募優秀人才加入 LINE 台灣開發工程團隊!

今晚的聚會於 LINE 台北辦公室舉辦,邀請 R-Ladies Taipei 社群成員參加,在活動現場充份展現女性學習社群的知性與熱忱。本次聚會共包含兩大主題,第一部分由 LINE 資料科學家 Johnson Wu 帶來結合人文與科技的主題講座「以看圖寫詩為例的創意文本生成」,介紹近年來人工智慧在內容生成與評價方面的成果。第二部分則是由 R-Ladies Taipei co-founder,現為德國 Mannheim Business School 財務博士的 Yen 以閃電秀形式,分享參加國外 R 語言社群活動的心得,以及對 R 語言多元化 programming style 的研究與分析。

以看圖寫詩為例的創意文本生成 / Johnson Wu

投影片

隨著深度學習 (deep learning) 持續發展,人工智慧 (Artificial Intelligence, AI) 領域的自然語言處理 (Natural Language Processing, NLP) 在翻譯及摘要生成等方面已產出豐富的成果。而除了這類以標準答案為基礎所進行的學習之外,近來 AI 在難有標準答案與評量基準的人文創意方面也有很大的進步。今晚的主題講座,LINE 資料科學家 Johnson Wu 便是從 NLP 中的自動內容生成出發,以看圖寫詩為例,介紹近年來 AI 在文本生成與評價方面的進展。

一開始,Johnson 先說明 AI 由圖片生成文字的原理,傳統的方法是抓取圖像特徵,由語言模型依機率根據圖像 pixel 的特徵表達成對應的文字。而近幾年開始加入 attention,AI 可強化全圖中的訊息和生成模型的生成結果之關聯性,完成對圖像的文字描述。更有研究可以藉由圖片生成對應的敘述文字,再由這些敘述文字生成回原圖片的過程,更有效地增強圖文之間的關聯,並有助於進一步訓練模型。至於為什麼會為 AI 應用選擇一個充滿「詩意」的方向,Johnson 解釋對人類而言,將情感濃縮於特定結構的有限字句中是相對困難的,但對 AI 而言,字數少的創作反而較不易犯錯。而從文體的角度來看,相較於詩歌,散文或小說對於連貫性與邏輯的要求較高,以現階段的發展看來,讓 AI 寫詩會是一個較為實際而有趣的運用。

AI 生成詩歌包含兩個主要過程:自動生成詩歌,以及評價生成的詩歌。生成詩歌的方式可分為基於模板填入適當字句,或基於統計重組新的字句。評價生成的詩歌,可協助 AI 判斷圖文之間的關聯性、評價正確性與流暢度等,但由於詩歌的主觀本質,造成評價時難有標準答案 (ground truth) 作為依據,這些因素都可能影響評價結果。因此,AI 寫詩模型的訓練就像讓一個黑盒子大量閱讀詩詞、學習各種詞句於原詩出現的頻率,進而能依據學習,在看圖後自動產生新的詩歌。

要讓 AI 生成詩歌,需要模擬人類的思考方式寫詩,也就是:觀察 → 靈感 → 邏輯與連貫性 → 自動評價 → 依評價修改詩歌。轉化到 AI 的設定上,便成為:AI 從圖片提取關鍵詞 → 過濾、擴張關鍵詞 → 遞迴生成、通順評價 → 生成最終版本的詩歌。Johnson 進一步解釋每個步驟的細節,包括 AI 是藉由卷積神經網路,從圖片辨識出物體、意象,選出相關的關鍵詞作為生成詩歌的材料,並利用前後遞迴生成,透過語言模型基於概率,由關鍵字開始反覆往前、往後生成新的詞句。並給定一個機率模型,來自動評斷文句用字的正確性及流暢度,例如,以機率表達 AI 生成的詩句與一般字詞組合邏輯相符的程度等。至於 AI 生成詩歌的原創性,則可透過 binary classifier 判別,包括由人類針對 900 句詩歌的用詞句法是否獨特所做的標註,以及透過網路搜尋,尋找是否有高相似度的內容,並觀察哪些關鍵字的搭配,較容易生成多樣性的詩句。

另一方面,Johnson 還提到 AI 看圖寫詩的侷限,包括傾向選用特定詞句、無法表達情緒生成、無法辨識出動作等,但未來仍可能透過更強大的模型基礎、加入人工評價結果、強化深度學習對於圖片與文字的學習,以及學習更大量的語料庫等方式克服挑戰。最後,Johnson 也分享,從這次研究的經驗體會到 AI 離不開人類提供的養份,AI 的定位應是一種傳承,以新的型態呈現人類的智慧。透過 AI 看圖寫詩這樣新型態的呈現,讓年輕人產生興趣上傳圖片,進而閱讀 AI 由圖片生成的詩歌,產生傳承詩歌的效果。Johnson 用詩歌自動生成研究,說明 AI 技術的原理與發展,結合人文與科技的主題相當獨特,也讓本次活動的參加者產生很大的興趣,在 Q&A 時間踴躍地提問,更期待未來有更多類似的分享!

The Dynamic of R Style / Yen

投影片

今晚聚會的第二部分,是由 R Ladies co-founder – Yen 以閃電秀的形式,分享國外 R 語言社群的現況,以及個人研究 R 語言 programming 方式的分析。出於對於社群的熱忱,目前在德國居住的 Yen 特別在今年 7 月份前往法國參加 useR! 2019 Toulouse – France,Yen 也觀察到活動中的許多講題與應用皆與保險、醫藥、航太等產業有關,顯示這些領域也已開始大量採用 R 語言,是個難以忽略的趨勢!

而在個人研究方面,Yen 則分享對於 R 語言 programming style 的研究,在分析過去 20 年超過九千萬行 code 之後,歸納出由於 R 語言的使用較不受特定 sylte guide 限制、採用不同 editor,以及其他程式語言的問世等影響,造成大量的 R 語言 programming style 差異 (Programming Style Variations, PSV),例如許多開發者會將其他語言的語法、命名習慣等運用於 R 語言,R 語言 programming style 因此變得非常多元,且各有擁護者。

Yen 進而分析 R 語言的 PSV 統計分佈,藉由偵測 10 大社群採用 R 變數命名、assign 等方式的差異,在抓出各種 programming style 之後算出平均值,然後找出特定社群與其他社群所採用的 style 差異,發現 R 語言 programming style 受到社群的影響相當明顯,也深深感受到 R 社群文化擁抱彈性的特質。這也促使 Yen 思考,如果大家寫 code 的時候能採用同樣的 style,之後的溝通與 de-bugging 就會更有效率,因此也建議參加者在與其他人協作時,可以盡量將多數人 coding 的習慣納入考量。

活動小結

今晚的講座結合了 AI 技術與詩歌創作,AI 複雜高深的運算原理頓時變得充滿人文情懷,深深吸引參加者的興趣與共鳴。而閃電秀則分享了 R 語言社群的近況,以及旺盛的社群動能如何影響著 R 語言的使用、形塑多元化的 programming style。在這個完美交集科技與人文講題的夜晚,我們也期待往後能有更多此類的分享,從「人」出發與科技交織出更多動人的應用篇章!

立即加入「LINE 開發者官方社群」官方帳號,就能收到第一手 Meetup 活動,或與開發者計畫有關的最新消息的推播通知。▼

「LINE 開發者官方社群」官方帳號ID:@line_tw_dev

關於「LINE 開發社群計畫」

LINE 今年年初在台灣啟動「LINE 開發社群計畫」,將長期投入人力與資源在台灣舉辦對內對外、線上線下的開發者社群聚會、徵才日、開發者大會等,預計全年將舉辦 30 場以上的活動。歡迎讀者們能夠持續回來察看最新的狀況。詳情請看 2019 年 LINE 開發社群計畫活動時程表 (持續更新) https://engineering.linecorp.com/zh-hant/blog/line-taiwan-developer-relations-2019-plan/)

徵才訊息

LINE 強力徵才中!》與我們一起 Close the Distance 串聯智慧新世界! 歡迎查看相關職缺,並投遞您的履歷 >> Data EngineerNLP Engineer

Related Post