LINE Corporation이 2023년 10월 1일부로 LY Corporation이 되었습니다. LY Corporation의 새로운 기술 블로그를 소개합니다. LY Corporation Tech Blog

Blog


NLP 국제 학회 COLING 2022 참석 후기

안녕하세요. Data Science Dev 팀의 김희찬, 안연선, 조현호입니다. 지난 10월 가을, LINE에서 후원한 COLING 2022 학회에 다녀왔습니다. COLING 2022는 세계적인 컴퓨터 언어학 및 자연어 처리 학회로 올해에는 우리나라 경주에서 일주일간 열렸습니다. 저희 팀은 LINE의 SNS 서비스 중 하나인 VOOM의 추천 시스템을 연구 및 개발하고 있으며, 텍스트뿐 아니라 오디오와 비디오, 사용자 행동 데이터도 많이 다루고 있습니다. 저희 셋 모두 NLP와 밀접한 연구 개발을 진행하고 있어서 큰 기대를 안고 학회에 참석했는데요. 이번 글에서는 COLING 2022 학회에 다녀온 후기를 전달하겠습니다.

행사장 분위기

코로나 때문에 포스터 및 세션 발표는 온/오프라인에서 동시에 진행됐습니다. Zoom으로 참여한 온라인 참가자와 행사장에 모인 오프라인 참가자가 서로 소통하기 어렵지 않을까 우려했는데요. 학회에서 공유해 준 온라인 사이트에 모든 세션 발표의 녹화 본과 포스터가 올라와 있는 것은 물론 질의응답 채팅방까지 개설돼 있었던 덕분에 의사소통이 수월하게 진행된다는 느낌을 받을 수 있었습니다. 사이트에서 놓친 세션을 다시 들을 수 있다는 점도 좋았습니다.

행사장에서는 학회에 스폰서로 참여한 여러 기업의 홍보 부스도 볼 수 있었습니다. 저희 셋도 LINE 부스 운영에 참여해 부스에 방문한 여러 연구자분들과 상담을 진행하고 준비한 선물도 드렸습니다. LINE에서 어떤 NLP 연구를 하고 있는지 궁금해하시는 분들이 많았는데요. LINE Shopping과 VOOM, Demaecan 등의 서비스에서 사용자에게 놀라운 경험을 제공하기 위해 LINE이 어떻게 노력하고 있는지 알릴 수 있는 좋은 기회였습니다. 특히 문어체 데이터를 연구하셨던 분들을 많이 만나 뵐 수 있었는데 VOOM에서 구어체 위주의 데이터를 다룬다는 점에 흥미를 느끼시는 분들도 계셨습니다. 저희도 여러 부스를 방문해 대화를 나누면서 산업적으로 저희와 다른 측면에서 NLP를 활용하는 사례를 들을 수 있어 좋았습니다.

학회에 참석하는 주 목적은 물론 논문 발표를 듣는 것이겠지만 서로 커뮤니케이션하기 위해 방문하시는 분들도 많습니다. 저희 역시 이번 학회에 참석해 많은 분들과 함께 식사도 하고 커피도 마시면서 서로 연구 분야나 고민거리를 공유하며 그 과정에서 미처 생각지 못했던 아이디어를 얻는 등 다양한 이야기를 즐겁게 나눌 수 있었습니다.

혹시 LINE에 대해 더 궁금하시다면 아래 사이트에서 좀 더 자세한 정보를 얻을 수 있으니 참고하시기 바랍니다.

세션 후기

학회 기간 일주일을 꽉 채웠던 수많은 세션에서는 여러 우수한 논문이 발표됐습니다. 여느 NLP 학회가 그렇듯 BERT 기반의 모델부터 요즘 핫한 'contrastive learning' 기반 변형 모델까지 많이 보였습니다. COLING 2022 전체 프로그램 정보는 아래 링크에서 확인할 수 있습니다.

김희찬 님 세션 후기

제 눈길을 끈 것은 역시 현재 하는 일과 관련 있는 비지도 문장 임베딩(Unsupervised Sentence Embedding)을 주제로 한 논문들이었습니다. 이 주제는 주어진 문장을 일정한 벡터로 매핑하는 방법에 대한 이야기인데요. 문장과 벡터의 쌍이 정답이라고 할 수 있는 형태로 존재하지 않다 보니 데이터에서 그것들을 찾아내는 방법(비지도)이 요즘 많이 연구되고 있습니다. 각 논문에는 그동안 어렴풋이 필요하다고 생각하거나 한 번 접근해 봐야겠다고 생각하고 놓치고 있던 부분들이 문장으로 잘 정리돼 있었습니다. 비지도 학습 방법들은 텍스트 외에도 다양한 분야에 적용할 수 있는데요. 서로 다른 주제를 연구하고 개발하고 있는 분들과 함께 학회에 참석한 덕분에 다양한 측면에서 인사이트를 얻을 수 있었습니다.


안연선 님 세션 후기

NLP 안에 있는 다양한 연구 주제 중 '이 발표는 꼭 들어야겠다!'하고 생각했던 건 제가 지금 연구하면서 고민하고 있는 부분인 비지도 평가(Unsupervised Evaluation)를 다룬 논문들이었습니다. '긴 글을 얼마나 잘 요약했느냐' 혹은 '질문에 대한 답을 얼마나 잘 생성했느냐' 등의 문제들은 정량적인 평가가 어렵기 때문에 사람이 직접 보고 평가하는 방식이 적지 않게 사용되고 있는데요. 사람이 직접 평가하는 것은 비용이 많이 들고, 모든 문제에 사람이 개입하는 것은 불가능하기 때문에 데이터만 보고 비지도로 평가하려고 시도하는 연구가 많이 진행되고 있었습니다. 세션을 들으며 데이터를 의미 있게 평가하기 위해 다양한 가설을 실험해 보면서 타당한 평가 기준을 찾아가는 과정을 가시적으로 볼 수 있었습니다. 근거가 뚜렷하지 못한 가설로 실험을 진행했던 부분을 다시 살펴보게 된 계기가 됐고, 꼭 텍스트가 아니라도 비디오나 오디오 등 다양한 모달(modality)에 적용하는 방식도 고민해 볼 수 있었습니다.

조현호 님 세션 후기

제가 가장 재미있게 들었던 세션은 'Debiasing Word Embeddings with Nonlinear Geometry'라는 논문으로, 단어 임베딩(word embedding)을 할 때 다양한 인종이나 성별 등 사람들이 가지고 있는 편견이 그대로 학습되는 문제를 해결하고자 하는 논문이었습니다. 예를 들어 'doctor'라는 단어는 임베딩 공간에서 'she' 보다 'he'에 더 가깝게 위치합니다. 이런 편견이 임베딩에 그대로 반영되는 현상은 다양한 문제를 일으킵니다. 이 논문은 임베딩 공간에서 여러 편견에 대한 'intersectional subspace'를 찾아내 제거하는 방식으로 사회적 편견을 없애고자 하는 논문이었습니다. 콘셉트 자체가 재미있는 논문이었고, 사회적 편견이 문제가 되는 분야인 생성형 모델 쪽에 적용해 보면 좋을 것 같다는 생각이 들었습니다.

논문 발표 세션도 재미있었지만 오프라인으로 저자와 의견을 나눌 수 있었던 포스터 세션도 개인적으로 많이 유익했습니다. 특히 이번에는 한국 저자들의 논문이 많이 보여서 좀더 편한 언어로 대화를 나눌 수 있었는데요. 아무래도 학회가 한국에서 열렸기 때문도 있겠지만 논문 자체의 수준도 높았습니다. 덕분에 NLP 학계에서 높아진 한국의 위상을 실감할 수 있었습니다.

마치며

LINE이 메신저라면 WhatsApp과의 차별점이 무엇이냐고 질문을 던지셨던 분이 계셨습니다. '비슷한 것 같은데... 그러면 알던 거 써야지!'라는 관성을 이겨내려면 사용자를 한눈에 사로잡아 꾸준하게 사용하게 할 만한 놀라운 무엇인가를 만들어 나가야겠다고 다짐하게 됐습니다.

코로나 상황이 나아지면서 오랜만에 오프라인으로 열리는 학회에 참석해서 상당히 신나고 유익한 시간을 보낼 수 있었는데요. 앞으로 개최되는 학회에도 참여자로서 혹은 언젠가는 발표자로서 참석하게 되는 날이 오기를 희망합니다.