LINE 통화: 최고의 품질을 위한 8년간의 여정

요즘엔 대부분의 사람들이 기존의 유료 통화 대신에 메신저에서 대화하다가 클릭 한 번으로 통화할 수 있는 인터넷 전화를 사용합니다. 인터넷 전화는 통화 품질도 좋고, 무엇보다 전 세계 누구와 통화해도 무료라는 점이 매력적이죠. 이런 장점 덕분에 인터넷 전화 서비스는 본격적으로 시작된 지 채 10년도 지나지 않아 기존의 유료 통화를 빠른 속도로 대체해 나갔습니다. 하지만 인터넷 전화는 그 특성상 통화 중에 음성이 끊기거나 통화 자체가 안되는 경우가 가끔씩 발생합니다. 유료 서비스라면 해당 통신사에 불만을 접수해서 통화 품질을 개선하도록 만들 수 있겠지만, 인터넷 전화는 무료 서비스이기 때문에 통화 음질이 좋지 않다면 사용자들은 통화 품질을 개선하기보다는 다른 서비스로 발길을 돌리는 쪽을 선택하게 됩니다. 따라서 사용자가 무료 통화 서비스를 계속 사용하길 원한다면 좋은 통화 품질을 유지하는 것이 매우 중요합니다. 이번 글에서는 LINE 무료 통화 서비스가 최고의 품질을 유지하기 위해 얼마나 많은 노력을 기울이고 있는지 공유하겠습니다.

 

통화 품질의 정의

최고의 통화 품질을 만들기 위해선 우선 통화 품질이 무엇인지부터 정의해야 하는데요. 통화의 시작인 전화에서 그 해답을 찾아보겠습니다. ‘Tele-communication’이라는 단어에서 알 수 있듯이 전화의 첫 번째 의미는 멀리 떨어져 있는 사람들에게 정보를 전달하는 것입니다. 하지만 우리는 단지 정보를 얻기 위해서만 전화를 하지는 않습니다. 예를 들어, 아침에 부모님의 안부를 묻기 위해 전화를 걸면 보통 부모님의 건강이나 날씨에 대해 이런저런 이야기를 나눌 뿐, 특별히 어떤 정보를 전달하진 않습니다. 그런데 부모님과 얘기하고 나면 마치 부모님이 옆에 계신 것 같은 기분이 들며 마음 한구석이 따스해집니다. 또 다른 예로, 저는 출장 가면 여자친구와 전화를 많이 하는데요. 서로 그날의 안부를 묻기도 하지만 때로는 특별히 말을 하지 않고 그냥 전화만 연결해 놓은 채로 서로 일을 하며 시간을 보내기도 합니다. 말을 하지 않아도 일단 통화가 연결되어 있으면 서로의 공간이 연결된 것 같이 느껴지면서 그녀가 제 곁에 있는 것 같은 기분이 들었기 때문입니다. 이와 같이 서로의 공간을 연결하는 것. 이것이 인터넷 전화의 새로운 패러다임이라고 생각합니다. 

실제로는 서로 멀리 떨어져 있지만, 전화를 통해 서로 같은 공간에서 연결되어 있다고 느끼게 하기 위해서는 단지 음성뿐 아니라 상대방의 공간까지 생생한 음질로 전달해야 합니다. 그렇다면 생생한 음질이란 무엇일까요? 생생한 음질과 관련해 제일 먼저 시작한 고민은 사람들이 서로 이야기할 때의 거리였습니다. 신체 접촉과 사람 간의 거리에 대한 연구는 이미 1960년대부터 진행되어 왔는데요. 미국의 인류학자 에드워드 홀(Edward T. Hall)은 사람들이 취하는 거리 두기의 유형을 크게 네 가지로 나누었고, 그중 대화가 가능한 거리는 아래와 같이 세 가지가 있습니다. 

첫 번째는 가족이나 애인 사이에서 대화하는 거리인 ‘가까운 거리’입니다. 상대방의 숨결까지 느낄 수 있을 정도로 아주 가까운 거리죠. 두 번째는 친구나 동료 사이의 개인적인 거리이고, 마지막은 그보다 조금 더 먼 사회적 거리입니다. 처음 만나는 사람들은 보통 두 번째인 ‘개인적인 거리’를 사이에 두고 대화를 나누었습니다. 대략 1m 정도인데요. LINE 통화 품질의 최종 목표는 바로 이 1m 이내에서 대화할 때와 동일한 품질을 확보하는 것입니다.

 

음성 통화 품질 평가 방법

평가 방법을 말하기에 앞서, 인터넷 전화 음질에 왜 불연속성이 있는지 이해할 필요가 있습니다. 마이크의 음성 신호는 음성 압축기를 통해 1/10에서 1/15 정도의 크기로 압축됩니다. 압축된 데이터는 인터넷으로 전달하기 위해 컨테이너에 패킷 형태로 저장한 뒤 초당 약 50회의 간격으로 전송합니다. 이렇게 수 없이 많은 작은 음성 패킷이 인터넷을 통해 지구 반대편으로 전달되는 과정에서, 패킷 네트워크의 특성상 패킷이 분실되거나 도착 순서가 뒤바뀔 수 있습니다. 이 때문에 인터넷 전화 음질에 불연속성이 발생할 수 있습니다. 인터넷 전화의 품질을 평가할 때는 이 점을 반드시 고려해야 합니다.

통화 품질을 평가하는 가장 확실한 방법은 사람의 귀로 직접 듣고 평가하는 것입니다. 이를 ‘Mean Opinion Score’, 줄여서 ‘MOS’라고 부릅니다. 이 방법은 먼저 깨끗한 원음을 듣고 나서, 다시 인터넷 전화를 통해 전달된 음성을 들은 후 1점에서 5점까지(5-Excellent, 4 -Good, 3 – Fair, 2 -Poor, 1 -Bad) 점수를 주어 평가하는 방식입니다. 듣는 사람의 관점에 따라 점수에 차이가 발생할 수 있기 때문에 주관적 음질 평가라고 부르는데요. 시간과 장소에 상관없이 여러 번 반복되는 평가에서 동일한 점수가 나오도록 평가하기 위해선 보다 객관적인 방법이 필요했습니다.  

이후 아래와 같이 통화 품질을 객관적으로 평가하기 위한 여러 가지 알고리즘이 탄생했습니다. 다만, 초기에 개발된 PSQM(Perceptual Speech Quality Measure)이나 PAMS(Perceptual Analysis Measurement System), PESQ(Perceptual Evaluation of Speech Quality)는 패킷 네트워크 특성이 고려되지 않았기 때문에 인터넷 전화 통화의 품질을 평가하기에는 적합하지 않았습니다.

이후 2011년에 POLQA(Perceptual Objective Listening Quality Assessment)라는 새로운 알고리즘이 도입됐는데요. 이 알고리즘은 패킷 네트워크의 특성을 고려했기 때문에 인터넷 전화 통화의 품질을 비교적 정확하게 평가할 수 있었습니다. 또한 POLQA는 사람의 평가와 비슷한 결과를 내기 위해 심리 음향 모델링 알고리즘도 사용하고 있습니다. 현재 LINE에서는 통화 품질을 평가하기 위해 POLQA를 활용해서 측정한 MOS와 지연(delay) 값을 포함한 여러 가지 측정 지표를 사용하고 있습니다.

 

정밀한 음질 평가 장비 HATS 도입

LINE의 훌륭한 통화 음질에는 비밀이 하나 더 있습니다. 바로 인간의 귀와 동일한 구조로 소리를 듣고 측정하는 장비인 ‘HATS(Head And Torso Simulator)’입니다. 이 장비를 설명하기 전에 인간의 청각 시스템을 간단하게 살펴보겠습니다.

휴대폰의 스피커에서 발생한 통화 소리는 귓바퀴(pinna)와 외이도(ear canal)를 통해 전달됩니다. 귓바퀴는 뇌가 소리의 방향을 식별하는 것을 돕고, 외이도는 소리 증폭기의 역할을 맡습니다. 소리는 외이도를 통과해 고막에 부딪히면서 감각 정보를 발생시키고, 이 신호가 내이로 들어갑니다. 내이에는 달팽이관(cochlea)이라는 기관이 있는데요. 이 기관에서 파형의 감각 정보가 신경 형태로 변형되고, 이를 뇌에서 인식하는 것으로 과정이 마무리됩니다.


1990년대에 ITU-T P.58은 이런 방식으로 전달되는 소리를 정확하게 측정하기 위해 HATS를 설계하고 표준화했습니다. HATS의 장점은 인간의 청각 체계를 고려하여 소리를 측정하고 분석한다는 점입니다. 인간 청각의 전체 범위에 걸쳐 현실적이고 정확하며 반복 가능한 음향 측정을 제공합니다. HATS는 클로바 프렌즈 스피커를 제작할 때도 사용되었는데요. 통화 품질과 관련된 모든 요소를 정확하게 측정하고 최적화하여 최상의 통화 품질을 만들어 내는 데 기여했습니다. 현재 새로운 기기가 출시될 때마다 HATS를 이용해 정확한 음질을 측정하고 분석하여 LINE의 통화 품질을 확인하고 있으며, 이런 노력들 덕분에 LINE의 통화 품질은 항상 최상을 유지하고 있습니다.

 

영상 통화 품질 측정 방법

지금까지 음성 통화에 대한 설명을 드렸는데요. LINE은 영상 통화 서비스도 제공하므로 영상 통화의 질도 측정할 필요가 있습니다. 그런데 인간의 시각적 인지 과정은 그 특성이 상당히 복잡하며 현재까지도 정확히 밝혀지지 않았습니다. 영상 품질을 측정하는 방식은 음성 품질을 측정하는 POLQA와 같이 누구나 수긍하는 방식이 존재하지 않습니다. 다양한 접근 방식으로 알고리즘이 개발되고 있기 때문에 대부분의 영상 통화 품질 측정은 여러 가지 방식을 함께 사용합니다. 영상 통화 품질을 측정하는 방식은 FR(Full Reference) 방식과 NR(No Reference) 방식, 크게 두 가지입니다. 중간 방식으로 RR(Reduced Reference) 방식도 있지만 여기서는 논외로 하겠습니다. 각 방식의 이름에서 유추할 수 있듯이 원본 비디오에서 이용할 수 있는 정보의 정도에 따라 측정 방식이 달라집니다.

NR 방식에선 원본 비디오가 필요하지 않습니다. 비디오의 픽셀 영역에서 인공적으로 변형된 부분인 아티팩트(artifact)를 검색합니다. 모든 영상 품질은 수신 단에서 측정하는데요. NR 방식은 원본 영상을 사용하지 않기 때문에 쉽게 구현할 수 있지만 비디오의 품질을 정확하게 측정할 수는 없습니다. 대부분의 비디오 코덱은 블록 기반 코딩을 사용하기 때문에 열악한 네트워크 조건에서는 비디오 통화 중에 블록 형태의 왜곡이 발생하거나, 영상이 멈추거나, 뿌옇게 흐려지는 현상이 발생하곤 합니다. NR 방식은 이런 종류의 왜곡을 측정하는 데에 적합합니다.

FR 방식은 왜곡된 비디오를 원본 비디오와 1:1로 비교하는 방식입니다. 비디오의 품질을 상당히 정확하게 측정할 수 있습니다. 몇 가지 유명한 FR 방식을 간단히 살펴보겠습니다. 

먼저 Netflix가 개발한 VMAF(Video Multi-Method Assessment Fusion) 방식이 있습니다. TCP(Transmission Control Protocol)로 제공되는 Netflix 비디오 스트림의 품질을 측정하는 용도로 많이 사용하며 
압축 및 스케일링 속도를 최적화하기 위한 파라미터를 조정하는 데 유용합니다. VMAF 방식을 사용하면 다른 어떤 FR 방식보다 비디오 품질을 가장 잘 측정할 수 있습니다. 

다음은 MS(multi-scale) SSIM(Structural SIMilarity) 방식입니다. 
SSIM은 구조적 유사성을 의미하는데요. 휘도와 대비, 구조를 이용해 원본과 왜곡된 비디오의 구조적 차이를 측정합니다.

PSNR(Peak Signal-to-Noise Ratio)은 가장 널리 사용되는 픽셀 기반 측정 방식으로, 쉽게 계산할 수 있으며 간단한 로그값으로 영상 품질을 평가할 수 있습니다. PSNR의 한계는 때때로 특정 상황에서 사람이 느끼는 품질을 반영하지 않는다는 점인데요. 이를 개선하기 위해 PSNR에 사람의 시각적 특성을 고려한 PSNR-HVS가 개발되었습니다. 

아래 왼쪽 그래프의 수치는 패킷 손실 조건에서 각 FR 방식의 성능에 대한 최근 연구에서 나온 것인데요. 각 측정 지표의 변화율을 명확하게 보여줍니다.
 측정 지표의 추이를 살펴보면, 패킷 손실이 없을 때부터 패킷 손실률이 20%가 될 때까지는 모든 방식에서 좋은 수준의 비디오 품질을 보여주다가 패킷 손실률이 20%를 넘어서는 순간부터 선형으로 감소하는데요. 흥미롭게도 VMAF와 VIFp가 다른 지표보다 패킷 손실에 대한 허용 오차가 낮은 것으로 나타났습니다.
 즉, VMAF와 VIFp 방식을 사용하면 다른 방식보다 패킷 손실로 인한 품질 저하를 더 잘 감지할 수 있다는 것입니다. 또한 인간 점수에 근거한 주관적인 평가도 같은 영상 녹화 세트를 이용해 실시했는데요. 그 결과가 오른쪽 그래프와 같이 나타났습니다. 역시 패킷 손실이 없을 때 MOS 점수가 높았고, 이 값은 패킷 손실률이 50%에 이르러 최종 값인 1이 될 때까지 패킷 손실의 증가에 따라 감소했습니다. 
이 연구는 VMAF와 VIFp가 다른 방식보다 사람이 평가한 점수와 더욱 깊은 상관관계를 가지고 있다는 것을 보여줍니다.

대부분의 FR 방식은 프레임 스킵(skip)이 없는 비디오 코덱의 성능을 평가하기 위해 개발되었습니다. 하지만 UDP(User Datagram Protocol) 전송에 기반을 둔 대부분의 실시간 영상 통화에서는 지연을 줄이기 위한 프레임 스킵이 발생합니다. FR 방식은 프레임별 이미지를 사용해 비디오 품질을 평가하므로 실시간 영상 통화 스트림에 그대로 적용할 수는 없었습니다. 새로운 접근 방법이 필요했습니다. 그래서 저희는 FR 방식으로 품질을 측정할 때 영상을 보내는 쪽에서 캡처한 카메라 이미지를 앱으로 보내기 전에
 특정한 숫자를 표시하고, 
수신 쪽에서는 각 프레임에 표시된 번호를 OCR(Optical Character Recognition) 기술로 인식해서 녹화된 영상과 같은 표시가 있는 원본 이미지를 비교하는 방식을 사용했습니다.

 

글로벌 통화 품질 모니터링 시스템

지금까지 통화 품질의 정의와 품질을 평가할 때 고려해야 할 사항, 그리고 평가하는 방법에 대해 살펴보았습니다. 이제 LINE에서 구축한 자동화된 통화 품질 측정 시스템에 대해 알아보겠습니다. 

글로벌 서비스인 LINE은 전 세계적으로 통화의 음질을 파악해야 합니다. 또한 인터넷 전화는 네트워크의 특성에 따라 그 음질이 달라지므로, 음질을 정확하게 측정하기 위해선 직접 해당 지역에 방문해서 그 지역의 통신망 안에서 측정해야 합니다. 그래서 LINE 통화가 현재 얼마나 많은 곳에서 사용되는지 조사해 봤더니 전 세계 약 200여 개 지역에서 사용되고 있었습니다. 현실적으로 모든 곳을 전부 방문할 수는 없었기에, 주요 지역을 선정해 원정대를 파견하기로 결정했습니다. 저희는 세계 지도를 펼쳐서 방문 지역을 크게 세 부분(동남아시아, 유럽, 미국)으로 나눈 뒤 15개 지역에 원정팀을 보냈습니다. 측정은 약 2~3개월 동안 진행되었는데요. 처음에는 세계 일주를 하는 것 같아 재밌게 느껴지기도 했지만, 시간이 흐를수록 쉽지 않았습니다. 각 지역당 대략 2~3일 정도 머물며 측정하는 빡빡한 일정을 소화하기 위해 대부분의 현장에서 짐도 제대로 풀지 못한 채 측정 작업에 매진한 후 다시 다른 곳으로 이동해야 했기 때문입니다. 

그런데 통화 품질은 주기적으로 평가해야 합니다. 그때마다 이런 식으로 원정대를 보낼 수는 없었습니다. 그래서 각 지역에 측정 장치를 설치하기로 결정했습니다. 또한 자동 다이얼링과 측정, 그리고 결과를 분석한 뒤 통계를 보여줄 수 있는 기능을 갖춘 시스템을 개발하기로 결정했습니다. 시스템은 아래와 같은 조건을 충족하도록 설계했습니다.

  1. 시스템은 원정팀이 고민했던 ‘통화 중 사용자 경험’을 나타내는 객관적 지표를 측정해야 합니다.
  2. 시스템은 LINE 통화뿐만 아니라 경쟁 앱도 측정해야 합니다.
  3. 시스템은 측정된 지표를 모니터링하고 비교하기 쉬운 사용자 인터페이스를 제공해야 합니다.

몇 년간의 연구 끝에 글로벌 통화 품질 모니터링 시스템을 개발했습니다. 

이 시스템은 스마트폰에 설치할 수 있는 모든 종류의 통신 앱에서 음성 및 비디오 품질을 측정할 수 있고, Android와 iOS에 모두 적용할 수 있습니다. 또한 3G와 LTE, Wi-Fi 등 모든 종류의 모바일 네트워크에 적용할 수 있으며 전 세계의 모든 이동 통신사에 적용할 수 있습니다. 글로벌 품질 모니터링 시스템은 24시간 동안 자동으로 통화 품질을 측정하고 각각의 측정 지표와 통계 자료의 특성을 분석해서 제공합니다. 지역이나 앱, 측정 기간, 전화 종류를 선택할 수 있어서 원하는 측정 정보를 쉽게 살펴볼 수 있습니다. 또한 측정한 각 지표를 사용자 경험을 토대로 파악한 고유의 공식을 사용해 단일 지수로 조합했습니다. 이 지수를 사용하면 전반적인 통화 품질을 쉽게 평가할 수 있습니다.

 

마치며

최근 아시아 3개국 3,000명을 대상으로 실시한 자체 조사에 따르면, LINE 통화와 다른 앱을 모두 사용한 사람들은 LINE 통화의 품질을 선호했습니다. 이는 두 가지 서비스를 모두 제대로 경험한 사용자가 내린 객관적인 통화 품질 평가입니다. 이번 글의 제목이 8년간의 여정이었는데요. 저희가 LINE 통화의 품질을 유지하기 위해 기울인 노력이 여러분께 잘 전해졌으면 좋겠습니다. 

Related Post