돌고 돌아 데이터 엔지니어라고 불리고 있습니다.
안녕하세요. LINE Plus Messaging Data Eng Dev (NP) 팀에서 데이터 엔지니어로 일하는 정우영입니다. 최근 HiveQL(Hive SQL) 작업을 Spark SQL로 이전하는 과제를 진행했습니다. 주로 INSERT OVERWRITE TABLE이란 SQL 구문을 이용해 데이터를 적재했는데요. Spark 설정에 따라 Hive에서는 발생하지 않던 여러 현상이 발생했습니다. 이번 글에서는 그 원인과 해결 방법을 찾는 과정에서 알게 된 점을 소개하겠습니다. 글은 먼저 작업을 시작한 배경과 작업 환경을 소개하고, HiveQL에서 Spark SQL으로 이전한 과정을 공유한 뒤, Spark 설정에 따라서 발생한 여러 현상과 각 현상의 재현 방법 및 원인과 대응 방법을 살펴보는 순으로 진행하겠습니다. 작업 배경과 대상 및 환경 작업 배경 먼저 이번 작업을 시작한 배경을 소개하겠습니다. LINE의 데이터 환경을 관리하는 데이터 플랫폼 실에서 그동안 사용해 온 Hive 사용을