LINE에서 백엔드 개발자로 근무하고 있습니다.
소프트웨어를 개발하고 사용하는 곳이라면 어느 곳이든 장애가 없을 수 없을 것입니다. 사용자가 많고 트래픽 규모가 크고 연관된 서비스가 많은 복잡한 소프트웨어일수록 장애가 여러 포인트에서 발생하기 마련입니다. 이번 글에서는 다양한 서비스를 제공하면서 점점 복잡해지고 있는 소프트웨어의 장애를 LINE에서 어떻게 관리하고 있는지와 개인적으로 인상깊었던 사례를 소개하고자 합니다. 장애를 대하는 방법 개발자가 계속 일을 하는 한 장애는 발생할 수 밖에 없다고 생각합니다. 장애가 발생하지 않는다면, 그건 일을 하지 않고 있다는 뜻일지도 모릅니다. :) 그런데 장애가 발생했을 때 책임을 추궁하는 문화라면, 사람들은 새로운 것을 도입해 보거나 도전적으로 무언가를 시도해 보지 못하게 되고, 그렇게 위축된 상태에서 보수적으로 운영하기 때문에 혁신이 일어나지 못하게 됩니다. LINE에서 일하면서 가장 좋다고 생각하는 것 중 하나가 장애가 발생했을 때