매니아 서버가 심각한 장애로부터 복구되었습니다.
17
4187
Updated at 2013-03-17 03:37:20
안녕하세요, 홈지기 입니다.
제가 매니아를 운영해 온지 햇수로 14년이 되어 가고 있는데요, 오늘 매니아 역사상 가장 큰 문제가 발생하고 말았습니다.
아..타이핑을 하는데 손이 다 떨리네요...
7월 9일부터 12월 30일 사이의 데이터와 그 이후의 데이터의 일부가 유실되는 사태가 일어났습니다.
문제의 발단은 매니아 서버의 순간 트래픽이 너무 과도하다는 서버관리 업체측의 연락으로 시작되었습니다. 1초에 10메가비트를 전송하는 것이 최대 계약 사항인데, 평균 초당 2~30메가비트가 나온다는 것이었습니다. 당시 제3서버 추가를 계획하고 있던 시점이었는데, 서버를 확충하려면 계약 트래픽을 상향조정할 수 밖에 없다고 하더군요.
오래전부터 매니아의 트래픽 대부분은 매니아 게시물에 첨부된 이미지에서 발생한다는 것을 알고 있었지만 적절한 이미지 축소 기술을 확보하지 못해 그대로 방치하고 있었습니다. 하지만 서버추가를 하면서 계약 트래픽까지 상향조정한다면 추가적인 비용이 엄청날 것을 알고 있었기 때문에 바로 트래픽 조정을 위해 매니아에 적절한 이미지 축소 기술을 탑재시키기 위해 개발에 착수하게 되었습니다.
며칠간 작업한 끝에 '서버 CPU 사용량이 순간적으로 급증하는 문제가 있었지만 며칠 운용해 본 결과 잘 작동하는' 이미지 축소 기능을 작동시켰고 서버 트래픽을 10메가비트 대로 줄이는데 성공하였습니다.
그러던 중 1월 6일 저녁 멀티미디어 게시판에 강다윗님께서 올려주신 레이 앨런의 사진이 150여장이 첨부된 게시물이 포스팅 되었고, 순간적으로 게시물이 열리지 않는 일이 벌어지게 되었습니다. 올라온 게시물이 안열리자 회원분들이 계속 새로고침을 누르는 상황이 벌어지게 되었고, 순식간에 조회수가 100정도까지 올라가는 일이 벌어졌습니다. 수초안에 100여명이 동시에 150여장(총 15,000장)의 사진을 리사이즈하라는 명령을 내리는 상황이 되었고 서버는 처리를 다 수용하지 못해 결국 다운되고 말았는데요, 이 상태에서 매니아 서버 운용상의 특수성 때문에 문제가 더욱 커지게 되었습니다. (사건의 전말을 상세히 알려드리기 위해 강다윗님의 닉네임을 직접 언급하였으며 매니아의 시스템의 부실함 때문에 사태가 발생한 것이지 강다윗님의 잘못은 전혀 없습니다.)
매니아는 동시접속자 수가 굉장히 많은 편이고 고도화된 기능들이 많이 탑재되어 있기 때문에 데이터베이스를 메모리상에 올려 초고속으로 운용하는 시스템을 사용하고 있는데요, 이때 서버의 전원이 꺼지면 메모리 상에 있던 데이터는 소실되고 맙니다. 제가 그 사실을 깜빡하고 당직을 서고 있던 서버관리업체 직원분에게 서버의 리부팅을 부탁하게 되었고, 이 때 모든 자료가 날아가 버린 것입니다. 동시에 실시간으로 백업을 하고 있던 제2 서버도 혹시 모르니 리부팅을 해 달라고 했는데 이 부분 때문에 문제가 너무 커지게 되었네요. 이 백업 서버도 메모리에 DB를 백업받고 있었기 때문입니다.
이 두 대의 서버가 동시에 문제가 생길 상황을 대비해서 서버관리업체에서 별도의 서버에 매일 새벽 4시에 데이터를 백업해 주고 있었기 때문에 제 실수를 인정하고 하는 수 없이 새벽 4시자 자료로 복구를 해서 DB의 입력 로그를 이용해서 최신상태로 복구를 부탁했고, 이용에 불편을 겪고 계실 회원분들께 죄송한 마음으로 복구를 초조하게 기다리고 있었습니다.
그런데 잠시 후 업체로부터 전화가 와서 별도의 서버에 자료가 안남아 있다는 이야기를 해 왔습니다. 7월달에 서버 두 대가 잘 돌아가고 있길래 임의로 백업을 중단시켰다는 겁니다.
결국 7월달까지의 데이터와 최근 며칠간의 DB 입력 로그만을 가지고 밤새 작업해서 돌아온 모습이 현재의 모습입니다.
매니아 가족 여러분, 정말 죄송합니다.
서버 시스템을 정확하게 이해하지 못한 채 리부팅을 부탁한 제 실수와 업체의 안일한 운영으로 인해 근 6개월간 모든 매니아 분들이 힘을 합쳐 쌓아온 자료들을 모두 잃어버렸습니다. 사람의 실수까지 감안하지 못한 부실한 시스템 설계 때문에 이런 큰 일이 벌어지고 말았습니다.
앞으로는 매니아가 겪을 수 있는 모든 최악의 케이스를 다 감안해서 운영할 수 있도록 3중 4중 5중의 시스템을 구성해서 매니아에 어떤 일이 생겨도 매니아를 고스란히 복구해 낼 수 있는 장치를 만들어 운영할 수 있도록 하겠습니다.
서버가 안정되는 대로 업체에 책임을 강력하게 물음과 동시에 서버 추가를 통한 안정성의 확실한 향상 및 속도 향상 작업에 돌입해서 매니아를 계속 찾아주시는 데 부족함이 없도록 하겠습니다.
매니아를 믿고 활동해 주신 회원분들께 정말 면목이 없습니다.
이용에 큰 불편과 혼란을 겪으셨을 회원분들께 진심으로 사과드립니다.
앞으로 매니아 서버의 안정성에 대한 불신을 씻어낼 수 있도록 최선을 다해 문제를 해결해 나갈 것을 약속드립니다.
p.s. 회원분들께 부탁말씀
6개월간 가입하신 회원분들께 흔적도 없어진 가입 이력에 너무나도 죄송스럽지만, 가입 내역이 사라지신 분들께서는 당황하지 마시고 가입을 새로 해 주세요.
그리고 그간 소중한 게시물을 작성해 주신 분들께 진심으로 죄송스럽지만, 매니아가 아닌 다른곳에 게시물을 작성하셨고, 그 게시물이 아직 매니아에 올릴 수 있는 상황이라면 매니아에 꼭 다시 포스팅 해 주시길 부탁드립니다.
91
Comments
이전 페이지로
공지사항 리스트
그런게어딨어요..