[긴급 공지] 1차 복구작업이 마무리 되었습니다.
안녕하세요, 홈지기입니다.
마무리 돼 가는 1차 서버 이전 복구 작업
지난 며칠간 이뤄졌던 긴급 서버 복구 작업이 완료되어 비로소 정상적인 서비스가 가능해졌습니다.
KT 데이터센터에서 쓰던 7대의 서버가 유독물질을 뿜어내는 서버가 돼 버리는 바람에 모두 쓸 수가 없게 되어 예전에 공지로 소개해 드렸던 저희 매니아 자체 제작 데이터센터에서 구형 서버들과 새 서버 한 대를 포함 총 18대를 다시 설치, 셋팅, 가동 시켜 서비스에는 속도 문제가 거의 없는 상태로 복구가 되었습니다. 이제는 데이터의 보호을 위한 실시간 내부 백업, 정기적 외부 백업 서버들을 추가 설치해 가동하고, 백업을 위한 회선 증설을 조금 더 하면 긴급했던 1차 복구 작업은 완전히 마무리 될 예정입니다.
다만 상당히 연식이 오래된 구형 서버들이 가동되고 있기 때문에 안정성을 확신할 수 없고 서버 증설 및 설정 변경, 튜닝 등의 작업을 하기 위해 서비스 이용에 간헐적으로 장애가 생길 수 있음을 알려드립니다. 꼭 필요한 서비스 중단에 대해서는 사전에 공지를 한 후 새벽에 작업하도록 하겠습니다.
유실된 데이터 복구 작업 - 실패
서비스 재개를 위한 복구는 마무리 단계에 있지만 그 다음 급선무인 5일간의 게시물 유실을 복구하는 작업은 너무 안타깝게도 불가하다는 판정을 내렸습니다. 재해를 입은 서버들 중 파일 서버는 2대로 파일 서버는 2대로 메인 파일 서버 10개의 디스크 RADI10 구성, 8개의 디스크 RAID50 구성이 되어 있으나 레이드 구성을 복원시도 해 본 결과 안타깝게도 디스크 장애에서 데이터 보호를 철저히 하기 위해 구성했던 총 18개의 디스크레이드 어레이 2개가 엄청난 분진과 고열 문제에서 자유롭지 못해 모두 사용 불능 상태가 되어 데이터 유실이 확정이 된 상태입니다. 이런 사고에 대비해 외부에 보다 더 알차게 백업을 하지 못한 점 너무 죄송스럽게 생각하고 5일간 데이터 소실로 인해 피해를 입으신 모든 분들께 서버 관리 및 데이터 관리 총 책임자로서 사과의 말씀을 드립니다.
구사일생, 그리고 향후 계획
저희가 아현 KT 데이터센터에 입주를 결정하기로 한 것은 불과 몇 달 전입니다. 입주하기 전에 영업사원에게 질문했던 것이 있습니다. 이 데이터센터는 정전, 회선장애, 지진, 화재 등의 안전을 위해 얼마나 준비가 되어 있는가. KT측에서는 이 아현지사가 엄청나게 중요한 위치에 있어서 이 데이터 센터가 문제가 생기면 서울 일대 인터넷이 다 나간다고 그럴 일이 절대 없도록 설계 되어 있으니 걱정할 필요 없다고 자신했습니다. 하지만 저희는 그 건물 자체가 전화국으로 애초에 설계된 점, 그리고 데이터센터의 내부 설비가 제 경험상 그렇게 자신만만하기에는 다소 부족해 보였다는 점에서 KT 측에서 데이터센터 전체가 소실됐을 때를 위해 외부에 백업을 준비하고 있었고 이게 이렇게 빨리 쓰기에 될 줄 몰랐습니다. KT 측의 말만 믿었다면 매니아와 저희 파트너 커뮤니티들의 운명은 KT 화재와 함께 끝이 났을 것입니다. 매니아 커뮤니티 이외에도 모두 10년 넘게 운영하시는 분들께서 커뮤니티와 혼연일체가 되어 힘들게 운영해 온 사이트들인데 그 사이트들이 사라졌을 수도 있다고 생각하니 너무도 아찔합니다.
항상 건물 화재는 물론이고 지진, 전쟁 발발의 확률까지 준비해야 한다고 장난스럽게 저희 운영진끼리 얘기를 우스갯소리를 하며 유난스러울진 모르겠지만 매니아는 해외 백업본까지 준비를 하고 있습니다. 물론 전송속도와 비용의 문제로 인해 해외 백업은 실시간일 수가 없어서 전쟁이 났을 때를 위한 최후의 보루입니다. 우리가 이렇게 백업을 준비한다고 IT 업계 종사자들을 만나 이야기를 하면 주변에서 금융회사들도 그렇게 많은 백업을 안하는데 오버한다는 말을 많이 들었는데 그 덕분에 현재 모습이라도 보여드릴 수 있게 됐습니다.
내부 백업만 가지고 있었더라면 현재의 모습이 아니라 완전히 소멸을 할 수 있었음을 생각하면 백업은 3중 4중으로 해도 모자라지 않다는 생각, 그리고 그 시간과 비용까지 앞으로의 운영계획에 포함시켜야 한다는 생각을 이제 확실히 갖고 임하도록 하겠습니다. KT로 부터 보상 이슈가 빠르게 해결 되면 좋겠지만 저희는 KT가 제시하는 보상 계획과 상관 없이 저희가 필요하다고 생각하는 플랜 대로 움직일 생각입니다. 시간도 많이 걸릴 것이고 저희가 원하는 보상안이 아니라면 더욱 더 시간이 걸릴 상황인 데다 보상을 해 준다 해도 과거에 저희가 쓴 '완전하지 않은' 상태를 보상을 해 줄 뿐 저희가 생각하는 '완전한' 상태의 모습을 보상해주진 않을테니까요. 앞으로는 이런 재난시 조금 더 부드럽고 자유롭게 대처할 수 있도록 대책을 강구해서 더 나은 서비스 안정성을 확보할 수 있도록 하겠습니다.
감사의 인사
며칠간 정신이 너무 없어 많은 분들의 응원 메세지에 답을 드리지 못했습니다.
모두 진심으로 감사드립니다. 매니아에 대한 애정이 누구 못지 않게 크신 분들이 계심에, 그리고 그 분들의 숫자가 참 많다는 소식에 허탈함 속에 진행됐던 복구 작업을 하면서 힘이 났고 무한한 감동을 받았습니다. 자체제작 데이터센터를 벗어나 기업이 관리를 대행해 주는 데이터센터로의 이전이 종착지일 줄 알고 준비가 다 되면 여러분께 비하인드 스토리를 알려드리며 함께 축하하고 싶었는데 그걸로는 아직 부족하다는 것을 알게 되었습니다. 더 많은 준비를 하면서 앞으로 진척 상황에 대해 지속적으로 알려드리겠습니다.
감사합니다.
글을 읽어보는데 진짜 존경스럽습니다.
뜻밖의 사고에 차분히 대처하는 모습, 안전망을 3중 4중으로 철저하게 준비해두신 모습 등등..
이게 전부 매니아라는 사이트에 대한 엄청난 애정이 없이는 불가능하리라는 것을 알고 있습니다. 덕분에 좋은 플랫폼에서 항상 기분좋게 정보도 얻고 소통도 하며 즐거운 시간 보내고 있습니다. 문자로 얼마나 전해질지 모르겠지만 진심으로 감사드립니다