Image Credit : Getty Images Bank
과거 IT 회복 탄력성은 가동 시간에 집중하는 것이었다.
시스템이 중단되는 일이 없도록 조치하고 만약 중단되면 최대한 빠르게 온라인 상태로 복구하는 것에 초점을 맞추곤 했다. 그러나 오늘날 IT 회복 탄력성은 그보다 훨씬 더 많은 것을 의미한다.
브래드 스톤의 의견이 이를 잘 반영한다. 부즈 알렌 해밀턴(Booz Allen Hamilton) CIO로서 스톤은 회복 탄력성을 2가지 차원으로 생각한다고 말했다.
한 가지는 회사를 중단 없이 가동되게 하는 것이고 두 번째는 적응하고 변화에 대처하며 예상치 못한 것을 처리하는 능력을 갖추는 것이다.
또한 스톤은 이제 회복 탄력성의 의미는 이 모든 것을 하는 동시에 사용자가 기대하는 경험을 지속적으로 제공하는 것이라고 말했다.
그는 “10년 전에는 중단 현상이 발생해도 넘어 가곤 했다. 그러나 오늘날의 기대치는 다르다. 사용자와 비즈니스 리더들은 기술이 항상 작동하고 놀라운 경험이 될 것을 기대한다.
IT의 중요성이 더욱 커졌기 때문에 이제 기대치가 훨씬 더 높다. 완벽함은 아닐지언정 기준이 매우 높다”라고 말했다.
그러한 변화는 오늘날 IT 회복 탄력성 보장을 위한 보다 포괄적인 접근 방식을 촉발시켰다. 전문가들과 IT 리더들이 추천하는 최선의 실천 과제 7가지를 소개한다.
1. 비즈니스 수요에 맞춰 조정할 것
자문 및 서비스 회사 가이드포인트 시큐리티(GuidePoint Security) 비즈니스 회복 탄력성 책임자 론 브라운은 IT 회복 탄력성에 대해 기술의 상시 가용성을 보장하는 것이라고 정의하면서도 완벽할 가능성이 낮다는 점을 인정한다.
그는 “언젠가는 중단이 발생한다는 사실에 대비해 계획을 수립할 필요가 분명히 있다”라고 강조했다.
그는 CIO들이 그런 불가피한 사태에 대비할 최선의 방법은 회사에게 가장 중요한 시스템이 무엇인지 명확히 함으로써 IT 부서가 어떤 종류의 정전 중에도 첫번째로 집중할 것이 무엇인지 알게 하는 것이라고 조언했다.
브라운은 “의심할 것 없이 첫번째로 할 일은 비즈니스와 동일선상에 있는 것이다. 그들이 무엇을 필요로 하며 그들이 기대하는 것을 [얻기 위해] 얼마나 지불할 의향이 있는지를 알아야 한다”라며 비즈니스 영향 분석이 이러한 정렬에 도움이 된다고 말했다.
회사를 위한 요구사항을 이해한 후에는 보유한 서비스와 능력, 어떤 앱을 어떤 그룹이 사용하는지를 준비하는 것이 중요하다. 그래야 뭔가 잘못되었을 때 복구하려면 우선순위를 어디에 두어야 할 지 알 수 있다.
2. 사일로를 해체할 것
전직 CISO이자 현재는 사이버위험 관리 회사 액시오 글로벌(Axio Global) 선임 고문으로 재직 중인 리차드 카랄리는 회복 탄력성을 “운영 위험 관리에서 확대된 새로운 속성”으로 본다고 말했다.
그 일을 잘 하려면 IT 운영 팀과 사이버보안 팀이 비즈니스 연속성/재해 복구 계획을 감독하는 리더들과 협력해야 한다. 그러나 카랄리는 항상 그렇게 되지는 않는다고 지적했다.
그는 “이러한 활동은 고립되는 경향이 있어서 각 분야가 서로 다른 위험 가정과 시나리오를 기반으로 활동하게 되는데 사실 이들은 모여서 협업해야 한다”라고 말했다.
카랄리는 이어 “가령, 한 조직의 사이버보안 팀이 침투를 방지하고 침투 발생 시에는 이를 탐지하여 대응할 수 있도록 뛰어난 심층 방어 전략 수립에 집중한다고 하자. 그런데 만일 사이버보안 팀이 위험 및 IT 팀과 긴밀하게 협력하지 않으면 ‘최소한의 결과로 최대한 빠르게 정상 운영 상태로 복귀’하는 역량이 강력하기 어렵다”라고 설명했다.
즉 모든 팀이 함께 시나리오를 계획하고 실행해야 한다.
위험을 영향 측면에서 바라보고 어떤 종류의 결과가 발생할지 예측할 수 있다면 위험 수량화에 나설 수 있고 그 후에는 다음 자금을 어디에 쓸지, 예방 차원에 쓸지 피해를 줄일 활동에 쓸 지 파악할 수 있다.
3. 지표를 성숙시킬 것
경영 컨설팅 회사 맥킨지 앤 컴퍼니(McKinsey & Co.) 파트너 조지 마차도는 IT 회복 탄력성이 진화함에 따라 CIO들은 맞는 목표를 달성하고 있는지 확인하기 위해 운영 활동 측정 및 관리에 사용하는 지표를 유연하게 조절해야 한다고 강조했다.
마차도는 “10년 전이라면 가동 시간, 애플리케이션 가용성, 평균 복원 시간이 중요할 것이다. 그러나 요즘은 앱들이 좀 더 마이크로서비스 지향적으로 변하고 모놀리스 시스템에서 벗어남에 따라 좀 더 미묘한 방식으로 측정할 필요가 있다”라고 말했다.
마차도와 동료인 맥킨지 부파트너 애런 군두라오는 필수 트랜잭션 수행 능력에 집중한 척도를 추천한다.
예를 들면, 고객 상호작용, 사용자 관점에서의 애플리케이션 경험, 또는 서비스 수준 목표에서의 실패를 측정하는 것이다.
4. 연습할 것
스톤의 의견에 따르면, 회복 탄력성은 예기치 않은 상황에 대처하는 것을 의미한다. 그렇게 하기 위해서 스톤은 ‘준비성’을 강조한다. 이는 실전 연습과 시뮬레이션으로 훈련, 테스트, 실습하는 것을 의미한다.
그는 “연습 삼아 클러스터를 치워버린 후 아무에게도 알려주지 않고 사람들이 어떻게 대응하는지 관찰하는 식이다. 거의 실전 화재 시뮬레이션과 같다.
적절한 시간에 신중하게 해야 하지만 업무의 일부가 되어야 한다. 표준 운영 절차를 갖추고 검토하고 개선해야 한다.
기꺼이 직원들을 불편하게 하고 직원들에게 도전을 걸어야 한다. 이는 직원들에게 동지애를 선사한다. 그들은 상황을 헤쳐 나갈 수 있다는 것을 알기 때문이다”라고 말했다.
스톤은 그러한 연습은 CIO와 관리자들에게 효과적인 프로세스에 대한 자신감과 근육 기억을 키울 기회를 제공한다고 말했다.
뿐만 아니라 핵심 기술에 훈련된 작업자가 여유 있게 확보되지 않은 상태 또는 특정 애플리케이션에 장애가 발생할 경우 백업 절차의 부재와 같은 약점을 파악할 기회도 제공한다.
5. 아키텍처 차원의 회복 탄력성을 구축할 것
전문가들은 인스턴스와 페이로드를 지리적 지역 전체에 걸쳐 배포하는 등의 방식으로 아키텍처 자체 내에 회복탄력성을 구축하는 것이 중요하다고 강조했다.
스톤은 회복 탄력성 있는 시스템을 보장하는 한 가지 방법은 “기대치를 충족할 만큼 아주 잘 할 수 있도록 하는 일을 간소화하는 것”이라면서 그러한 접근방식은 팀들의 과도한 부담을 방지하는 데도 도움이 된다고 말했다.
사고, 문제, 변화 관리에 대한 자동화를 섞어 넣는 것 역시 회복 탄력성 구축에 도움이 된다고 그는 덧붙였다.
군두라오는 사이트 신뢰성 공학(SRE)을 채택할 것을 추천한다. SRE은 확장성과 신뢰성 있는 시스템 조성을 목적으로 하는 인프라 및 운영 원칙과 관행이다.
액센츄어(Accenture) 글로벌 엔터프라이즈 아키텍처 책임자 앤드류 롱의 관찰에 따르면, 대규모 조직이 보다 회복 탄력성 높은 IT 시스템 구축을 위해 디지털 네이티브 조직에서 사용하는 원칙, 기술, 방법을 채택하는 경우가 늘고 있다. 그는 “그 결과 회사는 파괴적 비즈니스 사건에 대한 회복 탄력성을 개선할 수 있어서 경쟁력이 더욱 높아졌다”라고 말했다.
롱은 이어 “이를 위해 보다 모듈적이고 구성가능한 방식으로 제공하기 위해 속도와 민첩성, 데이터 중심성, 탈중앙화는 물론 연속 통합 및 실행, SRE, 마이크로서비스를 강조하는 CIO들이 증가하고 있다”라고 말했다.
그에 따르면 ‘제품 중심의 IT 실행 및 운영’ 움직임 또한 이와 맞닿아 있다. 전통적인 폭포수 기반의 IT 프로젝트 기법에서 IT 회복 탄력성을 뒷받침하는 보다 광범위하고 보다 전략적인 요건을 고려하는 접근법을 취하는 것이다.
롱은 또 “이제 거의 모든 조직이 IT 재산의 일부를 클라우드에 두고 있다”면서 “조직의 민첩성과 회복 탄력성을 높이기 위해 어떤 고유의 클라우드 기능을 활용할 수 있는지 고찰하는 것이 중요하다”이라고 강조했다.
6. 스스로 진화할 것
전문가들은 조직 위험, 비즈니스 수요, 기술이 모두 계속 변화하는 만큼 IT 회복 탄력성을 둘러싼 관행 역시 계속 진화해야 한다고 입을 모았다.
롱은 “비즈니스 중단의 위험, 위험의 범위, 그리고 중요하게는 이 위험과 그 잠재적 가치의 수량화 방식을 기업 구성원들이 이해하도록 협력하라”라고 당부했다. 기술 환경의 현황을 명확히 파악하면 소속 조직이 이 중단에 대응할 방법과 중요한 위험 분야가 존재하는 부분을 더욱 잘 이해할 수 있다.
7. 현업 측이 책임을 분담하게 할 것
마차도는 비즈니스 측 역시 IT 회복 탄력성에 역할이 있으므로 사업부 리더들도 이에 대해 일부 책임을 가져야 한다고 강조했다.
그는 “책임 모델이 있어야 하고 이를 회사와 공유해야 한다고 생각한다. 그래야 앱 개발자가 누구든 책임을 분담할 수 있다. CIO의 역할에 한정되어서는 안 된다”라고 설명했다.
마차도는 이와 관련해 현업 관계자들이 자신의 요구 사항과 우선순위가 회복 탄력성에 영향을 미칠 수 있음을 이해해야 한다고 강조했다.
예를 들어, 사업부 리더가 출시 시간과 가치 창출 속도를 지속적으로 우선시한다면 그것이 회복 탄력성에 영향을 미칠지 여부와 얼마나 많은 영향을 미칠지에 대한 책임을 분담해야 한고 그는 덧붙였다.
<출처 : CIO KOREA>