상세 컨텐츠

본문 제목

Cloud 서비스 장애사례와 Multi Cloud의 필요성

정보통신

by ICT찐찐찐 2024. 8. 19. 00:10

본문

금일은 Cloud 서비스 장애사례와 Multi Cloud의 필요성에 대하여 살펴보겠습니다.

Cloud 서비스 장애사례와 Multi Cloud의 필요성

 

 

1. 개요

기업에서 필요한 컴퓨팅 환경을 물리적으로 직접 구축하고 운영하는 방식은 비용적인 측면에서 초기 투자비가 많이 들고 직접 운영하기 위해 물리적인 전산실 환경을 구성하고 운영 조직을 별도로 두어야 하는 등 지속적인 운영비가 발생합니다.
클라우드 서비스는 컴퓨팅 환경을 가상화를 기반으로 하여 제공하고 사용자가 필요한 시점에 필요한 만큼만 자원을 임대하여 사용하고 사용한 만큼만 과금을 하기 때문에 비용적인 측면에서 우수할 뿐만 아니라, 편리하고 확장성도 우수한 장점이 있습니다.


이러한 클라우드 서비스의 편리성과 비용적 측면의 우수성 때문에 많은 기업들이 Cloud 환경을 사용하고 있어서, 최근 사례에서도 보듯이 클라우드 서비스에서 장애가 발생할 경우 그 피해 규모가 다양한 산업에 걸쳐 광범위하게 영향을 미치고 있습니다.
이러한 문제점들을 해결하기 위해 단일 Cloud 서비스 환경을 활용하지 않고 두 개 이상의 Cloud 서비스를 이용하여 컴퓨팅 환경을 구성하는 Multi-Cloud 환경이 주목받고 있어 이를 살펴보고자 합니다.

 

 

2. Cloud 서비스

Cloud 서비스란 기업에서 필요한 컴퓨팅 자원을 가상화를 기반으로 인터넷을 통해 제공하는 서비스를 의미합니다.
제공하는 자원의 수준에 따라 IaaS(Infra as a Service), PaaS(Platform as a Service), SaaS(Software as a Service) 서비스로 구분할 수 있으며, 최근에는 Serverless Computing 환경을 제공하는 FaaS(Function as a Service) 서비스도 제공하고 있습니다.

 

 

3. Cloud 서비스의 가용성

클라우드 서비스는 비용절감 효과와 확장성 덕분에 많은 기업과 개인이 편리하게 사용하는 중요한 인프라가 되었지만, 다양하고 많은 고객이 사용하고 있기 때문에 장애가 발생하는 경우 대부분 대규모 장애로 이어지며 장애의 범위도 매우 크다고 볼 수 있습니다. 따라서 클라우드 사업자들 마다 이러한 장애를 예방하기 위해 다양한 기술적 방안을 마련하고 있습니다.

 

1) 가용영역(Available Zone)과 리전(Region)

가용영역(Available Zone)은 논리적인 데이터 센터로 1개나 2개 이상의 데이터 센터를 묶어 구성할 수도 있는 개념적으로 하나의 가상 데이터 센터입니다.
리전은 2개 이상의 논리적 DataCenter인 가용영역으로 구성되며, 특정 DataCenter 장애를 대비 다른 DataCenter에서 백업이 되어 있기 대문에 절체와 자동 복구가 가능합니다.
이러한 용어는 본래 AWS에서 사용하는 용어이지만 다른 클라우드 사업자들도 동일한 의미로 활용하고 있습니다.

출처 : https://velog.io/@ymh92730/AWS-Global-Infrastructure

 

 

2) 장애 절체와 백업 기능

데이터베이스나 네트워크와 같은 중요 서비스에서 장애가 발생하면 자동으로 백업 인스턴스나 대체 네트워크 경로로 전환하는 Fail-Over기능을 제공합니다.
주요 클라우드 서비스들은 정기적인 데이터 백업, 다양한 모니터링 도구를 통해 서비스 상태를 실시간으로 모니터링하고, 이상 징후가 발생하면 자동으로 알림, 서비스 가용성에 대한 SLA를 제공 등을 통해 장애에 대비하고 있습니다.

 

 

4. Cloud 서비스의 주요 장애 사례

1) AWS의 2021년 12월 장애

AWS의 네트워크 장비의 정기 유지보수 작업 중에 발생한 내부 네트워크 연결 문제로 내부 네트워크에 과부하 발생에 의해 장애 발생이 장애로 인해 AWS S3, DynamoDB, Lambda, EC2 등 주요 서비스가 정상적으로 동작하지 못해, 디즈니, Netflix는 VoD 서비스 장애, 주식 거래 앱인 로빈후드와 미국 최대 암호 화폐 거래소인 코인베이스 또한 접속장애, 아마존 물류 시스템과 음악 스트리밍 서비스에 영향을 받았고, 장애는 약 7시간 정도 지속되었습니다.
앞서 2018년에는 서울 리젼에서 장애가 발생하여 3시간여 동안 쿠팡, 배달의민족, 야놀자, 이스타항공, 타일 등 많은 업체들이 인터넷 서비스 사이트에서 접속이 이루어지지 않은 사고가 있었습니다.

 

2) MS Azure의 2024년 7월 장애

Crowd Strike의 보안 소프트웨어 업데이트로 인한 것으로, 해당 업데이트가 Windows 커널과 충돌이 발생했고 이로 인해 블루 스크린 오류를 유발했습니다.
이 장애는 항공, 금융, 통신 등 광범위하게 영향을 미쳤고, 미국 유나이티드항공과 델타항공, 아메리칸 항공은 1시간 동안 세계 각국에서 이륙을 중단했습니다. 화물운송업체 페덱스와 UPS도 배송 지연, 그리고 테슬라 텍사스와 네바다 공장 설비 중단의 문제가 있었습니다.
국내에서도 이스타항공, 제주항공, 에어프레미아 등 국내 저비용항공사의 항공권 예약·발권 시스템에서 오류가 발생해 공항 직원이 수기로 발권해 체크인 하면서 비행이 연착되었습니다.

 

3) 구글 GCP의 2021년 11월 장애

구글 클라우드가 네트워크 구성을 업데이트하는 과정에서 장애가 발생하였습니다.
이 장애로 스포티파이, 스냅챗, 엣시, 디스코드를 비롯한 유명 웹사이트들이 약 2시간 정도 마비되었습니다.
2019년에도 네트워크 시스템에 대한 구성 변경 시 오류가 발생하여 구글의 자체 서비스인 지메일, 구글 드라이브 서비스가 3시간 동안 중단되는 사고가 발생되기도 하였습니다.

 

 

5. Multi Cloud의 필요성

1) Multi Cloud란

Multi Cloud란 두 개 이상의 클라우드 환경을 이용하여 기업의 IT 인프라, 애플리케이션, 및 서비스를 구축하고 관리하는 전략입니다. 관련하여 Hybrid Cloud란 개념도 있는데 이 경우는 기업이 자체 구축한 Cloud와 Cloud 사업자를 동시에 이용하는 조금 다른 개념입니다.

 

2) Multi Cloud의 필요성

 

클라우드 서비스 사업자 장애 대비

- 앞서 살펴본 것처럼 클라우드 사업자는 장애 발생 상황을 대비해 동일 리젼에 Data Center를 2개 이상 구성하고 있지만, 자연 재해 지진이나 건물내 설비의 장애에 기인하지 않고 내부 시스템에 의한 장애 등에 의해서는 자체 Data Center 이중화는 의미가 없어 지게됩니다. 따라서 이런 상황을 대비하기 위해서 2개 이상의 클라우드 서비스를 사용하여 서비스 연속성과 생존성을 향상해야 합니다.

 

비용 절감 및 벤더 의존성 탈피

- 단일 클라우드를 사용하는 경우에 클라우드 벤더의 가격 인상 등에 대한 대응력을 확보할 수 있습니다. 두 개 이상의 클라우드 서비스를 이용함으로써 특정 클라우드 벤더에 의존성을 낮추고 이용 가격을 낮출 수 있습니다.

 

최적 운영 환경 구성

- 클라우드 서비스 사업자 마다 특화된 서비스가 있습니다. 또한 클라우드 제공자들이 동일한 서비스에도 각기 다른 서비스 요금을 가지고 있기 때문에, 특정 워크로드를 가장 효과적으로 경제적인 클라우드에 배치할 수 있습니다. 이를 통해 비용을 절감하고, 리소스 사용을 최적화를 할 수 있습니다.

 

 

6. Multi Cloud 활용 시 고려 사항

1) 통합 운영 환경

서로 다른 클라우드 서비스를 통합하여 운영할 수 있는 환경 구성이 필요합니다. 클라우드 서비스 마다 자체적인 운영 환경은 제공하지만 두 개 이상의 클라우드 서비스를 동일 환경에서 운영하고 사용현황이나 과금 정보들을 통합하여 제공할 수 있어야 합니다.

 

2) 데이터 통합 및 호환성 문제

멀티클라우드 환경에서 데이터를 한 클라우드 제공자에서 다른 클라우드 제공자로 이전하는 경우에, 호환성이 떨어지거나 통합이 어려운 경우가 있습니다. 데이터 이전 시 발생하는 시간, 비용 및 애플리케이션 이식성이나 서비스 간 상호 운용성 문제 등을 고려해야 합니다.

 

3) 보안

각 클라우드 사업자 마다 보안 정책과 기능이 다르기 때문에 이를 이해하고, 전체 환경에서의 보안 정책을 통합하는 것이 필요합니다. 데이터 암호화, 접근 제어, 보안 모니터링 등을 통합적으로 관리하고 운영 할 수 있는 환경 구성이 필요합니다.
또한 여러 개의 클라우드를 사용한다는 인터넷을 통해 데이터가 전달되는 경우가 더 많아 외부 공격에 노출될 수 있는 환경이 증가하기 때문에 보다 엄격한 보안이 요구됩니다.

 

 

7. Multi Cloud 통합 관리

앞서 언급된 Multi Cloud 도입 시 고려해야 할 문제점들을 개선하기 위해 멀티클라우드 아키텍처를 설계할 때 최대한 다양한 퍼블릭 클라우드에서 사용할 수 있는 오픈소스등과 같은 공통 기술과 개발 툴을 활용하고 특화되지 않은 기본 툴을 선택하여 구축하는 것도 필요하지만, 효율적으로 Multi Cloud를 관리할 수 있는 통합 플랫폼이 필요합니다.
아래 그림은 통합 클라우드 관리 플랫폼의 예시입니다.

[ 출처 : https://www.didim365.com/main/multicloud/ ]

 

8. 맺음말

클라우드 환경은 기업이 자체적으로 컴퓨팅 자원을 운영하는데 있어서 발생하는 투자비와 운영비를 효율적으로 절감할 수 있는 방안입니다. 그러나 다양한 사용자가 모여 있는 공간이기 때문에 장애가 발생하게 되면 다양한 분야에 광범위한 장애를 유발할 수 있습니다.

이를 극복하기 위해 클라우드 사업자들은 물리적으로 떨어진 Data Center를 구축하고 서비스를 제공하지만 클라우드 사업자의 장애 사례를 보면 대부분 내부적인 문제에 의해 장애가 발생하고 있습니다. 이를 개선하기 위해 2개 이상의 클라우드를 사용하여 위험을 분산하고 최적 기능을 사용하기 위해 Multi Cloud 활용이 필요해 지고 있습니다.

Multi Cloud를 효과적으로 사용하기 위해서는 각기 다른 운영 환경을 통합하여 구축하고 모니터링하고 관리 할 수 있는 Multi Cloud Management 시스템을 도입하여 멀티 클라우드에 분산된 자원들을 쉽고 빠르게 연결하고 통합 관리하여야 합니다.

 

 

정보통신기술사 김동호

반응형

관련글 더보기