
"불과 1년 전, AI(인공지능) 관련 사업을 하고 싶어도 자원을 구하는 일이 상당히 어려웠습니다. 지금은 어느 정도 여유가 있다고 보고 AI 사업을 잘하기 위해 무엇이 필요할까 생각해봤습니다. 현재 네이버는 물리적 인프라에서 플랫폼 기술까지 하나의 구조로 연결된 통합형 AI 인프라 체계를 추진하고 있습니다."
이상준 네이버클라우드 CIO(운영총괄본부장)가 26일 네이버 데이터센터 '각 세종'에서 열린 밋업 행사에서 이같이 말했다. 이 CIO는 "AI 인프라의 경쟁력은 GPU(그래픽처리장치)를 얼마나 많이 확보하는가를 넘어 확보한 자원을 얼마나 안정적이고 효율적으로 운영하는지에 달려 있다"며 "각 세종은 AI 워크로드 전체를 통합적으로 제어할 수 있는 풀스택 AI 인프라이며 이런 통합 설계·운영 역량은 글로벌에서도 손꼽힌다"고 설명했다.
네이버는 '각 세종'에서 대규모 GPU 클러스터를 직접 설계·운영하며 냉각·전력·네트워크 등 데이터센터 핵심 인프라를 자체적으로 설계하고 AI 워크로드에 최적화하는 기술을 내재화했다. 이를 위해 '각 세종'은 기존 IDC가 수행하던 저장 처리 기능을 넘어 AI 학습과 추론이 동시에 이뤄지는 고밀도 GPU 연산 공간으로 설계됐다. 전력과 냉각 효율, 무정지 운영까지 모두 고려해 AI 인프라가 24시간 안정적으로 작동할 수 있는 환경을 구축했다.

이 CIO는 최근 논란이 된 대전 국가정보자원관리원 화재처럼 불의의 사고로 데이터가 손실되는 것을 막기 위해 여러 안전장치도 구축했다고 밝혔다. 그는 "화재나 여러 이슈 상황에서 분리된 환경에서 (데이터센터를) 운영한다"며 "전력 계통의 이중화는 물론 집적정보통신시설 보호지침을 준수해 전력 공급 안정성을 확보했다"고 말했다.
네이버클라우드는 장애 상황에서도 흔들리지 않는 표준화된 인프라 구조와 자동화된 운영 체계를 구축했다. 모든 서버는 도입 전 단계에서 성능·전력 효율·운용성을 검증해 표준 사양으로 구성되며 GPU 등 고성능 자원은 실시간 상태 감시와 자동 복구 기능을 통해 장애 발생 시에도 안정적인 서비스 연속성을 유지할 수 있다.
또 GPU 클러스터 운영에는 자원 관리·배치·복구를 자동화하는 기술이 적용돼 대규모 환경에서도 일관된 효율과 안정성을 유지하고 있으며 반복적인 장애 대응이나 자원 조정 작업 상당 부분도 시스템이 자동으로 처리하도록 설계했다. 네이버는 이런 운영 기술을 데이터센터 전반의 인프라 관리 영역으로 확장하며 복잡한 AI 워크로드 환경에서도 예측할 수 있는 인프라 운영을 실현하고 있다.

이 CIO는 "이런 운영 기반 위에서 네이버의 AI 플랫폼은 모델 개발부터 학습, 추론, 서빙까지 AI의 전 과정을 하나로 연결하는 통합 운영 체계로 작동한다"며 "내부적으로는 하이퍼클로바의 학습과 운영이 모두 이 플랫폼 위에서 이뤄지며 GPU 자원 배분, 모델 관리, 스케줄링까지 효율적으로 통제된다"고 말했다.
독자들의 PICK!
개발자는 인프라 제약 없이 학습·실험을 진행할 수 있고 운영자는 GPU 사용 현황과 전력 효율을 실시간으로 모니터링 및 분석하고 적재적소에 최적화 요소를 적용할 수 있어 네이버의 AI 플랫폼은 단순한 실행 환경이 아닌 AI 개발과 운영이 하나로 통합된 'AI 인프라의 두뇌'로 자리 잡고 있다. 네이버클라우드는 이런 기술과 운영 역량을 기반으로 국내 주요 기업에 서비스를 제공한다.
노상민 네이버클라우드 센터장은 "다른 데이터센터의 경우 판매가 목적인 상업용인 반면 네이버 데이터센터는 자사 서비스 운영이 목적"이라며 "여러 고객의 니즈를 받아들이진 않지만 네이버가 국내 IT 업체 가운데 가장 많은 서버를 쓰고 가장 많은 서비스를 운영하기 때문에 누구보다 트렌드 변화에 빠르게 적응한다는 게 가장 큰 장점"이라고 말했다.