'mHC' 제목의 연구 결과, 사전 논문 공개 형식으로 'arXiv'에 게재…자사 AI모델 업데이트 가능성
딥시크가 불리한 하드웨어 조건에서도 AI(인공지능) 학습 능력을 극대화하는 기술을 공개했다. 대형언어모델(LLM)의 정보 처리 네트워크 '차로'를 확장하면서도 통행 신호를 최적화해 정보 처리 안정성과 효율을 끌어올릴 수 있는 기술이다. 최소한의 하드웨어 투입만으로도 오픈AI, 구글 못지 않은 성능을 내려는 딥시크의 개발 전략이 한층 강화된 셈이다.
2일 디이차이징과 중국망 등 중국 현지 언론에 따르면 딥시크는 전일 'arXiv'에 'mHC: Manifold-Constrained Hyper-Connections(mHC: 유형 제약 초연결)'이란 제목의 연구 결과를 사전 논문 공개 형식으로 게재했다. 'arXiv'는 전 세계 AI 연구자들이 가장 먼저 연구 성과를 공개하는 국제 표준 플랫폼이다. 딥시크 창업자이자 최고경영자(CEO)인 량원펑이 공동 저자로 이름을 올렸고 딥시크에서 LLM 설계를 총괄하는 셰전다가 연구를 주도했다.
이 연구는 LLM의 정보처리 전달 통로인 '초연결(HC)'을 확장할 경우 발생할 수 있는 AI 학습의 불안정성과 병목현상에 대한 해결책을 제시했다. 무한정 통로를 넓혀 정보처리량을 키우면 AI 학습이 중간에 실패하는 문제가 발생하기 때문에, 고성능 칩을 장착하는 등 하드웨어 성능을 끌어올릴 수밖에 없던 게 지금까지의 LLM 성능개선 전략이었다.
하지만 딥시크는 이번 연구에서 정보처리 네트워크를 여러 갈래로 확장하는 동시에, 각 네트워크로 흘러들어가는 정보의 양이 항상 일정하도록 통제하는 '유형 제약 초연결(mHC)' 구조를 제시했다. 이를 통해 정보 총량은 유지하면서도 AI 학습의 안정성과 효율성을 동시에 개선할 수 있다는 것.
고속도로(HC)를 왕복 4차선에서 8차선으로 확장하면서 모든 교차로에서 나가고 들어오는 차량(정보)의 총량이 일정하게 유지되도록 신호를 맞춰 톨게이트(메모리)에서의 정체와 병목을 최소화하는 구조인 셈이다. 딥시크 연구팀은 이번 초대형 모델 실험에서 mHC를 통해 정보 처리 성능을 높이면서도 AI 학습 속도 저하는 약 6.7%에 그치는 결과값을 얻어냈다.

딥시크는 이번 연구가 현재 LLM의 한계를 돌파하고 차세대 기초 설계의 진화를 주도하는 데 기여할 것이라고 자평했다. 지난해 딥시크의 등장이 전 세계에 파문을 던진 것도, 수많은 정보 처리 네트워크 중 사용자 질문에 연관된 부분만 활성화하고 나머지는 비활성화해 하드웨어 부담을 최소화하는 방법으로 오픈AI와 구글의 LLM 못지않은 성능을 뽑아내서였다. 더 많은 고성능 칩 적용을 발판으로 한 미국 빅테크의 '하드웨어 물량전'에 구조와 학습 효율화로 맞서는 딥시크의 전략이 mHC를 기점으로 한층 고도화될 수 있는 셈이다.
이와 관련, 디이차이징은 이번 연구가 규모가 작고 자본 동원력이 제한적인 AI 기업도 보다 복잡한 LLM 개발에 도전할 길을 열어줄 수 있다고 분석했다. 또 보다 복잡한 산업 응용 측면에서도 LLM를 광범위하게 활용할 수 있을 것이라고 평가했다. 중국 AI 전문가들 사이에선 딥시크가 이번 연구발표를 계기로 다음 버전에서 중대한 업데이트를 내놓을 수 있단 관측이 나온다. 지난해 초 저비용 고효율 AI 모델로 전 세계의 주목을 받은 딥시크는 그동안 대형 신규버전을 공식 출시하진 않았지만 지난해 12월 딥시크 'V3.2'와 'V3.2-Special'를 동시에 공개하는 등 모델 개선에 지속적으로 속도를 내왔다.