[딥시크 쇼크] 중국 스타트업이 만든 AI 무엇이 달랐나

성능 낮은 반도체로 챗GPT 수준 구현
젊은 SW개발자 인프라 투자 한계 극복
美정부·빅테크 로드맵에 회의론…위기감 넘어 공포감 조성

중국의 스타트업 '딥시크'(Deep Seek)가 개발한 생성형 인공지능(AI) 모델 'R1'이 세계 경제계를 충격에 휩싸이게 했다.

딥시크의 최신 추론형 거대언어모델(LLM) 'R1'은 예상을 뛰어넘는 성능을 자랑하며 앞서 생성형 AI시대의 포문을 연 챗GPT 개발사 오픈AI의 가장 강력한 경쟁자로 급부상했다.

딥시크가 최근 R1을 출시하며 공개한 기술 보고서에 따르면 미국 수학경시대회인 AIME 2024 벤치마크 테스트에서 R1은 79.8%를 얻어 챗GPT의 최신 모델인 o1(79.2%)을 앞섰다. 또 코딩 부문에서도 라이브벤치 평가 결과 R1은 65.9%의 정확도를 기록하며 o1(63.4%)보다 높은 역량을 입증했다.

효율성이 높은 LLM 기술을 적용했다는 점도 주목할 만한 성과다. 'MoE(Mixture of experts·전문가 혼합)'를 활용한 자체 AI 아키텍처를 개발한 것이다. 이는 문제 해결에 필요한 최적의 전문가들을 선별해 활용하는 방식으로 전체 매개변수 6천710억개 가운데 370억개를 선별적으로 활성화시켜 단시간에 최적의 답변을 찾을 수 있도록 효율성을 극대화했다.

이 외에도 질문을 단계적으로 분석하는 '생각의 연결고리'(Chain of Thought) 방식을 활용해 복잡한 문제를 해결하는 방안을 고안한 점, 오픈AI를 비롯한 대다수 미국 빅테크와 달리 '오픈소스'(프로그램 개발 코드 및 설계 등을 공개하는 방식) 방식을 채택해 데이터 분석 경쟁력을 끌어올린 점도 차별화된 전략으로 평가된다.

특히 딥시크는 소규모 자본을 투입해 챗GPT와 맞먹는 성능을 구현하면서 AI시장에 새로운 패러다임을 제시했다. 미국 정부의 수출 제재로 AI모델 훈련 및 서비스 구현에 사용한 그래픽처리장치(GPU)가 높은 가격대를 형성한 최신형이 아닌 성능과 효율이 상대적으로 떨어지는 구형을 사용한 것이다. 실제 딥시크가 AI 반도체 구매에 사용한 비용은 오픈AI와 비교하면 10분의 1 미만에 불과한 것으로 전해졌다.

인프라에 대규모 투자를 하지 않아도 소프트웨어 분야 연구개발을 통해 기술적 발전을 이룰 수 있다는 가능성을 보여준 셈이다.

딥시크 창업자 량원펑은 올해 40세 컴퓨터공학을 전공한 펀드매니저 출신 개발자다. AI 모델 개발을 주도한 연구개발 인력들은 유학 경험이 없는 '국내파' 20~30대로 구성된 것으로 알려졌다. 정부 주도의 AI 전문가 양성이 산업 발전에 원동력이 되고 있다는 평가도 나온다.

세계 첨단산업의 중심이자 AI혁신을 이끌던 미국 실리콘밸리의 긴장감도 높아졌다.

사티아 나델라 마이크로소프트(MS) 최고경영자(CEO)는 "딥시크의 새로운 모델을 보면 추론 연산을 수행하는 오픈소스 모델을 정말 효과적으로 만들면서 슈퍼 컴퓨팅 효율성도 뛰어나다는 점에서 엄청나게 인상적"이라고 평가했다.

벤처 캐피털리스트 마크 앤드리슨은 과거 냉전 시대 옛 소련이 세계 최초 인공위성 스푸트니크 1호를 쏘아 올려 우주개발 경쟁을 촉발한 것을 언급하며 딥시크 돌풍이 "AI의 스푸트니크와 같은 순간"이라고 했다.

[딥시크 쇼크] 중국 스타트업이 만든 AI 무엇이 달랐나

성능 낮은 반도체로 챗GPT 수준 구현젊은 SW개발자 인프라 투자 한계 극복美정부·빅테크 로드맵에 회의론…위기감 넘어 공포감 조성

경제 기사

성능 낮은 반도체로 챗GPT 수준 구현
젊은 SW개발자 인프라 투자 한계 극복
美정부·빅테크 로드맵에 회의론…위기감 넘어 공포감 조성