About
CapitalEDGE 소개

엔비디아 공매도 보고서

원문 보기

요약

그동안 엔비디아가 강력한 해자로 여겨온 하드웨어, 소프트웨어, 그리고 효율성의 장점들은 하나둘씩 균열을 보이고 있다. 그리고 지금 전 세계에서 가장 똑똑한 수천 명의 엔지니어들이, 수십억 달러에 달하는 자본을 등에 업고, 엔비디아를 무너뜨리기 위해 모든 방향에서 공격을 가하고 있다.
하드웨어 측면: 인터커넥트 우회와 맞춤형 실리콘의 위협
Cerebras와 Groq 같은 혁신적인 하드웨어 업체들은 엔비디아의 데이터센터 시장 지배력의 핵심이었던 인터커넥트 기술이 근본적으로 필요하지 않을 수도 있음을 입증하고 있다.
Cerebras는 웨이퍼 스케일 칩(wafer-scale chips) 을 통해 기존 GPU 설계를 완전히 탈피한 반면,
Groq는 결정론적 연산(deterministic compute) 방식을 통해 엔비디아의 복잡한 인터커넥트 솔루션 없이도 높은 성능을 구현하고 있다.
더 전통적인 측면에서도 엔비디아의 주요 고객(구글, 아마존, 마이크로소프트, 메타, 애플) 은 모두 맞춤형 반도체(custom silicon)를 개발하여 엔비디아의 데이터센터 수익을 잠식하려 하고 있다.
이것이 단순한 실험적 프로젝트가 아니라는 점도 중요하다. 아마존은 이미 Anthropic을 위해 40만 개 이상의 맞춤형 칩을 기반으로 한 대규모 인프라를 구축 중이다.
소프트웨어 측면: CUDA의 독점력 약화
CUDA는 오랫동안 엔비디아의 가장 강력한 해자로 여겨졌지만, 지금은 그마저도 흔들리고 있다.
MLX, Triton, JAX 같은 고수준 프레임워크가 등장하면서 CUDA의 중요성을 추상화하고 있다.
AMD의 드라이버가 개선될 경우, 더 저렴한 GPU가 CUDA의 대안이 될 가능성이 커지고 있다.
어셈블리 언어가 결국 C/C++에 의해 대체된 것처럼, CUDA 역시 장기적으로는 더욱 범용적인 소프트웨어 스택에 의해 대체될 가능성이 있다.
LLM을 활용한 코드 변환 기술이 발전하면서, 기존 CUDA 코드를 자동으로 다른 하드웨어에서 실행 가능하도록 변환하는 솔루션이 등장할 가능성도 있다.→ 이는 엔비디아가 오랜 기간 유지해 온 소프트웨어 락인 효과(locked-in effect)를 무너뜨릴 수 있는 가장 위험한 요소다.
효율성 혁신: DeepSeek의 충격적인 연산 효율성 돌파
DeepSeek가 최근 발표한 모델은 기존 AI 모델과 동등한 성능을 1/45 수준의 연산 비용으로 달성하는 데 성공했다.
이는 AI 업계 전체가 지금까지 지나치게 많은 컴퓨팅 리소스를 투입해왔다는 것을 의미한다.
체인 오브 쏘트(chain-of-thought) 모델이 더 효율적인 추론 아키텍처를 제공하면서, AI 모델의 총 연산 수요가 기존 예상보다 훨씬 낮아질 가능성이 크다.
DeepSeek가 GPT-4급 성능을 내면서 API 요금을 OpenAI, Anthropic 대비 95% 저렴하게 제공할 수 있다면,→ 이는 결국 엔비디아 고객들이 불필요하게 돈을 낭비하고 있거나, 엔비디아의 마진이 극적으로 하락할 수밖에 없다는 신호일 수도 있다.
제한된 설계 우위: TSMC의 존재와 반도체 시장의 역사적 패턴
엔비디아의 GPU는 TSMC에서 제조되며, TSMC는 충분한 자본이 있는 고객이라면 누구에게나 최신 공정을 제공할 것이다. 이는 엔비디아가 가진 설계상의 우위가 일정 부분 한계를 가질 수밖에 없음을 시사한다.
역사적으로도, 과도한 수익을 내는 시장은 항상 경쟁자들에 의해 붕괴되었다.
엔비디아가 현재 얻고 있는 비정상적인 초과 이익은 장기적으로 지속될 가능성이 낮다.
시장 원리가 작동하는 한, 결국 새로운 경쟁자들이 최적화된 솔루션을 내놓으며 수익성을 갉아먹을 것이다.
결론: 엔비디아의 성장성과 마진이 장기적으로 지속 가능할까?
엔비디아는 지금 다섯 가지 방향에서 강력한 위협을 받고 있다.
1.
아키텍처 혁신 → Cerebras, Groq 같은 업체들이 엔비디아의 설계를 근본적으로 우회하는 새로운 방식 개발
2.
고객의 자체 반도체 개발 → 구글, 아마존, 마이크로소프트, 메타, 애플이 맞춤형 실리콘을 통해 엔비디아 의존도 낮추는 중
3.
소프트웨어 추상화 → MLX, Triton, JAX 등으로 CUDA의 중요성이 희석됨
4.
연산 효율성 혁신 → DeepSeek 같은 업체들이 동일 성능을 훨씬 적은 컴퓨팅 파워로 달성하면서 전체 시장 규모 축소 가능성
5.
반도체 제조의 민주화 → TSMC가 누구든 충분한 자본만 있다면 경쟁력 있는 칩을 만들 수 있도록 지원
이 중 단 하나의 위협만 현실화하더라도, 엔비디아의 마진율이나 성장 속도에 큰 타격을 줄 가능성이 크다. 그러나 현재 엔비디아의 주가는 이러한 위험 요소를 거의 반영하지 않은 상태다.
결국, 현재의 엔비디아 밸류에이션은 지나치게 낙관적인 시나리오를 가정하고 있으며, 향후 몇 년간 이러한 경쟁 압력이 심화될 경우, 그 가정이 깨질 위험이 크다.

목차

No Bold 버전으로 읽기

들어가며

나는 월가의 헤지펀드에서 10년간 투자 애널리스트로 일하며, 동시에 2010년부터 딥러닝을 연구해온 수학·컴퓨터 덕후다. 제프 힌튼이 제한 볼츠만 머신을 이야기하고, 모든 것이 매트랩으로 프로그래밍되던 시절, 연구자들이 필기체 숫자 인식에서 서포트 벡터 머신보다 나은 결과를 보여주려 했던 때부터 AI를 깊이 들여다봤다. 이러한 경험을 바탕으로, AI 기술의 발전과 그 기술이 주식시장의 기업가치에 미치는 영향에 대해 나름 독특한 관점을 발전시켜왔다고 자부한다.
최근 몇 년간은 개발자로서의 활동에도 더 많은 시간을 할애하며, 다양한 AI 모델과 서비스를 다루는 여러 인기 오픈소스 프로젝트를 진행했다. 예를 들면 LLM Aided OCR, Swiss Army Llama, Fast Vector Similarity, Source to Prompt, Pastel Inference Layer 등이 있다. 기본적으로 최신 AI 모델을 매일 집중적으로 활용하며, 요청 한도를 초과하지 않기 위해 클로드 계정을 3개 운영하고 있고, ChatGPT Pro가 출시되자마자 가입하기도 했다.
또한, 최신 연구 동향을 파악하기 위해 주요 AI 연구소에서 발표하는 기술 보고서들을 꼼꼼히 분석하고 있다. 덕분에 이 분야의 현황과 발전 방향을 꽤 정확하게 파악하고 있다고 생각한다. 동시에, 투자자로서 나는 수많은 공매도를 경험했고, Value Investors Club에서 TMS 매수와 PDH 공매도 제안으로 두 차례 최고의 투자 아이디어상을 수상했다.
이런 이야기를 꺼낸 이유는 단순한 자랑이 아니다. 다만, AI와 투자—이 두 영역이 만나는 교차점에서 내 의견을 낼 충분한 경험과 자격을 갖추고 있다는 점을 설명하고 싶었다. 물론 나보다 수학과 과학을 더 깊이 이해하는 사람도 있고, 주식시장에서 롱·숏 투자를 더 잘하는 사람도 있겠지만, 이 두 분야를 함께 깊이 연구해온 사람은 많지 않다고 생각한다.
최근 들어 헤지펀드 업계의 친구들이나 전 동료들과 대화를 나눌 때면, 화제는 자연스럽게 엔비디아로 향한다. 한 기업이 상대적으로 무명의 위치에서 영국, 프랑스, 독일 전체 주식시장 규모를 각각 뛰어넘는 기업가치를 기록하는 일은 흔치 않으니까. 그래서 다들 내 생각을 궁금해한다.
나는 AI 기술이 장기적으로 혁신적인 영향을 미칠 것이라는 확고한 신념을 가지고 있다. 향후 5~10년 안에 경제와 사회의 거의 모든 측면을 근본적으로 변화시킬 것이며, 이는 역사적으로 전례가 없는 일이 될 것이라 믿는다. 그래서인지, 엔비디아의 상승세가 곧 둔화되거나 멈출 것이라고 주장하는 것이 쉽지 않았다.
하지만 지난 1년 동안 엔비디아의 기업가치가 내가 감당하기에는 너무 높은 수준에 도달했다고 생각했음에도 불구하고, 최근의 여러 사건들이 내 평소의 본능을 뒤집어 놓았다. 나는 보통 시장 컨센서스를 의심하는 편이며, 대중과 반대되는 관점을 취하는 성향이 강하다. 이미 모든 기대가 충분히 반영된 시장이라면, 나는 오히려 그 반대편을 살펴보려 한다. "현명한 사람이 처음에 믿는 것을, 어리석은 사람은 마지막에 믿는다" 라는 말이 유명해진 데는 다 이유가 있는 법이다.

엔비디아 강세론

이번에는 엔비디아 강세론을 살펴보자. 이제는 거의 모든 사람들이 알고 있는 이야기다. 딥러닝과 AI는 인터넷 이후 가장 혁신적인 기술이며, 우리 사회의 모든 것을 바꿀 준비를 하고 있다. 그리고 엔비디아는 어떻게든 AI 학습과 추론 인프라에 들어가는 전체 산업 자본 지출의 대부분을 독점하는 위치에 서게 되었다.
마이크로소프트, 애플, 아마존, 메타, 구글, 오라클 같은 세계에서 가장 크고 수익성 높은 기업들은 AI 분야에서 경쟁력을 유지하기 위해 무엇이든 해야 하고, 얼마든지 투자해야 한다고 결정했다. 이들은 뒤처질 여유가 없다. 그 결과, 자본 지출액, 사용되는 전력량(기가와트), 신축 데이터센터 면적, 그리고 당연히 GPU 수요도 폭발적으로 증가했으며, 둔화될 기미조차 보이지 않는다. 게다가 엔비디아는 최고급 데이터센터용 제품에서 90% 이상의 엄청난 이익률을 올리고 있다.
하지만 이것은 강세론의 표면적인 부분에 불과하다. 이미 낙관적인 사람들조차 더 낙관적으로 만들만한 추가적인 요소들이 있다. 그중 하나가 바로 휴머노이드 로봇의 부상이다. 이건 대부분의 사람들에게 큰 충격을 줄 가능성이 크다. 로봇들이 현재 미숙련 또는 숙련 노동자가 필요한 엄청나게 많은 작업들을 빠르게 수행할 수 있게 될 것이기 때문이다. 예를 들면 빨래, 청소, 정리, 요리뿐만 아니라, 욕실 리모델링, 건설 현장에서 작업자들과 함께 집을 짓는 일, 창고 운영, 지게차 운전 같은 작업까지 포함된다. 그리고 대부분의 사람들이 아직 고려하지 못한 다른 요인들도 존재한다.
자칭 스마트하다고 이야기하는 사람들 사이에서 자주 언급되는 중요한 것 중 하나는 "새로운 스케일링 법칙 (new scaling law)"의 등장이다. 이는 시간이 지남에 따라 컴퓨팅 수요가 어떻게 증가할지에 대한 새로운 패러다임적 사고를 만들어냈다. 사전 훈련 스케일링 법칙 (pre-training scaling law)은 2012년 알렉스넷이 등장하고 2017년 트랜스포머 아키텍처가 발명된 이후 AI 발전을 이끌어온 것이다: 더 많은 수십억(이제는 수조) 개의 토큰을 훈련 데이터로 사용하고, 더 많은 매개변수를 가진 모델을 훈련시키며, 더 많은 FLOPS의 컴퓨팅 파워를 이 토큰들로 모델을 훈련하는 데 쏟을수록, 다양한 다운스트림 작업에서 더 나은 성능을 보인다는 것이다.
게다가 이 성능 향상은 어느 정도 예측 가능하다. OpenAI와 Anthropic 같은 선도적인 AI 연구소들은 실제 훈련을 시작하기도 전에 최신 모델의 성능을 꽤 정확하게 예측할 수 있다. 어떤 경우에는 최종 모델의 벤치마크 점수를 몇 퍼센트 포인트 이내로 예상할 수도 있다. 이 사전 훈련 스케일링 법칙은 AI 발전에 있어 매우 중요한 요소였지만, 이를 통해 미래를 예측하려는 연구자들의 마음속에는 항상 어떤 의구심이 존재했다.
그 이유 중 하나는 이미 세상에 존재하는 고품질 훈련 데이터를 거의 다 사용해버린 것 같다는 점이다. 물론 말 그대로 데이터가 고갈된 것은 아니다. 아직 디지털화되지 않은 오래된 책과 정기간행물도 많고, 디지털화되었더라도 라이선스 문제로 인해 훈련 데이터로 사용할 수 없는 자료들도 있다.
하지만 이 모든 변수를 고려하더라도 결국 남아 있는 데이터의 양이 충분하지 않을 가능성이 크다. 예를 들어, 1500년부터 2000년까지 제작된 모든 "전문적인" 영어 문서들을 전부 훈련 데이터로 사용한다고 해도, 현재 최첨단 AI 모델들이 활용하는 15조 토큰에 달하는 데이터량과 비교하면 그리 대단한 규모가 아니다.
이제 실제 숫자를 살펴보자. 구글 북스는 지금까지 약 4천만 권의 책을 디지털화했다. 책 한 권에 보통 5만~10만 단어, 즉 6.5만~13만 토큰이 포함되어 있다고 가정하면, 총 2.6조~5.2조 토큰에 해당한다. 물론 이 중 상당 부분은 이미 대형 연구소들의 훈련 데이터에 포함되었을 가능성이 높다(합법적이든 아니든).
학술 논문도 중요한 데이터 소스다. 예를 들어, arXiv에는 200만 편이 넘는 논문이 있으며, 미국 의회도서관은 30억 페이지가 넘는 디지털화된 신문을 보유하고 있다. 이를 모두 합치면 약 7조 토큰 정도의 추가 훈련 데이터가 될 수 있다. 그러나 이 중 상당 부분이 이미 기존 훈련 데이터에 포함되어 있기 때문에, 실제로 추가로 활용할 수 있는 새로운 데이터의 양은 생각보다 크지 않을 가능성이 높다.
물론 훈련 데이터를 확보하는 다른 방법도 있다. 예를 들어 유튜브의 모든 동영상을 자동으로 텍스트로 변환하여 훈련 데이터로 활용할 수도 있다. 하지만 이 방법이 실제로 유용한지는 또 다른 문제다. 예를 들어, 유명한 유기화학 교과서가 유튜브의 일반적인 교육 영상보다 훨씬 높은 품질의 정보를 제공할 가능성이 크다. 이러한 이유로 인해, 사전 훈련 스케일링 법칙(pre-training scaling law) 에 따라 성능을 개선하는 과정에서 "데이터 벽(data wall)"이 곧 닥칠 것이라는 우려는 오래전부터 제기되어 왔다.
GPU에 더 많은 자본을 투자하고 더 많은 데이터센터를 지을 수는 있지만, 이미 존재하는 것 이상의 새로운 고품질 인간 지식을 대량으로 생산하기는 훨씬 더 어렵다. 이 문제에 대한 흥미로운 대응 중 하나가 바로 "합성 데이터(synthetic data)" 다. 즉, LLM이 직접 생성한 텍스트를 다시 학습 데이터로 활용하는 방식이다.
이 접근법은 얼핏 보면 모순처럼 보인다. 모델이 자기 자신의 출력을 다시 학습해 더 나아질 수 있을까? 하지만, 최소한 수학, 논리, 컴퓨터 프로그래밍 분야에서는 실제로 매우 효과적인 것으로 평가되고 있다.
그 이유는 간단하다. 이러한 분야는 기계적으로 정답을 검증하고 증명할 수 있는 특징을 가지고 있기 때문이다. 예를 들어, 가능한 수학 정리 또는 파이썬 코드 조각을 생성한 후, 실제로 그것이 논리적으로 정확한지 검증하여, 올바른 결과만을 학습 데이터로 추가할 수 있다. 이런 방식이라면 적어도 이러한 특정 분야에서는 고품질 훈련 데이터를 극적으로 확장할 수 있다.
그리고 텍스트 외에도 AI를 훈련시킬 수 있는 다른 종류의 데이터들이 있다. 예를 들어, 1억 명의 전체 게놈 시퀀싱을 사용하면 어떨까? (한 사람당 비압축 상태로 200GB에서 300GB 정도) 이는 분명 엄청난 양의 데이터지만, 대부분은 사람들 간에 거의 동일할 것이다. 물론 이를 책이나 인터넷의 텍스트 데이터와 비교하는 것은 여러 이유로 오해의 소지가 있다:
원시 게놈 크기는 토큰 수와 직접적으로 비교할 수 없다
유전체 데이터의 정보 내용은 텍스트와 매우 다르다
중복된 데이터의 훈련 가치가 명확하지 않다
유전체 데이터 처리를 위한 컴퓨팅 요구사항이 다르다
그럼에도 불구하고, 이것이 미래에 거대 AI 모델을 훈련할 수 있는 또 다른 대규모 정보 원천이 될 가능성이 있다는 점은 부정할 수 없다. 그렇기에 이러한 데이터를 포함하는 것이 의미 있다고 판단했다.
그러나 새로운 훈련 데이터를 지속적으로 확보할 수 있는 가능성이 일부 존재한다 하더라도, 최근 몇 년간 훈련 데이터의 증가 속도를 고려해 보면, "일반적으로 유용한" 지식의 데이터 가용성 측면에서 한계에 도달할 시점이 머지않았다는 것이 분명해진다.
여기서 말하는 "일반적으로 유용한" 지식이란, 폰 노이만보다 10배 더 뛰어난 지적 능력을 갖추고, 인류가 아는 모든 전문 분야에서 절대적인 세계 최고 전문가 수준의 인공 초지능(ASI, Artificial Super Intelligence)에 가까워지는 데 필요한 정보를 의미한다. 이러한 목표를 달성하기 위한 데이터의 가용성이 점차 한계에 도달하고 있으며, 이는 AI의 미래 발전에 있어 중요한 장애물이 될 가능성이 크다.
가용 데이터의 한계 외에도, 사전 훈련 스케일링 법칙을 지지하는 연구자들 사이에서는 또 다른 고민이 존재한다. 그것은 모델 훈련이 끝난 후, 그 막대한 컴퓨팅 인프라를 어떻게 활용할 것인가 하는 문제다.
다음 단계로 새로운 모델을 훈련시킬 것인가? 당연히 그렇게 할 수도 있다. 하지만 GPU 성능과 용량이 빠르게 개선되고 있으며, 전력 비용과 운영비가 점점 더 중요한 경제적 변수로 작용하는 상황에서, 2년 된 클러스터를 사용해 새 모델을 훈련하는 것이 과연 합리적인가?
현실적으로 보면, 더 나은 기술이 등장할수록, 기존 데이터센터보다 10배 비싸고 20배 더 강력한 새로운 데이터센터를 구축하는 것이 더 합리적일 수 있다. 문제는 어느 시점에서는 이러한 투자의 초기 비용을 회수해야 하며, 궁극적으로 영업 이익을 창출해야 한다는 점이다.
다행히 현재 시장은 AI에 대한 기대감으로 지나치게 들떠 있기 때문에, 이런 점들은 크게 고려되지 않고 있다. OpenAI 같은 기업들은 설립 이후 누적된 엄청난 영업 손실에도 불구하고, 후속 투자 라운드에서 점점 더 높은 기업가치를 인정받고 있다. 물론, 그들의 매출 성장 속도는 매우 빠르지만, 결국 이러한 데이터센터와 컴퓨팅 인프라에 대한 투자가 지속 가능하려면, 궁극적으로 비용을 회수하고 위험 조정 기준으로 경쟁력 있는 수익을 창출해야 한다.

새로운 패러다임

사전 훈련 스케일링 법칙을 이해했다면, 이제 "새로운" 스케일링 법칙이 무엇인지 살펴볼 차례다. 이는 지난 1년 동안 연구자들이 집중적으로 탐구하기 시작한, 바로 추론(inference) 단계에서의 컴퓨팅 스케일링 법칙이다.
과거에는 AI 모델이 요구하는 대부분의 컴퓨팅 자원은 초기 훈련(pre-training) 과정에서 소모되었으며, 한 번 모델이 훈련되고 나면 그 이후의 추론 과정에서는 상대적으로 적은 컴퓨팅 리소스만 필요했다. 즉, 한 번 훈련된 LLM이 질문에 답하거나 특정 작업을 수행하는 과정에서 요구되는 컴퓨팅 자원은 비교적 제한적이었다.
그러나 여기서 중요한 점은, 기존에는 추론 컴퓨팅의 총량(FLOPS, GPU 메모리 사용량 등 다양한 방식으로 측정)이 사전 훈련 과정에서 소요되는 연산량보다 훨씬 적었다는 사실이다. 물론, 모델의 컨텍스트 윈도우 크기가 증가하고 한 번에 생성하는 출력량이 늘어날수록 추론 컴퓨팅 부담도 함께 증가한다. 연구자들은 이 과정에서 놀라운 알고리즘적 최적화를 이루어냈지만, 여전히 추론 과정은 기본적으로 훈련 과정에 비해 덜 집약적이었다.
본질적으로, 지금까지의 추론 컴퓨팅은 훈련 컴퓨팅보다 훨씬 덜 집약적이며, 처리하는 요청 수에 따라 선형적으로 확장되는 구조를 가지고 있었다. 예를 들어, ChatGPT와 같은 서비스에서 텍스트 생성 요청이 많아질수록, 그에 비례하여 더 많은 추론 연산을 수행하는 방식이었다.
지난 1년간 도입된 혁신적인 Chain-of-Thought("COT") 모델들의 등장으로, 특히 OpenAI의 플래그십 O1 모델(그리고 최근의 DeepSeek의 새로운 R1 모델, 이는 아래에서 더 자세히 다룰 것이다)에서 이 모든 것이 바뀌었다. 모델이 생성하는 출력 텍스트의 길이에 직접적으로 비례하는 추론 컴퓨팅 양(더 큰 컨텍스트 윈도우, 모델 크기 등으로 확장) 대신, 새로운 COT 모델들은 중간에 "논리 토큰"을 생성한다. 이는 모델이 문제를 해결하거나 할당된 작업을 완료하려고 할 때 일종의 연습장이나 "내적 독백" 같은 것이라고 생각하면 된다.
이는 추론 컴퓨팅이 작동하는 방식에서 근본적인 변화가 일어나고 있음을 의미한다. 이제 모델이 내부적으로 더 많은 사고 체인(chain of thought, COT) 토큰을 사용할수록 최종 출력의 품질이 향상된다. 즉, 더 많은 내부 연산을 수행하며 문제를 검토하고 수정하는 과정에서 더욱 정확하고 신뢰할 수 있는 응답을 생성할 수 있게 된다.
이를 인간의 사고 과정에 비유하면, 더 많은 시간과 자원을 투입할수록 작업을 신중하게 수행할 수 있는 것과 같다. 모델은 이제 자신의 작업을 여러 번 검토하고, 동일한 문제를 다양한 방식으로 해결하며, 결과를 공식에 대입해 검증하는 방식으로 자기 점검을 수행할 수 있다. 이러한 접근 방식이 환각(hallucination) 문제를 줄이고 모델의 신뢰성을 향상시키는 데 효과적이라는 것이 밝혀졌다.
예를 들어, Anthropic의 Claude 3.5 Sonnet 모델은 파이썬 프로그래밍에서 강력한 성능을 보이지만, 길고 복잡한 코드를 생성할 때는 사소한 오류를 포함하는 경우가 많다. 이러한 오류들은 간단한 수정만으로 해결 가능하지만, 코드가 길어질수록 디버깅이 번거로워질 수 있다. 반면, OpenAI의 O1 모델을 처음 사용했을 때 가장 인상적인 점은 처음부터 거의 완벽한 코드가 생성되는 경우가 많았다는 것이다.
이러한 차이를 만들어낸 핵심 요소가 바로 COT 프로세스다. 모델이 최종 응답을 생성하기 전에 자체적으로 문제를 감지하고 수정하는 과정이 내재화되었기 때문이다. 실제로, 월 20달러에 제공되는 OpenAI ChatGPT Plus의 O1 모델과, 최근 출시된 월 200달러의 ChatGPT Pro 구독에서 제공되는 O1-Pro 모델은 동일한 기본 모델이지만, O1-Pro는 응답을 생성하기 전에 훨씬 더 긴 사고 체인을 수행하고 더 많은 논리 토큰을 생성하면서, 더 많은 추론 컴퓨팅을 소비한다.
Claude 3.5 Sonnet이나 GPT-4o는 매우 길고 복잡한 프롬프트를 처리할 때도, 심지어 400KB 이상의 컨텍스트가 주어지더라도 일반적으로 10초 미만, 종종 5초 미만의 시간 안에 응답을 시작한다. 반면, 동일한 프롬프트를 O1-Pro에 입력하면 응답을 받기까지 5분 이상 걸리는 경우가 흔하다. OpenAI는 이 과정에서 "추론 단계"의 일부를 사용자에게 보여주지만, 정확한 추론 토큰은 공개하지 않고 매우 축약된 요약만 제공한다. 이는 아마도 영업 비밀 보호와 관련이 있을 것이다.
정확성이 최우선시되는 맥락에서는, 사소한 오류나 환각된 정보가 포함된 답변을 주는 것보다 차라리 "답변할 수 없다"고 말하는 것이 더 나은 선택이 될 수 있다. 예를 들어, 금융·거래, 의료, 법률과 같은 분야에서는 부정확한 정보가 큰 문제를 초래할 수 있기 때문이다.
결국, AI 시스템을 활용하는 지식 노동자의 시간당 보상이 추론 비용보다 훨씬 크다면, COT(Chain-of-Thought) 연산을 강화하는 것이 합리적인 선택이 된다. 다만, 이는 응답 시간이 증가하는 단점이 있으며, 일부 맥락에서는 높은 정확성보다 더 빠른 피드백을 받아 반복 작업을 수행하는 것이 선호될 수도 있다.
최근 AI 분야에서 가장 주목받는 소식 중 하나는 OpenAI의 미공개 O3 모델에 관한 내용이었다. 이 모델은 현재의 AI 접근 방식으로는 불가능하다고 여겨졌던 복잡한 작업들을 해결하는 능력을 보여주었으며, 특히 고도로 숙련된 전문 수학자조차 해결하기 어려운 수준의 "기초" 수학 문제들까지 풀 수 있었다는 점에서 큰 주목을 받았다.
이러한 성과의 비결은 OpenAI가 문제 해결을 위해 막대한 컴퓨팅 리소스를 투입했기 때문이다. 일부 작업에서는 단일 문제를 해결하는 데 3,000달러 이상의 컴퓨팅 파워를 사용하기도 했다. 이는 일반적인 트랜스포머 모델이 chain-of-thought 없이 작업을 수행할 때 드는 비용이 몇 달러를 넘지 않는다는 점을 고려할 때 상당히 이례적인 접근 방식이다.
이러한 발전은 기존의 사전 훈련 스케일링 법칙과는 전혀 다른 새로운 스케일링 법칙의 가능성을 열어준다. 물론 여전히 가능한 많은 컴퓨팅 파워와 수조 개의 고품질 훈련 데이터를 활용해 최고의 모델을 훈련하는 것이 중요하다. 그러나 이 새로운 패러다임에서는 그것이 시작일 뿐이다. 이제는 AI 모델이 극도로 어려운 문제를 해결할 때, 일반적인 LLM이 오답을 생성할 가능성을 제거하고 높은 수준의 신뢰도를 확보하기 위해, 막대한 컴퓨팅 자원을 투입할 수 있는 시대가 열린 것이다.
결국, 이 새로운 접근 방식은 기존의 한계를 뛰어넘어 AI 모델이 보다 정교하고 신뢰성 있는 방식으로 문제를 해결하는 데 중요한 역할을 할 수 있음을 보여준다.

하지만 왜 엔비디아가 이런 혜택을 모두 독차지해야 할까?

AI의 미래가 밝다고 믿더라도, “왜 한 기업이 이 기술의 이익을 독점해야 하는가?”라는 질문은 여전히 남는다. 역사적으로 혁신적인 기술이 등장했을 때, 초기 리더가 장기적인 승자로 남지 않는 경우가 많았다. 예를 들어, 라이트 형제는 항공 기술을 개척했지만, 그들의 항공기 회사는 현재 후계 기업들의 가치를 모두 합쳐도 100억 달러를 넘지 않는다. 포드는 400억 달러의 시가총액을 가지고 있지만, 이는 엔비디아의 1.1%에 불과하다.
이를 이해하려면 왜 엔비디아가 현재 이렇게 많은 시장 점유율을 가져가고 있는지 제대로 분석해야 한다. 결국 GPU를 만드는 회사가 엔비디아만 있는 것은 아니다. AMD도 훌륭한 GPU를 생산하며, 트랜지스터 수나 제조 공정도 유사하다. 물론 엔비디아의 GPU만큼 빠르거나 발전된 것은 아니지만, 성능 차이가 10배 이상 나는 것도 아니다. 실제로 FLOP(초당 부동소수점 연산) 기준으로 보면 AMD의 GPU는 엔비디아 GPU의 절반 정도의 가격에 불과하다.
그런데도 엔비디아는 독보적인 시장 지위를 유지하고 있으며, 이는 단순한 하드웨어 성능 때문만은 아니다. 우선, 소프트웨어 측면에서 엔비디아는 리눅스 환경에서 "그냥 작동하는" 더 나은 드라이버를 제공하며, 안정성과 검증된 기술 면에서도 우위를 점하고 있다. 반면, AMD는 리눅스 드라이버 품질이 낮고 불안정한 것으로 악명이 높다. 또한, PyTorch 같은 인기 있는 AI 라이브러리가 엔비디아 GPU에 최적화되어 있어, 개발자들이 엔비디아의 생태계를 벗어나기 어렵다. 거기에 더해, GPU에 최적화된 저수준 코드를 작성하는 데 사용하는 프로그래밍 프레임워크인 CUDA는 엔비디아의 완전한 독점 기술이며, 사실상의 표준이 되었다. 만약 GPU 최적화 작업이 가능한 뛰어난 프로그래머를 연봉 65만 달러에 고용하려 한다면, 그들은 대부분 CUDA로 "생각하고" 일할 것이다.
소프트웨어 우위뿐만 아니라, 엔비디아가 가진 또 다른 중요한 강점은 인터커넥트 기술이다. AI 모델을 훈련할 때 수천 개의 GPU를 효율적으로 연결하는 것이 중요한데, 기존 데이터센터에서 사용되는 일반적인 네트워크 기술로는 이러한 수준의 대역폭을 제공할 수 없다. 엔비디아는 2019년 이스라엘 기업 멜라녹스를 69억 달러에 인수하면서, 업계 최고의 인터커넥트 기술을 확보했다. 이를 통해 수천 개의 GPU를 연결해 최대한 효율적으로 훈련을 진행할 수 있게 되었으며, 이 기술이 없으면 대규모 AI 모델을 효과적으로 훈련하는 것이 사실상 불가능하다.
이처럼 엔비디아는 하드웨어 성능뿐만 아니라, 소프트웨어, 생태계, 인터커넥트 기술이 결합된 강력한 경쟁력을 확보하고 있다. 또한, 높은 마진을 바탕으로 지속적으로 R&D에 투자하면서 경쟁사보다 더 빠르게 기술을 발전시키는 '플라이휠(Flywheel) 효과'도 작용하고 있다. 이런 이유들로 인해 엔비디아는 항상 성능 면에서 경쟁사보다 앞서 있으며, 경쟁사들이 이 격차를 좁히는 것은 점점 더 어려워지고 있다.
하지만 그렇다고 해서 엔비디아의 지배력이 영원히 지속될 것이라고 단정할 수는 없다. 기본적으로 고객들이 가장 중요하게 여기는 것은 달러당 성능(즉, 장비의 초기 비용과 에너지 사용량을 고려한 와트당 성능)이다. 엔비디아의 GPU가 분명 가장 빠르긴 하지만, FLOPS 기준으로 단순 측정했을 때 가격 대비 성능이 가장 좋은 것은 아니다. 다만, 문제는 다른 모든 조건이 동일하지 않다는 점이다.
AMD의 드라이버 품질이 낮고, 주요 AI 소프트웨어 라이브러리들이 AMD GPU에서 원활하게 작동하지 않으며, AI 업계에서는 CUDA를 사용할 줄 아는 전문가가 압도적으로 많기 때문에 AMD GPU를 전문으로 다룰 수 있는 인력이 부족하다. 또한, 인터커넥트 기술의 부재로 인해 수천 개의 GPU를 효과적으로 연결하는 것이 불가능하다는 점도 AMD의 큰 약점이다.
이처럼 엔비디아가 독보적인 위치를 차지하고 있는 이유를 이해하면, 왜 이 회사가 이렇게 높은 밸류에이션을 받고 있는지도 자연스럽게 설명이 된다. 하지만 그렇다고 해서 엔비디아에 장기적으로 위협이 될 요소가 없는 것은 아니다. 일부 요인들은 이미 몇 년 전부터 존재했지만, GPU 수요의 폭발적인 성장 덕분에 별다른 영향을 주지 못했다. 그러나 이제는 상황이 변하고 있다. 특히, 지난 2주 동안 발생한 일부 새로운 변화들은 단기적으로 GPU 수요의 흐름을 크게 바꿀 가능성을 가지고 있다.

주요 위협

큰 틀에서 보면, 엔비디아는 오랫동안 비교적 틈새 시장에서 운영되었다. 경쟁이 제한적이었고, 경쟁사들은 엔비디아와 겨룰 만한 수익성을 확보하지 못했으며, 실질적인 압박을 가할 자본도 부족했다. 따라서 진정한 위협이 되지 못했다. 게임 시장은 꾸준히 성장하고 있었지만, 엄청난 마진을 보장하지도 않았고 연간 성장률도 특별히 두드러지지는 않았다.
2016~2017년경 몇몇 대형 기술 기업들이 머신러닝과 AI 분야에서 채용과 연구개발(R&D) 지출을 늘리기 시작했지만, 당시만 해도 AI는 어느 기업에게도 핵심 사업이 아니었다. 단순히 미래를 대비한 "문샷(moonshot)" R&D 프로젝트 정도로 여겨졌던 것이다. 그러나 2022년 ChatGPT 출시 이후 본격적인 AI 경쟁이 시작되면서—이제는 마치 오랜 세월 동안 변화해온 것처럼 느껴지지만, 사실 불과 2년 남짓한 기간 동안—상황은 극적으로 변했다.
갑자기 대기업들은 AI에 엄청난 금액을 믿을 수 없을 정도로 빠르게 투입하기 시작했다. NeurIPS와 ICML 같은 주요 연구 컨퍼런스에 참여하는 연구자들의 수가 폭발적으로 증가했고, 과거에는 금융 파생상품을 연구했을 법한 수재들이 이제는 트랜스포머 모델을 연구하기 시작했다. 주요 AI 연구소에서는 비임원급 엔지니어(즉, 팀을 관리하지 않는 독립 기여자)에게도 연봉 100만 달러 이상의 보상 패키지가 일반화되었다.
거대한 크루즈선의 방향을 바꾸는 데는 시간이 걸린다. 아무리 빠르게 움직이고 수십억 달러를 쏟아부어도, 새로운 데이터센터를 건설하고 필요한 장비를 주문하고(공급망 문제로 인해 납기가 계속 지연되는 상황에서), 이를 설치하여 운영하는 데까지는 최소 1년 이상의 시간이 필요하다. 뛰어난 프로그래머라 해도 기존 코드베이스와 인프라에 익숙해져 의미 있는 성과를 내기까지는 상당한 시간이 소요된다.
그러나 이제 AI 분야에는 상상을 초월하는 규모의 자본과 인재, 노력이 투입되고 있다. 그리고 엔비디아는 모든 참가자들에게 있어 가장 큰 타겟이 되었다. 왜냐하면 AI가 우리의 삶 전반을 운영하는 미래가 도래하기 전에, 이미 "지금" 대부분의 이익을 엔비디아가 가져가고 있기 때문이다.
결국, 가장 거시적인 수준에서 도출할 수 있는 결론은 "시장은 방법을 찾아낸다"는 것이다. 시장은 엔비디아가 구축한 해자를 우회할 수 있는 완전히 새로운 접근 방식을 개발할 것이다. 이는 단순한 경쟁이 아니라, 기존의 패러다임을 벗어난 대안적이고 급진적인 혁신을 통해 하드웨어와 AI 인프라를 구축하려는 움직임으로 이어질 것이다.

하드웨어와 관련한 위협들

예를 들어, Cerebras의 이른바 "웨이퍼 스케일" AI 훈련 칩을 보자. 300mm 실리콘 웨이퍼 전체를 하나의 거대한 칩으로 활용하는 방식으로, 단일 칩에 기존보다 몇 배나 많은 트랜지스터와 코어를 집적했다. 최근 그들의 블로그 포스트에서는, 이 접근법이 경제적으로 실용적이지 못하게 만들었던 "수율 문제"를 어떻게 해결했는지 설명하고 있다.
이를 좀 더 쉽게 설명하면, Cerebras의 최신 WSE-3 칩과 엔비디아의 플래그십 데이터센터 GPU인 H100을 비교했을 때, Cerebras 칩의 전체 다이 면적은 46,225 제곱밀리미터로, H100의 814 제곱밀리미터보다 약 57배 크다. 참고로, H100 자체도 업계 기준으로는 매우 큰 칩으로 여겨진다. 또한, H100이 132개의 "스트리밍 멀티프로세서" 코어를 가진 반면, Cerebras 칩은 약 90만 개의 코어를 탑재하고 있다. 물론 각 코어는 더 작고 개별적으로 수행하는 작업량도 적지만, 그 차이는 거의 상상할 수 없을 정도로 크다. 좀 더 직접적인 성능 비교를 하면, Cerebras 칩은 단일 H100 칩보다 AI 컨텍스트에서 약 32배 더 많은 FLOPS를 처리할 수 있다. 현재 H100이 개당 약 4만 달러에 판매되고 있는 것을 고려하면, WSE-3 칩의 가격도 상당할 것으로 예상된다.
그렇다면 이게 왜 중요한가? Cerebras는 엔비디아처럼 멜라녹스의 인터커넥트 기술을 사용하여 확장하는 대신, 이 문제를 완전히 다른 방식으로 해결했다. 즉, 여러 개의 GPU를 연결하는 인터커넥트의 필요성을 최소화하는 혁신적인 접근을 선택한 것이다. 모든 연산이 단일 초대형 칩 내에서 이루어지기 때문에, 프로세서 간 대역폭이 상대적으로 덜 중요한 문제가 된다. 하나의 거대한 칩이 수많은 H100을 대체하기 때문에, 기존과 같은 수준의 인터커넥트 인프라 자체가 필요하지 않다.
또한, Cerebras 칩은 AI 훈련뿐만 아니라 AI 추론 작업에서도 뛰어난 성능을 보인다. 실제로 지금 바로 온라인에서 무료로 사용해볼 수 있으며, 메타의 Llama-3.3-70B 모델을 실행할 수 있다. 초당 약 1,500 토큰을 생성할 수 있어 사실상 즉각적인 응답이 가능하다. 이를 쉽게 설명하면, ChatGPT나 Claude 같은 모델과 비교했을 때 초당 30 토큰 이상이면 사용자들에게 꽤 빠르게 느껴지며, 초당 10 토큰 정도만 되어도 사용자가 응답을 읽으며 자연스럽게 대화를 이어갈 수 있는 수준이다.
Cerebras만이 이런 시도를 하고 있는 것도 아니다. Groq(일론 머스크의 X AI가 만든 Grok 모델과는 다름) 같은 회사들도 있다. Groq는 엔비디아의 CUDA 소프트웨어 스택과 직접 경쟁하는 대신, 딥러닝 모델이 수행해야 하는 정확한 수학적 연산에 특화된 "텐서 처리 유닛"(TPU)이라는 개념을 개발했다. 이들의 칩은 "결정론적 컴퓨팅"이라는 개념을 중심으로 설계되었는데, 이는 기존 GPU와 달리 연산의 타이밍이 매번 정확히 동일하게 유지된다는 것을 의미한다. 전통적인 GPU는 연산 과정에서 타이밍이 미세하게 달라질 수 있지만, Groq의 칩은 완전히 예측 가능한 방식으로 연산을 수행하도록 설계되었다.
이것은 단순한 기술적 세부사항처럼 들릴 수도 있지만, 칩 설계와 소프트웨어 개발 모두에서 엄청난 차이를 만든다. Groq의 칩은 타이밍이 완전히 결정론적이기 때문에, 전통적인 GPU 아키텍처에서는 불가능한 방식으로 최적화할 수 있다. 그 결과, 지난 6개월 동안 Groq는 Llama 시리즈 모델 및 기타 오픈소스 모델에서 초당 500 토큰 이상의 추론 속도를 달성했으며, 이는 기존 GPU 기반 설정을 크게 뛰어넘는 성능이다. Cerebras와 마찬가지로, Groq의 기술도 현재 바로 사용 가능하며 무료로 체험해볼 수 있다.
비슷한 Llama3 모델을 "추측(speculative) 디코딩" 기법과 함께 실행할 경우, Groq는 초당 1,320 토큰을 생성할 수 있으며, 이는 Cerebras와 유사한 성능이며 일반적인 GPU보다 훨씬 빠르다. 그렇다면 사람들이 초당 100 토큰도 안 되는 속도로 작동하는 ChatGPT에 만족하는 상황에서 초당 1,000개 이상의 토큰을 생성하는 것이 무슨 의미가 있을까? 그러나 이는 매우 중요한 차이를 만든다. 즉각적인 피드백을 받을 수 있으면 인간 지식 노동자로서 집중력을 유지하면서 훨씬 더 빠르게 반복할 수 있다. 또한, API를 통해 프로그래밍 방식으로 모델을 사용하는 경우, 다단계 추론이 필요한 작업(예: 이전 단계의 출력을 연속적인 프롬프트 입력으로 사용하는 경우)이나, 콘텐츠 조정, 사기 탐지, 동적 가격 책정과 같이 낮은 지연 시간이 필수적인 새로운 유형의 애플리케이션이 가능해진다.
더 근본적으로, 요청을 더 빨리 처리할수록 더 많은 순환이 가능하며, 하드웨어를 더욱 효과적으로 활용할 수 있다. Groq의 하드웨어는 단일 서버당 200만~300만 달러에 달하는 높은 비용이 들지만, 이를 항상 바쁘게 유지할 수 있을 만큼의 수요가 있다면, 처리된 요청당 비용은 훨씬 낮아진다.
그리고 엔비디아의 CUDA가 소프트웨어 생태계에서 차지하는 위치처럼, Groq의 강점도 자체 독점 소프트웨어 스택에서 나온다. 그들은 Meta, DeepSeek, Mistral 등에서 공개한 동일한 오픈소스 모델을 가져와, Groq의 특정 하드웨어에 최적화하여 훨씬 빠르게 실행할 수 있도록 만든다. Cerebras와 마찬가지로, Groq도 하드웨어의 특정 부분을 최적화하기 위해 다른 기술적 결정을 내렸으며, 이를 통해 완전히 새로운 방식으로 연산을 수행할 수 있다. Groq의 경우, 훈련이 아닌 추론에 특화된 컴퓨팅에 집중했기 때문에, 이미 훈련된 모델을 실행할 때 극도로 빠르고 효율적인 성능을 제공한다.
그러나 더욱 중요한 것은, 만약 AI 분야에서 기대하는 다음 큰 스케일링 법칙이 추론 컴퓨팅을 중심으로 발전한다면—특히 COT 모델의 가장 큰 단점이 높은 지연 시간(즉, 응답하기 전에 모든 중간 논리 토큰을 생성해야 하는 점)이라면—엔비디아보다 훨씬 빠르고 효율적인 추론 전용 하드웨어를 개발하는 기업들이 향후 몇 년 내에 심각한 경쟁자로 떠오를 수 있다. 최소한, Cerebras와 Groq 같은 기업들은 이미 엔비디아의 향후 2~3년 동안의 매출 성장 기대치에 영향을 미칠 수 있는 요소로 작용하고 있다.
이러한 혁신적이지만 상대적으로 덜 알려진 스타트업 경쟁자들 외에도, AI 훈련과 추론 워크로드를 겨냥한 맞춤형 실리콘을 개발하는 엔비디아의 주요 고객들이 새로운 경쟁자로 부상하고 있다.
아마도 가장 잘 알려진 사례는 구글이다. 구글은 2016년부터 자체 독점 TPU를 개발해왔으며, 한때 이를 외부 고객에게 판매하기도 했지만, 최근 몇 년간 모든 TPU를 내부적으로만 사용해왔다. 현재 구글은 이미 6세대 TPU 하드웨어를 운영 중이다.
아마존 또한 AI 워크로드를 위한 자체 맞춤형 칩을 개발하고 있다. 아마존은 Trainium2 및 Inferentia2라는 자체 칩을 제작하며, 엔비디아 GPU로 구성된 데이터센터를 구축하는 동시에, 내부 맞춤형 칩을 사용하는 데이터센터에도 수십억 달러를 투자하고 있다. Anthropic을 위해 운영되는 데이터센터 중 하나에는 40만 개 이상의 맞춤형 칩이 사용되고 있다.
물론 아마존은 내부 AI 모델 개발에서 경쟁력 있는 모델을 만들지 못했다는 비판을 받아왔지만, 맞춤형 실리콘 개발은 다른 차원의 문제다. 여기서 중요한 것은, 아마존이 엔비디아보다 더 뛰어난 칩을 만들 필요는 없다는 점이다. 칩이 충분히 좋은 성능을 제공하면서, 엔비디아 H100이 제공하는 90% 이상의 총이익률이 아닌, 손익분기점을 맞출 정도의 가격에 생산될 수 있다면, 그것만으로도 상당한 위협이 될 수 있다.
OpenAI 역시 맞춤형 칩 개발 계획을 발표했다. OpenAI는 (마이크로소프트와 함께) 현재 엔비디아 데이터센터 하드웨어의 단일 최대 사용자이며, 마이크로소프트 또한 자체 맞춤형 AI 칩을 발표했다.
세계에서 가장 가치 있는 기술 기업인 애플도 오랫동안 자체 맞춤형 실리콘을 개발해왔다. 애플의 실리콘 팀은 모바일 기기(스마트폰, 태블릿, 노트북)에서 가장 중요한 요소인 와트당 성능에서 인텔과 AMD를 완전히 압도하는 성과를 내왔다. 또한, 아이폰 카메라의 고급 이미지 처리 기능을 포함해 일부 애플리케이션에서 맞춤형 칩의 강점을 활용하고 있지만, 현재까지 AI 워크로드를 위한 실질적인 맞춤형 칩을 개발한 사례는 많지 않다.
하지만 애플이 OpenAI와의 협업을 통해 아이폰 사용자들에게 AI 서비스를 제공하는 것에 충분한 비용을 투자한다면, 추론 및 훈련을 위한 자체 맞춤형 실리콘을 연구하는 팀이 이미 내부에서 활동하고 있을 가능성이 높다. 물론, 애플의 비밀주의 때문에 이를 직접적으로 알기는 어려울 것이다.
엔비디아의 하이퍼스케일 고객 기반은 매우 강한 멱법칙 분포를 따른다. 즉, 상위 몇 개 고객이 엔비디아의 고마진 매출 대부분을 차지하고 있다는 것은 잘 알려진 사실이다. 그러나 이들 VIP 고객이 하나같이 AI 훈련과 추론을 위한 자체 맞춤형 칩을 개발하고 있다면, 엔비디아의 미래는 어떻게 될까?
여기서 한 가지 중요한 점을 명심해야 한다. 엔비디아는 기본적으로 IP 기반 기업이다. 직접 칩을 생산하지 않으며, 칩 제조는 대만의 TSMC에서 담당하고 있다. 더욱이, 엔비디아가 만든 첨단 AI 칩의 핵심 기술은 TSMC의 최첨단 공정 노드에서 구현되며, 이를 가능하게 하는 EUV 리소그래피 기계는 ASML이 제작한다.
이것이 중요한 이유는, TSMC는 충분한 선행 투자를 받고 일정량의 물량을 보장하는 고객이라면 누구에게나 최첨단 칩을 제공할 것이기 때문이다. 비트코인 채굴 ASIC, GPU, TPU, 모바일 SoC 등 어떤 제품이든 해당된다.
엔비디아의 선임 칩 설계자들이 업계에서 높은 연봉을 받는 것은 사실이지만, 다른 기술 대기업들이 충분한 현금과 주식 보상을 제시하면 이들 인재를 유인할 가능성도 크다. 그리고 일단 적절한 팀과 자원을 확보하면, 2~3년 안에 경쟁력 있는 맞춤형 AI 칩을 개발할 수 있다.
물론, 엔비디아가 현재의 시장 지위를 완전히 잃을 것이라고 단정할 수는 없지만, 현재 기대되고 있는 높은 매출 성장률을 지속적으로 유지할 수 있을지는 확실하지 않다. TSMC의 첨단 공정을 활용할 수 있는 이상, 엔비디아와 동일한 수준의 실리콘을 생산할 수 있는 기업들이 늘어나고 있으며, 이는 장기적으로 엔비디아의 해자를 위협하는 요인이 될 것이다.

소프트웨어와 관련한 위협들

하드웨어에 대한 위협만으로도 충분히 큰 도전이지만, 지난 몇 년간 소프트웨어 분야에서도 중요한 변화가 나타나고 있다. 초기에는 점진적인 발전처럼 보였지만, 이제는 엔비디아의 CUDA가 지배하는 소프트웨어 생태계를 뒤흔들 가능성이 있는 수준까지 도달했다.
가장 첫 번째 변화는 AMD GPU의 리눅스 드라이버 문제와 관련이 있다. AMD는 오랫동안 형편없는 드라이버 품질로 악명을 떨쳤으며, 이를 개선하려는 적극적인 움직임도 부족했다. 하지만 최근, 10대 시절 아이폰 탈옥으로 유명해진 해커 조지 호츠(George Hotz)가 직접 개입하면서 상황이 바뀌고 있다. 그는 현재 자율주행 스타트업 Comma.ai와 오픈소스 AI 소프트웨어 프레임워크 tinygrad를 개발하는 Tiny Corp의 CEO로 활동하고 있으며, 자신이 개발 중인 TinyBox AI 컴퓨터에서 비용 효율적인 AMD GPU를 활용하기 위해 독립적인 소프트웨어 스택을 만들겠다고 선언했다.
2025년 1월 15일, 그는 X(구 트위터) 계정을 통해 "RDNA3 어셈블러 하나만 남기고 AMD에서 완전히 독립적인 스택을 갖추게 됐다. 우리는 자체 드라이버, 런타임, 라이브러리, 에뮬레이터를 가지고 있다(모두 약 12,000줄의 코드로!)"라고 발표했다. 그의 실적과 기술력을 고려하면, 몇 달 안에 실제로 이 모든 것이 작동할 가능성이 높다. 만약 그가 목표를 달성한다면, 현재 기업들이 어쩔 수 없이 엔비디아 GPU에 의존하는 여러 애플리케이션에서 AMD GPU가 대안이 될 수 있는 새로운 가능성이 열린다.
하지만 이것은 단순히 AMD GPU의 드라이버 개선에 불과하다. 더 큰 변화는 AI 소프트웨어 생태계 전반에서 CUDA를 여러 "컴파일 대상" 중 하나로만 취급하려는 광범위한 움직임에서 나타나고 있다.
즉, 더 높은 수준의 추상화를 통해 소프트웨어를 작성하면, 시스템이 이를 CUDA에서 실행 가능한 초고성능 저수준 코드로 자동 변환할 뿐만 아니라, AMD GPU, 구글 TPU, 애플의 맞춤형 AI 칩 등 다양한 하드웨어에서 최적화된 코드로도 쉽게 변환할 수 있도록 하려는 움직임이 본격화되고 있다.
이러한 프레임워크의 대표적인 예로는 MLX(주로 애플이 후원), Triton(주로 OpenAI가 후원), JAX(구글이 개발) 등이 있다. 특히 MLX는 PyTorch와 유사한 API를 제공하면서도 Apple Silicon에서 효율적으로 실행될 수 있어, 이러한 추상화 계층이 AI 워크로드를 완전히 다른 아키텍처에서도 원활하게 실행할 수 있도록 하는 방식을 잘 보여준다. 한편, Triton은 점점 더 인기를 얻고 있는 프레임워크로, 개발자들이 각 하드웨어 플랫폼의 저수준 세부사항을 깊이 이해하지 않아도 다양한 하드웨어에서 실행할 수 있도록 고성능 코드를 작성할 수 있게 해준다.
이러한 프레임워크들은 기본적으로 "한 번 코드를 작성하면 다양한 하드웨어에서 실행될 수 있도록" 하려는 목표를 가지고 있다. 개발자가 특정 GPU 아키텍처에 종속되지 않게 되면, 자연스럽게 CUDA의 독점적인 위치가 흔들릴 수밖에 없다.
1980년대에는 가장 인기 있는 소프트웨어가 수작업으로 튜닝된 어셈블리 언어로 작성되었다. 예를 들어, PKZIP 압축 유틸리티는 속도를 극대화하기 위해 어셈블리로 제작되었으며, 당시 최고의 최적화 컴파일러를 사용해 표준 C 언어로 작성된 버전보다 훨씬 빠르게 실행되었다. WordStar, VisiCalc 같은 소프트웨어도 마찬가지였다.
하지만 시간이 지나면서 컴파일러 기술이 발전했고, CPU 아키텍처가 바뀔 때마다(예: 인텔 486 → 펜티엄) 기존의 수작업 어셈블리 코드가 비효율적으로 변했다. 결국, 대부분의 개발자들은 어셈블리를 직접 작성하는 것보다 CC++ 같은 고수준 언어를 사용하는 것이 훨씬 유연하고 효율적이라는 결론에 도달했다.
현재 AI 훈련 및 추론에서도 비슷한 변화가 진행 중이다. 컴퓨터는 이제 점점 더 최적화를 잘 수행하고 있으며, 개발 속도와 유연성이 점점 더 중요한 요소가 되고 있다. 무엇보다, 엔비디아의 CUDA를 사용하면서 발생하는 90% 이상의 마진을 회피할 수 있다면, 기업들은 하드웨어 비용을 크게 절약할 수 있는 유인이 생긴다.
또 다른 흥미로운 변화는, CUDA 자체가 더 높은 수준의 추상화가 될 가능성이다. 마치 Verilog(반도체 회로 설계를 위한 하드웨어 기술 언어)가 특정 칩의 구현이 아니라 논리적인 설계 언어로 자리 잡았듯이, CUDA도 특정 하드웨어(GPU)를 넘어서는 명세 언어가 될 수 있다는 것이다.
예를 들어, 숙련된 개발자들이 CUDA를 사용해 대규모 병렬 연산을 수행하는 알고리즘을 정의하고, 이를 엔비디아 GPU가 아닌 Cerebras 칩, Amazon Trainium2, Google TPUv6 같은 새로운 맞춤형 AI 하드웨어에 맞게 변환하는 방식이다.
이 과정에서 대형 언어 모델(LLM)이 중요한 역할을 할 수 있다. CUDA로 작성된 코드를 LLM에 입력하면, LLM이 이를 자동으로 최적화하여 특정 AI 칩에서 실행할 수 있는 저수준 코드로 변환하는 것이다.
이 개념이 너무 먼 미래의 이야기처럼 들릴 수도 있지만, 실제로는 OpenAI의 최신 O3 모델을 사용하면 이미 어느 정도 가능할 것이다. 그리고 1~2년 내로, 이러한 방식의 AI 코드 변환이 일반적으로 사용될 가능성이 높다.

이론 차원의 위협

최근 몇 주 동안 AI 업계를 뒤흔든 가장 충격적인 발전이 있었다. 주류 미디어에서는 거의 다루지 않았지만, 트위터의 AI 전문가들 사이에서는 뜨거운 담론을 형성한 뉴스가 있다. 바로 중국의 작은 스타트업 DeepSeek이 OpenAI와 Anthropic의 최상위 모델들과 대등한 성능을 자랑하는 두 개의 모델을 출시했다는 것이다. 이는 Meta의 Llama3 모델이나 Mistral 같은 기존 오픈소스 모델들을 훨씬 능가하는 성능을 보인다. DeepSeek가 내놓은 모델은 DeepSeek-V3(사실상 GPT-4 및 Claude 3.5 Sonnet에 대한 대응)와 DeepSeek-R1(OpenAI의 O1 모델에 대한 대응)이다.
이 소식이 그렇게까지 충격적인 이유는 여러 가지다. 우선, DeepSeek는 200명도 되지 않는 작은 중국 기업이다. 그들은 원래 Two Sigma나 Renaissance Technologies 같은 퀀트 트레이딩 헤지펀드에서 시작했지만, 중국 정부가 해당 분야를 단속하면서 AI 연구로 전환했다고 한다. 물론, 이들의 진짜 배경이 중국 공산당이나 군부와 연결된 프런트 조직인지, 아니면 정말 독립적인 스타트업인지 확신할 수는 없다. 하지만 확실한 것은 그들이 DeepSeek-V3와 DeepSeek-R1에 대한 매우 상세한 기술 보고서를 발표했다는 점이다.
이 보고서들은 고급 선형대수학 개념이 다수 포함된 전문적인 내용이라 일반적인 독자가 이해하기 쉽지 않다. 하지만 DeepSeek의 성능을 직접 체험해볼 방법은 간단하다. App Store에서 무료 DeepSeek 앱을 다운로드하여 구글 계정으로 로그인하고 사용해보거나, 데스크톱 브라우저에서 직접 실행해볼 수 있다. 특히 "DeepThink" 옵션을 활성화하면 Chain-of-Thought(COT) 방식으로 DeepSeek-R1이 작동하도록 설정할 수 있으며, 기술 보고서의 일부 내용을 간단한 용어로 설명하도록 요청할 수도 있다.
이를 통해 몇 가지 중요한 점을 즉각적으로 알 수 있다.
첫째, 모델 성능은 절대 허수가 아니다. AI 벤치마크 테스트는 종종 신뢰성이 떨어지는 경우가 많으며, 특정 평가에서는 뛰어난 성능을 보이지만 실제 응용에서는 실망스러운 결과를 내는 모델들이 흔하다. 특히 구글은 이런 문제의 대표적인 사례인데, 그들의 LLM이 뛰어나다고 홍보하지만, 정작 실제 테스트에서는 기본적인 작업조차 안정적으로 수행하지 못하는 경우가 많다. 더 복잡한 코딩 작업은 말할 것도 없다. 그러나 DeepSeek의 모델들은 그렇지 않다. 응답이 일관되고 설득력이 있으며, OpenAI와 Anthropic의 모델과 동일한 수준에서 작동한다.
둘째, DeepSeek는 모델 품질뿐만 아니라, 모델 훈련 및 추론 효율성에서도 상당한 발전을 이루었다. 하드웨어를 최적화하고 여러 독창적인 기법을 결합하여, DeepSeek는 GPU를 활용해 이 모델들을 극도로 효율적으로 훈련할 수 있었다. 한 측정에 따르면, 그들의 훈련 프로세스는 다른 최첨단 모델들보다 약 45배 더 효율적이다. DeepSeek는 DeepSeek-V3의 총 훈련 비용이 약 500만 달러에 불과하다고 주장하는데, 이는 OpenAI나 Anthropic과 비교하면 미미한 수준이다. 참고로, OpenAI와 Anthropic은 2024년 초반에 단일 모델을 훈련하는 데 1억 달러 이상을 투자했다.
이것이 어떻게 가능할까? 어떻게 이 작은 중국 기업이 100배 더 많은 자본, 인력, 급여, GPU를 보유한 서구의 AI 연구소들보다 훨씬 앞선 모델을 개발할 수 있었을까? 중국은 바이든 행정부의 GPU 수출 제한 조치로 인해 AI 개발이 위축되었어야 하지 않나?
세부적인 기술적 사항은 복잡하지만, 높은 수준에서는 몇 가지 핵심적인 설명이 가능하다. DeepSeek가 GPU 자원이 부족했기 때문에, 그들이 더 창의적이고 영리한 해결책을 찾아야 했던 점이 중요한 요소일 가능성이 크다. "필요가 발명의 어머니"라는 말이 있듯이, 한정된 환경에서 최적의 효율성을 찾아야 했기 때문에 혁신적인 접근 방식이 탄생했을 것이다.
주요 기술 혁신 1: FP8 혼합 정밀도 훈련 프레임워크
DeepSeek의 핵심적인 혁신 중 하나는, 전체 훈련 과정에서 FP8(8비트 부동소수점) 연산을 사용할 수 있도록 하는 혼합 정밀도 훈련 프레임워크를 개발한 것이다. 대부분의 서구 AI 연구소들은 여전히 32비트 부동소수점(FP32) 연산을 기본으로 사용하며, 이는 뉴런의 출력을 보다 정밀하게 저장할 수 있다는 장점이 있다. 그러나 FP32는 메모리를 많이 사용하고 연산 비용이 높다는 단점이 있다.
FP8은 상대적으로 적은 비트 수로도 훨씬 더 넓은 숫자 범위를 저장할 수 있도록 설계된 형식이다. 일반적인 8비트 정수(256개의 고정된 값)와 달리, FP8은 영리한 수학적 트릭을 활용하여 매우 작은 숫자와 매우 큰 숫자 모두를 저장할 수 있다. 물론, FP32만큼의 정밀도를 제공하지는 않지만, 많은 AI 워크로드에서는 FP8의 정확도가 충분하다.
DeepSeek는 뉴런 활성화를 위한 작은 타일과 가중치를 위한 블록으로 데이터를 분할한 뒤, 네트워크의 특정 지점에서 전략적으로 고정밀 연산을 사용하는 방법을 개발했다. 대부분의 연구소들은 모델을 FP32로 훈련한 뒤 압축하는 방식을 사용하지만, DeepSeek의 네이티브 FP8 접근 방식은 처음부터 FP8을 활용하여 메모리를 절약하고 성능을 극대화하는 방식을 택했다.
이는 단순한 차이가 아니다. FP8을 활용하면 동일한 GPU에서도 더 많은 데이터를 저장하고 처리할 수 있으며, AI 모델을 훈련하는 데 필요한 GPU의 총량을 대폭 줄일 수 있다. 수천 개의 GPU를 동시에 운용하는 AI 연구소에서, GPU당 메모리 요구량을 줄이면 전체 클러스터 규모를 줄이는 것이 가능해진다.
주요 기술 혁신 2: 멀티 토큰 예측 시스템
일반적인 트랜스포머 기반 LLM은 한 번에 하나의 토큰씩 예측하는 방식으로 작동한다. 즉, 문장의 다음 단어를 예측한 뒤, 이를 기반으로 다시 다음 단어를 예측하는 방식이다. 하지만 DeepSeek는 여러 개의 토큰을 한 번에 예측하면서도, 기존 단일 토큰 예측 방식과 동일한 품질을 유지하는 방법을 개발했다.
그들의 기법을 활용하면 추가적인 토큰 예측에서 약 85~90%의 정확도를 유지할 수 있으며, 이를 통해 추론 속도를 효과적으로 두 배로 향상시킬 수 있다. 중요한 점은, DeepSeek가 완전한 인과 체인을 유지하면서 이 작업을 수행한다는 것이다. 다시 말해, 단순히 추가적인 토큰을 "추측"하는 것이 아니라, 문맥을 고려한 구조화된 예측을 수행하는 방식이다.
이러한 혁신적인 접근 방식 덕분에, DeepSeek는 훨씬 적은 연산 자원으로도 OpenAI 및 Anthropic의 최첨단 모델과 대등한 성능을 내는 모델을 훈련할 수 있었다.
결국, DeepSeek의 성공은 단순한 데이터나 모델 크기가 아니라, 기본적인 AI 훈련 방식의 근본적인 최적화에서 비롯된 것이다. 이를 통해 GPU 리소스를 훨씬 더 효율적으로 활용할 수 있는 새로운 방법론을 개발했으며, 이는 향후 AI 연구 전반에 걸쳐 중요한 영향을 미칠 가능성이 크다.
그들의 가장 혁신적인 발전 중 하나는 다중헤드 잠재 주의(Multi-head Latent Attention, MLA) 라고 불리는 기술이다. 이는 Key-Value 인덱스(KV 인덱스)를 다루는 방식을 혁신적으로 개선한 것으로, 트랜스포머 아키텍처의 주의(attention) 메커니즘에서 개별 토큰이 어떻게 표현되는지를 결정하는 핵심 요소다. 기술적으로 상당히 고급 개념이지만, 간단히 말하면 KV 인덱스는 훈련과 추론 과정에서 VRAM을 과도하게 소모하는 주된 원인 중 하나이며, AI 모델을 훈련하는 데 동시에 수천 개의 GPU가 필요한 이유 중 하나이기도 하다. 현재 엔비디아의 고급 데이터센터 GPU는 최대 96GB의 VRAM을 제공하지만, 이러한 KV 인덱스가 GPU 메모리를 금방 소진시켜 버린다.
DeepSeek의 MLA 시스템은 핵심 정보를 유지하면서도 훨씬 적은 메모리를 사용하는 KV 인덱스의 압축 버전을 저장하는 방법을 찾아냈다. 가장 혁신적인 부분은 이 압축 과정이 모델 훈련 과정 자체에 직접 내장되어 있다는 것이다. 즉, 추가적인 압축 단계를 거치는 것이 아니라, 종단간(end-to-end) 훈련 파이프라인에 통합되어 있어 모델이 최적화 도구를 사용해 자동으로 학습할 수 있도록 설계되었다. 이는 전체 시스템이 미분 가능(differentiable) 하므로, 모델 훈련과 함께 최적의 KV 인덱스 압축 방식이 자연스럽게 학습된다는 것을 의미한다.
DeepSeek의 MLA 방식은 필요 이상으로 많은 정보를 저장하지 않도록 제한하여 GPU VRAM을 크게 절약할 뿐만 아니라, 모델의 품질도 개선할 가능성이 있다. 이는 일종의 "정규화(regularization)" 효과를 가지는데, 모델이 훈련 데이터의 노이즈에 맞춰 불필요한 정보를 저장하는 대신, 진정으로 중요한 요소에 집중하도록 강제하는 역할을 한다. 따라서, 기존 방식과 달리 메모리를 엄청나게 절약하면서도 모델 성능을 유지하거나 심지어 향상시킬 수 있다. AI 훈련에서 흔히 볼 수 있는 메모리 절약과 성능 저하 간의 트레이드오프(trade-off) 문제를 효과적으로 해결한 셈이다.
DeepSeek는 또한 DualPipe 알고리즘맞춤형 통신 커널(custom communication kernel) 을 개발하여, GPU 간 통신 효율성도 크게 향상시켰다. AI 모델을 훈련할 때는 엄청난 양의 데이터를 GPU 간에 빠르게 교환해야 하므로, 네트워크 병목(bottleneck)이 발생하는 것이 일반적이다. DeepSeek의 접근 방식은 연산과 통신을 지능적으로 겹쳐(overlap) 처리하며, GPU 리소스를 보다 균형 있게 활용할 수 있도록 설계되었다.
특히, DeepSeek의 시스템은 GPU의 스트리밍 멀티프로세서(SM) 중 약 20개만을 통신 작업에 사용하고, 나머지는 순전히 연산에 집중하도록 설계되어 있다. 이는 GPU 활용도를 기존 훈련 방식보다 훨씬 높일 수 있게 해주며, 일반적인 AI 훈련 시스템 대비 GPU 리소스를 훨씬 더 효율적으로 활용할 수 있도록 한다.
DeepSeek가 도입한 또 하나의 혁신적인 접근법은 전문가 혼합(Mixture-of-Experts, MoE) 트랜스포머 아키텍처를 활용하되, 부하 균형(load balancing) 문제를 해결하는 핵심적인 개선을 적용했다는 점이다.
잘 알려져 있듯이, AI 모델의 크기나 용량은 일반적으로 모델이 포함하는 매개변수(parameter) 개수로 측정된다. 매개변수란 단순히 모델이 학습한 특정 속성을 저장하는 숫자 값으로, 이는 뉴런 간의 상대적인 중요도(가중치)를 나타내거나, 주의 메커니즘(attention mechanism) 내에서 특정 토큰이 문맥적으로 가지는 중요도를 결정하는 역할을 한다.
Meta의 최신 Llama3 모델은 여러 가지 크기로 제공된다. 예를 들어, 가장 작은 10억(1B) 매개변수 버전, 일반적으로 가장 많이 배포되는 700억(70B) 매개변수 모델, 그리고 무려 4,050억(405B) 매개변수에 달하는 거대한 모델이 있다. 이 중 가장 큰 모델은 대부분의 사용자들에게 그다지 유용하지 않다. 왜냐하면 이를 단순한 전체 정밀도(full-precision) 버전으로 배포할 경우, 수만 달러 상당의 GPU가 필요하기 때문이다. 따라서, 현실적으로 오픈소스 모델을 활용하는 사용자들이 가장 주목하고 실제로 사용하는 모델은 80억(8B) 매개변수 모델 또는 강하게 양자화된 700억(70B) 매개변수 모델이다. 이는 소비자용 엔비디아 RTX 4090 GPU에서도 실행이 가능하기 때문이며, 현재 1,000달러 미만의 가격으로 구매할 수 있다.
그렇다면 이 모든 것이 왜 중요한가? 기본적으로 매개변수의 개수와 정밀도는 모델이 내부적으로 저장하고 있는 원시 정보 또는 데이터의 양을 어느 정도 나타낸다. 여기서 논리적 추론 능력이나, 모델의 "IQ"를 말하는 것은 아니다. 실제로, 상대적으로 적은 매개변수를 가진 모델도 매우 놀라운 인지 성능을 보여줄 수 있으며, 복잡한 논리 문제를 해결하거나, 평면 기하학의 정리를 증명하거나, SAT 수학 문제를 푸는 등의 작업을 수행할 수 있음이 입증되었다.
그러나 작은 모델들은 스탕달(Stendhal)의 모든 소설의 모든 줄거리 전개를 설명할 수는 없지만, 정말로 큰 모델들은 이를 해낼 가능성이 높다. 이러한 극단적인 수준의 지식을 보유하는 대가로, 모델은 훈련과 추론 과정에서 매우 다루기 어려워진다. 즉, 4,050억(405B)개의 매개변수(또는 그 이상의 매개변수)를 한 번에 GPU의 VRAM에 저장해야만 모델을 실행할 수 있기 때문이다.
MoE(Mixture-of-Experts) 모델 접근 방식의 강점은, 하나의 거대한 모델을 여러 개의 작은 모델 모음으로 분해할 수 있다는 점이다. 각각의 작은 모델들은 서로 다른, 최소한 완전히 중복되지 않는 지식 영역을 담당한다. DeepSeek의 혁신적인 발전은, "보조 손실(auxiliary-loss)-없는" 부하 균형(load balancing) 전략을 개발했다는 점이다. 이는 전문가 모델들이 효율적으로 활용될 수 있도록 보장하며, 부하 균형 과정에서 발생하는 일반적인 성능 저하를 방지한다. 그런 다음, 추론 요청의 특성에 따라 가장 적합한 전문가 모델로 해당 요청을 지능적으로 라우팅할 수 있다.
이를 느슨하게 비유하면, 각각의 전문가가 특정 지식 영역을 담당하는 위원회(committee)와 비슷하다고 볼 수 있다. 예를 들어, 한 전문가는 법률 전문가, 또 다른 전문가는 컴퓨터 과학 전문가, 그리고 또 다른 전문가는 비즈니스 전략 전문가일 수 있다. 따라서 선형대수학(Linear Algebra)과 관련된 질문이 들어오면, 그 질문을 법률 전문가에게 전달하지 않는 것이 당연하다. 물론, 이는 실제 MoE 시스템이 작동하는 방식과는 다소 다른 단순한 비유일 뿐이다.
이 접근 방식의 실질적인 장점은, 모델이 방대한 양의 지식을 포함할 수 있으면서도 너무 다루기 어려운 수준으로 커지지 않게 한다는 점이다. 즉, 각 전문가 모델의 총 매개변수 개수는 매우 많지만, 특정 시점에서 활성화되는 매개변수의 개수는 극히 일부에 불과하다. 이는 곧, VRAM에 저장해야 할 매개변수의 개수도 극히 일부만 필요하다는 의미다.
DeepSeek-V3의 경우, 총 6710억(671B)개의 매개변수를 가진 매우 거대한 MoE 모델이지만, 실제로 한 번의 추론에서 활성화되는 매개변수는 370억(37B)개에 불과하다. 이는 4090 GPU 두 개(총 비용 2,000달러 미만)로 실행할 수 있는 수준이며, 기존의 H100 GPU(개당 약 40,000달러 이상) 여러 개를 필요로 하는 방식보다 훨씬 효율적이다.
현재 ChatGPT와 Claude 역시 MoE 아키텍처를 사용한다는 루머가 있다. 일부 유출된 정보에 따르면, GPT-4는 총 1.8조(1.8T) 개의 매개변수를 포함하고 있으며, 이를 8개의 개별 모델(각각 2,200억(220B) 매개변수)로 분할해 활용하고 있다고 한다. 하지만, 이 방식도 여전히 여러 개의 H100급 GPU가 필요할 정도로 많은 메모리를 요구한다.
이미 설명한 내용 외에도, DeepSeek의 기술 논문에서는 여러 가지 추가적인 주요 최적화 기법을 언급하고 있다. 이러한 최적화에는 다음과 같은 요소들이 포함된다.
극도로 메모리 효율적인 훈련 프레임워크: 텐서 병렬성(tensor parallelism)을 피하는 방식으로 설계되어, 기존 방식보다 훨씬 적은 메모리로 모델을 훈련할 수 있다.
역전파(backpropagation) 과정에서 특정 연산을 저장하지 않고 재계산: 일반적으로 AI 모델은 역전파를 수행할 때, 필요한 모든 중간 연산 값을 저장해둔다. 그러나 DeepSeek의 방식은 일부 연산을 다시 계산함으로써 저장 공간을 절약하는 전략을 사용한다.
메인 모델과 보조 예측 모듈(auxiliary prediction module) 간의 매개변수 공유: 이는 훈련 과정에서 중복되는 연산을 줄이고, 모델의 전체적인 연산 효율성을 극대화하는 역할을 한다.
이러한 혁신적인 최적화 기법들이 계층적으로 결합되면서, DeepSeek의 훈련 과정은 기존 대비 약 45배의 효율성 향상을 달성했다는 평가를 받고 있다. 온라인에서 제시된 이러한 수치가 과장된 것일 수도 있지만, 실제 기술적 설명을 고려할 때 충분히 현실적인 범위 내에 있을 가능성이 높다.
어떤 면에서 이는 엔비디아의 GPU와 경쟁업체의 맞춤형 AI 칩을 비교하는 것과 비슷하다. 성능이 완전히 동등하지 않을 수도 있지만, 가격 대비 성능(value for money)이 압도적으로 뛰어나기 때문에, 특정 애플리케이션에서는 DeepSeek 모델을 선택하는 것이 합리적인 결정이 될 수 있다. 물론, 해당 모델의 성능이 충분히 신뢰할 수 있는 수준인지, API의 가용성과 지연 시간이 문제없는지 확인해야 하지만, 현재까지는 DeepSeek의 인프라가 놀라울 정도로 안정적으로 운영되고 있으며, 새로운 모델의 성능에 대한 엄청난 수요를 감당하고 있다.
그러나, DeepSeek의 낮은 가격이 OpenAI 및 Anthropic과의 단순한 가격 경쟁 때문인지, 아니면 정말로 50배 이상의 연산 효율성을 확보했기 때문인지는 명확하지 않다. MoE 기반 모델의 효율성을 고려했을 때, 추론 단계에서의 효율성은 훈련보다 훨씬 더 높을 가능성이 크다. 실제로, OpenAI와 Anthropic의 API 서비스가 높은 마진을 남기고 있는지도 확실하지 않다. 이들은 단순한 수익 창출보다, API 요청을 분석하여 더 많은 데이터를 확보하는 데 더 관심이 있을 수도 있다.
마지막으로, 많은 사람들이 DeepSeek가 실제로 사용한 GPU 및 GPU 학습 시간을 속이고 있을 가능성을 제기하고 있다. 즉, DeepSeek가 수출 제한으로 인해 공식적으로 보유할 수 있는 것보다 훨씬 더 많은 H100 GPU를 보유하고 있으며, 이를 숨기기 위해 훈련 효율성을 과장하고 있을 가능성이 있다는 것이다.
물론, 이러한 가능성을 완전히 배제할 수는 없지만, DeepSeek가 발표한 기술적 접근 방식이 충분히 혁신적이며, 이를 통해 놀라운 결과를 얻었다는 점을 고려할 때, DeepSeek의 주장대로 매우 창의적이고 효율적인 방식으로 훈련과 추론을 수행했을 가능성이 더 높아 보인다. 그들이 설명한 방식이 실제로 효과가 있다면, 머지않아 다른 연구소에서도 유사한 결과를 재현하고 검증할 가능성이 매우 높다.

정말로 사고할 수 있는 모델

새로운 R1 모델과 그에 대한 기술 보고서는 더욱 놀라운 혁신을 보여주며, DeepSeek가 Anthropic보다 먼저 Chain-of-Thought(CoT) 추론을 구현하는 데 성공했음을 입증했다. 현재 이 기술을 대규모로 구현한 기업은 OpenAI를 제외하면 사실상 DeepSeek뿐이다. 하지만 OpenAI의 O1 프리뷰 모델이 출시된 것은 2024년 9월 중순으로, 불과 4개월 전이라는 점을 기억해야 한다.
여기서 반드시 고려해야 할 점은, OpenAI는 이러한 모델이 저수준에서 어떻게 작동하는지를 철저히 비밀에 부친다는 것이다. OpenAI는 실제 모델 가중치를 Microsoft나 기타 NDA(기밀 유지 계약)에 서명한 일부 파트너에게만 공유하며, 그 외에는 공개하지 않는다. 반면, DeepSeek는 완전히 오픈소스 방식으로 운영되며, 모델을 자유롭게 사용할 수 있도록 허용하고 있다. DeepSeek는 이 모델이 어떻게 작동하는지 설명하는 매우 상세한 기술 보고서를 공개했으며, 누구나 이를 보고 복제할 수 있도록 코드까지 공유했다.
R1을 통해, DeepSeek는 사실상 AI 연구에서 가장 중요한 목표 중 하나를 해결하는 데 성공했다. 즉, 방대한 지도학습(supervised learning) 데이터에 의존하지 않고도 모델이 단계별 추론을 수행하도록 하는 방법을 발견한 것이다.
특히 DeepSeek-R1-Zero 실험은 경이로운 결과를 보여주었다. 순수한 강화학습(reinforcement learning)과 정교하게 설계된 보상 함수(reward functions) 만으로, 모델이 고도의 논리적 사고 능력을 완전히 자율적으로 학습할 수 있도록 만들었다.
이는 단순히 문제를 해결하는 수준을 넘어선다. 모델이 자연스럽게 긴 Chain-of-Thought(CoT) 논리 전개를 생성하고, 자체적으로 정답을 검증하며, 난이도가 높은 문제일수록 더 많은 연산을 수행하는 방식으로 작동하도록 설계되었다.
이 기술적 돌파구의 핵심은 새로운 방식의 보상 모델링(reward modeling) 접근법이었다. 기존 방식에서는 복잡한 신경망 기반 보상 모델(neural reward models)을 사용했는데, 이는 종종 "보상 해킹(reward hacking)" 문제를 야기할 수 있었다. 즉, 모델이 실제 성능 향상과 무관하게 보상 점수를 높이는 편법을 찾아내는 현상이 발생할 가능성이 있었다.
DeepSeek는 이러한 문제를 피하기 위해 보다 정교한 규칙 기반(rule-based) 보상 시스템을 개발했다. 그들은 최종 답변의 정확성을 검증하는 정확도 기반 보상(accuracy rewards) 과 논리적으로 체계적인 사고 과정을 유도하는 형식 기반 보상(format rewards) 을 결합하여 모델이 보다 신뢰할 수 있는 방식으로 학습하도록 설계했다. 이러한 간결한 접근 방식은 기존의 프로세스 기반 보상 모델(process-based reward models) 보다 더 견고하고 확장성이 뛰어난 시스템으로 평가되었다.
특히 흥미로운 점은 훈련 과정에서 "아하(Aha) 순간" 이라고 부르는 현상이 관찰되었다는 것이다. 이는 모델이 불확실한 상황에 직면했을 때, 자발적으로 사고 과정을 수정하는 능력을 학습한 단계를 의미한다.
이러한 창발적(emergent) 행동은 명시적으로 프로그래밍된 것이 아니었다. 대신, 모델과 강화학습 환경 간의 상호작용을 통해 자연스럽게 발생한 것이었다. 모델은 논리적 추론 과정에서 스스로 멈추고, 잠재적인 오류를 감지한 후 문제를 다시 분석하고, 완전히 다른 접근 방식으로 다시 시작하는 패턴을 보였다. 이러한 과정은 모델이 특별히 그러한 행동을 하도록 직접 훈련받지 않았음에도 불구하고 자연스럽게 학습된 것이었다.
완전한 R1 모델은 이러한 통찰을 바탕으로 "콜드 스타트(cold-start) 데이터" 라고 부르는 개념을 도입했다. 이는 강화학습 기법을 적용하기 전에 소규모의 고품질 예제 데이터 세트를 활용하는 방식으로, 이를 통해 모델이 보다 안정적인 학습 경로를 따를 수 있도록 설계되었다.
또한, DeepSeek는 추론 모델에서 가장 큰 난제 중 하나인 언어 일관성(language consistency) 문제를 해결했다. 기존의 Chain-of-Thought(CoT) 추론 방식에서는 모델이 여러 언어를 혼합하거나 논리적으로 일관되지 않은 출력을 생성하는 문제가 자주 발생했다. DeepSeek는 강화학습 과정에서 언어 일관성을 유지하는 보상(language consistency reward) 을 도입함으로써 이러한 문제를 해결했다. 이를 통해 모델은 일정 부분 성능을 희생하는 대신, 훨씬 더 가독성이 뛰어나고 논리적으로 정돈된 출력을 생성할 수 있도록 최적화되었다.
그 결과는 경이로울 정도였다. 가장 난이도가 높은 고등학교 수학 경시대회 중 하나인 AIME 2024에서 R1 모델은 79.8%의 정확도를 기록하며 OpenAI의 O1 모델과 동급의 성능을 보였다. MATH-500 벤치마크에서는 97.3%의 정확도를 달성했으며, Codeforces 프로그래밍 대회에서도 96.3 퍼센타일을 기록했다.
그러나 가장 인상적인 부분은 이러한 성능을 훨씬 작은 모델 크기로 구현했다는 점이다. DeepSeek는 14B(140억) 매개변수 버전의 R1 모델에서도 이러한 뛰어난 성능을 유지하는 데 성공했으며, 이는 기존의 훨씬 더 큰 모델들을 능가하는 수준이었다. 이러한 결과는 모델의 추론 능력이 단순한 매개변수 개수가 아니라, 정보를 처리하는 방식과 학습 과정에 의해 결정됨을 시사한다.

여파(Fallout)

최근 Twitter와 Blind(기업 내부 소문이 퍼지는 익명 게시판)에서는 DeepSeek 모델이 Meta를 완전히 허를 찔렀으며, 여전히 훈련 중인 새로운 Llama4 모델보다 더 나은 성능을 보인다는 소문이 퍼지고 있다.
현재 Meta 내부에서는 Llama 프로젝트가 고위 기술 임원들의 상당한 관심을 받고 있으며, 그 결과 Llama 개발팀에서 일하는 13명의 연구원이 각각 연봉으로 DeepSeek-V3 모델 전체 훈련 비용을 합친 것보다 더 많은 보상을 받고 있다는 이야기가 나오고 있다. DeepSeek-V3 모델이 더 나은 성능을 내고 있음에도 불구하고, Llama 팀의 소수 직원이 그 모델 전체 훈련 비용보다 높은 연봉을 받고 있다는 사실을 어떻게 마크 저커버그에게 설명할 수 있을까?
게다가 저커버그가 수십억 달러를 엔비디아에 쏟아부으며 10만 개의 H100 GPU를 구매하는 동안, DeepSeek는 단 2,000개의 H100을 사용해 500만 달러가 조금 넘는 비용으로 더 나은 모델을 훈련했다는 사실을 알고도, 그는 어떻게 계속 미소를 유지할 수 있을까?
하지만 믿어도 좋다. Meta뿐만 아니라 모든 주요 AI 연구소들이 DeepSeek 모델을 철저히 분석하고 있을 것이라는 점을. 공개된 기술 보고서의 모든 문장과 오픈소스 코드의 모든 줄을 세밀하게 연구하며, 필사적으로 이들의 최적화 기법을 자신들의 훈련 및 추론 파이프라인에 적용하려 애쓰고 있을 것이다.
그렇다면 이 모든 것이 어떤 영향을 미칠까? 단순하게 보면, 훈련 및 추론에 대한 총 연산 수요가 엄청나게 줄어들 수밖에 없다. 45배까지는 아니더라도, 25배, 심지어 30배 정도까지 감소할 가능성도 있다. DeepSeek 모델이 나오기 전에는 훨씬 더 많은 GPU와 컴퓨팅 리소스가 필요하다고 생각했겠지만, 이제는 그 예상치보다 훨씬 적게 필요할 것이라는 이야기다.
낙관론자들은 이렇게 말할 수도 있다. "그게 뭐가 중요한가? 어차피 비례 상수(constant of proportionality) 하나 바뀌는 것 뿐이다. 우리가 다루는 건 기하급수적 성장(exponential growth) 곡선이기 때문에, 이런 작은 변화는 금방 희석되어 실제로 큰 의미가 없어질 것이다."
일리가 있는 주장이다. 만약 AI가 정말 내가 기대하는 수준으로 세상을 변화시키고, 이 기술의 실질적인 경제적 가치가 수조 달러 단위로 측정되며, 추론 시 연산량이 새로운 스케일링 법칙이 되고, 전 세계적으로 수많은 휴머노이드 로봇들이 끊임없이 대규모 추론을 수행해야 한다면, 성장 곡선은 여전히 가파를 것이다. 그리고 엔비디아가 충분한 선두를 유지하고 있다면, 결국 모든 것이 엔비디아에 유리하게 돌아갈 수도 있다.
하지만 엔비디아의 현재 주가는 앞으로 몇 년 동안 엄청나게 긍정적인 시나리오가 전개될 것이라는 기대를 완전히 반영하고 있다. 그리고 이 모든 요소들을 하나로 엮어 종합적으로 바라보면, 나는 엔비디아의 주식을 2025년 예상 매출의 약 20배 수준에서 매수하는 것이 점점 불안하게 느껴진다.
만약 매출 성장률이 지금 예상보다 약간만 둔화된다면? 예를 들어, 100% 이상이 아니라 85% 성장에 그친다면? 만약 75%에 달하는 엔비디아의 초고마진이 70%로 내려간다면? (물론 이 수준도 반도체 업계에서는 여전히 터무니없이 높은 마진이다.) 이러한 작은 변화들이 현재 엔비디아에 대한 시장의 극단적인 낙관론을 재조정할 수도 있지 않을까?

총정리: 엔비디아를 둘러싼 위협과 불확실성

거시적인 관점에서 보면, 엔비디아는 지금까지 한 번도 경험하지 못한 수준의 경쟁적 위협에 직면하고 있으며, 이를 고려할 때 2025년 예상 매출의 20배 수준의 주가와 75%의 높은 총이익률을 정당화하기는 점점 더 어려워지고 있다.
그동안 엔비디아가 강력한 해자로 여겨온 하드웨어, 소프트웨어, 그리고 효율성의 장점들은 하나둘씩 균열을 보이고 있다. 그리고 지금 전 세계에서 가장 똑똑한 수천 명의 엔지니어들이, 수십억 달러에 달하는 자본을 등에 업고, 엔비디아를 무너뜨리기 위해 모든 방향에서 공격을 가하고 있다.
하드웨어 측면에서 보면, Cerebras와 Groq의 혁신적인 아키텍처는 엔비디아의 데이터센터 지배력의 핵심 요소였던 인터커넥트 기술이 급진적인 재설계를 통해 충분히 우회될 수 있음을 입증했다. Cerebras의 웨이퍼 스케일 칩과 Groq의 결정론적 컴퓨팅 접근 방식은 엔비디아의 복잡한 인터커넥트 솔루션 없이도 경쟁력 있는 성능을 제공하며, 이는 기존 GPU 중심의 패러다임을 위협할 수 있다.
더 전통적인 방식으로도 엔비디아의 주요 고객인 구글, 아마존, 마이크로소프트, 메타, 애플 모두가 고마진 데이터센터 매출을 잠식할 가능성이 있는 맞춤형 실리콘을 개발하고 있다. 이것은 더 이상 실험적인 프로젝트가 아니다. 예를 들어, 아마존은 Anthropic을 위해 40만 개 이상의 맞춤형 칩을 활용한 대규모 인프라를 구축 중이며, 이는 엔비디아에 대한 의존도를 낮추려는 분명한 신호다.
소프트웨어 측면에서도 엔비디아의 해자는 점점 취약해지고 있다. MLX, Triton, JAX 같은 새로운 고수준 프레임워크들은 CUDA의 중요성을 추상화하며, 점점 더 많은 개발자들이 특정 하드웨어에 종속되지 않는 방식으로 AI 모델을 개발할 수 있도록 돕고 있다. AMD 드라이버의 개선이 가시화될 경우, 훨씬 저렴한 하드웨어 대안이 시장에서 더 큰 역할을 할 수 있다.
더 큰 흐름을 보면, 소프트웨어의 추상화가 점점 더 높은 수준으로 진행되고 있으며, 이는 어셈블리 언어가 결국 C/C++에 의해 대체된 역사와 유사한 패턴을 보인다. 이는 CUDA의 지배력이 장기적으로 유지되기 어려울 가능성을 시사하며, 소프트웨어 기반의 락인 효과(lock-in effect)가 생각보다 더 빠르게 약화될 수도 있다.
하지만 아마도 가장 치명적인 위협은 DeepSeek의 최근 연산 효율성 혁신일 것이다. DeepSeek는 기존 대비 약 1/45의 컴퓨팅 비용으로 동급 모델 성능을 달성했으며, 이는 업계 전체가 지금까지 지나치게 많은 컴퓨팅 리소스를 투입해왔음을 시사한다. 더 효율적인 체인 오브 쏘트(chain-of-thought) 기반 추론 모델이 등장하면서, 전체 AI 연산 수요가 현재 예상보다 훨씬 낮아질 가능성이 높다.
이러한 변화의 경제적 의미는 강력하다. DeepSeek가 GPT-4 수준의 성능을 제공하면서도 API 호출 비용을 OpenAI 및 Anthropic 대비 95% 저렴하게 책정할 수 있다는 점은, 기존 엔비디아 고객들이 불필요하게 과도한 비용을 지불하고 있거나, 아니면 엔비디아의 초고마진이 장기적으로 유지될 수 없음을 시사한다.
이와 함께, TSMC가 충분한 자본을 가진 모든 고객을 위해 최첨단 칩을 제조할 수 있다는 점은 엔비디아의 아키텍처적 우위에 근본적인 한계를 부여한다. 결국 반도체 제조 역량 자체는 독점할 수 없는 요소이며, 충분한 자금과 기술적 역량이 있다면 경쟁력 있는 칩을 개발하는 것이 불가능하지 않다.
더 근본적으로, 시장은 역사적으로 과도한 초과 이익이 발생하는 인위적인 병목 현상을 지속시키지 않는다. 시장이 과도하게 특정 기업에 집중될 경우, 결국 이를 우회할 수 있는 혁신적인 대안들이 등장하면서 자연스럽게 균형을 찾아갔다.
이러한 다섯 가지 위협—아키텍처 혁신, 고객의 자체 반도체 개발, 소프트웨어 추상화, 연산 효율성 돌파, 반도체 제조의 민주화—이 동시에 진행되고 있는 상황에서, 이 중 하나라도 엔비디아의 마진이나 성장률에 실질적인 타격을 줄 가능성이 높아 보인다.
그러나 현재 엔비디아의 밸류에이션은 이러한 위험 요소를 거의 반영하지 않고 있으며, 시장이 지나치게 낙관적인 전망을 반영하고 있는 것으로 보인다. 이러한 경쟁 압력이 가시화될 경우, 엔비디아의 성장성과 수익성이 지속 가능할지에 대한 의문이 커질 수 있다.