답변 느려진 챗GPT·제미나이… 가성비 좋은 ‘추론 AI’가 뜬다

2026-03-13 (금) 12:00:00

크게 작게

▶ 김지현의 첨단산업 읽기

최근 생성형 인공지능(AI)을 사용하다 보면 답이 바로 나오는 것이 아니라 짧게는 수분, 길게는 10여 분을 훌쩍 넘는 시간이 소요된다. 어떤 프롬프트는 즉각 답이 나오고 어떨 때는 시간이 오래 소요되는 것은 왜일까?

챗GPT나 제미나이 대화창에 프롬프트를 입력하면 AI 모델이 바로 입력된 프롬프트와 가장 확률적으로 어울리는 데이터를 찾아 즉각 화면에 텍스트나 이미지, 영상 등의 포맷으로 답을 생성한다. 이 과정을 ‘인퍼런스(Inference)’라고 부른다. 하지만 ‘챗GPT 싱킹(Thinking)’이나 ‘제미나이 딥 리서치(Deep Research)’를 선택하고 프롬프트를 넣으면 ‘리즈닝(Reasoning)’ 방식으로 작동되는데, 이때는 시간이 오래 소요된다. AI가 단지 연산만 하는 것이 아니라 가설을 세우고 검증해가면서 생성한 결과들을 비교하고 수정 보완해 최종 산출물을 만들어내기 때문이다. 인퍼런스가 계산 실행 과정이라면 리즈닝은 논리적 추론과 사고다.

지난 3년간 AI 인프라는 AI 모델 학습에 집중했지만, 지난해부터는 추론 중심으로 변화하고 있다. 컴퓨팅 자원을 AI를 가르치는 데 썼다가 이젠 AI를 활용하는 데 집중하는 것이다. 추론 시장이 급성장하면서 기업들이 더 저렴하게 AI를 운용하려는 셈법이 복잡해지고 있다. AI 인프라는 엔비디아의 그래픽처리장치(GPU)와 SK하이닉스의 고대역폭메모리(HBM)가 시장을 지배하고 있다. 그런데 이 같은 막강한 AI 자원은 추론을 구동하는 데 너무 과하다. 학습은 고성능의 컴퓨팅 자원을 수개월간 집중 투입해야 하는 반면, 추론은 사용자 규모와 프롬프트 내용에 따라 자원이 100% 쓰이지 않기 때문에 적당한 스펙의 인프라가 적당히 투입되면 된다. 그렇기에 기업 입장에서는 구하기도 어렵고 비싼 GPU, HBM 대신 다른 추론 전용 칩셋과 메모리를 선호한다. 가성비 좋은 추론 AI 인프라에 대한 기대가 커지는 것이다.

구글은 텐서처리장치(TPU), 아마존은 트레이니엄, 마이크로소프트도 마이아를 공개했고, 메타도 MTIA를 개발했다. 모두 독자적인 추론 칩셋이다. 오랜 엔비디아의 아군인 오픈AI조차 브로드컴과 함께 독자 신경망처리장치(NPU) 기반으로 추론 인프라 운영을 계획하고 있다. 덕분에 인텔과 AMD 같은 전통적인 중앙처리장치(CPU) 업체들, 리벨리온, 퓨리오사AI와 같은 국내 스타트업들도 추론 칩셋에 도전하고 있다. 엔비디아 역시 이 시장을 놓칠 리 없어 추론 칩셋인 언어처리장치(LPU)를 제조하는 기업 그록을 인수했다.

올해 AI 시장은 돈 쓰는 AI에서 돈 되는 AI로 전환 중이고, 그 중심에 추론 AI로의 변화가 있다. 그런 과정에서 엔비디아 GPU 중심의 AI 인프라에도 변화 조짐이 보인다. 변화는 늘 새로운 비즈니스 기회를 동반한다. 어떤 기업이 새로운 시장 개척에 성공할 것인지, AI 시장의 경쟁 구도는 어떻게 변화될 것인지 전망하고 대비해야 한다.