GPU는 놀고 HBM이 일한다… HBM이 AI 발전 속도 결정하는 핵심 변수

본문

HBM은 단순한 메모리(DRAM)가 아니라,

데이터를 초고속으로 처리하는 AI 가속기(GPU 등)의 성능을 결정짓는 핵심 부품으로 자리매김하며 '반도체 패권'의 상징이 되고 있다.


AI 서비스가 고도화될수록 GPU는 더 많은 데이터를 더 빠르게 학습하고 처리해야 한다. 특히, ChatGPT와 같은 LLM(초거대 언어 모델)은 방대한 데이터를 실시간으로 주고받아야 하는데, GPU 혼자만의 성능으로는 한계가 있다. HBM은 마치 GPU 바로 옆에 '초고속 데이터 고속도로'를 건설하는 것과 같다.


GPU(데이터 처리 능력)와 HBM(데이터 공급 속도)이 하나의 칩처럼 작동하면서 AI 학습 및 추론 속도를 극대화하는데, 엔비디아의 AI 가속기 'H100'이나 '블랙웰' 등에 HBM이 반드시 탑재되는 이유이다. 이런 HBM의 중요성이 날로 커지는 가운데 HBM의 아버지라 불리는 KAIST 김정호 교수의 견해를 소개해 본다.


"AI 시대, 메모리 대역폭이 성장의 병목"…

15년 로드맵, HBM 8은 '아파트 타운' 구조로 진화 예고


지금까지 AI 하드웨어의 핵심으로 GPU(그래픽처리장치)가 주목받았지만, 카이스트 김정호 교수는 AI 성능을 좌우하는 진정한 핵심은 GPU에 데이터를 공급하는 HBM(고대역폭 메모리)이라고 진단하며, 향후 AI 혁명의 속도는 HBM 기술 발전에 달려 있다고 강조했다.


GPU의 병목 현상, HBM이 AI 성능의 열쇠

김 교수는 AI 연산의 근간인 행렬 곱셈이 대규모 병렬 계산을 요구하며, 이 과정에서 GPU가 90%의 시간을 데이터가 메모리에서 오기를 기다리며 '놀고 있다'고 지적했다. AI 학습과 추론 과정에서 HBM이 데이터를 제때 공급하지 못하거나 계산 결과를 다시 저장하는 데 지연이 발생하면서 시스템 전체의 성능 저하가 발생한다는 것이다.  현재 생성형 AI가 글자를 순서대로 출력하는 속도가 느린 주된 원인 역시 HBM의 대역폭 한계 때문이다. 결국 AI의 진정한 능력 발휘는 GPU의 연산 속도가 아닌, GPU와 HBM 간의 데이터 통로인 밴드위스(대역폭)가 얼마나 넓고 빨라지느냐에 달려 있다는 분석이다.


'HBM 아파트 타운'으로 1,000배 속도 향상

김 교수는 현재 텍스트 중심인 생성 AI가 향후 동영상 생성까지 아우르는 AGI(범용 인공지능)로 진화할 경우, 필요한 밴드위스는 현재 HBM 수준보다 약 1,000배 이상 증가할 것으로 예측했다. 이러한 막대한 데이터 수요를 충족시키기 위해 HBM 기술은 필연적인 로드맵을 따를 것이라고 밝혔다.


▪ 적층 한계 돌파

: 메모리 다이 적층은 물리적 한계(높이, 냉각 문제)로 32층 전후에서 멈출 것이다.


 HBM 아키텍처의 혁신

: 그 이후에는 HBM 스택을 GPU 옆으로 평행하게 확장하여 연결하는 'HBM 아파트 타운' 구조로 진화할 것이며, 이는 10~20년 후의 HBM 7, 8 세대에 구현될 것으로 전망된다.


 발열 해소 기술

: 고속 연산 환경에서 필수가 된 발열 문제를 해결하기 위해, 다이 내에 냉각을 위한 전용 TSV(Through-Water Via, TWV) 설계 등 혁신적인 기술이 도입될 것이라고 덧붙였다.


한국 반도체의 생존 전략으로 AI 주도권을 위한 HBM 집중해야

김 교수는 HBM이 AI 시대의 핵심 동력인 만큼, 한국 반도체 산업이 여기에 '생존'을 걸어야 한다고 역설했다. 중국의 추격이 거센 범용 메모리(레거시 제품) 대신, 한국이 유일하게 기술 주도권을 가지고 있는 하이엔드 HBM 분야에 국가적 자원과 투자를 집중해야 한다는 주장이다.


궁극적으로는 엔비디아가 설정한 표준을 따르는 것이 아니라, HBM을 중심으로 시스템을 설계하는 HCC(HBM Centric Computing)를 한국이 주도하여 AI 하드웨어 생태계의 패권을 선점해야 한다고 강조했다. 이는 곧 AI 혁명의 속도와 방향을 한국이 결정하는 것을 의미한다.


등록된 댓글이 없습니다.

현재까지 총 377건의 기사가, 최근 1달 동안 128건의 기사가 발행되었습니다.