잔잔한 물결로 파도 만들기
추론에서 '메모리 반도체'가 중요한 이유 (feat. 하이닉스) 본문
최근 SK하이닉스 주가가 심상치 않다. 6월달부터 현재(9월 16일 종가)까지 무려 62%가 상승했다.
시가총액은 약 150조 원 -> 240조 원으로, 불과 3개월 반 사이에 90조 원이 뛰었다.

왜일까? 대충 AI 때문인 것 같긴 한데, 갑자기 메모리 반도체가 주목받는 이면에는 어떤 이유가 있을까?
이 글의 목적은 주식 얘기를 길게 하고자 함은 아니다. 해당 블로그에 쓰는 글이 늘 그렇듯 기술적 호기심을 비전공자 수준에서 풀어보기 위해 정리한 글이다.
지난 7월, 하이닉스는 2Q25 컨퍼런스 콜에서 다음과 같은 언급을 했다. (출처 : 전자부품 전문 미디어 디일렉(http://www.thelec.kr))
Q. (HBM) AI 강한 수요로 HBM도 고성장을 기대한다. 2025년 이후 중장기 HBM 수요 전망과 회사가 바라보는 HBM 수요의 주요 모멘텀을 말해달라.
A. AI 시장은 빅테크의 지속된 설비투자 확대와 기하급수적으로 증가하는 토큰 처리량, AI 스타트업의 고성장률에서 알 수 있듯이 빠른 속도로 성장하고 있다. 특히 AI 수요가 트레이닝에서 인퍼런싱(inferencing)으로 확대되고, 인퍼런싱도 리즈닝(reasoning) 모델과 에이전트 등 세분화, 고도화되면서 AI 워크로드는 가파르게 증가하고, 대역폭에 대한 병목도 심화하고 있다. HBM은 급성장 중인 AI 시장에서 성능 증가에 결정적 영향을 미치는 핵심 제품으로 포지셔닝하고 있다. 앞으로도 HBM 수요 성장성에 대해선 의심할 여지가 없다. 또 AI 시장은 AI 에이전트와 피지컬 AI 등으로 영역을 넓혀가면서 폭발적으로 연산량이 증가할 것이고, 이는 HBM 시장 수요 성장을 견인할 것으로 기대한다. 향후 HBM 시장은 성장 초기의 급격한 성장률까지는 아니어도, AI 기술의 빠른 발전으로 고객 풀이 확대되고 있다. 그들의 신제품과 새로운 서비스가 계속 출시된다는 점을 고려할 때 앞으로도 높은 성장성이 지속할 것으로 전망한다.
다음은 보조기억장치에 대한 언급이다.
Q. (낸드시장 전망) 낸드 시장의 장기 성장성이 과거 대비 둔화되며, 공급 업체들의 보수적 생산 기조에도 수익성이 그다지 개선되지 않는 것으로 보인다. 언제까지 이러한 시장 상황이 지속될 것으로 보는가?
A. 현재 낸드 시장의 성장이 둔화된 것은 세트 수요 정체와 함께, AI 서버로 전환을 진행중인 고객들의 투자가 아직 저장장치 구매로까지는 이어지지 않는 상황에서 비롯되었다. 하지만 당사는 머지 않아 저장장치에 대한 투자 필요성도 점차 부각될 것으로 보고 있다. AI 활용 증가와 그에 따른 토큰 생성량이 가까운 미래엔 상상을 초월하는 수준으로 커지게 될 것이며, 기존 데이터 처리 방식으로는 늘어난 수요를 감당하기 어려운 상황이 생겨나게 될 것으로 보기 때문이다. AI 추론 데이터를 캐싱하는 역할을 eSSD에 전가(off-loading) 하려는 움직임이 일어나고 있고, 초기 수요가 2~3년 후부터는 발생할 것으로 전망하고 있다. 이러한 트렌드가 현실화하면, eSSD는 더 이상 저장장치에 머무르지 않고, 연산용 캐시의 일부가 되면서 AI 시스템 안에서 차지하는 포지션에 변화가 생길 것으로 예상한다. 당사는 이 시점에 NAND 시장에서 큰 폭의 수요 성장이 시작될 것으로 보고 있다.
요약하자면:
1. AI 수요가 훈련에서 추론으로 옮겨가면서 AI 워크로드가 가파르게 증가하며, 대역폭에 대한 병목이 심화되고 있다.
2. 따라서 HBM이 AI 성능 증가에 결정적 영향을 미치는 핵심 제품이 되고 있다.
3. 향후 AI 에이전트, 피지컬 AI 등 영역을 얿혀가며 HBM 수요는 더욱 커질 것.
4. 머지 않아 저장장치 수요 역시 급증할 것이며, 그 이유는 기존 데이터 처리 방식으로 AI 성장을 감당하기에는 역부족이기 때문.
5. AI 추론 데이터 캐싱을 eSSD에 전가하려는 시도 발생 중, 2~3년 후부터는 초기 수요 발생 전망.
6. 이러한 트렌드가 현실화되면, eSSD는 단순 저장장치 -> AI 연산용 캐시로 지위 격상(?)될 것.
엄청난 자신감이다(매수각). 존경하는 석박사님들이 포진해있고, 글로벌 탑 메모리 제조 업체인 하이닉스가 아무 생각 없이 이렇게 강한 톤으로 얘기하는 것은 아닐 것이다.
다시 한번 한 줄 요약하자면 "1) AI 추론 수요 급증 -> 2) 거기서 가장 병목이 되는 지점이 HBM, 낸드임 -> 3) 그래서 우리 돈 많이 벎" 인데, 이 글에서 점검하고 싶은 것은 2번이다.
"🥺: 정말 우리 아이(메모리 반도체)가 그렇게 중요한 애 맞나요?"
이와 관련하여 두 가지 논문을 가져왔다. AI 추론 워크로드에서 메모리가 병목이 된다는 사실을 다룬 논문들이다.
(나의 부족한 머리로는 완벽히 이해하지 못했으나.. 대충 느낌은 알잖아?ㅎㅎ)
1. AI and Memory Wall
(https://arxiv.org/pdf/2403.14123)
- 발간일: 2024년 3월 20일
- 주요 저자: Amir Gholami, Zhewei Yao, Sehoon Kim, Coleman Hooper, Michael W. Mahoney, Kurt Keutzer
- 게재 기관/저널: arXiv에 등록된 preprint, 일부 주요 컨퍼런스 출판물(예: ICLR 2025 논문에 언급됨)로 활용되고 있음
- 인용 수: 약 389회(2025년 11월 기준, arXiv 인용/참고문헌 및 기타 논문 내 언급 합산 기준)
- 공신력: UC Berkeley, ICSI, LBNL 등의 저명 연구진이 저술하였고, AI 하드웨어/시스템 분야에서 활발히 인용되는 대표적 리뷰 및 분석 논문 중 하나임
핵심 요약:
현대 AI, 특히 대규모 언어모델은 연산 성능(FLOPS) 향상 속도에 비해 메모리 대역폭·용량·인터커넥트의 성장 속도가 훨씬 느려졌고, 이 비대칭이 시스템 전반의 성능 한계를 규정한다. 학습과 추론 모두에서 데이터 이동이 Latency의 대부분을 차지하며, 대규모 분산 학습에서는 칩 간 통신이, 추론에서는 DRAM/HBM 접근이 병목으로 떠오른다. 즉 '계산을 더 얹는 것'만으로는 더 이상 선형의 체감 성능을 얻기 어렵다.
특히 Autoregressive 디코더형 LLM 추론은 행렬-벡터 성격이 강해 산술집약도가 낮고, KV 캐시 + 긴 컨텍스트가 더해지며 메모리 중심 워크로드로 수렴한다. 이로 인해 배치가 작거나 Latency에 민감한 실사용 시나리오에서 GPU 코어는 유휴가 생기고, 메모리/통신 자원이 실질적 처리량을 결정한다. 모델 크기가 커질수록 이 경향은 더 뚜렷해진다.
따라서 해법은 메모리 중심의 전면 재설계다. 알고리즘(양자화·프루닝·체크포인팅·샤딩), 런타임(캐시·통신 최적화), 하드웨어(두터운 캐시·고대역폭 메모리·계층형 메모리·패키징)까지 알고리즘-시스템-하드웨어 co-design이 필요하다. GPU 메모리 한계가 모델 설계까지 제약해왔으며, 이 한계를 완화하면 새로운 모델 구조·훈련/서빙 방식의 여지가 열린다는 점을 강조한다.
2. Mind the Memory Gap: Unveiling GPU Bottlenecks in Large-Batch LLM Inference
(https://arxiv.org/pdf/2503.08311)
- 발간일: 2025년 7월 11일 (arXiv 등록 기준)
- 주요 저자: Pol G. Recasens, Ferran Agullo, Yue Zhu, Chen Wang, Eun Kyung Lee, Olivier Tardieu, Jordi Torres, Josep Ll. Berral
- 게재 기관/저널: arXiv에 등록된 preprint (아직 메이저 저널이나 컨퍼런스 최종 게재 이력은 확인 안 됨)
- 인용 수: (2025년 11월 기준) 인용횟수 정보는 12회 정도로 확인됨. 출시된 지 4개월가량 경과로, 첫 인용 논문들이 나오고 있음
- 공신력: Barcelona Supercomputing Center, IBM Research 등 주요 연구기관 소속 저자들로 구성되어 있고, LLM 서빙/최적화 분야의 최신 GPU 실측 연구로 소개됨
핵심 요약:
일반 통념과 달리 대배치 추론에서도 성능 병목은 연산이 아니라 DRAM 대역폭 포화로 나타난다. 배치를 키워도 어텐션 커널의 연산/바이트 비율이 크게 개선되지 않아, 처리량이 일정 지점에서 플래토에 도달한다. 프로파일링 결과, 디코드 단계에서 메모리 대기 때문에 워프가 멈추고, L1/L2 캐시 히트율도 낮아 GPU 코어가 끝까지 활용되지 못한다.
병목의 중심은 어텐션/KV 캐시 접근 패턴이다. 프리필보다 디코드가 지배적이고, 긴 컨텍스트·동시 세션이 늘수록 가중치·캐시의 메모리 트래픽이 성능을 잠근다. 단순히 '배치를 더 키워라'는 튜닝은 한계가 뚜렷하며, 메모리 접근을 줄이거나 재배치하지 않으면 GPU 리소스는 계속 유휴가 생긴다.
논문은 실무형 해법으로 BCA(Batching Configuration Advisor)를 제안한다. 지연 제약을 만족하는 선에서 배치·메모리 할당을 조정하고, 남는 연산 자원은 모델 복제/동시 워크로드로 채워 총 처리량을 끌어올린다. 즉, '배치 하나를 키워 돌리는' 단선적 접근이 아니라 메모리 예산을 의식한 다중화 전략이 실제 처리량을 높인다는 것을 정량적으로 보인다.
즉, 배치 키우면 연산 바운드 -> GPU 100% 활용이라는 통념을 깨고, 추론 최적화의 1순위가 메모리/대역폭 이슈임을 명확히 보여준다. 이를 통해 LLM 대배치 서빙의 처리량 정체는 계산력이 아니라 DRAM 대역폭 포화 때문임을 알 수 있다. 따라서 배치만 키우기보다: (1) 어텐션 메모리 접근 패턴 개선, (2) KV 캐시/가중치의 메모리 트래픽 절감, (3) 모델 복제·이기종 동시 실행 등으로 유휴 연산 자원 재활용을 설계해야 효율이 오른다고 제안한다. 다시 말해, 배치 튜닝 + 메모리 트래픽 최적화 + 동시 실행(모델 복제) 가 실전 해법이라는 메시지이다.
두 논문이 제시하는 메시지
두 논문이 제시하는 메시지를 종합하면, 오늘날 AI 성능을 최종적으로 좌우하는 가장 약한 고리는 연산력이 아니라 데이터 이동이라는 걸 주장하고 있다.
데이터 이동은 메모리 대역폭(얼마나 빨리 가져오느냐), 메모리 용량(얼마나 많이 담느냐), 접근 패턴(어떤 순서와 방식으로 꺼내 쓰느냐)을 아우르는 개념이며, 특히 LLM 추론에서는 Autoregressive 특성 때문에 계산 유닛이 남더라도 모델 가중치와 KV 캐시를 메모리에서 가져오는 과정이 느려 전체 속도를 묶어버리는 경우가 빈번하다.
- 따라서 성능·원가·전력을 동시에 개선하려면 코어 수를 늘리는 접근보다 데이터를 더 적게, 더 가깝게, 더 예측 가능하게 움직이도록 시스템을 설계하는 것이 핵심이다.
이러한 관점에서 성능을 실질적으로 끌어올리는 지렛대는 단일 축이 아니라 모델·시스템·하드웨어를 동시에 맞추는 Co-design에 있다.
- 모델 측면에서는 양자화, 프루닝, KV 캐시의 압축·공유, MoE 라우팅 등을 통해 토큰당 필요한 바이트 수를 줄이는 것이고,
- 시스템 측면에서는 스케줄링과 배치 방식, 모델 복제, 파이프라이닝을 통해 한 대의 가속기가 유휴 없이 동작하도록 채우는 것이다.
- 하드웨어 측면에서는 HBM 세대 업그레이드와 스택 수 증대, 더 두터운 캐시, CXL 기반 메모리 풀링, 2.5D·3D 패키징 등을 통해 데이터의 길을 넓히고(대역폭), 가깝게 두고(지연), 더 많이 싣는(용량) 구조를 마련하는 것이 중요하다.
이를 통해 향후 20년이 AI의 시대라면, 메모리 산업의 위상은 과거 20년과 사뭇 다를 거라는 생각을 하게 되었다.
어쨌든 결론은:
🥹: 우리 아이 정말 대단해!! 🎉
'AI, Robot' 카테고리의 다른 글
| 제품 만들 때 활용하는 AI 도구들 (Cursor, AntiGravity, Deepwiki 등) (0) | 2025.11.22 |
|---|---|
| 랭체인 활용해서 간단한 RAG 구현해보기 (0) | 2025.01.13 |
| GPT-3의 1750억 파라미터는 대체 무슨 의미일까? (0) | 2024.12.31 |
| Perceptron 부터 Self-Attention 까지 요약 (3) | 2024.12.24 |
| Sovereign AI(소버린 AI)의 중요성 (3) | 2024.12.23 |