개관 본 콘텐츠에서는 2025년도 ICML에서 발표된 네이버클라우드의 논문 ‘Peri-LN: Revisiting Normalization Layer in the Transformer Architecture’를 소개합니다. 과거 V100 GPU 환경에서는 왜 대규모 LLM 학습이 더 불안정했을까? V100 GPU는 FP16(16비트 부동 소수점) 정밀도만 지원했기 때문에 학습 중 모델이 조금만 흔들려도 Loss 값이 급격히 치솟고, NaN(계산 불능)으로 발산하는 경우가 많았습니다. 당시 연구자들은 “학습이 실패하지 않을까?” 하는 […]