当前位置: 科技先知道 » 人工智能 » NVIDIA推出全新nGPT架构:训练速度暴增20倍 有望重塑AI未来

NVIDIA推出全新nGPT架构:训练速度暴增20倍 有望重塑AI未来

据报道,NVIDIA的最新研究成果可能彻底颠覆AI领域。其研究团队开发出了一种名为“归一化Transformer”(nGPT)的全新神经网络架构,这一创新技术不仅大幅提升了大型语言模型(LLM)的训练速度,最高可达20倍,同时也保证了模型的精度。

NVIDIA推出全新nGPT架构:训练速度暴增20倍 有望重塑AI未来

nGPT的核心理念在于,将所有向量,包括嵌入、多层感知机(MLP)、注意力矩阵和隐藏状态等,统一归一化为单位范数,并在超球面(hypersphere)上进行表示学习。这种归一化的处理方式,使得输入的token在超球面表面上移动,每一层模型通过“位移”来贡献最终的输出预测,从而显著优化了计算效率。

实验数据显示,与传统的Transformer模型相比,nGPT架构在训练中所需的步骤减少了4到20倍,这取决于序列的长度。例如,在处理1k上下文时,训练速度提高了4倍;在4k上下文时提高了10倍;而在8k上下文的情况下,训练速度甚至提升了20倍。

研究人员解释称,nGPT的优化路径起始于超球面上的某一点,并通过MLP和注意力模块的定义,确定每一层的位移量,最终形成对输出的预测。通过这种新方法,NVIDIA成功减少了传统Transformer模型的冗余计算,使得大型语言模型的训练效率和效果得到了显著提升。

nGPT的问世,预示着AI模型训练的进一步提速和优化。凭借这一创新,NVIDIA有望在未来的AI应用中占据领先优势,同时对AI模型的开发、部署和应用产生深远影响。

未经允许不得转载:科技先知道 » NVIDIA推出全新nGPT架构:训练速度暴增20倍 有望重塑AI未来

相关文章

My title