Meta与Ecole des Ponts ParisTech和Université Paris-Saclay的研究团队最近提出了一项针对大型语言模型(LLMs)的新技术,能显著提高AI模型在生成任务中的速度和准确性。该技术通过同时预测多个token,而不是传统的自回归模型中的单个token预测,实现了这一突破。
这种多token预测方法不适用于所有模型和任务,但在特定场景下,它能使模型的推理速度提高3倍,同时在生成任务中表现更为出色。这一方法打破了传统“下一个token预测”的局限,后者在自监督学习中,要求模型根据给定的token序列预测下一个token,然后将预测结果加入到输入序列中,循环这一过程。
研究人员发现,通过训练模型同时预测多个未来的token,可以提高样本效率。他们开发的多token预测架构简洁,且无需额外的训练时间或内存开销。在实验中,该技术在小型模型上表现欠佳,但随着模型规模的扩大,效果逐渐显现。
特别是在“字节级标记化”的训练中,这种多字节预测技术明显优于传统的单字节预测模型。研究团队正进一步探索自动选择最优预测token数量的方法,以及分析词汇量大小与多token预测之间的动态关系。
该技术的研究与改进为企业级应用带来了希望,预计将在生成任务中提供更快的推理速度和更高的准确性,而且几乎不增加成本。同时,该方法保持了与LLM的兼容性,可与现有的Transformer技术结合使用。