近日,AMD发布了其首个AI小语言模型(SLM),命名为“AMD-135M”。与市场上日益庞大的大语言模型(LLM)相比,AMD-135M体积更小,灵活性更强,特别适用于对私密性和专业性要求较高的企业环境。
AMD首个AI小语言模型的亮点
这款小语言模型共拥有6900亿个token,并采用了推测解码(speculative decoding)技术,使得解码效率显著提升。通过这项技术,解码速度在锐龙AI CPU上最高提升至3.88倍,MI250加速器上性能提升最高可达2.8倍,而在锐龙AI NPU上则可提升至2.98倍。
AMD-135M的版本和训练
AMD-135M模型属于Llama家族,有两个主要版本:
- 基础版“AMD-Llama-135M”:拥有6700亿个token,训练过程耗时六天,使用了八块Instinct MIM250 64GB加速器。
- 延伸版“AMD-Llama-135M-code”:在基础版的基础上,额外增加了200亿个针对编程的token,训练时间为四天,专门用于代码生成任务。
推测解码技术的应用
AMD的模型采用了推测解码技术,即通过较小的草案模型在单次前向传播中生成多个候选token,随后交由更大的目标模型验证。这种技术能够在不牺牲性能的情况下,减少模型的内存消耗,并提升处理速度,但同时增加了功耗。
在性能测试中,AMD-Llama-135M-code在CodeLlama-7b模型中作为草案模型,验证了推测解码技术的显著优势,特别是在加速推理过程和提升多任务处理能力方面。
开源与性能对比
AMD已将AMD-135M的训练代码和数据集等资源全部开源,遵循Apache 2.0协议。根据性能测试结果,AMD-135M在任务性能上与其他开源小模型基本持平或略有优势。例如,在Hellaswag、SciQ、ARC-Easy等任务上,AMD-135M超越了Llama-68M和Llama-160M,在部分任务中也与GTP2-124MN、OPT-125M表现相近。
通过AMD-135M的发布,AMD展示了其在AI领域的新进展,特别是在AI模型的灵活性和解码效率方面,为企业级AI应用提供了更具针对性的解决方案。