商汤科技发布“日日新5.0”：实时多模态交互对标GPT-4

在2024年世界人工智能大会上，商汤科技推出了国内首个所见即所得模型“日日新5.0”。这一模型的交互体验与GPT-4相当，能够实现实时的流式多模态交互。通过整合声音、文本、图像和视频等跨模态信息，“日日新5.0”具备了实时理解和响应的能力。例如，它能够识别工作人员佩戴的胸卡并判断出会场位置，描述小狗玩偶的外观和穿戴，以及对工作人员随手画的图画进行即时评价。

“日日新5.0”模型的实时交互能力特别适用于实时对话和语音识别等应用，能够在同一模型中处理多种任务，并根据不同上下文自适应调整行为和输出。该模型是基于“日日新5.5”基础模型，而“日日新5.5”是在今年4月发布的“日日新5.0”基础上的升级版，其综合性能平均提升了30%，特别是在数学推理、英文能力和指令跟随等方面有显著提升。

“日日新5.5”采用了混合端云协同专家架构，通过超过10TB的高质量训练数据，包括合成的思维链数据，来提升模型的推理思维能力。为了降低企业用户的接入门槛，商汤推出了“大模型0元Go”计划，为新注册用户提供多项免费服务，并赠送5000万Tokens包，同时提供专属搬家顾问帮助OpenAI用户迁移，实现零服务成本。

商汤科技“日日新5.0”的主要亮点

实时流式多模态交互：整合声音、文本、图像和视频，实现实时的理解和响应。
综合性能提升：在数学推理、英文能力和指令跟随等方面表现出色。
混合端云协同架构：利用高质量训练数据提升推理思维能力。
低接入门槛：“大模型0元Go”计划提供免费服务和迁移支持。

通过“日日新5.0”，商汤科技展示了其在AI技术上的领先地位，尤其是在多模态交互和实时响应方面的创新能力。这一模型不仅对标GPT-4，还为用户提供了更丰富的应用场景和便捷的接入方式。

商汤科技发布“日日新5.0”：实时多模态交互对标GPT-4

商汤科技“日日新5.0”的主要亮点

相关文章

近期热门