商汤科技发布Vimi可控人物视频生成算法模型，实现视频生成技术新突破

更新于 2024-07-04 16:00:24首发于 2024-07-04 16:00:24人工智能

商汤科技近日正式推出了具有里程碑意义的“Vimi”可控人物视频生成大模型。作为商汤科技基于其强大的日日新大模型能力研发的产物，Vimi展示了前所未有的视频生成灵活性。

Vimi能够灵活接收多种输入形式，包括动作视频、精美动画、丰富声音素材和文字描述等，精准地操控并转化人物类图片，生成与目标动作完美匹配的人物视频。这一过程不仅展示了AI技术在复杂场景中的高度适应性，也体现了商汤科技在视频生成技术上的深厚积累。

Vimi在可控性上的卓越表现尤为突出。它不仅能够细腻地调整人物表情变化，更实现了对肢体动作的精准操控，超越了传统图片表情控制技术的局限。Vimi生成的视频内容生动自然，同时在头发、服饰、背景等细节处理上达到了前所未有的精细度，支持光影的自然变化，为观众带来沉浸式的视觉体验。

在视频生成的稳定性与时长方面，Vimi同样展现了非凡的实力。它能够稳定地生成长达1分钟的单镜头人物视频，这一成就突破了现有大模型AI视频生成在时长上的限制。更重要的是，随着视频时长的增加，Vimi生成的视频画面质量始终保持高水准，不会出现劣化或失真的情况，确保了视频内容的连贯性和高质量。

Vimi的发布标志着商汤科技在AI视频生成领域的新突破，为视频内容创作提供了更为强大和灵活的工具，也为未来视频生成技术的发展奠定了坚实基础。