OpenAI语音技术新突破：仅需15秒声音样本实现声音克隆

更新于 2024-03-31 18:33:39首发于 2024-03-31 18:33:39人工智能

OpenAI最新推出的“Voice Engine”技术，通过仅需15秒的音频样本和简单的文本输入，就能够复刻出极为接近原始说话者的声音，其自然度和情感表达丰富，具有革命性意义。该技术自2022年开始研发，并已集成于OpenAI的文本转语音API及Read Aloud功能的预设语音中。

Voice Engine的开发，对多个领域都带来了重大影响。它不仅能为阅读辅助和语言翻译提供更自然的语音输出，还能为言语障碍者提供重要帮助，使他们的交流变得更加流畅。例如，在布朗大学的试点项目中，这项技术已被成功应用，帮助言语障碍的学生通过克隆的语音进行更有效的沟通。

面对合成语音技术可能被滥用的风险，OpenAI采取了审慎的态度，目前只向少数可信的合作伙伴提供小规模测试的机会。此举旨在探索该技术的潜在应用并评估可能的风险，同时，OpenAI希望激发社会对于合成语音技术负责任使用的广泛讨论。

为确保技术的安全应用，OpenAI实施了包括音频水印技术在内的多项安全措施，以便追踪音频来源，并对技术的使用进行监控。公司计划在产品正式推向市场时，建立“禁止语音列表”，防止生成过于接近名人声音的人工智能声音，以避免潜在的版权和隐私问题。

这一技术的推出，无疑将为语音合成领域带来新的机遇和挑战，同时也对技术伦理提出了新的考验。