OpenAI最新推出的“Voice Engine”技术,通过仅需15秒的音频样本和简单的文本输入,就能够复刻出极为接近原始说话者的声音,其自然度和情感表达丰富,具有革命性意义。该技术自2022年开始研发,并已集成于OpenAI的文本转语音API及Read Aloud功能的预设语音中。
Voice Engine的开发,对多个领域都带来了重大影响。它不仅能为阅读辅助和语言翻译提供更自然的语音输出,还能为言语障碍者提供重要帮助,使他们的交流变得更加流畅。例如,在布朗大学的试点项目中,这项技术已被成功应用,帮助言语障碍的学生通过克隆的语音进行更有效的沟通。
面对合成语音技术可能被滥用的风险,OpenAI采取了审慎的态度,目前只向少数可信的合作伙伴提供小规模测试的机会。此举旨在探索该技术的潜在应用并评估可能的风险,同时,OpenAI希望激发社会对于合成语音技术负责任使用的广泛讨论。
为确保技术的安全应用,OpenAI实施了包括音频水印技术在内的多项安全措施,以便追踪音频来源,并对技术的使用进行监控。公司计划在产品正式推向市场时,建立“禁止语音列表”,防止生成过于接近名人声音的人工智能声音,以避免潜在的版权和隐私问题。
这一技术的推出,无疑将为语音合成领域带来新的机遇和挑战,同时也对技术伦理提出了新的考验。