OpenAI公布声音克隆技术:仅需15秒即可模仿任何说话者

腾讯科技讯3月30日消息，据国外媒体报道，作为引领人工智能聊天机器人ChatGPT风潮的先锋，OpenAI似乎并不满足于仅仅颠覆文本、图像以及视频生成领域，而是进一步进军传统数字媒体的最后堡垒——音频领域，特别是语音克隆技术。

美国当地时间周五，OpenAI宣布推出全新的人工智能模型——“语音引擎（VoiceEngine）”。这款自2022年起便默默研发的模型，如今已成为OpenAI文本转语音API以及本月早些时候发布的新版ChatGPT语音与朗读功能提供支持。

事实证明，这款语音引擎还具备语音克隆的能力。其工作原理简单而高效：用户仅需通过电话或电脑麦克风录制一段15秒的声音片段，OpenAI的语音引擎便能生成“与其声音高度相似的自然语音”。此后，无论是何种文本，它都能以近乎完美的克隆声音进行朗读。

这项技术的问世，显然将对那些经常录制自己语音的人产生重大影响，包括播客、配音艺术家、口语表演者、有声书和广告解说员、游戏玩家、流媒体主播、客户服务代理、销售人员等众多职业。

与此同时，这一创新也给其他致力于语音克隆技术的公司带来了前所未有的压力，如ElevenLabs、Captions、Meta、WellSaidLabs、MyShell等资金雄厚的人工智能初创企业。

值得一提的是，OpenAI还特别强调了语音引擎在支持非语言个体方面的独特能力。它能为这些个体提供个性化的、非机械化的声音，为那些有语言障碍或学习需求的人提供治疗和教育方面的帮助。

然而，目前这项技术仍存在一定的局限性。由于其文生视频AI模型Sora所展现的惊人效果，OpenAI目前并未向公众开放语音引擎的使用权限。相反，该公司仅与“一小群值得信赖的合作伙伴”分享了这一工具，并通过“小规模预览”的形式向他们展示了初步的成果。

OpenAI周五在其官网上发表了博客文章，名为“驾驭合成声音的挑战和机遇”，全文内容如下：

官方博客 https://openai.com/blog/navigating-the-challenges-and-opportunities-of-synthetic-voices

我们正在与一个精心挑选的小群体分享语音引擎预览的初步体验与反馈，这是一款用于创建个性化声音的先进模型。

OpenAI始终致力于开发安全且对社会有益的人工智能技术。今天，我们将分享关于“语音引擎”模型小规模预览的初步见解与成果。这款模型利用文本输入以及一段15秒的音频样本，即可生成与声音录制者极为相似的自然语音。

我们在2022年底便初步开发了语音引擎，并成功将其应用于文本转语音API以及ChatGPT的语音与朗读预设功能中。然而，鉴于合成语音可能带来的滥用风险，我们在进行更广泛发布时采取了极为审慎的态度。我们期待与各方展开深入的对话，共同探讨如何负责任地部署合成声音技术，以及社会应如何适应这些的新功能。基于这些对话及小规模测试所获得的宝贵反馈，我们将做出更为明智的决策。

01 语音引擎的早期应用

为了更深入地探索这项技术的潜在应用，我们自去年年底起，便与一组值得信赖的合作伙伴展开了小规模测试。这个团队所开发的应用程序，不仅展示了语音引擎的多样性，更深深地震撼了我们。通过这些小规模的部署实践，我们得以洞察各种实施方法和保护措施的有效性，同时也激发了我们对于语音引擎在各行各业中更广泛应用场景的思考。

部分早期的用例：

1.提供自然声音的阅读辅助

借助语音引擎的自然、情感丰富的声音，我们为不具备阅读能力的人和儿童提供了个性化的阅读辅助。这些声音不再局限于预设的选项，而是涵盖了更广泛的说话方式，使阅读体验更加贴近真实。例如，致力于推动儿童教育的科技公司AgeofLearning，正积极利用这一技术生成预先编写好的画外音内容。他们不仅使用语音引擎，还结合GPT-4，为学生创造实时、个性化的互动学习体验。

2.保留母语口音的翻译

语音引擎还能助力翻译视频、播客等内容，使创作者和企业能够用自己的声音流利地触达全球各地的更多受众。HeyGen便是这一功能的早期实践者，他们作为一个人工智能视觉叙事平台，与企业客户合作，为各类内容（从产品营销到销售演示）创建定制的人形化身。他们运用语音引擎进行视频翻译，将视频中发声者的声音转换成多种语言，满足全球观众的需求。在翻译过程中，语音引擎能够保留发声者的本土口音，例如，使用来自法语母语者的音频样本生成英语时，会呈现出带有法语口音的语音效果。

3.帮助创作者接触全球受众

通过改进偏远地区的基本服务，语音引擎正帮助覆盖更广泛的全球社区。Dimagi正在为社区卫生工作者开发工具，以提供多种基本服务，如为坚持母乳喂养的母亲提供咨询。为了帮助这些工作人员提升服务体验，Dimagi利用语音引擎和GPT-4，以每个人的主要语言（包括斯瓦希里语或更非正式的语言，如在肯尼亚流行的编码混合语言Sheng）提供交互式反馈，从而确保信息的准确传达与有效沟通。

4.赋能残障人士沟通

语音引擎为那些没有语言能力的人群提供了有力的支持，无论是用于治疗有语言障碍的人士，还是用于增强有学习需求人群的教育体验。Livox作为一款人工智能替代通信应用程序，为辅助和替代通信（AAC）设备提供了强大动力，使得残障人士能够进行流畅的沟通。通过运用语音引擎，Livox能够在多种语言中为不具备语言能力人士提供独特且非机械化的声音。这些用户可以选择最能代表自己的语音，对于多语言使用者而言，更能在每种语言中保持一致的语音特性。

5.助力病患声音恢复

对于那些患有突发或退化性语言疾病的病患，语音引擎同样发挥着重要的作用。作为布朗大学医学院的主要教学附属机构，非营利性医疗系统Lifespan的诺曼王子神经科学研究所一直在积极探索人工智能在临床环境中的应用。他们正在试点一个项目，利用语音引擎为患有肿瘤或神经病因导致的语言障碍的患者提供支持。由于语音引擎仅需极短的音频样本，医生们成功地帮助一位因血管性脑瘤而失去流利语言能力的年轻患者恢复了声音，这段音频样本来源于他之前为学校项目录制的视频。

02 安全地构建语音引擎

我们深知，生成类似于人们自身声音的技术存在着巨大的风险，特别是在大选年这样的关键时期。因此，我们正在积极与来自政府、媒体、娱乐、教育、公民社会等多个领域的美国和国际合作伙伴进行广泛接触，以确保在技术的构建过程中充分吸纳他们的反馈和建议。

目前参与测试语音引擎的合作伙伴已经接受了我们的使用政策，该政策明确禁止在未经同意或缺乏合法权利的情况下，冒充其他个人或组织的行为。此外，我们与这些合作伙伴之间的合作条款也要求他们必须获得声音片段录制者的明确授权和知情同意，我们坚决不允许开发者为个人用户创建他们自己的声音模型。合作伙伴还必须在提供服务时明确告知用户，他们听到的声音是由人工智能生成的。

为了进一步确保技术的安全使用，我们已经实施了一系列安全措施。这些措施包括使用水印技术来追踪由语音引擎产生的任何音频的来源，以及主动监控这些音频的使用情况。

我们还认为，任何合成语音技术的广泛部署都应伴随着严格的语音认证体验。这种体验旨在验证用户是否故意将自己的声音添加到服务中，以确保技术的合法使用。同时，我们还应建立一个禁止使用的语音列表，以便检测和防止创建与知名人物过于相似的声音的行为。

03 展望未来

语音引擎是我们致力于深入探索技术前沿，并公开分享人工智能潜在能力的又一重要里程碑。基于我们对人工智能安全性的高度重视，以及我们自愿承担的社会责任，我们决定目前仅进行技术预览，而非广泛发布这项技术。我们希望此次语音引擎的预览能够充分展示其巨大的潜力，同时帮助社会各界提升适应能力，以应对日益逼真的生成式模型所带来的新挑战。

为此，我们特别鼓励采取以下关键步骤：

——逐步淘汰仅凭语音进行身份验证的做法，将其作为访问银行账户和其他敏感信息的单一安全措施已不再足够安全；

——积极探讨并制定保护个人声音在人工智能中使用的相关政策，确保个人隐私和权益得到充分保障；

——加强公众教育，提升大众对人工智能技术的认知，包括了解其潜在能力、局限性以及可能产生的欺骗性内容；

——加速开发和采用能够追踪视听内容来源的先进技术，确保在与真人或人工智能互动时，信息来源始终清晰透明。

尤为重要的是，我们希望世界各地的人们都能关注并了解这项技术的发展方向，无论我们最终是否选择广泛部署它。我们期待继续与政策制定者、研究人员、开发者和创意人员就合成声音技术所带来的挑战与机遇展开深入的对话。