腾讯科技讯 5月16日消息，据国外媒体报道，OpenAI近日发布了其最新的大语言模型GPT-4o，再次引领了人工智能领域的又一创新浪潮。在此重要时刻，该公司首席执行官山姆·奥特曼（Sam Altman）接受了知名播客节目主持人罗根·巴特莱（Logan Bartlett）的专访，向全球观众揭开了发布会背后的精彩故事，并提供了他对人工智能未来的预测。

在这次专访中，奥特曼不仅详尽地阐述了OpenAI的宏大蓝图，还探讨了实现AGI（通用人工智能）的时间表，以及人形机器人可能带来的深远社会影响。与此同时，奥特曼也对人工智能个人助理的前景表达了自己的兴奋与忧虑，并强调了当今人工智能领域最大的机遇和风险等。

以下为奥特曼与巴特莱对话全文：

01 领导OpenAI让我再难保持“透明”

巴特莱：让我们从较为轻松的话题开始吧！在过去的四五年里，作为OpenAI的领导者，你的生活经历了哪些最不寻常的变化？换句话说，哪些转变对你来说是最为明显的？

奥特曼：许多事情都发生了变化。但其中最令人惊异的是，我再也无法在公众面前保持“透明”。如果之前我稍微预想过这一点，我可能会说，这比想象中更为奇特。但当时我确实没有多想。这就像一种非常特殊的“隔离状态”，让我有些无所适从。

巴特莱：你深信人工智能和OpenAI的力量，那么，在经营这样一家公司时，你有没有预想过它可能带来的连锁反应？

奥特曼：我并未预料到这些。我并没有想到会牵涉到这么多其他的事情，比如公司会成长为一个真正具有影响力的企业。我更加没有预见到，我甚至在自己的城市里都无法自由地外出用餐，这确实让我感到有些奇怪和不可思议。

02 发布多模态AI：技术的一大飞跃

巴特莱：本周早些时候，你们成功发布了多模态大模型GPT-4o，它实现了在文本、语音和视觉之间的无缝交互。你能谈谈为何这一突破如此重要吗？

奥特曼：这无疑是计算机使用方式的一次革命性飞跃。长久以来，我们都有通过语音控制计算机的愿景，如Siri等早期产品。但对我而言，它们的使用体验从未真正达到自然流畅的境界。然而，GPT-4o在使用感受上与前代产品截然不同。它的表现非常自然，这源于多方面因素的完美结合：它功能的丰富性、融入其他模型的迅捷性、语调的自然流畅，以及它所能实现的多样化操作，比如你可以轻松地对它说“嘿，说得更快一点”或者选择另一种声音。这种流畅性和灵活性——无论我们如何称呼它——都让我对新模型爱不释手。

巴特莱：请分享一下你目前更偏好的一些用例场景。

奥特曼：尽管我才使用了一周的时间，但有一个用例让我颇为惊喜。当我全神贯注于工作时，我可以简单地将手机置于桌面之上，而无需频繁地切换窗口或打断我的工作流程。这手机仿佛成为了我与信息之间的另一个桥梁。

举个例子，当我处理某个任务时，我过去常常需要停下来，去其他标签页搜索资料或点击其他链接。而现在，我可以继续手头的工作，直接提问并立即获得响应，而不必转移视线离开我当前在电脑上处理的内容。这种无缝衔接的体验确实令人称奇。

巴特莱：听起来，这一切的背后是技术架构的演进，特别是计算能力的飞跃？

奥特曼：确实，从技术角度来看，这基于我们过去几年在多个领域的积累。我们一直在深入探索音频模型、视觉模型，并努力将它们融合。同时，我们也在探索用更高效的方法来训练我们的模型。这并不是说我们突然之间就拥有了一个革命性的新功能，而是将众多技术元素巧妙地结合在了一起。

巴特莱：考虑到延迟问题，你认为是否需要在设备上开发专门的模型来确保流畅的交互？

奥特曼：对于视频来说，网络延迟确实是一个需要关注的问题。我一直对AR眼镜或其他设备能够实时地与世界交流、感知事物变化的前景充满期待。但网络延迟确实可能成为这一愿景的绊脚石。不过，在实际应用中，两三百毫秒的延迟已经足够迅速，很多时候甚至能超越人类的反应速度。

巴特莱：你最近提到GPT-4o可能不是下一个大型版本的命名，比如GPT-5。这似乎意味着你们在模型开发上采用了更为灵活和迭代的方法。我们是否应该这样看待未来的发展方向？

奥特曼：未来发布的大模型不会是一个标志性的大版本，如GPT-5，因为目前我们还无法确定。我认为，我从中学习到的一点是，人工智能与传统的发布模式并不总是完美契合。科技公司通常遵循着既定的产品发布模式，但我们现在可能需要采取一种不同的策略。我们当然可以沿用GPT-5这样的命名，并以新的方式发布，或者也可以考虑使用其他名称。但我认为，我们还在摸索如何为这些产品命名和建立品牌。

从GPT-1到GPT-4的命名方式对我来说是合乎逻辑的，而GPT-4显然已经取得了显著的进步。我们也在思考，是否会有一个类似“虚拟大脑”的基础模型，在某些情况下可能展现出更深入的“思考能力”。或者，我们也可能探索不同的模型，但用户可能并不关心这些模型之间的差异。因此，我认为我们还在探索如何将这些产品推向市场。

巴特莱：这是否意味着，为了模型取得渐进式进步，我们对计算能力的需求可能会低于历史水平？

奥特曼：我认为，我们总是渴望利用尽可能多的计算能力。然而，现在我们正在见证惊人的效率提升，这无疑是至关重要的。最近发布的亮点之一是语音模式，但也许更核心的是，我们能够以如此高的效率运行它，以至于我们可以向全球用户提供这一服务，而且它的性能达到了世界上顶尖模型的水准。对于希望免费体验ChatGPT的用户，你会发现，GPT-4o与之前的GPT-4和GPT-4 Turbo相比，在某些使用场景下效率方面有显著提升。而且，我认为在这方面我们还有很大的提升潜力。

03 自然语言将成为人与AI主要交流方式

巴特莱：你曾提到ChatGPT本身并没有真正改变世界，它可能只是改变了人们对世界的期望。

奥特曼：是的，我完全认同这一观点。如果以任何经济指标来衡量，你很难找到确切的证据证明ChatGPT确实提高了生产力或产生了其他直接的经济效益。可能在客户服务或某些特定领域有一些体现，但如果你观察全球GDP的走势，你能在ChatGPT发布时明显检测到它的影响吗？恐怕不能。

巴特莱：你认为是否有一个时间点，我们可以确定GDP的增长是由ChatGPT推动的？

奥特曼：我不确定我们能否将这一增长直接归因于某个特定的模型。但我认为，如果我们回顾几十年后的历史数据，我们会看到一系列模型如何逐步推动整个领域的发展，ChatGPT只是其中的一部分。

巴特莱：你认为在接下来的12个月里，哪些应用或领域将展现出最有前途的发展？

奥特曼：由于我个人的工作背景，我自然对编程领域有关偏爱，我坚信这是一个至关重要的领域。

巴特莱：你曾详细讨论了深度专业化模型与通用模型的区别，前者针对特定数据训练并用于特定目的，而后者能够进行真正的推理。

奥特曼：我敢打赌，未来是通用模型大放异彩的时代。

巴特莱：在你看来，什么才是最为重要的？

奥特曼：对于那些仅仅局限于一个数据集和与之紧密相关的狭窄领域的模型来说，如果它们能够拥有泛化推理的能力，那么无论面对何种新的数据类型，只需输入相应的数据，模型便能够迅速适应并运行。但这样的能力并不是通过堆砌一堆专业化的模型所能获得的。因此，我认为最重要的是要弄清楚真正的推理能力，这样我们便可以将其应用于各种场景和任务中。

巴特莱：在设想人工智能在通信和创造力方面的前景时，你认为在未来两年内，人类与人工智能之间的主要交流方式将是什么？

奥特曼：自然语言无疑是一种非常有效的交流方式。我对于这样一个想法很感兴趣：我们可以设计一个人类和人工智能都能共同使用的机制，让它们以相同的方式互动。因此，相比于其他形式的机器人，我对人形机器人更感兴趣。因为当前这个世界在很大程度上是为人类设计的，我不希望因为追求某些所谓的“效率”而让这个世界重新配置。我倾向于这样的观点，即我们使用人类习惯的语言与人工智能交流，他们之间甚至可能采用同样的方式进行交流。尽管我无法预知未来，但我认为这是一个值得探索的有趣方向。

切换到网页版

OpenAI掌门人专访:GPT-4o让我爱不释手

腾讯科技 2024-05-15 21:07:38