北京时间周二凌晨,OpenAI发布了一款新的旗舰生成式AI模型“GPT-4o”,其中的“o”代表“omni”(全能),指的是该模型处理文本、语音和视频的能力。它具有与人类相似的对话能力,令人印象深刻。

GPT-4o在保持GPT-4级别的智能的同时,对文本、视觉和音频功能进行了改进。OpenAI首席技术官(CTO)Mira Murati及其员工Mark Chen和Barret Zoph在现场演示时展示了新的音频对话和视觉理解能力。

OpenAI声称,GPT-4o对音频输入的平均反应时间约为320毫秒。根据2009年的一项研究,这与人类在对话中的反应时间相似,而之前的模型通常要延迟2-3秒时间。

除了响应速度,GPT-4o似乎很容易捕捉到情绪,并根据用户的要求调整语气和风格,甚至还在回应中加入了音效、笑声和歌声。

01

GPT-4o更像人类

GPT-4o在理解人类交流方面迈出了重要的一步,用户可以用一种接近自然的方式与其交谈。它伴随着现实世界中几乎所有的倾向,比如打断、理解语气,甚至意识到自己犯了一个错误。

在第一次现场演示中,主持人要求GPT-4o对他的呼吸技巧做出反馈。他对着手机深深地吸了一口气,而ChatGPT则诙谐地回应道:“你不是吸尘器。”它建议使用一种速度较慢的技术,展示其理解和回应人类细微差别的能力。

除了具有幽默感,ChatGPT也会改变回应的语气,在传达“思想”的同时用不同的语调来完成。就像人类对话一样,你可以打断它的对话并纠正它,让它做出反应或停止说话。你甚至可以要求它以某种语气、风格或机器人的声音来说话。

此外,它甚至还可以提供翻译服务。在现场演示中,舞台上的两名演讲者,一名说英语,一名说意大利语,通过Chat GPT-4o的翻译进行对话。它可以快速将意大利语翻译成英语,然后无缝地将英语回复翻译回意大利语。

据悉,Chat GPT-4o在50多种语言的速度和质量上都有所提高。OpenAI表示,这些语言覆盖了世界97%的人口。

除了语音理解,Chat GPT-4o还可以理解视觉效果。例如,对于视频中的一道方程题,它可以指导你如何求解。

另外,它还可以观看现场自拍,并提供描述,包括你的穿着,以及情绪。在演示中,Chat GPT-4o表示,主持人看起来很开心。

在整个演示过程中,Chat GPT-4o工作得很快,在理解方面并不费力,也没有提出询问。与输入查询相比,与Chat GPT-4o的交流更自然。你可以自然地对着手机说话,并得到想要的回应,而不是用谷歌(170.9, 0.61,0.36%)去搜索。

02

电影《Her》中的萨曼莎

此时,如果想到了《Her》(一部和AI虚拟人萨曼莎谈恋爱的电影),或者其他与AI相关的未来主义反乌托邦电影,你不是唯一的一个。以如此自然的方式与Chat GPT-4o交谈,本质上就是OpenAI的《Her》时刻。考虑到它将在移动应用程序和桌面应用程序上免费推出,许多人可能很快就会拥有自己的《Her》时刻。

虽然并未在直播演示中现身,但OpenAI CEO 萨姆·奥特曼(Sam Altman)对这次演示做了重要的总结,称GPT-4o给人的感觉就像电影中的AI。

他说:“新的语音和视频模型GPT-4o是我用过的最好的计算机界面,这感觉就像电影中的AI。而且,对我来说,它真实的仍然有点令人惊讶,达到了人类级别的响应速度和表现。最初的ChatGPT显示出了语言界面的可能性,但GPT-4o这个新事物感觉本质上有所不同,它快速、智能、有趣、自然、实用。”

“对我来说,与电脑交谈从来都不是很自然的感觉;但现不同了,它变得自然了。随着将来不断地完善,我真的看到了一个令人兴奋的未来,我们能使用计算机做比以往任何时候都多的事情。”

奥特曼还称,在创建OpenAI时,最初的想法是创造AI,并用它来为世界创造各种裨益。但如今,创造AI后,希望让其他人使用它来创造各种令人惊叹的东西,所有人都会从中受益。奥特曼还表示:“OpenAI是一家企业,会找到很多收费的东西,这将帮助我们为数十亿人提供免费的、出色的AI服务。”

03

新的安全风险

这场令人印象深刻的语音和视觉演示,可能只是触及了Chat GPT-4o各种可能性的皮毛。尽管其总体性能,以及在各种环境中的日常表现仍有待观察,但很明显,通过现场演示可以看出,Chat GPT-4o已经对谷歌和苹果(186.28, 3.23, 1.76%)的未来挑战做好了准备。

OpenAI称:“Chat GPT-4o是我们第一个结合了上述所有技术的模型,我们目前只是触及到探索该模型的功能,及其局限性的皮毛。”

Murati承认,Chat GPT-4o的实时音频和图像能力在安全方面带来了新的挑战。她表示,OpenAI将继续研究安全性,并在未来几周的迭代部署期间征求测试用户的反馈。

OpenAI称:“Chat GPT-4o还与社会心理学、偏见和公平性等领域的70多名外部专家进行了广泛的合作,以识别新模型可能导致或放大的风险。我们利用这些经验来加强安全干预措施,以提高与Chat GPT-4o交互的安全性。一旦新的风险被发现,我们将采取措施降低它们。”

04

GPT-4o前景展望

在Google I/O大会开始的前一天,OpenAI发布了Chat GPT-4o,让我们见识到了人们想要的真正实用的AI体验。如果传闻中的与苹果的合作成为现实,那么Siri将如虎添翼。

对于谷歌而言,几乎可以肯定的是,将在5月14日的I/O大会上展示其最新的AI技术。它能足以抵抗Chat GPT-4o吗?

在不到30分钟的演讲中,OpenAI无法对Chat GPT-4o进行更多的现场演示。幸运的是,它将在未来一周向用户推出,且不需要支付费用。