见证历史,OpenAI王炸!响应速度达到人类级别

科技 2024-05-14 15:24 阅读:

北京时间5月14日凌晨,OpenAI再次推出了令人震惊的技术突破。全新发布的GPT-4o改写了大型模型交互的定义,将人工智能的表现提升到了一个新的高度。据称,GPT-4o能够实时对音频、视觉和文本进行推理,其响应速度短至232毫秒,几乎与人类反应速度一致。这一创举意味着在无延迟语音对话中,GPT-4o能够与真人进行几乎无法区分的交流,并且在视频实时交互方面也无可匹敌。

GPT-4o的亮相,不负此前OpenAI创始人Sam Altman所预言的“魔法般体验”,为全能AI助手的梦想推进了一大步。业内人士纷纷惊叹:科幻电影《她》中的场景似乎正在成为现实。

GPT-4o的多模态交互能力突出,能够处理文本、音频和图像的混合输入,并快速进行推理,生成相应的组合输出。在音频输入方面,GPT-4o取得了突破性进展,击穿了此前智能语音助手的延迟弊端,实现了人类级别的响应时间。不仅如此,GPT-4o还展现出对人类交流习惯的高度理解力和适应性,能够以自然的声音说话,并且接受打断和停顿,保持对话的连贯性和上下文的记忆。

在视频输入方面,GPT-4o能够及时响应高管的视频需求指令,并实时解决数学计算等问题,整个过程流畅迅速。此外,GPT-4o还展示出对复杂图片信息的快速解读能力,证明了AI读取复杂图片不再是梦想。

GPT-4o不仅可以说多国语言,还具备情感识别的能力,可以分析视频中的情绪。在发布会现场,GPT-4o展示了对视频中人脸的情感分析能力,成功识别出提问者的愉悦和笑容,并通过引导性提问修正了之前的“木质表面”评价。这种情感识别能力的扩展,为实现更加自然的人机交互带来了新的可能性。

从底层技术分析,GPT-4o的创新之处在于革新了传统的多模型串联处理方式,通过单一的神