GPT-4o发布:低延迟的奥秘揭秘!

科技 2024-05-14 10:41 阅读:

14日凌晨,OpenAI召开发布会,发布了新的AI模型:GPT-4o,除了可以给普通用户使用之外,还将开放相应API给GPT的开发者,比原来的GPT 4-Turbo快2倍,价格还便宜50%,妥妥的“加量又减价”。

英伟达高级研究科学家Jim Fan对此发了篇长推文,点评OpenAI的这款新模型:低延迟,支持文字、图像和视频输入和输出,而且还会假装自己是有情感的人类。从技术角度来看,OpenAI已经找到了一种方法,可以直接将音频映射到音频作为第一类模态,并实时将视频流传输到transformer大模型。

这需要对标记化和架构进行一些新的研究,但总体上是一个数据和系统优化问题。高质量的数据至少可以来自以下两个来源:首先是YouTube、播客、电视剧、电影等内容包含的对话。

可以训练Whisper来识别对话中的发言者顺序或分离重叠的讲话以进行自动注释。其次是合成数据。

使用强大的模型分3阶段运行:语音1->文本1文本1->文本2文本2->语音2。期间大型语言模型LLM可以决定何时停止,也可以模拟如何从中断中恢复。它可以输出对话中暗含“想法”,以帮助生成更好的回复。然后GPT-4o直接从语音1>语音2过程中进行提取,可选的辅助损失函数基于3阶段数据。提取后,所有操作都被被嵌入到模型中,而不需要发出中间文本。

在系统方面:如果每个视频帧都解压成RGB图像,就能实现低延迟。OpenAI可能已经开发了基于神经网络的流式视频编解码器,以token形式传输运动增量。

通信协议和神经网络推理必须共同优化。例如,可以在终端设备上运行一个小型且节能的神经网络,如果视频有趣就传输更多token,否则传输较少。GPT-4o的定位透露出OpenAI某种不安全感。在Google I/O之前,OpenAI宁愿超越我们对GPT-4.5的心理预期,也不愿因为达不到对GPT-5的极高期望而令人失望。这是一个聪明的举措,可以争取更多时间。值得注意的是,GPT-4o更加活泼,甚至有点调皮。

GPT-4o甚至尝试听起来像女性。OpenAI正在蚕食Character AI的市场份额,这两家的产品高度重叠,并且OpenAI拥有庞大的分销渠道。

GPT-4o正尝试向更具情感的AI转变,OpenAI过去似乎积极抑制了这一点。谁先赢得苹果,谁就能大获全胜。我看到与iOS的整合有三个层次:1)放弃Siri。OpenAI为iOS提取一个较小级别的、纯粹的设备上的GPT-4o,可选的付费升级以使用云服务。2)将相机或屏幕流式传输到模型,芯片级支持神经音频/视频编解码器。3)与iOS系统级操作API和智能家居API整合。没有人使用Siri快捷方式,但现在是时候复活了。

这可以立即成为拥有10亿用户的AI代理产品。智能手机的全自动驾驶与特斯拉规模的数据飞轮。