GPT-4o发布无惊喜,多模态大模型究竟怎么玩?

科技 2024-05-19 18:58 阅读:

最近AI领域备受关注的新闻中,OpenAI和谷歌的新品发布会占据了最多的头条。AI内部专业人士对OpenAI发布会感到失望,而对谷歌发布会则觉得无聊。

GPT-4o发布无惊喜,多模态大模型究竟怎么玩? 谷歌 模态 大模型 人机交互 语音助手 全能模型 openai 第1张

分析认为,虽然两大AI巨头的新技术方向仍然值得关注,但国内外参与者更加专注于自身的AI策略与节奏。谷歌的反击被称为“腹泻式更新”,但仍然体现出对标和追赶的趋势。

GPT-4o发布无惊喜,多模态大模型究竟怎么玩? 谷歌 模态 大模型 人机交互 语音助手 全能模型 openai 第2张

GPT-4o被认为是一个全能模型,可以从多模态、低时延和多场景的角度理解。它凭借多模态能力和端到端的处理方式,实现了与人类交流的新水平。

GPT-4o发布无惊喜,多模态大模型究竟怎么玩? 谷歌 模态 大模型 人机交互 语音助手 全能模型 openai 第3张

尽管如此,国内AI业界对GPT-4o及谷歌的Gemini Astra反应平平,主要是因为新产品不达预期,并且OpenAI“狼来了”玩得太多次。此外,国内AI产业链上下游对大模型“祛魅”,意识到像OpenAI、谷歌那样做并不适合国内的发展策略。

除了追随OpenAI的节奏之外,国内AI公司还需要考虑商业化的收益与风险。GPT-4o的端到端多模态大模型对企业的潜在收益有望与软硬件生态相结合,但也存在着长期亏损、同质化竞争等潜在风险。

从实际情况来看,多模态大模型的商业化落地面临着一些实际问题,包括可控性和安全性等方面的挑战。为了真正引领智能语音产业生态并吸引用户,AI企业还需要解决这些问题。

因此,算好收益比,搞清楚自己和对手手里的牌面,以及多模态大模型的商业牌局,才是当前AI企业急需解决的问题。