在最新的技术报告中显示,谷歌发布了更新的 Gemini 1.5 Pro数学专业版,性能碾压了GPT-4 Turbo、Claude 3 Opus,成为全球最强的数学模型。在各项基准测试中都取得了显著进展,性能超越了通用版本的1.5 Pro,甚至超越了"超大杯"1.0 Ultra。
Gemini 1.5 Pro在数学基准测试中取得了破记录的91.1%成绩,显著优于Claude 3 Opus和GPT-4 Turbo。与人类专家相比,Gemini的数学定制版在数学测试中的表现不相上下,表现非常出色。此外,在AIME测试集中,Gemini 1.5 Pro解决问题的数量是其他模型的4倍。
除了数学之外,更新的1.5 Pro在推理、编码、多模态多项基准测试中也取得了显著优势。即使是主打输出速度的1.5 Flash,在性能上也不输给1.0 Ultra,而且在大多数测试中都超过了1.0 Ultra。
Gemini 1.5 Pro在多模态推理的基准测试中也有所提高,特别是在MMMU测试中实现了从47.9%到62.2%的提升。在图表和文档的理解方面,1.5 Pro在ChartQA测试中取得了87.2%的SOTA结果。而对于自然图像理解方面的测试,Gemini 1.5 Pro在专门的V*测试中与测试提出者所发表的模型SEAL几乎表现相当。
对比新升级的1.5 Pro与GPT-4 Turbo、Claude模型的性能,在智能诊断能力改进方面,1.5 Pro和1.5 Flash的性能大大优于这两个模型。
同时,对于长文本的问答任务,1.5 Pro在710k上下文文中的表现也显著优于GPT-4 Turbo。
对于解决问题的规划能力测试,Gemini 1.5 Pro在绝大多数情况下的表现优于GPT 4 Turbo,能在少样本时较好进行规划,并能更有效地使用额外的上下文信息。
在非结构化多模态数据分析任务中,Gemini 1.5 Pro在所有属性提取上的准确性提高了9%,相较于GPT-4 Turbo的结果提升了27%。
所以可以看到,新的谷歌Gemini 1.5 Pro数学专业版的性能已经达到了最高水平,成为全球最强的数学模型,并在多个基准测试中取得了显著的优势。如果想要了解更多细节,请参考最新的技术报告。