国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐

科技 2024-05-21 10:04 阅读：

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第1张

全球最强端侧多模态模型MiniCPM-Llama3-V2.5以8B参数击败了多模态巨无霸Gemini Pro、GPT-4V，刷新了端侧多模态模型性能。其OCR能力和图像编码速度更是惊人，成为全球最强端侧多模态模型。

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第2张

MiniCPM-Llama3-V2.5不仅支持30+多种语言，而且具备最强端侧多模态综合性能，超越了Gemini Pro和GPT-4V。其OCR能力更是SOTA，9倍像素更清晰，难图长图长文本精准识别，图像编码速度更是快150倍。

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第3张

MiniCPM-Llama3-V2.5以小参数撬动最强性能，证明了模型不是只有「参数越大才能性能越好」的道理。随着大模型参数降低、端侧算力增强，高性能端侧模型势头强劲。

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第4张

MiniCPM-Llama3-V2.5以8B端侧模型参数量级，贡献了惊艳的OCR（光学字符识别）SOTA成绩，以及端侧模型中的最佳多模态综合成绩与幻觉能力水平。在综合评测权威平台上，MiniCPM-Llama3-V2.5以小博大，综合性能超越多模态巨无霸GPT-4V和Gemini Pro。

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第5张

MiniCPM-Llama3-V2.5首次进行端侧系统级加速，已高效部署手机。在图像编码方面，MiniCPM-Llama3-V2.5实现了150倍加速提升。在语言模型推理方面，MiniCPM-Llama3-V2.5在手机端的语言解码速度提升到3-4token/s。

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第6张

MiniCPM-Llama3-V2.5可支持30+多种语言，基于自研的跨语言泛化技术，能对多语言多模态对话性能高效泛化。这使得上百个国家的几十亿人口可以自如使用母语和端侧大模型交流。

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第7张

MiniCPM-Llama3-V2.5对于难图、长图、长文本的精准识别，再度带来出众表现。其复杂推理能力使得模型能够深入洞察图像，在更复杂、更接近人类的水平上进行思考和解决问题。

MiniCPM-Llama3-V2.5是开源社区的热心贡献者，也是受益者。其飞跃表现依托于面壁团队对多模态技术的创新打磨，更离不开Llama3-8B-Instruct作为基座模型的性能基础。

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第8张

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第9张

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第10张

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第11张

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第12张

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第13张

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第5张

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第15张

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第16张

国产「小钢炮」一夜横扫GPT-4V、Gemini Pro！端侧多模态铁王座稳坐第17张

相关推荐：