力压群雄：谷歌Gemini 2.5 Pro成首款完全理解PDF布局的AI模型

🤖 由文心大模型生成的文章摘要

最新报道指出，谷歌旗下Gemini 2.5 Pro模型能准确解析 PDF文档的视觉结构，实现精准的视觉引用功能，成为首款能完全理解PDF布局的AI模型。

谷歌于3月25日向付费用户和开发者发布Gemini 2.5 Pro实验模型，仅隔4天时间，谷歌便通过免费Web应用向全球用户开放。Gemini 2.5 Pro不仅能提取 PDF文档中的文本内容，还能理解其视觉布局，包括图表、表格和整体排版。

谷歌在开发者文档中表示，该模型具备 “原生视觉”（Native Vision）能力，支持处理最多3000个 PDF 文件（每个文件上限为1000页或50MB），同时拥有100万token的超大上下文窗口，未来计划扩展至200万token。

AI初创公司Matrisk的联合创始人Sergey Filimonov特别赞扬了Gemini 2.5 Pro在PDF视觉引用上的表现。Filimonov指出，传统的文本分割方法会切断用户与原文的视觉联系，导致无法直观验证信息的来源。甚至在 ChatGPT 中，点击引用也只能下载 PDF，迫使用户自行判断模型是否 “幻觉”，这严重损害了用户信任。过去，引用文档内容往往只能高亮大段无关文本，精准度极低。

Gemini 2.5彻底改变这一现状，它不仅能将提取的文本片段映射回原始PDF的确切位置，还能以前所未有的精度锁定特定句子、表格单元甚至图像。这种技术突破为用户提供了直观的视觉反馈，例如在询问房屋费率变化时，系统能直接高亮文档中相关数据（如15.4%的费率变化），并标注来源依据。这种清晰度和交互性是现有工具无法企及的。Gemini 2.5不仅优化了现有流程，更开启了全新的文档交互模式。

相比之下，Gemini 2.5以0.804的IoU（交并比）精度大幅领先其他模型，如 OpenAI的GPT-4o（0.223）和 Claude 3.7 Sonnet（0.210），展现出惊人的空间理解能力。提供商模型IOU简评Gemini2.5 Pro0.804非常优秀Gemini2.5 Flash0.614有时表现不错Gemini2.0 Flash0.395OpenAIgpt-4o0.223OpenAIgpt-4.10.268OpenAIgpt-4.1-mini0.253Claude3.7 Sonnet0.210Gemini 2.5 的潜力远不止于文本定位。它还能从PDF中提取结构化数据，同时明确标注每个数据的来源位置，解决下游决策中因数据来源不明而产生的信任障碍。

「93913原创内容，转载请注明出处」

力压群雄：谷歌Gemini 2.5 Pro成首款完全理解PDF布局的AI模型

相关文章

OpenAI正在测试新AI模型“o3”和“o3 mini”

微软推出Phi-3，迄今为止最小的人工智能模型

Mistral发布针对笔记本电脑和手机优化的新型AI模型

ChatGPT发布搜索引擎ChatGPT Search，拉开与谷歌争夺人工智能互联网主导地位序幕

字节跳动提出高质量3D Gaussian-Splatting场景重建及低延迟重渲染技术

OpenAI奥尔特曼谈AGI

推荐

雷朋Meta智能眼镜推实时翻译新功能，并透露后续计划

苹果为Godot游戏引擎添加visionOS支持，拓展游戏生态新边界

锚定XR未来！Snapchat CEO即将于AWE 2025奏响战略强音

前Arkane Austin开发者携Meta资金，打造全新游戏工作室

AI应用推荐

热门

雷朋Meta智能眼镜推实时翻译新功能，并透露后续计划

苹果为Godot游戏引擎添加visionOS支持，拓展游戏生态新边界

友情链接

推荐

雷朋Meta智能眼镜推实时翻译新功能，并透露后续计划

苹果为Godot游戏引擎添加visionOS支持，拓展游戏生态新边界

锚定XR未来！Snapchat CEO即将于AWE 2025奏响战略强音

前Arkane Austin开发者携Meta资金，打造全新游戏工作室