17370845950

新闻动态

谷歌推测试检验AI“靠谱度”，Gemini 3 Pro准确率仅69%

近日，谷歌DeepMind正式推出FACTS基准测试，旨在系统性评估人工智能在事实准确性方面的实际能力。该评测体系围绕四大核心维度展开：模型是否能依托内置知识库独立、准确回应事实类问题；是否能合理调用并精准解析网络搜索结果；是否能在处理长篇幅文档时实现上下文一致、来源可溯的信息引用；以及能否准确理解图像内容，尤其在图文协同推理任务中的表现。在本次测评中，谷歌自研的Gemini 3 Pro以69%的整体准确率位居榜首，但其余主流大模型得分普遍偏低，与之拉开明显差距。这一数据不仅凸显头部模型的相对优势，更暴露出当前AI系统在“说真话”这一基础能力上的结构性短板。对企业用户而言，该结果构成重要风险提示：尽管AI在响应速度、文本生成质量及多轮对话连贯性等方面持续突破，其事实保真能力仍显著逊于人类专家——尤其在依赖深度领域知识（如药物相互作用机制）、需多步逻辑推演（如合同违约责任链分析），或必须严格锚定原始材料（如监管文件逐条比对）的任务场景中，失准风险尤为突出。高风险行业已出现真实代价案例。据《商业内幕》报道，某国际律所员工曾借助ChatGPT草拟诉讼答辩状，其中援引的多个判例经核查纯属虚构，导致关键法律主张失效，最终该员工因严重职业失当被立即终止聘用。谷歌强调，FACTS并非仅用于排名，而是定位为诊断工具——通过细粒度归因错误类型（如知识缺失、检索偏差、引用漂移或视觉误读），推动模型优化从“黑箱调参”转向“靶向修复”。目前实测表明，即便最先进模型，错误发生频率仍稳定维持在约30%，意味着每三次调用中就可能产生一次不可靠输出。

17370845950

关于我们

服务项目

广告推广

案例欣赏