17370845950

谷歌推测试检验AI靠谱度,Gemini 3 Pro准确率69%企业需谨慎

近日消息,谷歌DeepMind正式推出FACTS基准测试,旨在系统评估AI模型在事实准确性方面的可靠性。该测试从四大核心维度展开能力测评:模型能否依托自身知识库精准回答事实性问题;能否高效、准确地调用网络搜索功能;能否在长篇文档中扎实定位并规范引用原始信息;以及能否准确理解图像所承载的事实内容。 在本次测试覆盖的主流AI模型中,谷歌自研的Gemini 3 Pro以69%的综合准确率位居榜首,其余参测模型表现明显逊色。这一结果为企业用户敲响了重要警钟:尽管当前AI在文本生成速度与语言自然度方面已展现出显著优势,但在事实核查与知识可信度层面,距离人类专业水准仍有显著差距——尤其在依赖垂直领域深度知识、多步逻辑推理或严格依据原始资料进行输出的任务场景中,短板尤为突出。 在金融、医疗、法律等高风险行业,AI输出中的细微事实偏差,可能直接演变为合规风险、误诊隐患或司法程序失误。已有公开案例显示,某律师事务所员工借助ChatGPT起草诉讼文书,结果文件中嵌入大量虚构判例,导致严重职业失当,最终被律所立即解雇。该事件直观印证了AI在事实锚定能力上的现实缺陷。 谷歌此次发布FACTS基准,核心目标在于精准定位模型出错的具体环节(如知识盲区、检索偏差、引用失焦或图文错配),从而为算法优化提供可量化、可复现的改进路径,加速提升AI的事实鲁棒性。尽管AI整体能力持续演进,但数据显示,当前模型仍约有三分之一的响应存在事实性错误。这意味着,AI要真正迈入“可信赖、可部署”的成熟阶段,仍需跨越一段关键的技术攻坚期。 在落地应用过程中,企业与终端用户均须对AI输出保持审慎态度,杜绝无条件信任与直接采纳。尤其在高风险领域,必须建立“AI生成+人工核验”的双重校验机制,对关键信息进行溯源验证,切实防范因事实失准引发的连锁性后果。 ![FACTS Benchmark Overview](https://storage.googleapis.com/deepmind-media/FACTS/FACTS_benchmark_overview.png)