17370845950

新闻动态

谷歌推测试检验AI靠谱度，Gemini 3 Pro准确率69%企业需谨慎

近日消息，谷歌DeepMind正式推出FACTS基准测试，旨在系统评估AI模型在事实准确性方面的可靠性。该测试从四大核心维度展开能力测评：模型能否依托自身知识库精准回答事实性问题；能否高效、准确地调用网络搜索功能；能否在长篇文档中扎实定位并规范引用原始信息；以及能否准确理解图像所承载的事实内容。在本次测试覆盖的主流AI模型中，谷歌自研的Gemini 3 Pro以69%的综合准确率位居榜首，其余参测模型表现明显逊色。这一结果为企业用户敲响了重要警钟：尽管当前AI在文本生成速度与语言自然度方面已展现出显著优势，但在事实核查与知识可信度层面，距离人类专业水准仍有显著差距——尤其在依赖垂直领域深度知识、多步逻辑推理或严格依据原始资料进行输出的任务场景中，短板尤为突出。在金融、医疗、法律等高风险行业，AI输出中的细微事实偏差，可能直接演变为合规风险、误诊隐患或司法程序失误。已有公开案例显示，某律师事务所员工借助ChatGPT起草诉讼文书，结果文件中嵌入大量虚构判例，导致严重职业失当，最终被律所立即解雇。该事件直观印证了AI在事实锚定能力上的现实缺陷。谷歌此次发布FACTS基准，核心目标在于精准定位模型出错的具体环节（如知识盲区、检索偏差、引用失焦或图文错配），从而为算法优化提供可量化、可复现的改进路径，加速提升AI的事实鲁棒性。尽管AI整体能力持续演进，但数据显示，当前模型仍约有三分之一的响应存在事实性错误。这意味着，AI要真正迈入“可信赖、可部署”的成熟阶段，仍需跨越一段关键的技术攻坚期。在落地应用过程中，企业与终端用户均须对AI输出保持审慎态度，杜绝无条件信任与直接采纳。尤其在高风险领域，必须建立“AI生成+人工核验”的双重校验机制，对关键信息进行溯源验证，切实防范因事实失准引发的连锁性后果。 ![FACTS Benchmark Overview](https://storage.googleapis.com/deepmind-media/FACTS/FACTS_benchmark_overview.png)

17370845950

关于我们

服务项目

广告推广

案例欣赏