测评8款主流AI，AI “自信犯错”，我们还能否放心信赖？

当 AI 开始 “自信满满” 地犯错，这着实让人大跌眼镜！哥伦比亚大学的一项测试，可谓是给 AI 界来了个 “大揭秘”。他们找来 8 款主流 AI 工具进行实时联网新闻搜索测试，结果令人咋舌，错误率高得惊人！

瞅瞅这张测试图，绿色代表完全正确部分。可现实残酷得很，62% 的查询结果都不准确！其中错误率最高的Grok3，竟高达 94%，简直 “错得离谱”；而正确率最高的是Perplexity的pro版本，咱们的 deepseek也不错，仅次于chatGPT，排名第三，。

为啥 AI 能错得如此理直气壮呢？研究发现，这些 AI 工具在面对无法回答的问题时，不是老老实实承认信息有限，而是用肯定语气编造答案。它们极少用 “可能”“也许” 这类模糊词，反而用确定性语言包装推测结果，这不是睁眼说瞎话嘛！

其实啊，在追求大模型智能的同时，信源质量愈发关键。就拿满血版的deepseek来说，在不同地方使用，回答结果差异明显，甚至 “味道” 都不一样。这就是因为不同平台信源不同，信源已然成为平台的核心壁垒。

不可否认，AI 搜索体验确实很棒，为我们节省了大量时间，那种便捷带来的 “爽感” 让不少人欲罢不能。但咱们得清醒，不能只沉浸在这种 “爽” 里。毕竟，AI 带来便捷的同时，也带来了错误风险。只有在体验与真相之间找到平衡，我们才能不被 AI 牵着鼻子走，始终保持清醒头脑，理性看待这些新兴技术，让 AI 真正为我们所用，而不是被其误导。不然，被 AI 的 “自信错误” 忽悠了，可就追悔莫及咯！