AI搜索的“引用之痛”：超60%测试中翻车，研究揭露真相

过去一年，AI聊天机器人在引用新闻内容上的表现简直让人哭笑不得——不仅引用得乱七八糟，给媒体带来的引荐流量也少得可怜。ChatGPT首当其冲，被指经常编造根本不存在的新闻链接，甚至连OpenAI自家合作媒体的文章都不放过。而最新研究显示，这种“引用乱象”可不是ChatGPT的专利，而是整个AI行业的通病。

3月6日，哥伦比亚大学Tow数字新闻中心的研究员Klaudia Jaźwińska和Aisvarya Chandrasekar发布了一项重磅研究，题为《AI搜索存在引用问题》。他们用数据狠狠“打脸”了AI搜索引擎——在对八款主流AI搜索工具（包括ChatGPT搜索、Perplexity、Perplexity Pro、Gemini、DeepSeek搜索、Grok-2搜索、Grok-3搜索和Copilot）进行的200次测试中，这些工具在超过60%的情况下都没能正确引用新闻内容。简单来说，就是给你一个新闻片段，让它找出原文标题、发布日期、来源和链接，结果它们频频“翻车”。

谁最靠谱？谁最离谱？

在这波测试中，自称“研究神器”的Perplexity表现相对最好，错误率为37%。而Grok-3搜索则直接“垫底”，错误率高达94%！要知道，Grok-3可是X Premium+用户的专属工具，每月收费40美元，结果却连免费版的Grok-2都不如，真是让人哭笑不得。

更让人无语的是，这些AI搜索引擎在犯错时还特别“自信”。虽然有些聊天机器人会老实承认“我不知道”，但大多数市场上流行的AI工具却喜欢“硬撑”，用一副“我肯定对”的语气回答问题。这让用户更难判断信息的真伪。比如，在ChatGPT的134次错误引用中，只有15次用了模棱两可的语言。Copilot倒是“老实人”，直接拒绝回答大部分问题。

链接造假，404满天飞

测试中还发现，AI搜索引擎经常提供“假链接”。Gemini和Grok 3是“重灾区”，在200次测试中，它们提供的假链接比真链接还多。尤其是Grok 3，竟然154次把用户引向了404错误页面，简直是“坑爹”界的扛把子。

流量不给力，AI搜索还能信吗？

Tow中心的这份报告发布得正是时候。最近，AI搜索引擎在给媒体引流方面的表现被广泛质疑。研究发现，聊天机器人带来的引荐流量平均比传统Google搜索低96%。在2024年的前五个月中，新闻出版商网站从ChatGPT和Perplexity这两款AI工具中获得的流量非常少。具体来说：只获得了ChatGPT总引用流量的3.2%，和Perplexity总引用流量的7.4%。

这里的“引用流量”指的是ChatGPT和Perplexity在回答用户问题时，可能会引用或推荐一些外部链接（比如新闻文章），而这些链接如果能引导用户点击并访问新闻出版商的网站，就算是为出版商带来了流量。然而，数据显示，AI工具引用的链接中，只有极少部分真正流向了新闻出版商网站，大部分流量可能被其他类型的内容或网站“截流”了。

简单来说，AI工具在帮助新闻出版商引流方面的表现非常差劲，远远不如传统的搜索引擎（如Google）。这也进一步说明了AI搜索在引用和推荐新闻内容时存在严重问题，未能有效支持新闻出版行业。

引用问题不解决，AI搜索难成大器

AI搜索的引用问题不仅让人对其准确性产生怀疑，也让人们对其作为推荐流量来源的潜力打上问号。如果AI公司连基本的引用准确性都保证不了，谁还敢相信它们能替代传统搜索引擎呢？除非它们能彻底解决这个问题，否则AI搜索恐怕只能是个“半成品”。

本文出自：智上，内容为作者独立观点，转载请在文章开头和结尾显眼处标注：出处和链接。不按规范转载侵权必究。

AI搜索的“引用之痛”：超60%测试中翻车，研究揭露真相

发表回复

短信验证