过去一年,AI聊天机器人在引用新闻内容上的表现简直让人哭笑不得——不仅引用得乱七八糟,给媒体带来的引荐流量也少得可怜。ChatGPT首当其冲,被指经常编造根本不存在的新闻链接,甚至连OpenAI自家合作媒体的文章都不放过。而最新研究显示,这种“引用乱象”可不是ChatGPT的专利,而是整个AI行业的通病。
3月6日,哥伦比亚大学Tow数字新闻中心的研究员Klaudia Jaźwińska和Aisvarya Chandrasekar发布了一项重磅研究,题为《AI搜索存在引用问题》。他们用数据狠狠“打脸”了AI搜索引擎——在对八款主流AI搜索工具(包括ChatGPT搜索、Perplexity、Perplexity Pro、Gemini、DeepSeek搜索、Grok-2搜索、Grok-3搜索和Copilot)进行的200次测试中,这些工具在超过60%的情况下都没能正确引用新闻内容。简单来说,就是给你一个新闻片段,让它找出原文标题、发布日期、来源和链接,结果它们频频“翻车”。
谁最靠谱?谁最离谱?
在这波测试中,自称“研究神器”的Perplexity表现相对最好,错误率为37%。而Grok-3搜索则直接“垫底”,错误率高达94%!要知道,Grok-3可是X Premium+用户的专属工具,每月收费40美元,结果却连免费版的Grok-2都不如,真是让人哭笑不得。
更让人无语的是,这些AI搜索引擎在犯错时还特别“自信”。虽然有些聊天机器人会老实承认“我不知道”,但大多数市场上流行的AI工具却喜欢“硬撑”,用一副“我肯定对”的语气回答问题。这让用户更难判断信息的真伪。比如,在ChatGPT的134次错误引用中,只有15次用了模棱两可的语言。Copilot倒是“老实人”,直接拒绝回答大部分问题。
链接造假,404满天飞
测试中还发现,AI搜索引擎经常提供“假链接”。Gemini和Grok 3是“重灾区”,在200次测试中,它们提供的假链接比真链接还多。尤其是Grok 3,竟然154次把用户引向了404错误页面,简直是“坑爹”界的扛把子。
流量不给力,AI搜索还能信吗?
Tow中心的这份报告发布得正是时候。最近,AI搜索引擎在给媒体引流方面的表现被广泛质疑。研究发现,聊天机器人带来的引荐流量平均比传统Google搜索低96%。在2024年的前五个月中,新闻出版商网站从ChatGPT和Perplexity这两款AI工具中获得的流量非常少。具体来说:只获得了ChatGPT总引用流量的3.2%,和Perplexity总引用流量的7.4%。
这里的“引用流量”指的是ChatGPT和Perplexity在回答用户问题时,可能会引用或推荐一些外部链接(比如新闻文章),而这些链接如果能引导用户点击并访问新闻出版商的网站,就算是为出版商带来了流量。然而,数据显示,AI工具引用的链接中,只有极少部分真正流向了新闻出版商网站,大部分流量可能被其他类型的内容或网站“截流”了。
简单来说,AI工具在帮助新闻出版商引流方面的表现非常差劲,远远不如传统的搜索引擎(如Google)。这也进一步说明了AI搜索在引用和推荐新闻内容时存在严重问题,未能有效支持新闻出版行业。
引用问题不解决,AI搜索难成大器
AI搜索的引用问题不仅让人对其准确性产生怀疑,也让人们对其作为推荐流量来源的潜力打上问号。如果AI公司连基本的引用准确性都保证不了,谁还敢相信它们能替代传统搜索引擎呢?除非它们能彻底解决这个问题,否则AI搜索恐怕只能是个“半成品”。
本文出自:智上,内容为作者独立观点,转载请在文章开头和结尾显眼处标注:出处和链接。不按规范转载侵权必究。