About us新闻动态

测了8款AI搜索后 发现真实与谬误只有一线之隔

来源自:新闻动态    点击数:1   发布时间:2024-06-02 06:18:58

  “怎么不让芝士从披萨上滑落?——在酱汁中加入1/8杯无毒胶水。”“怀孕时抽烟怎么样?——医生建议怀孕期间每天抽2-3根烟。” 就在最近的开发者大会上发布AI Overviews搜索功能后,谷歌再次翻车了。上一次Bard大模型聊天问答出错,端掉了谷歌近1000亿美元的市值;这一次争议,恐怕会给近期热火朝天的AI搜索市场泼下一场冷雨。

  赛道领头羊Perplexity的月访问量已经突破六千万,国内的秘塔AI、天工AI以669万和184万的访问量领先。

  不过在21世纪经济报道对秘塔AI、天工AI、360AI、百度简单搜索、Perplexity、Bing Copilot、YouAI、Phind 8款AI搜索产品的测试中,尽管它们很少出现“幻觉”,但一旦面对各说各话的搜索出来的结果,输出答案会陷入混乱,并且让人更加难以分辨真实性。在一位负责AI搜索的大厂研发人员看来,AI搜索的瓶颈并不在于大模型,而在于投喂的搜索出来的结果。AI搜索能提供多大程度的更优质回答,成长性有多高,或许需要打上一个问号。

  专补大模型短板一位从事行业研究工作的的人说,天下“苦中文搜索引擎久矣”,结果相关度低、弹窗广告多、被诱导下载其他软件……根据该行研人士的体验,目前的AI搜索产品能够筛选互联网信息,自动生成思维大纲,适合用来完成复杂且而且一定发散性的工作。早期许多人也想把ChatGPT当搜索引擎用,但劝退之处是ChatGPT容易“不懂装懂”,而AI搜索某些特定的程度上克服了这一点。

  譬如,21世纪经济报道向ChatGPT和AI搜索产品同时抛出一个问题,“意大利作家埃莱娜·费兰特为什么离婚?”这是一个注定没有答案的问题,埃莱娜·费兰特是目前文坛最神秘的作家,真名、婚姻、照片没有公开说明。

  对于这条提问,GPT-3.5的回答真假参半:先是编造了费兰特与一名不存在的作家达尔波的婚姻史,然后再解释自己不知道离婚原因。而测试的8款AI搜索产品均直接承认,没有相关的搜索出来的结果,并以角标的形式在结尾附上参考信源,可以点进原链接核查真实性。信源数量上,以Perplexity为代表的国外AI搜索产品大多在终端呈现5~6条信源,而以360AI搜索为例的国内AI搜索通常会附加20~30条信源链接。

  之所以不会“胡说八道”,主要因为大模型被严格限制,只能基于搜索出来的结果生成回答。

  成)。这一技术的精髓在于将信息检索和内容生成两个步骤巧妙结合:首先访问特定的数据库,检索与用户问题相关的最新信息;随后,将检索信息和用户问题一同作为提示词(Prompt),引导大模型生成回答。业内不少声音认为这是缓解大模型幻觉的最优解,

  “但也不等于能解决幻觉问题。”前述研发人员说,由于AI搜索非常依赖搜索出来的结果,仍然有很大的不可控性。传言、玩梗、洋葱新闻,AI搜索怎么看?AI生成虚假信息问题已不是新鲜事。但在AI搜索的场景下,用户明确期待获得可靠信息,并且AI搜索筛选掉了一部分信源、提供看似权威的出处,一旦出错,影响可能更致命。记者在5月22日用前段时间众说纷纭的一条传言,尝试测试AI搜索的时效性和准确性。“OpenAI何时推出了AI搜索?”秘塔AI回答有矛盾的5月9日、5月13日两个发布时间,但没有点出两个日期其实都不对。

  天工AI、360AI搜索、简单搜索、Perplexity指出OpenAI没有官方发布AI搜索产品。其中,只有Perplexity引用到了最直接的信息,即Sam Altman在发布会前夕发布的那条推文,“不会发布GPT-5,也不会发布AI搜索引擎。”

  旗下的简单搜索回答林黛玉和倒拔垂杨柳的故事没关系,但没有指出这是一条典型网梗,也没有附加参考链接,可能回答仅调用了大模型本身的知识库。只有天工AI、360AI搜索、Perplexity精确指出《红楼梦》原著没有这一情节,也辨别出这是网络玩梗。

  但从结果来看,谷歌的AI搜索并不能很好地分辨互联网,尤其是社交论坛中的多语境内容。

  旗下的必应Copilot,提供的首条参考资料竟源自ChatGPT的创作:2023年3月,在知乎

  问题“林黛玉如何倒拔垂杨柳”下,一位用户哭笑不得地贴了一段ChatGPT的回答。本意是调侃AI睁眼说瞎话,却意外地被AI采纳为了参考信源。AI生成内容越来越随处可见。百度董事长兼CEO李彦宏最近在财报电话会上透露,目前百度搜索上有11%的搜索出来的结果由AI生成;360曾表示,AI搜索生成的答案会作为单独的网页,重新投入内容池。但另一边,谷歌曾带头宣布减少“AI生成的低质量内容”在搜索出来的结果中的曝光量,让AI生成内容在互联网内容池中处于尴尬境地。

  科幻作家Ted Chiang曾在ChatGPT刚亮相时,用一个寓言来描述AI生成内容在网络上的扩散。即使不谈这一科幻色彩的比喻,现实中,AI的相互引用和模仿也会让信息追溯变得更困难,人们也许会见到更多由AI搜索引发的“罗生门”事件。成也搜索,碍也搜索从技术层面看,有两个主要的因素能解释AI搜索的回答质量。

  与传统搜索一样,AI搜索的第一个技术步骤是建立索引库。360集团副总裁梁志辉告诉21世纪经济报道记者,传统的搜索引擎会通过爬虫爬取公共网页内容,这些程序是由程序员通过Python或者LUA脚本混合来写的。而AI搜索的不同之处是,通过大模型来指挥爬虫,可以更有效地从网页中提取信息、识别目标。但打造自己的索引库,已然是一个不低的门槛。

  董事长兼CEO方汉此前在采访中表示,索引库的成本高昂,这是大部分创业者很难解决的一个问题。

  在2016年自建过一个较小的搜索引擎,与现在AI 搜索的团队一脉相承,也就是说公司做索引集群已经有七、八年的历史。理论上,AI搜索也可以调用传统搜索引擎的数据——比如据外国媒体报道,赛道头部公司Perplexity 就是使用自动化系统来访问必应、谷歌的数据。但如果调用搜索巨头们的索引库,对于普通创业者来说,“购买第三方服务就可以把利润吃完。”另一影响因素则是算法。

  在搜索引擎的设计中,最核心的两项技术是召回(Match)和排序(Rank),能够理解为从数据库中触发尽可能相关的结果,并将结果返回。昆仑万维方面援引资料向记者解释,在这一技术环节中,传统搜索引擎需要花大量人力资源去理解用户的搜索词和数据库之间匹配的特征、频次、距离等等,几乎每个抽象因子都需要有专人去做人工分析,以决定显示哪些网页、以什么顺序展示。

  方汉此前提到,为了确认和保证真实性,公司还有合规模型、反欺诈模型做鉴别,他们也在研究怎么样提高质量,比如对各种信源网站打分。当然,“更简单的方法,可能就是套用现成的搜索引擎(的算法)”方汉坦言。梁辉也向21世纪经济报道表示,360此前为了打击虚假信息,建立了一套有效的信用评估机制。

  不难发现,传统搜索引擎与AI搜索的技术肌理紧密交织,搜索厂商“强者恒强”。但前述从事AI搜索的研发人员也向21世纪经济报道指出,在他看来,正因为AI搜索非常依赖传统搜索引擎,目前的瓶颈不是大模型性能,而是搜索结果。

  一个始终存在的现实问题是,许多网站的内容并不能被传统搜索引擎完全收录,尤其是那些优质信息源

  比如小红书、抖音等平台慢慢的变成了了慢慢的变多人在解答日常生活问题时的首选入口,依靠足够丰厚的平台生态,它们的内容并不是特别需要对外开放,更不用提知网等学术网站。即使有了大模型的加持,情况恐怕也很难有改变。有悲观的声音因此认为,AI搜索产品上限不高。目前B站、微信读书、抖音、小红书开始在平台内嵌AI搜索功能,将AI搜索作为围墙花园内的辅助功能,而非独立的产品,可能更匹配AI搜索的价值定位。

  梁辉有不同看法,他认为AI搜索产品的发展空间还很大。“现在慢慢的变多的知识是以文档、视频、音频、直播等方式存在,通过AI能够理解这些多模态内容,让搜索引擎的检索由浅入深。”梁辉解释。在目前几款AI搜索产品中,Perplexity、秘塔AI开始深入“知识暗面”,两者都可以指定搜索来源,单独搜索学术文献。此外,Perplexity可以搜索Reddit和

  。不过,以上产品都只能抓取公开部分的文字信息,比如播客简介、学术文献摘要,没法访问正文内容,与AI搜索设想和承诺的未来还有不短距离。(文章来自:21世纪经济报道)文章来自:21世纪经济报道