什么是搜索引擎的核心算法?

作者: 少校seo 分类: 黑帽seo资讯 发布时间: 2019-09-13 11:03

搜索引擎如何能更准确地搜索是它最重要的目标黑帽seo,那么搜索结果如何能更准确呢?涉及三个核心问题。

1.用户的真正需求是什么

搜索引擎用户输入的查询请求非常短,平均长度为2.7个单词。从这么短的查询请求中,您如何知道隐藏的真实用户需求?这是搜索引擎首先需要解决的一个非常重要的问题。如果无法获得用户的真实搜索意图,即使后续的内容匹配算法非常精细,搜索的准确性也是不可能的。

从另一个角度来看,即使是同一个查询词,不同的用户有不同的搜索目的,如何识别这种差异呢?如果我们更进一步,即使相同的查询词是由相同的用户发送的,它也可能是不同的,因为用户在不同的场景中,他们的目的也不同。我们如何识别它?所有这些都是搜索引擎需要解决的核心问题,即用户此时此刻发出查询的真正搜索意图是什么。

2.哪些信息与用户的需求真正相关

上面提到的第一个核心问题是从用户需求的角度,而另外两个核心问题是从数据的角度。搜索引擎本质上是一个匹配过程,也就是说,从海量数据中寻找能够满足用户需求的内容。因此,在明确用户真实意图的前提下,如何找到满足用户需求的信息成为关键因素。

判断内容与用户查询关键词的相关性一直是信息检索领域的核心研究课题。不断提出的信息检索模型试图解决这个问题。相关研究已经持续了近60年。尽管新方法不断被提出,检索效果总体上也在逐步提高,但该领域的基本指导思想仍然是基于关键词匹配,包括现在所有搜索引擎的相关性计算。与几十年前相比,它的基本计算思维没有根本不同。

我们如何在这个核心问题上取得突破?这个问题将变得越来越重要,从关键词匹配到让机器真正理解信息所代表的是解决这个问题必须跨越的门槛。目前,虽然包括人工智能在内的许多相关研究领域在这方面取得了进展,但短期内仍然没有明确的技术思路来解决这一问题。

3.用户可以信任哪些信息

搜索本质上是寻找能够满足用户需求的信息。虽然相关性是衡量信息是否满足用户需求的一个重要方面,但并不是全部。信息是否可信是另一个重要的衡量标准。

搜索引擎需要处理的信息对象是任何用户在互联网上发布的内容,但是对于内容发布者发布的内容是否可信没有明确的判断标准。与此同时,有恶意的信息发布者故意歪曲事实,也有信息发布者的无意错误。在同一查询的搜索结果中,完全有可能存在冲突的搜索答案。这时,信息的可信度成为一个突出的问题。

例如,当用户想要在餐馆吃饭时,在做出消费决定之前,他在互联网上搜索在餐馆吃饭的用户的过去评论,以帮助做出决定。然而,发现的相关内容可能是餐馆有意发布的一些有利于误导消费者的评论。然而,如果信息发布者是用户的朋友,信息的可信度将大大提高。

从某个角度来看,搜索引擎核心算法,链接分析能够改善搜索结果的原因可以被认为是对信息可靠性的判断。网页的重要性被作为判断其是否可信的标准。返回一个重要的网页意味着返回一个可信的网页。

搜索引擎性能提高遇到瓶颈.doc

搜索引擎性能的提高遇到了瓶颈。评估搜索引擎背后信息检索技术的进步,验证互联网环境下大规模数据信息检索技术的系统有效性,促进检索技术的进步和成果转化是信息检索技术评估的主要目标。互联网的蓬勃发展使人们摆脱了信息贫乏的束缚,迎来了信息极其丰富的时代。例如,今天仅谷歌就可以索引超过80亿个网页和超过10亿张图片。当信息源不再是问题时,如何快速、准确地获取感兴趣的信息已经成为人们关注的主要问题。因此,以网络搜索引擎为代表的谷歌、百度和雅虎都取得了巨大成功。然而,基于不同信息检索技术开发的搜索引擎系统对于同一用户通常具有不同的结果,因此产生了对比较结果的需求。然而,基于主观使用感受的评价既不客观也不可靠。因此,必须提出一个客观的评价体系。这种评估不受个人主观感受的影响,所做的评估通常是有效的。这种评价方法应具有以下特点:明确正式的研究任务,开放的培训和测试数据,开放的评价比较。它使研究之间的比较更加客观,从而使研究人员能够认识到各种技术的优缺点,并正确地指导研究的发展方向。信息检索技术的现状指的是信息检索,人们常常立刻想到谷歌、雅虎等搜索引擎公司。

可以说,网络搜索引擎与人们的日常生活关系最为密切,在某种程度上,它已经成为信息检索技术的代理。然而,作为一个实用的系统,搜索引擎普遍采用成熟的技术,更加注重稳定性、反射速度和界面等工程问题。因此,这些系统不能完全代表信息检索技术的发展水平。由于对各种规模信息的需求日益增长,国外学术界和企业界在前瞻性研究方面投入了大量精力。这方面的代表性机构有麻省大学、卡内基梅隆大学、伦敦城市大学、IBM、微软研究院、滑铁卢大学等。一般来说,早期以Okapi、Smart、查询扩展和相关反馈为代表的内容分析技术,以PageRank和HITS为代表的链接分析技术,以及近年来的语言模型都掀起了信息检索发展的研究热潮,但近年来鲜有激动人心的新技术。2005年,TREC在其总结报告中指出,“信息检索性能已经进入平稳期”。这表明传统的独立于用户的信息检索技术相对成熟。这些技术已经被商业搜索引擎广泛使用,在一定程度上解决了用户在粗粒度(文档级)上的信息获取需求。从TREC的角度来看,当前的任务设置倾向于高精度、细粒度和大规模。典型任务包括高精度文档检索任务(HARD)、新信息检测任务(新颖性)、问答任务(QA)、结核病级别检索等。

其中,前三项任务要求返回信息片段,而不是简单的文档,而TB级检索将测试集的大小增加到TB级,其余的保持不变。从评估结果来看,这些任务取得了很大进展。然而,与当前的技术相比,这些任务仍然相当困难,并且仍然远远不实用。总体而言,国外主流的网络检索技术已经相对成熟,能够在结果、性能和稳定性方面提供令人满意的结果,并在人们的日常信息获取中发挥了作用。精度更高、粒度更细的检索技术仍处于实验室阶段,但该领域的研究仍方兴未艾。也许在不久的将来,我们可以看到基于这些新技术的搜索引擎的出现。促进信息检索技术的不断进步正是信息检索评价需要实现的目标。信息检索评价是支持科技发展的重要措施之一。863国家高技术研发计划一直对国内研究产生重要影响。标准化评估作为一种可靠的系统性能测试机制,逐渐成为863的关注焦点之一。2003年,国家863计划的软硬件主题设立了“中文信息处理和智能人机界面技术评估”专题,对机器翻译、语音识别和信息检索等关键中文信息处理技术进行评估。信息检索评价的目的不仅仅是定位为863项目验收或资格认证,而是了解中国信息检索技术领域的研究现状,验证互联网环境下大规模数据中文信息检索技术的系统有效性,促进技术进步和成果的应用和转化,成为该领域技术评价和交流的平台。

#p#分页标题#e#

从2003年开始,连续三次信息检索评价在任务设置和组织形式上有所不同,如表1所示。2003年的评估只有一个子任务,即全文检索核心技术评估,但测试是在小规模和大规模数据集上进行的,以便更全面地检查系统的性能。其中,小规模数据评价主要集中在奥运领域的文本检索。搜索问题和标准答案由中国科学院软件研究所手动完成,20个搜索问题被设计在数千个选定的网页上,包括15个体育搜索问题。大规模数据使用从9个国内网站收集的100多万个网页作为评价数据,规模为国标。检索主题由中国科学院计算研究所设计,共有18个主题,涵盖政治、经济、文化、体育等诸多方面。对于大规模数据集,不可能手动生成所有标准答案。因此,这里采用了一种称为池的方法。这种方法最早是由琼斯和里斯伯根提出的,并已在TREC广泛使用和测试。其思想是:对于每个查询主题,从参与评估的系统发回的测试结果中提取前几个文档,并合并形成文档池(document Pool),该文档池被认为是查询主题的相关文档的可能候选集合。在移除集合中的重复文档之后,文档被发送到查询集合的构建者以进行相关判断。2004年年度评价的任务改为两项,即文件检索和段落检索。

文档检索要求审阅者针对每个查询条件以文档为单位返回检索结果。然而,段落检索要求审阅者以段落为单位给出检索结果,并且段落的具体定义和长度可以由审阅者自由选择。为了指导参与单位学习更实用的技术,本测试还提高了检索速度的评价。这两项任务的评估语料库是北京大学天网提供的15GB简体中文网页。组织者对这些数据制定了30个查询标准。由于参与小组数量少,汇集技术在2003年的评价中没有发挥有效作用。因此,该评价集中的答案是通过汇集(Pooling)和人工方法生成的,即初步标准答案是通过使用检索工具和段落搜索辅助工具结合人工判断形成的。每个小组提交检索结果后,通过汇集法调整初步标准答案,形成最终标准答案。随着参与单位来源的扩大和测试集规模的扩大,以前在测试现场安装、运行和提交结果的模式面临许多问题。因此,借鉴国外著名评估会议的经验,2005年的评估以在线测试取代了现场测试。9月20日,组织者通过官方网站公布了测试数据(省略。cn)并要求参与单位在22日前提交运行结果。此次信息检索评估的影响力迅速扩大,在组织过程中,得到了中国科学院软件研究所、北京大学、微软亚洲研究院等单位的全力协助。

此评估仅安排相关的网页检索子任务。给定一个主题,返回测试集中与该主题相关的网页,并根据相关性对它们进行排序。参与评估的单位根据主题自动和手动地构造查询。自动模式(Automatic mode)是指不受任何人为因素影响,根据主题构建查询的模式。所有其他模式都是手动的。这项评估的任务比以前困难得多。首先,测试数据的规模已经达到质量水平。CWT100g是北京大学计算机网络与分布式系统实验室提供的一套基于中文的网络测试工具,共有571万个网页,容量为90GB。其次,查询条件的数量也显著增加到50个。测试集的构建、评估的组织和实施以及结果的分析都更加规范和科学。查询标准试图模拟用户的真实信息需求。标题查询字段(标题)尽可能短,通常为2-5个单词。描述查询域(desc)通常是一两句自然语言语句。叙事查询域(narr)进一步详细描述了用户的信息需求。一些主题是根据当前互联网搜索引擎统计的热门用户需求发布的。涵盖的主题尽可能全面。包括政治、经济、文化、娱乐、体育和许多其他不同的领域。题目的整体难度适中,标准答案的数量既不太小也不太大,从而提高了对不同系统结果的区分度。此外,为了将参与组织的系统调整到最佳绩效,该组织还提前发布培训集、开发集和检索源数据。

#p#分页标题#e#

评价结果分析863信息检索评价作为我国颇具影响力的评价会议,基本反映了我国信息检索技术的发展水平。接下来,我们将通过2005年的最新评估结果分析中国的研究现状。该评估分为两组:自动和手动查询标准。评价结果见表2(由于863评价结果是匿名公布的,这里只给出最终结果,不显示参与组织的名称)。从所有参赛队伍的整体检索结果来看,本次评估的各项指标均较之前的评估结果有了很大提高。这主要是因为研究者利用链接分析技术、锚文本等相关评价因素来提高准确率,并采取有效的技术措施来克服中文检索中的一些困难,如命名实体识别。此外,相关反馈或重排技术也有助于提高检索效果。从检索模型来看,参赛团队使用向量空间模型、概率模型、语言模型或混合模型等基本模型,还使用PageRank、link-in分析等链接分析或页面分析技术来提高检索效果。与英语等其他语言相比,中文检索对检索结果的影响更大,尤其是对命名实体、缩略语和新词等未知词的正确识别。目前,大多数检索系统在索引和查询分析阶段采用命名体识别,从结果来看,取得了良好的效果。

目前的中文检索技术是基于国际主流算法,在评价中取得良好结果的单位在TREC评价中也取得了良好结果。可以看出,这些算法提供了基准性能,在系统层面上几乎没有什么创新或改进,但现有系统将根据汉语的特点进行改进。总体而言,如果用户起草的查询条件能够全面、准确地表达用户的需求,现有的中文检索技术一般可以提供更好的检索结果,但是在以下几个方面仍然存在一些问题:查询条件与文档的词汇内容不匹配;●在识别一些名称、新词和缩写方面仍然存在一些问题。●计算相似度时,查询词汇权重设置是否正确也在一定程度上影响检索效果。这些问题的存在导致现有检索系统的性能下降。为了解决这些问题,现有的检索技术仍有很大的改进空间,以获得满意的检索结果。总体而言,中国仍处于向国外学习相关评价技术的阶段(特别是TREC系列会议)。标准化评价与公平客观的最终目标还有一定的距离,如何减少人为因素的影响仍然是评价组织者面临的难题。此外,国内信息检索评价与国际知名评价在数据规模和评价方法上还有很大差距。这是由我国科学研究和应用的总体水平决定的。然而,差距的存在也表明还有很大的改进空间,国内研究者还有很长的路要走。

(中国科学院计算技术研究所的罗华伟、刘群和中国科学院软件研究所的张林俊)链接:相关信息检索评价方法●克兰菲尔德实验(Cranfield experience)早期信息检索技术评价最著名的研究是克兰菲尔德在1960年进行的克兰菲尔德实验,这是第一个标准化的评价研究,也是将测试集合与测试标准相结合来评价系统的模型。所谓测试集(test set)是一种在标准化环境中测试系统性能的机制,它包括三个部分:测试问题、测试文档集和相关性评估。其研究和设计的概念是假设在给定的一组查询问题和文档中,一些文档与查询问题相关。该系统的目的是检索相关文档并拒绝不相关的文档。克兰菲尔德研究是评价技术发展的里程碑。许多想法和实践已经成为未来评估的基石。然而,克兰菲尔德试验由于其起步阶段仍有许多不足之处。早期采用的测试集规模不大,大部分使用高度同构的文件集(例如,克兰菲尔德二期研究(Cranfield Phase II study)只包含279个查询问题和1400个文件),因此与真实的检索环境有很大的区别。

#p#分页标题#e#

基于这种测试集开发的检索系统在实际应用中往往受到很大限制,效果也不好。●文本检索会议TREC 20世纪90年代,基于军事和反恐情报处理的需要,美国国防部高级研究计划署(DARPA)提出了TIPSTER文本处理计划,其中文本检索会议(TREC)是一个重要组成部分。1992年,NIST在美国国防部高级研究开发署和国防部高级研究计划署的支持下,举行了第一次TREC会议。此后将每年举行一次,到2005年已经举行了14届会议。TREC组织者认为,比较不同系统的意义不是证明一个系统优于其他系统,而是将更多不同的技术放在一起进行公开讨论,这对技术的发展大有裨益。因此,TREC自成立以来就明确提出了四个目标:1 .推进基于大规模测试集的信息检索研究;2.通过建立公开论坛,参与者可以交流研究成果和经验,从而加强学术界、工业界和政府之间的交流;3.通过模拟和对真实检索环境的重要改善,加快实验室研究技术向商业产品的转化;4.开发适合所有部门的实用评估技术。TREC的评价机制基本遵循克兰菲尔德模式,但其许多理念和实践也突破了传统的限制。

第一搜索引擎广告瓶颈,TREC大力强调数据量的重要性,投入大量人力物力构建大规模测试集和培训集,并在第一期提供2G数据集。其次,TREC将一个复杂的单一目标分解成几个明确的测试项目(称为“跟踪”),其中许多项目旨在模拟真实的使用环境。第三,TREC非常重视不同算法和系统设计者之间的沟通。除提交系统运行结果外,参与单位还可以参加研讨会。参与者可以公开系统架构、评估结果并相互讨论。链接:信息检索指标信息检索评价指标直接关系到参与系统的最终评价,系统评价因忽视指标而不合理。因此,标准化评估会议在选择评估指标时非常谨慎。早期常用的评价指标包括精密度、召回率、F1值等。其意义如下:召回=系统检索到的相关文档数/相关文档总数准确度=系统检索到的相关文档数/系统返回的文档总数显而易见。召回率检查系统找到完整答案的能力,而准确率检查系统找到准确答案的能力。两者相辅相成,从两个不同的方面全面反映了系统的性能。F1值是一个结合准确性和召回率的指标。考虑到不同系统的准确率和召回率有时高有时低,直接比较不方便,但使用F1值可以更直观地对系统性能进行排序。

随着测试集规模的扩大和人们对评价结果理解的加深,更准确反映系统性能的新评价指标逐渐出现,包括:1 .平均平均精度(MAP):单个主题的平均精度是每个相关文档检索精度的平均值。主题集的映射是每个主题的映射的平均值。MAP是一个单值指标,它反映了系统在所有相关文档上的性能。2.单个主题的精确度是检索R文档时的精确度。其中r是测试集中主题相关文档的数量。主题集的相对精度是每个主题的相对精度的平均值。3.P@10: P@10是系统为该主题返回的前10个结果的准确率。考虑到用户在查看搜索引擎结果时往往希望在第一页(通常是10个结果)找到他们需要的信息,所以设置了这样一个拟人化的索引,p10往往可以更有效地反映系统在实际应用环境中的性能。