许多人只知道搜索引擎的一个原理,但他们不知道另一个原理。随着互联网时代的发展,越来越多的算法被发表,越来越多人对搜索引擎算法感到好奇。今天,迅步总结的这篇文章用最简单明了的语言解释了搜索引擎的原理。本章内容分为抓取和数据库构建、检索和排序、外部投票和结果展示。
搜索排序
检索
我们都知道,从用户的角度来看,我们使用搜索引擎是一个查询过程。当用户搜索不同的单词时,搜索引擎会给我们不同的结果。例如,当我们搜索“运营是什么”时,百度会向用户展示一些与主题最相关的答案,而当搜索“运营行业是什么”的时候,百度会更改搜索结果,向用户展示其他一些相关答案,以及检索过程是如何实施的?这不得不提到检索。
当用户输入单词时,算法会进行分词,找出每个术语文档集,然后计算交集,最后通过协同过滤和其他过滤方法形成排序。让我们以上面的操作为例。分词后,它将变为:
操作-0x123sdsd
是-0x1237887
什么-0x565768
算法找出每个文档集合(页面集合),可能如下
0x123标准差1 3 4 5
0x1237887 3 5 12
0x565768 9 7 6
在上述交叉点之后,我们发现文件3和5是我们可能需要查找的文件。如果我们使用一个更简单的例子,我们可以这样描述:例如,在用户查询搜索操作的行业后,百度的分词结果是:
操作A、B、C、,
是D、E
什么G,H
行业H、C
我们可以看到,用户搜索“运营是什么行业”,而C页是我们想要找到的结果。在实际应用过程中,百度算法会丢弃ah、what、oh等词,也就是说,我们的页面在分词后包含的词越多,被检索的概率就越大,这就是业界所说的“关键词密度”。
分类
既然搜索结果可用,哪些因素会影响排序?
1.相关性
相关性是影响排名的重要因素,占比超过70%。网页内容与用户检索需求之间的匹配程度主要体现在需求匹配、关键词数量、关键词出现的位置以及外部链接用于指向页面的锚文本。
例如,在翻译中,在我们的内容中,有一个与运营和行业高度相关的同义词库,它多次出现在H1和其他位置。外部链接使用锚文本指向页面,因此页面的概率与主题高度相关。
2.权威性
用户喜欢权威网站,算法也相信权威网站的内容。权威机构代表该网站的资质,通常被称为备案、百度安全、百度信誉、百度认证等。
3.及时性
及时的内容意味着出现一个新页面,而新页面包含新的内容。我们的内容可以按时间排名第一。
4.重要性
与用户需求相匹配的web内容的重要性或受欢迎程度可以理解为:当用户进行查询时,我们的内容不仅应该与主题相关,还应该吸引用户并被用户重视。
5.丰富
富足似乎很简单,但它的范围真的很广。简单的理解是,您可以制作一段内容来满足用户的单一需求,但也可以满足用户的扩展需求。什么意思?我们可以以上述“运营行业是什么”为例。当用户搜索运营行业时,他们的一般需求是知道具体的运营行业是什么,以及他们是否可以进入该行业。更深层次的需要是了解运营行业的薪酬和待遇,以及是否有发展前景。如果我们在一篇文章中改善用户的各种需求,文章的丰富性就会显现出来。
为了总结检索和排序的过程,当用户进行查询时,算法将对问题进行分词处理,以便包含此主题的所有页面都可以显示结果。然而,由于一些页面与主题高度相关,内容丰富,想法新颖,用户喜欢,因此此类文章将被算法排名第一。
1. 转载请保留原文链接谢谢!
2. 本站所有资源文章出自互联网收集整理,本站不参与制作,如果侵犯了您的合法权益,请联系本站我们会及时删除。
3. 本站发布资源来源于互联网,可能存在水印或者引流等信息,请用户擦亮眼睛自行鉴别,做一个有主见和判断力的用户。
4. 本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。
5. 您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。
6. 联系方式:
7. 重点提示:不要轻信文件或者视频里的任何加微信或者二次收费的信息!!!
暂无评论内容