搜索引擎高级检索步骤,搜索引擎排名原则



许多人只知道搜索引擎的一个原理,但他们不知道另一个原理。随着互联网时代的发展,越来越多的算法被发表,越来越多人对搜索引擎算法感到好奇。今天,迅步总结的这篇文章用最简单明了的语言解释了搜索引擎的原理。本章内容分为抓取和数据库构建、检索和排序、外部投票和结果展示。

搜索排序

检索

我们都知道,从用户的角度来看,我们使用搜索引擎是一个查询过程。当用户搜索不同的单词时,搜索引擎会给我们不同的结果。例如,当我们搜索“运营是什么”时,百度会向用户展示一些与主题最相关的答案,而当搜索“运营行业是什么”的时候,百度会更改搜索结果,向用户展示其他一些相关答案,以及检索过程是如何实施的?这不得不提到检索。

当用户输入单词时,算法会进行分词,找出每个术语文档集,然后计算交集,最后通过协同过滤和其他过滤方法形成排序。让我们以上面的操作为例。分词后,它将变为:

QQ资源站

操作-0x123sdsd

是-0x1237887

什么-0x565768

算法找出每个文档集合(页面集合),可能如下

0x123标准差1 3 4 5

0x1237887 3 5 12

0x565768 9 7 6

在上述交叉点之后,我们发现文件3和5是我们可能需要查找的文件。如果我们使用一个更简单的例子,我们可以这样描述:例如,在用户查询搜索操作的行业后,百度的分词结果是:

操作A、B、C、,

是D、E

什么G,H

行业H、C

我们可以看到,用户搜索“运营是什么行业”,而C页是我们想要找到的结果。在实际应用过程中,百度算法会丢弃ah、what、oh等词,也就是说,我们的页面在分词后包含的词越多,被检索的概率就越大,这就是业界所说的“关键词密度”。

分类

既然搜索结果可用,哪些因素会影响排序?

1.相关性

相关性是影响排名的重要因素,占比超过70%。网页内容与用户检索需求之间的匹配程度主要体现在需求匹配、关键词数量、关键词出现的位置以及外部链接用于指向页面的锚文本。

例如,在翻译中,在我们的内容中,有一个与运营和行业高度相关的同义词库,它多次出现在H1和其他位置。外部链接使用锚文本指向页面,因此页面的概率与主题高度相关。

2.权威性

用户喜欢权威网站,算法也相信权威网站的内容。权威机构代表该网站的资质,通常被称为备案、百度安全、百度信誉、百度认证等。

3.及时性

及时的内容意味着出现一个新页面,而新页面包含新的内容。我们的内容可以按时间排名第一。

4.重要性

与用户需求相匹配的web内容的重要性或受欢迎程度可以理解为:当用户进行查询时,我们的内容不仅应该与主题相关,还应该吸引用户并被用户重视。

5.丰富

富足似乎很简单,但它的范围真的很广。简单的理解是,您可以制作一段内容来满足用户的单一需求,但也可以满足用户的扩展需求。什么意思?我们可以以上述“运营行业是什么”为例。当用户搜索运营行业时,他们的一般需求是知道具体的运营行业是什么,以及他们是否可以进入该行业。更深层次的需要是了解运营行业的薪酬和待遇,以及是否有发展前景。如果我们在一篇文章中改善用户的各种需求,文章的丰富性就会显现出来。

为了总结检索和排序的过程,当用户进行查询时,算法将对问题进行分词处理,以便包含此主题的所有页面都可以显示结果。然而,由于一些页面与主题高度相关,内容丰富,想法新颖,用户喜欢,因此此类文章将被算法排名第一。

© 版权声明
THE END
喜欢就支持一下吧
点赞10赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容