为什么该网站未被百度收录(该网站已被捕获但未被收录)



巧用网站禁止机制阻止蜘蛛抓取页面

基于网站安全性和盈利能力的因素,网站管理员不希望捕获和包含一些目录或页面,例如付费内容、测试阶段的页面和复制的内容页面。

SEO公司

尽管在网站建设过程中,JavaScript、Flash链接和nofollow属性的使用会阻止搜索引擎蜘蛛,导致网页不被收录。

然而,在某些情况下,搜索引擎可以读取它们。根据网站排名,我们建议您谨慎使用JavaScript、Flash链接和Nofollow属性来阻止包含。

需要强调的是,使用JavaScript和Flash链接构建网站实际上是在为网站创建蜘蛛陷阱,这使得搜索引擎无法正确判断和抓取页面的主题和文本。

为了确保不包含网站的某些目录或页面,必须正确使用robots文件或元robots标签来实现网站的禁止机制。

1.机器人文件

QQ资源站

当搜索引擎蜘蛛访问网站时,它会首先检查是否有一个名为robots的纯文本文件。txt在网站的根目录中。它的主要作用是制定搜索引擎来抓取或禁止网站的某些内容。

用户代理:*适用于所有蜘蛛

不允许:/upload/

不允许:。jpg$禁用全部提取。jpg文件

不允许:*。html禁止获取所有html文件

不允许:/upload/index.html

禁用禁止获取文件或目录。允许告诉搜索引擎应该对哪些页面进行爬网。因为不指定是为了允许获取,所以允许是没有意义的。

2.元机器人标签

元机器人标签是页面头部的元标签之一。它用于指示搜索引擎不索引此页面的内容。

最简单的元机器人标签格式是:

<;meta name=“robots”content=“noindex,nofollow”>;

其效果是禁止所有搜索引擎索引此页面并跟踪此页面上的链接。

<;meta name=“robots”content=“noindex”>;

其效果是禁止索引此页面,但允许蜘蛛跟踪页面上的链接,并传递权重。

谷歌、必应和雅虎支持的标签如下:

Noindex:不索引此页

不关注:不关注此页面上的链接

Nosnippet:不在搜索结果中显示摘要文本

Noarchive:不显示快照

Noodp:不要在打开的目录中使用标题和描述

百度支持:Nofollow和Noarchive

只有在禁用索引时才使用元机器人是有意义的。

带有noindex meat robots标签的页面将被爬网,但不会被索引,并且页面URL不会出现在搜索结果中,这与robots文件不同。

该网站不包含在搜索引擎中,对网站进行优化是无用的

一些网站管理员会发现,他们的网站在工作中进行了大量的优化处理,但搜索引擎没有将其包括在内。然而,一些网站的优化非常一般,但它们一直被纳入搜索引擎。为什么?

搜索引擎无法包含该网站,原因如下。

网站是否不包括在内?让我们看看我们是否犯了这四个错误

1.本网站使用的域名已被处罚

有些人在建立网站时为了方便而使用旧域名。虽然旧域名的优势不足以掩盖旧域名的风险。如果旧域名拥有权利,并且其内容与您的网站相似,那么它确实有助于网站获得更高的排名。但是,如果您选择的域名已经注册,请不要大意。你必须去百度查看记录,以确定域名是否受到制裁。

2.网站阻止蜘蛛爬行

一般来说,当网站刚打开时,就会设置机器人。此设置是为了防止百度蜘蛛在网站完成之前抓取网站。然而,一些网站管理员可能会在网站实际上线后发布此设置。如果无法爬网的设置仍然存在,则搜索引擎无法捕获这些设置,并且不会将其包含在其中。

3.使用的服务器不稳定

一些网站管理员为了节省时间和速度,会在国外选择一些存档空间,但这种做法不值得推广。因为外来空间的稳定性无法保证,稳定的空间是最重要的

© 版权声明
THE END
喜欢就支持一下吧
点赞14赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容