如何设置网站robots协议,有关robots中元标签使用的详细信息



爬行器是目前最常见的网络程序。据统计,目前超过一半的网络流量被爬虫使用。

尽管随处可见爬虫,但这并不意味着这种做法是合理合法的。

当抓取网页时,我们应该让爬虫符合机器人的要求。txt协议。

通常,网站有两种方式声明不希望被爬网程序爬网:第一种方式是向站点的根目录添加一个纯文本文件,例如

http://www.aaa.com/robots.txt 。 第二种是直接在页面中使用robot的元标记。

接下来,我们将详细介绍机器人的元标签。

QQ资源站

有四种类型的标记:index、noindex、follow和nofollow

使用逗号分隔。

索引指令:表示机器人可以对该页面进行索引;

遵循指令:表示机器人可以遵循此页面的链接;

noindex指令:表示机器人被拒绝索引此页面,但可以跟踪此页面上的链接;

Nofollow指令:拒绝robot跟踪此页面的链接,但该页面可以被索引

根据上述命令,我们有以下四种组合:

<;META NAME=“机器人”CONTENT=“索引,跟随”>;:您可以抓取此页面并继续索引此页面上的其他链接

<;META NAME=“机器人”CONTENT=“无索引,跟随”>;:不允许爬网此页面,但可以爬网此页面上的其他索引链接

<;META NAME=“机器人”CONTENT=“索引,不跟随”>;:您可以爬网此页面,但不允许爬网此页面上的其他索引链接

<;META NAME=“机器人”CONTENT=“无索引,无跟随”>;:不允许爬网此页面或沿此页面的其他索引链接。

这里需要注意的是,两个相反的反义词不应该一起写,例如

<;META NAME=“机器人”CONTENT=“INDEX,NOINDEX”>;

另一点是不允许搜索引擎创建快照。

<;meta name=“robots”content=“noarchive”>;

上述代码限制所有搜索引擎创建网页快照

如果我们只需要限制一个搜索引擎来创建快照,我们可以如下所示

<;meta name=“Googlebot”content=“noarchive”>;

这样的标记禁止搜索引擎拍摄您网站的快照。

© 版权声明
THE END
喜欢就支持一下吧
点赞8赞赏 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容