如何设置网站robots协议,有关robots中元标签使用的详细信息-无尽资源，尽在掌握

爬行器是目前最常见的网络程序。据统计，目前超过一半的网络流量被爬虫使用。

尽管随处可见爬虫，但这并不意味着这种做法是合理合法的。

当抓取网页时，我们应该让爬虫符合机器人的要求。txt协议。

通常，网站有两种方式声明不希望被爬网程序爬网：第一种方式是向站点的根目录添加一个纯文本文件，例如

http://www.aaa.com/robots.txt 。第二种是直接在页面中使用robot的元标记。

接下来，我们将详细介绍机器人的元标签。

有四种类型的标记：index、noindex、follow和nofollow。

使用逗号分隔。

索引指令：表示机器人可以对该页面进行索引；

遵循指令：表示机器人可以遵循此页面的链接；

noindex指令：表示机器人被拒绝索引此页面，但可以跟踪此页面上的链接；

Nofollow指令：拒绝robot跟踪此页面的链接，但该页面可以被索引

根据上述命令，我们有以下四种组合：

<；META NAME=“机器人”CONTENT=“索引，跟随”>；：您可以抓取此页面并继续索引此页面上的其他链接

<；META NAME=“机器人”CONTENT=“无索引，跟随”>；：不允许爬网此页面，但可以爬网此页面上的其他索引链接

<；META NAME=“机器人”CONTENT=“索引，不跟随”>；：您可以爬网此页面，但不允许爬网此页面上的其他索引链接

<；META NAME=“机器人”CONTENT=“无索引，无跟随”>；：不允许爬网此页面或沿此页面的其他索引链接。

这里需要注意的是，两个相反的反义词不应该一起写，例如

<；META NAME=“机器人”CONTENT=“INDEX，NOINDEX”>；

另一点是不允许搜索引擎创建快照。

<；meta name=“robots”content=“noarchive”>；

上述代码限制所有搜索引擎创建网页快照。

如果我们只需要限制一个搜索引擎来创建快照，我们可以如下所示

<；meta name=“Googlebot”content=“noarchive”>；

这样的标记禁止搜索引擎拍摄您网站的快照。

1. 转载请保留原文链接谢谢！

2. 本站所有资源文章出自互联网收集整理，本站不参与制作，如果侵犯了您的合法权益，请联系本站我们会及时删除。

3. 本站发布资源来源于互联网，可能存在水印或者引流等信息，请用户擦亮眼睛自行鉴别，做一个有主见和判断力的用户。

4. 本站资源仅供研究、学习交流之用，若使用商业用途，请购买正版授权，否则产生的一切后果将由下载用户自行承担。

5. 您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除上述内容。

6. 联系方式：

7. 重点提示：不要轻信文件或者视频里的任何加微信或者二次收费的信息！！！

THE END

如何设置网站robots协议,有关robots中元标签使用的详细信息