爬行器是目前最常见的网络程序。据统计,目前超过一半的网络流量被爬虫使用。
尽管随处可见爬虫,但这并不意味着这种做法是合理合法的。
当抓取网页时,我们应该让爬虫符合机器人的要求。txt协议。
通常,网站有两种方式声明不希望被爬网程序爬网:第一种方式是向站点的根目录添加一个纯文本文件,例如
http://www.aaa.com/robots.txt 。 第二种是直接在页面中使用robot的元标记。
接下来,我们将详细介绍机器人的元标签。
有四种类型的标记:index、noindex、follow和nofollow。
使用逗号分隔。
索引指令:表示机器人可以对该页面进行索引;
遵循指令:表示机器人可以遵循此页面的链接;
noindex指令:表示机器人被拒绝索引此页面,但可以跟踪此页面上的链接;
Nofollow指令:拒绝robot跟踪此页面的链接,但该页面可以被索引
根据上述命令,我们有以下四种组合:
<;META NAME=“机器人”CONTENT=“索引,跟随”>;:您可以抓取此页面并继续索引此页面上的其他链接
<;META NAME=“机器人”CONTENT=“无索引,跟随”>;:不允许爬网此页面,但可以爬网此页面上的其他索引链接
<;META NAME=“机器人”CONTENT=“索引,不跟随”>;:您可以爬网此页面,但不允许爬网此页面上的其他索引链接
<;META NAME=“机器人”CONTENT=“无索引,无跟随”>;:不允许爬网此页面或沿此页面的其他索引链接。
这里需要注意的是,两个相反的反义词不应该一起写,例如
<;META NAME=“机器人”CONTENT=“INDEX,NOINDEX”>;
另一点是不允许搜索引擎创建快照。
<;meta name=“robots”content=“noarchive”>;
上述代码限制所有搜索引擎创建网页快照。
如果我们只需要限制一个搜索引擎来创建快照,我们可以如下所示
<;meta name=“Googlebot”content=“noarchive”>;
这样的标记禁止搜索引擎拍摄您网站的快照。
1. 转载请保留原文链接谢谢!
2. 本站所有资源文章出自互联网收集整理,本站不参与制作,如果侵犯了您的合法权益,请联系本站我们会及时删除。
3. 本站发布资源来源于互联网,可能存在水印或者引流等信息,请用户擦亮眼睛自行鉴别,做一个有主见和判断力的用户。
4. 本站资源仅供研究、学习交流之用,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担。
5. 您必须在下载后的24个小时之内,从您的电脑或手机中彻底删除上述内容。
6. 联系方式:
7. 重点提示:不要轻信文件或者视频里的任何加微信或者二次收费的信息!!!
暂无评论内容