玉林SEO,致力于SEO、SEM、网络营销等技术,提供网站优化、百度排名、搜索引擎排名等服务。点击这里给我发消息点击QQ联系站长

robots协议

羽凡seo 1280℃ 0评论

Robots协议也就是我们所谓的机器人协议,爬虫协议,主要是网站可以通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots协议

它是一个txt文件,做好后把它上传到网站的根目录,就可以了,生效时间一般是几天到两个月内。

robots协议主要有四种形式:

Sitemap: 网站地图 告诉爬虫这个页面是网站地图

1. User-Agent:  关键字。此协议是指本robots协议对哪些搜索引擎适用。书写格式:User-Agent开头字母大写,冒号英文状态下,接着空格,再到关键字。

1.1 User-Agent: *
*指匹配所有。含义为robots协议对所有搜索引擎适用。

1.2 当不是*,要针对某个或某些搜索引擎时,格式为
User-Agent: Baiduspider    本协议适用是百度
User-Agent: Googlebot      本协议适用是谷歌
User-Agent: 360Spider       本协议适用是360
User-Agent: Sosospider      本协议适用是soso
User-Agent: YoudaoBot      本协议适用是有道
User-Agent: Sogou News Spider    本协议适用是搜狗

2.Disallow: 关键字。不允许搜索引擎访问哪些路径。书写格式:Disallow开头字母大写,冒号英文状态下,接着空格,再到关键字。

2.1 Disallow: /
“/”指网站根目录,此协议不允许搜索引擎访问根目录,即屏蔽整站。
此点特别注意,它会有后遗症:当你解封的时候,蜘蛛通常会一到两个月都不会去抓取你的网站。

2.2 Disallow: /关键词
只要路径出现disallow后面的“/关键词”的都会屏蔽。

Disallow: /a/
指根目录下的a文件夹屏蔽,只要路径中出现“/a/”都被屏蔽。

Disallow: /a
指只要路径中出现“/a”都被屏蔽,比如路径中有/abc/、/abc关键字,按因为都含“/a”,故都会被屏蔽。

Disallow: /a/ 比较精准
Disallow: /a 范围广
两个协议的含义的是不一样的,他们各自屏蔽掉的内容范围不同。

2.3 Disallow: /*?*
动态路径的屏蔽,*指匹配所有的,含有?的路径是动态路径。

2.4 Disallow: /*.js
*指匹配所有的,屏蔽所有js文件。

2.5 Disallow: /*.js$
$结束符,后面的不匹配,指匹配前面的,就是屏蔽以.js 结尾的路径。

3. Allow:  允许访问被屏蔽路径中的某个子路径。
如果要屏蔽a,但是a里面的b允许抓取,就可以使用以下协议。

Disallow: /a/
Allow: /b/

三个协议要注意的问题点:
1. Disallow: / a/ 第一个“/”后面不能有空格,否则就是全站封闭。
2. Disallow: /a “:”后面的空格没有也是全站封闭的格式,书写时需注意
3. 代码注意大小写,注意符号要英文状态下

另外,如果写好后不知道robots语言是否正确,可以上站长平台–>网页抓取–>robots中去检测。可以通过创建生产对应代码,也可以对写好的robots进行校验。

robots协议的生成与校验

 

喜欢 (2)
发表我的评论
取消评论

表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址