是个SEO站长都知道robots协议是搜索引擎访问网站第一个访问的文件,robots协议里的语法命令是告诉搜索引擎在访问网站时要遵守哪些协议,不要到处乱爬乱抓取。对于很多新手SEO来讲,虽然知道robots为何物,但是对robots协议的写法规范、注意要领还是迷糊的。
很多人会有“robots该屏蔽网站哪些文件,不该屏蔽哪些文件呢!”、“屏蔽与不屏蔽怎么书写语法命令”这些疑问。的确,robots协议写好了可以给网站SEO优化加分,写错了那伤害也是刚刚的。菜鸟菌经常会发现有人问,我的网站都是原创内容,就是不收录,结果一看,好家伙,robots协议屏蔽蜘蛛了。

打开网易新闻 查看精彩图片

所以,robots协议作为蜘蛛访问网站的第一道锁线,站长们要正确认真对待,哪里该封锁,哪里该放开,要在robots协议里写的明明白白。下面菜鸟菌讲下robots协议的写法规范和注意语法。
robots的语法主要有5个,即:
1、“User-agent”,定义搜索引擎,用来表明协议是针对哪些搜索引擎蜘蛛的;
2、“Disallow”,禁止抓取,用来表明协议禁止抓取哪些文件;
3、“Allow”,允许抓取,用来表明协议允许抓取哪些文件;
4、“$”,结束符;
5、“*”,通配符;
其次,robots协议的语法首字母必须是大写,每个语法一行一个。语法后面跟着英文状态下的冒号,冒号后要有个空格。例如:
User-agent:*
此语法表示下面的协议对所有的搜索引擎生效
User-agent:baiduspider
此语法表示下面的协议只对百度的搜索引擎生效
User-agent:googlebot
此语法表示下面的协议只对谷歌的搜索引擎生效
User-agent:sougouspider
此语法表示下面的协议只对搜狗的搜索引擎生效
User-agent:*
Disallow: /
此语法表示禁止所有搜索引擎访问整个网站,同理,把“*”换成哪个搜索引擎蜘蛛的名称,就是禁止哪个搜索引擎访问。
User-agent:*
Allow: /
此语法表示允许所有搜索引擎访问整个网站,Allow: /可以用Disallow:替代,一般都习惯用Disallow语法,Allow很少用。反正就是对立,作用是一样的。
User-agent: Baiduspider
Disallow: /
此语法表示禁止百度搜索引擎访问网站,但其它的搜索引擎可以访问,同理换成其它也是一样的。
User-agent语法的应用,如果没有特殊的要求,一般都是“*”定义所有的搜索引擎。那通常都要屏蔽哪些文件,不让蜘蛛访问呢!比如网站后台文件、模板文件、JS、CSS、或有特殊意义的文件等。
例如:禁止所有搜索引擎访问admin、data、templets、style文件夹
User-agent:*
Disallow: /admin
Disallow: /data
Disallow: /templets
Disallow: /style
禁止所有搜索引擎访问admin文件夹,但允许访问admin问价下cainiao文件
User-agent:*
Disallow: /admin/
Allow: /admin/cainiao
“*”、“$”语法的使用
禁止所有搜索引擎抓取/conent/目录下的所有以“.html”后缀结尾的页面
User-agent: *
Disallow: /conent/*.html
使用语法“$”禁止所有搜索引擎访问以.jpg格式结尾的图片和“.php”后缀结尾的页面
User-agent: *
Disallow: /.jpg$
Disallow: /.php$
robots协议基本的语法就上面五个,但是可以根据站长不同的要求,组合语法制定出不同的协议,这个还需要大家多去尝试。此外,因robots协议是第一个被访问的文件,站长通常喜欢把网站地图加入到协议里,以求网站链接第一时间被发现抓取。