网站robots协议的写法规范和注意语法|163

是个SEO站长都知道robots协议是搜索引擎访问网站第一个访问的文件，robots协议里的语法命令是告诉搜索引擎在访问网站时要遵守哪些协议，不要到处乱爬乱抓取。对于很多新手SEO来讲，虽然知道robots为何物，但是对robots协议的写法规范、注意要领还是迷糊的。
很多人会有“robots该屏蔽网站哪些文件，不该屏蔽哪些文件呢！”、“屏蔽与不屏蔽怎么书写语法命令”这些疑问。的确，robots协议写好了可以给网站SEO优化加分，写错了那伤害也是刚刚的。菜鸟菌经常会发现有人问，我的网站都是原创内容，就是不收录，结果一看，好家伙，robots协议屏蔽蜘蛛了。

所以，robots协议作为蜘蛛访问网站的第一道锁线，站长们要正确认真对待，哪里该封锁，哪里该放开，要在robots协议里写的明明白白。下面菜鸟菌讲下robots协议的写法规范和注意语法。
robots的语法主要有5个，即：
1、“User-agent”，定义搜索引擎，用来表明协议是针对哪些搜索引擎蜘蛛的；
2、“Disallow”，禁止抓取，用来表明协议禁止抓取哪些文件；
3、“Allow”，允许抓取，用来表明协议允许抓取哪些文件；
4、“$”，结束符；
5、“*”，通配符；
其次，robots协议的语法首字母必须是大写，每个语法一行一个。语法后面跟着英文状态下的冒号，冒号后要有个空格。例如：
User-agent:*
此语法表示下面的协议对所有的搜索引擎生效
User-agent:baiduspider
此语法表示下面的协议只对百度的搜索引擎生效
User-agent:googlebot
此语法表示下面的协议只对谷歌的搜索引擎生效
User-agent:sougouspider
此语法表示下面的协议只对搜狗的搜索引擎生效
User-agent:*
Disallow: /
此语法表示禁止所有搜索引擎访问整个网站，同理，把“*”换成哪个搜索引擎蜘蛛的名称，就是禁止哪个搜索引擎访问。
User-agent:*
Allow: /
此语法表示允许所有搜索引擎访问整个网站，Allow: /可以用Disallow:替代，一般都习惯用Disallow语法，Allow很少用。反正就是对立，作用是一样的。
User-agent: Baiduspider
Disallow: /
此语法表示禁止百度搜索引擎访问网站，但其它的搜索引擎可以访问，同理换成其它也是一样的。
User-agent语法的应用，如果没有特殊的要求，一般都是“*”定义所有的搜索引擎。那通常都要屏蔽哪些文件，不让蜘蛛访问呢！比如网站后台文件、模板文件、JS、CSS、或有特殊意义的文件等。
例如：禁止所有搜索引擎访问admin、data、templets、style文件夹
User-agent:*
Disallow: /admin
Disallow: /data
Disallow: /templets
Disallow: /style
禁止所有搜索引擎访问admin文件夹，但允许访问admin问价下cainiao文件
User-agent:*
Disallow: /admin/
Allow: /admin/cainiao
“*”、“$”语法的使用
禁止所有搜索引擎抓取/conent/目录下的所有以“.html”后缀结尾的页面
User-agent: *
Disallow: /conent/*.html
使用语法“$”禁止所有搜索引擎访问以.jpg格式结尾的图片和“.php”后缀结尾的页面
User-agent: *
Disallow: /.jpg$
Disallow: /.php$
robots协议基本的语法就上面五个，但是可以根据站长不同的要求，组合语法制定出不同的协议，这个还需要大家多去尝试。此外，因robots协议是第一个被访问的文件，站长通常喜欢把网站地图加入到协议里，以求网站链接第一时间被发现抓取。