利于优化排名的Robots.txt协议正确写法

2015年8月21日 01:37:25SEO入门评论阅读模式

摘要Robots协议也就是robots.txt文本文件，当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存robots.txt，robots协议书写正确与否直接影响网站能否...

文章目录[隐藏]

为什么要有robots协议
robots协议写法
Robots协议的检查
Robots协议书写注意事项

说到robots我们先看一个例子：

说到百度和淘宝，不得不提一件事，2008年，马云做了个异常霸气的决定，那就是淘宝在robots.txt协议中屏蔽百度蜘蛛的抓取，这也就是为什么淘宝店铺无法通过百度搜索引起获得流量的原因，对此马云的解释是百度带来的流量都是垃圾流量，没有转化率，不过真的是这样的吗？

百度在2008年很高调的推出了百度有啊购物平台，立志成为最好的电商平台，成了淘宝的直接对手，面对如此强大的对手，马云必须在其扩大之前消灭他，屏蔽百度收录淘宝可以导致消费者在购物之前不会在百度中搜索产品类名称，比如牛仔裤、休闲裤、连衣裙等，因为淘宝已经强大到让消费者把淘宝和网购这两个词等同的地步，当用户不再百度上面搜索产品名称，那么百度就将失去网购这块市场。事实证明马云的这招很成功，让百度失去了网购市场，打败了百度有啊，百度有啊不久就接近关闭状态了。

淘宝的robots协议：

User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /

百度百科对robots的定义：Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。简单来说就是网站和搜索引擎签署的一个协议，协议里面的路径不要抓取收录。

为什么要有robots协议

Robots协议也就是robots.txt文本文件，当一个搜索蜘蛛访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt。如果存在，搜索爬虫就会按照该文件中的内容来确定访问的范围；如果robots.txt文件不存在，搜索爬虫将会抓取网站上所有没有被口令保护的页面。

网站里面有低质量、死链接内容这样的建议屏蔽，百度如果抓取你的好多低质量页面会拉低网站的质量降低权重影响搜索引擎对你网站的印象，比如男女开始谈对象都会把不好的一面藏起来，还有网站后台会员隐私一般都屏蔽。

robots协议写法

User-agent:该项的值用于描述搜索引擎robot的名字。在"robots.txt"文件中，如果有多条User-agent记录，说明有多个robot会受到"robots.txt"的限制，对该文件来说，至少要有一条User-agent记录。如果该项的值设为*，则对任何robot均有效，在"robots.txt"文件中，"User-agent:*"这样的记录只能有一条。

Disallow:该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被 robot访问。

Allow:该项的值用于描述希望被访问的一组URL，与Disallow项相似，这个值可以是一条完整的路径，也可以是路径的前缀，以Allow项的值开头的URL 是允许robot访问的。

"*" 通配符，匹配0或多个任意字符。

"$"匹配行结束符。

Sitemap 网站地图路径

百度会严格遵守robots的相关协议，请注意区分您不想被抓取或收录的目录的大小写，百度会对robots中所写的文件和您不想被抓取和收录的目录做精确匹配，否则robots协议无法生效。

举例说明

例1：禁止所有搜索引擎访问网站的任何部分

User-agent: *

Disallow: /

例2：允许所有的蜘蛛访问网站任何部分你也可以建立一个空文件robots.txt

User-agent: *