当前位置：首页 > 网络推广 > 正文内容

利用“GOOGLE抓取方式”工具测试Robots书写正确性

光的传人13年前 (2013-05-02)网络推广2684

有一个客户的网站，一些很重要的页面被屏蔽了，搜索显示“由于此网站的 robots.txt，系统未提供关于该结果的说明 - 了解详情。”但是仔细看他的robots.txt，找不出确定的原因，犯了很多资料，也没有发现比较权威的说法。

于是自己就认真的看他的robots.txt（我勒个去，有好几百条呢！），根据所看的那些资料，写法不规范也可能是错误的我都挑了出来，代码如下：

Disallow:/search.asp?page=4&wherestr=&title=
Disallow:/%20http://cnvip.busytrade.com/indexVip.php?memid=maxiaol&show=1
Disallow:/ls-discovery/centrifugation/h..
Disallow:/diagnostics/chemistry/dxc/dxc..
Disallow:/diagnostics/chemistry/au/test..
Disallow:/diagnostics/hematology/lh-750..
Disallow:/products_
Disallow:/about2.asp[/quote
Disallow:/uppic/cp/lc/55b
Disallow:/ls-industrial/pc/coulter-coun..
Disallow:/ls-industrial/pc/laser-diffra..
Disallow:/ls-discovery/centrifugation/high-performance/avanti-j-e.html/
Disallow:/ls-discovery/flow/z-analyzer/z1-dual.html/
Disallow:/new/search.asp?page=4&wherestr=&title=
Disallow:/search.asp?page=2&wherestr=&title=
Disallow:/]Disallow:/
Disallow:/ls-discovery.asp/centrifugation.asp
Disallow:/ls-discovery/flow/quanta-sc.asp/
Disallow:/news/20121127206.html/
Disallow:/resources_1_eIQAP.asp/
Disallow:/news/2011117188.html/
Disallow:/news/200922821.html/
Disallow:/news/200791118.html/
Disallow:/news/200511145.html/
Disallow:/zyzxdisp
Disallow:/ls-disc
Disallow:/news/20
Disallow:/cp_disp

其中ls-discovery这个目录下的页面全部没有收录了，于是赶紧找权威的解释。终于找到一篇别人在2010年写的文章“利用“GOOGLE抓取”测试Robots书写正确性”，当时这个工具还是在实验室里面的，现在已经提拔出来了！https://www.google.com/webmasters/tools/googlebot-fetch?hl=zh-CN

经过一系列的测试，发现这个ls-discovery目录确实被robots.txt整个屏蔽了！但是根据rotbots.txt里面的指令，找不到准确屏蔽这个目录的命令。但是仔细观察这些不规范的，可以看到有这么一条：Disallow:/ls-discovery.asp/centrifugation.asp，我就在猜想：是不是这个"."就是罪魁祸首！？就像IIS又都解析漏洞一样，robots.txt也有这么一个执行漏洞，遇到"."就截止，直取“.”前面的内容，于是就成了“Disallow:/ls-discovery”，根据权威的解释，就是屏蔽了ls-discovery目录以及带这个关键词的所有页面。

“Disallow:

该项的值用于描述不希望被访问的一组URL，这个值可以是一条完整的路径，也可以是路径的非空前缀，以Disallow项的值开头的URL不会被 robot访问。例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help /index.html，而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html，不能访问 /help/index.html。"Disallow:"说明允许robot访问该网站的所有url，在"/robots.txt"文件中，至少要有一条Disallow记录。如果"/robots.txt"不存在或者为空文件，则对于所有的搜索引擎robot，该网站都是开放的。”

除了这个解释，没有更好的解释了吧？

如果有高手知道真正的原因，请告知！感激不尽！