当前位置:首页 > 网络推广 > 正文内容

利用“GOOGLE抓取方式”工具测试Robots书写正确性

光的传人13年前 (2013-05-02)网络推广2897

有一个客户的网站,一些很重要的页面被屏蔽了,搜索显示“由于此网站的 robots.txt,系统未提供关于该结果的说明 - 了解详情。”但是仔细看他的robots.txt,找不出确定的原因,犯了很多资料,也没有发现比较权威的说法。

于是自己就认真的看他的robots.txt(我勒个去,有好几百条呢!),根据所看的那些资料,写法不规范也可能是错误的我都挑了出来,代码如下:

Disallow:/search.asp?page=4&wherestr=&title=
Disallow:/%20http://cnvip.busytrade.com/indexVip.php?memid=maxiaol&show=1
Disallow:/ls-discovery/centrifugation/h..
Disallow:/diagnostics/chemistry/dxc/dxc..
Disallow:/diagnostics/chemistry/au/test..
Disallow:/diagnostics/hematology/lh-750..
Disallow:/products_
Disallow:/about2.asp[/quote
Disallow:/uppic/cp/lc/55b
Disallow:/ls-industrial/pc/coulter-coun..
Disallow:/ls-industrial/pc/laser-diffra..
Disallow:/ls-discovery/centrifugation/high-performance/avanti-j-e.html/
Disallow:/ls-discovery/flow/z-analyzer/z1-dual.html/
Disallow:/new/search.asp?page=4&wherestr=&title=
Disallow:/search.asp?page=2&wherestr=&title=
Disallow:/]Disallow:/
Disallow:/ls-discovery.asp/centrifugation.asp
Disallow:/ls-discovery/flow/quanta-sc.asp/
Disallow:/news/20121127206.html/
Disallow:/resources_1_eIQAP.asp/
Disallow:/news/2011117188.html/
Disallow:/news/200922821.html/
Disallow:/news/200791118.html/
Disallow:/news/200511145.html/
Disallow:/zyzxdisp
Disallow:/ls-disc
Disallow:/news/20
Disallow:/cp_disp

其中ls-discovery这个目录下的页面全部没有收录了,于是赶紧找权威的解释。终于找到一篇别人在2010年写的文章“利用“GOOGLE抓取”测试Robots书写正确性”,当时这个工具还是在实验室里面的,现在已经提拔出来了!https://www.google.com/webmasters/tools/googlebot-fetch?hl=zh-CN

经过一系列的测试,发现这个ls-discovery目录确实被robots.txt整个屏蔽了!但是根据rotbots.txt里面的指令,找不到准确屏蔽这个目录的命令。但是仔细观察这些不规范的,可以看到有这么一条:Disallow:/ls-discovery.asp/centrifugation.asp,我就在猜想:是不是这个"."就是罪魁祸首!?就像IIS又都解析漏洞一样,robots.txt也有这么一个执行漏洞,遇到"."就截止,直取“.”前面的内容,于是就成了“Disallow:/ls-discovery”,根据权威的解释,就是屏蔽了ls-discovery目录以及带这个关键词的所有页面。

Disallow:

该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。 例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help /index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html, 不能访问 /help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一 条Disallow记录。如果"/robots.txt"不存在或者为空文件, 则对于所有的搜索引擎robot,该网站都是开放的。”

除了这个解释,没有更好的解释了吧?

如果有高手知道真正的原因,请告知!感激不尽!


扫描二维码推送至手机访问。

版权声明:本文由光的传人博客www.liu16.com发布,如需转载请注明出处。

本文链接:http://www.liu16.com/post/testrobots.html

标签: SEO谷歌
分享给朋友:

相关文章

郑多燕丰胸骗局揭秘——郑多燕再躺枪,多燕瘦水果粉PK木瓜葛根粉

郑多燕丰胸骗局揭秘——郑多燕再躺枪,多燕瘦水果粉PK木瓜葛根粉

刚看到百度统计里关键词来源中出现了“郑多燕丰胸骗局揭秘”,不禁惊叹:这郑多燕真的成了骗子做暴利产品宣传不用花钱的形象代言人了!郑多燕本身是韩国人,只是因为上了一次《天天向上》而红遍大江南北,成为名副其实的减肥代言人!可是,别忘了,人家郑多燕...

张国平画家——中国美术家协会会员,专注于田园山水画的著名画家

张国平画家——中国美术家协会会员,专注于田园山水画的著名画家

画家张国平(老屯)简介:中国美术家协会会员,中国书画联谊会会员,北京西山兰亭书画院高级画师,中国军事文化研究会理事,山东省美术家协会会员,2000年就读于文化部中国工笔重彩画高级研修班,师从蒋采萍教授,多年问学于李翔、袁武先生,2012年进...

百度站长工具“官网保护”功能一出,淘宝客是不是越来越难做了?

百度站长工具“官网保护”功能一出,淘宝客是不是越来越难做了?

今天发现百度站长平台出了一款超给力的功能企业“官网保护”功能!只要在百度站长平台上注册的用户,都可以提交官网。百度站长工具之官网保护使用说明如下:若网站的官网未被百度收录或收录后明确寻址需求下官网展现位置靠后,站长可以使用官网保护工具将明确...

微博营销之诚信互听

微博营销之诚信互听

做人,诚信很重要!微博营销诚信同样很重要!鄙视那些在互听过程中骗听的小人!这些小人往往惯用的手法很多,举几个例子如下:1、在互听的微博群里刷屏刷屏很让人烦,尤其是那些没有质量的内容,没有新意的内容!刷屏不要紧,你真的诚信互听了么?2、先跟你...

不做百度竞价排名,网站被人工K实例一枚

不做百度竞价排名,网站被人工K实例一枚

 确确实实存在的一个被人工K站的,证据确凿,百度如此无耻,活该被流氓恶搞!事件背景:我的一个网站:青橄榄商城一个月前的百度权重到了3,pr也是3,那一段时间网站算是非常不错的了!可是,就在百度三番几次打来电话说要我们做百度竞价排名...

怎样让新站快速收录?光的传人谈小技巧

怎样让新站快速收录?光的传人谈小技巧

昨晚刚刚上线的一个新站,今天中午就已经被百度收录了!可谓是24小时内收录!域名是昨晚注册的,空间也是新的ip,没有在百度提交网站,只是用小工具ping了下百度而已。什么是ping?直接从百度站长工具里面复制出来:ping是基于XML_RPC...

评论列表

电子菜谱
13年前 (2013-05-03)

看下,还是不错的

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。