当前位置:首页 > 网络推广 > 正文内容

利用“GOOGLE抓取方式”工具测试Robots书写正确性

光的传人11年前 (2013-05-02)网络推广2272

有一个客户的网站,一些很重要的页面被屏蔽了,搜索显示“由于此网站的 robots.txt,系统未提供关于该结果的说明 - 了解详情。”但是仔细看他的robots.txt,找不出确定的原因,犯了很多资料,也没有发现比较权威的说法。

于是自己就认真的看他的robots.txt(我勒个去,有好几百条呢!),根据所看的那些资料,写法不规范也可能是错误的我都挑了出来,代码如下:

Disallow:/search.asp?page=4&wherestr=&title=
Disallow:/%20http://cnvip.busytrade.com/indexVip.php?memid=maxiaol&show=1
Disallow:/ls-discovery/centrifugation/h..
Disallow:/diagnostics/chemistry/dxc/dxc..
Disallow:/diagnostics/chemistry/au/test..
Disallow:/diagnostics/hematology/lh-750..
Disallow:/products_
Disallow:/about2.asp[/quote
Disallow:/uppic/cp/lc/55b
Disallow:/ls-industrial/pc/coulter-coun..
Disallow:/ls-industrial/pc/laser-diffra..
Disallow:/ls-discovery/centrifugation/high-performance/avanti-j-e.html/
Disallow:/ls-discovery/flow/z-analyzer/z1-dual.html/
Disallow:/new/search.asp?page=4&wherestr=&title=
Disallow:/search.asp?page=2&wherestr=&title=
Disallow:/]Disallow:/
Disallow:/ls-discovery.asp/centrifugation.asp
Disallow:/ls-discovery/flow/quanta-sc.asp/
Disallow:/news/20121127206.html/
Disallow:/resources_1_eIQAP.asp/
Disallow:/news/2011117188.html/
Disallow:/news/200922821.html/
Disallow:/news/200791118.html/
Disallow:/news/200511145.html/
Disallow:/zyzxdisp
Disallow:/ls-disc
Disallow:/news/20
Disallow:/cp_disp

其中ls-discovery这个目录下的页面全部没有收录了,于是赶紧找权威的解释。终于找到一篇别人在2010年写的文章“利用“GOOGLE抓取”测试Robots书写正确性”,当时这个工具还是在实验室里面的,现在已经提拔出来了!https://www.google.com/webmasters/tools/googlebot-fetch?hl=zh-CN

经过一系列的测试,发现这个ls-discovery目录确实被robots.txt整个屏蔽了!但是根据rotbots.txt里面的指令,找不到准确屏蔽这个目录的命令。但是仔细观察这些不规范的,可以看到有这么一条:Disallow:/ls-discovery.asp/centrifugation.asp,我就在猜想:是不是这个"."就是罪魁祸首!?就像IIS又都解析漏洞一样,robots.txt也有这么一个执行漏洞,遇到"."就截止,直取“.”前面的内容,于是就成了“Disallow:/ls-discovery”,根据权威的解释,就是屏蔽了ls-discovery目录以及带这个关键词的所有页面。

Disallow:

该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。 例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help /index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html, 不能访问 /help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一 条Disallow记录。如果"/robots.txt"不存在或者为空文件, 则对于所有的搜索引擎robot,该网站都是开放的。”

除了这个解释,没有更好的解释了吧?

如果有高手知道真正的原因,请告知!感激不尽!


扫描二维码推送至手机访问。

版权声明:本文由光的传人博客www.liu16.com发布,如需转载请注明出处。

本文链接:http://www.liu16.com/post/testrobots.html?http://www.inspeed.biz/InspeedNewWeb/index/index.aspx

标签: SEO谷歌
分享给朋友:

相关文章

人们会怎么看这本书(What People are saying about “SEO 2013 & Beyond”)

人们会怎么看这本书(What People are saying about “SEO 2013 & Beyond”)

“阅读这本书你将会有意外的收获!”“博士安迪·威廉斯(本书作者)在我印象中是个一听到关于网站建设就安静下来的人,他对谷歌和其他搜索引擎的排名过程的解释没有人做的比他更好。如果学习了他的理论,你再想创建一个长寿的网站,就不需要再去留意担心谷歌...

核心包含、同义包含、精确包含区别,谈百度竞价高级短语

核心包含、同义包含、精确包含区别,谈百度竞价高级短语

百度竞价最近上线了“高级短语2.0”,将以前简单的“短语”更加“发扬光大”,捞金无节操啊!高级短语2.0中的短语,分为了三种模式:核心包含、同义包含、精确包含。从字面意思来说,越往后越精确。但是具体是怎样的呢?简单来说,核心包含,就是稍微缩...

微信营销活动十大经典案例

微信营销活动十大经典案例

2014年可以说是微信占领手机端的一年,近来业内外一直纠结于微信营销的问题,就目前情况而言,微信营销仍处于探索模式,尽管有媒体时不时报道某某微信赚了多少钱,但微信营销至今仍没有固定的模式,我们只能通过一些成功的微信来总结一下他们的经营模式。...

百度权重预估的百度流量与实际流量差距到底有多大?

百度权重预估的百度流量与实际流量差距到底有多大?

一直以来,站长工具提供的百度权重(简称BR,与谷歌的PR类似)及百度流量预估都不是百度官方数据,实际上是根据创建了百度指数的关键词的搜索指数以及该网站的排名预估的流量,其实是与实际流量大相径庭的,只能作为一个参考。为什么这么说呢?因为本博客...

力杰V8手机移动电源苹果充电宝iphone4s/5 高容量10000毫安 只要99元!

力杰V8手机移动电源苹果充电宝iphone4s/5 高容量10000毫安 只要99元!

淘宝上卖的最火的手机移动电源优惠促销购买地址:力杰V8手机移动电源苹果充电宝iphone4s/5 三星充电宝器10000毫安力杰(Cenda)自创业以来,一直致力于开发高新科技产品以解决人们的生活之道,改变人们在科技应用中的行为方式,并恪守...

谷歌最近可能小范围更新PR值,站长们注意了

谷歌最近可能小范围更新PR值,站长们注意了

昨晚检测公司网站友情链接的时候,发现有两个前几天还是PR3的网站竟然变成0了!震惊!以为站长工具出错了呢,今天回到公司就用其他工具查了下,果然变成0了!这两个链接的来源说来可笑,公司去年买的两个PR7的友情链接,可是今年2月份PR更新的时候...

评论列表

电子菜谱
11年前 (2013-05-03)

看下,还是不错的

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。