当前位置:首页 > 网络推广 > 正文内容

利用“GOOGLE抓取方式”工具测试Robots书写正确性

光的传人12年前 (2013-05-02)网络推广2551

有一个客户的网站,一些很重要的页面被屏蔽了,搜索显示“由于此网站的 robots.txt,系统未提供关于该结果的说明 - 了解详情。”但是仔细看他的robots.txt,找不出确定的原因,犯了很多资料,也没有发现比较权威的说法。

于是自己就认真的看他的robots.txt(我勒个去,有好几百条呢!),根据所看的那些资料,写法不规范也可能是错误的我都挑了出来,代码如下:

Disallow:/search.asp?page=4&wherestr=&title=
Disallow:/%20http://cnvip.busytrade.com/indexVip.php?memid=maxiaol&show=1
Disallow:/ls-discovery/centrifugation/h..
Disallow:/diagnostics/chemistry/dxc/dxc..
Disallow:/diagnostics/chemistry/au/test..
Disallow:/diagnostics/hematology/lh-750..
Disallow:/products_
Disallow:/about2.asp[/quote
Disallow:/uppic/cp/lc/55b
Disallow:/ls-industrial/pc/coulter-coun..
Disallow:/ls-industrial/pc/laser-diffra..
Disallow:/ls-discovery/centrifugation/high-performance/avanti-j-e.html/
Disallow:/ls-discovery/flow/z-analyzer/z1-dual.html/
Disallow:/new/search.asp?page=4&wherestr=&title=
Disallow:/search.asp?page=2&wherestr=&title=
Disallow:/]Disallow:/
Disallow:/ls-discovery.asp/centrifugation.asp
Disallow:/ls-discovery/flow/quanta-sc.asp/
Disallow:/news/20121127206.html/
Disallow:/resources_1_eIQAP.asp/
Disallow:/news/2011117188.html/
Disallow:/news/200922821.html/
Disallow:/news/200791118.html/
Disallow:/news/200511145.html/
Disallow:/zyzxdisp
Disallow:/ls-disc
Disallow:/news/20
Disallow:/cp_disp

其中ls-discovery这个目录下的页面全部没有收录了,于是赶紧找权威的解释。终于找到一篇别人在2010年写的文章“利用“GOOGLE抓取”测试Robots书写正确性”,当时这个工具还是在实验室里面的,现在已经提拔出来了!https://www.google.com/webmasters/tools/googlebot-fetch?hl=zh-CN

经过一系列的测试,发现这个ls-discovery目录确实被robots.txt整个屏蔽了!但是根据rotbots.txt里面的指令,找不到准确屏蔽这个目录的命令。但是仔细观察这些不规范的,可以看到有这么一条:Disallow:/ls-discovery.asp/centrifugation.asp,我就在猜想:是不是这个"."就是罪魁祸首!?就像IIS又都解析漏洞一样,robots.txt也有这么一个执行漏洞,遇到"."就截止,直取“.”前面的内容,于是就成了“Disallow:/ls-discovery”,根据权威的解释,就是屏蔽了ls-discovery目录以及带这个关键词的所有页面。

Disallow:

该项的值用于描述不希望被访问的一组URL,这个值可以是一条完整的路径,也可以是路径的非空前缀,以Disallow项的值开头的URL不会被 robot访问。 例如"Disallow:/help"禁止robot访问/help.html、/helpabc.html、/help /index.html,而"Disallow:/help/"则允许robot访问/help.html、/helpabc.html, 不能访问 /help/index.html。"Disallow:"说明允许robot访问该网站的所有url,在"/robots.txt"文件中,至少要有一 条Disallow记录。如果"/robots.txt"不存在或者为空文件, 则对于所有的搜索引擎robot,该网站都是开放的。”

除了这个解释,没有更好的解释了吧?

如果有高手知道真正的原因,请告知!感激不尽!


扫描二维码推送至手机访问。

版权声明:本文由光的传人博客www.liu16.com发布,如需转载请注明出处。

本文链接:http://www.liu16.com/post/testrobots.html

标签: SEO谷歌
分享给朋友:

相关文章

南京大屠杀纪念日是12月13日,亲!别再转发了,让人家笑话~

南京大屠杀纪念日是12月13日,亲!别再转发了,让人家笑话~

最近几天,一条这样的不实信息在网络上铺天盖地席卷而来~~~很是让人吃惊!震撼!不解!这宣传速度是如此迅速,这宣传范围竟如此之广,足见网络信息传播的强大力量!可是,这是一条怎样的信息呢?亲,不要再转发了!连自己国家起码的纪念日都弄不清楚,还转...

企鹅算法的前后(Pre & Post Penguin SEO)

企鹅算法的前后(Pre & Post Penguin SEO)

在2011年2月11日,谷歌发布的熊猫更新。更新将从收录中过滤掉低质量的网页。这是必要的,因为大量的早期版本(代号为“咖啡因”)增加了一些网页,谷歌需要处理 - 大部分是低质量。熊猫算法让站长们抓耳挠腮,为什么他们的网站被处罚。答案很简单...

贝蒂斯橄榄油价格内幕:贝蒂斯青岛总代理批发团购最实惠!

贝蒂斯橄榄油价格内幕:贝蒂斯青岛总代理批发团购最实惠!

橄榄油买什么牌子的好?毫无疑问,随着贝蒂斯橄榄油央视广告的播出,国内高端橄榄油品牌就成了贝蒂斯的天下!于是,贝蒂斯橄榄油就成了橄榄油世界里的高富帅,成为了送礼首选橄榄油品牌!可是,买品牌产品送礼也是有小苦恼的:品牌知名度高,其产品价格也相对...

活在过去的站长(Webmasters Living in the Past)

活在过去的站长(Webmasters Living in the Past)

很多的站长(或为您的企业争夺业务的SEO公司)可能会不同意我对现代SEO的看法。这很好。越多人不知道现代SEO的精髓,我和我的客户就会有越少的竞争者。我相信你可以找到人说,这全是垃圾,他们能按你的要求通过大量的关键词锚文本反链达到网页的排名...

青岛卖礼品的地方都有哪些?

青岛卖礼品的地方都有哪些?

青岛,作为山东省最大的城市,已经晋级全国一线城市的行列了!城市大了,企业就多,公司之间的业务交易,就少不了一些礼尚往来,所以,送礼也是大城市里不可或缺的主题!每到逢年过节,为什么道路会变得更拥堵?走亲访友是一回事,其实送礼联络感情才是过节堵...

你的文章看起来像专家写的么?(Does your article sound as if it was written by an expert?)

你的文章看起来像专家写的么?(Does your article sound as if it was written by an expert?)

我想问的原因是,当某人写文章的时候自己知道他真正的主题,他们就会用一定的“利基词汇”(阿光注:专用名词?相关词汇?)。也就是说,他们会用相应的单词和短语准确定义文章的主题。你可能读过我写过的一篇文章“利基词汇 -为什么内容贫乏的文章不能隐藏...

评论列表

电子菜谱
12年前 (2013-05-03)

看下,还是不错的

发表评论

访客

看不清,换一张

◎欢迎参与讨论,请在这里发表您的看法和观点。