Robots.txt的秘密

维基百科对Robots.txt的解释是:Robots.txt是一种文本协议,为了保护网站和用户的隐私,它规定搜索引擎蜘蛛哪些内容是可以检索的,哪些是不被允许的。那么,大型网站的robots.txt是怎么写的呢?他们有哪些内容是不想搜索引擎抓取的呢?这些内容要么是内部隐私项目,要么是用户隐私资料等等。带着这种好奇心,我打算一窥究竟。

百度

百度的Robot.txt里面设置了禁止让自己的Baiduspider来爬行,或许很诡异,其实很好理解,作为搜索引擎本身,根本没必要自己爬自己的网页,相反只会增加负载。

User-agent: Baiduspider
Disallow: /baidu
User-agent: *
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
测试了一下,www.baidu.com/shifen/是可以访问的,是老板的百度推广。
人人

人人网的robots.txt,禁止了搜索引擎爬行用户的资料及好友信息,这一点是尊重了用户隐私。

# Robots.txt file from http://www.xiaonei.com
# All robots will spider the domain
User-agent: *
Allow: /
Disallow: /profile.do*
Disallow: /getuser.do*
QQ微博

访问腾讯微博的robots.txt,你会惊奇的发现这个地址:http://t.qq.com/vip_index_sitemap.xml

User-agent: *
Disallow: /k/
Disallow: /search/
Disallow: /invite/
Disallow: /asyn/
Disallow: /req/
Disallow: /labs/
Sitemap: http://t.qq.com/vip_index_sitemap.xml
Sitemap: http://t.qq.com/vip_messages_sitemap.xml

这个xml配置文件记录了腾讯所有认证微博的地址,我想腾讯微博得工程师们为了方便将单个人索引才这样做,但是总觉得这样做不是太妥,

希望他们的工程师能看到这篇文章。

新浪微博

新浪微博的robots.txt,比较简洁。

User-agent: *
Allow: /
robots txt


—————————————————————
与我交流,微信号:okyuhang

转载随意,请注明出处:余航
本文链接地址:Robots.txt的秘密
署名-非商业性使用-禁止演绎