作者:雅虎搜索日志小组
近期有很多站长咨询,怎样正确设置"robots.txt"文件。为了解决广大站长朋友们的疑问,我们对《Robots.txt 协议标准》进行了翻译,希望此篇译文能够帮助大家对"robots.txt"文件有更深的了解。
Robots.txt 是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。
下面我们就来详细介绍一下它的使用方法:
Robots.txt 文件应该放在网站根目录下,并且该文件是可以通过互联网进行访问的。
例如:
如果您的网站地址是 http://www.yourdomain.com/
那么,该文件必须能够通过 http://www.yourdomain.com/robots.txt 打开并看到里面的内容。
格式:
User-agent:
用于描述搜索引擎蜘蛛的名字,在" Robots.txt "文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在" Robots.txt "文件中,"User-agent:*"这样的记录只能有一条。
Disallow:
用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。
举例:
例一:"Disallow:/help"
是指/help.html 和/help/index.html都不允许搜索引擎蜘蛛抓取。
例二:"Disallow:/help/"
是指允许搜索引擎蜘蛛抓取/help.html,而不能抓取/help/index.html。
例三:Disallow记录为空
说明该网站的所有页面都允许被搜索引擎抓取,在"/robots.txt"文件中,至少要有一条Disallow记录。如果"/robots.txt"是一个空文件,则对于所有的搜索引擎蜘蛛,该网站都是开放的可以被抓取的。
#:
Robots.txt 协议中的注释符。
举例:
例一:通过"/robots.txt"禁止所有搜索引擎蜘蛛抓取"/bin/cgi/"目录,以及 "/tmp/"目录和 /foo.html 文件,设置方法如下:
User-agent: *
Disallow: /bin/cgi/
Disallow: /tmp/
Disallow: /foo.html
例二:通过"/robots.txt"只允许某个搜索引擎抓取,而禁止其他的搜索引擎抓取。
如:只允许名为"slurp"的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取 "/cgi/" 目录下的内容,设置方法如下:
User-agent: *
Disallow: /cgi/
User-agent: slurp
Disallow:
例三:禁止任何搜索引擎抓取我的网站,设置方法如下:
User-agent: *
Disallow: /
例四:只禁止某个搜索引擎抓取我的网站
如:只禁止名为“slurp”的搜索引擎蜘蛛抓取,设置方法如下:
User-agent: slurp
Disallow: /
更多,请参考译文出处:http://www.robotstxt.org/wc/norobots.html
我的网页被百度给删掉了,不知道是不是也放了什么限制呢?请高手帮助.0755-26464689
发布者:根目录指的什么" - 2009年09月14日 0:07很详细,值得学习!
也很有帮助,值得摘录!
qq空间代码http://www.wwo.cc
发布者:goqqz@qq.com - 2009年05月22日 23:44谢谢,看明白了
发布者:看明白 - 2009年05月08日 11:33丁香美女图片站http://www.wwo.cc
发布者:丁香美女图片站 - 2009年05月08日 1:30公司网址:www.jili9988.com.cn
联系方式:13897947330QQ1004577485
吉利证件有限公司 专业的 ,信誉至上的 公司,我们有实力让你满意! 联系电话◥◣:13897947330QQ1004577485
◢◤ ◥◣办.证...◥◣专.业.刻.章
1、文凭类:各学校毕业证、高中、中专、职业学校、高等院校学历证书、自学考试、成人高考、函授、英语、计算机等级证书以及各种档案材料(含专科、本科、研究生、硕士、等)。并可根据客户要求办理:13897947330QQ1004577485
2、资职类:各类操作证(电工、焊工、叉车、司炉等)、技术等级证(初级、中级、高级)、厨师、美容美发、会计、会计师、教师、医师等资格证、职称证等。
13897947330QQ1004577485
3、户口类:各种防伪身份证、户口本、未婚证、结婚证、离婚证、准生证、健康证等
13897947330QQ1004577485。
公司网址:www.jili9988.com.cn
4、汽车档案:汽车驾驶证、行驶证、营运证、附加费、养路费、从业资格证、年审等
13897947330QQ1004577485。
5、房产证类:房屋所有权证、房屋他项权证、国有土地使用证、土地权利证明书、营业执照(企业、个体)、等
13897947330QQ1004577485
。 6、刻 章 类:公司(企业)公章、财务公章、个人私章,等。
联系方式手机 :13897947330QQ1004577485
公司网址:www.jili9988.com.cn
公司网址:www.jili9988.com.cn
联系方式:13897947330QQ1004577485
吉利证件有限公司 专业的 ,信誉至上的 公司,我们有实力让你满意! 联系电话◥◣:13897947330QQ1004577485
◢◤ ◥◣办.证...◥◣专.业.刻.章
1、文凭类:各学校毕业证、高中、中专、职业学校、高等院校学历证书、自学考试、成人高考、函授、英语、计算机等级证书以及各种档案材料(含专科、本科、研究生、硕士、等)。并可根据客户要求办理:13897947330QQ1004577485
2、资职类:各类操作证(电工、焊工、叉车、司炉等)、技术等级证(初级、中级、高级)、厨师、美容美发、会计、会计师、教师、医师等资格证、职称证等。
13897947330QQ1004577485
3、户口类:各种防伪身份证、户口本、未婚证、结婚证、离婚证、准生证、健康证等
13897947330QQ1004577485。
公司网址:www.jili9988.com.cn
4、汽车档案:汽车驾驶证、行驶证、营运证、附加费、养路费、从业资格证、年审等
13897947330QQ1004577485。
5、房产证类:房屋所有权证、房屋他项权证、国有土地使用证、土地权利证明书、营业执照(企业、个体)、等
13897947330QQ1004577485
。 6、刻 章 类:公司(企业)公章、财务公章、个人私章,等。
联系方式手机 :13897947330QQ1004577485
公司网址:www.jili9988.com.cn
<a href="http://seo-dic.com.cn">我</a>还在找关于网站地图在robots.txt中的写法。
发布者:美丽星点 - 2008年11月23日 1:37最新的在哪里?
发布者:美丽星点 - 2008年11月23日 1:34请教是否支持以下写法:
User-Agent: *
Disallow: /
Allow: /*.htm$
Allow: /*.html$
Allow: /*.xml$
Allow: /Search.asp?*$
Allow: /Rss.asp?*$
好像还不够详细的
http://www.hgzf.com/
不错,学习了!
发布者:神吖网 - 2008年11月17日 14:32真不错啊
http://www.glgth.com
长见识了
发布者:glgth - 2008年11月08日 22:26简单易懂,学习了。
发布者:北京SEO - 2008年09月30日 21:48谢谢学习了
http://bbs.0575s.com
Slurp还支持Allow语法,比如你需要在限制的目录下,特别开放一个允许的路径,可以用 Allow: /yourdirectory/yourpage.html
发布者:OGS - 2008年08月12日 8:22不会写的话,可以不用写。我之前发现大部分的站点,例如:http://www.seo.com.cn都没有写。
发布者:seo - 2008年01月29日 10:10 http://www.yourdomain.com/robots.txt
对于robots.txt他的安全性不是存在了问题,怎么弄?
test
发布者:test - 2007年09月11日 17:22挺好的文章
发布者:laser - 2007年09月11日 17:21挺好的文章
发布者:laser - 2007年09月11日 17:15我还是觉得Google的比较好
发布者:Nipao.泥铺 - 2007年09月11日 9:34我通常都会留一个空的robots.txt在根目录,不然会产生很多404.
发布者:Gomain - 2007年09月07日 20:13这些是老生常谈。
yahoo不是和Google、LIVE、ask共同合作支持sitemap标准嘛。共同标准0.9中还包括sitemap的自发现。
也就是在robots.txt中加入sitemap的url。
但是这一条Google虽然支持,但是经常收到莫名其妙的“不正确的sitemap引用”提示。
yahoo则一直不知道到底开没开始支持sitemap自发现。
这个问题请回答一下,谢谢。:)
发布者:Sucirst - 2007年09月07日 16:21看来Google的sitemap协议还没有在robots.txt中体现出来。
发布者:xjb - 2007年09月07日 15:41