如何写robots.txt文件
在学习seo的过程中,robots.txt的撰写是不可避免的,但是众多新手并不知道如何写robots.txt,甚至连什么是robots.txt都不知道,我在刚开始的时候也是没有怎么认真写,我们广州seo咨询室就写了一个空的robots.txt文件,现在想想,对它的研究是少了点,毕竟robots.txt文件对一个网站的收录和排名还是有很大的帮助的,写好了,就等于你牵着se的鼻子走。
那什么是robots.txt呢?
放在网站根目录,用于指定搜索引擎蜘蛛spider在您网站上的抓取范围的一个txt纯文本文件,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息,spider在访问一个网站时,根据蜘蛛的工作原理,会首先检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。而这个文件就是robots.Txt文件。
如何写robots.Txt 文件?
首先清楚它的格式:
User-agent: *
Disallow:/
其中user翻译过来是用户,agent翻译过来是代理人,从语法学出发,user-agent翻译过来是施事者,意思就是针对“:”后面的“*”,其中“*”表示为对所有对象(仅代表蜘蛛)有效,但如果要针对某个对象,必须是搜索引擎的蜘蛛,Baiduspider,Googlebot或者其他se蜘蛛。
Disallow翻译过来是不允许,可以写成allow。后面的“/”表示所有文件,如果是某个文件夹,则要表示为“/文件夹1/”,如:
User-agent: Baiduspider
Disallow: /
则意思为,针对百度蜘蛛,不允许所有文件。再如:
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
这个意思则为针对搜索对象,不允许蜘蛛访问cgi-bin,tmp,~joe三个文件夹,但是值得注意的是不能写成”Disallow: /cgi-bin/ /tmp/”。
其他的例子还有:
1、禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /
2、允许所有的robot访问
User-agent: *
Disallow:
或者
User-agent: *
Allow: /
注意,最直接的可以建一个空文件 “/robots.txt”
3、仅允许Baiduspider访问您的网站
User-agent: Baiduspider
allow: /
或者:
User-agent: Baiduspider
Disallow:
disallow:后面不写任何东西,则表示为空,意思为针对针百度蜘蛛,不允许文件为空,则整体意思是仅允许Baiduspider访问该网站。
4、允许访问特定目录中的部分url
User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
5、使用”*”限制访问url
User-agent: *
Disallow: /cgi-bin/*.htm
意为禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
6、使用”$”限制访问url
User-agent: *
Allow: .htm$
Disallow: /
意为仅允许访问以”.htm”为后缀的URL
7、禁止访问网站中所有的动态页面
User-agent: *
Disallow: /*?*
8、禁止Baiduspider抓取网站上所有图片
User-agent: Baiduspider
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .gif$
Disallow: .png$
Disallow: .bmp$
意为仅允许抓取网页,禁止抓取任何图片
9、仅允许Baiduspider抓取网页和.gif格式图片
User-agent: Baiduspider
Allow: .gif$
Disallow: .jpg$
Disallow: .jpeg$
Disallow: .png$
Disallow: .bmp$
意为允许抓取网页和gif格式图片,不允许抓取其他格式图片
10、仅禁止Baiduspider抓取.jpg格式图片
User-agent: Baiduspider
Disallow: .jpg$
新手在学习seo的时候没有必要写这么详细的robots.txt文件,把主要的写出来就可以了,如果写的不好还会得到不好的效果,上述的例子比较齐全,新手要认真的看,把思路理清,整合一个适合自己网站的文件,熟悉之后就能使用到多个网站了,广州seo咨询室愿与你同在。
原文链接:原文链接 : http://www.seoask.com.cn/seoask/robots-txt/
版权所有,转载请以链接形式注明作者及原始出处,谢谢合作。


















是允许和不允许整个文件目录。如果对某个特定的URL不允许抓取可以用nofollow.
[回复]