如何写robots.txt文件

2009-10-21  |  23:47分类:SEO咨询  |  标签:  |  838 views

在学习seo的过程中,robots.txt的撰写是不可避免的,但是众多新手并不知道如何写robots.txt,甚至连什么是robots.txt都不知道,我在刚开始的时候也是没有怎么认真写,我们广州seo咨询室就写了一个空的robots.txt文件,现在想想,对它的研究是少了点,毕竟robots.txt文件对一个网站的收录和排名还是有很大的帮助的,写好了,就等于你牵着se的鼻子走。

那什么是robots.txt呢?

放在网站根目录,用于指定搜索引擎蜘蛛spider在您网站上的抓取范围的一个txt纯文本文件,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息,spider在访问一个网站时,根据蜘蛛的工作原理,会首先检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。而这个文件就是robots.Txt文件。

如何写robots.Txt 文件?

首先清楚它的格式:

User-agent: *

Disallow:/

其中user翻译过来是用户,agent翻译过来是代理人,从语法学出发,user-agent翻译过来是施事者,意思就是针对“:”后面的“*”,其中“*”表示为对所有对象(仅代表蜘蛛)有效,但如果要针对某个对象,必须是搜索引擎的蜘蛛,Baiduspider,Googlebot或者其他se蜘蛛。

Disallow翻译过来是不允许,可以写成allow。后面的“/”表示所有文件,如果是某个文件夹,则要表示为“/文件夹1/”,如:

User-agent: Baiduspider

Disallow: /

则意思为,针对百度蜘蛛,不允许所有文件。再如:

User-agent: *

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

这个意思则为针对搜索对象,不允许蜘蛛访问cgi-bin,tmp,~joe三个文件夹,但是值得注意的是不能写成”Disallow: /cgi-bin/ /tmp/”。

其他的例子还有:

1、禁止所有搜索引擎访问网站的任何部分:

User-agent: *

Disallow: /

2、允许所有的robot访问

User-agent: *

Disallow:

或者

User-agent: *

Allow: /

注意,最直接的可以建一个空文件 “/robots.txt”

3、仅允许Baiduspider访问您的网站

User-agent: Baiduspider

allow: /

或者:

User-agent: Baiduspider

Disallow:

disallow:后面不写任何东西,则表示为空,意思为针对针百度蜘蛛,不允许文件为空,则整体意思是仅允许Baiduspider访问该网站。

4、允许访问特定目录中的部分url

User-agent: *

Allow: /cgi-bin/see

Allow: /tmp/hi

Allow: /~joe/look

Disallow: /cgi-bin/

Disallow: /tmp/

Disallow: /~joe/

5、使用”*”限制访问url

User-agent: *

Disallow: /cgi-bin/*.htm

意为禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。

6、使用”$”限制访问url

User-agent: *

Allow: .htm$

Disallow: /

意为仅允许访问以”.htm”为后缀的URL

7、禁止访问网站中所有的动态页面

User-agent: *

Disallow: /*?*

8、禁止Baiduspider抓取网站上所有图片

User-agent: Baiduspider

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .gif$

Disallow: .png$

Disallow: .bmp$

意为仅允许抓取网页,禁止抓取任何图片

9、仅允许Baiduspider抓取网页和.gif格式图片

User-agent: Baiduspider

Allow: .gif$

Disallow: .jpg$

Disallow: .jpeg$

Disallow: .png$

Disallow: .bmp$

意为允许抓取网页和gif格式图片,不允许抓取其他格式图片

10、仅禁止Baiduspider抓取.jpg格式图片

User-agent: Baiduspider

Disallow: .jpg$

新手在学习seo的时候没有必要写这么详细的robots.txt文件,把主要的写出来就可以了,如果写的不好还会得到不好的效果,上述的例子比较齐全,新手要认真的看,把思路理清,整合一个适合自己网站的文件,熟悉之后就能使用到多个网站了,广州seo咨询室愿与你同在。

 作者:Wotch@广州SEO咨询室
 原文链接:原文链接 : http://www.seoask.com.cn/seoask/robots-txt/
 版权所有,转载请以链接形式注明作者及原始出处,谢谢合作。
喜欢?就收藏吧: Del.icio.us Google书签 Digg Live Bookmark Technorati Furl Yahoo书签 Facebook 百度搜藏 新浪ViVi 365Key网摘 天极网摘 和讯网摘 博拉网 POCO网摘 添加到饭否 QQ书签 Digbuzz我挖网
  • 暂无相关日志

2条评论 关于 “如何写robots.txt文件”

  1. 广州新里程培训 发表于: 十月 24th, 2009 11:55

    是允许和不允许整个文件目录。如果对某个特定的URL不允许抓取可以用nofollow.

    [回复]

  2. Cee 发表于: 十月 27th, 2009 09:15

    之前公司的站改版写了一个robots,2周后,百度收录200+减少至50以下.. 直接抓取之前的索引了

    [回复]


发表您的评论

*
To prove you're a person (not a spam script), type the security word shown in the picture. Click on the picture to hear an audio file of the word.
Click to hear an audio file of the anti-spam word