robots.txt文件到底有什么用呢?

时间: 2011-06-02 / 分类: SEO经验交流 / 浏览次数: / 69个评论 发表评论

前几天有朋友在网站通过聊天窗口问红涛,有什么什么办法阻止搜索引擎的收录,因为自己网站上面有的东西不想被搜索引擎收录。其实是可以实现的,在这里就有必要好好介绍一下robots.txt文件,因为通过这个robots.txt全完可以实现搜索引擎收录的问题。

其实不管是企业网站还是门户网站,上面都会有些资料是保密而不对外公开的。怎么样做到不对外公开呢?唯一的保密的措施就是不让搜索引擎来搜录这些信息。这 样就会不在网络上公司,那么要实现这个网站页面不收录,就体了robots.txt的作用啦!robots.txt是一个简单的记事本文件,这是网站管理 员和搜录引擎对话的一个通道。在这个文件中网站管理者可以声明该网站中不想被robots访问的部分,或者指定搜索引擎只收录指定的内容。

当一个搜索机器人(有的叫搜索蜘蛛)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。

既然我们这里知道了什么是robots.txt,我们该如何来应用呢?

1、如果我们网站的内容为全部公开,则不需要要设置robots.txt或robots.txt为空就可以啦。
2、robots.txt这个文件名必需要是小写而且都要放在网站的根目录下http://www.hongtaoseo.com/robots.txt一般要通过这种URL形式能访问到,才说明我们放的位置是正确的。
3、robots.txt一般只写上两种函数:User-agent和 Disallow。有几个禁止,就得有几个Disallow函数,并分行描述。
4、至少要有一个Disallow函数,如果都允许收录,则写: Disallow: ,如果都不允许收录,则写:Disallow: /  (注:只是差一个斜杆)。

写法说明
User-agent: *  星号说明允许所有搜索引擎收录

Disallow: /search.html   说明 http://www.honbgtaoseo.com/search.html 这个页面禁止搜索引擎抓取。

Disallow: /index.php?   说明类似这样的页面http://www.www.hongtaoseo.com/index.php?search=%E5%A5%BD&action=search&searchcategory=%25 禁止搜索引擎抓取。

常见的用法实例:

允许所有的robot访问
User-agent: *
Disallow:

或者也可以建一个空文件 “/robots.txt” file

禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /

禁止所有搜索引擎访问网站的几个部分(下例中的01、02、03目录)
User-agent: *
Disallow: /01/
Disallow: /02/
Disallow: /03/

禁止某个搜索引擎的访问(下例中的BadBot)

User-agent: BadBot
Disallow: /

只允许某个搜索引擎的访问(下例中的Crawler)
User-agent: Crawler
Disallow:

User-agent: *
Disallow: /

另外,我觉得有必要进行拓展说明,对robots meta进行一些介绍:

Robots META标签则主要是针对一个个具体的页面。和其他的META标签(如使用的语言、页面的描述、关键词等)一样,Robots META标签也是放在页面的<head></head>中,专门用来告诉搜索引擎ROBOTS如何抓取该页的内容。

Robots META标签的写法:

Robots META标签中没有大小写之分,name=”Robots”表示所有的搜索引擎,可以针对某个具体搜索引擎写为name=”BaiduSpider”。 content部分有四个指令选项:index、noindex、follow、nofollow,指令间以“,”分隔。

INDEX 指令告诉搜索机器人抓取该页面;

FOLLOW 指令表示搜索机器人可以沿着该页面上的链接继续抓取下去;

Robots Meta标签的缺省值是INDEX和FOLLOW,只有inktomi除外,对于它,缺省值是INDEX,NOFOLLOW。

这样,一共有四种组合:

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,FOLLOW”>
<META NAME=”ROBOTS” CONTENT=”INDEX,NOFOLLOW”>
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>

其中

<META NAME=”ROBOTS” CONTENT=”INDEX,FOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”ALL”>;
<META NAME=”ROBOTS” CONTENT=”NOINDEX,NOFOLLOW”>可以写成<META NAME=”ROBOTS” CONTENT=”NONE”>

目前看来,绝大多数的搜索引擎机器人都遵守robots.txt的规则,而对于Robots META标签,目前支持的并不多,但是正在逐渐增加,如著名搜索引擎GOOGLE就完全支持,而且GOOGLE还增加了一个指令“archive”,可以限制GOOGLE是否保留网页快照。例如:

<META NAME=”googlebot” CONTENT=”index,follow,noarchive”>

表示抓取该站点中页面并沿着页面中链接抓取,但是不在GOOLGE上保留该页面的网页快照。

robots.txt文件对于我们做SEO的朋友来说也是经常要用到的,所以我们还要好好了解他的具体操作方法。红涛分享

 

 

 

 

69个评论

  1. 1楼青岛SEO
    2011/06/02 05:49:50

    这个不错,红涛老师的执行力的确很厉害~

    • 2楼红涛
      2011/06/02 06:32:02

      不是吧,我就这点还可以

  2. 3楼青岛SEO
    2011/06/02 05:51:05

    新站刚上线,不想让百度知道,屏蔽掉蜘蛛,对以后的收录有影响吗?

    • 4楼红涛
      2011/06/02 06:32:09

      没有影响

  3. 5楼姜敏
    2011/06/02 06:03:36

    还真没留意这个文件呢

    • 6楼红涛
      2011/06/02 06:32:59

      呵呵,这个应该每个网站都有的啊

  4. 7楼安徽seo
    2011/06/02 06:17:28

    没注意过啊。。。看来以后要留心了。。。。

    • 8楼红涛
      2011/06/02 06:33:31

      嗯,这个很重要的啊,

  5. 9楼唐致贵
    2011/06/02 06:20:10

    我今天刚找人给我弄了这个,早知道就找你啦

    • 10楼红涛
      2011/06/02 06:33:45

      哈哈,你是什么程序在网上可以找到的啊

  6. 11楼福清seo
    2011/06/02 06:23:43

    这个文件删了 ;-)

    • 12楼红涛
      2011/06/02 06:34:03

      呵呵,还是找回来好些,如果没有重要的东西不要影响也不会太大

  7. 13楼最弱博客
    2011/06/02 06:43:45

    学习,进步!

    • 14楼红涛
      2011/06/02 06:56:41

      呵呵,一起进步啊

  8. 15楼seo优化
    2011/06/02 07:23:21

    过来看看。博主很勤奋。

    • 16楼红涛
      2011/06/02 11:10:20

      呵呵,怎么说呢

  9. 17楼七七
    2011/06/02 07:29:18

    不错的分享,来学习了!

    • 18楼红涛
      2011/06/02 11:10:30

      呵呵,能学到东西就好

  10. 19楼临沂网络公司
    2011/06/02 07:29:34

    最简单的就是正规啊

    • 20楼红涛
      2011/06/02 11:10:40

      嗯,简单的还是受欢迎的

  11. 21楼网络公关公司
    2011/06/02 07:30:07

    还是搞个好点啊

    • 22楼红涛
      2011/06/02 11:11:10

      嗯,当然有用的啊

  12. 23楼佳宁
    2011/06/02 07:32:37

    呵呵,谢谢涛哥的分享

    • 24楼红涛
      2011/06/02 11:11:24

      欢迎常来提提建议

  13. 25楼乾元轩
    2011/06/02 07:38:18

    这个文件存在会比较好的,就算是空文件,也行啊,不过新人可能会犯些语法错误,例如我,呵呵

    • 26楼红涛
      2011/06/02 11:11:32

      按理说还是要的啊

  14. 27楼徐金胜
    2011/06/02 07:54:56

    不知道我的robots写的对不对呢

    • 28楼红涛
      2011/06/02 11:11:51

      呵呵,看看这个贴子就知道了啊

  15. 29楼太子虹
    2011/06/02 08:09:47

    太强大了!

    • 30楼红涛
      2011/06/02 11:12:46

      呵呵,很强大吗,

  16. 31楼丹阳seo
    2011/06/02 08:32:13

    用Robots.txt 中写网站地图 感觉对搜索引擎引擎很友好。写完之后,我的博客收录数立刻加快了….

    • 32楼红涛
      2011/06/02 11:13:18

      真的这样吗?看来我也要好好用用啊

  17. 33楼海外网站推广
    2011/06/02 08:38:57

    Robots.txt不是很会写,不过看了后大致还行….

    • 34楼红涛
      2011/06/02 11:13:33

      可以先看人家的写法,这个不难

  18. 35楼安徽网站优化
    2011/06/02 08:53:26

    robots.txt可以让蜘蛛有相对性的去抓取它想要的内容。

    • 36楼红涛
      2011/06/02 11:14:51

      嗯,也就是网站管理员与蜘蛛沟通的渠道

  19. 37楼DH
    2011/06/02 09:01:29

    我觉得还是不靠谱。知道url还是能访问。最好设置密码访问

    • 38楼红涛
      2011/06/02 11:15:42

      这时不是说URL问题,我只是不让蜘蛛收录罢了,如我们的网站模版文件,管理管理等等

  20. 39楼湖南seo
    2011/06/02 09:05:19

    帮我写个、呵呵

    • 40楼红涛
      2011/06/02 11:16:08

      呵呵,不是吧,朋友你的不是有吗

  21. 41楼自动门
    2011/06/02 09:18:58

    嗯,有在用!

    • 42楼红涛
      2011/06/02 11:16:18

      嗯,还是写一个好些,不难

  22. 43楼温州网站建设
    2011/06/02 09:29:22

    做SEO必须了解这个的

    • 44楼红涛
      2011/06/02 11:16:40

      嗯,对于我们这个行业人士来说还是有必要

  23. 45楼IT技术交流网
    2011/06/02 10:02:09

    呵呵 通俗的说“引导蜘蛛” ;-)

    • 46楼红涛
      2011/06/02 11:17:10

      嗯,可以这样理解

  24. 47楼电商圈
    2011/06/02 11:09:03

    这个很重要啊··学习了

    • 48楼红涛
      2011/06/02 11:17:40

      呵呵,做好就行啦

  25. 49楼北京SEO
    2011/06/02 11:39:35

    robots.txt其实还是很强大的哦。看怎么用了

    • 50楼红涛
      2011/06/02 11:42:12

      嗯,呵呵确实如此

  26. 51楼无天
    2011/06/02 11:41:00

    百度站长帮助里页有介绍,但介绍说的是一套,实际又是一套。
    实际测试过,百度对robots.txt反应很慢,而且反应不彻底!不彻底就是,百度也小小的识别这个,但最后收录还是有的,快照也会跟着变,只是慢了一个拍!

    • 52楼红涛
      2011/06/02 11:42:35

      确实反应有些慢,百度有时候还不是十分遵守

  27. 53楼乐意淘
    2011/06/02 13:49:16

    对有些不守规矩的搜索引擎就没啥效果了

    • 54楼红涛
      2011/06/02 13:57:48

      哈哈,也是

  28. 55楼灰指甲的治疗方法
    2011/06/02 17:15:09

    一直不了解robots.txt怎么样,学习了~~呵呵

    • 56楼红涛
      2011/06/03 01:46:28

      不是专业人士,也不需要去了解,比较费时间

  29. 57楼武汉SEO
    2011/06/04 06:28:08

    这个刚开始有了解,试着写过,不过网站到目前没用到过,电商圈写的很详细,支持了

    • 58楼红涛
      2011/06/04 10:06:07

      呵呵,我叫红涛,

  30. [...] 1.Google XML Sitemaps 生成网站地图,配合robots文件为搜索引擎指明地图位置; [...]

  31. [...] 除此之外谷歌还比较看中网站程序,一般在谷歌能获得好的排名的网站,他们有一个通性就是网页代码写得很标准,基本没有什么垃圾代码的存在。而且很多新的一些SEO细节的操作,在谷歌就比较注重。如:robots.txt文件、nofollow属性、301等等,google都会有很原则的去遵守。现在谷歌也不是很排斥新站了,之前在谷歌一些存在的一种沙盒效应(英文:Sandbox)的说法,目前只要我们能把网站内容质量提高,外链持续有规律的增加,基本可以很快的出来。简单的理解为,新站在谷歌一样可以在比较的时间内获取排名啦! [...]

  32. 61楼seoer
    2011/06/07 11:36:04

    不知道为什么这几天我的robots.txt失效了,我查看谷歌收录,发现不少被屏蔽的标签又重新被收录了。 :roll:

  33. [...] 如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。 [...]

  34. 63楼海外置业
    2011/11/12 15:07:20

    做网站的要持之以恒

    • 64楼红涛
      2011/11/12 21:29:47

      这个是必须的

  35. 65楼东东博客
    2011/12/08 00:05:13

    学习了,还没有好好实践。

    • 66楼红涛
      2011/12/15 22:23:51

      做SEo要多实战呢

  36. 67楼株洲SEO
    2011/12/12 19:29:08

    第二段第二行的“公司”是不是写错了,应该的“公开”吧 :roll:

    • 68楼红涛
      2011/12/15 21:57:51

      嗯,我去改改

  37. 69楼qq97583789
    2013/01/01 02:25:05

    本人也认为在robots.txt加入网站地图比较好因为蜘蛛最先抓取的就是这个文件,加入地图会更好的引导爬虫,本人新建了个站,在网站中用了百度统计,百度分享等百度的代码,然后像百度提交了网站结果两天就收录了,而soso。搜狗等一直没看见影子

发表评论

您的昵称 *

您的邮箱 * (绝对保密)

您的网站

icon_wink.gif icon_neutral.gif icon_mad.gif icon_twisted.gif icon_smile.gif icon_eek.gif icon_sad.gif icon_rolleyes.gif icon_razz.gif icon_redface.gif icon_surprised.gif icon_mrgreen.gif icon_lol.gif icon_idea.gif icon_biggrin.gif icon_evil.gif icon_cry.gif icon_cool.gif icon_arrow.gif icon_confused.gif icon_question.gif icon_exclaim.gif 


css.php