- 注册时间
- 2008-9-13
- 最后登录
- 1970-1-1
- 在线时间
- 0 小时
- 阅读权限
- 200
- 积分
- 0
- 帖子
- 24482
- 精华
- 4
- UID
- 9
  
|
[编辑本段]0 x" F; r9 x5 t
什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。% {- S6 x$ E: y% a, z8 k$ e4 e( N' N0 A
* W$ O5 ~0 z9 J, W
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
( }7 C! t0 w0 k6 ]/ z5 P& [+ l& z* [( n8 k! {6 f3 ?1 G$ K
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
- P) p# O) t7 R o6 ^' \, p* Q; \4 Z( j/ f! U' t8 H
语法:最简单的 robots.txt 文件使用两条规则:3 z4 M1 ~. J3 |6 Q% g
; k* R' ?+ v6 Q% J5 A' ~
• User-Agent: 适用下列规则的漫游器
$ G; o9 a; b, s; }& T( z& A
8 O+ E3 t+ f3 _, Q; q3 F • Disallow: 要拦截的网页
6 F1 S" q7 t& A- b[编辑本段]
$ z9 T! s: n) [5 Frobots.txt使用误区 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。- l' o$ [& \0 t, A$ A
. T. M9 P* n$ j: b 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。, I* [/ k" _0 J* x# D9 b
+ w6 b2 I$ Z$ l' {1 z* p
误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。
( @7 u' E9 S) i$ v5 v, d
4 _3 X! y* D5 y5 l n 网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
3 I# j- x: B$ r5 w t% f3 b+ _) j# t) x( E4 a# q$ T
具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
: y( P3 |$ i% I% Z' a
$ A/ e. f" ?' g( |- Z 误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
# I& `8 Y0 T6 n1 g4 P, R: r& I# k' s/ G0 q8 f3 N/ u
如果这样的话,会导致整个网站不能被搜索引擎收录。
, ?0 n8 S3 @, }6 O! L9 ~ x! C1 \. ][编辑本段]
6 w* ~& t0 j9 Q( ]6 |1 b% k" N- ?robots.txt使用技巧 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。- o2 C6 H* H/ j- r# h, b
9 \4 ^& k' A: H1 d7 e1 t 2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
! y2 a( ~7 R# V. N5 t b# I; n9 |5 l- V
下面是VeryCMS里的robots.txt文件:
8 Z7 d& Q+ M1 ]9 W" Q# p2 \/ q& \# l( ?- E0 `# F1 i- ^- X
User-agent: *% L1 b6 L% ?5 E
: G5 w, M- m) D; w! m. u
Disallow: /admin/ 后台管理文件
0 A, h6 l" \! C' P5 i& t
9 I; d6 O1 K' I0 n8 { Disallow: /require/ 程序文件
1 n& Q/ {+ z2 P
/ E9 w( A" B; i- ^0 e Disallow: /attachment/ 附件
, W6 w: Y* G) A' E+ ~, f& L
k( b% J! m6 _+ U, y" g& V Disallow: /images/ 图片
e& l+ \, D, `: d
! ]) H: p; [3 }; q/ ?% J Disallow: /data/ 数据库文件
; F7 m$ c8 f- ]8 E' m; Q' u
& H0 N# z: y4 {1 m+ T" |, c Disallow: /template/ 模板文件
" \' |* H1 `" f9 J3 h! m; y+ m
Disallow: /css/ 样式表文件
9 H( n! d K% u. D) `1 X' K0 q# N3 \/ Q' }! } N' _, e/ [
Disallow: /lang/ 编码文件0 I& X& J( B& L% | i% a
8 s" s; O. P! R% ~
Disallow: /script/ 脚本文件
1 i3 R# ~ w* _
" ~9 h3 x, R& Z 3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
# g: M, d' q: Y3 L% w4 n) I; V: t) M3 @' o- t* b+ z! I
4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:# q6 z7 [2 {2 e" X* l8 ?$ U
7 ^3 U+ F2 y- f2 ]* R* J; q/ { Sitemap: http://www.***.com/sitemap.xml' W3 x4 k5 Q/ N7 C0 S8 O# t( i$ D
7 k$ A' j, @; j 目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。$ L4 ?/ X# q4 p- {3 }* |: D
: l, h V. P9 N/ ~7 s- d: c6 G 5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。 |
|