- 注册时间
- 2008-9-13
- 最后登录
- 1970-1-1
- 在线时间
- 0 小时
- 阅读权限
- 200
- 积分
- 0
- 帖子
- 24482
- 精华
- 4
- UID
- 9
  
|
[编辑本段]
) ^9 p" b0 A' \# m2 j8 o# M2 K l( S什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。+ V; v: W r$ _0 ~8 t
( [" \( _' p6 y1 K0 G' p1 X
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
: c2 d/ {& c! l% E
9 Q, t/ D' @) D2 G3 N5 x5 {2 c robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
; p; D: k6 a5 T, E9 Y* i: k* _' M5 ?. H; k" A
语法:最简单的 robots.txt 文件使用两条规则:
8 [ D( J5 ?8 ?$ z2 {4 Z
9 T9 F* P$ ]7 g. m; D J. z; a& K; ` • User-Agent: 适用下列规则的漫游器 $ e* t( Y3 k5 z7 V" _+ F- h
6 p) C* M; o/ X2 q • Disallow: 要拦截的网页
. d& F9 U* H# M[编辑本段]
; L8 G% {5 ~' F% Nrobots.txt使用误区 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。9 p; F6 a0 h) Q" F/ ?/ ]8 B9 s
, F3 Z/ C2 _/ a+ _$ n; h3 W 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
4 b( ]- k* n- [
! o( {' Z8 G* j( {! g$ k. x 误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。7 L Q. U) H6 T1 ^0 [
( ]9 G% a7 k- Z# m0 s5 A6 R
网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
* R: z4 o9 e6 i; x% b: N: Y; _& j7 d( X
具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
7 r1 x6 d2 S4 K( G' H3 d" v5 _ K* w' t6 U, [% ~5 d) Z( Z% S
误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
1 I) c. D7 z2 U4 i7 `- d* |/ L3 [: B1 D2 Y7 b E! v
如果这样的话,会导致整个网站不能被搜索引擎收录。 8 |7 @, |" q" T
[编辑本段]
2 O8 L. q* P8 P% Arobots.txt使用技巧 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
7 r, b: X0 J! I- l! S5 H/ C: Y
: G# W% `" x/ ~- W$ J! v6 T 2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
3 Y" D- j U* C9 [ h# a& e$ p$ M+ k" B
下面是VeryCMS里的robots.txt文件:8 y/ r. z) m4 B: R9 P1 q2 j" o
( f. {' C8 X, l3 q* S
User-agent: *0 }7 U" I6 E- g4 y2 ~2 ?
6 `; }# u" p) b) n
Disallow: /admin/ 后台管理文件
! J$ e$ u0 Q7 C+ Z! c2 s* E3 ]+ N" V. ~0 ?
1 t4 X9 ? ~( A; ]% d' m5 T Disallow: /require/ 程序文件' s2 w% P/ g0 r# M& z
) x# l( ?/ Q* I- j2 V3 r Disallow: /attachment/ 附件0 y" I5 B. O1 _0 W' Y/ Z9 X
% F" h9 `+ p, h }( ]' U
Disallow: /images/ 图片4 I3 ]* j9 A7 H1 B
( X* U( m! e* ?, s2 @: c. } Disallow: /data/ 数据库文件
2 f5 {2 S4 h* U$ h& |, t# F1 ?
2 N: D$ V1 l+ b3 l3 d8 ] Disallow: /template/ 模板文件
/ \/ _/ h6 }7 [- G
7 P6 y! P8 `* V Disallow: /css/ 样式表文件& Y3 [3 f& S' z M1 I9 Q
$ G( j" \7 }% X8 k X' d' S
Disallow: /lang/ 编码文件
3 x$ ~: G. u4 y* D" M l8 J9 l. U$ S3 L& g% r7 a/ d" e
Disallow: /script/ 脚本文件
$ U$ }) u' }% n2 [# ? U l: J+ E
3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。$ Y* R& C5 o) w+ c- o( O$ r
# t! W9 W' d8 g3 ~7 `8 v5 i
4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:4 ~9 p9 _- o0 b* j" t& T- h n. L
* G) m3 m/ T( `. j) O. B
Sitemap: http://www.***.com/sitemap.xml" y, D: L* r5 q: T: M' Z& G# ]
2 W f$ z* e. r& V$ a2 J 目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。' x _, R1 Y, R
9 i- w/ Q- l8 y5 F 5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。 |
|