- 注册时间
- 2008-9-13
- 最后登录
- 1970-1-1
- 在线时间
- 0 小时
- 阅读权限
- 200
- 积分
- 0
- 帖子
- 24482
- 精华
- 4
- UID
- 9
|
[编辑本段]
# w) U+ ?8 x( a( X什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
% A7 c) H/ ]0 C# Q" H5 c8 e0 H, o& h4 ]( U
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。4 U$ P4 A/ U9 v5 Q5 d
9 b6 x# y- ~, T robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
$ I( E8 }: B- m/ e1 a4 ~' E# q. g7 v4 H
语法:最简单的 robots.txt 文件使用两条规则:
1 v2 Z& ~2 _; j% E8 F% h8 l* v( W1 c! P) J5 f! U
• User-Agent: 适用下列规则的漫游器 $ C1 W. ~5 @% R% D8 {. _3 `; W8 P
0 m4 K1 S L$ R( y4 A0 _ • Disallow: 要拦截的网页 5 z' j6 m1 T/ M5 \" u3 e5 P
[编辑本段]
; c2 S& {9 Y) F5 P1 ^; Y. Nrobots.txt使用误区 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。, y$ \6 O: o9 Q( s: P
0 h6 z- q+ V/ ~! h$ ^) C: J
每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。6 ~; O, e8 P' O' j
% e. r4 B$ g; M! ~" S0 ^0 V3 N 误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。+ L- W5 K& Y* W( `- q) K# Z/ F
& J$ J/ F8 p" L6 y% X9 v/ [3 a
网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
: M- ]1 d4 Q( Z' n* `4 J6 F( e8 V" }8 b" f& f1 M
具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。) ~ y4 d( Q; O; ^! k
5 S) M+ d2 [6 q( i
误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
, N7 N0 Y1 g/ @2 n$ H: P( `" M6 l' d- n+ D$ p
如果这样的话,会导致整个网站不能被搜索引擎收录。
- |! m0 n2 Q% b8 a( D$ i' }[编辑本段]
4 F2 t2 f: [: D7 l! ?robots.txt使用技巧 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
5 ~: W) V) v( K
8 A: g8 }. ]: D! R 2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
5 G3 \6 i7 Q$ [, {8 O
% |6 q8 L3 W" m2 u. d% R 下面是VeryCMS里的robots.txt文件:/ s) L G7 L# p7 c$ O
8 H' `5 F8 ?- ~( { User-agent: *
) _' t% U8 j0 O# [* k
, m* Z1 O; t; g" N |% _' U+ L Disallow: /admin/ 后台管理文件
K* m. W* l- Z' g
# V3 H7 j7 L$ Q. e3 I- j Disallow: /require/ 程序文件
. o4 `4 j+ b* R8 Z
! c6 A# b l+ o& z( } Disallow: /attachment/ 附件
- P2 f, T4 h9 P( T& O( _) q
" d4 s# s7 R7 a: w; Y+ } Disallow: /images/ 图片
1 j8 ?* I$ `* L6 O. k5 o3 } N3 H% g0 |* j
Disallow: /data/ 数据库文件
# s0 P* N( a2 m& I9 y5 R. K& k' L n6 A
Disallow: /template/ 模板文件# u- r. u7 u8 V/ X; }( S
; e* q4 |0 x+ m2 H
Disallow: /css/ 样式表文件
) A! {/ [. T: s6 H& A$ [7 X1 q/ ^( b$ G! s4 f
Disallow: /lang/ 编码文件, Z1 L, N& c( Y& J( v
' y# }+ ]! s4 F) W4 h/ ?. m- s6 M+ A( A Disallow: /script/ 脚本文件% X; t# W# J6 u
: k! T( @# @/ a: O: W/ K6 F 3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。- Q% F5 D* J( ?, ?3 J
: A* a: B$ r& n6 t) S) \0 w
4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
3 v/ L4 M2 p2 r0 } t7 n+ j9 Z; |. k* i# t, t* E- n- _7 O
Sitemap: http://www.***.com/sitemap.xml5 c4 }: F) E- z, n; m, Y
! x, i" T' J: b- L* q
目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。6 K1 J$ I5 O# U, q* m
+ g# P8 e+ l$ ^
5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。 |
|