- 注册时间
- 2008-9-13
- 最后登录
- 1970-1-1
- 在线时间
- 0 小时
- 阅读权限
- 200
- 积分
- 0
- 帖子
- 24482
- 精华
- 4
- UID
- 9
  
|
[编辑本段]7 R. X. V1 h4 A7 L) i6 l# }2 ?6 _6 K
什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
) R! m- Y4 L$ W6 ]9 K, L* V; v
6 P4 |3 q$ _4 l' D* n 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
) M" J5 c7 i% ]1 o" ]. Y) }7 I& [ l9 ?. \! S# E' H6 Y% }- o
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。0 V9 ]: c# U% C3 N2 E) }
5 n* d. }# J B& b, [2 E
语法:最简单的 robots.txt 文件使用两条规则:
+ z" C5 G5 U9 q: Y# z* L
: g0 G3 m3 |$ V2 g$ W$ T( R • User-Agent: 适用下列规则的漫游器
" U' B) X5 O. ~4 a, E
( J+ w4 @1 ]( G4 p& M2 O • Disallow: 要拦截的网页
3 p c; {% F- a9 C y1 }[编辑本段]
+ @) M$ u6 w$ T6 ^5 wrobots.txt使用误区 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。3 r/ |) l- a6 X- ^0 F
) V4 _+ L" \' S 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。8 W7 w* X7 ? d1 M/ P& s
2 ~ Z2 E9 A, G, @3 T' _' W' v" [
误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。
3 i$ ?% ?# u- J9 c+ v6 u
) W( r0 \2 ] k; z- ~" | 网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
w8 g4 |8 d0 |8 [$ {4 N
8 p+ [, i- c) b6 e6 Z 具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。8 P4 o0 z& U- h9 s. r5 x$ h. @! n4 A
/ e3 k' |* X9 J7 u- b$ M9 u5 e; p 误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。% @* C- H# C) \1 Q# I2 Y
" S& t- J- T( Q) _6 q. w
如果这样的话,会导致整个网站不能被搜索引擎收录。 $ s5 b# X2 u1 j+ L" [, u
[编辑本段]
" ~( _/ X3 A$ c! ~1 R) grobots.txt使用技巧 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
$ ] k% R x7 B. i- S1 R" c
0 w! I" B8 X' W% h" E8 P+ r 2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。- r2 W" x& o" e" c4 D( `& |4 g
1 ]6 _! z5 y( W; H! s
下面是VeryCMS里的robots.txt文件:
7 R. i$ o! A" m& y+ {7 ]' t
, r6 k. Y$ ]7 w User-agent: *2 w8 E3 Y# A+ E2 H, S( S
) m* l6 Z0 v& s% H5 H
Disallow: /admin/ 后台管理文件
7 S$ S+ ?9 o$ l2 b8 l3 }7 C a3 f* B: E! b7 j v& v* q
Disallow: /require/ 程序文件
# C5 T3 G2 D8 l, ?0 }/ N/ A
+ q# D3 J1 w' A# i& Q$ ]. O' @ Disallow: /attachment/ 附件4 V& @: Z3 C4 ~
* E% {3 b2 e7 u% x: {# }
Disallow: /images/ 图片% E7 b, q, Q( G1 v# x1 ]6 {
9 g' M) f" M% @, G& n Disallow: /data/ 数据库文件( c; j; e0 f ?
) w$ W9 ~- u) Y8 k8 G% g Disallow: /template/ 模板文件* i; q1 K( m7 [- O
- s/ G8 t& w/ S9 e' c2 g) M
Disallow: /css/ 样式表文件# E' S4 y0 z, J* X# y5 r/ J/ L
\' d) f# U% T/ ^
Disallow: /lang/ 编码文件# g [" `7 S. D9 G0 x$ ]+ |
/ K6 [. i! y. m& w" C Disallow: /script/ 脚本文件' w/ k& F3 C0 _
" ~. B6 z6 m1 M% M: _( L 3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。; h8 q/ x6 k+ S# u3 n, @
+ {+ j( L" }5 o0 r
4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
. E5 k7 N# c+ S, }0 {/ v" s2 l( t/ j5 F
Sitemap: http://www.***.com/sitemap.xml
# x: \, E; u9 c
% j/ e- ~! P' ?. q( Y9 y. V& W% h& J& L 目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。% W+ J' w) T1 b3 l4 z) L
$ w( i6 d$ Z4 J0 @ 5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。 |
|