- 注册时间
- 2008-9-13
- 最后登录
- 1970-1-1
- 在线时间
- 0 小时
- 阅读权限
- 200
- 积分
- 0
- 帖子
- 24482
- 精华
- 4
- UID
- 9
  
|
[编辑本段]1 x, _6 I$ S/ s2 Q" ^' B1 `/ D2 E
什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。/ g* p m3 _ w, H+ U7 z
0 b" T' V" w: K! W; ]- n
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
6 Y9 S6 f4 z& f8 _! S N" |% p. |: k( L. Y4 c+ W8 s9 z6 w
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
/ U8 |: f2 p, z2 w: I6 O- A" }& o4 K# d7 A- d( R
语法:最简单的 robots.txt 文件使用两条规则:
. A7 f1 T, |8 U* \) [, w& B8 U! R
8 V* K" T/ a1 {/ u/ v • User-Agent: 适用下列规则的漫游器
4 t, y% v# D+ B1 Y$ O$ E P6 U
" o7 ?& N: \- k! x. f • Disallow: 要拦截的网页
7 v7 Q0 s/ G9 |+ O% H[编辑本段]: T6 y$ Z6 c' w: }1 Y2 f
robots.txt使用误区 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。
) L" d o0 {! N
9 q; S$ O% _2 g4 E% V2 ? 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。% R# d( a6 p- H: J8 ^$ Q
1 @! u9 y& }* H# b2 |& _: M4 N' Y' q
误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。: [" _6 y9 L6 I* y
/ ] \/ o8 K' v9 W* M+ m7 b 网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
" G0 [' e4 X( |, N
+ g" v' r5 a. a O) m 具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。8 _9 g4 I _& U6 G1 [) j+ y. ]# O
) _! J+ A0 p% M 误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。8 ~7 n+ A( g% D0 q# w
) ~# x1 ` k- Y; |$ F
如果这样的话,会导致整个网站不能被搜索引擎收录。 3 N! z1 I! F6 b0 ?7 Q0 |. M: k
[编辑本段]
B! H" O3 B# G% }7 H( `robots.txt使用技巧 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
8 m8 [6 G! M& z; w* e% K, f3 X% d+ ~- D1 W+ K. i- c3 A: o
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
- b" P- _) g/ Q4 A! W
3 ~5 G& Y1 S9 J F. ^5 y 下面是VeryCMS里的robots.txt文件:/ q4 J8 Q- s/ f7 _
- c0 i3 O' `3 t5 M; T9 B r/ O; K
User-agent: *! [, |7 B6 l7 X% R4 A
! z0 [5 |( J) B Disallow: /admin/ 后台管理文件
% E! [$ C/ N O4 `# A
# x# g1 y, `9 D* b- q: ~3 }' f Disallow: /require/ 程序文件
# \. s" ~% Y& M" S: D) R+ r$ @3 y6 L
Disallow: /attachment/ 附件
# h# @$ X" r5 l: ^% `$ f& ~. [) f% p) K- f) K; g& l& E" v
Disallow: /images/ 图片1 \# U% Z ~4 H: _* b. n
2 }8 U* ]6 M# B/ j& T- e
Disallow: /data/ 数据库文件0 S! h3 m6 X' l3 W+ z9 j) }
+ {# ~6 I, S6 ^% L2 K% K Disallow: /template/ 模板文件8 f6 k3 V q6 C+ @2 B( D
- [# W& ]" v, j0 v9 q& Y; p, | Disallow: /css/ 样式表文件: n: }) n$ U3 V! q! r# c) m; Y
+ v$ n) H" K; R$ I Disallow: /lang/ 编码文件6 k; r/ l7 t! U! j% z
+ I7 W+ f. O x9 h! Z- [
Disallow: /script/ 脚本文件
R9 ^( T& N1 R! ?; c: S
* s" N# K( a' z 3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
6 M- ` H. S" B" \4 W! e* t
9 O; F/ H4 ~" }6 C# |, h 4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
; {4 e, D+ J: J: w2 q2 d$ H0 T2 y) o5 E0 i6 C
Sitemap: http://www.***.com/sitemap.xml' [+ {3 I }) _* Z, _2 l8 l
5 ] u5 k& j f4 M 目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。
. ^) u7 x) l. T/ Y/ Z% s( D; l) u% s& i
5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。 |
|