- 注册时间
- 2008-9-13
- 最后登录
- 1970-1-1
- 在线时间
- 0 小时
- 阅读权限
- 200
- 积分
- 0
- 帖子
- 24482
- 精华
- 4
- UID
- 9
  
|
[编辑本段]
/ D! ` _: }3 R' P2 e6 p什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
x) ?6 ?5 X5 s/ [1 k
7 B1 C8 f4 v' g& b: P8 V7 O 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
6 Q; \) S4 B1 E) |9 g
9 ~: C6 R& n: m robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。9 ?8 S7 p" y/ s2 a b4 t3 K
' `) s, q1 _3 G8 ^% x, q7 W 语法:最简单的 robots.txt 文件使用两条规则:
& d& H, V3 X7 m' ]( |, W9 F+ T3 Z7 w* W/ {: s! t7 @
• User-Agent: 适用下列规则的漫游器 - x$ b! m5 x ]
- p5 g4 `" J: ^; e! s3 c2 ?
• Disallow: 要拦截的网页 8 k8 R% a% [+ @5 g, _) d
[编辑本段]
$ P% z P, @ R6 F" @0 T1 b2 d6 T+ zrobots.txt使用误区 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。; T. D4 ^6 z! f# r" l' U5 ^
1 \$ Y' M; F" e
每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
# m: t. ~7 e H2 G& E. F @5 _; b* U8 G: J# J# X! J
误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。
& ~% d# r4 s, u* _3 ~
2 c( ]: X2 v5 u- o3 A+ o2 [ 网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。! \3 i1 W7 f( `+ U, U- { }# R
6 I. B6 E$ Z7 {/ p
具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
* G' A( c) J# w! d0 J* _
1 ]: c/ F( J/ c& P 误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。( {& z8 {/ [/ A0 w
" ]- t% {, w. V0 K1 [2 q( }) L 如果这样的话,会导致整个网站不能被搜索引擎收录。 # A" G p, f: R! R
[编辑本段]- K8 y* w- q4 a1 X# m8 G
robots.txt使用技巧 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
$ ]. l4 f2 Y5 H; A' @. q" }9 Z5 O4 ~2 p& S* }
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。; n# ^- b% J( b) I
0 @8 l: A# R" a3 S8 ~ 下面是VeryCMS里的robots.txt文件:
" }/ `' X6 ?, s' u% V! C9 t$ W7 l: l. f7 a+ v7 g
User-agent: *0 F. q8 d! q, _* _
# {. v% ~5 [! h2 P( \4 a
Disallow: /admin/ 后台管理文件
" @9 d% k. }/ m! Z- ^: i, w z# ~% }) L8 [( P5 L: T
Disallow: /require/ 程序文件
8 e1 A1 Y' r! J% o8 r
( r4 C0 `4 Z) q4 U" n5 U$ }1 u) B Disallow: /attachment/ 附件
0 W; }% a% Z4 G' @5 j7 P/ g/ }+ _9 C/ ~$ t( J4 g8 Z# n9 a
Disallow: /images/ 图片
8 V0 L* V! _' g1 r% j3 t# E! Q7 A+ r* s3 J/ c
Disallow: /data/ 数据库文件
, D Q: b5 a: l4 o# C. V
" _# @- l9 S+ r4 x* ]8 y Disallow: /template/ 模板文件3 L) O# Z$ \9 o! P" n& H! }
( h1 Y# k1 E7 L; n2 C
Disallow: /css/ 样式表文件
' _8 G; Z! w) m0 ]
+ t' y7 r/ j+ C. V Disallow: /lang/ 编码文件) f' O$ N2 U/ u9 f* ]/ g& ~: @
# `0 E/ r6 @9 }! U
Disallow: /script/ 脚本文件
$ h& \! Z' I8 s& }' E% ^
$ Q+ u. G0 N- `: y& ?. G; T+ h1 d2 n% @ 3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
- z: N0 H9 Z- C/ R3 z
* d+ E2 @& g M+ W' Z3 Y: x 4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
* F5 J0 G. e. u
: Q( X! J8 r5 L8 c4 E9 i; G Sitemap: http://www.***.com/sitemap.xml
/ N h8 Q3 Q. e7 g b, H5 l* B8 L9 s4 v
目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。) _( K3 { S: F; e0 `
* F9 D$ `1 H! x2 \( p) P6 }. r8 U
5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。 |
|