航空论坛_航空翻译_民航英语翻译_飞行翻译
标题:
robots.txt
[打印本页]
作者:
帅哥
时间:
2009-8-21 21:23:01
标题:
robots.txt
[编辑本段]
$ D( a5 ~' q$ U
什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
" \3 R3 n/ i: ^+ j* M2 K
0 o( w1 m, Q# [. K
当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
: z0 Q; n! o" ~% ~8 u# s% C/ S
, [! r. o$ o! _0 V1 K5 M& ^$ j
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
( P9 \9 f9 P7 y7 p- }. `
$ u- f- Q" @* B) }6 Z
语法:最简单的 robots.txt 文件使用两条规则:
( t! m w& {- I3 T* G
" t9 c' m' ?, M
• User-Agent: 适用下列规则的漫游器
# [4 @; F/ J+ G! k% `, P
$ q4 _" C7 E( ]1 J, i/ V2 z, x
• Disallow: 要拦截的网页
# w/ r5 d H; g1 w! P& |. O
[编辑本段]
2 c7 U3 y, J' e% o ]+ R8 q" K1 b& t
robots.txt使用误区 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。
5 X, ~; }/ x% b
9 R/ Y- ~+ x C) F9 I- j8 j
每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
6 w7 x" ?6 b" m3 \# l
' y4 \6 u) @$ y( W+ v4 r
误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。
6 q; R2 J6 @" {! u2 G
0 i: V5 A: q+ r$ v" Q% m
网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
4 b6 u. e( f. x* R9 q
. p. T# k# _$ m# o
具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
3 T1 |2 f6 k# Z9 Y3 x9 ?3 W
5 @4 j% M- O% N/ w4 {3 w2 t2 r, W
误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
. s# p3 N; Z# {9 q
/ e0 Y6 t3 ]! }) ~, u5 e
如果这样的话,会导致整个网站不能被搜索引擎收录。
1 b) e! c, s) t" s; Z( l
[编辑本段]
7 `. |2 x* P3 `% e
robots.txt使用技巧 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
) x# L8 n1 U0 t2 q Q- n
" t6 D/ a, A" P) s8 k0 J
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
7 ~9 C0 l0 D7 m4 q4 D# L
, w( l. t( O) h- D. X `, C- s+ s
下面是VeryCMS里的robots.txt文件:
$ L, |8 }& n& k
, d( d& f; V7 c$ w/ e/ `9 v
User-agent: *
6 W B5 a, |" U* x
5 \3 ~9 i3 k- u3 l$ t2 |/ {, v
Disallow: /admin/ 后台管理文件
7 ^3 K \6 L+ I% j+ n
6 A* R7 m% c" T5 I" i
Disallow: /require/ 程序文件
}" a$ n e/ u) X, o5 E, v0 k
/ f% T# _4 u: c! e1 m8 P- b" a3 m
Disallow: /attachment/ 附件
; p, ~, K) Y# ]$ l; c. `# ^
; p: S! e5 R: ?! Q3 ~2 ]0 I
Disallow: /images/ 图片
" L7 `8 J7 m, |7 O& X% S: T
8 D$ J5 ^' S0 T1 o
Disallow: /data/ 数据库文件
" M* Z! K: l9 Y5 ~2 c; a1 a
, i, m5 e8 K8 k/ n
Disallow: /template/ 模板文件
( K$ Z7 m/ U/ ?. a" F
, N: _4 M0 i5 R7 v- g
Disallow: /css/ 样式表文件
9 I9 t5 ]' T" G: F' P ?$ u+ ~" F) C
a: Y8 ~$ Q: O# T; T
Disallow: /lang/ 编码文件
% n V4 v+ s5 y! w
* |: F( V+ T( f: C
Disallow: /script/ 脚本文件
5 {/ A$ L- H; {: }) X3 _
U+ L8 }& N* V; R
3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
/ {( K4 P! f) O: F
# u, V4 e" n0 L+ I( ]
4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
4 Z9 G- L1 U% s1 s
0 n7 j" r* Y' k2 A6 ^8 e4 ~2 j
Sitemap: http://www.***.com/sitemap.xml
! t( a |' [% d9 q
- P0 U( i1 i* }3 \) o P
目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。
' ~6 ?; h1 ^- e+ P
3 l! y% K# u2 y
5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
欢迎光临 航空论坛_航空翻译_民航英语翻译_飞行翻译 (http://bbs.aero.cn/)
Powered by Discuz! X2