航空论坛_航空翻译_民航英语翻译_飞行翻译

标题: robots.txt [打印本页]

作者: 帅哥    时间: 2009-8-21 21:23:01     标题: robots.txt

[编辑本段]
$ D( a5 ~' q$ U什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。" \3 R3 n/ i: ^+ j* M2 K

0 o( w1 m, Q# [. K  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
: z0 Q; n! o" ~% ~8 u# s% C/ S
, [! r. o$ o! _0 V1 K5 M& ^$ j  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。( P9 \9 f9 P7 y7 p- }. `

$ u- f- Q" @* B) }6 Z  语法:最简单的 robots.txt 文件使用两条规则:( t! m  w& {- I3 T* G

" t9 c' m' ?, M  • User-Agent: 适用下列规则的漫游器
# [4 @; F/ J+ G! k% `, P
$ q4 _" C7 E( ]1 J, i/ V2 z, x  • Disallow: 要拦截的网页 # w/ r5 d  H; g1 w! P& |. O
[编辑本段]2 c7 U3 y, J' e% o  ]+ R8 q" K1 b& t
robots.txt使用误区  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。
5 X, ~; }/ x% b9 R/ Y- ~+ x  C) F9 I- j8 j
  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
6 w7 x" ?6 b" m3 \# l' y4 \6 u) @$ y( W+ v4 r
  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。
6 q; R2 J6 @" {! u2 G0 i: V5 A: q+ r$ v" Q% m
  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
4 b6 u. e( f. x* R9 q. p. T# k# _$ m# o
  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
3 T1 |2 f6 k# Z9 Y3 x9 ?3 W5 @4 j% M- O% N/ w4 {3 w2 t2 r, W
  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
. s# p3 N; Z# {9 q/ e0 Y6 t3 ]! }) ~, u5 e
  如果这样的话,会导致整个网站不能被搜索引擎收录。
1 b) e! c, s) t" s; Z( l[编辑本段]7 `. |2 x* P3 `% e
robots.txt使用技巧  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
) x# L8 n1 U0 t2 q  Q- n" t6 D/ a, A" P) s8 k0 J
  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
7 ~9 C0 l0 D7 m4 q4 D# L, w( l. t( O) h- D. X  `, C- s+ s
  下面是VeryCMS里的robots.txt文件:$ L, |8 }& n& k

, d( d& f; V7 c$ w/ e/ `9 v  User-agent: *6 W  B5 a, |" U* x

5 \3 ~9 i3 k- u3 l$ t2 |/ {, v  Disallow: /admin/ 后台管理文件7 ^3 K  \6 L+ I% j+ n
6 A* R7 m% c" T5 I" i
  Disallow: /require/ 程序文件  }" a$ n  e/ u) X, o5 E, v0 k

/ f% T# _4 u: c! e1 m8 P- b" a3 m  Disallow: /attachment/ 附件; p, ~, K) Y# ]$ l; c. `# ^
; p: S! e5 R: ?! Q3 ~2 ]0 I
  Disallow: /images/ 图片
" L7 `8 J7 m, |7 O& X% S: T
8 D$ J5 ^' S0 T1 o  Disallow: /data/ 数据库文件" M* Z! K: l9 Y5 ~2 c; a1 a
, i, m5 e8 K8 k/ n
  Disallow: /template/ 模板文件
( K$ Z7 m/ U/ ?. a" F, N: _4 M0 i5 R7 v- g
  Disallow: /css/ 样式表文件9 I9 t5 ]' T" G: F' P  ?$ u+ ~" F) C
  a: Y8 ~$ Q: O# T; T
  Disallow: /lang/ 编码文件
% n  V4 v+ s5 y! w
* |: F( V+ T( f: C  Disallow: /script/ 脚本文件
5 {/ A$ L- H; {: }) X3 _  U+ L8 }& N* V; R
  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。/ {( K4 P! f) O: F
# u, V4 e" n0 L+ I( ]
  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:4 Z9 G- L1 U% s1 s
0 n7 j" r* Y' k2 A6 ^8 e4 ~2 j
  Sitemap: http://www.***.com/sitemap.xml
! t( a  |' [% d9 q- P0 U( i1 i* }3 \) o  P
  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。
' ~6 ?; h1 ^- e+ P3 l! y% K# u2 y
  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。




欢迎光临 航空论坛_航空翻译_民航英语翻译_飞行翻译 (http://bbs.aero.cn/) Powered by Discuz! X2