航空论坛_航空翻译_民航英语翻译_飞行翻译

 找回密码
 注册
搜索
查看: 1427|回复: 0
打印 上一主题 下一主题

robots.txt [复制链接]

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
1#
发表于 2009-8-21 21:23:01 |只看该作者 |倒序浏览
[编辑本段]
) ^9 p" b0 A' \# m2 j8 o# M2 K  l( S什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。+ V; v: W  r$ _0 ~8 t
( [" \( _' p6 y1 K0 G' p1 X
  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
: c2 d/ {& c! l% E
9 Q, t/ D' @) D2 G3 N5 x5 {2 c  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
; p; D: k6 a5 T, E9 Y* i: k* _' M5 ?. H; k" A
  语法:最简单的 robots.txt 文件使用两条规则:
8 [  D( J5 ?8 ?$ z2 {4 Z
9 T9 F* P$ ]7 g. m; D  J. z; a& K; `  • User-Agent: 适用下列规则的漫游器 $ e* t( Y3 k5 z7 V" _+ F- h

6 p) C* M; o/ X2 q  • Disallow: 要拦截的网页
. d& F9 U* H# M[编辑本段]
; L8 G% {5 ~' F% Nrobots.txt使用误区  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。9 p; F6 a0 h) Q" F/ ?/ ]8 B9 s

, F3 Z/ C2 _/ a+ _$ n; h3 W  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
4 b( ]- k* n- [
! o( {' Z8 G* j( {! g$ k. x  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。7 L  Q. U) H6 T1 ^0 [
( ]9 G% a7 k- Z# m0 s5 A6 R
  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
* R: z4 o9 e6 i; x% b: N: Y; _& j7 d( X
  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
7 r1 x6 d2 S4 K( G' H3 d" v5 _  K* w' t6 U, [% ~5 d) Z( Z% S
  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
1 I) c. D7 z2 U4 i7 `- d* |/ L3 [: B1 D2 Y7 b  E! v
  如果这样的话,会导致整个网站不能被搜索引擎收录。 8 |7 @, |" q" T
[编辑本段]
2 O8 L. q* P8 P% Arobots.txt使用技巧  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
7 r, b: X0 J! I- l! S5 H/ C: Y
: G# W% `" x/ ~- W$ J! v6 T  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
3 Y" D- j  U* C9 [  h# a& e$ p$ M+ k" B
  下面是VeryCMS里的robots.txt文件:8 y/ r. z) m4 B: R9 P1 q2 j" o
( f. {' C8 X, l3 q* S
  User-agent: *0 }7 U" I6 E- g4 y2 ~2 ?
6 `; }# u" p) b) n
  Disallow: /admin/ 后台管理文件
! J$ e$ u0 Q7 C+ Z! c2 s* E3 ]+ N" V. ~0 ?
1 t4 X9 ?  ~( A; ]% d' m5 T  Disallow: /require/ 程序文件' s2 w% P/ g0 r# M& z

) x# l( ?/ Q* I- j2 V3 r  Disallow: /attachment/ 附件0 y" I5 B. O1 _0 W' Y/ Z9 X
% F" h9 `+ p, h  }( ]' U
  Disallow: /images/ 图片4 I3 ]* j9 A7 H1 B

( X* U( m! e* ?, s2 @: c. }  Disallow: /data/ 数据库文件
2 f5 {2 S4 h* U$ h& |, t# F1 ?
2 N: D$ V1 l+ b3 l3 d8 ]  Disallow: /template/ 模板文件
/ \/ _/ h6 }7 [- G
7 P6 y! P8 `* V  Disallow: /css/ 样式表文件& Y3 [3 f& S' z  M1 I9 Q
$ G( j" \7 }% X8 k  X' d' S
  Disallow: /lang/ 编码文件
3 x$ ~: G. u4 y* D" M  l8 J9 l. U$ S3 L& g% r7 a/ d" e
  Disallow: /script/ 脚本文件
$ U$ }) u' }% n2 [# ?  U  l: J+ E
  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。$ Y* R& C5 o) w+ c- o( O$ r
# t! W9 W' d8 g3 ~7 `8 v5 i
  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:4 ~9 p9 _- o0 b* j" t& T- h  n. L
* G) m3 m/ T( `. j) O. B
  Sitemap: http://www.***.com/sitemap.xml" y, D: L* r5 q: T: M' Z& G# ]

2 W  f$ z* e. r& V$ a2 J  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。' x  _, R1 Y, R

9 i- w/ Q- l8 y5 F  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
您需要登录后才可以回帖 登录 | 注册


Archiver|航空论坛 ( 渝ICP备10008336号 )

GMT+8, 2025-11-27 03:57 , Processed in 0.021001 second(s), 9 queries .

Powered by Discuz! X2

© 2001-2011 MinHang.CC.

回顶部