航空论坛_航空翻译_民航英语翻译_飞行翻译

 找回密码
 注册
搜索
查看: 1296|回复: 0
打印 上一主题 下一主题

robots.txt [复制链接]

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
1#
发表于 2009-8-21 21:23:01 |只看该作者 |倒序浏览
[编辑本段]
4 S7 |% E) _) s  t什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
! y: v; r8 D6 e+ e3 `3 M/ O, t
- Y/ E5 z* z5 a% W: N! \: o) h( ~& ?  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。3 H2 T* M3 T2 F8 g" c# M3 q

4 D, z! M$ o4 k: T$ h) J4 _  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
; ]/ B0 X2 V+ c& `3 N& N7 A3 [: [, L
  语法:最简单的 robots.txt 文件使用两条规则:
% a7 E1 W5 C! j9 n3 o. J0 k! h' P. S9 t6 v" P6 h
  • User-Agent: 适用下列规则的漫游器
0 L" F2 V. H3 ^4 n0 j2 l2 N7 f
1 @% M3 o/ V; I+ [/ y  • Disallow: 要拦截的网页
% ~# ?6 x" v3 d3 m, Q0 e+ o1 B$ o[编辑本段]
. L0 `  |% V' H+ i) ~robots.txt使用误区  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。
! f0 ~% k% K2 M% j0 }; I+ e- h2 x: N6 U5 L9 w
  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
, y# I1 b+ V8 A8 Y1 Z& ~5 p' O; K
- u6 x7 X$ W: W" s- M# g  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。6 T# s8 v2 ~0 S, p0 F0 O! B7 L$ `9 K
1 M5 b3 _: g) \: h
  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。4 A( q5 f& S' D3 Y9 g- G
) `+ M! G1 ?6 `# e
  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。1 I) F) J% A0 c: M) {

$ S  t- P$ b$ n( v0 ]/ C5 K! T  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。1 o! W3 ^0 H* v% c- z5 z
6 V2 z& X* E8 o) \. d
  如果这样的话,会导致整个网站不能被搜索引擎收录。 5 w& g5 |4 I  a
[编辑本段]
/ k$ T# _0 X. u* Arobots.txt使用技巧  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。# K5 _- @7 ?" _' N) ~; |: H' f

3 ~$ Y3 a9 C: {; @/ I, N1 p  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。" X5 j3 s4 k: S0 o- s/ Y2 F
! p* \  t; \- S; V
  下面是VeryCMS里的robots.txt文件:
, B+ U5 r8 A0 k2 h$ [
. l. T5 E6 r' U3 s  User-agent: *  B; b! o- Y8 y9 j- P$ s

9 |, ?/ E5 a9 \! ~  Disallow: /admin/ 后台管理文件+ J* Z4 D7 B' F1 @* ?

: H( q+ z( @4 W  ~  Disallow: /require/ 程序文件
) {5 I1 a1 m, m2 d8 J4 s
: m! `* Q& ?, G3 i  Disallow: /attachment/ 附件
5 O) I; J, k* I, y0 @8 G" K2 \# g- r' k! T# Z# k
  Disallow: /images/ 图片3 ~, X5 g2 y$ {
6 O" H& K) B* T# |8 {6 t
  Disallow: /data/ 数据库文件4 D3 ~2 _6 @' r5 v+ x( E* t

8 m- K: S- i2 I  Disallow: /template/ 模板文件$ f! |8 y  p* ^  r4 ]4 ], r7 y

6 g! y( j$ p* U' Q4 [: {$ C8 h  Disallow: /css/ 样式表文件
$ w! @1 v' o4 f* _: W& H
" ]& Z3 `: g/ h. _8 E3 p5 a  Disallow: /lang/ 编码文件
. D7 C( Q4 o+ f3 Z* u$ a' f1 I7 K% K" ?8 j1 t2 C1 W1 b
  Disallow: /script/ 脚本文件
  k. W# H2 q; n4 \( u# I* }1 ~
0 r: F6 D! V# P# ~9 a' n  T, Y  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
' Z# W) h5 z7 F. p% V: X" h6 s' D; {: m. I/ M
  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
5 X/ O6 {! l- J0 z5 p, j: f
  A0 M$ d$ J. T  Sitemap: http://www.***.com/sitemap.xml0 m2 g/ M1 b5 I  `
; O# V. D5 i6 I$ f- z- G
  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。
; _; L# [8 _4 F7 k9 ]! t5 t1 O" \/ i6 P1 J* {& c
  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
您需要登录后才可以回帖 登录 | 注册


Archiver|航空论坛 ( 渝ICP备10008336号 )

GMT+8, 2025-7-15 14:17 , Processed in 0.022002 second(s), 9 queries .

Powered by Discuz! X2

© 2001-2011 MinHang.CC.

回顶部