航空论坛_航空翻译_民航英语翻译_飞行翻译

 找回密码
 注册
搜索
查看: 1295|回复: 0
打印 上一主题 下一主题

robots.txt [复制链接]

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
1#
发表于 2009-8-21 21:23:01 |只看该作者 |倒序浏览
[编辑本段]
( d  r* ~3 k: W0 G" o4 }- x什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。7 J3 ^+ H* e1 L1 w4 ]$ G% C% F
/ {! ~* c6 X8 A! C* X6 D
  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。) }: F; j% {. C
6 [& m6 P4 _( h" Q1 T$ U0 K! a- G0 U
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。& e2 t' s2 Z/ s+ B9 U4 x8 h
5 S  `; H3 k( x" t2 n! {# q
  语法:最简单的 robots.txt 文件使用两条规则:1 E$ t3 z/ r6 w) S2 ]' w

5 c$ `& _3 o/ W1 }5 N( {5 f  • User-Agent: 适用下列规则的漫游器 ) x' U( @( j% L1 S; ]9 K+ Z: r
  r$ R( {/ s& w' u4 y. d! B! H
  • Disallow: 要拦截的网页   U" L+ e/ p9 e  O6 i
[编辑本段]
+ A* c, b. Z+ D& v5 erobots.txt使用误区  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。( W1 V4 T4 p0 ]7 P+ U8 p7 s6 }

; l1 W0 {- d# k6 i  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
7 n$ G: k  s; \5 a' O" I/ r. d* f) ~
  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。" Z/ N: ~, z% K8 ^8 \7 D  q5 T
, x8 ]- d. v% g/ j
  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
( z$ e/ k+ V" `4 J) a5 w+ s$ X1 j) [6 _; ^7 x3 p$ x' M2 }
  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。+ E; t) N. M: l3 W
" P& |) B* _3 ~; \% ~8 N& Q
  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。- G6 a( ?/ E2 S; N0 {8 ~3 b

/ l* Y1 m5 r: r3 y  如果这样的话,会导致整个网站不能被搜索引擎收录。 ) h( g1 }# B- ^/ f
[编辑本段]
; r# \% \  Z- ?) O3 urobots.txt使用技巧  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。; ?& k8 L, O: Y+ ?5 r
+ C% B* x% X  ^. T9 ^
  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。3 Y, v  ]; u  d8 \
6 j2 J; _; s' I! {6 V/ t/ W
  下面是VeryCMS里的robots.txt文件:1 i/ R* J( Q/ q4 c% a! C

) K1 d6 l. K2 m1 k  User-agent: *
# h. K3 T5 T3 M8 Y/ f0 Y
! H) c2 C) {$ V9 c# c  Disallow: /admin/ 后台管理文件
2 Z" i. F( T/ L# h) ^! T6 t  W9 V# C) O+ U+ G( k
  Disallow: /require/ 程序文件- k5 m6 g% P$ h+ l* n8 [; O

- V  {1 Q1 T5 V3 D7 g+ _  Disallow: /attachment/ 附件
9 @9 S/ R: P8 h) s' O
4 n" \& O  X/ C' D# @  Disallow: /images/ 图片
6 ]; B3 F( i6 C4 C3 |1 D' \- @5 r
" |" V$ w! K3 }$ t  Disallow: /data/ 数据库文件
8 A7 E' P8 z6 I* a" ~! l: b9 Q/ Z/ d
; g3 H- G  v2 E) Z" N. E) ~  Disallow: /template/ 模板文件
2 U9 I: o/ F! m5 I# }
6 x5 H0 H3 [# ^- a  Disallow: /css/ 样式表文件
: Q1 F3 k& }! t; B# `: I6 u" G1 g/ e
! h2 }3 X, h4 {; E) H+ }  Disallow: /lang/ 编码文件
1 b8 l  n, m" K# r+ Y" o) H
5 }) M8 p5 N+ V  Disallow: /script/ 脚本文件) `2 J: Q& Y/ b1 `/ C
. C7 a: T: b* X/ f" M4 i& P! U
  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
# r% c$ P# i8 E9 h4 v4 u" d5 w% L( _+ u! R4 N* p
  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:% W# ?4 g) e1 j1 q/ ?
' [3 O1 M1 a) C% G: ^; `& m4 h
  Sitemap: http://www.***.com/sitemap.xml: p  N0 |& I+ o0 k# N5 D& z* p

1 c" K; c+ H. F# }* |  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。; [9 l8 |7 ?$ L, y: Q
- ^6 R& S4 n! F. Z5 T* Y# i$ N; D
  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
您需要登录后才可以回帖 登录 | 注册


Archiver|航空论坛 ( 渝ICP备10008336号 )

GMT+8, 2025-7-15 14:07 , Processed in 0.022001 second(s), 10 queries .

Powered by Discuz! X2

© 2001-2011 MinHang.CC.

回顶部