航空论坛_航空翻译_民航英语翻译_飞行翻译

 找回密码
 注册
搜索
查看: 1225|回复: 0
打印 上一主题 下一主题

robots.txt [复制链接]

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
1#
发表于 2009-8-21 21:23:01 |只看该作者 |倒序浏览
[编辑本段]
# w) U+ ?8 x( a( X什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
% A7 c) H/ ]0 C# Q" H5 c8 e0 H, o& h4 ]( U
  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。4 U$ P4 A/ U9 v5 Q5 d

9 b6 x# y- ~, T  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
$ I( E8 }: B- m/ e1 a4 ~' E# q. g7 v4 H
  语法:最简单的 robots.txt 文件使用两条规则:
1 v2 Z& ~2 _; j% E8 F% h8 l* v( W1 c! P) J5 f! U
  • User-Agent: 适用下列规则的漫游器 $ C1 W. ~5 @% R% D8 {. _3 `; W8 P

0 m4 K1 S  L$ R( y4 A0 _  • Disallow: 要拦截的网页 5 z' j6 m1 T/ M5 \" u3 e5 P
[编辑本段]
; c2 S& {9 Y) F5 P1 ^; Y. Nrobots.txt使用误区  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。, y$ \6 O: o9 Q( s: P
0 h6 z- q+ V/ ~! h$ ^) C: J
  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。6 ~; O, e8 P' O' j

% e. r4 B$ g; M! ~" S0 ^0 V3 N  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。+ L- W5 K& Y* W( `- q) K# Z/ F
& J$ J/ F8 p" L6 y% X9 v/ [3 a
  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
: M- ]1 d4 Q( Z' n* `4 J6 F( e8 V" }8 b" f& f1 M
  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。) ~  y4 d( Q; O; ^! k
5 S) M+ d2 [6 q( i
  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
, N7 N0 Y1 g/ @2 n$ H: P( `" M6 l' d- n+ D$ p
  如果这样的话,会导致整个网站不能被搜索引擎收录。
- |! m0 n2 Q% b8 a( D$ i' }[编辑本段]
4 F2 t2 f: [: D7 l! ?robots.txt使用技巧  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
5 ~: W) V) v( K
8 A: g8 }. ]: D! R  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
5 G3 \6 i7 Q$ [, {8 O
% |6 q8 L3 W" m2 u. d% R  下面是VeryCMS里的robots.txt文件:/ s) L  G7 L# p7 c$ O

8 H' `5 F8 ?- ~( {  User-agent: *
) _' t% U8 j0 O# [* k
, m* Z1 O; t; g" N  |% _' U+ L  Disallow: /admin/ 后台管理文件
  K* m. W* l- Z' g
# V3 H7 j7 L$ Q. e3 I- j  Disallow: /require/ 程序文件
. o4 `4 j+ b* R8 Z
! c6 A# b  l+ o& z( }  Disallow: /attachment/ 附件
- P2 f, T4 h9 P( T& O( _) q
" d4 s# s7 R7 a: w; Y+ }  Disallow: /images/ 图片
1 j8 ?* I$ `* L6 O. k5 o3 }  N3 H% g0 |* j
  Disallow: /data/ 数据库文件
# s0 P* N( a2 m& I9 y5 R. K& k' L  n6 A
  Disallow: /template/ 模板文件# u- r. u7 u8 V/ X; }( S
; e* q4 |0 x+ m2 H
  Disallow: /css/ 样式表文件
) A! {/ [. T: s6 H& A$ [7 X1 q/ ^( b$ G! s4 f
  Disallow: /lang/ 编码文件, Z1 L, N& c( Y& J( v

' y# }+ ]! s4 F) W4 h/ ?. m- s6 M+ A( A  Disallow: /script/ 脚本文件% X; t# W# J6 u

: k! T( @# @/ a: O: W/ K6 F  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。- Q% F5 D* J( ?, ?3 J
: A* a: B$ r& n6 t) S) \0 w
  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
3 v/ L4 M2 p2 r0 }  t7 n+ j9 Z; |. k* i# t, t* E- n- _7 O
  Sitemap: http://www.***.com/sitemap.xml5 c4 }: F) E- z, n; m, Y
! x, i" T' J: b- L* q
  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。6 K1 J$ I5 O# U, q* m
+ g# P8 e+ l$ ^
  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
您需要登录后才可以回帖 登录 | 注册


Archiver|航空论坛 ( 渝ICP备10008336号 )

GMT+8, 2024-11-25 03:43 , Processed in 0.022001 second(s), 9 queries .

Powered by Discuz! X2

© 2001-2011 MinHang.CC.

回顶部