航空论坛_航空翻译_民航英语翻译_飞行翻译

 找回密码
 注册
搜索
查看: 1457|回复: 0
打印 上一主题 下一主题

robots.txt [复制链接]

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
1#
发表于 2009-8-21 21:23:01 |只看该作者 |倒序浏览
[编辑本段]
* {9 K* _! C$ b什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。$ ~/ v- W' h) Z" s
5 Z! w' r4 J) a, L! S2 {
  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。. B9 o$ x9 ~& d; c% `
5 Z) R, X) r4 ^9 ^1 ?1 X
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
# F: g- H0 P( e7 V6 p$ L) _1 Y0 Z4 X; _5 F! \
  语法:最简单的 robots.txt 文件使用两条规则:! m4 N( p2 A: a* R" i+ B0 _

7 p* G7 o: L1 E/ p  _1 [  • User-Agent: 适用下列规则的漫游器
! H; H2 C) `/ s) P% H' A) S
4 h' ?0 K* T# l  • Disallow: 要拦截的网页 ; G$ @4 Z& r' H" I
[编辑本段]
: R! q% W) l- Y5 B- mrobots.txt使用误区  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。  {9 q9 ?( [& m+ t$ ?' c% C: u  B
& `! _" H+ w/ F& i, X
  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。! z- R6 V) Y1 w( v' U' j
8 b- L: T" K, ]6 g% a7 b
  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。; L) o% K+ G5 d" ~) ?

$ d8 o( D$ i. X+ P7 [0 Y( j  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
. b8 z$ `" `0 S! b3 D8 C+ B/ p) e* _! B3 O$ Y+ R
  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
6 G* D0 T" r* j  R1 z# `( C6 p% M7 [1 c: @1 k
  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。( `, i0 ]4 F9 Y" e! G5 F- [

5 b/ l% v5 i$ ]  如果这样的话,会导致整个网站不能被搜索引擎收录。
4 V# j& J  Y6 X# \# K[编辑本段]/ O# W  k6 i9 ]  p1 @+ S
robots.txt使用技巧  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
% X7 [& E" k" A% H+ j0 I$ y% \! O7 U+ C; I) Z; G- C# |; a; u; n
  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
( |2 R$ s; d" k* i8 x, {- O2 e
" f0 I  ~# w6 n0 q, O  下面是VeryCMS里的robots.txt文件:5 T7 l  E4 b9 D: L  a
" I7 b5 Q  V* j  _% h* [
  User-agent: *
0 b- N! N  o5 A3 z5 r1 z1 X$ M  v) E! q
  Disallow: /admin/ 后台管理文件
% O; @: {; ]  m
% y" u9 M5 X- o- n# i; Z; |  Disallow: /require/ 程序文件. s" j( L, i0 n

* w& E; i/ z! w4 o9 ^$ E" K  Disallow: /attachment/ 附件
/ k; c/ W- H( `# w$ j1 t: z
: a7 y5 H! g% \2 q) V" d  Disallow: /images/ 图片
% ^1 \  ^; Y. |: d5 t! D, k1 O1 [5 j( R; B& x4 l$ h% D& Z
  Disallow: /data/ 数据库文件+ }6 n2 e! \6 V; k0 [+ y7 l: v) _
6 |1 K* J9 O9 b
  Disallow: /template/ 模板文件
6 B/ h* r9 n8 }/ v
6 d* D: Q6 s% m& T7 K  G  Disallow: /css/ 样式表文件# \) f, ]: F, K
" ^1 I0 G& n$ J2 M# ?
  Disallow: /lang/ 编码文件
  a, r/ a. b& v& ]2 i) O1 {9 q
  Disallow: /script/ 脚本文件
2 o' {( l) d0 D& g; W7 Y
1 U! W: ~+ @. n  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。+ p- C$ q, F' b" m( D- u, N# f9 B) ^
/ w9 g2 R9 c9 e% _' w, ]1 f
  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
# z0 T. G4 q7 c  C- E3 L( h5 J- d/ k. Z$ J6 f, e
  Sitemap: http://www.***.com/sitemap.xml% S1 w4 `" h5 b: G' Q
. k: y9 f1 U& ~, b- ]
  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。$ c* u' e5 f& C8 ~" Z5 T6 A$ Y5 t0 F
0 E* ]8 L  F# P) H, r5 R
  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
您需要登录后才可以回帖 登录 | 注册


Archiver|航空论坛 ( 渝ICP备10008336号 )

GMT+8, 2026-1-14 01:13 , Processed in 0.023002 second(s), 10 queries .

Powered by Discuz! X2

© 2001-2011 MinHang.CC.

回顶部