航空论坛_航空翻译_民航英语翻译_飞行翻译

 找回密码
 注册
搜索
查看: 1330|回复: 0
打印 上一主题 下一主题

robots.txt [复制链接]

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
1#
发表于 2009-8-21 21:23:01 |只看该作者 |倒序浏览
[编辑本段]
% H% L6 p, k. r: f什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
6 F9 F8 d4 L+ t3 f( B$ l2 e8 z8 R$ D" D- F* N
  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。+ A( r" V7 I6 v
5 @% }9 \0 g, r, @; D7 @
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。9 [* r9 u/ L3 ^4 G. n& J$ k
  f1 j7 h  k3 {9 j; [: K
  语法:最简单的 robots.txt 文件使用两条规则:
) i" }: d. }& X8 a' I+ K' Z# |7 X- o1 [" Q' k% T. @2 z
  • User-Agent: 适用下列规则的漫游器
+ s- i4 v/ {6 A% p9 R
; E' M, \" D0 s  • Disallow: 要拦截的网页   a) n' a0 C: |5 p; X1 B
[编辑本段]' B" [& t( n# z; G1 Z% P4 x
robots.txt使用误区  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。2 }$ f# x. |2 l) v' a

7 `  @! O$ @9 S9 v) {! I  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。' x0 W) W8 t; H% G1 N% N. d

( u5 c3 `9 o' J5 ^  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。6 k0 d% M6 }& n
& P8 q6 G" `  O. o- L' _' H
  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
4 D5 _/ E( _/ `1 G* T& B9 g& q4 j0 ?# }: }- E! Q8 I: a5 C5 z
  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
) x5 V- Q4 W+ F4 N' z
9 [- ]9 P' `& S/ ~# |/ Y$ K! S  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。; o5 s5 E1 [' G8 ?, C4 S# R6 t
' F. i, B  ]$ ~! j" r9 o6 I, O3 ]6 M. ?5 w
  如果这样的话,会导致整个网站不能被搜索引擎收录。 3 q: D! O: F7 f( w+ p3 x
[编辑本段]
) [, e) s0 {% F( b" urobots.txt使用技巧  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
, X6 W' C" g! G  c5 N5 b, u9 k3 W/ P. M, y' P+ N
  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
& t7 j6 u$ J9 y$ b! ]) }2 E) j; M
9 d* y9 [+ @9 `& c  下面是VeryCMS里的robots.txt文件:4 x' Y$ z4 t: T% H. s% F/ F! n
  D- }# }$ u8 `& X# Z
  User-agent: *
. V- t. e' E  w. a/ a2 j) k, ?- J
  Disallow: /admin/ 后台管理文件
( X' N' J2 ~( E! n1 }% v' e" T
8 A$ Q9 ^$ Q% M+ ^4 }& b! l5 A, F  Disallow: /require/ 程序文件5 g& j7 C( P. Q& n% @" l% D

  ]% r  h- [& q  Disallow: /attachment/ 附件/ C4 q/ [( R- @+ @4 x+ ], j) t
4 V( K& u- S  J
  Disallow: /images/ 图片) K# S8 E5 t2 c5 l1 H6 p6 E& R+ ?5 V

  A4 O  Z" Z. [5 G  Disallow: /data/ 数据库文件2 q" W# i2 n7 U

, X% }* K- u: b  Disallow: /template/ 模板文件
+ n, Y( `4 ^- c  R4 P& J; Y* i# g# _% }4 M) W2 S
  Disallow: /css/ 样式表文件
( s% S( Z8 U; x6 H* M( B5 D% n' @3 m  x  n% x* n
  Disallow: /lang/ 编码文件
7 s$ P0 o& C4 ]. a; J& q" P. t* A
1 I; j0 b# U4 V7 j  Disallow: /script/ 脚本文件9 v$ G& S# z; A! G
, _& E% D( G9 K
  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
2 u! j8 ^+ E8 C, c4 c6 e0 g8 Z8 {9 `- `6 L
  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:4 p2 x  S! r$ l2 c% D# h" [6 {

& H5 Z7 G( x7 H; V* ?# x0 o  Sitemap: http://www.***.com/sitemap.xml3 _0 ~  Z6 o' B0 V

; B7 e9 d) |9 C4 s  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。
3 K: g$ M+ z( ]9 `3 A7 M
. o2 _8 ~9 X& x( s: Q  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
您需要登录后才可以回帖 登录 | 注册


Archiver|航空论坛 ( 渝ICP备10008336号 )

GMT+8, 2025-9-5 07:17 , Processed in 0.022001 second(s), 9 queries .

Powered by Discuz! X2

© 2001-2011 MinHang.CC.

回顶部