航空论坛_航空翻译_民航英语翻译_飞行翻译

 找回密码
 注册
搜索
查看: 1429|回复: 0
打印 上一主题 下一主题

robots.txt [复制链接]

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
1#
发表于 2009-8-21 21:23:01 |只看该作者 |倒序浏览
[编辑本段]
( ?/ e0 N$ H4 X+ H3 s3 r什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
1 ^" T5 J- i- n  E% a& I7 A; z4 R- o' m; d
  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。- ~) }+ H9 A8 ^: Y6 \% s6 p9 e
! Q- \0 A$ b4 e+ t% f
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。1 G3 ^% g) D- k, T
- u" M! J; T9 a1 E1 j* ]( @  U
  语法:最简单的 robots.txt 文件使用两条规则:+ L2 v1 ?# S, i' u, N% Y$ V; E

6 F* h1 V# x! j2 r; @  • User-Agent: 适用下列规则的漫游器 * u3 U9 N$ b( T# Q1 k' K2 ]

6 |' x. P6 J% n' y  b& [; a6 K  • Disallow: 要拦截的网页
5 o+ z8 ~5 Q: j. {' S7 L# f[编辑本段]
" K0 S: ~9 V; j/ f: drobots.txt使用误区  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。% c. E, N7 w& p3 ~. A

9 k6 t1 K* B! x: q0 f  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。3 _$ ?  D" }% ]: {! N2 v3 Z
. I7 J# E2 I5 ^- M2 x8 L
  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。7 |6 N: W# q( \3 L* y' `
5 N# ]9 {/ i6 @. W/ r; E2 {- O
  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。; A% Y" c* Q- S6 {. h

% E; z+ c6 Y8 K3 h. `  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
' C4 [; ]0 j( y! G, @; x  B2 O9 Q' i
  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
+ p' F/ O  L: P
4 U* v' b4 K% n1 U  如果这样的话,会导致整个网站不能被搜索引擎收录。 3 N* ^* H- U8 y
[编辑本段]
7 z1 g# @+ x. }robots.txt使用技巧  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
2 K# ]1 b8 i* B7 D- A! F3 Q# E" {. t( L/ ?
  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。! M& e1 f8 L, \

! m- B1 E5 r* ?/ W( t8 j2 v  下面是VeryCMS里的robots.txt文件:
! T: p& P: b7 M. n& j5 Y. v0 R  b: ]6 t$ T, n* z( d
  User-agent: *. i0 X" \% F( ?( Q

! {5 ^+ ?) y' B8 l  Disallow: /admin/ 后台管理文件
; H$ G6 y  B1 y; B; G. _" ^
4 i& f- H, v8 d# r  Disallow: /require/ 程序文件
/ E, u' m+ I$ i& e
' \1 R  ~0 Q! v# ?, P4 o6 e& g  Disallow: /attachment/ 附件
$ @$ ^4 U4 v% l; N. b' U$ q
' [7 q9 M& c( P: d+ C$ i  Disallow: /images/ 图片
1 ~5 Q; F9 F  T2 U* o7 ^) A: F" l0 y
. R+ \8 N% o9 B. X% t  Disallow: /data/ 数据库文件9 U- x+ D0 \; t/ e+ b. G- V) t

9 I9 g, z" Y7 v/ y' x, F  Disallow: /template/ 模板文件
9 q, W& g0 W( U9 d5 P$ Q& I
+ F$ |) I/ \" [( `% S  Disallow: /css/ 样式表文件8 a  B) y0 A3 G  Y, ?4 X
) h8 a9 N. M  q2 L% G
  Disallow: /lang/ 编码文件2 Y" ]) j" @$ c( x) A! D) Z1 M

! ^& \) T* [( Q* Y9 J) y  Disallow: /script/ 脚本文件
8 @- {; Q1 o1 r2 n
4 o2 {9 s7 [2 n  M' v) B0 V1 o' P! P  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。6 e4 t$ q) ?) V( Y8 Z  s8 V2 N

8 h4 r& q: T/ `3 @6 ^% J% o6 S  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:8 Q0 H3 V, ^% D) H
' s4 ]3 O0 u' x
  Sitemap: http://www.***.com/sitemap.xml5 j. t, Z9 L9 U( F& O, s

/ C. W  o* a% @' D" n; a  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。& S7 R' a1 b8 [6 E/ G

! w9 @+ W$ w# a: u; k; `9 a8 ]: Y  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
您需要登录后才可以回帖 登录 | 注册


Archiver|航空论坛 ( 渝ICP备10008336号 )

GMT+8, 2025-11-27 04:59 , Processed in 0.021001 second(s), 9 queries .

Powered by Discuz! X2

© 2001-2011 MinHang.CC.

回顶部