航空论坛_航空翻译_民航英语翻译_飞行翻译

 找回密码
 注册
搜索
查看: 1279|回复: 0
打印 上一主题 下一主题

robots.txt [复制链接]

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
1#
发表于 2009-8-21 21:23:01 |只看该作者 |倒序浏览
[编辑本段]) o  g2 ^& r7 e9 ~5 \2 |
什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。# g( K! N, G6 w4 k' w
- ?  m7 v/ d7 A  N8 i
  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。7 A  k7 r4 Z% y$ K& E% T
# q" Y5 n3 q8 G' ]( z  k# K6 c
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
: x; I8 t) A( t& a, ?* {7 X3 Y4 l  c7 D( E* g1 r( H" |5 Q" P2 d. C; `7 b
  语法:最简单的 robots.txt 文件使用两条规则:
9 j; y* z$ U3 E3 a$ j
. a% i# x: p' H7 n1 i; q9 l  • User-Agent: 适用下列规则的漫游器 - z0 E* ?0 o0 E9 X- q1 f- P

1 }  K: S( K6 e3 o5 J/ e  • Disallow: 要拦截的网页 / @% m3 J- `- D9 f& b( U
[编辑本段]3 U% b; ?7 Y1 z& @: z$ w% y% b
robots.txt使用误区  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。) b  K( V  X9 Q+ h4 R
( O0 m3 X% D) N; g7 ^
  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。0 D6 \% r1 ]0 g: ]- R3 t2 I6 t
) D" C) |% x5 G: o) e
  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。- F7 _- m4 O" ^) n# a" E

+ ^" m( Q( C; V  q; {. Z. u  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
# a. X1 c( y" _# n# L3 M9 {/ _/ d6 K
8 p2 t; S2 c: |, M0 g6 T; Z  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。9 L+ b" x% o& o; K4 u
5 q6 k2 E) L; z: x% z9 v6 x
  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
  d8 [  y( E7 I0 @) |1 ^% r9 X% Y  d& h( Z
  如果这样的话,会导致整个网站不能被搜索引擎收录。
0 i& ]; j. B- e7 M# H4 z[编辑本段]5 ^; \, m9 B; s0 _
robots.txt使用技巧  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
- |$ o: W! o+ H7 U. z% r$ ?
9 `+ b- a; b% V( @: v7 O  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
2 P; X* p6 P2 r% q/ I( q+ n
1 s: l( v5 z  N2 [4 j+ E  下面是VeryCMS里的robots.txt文件:
+ T1 d& c& ~8 t% H6 m
4 y" a% M' K' S7 F5 o" }5 x/ J- e  User-agent: *2 E* d* o! M0 a1 Y$ W

) a" E% n7 a& G" q% _5 F, J* o  Disallow: /admin/ 后台管理文件) |6 a; }0 t/ z, S, o$ [) W

1 H6 S* X0 ^( J  \+ B  Disallow: /require/ 程序文件- r  {0 |5 d9 u

8 R3 W6 t/ q3 u8 V9 l  Disallow: /attachment/ 附件% h5 ?, G/ M# a3 p5 p0 _+ h2 ^& z8 R
' b/ W$ A9 Z' ~; v; |2 u8 \# |4 B
  Disallow: /images/ 图片
4 j5 O+ a4 Q% U  _; @6 R8 z9 H3 |
  Disallow: /data/ 数据库文件
; f) ]  |! d* v$ S3 ?/ N
$ |% v* h6 D# S  u, S& M, D% V  Disallow: /template/ 模板文件
. j- {0 U, w8 V: n, L2 \
$ n1 `4 R+ ?2 B; [) N  Disallow: /css/ 样式表文件
; C. Q; h) c5 J8 C3 }
+ l( C0 z; x4 _1 A! F  Disallow: /lang/ 编码文件
5 l; @3 w/ [: L1 ^, G2 p2 w9 p* X! m- x* P. e5 a
  Disallow: /script/ 脚本文件5 z' m% X: o/ z/ {: K
1 `: t- T8 h, {5 f) [
  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。/ c& P# g+ d: c4 A! i

$ g5 ~* P$ w  O) k0 q  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
7 Y$ G8 T+ o: a) j% B% B0 J
1 B% @  u* Y4 }* o1 o  Y+ ^  Sitemap: http://www.***.com/sitemap.xml
0 ^# G" f0 o' e8 k- {0 P" P! t% D; U/ N
  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。# Q+ R4 k3 g) [, e! w

, Y6 y7 h0 i$ x; J% i* z  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
您需要登录后才可以回帖 登录 | 注册


Archiver|航空论坛 ( 渝ICP备10008336号 )

GMT+8, 2025-5-25 19:18 , Processed in 0.015600 second(s), 10 queries .

Powered by Discuz! X2

© 2001-2011 MinHang.CC.

回顶部