航空论坛_航空翻译_民航英语翻译_飞行翻译

 找回密码
 注册
搜索
查看: 1226|回复: 0
打印 上一主题 下一主题

robots.txt [复制链接]

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
1#
发表于 2009-8-21 21:23:01 |只看该作者 |正序浏览
[编辑本段]7 H# [: S' Z' l
什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。4 `  g& v6 k+ f1 s9 ]

! |' y3 n# ^& B) O( }# n5 J  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。  t9 S' R) s. T8 b) n
& n: W( `1 @5 z7 M$ q- i3 u
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
. {; c  I+ ^9 R+ p# ^: R# G+ c
/ _$ K4 L' U% Q% l) P  语法:最简单的 robots.txt 文件使用两条规则:
4 \$ J" B  \: m/ E1 ?% }  O$ g
& D6 H5 Q* H/ s% j  s7 G8 E  • User-Agent: 适用下列规则的漫游器 0 e0 \5 a& t& g/ T
, \1 k) ^; u1 {3 I
  • Disallow: 要拦截的网页 & p7 u0 z* k5 K# Z, o$ ~* [; a
[编辑本段]
3 n3 e/ z. J" O! P. @% j) ]8 A4 f/ Orobots.txt使用误区  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。
9 O+ P1 @* p3 h6 C! a- V8 ?$ q5 o4 v/ a) k( {
  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
% B, {* h0 n) L3 _5 w7 A0 U
0 \+ h( t- D8 Z# K  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。/ a. K4 C- e# q" K% I/ B: ^/ R
6 ~" V9 V: o; h# |  l0 m
  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
0 S' r2 M8 F! T6 \8 h/ v. B/ h% q5 D: t$ {3 ~* `
  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
/ Z- K. B" S5 F! g# f; d8 |" M
" Q! o/ ?3 }4 ~: j& R& n- m; f  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
9 A$ ^- u5 Q* ~+ F5 w% m7 P, Q- I, j" i  `
  如果这样的话,会导致整个网站不能被搜索引擎收录。
8 }( R; [- I, C3 ^, h8 [; S: `  s[编辑本段]
- V1 N* e) i; z5 I2 v+ m9 b) zrobots.txt使用技巧  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
, G# i( B3 f$ s/ n$ ?% D; Y8 }& U  q
  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。$ i4 A4 V: x* W: M
; Y6 X# \* n9 e5 P  o
  下面是VeryCMS里的robots.txt文件:
# H4 Y$ n! T# H8 s) ~* M; r: q% V* ^6 T! U% n! H
  User-agent: *5 U7 [" l& C; I4 Q
; ]4 l% W+ q! S
  Disallow: /admin/ 后台管理文件0 N$ }1 {6 c1 o; C& R
2 h; z: v( k& a4 ~/ _& K+ e4 O2 i
  Disallow: /require/ 程序文件
- R1 L& ^. I+ n) W+ L: b2 N! @, X, Z
5 ~! j4 _- k& i# Y) R/ s8 B  Disallow: /attachment/ 附件
7 V) n) g8 W% z
3 L9 r; @3 f6 p, a" H8 ^  Disallow: /images/ 图片$ T/ G& w( F  u; }* s

7 {: U  R, W/ K5 e9 C# J6 }8 z; ~  Disallow: /data/ 数据库文件
. t6 o5 |' L* C9 [* L
2 L& N5 {8 }( I/ C8 o9 l$ o8 [) H  Disallow: /template/ 模板文件
6 \& }6 {. y' ^' [6 k9 P
6 ?/ n: B' O$ k6 S) p  Disallow: /css/ 样式表文件
4 H. N2 V, k) P2 j8 E' e0 j; q2 g8 L$ Q
  Disallow: /lang/ 编码文件
& J2 _) l* p+ f1 V. W% o: H
+ H& W+ B& P: I- X" \( B  Disallow: /script/ 脚本文件6 _. n' Y1 G* u) |" x" X4 Q
4 R' G  D- v2 Z. J: r/ K
  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。9 b  e/ _0 L4 l

- Y4 A+ |4 T8 b: b. _, M  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
3 f  L* K/ a( o5 _% W4 Q/ [+ p( @4 B! I6 c& m6 J
  Sitemap: http://www.***.com/sitemap.xml
6 ~, I" X) W: C6 t2 {
" i, z/ ]; d* Z! L% F5 j5 w  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。
% S5 h0 X* @4 j
' K6 n7 Q4 u3 ~  s2 l2 T  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
您需要登录后才可以回帖 登录 | 注册


Archiver|航空论坛 ( 渝ICP备10008336号 )

GMT+8, 2024-11-25 03:47 , Processed in 0.022001 second(s), 9 queries .

Powered by Discuz! X2

© 2001-2011 MinHang.CC.

回顶部