- 注册时间
- 2008-9-13
- 最后登录
- 1970-1-1
- 在线时间
- 0 小时
- 阅读权限
- 200
- 积分
- 0
- 帖子
- 24482
- 精华
- 4
- UID
- 9
|
[编辑本段]7 H# [: S' Z' l
什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。4 ` g& v6 k+ f1 s9 ]
! |' y3 n# ^& B) O( }# n5 J 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。 t9 S' R) s. T8 b) n
& n: W( `1 @5 z7 M$ q- i3 u
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。
. {; c I+ ^9 R+ p# ^: R# G+ c
/ _$ K4 L' U% Q% l) P 语法:最简单的 robots.txt 文件使用两条规则:
4 \$ J" B \: m/ E1 ?% } O$ g
& D6 H5 Q* H/ s% j s7 G8 E • User-Agent: 适用下列规则的漫游器 0 e0 \5 a& t& g/ T
, \1 k) ^; u1 {3 I
• Disallow: 要拦截的网页 & p7 u0 z* k5 K# Z, o$ ~* [; a
[编辑本段]
3 n3 e/ z. J" O! P. @% j) ]8 A4 f/ Orobots.txt使用误区 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。
9 O+ P1 @* p3 h6 C! a- V8 ?$ q5 o4 v/ a) k( {
每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
% B, {* h0 n) L3 _5 w7 A0 U
0 \+ h( t- D8 Z# K 误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。/ a. K4 C- e# q" K% I/ B: ^/ R
6 ~" V9 V: o; h# | l0 m
网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
0 S' r2 M8 F! T6 \8 h/ v. B/ h% q5 D: t$ {3 ~* `
具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。
/ Z- K. B" S5 F! g# f; d8 |" M
" Q! o/ ?3 }4 ~: j& R& n- m; f 误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
9 A$ ^- u5 Q* ~+ F5 w% m7 P, Q- I, j" i `
如果这样的话,会导致整个网站不能被搜索引擎收录。
8 }( R; [- I, C3 ^, h8 [; S: ` s[编辑本段]
- V1 N* e) i; z5 I2 v+ m9 b) zrobots.txt使用技巧 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。
, G# i( B3 f$ s/ n$ ?% D; Y8 }& U q
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。$ i4 A4 V: x* W: M
; Y6 X# \* n9 e5 P o
下面是VeryCMS里的robots.txt文件:
# H4 Y$ n! T# H8 s) ~* M; r: q% V* ^6 T! U% n! H
User-agent: *5 U7 [" l& C; I4 Q
; ]4 l% W+ q! S
Disallow: /admin/ 后台管理文件0 N$ }1 {6 c1 o; C& R
2 h; z: v( k& a4 ~/ _& K+ e4 O2 i
Disallow: /require/ 程序文件
- R1 L& ^. I+ n) W+ L: b2 N! @, X, Z
5 ~! j4 _- k& i# Y) R/ s8 B Disallow: /attachment/ 附件
7 V) n) g8 W% z
3 L9 r; @3 f6 p, a" H8 ^ Disallow: /images/ 图片$ T/ G& w( F u; }* s
7 {: U R, W/ K5 e9 C# J6 }8 z; ~ Disallow: /data/ 数据库文件
. t6 o5 |' L* C9 [* L
2 L& N5 {8 }( I/ C8 o9 l$ o8 [) H Disallow: /template/ 模板文件
6 \& }6 {. y' ^' [6 k9 P
6 ?/ n: B' O$ k6 S) p Disallow: /css/ 样式表文件
4 H. N2 V, k) P2 j8 E' e0 j; q2 g8 L$ Q
Disallow: /lang/ 编码文件
& J2 _) l* p+ f1 V. W% o: H
+ H& W+ B& P: I- X" \( B Disallow: /script/ 脚本文件6 _. n' Y1 G* u) |" x" X4 Q
4 R' G D- v2 Z. J: r/ K
3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。9 b e/ _0 L4 l
- Y4 A+ |4 T8 b: b. _, M 4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:
3 f L* K/ a( o5 _% W4 Q/ [+ p( @4 B! I6 c& m6 J
Sitemap: http://www.***.com/sitemap.xml
6 ~, I" X) W: C6 t2 {
" i, z/ ]; d* Z! L% F5 j5 w 目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。
% S5 h0 X* @4 j
' K6 n7 Q4 u3 ~ s2 l2 T 5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。 |
|