- 注册时间
- 2008-9-13
- 最后登录
- 1970-1-1
- 在线时间
- 0 小时
- 阅读权限
- 200
- 积分
- 0
- 帖子
- 24482
- 精华
- 4
- UID
- 9
|
[编辑本段] G, u* h; Q& ~; s4 l
什么是robots.txt? robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。0 ~7 B) Y, a/ u7 t$ `
' d2 L2 {% z2 K" d: ?4 [ 当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。& H7 O9 F# K. ~+ w
8 M- s& }: n6 u
robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。4 p/ K, f1 T# H, D' `2 X% w
* H1 b; z7 C d- L* Z1 S! t2 S
语法:最简单的 robots.txt 文件使用两条规则:
& X* O9 W( k" m- @
' N m! ~2 R4 ]1 t3 l) J • User-Agent: 适用下列规则的漫游器 9 {2 k4 G; v9 J, ^* R# K5 h
/ t* p; Y+ H" C2 y" u1 o
• Disallow: 要拦截的网页 5 c. ?* `) m' g0 k' M; O! I
[编辑本段]6 u% g! c* v4 J) g
robots.txt使用误区 误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。
. o" X" ^# D. O" H. h4 p6 f- Z! V0 G3 y
8 n; M6 O% t" v( J6 l 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
& K) G: Q3 } S( F/ p' A8 x' [% d' I' x
误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。
7 V5 V+ y0 P2 o7 M8 A5 O2 Y! A5 }6 L, k% O; z
网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。) ^8 y# Y! f+ q! E: @
' r6 J9 z+ H0 A, ^% r- V2 r# W 具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。- b! C3 f8 P* T# M4 P; q5 {6 n
& y" x; l% s! }5 P( C
误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
" D. t h5 [- i/ [# M$ W2 v; }7 o5 w* o# @ M4 |* g
如果这样的话,会导致整个网站不能被搜索引擎收录。 " s# i" m6 n0 c+ V: X6 [) l4 `
[编辑本段]
& t8 [8 c) w5 a+ d3 b: g+ p; v- c, Q3 Grobots.txt使用技巧 1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。0 r7 C. T& |; p8 x: O
3 C1 V6 j% ]6 h
2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。# Q6 y7 r7 M, y4 G+ Z g' l( _
/ K. g1 \; E( x' J1 b1 `+ ^$ l8 n 下面是VeryCMS里的robots.txt文件:2 ]% R4 e5 Q1 \0 i# N
l1 i" A0 n1 I; @9 O1 p, e5 V* e
User-agent: *% t, f D1 i9 ^& U
}# y! N8 y' [) _4 L& ~" a8 K
Disallow: /admin/ 后台管理文件2 t9 n# e; |" Z" D
8 ^/ ~1 N3 @& t1 x% M Disallow: /require/ 程序文件% D$ N4 E& q1 I8 V# V
+ R1 a& n" M$ R0 z1 p
Disallow: /attachment/ 附件& k* O' h- P; j
6 g# }" z, z% @, C. f Disallow: /images/ 图片
) r' k9 [7 h1 @* S! \4 p' u0 _& i4 S& A& X' b1 R+ W: s
Disallow: /data/ 数据库文件
* j! u9 ` O! h9 ^7 U7 q5 Z _) M: b6 N% K
Disallow: /template/ 模板文件
C3 k) r7 s( m- ]8 A: Q; r6 u9 h
5 g& N2 g' Y0 t0 T- B$ q5 E Disallow: /css/ 样式表文件
2 S" x- }1 N# b8 K& \1 Y1 `/ F3 Z% U4 U+ C7 a( |8 r- g
Disallow: /lang/ 编码文件6 k0 o& X4 a. [; I" \$ a
2 i- E7 v! B4 G; w* `: } Disallow: /script/ 脚本文件
1 m( k% W! K5 y4 P8 O5 ~, b) J+ k6 v4 W6 c2 z! w3 [
3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
4 }& ~# @2 V/ U1 N6 B. N7 P* H% K% h8 W0 F% E J9 k
4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:" R, j/ f, L0 u) w3 i1 f
, j: V! }* |& ^# S4 S4 E Sitemap: http://www.***.com/sitemap.xml
1 E( @$ S- N$ L8 i% F. M) a8 t8 t/ o+ I! j6 o1 @% g$ `1 L
目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。* d9 n" a0 b, C- Y& l( R
B" e8 l9 C- G. L
5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。 |
|