航空论坛_航空翻译_民航英语翻译_飞行翻译

 找回密码
 注册
搜索
查看: 1459|回复: 0
打印 上一主题 下一主题

robots.txt [复制链接]

Rank: 9Rank: 9Rank: 9

跳转到指定楼层
1#
发表于 2009-8-21 21:23:01 |只看该作者 |倒序浏览
[编辑本段]
5 T, O3 A4 [) B0 @% z, ]4 p+ h什么是robots.txt?  robots.txt是搜索引擎中访问网站的时候要查看的第一个文件。Robots.txt文件告诉蜘蛛程序在服务器上什么文件是可以被查看的。
* T' a. ]3 @; ?, U8 y
, A+ a( |6 ^+ n0 l% \1 |0 f  当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。
9 _/ l$ H$ V1 r! ~& @5 S0 b5 q8 [$ M9 c+ F+ B0 t
  robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。2 p# F/ _6 C: {9 t  C

3 M3 m5 h) r$ x  语法:最简单的 robots.txt 文件使用两条规则:
6 d% v- E1 O9 q5 M& z5 ^3 n3 A* w+ Y+ O  F
  • User-Agent: 适用下列规则的漫游器
( A: h( j6 `! X) J( G) K7 u7 l6 D/ Z$ i" s3 o" u8 E: `8 z+ j
  • Disallow: 要拦截的网页
4 K2 k) M% e  ?5 e6 C6 B1 Z' w[编辑本段]
) e; T' ]3 g- w+ R& b7 Arobots.txt使用误区  误区一:我的网站上的所有文件都需要蜘蛛抓取,那我就没必要在添加robots.txt文件了。反正如果该文件不存在,所有的搜索蜘蛛将默认能够访问网站上所有没有被口令保护的页面。% k' H" w& U! s- S! p- X+ Q; f4 G
2 ~+ K. I. U+ l( e$ o4 @+ Q) @
  每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该做网站中添加一个robots.txt。
- R" Z4 P- c9 g6 C
7 Z$ i; V6 b6 v" L. G5 Z6 b  误区二:在robots.txt文件中设置所有的文件都可以被搜索蜘蛛抓取,这样可以增加网站的收录率。
/ t9 [  _7 z! N& o) @4 h* `
; [& A. z+ J% e; A: R  网站中的程序脚本、样式表等文件即使被蜘蛛收录,也不会增加网站的收录率,还只会浪费服务器资源。因此必须在robots.txt文件里设置不要让搜索蜘蛛索引这些文件。
2 Y$ i" V: {1 ?6 g/ p! g4 r, L4 [
  具体哪些文件需要排除, 在robots.txt使用技巧一文中有详细介绍。/ b$ s7 w9 a2 j# N

2 Y/ X+ C- |$ J/ d" e  误区三:搜索蜘蛛抓取网页太浪费服务器资源,在robots.txt文件设置所有的搜索蜘蛛都不能抓取全部的网页。
2 d8 j' G& r% z* d
  n4 K4 B' y) m- R) {4 h  如果这样的话,会导致整个网站不能被搜索引擎收录。
! H' y: S% l" b  L6 D[编辑本段]) @6 V( ~4 ^; |+ F# p
robots.txt使用技巧  1. 每当用户试图访问某个不存在的URL时,服务器都会在日志中记录404错误(无法找到文件)。每当搜索蜘蛛来寻找并不存在的robots.txt文件时,服务器也将在日志中记录一条404错误,所以你应该在网站中添加一个robots.txt。4 m( v$ @& f) Z+ u( {# m1 M
) B6 i* `( C' z
  2. 网站管理员必须使蜘蛛程序远离某些服务器上的目录——保证服务器性能。比如:大多数网站服务器都有程序储存在“cgi-bin”目录下,因此在robots.txt文件中加入“Disallow: /cgi-bin”是个好主意,这样能够避免将所有程序文件被蜘蛛索引,可以节省服务器资源。一般网站中不需要蜘蛛抓取的文件有:后台管理文件、程序脚本、附件、数据库文件、编码文件、样式表文件、模板文件、导航图片和背景图片等等。
2 O' W) F( T2 h0 n( }
2 X  I& }7 g/ I+ @% X: l5 ?  下面是VeryCMS里的robots.txt文件:; ]4 {# @6 ^; ~2 G

8 f( B* v* E9 A2 k$ O" J  User-agent: */ \! G7 n& e, d: Q
9 r: V1 ?3 V. J+ @
  Disallow: /admin/ 后台管理文件
' @$ t8 A. q+ E' }( s8 J. `, j
: x' k$ }; X- o8 L5 ?  v  Disallow: /require/ 程序文件
4 C0 D& n+ P' j' G
9 K& k" L7 a6 |/ V& V2 \3 C  Disallow: /attachment/ 附件
5 h% }9 g8 T% w
. X* s& i) p4 O) l8 r. |& Y  Disallow: /images/ 图片( q1 E% Y! U9 z2 N* Y& c" [
& v1 e, x. t% Z/ ^9 x" o  Y
  Disallow: /data/ 数据库文件
" ?, H$ C9 D5 K$ Y0 W( R3 R- @; D6 P8 ^$ [0 j
  Disallow: /template/ 模板文件
3 B7 x- I1 h; m, R' F' k! ^( m- U
7 ~) L4 x* }/ \) W  Disallow: /css/ 样式表文件
* h5 x3 W4 I$ B8 p: S! ^( W! p/ d% V9 p9 \/ \* v
  Disallow: /lang/ 编码文件
; s: A# L$ T$ W" f3 B, ?% Z& P& h  M
  Disallow: /script/ 脚本文件
4 l/ u- [" i# h* e
" E7 u2 {  W% I' ~  3. 如果你的网站是动态网页,并且你为这些动态网页创建了静态副本,以供搜索蜘蛛更容易抓取。那么你需要在robots.txt文件里设置避免动态网页被蜘蛛索引,以保证这些网页不会被视为含重复内容。
( N2 M7 j; R0 P6 j+ b2 ]9 \  ^5 l' \# Z& H6 F. J( p( I
  4. robots.txt文件里还可以直接包括在sitemap文件的链接。就像这样:  E3 k7 G; C. D' Z
  i& m$ s1 N& ?. ~
  Sitemap: http://www.***.com/sitemap.xml' d& T* @* v2 u9 Z
; l. q: _2 v# C2 n% ?' |
  目前对此表示支持的搜索引擎公司有Google, Yahoo, Ask and MSN。而中文搜索引擎公司,显然不在这个圈子内。这样做的好处就是,站长不用到每个搜索引擎的站长工具或者相似的站长部分,去提交自己的sitemap文件,搜索引擎的蜘蛛自己就会抓取robots.txt文件,读取其中的sitemap路径,接着抓取其中相链接的网页。, g& X" v% L* X$ X: J
, f. S: {0 g& Y/ A* p
  5. 合理使用robots.txt文件还能避免访问时出错。比如,不能让搜索者直接进入购物车页面。因为没有理由使购物车被收录,所以你可以在robots.txt文件里设置来阻止搜索者直接进入购物车页面。
您需要登录后才可以回帖 登录 | 注册


Archiver|航空论坛 ( 渝ICP备10008336号 )

GMT+8, 2026-1-14 14:37 , Processed in 0.022001 second(s), 9 queries .

Powered by Discuz! X2

© 2001-2011 MinHang.CC.

回顶部