- 注册时间
- 2008-9-13
- 最后登录
- 1970-1-1
- 在线时间
- 0 小时
- 阅读权限
- 200
- 积分
- 0
- 帖子
- 24482
- 精华
- 4
- UID
- 9
  
|
1.0 简介
$ l& T6 }/ h! U- b2.0 为什么使用数据库? # w2 N+ `, c4 E4 {1 z& R' D
3.0 数据和文档的对比
0 S3 b! r0 E D0 ]. h4 i 3.1 以数据为主的文件 & T* O# y/ I- K* Y4 x
3.2 以文档为主的文件 / _# A' @ N( F
3.3 数据(Data)、文件(Documents)和数据库(Databases) . ~- o: Q' ?& @8 X
4.0 存储和获取数据 % \. \/ z j5 v1 m. W
4.1 传输数据
/ p% f1 F- R& a# C C; I 4.2 将文档结构映射成数据库结构
5 U9 r5 F, @% O/ w Z W- L; q 4.2.1 以模板驱动的映射
) z! `7 k9 S& s N& m8 z 4.2.2 以样式驱动的映射
7 |: M1 M% P9 S9 j. s2 v 4.3 数据类型, 空值(Null), 字符集设置和其他所有的类似集 ' @. a7 d! w. B4 Z
4.3.1 数据类型
9 ?* m2 }; ^, b 4.3.2 二进制数据
( A, T6 N v2 _! |! [/ K 4.3.3 空值(Null)
/ K. s2 h5 D$ a" z4 Q5 q; L) s 4.3.4 字符集设置
6 \) x* M* C( h 4.3.5 处理指令(Processing Instructions) - k1 F3 T# p0 S8 Y
4.3.6 存储(Storing Markup) ; Z) h7 A2 Z( N" R! B1 q1 ^
4.4 从数据库的结构生成DTDs和逆反过程
' _. B6 m- l- K9 R: ]5.0 存储和获取文件(Documents)
. g, S2 O/ L% [+ X6 ?$ K( A 5.1 管理内容系统和关系数据库 . s7 r- G. o( b! a& ^2 C H
6.0 可利用的软件 4 z' K, J7 D( R5 e% g- \4 j
6.1 中间件 0 ?5 \3 J }; ?) K: r
6.2 XML服务器 " G. s% y- ^. `5 L& f6 D
6.3 内容管理系统(Content Management Systems) 3 }4 T/ d5 t, G& {1 Y& V- j9 j, o
7.0 附加联接 3 [8 M1 e8 u8 x5 m' L9 h6 @( W
8.0 注释和反馈 * d% w3 O: y0 H, Z2 y; n* t& Y$ {
-----------------------------------------------------------------------
/ K" i& m1 G1 M6 W/ `4 ]; v$ c1.0 简介 7 \; Z* t* Q1 @5 v) e
本论文简要的探讨了XML和数据库之间的关系,同时罗列出一些可以使用数据库处理XML文档的软件工具。虽然在这里不可能详尽地介绍和提供对这些软件更深层次的评价,但是我希望它能够描述使用数据库处理XML文档中的主要部分。这里有点偏向与关系数据库,因为我的经验如此。 " Y5 d6 s2 g7 [: t6 N
7 D; G4 T& p0 J
2.0 为什么使用数据库?
& F3 o" Y0 D4 z8 [0 X3 X1 n 当你考虑到要使用XML和数据库时的第一个要问你自己的问题应该是:为什么我需要使用数据库。你是需要显示数据?你是需要一个保存你主页的空间?数据库在电子商务运用程序中时把XML当做数据传输格式传送吗?这些问题的答案都将直接影响到你对数据库和中间件(如果使用了的话)的选择。 举例说明,假设你是把XML做为一种数据传输' y/ h5 g4 G# y% C' Z
格式使用在你的电子商务运用程序中。
! [( z B6 T. c, z那么意味着你需要传输的数据格式将主要是具有高度规范结构,那么在XML中的那些自己的编码规范对你而言并不重要了,这样你的兴趣就仅仅是在数据上而不是在这些数据如何物理存储在文 档中了。如果你的运用程序关系简单,那么一个关系数据库和数据传输中间件将能够满足你的需求;如果关系庞大和复杂,那么你就需要一个完全支持XML的开发环境了。
4 D) P/ T+ R& S ] 从另一方面来说,假设你是要实现从杂散的XML文件中创建一个网站的功能。你不仅需要管理这个网站,你还要提供给用户查询其中内容的功能。这时你的文件的格式将是高度
. T# P( v6 E, e- m8 P的不规范,而实体的使用对你来说变得很重要,因为这些文件的结构是网站的基本功能需求。
T3 A' E' N( _* c在这个例子中,你就需要一些"native XML"数据库而不是普通的关系数据库,执行解释 2 \( I+ R5 K, p9 T
、XML实体使用和支持查询语言(例如XQL)。 8 Q5 ~5 x: ^0 N! @9 V+ {
7 x c2 M1 ~& Q( V9 ^5 ]. {3 G# Y; \4 ]5 _9 f
3.0 数据和文档的对比 # I8 n4 N m' b5 V- j I
也许在大多数情况下,判断是否采用数据库的最重要的因素是你使用数据库是用来 ' l" p' ~ Y0 _+ L5 R# k' h
保存数据呢还是保存文件。如果你想保存数据, 你需要的数据库则主要是面向数据存储的,例如一 P6 t) N ?# x2 W$ O
个关系数据库或则一个面向对象的数据库,或则也可以是一个在数据库和XML文档之间传递数据的
. P4 U# J# T5 W2 T1 N2 s* h中间件。从另一个角度来说,如果你想存储文件,你需要一个专门设计用来存储文件的内容管理
8 q$ M5 k9 W+ D. x4 T0 a# g) F系统。虽然可以把文件保存在关系数据库或则面向对象的数据库中,但你会发现你的工作
5 [0 B6 r$ Q3 _/ P k8 O& t2 p经常是在重复实现一个内容管理系统中的功能而已。简单说,虽然一个内容管理系统通常是建立 7 a7 Z. |) B+ ^" C8 I1 b) P8 c
在一个面向对象数据库或则关系数据库的顶层,但是如果只是把一个内容管理系统当做数据库
J% s$ x n& g( _* F+ l5 P来使用被证明是失败的。
& W( m. O7 x) x5 b/ u3 t 你是否需要存储数据或则文件经常取决与你的XML文件。原因是XML文件分为两类:
2 e" x% W! E3 {) C$ R数据为主和文档为主。 $ {. a4 L8 F7 V
$ O/ T4 M8 I: g: v* v
3.1 数据为主的文件
, F5 ~) [4 J1 B7 l) `) `! y 数据为主的文件表现出来的特点是结构相当规范,数据格式良好(就是说,数据中
+ L7 W8 d4 }7 ]0 s, \1 j3 q( i! E& i最小的独立单元是PCDATA-only元素级别或则是一个属性),和一些或则没有混合内容。其中同 ! w0 m- [& v- q+ C& U
类型元素和PCDATA的出现顺序并不重要。例如XML文件内容是销售单、飞行计划、餐馆菜单等等。
4 T+ y Q( k0 q4 A5 F, M数据为主的文件经常被用来设计机器消费,这时XML的调用是多余的---它仅仅是一种数
8 j9 x, |! G6 G# |9 {, }' Z! T5 ~据传输。 5 ^2 I% T* Z$ O2 Q
例如,下面的销售单就是一个数据为主的文档: 2 N/ N* ~" v* Y# _9 l. ]
<Orders> 5 p6 P! U% R$ R) j* l2 S5 O* \
<SalesOrder SONumber="12345"> 2 z+ H$ P; _- [, _5 U3 @5 ?! ^
<Customer CustNumber="543">
0 @' V$ L# W+ V, ^$ K <CustName>ABC Industries</CustName> , v& q4 Z% m1 E2 v
<Street>123 Main St.</Street> 9 ?0 V/ B q0 t/ c8 i/ Z
<City>Chicago</City>
! _3 o. k3 k" b- R! i/ t9 d/ l) l <State>IL</State>
0 W$ k- v8 l) A( x; @: Q <PostCode>60609</PostCode>
0 E/ x" D/ `* Z3 o* H1 [ </Customer>
D+ g3 S. j r! L <OrderDate>981215</OrderDate>
& U) f0 @; j/ c0 m" b& i: b <Line LineNumber="1"> - U0 @8 ^/ q6 R7 Z; v
<Part PartNumber="123">
0 l2 C9 Y, ^& M <Description>
8 M; h, G2 M1 C <p>Turkey wrench:<br /> % A% q7 a- d3 Z1 s
Stainless steel, one-piece construction,
1 O* }0 i* v9 ^9 E! t' T V lifetime guarantee.</p> ! e7 S" B& m6 G
</Description> . a3 m |' i% k }% i3 d9 A9 ?
<Price>9.95</Price>
% @5 {( N& m3 M </Part> 3 L' ]! N8 u) i9 V8 ?, c
<Quantity>10</Quantity> ' q0 S5 T# v% A) G2 i
</Line>
5 [4 y- |1 ~7 D" T <Line LineNumber="2">
. O" x- l. q- C* L; n; S <Part PartNumber="456">
- r" u2 m9 v! R <Description>
0 R1 b5 Q {7 U" s: V$ V7 ~ <p>Stuffing separator:<br /> % {' w3 b* x* f: k. A, F) j% Y
Aluminum, one-year guarantee.</p>
4 M, ?1 G3 E [2 R+ v6 j2 @3 g& u </Description> ; s" |6 D4 L. b. ~" U7 {
<Price>13.27</Price> - |# b4 a: x/ M" c* }
</Part>
2 Z( j6 F) W: S; A8 B! k0 v <Quantity>5</Quantity> # G0 ` _8 e9 b( y9 Q
</Line> $ |' A+ @- ?2 t* L) S
</SalesOrder>
% a" p+ e( G$ j, n# P </Orders>
2 w6 h: d8 I- H( Y/ i0 C1 @ 注意在XML世界中,许多(其实应该是大量)的文件实际上都是数据为主的。例如,
0 Y M: K9 o5 H9 ?+ O3 {考虑在Amazon.com网站上显示一本书的各种信息的页面,虽然这个页面是一个相当巨大的文 9 S" R; z$ {! {+ a# T
本,但是这个文本的结构是高度规范的,所有页面都包含有介绍书的共同点,并且每一页中文本
- O8 @' u! O5 S% Z* ^' c的大小是受限制的。也就是说,它可以从一个简单的、数据为主的XML文档 + 包含有每一页信息
% R, C- W: ~1 A, w) G的数据库+ XSL样板文件 就能够实现这个网站的结构了。通常,目前任何一个动态建立HTML的网
7 {( i k6 U6 v- Q- {5 ]% s站都可以被上面介绍的这种结构来实现的。
0 ^ U6 M8 c5 U; ?- c! O 下面是一个很简单的例子:
% b% j% Q: H2 N <Lease> 7 y/ K) L* `9 O+ V- p( o
<Lessee>ABC Industries</Lessee> agrees to lease the property at
' A5 a* k' M; a4 H6 e# T$ _0 S <Address>123 Main St., Chicago, IL</Address> from <Lessor>XYZ
* ?( h }3 F2 p9 U Properties</Lessor> for a term of not less than <LeaseTerm $ g/ A2 s$ d0 v5 ~
TimeUnit="Months">18</LeaseTerm> at a cost of <Price : Q( T. m3 T' a7 f. J# |' @
Currency="USD" TimeUnit="Months">1000</Price>.
3 Z6 E- [9 N7 X- y5 T% l </Lease>
y2 |" ~9 w8 [# ^2 \9 U2 x它是使用下面的这个XML文档和一个简单的样板文件实现的: 4 ]0 r" W9 z- \$ v2 c3 U
<Lease> ) ]1 j, G8 f" v3 k& t7 e7 z! t
<Lessee>ABC Industries</Lessee>
& `2 M7 z+ b; t1 C( z5 V <Address>123 Main St., Chicago, IL</Address>
, ]% B/ K9 Q/ ]# S <Lessor>XYZ Properties</Lessor> , A( ~' }* X, G3 t, u" K4 a
<LeaseTerm TimeUnit="Months">18</LeaseTerm> * W1 _, F# d! W+ t
<Price Currency="USD" TimeUnit="Months">1000</Price>
E4 Y( u& j% K2 {* u$ d </Lease>
' r0 b8 t& Y: a, x( ]- ]- `0 S
& {5 B! J5 Y1 y2 j: i) ?3.2 以文档为主的文件
4 e8 k2 S# S( f1 o. r1 a 以文档为主的文件表现出来的特点是:不规范的结构,大量的原始数据(就是说,
. z6 n# O ?2 c# h# O; R最小的独立数据单元是包含有混合内容的元素级或则本身就是一个文档),和大量混合内容。其中 ! e. Z3 x& ?$ R2 H' L
同类型元素和PCDATA出现顺序是非常重要的。例如一本书,一封电子邮件,广告,以及几乎所有的
4 s3 a4 Z9 b$ mXHTML文档。以文档为主的文件通常是用来设计人文消费:
+ ^$ @& f& f6 g 例如,下面的产品描述就是一个以文档为主的文件: 4 h, a. G% {+ [* s$ j
<Product> 0 N) T& p% T+ N2 X7 H: x
<Name>Turkey Wrench</Name>
- }8 `( Z: ?3 d* c5 O) R <Developer>Full Fabrication Labs, Inc.</Developer>
5 c$ A7 _8 D* Q0 Z0 k8 n9 ? <Summary>Like a monkey wrench, but not as big.</Summary>
1 h) Y0 J) X9 s! W <Description> ' E: B2 M: S _# R. t
<Para>The turkey wrench, which comes in both right- and 1 `* S" O2 P( w. N6 h# r
left-handed versions (skyhook optional), is made of the finest 0 z& K: k# U/ }3 o
stainless steel. The Readi-grip rubberized handle quickly adapts
h2 v0 e. M/ W9 z4 ~! m" G to your hands, even in the greasiest situations. Adjustment is ) q, ?0 m" m% t
possible through a variety of custom dials.</Para>
1 ?* f c$ F- | <Para>You can:</Para> . [- A' S' e0 l Q
<List> ' c) ^" U, ]/ n- u" ^4 S. ?
<Item><Link URL="Order.html">Order your own turkey wrench</Link></Item>
, m6 D% `! R) F1 L <Item><Link URL="Wrenches.htm">Read more about wrenches</Link></Item> 6 e" V! w* r( w/ F& ^# c1 Z# d
<Item><Link URL="catalog.zip">Download the catalog</Link></Item>
+ K- A* t3 O# f) ~9 x5 w </List>
; i3 N6 r) D+ t <Para>The turkey wrench costs just $19.99 and, if you
& O+ B" f- i9 T, H6 J* G order now, comes with a hand-crafted shrimp hammer as a : N3 t V6 h0 a( p5 W" f9 M& B/ u
bonus gift.</Para>
) A p4 ^: L. n/ o1 V& Q2 w: X2 N5 W" w </Description>
2 M/ |8 u9 F: e% X# b h& p3 F8 R- O# h# u5 J# l
3.3 数据(Data)、文件(Documents)和数据库(Databases) 6 u4 O! r0 ~ A1 m
事实上,数据为主的文件和文档为主的文见之间的区别并不是很清晰。例如,虽然 . A$ w: b. E+ s! L- |
一个数据为主的文件(例如一张发票),也有可能包含大量的不规范结构的数据,例如发票的描 " E$ C" h- e [, d$ v1 i
述部分。而一个以文档为主的文件(例如用户手册),也可能包含有规范的数据结构(通常是元数 7 ?: X9 k: Z, b, a
据metadata),例如作者名和再版日期。除了这些,你用来判断是否是两者中其一的另外 * ]7 |% B3 `# K1 m4 b$ o* _ i
一个重要特点是你是对数据还是对文档感兴趣,这也将决定你要采用什么样的系统。 3 v8 j+ D1 b; E- v: g
要存储和获取数据,你可以使用一个数据库(通常是关系数据库,面向对象数据库 - n: b- @( _$ B: v5 ]7 d5 I
或则树状体系数据库)和中间件,或则你也可以使用XML服务器(你可以把它看成是将数据库 $ L. |! z3 P: E5 X4 p6 }
和中间件捆绑在一起)。要保存文档,你将需要一个内容管理系统。有关各种系统的探讨 2 X, B/ a1 C( s
在第4.0小节中, "存储和获取数据"和第5.0小节 "存储和获取文档".你能够在第6.0小节找到
# `6 i# T7 w: I. [5 L一些可使用的软件列表"可利用的软件"。 . a* I0 W4 M: E: a- x$ e
l( f( u1 ~ r. m4.0 存储和获取数据 : U3 {" i+ @7 o7 U s
数据的类型可以在数据为主的文件的原始定义或则从数据库中的字段类型中得到。 + R4 b- v: ~9 d* j
前者的例子是你想把数据库中的数据保存成XML文件放到网站上;后者的例子是你需 t; V/ d: g3 F
要把大量的数据保存到关系数据库中。根据你的具体需求,你需要的软件或则是把XML数据 9 Q' p6 W7 ^% V. [1 F* F6 P$ ?* ]' j
读入到数据库或则是把数据库中的数据输出到XML文件,或则两者都支持。
1 D O4 M$ D3 F* U! }, F$ |( H2 e
2 N$ t9 d$ W7 s" }4.1 转录数据 M: I2 ?" K1 X
当将数据保存在数据库中,它经常需要抛弃与文档信息有关的大量内容,例如它的
7 ^: R! Z+ W7 [# z3 ^ n2 y( ]: a3 s" _名称和DTD,同时还有它的物理结构,例如实体的定义和使用、属性值和相同类型元素的出现顺 $ o. B# Q1 ~$ ^; F
序,还有二进制数据的存储方式 (是经过Base64编码的还是没有经过编码的实体或则其他方式),
/ C( F+ ?* w1 uCDATA的内容和其他编码信息。简单而言,当从数据库中获取信息时,最后生成的XML文档结果可 # n9 ~ m$ h$ f) _+ f S
能不包含任何CDATA或则实体运用(entity usage) (除非预先定义了实体lt(就是符号"<" 2 M: w7 z" s% T1 V. I
),gt(">", amp("&", apos("'", quot(""")和同类型元素、属性出现的顺序。 * L0 S3 ?7 }( q2 I* \: Y7 b3 e& t
例如,假设你需要把一个销售单的信息使用XML格式从一个数据库中获取数据然后转
7 o4 S4 O* s, s! s% N, [# G录到另外一个数据库中,在这个例子中,在XML文档中并不关心销售单的编号是保存在销售单的日
2 l; Q& Q$ m# n; E( K9 {+ Z期的前面还是后面,也不用关心是否将顾客的名称保存在CDATA section作为一个扩展入口, $ B" r) p/ @0 u8 H
或则甚至直接当成一个PCDATA. 但是,对于将这些相关数据从第一个数据库中转录到第二个数据 6 H1 i4 t2 @2 F, w1 B; y
库的过程中,这些信息都是非常重要的。这样,这个数据传输软件就需要考虑使用树状结构 ; a% ^. k; ?: N$ [9 \! z7 V+ e
(它将一个单独的销售单的信息用组(group)来实现)。
2 x4 ?! B1 ]: g0 f4 y4 W2 e7 r 另一个当忽略文档信息和它的物理结构会带来麻烦的例子是---"借贷套利"文档,它 2 ]$ D0 [0 ?: @4 i4 ~# w3 T" B( j
保存的数据是从一个数据库中的文档中获取,并且需要重新组装这些数据成为一个新的文档,
& @: o8 L* u9 l4 X而这个过程经常会导致新的文档的结构和原来的文档会不一致。
0 A$ u& |, p8 z9 ~! q1 V" b 从上面的例子可以看出,对于数据库和数据传输中间件的选择是根据你的需求而变 + t# \" p# U% m5 c/ L2 t9 \
化的。 |
|