- 2014
Ngành
Chuyên ngành
: 60480103
- 2014
ình.
.
- -
công tác.
L
Li c
Mc lc
Danh mc các ký hiu và ch vit tt
Danh mc các bng
Danh mc các hình v
Danh m
M u 1
TNG QUAN XML 2
1.1. Tng quan XML 2
1.2. m ca XML 2
1.3. So sánh XML và HTML 2
1.3.1. S ging nhau gia XML và HTML 2
1.3.2. S khác nhau gia XML và HTML 2
1.4. Cu trúc tài liu XML 3
1.5. Cú pháp 4
1.5.1. Khai báo XML 4
1.5.2. Th hin tài liu (Document Instance) 4
1.5.3. Thuc tính (Attribute) 4
1.5.4. Khai báo kiu tài liu 4
1.6. u tài liu 5
1.7. Ngôn ng XML 5
1.8. XSLT 6
TNG QUAN NÉN D LIU 9
2.1. Nén d liu 9
2.1.1. 9
2.1.2. Phân loi 9
2.1.2.1. Nén tn hao (lossy compression) 9
2.1.2.2. Nén không tn hao (lossess compression) 9
2.1.3. Mt s khái nim 10
2.1.3.1. T l nén (compression ratio) 10
2.1.3.2. Hiu sut nén 10
2.1.3.3. a d liu 10
2.2. Các k thut nén XML 11
2.2.1. i 11
2.2.1.1. Các k thun tng quát 13
2.2.1.2. Các k thut nén XML không truy vn 14
2.2.1.3. Các k thut nén XML truy vn 15
MT S K THUT NÉN XML 17
3.1. XMill 17
3.1.1. Tng quan v XMill 17
3.1.2. Kin trúc ca XMill 18
3.1.2.1. Phân chia cu trúc t ni dung 18
3.1.2.2. Nhóm các giá tr d liu da trên ng 19
3.1.2.3. Các b nén ng 22
3.2. XGrind 24
3.2.1. Tng quan v XGrind 24
3.2.2. Các k thuc s dng trong XGrind 24
3.2.2.1. Quá trình nén siêu d liu 24
3.2.2.2. Quá trình nén giá tr ca thuc tính kiu lit kê 25
3.2.2.3. Quá trình nén giá tr ca phn t hoc thuc tính tng quát 25
3.2.3. ng cu (Homomorphic Compression) 25
3.2.4. Kin trúc ca XGrind 26
3.3. XAUST 28
3.3.1. Tng quan v XAUST 28
3.3.2. Mã hóa s hc và mô hình ng cnh hu hn 29
3.3.2.1. Mã hóa s hc (Arithmetic Coding) 29
3.3.2.2. Mô hình ng cnh hu hn (Finite Context Modeling) 29
3.3.3. Máy t ng hu hnh 29
3.3.4. Quá trình nén và gii nén s dng XAUST 31
3.4. XSAQCT 33
3.4.1. Tng quan v XSAQCT 33
3.4.2. Kin trúc ca XSAQCT 34
3.4.3. Quá trình x lý thuc tính và ni dung tài lic trn 36
3.4.4. t XSAQCT 37
3.4.4.1. Quá trình xây dng cây chú thích TA,D 37
3.4.4.1.1. m ca cây chú thích TA,D 37
3.4.4.1.2. t cây chú thích TA,D 37
3.4.4.2. Quá trình gii nén ca XSAQCT 44
3.4.4.2.1. B chú thích li (Reannotator) 44
3.4.4.2.2. B phc hi (Restorer) 45
3.5. EXI 46
3.5.1. Tng quan v EXI 46
3.5.2. EXI Header 47
3.5.2.1. EXI Cookie 47
3.5.2.2. Các bit phân bit 47
3.5.2.3. Bit hin din cho tùy chn EXI 47
3.5.2.4. Phiên bnh dng EXI 47
3.5.2.5. EXI Options 48
3.5.2.6. Padding bits 49
3.5.3. EXI Body 49
3.5.3.1. Event Code 51
3.5.3.2. Event Content 53
3.5.4. String Table 54
3.5.5. EXI Grammar 57
3.5.5.1. Built-In Grammar 58
3.5.5.2. Schema-informed Grammar 58
3.5.6. Quá trình nén EXI 58
3.5.6.1. Block 59
3.5.6.2. Channel 59
3.5.6.2.1. Kênh cu trúc (Structure Channel) 60
3.5.6.2.2. Kênh giá tr (Value Channel) 60
3.5.6.3. Dòng nén (Compressed Stream) 61
T THC NGHIM VÀ SO SÁNH MT S K THUT NÉN 63
4.1. D liu th nghim 63
4.2. t 64
4.3. c hin 64
4.3.1. 64
4.3.2. Hiu sut nén (Compression Performance) 64
4.3.3. Thi gian nén (Compression Time) 64
4.3.4. Th 64
4.4. Kt qu thc nghim 64
KT LUNG PHÁT TRIN 70
TÀI LIU THAM KHO 71
DFA
Deterministic Finite Automata
DTD
Document Type Definition
GPS
Global Positioning System
HTML
HyperText Markup Language
SGML
Standard Generalized Markup
Language
XML
Extensible Markup Language
XSD
XML Schema Definition Language
XSLT
Extensible Stylesheet Language
Transformations
N
.
2
n ca mt tài liu XML 3
nén không truy vn [16] 14
các bn [16] 15
21
x lý ng (Atomic Semantic Compressors) [11] 22
c thc hin thut toán 3.1 khi to mi cây chú thích ca tài liu D
trong hình 3.13 [20] 41
t s phiên bnh dng EXI 48
chn EXI [6] 48
50
kic thit lp và tùy
chn bit-c s dng [6] 52
kic thit lp bng true và giá
tr pre-compression ca tùy chn byte-c s dng [6] 52
u d lic xây dng sn trong EXI [6] 53
t lp phân vùng ca String Table [7] 54
p d liu th nghim 63
t thc nghim. 64
t qu thc nghim khi s dng b nén gzip 65
t qu thc nghim khi s dng b nén XMill 65
t qu thc nghim khi s dng b nén XGrind 65
t qu thc nghim khi s dng b nén XAUST 66
t qu thc nghim khi s dng b nén EXI (Exificient) 66
c s d chuyi gia các tài liu XML [18] 6
c s d chuyi mt tài liu XML sang các cách
biu din khác nhau [18] 7
Hình 2.1: Quá trình nén/gii nén d liu 9
Hình 2.2: Quá trình truyn d liu XML mà không có quá trình nén XML [17] 11
Hình 2.3: Quá trình truyn d liu XML có s dng quá trình nén XML [17] 11
Hình 2.4: Phân loi các b nén XML da vào s nhn bit cu trúc ca các tài liu XML
[17] 12
Hình 2.5: Phân loi b nén XML da vào s h tr kh n [17] 13
Hình 3.1: Kin trúc ca XMill [11] 18
Hình 3.2: Mô t quá trình XMill phân tách cu trúc và d liu 19
Hình 3.3: Kin trúc ca b nén XGrind [15] 27
Hình 3.4: DFA ca phn t card trong ví d 3.14 30
Hình 3.5: Kin trúc ca XSAQCT [20] 34
Hình 3.6: Minh ha mt tài lin [20] 35
Hình 3.7: Cây chú thích T
A,D
ca tài liu D trong hình 3.6 [20] 35
Hình 3.8: Quá trình x lý ni dung tài lic trn [20] 36
Hình 3.9: Cây chú thích T
A,D
và các b chn [20] 36
Hình 3.10: Biu din mt tài liu D có chn [20] 38
Hình 3.11: Biu din cây chú thích ca tài liu D có thêm các node gi 39
Hình 3.12: Khôi phc li cây tài liu D vi các node gi 39
Hình 3.13: Biu din mt tài liu D s c áp dng thut toán 3.1 [20] 40
Hình 3.14: Biu din cây chú thích ca tài liu D trong hình 3.13 [20] 42
Hình 3.15: Biu din cây chú thích hoàn chnh ca tài liu D trong hình 3.13 [20] 43
Hình 3.16: Khôi phc li cây tài liu D t cây chú thích T
A,D
trong hình 3.15 [20] 44
Hình 3.17: Cn ca EXI Stream [7] 46
nh dng EXI Header [6] 47
Hình 3.19: EXI Cookie [6] 47
Hình 3.20: Các bit phân bit (Distinguishing Bits) [6] 47
Hình 3.21: Minh ha EXI Stream Body ca tài liu Notebook trong ví d 3.23 [7] 51
u vào khi to trong phân vùng URI [7] 56
u vào khi to trong phân vùng Prefix [7] 56
Hình 3.2u vào khi to trong phân vùng LocalName [7] 56
c khi to trong phân vùng Value [7] 57
Hình 3.26: Tng quan quá trình nén EXI [6] 59
Hình 3.27: Quá trình dn kênh các s kin EXI [6] 60
Hình 3.28: Minh ha quá trình nén ca EXI Body Stream trong hình 3.21 [7] 61
Bi 66
Bi 67
Binh th 67
Bi nén gzip, XMill, XGrind, XAUST và
EXI 68
1
XML (Extensible Markup Language)
dài dòng
ind, XAUST, EXI, XSAQCT.
[11,23], XGrind [15,22], XAUST [10,21], XSAQCT [19-20], EXI [6-8,13].
XML
4 .
và cú pháp khai
-
Schema Definition Language -
(Extensible Stylesheet Language Transformations - XSLT).
Tchung
o
.
G
2
,
XSLT.
1.1. XML
ard
Generalized Markup Language) -
1.2.
máy tính. XML cho
XML
.
1.3. So sánh XML và HTML
1.3.1. HTML
XML và HTML
1.3.2.
1.1: So sánh XML và HTML
XML
HTML
khác nhau.
3
1.4.
prolog
l thông tin khai báo
)
con
1.2: Các thành phbn ca mt tài liu XML
Prolog
(tùy chn)
Khai báo XML
<?xml version="1.0" encoding="UTF-8"
standalone="no"?>
<!doctype document system
"tutorials.dtd">
Chú thích
<! Here is a comment >
(Processing Instructions)
<?xml-stylesheet type="text/css"
href="myStyles.css"?>
<tutorials>
<tutorial>
<name>XML Tutorial</name>
<url>
</tutorial>
<tutorial>
<name>HTML Tutorial</name>
<url>
</tutorial>
</tutorials>
[25]
<?xml version="1.0" encoding="UTF-8" standalone="no"?>
<!DOCTYPE document system "tutorials.dtd">
<! Here is a comment >
<?xml-stylesheet type="text/css" href="myStyles.css"?>
<tutorials>
4
<tutorial>
<name>XML Tutorial</name>
<url>
</tutorial>
<tutorial>
<name>HTML Tutorial</name>
<url>
</tutorial>
</tutorials>
1.5. Cú pháp
1.5.1. Khai báo XML
Khai báo XML
<?xml version="l.0"?>
1.5.2.
-con.
con.
<book>
<title>Joy of Integration</title>
<author>Joe Smith</author>
</book>
1.5.3.
-
<book category=”Fiction”>
…
</book>
1.5.4.
5
<!DOCTYPE book SYSTEM "book.dtd">
1.6.
-
<!DOCTYPE book [
<!ELEMENT book(title,author)>
<!ATTLIST book CATEGORY (Fiction | Non-Fiction)>
<!ELEMENT title (#PCDATA)>
<!ELEMENT author (#PCDATA)>
]>
1.7.
không gian tên (namespace).
hnâng
cao pháp ki
khóa (keyany module
h g include, import.
<?xml version="l.0"?>
<xsd:schema xmlns:xsd=”
<xsd:elementname="book”>
<xsd:complexType>
<xsd:sequence>
<xsd:element name="titleUtype="xsd:string”/>
<xsd:element name="author" type="xsd:string”/>
</xsd:sequence>
<xsd:attribute name="category">
<xsd:simpleType>
<xsd:restriction base="xsd:string”>
6
<xsd:enumeration value="Fiction"/>
<xsd:enumeration value="Non-Fiction”/>
</xsd:restriction>
</xsd:simpleType>
</xsd:attribute>
</xsd:complexType>
</xsd:element>
</xsd:schema>
1.8. XSLT
(Extensible
Stylesheet Language Transformations).
XSL
Hình 1.1: XSLT style c s d chuyi gia các tài liu XML [18]
7
Hình 1.2: c s d chuyi mt tài liu XML sang các
cách biu din khác nhau [18]
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="book.xsl"?>
<inventory>
<book category="Fiction">
<title> Anna Karenina</title>
<author> Leo Tolstoy</author>
</book>
<book category="Non-Fiction">
<title>Integration for Durnrnies</title>
<author>John Doe</author>
</book>
</inventory>
Ví [18]
<?xml version="1.0"?>
<xsl:stylesheet xmlns:xsl="
version="1.0">
<xsl:template match="/">
<xsl:apply-templates />
</xsl:template>
<xsl:template match="inventory">
<table border="1">
<xsl:for-each select="book">
<tr>
<td><xsl:value-of select="@category"/></td>
<td><xsl:value-of select="title"/></td>
<td><xsl:value-of select="author"/></td>
</tr>
</xsl:for-each>
8
</table>
</xsl:template>
</xsl:stylesheet>
sau:
XML là
,
, .
Trong XML, DTD
. Bên XSD không gian
tên
module hóa. D
.
XML.
9
nén
i
2.1. N
2.1.1.
Hình 2.1: Quá trình nén/gii nén d liu
2.1.2.
n
n
2.1.2.1.
b
M
JPEG [4], MPEG-4 [4].
2.1.2.2.
Nén kh xác ha tin. Trong
excel. Shannon-Fano [4], LZW [4].
10
2.1.3.
2.1.3.1.
2.1.3.2. nén
2.1.3.3.
].
nhau.
- Ziv - Welch).
11
khác nhau.
2.2. C
2.2.1. Tí
Hình 2.2: Quá trình truyn d liu XML mà không có quá trình nén XML [17]
Hình 2.3: Quá trình truyn d liu XML có s dng quá trình nén XML [17]
(general text compressors) (XML-
conscious compressors).
12
Trong ,
-purpose text co], bzip2
[2]. -
g
-conscious compressors)
thông tin -
c-independent compressors).
(schema-dependent
compressors), qVí
].
schema-independent
compressor
Hình 2.4: Phân loi các b nén XML da vào s nhn bit cu trúc ca các tài liu
XML [17]
-queriable XML compressors)
kh
13
-homomorphic compressors), quá trình mã
].
Hình 2.5: Phân loi b nén XML da vào s h tr kh n [17]
2.2.1.1. C
nén
ip,
bzip2 và PPM [4].
14
4
] và mã hóa Huffman.
-Wheeler (Burrows-
-to-font (move-to-
hóa Huffman.
PPM
trong khi
2.2.1.2. C
t. Nhóm này có
c c.
Trong
quá
2.1: Danh sách các b nén không truy vn [16]
XMill
No
Dictionary-Based
Gzip, Bzip2, PPM
XWRT
No
Dictionary-Based
Gzip, Bzip2, PPM
XComp
No
Dictionary-Based
Gzip
XMLPPM
No
Multiplexed Hierarchical PPM
PPM
SCMPPM
No
Dictionary-Based
PPM
Exalt
No
Context-Free Grammars
KY Codes
AXECHOP
No
Context-free Grammars
BWT+MPM