Tải bản đầy đủ (.pdf) (85 trang)

Cơ sở dữ liệu đa phương tiện yêu cầu và các vấn đề

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (27.59 MB, 85 trang )

DẠI MỌC ỌUỎC’ ( ì IA 11Ả NỘI
TRƯỜNG DẠI IKK CỔNC NCIIỆ
• • •
Trần Hoài Nam
CO SỎ DỮ LIỆU ĐA PHƯƠNG TIỆN
YÊU CẦU VÀ CÁC VẮN ĐÈ
Cliuycn ngành : Công nghệ thông tin
Mã sổ : 1.01.10
LUẬN VÁN TỈỈẠC sĩ
NịỊUÒi ItirỞHỊỊ dim khoa học: PGS.TS. Vũ Dức Thi
là Nội 2004
Mục lục
9
BẢNCi THUẬT NGŨ'VẢ CÁC CHỮ VIKT T ÁT


3
LÒ. CẢM O N 4
Mỏ DÂU 5
CHÍƠNí; 1

X
GIO! TIIIHU CIIUNCỈ VÍ; Cơ SỞ DŨLIỤU l)A IM IirơNCÌ TIỆN 8
1 I Các kiểu truyền thông và mullimetiia
1.1.1. Cơ sở dừ liệu và các DBMS 10
] .1.2. Truy tim thòng till tài liệu văn bàn 10
1.1.3. Truy xuất và chỉ số lìoá multimedia 11
1.1.4. Trích rút đặc trưng, biểu diễn nội (lung và chi số hoá 11
Sự cần thiết đối với MIRS 11
.2.1. Sự phát triể n về dữ liệ u m u ltim ed ia và các dặc (rư ng cùa I1Ó 12
1.2.2. Các DBMS và vai trò cùa chúng trong việc xừ lý dữ liệu multimedia 13


1.2.3. I lệ thống 1R và vai trò của nó trong việc truy xuất multimedia

16
1.2.4. Cách tiếp cận tích hợp việc truy xuất và chỉ số hoá thông till multimedia
17
1.3 Tổng quan VC MIRS 17
1.4 Các ứng dụng nói chung và khả năng mong đợi cùa MIRS

18
aƯ ƠN G 2

1 7.




.

.

22
CO SỜ 1)0' LIỆU DA PHƯƠNCỈ TIỆN (Multimedia Database) 22
l . t K iế n trú c cho v iệ c lổ c h írc nội d u ng
23
2.4.1 Nguycn lý tự trị 23
2.4.2 Nguyên lý đồng nhất 24
2.4.3 Nguyên lý lai ghép 25
1.2 Tổ chức dữ liệu multimedia dựa trên nguyên lý đồng nhất 28
1.3 Cấu trúc tóm tat media 30
2.4.1 Dữ liệu ảnh như là một tóm tat media 31

2.4.2 Dữ liệu video như là một tóm tat media 32
2.4.3 Dịnh nghĩa vè một CSDL Multimedia don giàn 34
2.4.4 Dịnh nghĩa về một CSDL Multimedia có câu trúc

35
1.4 Ngôn ngữ truy van khai thác đir liệu multimedia


37
2.4. / Truy vấn SMDSs (mô là dồng nhất)
.

38
2.4.2 Truy vấn dữ liệu multimedia mỏ tà clirứi kiến trúc lai tạo 42
2.4.3 Chi số lioá SMDS với chi sỗ dào 44
CI ƠƠNG 3 50
2
III; JUAN TRỊ Cơ SÒ D ơ u ụ u l)A IM iưO Níi I II. N YÍ:iJ CẢU VẢ CÁC VÁN
Dll


.

.
! 50
31 Mục đích cùa MDBMS 50
32 Các yêu cầu cùa một MDBMS 53
3.2.1 Khả năng quàn trị lưu trữ lớn 55
3.2.2 1 lồ trợ truy vấn và khai lliáctlữ liệu 56
3.2.3 'l ích hợp các phương tiện, tổng hợp và the hiện 57

3.2.4 Giao diện và tương tác 57
3.2.5 Hiệu suất 58
33 Các vấn đồ cùa MDBMS 58
3.3.1 Mô hình hoả dữ liệu MULTIMEDIA 58
3 3.2 Lưu trữ đổi tượng MULTIMEDIA
.
60
3.3.3 Tích hợp multimedia, thổ hiện và chat lượng cùa dịch vụ (QoS)

61
3.3.4 Chi số hoá multimedia
62
3.3.5 I lỗ trợ truy vấn multimedia, khai thác và duyệt qua 63
3.3.6 Quàn trị CSDL multimedia phân tán 64
3.3.7 Sự hỗ trợ của hệ thống 65
CM /ONG 4

.

.
67
XẢt' DỤNG IIỆ THỐNG MUA BẢN HẢNG QUA MẠNG 67
42.ỉ, Giới thiệu :

.
67
42.2. ứng dụng CSDL đa phương tiện vào hệ thống bán >’àng qua mạng 68
4.2.1. Xây dựng kho dữ liệu hình ảnh 21) và 3D 69
4.2.2. Xây dựng cơ chế truy vấn đối với kho dữ liệu liìnli ảnh 69
42.3. I lộ thống bán hàng qua m ạng

.

71 •
4.3.1. Mô hình hộ thống
.
71
4.3.2. Các chírc năng cơ bàn cùa hộ thông 73
4.3.3. Các công cụ phát triển hệ thống
74
4.3.4. Quy trình thực hiện giao dịch cùa hệ thống 75
4.3.5. Cài đặt hộ thống
.
76
44. (ỉiài pháp tích hợp các hộ thong khác 78
4.4.1. Hệ thống quàn lý và cấp phát chứng chi số (C A ) 78
4.4.2. I ỉệ thống thanh toán trực tuyến (VASC Payment)

;
79
45. Một số giao diện chính cùa Ỉ1Ộ thống XI
KÍriAlẬN

:

84
TẢ I.lị-U THAM KH ẢO 85
3
BẢNG THUẬT NGỮ VÀ CÁC CHỮ VIÉT TÁT
STT
Ký hiệu viết (ắt Giải tliícli

1
Web browser Trình duyệt Web
2
CSDL Cơ sờ (lữ liệu
3
DBMS
1 lộ quàn trị cư sờ dữ liệu
4
MDBMS
I lệ quàn trị cơ sở dữ liệu da phương tiện
5
Video frame
Khung hình video
6
RDBMS
I lệ quàn trị cơ sở dữ liệu quan hộ
7
Multimedia
Da phương tiện
8 MIRS
1 lệ thong truy vail thông till đa phương tiện
9 Metadata
Sicu dữ liêu
10
Media
Phương tiện
11 SMDS
I lộ thống cơ sờ dữ liệu c1a phương tiện có câu trúc
12'
Information Rctrival(IR)

Truy xuâl thông tin
13
Multimedia Information
Retrieval System (MIRS)
Hệ thông truy xuất thông tin đa phương tiện
5
MỞ ĐÀU
C ù n g nghẹ m u ltim e d ia lie n q u ail lớ i việ c m ô (à sự kêt hợp các d ạn g thức thô n g till
khác nhau (vă n bàn, thì liệu , hìn h àulì, âm thanh, v id e o) dưới dạ n g tín hiệu số. c ỏ thổ
nêu ra đây một so ứng dụng multimedia như :
• 1'-lea rn ing.
• 1 lộ i th à o V id e o (V id e o C o nfe re ncin g).
• Tlnr viện diện tử (Lỉlibrary).
• I Iiện tại ào (Vitual Reality).
Các còng nghẹ truyền dùng dể thao lác, truyền phát, diều khiển các dữ liệu multimedia
dà và dang đirực nghiên cửu một cách rất sỏi dộng.
Các hộ thống multimedia càn có một hộ thống phân phối nham mục đích thu thập các
đối tirợng multimedia và đưa chúng dốn người dùng, một trong số các phương tiện đầu
ticn dược dùng dến là đĩa từ và đĩa quang. Ngày nay, Internet cũng Iilur các giao thức
khác'như TCP/IP, NetBIOS, các mạng Lan đang trờ thành các phương tiện đổ truyền
bá dữ liệu multimedia . Khả năng mô tà phong phú cũng nlnr khả năng dồ họa cùa các
w eb brow s e r cùn g vứ i các tính năng da n g (.lược tiế p tục tăn g cư ờng Iiln r lio ạ t họa, âm
thanh và Video khiến các web browser dang trờ (hành một phương tiện mới dẻ mang
lại các dữ liệu multimedia cho người dùng[5Ị
Cáo công nghệ chủ yêu liên quail den multimedia bao gồm:
• Kỹ thuật nén.
• Video Servers.
• Các kỹ thuật về mạng (internet, tokcnring, ctlicrnct, ATM vv).
• Các công nghệ truyền dữ liệu.
• Các công nghệ về cáp truyền dẫn.

• Công nghệ xác thực.
• C ác c ỏ im nghệ VC C S D L .
6
Một CSDL là tập hợp cùa các dữ liệu có liên quan đen nlìau. Một hệ quàn trị CSDI,
(DBMS) là hộ lliốiig phần mèm trợ giúp dio các quá trình khai báo, xây dựng và thao
lác vứi CSDL phục vụ cho các ứng thing khác nhau. CSDI, multimedia bíio gom thêm
các kiểu dừ liệu khác nlnr:
• Văn bản.
• llìnhànli.
• Àm thanh.
• Video.
• 1 loạt hình.
Các kicu dữ liệu khác này đòi hỏi phải có các phương thức dặc biệt Ilham mục đích tối
iru hóa cho việc lưu trữ, truy cập, chỉ số hoá và khai thác. Một MDBMS phải cung cấp
một mói lrường thích hợp đổ quản lý và sir dụng CSDL multimedia.
Một MDBMS cần phải tlàni bào các tính năng cơ bàn của một DBMS, ngoài ra nó còn
phải có các tính năng khác như:
• rích liựp các phương tiện khác (Media ỉntcrgration).
• Khả năng sắp xếp và I11Ô tà thông tin.
• Khả năng khai thác dữ liệu
• Khà năng lưu trữ lớn.
• Giao diện multimedia.
• I lỗ trợ truy vấn tưưng tác multimedia.
Thông thường các dổi tượng riêng lè cùa một hình ành hoặc mội video frame sc có một
vài mỏi liên lìộ bộ phận vứi các dôi tưựng khác. Các môi liên hộ này dưa liến một sô
các ràng buộc trong quá trinh tìm kiếm các dối tượng trong CSDL multimedia. Căn cứ
trên cơ sờ này việc triển khai các ứng dụng multimedia trên nền các hệ quan trị CSDL
lnrớiiị; đối tượng sẽ thuận lợi Iiưn so vứi các RDMBS hiện thừiỊ 1 Ị.
7
M ụ c tiêu ch ính cùa bàn luận văn này nhầm n g liic n cửu và 1ÌI11 h iể u m ột số vần dền cơ

bàn cùa một MDBMS:
• T on g qu ail về cơ sử dữ liệ u da p lu ra ug tiện
• Các yêu cầu cùa một MDIỈMS cũng như kiến trúc, thiết kế và truy vail đối với
m ột MDB ỈV kS.
Luậ n văn nà y dược bo c ục thành 5 phần chính :
• Chưưng I: Giới thiệu chung về CSDL multimedia.
• Chương II: Cơ sở dữ liệu multimedia.
• Clurcrng III: 1IỘ quàn trị cơ SỪ dữ liệu multimedia - Yêu cầu và các vấn dè
• Giương IV: Xây dựng hộ thống bán hàng qua mạng.
• Kct luận
8
CHƯƠNG 1
GIỚI THIỆU CHUNG VẺ c ơ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN
■ • •
I)ữ liệu multimedia dược chia thành hai lớp là các dừ liệu liên tục và các dữ liệu không
liên tục. Các dữ liệu liên tục bao gồm các dừ liệu âm thanh, video thay đổi theo thời
gian. Các dữ liệu không liên tục là các dữ liệu không phục thuộc vào thòi gian, các loại
dữ liệu đặc trưng cho dạng này là các dữ liệu Văn bàn (có hoặc không có định dạng),
hình ánh tĩnh và các đối tượng đồ họa. Các kiểu dữ liệu thông thường cùa một CSDL
multimedia bao gồm:
• Dữ liệu văn bàn (có hoặc không có định dạng).
• Dồ họa: là các bàn vẽ, minh họa dược mã hóa như các tệp postscript.
• Hình ảnh: là các hình ảnh được mã hóa sử dụng các dạng thúc chuẩn như là
JỈ>H(Ỉ hoặc MPLỈG.
• Các hoạt hình.
• Ảm thanh.
• Video.
Các dặc tính chung của dữ liệu multimedia bao gồm:
• Thiếu cấu trúc: Các dữ liệu multimedia có khuynh hướng phi cấu trúc vì vậy
• các tác nghiệp quàn trị dữ liệu chuẩn nlur chi số lioá, tìm kiếm nội tlung, truy

vấn dữ liệu tlnrờng là không áp dụng dược.
• Tính tạm thời: Một vài kiều dữ liệu multimedia như là Video, âm thanh và hoạt
hình đều phụ thuộc vào yếu ló thời gian liên quan mật thiết đến việc lưu trữ,
thao tác và I11Ô tà chúng.
• Có dung lưựng lớn: các dừ liệu video và âm thanh tlurơng đòi hoi cac tliict bị
lưu triT lớn.
9
• Các úng dụng hỗ trợ: các dữ liệu phi cluiần có thể đòi hùi các quy trình xử lý
phức tạp như việc sử dụng các thuật toán nén dữ liệu dối với các ứng dụng
CSDI- multimedia.
1.1 Các kiểu truyền thông và multimedia
Truyền tliông đề cập đốn các kiểu thông till hoặc các kiều biểu diễn (hỏng tin, ví dụ
nlnr dữ liệu vần chữ cái, hình ảnh, âm thanh, truyền hình. Có nhiều cách phân lớp
truyền thông. Những cách plìân loại chung dược dựa trên những dạng vật lý và những
mối quan hệ truyền thòng với thời gian. Ta phâti láp truyền thông dựa trên việc có hay
không có chiều thời gian. Ngầm định này lnrớng tới hai lớp truyền thông lĩnh và động
(hoặc tính liên tục về lliừi gian).
Truyền thông tĩnh không bao hàm yếu lố thời gian, các nội dung và nghĩa cùa chúng
kliỏng phụ thuộc vào thời gian dưực biểu diễn. Truyền thông tĩnh bao gồm các dừ liệu
vần chữ cái, các đồ thị và các ảnh tĩnh.
Truyền thông động bao hàm yếu tố thời gian, các nghĩa và tính chính xác cùa chúng
phụ thuộc vào loại được biểu diễn. Truyền thông dộng gồm các hoạt hình, âm thanh và
video. Các truyền thông này có bàn chất khoảng thống nhất hoặc tốc độ riêng cùa
chúng. Chang hạn, đổ truyền càm giác chuyển dộng nhịp nhàng video plìài thực hiện
25 hỉnh mỗi giây (hoặc 30 hình phụ thuộc vào hộ thống video dang sử dụng), 'rương
tự, khi chúng ta phát lại Iiìột lời nhắn hoặc đoạn nhạc dã được ghi âm, chỉ có một loại
thể hiện là thích hợp. Việc phát lại ờ chế độ nhanh hơn hoặc chậm hơn sẽ làm nlco
nghĩa hoặc chất lượng âm thanh. Vì những truyền thông này phải được phát liên tục ở
tốc độ cố ilịnh mà chúng thường dược gụi là truyền thông liên tục. Chúng cũng còn
đirựe gọi truyền thông dằng thời vì mối quan hộ eo định giữa moi dơn vị truyền thông

và thời pian.
Truyền thông đề cập đến một bộ sưu tập các kiểu truyền thông dã sử dụng cùng nhau.
Diều dó cỏ nghĩa là ít nhất cỏ kiểu truyền thông dữ liệu là không theo ký tự chữ (nghĩa
10
là ít Illicit cỏ một kiêu truyền thông là ánh. âm thanh hoặc truyền hình), ơ dây,
“ m u ltim e d ia ” dư ợc sử d ụn g như m ộ t lín h từ vì vậ y ch úng ta sẽ nói m ột cách dặc Inrn g
là Ihông tin m u ltim e d ia , dữ liộ ti m u ltim e d ia , hệ th ong m u ltim e d ia , lie n lạc m u ltim ed ia ,
ứng đụng multimedia, I)ữ liệu multimedia chính là sự biểu diễn về các loại truyền
th ôn g m u ltim e d ia mà m áy tín h có thổ d ọc dược. T h ôn g till m u ltim e d ia là tliỏ n g tin dã
tru yền ban g các kiể u truyề n thông n u illim e tlia . D ô i k h i, Ih ỏn g liu m ultim e d ia và dữ
liệu multimedia dược sử dụng cỏ thổ thay cho nhau.
Đôi khi chúng ta sử dụng thuật ngữ multimedia hay truyền thông và dối tirựng nhằm
chi một thực thổ lự trị nào dó trong một M1RS mà có thổ dược truy vấn, truy xuấl và
dược trình diễn. Thuật ngữ “đối tượng” có thổ là chưa xác định thích hợp tlico nghĩa
Imứng đối lưựng (Object Oriented). Ngữ cành sỗ làm nó rõ ràng hơn dù cho I1Ỏ dược sir
dụng trong một ý nghĩa chung hoặc trong cách tiếp cận hướng dối UrựngỊ 10J.
1.1.1. Cơ sở dữ’ ỉiêu và các DBMS

Trong tlnr viện, CSDL và các DBMS đôi khi dược sử dụng thay the nhau, ờ dây CSDL
hiểu như một bộ sưu tập hoặc một kho dữ liệu hoặc nhiều mục truyền thông. Chúng ta
sử dụng các DBMS như một hộ thống thực thể dể quàn lý CSDI,.
1.1.2. Truy tim thông tin tài liệu văn bản
Mộ thống truy tìm thông tin tự động hoá (IR) dược phát triển để giúp quàn lý một khối
lượng với các tài liệu khoa hục đã dược tạo lập từ những năm 1940. Clurc năng chính
cùa một Ỉ1Ộ thống IR là lưu trữ và quàn lý một số rất lứn các tài liệu văn bàn tlico cách
sao cho các tài liệu thích hợp với việc sir dụng các truy vấn dê truy tìm nhanh. Chú ý
rang việc truy tìm thông tin tự động cùa các từ cấu lạo bang chữ dầu của những u'r khác
là nhầm vào việc truy tim các tài liệu văn bàn, mặc dù lluiậl ngữ dầy dù là truy tìm
thông tin cỏ thổ hiểu là truy tìm một loại thông till nào dỏ.
1.1.3. ' Truy xuất và chi sổ hoá multimedia

t ac )HMS truy xuất các klionn mục dựa trôn số liộu cỏ cấu (rúc khi sử tlụng kết nối
chí 111 xác. IR cũng dưực gọi là truy xuất dựa trê 11 văn bàn. Việc truy xuất dựa vào nội
dung dồ cập đến việc truy xuất dựa trên những nét dặc trưng truyền tliống hiện nay nlur
la m;.u sac, hình thù thay cho lời giải thích văn bàn vè khoản mục truyền thông dó.
Vice truy xuất dựa trên nội dung là chuẩn dựa trên sự đồng dạng thay vì một kết nối
chí nỉ xác giữa một truy vấn và một tập các khoản mục dừ liệu.
MIRS dồ cập đến một hộ thống cơ sờ cung cắp việc truy xuất thông tin multimedia khi
sử dụig một tổ hợp DBMS, IR và các kỹ thuật truy xuất dựa trên nội dung. Trong một
MIRS, một vài vấn đồ như phiên bản và điều khiển an toàn cỏ thổ không thực hiện
tlirụcclầy thì. MỘI MIRS đủ bàn lĩnh ra dời dược gọi là MDIiMS.
1.1.4. Trích rút đặc trưng, biểu diễn nội dung và chỉ số hoá
Iron’ các MIRS, một trong những vấn đề quan trọng nhất là trích rút đặc trưng hoặc
bicu liễn nội dung (cái gì là những nét dặc trưng hoặc nội dung chính Irong một khoản
mục nultimcdia). Trích rút đặc trưng có thổ là quá trình lự động hay bán tự động.
Tron* một vài tài liệu truy xuất dựa vào nội dung, (rích rút dặc trưng cũng dược gọi là
chỉ so lioá. Sau đây, chúng ta theo quy ước chung. Khi mà thuật ngữ “chi sỗ” được sừ
dụngnlìir một danh từ, điều đó có nghĩa là đề cập íứi cấu trúc dữ liệu hoặc việc tổ chức
nliCínị dặc trưng đã dược trích rút đẻ nghicn cửu có hiệu quà và truy xuất.
1.2 Sự cần thiết đói với MIRS
Sự cái thiết đối với MIRS có thổ được giải thích bang ha yếu tố sau:
Tri rỏ; hếu dữ liệu multimedia dang dược dùng ngày càng nhiều và dang được chú ỷ.
nổ SI' dụng thông till dó (chứa trong dữ liệu dó), dõi hỏi có một hệ thống truy xuất và
chỉ s: hoá hiệu quà và có hiệu lực. Thứ hai, dữ liệu multimedia có những dặc tính và
lìlùĩiụ yêu cầu đặc biệt mà lại khác nhau đáng ke từ so liệu bàng chữ cái. Bời vậy,
DBMS truyền thống không thích họp cho việc xử lý dữ liệu multimedia. Tlúr ba, mặc
du các kỳ thuật IR có thể giú p c h ủn g ta tro ng việc tru y xu ầ t m u ltim e d ia nh ư ng ch i m ộ t
minh chúng thì clnra dù dỏ xử lý dữ liệu miiltimeiliii một cách có hiệu lỊiiàị l()|.
1.2.1. Sự phát triển về dữ liệu multimedia và các đặc trưng cùa nó
Iỉiộn nay chúng ta đang lập trung khai phá thông till multimedia. Ví dụ, một số lượng
lớn hình ành và video dang được tạo lập và hru trữ trên internet. Nhiều hoạ sỹ và bức

tranh trong nhiều kiểu in ra là dang dược clniyển sang dạng kỹ thuật số cho dỗ xử lý,
phân phoi và bào tồn. Các bức tranh từ các hàn till lien vỏ luyến và trên báo cũng dirực
chuyển sang dạng kỹ thuật số đổ dỗ bảo trì và bào tồn. Một số lớn các hình ảnh y tế
dang đưực tập trung hàng ngày và các vệ linh dang clirực sàn xuất nhiều lum. Khuynh
hướng này có ý định tiếp tục nâng cấp việc lưu trữ và các công nghệ kỹ thuật sổ. Việc
lập ra một chỗ chứa đối với lượng lớn thông till multimedia ngày càng tăng như vậy
còn được ít sử dụng. Điều này sẽ klìông thổ sử dụng đầy dù thông till multimedia này
trừ khi nó dược lổ chức đổ truy xuất nhanh theo ycu cầu.
Không chỉ là đang (ăng về sổ lượng dữ liệu đang dược lưu trữ, mà còn cả các kiểu dữ
liệu và các dặc trưng cùa chúng là khác nhau từ dữ liệu ký tự chữ.
Có những dặc trưng chính cùa dữ liệu multimedia như sau:
• Dữ liệu multimedia, nhất là âm thanh và video, là dữ liệu có số lượng lớn. Ví
dụ, một video 10' trung bình chiếm 1,5 GB chưa nén.
• Ảm thanh và video cỏ chiều thòi gian và chúng khi biểu diễn sẽ chiếm tỷ lộ cố
tlịnli đổ hoạt động có hiệu quà nlur đã yêu càu
• .Ảm thanh số, ảnh và video dược trình diễn theo một loạt giá trị don cá thổ và
thiếu cấu trúc ngũ nghĩa rõ làng clio máy lính ilể tự ilộng hoá Iiliận biết nội dung
• Nhiều ứng dụng multimedia đòi hỏi việc biểu (liễn dồng thời các kiểu truyền
thòna, đa năng theo cách kết hợp không gian và thòi gian
1 4
I.yivt trên sẽ chèn một dòng vào bàng STuDeNT
l liỏig tin trong bàng dược truy xuất khi sử (lụng câu lệnh Sl'l.l'X’T của SỌI,. Ví dụ,
ncu miôiĩ truy xuất ten cùa sinh viên với sinh viên số 32, ta sử dụng lệnh truy vấn sau:
S('l?ct Name
Fron STUDENT
Where 5tutí=32
Cúc thuộc tính trong RDBMS dã cố định kiểu và độ rộng. Trong ví dụ trên, tlniộc tính
Stu/í là kiểu integer với độ dài cố định là 32 bit. Như vậy, RDI3MS là thích hợp đổ xử
lý dí liệu số và dùng ký tự ngan.
Đe lỗ trợ cho các trirừng có giá trị lớn trong RDBMS, một khái niệm được gọi là đói

Urợig rộng hoặc nhị phân (BLOB) sc được giới thiệu. Một BLOB là một xâu bit lớn
các lộ dài biến, Ví dụ, nếu ta muốn lưu bức tranh của sinh vicn trong bàn giii ở bàng
STl DENT trcn, chúng ta có thể tạo ra một bàng khi sử dụng lệnh sau:
Creite table STUDENT(
st.uf integer,
Nciini char (20),
address char (1 00) ,
Pic-Lire BLOB);
Các SLOB bình thường chi là xâu bit và hoạt động bằng việc so sánh chứ không mang
clìúig ra ngoài. Dó là vì RDBMS không biết nội dung hoặc ngữ nghĩa cùa một BLOB.
Tất cà BLOB hiếu như một khối dữ liệu.
Một dạng khác cùa các DBMS là hộ thống quàn trị CSDL lurứng đối tượng
(OO)BMS). Các OODBMS kết nối các khả năng của cơ sư dữ liệu (nliir lưu trừ và
tìm ãếni) và các đặc tnrng hướng đói tượng (tóm lirực, sự thừa kế, tính dong nhất dối
13
• Y nghĩa cùa dữ liệu multimedia dôi khi rất mờ và có tính chù quan. Ví dụ, mỗi
ng irờ i có cách g iã i (hích cùng I bức tranh theo cách khác nhau lioàn loàn liê n g
• Dữ liệu multimedia là giàu về thông till, nhiều tham số được đòi hỏi mới trình
tliên dù nội dung của 11Ó.
1.2.2. Các DBMS và vai trò của chúng trong việc xử lý dũ’ liệu
multimedia
Các DBMS ngày nay (lược xây dựng khá tốt và dược sử dụng rộng rãi đối vứi dữ liệu
có cìu trúc. Các DBMS trội nhất là các hộ quàn trị dữ liệu quan hệ (RDBMS). Trong
RDPMS, thông tin dược to chức thành bàng hoặc các quan hộ. Các dòng của bàng
tươig ứng với các khoản mục thông till hoặc các rccorđ, trong khi dỏ các cột tương
ứng với các thuộc tính. Ngôn ngữ truy vấn có cấu trúc (SQL) dược sử dụng dể lạo ra
các >àng nlnr thế và đổ chèn và truy xuất lliông tin từ các bàng dỏỊ 11 ].
Clúng ta dùng một ví dụ đơn giàn dể minh hoạ cách sir dụng SQL đổ tạo lập một bàng
và C1CI1, truy xuất thông tin từ dó. Già sử cluìng ta muốn lập một bàng chứa các bàn
ghi <è sinh viên bao gồm số hiộu sinh viên, tên và dịa chi. Ta có lệnh sau:

Creìte table STUDENT (
st.uf integer,
/Mm ? char (20) ,
address char (100));
Kill ;lu'ing ta muốn chèn các bàn ghi về sinh viên vào bàng, chúng la sir dụng lệnh chèn
SQỊ như sau:
Insĩr t into STUDENT values(10,"Lew, Tom", "2 Main St.,
Churchill, australia");
15
Urựng). Một phương pháp tiếp cậi) chung là kết nối các dặc điềm Inrớng dối Urợng với
cơ sờ (lữ liệu CỊiian hộ. I lộ thong tin ilirực kốt nối ihì dược gọi là một hộ lliống cơ sở (lữ
liệu dôi Urựng CỊIIÍIII hộ. Trong một hệ thong nlnr vậy, các dối tượng tlược x;'ic clịnli một
cách thích hợp trong lurứng dối tượng. Trong dó mồi dối tượng chửa các dặc lính hoặc
thuộc tính và các plurơng pháp hoặc các hàm được sử dụng dể chế tác ra các đặc tính
khác. Ví dụ, chúng la có (1)0 (lịnh nghĩa một loại ànli sau:
Create type IMAGE(
Private
Size integer,
Resolut ion integer,
Content float[ Ì,
publlie
) ;
Sail đó khai báo các tranh bời kicu IMAGLv cỏ thổ đirực sử dụng trong một bàng
Iihư sau:
Create table STUDENT(
stuệ integer,
Name char (20),
Address char (100)
Picture IMAGE);
Diềm khác biệt chính giữa BLOB và các dối lượng là dổi tượng thỉ dược định rõ một

cách thích dáng, bao gôm các dặc tính và cho phép chúng có tác dụng, trong khi dó thì
HI OB thi không.
16
( iic khái niệm vê các BLOIỈ và các đối tượng là một bước gần với xử lý dữ liệu
mull ime<li;i . Nhưng các BI.OB dược sử (lụng chỉ (lổ lưu dữ liộu có khối luựng lớn.
Trong khi các dối lượng chửa vài thuộc tính đơn giàn, nhiều clúrc năng lum liên dược
phát trial dố xìr lý việc truy xuất multimedia dựa vào nội dung. Một vài các khả năng
(lược yêu cầu Iilur sau:
• Các công cụ, tụ động lioá hoặc bán tự dộng trích rút các nội dung và các dặc
trưng trong dữ liệu multimedia ;
• Các cấu trúc chỉ số hoá da chiều, dể diều khiổn các vcclor multimedia
• Các độ do lương đồng, nhằm truy xuất multimedia thay vì kết nối một cách
chính xác
• Lưu trữ các hộ thống phụ, thiết kế lại nhằm đáp ứng các ycu cầu cùa băng tần
cao với cữ lớn, tlioà míín những đòi hỏi theo kiểu thời gian thực
• Giao diện sir dụng, dược thiết ké cho phép các câu hỏi đa dạng trong nhiều kiểu
truyền thông đa dạng và cung cấp các trình diễn multimedia
1.2.3. Hệ thống IR và vai trò cùa nó trong việc truy xuất multimedia
Ngoài các DBMS, có loại hộ thống quàn lý tliông tin khác tập trung vào việc Iruy xuấl
tài liệu vãn bàn. Loại hộ thống này đưực gọi là hệ thống truy xuất thông tin (III).
Kỹ nghệ IR khá quan trọng trong hộ thống quàn lý (hỏng till multimedia vì hai lý do
chính. Một là chúng tồn tại mội lưựiig lớn các văn bàn trong nhiều dạng lổ chức, ví dụ
như các thir viện. Văn bàn là một nguồn thông tin quan trọng trong bất kỳ một lổ chức
nào. Do sir đụng các thông tin đã được lưu trữ trong các tài liệu này, cần có một hệ
thông IR hiệu quà. Hai là, vãn bàn có thổ dược sir dụng tlổ chú giải các truyền thông
khác như âm thanh, hình ảnh, video. Thông tlurừng thì các kỹ nghệ IR có thổ dược sử
dụng cho việc phục hồi thông till da truyền thông. Tuy nhiên, việc sử dụng chi tlổ xử lý
ilữ liệu truyèn thông phải luân theo các giới hạn sau:
• Việc chủ giãi nhìn chung phủi làm bang tay và tiêu toil thời gian
1 7

• Văn bàn chú giài chưa dầy dù và cỏn mang tính chù quan
• Các kỹ nghệ IR không the diều khiển các câu hỏi từ văn bàn khác (nlnr âm
thanh và ảnh).
• Một vài dặc lính của multimedia như bố cục hình ảnh và các dạng dối tượng là
khác nhau, nếu không thì cũng chỉ là cùng mô tà một văn bàn.
1.2.4. Cách tiếp cận tích họp việc truy xuất và chỉ số hoá thòng tin
multimedia
Từ tnào luận trên chúng ta có the thấy rằng các DBMS và ỈR không thể đáp ứng đầy đù
các yêu cầu vồ chi số lioá và truy xuất multimedia, VI vậy cần cỏ các công nghệ mới
tlể vin dựng những dặc trirng riêng cùa multimedia Tuy vậy, vẫn nhận tlỉấy rằng các
DliMS và [R vẫn dỏng vai trò quan Irọng trong các MDBMS. Các phần cùa dữ liệu
mull media Iilur ngày và lác già tạo lập cùa tài liệu multimedia là có cấu trúc. Dữ liệu
có két cấu này có thể được diều khiển bằng các kỹ nghệ DBMS. Văn bản chú giải vẫn
là pằirơng pháp hiệu lực trong việc ghi lại nội dung.
'rỏm lại, một cách tiếp cận tích hợp tổ hợp các DBMS với IR, và các kỹ thuật dặc tà đẻ
xir !\ dữ liệu multimedia được tlòi hỏi đổ phát triển MIRS hiệu quà và cỏ hiệu lực.
1.3 Tổng quan về MIRS
Các mục thông till trong cơ sơ dữ liệu đã được xử lý Irước đổ rút ra các (lặc tnrng và
nội cung ngữ nghĩa, dược chỉ rõ dựa trên các dặc trung VÌ1 ngữ nghĩa này. Trong suốt
quá rình phục hồi thông tin, một câu hỏi cùa lìgirừi sử dụng dirợc xử lý và dặc điểm
cliínỉ được rút ra. Các đặc trưng này sau đó được chuẩn bị cùng với các đặc trưng hoặc
chù tiị cùa mỗi mục thông till trong cư sờ dữ liệu. Các dặc tnrng của mục thông till là
hầu lết đồn Urơng đồng dể các câu hỏi dược gụi ra trước người sir dụng
IX
Hình ỉ. 1 : Một mẫu truy xuất thông tin tổng quát
Có rất nhiều ấn bản cluực viếl theo mẫu trcn trên. Ví dụ, Các mục lliông tin có thể
được kết nối bất kỳ với các loại truyền thông. Làm tho nào đổ rút ra được những đặc
trưng lừ các tin tức truyền thông này? Phải lưu và xây dựng được các dặc trưng này
như thế nào đổ việc truy tìm có hiệu quả? Phải do độ “ tương đồng” như thố nào giữa
hai till tức truyền thông?

c à n
phải làm gì đổ giao diện sử dụng có thổ đàm nhận được
nhùng câu hỏi phức tạp, rối rắm, linh hoạt? Phải so sánh như như the nào về việc biểu
diễn các quá trình truy lìm giữa các MỈRS khác nhau? Làm thố nào dổ iláp ứng các
yêu cầu tạm thời trong suốt quá trình truyền và biểu diễn dữ liệu multimedia?
1.4 Các ứng dụng nói chung và khả năng mong đợi của MIRS
Mills dược cho rang hiệu quà và linh hoạt. Klià năng của nó dirực mimh lioạ trên các
dạng câu hòi mà chúng cỏ thê ho trợ. Các kiêu câu hỏi mong dựi cỏ dạng sau:
• Câu hỏi dựa trcn metadata: Dây là câu hỏi chi ra những thuộc tính thông thường
cùa các mục cơ sờ dữ liệu nlur tên tác già và ngày tạo lập. Một Ví dụ là câu hỏi
19
theo yêu cầu tròn video (V OI)) có tho là “liệt kê lên các phim được sàn xuất
vào năm 1 997". Loại này ikrựe vận liụng bang I)BM S
• Cac câu hòi dựa trôn chú giải: Dây là càu hòi chi ra các I11Ô tà dạng văn bàn
trong nội dung cùa cơ sờ dữ liệu. Các câu hỏi đều ờ trong từ klioá hoặc tronng
phân văn bàn mien phí và việc truy tìm dựa trên sự tirong đồng giữa câu hỏi và
phân chú giãi. Ví dụ, câu hỏi có thổ là “Chỉ ra pliân đoạn quay video khi diễn
viên nam đang đạp xe đạp”. Loại câu hòi già (.lịnh này được chú giài thích đáng
và xử lý bời kỹ nghệ IR
• Càũ hỏi dựa trcn mầu dừ liệu hoặc tính năng: Dây là câu hỏi chỉ ra thông tin
dạng thống kê, như: âm thanh, mầu, độ mịn. Một ví dụ: “Chi ra ảnh video với
sự phân bổ màu nlnr TI 11S" L)c trà lời dang câu hỏi nay, thông tin liột kê về mục
cơ sờ dữ liệu ncn dược SƯU tập tnrức và kru trữ
Càu hỏi ví dụ
Dáy là câu hỏi trong các đối tượng đa truyền thông nliư hình ảnh, phức thào, đoạn âm
thanh. Vi dụ: " chi ra I bộ phim vù các cành tương tự nlnr Bức tranh này". Loại câu
hủi này cỏ thế bị lủm rối lên bởi mối liên hệ về không gian và thời gian giữa các đối
tượng
Các câu hòi ứng dụng ricng
Các câu hòi ứng dụng riêng có rất nhiều loại. Ví dụ, câu hỏi dựa trên thông till chi tict

và cụ thề như kích cỡ 1 đoi tượng và quá trình già lioá cùa 1 người.
Các MIRS được mong mỏi có thổ đưa ra nhiều loại câu hỏi klìác nhau, do dó có ứng
dụng rộng rãi, bao gồm:
• Thuốc. MỘI bác sĩ clira ra ảnh chụp sóng siêu âm mới và muốn tìm lại ànli vói
mức độ cỏ thổ so sánh dược cùa sự phình tâm that trái từ một ảnh chụp siêu âm
cơ sờ
2 0
• Mào mật. Một cành sát ilira ra hộ lliống với một hức tranh vẽ mặt người và muốn
phục hồi lại những hình ành khác vào hồ sơ hiện thời cùa những người giống
với bức tranh này từ cơ sờ thông tin bào mật
• Cìiáo dục. Một sinlì viên quét chụp một tranh dộng vật và muốn truy tìm tất cà
các thông tin (bao gồm âm thanh, hình Anh. văn bàn I11Ô tà). Tiếp theo, một sinh
viên khác thêm âm thanh cho con vật và muốn khôi phục lại bức tranh và thông
tin mô tà loại động vật này
• Báo chí. Một báo cáo vicn viết một bài báo về một người và muốn truy tìm bức
Irani) cùn người dó và các thông till lổng liựp dã xuất hiện trên các báo và livi
20 nám trước
• Giải trí. Một quan sát viên muốn truy tìm một đoạn băng tương tự vái những gì
mà anh ta dã xem trên một cơ sơ dữ liệu video lớn hơn
• Dăng ký nhãn hiệu. Một cán bộ gia công một nhãn hiệu dăng ký nào đó muốn
quyết đinh xem dã có một cái nhãn hiệu nào tnrức đỏ giống nhu vậy dã được
dăng ký chưa. Dc làm diều này, anh ta cần một cư sờ dữ liệu về nhãn hiệu dồ so
sánh các nhãn hiệu giống nhau nhất hiện có đổ làm ra một nhãn hiệu hoàn toàn
mới
Cuối cùng, các MIR.S sẽ lập trung vào chính thông tin thay thế các loại truyền thông
và việc micu tả chúng có thể dược sắp xếp hoặc dịch ra từ loại truyền thông này đến
loại truyền thông khác. Ví dụ, một video tài liệu cần phải dược sử dụng video, hình
ảnh. văn từ, âm thanh, lời nói và những tliír Urơng tự nlur vậy. Vì vậy phương tiện dò
tìm phải kết nối các câu hỏi (dữ liệu) với các mục cơ sờ dữ liệu.
Các loại truyền thông, khác nliau cần các kỹ nghệ phục hồi và cách biểu thị khác nhau.

Các kỹ nghệ khác nhau được sử dụng cho từng loại truyền thông khác nhau. Người sử
dụng có thổ thấy thích những thông tin xác đáng mà bất chấp sự khác nhau vồ các
loại truyền thông, vấn dồ là làm thế nào dể tích hợp ill rực các loại kỹ nghệ khác nhau
dỏ tuy tìm thông tin cần tìm trong việc trà lời các câu hòi cùa người sử dụng. Có rat
21
nhiêu các ân phàm thrực viết dê giải quyết vấn dè này, nlur glii rõ câu hòi và xử lý,
klioàn phụ cap them tuơng xứng, ghép các Illicit tà dối tượng.
I)ỏ việc truy tìm cỏ hiệu quà, cần có một cấu trúc các khoản mục hựp lý. lỉời vì các
vector dặc tính đêu da dạng về kícli cữ và việc truy tìm các klioàn mục trong các
MIKS dựa trôn sự tương động thay cho việc kết nối chính xác, cấu trúc mục lục dirực
sử dung trong các DBMS không thích hợp với các MIRS.
Khuynh hướng cùa các yêu cầu bao gồm hộ số trỗ và độ giật, gợi ià chất iirựng dịch
vụ (QoS). cần cỏ trong việc truyền và mô tà dữ liệu truyền thông.
Trong các DBMS, tiến hành chính liên quan liến liiỳti quà (Ihừi gian trá lời câu hòi).
Nó rất quan trọng bời kích cữ lứn cùa multimedia. Ngoài ra, hiệu quà truy tìm cũng rat
quan trọng (khả năng truy tìm các mục thích hợp và khả năng loại bỏ các mục không
cần đến). Hởi các MIRS truy tìm các mục chọn dựa trên cư sở do sự tương dồng, sử
(lụng luật tương ứng thay thế cho kếl nổi chính xác. Trừ khi I1Ó trừ ncn quá khó dối với
việc thiết kế các độ do tương đồng thì cần xác định một cách chính xác bằng óc phán
đoán cùa con người, giống như một vài khoản mục dược hộ thống xác định là thích hợp
nhưng người dùng lại clu) là không thicli hợp và một số mục thích hợp lại không dược
truy xuất.
CHƯƠNG 2
Cơ SỞ Dữ LIỆU ĐA PHƯƠNG TIỆN (Multimedia Database)
Khi thiết kế một hộ thống CSDL multimedia mô tà các loại dữ liệu multimedia khác
nhau, chúng ta bắt buộc phải dối diện với một số câu hỏi quan trọng dược đặt IV về
cách thức tổ chức hệ trống nlnr:
• Việc tổ chức vồ mặt nội dung dối với dữ liệu cùa các loại dữ liệu
multimedia.
• Việc lưu trữ vật lý cùa các dữ liệu này trên các thiết bị lưu trữ như thế

nào.
Dẻ trà lời cho các câu hỏi này, trước tiên chúng ta xem xét tới kliía cạnh tổ chức nội
2 3
2.1 Kiến trúc cho việc tổ chức nội dung
() day chung ta xem xét tới 3 kién trúc áp dụng cho việc tổ chức nội dung của một hộ
lliốngCSDL multimedia
2.4.1 Nguyên lý tự trị
Nguyên lý này đồ cập tứi việc chúng ta nhỏm tất cà các dữ liệu ành, dữ liệu video và lất
cà các dữ liệu văn bàn và chi số hóa chúng theo nguyên lac tối da hóa hiệu suất cùa tất
cà các loại truy nhập đối vứi các loại dữ liệu mà chúng ta dự định. Nguyên lý này đàm
bào răng vói mỗi loại dữ liệu (anil, video, văn bàn) chúng đều đưực tổ chức vói một
cách thức đặc trưng phù hợp với mỗi loại dữ liệu này Ị18].
U s e r
T n iy vnn
Co' ch ế tm y v ố n
M ultim edia
Trà iòi
Co' c h ề liiển thị
Tê|> d iỉsõ
Tẻp chỉ só Tẻ|> chỉ só Dií'
Díí* liêu ánh
Dii' liệu AikIìo liệu Video
______
t
______

_____
V4
______
Tẻp chỉ só Tẻ|> chỉ só Dií'

Díi' liệu AikIìo liệu Vi(leo
III III
Hình 2.1: Mô tà nguyên lý lự trị
24
2.4.2 Nguyên lý đồng nhất
Một nguyôn lý kiến trúc khác mà chúng ta có thể lựa chọn là nguyên lý dồng nhất,
nguyên lý này giúp chúng ta lim dược một cấu trúc tóm tắt cluing cho tất cà các loại dữ
liệu. Cấu trúc này có thổ dược dùng trong việc chi số hỏa tất cà các loại dữ liệii qua dó
tạo ra một “chi số thống nhất" mà chúng ta có thẻ dùng để truy cập tới các dối tượng
khác nhau. Hay nói một cách khác là chúng ta có thể trinh bầy tất cà các đối tưựng
khác nhau( ành, video, âm thanh, văn bàn) trong một cấu trúc clữ liệu duy nhất va qua
dó phát triền các llniíit loáiì ilỏ Imy vấn cấn trúc dữ liỳu Iiíìyị I X|.
U s e r
Tmiv vồn
C.O’ c liề tiny V.1I1
M ultimerii.i
__________________________J ______________________________
Tệp chỉ so tliom j Iihầt
III III III
píí' liệu ành Dii' liệu Atxlio Díi' liệu Vkleo
lỉình 2.2: Mô tà nguyên lý dồng nhất
25
2.4.3 Nguyên lý lai ghép
V tirửng cùa nguycn lý này là dựa trên sự kết liọrp cùa 2 nguyên lý dã trình bầy ờ trên.
Kct quà cùa nguycn lý này là một kiểu dữ liệu nào đó sử dụng chỉ số (index) riêng của
chúng, (rong khi đó các kiểu dữ liệu khác sẽ sử dụng một chi số (Index) “thốụg nhất”.
> Loại dữ liệu nào sử dụng kiểu chi số nào sẽ phụ (lniộc vào các đặc tính khác nhau sẽ
dược nói đến ở phần sau[ 181.
User
Tià lỏ i

lề hiền thị
Multimedia

A— ———
______
____________________________________________________________________
Tệ|>chỉS© Tệ|>chieó Tệp chì so lliomj Iili.1t
phuxMig tiéii'I phil'oiHj tiẻn ĩ
m m III III III
pii' liéu .ình Pii'liéti Aulio Oij'liéu Vkleo
Hình 2.3: Mô tà nguyên lý 1(1 i ghép
Cà ba loại nguyên lý trẽn đều có những ưu dicm và nlnrợc diểm riêng cùa mình. Kiến
trúc dựa trên nguyên lý tự trị đòi hỏi việc tạo ra các thuật toán và cấu trúc dữ liệu cùa
mỗi kiểu dữ liệu, ngoài ra nó cũng đòi hỏi các kỹ thuật ho trợ cho việc liên kêt chéo
giữa các cấu trúc dữ liệu khác nhau này. Các công việc này đòi hỏi tính pliirc tạp cao
và đòi hòi một lượng thời gian lớn cho việc phát triển. Bên cạnh các nhược tliêm trên,
việc xây dụng các cấu trúc dirực dặc biệt hóa tôi ưu cho việc truy xuất tiên từng loại dữ

×