Tải bản đầy đủ (.pdf) (85 trang)

(Luận văn thạc sĩ) cơ sở dữ liệu đa phương tiện yêu cầu và các vấn đề

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (27.59 MB, 85 trang )

DẠI MỌC ỌUỎC’ ( ì IA 11Ả NỘI
T R Ư Ờ N G DẠI IK K C Ổ N C N C I I Ệ






T r ầ n Hồi N am

CO SỎ DỮ LIỆU ĐA PHƯƠNG TIỆN
YÊU CẦU VÀ CÁC VẮN ĐÈ

Cliuycn ngành : Công nghệ thông tin
Mã sổ

: 1.01.10

LUẬN VÁN T ỈỈẠ C s ĩ

NịỊUÒi ItirỞHỊỊ dim k h o a học: P G S .T S . Vũ Dức T h i

là Nội

2004


Mục lục
BẢNCi T H U Ậ T N G Ũ ' V Ả C Á C C H Ữ VI KT T Á T ................................................................... ......... 3

LÒ. CẢM O N ..........................................................................................................................4


Mỏ DÂU...................................................................................................................................5
CH ÍƠ N í; 1................. ............................................................................................................ X
GIO! TI I I HU CI I UNCỈ VÍ ; C ơ S Ở D Ũ L I Ụ U l ) A IM I i r ơ NCÌ T I Ệ N .......................................... 8

Các kiểu truyền thông và mullimetiia.............................................................................
1.1.1. Cơ sở dừ liệu và các DBMS...........................................................................10
] .1.2. Truy tim thòng till tài liệu văn bàn................................................................ 10
1.1.3. Truy xuất và chỉ số lìố multimedia................................................................11
1.1.4. Trích rút đặc trưng, biểu diễn nội (lung và chi số h o á .................................11
9
Sự cần thiết đối với MIRS..................................................................................... 11

1I

.2.1.

Sự p h á t tr iể n về dữ liệ u m u ltim e d ia và các d ặ c (rư n g cùa I 1Ó .........................12

1.2.2.
1.2.3.
1.2.4.

Các DBMS và vai trò cùa chúng trong việc xừ lý dữ liệu multimedia.... 13
I lệ thống 1R và vai trị của nó trong việc truy xuất multimedia................ 16
Cách tiếp cận tích hợp việc truy xuất và chỉ số hố thông till multimedia
17
1.3 Tổng quan VC M IR S............................................................................................... 17
1.4 Các ứng dụng nói chung và khả năng mong đợi cùa MIRS.............................. 18
a Ư Ơ N G 2 ..... 1 .....7.................... ................ .......... ......................................................... 22
CO SỜ 1)0' LIỆU DA PHƯƠNCỈ TIỆN (Multimedia Database).................................22

l.t

K iế n tr ú c c h o v iệ c lổ c h írc n ộ i d u n g ................................................................................... 23

2.4.1
Nguycn lý tự trị...............................................................................................23
2.4.2
Nguyên lý đồng nhất...................................................................................... 24
2.4.3
Nguyên lý lai ghép......................................................................................... 25
1.2 Tổ chức dữ liệu multimedia dựa trên nguyênlý đồng nhất................................ 28
1.3 Cấu trúc tóm tat m edia.......................................................................................... 30
2.4.1
Dữ liệu ảnh như là một tóm tat media........................................................... 31
2.4.2
Dữ liệu video như là một tóm tat media....................................................... 32
2.4.3
Dịnh nghĩa vè một CSDL Multimedia don g ià n ..........................................34
2.4.4
Dịnh nghĩa về một CSDL Multimedia có câu tr ú c ..................................... 35
1.4 Ngôn ngữ truy van khai thác đir liệu multimedia.................................... .......... 37
2.4. / Truy vấn SMDSs (mô là dồng nhất).................................................. ......... 38
2.4.2
Truy vấn dữ liệu multimedia mỏ tà clirứi kiến trúc lai tạo..........................42
2.4.3
Chi số lioá SMDS với chi sỗ dào...................................................................44
CI ƠƠNG 3 ............................................................................................................................ 50


2


III; JU A N TR Ị C ơ SÒ D ơ u ụ u l) A IM iư O N íi I II. N

Y Í:iJ C Ả U V Ả C ÁC V Á N

Dll................... ............... ........... .....................................!..................................................... 50
31 Mục đích cùa M D B M S............................................................................................50
32 Các yêu cầu cùa một MDBMS................................................................................53
3.2.1
Khả năng quàn trị lưu trữ lớn.......................................................................... 55
3.2.2

1 lồ trợ truy vấn và khai lliáctlữ liệu............................................................................. 56

3.2.3
'l ích hợp các phương tiện, tổng hợp và the hiện.......................................... 57
3.2.4
Giao diện và tương tác..................................................................................... 57
3.2.5
Hiệu suất.............................................................................................................58
33
Các vấn đồ cùa MDBMS.........................................................................................58
3.3.1
Mô hình hoả dữ liệu MULTIMEDIA............................................................58
3 3.2
Lưu trữ đổi tượng MULTIMEDIA................................................................60
3.3.3
Tích hợp multimedia, thổ hiện và chat lượng cùa dịch vụ (QoS)......... ...61
3.3.4
Chi số hoá multimedia.................................................................................... 62

3.3.5

I lỗ trợ truy vấn m ultim edia, khai thác và duyệt q u a ............................................63

3.3.6
Quàn trị CSDL multimedia phân tá n .............................................................64
3.3.7
Sự hỗ trợ của hệ thống.....................................................................................65
CM /ONG 4 ........................... ................................................................................................ 67
XẢt' DỤNG IIỆ THỐNG MUA BẢN HẢNG QUA MẠNG.........................................67
4 2 .ỉ, Giới thiệu.............................................. :........ ...................................................... 67
42.2. ứ n g dụng CSDL đa phương tiện vào hệ thống bán >’àng qua mạng..............68
4.2.1. Xây dựng kho dữ liệu hình ảnh 21) và 3 D ................................................... 69
4.2.2. Xây dựng cơ chế truy vấn đối với kho dữ liệu liìnli ảnh.............................69
4 2 .3 .

I lộ thống bán hàng qua m ạ n g ..........................................................................................71 •

4.3.1. Mơ hình hộ thống..............................................................................................71
4.3.2. Các chírc năng cơ bàn cùa hộ thơng.............................................................. 73
4.3.3. Các công cụ phát triển hệ thống.................................................................... 74
4.3.4. Quy trình thực hiện giao dịch cùa hệ thống.................................................. 75
4.3.5. Cài đặt hộ thống............................................................................................... 76
44. (ỉiài pháp tích hợp các hộ thong k h á c ....................................................................78
4.4.1.

Hệ thống quàn lý và cấp phát c h ứ n g chi số ( C A ) ..................................................78

4.4.2.
I ỉệ thống thanh toán trực tuyến (VASC Payment)............;......................79

45. Một số giao diện chính cùa Ỉ1Ộ thống.......................................................................XI
K Í r i A l Ậ N ......: ......... ..............................................................................................................84
T Ả I.lị- U T H A M K H Ả O ......................................................................................................... 85


3

BẢNG THUẬT NGỮ VÀ CÁC CHỮ VIÉT TÁT
STT
1
2
3
4
5
6
7
8
9
10
11
12'
13

Ký hiệu viết (ắt
Web browser
CSDL
DBMS
MDBMS
Video frame
RDBMS

Multimedia
MIRS
Metadata
Media
SMDS
Information Rctrival(IR)
Multimedia
Information
Retrieval System (MIRS)

Giải tliícli
Trình duyệt Web
Cơ sờ (lữ liệu
1lộ quàn trị cư sờ dữ liệu
I lệ quàn trị cơ sở dữ liệu da phương tiện
Khung hình video
I lệ quàn trị cơ sở dữ liệu quan hộ
Da phương tiện
1lệ thong truy vail thông till đa phương tiện
Sicu dữ liêu
Phương tiện
I lộ thống cơ sờ dữ liệu c1a phương tiện có câu trúc
Truy xl thơng tin
Hệ thơng truy xuất thông tin đa phương tiện


5

MỞ ĐÀU
C ù n g nghẹ


m u ltim e d ia

lie n q u a il lớ i v iệ c m ô (à sự kê t h ợ p các d ạ n g thứ c th ô n g t i ll

kh á c nh au (v ă n b à n , th ì liệ u , h ìn h à u lì, âm th a n h , v id e o ) d ư ớ i d ạ n g tín h iệ u số. c ỏ thổ

nêu ra đây một so ứng dụng multimedia như :


1'-le a rn in g .



1 lộ i th à o V id e o ( V id e o C o n fe re n c in g ).



Tlnr viện diện tử (Lỉlibrary).



I Iiện tại ào (Vitual Reality).

Các còng nghẹ truyền dùng dể thao lác, truyền phát, diều khiển các dữ liệu multimedia
dà và dang đirực nghiên cửu một cách rất sỏi dộng.
Các hộ thống multimedia càn có một hộ thống phân phối nham mục đích thu thập các
đối tirợng multimedia và đưa chúng dốn người dùng, một trong số các phương tiện đầu
ticn dược dùng dến là đĩa từ và đĩa quang. Ngày nay,Internetcũng


Iilurcác giao

khác'như TCP/IP, NetBIOS, các mạng Lan đang trờ thành cácphương

thức

tiện đổtruyền

bá dữ liệu multimedia . Khả năng mô tà phong phú cũng nlnr khả năng dồ họa cùa các
w e b b ro w s e r c ù n g v ứ i c á c tín h n ă n g d a n g (.lược tiế p tụ c tă n g c ư ờ n g Iiln r lio ạ t họa, âm

thanh và Video khiến các web browser dang trờ (hành một phương tiện mới dẻ mang
lại các dữ liệu multimedia cho người dùng[5Ị
Cáo công nghệ chủ yêu liên quail den multimedia bao gồm:


Kỹ thuật nén.



Video Servers.



Các kỹ thuật về mạng (internet, tokcnring, ctlicrnct, ATM ...vv).



Các cơng nghệ truyền dữ liệu.




Các cơng nghệ về cáp truyền dẫn.



Cơng nghệ xác thực.



C á c c ỏ im n g h ệ VC C S D L .


6

Một CSDL là tập hợp cùa các dữ liệu có liên quan đen nlìau. Một hệ quàn trị CSDI,
(DBMS) là hộ lliốiig phần mèm trợ giúp dio các quá trình khai báo, xây dựng và thao
lác vứi CSDL phục vụ cho các ứng thing khác nhau. CSDI, multimedia bíio gom thêm
các kiểu dừ liệu khác nlnr:


Văn bản.



llìnhànli.



Àm thanh.




V id e o .



1loạt hình.

Các kicu dữ liệu khác này địi hỏi phải có các phương thức dặc biệt Ilham mục đích tối
iru hóa cho việc lưu trữ, truy cập, chỉ số hố và khai thác. Một MDBMS phải cung cấp
một mói lrường thích hợp đổ quản lý và sir dụng CSDL multimedia.
Một MDBMS cần phải tlàni bào các tính năng cơ bàn của một DBMS, ngồi ra nó cịn
phải có các tính năng khác như:


rích liựp các phương tiện khác (Media ỉntcrgration).



Khả năng sắp xếp và



Khả năng khai thác dữ liệu..



Khà năng lưu trữ lớn.




Giao diện multimedia.



I lỗ trợ truy vấn tưưng tác multimedia.

I11Ơ

tà thơng tin.

Thơng thường các dổi tượng riêng lè cùa một hình ành hoặc mội video frame sc có một
vài mỏi liên lìộ bộ phận vứi các dơi tưựng khác. Các môi liên hộ này dưa liến một sơ
các ràng buộc trong q trinh tìm kiếm các dối tượng trong CSDL multimedia. Căn cứ
trên cơ sờ này việc triển khai các ứng dụng multimedia trên nền các hệ quan trị CSDL
lnrớiiị; đối tượng sẽ thuận lợi Iiưn so vứi các RDMBS hiện thừiỊ 1Ị.


7

M ụ c tiê u c h ín h cù a b à n lu ậ n vă n này n h ầ m n g liic n cử u và 1ÌI11 h iể u m ộ t số vần dền cơ

bàn cùa một MDBMS:


T o n g q u a il về cơ sử d ữ liệ u da p lu r a u g tiệ n




Các yêu cầu cùa một M D IỈM S cũng như kiến trúc, thiết kế và truy vail đối với
m ộ t M D B ỈV kS .

L u ậ n v ă n n à y d ư ợ c b o c ụ c th à n h 5 ph ầ n c h ín h :



Chưưng I: Giới thiệu chung về CSDL multimedia.



Chương II: Cơ sở dữ liệu multimedia.



Clurcrng III: 1IỘ quàn trị cơ SỪ dữ liệu multimedia - Yêu cầu và các vấn dè



Giương IV: Xây dựng hộ thống bán hàng qua mạng.



Kct luận


8

CHƯƠNG 1
GIỚI THIỆU CHUNG VẺ c ơ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN







I)ữ liệu multimedia dược chia thành hai lớp là các dừ liệu liên tục và các dữ liệu không
liên tục. Các dữ liệu liên tục bao gồm các dừ liệu âm thanh, video thay đổi theo thời
gian. Các dữ liệu không liên tục là các dữ liệu không phục thuộc vào thòi gian, các loại
dữ liệu đặc trưng cho dạng này là các dữ liệu Văn bàn (có hoặc khơng có định dạng),
hình ánh tĩnh và các đối tượng đồ họa. Các kiểu dữ liệu thông thường cùa một CSDL
multimedia bao gồm:


Dữ liệu văn bàn (có hoặc khơng có định dạng).



Dồ họa: là các bàn vẽ, minh họa dược mã hóa như các tệp postscript.



Hình ảnh: là các hình ảnh được mã hóa sử dụng các dạng thúc chuẩn như là
JỈ>H(Ỉ hoặc MPLỈG.



Các hoạt hình.




Ảm thanh.



Video.

Các dặc tính chung của dữ liệu multimedia bao gồm:


Thiếu cấu trúc: Các dữ liệu multimedia có khuynh hướng phi cấu trúc vì vậy


các tác nghiệp quàn trị dữ liệu chuẩn nlur chi số liố, tìm kiếm nội tlung, truy

vấn dữ liệu tlnrờng là khơng áp dụng dược.


Tính tạm thời: Một vài kiều dữ liệu multimedia như là Video, âm thanh và hoạt
hình đều phụ thuộc vào yếu ló thời gian liên quan mật thiết đến việc lưu trữ,
thao tác và I11Ô tà chúng.



Có dung lưựng lớn: các dừ liệu video và âm thanh tlurơng đòi hoi cac tliict bị
lưu triT lớn.


9




Các úng dụng hỗ trợ: các dữ liệu phi cluiần có thể địi hùi các quy trình xử lý
phức tạp như việc sử dụng các thuật toán nén dữ liệu dối với các ứng dụng
CSDI- multimedia.

1.1

Các kiểu truyền thông và multimedia

Truyền tliông đề cập đốn các kiểu thông till hoặc các kiều biểu diễn (hỏng tin, ví dụ
nlnr dữ liệu vần chữ cái, hình ảnh, âm thanh, truyền hình. Có nhiều cách phân lớp
truyền thơng. Những cách plìân loại chung dược dựa trên những dạng vật lý và những
mối quan hệ truyền thòng với thời gian. Ta phâti láp truyền thơng dựa trên việc có hay
khơng có chiều thời gian. Ngầm định này lnrớng tới hai lớp truyền thông lĩnh và động
(hoặc tính liên tục về lliừi gian).
Truyền thơng tĩnh không bao hàm yếu lố thời gian, các nội dung và nghĩa cùa chúng
kliỏng phụ thuộc vào thời gian dưực biểu diễn. Truyền thông tĩnh bao gồm các dừ liệu
vần chữ cái, các đồ thị và các ảnh tĩnh.
Truyền thông động bao hàm yếu tố thời gian, các nghĩa và tính chính xác cùa chúng
phụ thuộc vào loại được biểu diễn. Truyền thơng dộng gồm các hoạt hình, âm thanh và
video. Các truyền thơng này có bàn chất khoảng thống nhất hoặc tốc độ riêng cùa
chúng. Chang hạn, đổ truyền càm giác chuyển dộng nhịp nhàng video plìài thực hiện
25 hỉnh mỗi giây (hoặc 30 hình phụ thuộc vào hộ thống video dang sử dụng), 'rương
tự, khi chúng ta phát lại Iiìột lời nhắn hoặc đoạn nhạc dã được ghi âm, chỉ có một loại
thể hiện là thích hợp. Việc phát lại ờ chế độ nhanh hơn hoặc chậm hơn sẽ làm nlco
nghĩa hoặc chất lượng âm thanh. Vì những truyền thông này phải được phát liên tục ở
tốc độ cố ilịnh mà chúng thường dược gụi là truyền thông liên tục. Chúng cũng cịn
đirựe gọi truyền thơng dằng thời vì mối quan hộ eo định giữa moi dơn vị truyền thông
và thời pian.

Truyền thông đề cập đến một bộ sưu tập các kiểu truyền thông dã sử dụng cùng nhau.
Diều dó cỏ nghĩa là ít nhất cỏ kiểu truyền thông dữ liệu là không theo ký tự chữ (nghĩa


10

là ít

Illicit

cỏ một kiêu truyền thơng là ánh. âm thanh hoặc truyền hình), ơ dây,

“ m u ltim e d ia ” d ư ợ c sử d ụ n g nh ư m ộ t lín h từ vì v ậ y c h ú n g ta sẽ n ó i m ộ t cách dặc In r n g
là Ih ô n g tin m u ltim e d ia , d ữ liộ ti m u ltim e d ia , hệ th o n g m u ltim e d ia , lie n lạc m u ltim e d ia ,

ứng đụng multimedia,... I)ữ liệu multimedia chính là sự biểu diễn về các loại truyền
th ô n g m u ltim e d ia m à m á y tín h c ó th ổ d ọ c dược. T h ô n g t ill m u ltim e d ia là tliỏ n g tin dã
tru y ề n b a n g cá c k iể u tru y ề n

thông

n u illim e tlia . D ô i k h i, Ih ỏ n g liu m u ltim e d ia và dữ

liệu multimedia dược sử dụng cỏ thổ thay cho nhau.
Đôi khi chúng ta sử dụng thuật ngữ multimedia hay truyền thông và dối tirựng nhằm
chi một thực thổ lự trị nào dó trong một M1RS mà có thổ dược truy vấn, truy xuấl và
dược trình diễn. Thuật ngữ “đối tượng” có thổ là chưa xác định thích hợp tlico nghĩa
Imứng đối lưựng (Object Oriented). Ngữ cành sỗ làm nó rõ ràng hơn dù cho I1Ỏ dược sir
dụng trong một ý nghĩa chung hoặc trong cách tiếp cận hướng dối UrựngỊ 10J.
1.1.1.


C ơ s ở dữ’ ỉiêu và c á c DBMS


Trong tlnr viện, CSDL và các DBMS đôi khi dược sử dụng thay the nhau, ờ dây CSDL
hiểu như một bộ sưu tập hoặc một kho dữ liệu hoặc nhiều mục truyền thông. Chúng ta
sử dụng các DBMS như một hộ thống thực thể dể quàn lý CSDI,.
1.1.2.

Truy tim thông tin tài liệu văn bản

Mộ thống truy tìm thơng tin tự động hố (IR) dược phát triển để giúp quàn lý một khối
lượng với các tài liệu khoa hục đã dược tạo lập từ những năm 1940. Clurc năng chính
cùa một Ỉ1Ộ thống IR là lưu trữ và quàn lý một số rất lứn các tài liệu văn bàn tlico cách
sao cho các tài liệu thích hợp với việc sir dụng các truy vấn dê truy tìm nhanh. Chú ý
rang việc truy tìm thơng tin tự động cùa các từ cấu lạo bang chữ dầu của những u'r khác
là nhầm vào việc truy tim các tài liệu văn bàn, mặc dù lluiậl ngữ dầy dù là truy tìm
thơng tin cỏ thổ hiểu là truy tìm một loại thông till nào dỏ.


1.1.3.

'

Truy xuất và chi sổ hoá multimedia

t ac )HMS truy xuất các klionn mục dựa trôn số liộu cỏ cấu (rúc khi sử tlụng kết nối
chí 111 xác. IR cũng dưực gọi là truy xuất dựa trê 11 văn bàn. Việc truy xuất dựa vào nội
dung dồ cập đến việc truy xuất dựa trên những nét dặc trưng truyền tliống hiện nay nlur
la m;.u sac, hình thù thay cho lời giải thích văn bàn vè khoản mục truyền thơng dó.

Vice truy xuất dựa trên nội dung là chuẩn dựa trên sự đồng dạng thay vì một kết nối
chí nỉ xác giữa một truy vấn và một tập các khoản mục dừ liệu.
MIRS dồ cập đến một hộ thống cơ sờ cung cắp việc truy xuất thông tin multimedia khi
sử dụig một tổ hợp DBMS, IR và các kỹ thuật truy xuất dựa trên nội dung. Trong một
MIRS, một vài vấn đồ như phiên bản và điều khiển an toàn cỏ thổ khơng thực hiện
tlirụcclầy thì. MỘI MIRS đủ bàn lĩnh ra dời dược gọi là MDIiMS.
1.1.4.

Trích rút đặc trưng, biểu diễn nội dung và chỉ s ố hoá

Iron’ các MIRS, một trong những vấn đề quan trọng nhất là trích rút đặc trưng hoặc
bicu liễn nội dung (cái gì là những nét dặc trưng hoặc nội dung chính Irong một khoản
mục nultimcdia). Trích rút đặc trưng có thổ là q trình lự động hay bán tự động.
Tron* một vài tài liệu truy xuất dựa vào nội dung, (rích rút dặc trưng cũng dược gọi là
chỉ so lioá. Sau đây, chúng ta theo quy ước chung. Khi mà thuật ngữ “chi sỗ” được sừ
dụngnlìir một danh từ, điều đó có nghĩa là đề cập íứi cấu trúc dữ liệu hoặc việc tổ chức
nliCínị dặc trưng đã dược trích rút đẻ nghicn cửu có hiệu quà và truy xuất.

1.2

S ự cần thiết đói với MIRS

Sự cái thiết đối với MIRS có thổ được giải thích bang ha yếu tố sau:
Tri rỏ; hếu dữ liệu multimedia dang dược dùng ngày càng nhiều và dang được chú ỷ.
n ổ SI' d ụ n g t h ơ n g till d ó ( c h ứ a t ron g d ữ liệu d ó ) , dõi hỏi c ó m ộ t h ệ

thống

truy xuất v à


chỉ s: hoá hiệu quà và có hiệu lực. Thứ hai, dữ liệu multimedia có những dặc tính và
lìlùĩiụ u cầu đặc biệt mà lại khác nhau đáng ke từ so liệu bàng chữ cái. Bời vậy,


DBMS truyền thống khơng thích họp cho việc xử lý dữ liệu multimedia. Tlúr ba, mặc
du các k ỳ

thuật

IR c ó th ể g iú p c h ủ n g ta tro n g v iệ c tru y x u ầ t m u ltim e d ia n h ư n g c h i m ộ t

minh chúng thì clnra dù dỏ xử lý dữ liệu miiltimeiliii một cách có hiệu lỊiiàị l()|.

1.2.1.

Sự phát triển về dữ liệu multimedia và các đặc trưng cùa nó

Iỉiộn nay chúng ta đang lập trung khai phá thông till multimedia. Ví dụ, một số lượng
lớn hình ành và video dang được tạo lập và hru trữ trên internet. Nhiều hoạ sỹ và bức
tranh trong nhiều kiểu in ra là dang dược clniyển sang dạng kỹ thuật số cho dỗ xử lý,
phân phoi và bào tồn. Các bức tranh từ các hàn till lien vỏ luyến và trên báo cũng dirực
chuyển sang dạng kỹ thuật số đổ dỗ bảo trì và bào tồn. Một số lớn các hình ảnh y tế
dang đưực tập trung hàng ngày và các vệ linh dang clirực sàn xuất nhiều lum. Khuynh
hướng này có ý định tiếp tục nâng cấp việc lưu trữ và các công nghệ kỹ thuật sổ. Việc
lập ra một chỗ chứa đối với lượng lớn thông till multimedia ngày càng tăng như vậy
cịn được ít sử dụng. Điều này sẽ klìơng thổ sử dụng đầy dù thơng till multimedia này
trừ khi nó dược lổ chức đổ truy xuất nhanh theo ycu cầu.
Không chỉ là đang (ăng về sổ lượng dữ liệu đang dược lưu trữ, mà còn cả các kiểu dữ
liệu và các dặc trưng cùa chúng là khác nhau từ dữ liệu ký tự chữ.
Có những dặc trưng chính cùa dữ liệu multimedia như sau:

• Dữ liệu multimedia, nhất là âm thanh và video, là dữ liệu có số lượng lớn.



dụ, một video 10' trung bình chiếm 1,5 GB chưa nén.
• Ảm thanh và video cỏ chiều thòi gian và chúng khi biểu diễn sẽ chiếm tỷ lộ cố
tlịnli đổ hoạt động có hiệu q nlur đã u càu
• .Ảm thanh số, ảnh và video dược trình diễn theo một loạt giá trị don cá thổ và
thiếu cấu trúc ngũ nghĩa rõ làng clio máy lính ilể tự ilộng hố Iiliận biết nội dung


Nhiều ứng dụng multimedia địi hỏi việc biểu (liễn dồng thời các kiểu truyền
thòna, đa năng theo cách kết hợp khơng gian và thịi gian


1 4

I.yivt trên sẽ chèn một dòng vào bàng STuDeNT
l liỏig tin trong bàng dược truy xuất khi sử (lụng câu lệnh Sl'l.l'X’T của SỌI,. Ví dụ,
ncu miơiĩ truy xuất ten cùa sinh viên với sinh viên số 32, ta sử dụng lệnh truy vấn sau:

S ( ' l ? c t Name
Fron STUDENT
Where 5t ut í =32

Cúc thuộc tính trong RDBMS dã cố định kiểu và độ rộng. Trong ví dụ trên, tlniộc tính
Stu/í là kiểu integer với độ dài cố định là 32 bit. Như vậy, RDI3MS là thích hợp đổ xử
lý dí liệu số và dùng ký tự ngan.
Đe lỗ trợ cho các trirừng có giá trị lớn trong RDBMS, một khái niệm được gọi là đói
Urợig rộng hoặc nhị phân (BLOB) sc được giới thiệu. Một BLOB là một xâu bit lớn

các lộ dài biến, Ví dụ, nếu ta muốn lưu bức tranh của sinh vicn trong bàn giii ở bàng
STl DENT trcn, chúng ta có thể tạo ra một bàng khi sử dụng lệnh sau:

C r e i t e t a b l e STUDENT(
st.uf i n t e g e r ,
Nciini c h a r ( 2 0 ) ,
a d d r e s s c h a r (1 00) ,
Pic-Lire BLOB);

Các SLOB bình thường chi là xâu bit và hoạt động bằng việc so sánh chứ khơng mang
clìúig ra ngồi. Dó là vì RDBMS khơng biết nội dung hoặc ngữ nghĩa cùa một BLOB.
Tất cà BLOB hiếu như một khối dữ liệu.
Một dạng khác cùa các DBMS là hộ thống quàn trị CSDL

lurứng đối tượng

(OO)BMS). Các OODBMS kết nối các khả năng của cơ sư dữ liệu (nliir lưu trừ và
tìm ãếni) và các đặc tnrng hướng đói tượng (tóm lirực, sự thừa kế, tính dong nhất dối


13

• Y nghĩa cùa dữ liệu multimedia dơi khi rất mờ và có tính chù quan. Ví dụ, mỗi
n g irờ i c ó c á c h g iã i (h íc h c ù n g I bức tra n h th e o cá ch k h á c n h a u lio à n lo à n liê n g

• Dữ liệu multimedia là giàu về thơng till, nhiều tham số được địi hỏi mới trình
tliên dù nội dung của 11Ĩ.
1.2.2.

Các DBMS và vai trị của chúng trong việc xử lý dũ’ liệu

multimedia

Các DBMS ngày nay (lược xây dựng khá tốt và dược sử dụng rộng rãi đối vứi dữ liệu
có cìu trúc. Các DBMS trội nhất là các hộ quàn trị dữ liệu quan hệ (RDBMS). Trong
RDPMS, thông tin dược to chức thành bàng hoặc các quan hộ. Các dòng của bàng
tươig ứng với các khoản mục thông till hoặc các rccorđ, trong khi dỏ các cột tương
ứng với các thuộc tính. Ngơn ngữ truy vấn có cấu trúc (SQL) dược sử dụng dể lạo ra
các >àng nlnr thế và đổ chèn và truy xuất lliông tin từ các bàng dỏỊ 11 ].
Clúng ta dùng một ví dụ đơn giàn dể minh hoạ cách sir dụng SQL đổ tạo lập một bàng


C1CI1,

truy xuất thông tin từ dó. Già sử clng ta muốn lập một bàng chứa các bàn

ghi <è sinh viên bao gồm số hiộu sinh viên, tên và dịa chi. Ta có lệnh sau:

C r e ì t e t a b l e STUDENT (
st.uf i n t e g e r ,
/M m ?

c h a r (20) ,

address char ( 100) ) ;

Kill ;lu'ing ta muốn chèn các bàn ghi về sinh viên vào bàng, chúng la sir dụng lệnh chèn
SQỊ như sau:

Insĩr t


into

STUDENT

Churchill,

australia");

v a l u e s ( 1 0 , "Lew,

Tom", "2

Main

St.,


15

Urựng). Một phương pháp tiếp cậi) chung là kết nối các dặc điềm Inrớng dối Urợng với
cơ sờ (lữ liệu CỊiian hộ. I lộ thong tin ilirực kốt nối ihì dược gọi là một hộ lliống cơ sở (lữ
liệu dôi Urựng CỊIIÍIII hộ. Trong một hệ thong nlnr vậy, các dối tượng tlược x;'ic clịnli một

cách thích hợp trong lurứng dối tượng. Trong dó mồi dối tượng chửa các dặc lính hoặc
thuộc tính và các plurơng pháp hoặc các hàm được sử dụng dể chế tác ra các đặc tính
khác. Ví dụ, chúng la có (1)0 (lịnh nghĩa một loại ànli sau:

C r e a t e t y p e IMAGE(
Private
Size integer,

R e s o lu t ion i n t e g e r ,
C o n t e n t f l o a t [ Ì,
publlie

);

Sail đó khai báo các tranh bời kicu IMAGLv cỏ thổ đirực sử dụng trong một bàng
Iihư sau:

C r e a t e t a b l e STUDENT(
stuệ in te g e r,
Name c h a r ( 20) ,
A d d r e s s c h a r (100)
P i c t u r e IMAGE);

Diềm khác biệt chính giữa BLOB và các dối lượng là dổi tượng thỉ dược định rõ một
cách thích dáng, bao gơm các dặc tính và cho phép chúng có tác dụng, trong khi dó thì
HI OB thi khơng.


16

( iic khái niệm vê các BLOIỈ và các đối tượng là một bước gần với xử lý dữ liệu
mull imeTrong khi các dối lượng chửa vài thuộc tính đơn giàn, nhiều clúrc năng lum liên dược
phát trial dố xìr lý việc truy xuất multimedia dựa vào nội dung. Một vài các khả năng
(lược u cầu Iilur sau:


Các cơng cụ, tụ động liố hoặc bán tự dộng trích rút các nội dung và các dặc

trưng trong dữ liệu multimedia ;



Các cấu trúc chỉ số hố da chiều, dể diều khiổn các vcclor multimedia



Các độ do lương đồng, nhằm truy xuất multimedia thay vì kết nối một cách
chính xác



Lưu trữ các hộ thống phụ, thiết kế lại nhằm đáp ứng các ycu cầu cùa băng tần
cao với cữ lớn, tliồ míín những địi hỏi theo kiểu thời gian thực



Giao diện sir dụng, dược thiết ké cho phép các câu hỏi đa dạng trong nhiều kiểu
truyền thơng đa dạng và cung cấp các trình diễn multimedia

1.2.3.

Hệ thống IR và vai trị cùa nó trong việc truy xuất multimedia

Ngồi các DBMS, có loại hộ thống qn lý tliông tin khác tập trung vào việc Iruy xuấl
tài liệu vãn bàn. Loại hộ thống này đưực gọi là hệ thống truy xuất thông tin (III).
Kỹ nghệ IR khá quan trọng trong hộ thống quàn lý (hỏng till multimedia vì hai lý do
chính. Một là chúng tồn tại mội lưựiig lớn các văn bàn trong nhiều dạng lổ chức, ví dụ
như các thir viện. Văn bàn là một nguồn thông tin quan trọng trong bất kỳ một lổ chức

nào. Do sir đụng các thông tin đã được lưu trữ trong các tài liệu này, cần có một hệ
thơng IR hiệu quà. Hai là, vãn bàn có thổ dược sir dụng tlổ chú giải các truyền thơng
khác như âm thanh, hình ảnh, video. Thơng tlurừng thì các kỹ nghệ IR có thổ dược sử
dụng cho việc phục hồi thông till da truyền thông. Tuy nhiên, việc sử dụng chi tlổ xử lý
ilữ liệu truyèn thông phải luân theo các giới hạn sau:


Việc chủ giãi nhìn chung phủi làm bang tay và tiêu toil thời gian


1 7



Văn bàn chú giài chưa dầy dù và cỏn mang tính chù quan



Các kỹ nghệ IR khơng the diều khiển các câu hỏi từ văn bànkhác (nlnr âm
thanh v à ảnh).



Một vài dặc lính của multimedia như bố cục hình ảnh và các dạngdối tượng là
khác nhau, nếu khơng thì cũng chỉ là cùng mơ tà một văn bàn.

1.2.4.

Cách tiếp cận tích họp việc truy xuất và chỉ số hố thịng tin
multimedia


Từ tnào luận trên chúng ta có the thấy rằng các DBMS và ỈR không thể đáp ứng đầy đù
các yêu cầu vồ chi số lioá và truy xuất multimedia, VI vậy cần cỏ các công nghệ mới

tlể vin dựng những dặc trirng riêng cùa multimedia... Tuy vậy, vẫn nhận tlỉấy rằng các
DliMS và [R vẫn dỏng vai trò quan Irọng trong các MDBMS. Các phần cùa dữ liệu
mull media Iilur ngày và lác già tạo lập cùa tài liệu multimedia là có cấu trúc. Dữ liệu
có két cấu này có thể được diều khiển bằng các kỹ nghệ DBMS. Văn bản chú giải vẫn
là pằirơng pháp hiệu lực trong việc ghi lại nội dung.
'rỏm lại, một cách tiếp cận tích hợp tổ hợp các DBMS với IR, và các kỹ thuật dặc tà đẻ
xir !\ dữ liệu multimedia được tlòi hỏi đổ phát triển MIRS hiệu quà và cỏ hiệu lực.

1.3

Tổng quan về MIRS

Các mục thông till trong cơ sơ dữ liệu đã được xử lý Irước đổ rút ra các (lặc tnrng và
nội cung ngữ nghĩa, dược chỉ rõ dựa trên các dặc trung VÌ1 ngữ nghĩa này. Trong suốt
q rình phục hồi thơng tin, một câu hỏi cùa lìgirừi sử dụng dirợc xử lý và dặc điểm
cliínỉ được rút ra. Các đặc trưng này sau đó được chuẩn bị cùng với các đặc trưng hoặc
chù tiị cùa mỗi mục thông till trong cư sờ dữ liệu. Các dặc tnrng của mục thông till là
hầu lết đồn Urơng đồng dể các câu hỏi dược gụi ra trước người sir dụng


IX

Hình ỉ. 1 : Một mẫu truy xuất thơng tin tổng quát
Có rất nhiều ấn bản cluực viếl theo mẫu trcn trên. Ví dụ, Các mục lliơng tin có thể
được kết nối bất kỳ với các loại truyền thông. Làm tho nào đổ rút ra được những đặc
trưng lừ các tin tức truyền thông này? Phải lưu và xây dựng được các dặc trưng này

như thế nào đổ việc truy tìm có hiệu quả? Phải do độ “ tương đồng” như thố nào giữa
hai till tức truyền thông? c à n phải làm gì đổ giao diện sử dụng có thổ đàm nhận được
nhùng câu hỏi phức tạp, rối rắm, linh hoạt? Phải so sánh như như the nào về việc biểu
diễn các quá trình truy lìm giữa các MỈRS khác nhau? Làm thố nào dổ iláp ứng các
yêu cầu tạm thời trong suốt quá trình truyền và biểu diễn dữ liệu multimedia?

1.4

Các ứng dụng nói chung

và khả năng mong đợi của MIRS

Mills dược cho rang hiệu quà và linh hoạt. Klià năng của nó dirực mimh lioạ trên các
dạng câu hòi mà chúng cỏ thê ho trợ. Các kiêu câu hỏi mong dựi cỏ dạng sau:
• Câu hỏi dựa trcn metadata: Dây là câu hỏi chi ra những thuộc tính thơng thường
cùa các mục cơ sờ dữ liệu nlur tên tác già và ngày tạo lập. Một Ví dụ là câu hỏi


19

th e o y ê u cầu tròn v i d e o
vào năm



( V O I ) ) c ó tho là “ liệt kê lên

c á c phim

đ ư ợ c sàn xuất


1997 ". Loại này ikrựe vận liụn g b a n g I ) B M S

Cac câu hịi dựa trơn chú giải: Dây là càu hịi chi ra các I11Ơ tà dạng văn bàn
trong nội dung cùa cơ sờ dữ liệu. Các câu hỏi đều ờ trong từ kliố hoặc tronng
phân văn bàn mien phí và việc truy tìm dựa trên sự tirong đồng giữa câu hỏi và
phân chú giãi. Ví dụ, câu hỏi có thổ là “Chỉ ra pliân đoạn quay video khi diễn
viên nam đang đạp xe đạp”. Loại câu hòi già (.lịnh này được chú giài thích đáng
và xử lý bời kỹ nghệ IR



Càũ hỏi dựa trcn mầu dừ liệu hoặc tính năng: Dây là câu hỏi chỉ ra thông tin
dạng thống kê, như: âm thanh, mầu, độ mịn. Một ví dụ: “Chi ra ảnh video với
sự phân bổ màu nlnr TI 11S" L)c trà lời dang câu hỏi nay, thông tin liột kê về mục
cơ sờ dữ liệu ncn dược SƯU tập tnrức và kru trữ

Càu hỏi ví dụ
Dáy là câu hỏi trong các đối tượng đa truyền thơng nliư hình ảnh, phức thào, đoạn âm
thanh. Vi dụ: " chi ra I bộ phim vù các cành tương tự nlnr Bức tranh này". Loại câu
hủi này cỏ thế bị lủm rối lên bởi mối liên hệ về không gian và thời gian giữa các đối
tượng
Các câu hòi ứng dụng ricng
Các câu hịi ứng dụng riêng có rất nhiều loại. Ví dụ, câu hỏi dựa trên thông till chi tict
và cụ thề như kích cỡ 1 đoi tượng và q trình già liố cùa 1 người.
Các MIRS được mong mỏi có thổ đưa ra nhiều loại câu hỏi klìác nhau, do dó có ứng
dụng rộng rãi, bao gồm:


Thuốc. MỘI bác sĩ clira ra ảnh chụp sóng siêu âm mới và muốn tìm lại ànli vói

mức độ cỏ thổ so sánh dược cùa sự phình tâm that trái từ một ảnh chụp siêu âm
cơ sờ


20



Mào mật. Một cành sát ilira ra hộ lliống với một hức tranh vẽ mặt người và muốn
phục hồi lại những hình ành khác vào hồ sơ hiện thời cùa những người giống
với bức tranh này từ cơ sờ thông tin bào mật



Cìiáo dục. Một sinlì viên qt chụp một tranh dộng vật và muốn truy tìm tất cà
c á c t h ô n g tin (b a o g ồ m âm thanh, hình Anh. văn bàn I11Ơ tà). T iế p th eo, m ộ t sinh

viên khác thêm âm thanh cho con vật và muốn khôi phục lại bức tranh và thông
tin mô tà loại động vật này


Báo chí. Một báo cáo vicn viết một bài báo về một người và muốn truy tìm bức
Irani) cùn người dó và các thơng till lổng liựp dã xuất hiện trên các báo và livi
20 nám trước



Giải trí. Một quan sát viên muốn truy tìm một đoạn băng tương tự vái những gì
mà anh ta dã xem trên một cơ sơ dữ liệu video lớn hơn




Dăng ký nhãn hiệu. Một cán bộ gia công một nhãn hiệu dăng ký nào đó muốn
quyết đinh xem dã có một cái nhãn hiệu nào tnrức đỏ giống nhu vậy dã được
dăng ký chưa. Dc làm diều này, anh ta cần một cư sờ dữ liệu về nhãn hiệu dồ so
sánh các nhãn hiệu giống nhau nhất hiện có đổ làm ra một nhãn hiệu hoàn toàn
mới

Cuối cùng, các MIR.S sẽ lập trung vào chính thơng tin thay thế các loại truyền thơng
và việc micu tả chúng có thể dược sắp xếp hoặc dịch ra từ loại truyền thông này đến
loại truyền thông khác. Ví dụ, một video tài liệu cần phải dược sử dụng video, hình
ảnh. văn từ, âm thanh, lời nói và những tliír Urơng tự nlur vậy. Vì vậy phương tiện dị
tìm phải kết nối các câu hỏi (dữ liệu) với các mục cơ sờ dữ liệu.
Các loại truyền thông, khác nliau cần các kỹ nghệ phục hồi và cách biểu thị khác nhau.
Các kỹ nghệ khác nhau được sử dụng cho từng loại truyền thông khác nhau. Người sử
dụng có thổ thấy thích những thơng tin xác đáng mà bất chấp sự khác nhau vồ các
loại truyền thông, vấn dồ là làm thế nào dể tích hợp ill rực các loại kỹ nghệ khác nhau
dỏ tuy tìm thơng tin cần tìm trong việc trà lời các câu hịi cùa người sử dụng. Có rat


21

nhiêu các ân phàm thrực viết dê giải quyết vấn dè này, nlur glii rõ câu hịi và xử lý,
kliồn phụ cap them tuơng xứng, ghép các

Illicit

tà dối tượng.

I)ỏ việc truy tìm cỏ hiệu q, cần có một cấu trúc các khoản mục hựp lý. lỉời vì các

vector dặc tính đêu da dạng về kícli cữ và việc truy tìm các kliồn mục trong các
MIKS dựa trơn sự tương động thay cho việc kết nối chính xác, cấu trúc mục lục dirực
sử dung trong các DBMS khơng thích hợp với các MIRS.
Khuynh hướng cùa các yêu cầu bao gồm hộ số trỗ và độ giật, gợi ià chất iirựng dịch
vụ (QoS). cần cỏ trong việc truyền và mô tà dữ liệu truyền thơng.
Trong các DBMS, tiến hành chính liên quan liến liiỳti q (Ihừi gian trá lời câu hịi).
Nó rất quan trọng bời kích cữ lứn cùa multimedia. Ngồi ra, hiệu quà truy tìm cũng rat
quan trọng (khả năng truy tìm các mục thích hợp và khả năng loại bỏ các mục khơng
cần đến). Hởi các MIRS truy tìm các mục chọn dựa trên cư sở do sự tương dồng, sử
(lụng luật tương ứng thay thế cho kếl nổi chính xác. Trừ khi

I1Ĩ

trừ ncn q khó dối với

việc thiết kế các độ do tương đồng thì cần xác định một cách chính xác bằng óc phán
đốn cùa con người, giống như một vài khoản mục dược hộ thống xác định là thích hợp
nhưng người dùng lại clu) là khơng thicli hợp và một số mục thích hợp lại khơng dược
truy xuất.


CHƯƠNG 2
Cơ SỞ Dữ LIỆU ĐA PHƯƠNG TIỆN (Multimedia Database)
Khi thiết kế một hộ thống CSDL multimedia mô tà các loại dữ liệu multimedia khác
nhau, chúng ta bắt buộc phải dối diện với một số câu hỏi quan trọng dược đặt IV về
cách thức tổ chức hệ trống nlnr:


Việc tổ chức vồ mặt nội dung dối với dữ liệu cùa các loại dữ liệu
multimedia.




Việc lưu trữ vật lý cùa các dữ liệu này trên các thiết bị lưu trữ như thế
nào.

Dẻ trà lời cho các câu hỏi này, trước tiên chúng ta xem xét tới kliía cạnh tổ chức nội


2 3

2.1 Kiến trúc cho việc tổ ch ứ c nội dung
() day chung ta xem xét tới 3 kién trúc áp dụng cho việc tổ chức nội dung của một hộ
lliốngCSDL multimedia
2.4.1

Nguyên lý tự trị

Nguyên lý này đồ cập tứi việc chúng ta nhỏm tất cà các dữ liệu ành, dữ liệu video và lất
cà các dữ liệu văn bàn và chi số hóa chúng theo nguyên lac tối da hóa hiệu suất cùa tất
cà các loại truy nhập đối vứi các loại dữ liệu mà chúng ta dự định. Nguyên lý này đàm
bào răng vói mỗi loại dữ liệu (anil, video, văn bàn) chúng đều đưực tổ chức vói một
cách thức đặc trưng phù hợp với mỗi loại dữ liệu này Ị18].

U ser

Trà iòi
T n iy vn n

Co' c h ề liiể n thị


Co' c h ế t m y v ố n
M u ltim ed ia

______t
Tê|> d iỉs õ
Díí* liêu ánh

______

Tẻp chỉ s ó
Dii' liệu AikIìo
Díi'

_____ V4 ______
Tẻ|>
Tẻ|> chỉ
chỉ ssóó Dií'
Dií'
liệu Vi(leo
Video

III III
Hình 2.1: Mơ tà ngun lý lự trị


24

2.4.2


Nguyên lý đồng nhất

Một nguyôn lý kiến trúc khác mà chúng ta có thể lựa chọn là nguyên lý dồng nhất,
nguyên lý này giúp chúng ta lim dược một cấu trúc tóm tắt cluing cho tất cà các loại dữ
liệu. Cấu trúc này có thổ dược dùng trong việc chi số hỏa tất cà các loại dữ liệii qua dó
tạo ra một “chi số thống nhất" mà chúng ta có thẻ dùng để truy cập tới các dối tượng
khác nhau. Hay nói một cách khác là chúng ta có thể trinh bầy tất cà các đối tưựng
khác nhau( ành, video, âm thanh, văn bàn) trong một cấu trúc clữ liệu duy nhất va qua
dó phát triền các llniíit lốiì ilỏ Imy vấn cấn trúc dữ liỳu Iiíìyị I X|.
U ser

T miv vồn

C.O’ c liề t in y V.1 I1
M ultim erii.i

__________________________J ______________________________
T ệp ch ỉ s o tlio m j Iihầt

III III III
píí' liệu ành

Dii' liệu Atxlio

Díi' liệu Vkleo

lỉình 2.2: Mô tà nguyên lý dồng nhất


25


2.4.3

Nguyên lý lai ghép

V tirửng cùa nguycn lý này là dựa trên sự kết liọrp cùa 2 nguyên lý dã trình bầy ờ trên.
Kct quà cùa nguycn lý này là một kiểu dữ liệu nào đó sử dụng chỉ số (index) riêng của
chúng, (rong khi đó các kiểu dữ liệu khác sẽ sử dụng một chi số (Index) “thốụg nhất”.
> Loại dữ liệu nào sử dụng kiểu chi số nào sẽ phụ (lniộc vào các đặc tính khác nhau sẽ
dược nói đến ở phần sau[ 181.
User
Tià lỏ i
lề h iền thị

M ultim edia

--------- A—
Tệ|>chỉS©
phuxMig tié ii'I

———
______ ____________________________________________________________________
Tệ|>chi
T ệp chì so lliom j Iili.1 t

phil'oiHj tiẻn

m m

ĩ


III III III
pii' liéu .ình

Pii'liéti Aulio

Oij'liéu Vkleo

Hình 2.3: Mơ tà ngun lý 1(1i ghép

Cà ba loại nguyên lý trẽn đều có những ưu dicm và nlnrợc diểm riêng cùa mình. Kiến
trúc dựa trên nguyên lý tự trị địi hỏi việc tạo ra các thuật tốn và cấu trúc dữ liệu cùa
mỗi kiểu dữ liệu, ngoài ra nó cũng địi hỏi các kỹ thuật ho trợ cho việc liên kêt chéo
giữa các cấu trúc dữ liệu khác nhau này. Các cơng việc này địi hỏi tính pliirc tạp cao
và đòi hòi một lượng thời gian lớn cho việc phát triển. Bên cạnh các nhược tliêm trên,
việc xây dụng các cấu trúc dirực dặc biệt hóa tơi ưu cho việc truy xuất tiên từng loại dữ


×