Tải bản đầy đủ (.pdf) (104 trang)

MỘT số vấn đề về CHỈ mục, TRUY vấn VIDEO THEO nội DUNG TRONG cơ sở dữ LIỆU đa PHƯƠNG TIỆN

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.91 MB, 104 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

--o0o--

Phạm Thị Ngọc Trâm

MỘT SỐ VẤN ĐỀ VỀ CHỈ MỤC, TRUY VẤN VIDEO THEO
NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

LUẬN VĂN THẠC SĨ

Hà Nội - 2006


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

--o0o--

Phạm Thị Ngọc Trâm

MỘT SỐ VẤN ĐỀ VỀ CHỈ MỤC, TRUY VẤN VIDEO THEO
NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

Ngành: Công nghệ thông tin.
Mã số: 1.01.1

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC:


PGS-TS. ĐẶNG VĂN ĐỨC

Hà Nội - 2006


LỜI CẢM ƠN
Trước tiên tôi xin chân thành cảm ơn các thầy cô giáo trong trường
Đại học Công nghệ - ĐHQGHN, Viện Công nghệ thông tin - Viện khoa học
Việt Nam đã truyền đạt những kiến thức về công nghệ thơng tin trong suốt
khố học cao học.
Đặc biệt tơi xin chân thành cảm ơn PGS.TS Đặng Văn Đức đã tận
tình giảng dạy và hướng dẫn tôi trong thời gian thực hiện luận văn.
Cuối cùng để hoàn thành tốt luận văn, tơi xin chân thành cảm ơn gia
đình, cơ quan đã động viên và tạo điều kiện thuận lợi cùng toàn thể bạn bè
đã có những ý kiến đóng góp quý báu cho bài luận này.

Hà nội , ngày 4 tháng 12 năm 2006
Phạm Ngọc Trâm.


1

CÁC THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT

Từ viết tắt

Tiếng Anh

Tiếng Việt


CSDL

Cơ sở dữ liệu

HQTCSDL

Hệ quản trị cơ sở dữ liệu

MMDBMS

Multimedia Database Management
System

IR

Information Retrieval

MIRS

Multimedia Indexing & Retrieval
Systems

MPEG

Moving Picture Experts Group

FR

Forward reference


Tham chiếu trước

BR

Backward reference

Tham chiếu sau


MỤC LỤC
Các thuật ngữ và các từ viết tắt .................................................................................................................... 1
Danh mục các hình vẽ, đồ thị ........................................................................................................................... 2
Mở đầu ......................................................................................................................................................................................... 3
Chương 1: Tổng quan về cơ sở dữ liệu đa phương tiện
1. Nhu cầu cần có cơ sở dữ liệu đa phương tiện

................................................

6

.............................................................................

6

2. Các nhiệm vụ thiết kế và kiến trúc cơ sở dữ liệu đa phương tiện .......................... 9
2.1. Khái quát về MIRS .................................................................................................................................... 12
2.2. Kiến trúc của cơ sở dữ liệu đa phương tiện ..................................................................... 14
2.2.1. Kiến trúc tự trị (atonomy) ....................................................................................................... 16
2.2.2. Kiến trúc đồng nhất (uniformity) .................................................................................... 16
2.2.3. Kiến trúc lai (hybrid) ................................................................................................................... 18

3. Mô hình dữ liệu đa phương tiện ............................................................................................................... 18
3.1. Yêu cầu mơ hình dữ liệu ...................................................................................................................... 18
3.2. Mơ hình dữ liệu đa phương tiện tổng quát ....................................................................... 19
Chương 2: Một số vấn đề về chỉ mục, truy vấn video theo
nội dung trong CSDL đa phương tiện ............................................................. 23
1. Video số

............................................................................................................................................................................

23

1.1. Biểu diễn video số ....................................................................................................................................... 23
1.2. Nén video

............................................................................................................................................................

24

1.2.1. Lấy mẫu màu là nén ...................................................................................................................... 24
1.2.2. Ước lượng và bù chuyển động .......................................................................................... 25
1.2.3. MPEG (Moving Picture Experts Group) ............................................................... 25
2. Lập chỉ mục video ................................................................................................................................................... 35
2.1. Phân loại

...............................................................................................................................................................

35

2.2. Khái quát về chỉ mục và truy tìm video trên cơ sở shot ..................................... 37
2.3. Tách video shot hay phân đoạn .................................................................................................... 38

2.3.1. Kỹ thuật phân đoạn video cơ sở ....................................................................................... 38


2.3.2. Tách biên shot thay đổi dần dần ...................................................................................... 40
2.3.3. Tránh sai sót khi tách shot ...................................................................................................... 41
2.3.4. Thuật tốn phát hiện các chuyển đổi về shot dựa trên việc ước
lượng độ sáng và chuyển động tuyệt đối ............................................................... 43
2.3.5. Các kỹ thuật tách shot khác .................................................................................................. 51
2.3.6. Phân đoạn video nén .................................................................................................................... 51
2.3.7. Nhận xét ..................................................................................................................................................... 62
2.4. Chỉ mục và truy tìm video .................................................................................................................. 63
2.4.1. Chỉ mục và truy tìm trên cơ sở các frame r của shot video ................ 64
2.4.2. Chỉ mục và truy tìm video trên cơ sở thông tin chuyển động ......... 70
2.4.3. Chỉ mục và truy vấn video trên cơ sở đối tượng ............................................ 72
2.4.4. Chỉ mục và truy tìm video trên cơ sở metadata .............................................. 73
2.4.5. Chỉ mục và truy tìm video trên cơ sở mơ tả (annotation) .................... 74
2.4.6. Tiệm cận tích hợp chỉ mục và tìm kiếm video ................................................. 74
3. Đại diện và trừu tượng video

...................................................................................................................

75

3.1. Phân lớp theo chủ đề ................................................................................................................................ 76
3.2. Biểu tượng chuyển động hay biểu tượng video .......................................................... 77
3.3. Biểu ngữ (streamer) video .................................................................................................................. 79
3.4. Clipmap .................................................................................................................................................................. 79
3.5. Bộ duyệt video phân cấp ...................................................................................................................... 79
3.6. Storyboard


..........................................................................................................................................................

80

3.7. Mosaicking .......................................................................................................................................................... 81
Chương 3: Cài đặt thử nghiệm ................................................................................................................... 82
1. Giới thiệu về Oracle InterMedia .............................................................................................................. 82
1.1. Các kiểu đối tượng đa phương tiện .......................................................................................... 82
1.2. Lưu trữ dữ liệu đa phương tiện ..................................................................................................... 84
1.3. Nạp dữ liệu đa phương tiện ............................................................................................................... 86
1.4. Truy cập dữ liệu đa phương tiện .................................................................................................. 87
1.5. Kiến trúc Oracle InterMedia

..........................................................................................................

88


1.6. Khả năng mở rộng của Oracle InterMedia

..................................................................

91

2. Mô tả bài toán .............................................................................................................................................................. 92
2.1. Mục tiêu ................................................................................................................................................................. 92
2.2. Yêu cầu ................................................................................................................................................................... 92
2.3. Lựa chọn công cụ và môi trường phát triển .................................................................... 92
2.4. Cài đặt Oracle InterMedia .................................................................................................................. 92
2.5. Các thao tác với chương trình ........................................................................................................ 93

3. Nhận xét phần thử nghiệm ............................................................................................................................. 96
Kết luận .................................................................................................................................................................................... 97
Tài liệu tham khảo ..................................................................................................................................................... 99


3

MỞ ĐẦU
Những thay đổi của môi trường xã hội cùng với sự xuất hiện của nhiều
công nghệ mới dẫn đến việc ngày càng có nhiều phương thức trao đổi và thể
hiện thông tin. Trước đây, con người thường thể hiện thông tin qua các văn
bản bằng việc sử dụng các ký tự, số hoặc có thêm một số hình ảnh có ý nghĩa.
Nhưng ngày nay, thơng tin truyền tải ý nghĩa của nó có nhiều định dạng khác
nhau như âm thanh số, hình ảnh có hiệu ứng, hay các đoạn phim sống động…
Sự phong phú trong cách thể hiện các dạng truyền thông cho thấy các dạng dữ
liệu đa phương tiện là sự kết hợp của nhiều dạng dữ liệu khác nhau ngày càng
có vai trị quan trọng. Từ đó nhu cầu về quản lý, khai thác và xử lý các dữ liệu
đa phương tiện cũng được đặt ra. Và người ta cũng nhận thấy rằng cơ sở dữ
liệu truyền thống không thể quản lý một cách hiệu quả các kiểu dữ liệu này
được. Do đó cần phải có một hệ thống quản lý tất cả các loại dữ liệu media và
CSDL đa phương tiện được hình thành đó là hệ thống quản trị CSDL đa
phương tiện (MMDBMS- Multimedia Database Management System).
MMDBMS cần có khả năng hỗ trợ các kiểu dữ liệu đa phương tiện,
hơn nữa phải có khả năng thực hiện các chức năng thông thường của DBMS
truyền thống như tạo lập CSDL, mơ hình hóa dữ liệu, truy tìm, xâm nhập và
tổ chức dữ liệu và độc lập dữ liệu. Mặt khác, trong các CSDL truyền thống,
mối quan tâm hiệu suất chính là tính hiệu quả (có thể trả lời kết quả trong bao
lâu). Trong MMDBMS, hiệu quả truy tìm( khả năng tìm ra các mục liên quan
và khả năng loại bỏ các mục không liên quan ) cũng rất quan trọng.
Trong thời gian qua lĩnh vực MMDBMS phát triển vơ cùng nhanh

chóng.
Vào giữa những năm 90 của thế kỷ XX, xuất hiện các hệ thống
MMDBMS thương mại, được xây dựng từ đầu (bàn tay trắng). Thí dụ:


4

MediaDB (nay gọi là MediaWay), JASMIN và ITASCA. Chúng có khả năng
quản lý các loại dữ liệu khác nhau và có cơ chế truy tìm, chèn, cập nhật dữ
liệu. Một số trong chúng bị biến mất trên thị trường sau vài năm thương mại.
Một số trong chúng được nâng cấp theo tiến bộ của công nghệ phần cứng và
phần mềm và thay đổi ứng dụng. Thí dụ MediaWay có khả năng hỗ trợ rất
nhiều kiểu dữ liệu khác nhau từ ảnh, video đến các tài liệu PowerPoint.
Sau đó là sự xuất hiện các hệ thống thương mại với khả năng quản lý
nội dung đa phương tiện nhờ có khả năng hỗ trợ kiểu dữ liệu phức hợp cho
các kiểu media khác nhau. Tiệm cận hướng đối tượng cho khả năng định
nghĩa các kiểu dữ liệu và các thao tác mới phù hợp với các kiểu media mới
như video, ảnh và audio. Do vậy các MMDBMS thương mại được sử dụng
rộng rãi là trên cơ sở DBMS quan hệ-mở rộng (ORDBMS). Informix bán trên
thị trường ORDBMS từ 1996-1998. Các công việc tiếp theo là mở rộng dịch
vụ tìm kiếm (chủ yếu theo tiêu chí tương tự) video, audio và các cơng cụ trình
diễn, duyệt.
Hiện nay, các dự án phát triển chủ yếu tập trung vào các ứng dụng giàu
nội dung ngữ nghĩa. Phần lớn chúng được xây dựng trên các chuẩn MPEG
mới (MPEG-7 và MPEG-21).
Đã có nhiều đề tài nghiên cứu và phát triển các cách thức truyền thông
và thể hiện dữ liệu đa phương tiện, hoặc một số vấn đề về lưu trữ và truy xuất
dữ liệu đa phương tiện qua các hệ quản trị cơ sở dữ liệu sao cho có hiệu quả.
Xuất phát từ vấn đề trên mà đề tài “Một số vấn đề về chỉ mục truy vấn video
theo nội dung trong CSDL đa phương tiện” đã được lựa chọn. Nội dung

trình bày phần nghiên cứu được chia làm ba chương:


5

Chương 1: Tổng quan về CSDL đa phương tiện
Trong chương này trình bày khái qt về mơ hình cơ sở dữ liệu đa
phương tiện, các nhiệm vụ thiết kế và kiến trúc cơ sở dữ liệu đa phương tiện
và mô hình dữ liệu đa phương tiện.
Chương 2: Một số vấn đề về chỉ mục truy vấn video theo nội dung
trong CSDL đa phương tiện
Chương này trình bày chủ yếu về các vấn đề đối với video: khái niệm
về video số, nén video và các phương pháp và thuật toán về chỉ mục và truy
vấn video theo nội dung .
Chương 3: Xây dựng ứng dụng thử nghiệm
Cài đặt thử nghiệm một cơ sở dữ liệu đa phương tiện trên hệ quản trị
Oracle để kiểm tra khả năng hỗ trợ đa phương tiện của thành phần Oracle
InterMedia được tích hợp trong Oracle.
Phần kết luận tóm tắt các kết quả đạt được và đưa ra một số phương
hướng nghiên cứu để đánh giá được vai trò quan trọng của dữ liệu đa phương
tiện trong nhiều ứng dụng.


6

CHƢƠNG 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN
1. Nhu cầu cần có cơ sở dữ liệu đa phƣơng tiện (CSDLĐPT)[2]
Ngay từ ban đầu, máy tính đã được coi là các thiết bị xử lý biểu tượng
(symbolic)- các thiết bị có đầu vào là các biểu tượng theo luật alphabet và đầu
ra là tập các biểu tượng của cùng dạng trên. Điều này đã trở thành mô hình

cho các mơi trường tính tốn chuẩn dựa trên cơ sở máy Turing đã quen thuộc.
Tuy nhiên, trong những năm gần đây xuất hiện nhu cầu vô cùng lớn về
khả năng khai thác và xử lý dữ liệu với số lượng khổng lồ mà nó là điều
khơng dễ dàng diễn tả chỉ với việc sử dụng các kí tự. Dưới đây là một số thí
dụ về các kiểu dữ liệu như vậy:
-

Dữ liệu hình ảnh (Image data): Một học viên phẫu thuật mong

muốn thực hành một ca phẫu thuật trên một bệnh nhân ảo có những triệu
chứng sinh lý nào đó. Trên thực tế để tìm ra bệnh nhân với những triệu chứng
mong muốn, học viên phẫu thuật phải truy vấn cơ sở dữ liệu ảnh phân tán và
kích thước lớn chứa ảnh X quang hay MRI (Magnetic Resonance Imaging)
của các bệnh nhân với các triệu chứng tương tự. Đôi khi các triệu chứng có
thể dễ dàng mơ tả bằng văn bản. Tuy nhiên trong nhiều trường hợp khác, nó
có thể dễ dàng hơn cho học viên phẫu thuật nếu có thể trình diễn hình ảnh
của loại mẫu (pattern) mà anh ta đang tìm kiếm trong các ảnh X quang của
bệnh nhân. Trong cả hai trường hợp này , một CSDL hình ảnh phải được duy
trì. Nó có thể được truy vấn trên cơ sở các tiêu chí rất khác nhau- đầu vào là
văn bản hay ảnh phù hợp (matching).
-

Dữ liệu Video (Video data) : trong một ngữ cảnh tương tự, một

ai đó mong muốn có những bài giảng bằng băng hình về một chủ đề kỹ thuật
nào đó. Điều này địi hỏi phải truy vấn thư viện băng hình mà nó bao gồm
tập hợp vơ số các băng hình với nội dung kỹ thuật.


7


-

Dữ liệu âm thanh (Audio data) : Một sinh viên học về lịch sử

đang nghiên cứu về Ai Cập cổ đại mong muốn tiếp cận với một vài cuộc
phỏng vấn trước đây trên đài phát thanh của những người Ai Cập nổi tiếng
để có thể biết thêm chi tiết về những khám phá của họ về những nơi ở khác
nhau của người Ai Cập. Trong trường hợp này anh ta mong muốn tiếp cận với
những băng audio cũ có nội dung liên quan đến Ai Cập học.
-

Dữ liệu tài liệu (Document data): Một CSDL văn bản truyền

thống bao gồm các đoạn văn bản, các từ, câu, đoạn văn, chương…Một CSDL
tài liệu khác văn bản ở chỗ nó khơng chỉ chứa các thơng tin dạng văn bản thơ
mà nó cịn chứa đựng cả cấu trúc và hình ảnh nhúng. Ví dụ, dữ liệu tài liệu
được tạo ra, chèn vào và phục hồi nhờ sử dụng các ngôn ngữ đánh dấu chuẩn
như HTML hay SGML. Trong các trường hợp như vậy cấu trúc của tài liệu
có thể được khai thác dựa trên mục lục dữ liệu…..
-

Dữ liệu viết bằng tay(Handwritten data): Nhiều người trong

chúng ta thường ghi những ghi chú trên những mẩu giấy nhỏ, điều này thường
gây mất thông tin khi chúng ta giặt quần áo hay vì một lí do nào đó mà những
gì chúng ta ghi bị mờ đi. Một số ghi chú có thể khơng quan trọng, nhưng có
rất nhiều cái cần được giữ gìn. Xu thế gần đây cả trên thương trường hay
trong giới nghiên cứu người ta cho rằng ghi chép điện tử ngày càng phổ biến
hơn trong tương lai. Người sử dụng sẽ sử dụng các thiết bị điện tử để ghi

chép và lưu trữ. Mặc dù có rất nhiều ghi chú có thể chuyển sang dạng mã văn
bản ASCII bằng kỹ thuật phân tích viết tay, nhưng có rất nhiều ghi chú khơng
thể thực hiện được bởi vì các ghi chú thường chứa cả những nét loằng ngoằng
hay các biểu đồ khối.
Như vậy, thông tin đa phương tiện hay còn gọi là dữ liệu đa phương
tiện, thể hiện các thơng tin của máy tính qua các dạng truyền thông như video,


8

âm thanh, hoạt hoạ (animation), ảnh, alphanumerics hoặc có sự kết hợp giữa
các dạng truyền thông này.
Dựa trên các loại dữ liệu truyền thơng chúng ta có thể phân ra làm hai
dạng truyền thông tĩnh và động. Dữ liệu tĩnh có nội dung và ý nghĩa khơng
phụ thuộc vào thời gian thể hiện như ảnh, alphanumerics, đồ hoạ. Dữ liệu
động có nội dung và ý nghĩa phụ thuộc thời gian. Chẳng hạn như khi thực
hiện một đoạn video cần dịch chuyển khoảng 25 đến 30 frames/giây để làm
hình ảnh và âm thanh thay đổi. Các dạng dữ liệu động khác như âm thanh và
hoạt họa đều có mối quan hệ với thời gian.
Việc truyền đạt thông tin và ý nghĩa của thơng tin trong thực tế cũng có
rất nhiều phương thức khác nhau. Tuy nhiên, với dữ liệu đa phương tiện, các
thông tin truyền đạt ý nghĩa nhanh và dễ hiểu hơn. Do vậy mà ngày nay dữ
liệu đa phương tiện được sử dụng trong nhiều ứng dụng thực tế như nghệ
thuật, giáo dục, giải trí, kỹ thuật, y học, toán học, và cả trong các nghiên cứu
khoa học, v.v. Chính vì nhận thấy tầm quan trọng của dữ liệu đa phương tiện
nên xuất hiện nhu cầu cần thiết về vấn đề quản lý như:
 Khả năng lưu trữ dữ liệu do kích thước dữ liệu đa phương tiện lớn
hơn so với các dạng dữ liệu thông thường;
 Hỗ trợ truy vấn nhanh dữ liệu đa phương tiện do thời gian truyền tải
dữ liệu khi truy vấn không thể quá chậm vì tại mỗi thời điểm ý nghĩa của dữ

liệu đa phương tiện có thể thay đổi.
Hiện nay, có nhiều hệ quản trị cơ sở dữ liệu ( Database Management
Systems- DBMS) cho phép người dùng tạo và quản trị các loại cơ sở dữ liệu
(CSDL) khác nhau. Mỗi một CSDL là một tập hợp dữ liệu có quan hệ với
nhau. Khi làm việc với CSDL thì dữ liệu được xem như một tập các bản ghi.
Tuy nhiên, do dữ liệu đa phương tiện có có tính chất và u cầu đặc
biệt, khác xa với loại dữ liệu chữ và số. CSDL truyền thống không phù hợp


9

trong việc quản lý dữ liệu đa phương tiện. Hơn nữa các kỹ thuật truy tìm
thơng tin có thể giúp truy tìm các đối tượng đa phương tiện nhưng chúng chưa
có khả năng quản lý hiệu quả dữ liệu đa phương tiện vì vậy cần có
CSDLĐPT.
Hệ thống quản trị cơ sở dữ liệu đa phương tiện ( Multimedia Database
Management Systems- MMDBMS) là một khung làm việc để quản lý các
kiểu dữ liệu khác nhau mà chúng được thể hiện trong rất nhiều khuôn dạng
khác nhau. Để làm việc thành công thì một MMDBMS phải có các khả năng
sau:


Hỗ trợ các kiểu dữ liệu (Type=Structure+Operations) đa phương

tiện: các media khác nhau như đã đề cập ở trên và các thao tác thông thường
cũng như các thao tác đặc biệt mà kiểu dữ liệu thơng thường khơng có như
tiến, lùi, dừng...


Có khả năng quản lý số lượng lớn các đối tượng đa phương tiện:


đề cập đến không gian lưu trữ của CSDL.


Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả



Có các khả năng của hệ CSDL truyền thống



Có khả năng truy tìm thơng tin đa phương tiện.

Để xây dựng một CSDLĐPT hiệu quả thì nhiệm vụ thiết kế cơ sở dữ
liệu đa phương tiện phải đảm bảo những yêu cầu gì, mục 2 sẽ trình bày rõ
thêm.
2. Các nhiệm vụ thiết kế và kiến trúc cơ sở dữ liệu đa phƣơng
tiện[2,3]
Như đã biết, định nghĩa CSDL đa phương tiện rất khác nhau. Theo báo
cáo của dự án nghiên cứu EURESCOM thì CSDL đa phương tiện là một
CSDL có hiệu năng cao/sức chứa lớn với khả năng hỗ trợ các kiểu dữ liệu đa


10

phương tiện cũng như các kiểu dữ liệu chữ số cơ bản khác và nó có thể quản
lý một khối lượng rất lớn thông tin đa phương tiện.
Chúng ta đang đối mặt với sự bùng nổ thông tin đa phương tiện. Thí dụ
tồn tại một số lượng lớn ảnh và video trên Internet. Rất nhiều tranh vẽ, ảnh

chụp đang được chuyển sang dạng số để dễ xử lý và phân tán hay bảo quản.
Các bức ảnh từ bản tin TV và trên báo cũng đang được chuyển sang dạng số
để dễ dàng quản lý. Lượng lớn ảnh y tế, ảnh vệ tinh đang được thu thập hàng
ngày. Xu thế này đã thúc đẩy phát triển công nghệ số lưu trữ và trình diễn.
Khơng thể sử dụng nhanh và hiệu quả các thông tin đa phương tiện này nếu
chúng không được tổ chức tốt để có khả năng truy tìm nhanh.
Khơng chỉ khối lượng dữ liệu đa phương tiện lưu trữ tăng nhanh mà
các kiểu dữ liệu và đặc tính của chúng khác xa dữ liệu chữ và số. Sau đây là
một vài tính chất chính của dữ liệu đa phương tiện:


Khối lượng khổng lồ (đặc biệt với dữ liệu âm thanh và video).

Thí dụ 10 phút video khơng nén có dung lượng 1,5 GB.


Âm thanh và video có thêm chiều thời gian.



Dữ liệu ảnh, âm thanh và video được thể hiện bởi dãy các giá trị

mẫu, khơng có cấu trúc nhất định để máy tính tự động nhận biết.


Rất nhiều ứng dụng đa phương tiện địi hỏi trình diễn đồng thời

các loại media khác nhau. Thí dụ, phim bao gồm các ảnh đồng bộ với âm
thanh.



Ý nghĩa của dữ liệu đa phương tiện đôi khi rất mờ.



Dữ liệu đa phương tiện rất giàu thơng tin. Địi hỏi nhiều tham số

để biểu diễn nội dung của chúng.
Các hệ thống tự động truy tìm thơng tin (IR – Information Retrieval) đã
được phát triển để quản lý khối lượng lớn tài liệu cách đây vài chục năm.
Chức năng chính của hệ thống là lưu trữ và quản trị khối lượng văn bản lớn


11

theo cách sao cho dễ dàng truy vấn tài liệu liên quan với người sử dụng. Kỹ
thuật IR rất quan trọng trong hệ thống quản trị thông tin đa phương tiện vì hai
lý do chính sau. Thứ nhất, khối lượng văn bản rất lớn đang có sẵn trong các
cơ quan như thư viện. Văn bản là nguồn thông tin quan trọng của mọi tổ chức.
Để sử dụng hiệu quả thông tin trong các tài liệu này cần có hệ thống IR hiệu
quả. Thứ hai, văn bản còn được sử dụng để mô tả các loại media khác như âm
thanh, ảnh và video. Các kỹ thuật IR quen thuộc có thể được sử dụng để truy
tìm thơng tin đa phương tiện. Tuy nhiên việc sử dụng IR để quản lý dữ liệu đa
phương tiện có các hạn chế sau:
 Mơ tả thường là tiến trình thủ cơng và tốn kém thời gian.
 Mô tả bằng văn bản không đầy đủ và chủ quan.
 Kỹ thuật IR không áp dụng được cho truy vấn các loại dữ liệu
khác văn bản.
 Một vài đặc trưng như kết cấu ảnh (image texture) và hình dạng
ảnh rất khó mơ tả bằng văn bản.

DBMS và IR đề cập trên đây không đáp ứng đầy đủ yêu cầu truy tìm và
chỉ số hóa đa phương tiện, do vậy, đòi hỏi kỹ thuật mới để quản lý các tính
chất đặc biệt của dữ liệu đa phương tiện. Tuy nhiên ta nhận ra rằng DBMS và
IR có thể đóng vai trò quan trọng trong MMDBMS.
Nhiều phần dữ liệu đa phương tiện như ngày tạo lập, tác giả, v.v.. là có
cấu trúc. Chúng có thể được quản lý bằng các kỹ thuật DBMS. Mơ tả
(annotation) bằng văn bản vẫn cịn là phương pháp hiệu quả để thu thập nội
dung dữ liệu đa phương tiện, do vậy các kỹ thuật IR vẫn đóng vai trị quan
trọng.
Do đó một kỹ thuật mới dựa trên kết hợp các kỹ thuật DBMS, IR và
truy vấn trên cơ sở nội dung để tạo thành Hệ thống chỉ mục và truy tìm thơng
tin đa phương tiện (MIRS – Multimedia Indexing & Retrieval System) , một


12

MIRS đầy đủ được gọi là Hệ quản trị CSDL đa phương tiện (MMDBMS –
Multimedia Database Management System).
2.1 Khái quát về MIRS
Hoạt động của hệ thống MIRS được mô tả trên hình 1.1. Dữ liệu (các
mục thơng tin) trong CSDL được tiền xử lý để trích chọn đặc trưng và nội
dung ngữ nghĩa. Sau đó chúng được chỉ số hóa trên cơ sở đặc trưng và ngữ
nghĩa.
Trong khi truy tìm thông tin, câu truy vấn của người sử dụng được xử
lý và các đặc trưng chính của nó được trích chọn. Các đặc trưng này sau đó
được so sánh với các đặc trưng hay chỉ mục của mỗi mục thông tin trong
CSDL. Các mục thơng tin nào có đặc trưng gần giống nhất với các đặc trưng
của câu truy vấn thì được tìm ra và trình diễn cho người sử dụng.
Mẫu truy vấn có thể mơ tả như sau:
Chỉ mục:

Ảnh (I) --> véctơ đặc trưng f(I): (f1, f2,... fk)
Truy vấn:
Véctơ truy vấn q:

(q1, q2,... qk)

Tính tƣơng tự:
Đo khoảng cách:

d(f,q)

Kết quả:
Ảnh (I) có giá trị d(f(I),q) nhỏ nhất.


13

Truy vấn

Các mục thơng
tin

Xử lí và trích chọn đặc
trưng
Các đặc trưng
truy vấn

Tiền xử lí và trích chọn
Chỉ số hố


Tính tốn sự tương
tụ

Trả về những mục
thơng tin gần nhất

Hình 1.1: Hoạt động của hệ thống MIRS

Mơ hình trên hình 1.1 cho thấy rất nhiều nhiệm vụ phải thực hiện, thí
dụ:
 Các mục thơng tin có thể là tổ hợp bất kỳ các loại media.
 Trích chọn đặc trưng từ các mục media này như thế nào?
 Các đặc trưng được lưu trữ và cấu trúc như thế nào để truy tìm
hiệu quả?
 Đo tính “tương tự” giữa hai mục media như thế nào?
 Thiết kế giao diện như thế nào để nó có thể chấp nhận các câu
truy vấn phức tạp, mờ và mềm dẻo?
 So sánh hiệu năng giữa các hệ thống MIRS bằng cách nào?
 Làm thế nào để đáp ứng yêu cầu thời gian khi truyền tải hay trình
diễn dữ liệu MM?
Như vậy để giải quyết tốt các nhiệm vụ trên cần phải tổ chức nội
dung của các kiểu dữ liệu đa phương tiện như thế nào sao cho có hiệu quả.


14

2.2 Kiến trúc của cơ sở dữ liệu đa phƣơng tiện
Kiến trúc tổng quát của hệ thống
Kiến trúc MIRS cần mềm dẻo và dễ mở rộng để hỗ trợ các ứng dụng,
truy vấn và nội dung (đặc trưng) khác nhau. Để đạt yêu cầu này MIRS bao

gồm nhiều môđun chức năng và quản lý khác nhau. Bộ quản lý mới được dễ
dàng bổ sung để mở rộng chức năng của MIRS. Bộ quản lý hiện hành có thể
được hủy bỏ hay thay thế cái mới để cập nhật chức năng.
Cơ chế khác của MIRS là khả năng phân tán tự nhiên, nó bao gồm
nhiều server và client. Cơ chế này hình thành từ kích thước dữ liệu đa phương
tiện rất lớn và nhu cầu ứng dụng đồng thời của nhiều người như hệ thống thư
viện số và hệ thống video theo yêu cầu.
Hình 1.2 chỉ ra kiến trúc cơ sở tổng thể của MIRS. Các khối chức năng
chính bao gồm UI, bộ trích chọn đặc trưng, quản lý truyền thơng, chỉ số hóa
và mơtơ tìm kiếm. Các chức năng chính sẽ được mô tả thông qua các kịch bản
vận hành của MIRS. Hai thao tác chính của MIRS là:
Chèn mục đa phƣơng tiện mới: Người sử dụng đặc tả một hay một
nhóm mục dữ liệu đa phương tiện thơng qua UI. Các mục được lưu trong tệp
hay nhập trực tiếp từ thiết bị ngoài như microphone, CD player, VCR hay
video camera. Người sử dụng cũng có thể tự vẽ hình làm dữ liệu đầu vào. Nội
dung của chúng được trích trọn tự động hay bán tự động bằng các công cụ của
bộ trích chọn đặc trưng. Các đặc trưng này và các mục gốc được gửi về máy
chủ thông qua bộ quản lý truyền tin. Tại máy chủ, các đặc trưng được tổ chức
(chèn) theo lược đồ chỉ số hóa nào đó để truy vấn hiệu quả thơng qua mơ tơ
truy vấn và chỉ số hóa. Các thơng tin chỉ số và các mục gốc được lưu trữ phù
hợp thông qua bộ quản lý lưu trữ.
Truy vấn thông tin: Người sử dụng đưa ra hay đặc tả truy vấn thống


15

qua UI. Truy vấn có thể là tệp lưu trữ trên đĩa hay nhập từ thiết bị vào (bàn
phím, chuột). Có thể duyệt các mục trong CSDL để sử dụng nó làm mục truy
vấn. Nếu mục truy vấn khơng phải là cái đã có sẵn trong CSDL, các đặc trưng
chính của truy vấn được trích chọn theo cách như khi thực hiện chèn mục dữ

liệu. Các đặc trưng này được gửi đến máy chủ thông qua bộ quản lý truyền
tin. Mơtơ chỉ số hóa và tìm kiếm tìm trong CSDL để có các mục dữ liệu phù
hợp với các đặc trưng truy vấn. Các mục này được truy vấn nhờ bộ quản lý
lưu trữ và gửi đến UI thông qua bộ quản lý truyền tin. UI hiển thị danh sách
các mục dữ liệu tới người sử dụng.

Bộ trích chọn
đặc trưng

Giao diện
Người sử
dụng

Quản lý
truyền tin

Quản lý
truyền tin

Quản lý
lưu trữ

Chỉ số hóa và
mơtơ tìm kiếm

Hình 1.2: Kiến trúc cơ sở tổng thể

Hình 1.2 là kiến trúc cơ sở tổng thể. Có thể bổ sung các blốc chức năng
hay bộ quản lý để đáp ứng yêu cầu từng ứng dụng cụ thể. Chúng có thể là:



Bộ quản lý từ điển đồng nghĩa: Đảm bảo đồng bộ và các quan hệ

khác giữa các mục thơng tin


Cơ sở luật tồn vẹn: Kiểm tra tính tồn vẹn của ứng dụng



Quản lý ngữ cảnh: Đảm bảo ngữ cảnh ứng dụng


16

Các loại kiến trúc CSDLĐPT
Dữ liệu đa phương tiện có rất nhiều loại từ văn bản, hình ảnh, âm thanh
đến những đoạn video có kích thước rất lớn. Do đó chúng ta cần tổ chức thích
hợp để khai thác một cách hiệu quả. Hệ thống CSDL đa phương tiện thường
được tổ chức theo 1 trong 3 kiến trúc sau: tự trị, đồng nhất và lai.
2.2.1 Kiến trúc tự trị (atonomy)
Trong kiến trúc này mỗi loại dữ liệu được nhóm thành một nhóm và
được lưu trữ theo cách riêng của từng nhóm (hình 1.3). Với loại kiến trúc này
sự tương tác giữa các loại dữ liệu là công việc phức tạp và địi hỏi nhiều cơng
sức lập trình. Tuy nhiên việc tạo ra cấu trúc riêng biệt cho mỗi loại dữ liệu đa
phương tiện sẽ có hiệu quả nhất về mặt thời gian cho việc xử lý các truy vấn.
Hơn nữa trong trường hợp cần sự kế thừa dữ liệu thì autonomy là kiến trúc
thích hợp nhất. Autonomy cũng thích hợp cho các công nghệ hướng đối tượng
với việc xem xét mỗi nguồn dữ liệu đa phương tiện như một đối tượng với
các phương thức của nó có thể truy cập đến CSDL đa phương tiện tổng thể.

2.2.2 Kiến trúc đồng nhất (uniformity)
Với kiến trúc dạng này thay vì việc phân chia các loại dữ liệu thành các
nhóm riêng biệt chúng ta cố gắng tìm một cấu trúc trừu tượng để có thế sử
dụng làm chỉ mục chung cho tồn bộ các kiểu dữ liệu gọi là unified index
(hình 1.4). Chúng ta có thể thể hiện nội dung của tất cả các đối tượng dữ liệu
khác nhau (văn bản, hình ảnh, âm thanh, video…) trong cùng một cấu trúc dữ
liệu và sau đó xây dựng các giải thuật truy vấn trên cấu trúc dữ liệu đó. Kiến
trúc này địi hỏi việc kiểm tra nội dung của mỗi kiểu dữ liệu và trừu tượng
hóa các phần chung sau đó xây dựng chỉ mục dựa trên các thành phần đã
được nhận dạng. Với kiến trúc này việc tương tác giữa các loại dữ liệu là rất
thuận tiện vì chúng có cùng cấu trúc dữ liệu. Tuy nhiên kiến trúc này đòi hỏi


17

giai đoạn trừu tượng hóa dữ liệu mất rất nhiều thời gian và có thể phải làm thủ
cơng hoặc bán tự động bởi nếu làm tự động có thể gây mất hoặc thiếu thông
tin.
Người
dùng

Truy vấn

trả lời

Multimedia Query Engine
(máy truy vấn)

Document Index
(chỉ mục tài liệu)


Image Index
(chỉ mục ảnh)

Audio Index
(chỉ mục audio)

Video Index
(chỉ mục video)

Hình 1.3 Kiến trúc tự trị

người
dùng

Truy vấn

trả lời

Multimedia Query Engine
(máy truy vấn)

Unified Index (chỉ mục đồng nhất)

Tài liệu

ảnh

Âm thanh


Hình 1.4 Kiến trúc đồng nhất

Video


18

2.2.3 Kiến trúc lai (hybrid)
Kiến trúc này là sự kết hợp của 2 kiến trúc trên (hình 1.5). Một số kiểu
dữ liệu sử dụng chỉ mục của riêng nó, một số khác sử dụng theo kiến trúc
đồng nhất tùy thuộc vào đặc điểm cũng như yêu cầu ứng dụng. Kiến trúc này
tận dụng được ưu điểm của cả hai loại kiến trúc trên và hạn chế những nhược
điểm của chúng.
Truy vấn

người
dùng
trả lời

Multimedia Query Engine
(máy truy vấn)

Unified Index (chỉ mục đồng nhất)

Media Index
(chỉ mục riêng)

Tài liệu

Ảnh


Âm thanh

Video

Hình 1.5 Kiến trúc lai

3. Mơ hình dữ liệu đa phƣơng tiện[3,5]
3.1 u cầu mơ hình dữ liệu
Vai trị của mơ hình dữ liệu trong DBMS là cung cấp khung làm việc
(hay ngôn ngữ) để biểu diễn thuộc tính các mục dữ liệu mà nó sẽ được lưu trữ
và truy vấn nhờ hệ thống. Khung làm việc phải cho phép người sử dụng và
người thiết kế định nghĩa, chèn, hủy, sửa đổi và tìm kiếm mục dữ liệu và
thuộc tính. Trong CSDLĐPT mơ hình dữ liệu được bổ sung các vai trị đặc tả
và tính toán ở mức trừu tượng khác.


19

Mơ hình dữ liệu đa phương tiện thu thập (capture) thuộc tính tĩnh và
thuộc tính động của các mục dữ liệu, cung cấp cơ sở hình thức để phát triển
các công cụ phù hợp, cần thiết khi sử dụng dữ liệu đa phương tiện. Đặc tính
tĩnh bao gồm các đối tượng hình thành nên dữ liệu đa phương tiện, quan hệ
giữa các đối tượng và các thuộc tính đối tượng. Thí dụ các đặc tính động bao
gồm các đặc tính liên quan đến tương tác giữa các đối tượng, các thao tác trên
đối tượng, tương tác với người sử dụng...
Mô hình dữ liệu phong phú đóng vai trị quan trọng vào tính ứng dụng
được của CSDLĐPT. Các kiểu dữ liệu đa phương tiện cơ bản được hỗ trợ để
cung cấp nền tảng hình thành các đặc trưng bổ sung.
Khơng gian đặc trưng đa chiều là đặc tính của chỉ số hóa đa phương

tiện. Mơ hình dữ liệu cần hỗ trợ trình diễn khơng gian đa chiều này, đặc biệt
thước đo khoảng cách trong nó.
Tóm lại, mơ hình CSDLĐPT cần đáp ứng các u cầu chính sau đây:


Mơ hình dữ liệu có thể mở rộng sao cho có thể bổ sung kiểu dữ

liệu mới.


Mơ hình dữ liệu có khả năng trình diễn kiểu dữ liệu cơ sở và các

đối tượng tổ hợp với các quan hệ không gian và thời gian phức tạp.


Mơ hình dữ liệu mềm dẻo sao cho các mục dữ liệu có thể được

đặc tả, truy vấn và tìm kiếm trên các mức trừu tượng khác nhau.


Mơ hình dữ liệu cho phép lưu trữ và tìm kiếm hiệu quả.

3.2 Mơ hình dữ liệu đa phƣơng tiện tổng qt
Mơ hình CSDLĐPT này hình thành trên nền tảng nguyên tắc hướng đối
tượng và phân cấp đa tầng (hình 1.6).


20

Thời gian


Khơng gian

Văn bản

Thơ

Đa mức
xám

Ảnh

Đồ họa

Tầng đối
tượng

Tổng hợp

Âm thanh

Video

Nén

Màu

Tầng kiểu
media


Tầng
khn
mẫu
media
JPEG

JPIG

DPCM

Hình 1.6: Mơ hình dữ liệu đa phương tiện tổng qt

Tầng đối tƣợng
Đối tượng bao gồm một hay nhiều mục media với các quan hệ không
gian và thời gian xác định. Thí dụ một đối tượng đa phương tiện là một trang
slide bao gồm vài ảnh và audio kèm theo.
Nhiệm vụ mấu chốt là bằng cách nào để chỉ ra các quan hệ không gian
và thời gian. Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ
hiển thị của mỗi mục. Phương pháp chung đặc tả thời gian là đặc tả trên cơ sở
trục thời gian trong đó thời gian bắt đầu và độ dài mỗi mục được xác định trên
cơ sở đồng hồ chung. Phương pháp khác là mơ hình điều khiển theo sự kiện.
Tầng loại media
Tầng này bao gồm các loại media chung như văn bản, đồ họa, ảnh,
audio và video. Các loại này được suy diễn từ lớp media trừu tượng chung.
Tại mức này, các đặc trưng và thuộc tính được đặc tả. Thí dụ loại media ảnh:
kích thước, biểu đồ màu, các đối tượng chính nó chứa... được đặc tả. Các đặc
trưng này được sử dụng trực tiếp vào tìm kiếm và tính tốn khoảng cách.



×