Tải bản đầy đủ (.pdf) (21 trang)

Một số kỹ thuật chỉ mục và tìm kiếm đối tượng trong video số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (380.71 KB, 21 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
---------- *** ----------

NGUYỄN THANH BÌNH

MỘT SỐ KỸ THUẬT CHỈ MỤC
VÀ TÌM KIẾM ĐỐI TƢỢNG TRONG VIDEO SỐ

Ngành:
Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số:
60 48 05

LUẬN VĂN THẠC SỸ

NGƢỜI HƢỚNG DẪN KHOA HỌC
PGS TS. Đặng Văn Đức

Hà Nội - 2008


MỤC LỤC
LỜI CAM ĐOAN ................................................................ Error! Bookmark not defined.
LỜI CẢM ƠN ...................................................................... Error! Bookmark not defined.
MỤC LỤC ............................................................................................................................. 2
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT......................................................... 4
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ................................................................................ 5
MỞ ĐẦU ............................................................................................................................... 7
CHƢƠNG 1 - TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN ........................ 9


1.1 NHU CẦU CẦN CÓ HỆ THỐNG QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN [1]
............................................................................................................................................ 9
1.2 SỰ CẦN THIẾT PHẢI CÓ HỆ THỐNG CHỈ MỤC VÀ TRUY TÌM THÔNG TIN ĐA
PHƢƠNG TIỆN (MIRS) [1], [2], [6] .............................................................................. 12
1.2.1 Một vài tính chất chính của dữ liệu đa phƣơng tiện ........................................... 12
1.2.2 Hệ thống quản trị cơ sở dữ liệu và vai trò của chúng trong quản lý dữ liệu đa phƣơng
tiện (MM) ..................................................................................................................... 12
1.2.3 Hệ thống truy tìm thông tin (IR) và vai trò của chúng trong truy tìm đa phƣơng tiện
...................................................................................................................................... 13
1.3 KHÁI QUÁT VỀ MIRS ........................................................................................... 14
1.4 KHẢ NĂNG MONG ĐỢI VÀ CÁC ỨNG DỤNG CỦA MIRS .............................. 15
1.5 CÁC LĨNH VỰC LIÊN QUAN ĐẾN ĐA PHƢƠNG TIỆN .................................... 16
1.6 CÁC NHIỆM VỤ THIẾT KẾ CỦA HỆ THỐNG CSDL ĐA PHƢƠNG TIỆN ....... 16
1.6.1 Khái quát về nhiệm vụ CSDL đa phƣơng tiện .................................................... 17
1.6.2 Kiến trúc MIRS ................................................................................................... 18
1.6.3 Mô hình dữ liệu ................................................... Error! Bookmark not defined.
1.6.4 Thiết kế giao diện ngƣời sử dụng ....................... Error! Bookmark not defined.
1.6.5 Trích chọn đặc trƣng, chỉ mục và đo tƣơng tự .... Error! Bookmark not defined.
1.6.6 Đảm bảo chất lƣợng dịch vụ (QoS) trong client, server và hệ thống truyền tinError!
Bookmark not defined.
1.6.7 Lƣu trữ dữ liệu .................................................... Error! Bookmark not defined.
1.6.8 Các nhiệm vụ khác .............................................. Error! Bookmark not defined.
CHƢƠNG 2 - MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM ĐỐI TƢỢNG TRONG
VIDEO SỐ ........................................................................... Error! Bookmark not defined.
2.1 VIDEO SỐ [2], [6] ..................................................... Error! Bookmark not defined.
2.1.1 Biểu diễn video số ............................................... Error! Bookmark not defined.
2.1.2 Nén video ............................................................ Error! Bookmark not defined.


2.2 CHỈ MỤC VÀ TRUY TÌM VIDEO [1], [2], [4], [5], [8]Error! Bookmark not defined.

2.2.1 Giới thiệu ............................................................ Error! Bookmark not defined.
2.2.2 Khái quát về chỉ mục và truy tìm video trên cơ sở shotError! Bookmark not defined.
2.2.3 Tách video shot hay phân đoạn ........................... Error! Bookmark not defined.
2.2.4 Chỉ mục và truy tìm video .................................. Error! Bookmark not defined.
2.2.5 Đại diện và trừu tƣợng video hiệu quả................ Error! Bookmark not defined.
CHƢƠNG 3 - XÂY DỰNG ỨNG DỤNG TÌM KIẾM VIDEOError! Bookmark not defined.
3.1 GIỚI THIỆU TỔNG QUAN VỀ ORACLE INTERMEDIA [7]Error! Bookmark not
defined.
3.1.1 Công nghệ quan hệ hƣớng đối tƣợng .................. Error! Bookmark not defined.
3.1.2 Quản lý nội dung đa phƣơng tiện ........................ Error! Bookmark not defined.
3.1.3 Những khái niệm về Audio ................................. Error! Bookmark not defined.
3.1.4 Khái niệm về dữ liệu đa phƣơng tiện kết hợp hoặc ORDDocError! Bookmark not
defined.
3.1.5 Những khái niệm về ảnh ..................................... Error! Bookmark not defined.
3.1.6 Khái niệm về Video ............................................ Error! Bookmark not defined.
3.1.7 Lƣu trữ đa phƣơng tiện ....................................... Error! Bookmark not defined.
3.1.8 Nạp dữ liệu đa phƣơng tiện ................................. Error! Bookmark not defined.
3.1.9 Truy cập dữ liệu đa phƣơng tiện ......................... Error! Bookmark not defined.
3.1.10 Phân phối nội dung dữ liệu đa phƣơng tiện ...... Error! Bookmark not defined.
3.1.11 Kiến trúc Oracle interMedia ............................. Error! Bookmark not defined.
3.2 XÂY DỰNG ỨNG DỤNG CẬP NHẬT, TÌM KIẾM VÀ PHÁT LẠI CÁC ĐOẠN
VIDEO ............................................................................. Error! Bookmark not defined.
3.2.1 Yêu cầu bài toán.................................................. Error! Bookmark not defined.
3.2.2 Xác định các tiêu chí cho một đoạn Video cần lƣu trữError! Bookmark not defined.
3.2.3 Thiết kế CSDL .................................................... Error! Bookmark not defined.
3.2.4 Lựa chọn công nghệ và môi trƣờng phát triển ứng dụng ... Error! Bookmark not
defined.
3.2.5 Kết quả cài đặt thƣ̉ nghiê ̣m ................................. Error! Bookmark not defined.
KẾT LUẬN .......................................................................... Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO .................................................. Error! Bookmark not defined.



DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

STT Từ viết tắt

Tiếng Anh

Tiếng Việt

1.

BLOB

Binary Large Object

2.

CLOB

Character Large Object

3.

CNTT

Công nghệ thông tin

4.


CSDL

Cơ sở dữ liệu

5.

DBMS

Database Management System

6.

MMDBMS

Multimedia Database
Management System

Hệ thống quản trị cơ sở
dữ liệu
Hệ thống quản trị cơ sở
dữ liệu đa phƣơng tiện

7.

IR

Information Retrieval

Truy tìm thông tin


8.

MIRS

Hệ thống chỉ mục và truy
Multimedia Indexing & Retrieval
tìm thông tin đa phƣơng
System
tiện

9.

MPEG

Moving Picture Experts Group

10.

OODBMS

Object-Oriented Database
Management System

Hệ thống quản trị cơ sở
dữ liệu hƣớng đố i tƣơ ̣ng

11.

QoS


Quality of Service

Chấ t lƣơ ̣ng dich
̣ vu ̣

12.

RDBMS

Relational Database Management Hệ thống quản trị cơ sở
System
dữ liệu quan hệ

13.

UI

User Interface

Giao diện ngƣời dùng


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

Trang

1.

Hình 1.1: Hoạt động của hệ thống MIRS


13

2.

Hình 1.2: Kiến trúc tự trị

17

3.

Hình 1.3: Kiến trúc đồng nhất

18

4.

Hình 1.4: Kiến trúc lai

19

5.

Hình 1.5: Kiến trúc cơ sở tổng thể của MIRS

20

6.

Hình 1.6: Mô hình dữ liệu đa phƣơng tiện tổng quát


22

7.

Hình 1.7: Mô hình video tổng quát

23

8.

Hình 1.8: Mô hình lƣu trữ tách biệt đặc trƣng với cơ sở dữ liệu

30

9.

Hình 1.9: Mô hình thời gian thực

30

10. Hình 2.1: Mô hình màu RGB

35

11. Hình 2.2: Mô hình màu YUV

36

12. Hình 2.3: Biểu diễn dòng ảnh dƣới dạng sóng


39

13. Hình 2.4: Mô tả sóng vuông

39

14. Hình 2.5: Chuyển đổi giữa miền thời gian và miền tần số

39

15. Hình 2.6: Tính khoảng cách giữa các frame

51

16. Hình 2.7: Ví dụ chuyển cảnh từ từ

52

17. Hình 2.8: Cộng dồn khoảng cách

53

18. Hình 2.9: Cửa sổ ảnh

53

19. Hình 2.10: Các chuyển động của camera

54


20. Hình 2.11: Các trƣờng vectơ chuyển động

54

21. Hình 2.12: Minh họa về phân lớp video theo chủ đề

65

22. Hình 2.13: Minh họa biểu tƣợng chuyển động

66

23. Hình 2.14: Minh họa duyệt video theo phân cấp

68

24. Hình 3.1: Kiến trúc Oracle Intermedia

86



MỞ ĐẦU
CNTT ngày càng phát triể n với sƣ̣ ra đời của nhiề u công nghê ̣ , sản phẩm và
giải pháp, đă ̣c biê ̣t sƣ̣ ra đời của Internet đã ta ̣o ra mô ̣t cuô ̣c cách ma ̣ng thƣ̣c sƣ̣ to
lớn của loài ngƣời . Con ngƣời có thể trao đổ i , tìm kiếm thông tin một cách nhanh
chóng, khoảng cách địa lý không còn là rào cản trong giao tiế p của con ngƣời . Các
phƣơng thức trao đổi và thể hiện thông tin ngày càng phong phú . Dƣ̃ liê ̣u hiê ̣n có
không chỉ đơn thuầ n là các văn bản đƣợc lƣu trữ nhƣ vài chục năm trƣớc đây , mà
đã tồ n ta ̣i mô ̣t số lƣơ ̣ng khổ ng lồ các dƣ̃ liê ̣u đa phƣơng tiê ̣n gồ m có ảnh , âm thanh

và video. Dƣ̃ liê ̣u này ngày càng tăng nhanh đã dẫn đế n một nhu cầu có thực là cần
có các công cụ hữu hiệu để lƣu trữ, truy vấn và trình diễn.
Chính vì vậy, nghiên cứu của những năm gần đây tập trung chủ yếu vào lƣu
trữ và tìm kiếm hiệu quả dữ liệu đa phƣơng tiện. Tình hình tƣơng tự nhƣ vài chục
năm trƣớc đây với sƣ̣ ra đời của các hệ thống quản trị cơ sở dƣ̃ liê ̣u (DBMS) để
quản lý các dữ liệu text . Tuy nhiên DBMS không thể quản lý dữ liệu đa phƣơng
tiện một cách hiệu quả bởi vì các tính chất dữ liệu văn bản và dữ liệu đa phƣơng
tiện là khác nhau. Do vậy, dẫn tới việc nghiên cứu phát triển các kỹ thuật truy tìm
và chỉ mục mới trong hệ thống quản trị CSDL. Sự ra đời của “Hệ thống quản trị cơ
sở dữ liệu đa phƣơng tiện “ là một tất yếu.
Là một trong những vấn đề đƣợc quan tâm nghiên cứu , các hệ thố ng truy
vấn video số đã đƣơ ̣c phát triể n nhằ m đáp ƣ́ng nhu cầ u đố i với dƣ̃ liê ̣u đa phƣơng
tiê ̣n của ngƣời dùng . Các hệ thống này đã trải qua các giai đoạn phát triển chính
nhƣ sau [3]:
- Giai đoạn truy vấn video dựa vào từ khóa, việc truy vấn dựa vào từ khóa và
chú thích thủ công cho đoạn video. Kết quả truy vấn dựa vào việc so khớp từ khóa
truy vấn và từ khóa chú thích hoặc áp dụng các thành tựu trong lĩnh vực truy vấn
thông tin (Information Retrieval). Hiện nay các hệ thống truy vấn video đƣợc dùng
rộng rãi trong thƣơng mại vẫn đang sử dụng cách thức truy vấn này (ví dụ nhƣ các
hệ thống tìm kiếm của Google, Yahoo,…).


- Giai đoạn truy vấn video dựa vào nội dung, việc truy vấn đƣợc thực hiện
dựa vào nội dung, dựa vào việc phân đoạn video thành các đoạn cơ sở, mỗi đoạn
cơ sở đƣợc biểu diễn bởi một số khung hình chính. Truy vấn dựa vào đặc trƣng thị
giác toàn cục của đoạn cơ sở hoặc khung hình chính nhƣ các đặc trƣng về màu sắc,
vân, chuyển động. Cùng trong giai đoạn này là thời kỳ của các hệ thống truy vấn
dựa vào đối tƣợng. Các đối tƣợng này đƣợc gọi là các đối tƣợng không gian - thời
gian. Kết quả truy vấn phù hợp hơn về ngữ nghĩa đối với yêu cầu truy vấn.
- Giai đoạn truy vấn video ở mức ngữ nghĩa. Các mô hình đƣợc dùng ở giai

đoạn này là mô hình dịch máy, máy học, chú thích video tự động, phả hệ tri thức
thị giác. Khi truy vấn, hệ thống tiến hành đối sánh các khái niệm thị giác mà ngƣời
dùng mô tả với các khái niệm thị giác đƣợc liên kết với dữ liệu video nhằm xác
định kết quả truy vấn. Cách truy vấn này có thể áp dụng cho cơ sở dữ liệu video
tổng quát. Độ chính xác của kết quả truy vấn không cao, vì vậy nó đƣợc dùng nhƣ
bƣớc tiền lọc, và thƣờng kèm theo kỹ thuật phản hồi từ ngƣời dùng.
Mặc dù đã có nhiều kết quả đạt đƣợc trong lĩnh vực này, nhƣng một số vấn
đề thách thức vẫn còn tồn đọng. Chƣa có hệ thống truy vấn nào đƣợc phổ biến và
đƣợc công nhận rộng rãi trong cộng đồng.
Xuất phát từ cơ sở khoa học, tính thực tiễn và khả năng áp dụng thực tế tại
nơi công tác, tác giả luận văn đã lựa chọn đề tài “Một số kỹ thuật chỉ mục và tìm
kiếm đối tƣợng trong video số”. Bố cục của luận văn gồm 3 chƣơng, đƣợc trình
bày nhƣ sau:
Chƣơng I: Trình bày tổng quan về cơ sở dữ liệu đa phƣơng tiện.
Chƣơng II: Trình bày một số kỹ thuật chỉ mục và tìm kiếm đối tƣợng trong
video số.
Chƣơng III: Mô tả và xây dựng một ứng dụng tìm kiếm video.


CHƢƠNG 1 - TỔNG QUAN
VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN

1.1 NHU CẦU CẦN CÓ HỆ THỐNG QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA
PHƢƠNG TIỆN [1]
Trải qua nhiều năm chúng ta đã thu thập đƣợc một khối lƣợng lớn dữ liệu đa
phƣơng tiện và tổ chức lƣu trữ chúng dƣới dạng số, ví dụ nhƣ ảnh X quang, tranh
số hóa, các băng hình dạy học, điều tra cảnh sát về giọng nói trong điện thoại, tài
liệu văn bản,…Ngày nay, khi Công nghê ̣ thông tin phát triể n ma ̣nh mẽ và đƣợc
ứng dụng vào các lĩnh vực của đời sống xã hội, đã xuất hiện ngày càng nhiều tranh
ảnh, video, audio, tài liệu… đƣợc số hoá, lƣu trữ và trình diễn, một số ví dụ về dữ

liệu đa phƣơng tiện nhƣ sau:
- Dữ liệu hình ảnh (Image data): Một học viện phẫu thuật phải tìm kiếm cơ
sở dữ liệu ảnh X quang hay ảnh cộng hƣởng từ (MRI - Magnetic Resonance
Imaging) của các bệnh nhân; Một cơ quan, tổ chức lƣu trữ những bức ảnh số và
muốn tìm lại một cách thuận tiện,...
- Dữ liệu video (Video data): Một sinh viên mong muốn tìm những bài giảng
bằng băng hình về một chủ đề kỹ thuật nào đó. Điề u này đòi hỏi phải truy vấn thƣ
viện băng hình tƣ̀ tập hợp vô số các băng hình với nội dung về kỹ thuật, ...
- Dữ liệu âm thanh (Audio data): Một phóng viên mong muốn tiếp cận với
một vài cuộc phỏng vấn trƣớc đây trên đài phát thanh, trong trƣờng hợp này anh ta
mong muốn tiếp cận với những băng audio cũ có nội dung liên quan đến lĩnh vực
nghiên cứu.
- Dữ liệu tài liệu (Document data): Một văn bản truyền thống bao gồm các
đoạn văn bản, các từ, câu, đoạn văn, chƣơng… Một CSDL tài liệu khác văn bản ở
chỗ nó không chỉ chứa các thông tin dạng văn bản thô mà nó còn chứa đựng cả cấu
trúc và hình ảnh nhúng. Ví dụ, dữ liệu tài liệu đƣợc tạo ra, chèn vào và phục hồi
nhờ sử dụng các ngôn ngữ đánh dấu chuẩn nhƣ HTML hay SGML,...
Tƣ̀ nhƣ̃ng ví du ̣ trên ta cho thấ y thông tin đa phƣơng tiện hay dữ liệu đa
phƣơng tiện bao gồm các dạng dữ liệu nhƣ video, âm thanh, hoạt hoạ (animation),
ảnh, ký tự, chữ số,... hoặc có sự kết hợp giữa các dạng này. Thƣ̣c tế hiê ̣n nay là


chúng ta đang đối mặt với sự bùng nổ thông tin đa phƣơng tiê ̣n, và kéo theo nó là
xu thế thúc đẩy phát triển công nghệ số lƣu trữ và trình diễn, với khả năng tổ chức
tốt để có thể đảm bảo truy tìm nhanh.
Nhƣ̃ng năm trƣớc đây, khi mà dữ liệu văn bản đƣợc lƣu trữ dƣới khuôn dạng
máy tính có thể đọc đƣợc, đã dẫn tới việc phát triển các hệ thống quản trị cơ sở dƣ̃
liê ̣u (DBMS). Tuy nhiên DBMS không thể quản lý dữ liệu đa phƣơng tiện một
cách hiệu quả do các tính chất dữ liệu văn bản và dữ liệu đa phƣơng tiện là khác
nhau. Vì thế, vấn đề đặt ra là phải nghiên cứu phát triển các kỹ thuật truy tìm và

chỉ mục mới trong hệ thống quản trị CSDL, cho phép khả năng lƣu trữ và tìm kiếm
hiệu quả dữ liệu đa phƣơng tiện.
Dữ liệu đa phƣơng tiện có thể phân ra làm hai dạng tĩnh và động, dữ liệu
tĩnh có nội dung và ý nghĩa không phụ thuộc vào thời gian nhƣ: ảnh, văn bản, chữ
số...; dữ liệu động có nội dung và ý nghĩa phụ thuộc thời gian, chẳng hạn nhƣ khi
thực hiện một đoạn video cần dịch chuyển khoảng 25 đến 30 frames/giây để làm
hình ảnh và âm thanh thay đổi. Các dạng dữ liệu động nhƣ âm thanh và hoạt họa
đều có mối quan hệ với thời gian. Việc truyền đạt thông tin và ý nghĩa của thông
tin trong thực tế cũng có rất nhiều phƣơng thức khác nhau. Với dữ liệu đa phƣơng
tiện, các thông tin truyền đạt ý nghĩa nhanh và dễ hiểu hơn. Do vậy mà ngày nay
dữ liệu đƣợc sử dụng trong nhiều ứng dụng thực tế nhƣ: nghệ thuật, giáo dục, giải
trí, kỹ thuật, y học, toán học,...
Từ nhu cầu cần có cơ sở dữ liệu đa phƣơng tiện, kéo theo nhu cầu cần thiết
về vấn đề quản lý nhƣ:
- Khả năng lƣu trữ dữ liệu do kích thƣớc dữ liệu đa phƣơng tiện lớn hơn so
với các dạng dữ liệu thông thƣờng.
- Hỗ trợ truy vấn nhanh dữ liệu đa phƣơng tiện do thời gian truyền tải dữ
liệu khi truy vấn không thể quá chậm vì tại mỗi thời điểm ý nghĩa của dữ liệu đa
phƣơng tiện có thể thay đổi.
Hiện nay, có nhiều hệ quản trị cơ sở dữ liệu cho phép ngƣời dùng tạo và
quản trị các loại cơ sở dữ liệu khác nhau. Tuy nhiên, do dữ liệu đa phƣơng tiện có
có tính chất và yêu cầu đặc biệt, khác xa với loại dữ liệu chữ và số nên CSDL
truyền thống không phù hợp trong việc quản lý dữ liệu đa phƣơng tiện. Các kỹ


thuật truy tìm thông tin có thể giúp truy tìm các đối tƣợng đa phƣơng tiện nhƣng
chƣa thực sự hiệu quả, khả năng quản lý dữ liệu đa phƣơng tiện thì vẫn chƣa đáp
ứng đƣợc.
Vì vậy, thực tế đòi hỏi cần có hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện
(Multimedia Database Management Systems - MMDBMS).



1.2 SỰ CẦN THIẾT PHẢI CÓ HỆ THỐNG CHỈ MỤC VÀ TRUY TÌM
THÔNG TIN ĐA PHƢƠNG TIỆN (MIRS) [1], [2], [6]
Dữ liệu đa phƣơng tiện có tính chất và yêu cầu đặc biệt, khác xa với loại dữ
liệu chữ và số. CSDL truyền thống không phù hợp trong việc quản lý dữ liệu đa
phƣơng tiện. Vì vậy đòi hỏi phải có một hệ thống truy tìm và chỉ số hóa đủ tốt để
sử dụng dữ liệu hiệu quả.
1.2.1 Một vài tính chất chính của dữ liệu đa phƣơng tiện
- Khối lƣợng khổng lồ (đặc biệt với dữ liệu audio và video). Thí dụ 10 phút
video không nén có dung lƣợng 1,5 GB.
- Audio và video có thêm chiều thời gian.
- Dữ liệu ảnh, audio và video đƣợc thể hiện bởi dãy các giá trị mẫu, không
có cấu trúc nhất định để máy tính tự động nhận biết.
- Rất nhiều ứng dụng đa phƣơng tiện đòi hỏi trình diễn đồng thời các loại
media khác nhau. Thí dụ, phim bao gồm các ảnh đồng bộ với âm thanh.
- Ý nghĩa của dữ liệu đa phƣơng tiện đôi khi rất mờ.
- Dữ liệu đa phƣơng tiện rất giàu thông tin. Đòi hỏi nhiều tham số để biểu
diễn nội dung của chúng.
1.2.2 Hệ thống quản trị cơ sở dữ liệu và vai trò của chúng trong quản lý
dữ liệu đa phƣơng tiện (MM)
DBMS đã đƣợc quan tâm phát triển và đã đƣợc sử dụng rộng rãi cho các dữ
liệu có cấu trúc. DBMS quen thuộc là DBMS quan hệ (Ralational Database
Management System - RDBMS). RDBMS phù hợp với quản lý dữ liệu số và xâu ký
tự ngắn. Để hỗ trợ các trƣờng biến lớn trong RDBMS, khái niệm BLOB (Binary
Large Object) đƣợc đề xuất. BLOB là chuỗi bit lớn với độ dài thay đổi. Vì BLOB
chỉ là chuỗi bit cho nên các thao tác nhƣ so sánh không thể thực hiện trên chúng
đƣợc. RDBMS không hiểu nội dung và ngữ nghĩa của BLOB mà chỉ hiểu đó là
block dữ liệu.
Hệ quản trị CSDL hướng đối tượng (OODBMS) là loại DBMS khác. Chúng

tổ hợp khả năng CSDL (thí dụ nhƣ lƣu trữ và tìm kiếm) với đặc trƣng hƣớng đối
tƣợng (gói, kế thừa và chỉ danh đối tƣợng).
Một tiệm cận chung nhất hiện nay là tổ hợp đặc trƣng hƣớng đối tƣợng với
CSDL quan hệ. Hệ thống này đƣợc gọi là Hệ thống CSDL quan hệ - đối tượng.


Trong hệ thống này, đối tƣợng đƣợc hiểu theo đúng nghĩa của object-oriented. Mỗi
đối tƣợng chứa đặc tính (properties) hay thuộc tính (attributes) và phƣơng thức
(method) hay hàm để thao tác trên đặc tính.
Khác biệt chính giữa BLOB và đối tƣợng là đối tƣợng đƣợc định nghĩa đầy
đủ bao gồm đặc tính và các thao tác trên chúng trong khi BLOB không có khả
năng này. Khái niệm BLOB và đối tƣợng là bƣớc tiến trong việc quản lý dữ liệu đa
phƣơng tiện. Nhƣng BLOB chỉ sử dụng để lƣu trữ dữ liệu lớn. Trong khi đối tƣợng
chứa các thuộc tính, nhiều khả năng khác cần đƣợc phát triển để quản lý việc truy
tìm đa phƣơng tiện trên cơ sở nội dung.
Do vậy, một số khả năng cần có trong hệ thống nhƣ sau:
- Công cụ để tự động hoặc bán tự động trích chọn đặc trƣng chứa trong dữ
liệu đa phƣơng tiện.
- Cấu trúc chỉ số hóa đa chiều để quản lý các véctơ đặc trƣng đa phƣơng
tiện.
- Thƣớc đo tƣơng tự để truy tìm dữ liệu đa phƣơng tiện thay cho đối sánh
chính xác.
- Phân hệ lƣu trữ đƣợc thiết kế để đáp ứng yêu cầu dữ liệu lớn, băng thông
rộng và thời gian thực.
- Giao diện ngƣời sử dụng đƣợc thiết kế sao cho truy vấn mềm dẻo với các
loại media khác nhau và cho khả năng trình diễn đa phƣơng tiện.
1.2.3 Hệ thống truy tìm thông tin (IR) và vai trò của chúng trong truy
tìm đa phƣơng tiện
Kỹ thuật IR rất quan trọng trong hệ thống quản trị thông tin đa phƣơng tiện
vì hai lý do chính sau: thứ nhất, khối lƣợng văn bản rất lớn và là nguồn thông tin

quan trọng của mọi tổ chức. Để sử dụng hiệu quả thông tin trong các tài liệu này
cần có hệ thống IR hiệu quả; thứ hai, văn bản còn đƣợc sử dụng để mô tả các loại
media khác nhƣ audio, ảnh và video. Các kỹ thuật IR quen thuộc có thể đƣợc sử
dụng để truy tìm thông tin đa phƣơng tiện. Tuy nhiên việc sử dụng IR để quản lý
dữ liệu đa phƣơng tiện có các hạn chế sau:
- Mô tả thƣờng là tiến trình thủ công và tốn kém thời gian.
- Mô tả bằng văn bản không đầy đủ và chủ quan.
- Kỹ thuật IR không áp dụng đƣợc cho truy vấn các loại dữ liệu khác văn
bản.


- Một vài đặc trƣng nhƣ kết cấu ảnh (image texture) và hình dạng ảnh rất
khó mô tả bằng văn bản.
DBMS và IR đề cập trên đây không đáp ứng đầy đủ yêu cầu truy tìm và chỉ
số hóa đa phƣơng tiện. Tuy nhiên, DBMS và IR có thể đóng vai trò quan trọng
trong MMDBMS. Nhiều phần dữ liệu đa phƣơng tiện nhƣ ngày tạo lập, tác giả,
v.v.. là có cấu trúc, có thể đƣợc quản lý bằng các kỹ thuật DBMS. Mô tả bằng văn
bản vẫn còn là phƣơng pháp hiệu quả để thu thập nội dung dữ liệu đa phƣơng tiện,
do vậy các kỹ thuật IR vẫn đóng vai trò quan trọng.
Tóm lại, cần phải tích hợp DBMS, IR và các kỹ thuật đặc biệt khác quản lý
dữ liệu đa phƣơng tiện để phát triển MIRS phù hợp và hiệu quả.
1.3 KHÁI QUÁT VỀ MIRS
Các thao tác MIRS đƣợc mô tả trên hình 1.1. Dữ liệu (các mục thông tin)
trong CSDL đƣợc tiền xử lý để trích chọn đặc trƣng và nội dung ngữ nghĩa. Sau đó
chúng đƣợc chỉ số hóa trên cơ sở đặc trƣng và ngữ nghĩa. Trong khi truy tìm thông
tin, câu truy vấn của ngƣời sử dụng đƣợc xử lý và các đặc trƣng chính của nó đƣợc
trích chọn. Các đặc trƣng này sau đó đƣợc so sánh với các đặc trƣng hay chỉ mục
của mỗi mục thông tin trong CSDL. Các mục thông tin nào có đặc trƣng gần giống
nhất với các đặc trƣng của câu truy vấn thì đƣợc tìm ra và trình diễn cho ngƣời sử
dụng.

Mẫu truy vấn có thể mô tả nhƣ sau:
Chỉ mục: Ảnh (I) --> véctơ đặc trƣng f(I): (f1, f2,... fk)
Truy vấn: Véctơ truy vấn q:
(q1, q2,... qk)
Tính tương tự: đo khoảng cách:
d(f,q)
Kết quả: Ảnh (I) có giá trị d(f(I),q) nhỏ nhất.
Truy vấn

Các mục thông
tin

Xử lý và trích chọn
đặc trưng
Các đặc trưng
truy vấn

Tiền xử lý và chỉ mục
Các mục thông tin
đã được chỉ mục

Tính toán
sự tương tự

Trả về những kết
quả giống nhất

Hình 1.1: Hoạt động của hệ thống MIRS



Mô tả trên hình 1.1 cho thấy rất nhiều nhiệm vụ phải thực hiện, thí dụ:
- Các mục thông tin có thể là tổ hợp bất kỳ các loại media.
- Trích chọn đặc trƣng từ các mục media này nhƣ thế nào?
- Các đặc trƣng đƣợc lƣu trữ và cấu trúc nhƣ thế nào để truy tìm hiệu quả?
- Đo tính “tƣơng tự” giữa hai mục media nhƣ thế nào?
- Thiết kế giao diện nhƣ thế nào để nó có thể chấp nhận các câu truy vấn
phức tạp, mờ và mềm dẻo?
- So sánh hiệu năng giữa các hệ thống MIRS bằng cách nào?
- Làm thế nào để đáp ứng yêu cầu thời gian khi truyền tải hay trình diễn dữ
liệu MM?
1.4 KHẢ NĂNG MONG ĐỢI VÀ CÁC ỨNG DỤNG CỦA MIRS
MIRS cần phải mạnh và mềm dẻo. Khả năng của chúng đƣợc miêu tả bằng
các kiểu truy vấn mà chúng có thể hỗ trợ. Các loại truy vấn mong đợi của MIRS
nhƣ sau:
Truy vấn trên cơ sở meta-data
Meta-data là các thuộc tính hình thức của các mục trong CSDL nhƣ tên tác
giả, ngày tạo lập. Khả năng của DBMS có thể đáp ứng loại truy vấn này.
Truy vấn trên cơ sở mô tả
Mô tả đề cập đến miêu tả bằng văn bản nội dung các mục CSDL. Các câu
truy vấn theo từ khóa, việc truy tìm thực hiện trên cơ sở tƣơng tự giữa câu truy vấn
và mô tả. Thí dụ truy vấn có thể là “Chỉ ra các đoạn video trong đó ACTOR đang
đi xe đạp”. Với loại truy vấn này, ta giả sử rằng các mục đã đƣợc mô tả đầy đủ và
có thể quản lý bởi các kỹ thuật IR.
Truy vấn trên cơ sở mẫu (pattern) hay đặc trƣng
Mẫu dữ liệu là các thông tin tĩnh về dữ liệu đa phƣơng tiện nhƣ phân bổ
màu, cƣờng độ âm thanh, mô tả kết cấu bề mặt. Để trả lời loại truy vấn này, các
thông tin thống kê về các mục CSDL phải đƣợc chuẩn bị và lƣu trữ trƣớc.
Truy vấn theo thí dụ (by example)
Truy vấn trong các đối tƣợng đa phƣơng tiện nhƣ ảnh, bản vẽ và đoạn âm
thanh. Thí dụ truy vấn có thể là “Hãy chỉ ra phim trong đó có đoạn tƣơng tự nhƣ



THIS PICTURE”. Loại truy vấn này có thể phức tạp hơn khi bổ sung yếu tố quan
hệ thời gian và không gian giữa các đối tƣợng.
Truy vấn ứng dụng cụ thể
Rất nhiều loại truy vấn cụ thể theo ứng dụng. Thí dụ, truy vấn trên cơ sở
thông tin chi tiết, cụ thể nhƣ kích thƣớc đối tƣợng hay tuổi cá nhân.
Vì MIRS có khả năng hỗ trợ nhiều loại truy vấn cho nên nó có ứng dụng
rộng rãi, bao gồm các ứng dụng trong các lĩnh vực sau đây: Y tế, An ninh, Giáo
dục, Báo chí, Giải trí, Thương mại,…
MIRS tập trung vào chính thông tin thay cho tập trung vào loại media và
trình diễn thông tin có thể ánh xạ hay chuyển đổi từ loại media này sang loại media
khác. Có thể truy tìm tài liệu video bằng video, text, nhạc, tiếng nói hay tƣơng tự.
Điều đó phụ thuộc vào môtơ tìm kiếm để đối sánh dữ liệu trong câu truy vấn với
các mục trong CSDL.
1.5 CÁC LĨNH VỰC LIÊN QUAN ĐẾN ĐA PHƢƠNG TIỆN
- Âm thanh (Audio)
- Hình ảnh (Images)
- Xử lý ngôn ngữ tự nhiên (Natural Language Processing)
- Truy tìm thông tin (Information Retrieval)
- Khả năng của máy tính (CPU Power)
- Mạng máy tính (Networking)
- Hệ thống lƣu trữ (Storage System)
- Giao diện ngƣời máy (HCI)
- Video
- Tâm lý học (Psychology)
- Nén dữ liệu (Data Compression)
1.6 CÁC NHIỆM VỤ THIẾT KẾ CỦA HỆ THỐNG CSDL ĐA
PHƢƠNG TIỆN
Nhiệm vụ thiết kế MIRS để ứng dụng đáp ứng các đặc trƣng và yêu cầu

ngƣời sử dụng bao gồm các vấn đề sau:
- Khái quát về kiến trúc môđun MIRS. Các môđun chính của MIRS bao gồm
giao diện ngƣời sử dụng (UI – User Interface), trích chọn đặc trƣng, quản lý truyền
tin, chỉ số hóa và môtơ tìm kiếm, quản lý lƣu trữ.


- Mô hình dữ liệu của MIRS ảnh hƣởng tới mọi khía cạnh thiết kế và thao
tác của MIRS. Nó xác định thông tin đƣợc tổ chức và lƣu trữ nhƣ thế nào, hỗ trợ
loại truy vấn nào.
- UI cung cấp công cụ chèn các items CSDL, cung cấp câu truy vấn và cho
khả năng trình diễn kết quả truy vấn. Thiết kế UI là phức tạp do sự khác nhau của
media, sự khác nhau của các đặc trƣng, và do tính mờ của ý nghĩa dữ liệu đa
phƣơng tiện.
- Trong MIRS, các đặc trƣng và thuộc tính của dữ liệu đa phƣơng tiện đƣợc
trích chọn và lƣu trữ với dữ liệu. Các đặc trƣng đƣợc tổ chức nhờ cấu trúc chỉ mục
để truy tìm hiệu quả. Việc truy tìm là trên cơ sở thƣớc đo tƣơng tự giữa đặc trƣng
truy vấn và đặc trƣng dữ liệu.
- Truy tìm và trình diễn đa phƣơng tiện phải đáp ứng một số ràng buộc về
thời gian và không gian. Các ràng buộc này đƣợc xác định bằng các yêu cầu về
chất lƣợng dịch vụ (QoS - Quality of Service) của đối tƣợng và của ứng dụng đa
phƣơng tiện. Mọi phân hệ, bao gồm hê ̣ điề u hành , truyền tin, quản lý lƣu trữ phải
làm việc cùng nhau để đạt đƣợc QoS mong muốn.
- Một số nhiệm vụ nhƣ nén dữ liệu, chuẩn trình diễn dữ liệu, tiến trình truy
vấn cũng cần đƣợc quan tâm.
1.6.1 Khái quát về nhiệm vụ CSDL đa phƣơng tiện
1.6.1.1 Mục tiêu chính của MMDBMS
Theo cách nhìn trên đây ta nhận thấy CSDL đa phƣơng tiện bao gồm năm
mục tiêu chính nhƣ sau:
- Hỗ trợ các kiểu dữ liệu đa phƣơng tiện, các thao tác thông thƣờng, các thao
tác đặc biệt mà kiểu dữ liệu thông thƣờng không có nhƣ tiến, lùi, dừng,...

- Có khả năng quản lý số lƣợng lớn các đối tƣợng đa phƣơng tiện (đề cập
đến không gian lƣu trữ của CSDL).
- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lƣu trữ hiệu quả.
- Có các khả năng của hệ CSDL truyền thống.
- Có khả năng truy tìm thông tin đa phƣơng tiện.
1.6.1.2 Tiệm cận lƣu trữ tài nguyên đa phƣơng tiện
Các chiến lƣợc lƣu trữ tài nguyên đa phƣơng tiện có bốn tiệm cận nhƣ sau
đây:


- Dựa vào tệp hệ thống thông thƣờng.
- Sử dụng hệ quản trị CSDL truyền thống (thí dụ, RDBMS), với hỗ trợ giao
diện hƣớng đối tƣợng.
- Sử dụng hệ quản trị CSDL hƣớng đối tƣợng với hỗ trợ giao diện ngƣời sử
dụng.
- Thiết kế CSDL từ đầu, trên cơ sở khái niệm hƣớng đối tƣợng.
Tiệm cận thứ nhất áp dụng khi ngƣời sử dụng tự quản lý tài nguyên đa
phƣơng tiện. Đây không phải là cách lý tƣởng do hạn chế của các tệp hệ thống,
thiếu mềm dẻo trong việc tổ hợp và chia sẻ đối tƣợng đa phƣơng tiện. Tiệm cận thứ
hai phụ thuộc vào RDBMS. Theo bản chất trình diễn đa phƣơng tiện thì tiệm cận
hƣớng đối tƣợng cho khả năng dễ tổ chức trình diễn hơn. OODBMS có kiểu dữ
liệu nhị phân, do vậy dễ dàng lƣu trữ ảnh, âm thanh và video... Tuy nhiên, tiệm cận
này sẽ gặp một số khó khăn khi cài đặt do thiếu một số yêu cầu đặc biệt của
MMDBMS nhƣ: QoS, đồng bộ và nối mạng. Tiệm cận cuối cùng rất hiệu quả
nhƣng tốn kém nhiều thời gian trong việc thiết kế và phát triển.
1.6.2 Kiến trúc MIRS
Nhƣ chúng ta thấy, dữ liệu đa phƣơng tiện có rất nhiều loại từ văn bản, hình
ảnh, âm thanh đến những đoạn video có kích thƣớc rất lớn. Do đó chúng ta cần tổ
chức thích hợp để khai thác một cách hiệu quả. Hệ thống CSDL đa phƣơng tiện
thƣờng đƣợc tổ chức theo 1 trong 3 kiến trúc sau: tự trị, đồng nhất và lai.

1.6.2.1 Kiến trúc tự trị (autonomy)
Trong kiến trúc này mỗi loại dữ liệu đƣợc nhóm thành một nhóm và đƣợc
lƣu trữ theo cách riêng của từng nhóm (hình 1.2), sự tƣơng tác giữa các loại dữ liệu
là công việc phức tạp và đòi hỏi nhiều công sức lập trình. Tuy nhiên việc tạo ra cấu
trúc riêng biệt cho mỗi loại dữ liệu đa phƣơng tiện sẽ có hiệu quả nhất về mặt thời
gian cho việc xử lý các truy vấn. Autonomy cũng thích hợp cho các công nghệ
hƣớng đối tƣợng với việc xem xét mỗi nguồn dữ liệu đa phƣơng tiện nhƣ một đối
tƣợng với các phƣơng thức của nó có thể truy cập đến CSDL đa phƣơng tiện tổng
thể.
Người
dùng


Truy vấn

Trả lời

Multimedia Query Engine
(Máy truy vấn)

Document Index
(Chỉ mục tài liệu)

Image Index
(Chỉ mục ảnh)

Audio Index
(Chỉ mục Audio)

Video Index

(Chỉ mục video)

Hình 1.2 Kiến trúc tự trị

1.6.2.2 Kiến trúc đồng nhất (uniformity)
Với kiến trúc dạng này thay vì việc phân chia các loại dữ liệu thành các
nhóm riêng biệt chúng ta cố gắng tìm một cấu trúc trừu tƣợng để có thể sử dụng
làm chỉ mục chung cho toàn bộ các kiểu dữ liệu gọi là chỉ mục đồng nhất (unified
index) - hình 1.3. Có thể thể hiện nội dung của tất cả các đối tƣợng dữ liệu khác
nhau (văn bản, hình ảnh, âm thanh, video…) trong cùng một cấu trúc dữ liệu và
sau đó xây dựng các giải thuật truy vấn trên cấu trúc dữ liệu đó. Kiến trúc này đòi
hỏi việc kiểm tra nội dung của mỗi kiểu dữ liệu và trừu tƣợng hóa các phần chung
sau đó xây dựng chỉ mục dựa trên các thành phần đã đƣợc nhận dạng. Với kiến
trúc này việc tƣơng tác giữa các loại dữ liệu là rất thuận tiện vì chúng có cùng cấu
trúc dữ liệu. Tuy nhiên kiến trúc này đòi hỏi giai đoạn trừu tƣợng hóa dữ liệu mất
rất nhiều thời gian và có thể phải làm thủ công hoặc bán tự động bởi nếu làm tự
động có thể gây mất hoặc thiếu thông tin.


Người
dùng

Truy vấn

Trả lời

Multimedia Query Engine (Máy truy vấn)

Unified Index (Chỉ mục đồng nhất)


Tài liệu

Ảnh

Âm thanh

Video

Hình 1.3 Kiến trúc đồng nhất

1.6.2.3 Kiến trúc lai (hybrid)
Kiến trúc này là sự kết hợp của 2 kiến trúc trên (hình 1.4). Một số kiểu dữ
liệu sử dụng chỉ mục của riêng nó, một số khác sử dụng theo kiến trúc đồng nhất,
tùy thuộc vào đặc điểm cũng nhƣ yêu cầu ứng dụng. Kiến trúc này tận dụng đƣợc
ƣu điểm của cả hai loại kiến trúc trên và hạn chế những nhƣợc điểm của chúng.
Tiếng Việt
1.
Đặng Văn Đức (2003), Nguyên lý hệ thống cơ sở dữ liệu đa phương
tiện, Trung tâm khoa học tự nhiên và công nghệ Quốc gia - Viện Công nghệ thông
tin.
2.
Đặng Văn Đức (2003-2005), Hệ quản trị cơ sở dữ liệu đa phương
tiện, Viện khoa học và công nghệ Việt Nam, Viện công nghệ thông tin.
3.
Lý Quốc Ng ọc (2007), Xây dựng , phát triển và ứng dụng hệ thống
truy vấ n thông tin thi ̣ giác dựa vào nội dung , Luâ ̣n án tiế n sỹ khoa ho ̣c má y tiń h,
ĐHQG TP. Hồ Chí Minh, tr.58-85.


Tiếng Anh

4.
Arbee L.P.Chen, Chih-chin Liu, Tony C.T.Kuo, “Content-based
Video Data Retrieval” Proc.natl.Sci.Counc.ROC Vol 23, No.4, 1999, pp.449-465.
5.
Bernard Merialdo, “Multimedia Infomation Retrieval”, Institut
EUROCOM Sophia Antipolis, France.
6.
Guojun Lu (1999), “Multimedia Database Management Systems”,
Artech House Boston London.
7.
Rod Ward (2003), Oracle interMedia User’s Guide 10g Release 1
(10.1), Part No. B10840-01, pp.21-43.
8.
IEEE.

Wayne Wolf (1996), “Key Frame Selection by Motion Analysis”,



×