Tải bản đầy đủ (.pdf) (101 trang)

Tìm kiếm âm thanh theo nội dung trong cơ sở dữ liệu đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.56 MB, 101 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Thị Cẩm Bình

TÌM KIẾM ÂM THANH THEO NỘI DUNG
TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

LUẬN VĂN THẠC SĨ

Hà Nội- 2007


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lê Thị Cẩm Bình

TÌM KIẾM ÂM THANH THEO NỘI DUNG
TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

Ngành: Công nghệ thông tin
Mã số: 1.01.10

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC

Hà Nội- 2007



Tìm kiếm âm thanh theo nội dung trong cơ sở dữ liệu đa
phương tiện : Luận văn ThS / Lê Thị Cẩm Bình ; Nghd. :
PGS.TS. Đặng Văn Đức . - H. : ĐHCN, 2007 . - 96 tr. +
CD-ROM
Lời cảm ơn ............................................................................................................. 1
Danh mục các ký hiệu, chữ viết tắt ...................................................................... 2
Mở đầu.................................................................................................................... 4
Chương 1. Tổng quan về CSDL đa phương tiện, khái niệm cơ sở ................... 7
1.1. Một số khái niệm cơ sở ................................................................................... 8
1.1.1. Dữ liệu đa phương tiện ....................................................................... 8
1.1.2. Hệ thống quản trị CSDL đa phương tiện ............................................ 10
1.1.3. Truy tìm thông tin ............................................................................... 12
1.1.3.1. Đo tính tương tự .................................................................... 13
1.1.3.2. Các kiểu truy vấn ................................................................... 14
1.2. Kiến trúc hệ thống quản trị CSDL đa phương tiện ....................................... 18
1.3. Một số hệ thống CSDL đa phương tiện hiện có ............................................ 20
1.3.1. Quá trình phát triển ............................................................................. 20
1.3.1.1. Giai đoạn 1............................................................................. 21
1.3.1.2. Giai đoạn 2............................................................................. 21
1.3.1.3. Giai đoạn 3............................................................................. 25
1.3.2. Vấn đề đối với các hệ thống CSDL đa phương tiện hiện nay ............ 27
Chương 2. Một số phương pháp, giái thuật trích chọn đặc trưng âm thanh .. 29
2.1. Đặc trưng chính của âm thanh ...................................................................... 29
2.1.1. Đặc trưng miền thời gian .................................................................... 29
2.1.1.1. Năng lượng trung bình .......................................................... 29
2.1.1.2. Tốc độ vượt qua 0 .................................................................. 30
2.1.1.3. Tỷ lệ câm ............................................................................... 32
2.1.2. Đặc trưng miền tần số ......................................................................... 32
2.1.2.1. Phổ âm thanh ......................................................................... 33



2.1.2.2. Băng thông ............................................................................. 33
2.1.2.3. Phân bổ năng lượng ............................................................... 34
2.1.2.4. Điều hòa ................................................................................. 34
2.1.2.5. Cao độ .................................................................................... 35
2.1.3. Ảnh phổ ............................................................................................... 35

2.2. CSDL âm thanh ........................................................................................... 37
2.2.1. Mô hình tổng quát của dữ liệu âm thanh ............................................ 37
2.2.1.1. Biểu diễn nội dung âm thanh bằng metadata ........................ 37
2.2.1.2. Nội dung âm thanh trên cơ sở tín hiệu .................................. 37
2.2.2. Thu thập nội dung âm thanh thông qua biến đổi rời rạc ..................... 41
2.2.3. Chỉ số hóa dữ liệu âm thanh ............................................................... 42
2.3. Phân lớp âm thanh .......................................................................................... 43
2.3.1. Đặc điểm chính của các lớp âm thanh ................................................ 45
2.3.2. Phân lớp âm thanh............................................................................... 45
2.3.2.1. Phân lớp âm thanh theo từng bước ........................................ 45
2.3.2.2. Phân lớp âm thanh theo vectơ đặc trưng ............................... 47
2.3.2.3. Phân lớp âm thanh ứng dụng mạng nơron ............................ 47
2.3.3. Chỉ số hóa và truy tìm âm thanh ......................................................... 53
2.3.3.1. Nhận dạng và truy tìm tiếng nói ............................................ 54
2.3.3.2. Nhận dạng và truy tìm âm nhạc............................................. 70
Chương III. Phát triển ứngdụng truy tìm âm thanh trên cơ sở nội dung ....... 80
3.1. Yêu cầu hệ thống ............................................................................................. 80
3.1.1. Yêu cầu phần cứng.............................................................................. 80
3.1.2. Yêu cầu phần mềm.............................................................................. 80
3.2. Giới thiệu thư viện chương trình ACTNow C/C++ ....................................... 81
3.2.1. Create/Delete....................................................................................... 81
3.2.2. Error code............................................................................................ 81
3.2.3. Handle ................................................................................................. 81

3.2.4. Phrase .................................................................................................. 82
3.2.5. Sound clip ........................................................................................... 83
3.2.6. Music................................................................................................... 84
3.2.7. Speaker ................................................................................................ 84
3.2.8. Item Detector ...................................................................................... 85


3.3. Phát triển ứng dụng truy tìm âm thanh theo nội dung sử dụng ACT Now . 86
3.3.1. Khái quát ............................................................................................. 86
3.3.1.1. Dữ liệu âm thanh ................................................................... 87
3.3.1.2. Tính toán đặc trưng................................................................ 88
3.3.1.3. Mô hình huấn luyện ............................................................... 88
3.3.1.4. Quá trình huấn luyện ............................................................. 88
3.3.1.5. Phân lớp ................................................................................. 88
3.3.1.6. Kết quả ................................................................................... 89
3.3.2. Sơ đồ khối chức năng.......................................................................... 89
3.3.3. Giao diện chương trình ....................................................................... 90
3.3.3.1. Detection ................................................................................ 90
3.3.3.2. Huấn luyện Detection ............................................................ 91
3.3.3.3. Kết quả từ bộ phân tích ......................................................... 91
3.3.3.4. Detector ................................................................................. 92
3.3.4. Kết quả đạt được ................................................................................. 92
Kết luận .................................................................................................................. 94
Tài liệu tham khảo................................................................................................. 95


1

LỜI CÁM ƠN
rước tiên, tôi xin phép được bày tỏ lời cảm ơn chân thành


T

tới PGS.TS Đặng Văn Đức- Viện Công nghệ thông tin,

người thầy luôn nhiệt tình hướng dẫn, cung cấp các tài liệu hữu ích và
giúp đỡ tôi rất nhiều trong quá trình thực hiện luận văn.
Tôi xin cám ơn các thầy cô giáo Khoa Công nghệ thông tin đã
truyền đạt những kiến thức quí báu, bổ trợ cho đề tài luận văn của tôi,
xin cảm ơn các Phòng ban chức năng của Trường Đại học Công nghệ,
các bạn học viên lớp Cao học K11T2 và gia đình đã tạo điều kiện, giúp
đỡ tôi trong quá trình học tập và hoàn thành luận văn này.


2

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Ký hiệu

Tên đầy đủ

Ý nghĩa

ACT

Audio Classification
Technologies

các kỹ thuật phân lớp âm thanh


API

Application Programming
Interface

giao diện lập trình ứng dụng

BP

Back Propagation

giải thuật truyền ngƣợc

DBMS

DataBase Management
System

hệ quản trị cơ sở dữ liệu

DCT

Discrete Cosine Transform

biến đổi cosin rời rạc

DFT

Discrete Fourier Transform


biến đổi Fourier rời rạc

EBF

Elliptical Basis Function

hàm cơ sở êlíp

EED

diagonal covariance
matrices

ma trận đồng biến chéo

EM

Expectation Maximization

giải thuật khả năng cực đại

FAR

false acceptance rate

tỷ lệ chấp nhận sai số

FRR

false rejection rate


tỷ lệ từ chối sai số

HMM

Hidden Markov Model

mô hình Markov ẩn

HZCRR

High Zero- Crossing Rate
Ratio

tỷ lệ tốc độ vƣợt qua 0 cao

IDFT

Inverse Discrete Fourier
Transform

biến đổi Fourier liên tục

IR

Information Retrieval

hệ thống truy tìm thông tin

KNN


K-Nearest- Neighbours
query

Truy vấn lân cận K gần nhất


3

LVQ

Learning Vector
Quantization

lƣợng tử hóa vectơ học

MARS

Multimedia Analysis and
Retrieval System

hệ thống chỉ mục và phân tích đa
phƣơng tiện

MDC

Multimedia Data Cartridge

môđun chứa dữ liệu đa phƣơng
tiện


MIDI

Musical Instrument Digital
Interface

giao diện số cho nhạc cụ

MIRS

multimedia Indexing and
Retrieval System

hệ thống chỉ mục và truy tìm
thông tin đa phƣơng tiện

MM

Multimedia

đa phƣơng tiện

MMDBMS MultiMedia DataBase
Management System

hệ quản trị cơ sở dữ liệu đa
phƣơng tiện

OS


Operating System

hệ điều hành

QoS

Quality of Service

chất lƣợng dịch vụ

RBF

Radial Basis Function

hàm cơ sở xuyên tâm

RF

Relevance Feedback

truy vấn phản hồi thích hợp

SDK

Software Development Kit

công cụ phát triển phần mềm

SR


Silence Ratio

tỷ lệ câm

ZCR

Zero Crossing Rate

tốc độ vƣợt qua 0


4

MỞ ĐẦU
Internet phát triển cùng với sự gia tăng của thông tin đa phƣơng tiện
dƣới nhiều dạng khác nhau. Chƣa bao giờ ngƣời dùng lại có nhiều cơ hội lựa
chọn và tận hƣởng những gì mà đa phƣơng tiện đem lại nhƣ ngày nay. Trong
số đó, âm thanh kỹ thuật số kết hợp với các dịch vụ có ý nghĩa thực tiễn và
quan trọng trong nhiều lĩnh vực kinh tế xã hội nhƣ các dịch vụ truyền hình,
đài phát thanh, hội thảo truyền hình qua mạng, xem video, tìm kiếm âm nhạc
theo yêu cầu, hỗ trợ ngƣời khiếm thị sử dụng máy tính, ... và đặc biệt là trong
an ninh quốc phòng, nhƣ phân biệt giọng nói của một đối tƣợng hình sự với
giọng nói của ngƣời khác, phân biệt các ngôn ngữ tự nhiên thuộc một lớp các
ngôn ngữ nào đó, trong an ninh thông tin khi kiểm soát tự động…
Thực tế đó cũng mở ra một nhu cầu truy cập vào những thƣ viện âm
thanh khổng lồ. Nhu cầu đó đòi hỏi một công nghệ tìm kiếm hiệu quả để tổ
chức, sắp xếp, truy tìm các nội dung âm thanh, cũng nhƣ có thể xử lý hàng
trăm tỷ trang web hỗn độn trên mạng và các thiết bị lƣu trữ trên các máy tính
cá nhân. Mặc dù trƣớc đây, công cụ tìm kiếm bằng từ khoá đã làm nên một
cuộc cách mạng, ảnh hƣởng lớn đến cách ngƣời dùng Internet để lấy thông

tin, nhƣng nhiều ứng dụng âm thanh và đa phƣơng tiện còn đem lại nhiều lợi
ích hơn thế nếu thể hiện bằng nội dung của chúng thay cho việc mô tả hoặc
dùng các từ khóa.
Hiện nay, một số hãng tìm kiếm khổng lồ trên mạng nhƣ Yahoo,
Google hay Alta Vista đã và đang triển khai các hoạt động nghiên cứu theo
cách tìm kiếm theo nội dung thay vì từ khóa. Yahoo bắt đầu thử nghiệm dịch
vụ tìm kiếm tệp âm thanh Yahoo Audio () từ
ngày 2 tháng 8 năm 2005. Dịch vụ này cho phép ngƣời sử dụng tìm kiếm 50
triệu bài hát và tệp âm thanh miễn phí qua Internet. Ngƣời dùng chỉ cần gõ


5

những từ hoặc cụm từ liên quan đến bài hát và Yahoo sẽ liệt kê một danh sách
các file âm thanh, cho phép khách hàng nghe trực tuyến. Công cụ tìm kiếm
âm nhạc này hoạt động dựa trên khả năng đọc nội dung đƣợc nhúng trong tệp
âm thanh, còn đƣợc gọi là metadata, để phân loại kết quả tìm kiếm. Hãng
IBM dự định cung cấp cho các nhà phát triển phần mềm chƣơng trình UIMA
(Unstructured Information Management Architecture - Sơ đồ quản lý thông
tin không kết cấu), một công nghệ có khả năng phân tích văn bản và những
file nghe nhìn khác để hiểu những ý nghĩa, mối quan hệ và số liệu tiềm ẩn bên
trong tài liệu ( Hiện nay, khoảng
15 công ty đã quyết định sử dụng UIMA để tìm kiếm và phân tích văn bản
cho những dữ liệu đa phƣơng tiện của họ. IBM cũng đồng thời xây dựng phần
mềm WebSphere OmniFind nhằm hỗ trợ ngƣời sử dụng thực hiện tìm kiếm
thông tin đa phƣơng tiện trên nhiều định dạng và ngôn ngữ khác nhau nhƣ
trong cơ sở dữ liệu, e-mail, và file âm thanh. Phƣơng pháp tìm kiếm dữ liệu
kiểu mới là kết quả hơn 4 năm phát triển của IBM và UIMA đã đƣợc phổ biến
rộng rãi vào cuối năm 2005. Quaero (tiếng Latin nghĩa là tìm kiếm) là một dự
án về công cụ tìm kiếm đa phƣơng tiện của châu Âu (Pháp và Đức). Các

chuyên gia thiết kế muốn Quaero sẽ không chỉ đóng vai trò nhƣ một chƣơng
trình tìm kiếm mà còn là công cụ dịch thuật, phân loại hình ảnh, âm thanh...
Tại Việt nam những năm qua, các công cụ tìm kiếm dữ liệu đa phƣơng
tiện, trong đó các công cụ tìm kiếm và nhận dạng dữ liệu âm thanh đã dần
đƣợc chú ý. Ví dụ, phòng nhận dạng và công nghệ tri thức- Viện công nghệ
thông tin đã giới thiệu một số sản phẩm phần mềm có ý nghĩa thực tế rất cao
nhƣ: tổng hợp và xử lý ngôn ngữ tiếng Việt, nghiên cứu và tiếp cận các kỹ
thuật mới của công nghệ tổng hợp và nhận dạng tiếng nói trên thế giới để áp
dụng trong hoàn cảnh Việt nam và âm thanh tiếng Việt, nghiên cứu các


6

phƣơng pháp xử lý tín hiệu số và tín hiệu tiếng nói, các phƣơng pháp tìm đặc
trƣng âm thanh.
Các sản phẩm nêu trên đã đáp ứng đƣợc phần nào nhu cầu tìm kiếm và
nhận dạng dữ liệu âm thanh. Tuy nhiên, các công trình nghiên cứu về tìm
kiếm âm thanh theo nội dung vẫn còn hiếm hoặc chƣa tƣơng xứng với tầm
quan trọng của nó trong hiện tại và tƣơng lai. Mặt khác, việc hiểu biết sâu sắc
về âm thanh cũng nhƣ các khái niệm, thuật toán liên quan sẽ giúp ta ứng dụng
và xây dựng các hệ thống tìm kiếm âm thanh phù hợp, hiệu quả hơn. Xuất
phát từ những vấn đề nêu trên, luận văn đã tập trung nghiên cứu về vấn đề
"Tìm kiếm âm thanh theo nội dung trong cơ sở dữ liệu đa phương tiện".
Cấu trúc của luận văn nhƣ sau:
Chƣơng I. TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN- MỘT SỐ
KHÁI NIỆM CƠ SỞ.

Chƣơng II. MỘT SỐ PHƢƠNG PHÁP VÀ GIẢI THUẬT TRÍCH CHỌN ĐẶC
TRƢNG ÂM THANH.


Chƣơng III. PHÁT TRIỂN ỨNG DỤNG TÌM ÂM THANH TRÊN CƠ SỞ NỘI
DUNG.


7

Chƣơng I.
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN
- MỘT SỐ KHÁI NIỆM CƠ SỞ
Trong những năm gần đây, nhu cầu sử dụng thông tin đa phƣơng tiện
ngày càng lớn. Chúng đƣợc sử dụng trong đời sống hàng ngày của con ngƣời
và đem lại hiệu quả mạnh hơn nhiều so với các dữ liệu truyền thống khác.
Mặt khác, sự tiến bộ của công nghệ truyền thông và máy tính đã tạo điều kiện
cho thông tin đa phƣơng tiện phát triển mạnh mẽ, có thể kể đến nhƣ:
 Tốc độ máy tính
Tốc độ máy tính đƣợc cải thiện đáng kể. Theo thống kê, cứ sau 18 tháng,
tốc độ của máy tính tăng lên gấp đôi.


Băng thông mạng ngày càng lớn

Ngƣời ta ƣớc tính, cứ sau mỗi 12 tháng, băng thông của các hệ thông
tin tăng gấp ba lần.
 Sự xuất hiện đa dạng của các thiết bị vào/ ra kỹ thuật số
Ti vi, CD, máy ảnh, máy ghi hình kỹ thuật số... là các thiết bị cho phép
dễ dàng tạo lập, sửa đổi, truyền, sao chép và quản lý các dữ liệu đa phƣơng
tiện.
Các hệ thống cơ sở dữ liệu đa phƣơng tiện là mục tiêu và đem lại lợi
ích cho nhiều đối tƣợng sử dụng. Ví dụ, các cá nhân lƣu trữ và sở hữu một
lƣợng lớn dữ liệu đa phƣơng tiện trên máy tính của mình, họ có thể sử dụng

hệ thống để thực hiện các truy vấn nhƣ tìm kiếm các đoạn, cảnh nào đó trong
phim. Các công ty chuyên cung cấp và khai thác dịch vụ đa phƣơng tiện nhƣ
các dịch vụ tìm kiếm video của Google... Các tổ chức, ban ngành có quản lý
và lƣu trữ dữ liệu đa phƣơng tiện nhƣ Bộ Văn hóa, Bộ Công an, Cục quản lý
xuất nhập cảnh...


8

1.1. MỘT SỐ KHÁI NIỆM CƠ SỞ
1.1.1. Dữ liệu đa phƣơng tiện
Đa phƣơng tiện (multimedia) là một phƣơng pháp giới thiệu thông tin
trên máy tính bằng cách sử dụng nhiều phƣơng tiện truyền thông tin nhƣ: Text
(văn bản), graphic (biểu đồ, đồ thị), animation (hoạt hình), image (ảnh),
video, audio, hoặc kết hợp các media với nhau (video + audio + văn bản diễn
giải)...
Ngƣời ta thƣờng phân thành media thành hai loại dựa trên quan hệ của
chúng với thời gian. Đó là:
 Static media: Không có chiều thời gian. Thông tin không liên quan tới
thời gian. Ví dụ cho loại này là văn bản, hình họa, ảnh chụp.
 Dynamic media: Có chiều thời gian. Thông tin có quan hệ chặt chẽ với
thời gian và thông tin phải đƣợc trình diễn với thời gian xác định. Ví dụ các
loại audio, video, animation, game online...
So với dữ liệu truyền thống nhƣ văn bản và số, dữ liệu đa phƣơng tiện
có một số đặc điểm rất khác biệt, đó là:
 Kích thước và số lượng dữ liệu đồ sộ
- Kích thƣớc dữ liệu lớn: dữ liệu đa phƣơng tiện có kích thƣớc lớn hơn
nhiều so với các kiểu dữ liệu số và văn bản thông thƣờng. Một văn bản thô có
200 từ (khoảng 1000 ký tự) chỉ có kích thƣớc là 1kByte, nhƣng nếu lƣu văn
bản đó bằng định dạng ảnh GIF thì kích thƣớc gấp khoảng 10 lần. Một giọng

nói đơn sắc đƣợc lƣu với định dạng .WAV trong thời gian 1 phút có kích
thƣớc khoảng 2640 kByte (đã nén) hoặc xấp xỉ 6-8 MB (chƣa nén). Một cảnh
video rất ngắn chứa hàng trăm bức ảnh với kích thƣớc có thể lên đến hàng
chục MB..., xem bảng minh họa:


9

Kiểu

Mô tả

Kích thƣớc

Plain text

khoảng 200 từ (1000 ký tự)

1 kByte

tệp Winword

khoảng 200 từ (1000 ký tự)

15 kByte

Ảnh GIF

khoảng 200 từ (1000 ký tự, 210 x 100mm) 10 kByte


Âm thanh WAVE

giọng nói (1 phút, 22KHz, 16 bit, mono)

2640 kByte

- Số lƣợng dữ liệu đồ sộ: ngƣời ta ƣớc tính, chỉ riêng trên WWW có số
lƣợng lên đến hàng tỉ ảnh, hàng trăm triệu bài hát MP3 và vài chục triệu phim
video.
 Một số dữ liệu đa phương tiện phụ thuộc thời gian
Audio và video có thêm chiều thời gian. Khi trình diễn audio và video
thì chất lƣợng của chúng phụ thuộc chặt chẽ vào tốc độ trình diễn. Ví dụ,
video phải đƣợc trình diễn với tốc độ 25 đến 30 hình/giây để có thể cảm nhận
đƣợc hình ảnh chuyển động trơn tru.
 Tìm kiếm dựa trên cơ sở tương tự
Trong cơ sở dữ liệu quan hệ, phƣơng pháp tìm kiếm truyền thống đối
với dữ liệu dạng văn bản và số là tìm kiếm chính xác, hay còn gọi là "exact
search". Đối với dữ liệu đa phƣơng tiện, ngƣời dùng thƣờng đặt ra yêu cầu
tìm kiếm một đối tƣợng tƣơng tự theo nội dung mà họ đƣa ra. Ví dụ, một
nghiên cứu khoa học cho biết con ngƣời có khả năng nhận biết một bài hát
thông qua giai điệu (humming) tốt hơn thông qua tên bài hát. Mặt khác, có rất
nhiều bài hát có cùng tên và chỉ khác nhau về giai điệu. Vì vậy, việc tìm kiếm
một bài hát dựa trên giai điệu sẽ đáp ứng tốt hơn nhu cầu đầy tiềm năng của
ngành công nghiệp giải trí.
Tuy nhiên, việc tìm kiếm tƣơng tự có thể phải dựa trên các đặc trƣng
phức tạp (ví dụ, video có thể chứa văn bản, âm thanh, hình ảnh...)


10


 Đồng bộ
Một số ứng dụng đa phƣơng tiện sử dụng hệ thống thời gian thực. Hệ
thống thời gian thực là hệ thống mà trong đó sự đúng đắn của việc thực hiện
thao tác không chỉ phụ thuộc vào việc thu đƣợc kết quả đúng mà còn phải đƣa
ra kết quả đúng thời điểm. Ví dụ, các tệp phim, bài giảng, truyền hình trực
tiếp, hội nghị, hội thảo qua mạng (video conference), xem video theo yêu cầu
(video on demand) ... thì yêu cầu hình ảnh phải đƣợc đồng bộ với âm thanh.
 Chất lượng dịch vụ (Quality of Service- QoS)
QoS là một tập các yêu cầu về chất lƣợng đối với các hoạt động tổng
thể chung của một hoặc nhiều đối tƣợng. Các tham số QoS mô tả tốc độ và độ
tin cậy của việc truyền dữ liệu nhƣ thông lƣợng, trễ, tỷ lệ lỗi... Các ứng dụng
đa phƣơng tiện khi truyền qua mạng thƣờng đòi hỏi yêu cầu cao về QoS, nhất
là các dịch vụ đa phƣơng tiện tƣơng tác thời gian thực nhƣ điện thoại internet,
hội thảo qua mạng. Các dịch vụ này thƣờng đòi hỏi khắt khe về độ trễ (tối đa
là vài trăm ms). Để xác định QoS, ngƣời ta dựa vào các tham số sau đây:
- Độ trễ: là khoảng thời gian cực đại để truyền dữ liệu.
- Jitter: là độ biến đổi độ trễ.
- Thông lƣợng: là tổng số dữ liệu cực đại đƣợc truyền đi trên một đơn
vị thời gian.
- Tỷ số mất tin: là số dữ liệu cực đại bị mất trên một đơn vị thời gian.
1.1.2. Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện
(MMDBMS)
Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện là hệ thống tổ chức và
lƣu giữ gồm các dữ liệu truyền thống và các loại dữ liệu trừu tƣợng.
Một định nghĩa khác, theo Libor Janek và Goutham Alluri, hệ thống
quản trị cơ sở dữ liệu đa phƣơng tiện là một cơ cấu tổ chức quản lý các kiểu


11


dữ liệu khác nhau, có khả năng thể hiện trong các định dạng trên một phạm vi
các nguồn phƣơng tiện đa dạng.
Lƣợng dữ liệu đa phƣơng tiện phát sinh theo nhu cầu hiện nay đƣợc lƣu
trữ là một con số khổng lồ. Chỉ riêng với dữ liệu video, ngƣời ta ƣớc tính có
khoảng 21264 trạm truyền hình phát 16 giờ hàng ngày, sinh ra khoảng 31 tỉ
giờ[4]. Tuy nhiên, các hệ quản trị cơ sở dữ liệu đã đƣợc sử dụng rộng rãi nhƣ
cơ sở dữ liệu quan hệ, chủ yếu tập trung vào quản lý các tài liệu văn bản thì
không đáp ứng đầy đủ đối với việc quản lý các dữ liệu đa phƣơng tiện, bởi
các tính chất cũng nhƣ các yêu cầu đặc biệt của chúng nhƣ đã nêu ở trên. Do
đó, hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện là sự cần thiết để quản lý
dữ liệu đa phƣơng tiện một cách có hiệu quả.
Các đặc trƣng chủ yếu của MMDBMS bao gồm:
 Quản lý dữ liệu đa phương tiện đã được lưu trữ: các dữ liệu đa phƣơng
tiện đƣợc lƣu trữ để quản lý gồm cả các thiết bị bên trong và bên ngoài máy
tính, ví dụ dữ liệu lƣu trữ trên CD ROM...
 Các phương pháp tìm kiếm dựa theo mô tả: ví dụ, ngƣời dùng có thể
đƣa ra một mô tả để tìm kiếm "tiếng chuông điện thoại"...
 Giao diện người dùng độc lập với thiết bị: ngƣời dùng không cần biết
cách thức lƣu trữ dữ liệu đa phƣơng tiện nhƣ thế nào.
 Giao diện người dùng độc lập với các định dạng: các truy vấn dữ liệu
đa phƣơng tiện có thể độc lập với định dạng dữ liệu. Nó cho phép có thể sử
dụng các kỹ thuật lƣu trữ mới mà không cần thay đổi ứng dụng cơ sở dữ liệu
hiện có.
 Cho phép thực hiện nhiều truy cập dữ liệu đồng thời: dữ liệu đa
phƣơng tiện có thể truy cập đồng thời qua nhiều câu truy vấn khác nhau bởi
một số ứng dụng. Cách truy cập nhất quán nhằm chia sẻ dữ liệu có thể đƣợc
thực hiện, và cần có cơ chế để thỏa mãn việc tránh tạo ra các xung đột.


12


 Quản lý một lượng dữ liệu lớn: hệ thống cần phải có khả năng lƣu trữ
và quản lý lƣợng dữ liệu lớn và thỏa mãn các truy vấn đối với các quan hệ của
dữ liệu.
 Vấn đề truyền dữ liệu đa phương tiện dựa trên thời gian thực: điều
khiển việc đọc/ghi dữ liệu liên tục phải đƣợc thực hiện dựa trên thời gian
thực. Do lƣợng dữ liệu có thể là rất lớn (ví dụ, truyền video) nên việc truyền
dữ liệu có thể tốn nhiều thời gian và nó còn đòi hỏi phải đƣợc thực hiện một
cách chính xác.
1.1.3. Truy tìm thông tin
Truy tìm thông tin- Information Retrieval (IR) là kỹ thuật tìm kiếm
thông tin đƣợc lƣu trữ trên máy tính. Đối với dữ liệu đa phƣơng tiện, việc truy
tìm thông tin hiệu quả là dựa trên tìm kiếm tƣơng tự. Hệ thống lƣu trữ một tập
các đối tƣợng đa phƣơng tiện trong cơ sở dữ liệu. Ngƣời dùng đƣa ra các truy
vấn, và hệ thống tìm ra các đối tƣợng tƣơng tự truy vấn trong cơ sở dữ liệu đã
lƣu trữ thỏa mãn yêu cầu của ngƣời dùng. Truy tìm thông tin trong
MMDBMS có một số đặc điểm sau đây:
- Sử dụng một khối lƣợng dữ liệu đặc tả lớn và phức tạp.
- Việc tiếp cận IR chủ yếu dựa trên các đặc trƣng.
- Các dữ liệu thƣờng có kích thƣớc lớn.
- Sự cần thiết phải có các kỹ thuật chỉ mục dữ liệu kích thƣớc lớn để xử
lý các truy vấn một cách hiệu quả và thực hiện nhanh hơn so với phƣơng pháp
tìm kiếm tuần tự.
- Sự cần thiết phải tích hợp các đặc trƣng media phức tạp một cách
thƣờng xuyên (ví dụ, dữ liệu ảnh có thể chứa các đặc trƣng nhƣ: hình dạng,
biểu đồ màu, kết cấu...).
Ý tƣởng của phƣơng pháp tìm kiếm tƣơng tự đƣa ra nhƣ sau:
- Cho một tập các đối tƣợng đa phƣơng tiện trong MMDBMS.



13

- Tìm ra một hoặc một số K đối tƣợng tƣơng tự (giống) nhất với đối
tƣợng truy vấn mong muốn một cách nhanh chóng.
1.1.3.1. Đo tính tương tự
a, Mô tả:
Cho một tập các đối tƣợng đa phƣơng tiện DB hoặc cho một điểm P
nào đó trong một không gian mảng d chiều DS=[0,1]d.
Truy vấn Q là một vectơ đặc trƣng d chiều đƣợc tách ra từ đối tƣợng
cần truy vấn. Biểu thức truy vấn có thể thay đổi (ví dụ, trọng số...).
Gọi D(P,Q) là hàm khoảng cách về tính tƣơng tự giữa P và Q.
b, Các thao tác:
Thao tác thực hiện chi tiết các mô tả nêu trên bao gồm:
- Chỉ mục
Ban đầu, dữ liệu trong cơ sở dữ liệu đƣợc tiền xử lý để trích chọn đặc
trƣng và đƣợc chỉ số hóa dựa trên cơ sở đặc trƣng và ngữ nghĩa. Kết quả đƣợc
vectơ đặc trƣng của dữ liệu đó.
- Truy vấn
Khi ngƣời sử dụng truy vấn thông tin thì câu truy vấn thông tin của
ngƣời sử dụng đƣợc trích chọn các đặc trƣng chính. Kết quả đƣợc vectơ truy
vấn.
- Đo tính tƣơng tự
Các đặc trƣng của vectơ đặc trƣng trong cơ sở dữ liệu và vectơ truy vấn
đƣợc đem ra so sánh, giá trị so sánh cho ta khoảng cách d.
- Kết quả
Nếu vectơ đặc trƣng nào trong cơ sở dữ liệu gần với vectơ truy vấn
nhất, tức là khoảng cách d nhỏ nhất thì đƣợc tìm ra và trình diễn cho ngƣời sử
dụng.



14

c, Mô hình:
Mô hình thao tác MMDBMS nêu trên đƣợc thể hiện nhƣ sau:
Cơ sở dữ liệu
đa phƣơng tiện

Truy vấn thông tin

Trích chọn đặc trƣng

Trích chọn đặc trƣng

Vectơ truy vấn: Q

Vectơ đặc trƣng: P

Tìm kiếm tính tƣơng tự
(Đo khoảng cách D(P,Q))

Kết quả (danh sách các kết quả
có giá trị d nhỏ nhất)

Hình 1. Mô hình thao tác MMDBMS
d, Tính chất:
Cho P và Q là hai đối tƣợng trong không gian Metric. Khoảng cách
D(P,Q) đo tính tƣơng tự của P và Q có một số tính chất sau đây:
- Tính đối xứng (Symmetry):

D(P,Q) = D(Q,P)


- Tính bất biến (Constancy of Self- Similarity):

D(P,P) = 0

- Tính tuyệt đối (Positivity):

D(P,Q)>0 nếu P Q

- Tính không đều tam giác (Triangular Inequality): D(P,Q)  D(P,O)+D(Q,O)
1.1.3.2. Các kiểu truy vấn
MMDBMS thƣờng sử dụng ngôn ngữ truy vấn SQL, ví dụ:


15

Open Database "MMBook";
Play VideoDevice,
Book="Jaws",
Scene("Rating=PG13"),
Clip;
Play VideoDevice,
Book("Type=Adventure"),
Clip
Where Like("Shark");
Về phƣơng pháp, MMDBMS thƣờng áp dụng một số loại truy vấn sau
đây:
 Truy vấn dải (Range Query)
Mục đích của phƣơng pháp truy vấn dải là tìm các đối tƣợng trong cơ
sở dữ liệu, cho phép có giá trị sai số  chấp nhận đƣợc. Truy vấn dải đƣợc mô

tả nhƣ sau:
- Ngƣời dùng đặc tả một đối tƣợng truy vấn Q và một sai số  chấp
nhận đƣợc.
- Hệ thống tìm ra các đối tƣợng nào trong tập hợp có khoảng cách trong
giới hạn  từ đối tƣợng truy vấn.
O
P

D(P,O)

Q


D(P,Q)

Hình 2. Minh họa phương pháp truy vấn dải
Loại bỏ P nếu D(P,Q) > , loại bỏ O nếu D(P,Q)-D(P,O)>
do D(O,Q)>=D(P,Q)-D(P,O).


16

Tuy nhiên, kiểu truy vấn dải có nhƣợc điểm là có thể hoặc đƣa ra quá
nhiều, hoặc không đƣa ra kết quả nào nếu giá trị sai số  không hợp lý, xem
hình minh hoạ dƣới đây:

Hình 3. a, quá nhiều kết quả

b, không có kết quả


 Truy vấn lân cận K gần nhất KNN (K-Nearest- Neighbours query)
Phƣơng pháp truy vấn KNN có thể khắc phục nhƣợc điểm nêu trên của
phƣơng pháp truy vấn dải.
Truy vấn KNN đƣợc mô tả nhƣ sau:
- Ngƣời dùng đặc tả một đối tƣợng truy vấn Q và chấp nhận một số
lƣợng K đối tƣợng.
- Hệ thống tìm kiếm K đối tƣợng tƣơng tự nhất với đối tƣợng truy vấn
từ MMDBMS: K = |A|, ADB, PA, P'DB-A; D(P,Q) D(P',Q)

1st NN
Q
2nd NN
3rd NN

K-th NN

Hình 4. Minh họa phương pháp truy vấn KNN


17



Truy vấn xấp xỉ lân cận K gần nhất (Approximate KNN Query)

Đối với các ứng dụng mà mục tiêu đƣa ra không phải là tìm kết quả
thật chính xác mà xét tốc độ là quan trọng hơn, khi đó phƣơng pháp truy vấn
theo xấp xỉ lân cận K gần nhất cho hiệu quả cao hơn phƣơng pháp KNN nêu
trên. Truy vấn xấp xỉ lân cận K gần nhất mô tả nhƣ sau:
- Ngƣời dùng đặc tả một đối tƣợng truy vấn Q, một số K đối tƣợng và

sai số  chấp nhận đƣợc.
- Hệ thống tìm kiếm xấp xỉ K đối tƣợng tƣơng tự nhất với đối tƣợng
truy vấn từ MMDBMS: K = |A|, ADB, PA, P'DB-A; D(P,Q) 
(1+)D(P',Q)
 Truy vấn phản hồi thích hợp RF (Relevance Feedback)
Truy vấn phản hồi thích hợp là phƣơng pháp dựa trên quyết định của
ngƣời dùng về tính thích hợp của các kết quả, từ đó điều chỉnh truy vấn sao
cho thích hợp. Kiến trúc chung của phƣơng pháp RF đƣợc mô tả nhƣ sau:
người dùng
Giao diện người dùng đồ họa
(GUI):

Cơ sở dữ liệu

- Đƣa ra câu truy vấn
- Xem kết quả
- Chọn lọc kết quả

Truy vấn và phản hồi

Phân tích đối tượng
Trích chọn đặc trưng

Trích chọn đặc trưng
và tiếp thu phản hồi

Sắp xếp các kết quả
và hiển thị

Lọc truy vấn


Mô tả đối tượng
và tổ chức đặc trưng

Off- line

Tìm kiếm tƣơng tự

On-line

Hình 5. Kiến trúc chung của phương pháp RF


18

Phƣơng pháp truy vấn phản hồi thích hợp thƣờng đƣợc áp dụng trong
trƣờng hợp mà các phƣơng pháp truy vấn khác không tìm ra kết quả thỏa mãn
yêu cầu của ngƣời dùng. Các câu truy vấn thích hợp là cách làm tăng hiệu quả
để đem lại kết quả tối ƣu.

1.2. KIẾN TRÚC HỆ THỐNG QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA
PHƢƠNG TIỆN
Phát triển một MMDBMS bao gồm các bƣớc sau:
 Bƣớc 1. Thu thập media
Các dữ liệu media đƣợc thu thập từ các nguồn khác nhau nhƣ ti vi, CD,
www...
 Bƣớc 2. Xử lý media
Mô tả các đoạn trích media và các đặc trƣng của chúng, bao gồm cả lọc
nhiễu và tách thô...
 Bƣớc 3. Lƣu trữ media

Dựa vào yêu cầu cụ thể của ứng dụng để lƣu dữ liệu và các đặc trƣng
của chúng vào hệ thống.
 Bƣớc 4. Tổ chức media
Tổ chức các đặc trƣng để phục vụ việc truy tìm. Ví dụ, chỉ mục các đặc
trƣng với các cấu trúc giúp khai thác hiệu quả.
 Bƣớc 5. Xử lý truy vấn media
Là quá trình làm cho thích nghi với cấu trúc chỉ mục. Thiết kế các giải
thuật tìm kiếm hiệu quả.
Kiến trúc chung cho một MMDBMS đƣợc minh họa nhƣ sau:


19

Trích
chọn đặc
trƣng

Xây dựng
truy vân đặc
trƣng

Chỉ mục

MM
DB
MS

Các đối tƣợng media

nén


Search
engine

truy vấn

kết quả

Xây dựng
truy vấn
phản hồi

Ngƣời
dùng

phản hồi

Hình 6. Kiến trúc chung của một MMDBMS
Hệ thống cơ sở dữ liệu đa phƣơng tiện có nhiều môđun chức năng khác
nhau nhằm hỗ trợ các thao tác trên dữ liệu đa phƣơng tiện. Bao gồm các
môđun chính sau đây:
- Giao diện ngƣời dùng
- Bộ trích chọn đặc trƣng
- Chỉ số hóa và môtơ tìm kiếm
- Quản lý truyền thông
Trong đó, có hai thao tác cơ bản là:
 Bổ sung dữ liệu đa phương tiện mới
Thao tác bổ sung đƣợc thực hiện theo trình tự các bƣớc nhƣ sau:
- Bƣớc 1. Dữ liệu đa phƣơng tiện mới đƣợc bổ sung thông qua
nhiều cách khác nhau nhƣ nhập trực tiếp từ bàn phím, từ microphone

hay từ bất kỳ thiết bị nhập kỹ thuật số khác. Dữ liệu đa phƣơng tiện
cũng có thể đƣợc lấy từ các tệp đã lƣu sẵn.
- Bƣớc 2. Sau khi dữ liệu đa phƣơng tiện đƣợc bổ sung, nội dung
của chúng đƣợc trích chọn bằng công cụ trích chọn đặc trƣng.


20

- Bƣớc 3. Các dữ liệu đa phƣơng tiện đƣợc bổ sung cùng với các
đặc trƣng của nó, thông qua bộ quản lý truyền tin sẽ đƣợc gửi về máy
chủ.
- Bƣớc 4. Tại máy chủ, các đặc trƣng sẽ đƣợc bố trí về các vị trí
phù hợp dựa vào lƣợc đồ chỉ số hóa.
- Bƣớc 5. Các dữ liệu đa phƣơng tiện bổ sung cùng với các đặc
trƣng và chỉ số hóa phát sinh đƣợc lƣu vào bộ quản lý lƣu trữ.
 Truy vấn
Thao tác truy vấn đƣợc thực hiện theo trình tự các bƣớc nhƣ sau:
- Bƣớc 1. Tại giao diện ngƣời dùng, ngƣời sử dụng truy vấn
thông tin thông qua một thiết bị nhập nào đó, thông qua tệp đã đƣợc lƣu trƣớc
đó hoặc có thể lấy trực tiếp từ cơ sở dữ liệu MMDBMS.
- Bƣớc 2. Nếu truy vấn của ngƣời sử dụng không đƣợc lấy trực
tiếp từ cơ sở dữ liệu trong MMDBMS thì thực hiện nhƣ sau:
+ Thực hiện trích chọn đặc trƣng truy vấn
+ Gửi các trích chọn đặc trƣng đó đến máy chủ
+ Môtơ chỉ số hóa sẽ tìm kiếm các mục dữ liệu phù hợp với truy
vấn trong cơ sở dữ liệu
+ Hiển thị kết quả đến ngƣời sử dụng thông qua giao diện ngƣời
dùng.
1.3. MỘT SỐ HỆ THỐNG CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN
HIỆN CÓ

1.3.1. Quá trình phát triển
Kể từ khi hệ thống cơ sở dữ liệu đa phƣơng tiện ORION đầu tiên ra đời
và phát triển vào năm 1987, các phạm vi và ứng dụng về cơ sở dữ liệu đa
phƣơng tiện đã trải qua sự phát triển to lớn.


×