Tải bản đầy đủ (.pdf) (2 trang)

041_Tìm kiếm văn bản và ảnh trên cơ sở nội dung trong CSDL đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (270.57 KB, 2 trang )

- 18 -
TÌM KIẾM VĂN BẢN VÀ ẢNH TRÊN CƠ SỞ NỘI DUNG TRONG CƠ SỞ
DỮ LIỆU ĐA PHƯƠNG TIỆN



Vũ Minh Hiếu - MSV: 0121902
Lê Khánh Dương –MSV: 0121841
Email:

Cán bộ hướng dẫn: PGS.TS. Đặng Văn Đức

1. Giới thiệu
Hiện nay bất kỳ một tổ chức nào khi xây
dựng cơ sở dữ liệu cho mình cũng phải tính đến
việc cho phép hệ thống có khả năng mở rộng
đối với dữ liệu đa phương tiện (trong phạm vi
Khóa luận này chỉ đề cập tới hai loại dữ liệu là
văn bản và ảnh), cùng với nó là vấn đề xử lý và
hỗ trợ chỉ mụ
c nhằm khai thác hiệu quả cơ sở
dữ liệu của tổ chức, để đạt mục đích đó cần xây
dựng các cơ sở lý thuyết về CSDL đa phương
tiện. Đó cũng là mục đích mà Khóa luận này
hướng tới.
2. Khái quát về cơ sở dữ liệu đa phương
tiện.
Dữ liệu đa phương tiện có tính chất và yêu
cầu đặc biệt, khác xa với loại dữ liệu chữ và số.
CSDL truyền thống không phù hợp trong việc
quản lý dữ liệu đa phương tiện. Các kỹ thuật


truy tìm thông tin có thể giúp truy tìm đa
phương tiện nhưng chúng chưa có khả năng
quản lý hiệu quả dữ liệu đa phương tiện.
Vì vậy, một kỹ thuậ
t mới dựa trên việc kết
hợp các kỹ thuật quản trị cơ sở dữ liệu DBMS,
IR (Hệ thống tự động truy tìm thông tin) và
truy vấn trên cơ sở nội dung để tạo thành Hệ
thống chỉ mục và truy tìm thông tin đa phương
tiện MIRS (Multimedia Indexing & Retrieval
System), một MIRS đầy đủ được gọi là Hệ quản
trị CSDL đa phương tiện. Trên cơ sở
nghiên
cứu mô hình và nguyên tắc hoạt động của
MIRS cung cấp cho ta cái nhìn tổng quan về
một hệ quản trị cơ sở dữ liệu đa phương tiện và
thấy được vai trò quan trọng của việc xử lý, lưu
trữ và truy vấn dữ liệu đa phương tiện.
3. Các vấn đề chỉ mục và truy vấn dữ liệu
đa phương tiện.
Tài nguyên lưu trong cơ sở dữ liệu được
đánh chỉ mục hỗ trợ truy vấn, đó cũng là một
yêu cầu cơ bản đối với mọi cơ sở dữ liệu. Các
dữ liệu đa phương tiện thường rất lớn vì vậy
vấn đề xử lý dữ liệu trước khi đánh chỉ mục là
một giải pháp hữu hiệu nhằm gi
ảm không gian
lưu trữ và tăng tốc độ tìm kiếm. Các kỹ thuật
nén dữ liệu văn bản và ảnh hiện nay đã phát
triển rất phong phú cả về mặt thuật toán lẫn

phạm vi áp dụng. Kỹ thuật chỉ mục dữ liệu đã
đạt được những tiến bộ vượt bậc, một trong
những minh chứng thuyết phục nhất là máy tìm
kiếm Google vớ
i hệ thống chỉ mục cho hơn một
tỉ trang web đã đem lại lợi ích vô cùng to lớn
trong việc tìm kiếm dữ liệu. Vì vậy, nghiên cứu
kỹ thuật chỉ mục dữ liệu và các phương pháp
truy vấn là một trong những nội dung chính của
Khóa luận này.
1) Nén dữ liệu văn bản và ảnh
Các kỹ thuật nén dữ liệu văn bản đã phát
triển trong vòng vài thập kỷ qua, t
ừ kỹ thuật
nén Huffman, Arithmetic, nén từ điển,… đã
đem lại những hiệu quả to lớn trong thực tế.
Các kỹ thuật nén ảnh cũng đem lại những
kết quả khả quan với tỉ lệ nén có thể tới 80:1
(chuẩn JPEG) đã mở ra một hướng mới trong
việc lưu dữ liệu ảnh trong các cơ sở dữ liệu đa
phương tiệ
n, cũng như những ứng dụng trong
nhiều lĩnh vực của cuộc sống.
2) Truy tìm văn bản và ảnh trên cơ sở
nội dung
Trích chọn đặc trưng dữ liệu đa phương tiện
luôn là bài toán khó. Sự trừ tượng của dữ liệu
đa phương tiện trên phương diện thể hiện đặc
trưng của nó khiến cho việc chỉ mục đối với d


liệu đa phương tiện luôn là vấn đề phức tạp và
đòi hỏi nhiều công sức. Bản thân một loại dữ
liệu đa phương tiện đã chứa đựng nhiều kỹ
thuật khác nhau về trích trọn đặc trưng.
Thí dụ, với dữ liệu ảnh có thể dựa vào mô tả
văn bản, cơ sở màu, biểu đồ màu, cơ sở hình
dạ
ng hay dựa vào các biến đổi rời rạc…để trích
trọn đặc trưng của ảnh.
Một vấn đề khác cũng rất quan trọng là tổ
chức chỉ mục cho tài nguyên của CSDL đa
phương tiện từ những đặc trưng của nó. Một kỹ
thuật phổ biến đang được dùng cho các máy
tìm kiếm hiện nay là sử dụng tệp chỉ mục. Đây
- 19 -
là một trong những nội dung chính của Khóa
luận này.
Cùng với kỹ thuật chỉ mục, kỹ thuật truy vấn
dữ liệu văn bản và ảnh trên cơ sở nội dung cũng
được đề cập tới với hai kỹ thuật chính đang phổ
biến hiện nay là Boolean và Ranked.

4. Môđun thử nghiệm.
Dựa vào các cơ sở lý thuyết đã trình bày
trong Khóa luận, chúng em đã tiến hành xây
dựng hai môđun thử nghiệm về nén dữ liệu văn
bản và truy tìm văn bản trên cơ sở nội dung.
Môđun nén dữ liệu văn bản sử dụng thuật
toán nén Huffman.
Môđun truy tìm văn bản sử dụng kỹ thuật

chỉ mục nội dung ( tệp chỉ mục) và kỹ thuậ
t
truy vấn Boolean.

5. Kết luận
Trong Khóa luận này, đã trình bày các cơ sở
lý thuyết liên quan đến cơ sở dữ liệu đa phương
tiện, các kỹ thuật nén, chỉ mục và truy vấn dữ
liệu. Với các môđun thử nghiệm nhỏ cho kết
quả phù hợp với các cơ sở lý thuyết đã trình
bày.
Các vấn đề cần tiếp tục nghiên cứu: Hoàn
thiện tiếp các cơ sở lý thuyết liên quan đến hai
loại d
ữ liệu video và audio.
Tài liệu tham khảo
[1] I.H. Witten, A. Moffat and T.C. Bell,
Managing Gigabytes. 2
nd
ed. Morgan
Kaufmann, 1999.
[2] Sangoh Jeong, Histogram-Based Color
Image Retrieval,


×