Tải bản đầy đủ (.pptx) (42 trang)

Cơ sở dự liệu đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (295.83 KB, 42 trang )

CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN

Nguyễn Văn Tỉnh
Bộ môn Công nghệ đa phương tiện
Khoa Công nghệ thông tin
Trường Đại học Công nghiệp Hà Nội
Email: Mobile:
(+84)904195099

4/14/18


CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN






Chương 1: Giới thiệu chung về CSDL ĐPT
Chương 2: Các loại dữ liệu đa phương tiện
Chương 3: Nén dữ liệu đa phương tiện
Chương 4: Kiến trúc hệ CSDL ĐPT
Chương 5: Siêu dữ liệu cho CSDL ĐPT

4/14/18

2


Chương 1. Giới thiệu chung về CSDL ĐPT








Mở đầu
Khái niệm dữ liệu đa phương tiên
Đặc trưng của các đối tượng đa phương tiện
Cấu trúc lưu trữ CSDL ĐPT
Ngôn ngữ thao tác CSDL ĐPT

4/14/18

3


Mở đầu






Các nghiên cứu và phát triển về CSDL ĐPT nhằm
vào truyền thông và thể hiện dữ liệu đa phương
tiện, xác định quyền tác giả.
HQTCSDL ĐPT cũng giống HQTCSDL truyền
thống , khác là dữ liệu phức tạp hơn.
Xây dựng chỉ số hóa và tìm kiếm đa phương tiện

là mục đích chính của CSDL ĐPT

4/14/18

4


Mở đầu

4/14/18

5


Mở đầu
Các đặc tính chung của dữ liệu multimedia bao gồm:
 Thiếu cấu trúc: Các dữ liệu multimedia có khuynh hướng phi cấu trúc
vì vậy các công việc quản trị dữ liệu chuẩn như chỉ số hoá, tìm kiếm
nội dung, truy vấn dữ liệu thường là không áp dụng được.
 Tính tạm thời: Một vài kiểu dữ liệu multimedia như là Video, âm
thanh và hoạt hình đều phụ thuộc vào yếu tố thời gian liên quan mật
thiết đến việc lưu trữ, thao tác và mô tả chúng.
 Có dung lượng lớn: các dữ liệu video và âm thanh thường đòi hỏi các
thiết bị lưu trữ lớn.
 Các ứng dụng hỗ trợ: các dữ liệu phi chuần có thể đòi hỏi các quy
trình xử lý phức tạp như việc sử dụng các thuật toán nén dữ liệu đối
với các ứng dụng CSDL multimedia.

4/14/18


6


Chương 1. Giới thiệu chung về CSDL ĐPT






Mở đầu
Khái niệm dữ liệu đa phương tiên
Đặc trưng của các đối tượng đa phương tiện
Cấu trúc lưu trữ CSDL ĐPT
Ngôn ngữ thao tác CSDL ĐPT

4/14/18

7


Khái niệm dữ liệu đa phương tiện





Kiểu dữ liệu và đa phương tiện
CSDL và HQT CSDL
Tìm kiếm thông tin tư liệu văn bản

Tìm kiếm và chỉ số hóa đa phương tiện

4/14/18

8


Kiểu dữ liệu đa phương tiện


Định nghĩa:








4/14/18

Phương tiện (media): nhằm đến các thông tin hay kiểu dữ liệu thể
hiện thông tin như dữ liệu số, chữ, hình ảnh, âm thanh, video.
Phương tiện tĩnh (static media): là phương tiện ko có chiều thời
gian. Nội dung và ý nghĩa của chúng không phụ thuộc vào thời
gian thể hiện.
Phương tiện động (Dynamic media): Phương tiện có chiều thời
gian, với ý nghĩa và tính chính xác tùy thuộc vào tốc độ thể hiện
Dữ liệu đa phương tiện (multimedia data): dữ liệu hướng đến
máy , đọc được của các kiểu dữ liệu multimedia


9


Cơ sở dữ liệu và hệ quản trị CSDL




Cơ sở dữ liệu: Tập hợp dữ liệu được tổ chức, lưu
trữ, xử lý theo một cách thức nào đó.
Định nghĩa: Hệ QTCSDL là phần mềm cho phép
mô tả, lưu trữ và xử lý các dữ liệu một cách khoa
học

4/14/18

10


Truy vấn thông tin tài liệu văn bản






Hệ thống truy vấn thông tin tự động hoá (IR) được phát
triển để giúp quản lý một khối lượng với các tài liệu khoa
học đã được tạo lập từ những năm 1940.

Chức năng chính của một hệ thống IR là lưu trữ và quản lý
một số rất lớn các tài liệu văn bản theo cách sao cho các tài
liệu thích hợp với việc sử dụng các truy vấn để truy vấn
nhanh.
Chú ý rằng việc truy vấn thông tin tự động của các từ được
tạo ra bằng chữ đầu của những từ khác là nhằm vào việc
truy vấn các tài liệu văn bản, mặc dù thuật ngữ đầy đủ là
truy vấn thông tin có thể hiểu là truy vấn một loại thông tin
nào đó.

4/14/18

11


Truy xuất và chỉ số hóa multimedia








Các DBMS truy xuất các chỉ mục dựa trên số liệu có cấu
trúc khi sử dụng truy vấn chính xác.
MIRS đề cập đến một hệ thống cơ sở cung cấp việc truy
xuất thông tin multimedia khi sử dụng một tổ hợp DBMS,
IR và các kỹ thuật truy xuất dựa trên nội dung.
Trong một MIRS, một vài vấn đề như phiên bản và điều

khiển an toàn có thể không thực hiện được đầy đủ.
Một hệ quản trị truy vấn dữ liệu multimedia được gọi là
MDBMS.

4/14/18

12


Trích rút đặc trưng, biểu diễn nội dung
và chỉ số hóa






Trong các MIRS, một trong những vấn đề quan trọng nhất
là trích rút đặc trưng hoặc biểu diễn nội dung Trích rút đặc
trưng có thể là quá trình tự động hay bán tự động.
Trong một vài tài liệu truy xuất dựa vào nội dung, trích rút
đặc trưng cũng được gọi là chỉ số hoá.
Quy ước chung là khi mà thuật ngữ “chỉ số” được sử dụng
như một danh từ, điều đó có nghĩa là đề cập tới cấu trúc dữ
liệu hoặc việc tổ chức những đặc trưng đã được trích rút để
nghiên cứu và truy xuất tốt nhất.

4/14/18

13



Chương 1. Giới thiệu chung về CSDL ĐPT





Mở đầu
Các kiểu media và multimedia
Sự cần thiết của MIRS
Tổng quan về MIRS

4/14/18

14


Sự cần thiết của MIRS







MIRS: Multimedia Information Retrieve System.
dữ liệu multimedia đang được dùng ngày càng nhiều và
đang được phát triển mạnh mẽ. Để sử dụng thông tin đó
(chứa trong dữ liệu đó), đòi hỏi có một hệ thống truy xuất

và chỉ số hoá hiệu quả và có hiệu lực.
Dữ liệu multimedia có những đặc tính và những yêu cầu
đặc biệt có sự khác biệt lớn với dữ liệu thuần văn bản. Bởi
vậy, DBMS truyền thống không thích hợp cho việc xử lý
dữ liệu multimedia.
Mặc dù các kỹ thuật IR có thể giúp chúng ta trong việc
truy xuất multimedia nhưng chỉ một mình chúng thì chưa
đủ để xử lý dữ liệu multimedia một cách có hiệu quả.

4/14/18

15


Sự cần thiết của MIRS






Sự phát triển về dữ liệu Multimedia và các đặc trưng của
nó.
Các DBMS và vai trò của chúng trong việc xử lý dữ liệu
mutimedia.
Hệ thống IR và vai trò của nó trong việc truy xuất
multimedia

4/14/18


16


Sự phát triển về dữ liệu Multimedia và
các đặc trưng của nó





Hiện nay chúng ta đang tập trung khai phá thông tin multimedia.
Một số lượng lớn các hình ảnh y tế đang được tạo ra hàng ngày và các
vệ tinh đang đưa về các hình ảnh nhiều hơn, từ các lý do này cần phải
phát triển mạnh các kỹ nghệ lưu trữ và truy vấn thông tin kỹ thuật số
Việc lập ra một chỗ chứa đối với lượng lớn thông tin multimedia ngày
càng tăng, điều này sẽ không thể tối ưu việc sử dụng thông tin
multimedia này trừ khi nó được tổ chức để truy xuất nhanh theo yêu
cầu.

4/14/18

17


Sự phát triển về dữ liệu Multimedia và
các đặc trưng của nó








Có những đặc trưng chính của dữ liệu multimedia như sau:
Dữ liệu multimedia, nhất là âm thanh và video, là dữ liệu
có dung lượng lớn. Ví dụ, một video 10’ trung bình chiếm
1,5 GB chưa nén.
Âm thanh và video có chiều thời gian. Ảnh tĩnh và text
không có chiều thời gian.
Âm thanh số, ảnh và video được biểu diễn không theo 1
cấu trúc cụ thể và thiếu cấu trúc ngữ nghĩa rõ ràng cho
máy tính để tự động hoá nhận biết nội dung.

4/14/18

18


Sự phát triển về dữ liệu Multimedia và
các đặc trưng của nó






Nhiều ứng dụng multimedia đòi hỏi việc biểu diễn đồng
thời các kiểu media đa dạng theo cách kết hợp không gian
và thời gian.
Ý nghĩa của dữ liệu multimedia đôi khi rất mờ và có tính

chủ quan. Ví dụ, mỗi người có cách giải thích cùng 1 bức
tranh theo cách khác nhau hoàn toàn riêng
Dữ liệu multimedia là giàu về thông tin, nhiều tham số cho
nên rất khó khăn để trình diễn đầy đủ nội dung của nó.

4/14/18

19


Các DBMS và vai trò của chúng trong
việc xử lý dữ liệu Multimedia


Các DBMS ngày nay được xây dựng khá tốt và được sử dụng rộng rãi
đối với dữ liệu có cấu trúc.

Create table STUDENT(
stu# integer,
name char(20),
address char(100)
)
Create type IMAGE(
Private
Size integer,
Resolution integer,
Content float[ ],
publlic
...
);

4/14/18

Create table STUDENT(
Stu# integer,
Name char(20),
address char(100),
Picture BLOB
)
Create table STUDENT(
Stu# integer,
Name char(20),
Address char(100)
Picture IMAGE
);
20


Các DBMS và vai trò của chúng trong
việc xử lý dữ liệu Multimedia




Các BLOB bình thường chỉ là xâu bit lớn và hoạt động bằng việc so
sánh chứ không lưu trữ chúng ở bên ngoài RDBMS. Đó là vì RDBMS
không biết nội dung hoặc ngữ nghĩa của một BLOB. Tất cả BLOB
được hiểu như là một khối dữ liệu.
Các khái niệm về các BLOB và các đối tượng là một bước gần với xử
lý dữ liệu multimedia. Nhưng các BLOB được sử dụng chỉ để lưu dữ
liệu có khối lượng lớn


4/14/18

21


Hệ thống IR và vai trò của nó trong việc
truy xuất multimedia




Ngoài các DBMS, có loại hệ thống quản lý thông tin khác
tập trung vào việc truy xuất tài liệu văn bản. Loại hệ thống
này được gọi là hệ thống truy xuất thông tin (IR).
Kỹ thuật IR khá quan trọng trong hệ thống quản lý thông
tin multimedia vì hai lý do chính.




4/14/18

Một là hiện nay đang tồn tại một lượng lớn các văn bản trong
nhiều định dạng khác nhau.
Hai là, văn bản có thể được sử dụng để chú giải các media khác
như âm thanh, hình ảnh, video thông qua các keyword (Từ khóa).

22



Hệ thống IR và vai trò của nó trong việc
truy xuất multimedia


Việc sử dụng văn bản để biểu diễn các media khác gặp
phải một số nhược điểm sau:






4/14/18

Việc chú giải nhìn chung phải làm bằng tay và tiêu tốn thời gian
Văn bản chú giải chưa đầy đủ và còn mang tính chủ quan
Các kỹ thuật IR không thể điều khiển các câu hỏi từ văn bản khác
(như âm thanh và hình ảnh).
Một vài đặc tính của multimedia như bố cục hình ảnh và các dạng
đối tượng là khác nhau, nếu không thì cũng chỉ là cùng mô tả một
văn bản.

23


Cách tiếp cận tích hợp việc truy xuất và
chỉ số hoá thông tin multimedia





DBMS và IR vẫn đóng vai trò quan trọng trong các
MDBMS
Tích hợp tổ hợp các DBMS với IR, và các kỹ thuật đặc tả
để xử lý dữ liệu multimedia được đòi hỏi để phát triển
MIRS hiệu quả tối ưu nhất.

4/14/18

24


Tổng quan về MIRS






Các đối tượng thông tin trong cơ sơ dữ liệu đa phương tiện
đã được xử lý trước để rút ra các đặc trưng riêng của đối
tượng, các đối tượng này được chỉ rõ dựa trên các đặc
trưng này.
Trong quá trình truy vấn thông tin, các câu hỏi của người
sử dụng được xử lý và các đặc trưng chính được rút ra
Các đặc trưng này sau đó được đối sánh với các đặc trưng
đã được lưu trữ trong cơ sở dữ liệu. Sau khi đối sánh độ
tương đồng, hệ thống MIRS sẽ truy xuất các đối tượng
thông tin tương tự với các câu hỏi mà người sử dụng yêu

cầu.

4/14/18

25


×