Tải bản đầy đủ (.pdf) (6 trang)

MultiBooks - Tổng hợp IT - PC part 6 pptx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (219.91 KB, 6 trang )



« Previous | Next »
Tài liệu tham khảo
1. Multimedia và ứng dụng trong thực tiễn, NXB Thống Kê, Nguyễn Thế
Hùng.
2. Multimedia và ứng dụng, NXB Thống Kê, song ngữ Anh-Việt.<! [endif] >
3. E-learning - Hệ thống đào tạo từ xa, NXB Thống kê.
4. Nhập môn xử lý ảnh , Lương Mạnh Bá.
5. Truyền hình số có nén và Multimedia, NXB Khoa học và kỹ thuật, Trần
Trọng Kim.
6. Fred T.Hofstetter University of Delaware, Multimedia Literacy, McGraw-
Hill.
7. V.S.Subrahmanian, Principles of Multimedia Database System, Morgan
Kaufmann Publishers Inc.
8. Tay Vaughan, Multimedia: Making it work, Fifth Edition. McGraw-Hill.
9. Interractive Multimedia Design, YOSHIKO OGURA
Đọc thêm
1. Tập bài giảng về Hệ quản trị cơ sở dữ liệu đa phương tiện-Thầy: Đặng
Đình Đức, Viện công nghệ thông tin.
2. Tập bài giảng Multimedia-Nhóm giáoviên, CNT-ĐHTN
3. Interactive Multimedia Design, Yoshiko Ogura, Kmitnb, Facalty of IT
Đọc thêm
I. Tập bài giảng về Hệ quản trị cơ sở dữ liệu đa phương tiện-Thầy: Đặng Đình
Đức, Viện công nghệ thông tin.
1 Mục lục
1.1. Chương 1- Mở đầu
1.2. Chương 2-Cấu trúc dữ liệu đa chiều
1.3. Chương 3 - Cơ sở dữ liệu ảnh
1.4. Chương 4 - Cơ sở dư liệu văn bản
MỤC LỤC



Chương 1. Mở đầu 1-1

Chương 2. Cấu trúc dữ liệu đa chiều 2-1

Chương 3. Cơ sở dữ liệu ảnh 3-1

Chương 4. Cơ sở dữ liệu văn bản/tài liệu 4-1

Chương 5. Cơ sở dữ liệu video 5-1

Chương 6. Cơ sở dữ liệu âm thanh 6-1

Chương 7. Cơ sở dữ liệu đa phương tiện 7-1

Chương 8. Truy vấn dữ liệu đa phương tiện trên đĩa từ 8-1

Chương 9. Truy vấn dữ liệu đa phương tiện trên CD-ROM 9-1

Chương 10. Truy vấn dữ liệu đa phương tiện trên băng từ 10-1

Chương 11. Xây dựng và trình diễn đa phương tiện phân tán 11-1

Chương 12. Các máy chủ media phân tán 12-1


Chương 1
MỞ ĐẦU
Ngay từ ban đầu, máy tính đã được coi là các thiết bị xử lý biểu tượng (symbolic) -
các thiết bị có đầu vào là các biểu tượng theo luật alphabet và đầu ra là tập các

biểu tượng của cùng dạng trên. Điều này đã trở thành mô hình cho các môi trường
tính toán chuẩn dựa trên cơ sở máy Turing đã quen thuộc.
Tuy nhiên, trong những năm gần đây xuất hiện nhu cầu vô cùng lớn về khả năng
khai thác và xử lý dữ liệu với số lượng khổng lồ mà nó là điều không dễ dàng diễn
tả chỉ với việc sử dụng các ký tự. Dưới đây là một số thí dụ về các kiểu dữ liệu như
vậy:
· Dữ liệu hình ảnh (Image data): Ví dụ chẳng hạn một học viên phẫu thuật ở
Miami mong muốn thực hành một ca phẫu thuật trên một bệnh nhân ảo có những
triệu chứng sinh lý nào đó. Trên thực tế để tìm ra bệnh nhân với những triệu chứng
mong muốn, học viên phẫu thuật phải truy vấn cơ sở dữ liệu (CSDL) ảnh phân tán
và kích thước lớn chứa ảnh X quang hay MRI (Magnetic Resonance Imaging) của
các bệnh nhân với các triệu chứng tương tự. Đôi khi các triệu chứng có thể dễ dàng
mô tả bằng văn bản. Tuy nhiên trong nhiều trường hợp khác, nó có thể dễ dàng hơn
cho học viên phẫu thuật nếu có thể trình diễn hình ảnh của loại mẫu (pattern) mà
anh ta đang tìm kiếm trong các ảnh X quang của bệnh nhân. Trong cả hai trường
hợp này, một CSDL hình ảnh phải được duy trì. Nó có thể được truy vấn trên cơ sở
các tiêu chí rất khác nhau - đầu vào là văn bản hay ảnh phù hợp (matching).
· Dữ liệu Video (Video data): Trong một ngữ cảnh tương tự, một ai đó mong
muốn có những bài giảng bằng băng hình về một chủ đề kỹ thuật nào đó (thí dụ,
PR-Quadtrees). Điều này đòi hỏi phải truy vấn thư viện băng hình mà nó bao gồm
tập hợp vô số các băng hình với nội dung kỹ thuật. Ví dụ Trường đại học Maryland
đề nghị các khóa học mới sẽ sử dụng kết nối vệ tinh nhân tạo đến các vị trí khác
nhau trên các quốc gia. Trong tương lai, các băng hình được tạo ra theo cách này
có thể được xâm nhập bằng máy tính, tạo sẵn cho sinh viên các tài liệu khoá học
phục vụ trong nhiều năm với nhiều chủ đề và nhiều thày giáo khác nhau. Việc truy
vấn của sinh viên đòi hỏi xâm nhập số lượng lớn băng hình liên quan đến PR-
Quadtrees.
· Dữ liệu âm thanh (Audio data): Một sinh viên học về lịch sử đang nghiên cứu
về Ai Cập cổ đại mong muốn tiếp cận với một vài cuộc phỏng vấn trước đây trên
đài phát thanh của những người Ai Cập nổi tiếng (thí dụ William Flinders Petrie)

để có thể biết chi tiết về những khám phá của họ về những nơi ở khác nhau của
người Ai Cập. Có lẽ một khía cạnh nghiên cứu của anh ta liên quan đến một vấn đề
đã tồn tại từ lâu gây tranh cãi trong nhiều năm giữa Petrie và Gardiner. Trong
trường hợp này anh ta mong muốn tiếp cận với những băng audio cũ có nội dung
liên quan đến lĩnh vực Ai Cập học. Thí dụ tương tự, nỗ lực điều tra của cảnh sát về
dấu vết của kẻ đe doạ đánh bom mong muốn có khả năng nhận dạng giọng nói
tương ứng với tín hiệu từ điện thoại của kẻ đó thông qua CSDL lưu giữ các mẫu
giọng nói của các tổ chức khủng bố khác nhau.
· Dữ liệu tài liệu (Document data): Một CSDL văn bản truyền thống bao gồm
các đoạn văn bản, các từ, câu, đoạn văn, chương… Một CSDL tài liệu khác văn
bản ở chỗ nó không chỉ chứa các thông tin dạng văn bản thô mà còn chứa đựng cả
cấu trúc và hình ảnh nhúng. Thí dụ, dữ liệu tài liệu được tạo ra, chèn vào và phục
hồi nhờ sử dụng các ngôn ngữ đánh dấu chuẩn như HTML hay SGML. Trong các
trường hợp như vậy cấu trúc của tài liệu có thể được khai thác dựa trên mục lục dữ
liệu. Cách khác, giả sử chúng ta xem xét một quyển sách. Quyển sách không chỉ
chứa dữ liệu văn bản mà còn chứa cả hình ảnh. Một số hình ảnh có thể là những
hình vẽ trong khi một số khác là những bức ảnh. Giả sử người sử dụng tìm một bức
ảnh của hoàng đế Mughal tên là Akbar nhưng không thể tìm ảnh trong CSDL hình
ảnh. Tuy nhiên, nếu anh ta có một thư viện điện tử số để truy cập thì anh ta có thể
tìm thấy bức ảnh mong muốn nhờ xem xét kỹ những cuốn sách liên quan về lịch sử
Ấn Độ. Như vậy, dữ liệu tài liệu bao gồm phương tiện quan trọng mà trong đó các
thông tin có thể được lưu trữ dưới dạng điện tử.
· Dữ liệu viết bằng tay (Handwritten data): Nhiều người trong chúng ta
thường ghi những ghi chú trên những mẩu giấy nhỏ, điều này thường gây mất
thông tin khi chúng ta giặt quần áo hay vì một lý do nào đó mà những gì chúng ta
ghi bị mờ đi. Một số ghi chú có thể là không quan trọng, nhưng có rất nhiều cái cần
được giữ gìn. Xu thế gần đây cả trên thương trường hay trong giới nghiên cứu
người ta cho rằng ghi chép điện tử ngày càng phổ biến hơn trong tương lai. Người
sử dụng sẽ sử dụng các thiết bị điện tử để ghi chép và lưu trữ. Mặc dù có rất nhiều
ghi chú có thể chuyển sang được dạng mã văn bản ASCII bằng kỹ thuật phân tích

viết tay, nhưng có rất nhiều ghi chú không thể thực được bởi vì các ghi chú thường
chứa cả các nét loằng ngoằng hay các biểu đồ khối… Người sử dụng sử dụng ghi
chép điện tử mong muốn trong tương lai có thể đưa ra các truy vấn như “Tìm mọi
đoạn tài liệu được thực hiện vào tháng 1-1998 liên quan đến John Smith”. Truy
vấn như vậy có thể được thực hiện dễ dàng nhờ chỉ số hoá tập hợp các ghi chú theo
nội dung của chúng.
Các kiểu dữ liệu liệt kê trên đây chỉ là một phần trong rất nhiều hình thức biểu hiện
của dữ liệu phát sinh tự nhiên trong các ứng dụng khác nhau. Một minh chứng là
chỉ với việc xem xét dữ liệu hình ảnh chúng ta đã phải đương đầu với lượng các
định dạng của nó (ví dụ như: GIF, TIFF, PCX…). Tình hình tương tự cũng xảy ra
đối với việc mô tả các kiểu dữ liệu khác.
Một cách phi hình thức, hệ thống quản trị cơ sở dữ liệu đa phương tiện
(Multimedia Database Management System - MMDBMS) là một khung làm việc
để quản lý các kiểu dữ liệu khác nhau mà chúng được thể hiện trong rất nhiều
khuôn dạng khác nhau. Để làm việc thành công thì một MMDBMS phải có các
khả năng sau:
· Nó phải có khả năng truy vấn đồng bộ dữ liệu (dữ liệu media và dữ liệu văn
bản) được thể hiện trong các định dạng khác nhau. Thí dụ, một MMDBMS sẽ có
khả năng truy vấn và tích hợp dữ liệu mà nó được lưu trong các CSDL quan hệ
khác nhau (ví dụ: PARADOX, DBASE ) mà có thể sử dụng các lược đồ khác
nhau, cũng như việc truy vấn tệp phẳng và dữ liệu lưu trữ trong DBMS hướng đối
tượng hay DBMS không gian. Việc xử lý các truy vấn như vậy là khá phức tạp bởi
vì trên thực tế việc nhận biết được nội dung (content) của các kiểu dữ liệu media là
vấn đề thách thức và nó phụ thuộc rất nhiều vào kiểu dữ liệu và cách thức lưu trữ
chúng. Cuối cùng, truy vấn có thể mở rộng đối với nhiều kiểu vật mang (media) dữ
liệu và MMDBMS phải có khả năng kết hợp các kết quả từ các nguồn dữ liệu khác
nhau và các kiểu media khác nhau.
· Tương tự, phải có khả năng truy vấn dữ liệu biểu diễn trong media khác
nhau. Ví dụ một MMDBMS phải có khả năng truy vấn không chỉ trong CSDL hình
ảnh mà còn cả trong CSDL âm thanh và CSDL quan hệ, sau đó kết hợp các kết quả

với nhau.
· MMDBMS phải có khả năng khai thác các đối tượng mang tin (media) từ
một thiết bị lưu trữ cục bộ một cách trơn tru, không có jitter (phải liên tục). Bởi vì
các đối tượng mang tin (Video, âm thanh ) thường chiếm một không gian vô cùng
lớn. Thí dụ nó có thể chiếm đến 10 Gigatebytes bộ nhớ do vậy những dữ liệu dạng
này cần được lưu trữ trong các bộ nhớ ngoài (Disk, CD-ROM, Floppy ) hay tổ
hợp các thiết bị đó.
· MMDBMS phải có khả năng tạo ra các câu trả lời từ truy vấn (khái
niệm “answer to a query ” được coi như cấu trúc toán học) và có khả năng trình
diễn các câu trả lời này bằng các phương tiện nghe nhìn. Mặc dù vậy, hình thức và
nội dung của trình diễn có thể khác nhau từ ứng dụng này đến ứng dụng khác, do
đó người sử dụng phải xác định được cấu trúc của hình thức và nội dung của các
trình diễn kết quả thu được từ hệ thống.
· Điều cuối cùng là mỗi một hệ thống có đầy đủ các đặc tính yêu cầu trên là
chưa đủ mà còn cần phải có khả năng phân phối các trình diễn theo một cách nào
đó nhằm thoả mãn các yêu cầu khác nhau về chất lượng thể hiện của các thiết bị.
Ví dụ, nếu MMDBMS quyết định rằng một luồng dữ liệu âm thanh và một luồng
dữ liệu Video phải được thể hiện cùng một lúc, để làm được việc đó MMDBMS
phải đảm bảo được rằng sự thể hiện này không bị ảnh hưởng do hiện tượng như
jitter hay trục trặc nào đó. Một điều quan trọng hơn là MMDBMS phải quan tâm
tới việc dữ liệu đang được phân phối cho các thiết bị ra liên quan (loa, bàn phím,
màn hình…) mà chúng có thể để tập trung tại các nút mạng phân tán. Do đó, các
nhân tố như khả năng sẵn sàng của vùng đệm và độ rộng băng thông cần được lưu
tâm khi phân phát trình diễn tới người sử dụng. Hơn nữa, đòi hỏi về chất lượng
dịch vụ cho biết rằng các tính chất hiệu năng khác nhau cần được tối ưu theo các
ràng buộc nói trên.
Do những nỗ lực trong mọi lĩnh vực của loài người mà việc tạo ra và quản lý các
kho lưu trữ multimedia đã được thúc đẩy từ trước, trong đó có các cố gắng của cả
giới nghiên cứu và lĩnh vực thương mại. Đó là nội dung chính của tài liệu này mà
công nghệ CSDL được phát triển trong suốt 40 năm qua làm nền móng cho việc

xây dựng MMDBMS. Ngày nay, các ngôn ngữ truy vấn, kỹ thuật chỉ mục, các thuật
toán khai thác dữ liệu, các phương pháp cập nhật đã được phát triển cho nhiều
loại CSDL như quan hệ, CSDL hướng đối tượng, CSDL không gian, thời gian và các
CSDL khác. Mỗi một ngôn ngữ này là sự mở rộng, cải tiến của các ngôn ngữ trước
đó và các thuật toán được áp dụng cho các các kiểu dữ liệu mới và quan trọng,
hay các mô hình lý luận. Với dữ liệu đa phương tiện, nó cũng tương tự theo góc
độ này. Những cái mới và dữ liệu nổi trội/mô hình lý luận phải phù hợp với các
nghiên cứu mang tính

×