Tải bản đầy đủ (.docx) (10 trang)

Đề cương ôn tập môn cơ sở dữ liệu đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (212.08 KB, 10 trang )

Câu 1: Các loại dữ liệu ĐPT và cách phân loại ?
-

-

Các loại dữ liệu ĐPT bao gồm:
+ Dữ liệu văn bản (có hoặc không có cấu trúc)
+ Dữ liệu âm thanh
+ Dữ liệu ảnh
+ Dữ liệu video
Một số cách phân loại dữ liệu:
+ Dựa trên định dạng vật lý
+ Dựa trên mối quan hệ giữa các dữ liệu ĐPT với chiều thời gian hay không gian
Câu 2: Các đặc tính chính của dữ liệu ĐPT?

-

Các đặc tính chính của dữ liệu ĐPT gồm có:
+ Dung lượng lớn (video, audio)
+ Dữ liệu video và audio có chiều thời gian nên phải được trình bày ở tốc độ xác định
+ Dữ liệu số audio, images, video được biểu diễn bằng chuỗi các giá trị mẫu riêng biệt, thiếu cấu trúc ngữ nghĩa để
máy tính có thể tự động nhận dạng nội dung.
+ Nhiều ứng dụng ĐPT đòi hỏi biểu diễn đồng thời nhiều loại dữ liệu ĐPT theo chiều thời gian và không gian phù
hợp.
+ Dữ liệu ĐPT mang nhiều thông tin. Do đó cần nhiều tham số để biểu diễn nội dung một cách đúng đắn
Câu 3: So sánh DBMS với IR?
DBMS

IR

Một DBMS chứa các bản ghi được cấu trúc đồng Trong IR, các bản ghi không có cấu trúc, không có thuộc


nhất:
tính cố định:
+ Mỗi bản ghi được đặc trưng bởi các thuộc tính
+ Để đánh chỉ mục: keywords, index terms, doc
+ Giá trị của thuộc tính miêu tả rõ ràng và đầy descriptor
đủ các bản ghi
+ Tạo từ khóa và chỉ mục đóng vai trò quan trọng
Trong DBMS, việc truy vấn thông tin dựa trên sự Trong IR, không đòi hỏi trùng lặp tuyệ đối
trùng lặp tuyệt đối giữa câu truy vấn và giá trị các Sự truy vấn dựa trên độ trùng khớp giữa các tập thuật ngữ
Sử dụng các phương pháp trùng lặp xấp xỉ hoặc từng phần
thuộc tính của bản ghi
Cùng 1 term có thể có nghĩa khác
Câu 4: Vai trò của DBMS và IR trong truy vấn thông tin ĐPT?
 Vai trò của DBMS (Hệ quản trị cơ sở dữ liệu) trong truy vấn thông tin ĐPT:
- Các hệ quản trị CSDL đã được phát triển và sử dụng rộng rãi đối với dữ liệu có cấu trúc
- Trong hệ quản trị CSDL quan hệ, thông tin được tổ chức dưới dạng các bảng và quan hệ. Các hàng của bảng tương
ứng với các đơn vị thông tin hoặc bản ghi. Các cột tương ứng với các thuộc tính
- SQL được sử dụng để thao tác trên CSDL
+ Ví dụ: create table STUDENT(
Student_id integer,
Name varchar(50),
Address varchar(100))
-

Các thuộc tính trong hệ quản trị CSDL quan hệ có kiểu cố định và có kích cỡ cố định. Hệ quản trị CSDL quan hệ phù
hợp với việc xử lý các dữ liệu kiểu chữ số và các xâu ký tự ngắn
Loại dữ liệu lớn có độ dài biến đổi được hỗ trợ trong hệ quản trị CSDL quan hệ là đối tượng rộng hoặc nhị phân
(BLOB)
+ Ví dụ: create table STUDENT(
Student_id integer,

Name varchar(50),
Address varchar(100),
Picture BLOB)


-

Hệ quản trị CSDL hướng đối tượng
+ Kết nối các đặc điểm hướng đối tượng với CSDL quan hệ
+ Các đối tượng được định nghĩa theo kiểu hướng đối tượng. Mỗi đối tượng chứa các thuộc tính và phương thức
+ Ví dụ: Create type Image(
Private
Size integer,
Resolution integer,
Content float[],
Public
…)
create table STUDENT(
Student_id integer,
Name varchar(50),
Address varchar(100),
Picture IMAGE)

-

BLOBs và các đối tượng là một bước tiếp cận đến xử lý dữ liệu ĐPT
BLOBs chỉ lưu trữ dữ liệu có khối lượng lớn, còn đối tượng chứa các thuộc tính đơn giản dẫn đến một số yêu cầu để
xử lý truy vấn dữ liệu ĐPT như sau:
+ Các công cụ tự động hoặc bán tự động trích chọn các nội dung và đặc trưng chứa trong dữ liệu ĐPT
+ Cấu trúc đánh chỉ mục đa chiều để xử lý các vector đặc trưng

+ Các độ đo tương đồng để truy vấn thông tin ĐPT thay vì sử dụng trùng lặp chính xác
+ Các hệ thống con lưu trữ dữ liệu kích cỡ lớn, băng tần rộng, thời gian thực
+ Giao diện người dùng cho phép tạo câu truy vấn linh hoạt trên các loại dữ liệu ĐPT khác nhau, biễu diễn dữ liệu
ĐPT.
 Vai trò của IR trong truy vấn thông tin ĐPT
- IR tập trung vào truy vấn tài liệu văn bản
- Các kỹ thuật IR đóng vai trò quan trọng trong quản lý thông tin ĐPT bởi:
+ Tồn tại một lượng lớn các tài liệu văn bản ở các dạng tổ chức, ví dụ như thư viện.
+ Văn bản được dùng để chú giải các loại dữ liệu ĐPT khác
- Tuy nhiên, việc dùng các kỹ thuật IR trong xử lý thông tin ĐPT có hạn chế:
+ Việc chú giải là quá trình thủ công, tốn thời gian
+ Việc chú giải là không đầy đủ và mang tính chủ quan
+ Các kỹ thuật IR không thể xử lý các câu truy vấn dạng khác văn bản
+ Một vài đặc điểm ĐPT khó mô tả bằng văn bản (kết cấu ảnh, hình thù đối tượng..)
Câu 5: Các kiến trúc hệ thống CSDL ĐPT?
a. Kiến trúc cặp lỏng
- Thế nào là kiến trúc cặp lỏng
+ Hệ quản trị CSDL là 1 hệ thống gồm 1 CSDL và các thao tác trên CSDL đó, được thiết kế trên nền tảng phần
cứng, phần mềm với một kiên trúc nhất định
+ Hệ quản trị CSDL ở đây quản lý dữ liệu metadata
+ Thành phần quản lý tệp tin đa phương tiện, quản lý dữ liệu đa phương tiện
+ Module tích hợp hệ quản trị CSDL và thành phần quản lý tệp tin đa phương tiện


- Ưu điểm: Tận dụng các hệ thống quản lý tệp tin đa phương tiện khác nhau để quản lý dữ liệu
b. Kiến trúc cặp chặt
- Kiến trúc cặp chặt
+ Hệ quản trị CSDL ở đây quản lý dữ liệu đa phương tiện và metadata
+ Hệ quản trị CSDL là một MM-DBMS


-

Ưu điểm: Các chức năng của DBMS có thể được áp dụng trên CSDL đa phương tiện
+ Quản lý truy vấn
+ Quản lý giao dịch
+ Quản lý lưu trữ
+ Quản lý bảo mật toàn vẹn

c. Kiến trúc lược đồ


- Lược đồ là metadata mô tả dữ liệu dpt
trong CSDL
- Mô hình 3 mức lươc đồ
- Lược đồ ngoài định nghĩa các cách
nhìn của người dùng đối với CSDL
(video view, audio view…)
- Lược đồ khái niệm được xây dựng dựa
trên các mô hình dữ liệu
- Lược đồ trong: cấu trúc dữ liệu bên
trong
- Mỗi lược đồ có các cách biểu diễn khác
nhau
- Mappings thực hiện chuyển đổi từ biểu
diễn này sang biểu diễn khác
d.

Kiến trúc chức năng

e. Kiến trúc hệ thống mở rộng



f.
-

Kiến trúc phân tán
Cách mà các đối tượng được phân tán và kết hợp
+ Truy vấn
+ Giao dịch
+ Metadata
+ Bảo mật
+ Toàn vẹn dữ liệu

g. Kiến trúc liên động
- Client/server (CORBA)
- Ba tầng (three tier)
- Hướng thành phần


h. Kiến trúc siêu phương tiện: hỗ trợ duyệt CSDL theo các liên kết

Câu 6: Dữ liệu meta cho CSDL đa phương tiện?
1. Định nghĩa Metadata
- Là dạng dữ liệu mô tả về dữ liệu. Trong cơ sở dữ liệu, metadata là các dạng biểu diễn khác nhau của các đối tượng
trong cơ sở dữ liệu. Trong cơ sở dữ liệu quan hệ, metadata là các định nghĩa của bảng, cột, cơ sở dữ liệu, view và
nhiều đối tượng khác. Trong kho dữ liệu, metadata là dạng định nghĩa dữ liệu như: bảng, cột, một báo cáo, các luật
doanh nghiệp hay những quy tắc biến đổi. Metadata bao quát tất cả các phương tiện của kho dữ liệu.
- Metadata phải chứa những thông tin: cấu trúc của dữ liệu, thuật toán sử dụng để tổng hợp dữ liệu, ánh xạ xác định sự
tương ứng dữ liệu từ môi trường tác nghiệp sang kho dữ liệu
2. Vai trò Metadata



3.

-





4.
5.
-

Thông tin metadata được cung cấp cho phép người dùng cuối hiểu rõ hơn bản chất về dữ liệu mà họ đang có và quyết
định sử dụng một cách đúng đắn và phù hợp dữ liệu.
Cấu trúc và nội dung dữ liệu bao gồm một số loại thông tin cơ bản: Thông tin mô tả về bản thân dữ liệu metadata;
thông tin về dữ liệu mà metadata mô tả; thông tin về cá nhân, tổ chức liên quan đến dữ liệu metadata và dữ liệu
Các loại metadata
Metadata cho các loại phương tiện khác nhau
Đặc trưng bằng mối quan hệ với nội dung dữ liệu đa phương tiện
Metadata có thể được trích chọn trực tiếp từ dữ liệu đa phương tiện
Metadata cho dữ liệu văn bản
Chứa đựng thông tin về dữ liệu văn bản
Metadata độc lập nội dung:
+ Loại dữ liệu văn bản
+ Số trang
+ Định dạng
+ Số chương, số paragraph mỗi chương
Metadata phụ thuộc nội dung: Nội dung câu chuyện, từ khóa, tiêu đề, tóm tắt

SGML (standard generalized markup language), XML được sử dụng để gán thẻ cho các loại dữ liệu văn bản  có thể
trích chọn
Các thẻ có thể được lưu trong DBs
Dữ liệu text có thể được chú giải
Metadata cho dữ liệu ảnh
Sử dụng dữ liệu text để mô tả ảnh
Metadata có thể được lưu trong DBs
Metadata độc lập/phụ thuộc nội dung
Ví dụ: Bức ảnh X mô tả đại dương với rừng cọ và những ngôi nhà trên bãi biển
Metadata cho dữ liệu âm thanh
Mô hình hóa cho dữ liệu âm thanh
Gán thẻ metadata
Trích chọn từ khóa trong thẻ
Dữ liệu âm thanh có thể được chú giải
Metadata độc lập/phụ thuộc nội dung
Metadata cho dữ liệu video
Mô hình hóa cho dữ liệu video
Gán thẻ metadata
Trích chọn từ khóa trong thẻ
Dữ liệu video có thể được chú giải
Metadata độc lập/phụ thuộc nội dung
Metadata cho dữ liệu kết hợp
Metadata dùng để đồng bộ hiển thị các loại phương tiện
Các khía cạnh liên quan đến Metadata
Ontology cho dữ liệu đa phương tiện
+ Ontology là đặc tả về sự khái niệm hóa
+ Dùng để biểu diễn tri thức chung cho quá trình cộng tác
Chú giải
+ Quản lý chú giải: trích chọn, truy vấn, cập nhật, tương quan giữa các chú giải và dữ liệu đa phương tiện
Chất lượng dịch vụ và nguồn gốc dữ liệu

+ Độ chính xách của dữ liệu
+ Nguồn gốc của dữ liệu
Quản lý Metadata
Truy vấn
Cập nhật
Bảo mật
Trích chọn
Câu 7: Kĩ thuật đánh chỉ mục cho các loại dữ liệu khác nhau?


-

-

Dữ liệu văn bản: dựa trên từ khóa. Một văn bản luôn mang cùng lúc nhiều yếu tố, do vậy phải chọn một từ khóa có ý
nghĩa rộng nhưng phải ít ký tự. Không nên chọn từ khóa quá dài hay quá ngắn. Lựa chọn từ khóa cần phải trả lời được
câu hỏi: văn bản thuộc loại nào? Đối tượng hướng đến là ai? Người dùng dùng loại công cụ nào để tìm kiếm?
Dữ liệu ảnh: dựa trên từ khóa, ảnh
Dữ liệu video: dựa trên từ khóa, các ảnh trích trọn từ ảnh
Audio: từ khóa
Chú giải.
Câu 8: Các kỹ thuật lưu trữ trong cơ sở dữ liệu đa phương tiện?

-

-

-

-


Dùng mảng các đĩa rẻ tiền
Kiến trúc lưu trữ phân cấp
+ Dùng băng từ và đĩa quan để lưu trữ dài hạn, đĩa từ lưu đoạn bắt đầu của phương tiện (trễ ban đầu thấp)
+ Di chuyển files từ băng từ ra đĩa từ khi có yêu cầu (trễ ban đầu dài  giải pháp dựa trên mẫu sử dụng, tần số sử
dụng)
Lưu trữ dữ liệu trên thiết bị
+ Các tệp tin được phân thành các blocks
+ Các blocks được lưu ở đĩa theo các phương pháp khác nhau
• Lưu liên tục: Các block của file định vị liên tiếp trên các block của đĩa.
 Ưu điểm:dễ cài đặt
 Nhược điểm: Tốn thời gian khi chèn và xóa, phân mảnh đĩa
 Thích hợp cho ứng dụng ghi một lần, đọc nhiều lần.
• Lưu có ràng buộc: Từng block của file chứa con trỏ trỏ tới block kế tiếp
 Ưu điểm: dễ mở rộng file
 Nhược điểm: đọc file chậm
• Lưu rải rác
 Danh sách liên kết, FAT, I-nodes
Lưu trữ dữ liệu trên mảng đĩa.
+ Lưu toàn bộ file đa phương tiện trên một đĩa
+ Lưu file trên các đĩa khác nhau
+ Lưu toàn bộ file đa phương tiện trên một đĩa
+ Lưu toàn bộ file đa phương tiện trên một đĩa
+ Lưu file trên các đĩa khác nhau
+ Các kỹ thuật phân tán các blocks trên các đĩa:
• Data Striping: Blocks được tổ chức thành các nhóm truy cập, các đĩa được truy cập đồng bộ
• Data interleaving: Các đĩa không được truy cập đồng bộ
• Mong muốn có kích thước của blocks bằng với kích thước của các đơn vị dữ liệu phương tiện logic
Điều độ đĩa và điều khiển tiếp nhận
+ Thiết bị lưu trữ cần truyền dữ liệu bằng với tốc độ phương tiện được biểu thị phía client

+ Hoạt động đĩa là không tất định nên cần có cơ chế điều độ đĩa để duy trì sự liên tục của dữ liệu
+ Cần cơ chế điều khiển tiếp nhận để tránh quá tải hệ thống
• Dải tần tổng của các luồng yêu cầu phải nhỏ hơn tốc độ truyền của đĩa
+ Điều độ đĩa và điều khiển tiếp nhận nhằm nâng cao hiệu suất sử dụng tài nguyên đầu đọc đĩa
+ Mục tiêu của điều độ đĩa: làm giảm thời gian tìm kiếm, giảm trễ quay vòng, tăng dung lượng đĩa
Câu 9: Mô hình hoạt động QoS và các mức đảm bảo QoS trong CSDL ĐPT?

a. Mô hình hoạt động QoS
- Ứng dụng gửi yêu cầu về QoS
- Hệ thống ĐPT:
+ Chấp nhận yêu cầu nếu đủ tài nguyên
+ Từ chối hoặc đề xuất QoS thấp hơn nếu không đủ tài nguyên
Các phần từ cần thiết để đảm bảo QoS:
+ Cơ chế đặc tả QoS để ứng dung chỉ rõ yêu cầu QoS
+ Điều khiển chấp nhận dịch vụ
+ Quá trình thỏa hiệp QoS
+ Cung cấp và điều độ tài nguyên
+ Giám sát lưu lượng từ các ứng dụng
b. Các mức đảm bảo QoS


-

Đảm bảo tất định (cứng): Đắt, kém hiệu quả trong sử dụng tài nguyên, worse case
Đảm bảo thống kê (mềm): QoS được đáp ứng đến tỷ lệ phần trăm nhất định, hiệu quả trong sử dụng tài nguyên, khó
cài đặt
Đảm bảo best-effort: không có đảm bảo QoS, hệ thống cung cấp tài nguyên hiện có.
Câu 10: Các thuật toán điều độ đĩa?






Điều độ đĩa để giảm thời gian tìm kiếm, giảm trễ quay vòng, tăng thông lượng đĩa, cun
Các thuật toán điều độ đĩa truyền thống:
FCFS (First Come First Served): Không xem xét các yếu tố như vị trí đầu đọc và hướng di chuyển
SSTF (Shortest Seek Time First): Xem xét các vị trí đầu đọc
Scan: Xem xét chuyển động của đầu đọc
Nhược điểm chính của các phương pháp truyền thống là không xem xét yếu tố thời gian của các luồng (stream) 
Không phù hợp cho điều độ các máy chủ đa phương tiện
 Ngoài ra có các thuật toán điều độ đĩa khác:
- EDF (Earleast Dealine First):
+ Ưu điểm: Đảm bảo được yếu tố thời gian cho các luồng
+ Nhược điểm: Không xem xét yếu tố vị trí đầu đọc
- Scan-Earleast Deadline First: Kết hợp thuật toán Scan với EDF:
+ Khi nhiều yêu cầu có cùng deadline thì áp dụng scan
+ Khi tất cả các yêu cầu có cùng deadline thì thuật toán trở thành Scan và ngược lại
+ Thuật toán hiệu quả khi có nhiều yêu cầu có cùng deadline  Cần kỹ thuật để tăng số yêu cầu có cùng deadline
- Thuật toán Round-Robin:
+ Các luồng được phục vụ tại các lượt riêng biệt
+ Trình tự phục vụ cho mỗi luồng là cố định ở mỗi lượt
+ Khoảng thời gian giữa các lần phục vụ liên tiếp của các luồng phụ thuộc vào khoảng thời gian của lượt
+ Thuật toán thích hợp với cơ chế lưu dữ liệu lên đĩa kiểu liên tục ràng buộc
- Điều độ quét nhóm:
+ Mỗi lượt được phân thành các nhóm và thực hiện round-robin cho các nhóm
+ Trong các nhóm thực hiện Scan
Câu 11: Các bước của quá trình đánh chỉ mục tự động dữ liệu text?
-

Mục đích của đánh chỉ mục là tìm ra các thuật ngữ biểu diễn mỗi tài liệu một cách tốt nhất

Quá trình đánh chỉ mục tự động bao gồm các bước:

1. Xác định các từ trong tiêu đề, tóm tắt và/hoặc tài liệu
2. Loại bỏ stop words
3. Nhận dạng từ đồng nghĩa nhử từ điển
4. Stemming để có gốc từ
5. Đếm tần số của gốc từ trong mỗi tài liệu
6. Tính toán trọng số cho gốc từ
7. Tạo file chỉ số dựa trên các từ và trọng số




×