Tải bản đầy đủ (.pdf) (60 trang)

Khai phá Luật kết hợp trong cơ sở dữ liệu đa phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 60 trang )



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ







NGUYỄN THỊ BIÊN







KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU
ĐA PHƯƠNG TIỆN







LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN









Hà Nội, 2012


2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




NGUYỄN THỊ BIÊN




KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU
ĐA PHƯƠNG TIỆN



Ngành: CÔNG NGHỆ THÔNG TIN
Chuyên ngành: CÔNG NGHỆ PHẦN MỀM
Mã số: 60 48 10





LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN




NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC





Hà Nội, 2012


4
MỤC LỤC
LỜI CAM ĐOAN 1
MỤC LỤC 4
BẢNG KÝ HIỆU CHỮ VIẾT TẮT 6
DANH MỤC CÁC BẢNG 7
DANH MỤC CÁC HÌNH 8
MỞ ĐẦU 9
CHƢƠNG 1- TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU 10
1.1. Phát hiện tri thức và khai phá dữ liệu 10
1.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu 10
1.2.1. Xác định vấn đề 11
1.2.2. Thu thập và tiền xử lý dữ liệu 12

1.2.3. Khai phá dữ liệu 13
1.2.4. Minh họa và đánh giá 13
1.2.5. Đưa kết quả vào thực tế 14
1.3. Khai phá dữ liệu 14
1.3.1. Các định nghĩa về khai phá dữ liệu 14
1.3.2. Nhiệm vụ của khai phá dữ liệu 15
1.3.3. Một số ứng dụng khai phá dữ liệu 16
1.3.4. Các kỹ thuật khai phá dữ liệu 16
1.3.4.1 Khai phá dữ liệu dự đoán 17
1.3.4.2. Khai phá dữ liệu mô tả 18
1.3.5. Kiến trúc của hệ thống khai phá dữ liệu 19
CHƢƠNG 2 – CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN 21
2.1. Tổng quan cơ sở dữ liệu đa phương tiện 21
2.1.1. Một số khái niệm cơ bản 21
2.1.1.1. Media 21
2.1.1.2. Đa phương tiện (Multimedia) 22
2.1.1.3. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu 22
2.1.1.4. Truy tìm thông tin tài liệu văn bản 22
2.1.1.5. Truy xuất và truy tìm Multimedia 22
2.1.1.6. Trích chọn đặc trưng, Biểu diễn nội dung và Xây dựng chỉ mục 23
2.1.2. Vai trò của MIRS 23
2.1.2.1. Các DBMS và vai trò của chúng trong việc xử lý dữ liệu Multimedia 23
2.1.2.2. Hệ thống IR và vai trò của nó trong việc truy xuất multimedia 24
2.1.2.3. Tích hợp truy tìm và chỉ số hóa thông tin đa phương tiện 24
2.1.3. Khái quát về MIRS 25
2.1.4 Khả năng mong đợi và các ứng dụng của MIRS 26
2.2. Dữ liệu đa phương tiện 27
2.3. Hệ quản trị cơ sở dữ liệu đa phương tiện 27
2.3.1 Mục đích của MDBMS 27
2.3.2 Các yêu cầu của một MMDBMS 28

2.3.2.1. Khả năng quản trị lưu trữ lớn 29
2.3.2.2. Hỗ trợ truy vấn và khai thác dữ liệu 30
2.3.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện 31
2.3.2.4. Giao diện và tương tác. 31
2.3.2.5 Hiệu suất 31


5
CHƢƠNG 3 – LUẬT KẾT HỢP TRONG KHAI PHÁ DỮ LIỆU 33
3.1. Bài toán kinh điển dẫn đến việc khai phá luật kết hợp 33
3.2. Định nghĩa về luật kết hợp 34
3.3. Một số hướng tiếp cận trong khai phá luật kết hợp 38
3.4. Một số thuật toán phát hiện luật kết hợp 40
3.4.1. Thuật toán Apriori 40
3.4.2. Thuật toán Apriori-TID 45
3.4.3. Thuật toán Apriori-Hybrid 46
CHƢƠNG 4 – KHAI PHÁ LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU HÌNH ẢNH 48
4.1. Dữ liệu hình ảnh 48
4.1.1 Biểu diễn ảnh số 48
4.1.2 Các tham số chính của ảnh số 49
4.2. Trích chọn đặc trưng trong khai phá ảnh 49
4.2.1. Trích chọn đặc trưng màu sắc 50
4.2.2. Trích chọn đặc trưng Texture 51
4.2.3. Trích chọn đặc trưng Edge 52
4.2.4. Kết hợp các đặc trưng 53
4.3. Khai phá luật kết hợp dựa trên nội dung ảnh bằng thuật toán Apriori 54
KẾT LUẬN 60
TÀI LIỆU THAM KHẢO 61




6
BẢNG KÝ HIỆU CHỮ VIẾT TẮT
ST
T
Ký hiệu viết tắt
Giải thích
1
ABBM: Algorithm Based on Boolean
Matrix
Thuật toán dựa trên ma trận
Boolean
2
CSDL
Cơ sở dữ liệu
3
DBMS
Hệ quản trị cơ sở dữ liệu
4
IR (Information Retrieval)
Truy xuất thông tin
5
KPDL
Khai phá dữ liệu
6
Media
Phương tiện
7
MIRS:
Multimedia Indexing and Retrieval System

Hệ thống truy xuất thông tin đa
phương tiện
8
MMDBMS
Hệ quản trị cơ sở dữ liệu đa phương
tiện
9
Multimedia
Đa phương tiện
10
OODBMS
Object Oriented Database Management
System
Hệ quản trị cơ sở dữ liệu hướng đối
tượng
11
RDBMS
Ralational Database Management System
Hệ quản trị cơ sở dữ liệu quan hệ



7
DANH MỤC CÁC BẢNG

Bảng 3.1. Giao dịch mua hàng
Bảng 3.2. Tính độ hỗ trợ cho các tập hợp chứa các mặt hàng
Bảng 3.3. Các luật kết hợp và độ tin cậy của chúng
Bảng 3.4. Dùng thuật toán Apriori tính ra các tập hợp xuất hiện –thường xuyên
Bảng 3.5. Ma trận biểu diễn cơ sở dữ liệu

Bảng 3.6. Vector biểu diễn nhị phân cho tập 1 thuộc tính
Bảng 3.7. Vector biểu diễn nhị phân cho các tập 2 thuộc tính
Bảng 3.8. Vector biểu diễn nhị phân cho các tập 3 thuộc tính
Bảng 3.9. Vector biểu diễn nhị phân cho các tập 4 thuộc tính
Bảng 4.1. Ví dụ minh họa sự kết hợp các đặc trưng
Bảng 4.2. Đánh giá kết cấu của hình ảnh
Bảng 4.3. Đánh giá Texture của hình ảnh chụp quang tuyến vú


8
DANH MỤC CÁC HÌNH

Hình 1.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu
Hình 1.2. Tập dữ liệu với hai lớp: có và không có khả năng trả nợ
Hình 1.3. Phân loại của các dữ liệu vay nợ trong hai miền lớp
Hình 1.4 : Phân cụm tập dữ liệu cho vay thành 3 cụm
Hình 1.5 : Kiến trúc điển hình của một hệ thống khai phá dữ liệu
Hình 2.1. Một mẫu truy xuất thông tin tổng quát
Hình 2.2. Cách thức tổ chức theo thứ bậc (dạng kim tự tháp) của hệ thống lưu trữ
Hình 4.1: Sử dụng YCBCR làm cơ sở trích chọn đặc trưng màu sắc
Hình 4.2. Trích chọn đặc trưng Edge
Hình 4.3. Kết hợp các đặc trưng
Hình 4.4. Hiệu suất thuật toán khai phá luật kết hợp sử dụng ABBM và Apriori


9
MỞ ĐẦU
Trong điều kiện và yêu cầu của thương trường, đòi hỏi phải có những
phương pháp nhanh, phù hợp, tự động, chính xác và có hiệu quả để lấy được thông
tin có giá trị. Các tri thức chiết xuất được từ cơ sở dữ liệu sẽ là một nguồn tài liệu

hỗ trợ cho lãnh đạo trong việc lên kế hoạch hoạt động hoặc trong việc ra quyết định
sản xuất kinh doanh. Vì vậy, tính ứng dụng của khai thác luật kết hợp từ cơ sở dữ
liệu là một vấn đề đang được quan tâm.
Khai phá dữ liệu là giai đoạn quan trọng trong tiến trình khai thác tri thức từ cơ
sở dữ liệu, các tri thức này hỗ trợ cho việc ra quyết định trong khoa học và kinh
doanh.
Công nghệ Multimedia liên quan tới việc mô tả sự kết hợp các dạng thông tin
khác nhau (âm thanh, hình ảnh, văn bản, video) dưới dạng tín hiệu số. Một cơ sở dữ
liệu Multimedia đòi hỏi phải có các phương thức đặc biệt nhằm mục đích tối ưu
hóa việc lưu trữ, truy cập và khai thác các dạng thông tin đặc biệt này.
Luật kết hợp là phương tiện hữu ích để khám phá các mối liên kết trong dữ liệu.
Khai phá luật kết hợp trong cơ sở dữ liệu Multimedia cho phép tiết kiệm chi phí và
làm tăng hiệu suất làm việc.


10
CHƢƠNG 1- TỔNG QUAN VỀ PHÁT HIỆN TRI THỨC VÀ KHAI PHÁ DỮ LIỆU
1.1. Phát hiện tri thức và khai phá dữ liệu
Sự phát triển mạnh mẽ của công nghệ thông tin làm cho khả năng thu thập và
xử lý thông tin của các hệ thống thông tin tăng một cách nhanh chóng. Số liệu
thống kê đưa ra vào năm 2006 cho thấy tình trạng “ngập tràn thông tin mà thiếu
thốn tri thức” hiện nay, tồn tại nhiều kho chứa dữ liệu khổng lồ có dung lượng tăng
trưởng với tốc độ cao. Hàng triệu cơ sở dữ liệu đã được sử dụng trong các hoạt
động sản xuất, kinh doanh, quản lý , trong đó có nhiều cơ sở dữ liệu cực lớn cỡ
Gigabyte, thậm chí là Terabyte. Ví dụ điển hình là Yahoo! có hơn 100TB, Google
đã lưu trữ hơn 4 tỷ trang Web với dung lượng nhiều trăm TB; Alexa sau 7 năm đã
có 500 TB [3].
Việc thu thập và lưu trữ các kho chứa dữ liệu khổng lồ được liệt kê trên đây
dẫn tới một yêu cầu cấp thiết là cần có những kỹ thuật và công cụ mới để tự động
chuyển đổi lượng dữ liệu khổng lồ thành các tri thức có ích. Do vậy, khai phá dữ

liệu (KPDL) nhằm phát hiện các tri thức mới giúp ích cho hoạt động của con người
đã trở thành một lĩnh vực quan trọng của ngành Công nghệ thông tin.
1.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu
Thông tin là một khái niệm trừu tượng, được thể hiện dưới nhiều dạng thức
khác nhau. Thông tin có thể được phát sinh, lưu trữ, biến đổi trong những vật mang
tin (gọi là giá).
Dữ liệu là sự biểu diễn thông tin và được thể hiện bằng các tín hiệu vật lý.
Dữ liệu là một dãy các bit, các số và các ký hiệu, hoặc các “đối tượng” có một ý
nghĩa nào đó khi được gửi cho một chương trình dưới một dạng nhất định. Sử dụng
các bit để đo lường các thông tin và xem nó như là các dữ liệu đã được lọc bỏ các
dư thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu.
Có thể xem tri thức như là các thông tin tích hợp, bao gồm các sự kiện và các mối
quan hệ giữa chúng. Các mối quan hệ này có thể được hiểu ra, có thể được phát
hiện, hoặc có thể được học. Nói cách khác, tri thức có thể được coi là dữ liệu có độ
trừu tượng và tổ chức cao. [3]
Phát hiện tri thức trong các cơ sở dữ liệu là một quy trình nhận biết các mẫu
hoặc các mô hình trong dữ liệu với các tính năng: hợp thức, mới, khả ích, và có thể
hiểu được. Khai phá dữ liệu là một bước trong quy trình phát hiện tri thức gồm có
các thuật toán khai phá dữ liệu chuyên dùng dưới một số quy định về hiệu quả tính
toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu. Nói một
cách khác, mục đích của phát hiện tri thức và KPDL là tìm ra các mẫu và các mô


11
hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi hàng
“núi” dữ liệu. Quá trình phát hiện tri thức được mô tả tóm tắt trên Hình 1.1:

Hình 1.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu
 Làm sạch dữ liệu (Data cleaning): Loại bỏ dữ liệu nhiễu hoặc dữ liệu không
thích hợp.

 Tích hợp dữ liệu (Data integration): Tích hợp dữ liệu từ các nguồn khác nhau.
 Chọn dữ liệu (Data Selection): Chọn những dữ liệu liên quan trực tiếp đến
nhiệm vụ.
 Chuyển đổi dữ liệu (Data Transformation): Chuyển dữ liệu về những dạng phù
hợp cho việc khai phá.
 KPDL (Data mining): Các kỹ thuật được áp dụng để trích xuất thông tin có ích
hoặc các mẫu điển hình trong dữ liệu.
 Đánh giá mẫu (Pattern evaluation): Đánh giá mẫu hoặc tri thức đã thu được.
 Trình diễn dữ liệu (Knowledge Presentation): Biểu diễn những tri thức khai phá
được cho người sử dụng.
Nhiều người coi KPDL và khám phá tri thức trong cơ sở dữ liệu là như nhau.
Tuy nhiên trên thực tế, KPDL là một bước trong quá trình phát hiện tri thức trong
cơ sở dữ liệu, thi hành một thuật toán KPDL để tìm ra các mẫu từ dữ liệu theo
khuôn dạng thích hợp.
1.2.1. Xác định vấn đề


12
Là một quá trình mang tính định tính với mục đích xác định được lĩnh vực yêu
cầu phát hiện tri thức và xây dựng bài toán tổng kết. Trong thực tế, các cơ sở dữ liệu
được chuyên môn hóa và phân chia theo các lĩnh vực khác nhau như sản phẩm, kinh
doanh, tài chính, … Với mỗi tri thức phát hiện được có thể có giá trị trong lĩnh vực
này nhưng lại không mang nhiều ý nghĩa đối với một lĩnh vực khác. Vì vậy mà việc
xác định lĩnh vực và định nghĩa bài toán giúp định hướng cho giai đoạn tiếp theo thu
thập và tiền xử lý dữ liệu.
1.2.2. Thu thập và tiền xử lý dữ liệu
Các cơ sở dữ liệu thu được thường chứa rất nhiều thuộc tính nhưng lại không
đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt. Vì vậy, giai đoạn thu
thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ
cơ sở dữ liệu. Có thể nói rằng giai đoạn này chiếm từ 70% đến 80% giá thành trong

toàn bộ bài toán.
Người ta chia giai đoạn thu thập và tiền xử lý dữ liệu thành các công đoạn như:
lựa chọn dữ liệu, làm sạch, làm giàu, mã hóa dữ liệu. Các công đoạn được thực hiện
theo trình tự đưa ra được một cơ sở dữ liệu thích hợp cho các giai đoạn sau. Tuy
nhiên, tùy từng dữ liệu cụ thể mà quá trình trên được điều chỉnh cho phù hợp vì
người ta đưa ra một phương pháp cho mọi loại dữ liệu.
a. Chọn lọc dữ liệu: Đây là bước chọn lọc các dữ liệu có liên quan trong các nguồn
dữ liệu khác nhau. Các thông tin được chọn lọc sao cho có chứa nhiều thông tin liên
quan tới lĩnh vực cần phát hiện tri thức đã xác định trong giai đoạn xác định vấn đề.
b. Làm sạch dữ liệu: Dữ liệu thực tế, đặc biệt dữ liệu lấy từ nhiều nguồn khác nhau
thường không đồng nhất. Do đó cần có biện pháp xử lý để đưa về một cơ sở dữ liệu
thống nhất phục vụ cho khai thác. Nhiệm vụ làm sạch dữ liệu thường bao gồm:
 Điều hòa dữ liệu: Nhằm giảm bớt tính không nhất quán do dữ liệu lấy từ nhiều
nguồn khác nhau. Phương pháp thông thường là khử các trường hợp trùng lặp
dữ liệu và thống nhất các ký hiệu. Chẳng hạn, một khách hàng có thể có nhiều
bản ghi do việc nhập sai tên hoặc do quá trình thay đổi một số thông tin cá
nhân gây ra và tạo sự lầm tưởng có nhiều khách hàng khác nhau.
 Xử lý các giá trị khuyết: Tính không đầy đủ của dữ liệu có thể gây ra hiện
tượng dữ liệu chứa các giá trị khuyết. Đây là hiện tượng khá phổ biến. Thông
thường, người ta có thể lựa chọn các phương pháp khác nhau để thực hiện việc
xử lý các giá trị khuyết như: bỏ qua các bộ có giá trị khuyết, điểm bổ sung
bằng tay, dùng một hằng chung để điền vào giá trị khuyết, dùng giá trị trung
bình của mọi bản ghi cùng lớp hoặc dùng các giá trị mà tần suất xuất hiện lớn.


13
 Xử lý nhiễu và các ngoại lệ: Thông thường, nhiễu dữ liệu có thể là nhiễu ngẫu
nhiên hoặc các giá trị bất thường. Để làm sạch nhiễu, người ta có thể sử dụng
phương pháp làm trơn nhiễu hoặc dùng các giải thuật phát hiện ra các ngoại lệ
để xử lý.

c. Làm giàu dữ liệu: Việc thu thập dữ liệu đôi khi không đảm bảo tính đầy đủ của dữ
liệu. Một số thông tin quan trọng có thể thiếu hoặc không đầy đủ. Chẳng hạn, dữ liệu
về khách hàng lấy từ một nguồn bên ngoài không có hoặc không đầy đủ thông tin về
thu nhập. Nếu thông tin về thu nhập là quan trọng trong quá trình khai phá dữ liệu để
phân tích hành vi khách hàng thì không thể chấp nhận đưa các dữ liệu khuyết thiếu
vào được.
Quá trình làm giàu dư liệu cũng bao gồm việc tích hợp và chuyển đổi dữ liệu.
Các dữ liệu từ nhiều nguồn khác nhau được tích hợp thành một kho thống nhất. Các
khuôn dạng khác nhau của dữ liệu cũng được quy đổi, tính toán lại để đưa về một
kiểu thống nhất, tiện cho quá trình phân tích. Đôi khi, một số thuộc tính mới có thể
được xây dựng dựa trên các thuộc tính cũ.
d. Mã hóa: Các phương pháp dùng để chọn lọc, làm sạch, làm giàu dữ liệu sẽ được
mã hóa dưới dạng các thủ tục, chương trình hay tiện ích nhằm tự động hóa việc kết
xuất, biến đổi và di chuyển dữ liệu. Các hệ thống con đó có thể được thực thi định kỳ
làm tươi dữ liệu phục vụ cho việc phân tích. [3]
1.2.3. Khai phá dữ liệu
Giai đoạn khai phá dữ liệu được bắt đầu sau khi dữ liệu đã được thu thập và
tiến hành xử lý. Trong giai đoạn này, công việc chủ yếu là xác định được bài toán
khai phá dữ liệu, tiến hành lựa chọn phương pháp khai thác phù hợp với dữ liệu có
được và tách ra các tri thức cần thiết.
Thông thường, các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính
chất mô tả - đưa ra những tính chất chung nhất của các dữ liệu, các bài toán khai thác
dự báo – bao gồm cả việc thực hiện các suy diễn trên dữ liệu. Tùy theo bài toán xác
định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp.
1.2.4. Minh họa và đánh giá
Các tri thức phát hiện từ cơ sở dữ liệu cần được tổng hợp dưới dạng các báo
cáo phục vụ cho các mục đích hỗ trợ quyết định khác nhau. Do nhiều phương pháp
khai thác có thể được áp dụng nên các kết quả có mức độ tốt/xấu khác nhau. Việc
đánh giá các kết quả thu được là cần thiết, giúp tạo cơ sở cho những quyết định chiến
lược. Thông thường chúng được tổng hợp, so sánh bằng các biểu đồ và được kiểm



14
nghiệm, tin học hóa. Công việc này thường là của các chuyên gia, các nhà phân tích
và quyết định.
1.2.5. Đưa kết quả vào thực tế
Các kết quả của quá trình phát hiện tri thức có thể được đưa vào ứng dụng
trong những lĩnh vực khác nhau. Do các kết quả có thể là các dự báo hoặc các mô tả
nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hóa
quá trình này.
Quá trình phát hiện tri thức có thể được tiến hành theo các bước trên. Ngoài ra
trong quá trình khai thác người ta có thể thực hiện các cải tiến, nâng cấp cho phù
hợp.[3]
1.3. Khai phá dữ liệu
1.3.1. Các định nghĩa về khai phá dữ liệu
Khai phá dữ liệu được dung để mô tả quá trình phát hiện tri thức trong cơ sở
dữ liệu. Qúa trình này kết xuất ra các tri thức tiềm ẩn từ dữ liệu giúp dự bóa trong
kinh doanh, các hoạt động sản xuất, … Khai phá dữ liệu làm giảm chi phí về thời
gian so với các phương pháp truyên thống trước kia (Ví dụ như phương pháp thống
kê). Sau đây là các định nghĩa mang tính mô tả của nhiều tác giả:


 Định nghĩa của Ferruzza: Khai phá dữ liệu là tập hợp các phương pháp được
dung trong tiến trình khám phá tri thức để chỉ ra sự khác biệt các mối quan hệ
và các mẫu chưa biết bên trong dữ liệu.
 Định nghĩa của Parsaye: Khai phá dữ liệu là quá trình trợ giúp quyết định,
trong đó chúng ta tìm kiếm mẫu thông tin chưa biết và bất ngờ trong cơ sở dữ
liệu lớn.
 Định nghĩa của Fayyad: Khai phá dữ liệu là quá trình nhận biết các mẫu hoặc
các mô hình trong dữ liệu với các tính chất: Đúng đắn, mới, khả ích và có thể

hiểu được.
 Định nghĩa Zekulin: Quá trình trích lọc các thông tin chưa biết trước, có thể
nhận thức được, có thể tác động được từ CSDL lớn và sử dụng chúng để tạo ra
quyết định công tác.
KPDL là một bước trong quá trình khám phá tri thức bao gồm các thuật toán
KPDL chuyên dùng dưới một số quy định về hiệu quả tính toán chấp nhận được để
tìm ra các mẫu và các mô hình trong dữ liệu.


15
Như vậy, mục đích của khám phá tri thức và KPDL là tìm ra các mẫu hoặc mô
hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị khuất bởi số lượng dữ liệu
khổng lồ. [2]
1.3.2. Nhiệm vụ của khai phá dữ liệu
Các bài toán liên quan đến KPDL về bản chất là các bài toán thống kê. Điểm
khác biệt giữa các kỹ thuật KPDL và các công cụ phục vụ tính toán thống kê mà
chúng ta đã biết là ở khối lượng cần tính toán. Khi dữ liệu đã trở nên khổng lồ thì
những khâu như: thu thập dữ liệu, tiền xử lý và xử lý dữ liệu đều đòi hỏi phải được tự
động hóa. Tuy nhiên ở công đoạn cuối cùng, việc phân tích kết quả sau khi đã KPDL
vẫn luôn là công việc của con người.
Do là một lĩnh vực đa ngành, KPDL thu hút các lĩnh vực khoa học khác như trí
tuệ nhân tạo, cơ sở dữ liệu, hiển thị dữ liệu, marketing, toán học, vận trù học, tin sinh
học, nhận dạng mẫu, tính toán thống kê …
Điều mà KPDL có thể làm rất tốt là phát hiện ra những giả thuyết mạnh trước
khi sử dụng những công cụ tính toán thống kê. Mô hình dự báo sử dụng kỹ thuật phân
cụm (Crustering) để chia nhóm các sự vật, sự kiện sau đó rút ra các luật nhằm tìm ra
đặc trưng cho mỗi nhóm và cuối cùng đề nghị một mô hình. Ví dụ, những bạn đọc
đăng ký dài hạn của một tạp chí có thể phân nhóm dựa theo nhiều tiêu chí khác nhau
(lứa tuổi, giới tính, thu nhập…), sau đó tạp chí căn cứ vào đặc trưng riêng của từng
nhóm để đề ra mức phí thu trong năm sao cho phù hợp nhất.

Những nhiệm vụ cơ bản nhất của KPDL là:
 Phân cụm, phân loại, phân nhóm, phân lớp. Nhiệm vụ là trả lời câu hỏi: Một
dữ liệu mới thu thập sẽ thuộc về nhóm nào? Quá trình này thường được thực
hiện một cách tự động.
 Khai phá luật kết hợp. Nhiệm vụ là phát hiện ra những mối quan hệ giống nhau
của các bản ghi giao dịch. Luật kết hợp X=>Y có dạng tổng quát là: Nếu một
giao dịch đã sở hữu các tính chất X thì đồng thời nó cũng sở hữu các tính chất
Y, ở một mức độ nào đó. Khai phá luật kế thợp được hiểu theo nghĩa: Biết
trước các tính chất X, vậy các tính chất Y là những tính chất nào?
 Lập mô hình dự báo, bao gồm hai nhiệm vụ: Hoặc là phân nhóm dư liệu vào
một hay nhiều lớp dữ liệu đã xác định từ trước, hoặc là sử dụng các trường đã
cho trong một cơ sở dữ liệu để dự báo sự xuất hiện (hoặc không xuất hiện) của
các trường hợp khác.
 Phân tích đối tượng ngoài cuộc: Một cơ sở dữ liệu có thể có thể chứa các đối
tượng không tuân theo mô hình dữ liệu. Các đối tượng dữ liệu như vậy gọi là


16
các đối tượng ngoài cuộc. Hầu hết các phương pháp KPDL đều coi các đối
tượng ngoài cuộc là nhiễu và loại bỏ chúng. Tuy nhiên trong một số ứng dụng,
chẳng hạn như phát hiện nhiễu thì sự kiện hiếm khi xảy ra lại được chú ý hơn
những gì thường xuyên gặp phải. Sự phân tích dữ liệu ngoài cuộc được coi như
là phai phá các đối tượng ngoài cuộc. Một số phương pháp được ứng dụng để
phát hiện đối tượng ngoài cuộc: Sử dụng các hình thức kiểm tra mang tính
thống kê trên cơ sở một phân phối dữ liệu hay một mô hình xác suất cho dữ
liệu, dùng các độ đo khoảng cách mà theo đó các đối tượng có một khoảng
cách đáng kể đến cụm bất kỳ khác được coi là đối tượng ngoài cuộc, dùng các
phương pháp dựa trên độ lệch để kiểm tra sự khác nhau trong những đặc trưng
chính của các nhóm đối tượng.
 Phân tích sự tiến hóa: Phân tích sự tiến hóa thực hiện việc mô tả và mô hình

hóa các quy luật hay khuynh hướng của những đối tượng mà ứng xử của chúng
thay đổi theo thời gian. Phân tích sự tiến hóa có thể bao gồm cả đặc trưng hóa,
phân biệt, tìm luật kết hợp, phân lớp hay phân cụm dữ liệu liên quan đến thời
gian, phân tích dữ liệu theo chuỗi thời gian, so sánh mẫu theo chu kỳ và phân
tích dữ liệu dựa trên tính tương tự. [3]
1.3.3. Một số ứng dụng khai phá dữ liệu
Hiện nay, kỹ thuật KPDL đang được áp dụng một cách rộng rãi trong rất nhiều
lĩnh vực kinh doanh và đời sống khác nhau như:
 Thương mại: Phân tích dữ liệu bán hàng và thi trường, phân tích đầu tư, quyết
định cho vay, phát hiện gian lận, …
 Thông tin sản xuất: Điều khiển và lập kế hoạch, hệ thống quản lý, phân tích kết
quả thử nghiệm, …
 Thông tin khoa học: dự báo thời tiết, CSDL sinh học: Ngân hàng gen, khoa học
địa lý: dự báo động đất, …
 Trong y tế, marketing, ngân hàng, viễn thông, du lịch, internet…[2]
1.3.4. Các kỹ thuật khai phá dữ liệu
Hình 1.2. biểu diễn một tập dữ liệu giả hai chiều bao gồm 23 trường hợp. Mỗi
một điểm trên hình đại diện cho một người vay tiền ngân hàng tại một thời điểm
trong quá khứ. Dữ liệu được phân loại thành hai lớp: những người không có khả năng
trả nợ và những người tình trạng vay nợ đang ở trạng thái tốt.
Hai mục đích chính của KPDL trong thực tế là dự đoán và mô tả.


17

Hình 1.2. Tập dữ liệu với hai lớp: có và không có khả năng trả nợ
1.3.4.1 Khai phá dữ liệu dự đoán
Nhiệm vụ của KPDL dự đoán là đưa ra các dự đoán dựa vào các suy diễn trên
cơ sở dữ liệu hiện thời. Nó sử dụng các biễn hay các trường trong cơ sở dữ liệu để dự
đoán các giá trị không biết hay các giá trị tương lai. Bao gồm các kỹ thuật: Phân loại

(Classification); Hồi qui (Regression … )
a) Phân loại
Mục tiêu của phương pháp phân loại dữ liệu là dự đoán nhãn lớp cho các mẫu
dữ liệu. Quá trình phân loại dữ liệu thường gồm hai bước : xây dựng mô hình và sử
dụng mô hình để phân loại dữ liệu.
 Bước 1: Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước.
Mỗi mẫu thuộc về một lớp, được xác định bởi một thuộc tính gọi là thuộc tính
lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện. Các nhãn lớp
của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng mô
hình, vì vậy phương pháp này được gọi là học có giám sát.
 Bước 2: Sử dụng mô hình để phân loại dữ liệu. Trước hết chúng ta phải tính độ
chính xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được
sử dụng để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai.
Hay nói các khác, phân loại là học một hàm ánh xạ một mục dữ liệu vào trong số
các lớp cho trước. Hình 1.3. cho thấy sự phân loại của các dữ liệu vay nợ trong hai
miền lớp. Ngân hàng có thể sử dụng các miền phân loại để tự động quyết định liệu
những người vay nợ trong tương lai có nên cho vay hay không.


18

Hình 1.3. Phân loại của các dữ liệu vay nợ trong hai miền lớp
b) Hồi quy
Phương pháp hối quy khác với phương pháp phân loại dữ liệu ở chỗ, hồi qui
dùng để dự đoán về các giá trị liên tục còn phân loại dữ liệu chỉ dùng để dự đoán về
các giá trị rời rạc.
Hồi quy là một hàm học ánh xạ mục dữ liệu thành một biến dự đoán có giá trị
thực. Có rất nhiều ứng dụng KPDL với nhiệm vụ hồi quy, chẳng hạn như khả năng
đánh giá tử vong của bệnh nhân khi biết các kết quả xét nghiệm; chẩn đoán, dự đoán
nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáo.

1.3.4.2. Khai phá dữ liệu mô tả
Kỹ thuật này có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của
dữ liệu trong CSDL hiện có. Bao gồm các kỹ thuật: Phân cụm; Khai phá luật kết
hợp
a) Phân cụm
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng
tương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một
một cụm là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương
đồng. Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát. Phân cụm
dữ liệu đòi hỏi phải định nghĩa trước các dữ liệu huấn luyện.
Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị
trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang Web
Hình 1.4. cho thấy sự phân cụm tập dữ liệu cho vay vào trong 3 cụm: Lưu ý
rằng các cụm chồng lên nhau cho phép các điểm dữ liệu thuộc về nhiều hơn một cụm.


19

Hình 1.4 : Phân cụm tập dữ liệu cho vay thành 3 cụm
b) Khai phá luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các
giá trị dữ liệu trong cơ sở dữ liệu. Mẫu đầu ra của giải thuật KPDL là luật kết hợp tìm
được. Chẳng hạn, phân tích cơ sở dữ liệu bán hàng nhận được thông tin về những
khách hàng mua máy tính có khuynh hướng mua phần mềm quản lý tài chính trong
cùng lần mua được miêu tả trong luật kết hợp sau: “Máy tính=>Phần mềm quản lý tài
chính” (Độ hỗ trợ: 2%, độ tin cậy: 60%).
Độ hỗ trợ và độ tin cậy là hai độ đo của sự đáng quan tâm của luật. Chúng
phản ánh sự hữu ích vá sự chắc chắn của luật đã khám phá. Độ hỗ trợ 2% có nghĩa là
2% của tất cả các vụ đang phân tích chỉ ra rằng máy tính và phần mềm quản lý tài
chính là đã được mua cùng nhau. Còn độ tin cậy 60% có nghĩa là: 60% các khách

hàng mua máy tính cũng mua phần mềm.
Khai phá luật kết hợp được thực hiện qua hai bước:
 Bước 1: Tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định
qua tính hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu
 Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa
mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu.
Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như maketing có
chủ đích, phân tích quyết định, quản lý kinh doanh, phân tích giá thị trường …[3]
1.3.5. Kiến trúc của hệ thống khai phá dữ liệu
Kiến trúc điển hình của một hệ thống KPDL được trình bày trong hình 1.5.
Trong kiến trúc hệ thống này, các nguồn dữ liệu cho các hệ thống KPDL bao
gồm hoặc Cơ sở dữ liệu, hoặc Kho dữ liệu, hoặc World Wide Web, hoặc kho chứa dữ
liệu kiểu bất kỳ khác, hoặc tổ hợp các kiểu đã liệt kê nói trên.


20
Cơ sở tri thức, bao chứa các tri thức miền ứng dụng hiện có, được sử dụng
trong thành phần hệ thống KPDL để làm tăng tính hiệu quả của thành phần này. Một
số tham số của thuật toán KPDL tương ứng sẽ được tinh chỉnh theo tri thức miền sẵn
có từ cơ sở tri thức trong hệ thống. Cơ sở tri thức còn được sử dụng trong việc đánh
giá các mẫu đã khai phá được xem chúng có thực sự hấp dẫn hay không, trong đó có
việc đối chứng mẫu mới với các tri thức đã có trong cơ sở tri thức. Nếu mẫu khai phá
được là thực sự hấp dẫn thì chúng được bổ sung vào cơ sở tri thức để phục vụ cho
hoạt động tiếp theo của hệ thống. Như vậy, nguồn tri thức bổ sung vào cơ sở tri thức
ở đây không chỉ từ lập luận lôgic theo các hệ toán lôgic để có tri thức mới, không chỉ
do con người hiểu biết thêm về thế giới khách quan để bổ sung vào mà còn là tri thức
được phát hiện một cách tự động từ nguồn dữ liệu.

Hình 1.5 : Kiến trúc điển hình của một hệ thống khai phá dữ liệu



21
CHƢƠNG 2 – CƠ SỞ DỮ LIỆU ĐA PHƢƠNG TIỆN
2.1. Tổng quan cơ sở dữ liệu đa phương tiện
Multimedia đã trở thành một phần quan trọng trong đời sống xã hội, trong văn
hóa, công nghệ và giáo dục. Trên thực tế, bất kỳ một loại thông tin nào cũng có thể
phân loại là Multimedia như tạp chí, truyền hình, các trang Web hay các bộ phim.[4]
Công nghệ multimedia liên quan tới việc mô tả sự kết hợp các dạng thức
thông tin khác nhau (văn bản, dữ liệu, hình ảnh, âm thanh, video) dưới dạng tín hiệu
số. Có thể nêu ra đây một số ứng dụng multimedia như :
 E-learning.
 Hội thảo Video (Video Conferencing).
 Thư viện điện tử (Elibrary).
 Hiện tại ảo (Vitual Reality).
Các công nghệ chủ yêu liên quan đến multimedia bao gồm:
 Kỹ thuật nén.
 Video Servers.
 Các kỹ thuật về mạng (internet, tokenring, ethernet, ATM …vv).
 Các công nghệ truyền dữ liệu.
 Các công nghệ về cáp truyền dẫn.
 Công nghệ xác thực.
 Các công nghệ về CSDL.
2.1.1. Một số khái niệm cơ bản
2.1.1.1. Media
Media là các loại thông tin hay loại trình diễn thông tin như dữ liệu văn bản,
ảnh, âm thanh và video.[1]
Có nhiều cách phân loại media, nhưng cách chung nhất là phân loại trên cơ sở
khuôn mẫu vật lý hay các quan hệ media với thời gian. Tài liệu này phân lớp media
dựa trên cơ sở là chúng có chiều thời gian hay không. Qui định này dẫn tới hai lớp
media: tĩnh và động.

 Media tĩnh: Là loại media không có chiều thời gian, nội dung và ý nghĩa của
chúng không phụ thuộc vào thời gian trình diễn. Media tĩnh bao gồm dữ liệu
văn bản, hình ảnh tĩnh
 Media động: Có chiều thời gian, ý nghĩa và độ chính xác của chúng phụ thuộc
vào tốc độ trình diễn. Media động bao gồm annimation, video, audio. Media
động phụ thuộc chặt chẽ vào tốc độ trình diễn.


22
Ví dụ, để cảm nhận chuyển động trơn tru, video phải được trình chiếu với
tốc độ 25 frame/sec (hay 30 frame/sec phụ thuộc vào loại hệ thống video).
Tương tự, khi ta cho phát ra tiếng nói, âm nhạc, chúng chỉ được cảm nhận tự
nhiên khi đạt được tốc độ nhất định, nếu không chúng làm giảm chất lượng và
ý nghĩa âm thanh. Vì các media này phải được trình diễn liên tục và ở tốc độ cố
định cho nên chúng còn được gọi là media liên tục. Hay còn gọi chúng là
media đẳng thời vì quan hệ giữa các đơn vị media và thời gian là cố định.[1]
2.1.1.2. Đa phương tiện (Multimedia)
Khái niệm multimedia đề cập đến tập hợp các kiểu media được tích hợp với
nhau trong đó ít nhất có một kiểu media không phải là văn bản (nói cách khác là ít
nhất có một media trong đó là ảnh, audio hay video).
Ví dụ: Một trang Web về chủ đề của Mozart có văn bản liên quan đến nhà soạn
nhạc cùng với một tập tin âm thanh của một số bản nhạc của ông và thậm chí có thể
là một video âm nhạc của ông đang được chơi.
2.1.1.3. Cơ sở dữ liệu và hệ quản trị cơ sở dữ liệu
CSDL: Được hiểu là một bộ sưu tập hoặc một kho dữ liệu hoặc các mục
media.
Hệ quản trị cơ sở dữ liệu (DBMS): Là một hệ thống dùng để quản trị cơ sở dữ
liệu.
2.1.1.4. Truy tìm thông tin tài liệu văn bản
Hệ thống truy tìm thông tin tự động hóa (IR) được tạo lập từ năm 1940 nhằm

quản lý lượng lớn các tài liệu khoa học. Một hệ thống IR có chức năng lưu trữ và
quản lý số lượng lớn các tài liệu khoa học theo cách thích hợp để các truy vấn có thể
truy tìm thông tin một cách nhanh chóng theo yêu cầu của người sử dụng.
2.1.1.5. Truy xuất và truy tìm Multimedia
Các DBMS truy xuất các khoản mục dựa trên các số liệu có cấu trúc. Việc truy
xuất dữ liệu dựa vào những đặc trưng của từng lợi dữ liệu: màu sắc, lời giải thích văn
bản về media đó. Việc truy xuất nội dung là tương tự thay vì đối sánh chính xác giữa
các truy vấn và các mục media.
MIRS: Là một hệ thống cơ sở cung cấp việc truy xuất thông tin Multimedia khi
sử dụng tổ hợp DBMS. Trong một MIRS các vấn đề về bảo mật hay phiên bản không
được thực hiện đầy đủ. Một MIRS đầy đủ gọi là một Hệ quản trị cơ sở dữ liệu đa
phương tiện (MMDBMS).


23
2.1.1.6. Trích chọn đặc trưng, Biểu diễn nội dung và Xây dựng chỉ mục
Một trong những nhiệm vụ quan trọng của MIRS là trích chọn đặc trưng hay
biểu diễn nội dung. Trích chọn đặc trưng là tiến trình tự động hay bán tự động. Trong
một số tài liệu còn gọi tiến trình trích chọn đặc trưng là chỉ mục (chỉ số hóa).
Chỉ mục là danh từ, đề cập đến cấu trúc dữ liệu hay đề cập đến tổ chức các đặc
trưng đã trích chọn để tìm kiếm hiệu quả.
2.1.2. Vai trò của MIRS
Cần phải có MIRS vì:
 Ngày càng có nhiều dữ liệu đa phương tiện được thu thập và lưu trữ, để sử
dụng tốt cần phải có hệ thống truy tìm và chỉ số hóa tốt.
 Khác với loại dữ liệu chữ và số, dữ liệu đa phương tiện có tính chất và yêu cầu
đặc biệt, một CSDL truyền thống không phù hợp trong việc quản lý cơ sở dữ
liệu đa phương tiện.
 Các kỹ thuật truy tìm thông tin có thể giúp truy tìm đa phương tiện nhưng
chúng chưa có khả năng quản lý hiệu quả dữ liệu đa phương tiện.

2.1.2.1. Các DBMS và vai trò của chúng trong việc xử lý dữ liệu Multimedia
Các DBMS ngày nay được phát triển khá tốt và được sử dụng rộng rãi cho các
dữ liệu có cấu trúc. DBMS quen thuộc là DBMS quan hệ (Ralational Database
Management System - RDBMS). Trong RDBMS, thông tin được tổ chức thành bảng
hoặc các quan hệ. Các dòng của bảng tương ứng với các khoản mục thông tin hoặc
các record, trong khi đó các cột tương ứng với các thuộc tính. Ngôn ngữ truy vấn có
cấu trúc (SQL) được sử dụng đê
̉
t ạo ra các bảng như thế và để chèn và truy xuất
thông tin từ các bảng đó.[1]
Một dạng khác của các DBMS là hệ thống quản trị CSDL hướng đối tượng
(OODBMS- Object Oriented Database Management System). Các OODBMS kết nối
các khả năng của cơ sở dữ liệu (như lưu trữ và tìm kiếm) và các đặc trưng hướng đối
tượng (tóm lược, sự thừa kế, tính đồng nhất đối tượng). Một phương pháp tiếp cận
chung là kết nối các đặc điểm hướng đối tượng với cơ sở dữ liệu quan hệ. Hệ thống
đã được kết nối thì được gọi là một hệ thống cơ sở dữ liệu hướng đối tượng quan hệ.
Trong một hệ thống như vậy, các đối tượng được xác định một cách thích hợp trong
hướng đối tượng. Trong đó mỗi đối tượng chứa các đặc tính hoặc thuộc tính và các
phương pháp hoặc các hàm được sử dụng để chế tác ra các đặc tính khác.
Khả năng cần có trong hệ thống như sau:
 Công cụ để tự động hoặc bán tự động trích chọn đặc trưng chứa trong dữ liệu đa


24
phương tiện.
 Cấu trúc chỉ số hóa đa chiều để quản lý các véctơ đặc trưng đa phương tiện.
 Thước đo tương tự để truy tìm dữ liệu đa phương tiện thay cho đối sánh chính
xác.
 Phân hệ lưu trữ được thiết kế để đáp ứng yêu cầu dữ liệu lớn, băng thông rộng và
thời gian thực.

 Giao diện người sử dụng được thiết kế sao cho truy vấn mềm dẻo với các loại
media khác nhau và cho khả năng trình diễn đa phương tiện.
2.1.2.2. Hệ thống IR và vai trò của nó trong việc truy xuất multimedia
Ngoài các DBMS, có loại hệ thống quản lý thông tin khác tập trung vào việc
truy xuất tài liệu văn bản. Loại hệ thống này được gọi là hệ thống truy xuất thông tin
(IR). Công nghệ IR rất quan trọng trong hệ thống quản lý thông tin multimedia vì hai
lý do chính:
 Một là chúng tồn tại một lượng lớn các văn bản trong nhiều dạng tổ chức, ví dụ
như các thư viện. Văn bản là một nguồn thông tin quan trọng trong bất kỳ một
tổ chức nào. Để sử dụng các thông tin đã được lưu trữ trong các tài liệu này,
cần có một hệ thống IR hiệu quả.
 Hai là, văn bản có thể được sử dụng để chú giải các truyền thông khác như âm
thanh, hình ảnh, video. Thông thường thì công nghệ IR có thể được sử dụng
cho việc phu
̣
c hồi thông tin đa truyền thông.
Tuy nhiên, việc sử dụng chỉ để xử lý dữ liệu truyền thông phải tuân theo các hạn
chế sau:
 Việc chú giải nhìn chung phải làm bằng tay và tiêu tốn thời gian
 Văn bản chú giải chưa đầy đủ và còn mang tính chủ quan
 Các kỹ nghệ IR không thể điều khiển các câu hỏi từ văn bản khác (như âm
thanh và hình ảnh).
 Một vài đặc tính của multimedia như bố cục hình ảnh và các dạng đối tượng là
khác nhau, nếu không thì cũng chỉ là cùng mô tả một văn bản.
2.1.2.3. Tích hợp truy tìm và chỉ số hóa thông tin đa phương tiện
Có thể thấy DBMS và IR không thể đáp ứng đầy đủ các yêu cầu về chỉ số hoá
và truy xu ất multimedia, vì vậy cần có các công nghệ mới để vận dụng những đặc
trưng riêng của multimedia.
Tuy vậy, các DBMS và IR vẫn đóng vai trò quan trọng trong các MDBMS.
Các phần của dữ liệu multimedia như ngày và tác giả tạo lập của tài liệu multimedia



25
là có cấu trúc. Dữ liệu có kết cấu này có thể được điều khiển bằng các kỹ nghệ
DBMS. Văn bản chú giải vẫn là phương pháp hiệu lực trong việc ghi lại nội dung.
2.1.3. Khái quát về MIRS
Các thao tác MIRS được mô tả trên hình 2.1. Dữ liệu (các mục thông tin) trong
CSDL được tiền xử lý để trích chọn đặc trưng và nội dung ngữ nghĩa. Sau đó chúng
được chỉ số hóa trên cơ sở đặc trưng và ngữ nghĩa.
Trong khi truy tìm thông tin, câu truy vấn của người sử dụng được xử lý và các
đặc trưng của nó được trích chọn. Các đặc trưng này sau đó được so sánh với các đặc
trưng hay chỉ mục dữ liệu trong CSDL. Các mục thông tin nào có đặc trưng gần
giống nhất với các đặc trưng của câu truy vấn thì được tìm ra và trình diễn cho người
sử dụng.


Hình 2.1. Một mẫu truy xuất thông tin tổng quát

Mô hình trên đây cho thấy rất nhiều nhiệm vụ phải thực hiện, thí dụ:
 Các mục thông tin có thể là tổ hợp bất kỳ các loại media.
 Trích chọn đặc trưng từ các mục media này như thế nào?
 Các đặc trưng được lưu trữ và cấu trúc như thế nào để truy tìm hiệu quả?
 Đo tính “tương tự” giữa hai mục media như thế nào?
 Thiết kế giao diện như thế nào để nó có thể chấp nhận các câu truy vấn phức tạp,
mờ và mềm dẻo?
 So sánh hiệu năng giữa các hệ thống MIRS bằng cách nào?
 Làm thế nào để đáp ứng yêu cầu thời gian khi truyền tải hay trình diễn dữ liệu


26

Multimedia?
2.1.4 Khả năng mong đợi và các ứng dụng của MIRS
MIRS cần phải mạnh và mềm dẻo. Khả năng của chúng được miêu tả bằng các
kiểu truy vấn mà chúng có thể hỗ trợ. Các loại truy vấn mong đợi của MIRS như sau:
 Truy vấn trên cơ sở meta-data: Meta-data là các thuộc tính hình thức của các
mục trong CSDL như tên tác giả, ngày tạo lập. Thí dụ truy vấn trong ứng dụng
VOD (Video on Demand) có thể là “Liệt kê các phim do ông NAME đạo diễn
vào năm 2004”. DBMS đáp ứng loại truy vấn này.
 Truy vấn trên cơ sở mô tả: Mô tả (annotation) đề cập đến miêu tả (description)
bằng văn bản nội dung các mục CSDL. Các câu truy vấn theo từ khóa hay free-
text form, việc truy tìm thực hiện trên cơ sở tương tự giữa câu truy vấn và mô
tả. Thí dụ truy vấn có thể là “Chỉ ra các đoạn video trong đó ACTOR đang đi
xe đạp”. Với loại truy vấn này, ta giả sử rằng các mục đã được mô tả đầy đủ và
có thể quản lý bởi các kỹ thuật IR.
 Truy vấn trên cơ sở mẫu (pattern) hay đặc trưng: Mẫu dữ liệu là các thông
tin tĩnh về dữ liệu đa phương tiện như phân bổ màu, cường độ âm thanh, mô tả
kết cấu bề mặt. Thí dụ của loại truy vấn này có thể là “Chỉ ra khung (frame)
video với phân bổ màu như THIS”. Để trả lời loại truy vấn này, các thông tin
thống kê về các mục CSDL phải được chuẩn bị và lưu trữ trước.
 Truy vấn theo thí dụ (by example): Truy vấn trong các đối tượng đa phương
tiện như ảnh, bản vẽ và đoạn âm thanh. Thí dụ truy vấn có thể là “Hãy chỉ ra
phim trong đó có đoạn tương tự như THIS PICTURE”. Loại truy vấn này có
thể phức tạp hơn khi bổ sung yếu tố quan hệ thời gian và không gian giữa các
đối tượng.
 Truy vấn ứng dụng cụ thể: Rất nhiều loại truy vấn cụ thể theo ứng dụng. Thí
dụ, truy vấn trên cơ sở thông tin chi tiết, cụ thể như kích thước đối tượng hay
tuổi cá nhân.
 Vì MIRS có khả năng hỗ trợ nhiều loại truy vấn cho nên nó có ứng dụng rộng
rãi, bao gồm các ứng dụng trong các lĩnh vực Y tế, An ninh, Giáo dục, Báo trí,
Giải trí, Đăng ký bản quyền…

Cuối cùng, các MIRS sẽ tập trung vào chính thông tin thay thế các loại truyền
thông và việc miêu tả chúng có thể được sắp xếp hoặc dịch ra từ loại truyền thông

×