Đề xuất cải tiến thuật toán tìm kiếm trong cơ sở dữ liệu mờ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.32 MB, 76 trang )

..

i NGUYÊN
ĐẠI HỌC THÁI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

NGUYỄN THANH TÂN

ĐỀ XUẤT CẢI TIẾN THUẬT TỐN TÌM KIẾM
TRONG CƠ SỞ DỮ LIỆU MỜ

LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH

Thái Nguyên - 2016

ii NGUYÊN
ĐẠI HỌC THÁI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

NGUYỄN THANH TÂN

ĐỀ XUẤT CẢI TIẾN THUẬT TỐN TÌM KIẾM
TRONG CƠ SỞ DỮ LIỆU MỜ

Chuyên ngành: Khoa học máy tính
Mã số: 60480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS. NGUYỄN THIỆN LUẬN

Thái Nguyên - 2016

i
LỜI CAM ĐOAN

Tôi xin cam đoan những nội dung trong luận văn “Đề xuất cải tiến thuật
tốn tìm kiếm trong cơ sở dữ liệu mờ” là do tôi thực hiện dưới sự hướng dẫn
trực tiếp của thầy giáo PGS. TS. Nguyễn Thiện Luận.
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả,
tên cơng trình, thời gian, địa điểm công bố.
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin
chịu trách nhiệm hồn tồn.
Thái Ngun, ngày 12 tháng 5 năm 2016
Học viên

Nguyễn Thanh Tân

ii
LỜI CẢM ƠN

Em xin bày tỏ lòng biết ơn sâu sắc tới PGS. TS. Nguyễn Thiện Luận
người thầy kính mến đã hướng dẫn, chỉ dạy tận tình để em hồn thành luận văn
này. Em xin chân thành cảm ơn các thầy, cô giáo trường Đại học Công nghệ
thông tin và Truyền thông Thái Nguyên, Khoa đào tạo sau đại học - Đại học
Thái Nguyên, Viện Công nghệ thông tin Việt Nam đã đón nhận và truyền thụ

kiến thức cho em trong suốt q trình học tập vừa qua.
Tơi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những
người thân đã cùng chia sẻ, giúp đỡ, động viên và tạo mọi điều kiện thuận lợi
để tơi hồn thành nhiệm vụ học tập và bản luận văn này.
Thái Nguyên, ngày 12 tháng 5 năm 2016
Học viên
Nguyễn Thanh Tân

iii
DANH MỤC TỪ TIẾNG ANH VÀ VIẾT TẮT

ANN
BK - trees
Codd E. F.
Damerau - Levenshtein distance
DoG
Episode
Full text search
Fuzzy Databases
Fuzzy join
Fuzzy Natural joint
Fuzzy projection
Fuzzy Search
Fuzzy Selection
Fuzzy Sets
Frame
Incomplete
Information Retrieval
KD - tree

Keypoint
Keypoint localization
Keypoint descriptor
L.A. Zadeh
Levenshtein distance
Lia, shot
Match
Necessity
Optical flow
Orientation assignment
Panning
Possibility

Approximative Nearest Neibour
Cây Burkhard - Keller
Edgar Frank "Ted" Codd
Khoảng cách Damerau - Levenshtein
Deffirence of Gaussisan
Một hồi
Tìm kiếm toàn văn
Cơ sở dữ liệu mờ
Phép kết nối mờ
Phép kết nối tự nhiên mờ
Phép chiếu mờ
Tìm kiếm mờ
Phép chọn mờ
Tập mờ
Khung hình
Khơng đầy đủ
Hệ thống tìm kiếm thơng tin hỗ trợ

short for k - dimensional tree
Điểm quan trọng
Định vị điểm đặc trưng
Mô tả các điểm đặc trưng
Lotfi Aliasker Zadeh
Khoảng cách Levenshtein
Đoạn cơ sở
Đối sánh
Tất yếu
Dòng quang học
Xác định hướng
Chỉ sự quay trái, phải của máy quay
Khả năng

iv
Process
RGB
Scale
Scale - Space extrema detection
Scene
Sequence
SIFT
Spell - checker method
Task
TFN
uncertainty
unexact
Weighted tuples

Tiến trình
Red, Green, Blue
Tỉ lệ
Phát hiện các điểm cực trị
Cảnh
Chuỗi video, dãy video
Scale Invariant Feature Transform
Phương pháp kiểm tra chính tả
Tác vụ
Triangular Fuzzy Number
Khơng chắc chắn
Khơng chính xác
Bộ có trọng số

v
DANH MỤC BẢNG VÀ HÌNH VẼ
Hình 1.1: Biểu diễn các miền của một tập mờ................................................................. 6
Hình 1.2: Biểu diễn các hàm liên thuộc của phép lấy phần bù ...................................... 8
Hình 1.3: Các tập mờ hình tam giác ................................................................................. 9
Hình 1.4: Tập mờ Singleton .............................................................................................. 9
Hình 1.5: Tập mờ L (phải) ................................................................................................. 9
Hình 1.6: Tập mờ Gamma tuyến tính ............................................................................ 10
Hình 1.7: Tập mờ hình thang .......................................................................................... 10
Hình 2.1: Biểu diễn số mờ tam giác ............................................................................... 24
Hình 2.2: Minh họa các bước chính trong giải thuật SIFT .......................................... 26
Hình 2.3: Q trình tính khơng gian đo (L) và hàm sai khác D ..................................... 28
Hình 2.4: Quá trình tìm điểm cực trị trong các hàm sai khác DoG ............................ 29
Hình 2.5: Mơ phỏng công thức mở rộng của Taylor cho hàm DoG .......................... 30
Hình 2.6: Minh họa các bước của quá trình lựa chọn các điểm keypoints ................ 32

Hình 2.7: Tính độ lớn và hướng của Gradient ............................................................... 34
Hình 2.8: Tạo bộ mơ tả cục bộ ........................................................................................ 35
Hình 2.9: Mơ hình dữ liệu video .................................................................................... 37
Hình 2.10: Sơ đồ khối thuật tốn phát hiện chuyển cảnh ............................................ 39
Hình 3.1: Mơ hình bài tốn tìm kiếm video trong CSDL ........................................... 46
Hình 3.2: Quy trình tìm kiếm video bằng hình ảnh trong CSDL ................................ 47
Hình 3.3: Mơ phỏng các điểm keypoint cần lưu trữ .................................................... 48
Hình 3.4: Biểu diễn các tình huống trong trường hợp thơng thường .......................... 50
Hình 3.5: Biểu diễn các tình huống trong trường hợp xấu .......................................... 51
Hình 3.6: Sơ đồ khối đối sánh 2 số mờ tam giác .......................................................... 55
Hình 3.7: Giao diện chương trình phân đoạn và mờ hóa video .................................. 56
Hình 3.8: Giao diện chương trình Smart Cutter for DV and DVB ............................. 57
Hình 3.9: Mơ hình lập trình socket TCP giữa 2 tiến trình client và server ............... 59
Hình 3.10: Giao diện chương trình tìm kiếm video ...................................................... 61
Bảng dữ liệu thông tin Video ........................................................................................... 53
Bảng dữ liệu Video shot ................................................................................................... 54
Bảng kết quả đánh giá hiệu năng tìm kiếm .................................................................... 62

vi
MỤC LỤC
LỜI CAM ĐOAN ...............................................................................................................i
LỜI CẢM ƠN ................................................................................................................... ii
DANH MỤC TỪ TIẾNG ANH VÀ VIẾT TẮT ....................................................... iii
DANH MỤC BẢNG VÀ HÌNH VẼ...............................................................................v
MỤC LỤC ......................................................................................................................... vi
MỞ ĐẦU..............................................................................................................................1

1. Đặt vấn đề.......................................................................................................................1
2. Đối tượng và phạm vi nghiên cứu ............................................................................2

3. Hướng nghiên cứu của đề tài .....................................................................................2
4. Những nội dung nghiên cứu chính ...........................................................................3
5. Phương pháp nghiên cứu ............................................................................................3
6. Ý nghĩa khoa học của đề tài .......................................................................................4
CHƯƠNG 1: TỔNG QUAN VỀ LÝ THUYẾT MỜ CSDL MỜ VÀ ỨNG DỤNG .......5

1.1. Tổng quan về lý thuyết mờ .....................................................................................5
1.1.1. Khái niệm tập mờ ..............................................................................................5
1.1.2. Một số khái niệm của tập mờ ........................................................................5
1.1.3. Các phép toán trên tập mờ ...............................................................................6
1.1.4. Các kiểu hàm thuộc ...........................................................................................8
1.1.5. Các loại số mờ ................................................................................................. 10
1.2. Cở sở dữ liệu mờ, phương thức biểu diễn và ứng dụng ............................... 11
1.2.1. Định nghĩa ........................................................................................................ 12
1.2.2. Biểu diễn thuộc tính trong quan hệ mờ ..................................................... 12
1.2.3. So sánh các giá trị thuộc tính mờ ................................................................ 13
1.2.4. Các phép tốn tập hợp trên quan hệ mờ............................................. 14
1.2.5. Các phép toán quan hệ mờ ........................................................................... 15
1.2.6. Phụ thuộc hàm mờ .......................................................................................... 16
1.2.7. Các mô hình cơ sở dữ liệu mờ..................................................................... 16
a. Mơ hình tập con mờ ........................................................................................... 16

vii
b. Mơ hình dựa trên quan hệ tương tự ............................................................... 16
c. Mơ hình dựa trên phân bố khả năng .............................................................. 17
d. Mơ hình dựa trên phân bố khả năng mở rộng ............................................. 18
e. Mơ hình CSDL mờ dựa trên tổ hợp các mơ hình trên .............................. 18
f. Mơ hình theo cách tiếp cận đại số gia tử....................................................... 18
1.3. Tổng quan về phương pháp tìm kiếm mờ ........................................................ 19

1.3.1. Khoảng cách Levenshtein............................................................................. 19
1.3.2. Khoảng cách Damerau - Levenshtein........................................................ 20
1.3.3. Thuật toán Bitap với những thay đổi của Wu và Manber .................... 20
1.3.4. Phương pháp kiểm tra chính tả.................................................................... 21
1.3.5. Phương pháp N-gram..................................................................................... 21
1.3.6. Cây - BK (BK - trees) .................................................................................... 22
1.4. Kết luận chương ..................................................................................................... 22
CHƯƠNG 2: THUẬT TỐN TÌM KIẾM TRONG CSDL MỜ .................................. 23

2.1. Số mờ tam giác ....................................................................................................... 23
2.1.1. Các phép toán trên số mờ tam giác ............................................................ 24
2.1.2. Quan hệ so sánh trên số mờ tam giác ........................................................ 24
2.2. Tổ chức dữ liệu cho thuật tốn tìm kiếm dữ liệu mờ .................................... 25
2.2.1. Đối sánh ảnh dựa trên đặc trưng SIFT ...................................................... 25
a. Phát hiện các điểm cực trị ................................................................................ 26
b. Định vị các điểm đặc trưng.............................................................................. 30
c. Xác định hướng cho các điểm đặc trưng ...................................................... 33
d. Mô tả các điểm đặc trưng ................................................................................. 34
e. Đối sánh đặc trưng SIFT .................................................................................. 35
2.2.2. Phân đoạn dữ liệu video ................................................................................ 37
a. Mơ hình dữ liệu video ....................................................................................... 37
b. Một số kỹ thuật phân đoạn video ................................................................... 38
c. Kỹ thuật phân đoạn video bằng đối sánh đặc trưng SIFT ........................ 38
d. Tóm tắt video ...................................................................................................... 40

viii
2.3. Cải tiến thuật tốn tìm kiếm dữ liệu mờ........................................................... 41
2.3.1. Thuật tốn tìm kiếm ....................................................................................... 41
2.3.2. Thuật tốn tìm kiếm dữ liệu mờ .................................................................. 42

2.3.3. Đánh giá thuật toán tìm kiếm....................................................................... 43
2.4. Kết luận chương ..................................................................................................... 44
CHƯƠNG 3: CÀI ĐẶT THUẬT TỐN TÌM KIẾM ................................................... 45

3.1. Phân tích một số nhu cầu tìm kiếm video trong CSDL ................................ 45
3.2. Thiết kế mơ hình bài tốn tìm kiếm trong CSDL .......................................... 46
3.2.1. Mơ hình bài tốn tìm kiếm video................................................................ 46
3.2.2. Quy trình tìm kiếm video theo hình ảnh ................................................... 47
3.2.3. Quy trình sử dụng logic mờ ......................................................................... 48
3.2.4. Mở rộng csdl quan hệ thành csdl mờ dựa trên phân bố khả năng ...... 49
a. Bộ có trọng số trong quan hệ mờ ................................................................... 49
b. Biểu diễn dữ liệu mờ bằng phân bố khả năng............................................. 50
c. Mối quan hệ với dạng chuẩn 1NF .................................................................. 52
d. Độ đo khả năng và độ đo cần thiết ................................................................ 52
3.3. Cài đặt thuật tốn tìm kiếm mờ và một số giao diện chính ......................... 53
3.3.1. Lựa chọn công cụ............................................................................................ 53
3.3.2. Thiết kế cơ sở dữ liệu .................................................................................... 53
3.3.3. Cài đặt thuật tốn tìm kiếm và một số giao diện chính ......................... 55
a. Kỹ thuật đối sánh hai số mờ tam giác ........................................................... 55
b. Cài đặt thuật toán phân đoạn video ............................................................... 56
c. Cài đặt thuật tốn trích chọn frame đại diện và mờ hóa video ............... 57
d. Kỹ thuật khởi tạo các tiến trình và trao đổi dữ liệu ................................... 59
e. Cài đặt thuật toán tìm kiếm dữ liệu mờ ........................................................ 60
3.3.4. Thử nghiệm và đánh giá................................................................................ 62
3.4. Kết luận chương ..................................................................................................... 62
KẾT LUẬN ........................................................................................................................ 63
TÀI LIỆU THAM KHẢO ................................................................................................ 65

1

MỞ ĐẦU

1. Đặt vấn đề
Ngày nay, cùng với sự phát triển nhanh chóng của Cơng nghệ tin học thì
khối lượng dữ liệu rất lớn với sự phong phú, đa dạng và phức tạp của nhiều loại
hình thơng tin như: văn bản, hình ảnh, âm thanh, video được thu thập và lưu
trữ dưới dạng số ngày càng nhiều. Tương ứng với khối lượng dữ liệu khổng lồ
đó, người ta quan tâm nhiều đến cơ sở dữ liệu mờ (Fuzzy Databases) trong khoa
học công nghệ và trong thực tiễn. Với hệ thống cơ sở dữ liệu mờ, bao gồm các
trường dữ liệu truyền thống và phi truyền thống dưới dạng hình ảnh, video,
audio và văn bản đang có xu thế thâm nhập vào rất nhiều lĩnh vực và đang dần
trở thành hệ cơ sở dữ liệu được quan tâm từ người sử dụng và các chuyên gia
trong vấn đề lưu trữ, xử lý và ứng dụng. Với khối lượng dữ liệu lớn này dẫn tới
việc tìm kiếm dữ liệu trở nên khó khăn vì vậy cần có các hệ thống tìm kiếm
thơng tin (Information Retrieval) hỗ trợ người dùng tìm kiếm một cách chính
xác và nhanh chóng các thơng tin mà họ cần trên kho tư liệu khổng lồ này.
Cho đến nay, vấn đề tìm kiếm thơng tin theo điều kiện tìm kiếm mờ trong
cơ sở dữ liệu vẫn được các chuyên gia nghiên cứu, trong việc truy tìm thơng
tin phù hợp với yêu cầu của một truy vấn đưa ra từ người sử dụng. Người sử
dụng có xu hướng tìm kiếm chủ yếu trong cơ sở dữ liệu, ví dụ như tìm kiếm
một loạt hình ảnh cổ vật liên quan đến nền văn hố cổ Việt Nam, tìm kiếm dữ
liệu âm thanh có bản text kèm theo, tìm kiếm video bài giảng cho học sinh ơn
thi đại học.
Bài tốn tìm kiếm thơng tin trong cơ sở dữ liệu đóng vai trị quan trọng là
bài tốn so mẫu, với mẫu có thể ở bất kỳ kiểu dữ liệu nào, từ văn bản đến các
loại dữ liệu đa phương tiện khác (hình ảnh, video, âm thanh, ...). Trong các bài
tốn tìm kiếm, để tìm kiếm nhanh đáp ứng được nhu cầu và khơng chỉ tìm kiếm

2

cứng nhắc với từ khoá đưa ra. Người dùng mong muốn có thể tìm được cả
những thơng tin liên quan gợi ý cho người dùng. Vậy bài tốn tìm kiếm trong
cơ sở dữ liệu mờ theo điều kiện tìm kiếm mờ là rất cần thiết. Do đó cần phải
xây dựng các thuật toán mềm dẻo cho phép phát huy được sức mạnh của tìm
kiếm với điều kiện tìm kiếm mờ và đặc biệt cho phép sử dụng được nguồn tri
thức giàu tính chun gia trong những tính huống tìm kiếm phức tạp.
Để tìm kiếm những thơng tin với điều kiện tìm kiếm mờ trong mơ hình cơ
sở dữ liệu có cấu trúc gồm các trường dữ liệu truyền thống và phi truyền thống,
có nhiều hướng tiếp cận khác nhau như cách tiếp cận theo lý thuyết tập mờ,
theo phân bố khả năng, theo quan hệ tương tự,... Tất cả các cách tiếp cận này
nhằm mục đích nắm bắt và xử lý một cách thỏa đáng các thông tin không đầy
đủ (incomplete), thơng tin khơng chính xác (unexact), hay những thơng tin
khơng chắc chắn (uncertainty).
Vì vậy, luận văn tập trung nghiên cứu về “Cải tiến thuật tốn tìm kiếm
trong cơ sở dữ liệu mờ”.
2. Đối tượng và phạm vi nghiên cứu
Đối tượng và phạm vi nghiên cứu của luận văn tập trung vào các phương
pháp và giải pháp để tìm kiếm thơng tin theo điều kiện tìm kiếm mờ (chứa đựng
các thông tin không chắc chắn) trong cơ sở dữ liệu có cấu trúc gồm các trường
dữ liệu truyền thống và phi truyền thống như: file text, file ảnh, video.
3. Hướng nghiên cứu của đề tài
- Tìm hiểu về lý thuyết mờ và ứng dụng.
- Tìm hiểu về cơ sở dữ liệu mờ và ứng dụng.
- Tìm hiểu các kỹ thuật và quy trình tìm kiếm thơng tin trong cơ sở dữ
liệu mờ với các yêu cầu tìm kiếm chứa đựng thơng tin khơng rõ ràng khơng
chính xác.
- Cải tiến thuật tốn tìm kiếm trong cơ sơ dữ liệu mờ.

3

4. Những nội dung nghiên cứu chính
Luận văn được trình bày trong 3 chương, có phần mở đầu, phần kết luận,
phần mục lục, phần tài liệu tham khảo và phần danh mục bảng và hình vẽ. Các
nội dung cơ bản của luận văn được trình bày theo cấu trúc như sau:
Chương 1: Tổng quan về lý thuyết mờ, cơ sở dữ liệu mờ và ứng dụng
1.1. Tổng quan về lý thuyết mờ
1.2. Cở sở dữ liệu mờ, phương thức biểu diễn và ứng dụng
1.3. Tổng quan về phương pháp tìm kiếm mờ
1.4. Kết luận chương
Chương 2: Thuật tốn tìm kiếm trong cơ sở dữ liệu mờ
2.1. Số mờ tam giác
2.2. Tổ chức dữ liệu cho thuật tốn tìm kiếm dữ liệu mờ
2.3. Cải tiến thuật tốn tìm kiếm dữ liệu mờ
2.4. Kết luận chương
Chương 3: Cài đặt thuật tốn tìm kiếm trong cơ sở dữ liệu quản lý các
chương trình truyền hình Đài PT - TH tỉnh Hịa Bình.
3.1. Phân tích một số nhu cầu tìm kiếm video trong CSDL quản lý các
chương trình truyền hình.
3.2. Thiết kế mơ hình bài tốn tìm kiếm trong CSDL mờ quản lý các
chương trình truyền hình.
3.3. Cài đặt thuật tốn tìm kiếm mờ và một số giao diện chính.
3.4. Kết luận chương.
5. Phương pháp nghiên cứu
Sử dụng các phương pháp nghiên cứu chính sau:
- Phương pháp nghiên cứu lý thuyết: Phân tích, liệt kê, đối sánh, nghiên
cứu tài liệu, tổng hợp các kết quả của các nhà nghiên cứu liên quan đến lĩnh
vực nghiên cứu.

4

- Phương pháp trao đổi khoa học, lấy ý kiến chuyên gia.
- Phương pháp thực nghiệm: Cài đặt thử nghiệm thuật tốn cho bài tốn
tìm kiếm với điều kiện tìm kiếm mờ trong cơ sở dữ liệu mờ quản lý các chương
trình truyền hình.
6. Ý nghĩa khoa học của đề tài
- Giúp tìm hiểu, đánh giá khái quát về hệ cơ sở dữ liệu mờ, các thuật tốn
tìm kiếm với điều kiện tìm kiếm mờ.
- Vận dụng tốt thuật tốn tìm kiếm với điều kiện tìm kiếm mờ, giúp chúng
ta có thể dễ dàng tìm kiếm những nội dung trong cơ sở dữ liệu.
- Xây dựng cơ sở khoa học cho các bài tốn tìm kiếm trong cơ sở dữ liệu.

5
CHƯƠNG 1: TỔNG QUAN VỀ LÝ THUYẾT MỜ
CƠ SỞ DỮ LIỆU MỜ VÀ ỨNG DỤNG

1.1. Tổng quan về lý thuyết mờ [5]
L.A. Zadeh là người sáng lập ra lý thuyết tập mờ với hàng loạt bài báo mở
đường cho sự phát triển và ứng dụng của lý thuyết này, khởi đầu là bài báo
“Fuzzy Sets” trên Tạp chí Information and Control, 8, 1965. Ý tưởng nổi bật
của khái niệm tập mờ của Zadeh là từ những khái niệm trừu tượng về ngữ nghĩa
của thông tin mờ, không chắc chắn như trẻ, nhanh, cao thấp, xinh đẹp.., ơng đã
tìm ra cách biểu diễn nó bằng một khái niệm tốn học, được gọi là tập mờ, như
là một sự khái quát trực tiếp của khái niệm tập hợp kinh điển.
1.1.1. Khái niệm tập mờ
Tập mờ A được xác định trên không gian nền X bao gồm các phần tử, mà
mỗi phần tử là một cặp (x, µA (x)) trong đó x ∈ X và µA (x) là ánh xạ:
µA : X → [0,1]
Ánh xạ µA được gọi là hàm liên thuộc (hàm phụ thuộc hay hàm thuộc) của
tập mờ A.

1.1.2. Một số khái niệm của tập mờ
Định nghĩa 1.1.1. Độ cao của một tập mờ A trên không gian nền X là giá
trị ℎ = sup 𝜇𝐴 (𝑥)chỉ giá trị nhỏ nhất trong các giá trị chặn trên của hàm µA (x).
𝑥∈𝑋

Định nghĩa 1.1.2. Miền xác định của tập mờ A trên không gian nền X được
ký hiệu bởi S là tập con của X thoả mãn:
S = suppµA (x) = {x ∈ X / µA (x) > 0}
Định nghĩa 1.1.3. Miền tin cậy của tập mờ tập mờ A trên không gian nền
X được ký hiệu bởi T là tập con của X thoả mãn: T = {x ∈ X / µA (x) = 1}
Định nghĩa 1.1.4. Miền biên của tập mờ tập mờ A trên không gian nền X
được ký hiệu bởi U là tập con của X thoả mãn: U = {x ∈ X / 0 < µA (x) < 1}

6

Hình 1.1: Biểu diễn các miền của một tập mờ
Định nghĩa 1.1.5. Tập cắ t α (α ∈ [0,1]) của tập mờ A trên không gian nền
X được ký hiệu bởi Aα là tập con của X thỏa mãn Aα = {x / µA (x) ≥ α} và được
gọi là tập cắ t mạnh α và ký hiệu là Aα+ nếu Aα+ = {x / µA (x) > α}
Định nghĩa 1.1.6. Tập mức α, hay là tập nhát cắt - α của tập mờ tập mờ A
trên không gian nền X ký hiệu bởi Λ(A) là tập các tập con của X thỏa mãn:
Λ(A) = {x / µA (x) = α} với α ∈ [0,1]
Định nghĩa 1.1.7. Tập mờ A trên khơng gian nền X tuyến tính được gọi là
tập mờ lồi nếu Aα là tập lồi ∀𝛼 ∈ [0,1].
Định nghĩa 1.1.8. Lực lượng của tập mờ A trên không gian nền X được
biểu diễn như sau:

𝑁(𝐴, 𝜇𝐴 (𝑥)) = ∑ 𝜇𝐴 (𝑥)
𝑛=1

1.1.3. Các phép toán trên tập mờ
a) Phép hợp hai tập mờ:
Định nghĩa 1.1.8: Hợp của hai tập mờ A  B là một tập mờ được xác định
trong khơng gian nền X và có hàm liên thuộc µA  B (x) thỏa mãn các tiên đề:
+ Chỉ phụ thuộc vào µA (x) và µB (x)
+ Nếu µB (x) = 0 với ∀x thì µA  B (x) = µA (x)
+ Có tính giao hốn µA  B (x) = µB  A (x)
+ Có tính kết hợp µ(A  B)  C (x) = µA  (B  C) (x)
+ Có tính khơng giảm (đồng biến). Nếu A1 ⊆ A2 thì A1  B ⊆ A2  B:

7
µA1 (x) ≤ µA2 (x) ⇒ µA1  B (x) ≤ µA2  B (x)
b) Phép giao hai tập mờ:
Định nghĩa 1.1.9: Giao của hai tập mờ A và B là một tập mờ A  B xác
định trong không gian nền X có hàm liên thuộc µA  B (x) thỏa mãn các tiên đề:
+ Chỉ phụ thuộc vào µA (x) và µB (x)
+ Nếu µB (x) = 0 với ∀x thì µA  B (x) = µA (x)
+ Có tính giao hốn µA  B (x) = µB  A (x)
+ Có tính kết hợp µ(A  B)  C (x) = µA  (B  C) (x)
+ Có tính khơng giảm (đồng biến). Nếu A1 ⊆ A2 thì A1  B ⊆ A2  B:
µA1 (x) ≤ µA2 (x) ⇒ µA1  B (x) ≤ µA2  B (x)
c. Phép bù của một tập mờ
Định nghĩa 1.1.10: Tập bù của tập mờ A trên nền X là một tập mờ (𝐴, µ𝐴 )
xác định trên khơng gian nền X với hàm liên thuộc thỏa mãn các điều kiện:
+ µ𝐴 (x) chỉ phụ thuộc vào µA (x)
+ Nếu µA (x) = 0 thì µ𝐴 (x) = 1
+ Nếu µA (x) = 1 thì µ𝐴 (x) = 0
+ Nếu A  B thì có µ𝐴 (x) ≥ µ𝐵 (x)

Định nghĩa 1.1.11: Tập bù của tập mờ A trên nền X là một tập mờ (𝐴, µ𝐴)
xác định trên khơng gian nền X với hàm liên thuộc µ(µA): [0,1] → [0,1] thỏa
mãn các điều kiện sau:
+ µ(0) = 1
+ µ(1) = 0
+ µA ≤ µB ⇒µ(µA) ≥ µ(µB)
Nếu hàm một biến µ(µA) cịn thỏa mãn thêm điều kiện
+ Liên tục và µA < µB ⇒µ(µA) > µ(µB)

8
Thì phép bù trên cịn gọi là phép bù mờ chặt. Một phép bù mờ chặt được
gọi là phép bù mờ mạnh nếu:
̿=𝑨
+ µ(µ(µA)) = µA tức là 𝑨

Hình 1.2: Biểu diễn hàm liên thuộc của phép lấy phần bù
d. Phép hiệu đối xứng: Mở rộng công thức cho phép hiệu đối xứng các tập
kinh điển: A ∇ B = (A  B) \ (A  B) = (A  𝐵)  (𝐴  B) có thể xây dựng
phép hiệu đối xứng cho các tập mờ. Từ công thức xác định hàm liên thuộc đối
với phép hiệu đối xứng của các tập kinh điển. Có thể áp dụng trực tiếp để xây
dựng hàm liên thuộc hiệu đối xứng của các tập mờ (A, µA (x)) và (B, µB (x))
µA ∇ B (x) = µA (x) + µB (x) – 2µA (x)  µB (x)
e. Tích Đề các: Cho n tập mờ (xi, µAi (xi)), i=1,2,...n trên các khơng gian
nền Xi. Tích Đề các của n tập mờ là một tập mờ:
{(x1, x2,...xn), µX1  X2 ... Xn (x1, x2,...xn)}
trên khơng gian nền X1  X2 … Xn có hàm liên thuộc được xác định như
sau: µX1  X2 ... Xn (x1, x2,...xn) = min {µXi (xi)}
𝑖=1,2,…𝑛

1.1.4. Các kiểu hàm thuộc
a. Tam giác (Triangular): Định nghĩa bởi các cận dưới a, cận trên b và giá
trị m, a < m < b. Chúng ta gọi giá trị b - m là biên (margin) nếu giá trị này bằng
giá trị m - a.

9
0
𝑥−𝑎
𝜇𝐴 (𝑥) = 𝑚 − 𝑎
𝑏−𝑥
𝑏−𝑚
{1

nếu 𝑥 ≤ 𝑏 hoặc 𝑥 ≥ 𝑏
nếu 𝑎 < 𝑥 < 𝑚
nếu 𝑚 < 𝑥 < 𝑏
nếu 𝑥 = 𝑚

Hình 1.3: Các tập mờ hình tam giác: a)Tổng quát và b) Đối xứng
b. Singleton: Có giá trị 0 tại tất cả các điểm trong tập vũ trụ, ngoại trừ tại
điểm m có giá trị 1, dùng để biểu diễn các giá trị rõ.
𝑆𝐺(𝑥) = { 0
1

nếu 𝑥 ≠ 𝑚
nếu 𝑥 = 𝑚

Hình 1.4: Tập mờ Singleton
c. Hàm L: Hàm này được định nghĩa bởi hai tham số a và b theo cách:

1
𝑏−𝑥
𝐿(𝑥) = {
𝑏−𝑎
0

nếu 𝑥 ≤ 𝑎
nếu 𝑎 < 𝑥 < 𝑏
nếu 𝑥 ≥ 𝑏

Hình 1.5: Tập mờ L (phải)

10
d. Hàm Gamma tuyến tính: Hàm này được định nghĩa bởi hai tham số a
và b theo cách sau:
0
𝑥−𝑎
Γ(𝑥) = {
𝑏−𝑎
1

nếu 𝑥 ≤ 𝑎
nếu 𝑎 < 𝑥 < 𝑏
nếu 𝑥 ≥ 𝑏

Hình 1.6: Tập mờ Gamma tuyến tính
e. Hàm hình thang: Được định nghĩa bởi bộ 4 giá trị a, b, c, d theo công
thức sau:
0

𝑥−𝑎
𝑇(𝑥) = 𝑏 − 𝑎
𝑑−𝑥
𝑑−𝑐
{1

nếu 𝑥 ≤ 𝑎 hoặc 𝑥 ≥ 𝑑
nếu 𝑎 < 𝑥 < 𝑏
nếu 𝑐 < 𝑥 < 𝑑
nếu 𝑏 ≤ 𝑥 ≤ 𝑐

Hình 1.7: Tập mờ hình thang
1.1.5. Các loại số mờ
a. Định nghĩa 1.1.12: Tập mờ A = (x, µA (x)) trong không gian nền số thực
R được gọi là số thực mờ nếu thỏa mãn 3 điều kiện:
- A là tập mờ chính tắc

11
- Aα là là các khoảng đóng với ∀α ∈ (0,1]
- Tập S = suppµA (x) = {x ∈ X / µA (x) > 0} giới nội
b. Số mờ hình chng: Là một tập mờ có dạng [ a - α, a + β ] trong đó
α ≥ 0, β ≥ 0 là các số thực với hàm liên thuộc:
𝑙(𝑥)
𝜇( 𝑎,𝛼,𝛽 ) (𝑥) = { 𝑟(𝑥)
0

khi 𝑎 − 𝛼 ≤ 𝑥 ≤ 𝑎
khi 𝑎 ≤ 𝑥 ≤ 𝑎 + 𝛽
khi (𝑥 < 𝑎 − 𝛼) Λ (𝑥 > 𝑎 + 𝛽)

c. Số mờ dạng tam giác: Là một tập mờ có dạng [ a - α, a, a + β ] trong đó
α ≥ 0, β ≥ 0 là các số thực với hàm liên thuộc:
𝑥−𝑎
+1
khi 𝑎 − 𝛼 ≤ 𝑥 ≤ 𝑎
𝛼
𝜇( 𝑎,𝛼,𝛽 ) (𝑥) = 𝑥 − 𝑎 + 1
khi 𝑎 ≤ 𝑥 ≤ 𝑎 + 𝛽
𝛽
khi 𝑥 < 𝑎 − 𝛼 và 𝑥 > 𝑎 + 𝛽
{ 0
d. Số mờ dạng hình thang: Là một tập mờ có dạng [ a - α, a, b, b + β ]
trong đó α ≥ 0, β ≥ 0 là các số thực với hàm liên thuộc:
1
𝑥−𝑎
+1
𝛼
𝜇( 𝑎,𝛼,𝛽 ) (𝑥) = 𝑏 − 𝑥
+1
𝛽
{ 0

khi 𝑥 ≤ 𝑎 ≤ 𝑏
khi 𝑎 − 𝛼 ≤ 𝑥 ≤ 𝑎
khi 𝑏 ≤ 𝑥 ≤ 𝑏 + 𝛽
khi (𝑥 < 𝑎 − 𝛼) hoặc (𝑥 > 𝑏 + 𝛽)

e. Số mờ dạng khoảng: Là tập mờ có dạng (a, ε) trong đó ε ≥ 0 là các số
thực với hàm liên thuộc:

𝑥−𝑎
+1
𝜀
𝜇( 𝑎,𝜀) (𝑥) = 𝑎 − 𝑥
+1
𝜀
{ 0

khi 𝑎 − 𝜀 ≤ 𝑥 ≤ 𝑎
khi 𝑎 ≤ 𝑥 ≤ 𝑎 + 𝜀
khi 𝑥 − 𝑎 − 𝜀 hoặc 𝑥 > 𝑎 + 𝜀

1.2. Cở sở dữ liệu mờ, phương thức biểu diễn và ứng dụng [5]
Mơ hình quan hệ do Codd E. F. đề xuất năm 1970 đã đáp ứng được nhu
cầu lưu trữ và xử lý dữ liệu của con người trong một thời gian dài. Tuy nhiên,

12
mơ hình này vẫn tồn tại nhiều hạn chế chưa giải quyết được. Trên thực tế, đơi
khi chúng ta có thể thu nhận được dữ liệu với thông tin không đầy đủ, hoặc có
những thơng tin khơng chính xác, khơng chắc chắn gọi chung là các dữ liệu
mờ. Nếu giới hạn trong mơ hình cơ sở dữ liệu kinh điển thì phải đợi đầy đủ
thơng tin về đối tượng mới cập nhật vào cơ sở dữ liệu, hoặc nếu cứ cập nhật thì
sẽ gây khó khăn, mất ngữ nghĩa và khơng nhất qn trong xử lý dữ liệu. Do đó
để đáp ứng nhu cầu thực tế, mơ hình cơ sở dữ liệu đã được mở rộng để biểu
diễn và xử lý những dữ liệu mờ gọi là cơ sở dữ liệu mờ (Fuzzy Databases).
1.2.1. Định nghĩa
Cho W = (, A1, A2, ...An) là tập hữu hạn các thuộc tính, các miền giá trị
tương ứng D(A1), D(A2),...D(An), D() = [0,1]. Trong đó, D(Ai) (i=1..n) có thể
nhận giá trị rõ hoặc giá trị mờ. Một quan hệ mờ fr trên lược đồ quan hệ mờ là

tập con của tích Descartes D(A1)  D(A2) ... D(An)  D().
Một bộ dữ liệu t  fr có dạng: (t, fr(t)) Do đó quan hệ fr có thể biểu diễn
lại như sau:
fr = {(t, fr(t) | fr(t)[0,1] và t  r} Với r  D(A1)  D(A2) .......... D(An)
1.2.2. Biểu diễn thuộc tính trong quan hệ mờ
Xét lược đồ quan hệ R = (, A1,.....An )
Đối với thuộc tính Ai là rõ thì D(Ai) = U(Ai)
Đối với thuộc tính Ai là thuộc tính mờ thì:
D(Ai) = U(Ai)  T(Ai)  F(Ai)  I(Ai)
Ở đây U(Ai): Là miền giá trị cơ sở, T(Ai): Tập các giá trị ngôn ngữ của
biến ngôn ngữ Ai, F(Ai): Tập các tập mờ biểu diễn dưới dạng số mờ hình thang,
I(Ai): Tập các tập mờ biểu diễn dưới dạng số mờ dạng khoảng. Rõ ràng là trong
nhiều trường hợp các tập giá trị có thể là tập rỗng.
Trong cơ sở dữ liệu quan hệ truyền thống, các phép toán quan hệ được
thực hiện dựa trên cơ sở việc đánh giá dữ liệu chỉ thể hiện ở hai trang thái là

13
"đúng" hoặc "sai". Đối với cơ sở dữ liệu quan hệ mờ, với miền trị của thuộc
tính mờ được mở rộng như trên, thì rõ ràng cách đánh giá dữ liệu truyền thống
là không phù hợp, mà phải đánh giá trên cơ sở hàm thuộc của tập mờ, trong đó
trạng thái "đúng" tương ứng với 1, trạng thái "sai" tương ứng với 0. Còn những
giá trị  (0,1) là phản ánh mức độ đúng sai của việc đánh giá: càng gần 1 càng
đúng, càng gần 0 càng sai. Bởi vậy trong mỗi quan hệ mờ sẽ có một thuộc tính
đặc biệt gọi là thuộc tính độ thỏa, ký hiệu là  với Dom() = [0, 1], dùng để chỉ
mức độ là thành viên của mỗi bộ trong quan hệ.
1.2.3. So sánh các giá trị thuộc tính mờ
Trong mơ hình quan hệ kinh điển các thao tác và các phép toán so sánh
giá trị:      . Để đánh giá được phép so sánh trên thì trước hết phải
chuyển đổi dữ liệu ở cả hai vế của phép so sánh về cùng một dạng và điều đó

chỉ có thể làm được khi chuyển về dạng tập mờ, sau đó các phép so sánh sẽ dựa
trên các tham số này.
Dưới đây sẽ trình bày phương pháp xây dựng hàm đánh giá các phép so
sánh giữa hai tập mờ 1, 2 ký hiệu là (1  2), trong đó  là một trong các
phép so sánh       và:
1 = (a1, b1, c1, d1), thoả mãn a1  b1  c1  d1
2 = (a2, b2, c2, d2), thoả mãn a2  b2  c2  d2
Hàm đánh giá sẽ được xây dựng trên cơ sở hàm thuộc của tập mờ hình
thang và các tham số a1, b1, c1, d1; a2, b2, c2, d2, của hai tập mờ.
Gọi Sf1 , Sf2 là biểu diễn số mờ hình thang tương ứng của 2 tập mờ f1 và f2.
Nếu  là phép "=" cần xây dựng sao cho khi f1 và f2 gần nhau thì

(f1  f2) 1, khi f1 và f2 xa nhau thì (f1  f2) 0.
Trường hợp 1: Nếu Sf1  Sf2 =  thì (f1  f2) = 0
Trường hợp 2: Nếu Sf1  Sf2 hoặc Sf2  Sf1 thì (f1  f2) = 1

14
Trường hợp 3: Nếu f1  P(A) và f2  U(A) hoặc f1  U(A) và f2  P(A),
khi đó giá trị hàm (f1  f2) chính là giao điểm I của Sf1 và Sf2
Trường hợp 4: Nếu f1  P(A) và f2  P(A) nhưng Sf1  Sf2   và f1  f2
và f2  f1, khi đó hàm  được xây dựng như sau:
𝝉(𝑓1 𝜃𝑓2 ) = 1 −

|𝑎1 − 𝑎2 | + |𝑏1 − 𝑏2 | + |𝑐1 − 𝑐2 | + |𝑑1 − 𝑑2 |
2  (𝑀𝑎𝑥(𝑑1 , 𝑑2 ) − 𝑀𝑖𝑛(𝑎1 , 𝑎2 )) + 𝑀𝑖𝑛(|𝑏2 − 𝑐1 |, |𝑐2 − 𝑏1 |)

Nếu  là phép so sánh "" Ta có (f1  f2) = 1 – (f1 = f2)
Nếu  là phép so sánh ""

(f1  f2) = 0 khi Sf1  Sf2 =  và d1 < a2
(f1  f2) = 1 khi a1  a2, b1  b2, c1  c2, d1  d2
Nếu  là phép so sánh "" Ta có (f1  f2)  (f2  f1). Vì vậy chỉ cần
hoán đổi 2 tập mờ f1 và f2
Nếu  là phép so sánh "<" Ta có (f1 < f2) = 1-(f1  f2)
Nếu  là phép so sánh ">" Ta có (f1 > f2)  (f2 < f1). Vì vậy chỉ cần hoán
đổi 2 tập mờ f1 và f2
1.2.4. Các phép toán tập hợp trên quan hệ mờ
* Phép hợp: Hợp của 2 quan hệ fr1 và fr2 khả hợp (tập các thuộc tính như
nhau) là một quan hệ trên R1 ký hiệu fr1  fr2 và được xác định như sau:
fr1  fr2 = (t, fr1(t)  fr2(t))  (t, fr1(t)  fr1 hoặc (t, fr2(t))  fr2
* Phép giao: Giao của 2 quan hệ mờ fr1 và fr2 là một quan hệ mờ trên R,
ký hiệu fr1  fr2 và được xác định như sau:
fr1  fr2 = (t, fr1(t)  fr2(t))  (t, fr1(t)  fr1 và (t, fr2(t))  fr2
* Phép tích đề các: Cho fr1 xác định trên R1, fr2 xác định trên R2. Tích Đề
các fr1 và fr2 ký hiệu:
fr1  fr2 = (t ,t2),(fr1(t1)  fr2(t2))  (t1, fr1(t1)  fr1 , (t2, fr2(t))  fr2

15
* Phép trừ: Cho fr1 và fr2 là 2 quan hệ mờ trên R = A1, A2, ..., An, .
Hiệu của fr1 và fr2 là 1 quan hệ mờ trên R, Ký hiệu fr1 – fr2 và xác định:
fr1 – fr2 = (t, fr(t)  (t, fr(t))  fr1 and (t, fr(t)  fr2
1.2.5. Các phép toán quan hệ mờ
* Phép chọn mờ (Fuzzy Selection)
Đối với phép toán chọn trong cơ sở dữ liệu quan hệ, việc chọn một bộ thỏa
mãn tính chất nào đó sẽ cho ra kết quả True (1) hoặc False (0). Trên cơ sở dữ
liệu mờ thì kết quả của phép chọn khơng chỉ 0, 1 mà mở rộng thành [0, 1].
Cho R = A1, A2, ..., An, , fr là quan hệ mờ trên R
AR, c  D(A). Phép chọn Fs được định nghĩa như sau:

FsA  c (fr) = (t, fr(t))  (t[A]c)  ( t, fr(t)  fr và fr(t)  (t[A]c)   )
Trong đó  : là ngưỡng được chọn và   (0, 1],    , ,  ,  =, ,  
* Phép chiếu mờ (Fuzzy projection)
Cho quan hệ mờ fr = (t, fr(t)) trên lược đồ quan hệ R, X  R
Với mỗi bộ (t, fr(t))  fr, ký hiệu tx là tập các bộ (t1, fr(t1))  fr mà
t1[X] = t[X] có nghĩa tx = t1  (t1, fr(t1))  fr và t1[X] = t[X]) = 1
Phép chiếu mờ của fr trên X là một quan hệ trên X   được định nghĩa:
Fpx(fr) =  𝑉 fr(t1), t[X] 
𝑡1∈ 𝑡x

* Phép kết nối tự nhiên mờ (Fuzzy Natural joint)
Cho fr1 = (t1, fr1 (t1)) và fr2 = (t2, fr2 (t2)) là 2 quan hệ mờ trên R1, R2,
A  R1, B  R2, R1  R2 = R3, R1  R2 = R.
Nếu R3   ta định nghĩa phép nối tự nhiên mờ như sau:
FNJ  fr1  fr2 = (t, fr1(t1)  (t1[C]=t2[C]))   /  (t1, fr1(t1)  r1 và
(t2, fr2(t2)  fr2 mà t[A] = t1[A] và t[B] = t2[B] và t[C] = t1[C] = t2[C]
Trong đó fr1 xác định trên AC và fr2 xác định trên CB và A  B  C = 
* Phép kết nối mờ  ( Fuzzy join)

Đề xuất cải tiến thuật toán tìm kiếm trong cơ sở dữ liệu mờ

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về