Tải bản đầy đủ (.pdf) (138 trang)

Một số phương pháp xử lý truy vấn mới trên cơ sở dữ liệu hướng đối tượng mờ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.7 MB, 138 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

NGUYỄN TẤN THUẬN

MỘT SỐ PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỚI TRÊN CƠ
SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

HÀ NỘI – 2021


BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Nguyễn Tấn Thuận

MỘT SỐ PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỚI TRÊN CƠ
SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ
Chuyên ngành: Hệ thống thông tin


Mã số: 9 48 01 04

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. GS.TS. Đồn Văn Ban
2. TS. Trương Ngọc Châu

Hà Nội – Năm 2021


1
Danh mục các thuật ngữ ..............................................................................................5
Bảng các ký hiệu, từ viết tắt ........................................................................................6
Danh sách bảng biểu ...................................................................................................7
Danh sách hình vẽ .......................................................................................................8
MỞ ĐẦU ...................................................................................................................10
Chương 1 TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ TRUY VẤN TRÊN MƠ HÌNH
CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ .......................................................15
1.1 Giới thiệu bài toán ...........................................................................................15
1.2 Các nghiên cứu liên quan ................................................................................16
1.2.1 Các mơ hình CSDL HĐT mờ ..................................................................16
1.2.2 Tiền xử lý dữ liệu (đối sánh và gom cụm) cho mơ hình CSDL HĐT mờ
..........................................................................................................................18
1.2.3 Xử lý và tối ưu hóa truy vấn mờ .............................................................18
1.3 Các vấn đề nghiên cứu và giải pháp................................................................19
1.3.1 Biểu diễn thông tin khơng hồn hảo trong mơ hình khái niệm dữ liệu mờ
..........................................................................................................................19
1.3.2 Mơ hình hóa UML của dữ liệu mờ ..........................................................21
1.3.3 Lớp mờ ....................................................................................................22

1.3.4 Giá trị thuộc tính mờ ...............................................................................25
1.3.5 Biểu diễn các giá trị thuộc tính mơ hồ cho đối tượng mờ .......................26
1.3.6 Quan hệ tổng quát hóa mờ.......................................................................29
1.3.7 Quan hệ kết tập mờ..................................................................................34
1.3.8 Quan hệ kết hợp mờ ................................................................................37
1.3.9 Quan hệ phụ thuộc mờ ............................................................................40
1.3.10 Ánh xạ mơ hình dữ liệu UML mờ vào mơ hình cơ sở dữ liệu hướng đối
tượng mờ ..........................................................................................................42
1.3.10.1 Mơ hình cơ sở dữ liệu hướng đối tượng mờ (FOODB) ..................42


2
1.3.10.2 Chuyển đổi biểu đồ lớp UML mờ ...................................................43
1.3.10.3 Chuyển đổi các lớp..........................................................................43
1.3.10.4 Chuyển đổi quan hệ kết tập .............................................................46
1.3.10.5 Chuyển đổi quan hệ kết hợp............................................................47
1.3.10.6 Chuyển đổi các quan hệ phụ thuộc .................................................49
1.3.11 Truy vấn mờ FOQL ...............................................................................50
1.4 Giải pháp cho bài toán.....................................................................................50
1.5 Kết luận chương 1 ...........................................................................................51
Chương 2 CÁC PHƯƠNG PHÁP XỬ LÝ TRUY VẤN MỜ DỰA VÀO ĐỘ ĐO
TƯƠNG TỰ VÀ GOM CỤM DỮ LIỆU ..................................................................53
2.1 Xử lý truy vấn mờ dựa vào độ đo tương tự .....................................................53
2.1.1 So sánh tính tương tự của hai đối tượng mờ ...........................................53
2.1.1.1 Độ đo tương tự và phi tương tự.........................................................54
2.1.1.2 Độ đo ngữ nghĩa của dữ liệu mờ .......................................................55
2.1.1.3 So sánh hai đối tượng dựa vào độ đo tương tự mờ ...........................56
2.1.2 Thuật toán xử lý truy vấn dựa vào độ đo tương tự ..................................68
2.2 Xử lý truy vấn mờ dựa vào kỹ thuật gom cụm dữ liệu và phân khoảng mờ ..75
2.2.1 Phương pháp gom cụm dữ liệu bằng thuật tốn EM ...............................75

2.2.1.1 Mơ hình Gaussian Mixture Model ....................................................75
2.2.1.2 Thuật toán EM...................................................................................76
2.2.1.3 Thuật toán gom cụm cải tiến EMC sử dụng mơ hình thống kê hỗn
hợp GMM ......................................................................................................79
2.2.1.4 Đánh giá thuật toán EMC dựa trên Log Likelihood .........................85
2.2.1.5 Đánh giá thuật tốn EMC bằng phương pháp phân tích sự khác biệt
giữa các nhóm ...............................................................................................85
2.2.2 Phân các khoảng mờ ................................................................................87
2.2.2.1 Xác định tâm .....................................................................................87


3
2.2.2.2 Xác định các khoảng .........................................................................88
2.2.3 Xử lý truy vấn dựa trên các khoảng mở ..................................................89
2.2.4 Thuật toán xử lý truy vấn trên các cụm ...................................................93
2.3 Xử lý truy vấn dựa vào đại số gia tử ...............................................................94
2.4 Đánh giá thực nghiệm .....................................................................................95
2.5 Kết luận chương 2 ...........................................................................................96
Chương 3 XỬ LÝ VÀ TỐI ƯU HÓA TRUY VẤN TRONG CƠ SỞ DỮ LIỆU
HƯỚNG ĐỐI TƯỢNG MỜ .....................................................................................98
3.1 Các phép toán đại số trong cơ sở dữ liệu hướng đối tượng mờ ......................99
3.1.1 Đại số đối tượng ......................................................................................99
3.1.2 Đại kết hợp mờ ........................................................................................99
3.1.3 Mơ hình đại số kết hợp các đối tượng mờ ...............................................99
3.1.4 Các phép toán đại số kết hợp mờ ..........................................................100
3.1.4.1 Tích mờ × .......................................................................................102
3.1.4.2 Kết nối mờ ⋈ ..................................................................................102
3.1.4.3 Phép hợp mờ ∪ ................................................................................103
3.1.4.4 Phép trừ mờ ≃ .................................................................................103
3.1.4.5 Phép giao mờ ∩ ...............................................................................104

3.1.4.6 Phép chia mờ ÷ ...............................................................................104
3.1.5 Các phép toán mở rộng..........................................................................105
3.1.5.1 Phép chiếu mờ 𝜫 .............................................................................105
3.1.5.2 Phép chọn mờ ..................................................................................105
3.2 Ngôn ngữ truy vấn mờ FOQL .......................................................................106
3.2.1 Truy vấn mờ FOQL ...............................................................................106
3.2.2 Mơ hình lớp mờ .....................................................................................106
3.2.3 Cấu trúc câu truy vấn mờ ......................................................................108


4
3.2.4 Phương pháp xử lý truy vấn mờ ............................................................108
3.2.4.1 Các bước của phương pháp .............................................................108
3.2.4.2 Quy trình xử lý truy vấn mờ ...........................................................110
3.2.4.3 Cây truy vấn và đồ thị truy vấn .......................................................110
3.3 Tối ưu hóa truy vấn mờ .................................................................................114
3.3.1 Các phép biến đổi tương đương ............................................................114
3.3.1.1 Tối ưu hóa kế hoạch thực thi truy vấn ............................................116
3.3.1.2 Khơng gian tìm kiếm và các luật chuyển đổi ..................................117
3.3.1.3 Thuật toán tối ưu hóa truy vấn mờ ..................................................117
3.3.1.4 Đánh giá thực nghiệm .....................................................................121
3.4 Kết luận chương 3 .........................................................................................122
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ..............................................................124
DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ .......................................................126
TÀI LIỆU THAM KHẢO .......................................................................................127


5

Danh mục các thuật ngữ


Đại số kết hợp mờ

Fuzzy association algebra

Đồ thị lược đồ mờ

Fuzzy object schema Graph

Độ lệch chuẩn

Standard deviation

Hiệp phương sai

Covariance

Hệ số biến thiên

Coefficient.

Giá trị chân lý

Truth value

Kết hợp mờ

Fuzzy association

Không gian ngữ nghĩa


Semantic space

Kỳ vọng

Mean

Lớp cha

Superclass

Lớp con

Subclass

Mối quan hệ kế thừa

Inheritance relationship

Mối quan hệ đối tượng với lớp

Object and Class relationship

Mối quan hệ kết hợp mờ

Fuzzy association relationship

Mối quan hệ kết nhập mờ

Fuzzy aggregation relationship


Mối quan hệ tổng quát hóa

Fuzzy genralization relationship

Phân cấp kế thừa mờ

Fuzzy inheritance hierarchy


6

Bảng các ký hiệu, từ viết tắt

EM (Expectation maximization)

Thuật toán Cực đại hóa Kì vọng

EMC (Expectation maximization

Thuật tốn Cực đại hóa Kì vọng dựa

Coefficient)

vào hệ số biến thiên

FA (Fuzzy Association)

Kết hợp mờ


FC (Fuzzy Class)

Lớp mờ

GMM (Gaussian Mixture Model)

Mơ hình Gaussian hỗn hợp

OQL (Object Query Language)

Ngôn ngữ truy vấn hướng đối tượng

ODMG (Object Database Management

Nhóm quản trị CSDL đối tượng, tổ

Group)

chức đề xuất mơ hình ODMG và OQL

OID (Object Indentifier)

Định danh đối tượng rõ

OODBMS (Object-Oriented Data Base

Hệ quản trị cơ sở dữ liệu hướng đối

Management System)


tượng

FOID (Fuzzy Object Indentifier)

Định danh đối tượng mờ

FOQL (Fuzzy Object Query Language)

Ngôn ngữ truy vấn đối tượng mờ

FOODBMS (Fuzzy Object Oriented

Hệ quản trị cơ sở dữ liệu hướng đối

Database Management System)

tượng mờ

SQL (Structured Query Language)

Ngôn ngữ truy vấn có cấu trúc


7

Danh sách bảng biểu
Bảng 2.1: Danh sách dữ liệu phòng của các đối tượng mờ.......................................74
Bảng 2.2: Danh sách dữ liệu phòng từ kết quả truy vân của trường hợp 1 ..............74
Bảng 2.3. Danh sách dữ liệu phòng từ kết quả truy vân của trường hợp 2...............75
Bảng 2.4: Bảng dữ liệu của các đối tượng về "Điểm Toán" .....................................83

Bảng 2.5: Kết quả phân cụm của thuật toán EMC ....................................................84
Bảng 2.6: Bảng kết quả thống kê dữ liệu ..................................................................86
Bảng 2.7: Xác định khoảng mờ của thuộc tính định lượng "Điểm tốn" .................89
Bảng 2.8: Danh sách dữ liệu từ kết quả truy vấn trực tiếp trên các vùng mờ cho
trường hợp 1 ..............................................................................................................90
Bảng 2.9: Các giá trị khoảng mờ của thuộc tính Điểm Toán....................................92
Bảng 2.10: Danh sách dữ liệu từ kết quả truy vấn trực tiếp trên các vùng mờ cho
trường hợp 2. .............................................................................................................92
Bảng 2.11: Kết quả truy vấn với mức độ thỏa mãn điều kiện truy vấn "Điểm Toán
hơi cao" .....................................................................................................................93
Bảng 2.12: Thời gian thực thi của thuật toán ............................................................95
Bảng 2.13: Sử dụng bộ nhớ trong các thuật toán ......................................................96


8

Danh sách hình vẽ
Hình 1.1. Biểu diễn dữ liệu mờ tuổi ..........................................................................20
Hình 1.2. Lớp mờ ......................................................................................................25
Hình 1.3. Quan hệ tổng quát mờ ...............................................................................34
Hình 1.4.Mối quan hệ kết tập mờ..............................................................................37
Hình 1.5.Mối quan hệ kết hợp mờ ............................................................................39
Hình 1.6. Mối quan hệ phụ thuộc mờ .......................................................................41
Hình 1.7.Mơ hình dữ liệu UML mờ ..........................................................................41
Hình 1.8.Chuyển đổi các lớp trong UML mờ sang lược đồ cơ sở dữ liệu hướng đối
tượng mờ. ..................................................................................................................45
Hình 1.9.Chuyển đổi các lớp con trong UML mờ sang lược đồ cơ sở dữ liệu hướng
đối tượng mờ .............................................................................................................46
Hình 1.10.Chuyển đổi các tập hợp trong UML mờ sang lược đồ cơ sở dữ liệu hướng
đối tượng mờ .............................................................................................................47

Hình 1.11.Chuyển đổi các liên kết trong UML mờ sang lược đồ cơ sở dữ liệu hướng
đối tượng mờ. ............................................................................................................49
Hình 2.1.Nghiên cứu điển hình về so sánh các đối tượng mờ ..................................57
Hình 2.2. Tính toán sự giống nhau giữa hai đối tượng mờ 𝑜1 và 𝑜2 .......................60
Hình 2.3. Trường hợp I (a) so sánh hai phịng ..........................................................61
Hình 2.4.Trường hợp I (a) Đại diện mờ về chất lượng và giá cả của hai phòng (Sử
dụng các hàm thành viên khác nhau) ........................................................................62
Hình 2.5: Trường hợp I (b) So sánh phịng ...............................................................63
Hình 2.6: Trường hợp I (a) Đại diện mờ về chất lượng và giá cả của hai (Sử dụng
các hàm thành viên khác nhau) .................................................................................64
Hình 2.7: Trường hợp II Các phịng được mơ tả bởi các thuộc tính rõ và mờ. ........64
Hình 2.8: Đồ thị biểu diễn một vịng lặp của thuật tốn EM. ...................................78
Hình 2.9: Các khoảng mờ .........................................................................................88
Hình 2.10: Thời gian thực thi trong thuật tốn .........................................................95
Hình 2.11: Đánh giá việc sử dụng bộ nhớ cho các bộ dữ liệu khác nhau .................96
Hình 3.1: Phương pháp xử lý truy vấn hướng đối tượng mờ ..................................108
Hình 3.2: Cây truy vấn ............................................................................................111


9
Hình 3.3: Đồ thị truy vấn ........................................................................................111
Hình 3.4: Đồ thị lược đồ phân cấp lớp mờ .............................................................111
Hình 3.5: Hai cây truy vấn cho truy vấn FQ2. (a) Cây truy vấn tương ứng với biểu
thức đại số đối tượng mờ cho FQ2. (b) Cây truy vấn ban đầu (chuẩn của FOQL)
cho truy vấn FQ2. (c) Đồ thị truy vấn cho FQ2. ....................................................113
Hình 3.6: Các cây xử lý truy vấn tương đương .......................................................117
Hình 3.7: Cây đại số đối tượng tối ưu hóa truy vấn mờ.........................................120
Hình 3.8: Kết quả đánh gia thực nghiệm tối ưu hóa truy vấn mờ...........................122



10

MỞ ĐẦU
Ngày nay, tính khả thi và tính hữu ích của toán học mờ như lý thuyết xác suất, lý
thuyết tập mờ, lý thuyết khả năng, quan hệ tương tự [1] - [6], ..., đã được minh chứng
cho sự thành công trong một loạt các lĩnh vực gồm: kỹ thuật, khoa học máy tính, trí
tuệ nhân tạo, xử lý thơng tin và các hệ thống cơ sở dữ liệu (CSDL) [7] - [11]. Cùng
với sự phát triển của toán học mờ, các mơ hình CSDL hướng đối tượng đã được
nghiên cứu và áp dụng rộng rãi trong việc phát triển các hệ thống phần mềm, nhiều
hệ quản trị CSDL hướng đối tượng có tính thương mại đã được tạo ra như
GEMSTONE, ORION, VBASE, OBJECTSTORE, POET, …. Một mơ hình dữ liệu
đối tượng chuẩn ODMG đã được phát triển và dựa vào đó để thiết lập một số khái
niệm cơ sở được gọi là mơ hình hạt nhân cho mơ hình CSDL hướng đối tượng. Mơ
hình hạt nhân đủ mạnh để thỏa mãn nhiều đòi hỏi của các ứng dụng mới, hơn nữa còn
được dùng làm cơ sở để xác định những khác biệt chính giữa mơ hình dữ liệu hướng
đối tượng và các mơ hình dữ liệu liệu truyền thống khác. Tuy nhiên, cả hai mơ hình
CSDL quan hệ và CSDL hướng đối tượng có khả năng đủ để xử lý đối tượng phức
tạp nhưng bị hạn chế đối với các đại diện dữ liệu khơng chính xác hoặc khơng chắc
chắn. Thêm vào đó, các hệ thống này chỉ có thể xử lý dữ liệu "cứng" (chính xác và
xác định) trong thực tế. Tuy nhiên, nhiều ứng dụng trên thế giới thực thường liên
quan đến dữ liệu "mềm" (mơ hồ và khơng chính xác). Do đó, việc nghiên cứu ứng
dụng cơ sở dữ liệu mờ và xử lý truy vấn để giải quyết những hạn chế của cơ sở dữ
liệu quan hệ/hướng đối tượng rõ trong việc xử lý và lưu trữ các thông tin không chắc
chắn, không đầy đủ trở thành một chủ đề nghiên cứu quan trọng được nhiều người
tập trung nghiên cứu và triển khai ứng dụng.
Thông qua các kết quả nghiên cứu trên, việc áp dụng lĩnh vực tốn học mờ vào
các mơ hình cơ sở dữ liệu truyền thống/hướng đối tượng, nhằm xử lý và lưu trữ các
thông tin không chắc chắn, không đầy đủ là rất cần thiết. Một số đề xuất và triển khai
toán học mờ đẫ được áp dụng hiệu quả trên các hệ thống quản lý cơ sở dữ liệu nói
chung như [12] - [15] và như vậy mơ hình cơ sở dữ liệu hướng đối tượng mờ đã được

đề xuất trên cơ sở áp dụng toán học mờ [16] - [21].
Mơ hình cơ sở dữ liệu hướng đối tượng mờ là một mơ hình cơ sở dữ liệu hướng đối
tượng mở rộng, trong đó các giá trị thuộc tính của các đối tượng có thể được biểu


11
diễn bằng các tập mờ. Do đó, các lớp, các mối quan hệ lớp đối tượng và các mối quan
hệ lớp với lớp có thể cũng mờ.
Một số nghiên cứu liên quan về mơ hình cơ sở dữ liệu hướng đối tượng mờ đã đề
xuất như:
 Các mơ hình CSDL HĐT mờ: Mơ hình cơ sở dữ liệu hướng đối tượng mờ đã
được đề xuất bởi M.Umano và các cộng sự [22], trong đó giá trị của thuộc tính
đối tượng là các giá trị mờ với một hệ số chắc chắn, và một ngôn ngữ thao tác
dữ liệu trên mô hình này là SQL. Mơ hình với thơng tin khơng chắc chắn được
đề xuất bởi Gyseghem và Caluwe [23], đặc tả tính mờ và khơng chắc chắn
bằng cách sử dụng lần lượt các tập mờ và phân bố khả năng. Mơ hình mở rộng
dựa trên đồ thị do G. Bordogna và các cộng sự [16], [21]. Mơ hình dựa trên
quan hệ tương tự, phạm vi của các giá trị thuộc tính được sử dụng để biểu diễn
tập các giá trị cho phép của một thuộc tính trong một lớp được trình bày trong
[24]. Mơ hình dựa vào lý thuyết khả năng, tính mơ hồ được biểu diễn trong
phân cấp lớp, mức độ bao hàm của lớp con trong lớp cha được xác định dựa
trên mức độ bao hàm các miền mờ của các thuộc tính của lớp cha đối với các
miền mờ của các thuộc tính của lớp con [25]. Cũng dựa trên phân bố khả năng,
trong [26] một số khái niệm chính trong CSDL hướng đối tượng chẳng hạn
đối tượng, các mối quan hệ đối tượng/lớp, lớp con/lớp cha và đa thừa kế được
đưa ra trong môi trường thông tin mờ. Mơ hình dựa trên lý thuyết xác suất đầu
tiên được nhóm tác giả Kornatzky và Shimony đề xuất năm 1994 [27]. Trong
mơ hình này, lớp được định nghĩa như một tập các thuộc tính mà giá trị của
chúng có thể kết hợp với một phân bố xác suất. Lược đồ được định nghĩa như
một tập các lớp có phân cấp kết hợp với xác suất có điều kiện để một đối tượng

của một lớp thuộc về lớp con của nó. Bên cạnh đó một mơ hình mới về xác
suất đã được B. Ding và các cộng sự đề xuất [28] nhằm mô tả một diễn dịch xác
suất của các quan hệ trên các giá trị tập mờ và một đại số cho các bộ ba xác
suất mờ được nghiên cứu và định nghĩa một cách hình thức.
 Tiền xử lý dữ liệu (đối sánh và gom cụm) cho mơ hình CSDL HĐT mờ: Thuật
tốn GNP phân cụm cơ sở dữ liệu được đề xuất [29]. GNP tạo các cụm dựa
trên phân loại mẫu, trong đó nhãn cụm được gán cho mỗi đối tượng được biểu
diễn bằng một tập hợp các đặc trưng mờ. Việc tối ưu hóa các cụm được thực


12
hiện để các đối tượng có độ tương tự cao được đưa vào cùng một cụm. L. Yan
và các cộng sự [30] phân biệt các thực thể trong cơ sở dữ liệu hướng đối tượng
mờ dựa trên thước đo ngữ nghĩa của dữ liệu mờ, để so sánh một cách tổng quát
hơn các đối tượng và lớp với kiểu dữ liệu mờ. Phương pháp này cũng có thể
được sử dụng trong cơ sở dữ liệu mờ hoặc thậm chí mơ hình cơ sở dữ liệu
quan hệ cổ điển. Đề xuất mới của M. C. Mouna và các cộng sự [31] về phương
pháp tính tốn tính tương tự để so sánh hai đối tượng mờ thơng qua các thuộc
tính mờ bằng cách sử dụng độ đo khoảng cách Euclide. A. Mhedhbi và S.
Salihoglu [4] phát triển phép đo độ tương tự dựa trên mơ hình đối sánh Tversky
và áp dụng nó trên các tập mờ bằng cách sử dụng lý thuyết tập mờ và các phép
tốn của chúng. Mơ hình này cung cấp một phương pháp so sánh các đối tượng
có nội dung mơ hồ / mờ.
 Xử lý và tối ưu hóa truy vấn: X. Hu và các cộng sự phát triển [32] mơ hình dữ
liệu hướng đối tượng mờ mới (F-model) và định nghĩa đại số kết hợp mờ mở
rộng (FA-algebra), dựa trên các kết hợp mờ, truy vấn mờ được đề xuất nhằm
xử lý các giá trị mờ. Các phép toán lý thuyết tập hợp, cụ thể là phép hợp, phép
giao và phép hiệu dựa trên trên cấu trúc lớp. Các phép toán được thiết lập dựa
trên thành viên của lớp tương ứng chứa các đối tượng mờ được phát triển bằng
cách sử dụng giá trị chân lý của đối tượng và nhận dạng đối tượng nhằm giúp

cho truy vấn xác định các đối tượng có giá trị mờ. Đề xuất [33] tối ưu hóa truy
vấn dựa vào biểu thức đường dẫn và cách viết lại câu truy vấn.
Tuy nhiên, trong các mơ hình đề xuất trên cịn thiếu định nghĩa chính thức một
thiết kế kiến trúc, định nghĩa về các phép toán đại số đối tượng mờ và ngơn ngữ truy
vấn. Do đó cần có một đề xuất mới nhằm đảm bảo tính hệ thống cho mơ hình cơ sở
dữ liệu hướng đối tượng mờ hoạt động hiệu quả hơn.
Mục tiêu của luận án là đề xuất đại số đối tượng mờ mới, quy trình và phương pháp
xử lý, tối ưu hóa truy vấn dựa trên đại số đã đề xuất kết hợp với các giải pháp như
phép biến đổi tương đương và giải thuật Heuristic. Bên cạnh đó, luận án cũng đề xuất
các bước tiền xử lý như so sánh tính tương tự của hai đối tượng mờ và thuật toán gom
cụm EMC (Expectation-Maximization-Coefficient).
Các vấn đề liên quan đến mục tiêu nghiên cứu được trình bày trong luận án bao gồm.


13
1. Nhằm tăng tính hiệu quả cho q trình xử lý truy vấn dữ liệu có các đại diện
thơng tin là mờ, luận án đề xuất phương pháp gom cụm và so sánh tính
tương tự giữa hai đối tượng một cách tổng quát nhất, cụ thể hơn để so sánh
tính tương tự giữa hai đối tượng luận án đã sử dụng các kỹ thuật khác nhau
đó là: tính độ đo ngữ nghĩa, độ đo Euclidean. Bằng các kỹ thuật như vậy,
tác giả thực hiện so sánh hai đối tượng trong các trường hợp như: hai đối
tượng có cùng thể hiện hoặc không cùng thể hiện của một lớp, hai đối tượng
có giá trị thuộc tính là mờ hoặc rõ hay cả hai đối tượng rõ/mờ. Bên cạnh đó,
luận án đề xuất thuật toán phân cụm EMC được cải tiến dựa trên thuật toán
Expectation Maximization (EM) bằng cách bổ sung bước (C) vào thuật toán
để tăng độ mềm dẻo và giảm tối ưu hóa cục bộ và tăng tối ưu hóa tồn cục
trong q trình phân cụm. Luận án cũng đánh giá tính hiệu quả của thuật
tốn phân cụm EMC bằng phương pháp đánh giá sự khác biệt giữa các
nhóm đã đề xuất. Nhằm đảm bảo cho hệ thống thực hiện câu truy vấn linh
hoạt và tự nhiên hơn, luận án đề xuất phương pháp phân các khoảng mờ

dựa trên kết quả của thuật tốn gom cụm EMC.
2. Thơng qua các đề xuất đối sánh và gom cụm dữ liệu, luận án đề xuất các
thuật toán xử lý truy vấn mờ mới như: Thuật toán xử lý truy vấn đơn, đa
điều kiện mờ FQSIMSC (Fuzzy Query Sim Single Condition) và
FQSIMMC (Fuzzy Query Sim Multi-Condition) sử dụng đại lượng tính
tốn độ đo tương tự của SIM để trích rút các đối tượng mờ, hay như thuật
toán xử lý truy vấn mờ FQSEM (Fuzzy Query SEM) sử dụng đại lượng tính
tốn SEM để trích rút dữ liệu có dạng phân bố khả năng. Hơn nữa, luận án
cũng đã đề xuất thuật toán xử lý truy vấn trên các khoảng mờ
FQINTERVAL (Fuzzy Query Interval), nhằm giúp người dùng thực hiện
trích lọc dữ liệu tự nhiên hơn.
3. Đề xuất đại số kết hợp mờ mới. Trong đó luận án định nghĩa các phép tốn
kết hợp mờ như (Phép chọn mờ, phép nối mờ, phép chiếu mờ, phép chia
mờ, phép trừ mờ, phép hợp mờ và phép giao mờ làm cơ sở cho việc xây
dựng đại số truy vấn mờ cho mơ hình cơ sở dữ liệu hướng đối tượng mờ.
4. Luận án đề xuất kiến trúc xử lý và tối ưu hóa truy vấn mờ. Cụ thể, luận án
phát triển thuật toán heuristic tối ưu hóa đại số đối tượng mờ dựa trên các


14
quy tắc của phép biến đổi tương đương. Phân tích trên một số thử nghiệm
sử dụng thuật toán đề xuất cho thấy hiệu suất xử lý truy vấn tốt hơn, điều
này chứng tỏ sự nâng cao hiệu quả của phương pháp đã đề xuất.
Để thực hiện được các mục tiêu trên, luận án được tổ chức như sau: Ngoài phần
mở đầu, kết luận và tài liệu tham khảo, luận án được chia thành 3 chương, trong đó:
Chương thứ nhất trình bày khái quát về cơ sở dữ liệu hướng đối tượng mờ. Nội dung
của chương này bao gồm: các khái niệm, các phép toán cơ bản của lý thuyết tập mờ.
Trong chương này trình bày cụ thể mơ hình cơ sở dữ liệu hướng đối tượng với các
khái niệm về đối tượng mờ, lớp mờ, phân cấp thừa kế mờ và mơ hình lớp mờ và các
quan hệ mờ.

Chương thứ hai giới thiệu các thuật toán xử lý truy vấn mờ mới dựa vào các tính
tốn đối sánh và gom cụm dữ liệu. Để so sánh tính tương tự giữa các đối tượng nếu
chúng đảm bảo một trong hai yếu tố: thứ nhất hai đối tượng được gọi là tương tự nếu
chúng có cùng thể hiện của một lớp các đối tượng, yếu tố thứ hai là hai đối tượng
được gọi là tương tự nếu giá trị một trong các thuộc tính của lớp này có ngữ nghĩa
tương tự với giá trị thuộc tính của lớp kia. Một đề xuất quan trọng trong chương này
là đề xuất thuật toán gom cụm dữ liệu EMC được cải tiến từ thuật toán gom cụm dữ
liệu cực đại hóa kỳ vọng (EM). Các kết quả đánh giá thuật tốn cho thấy tính hiệu
quả cũng như tính mềm dẻo với số cụm được tùy biến tùy thuộc vào từng ứng dụng
cụ thể sẽ có số cụm được phân khác nhau. Thuật toán gom cụm EMC tăng tính hiệu
quả cho việc xử lý và trích rút dữ liệu cho câu truy vấn trên các cụm đó.
Chương thứ ba giới thiệu các phép tốn đại số đối tượng mới như (phép chiếu mờ,
giao mờ, hợp mờ, chọn mờ, trừ mờ, tích đề các mờ, nối mờ) và các phép biến đổi
tương đương mờ. Một chủ đề không thể thiếu đối với mọi hệ quản trị cơ sở dữ liệu
đó là tối ưu hóa truy vấn bằng phương pháp Heuristic.


15

Chương 1 TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ TRUY VẤN TRÊN MƠ
HÌNH CƠ SỞ DỮ LIỆU HƯỚNG ĐỐI TƯỢNG MỜ
1.1 Giới thiệu bài tốn
Hệ thống thơng tin đã cách mạng hóa cách thức lưu trữ và xử lý thơng tin đa
dạng, phức tạp. Kết quả là, khối lượng thông tin đã tăng lên đáng kể dẫn đến quá tải
thông tin. Do đó, việc phân tích lượng lớn dữ liệu có sẵn và đưa ra các quyết định
quản lý phù hợp trở nên khó khăn. Trong thực tế, hệ thống thông tin chủ yếu sử dụng
CSDL quan hệ [12], [14], [34] - [38], hoặc CSDL hướng đối tượng [39] - [42] để lưu
trữ các tập hợp dữ liệu này. Cả hai mơ hình CSDL quan hệ và CSDL hướng đối tượng
có khả năng đủ để xử lý đối tượng phức tạp nhưng bị hạn chế đối với các đại diện dữ
liệu khơng chính xác hoặc khơng chắc chắn. Một vấn đề khác, sử dụng mơ hình quan

hệ, hướng đối tượng đang gặp phải nhiều hạn chế của việc mô tả và xử lý các thông
tin không chắc chắn, không đầy đủ, theo đó là một quy trình truy vấn khơng phù hợp
cho việc ra quyết định. Thêm vào đó, các hệ thống này chỉ có thể xử lý dữ liệu "cứng"
(chính xác và xác định) trong tự nhiên. Tuy nhiên, nhiều ứng dụng trong thế giới thực
luôn liên quan đến dữ liệu "mềm" (mơ hồ và khơng chính xác). Do đó, việc nghiên
cứu ứng dụng cơ sở dữ liệu mờ và xử lý truy vấn để giải quyết những hạn chế của cơ
sở dữ liệu quan hệ/hướng đối tượng rõ trong việc xử lý và lưu trữ các thông tin không
chắc chắn, không đầy đủ trở thành một chủ đề nghiên cứu quan trọng được nhiều nhà
khoa học tập trung nghiên cứu [2], [17], [30], [43] - [68].
Hơn nữa, cuộc cách mạng cơng nghiệp lần thứ tư, hay cịn gọi là “Công nghiệp 4.0”
(I4.0) được giới thiệu bởi Hamburg 2013 [102], đang được thực hiện trong những
năm gần đây và tiếp theo dự kiến sẽ thay đổi sâu sắc các quy trình sản xuất và chế
tạo trong tương lai, dẫn đến các nhà máy thông minh và môi trường công nghiệp được
nối mạng sẽ được hưởng lợi từ các nguyên tắc thiết kế của công nghệ này: khả năng
tương tác, ảo hóa, phân quyền, điều khiển và giao tiếp phân tán, khả năng thời gian
thực, định hướng dịch vụ, bảo trì nhanh chóng và dễ dàng chi phí thấp [103]. Về công
nghệ hiện đại, Công nghiệp 4.0 gắn liền với việc ứng dụng và xử lý dữ liệu thông
minh trong các lĩnh vực: hệ thống thần kinh nhân tạo, Internet công nghiệp, giải pháp
đám mây và dịch vụ phi tập trung, cũng như xử lý và khai thác dữ liệu lớn. Các cơng
trình của Klaus-Dieter Thoben, Stefan Wiesner và Thorsten Wuest [104], Robert


16
Lawrence Wichmann, Boris Eisenbart và Kilian Gericke [105] dành cho những
nghiên cứu này về công nghệ xử lý dữ liệu lớn theo thời gian thực. Bên cạnh đó, các
dịch vụ tư vấn trực tuyến cũng đã xuất hiện trên các ứng dụng web thông qua công
cụ tư vấn tự động chatbot [106], [107] bằng cách ứng dụng trí tuệ nhân tạo và dữ liệu
đám mây nhằm cung cấp thông tin cho khách hàng. Hay như, robot có thể giao tiếp
với con người bằng ngơn ngữ tự nhiên [108]. Qua đó ta có thể nhận thấy rằng tiền xử
lý dữ liệu là một bước rất quan trọng trong việc giải quyết xử lý truy vấn CSDL và

như vậy cơ sở dữ liệu hướng đối tượng mờ cũng cần có các bước tiền xử lý dữ liệu
như vậy. Trong luận án này, tác giả tập trung nghiên cứu, phát triển các phương pháp
xử lý truy vấn, các phép toán đại số đối tượng mờ, ngơn ngữ truy vấn mờ và các thuật
tốn tiền xử lý dữ liệu. Nhằm đảm bảo cho hệ thống CSDL HĐT mờ hoàn thiện hơn
trong các cơ chế vận hành, xử lý dữ liệu mờ.
1.2 Các nghiên cứu liên quan
Trong những năm qua đã có nhiều nghiên cứu liên quan về mơ hình cơ sở dữ liệu
hướng đối tượng mờ theo các cách tiếp cận khác nhau và các kết quả đạt được trên
các mơ hình này là:

1.2.1 Các mơ hình CSDL HĐT mờ
1) Mơ hình cơ sở dữ liệu hướng đối tượng mờ đã được đề xuất bởi M.Umano
và các cộng sự [22], trong đó giá trị của thuộc tính đối tượng là các giá trị
mờ với một hệ số chắc chắn, và một ngôn ngữ thao tác dữ liệu trên mơ hình
này là SQL.
2) Mơ hình CSDL hướng đối tượng mờ và không chắc chắn được đề xuất bởi
Gyseghem và Caluwe [23], đặc tả tính mờ và không chắc chắn bằng cách
sử dụng lần lượt các tập mờ và phân bố khả năng. Hành vi và cấu trúc của
đối tượng có thể được định nghĩa khơng đầy đủ, từ đó cho phép đặc tả được
các thể hiện của các đối tượng một cách tự nhiên như trong thế giới thực.
Thừa kế bộ phận, thừa kế có điều kiện và đa thừa kế cũng được giới thiệu
trong mơ hình này.
3) Mơ hình CSDL hướng đối tượng mờ được đề xuất bởi G. Bordogna và các
cộng sự [16], [21] bằng cách mở rộng mơ hình đối tượng dựa trên đồ thị.
Mức độ mờ được biểu diễn bởi các từ chỉ mức độ, chẳng hạn như {không,


17
rất lưu lốt, lưu lốt, trung bình, cao, rất cao, hoàn toàn}, kết hợp với thể
hiện mối quan hệ giữa các đối tượng với một lớp. Các khái niệm lớp mờ,

phân cấp lớp mờ và các phép toán được định nghĩa dựa trên đồ thị để chọn,
duyệt CSDL hướng đối tượng mờ được sử dụng để biểu diễn và xử lý các
thông tin mờ.
4) Dựa trên quan hệ tương tự, phạm vi của các giá trị thuộc tính được sử dụng
để biểu diễn tập các giá trị cho phép của một thuộc tính trong một lớp được
trình bày trong [24] . Độ thuộc thành viên của đối tượng thuộc vào một lớp
được tính dựa trên mức độ bao hàm các giá trị thuộc tính của đối tượng và
trong các phạm vi giá trị thuộc tính của lớp. Phân cấp lớp mạnh hay yếu
được xác định dựa vào sự tăng đều hay giảm đều theo độ thuộc thành viên
của một lớp con vào trong lớp cha của nó.
5) Dựa vào lý thuyết khả năng, tính mơ hồ được biểu diễn trong phân cấp lớp,
các miền mờ của các thuộc tính lớp con được xác định bằng cách thu hẹp
miền của các thuộc tính của lớp cha, mức độ bao hàm của lớp con trong
lớp cha được xác định dựa trên mức độ bao hàm các miền mờ của các thuộc
tính của lớp cha đối với các miền mờ của các thuộc tính của lớp con [25].
Cũng dựa trên phân bố khả năng, trong [26] một số khái niệm chính trong
CSDL hướng đối tượng chẳng hạn đối tượng, các mối quan hệ đối
tượng/lớp, lớp con/lớp cha và đa thừa kế được đưa ra trong mơi trường
thơng tin mờ.
6) Mơ hình dựa trên lý thuyết xác suất đầu tiên do nhóm tác giả Kornatzky và
Shimony đề xuất năm 1994 [27]. Trong mơ hình này, lớp được định nghĩa
như một tập các thuộc tính mà giá trị của chúng có thể kết hợp với một
phân bố xác suất. Lược đồ được định nghĩa như một tập các lớp có phân
cấp kết hợp với xác suất có điều kiện để một đối tượng của một lớp thuộc
về lớp con của nó. Các tác giả cũng đã phát triển một ngôn ngữ truy vấn
để thao tác chọn các đối tượng thỏa một xác suất được kết hợp với các truy
vấn. Bên cạnh đó một mơ hình mới về xác suất đã được đề xuất [28] nhằm
mô tả một diễn dịch xác suất của các quan hệ trên các giá trị tập mờ và một
đại số cho các bộ ba xác suất mờ được nghiên cứu và định nghĩa một cách
hình thức.



18

1.2.2 Tiền xử lý dữ liệu (đối sánh và gom cụm) cho mơ hình CSDL HĐT mờ
1) Thuật tốn phân cụm cơ sở dữ liệu sử dụng lập trình mạng di truyền (GNP)
[29] tách được các cụm đối tượng dựa trên phân loại mẫu, trong đó nhãn
cụm gán cho mỗi đối tượng được biểu diễn bằng một tập hợp các đặc trưng
mờ. GNP là một trong những thuật toán tiến hóa và khám phá các quy tắc
mờ từ cơ sở dữ liệu hướng đối tượng mờ. Việc tối ưu hóa các cụm được
thực hiện để các đối tượng có độ tương tự cao được đưa vào cùng một cụm.
2) Nhằm mục đích phân biệt các đối tượng trong cơ sở dữ liệu hướng đối
tượng mờ, L. Yan và Z. M. Ma [30] sử dụng độ đo ngữ nghĩa của dữ liệu
mờ, để so sánh một cách tổng quát hơn các đối tượng và lớp với kiểu dữ
liệu mờ.
3) Một trong những vấn đề quan trọng nhất trong cơ sở dữ liệu mờ là làm thế
nào để quản lý sự xuất hiện của sự mơ hồ, khơng chính xác và khơng chắc
chắn. Các phương pháp đánh giá tính tương tự là cần thiết để tìm các đối
tượng gần với các đối tượng mờ đã cho khác hoặc được sử dụng trong một
truy vấn mơ hồ của người dùng. Các phương pháp như vậy cũng có thể
được sử dụng trong cơ sở dữ liệu mờ hoặc thậm chí mơ hình cơ sở dữ liệu
quan hệ cổ điển. Y. Bashon và các cộng sự [31] đề xuất phương pháp tính
tốn tính tương tự để so sánh hai đối tượng mờ thông qua các thuộc tính
mờ bằng cách sử dụng độ đo khoảng cách Euclide. So sánh được thực hiện
cho hai trường hợp: cả hai thuộc tính là mờ hoặc một thuộc tính rõ với một
thuộc tính mờ.
4) Y. Bashon và các cộng sự [4] phát triển phép đo độ tương tự dựa trên mơ
hình đối sánh Tversky và áp dụng nó trên các tập mờ bằng cách sử dụng lý
thuyết tập mờ và các phép tốn của chúng. Mơ hình này cung cấp một
phương pháp so sánh các đối tượng có nội dung mơ hồ / mờ.


1.2.3 Xử lý và tối ưu hóa truy vấn mờ
1) S. Na và S. Park [32] đề xuất mơ hình dữ liệu hướng đối tượng mờ mới (Fmodel) và định nghĩa đại số kết hợp mờ mở rộng (FA-algebra). F-model
hỗ trợ các lớp mờ và liên kết mờ giữa các đối tượng mờ. Bằng đại số FA


19
mở rộng dựa trên các kết hợp mờ, truy vấn mờ được đề xuất nhằm xử lý
các giá trị mờ và ngôn ngữ gia tử.
2) P. K. Panigrahi và A. Goswami [19] thiết kế đại số đối tượng dựa trên các
khía cạnh kiểu và tập hợp của lớp. Một khn mẫu được nêu ra để thực
hiện các phép toán lý thuyết tập hợp, cụ thể là phép hợp, phép giao và phép
hiệu dựa trên trên cấu trúc lớp. Các phép toán thiết lập trên thành viên của
lớp tương ứng chứa các đối tượng mờ được phát triển bằng cách sử dụng
giá trị chân lý của đối tượng và nhận dạng đối tượng.
1.3 Các vấn đề nghiên cứu và giải pháp

1.3.1 Biểu diễn thơng tin khơng hồn hảo trong mơ hình khái niệm dữ liệu mờ
Mục tiêu của cơ sở dữ liệu mờ là chủ yếu xử lý thông tin không hồn hảo trong cơ sở
dữ liệu. Các loại thơng tin khơng hồn hảo được phân biết như sau [23]:
 Sự không nhất quán: là một loại ngữ nghĩa thể hiện khả năng sung đột khi xét
một số khía cạnh của thế giới thực không thể biểu diễn được nhiều hơn một
lần trong cơ sở dữ liệu (khi độ tuổi của một người được lưu trữ là 34 và 37);
 Tính khơng chính xác: có liên quan đến nội dung của giá trị thuộc tính và có
nghĩa là lựa chọn phải được thực hiện từ một phạm vi (khoảng thời gian hoặc
tập hợp) đã cho (tuổi của một người là tập hợp {17, 18, 19, 20} hoặc chiều cao
nằm trong khoảng [1.00 - 1.95]);
 Sự mơ hồ: giống như sự thiếu chính xác nhưng thường được thể hiện bằng các
giá trị ngơn ngữ (tuổi của một người là “trẻ”);
 Tính khơng chắc chắn: Sự không chắc chắn đề cập đến việc thiếu thông tin về

các sự kiện của thế giới thực, để xác định một phát biểu Boolean (có thể đúng
hay sai).
 Sự khơng rõ ràng: có nghĩa là một số yếu tố của mơ hình thiếu sự hồn chỉnh
về mặt ngữ nghĩa dẫn đến một số cách giải thích có thể khác nhau.
Nói chung, một số loại thơng tin khơng hồn hảo khác nhau có thể cùng tồn
tại đối với cùng một phần thơng tin. Khơng chính xác, khơng chắc chắn và mơ
hồ là ba loại thơng tin khơng hồn hảo chính và có thể được mơ hình hóa bằng
các tập mờ [69] và lý thuyết khả năng [5]. Nhiều cách tiếp cận hiện tại đối với
tính khơng chính xác và không chắc chắn dựa trên lý thuyết tập mờ [70], [71].


20
Cho 𝑈 = { 𝑢1 , 𝑢2 , … , 𝑢𝑛 } là một tập hợp và F là một tập con của U. Một phần tử u
của U có thuộc F hay khơng, có thể mơ tả bởi một hàm thuộc 𝜇𝐹 :
𝜇𝐹 (𝑢) = {

1 𝑛ế𝑢 𝑢 ∈ 𝐹
0 𝑁ế𝑢 𝑢 ∉ 𝐹

Trong tập con mờ, hàm thuộc của một phần tử nào đó của F khơng chỉ nhận giá trị
{0, 1} mà có thể nhận giá trị trong khoảng [0; 1].
Định nghĩa 1.1: Cho U là một vũ trụ các đối tượng (sau đây gọi tắt là vũ trụ), một
tập mờ F trên U xác định bởi hàm thuộc 𝜇𝐹 : 𝑈 → [0; 1], gán cho mỗi phần tử u của
U một độ thuộc 𝜇𝐹 (𝑢) để chỉ độ thuộc của u vào tập mờ F. Tập mờ F được biểu diễn
dưới dạng:
𝐹 = {(𝑢1 , 𝐹(𝑢1 )), (𝑢2 , 𝐹(𝑢2 )), . . . , (𝑢𝑛 , 𝐹(𝑢𝑛 ))}
Khi  F (u ) được xem như độ đo khả năng mà một biến X nhận giá trị u , một giá trị
mờ được biểu diễn bằng phân bố khả năng 𝜋𝑋 [5] như sau:
𝜋𝑋 = {(𝑢1 , 𝜋𝑋 (𝑢1 )), (𝑢2 , 𝜋𝑋 (𝑢2 )), . . . , (𝑢𝑛 , 𝜋𝑋 (𝑢𝑛 ))}
Trong đó, 𝜋𝑋 (𝑢𝑖 ), 𝑢𝑖 ∈ 𝑈 biểu thị khả năng mà X nhận giá trị 𝑢𝑖 . Cho  X , F lần lượt

là biểu diễn phân bố khả năng và tập mờ cho một giá trị mờ, khi đó  X  F
Định nghĩa 1.2: Tập mờ F được gọi là chuẩn nếu tồn tại ít nhất một phần tử 𝑢 ∈ 𝑈
sao cho 𝜇𝐹 (𝑢) = 1.
Ví dụ 1.1: Cho U là tập các tuổi 37 tuổi, 39 tuổi, 41 tuổi, 43 tuổi và 45 tuổi. Một giá
trị mờ tuổi “Trung niên” có thể được mơ tả bởi tập mờ F là tập hợp các tuổi “Trung
niên” như sau:
𝐹 = {0.5/37 𝑡𝑢ổ𝑖, 0.6/39 𝑡𝑢ổ𝑖, 0.7/41 𝑡𝑢ổ𝑖, 0.8/43 𝑡𝑢ổ𝑖, 1.0/45 𝑡𝑢ổ𝑖}
Trong đó, 𝜇𝐹 (37 𝑡𝑢ổ𝑖) = 0.5, 𝜇𝐹 (39 𝑡𝑢ổ𝑖) = 0.6, 𝜇𝐹 (41 𝑡𝑢ổ𝑖) =
0.7, 𝜇𝐹 (43 𝑡𝑢ổ𝑖) = 0.8, 𝜇𝐹 (45 𝑡𝑢ổ𝑖) = 1.

Hình 1.1. Biểu diễn dữ liệu mờ tuổi


21

Lý thuyết tập hợp mờ lần đầu tiên được áp dụng cho một số khái niệm cơ bản
ER ở Zvieli và Chen [6]. Đề xuất này đã giới thiệu tập hợp kiểu thực thể mờ, tập
hợp kiểu quan hệ mờ và tập thuộc tính mờ của các kiểu thực thể (hoặc kiểu quan
hệ), tạo thành ba mức mờ sau đây trong mơ hình ER.
 Mức 1 (Mức lược đồ): Lớp thuộc về mơ hình dữ liệu hay thuộc tính định nghĩa
lớp thuộc về lớp với độ thuộc nằm trong [0; 1].
 Mức 2 (Mức thể hiện lớp): Tính mờ liên quan đến một số thể hiện là các thể
hiện của lớp, mặc dù cấu trúc dữ liệu định nghĩa lớp là rõ nhưng các thể hiện
của lớp thuộc về lớp với độ thuộc nằm trong [0; 1].
 Mức 3 (Mức thuộc tính): Liên quan đến giá trị các thuộc tính của thể hiện lớp.
Một thuộc tính trong lớp xác định một miền giá trị, khi miền giá trị này là một
tập con mờ hay tập các tập con mờ thì giá trị thuộc tính là mờ.
Ví dụ 1.2: Xét các giá trị thành viên cho các kiểu thực thể, kiểu quan hệ và thuộc
tính. Giả sử rằng ta có một mơ hình ER về một thư viện bao gồm hai loại thực thể
“Sách” , “Cửa hàng sách” và có mối quan hệ “Mua từ” giữa hai loại thực thể này. Mơ

hình giả định rằng “Cửa hàng sách” là một loại thực thể mờ với cấp thành viên là 0.6.
Sau đó, “Mua từ” là một kiểu quan hệ mờ với cấp thành viên là 0.6. Ngồi ra, Sách
có thể chứa thuộc tính “Kích thước” ngồi các thuộc tính ID, Tên sách, Tác giả, ISBN,
Nhà xuất bản, v.v. và “Kích thước” là một thuộc tính mờ với cấp thành viên là 0.4.

1.3.2 Mơ hình hóa UML của dữ liệu mờ
Phần này mở rộng từ biểu đồ lớp UML để biểu diễn thông tin mờ [3]. Vì các cấu trúc
của UML chứa lớp và các mối quan hệ, nên việc mở rộng các cấu trúc này được tiến
hành dựa trên các tập mờ. Với mục đích này, đề xuất [3] đã mơ tả chính thức về biểu
đồ lớp UML.
Biểu đồ lớp UML là một bộ 𝐷 = (𝐶, 𝐴, 𝑅, 𝑂, 𝑀, 𝑆), trong đó C là tập hữu hạn
các lớp, A là tập hữu hạn các thuộc tính, R là tập các mối quan hệ, O là một tập các
đối tượng, M là một tập các phương thức và S là một tập các ràng buộc. Phần mục
này tập trung vào các lớp, thuộc tính, mối quan hệ và đối tượng, từ đó đề xuất mơ
hình sơ đồ lớp UML như sau: 𝐷 = (𝐶, 𝐴, 𝑅, 𝑂), trong đó 𝐶 = {𝑐1 , 𝑐2 , … , 𝑐𝑘 }, 𝐴 =
{𝑎1 , 𝑎2 , … , 𝑎𝑙 }, 𝑅 = {𝑟1 , 𝑟2 , … , 𝑟𝑚 } và 𝑂 = {𝑜1 , 𝑜2 , … , 𝑜𝑛 }. Ta có:


22
 R ⊆ C × C là một quan hệ nhị nguyên đại diện cho tổng quát hóa, tập hợp,
liên kết hoặc phụ thuộc.
 Với ci ∈ C (1 ≤ i ≤ k), A (ci ) đại diện cho một tập các thuộc tính của ci .
Rõ ràng A(ci ) ⊆ {a1 , a2 , … , al }, tức là A(ci ) ⊆ A.
 Đối với aj ∈ A (1 ≤ j ≤ l), aj (ci ) biểu thị thuộc tính aj của ci . Trong ngữ
cảnh của ci đã cho, aj được sử dụng thay vì aj (ci ).
 Với ci ∈ C (1 ≤ i ≤ k), O(ci ) có nghĩa là tập các đối tượng mà ci chứa. Ở
đây, O(ci ) ⊆ {o1 , o2 , … , on }, tức là, O(ci ) ⊆ O. Đối với op ∈ O(1 ≤ p ≤ n)
và aj ∈ A(1 ≤ j ≤ l), op (ci ) biểu thị op đối tượng của ci và op (aj (ci )) biểu
thị giá trị của đối tượng op trên thuộc tính aj . Trong ngữ cảnh của ci đã cho,
op được sử dụng thay vì op (ci ) và op (aj ) được sử dụng thay vì op (aj (ci )).

Để lưu trữ thông tin mờ trong biểu đồ lớp UML, mơ hình biểu đồ lớp UML phải
được mở rộng bằng cách sử dụng tập mờ và logic mờ. Về mặt hình thức, một sơ đồ
̃ = (𝐶̃ , 𝐴̃, 𝑅̃, 𝑂̃), trong đó 𝐶̃ là tập các lớp mờ, 𝐴̃ là tập các
lớp UML mờ là một bộ 𝐷
thuộc tính mờ, 𝑅̃ là tập các mối quan hệ mờ, và 𝑂̃ là tập các đối tượng mờ.

1.3.3 Lớp mờ
Về mặt lý thuyết, một lớp có thể được xem xét từ hai quan điểm khác nhau:
a) Một lớp mở rộng (kế thừa), trong đó lớp được xác định bởi danh sách các đối
tượng.
b) Một lớp nguyên [3], trong đó lớp được xác định bởi một tập các thuộc tính
và các giá trị có thể chấp nhận.
Một lớp con được xác định từ lớp cha của nó bằng cơ chế kế thừa và đây có thể
được coi là trường hợp đặc biệt của (b) ở trên. Các đối tượng có cùng thuộc tính được
nhóm thành các lớp. Giả sử rằng một số đối tượng mờ có các thuộc tính tương tự và
một lớp được định nghĩa bởi các đối tượng này. Các đối tượng này thuộc về lớp có
độ thuộc thành viên là [0; 1], làm cho nó trở thành một lớp mờ. Ngoài ra, đối với một
lớp nguyên, miền của thuộc tính lớp có thể mờ. Do đó, một số đối tượng có thể có
các giá trị mờ trên thuộc tính này, làm cho lớp tương ứng trở thành một lớp mờ. Cuối
cùng, một lớp được tạo ra bởi một lớp mờ bằng phương pháp đặc biệt hóa, hoặc một


23
lớp được tạo ra bởi một số lớp (trong đó ít nhất một lớp mờ) bằng phương pháp tổng
quát hóa.
̃ = (𝐶̃ , 𝐴̃, 𝑅̃, 𝑂̃)
Theo Zvieli và Chen [6], một lớp có ba mức độ mờ 𝐷
a) Mức độ mờ đầu tiên đánh giá mức độ mà lớp thuộc về mơ hình dữ liệu cũng
như mức độ mờ giá trị thuộc tính của lớp. Tại thời điểm này, ta có một tập mờ
các lớp 𝐶̃ và 𝑐𝑖 là lớp của 𝐶̃ với mức thành viên 𝜇𝐶̃ (𝑐𝑖 ), đi cùng với nó là một

tập mờ gồm các thuộc tính A (𝑐𝑖 ) và 𝑎𝑗 (𝑐𝑖 ) là thuộc tính của A (𝑐𝑖 ) với mức
thành viên 𝜇𝐴̃ (𝑎𝑗 (𝑐𝑖 )).
b) Mức độ mờ thứ hai đánh giá mức độ mà một số đối tượng thuộc về một lớp.
Một đối tượng là mờ nếu nó chứa ít nhất một giá trị thuộc tính mờ. Khi đó,
một đối tượng như vậy 𝑜𝑝 (𝑐𝑖 ) là đối tượng của lớp 𝑂(𝑐𝑖 ) với mức thành viên
𝜇𝑂̃ (𝑜𝑝 (𝑐𝑖 )).
c) Mức độ mờ thứ ba là các giá trị thuộc tính của các đối tượng của lớp. Một
thuộc tính trong một lớp được xác định một miền giá trị. Khi miền này là một
tập con mờ hoặc một tập của một tập con mờ, giá trị của một đối tượng trên
thuộc tính, chẳng hạn 𝑜𝑝 (𝑎𝑗 (𝑐𝑖 )) , 𝑣ớ𝑖 1 ≤ 𝑝 ≤ 𝑛, là một miền mờ được biểu
diễn bằng phân bố khả năng {(𝑣1 , 𝜋(𝑣1 )), (𝑣2 , 𝜋(𝑣2 )), … , (𝑣𝑞 , 𝜋(𝑣𝑞 ))}. Ở
đây, 𝜋(𝑣𝑠 ), 𝑣ớ𝑖 1 ≤ 𝑠 ≤ 𝑞 biểu thị khả năng của 𝑜𝑝 (𝑎𝑗 (𝑐𝑖 )) có giá trị 𝑣𝑠 .
Ba mức độ mờ trong lớp tạo thành nền tảng của biểu đồ lớp UML mờ, vì vậy
độ ổn định của chúng là rất quan trọng. Xét mức độ mờ đầu tiên. Đối với tập mờ 𝐶̃
của các lớp và bất kỳ lớp 𝑐𝑖 , 𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑘, bậc mà 𝑐𝑖 thuộc 𝐶̃ là 𝜇𝐶̃ (𝑐𝑖 ), 𝑣ớ𝑖 0 ≤
𝜇𝐶̃ (𝑐𝑖 ) ≤ 1. Điều này ngụ ý rằng đối với sơ đồ lớp UML truyền thống không có thơng
tin khơng chính xác hoặc khơng chắc chắn, 𝜇𝐶̃ (𝑐𝑖 ) = 0, 𝑐𝑖 không thuộc 𝐶̃ hoặc
𝜇𝐶̃ (𝑐𝑖 ) = 1, 𝑐𝑖 thuộc 𝐶̃ . Tại thời điểm này, 𝐶̃ là một tập hợp các lớp rõ. Ngoài ra, đối
với lớp 𝑐𝑖 , 𝑣ớ𝑖 1 ≤ 𝑖 ≤ 𝑘 và thuộc tính 𝑎𝑗 (𝑐𝑖 ), 𝑣ớ𝑖 1 ≤ 𝑗 ≤ 𝑙 của 𝑐𝑖 , mức độ 𝑎𝑗 thuộc
𝐴(𝑐𝑖 ) là 𝜇𝐴̃ (𝑎𝑗 (𝑐𝑖 )) , 𝑣ớ𝑖 0 ≤ 𝜇𝐴̃ (𝑎𝑗 (𝑐𝑖 )) ≤ 1. Như vậy, 𝜇𝐴̃ (𝑎𝑗 (𝑐𝑖 )) = 0 hoặc
𝜇𝐴̃ (𝑎𝑗 (𝑐𝑖 )) = 1 trong mơi trường thơng tin truyền thống (khơng có sự chính xác hoặc
khơng chắc chắn nào cả). Tình huống trước chỉ ra rằng 𝑎𝑗 khơng phải là thuộc tính
của 𝑐𝑖 , trong khi tình huống sau chỉ ra rằng 𝑎𝑗 phải là thuộc tính của 𝑐𝑖 . Xét mức độ


×