Nghiên cứu phát triển phương pháp khai phá luật kết hợp mờ biểu thị bằng thông tin ngôn ngữ và ứng dụng (Luận án tiến sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.44 MB, 109 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Nguyễn Tuấn Anh

NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ
LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN
NGỮ VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội – Năm 2020

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Nguyễn Tuấn Anh

NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ
LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN

NGỮ VÀ ỨNG DỤNG
Chuyên ngành: CƠ SỞ TOÁN HỌC CHO TIN HỌC
Mã sỗ: 62.46.01.10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TSKH. Nguyễn Cát Hồ
2. TS. Trần Thái Sơn

Hà Nội – Năm 2020

1

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả được
viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi đưa
vào luận án. Các kết quả trong luận án là trung thực và chưa từng được công bố trong
bất kỳ công trình nào khác.
Tác giả

Nguyễn Tuấn Anh

2

LỜI CẢM ƠN
Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS. TSKH. Nguyễn
Cát Hồ và TS. Trần Thái Sơn. Lời đầu tiên, tác giả xin bày tỏ lòng kính trọng và biết

ơn sâu sắc nhất tới hai thầy.
Tác giả gửi lời cảm ơn chân thành tới Ban lãnh đạo Học viện Khoa học và
Công nghệ, Viện Công nghệ thông tin, khoa Công nghệ thông tin và truyền thông đã
tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận án.
Xin cảm ơn Ban giám hiệu trường Đại học Công nghệ thông tin và Truyền
thông - ĐHTN, Ban chủ nhiệm khoa Công nghệ thông tin đã quan tâm giúp đỡ, tạo
điều kiện tốt nhất trong công việc để tác giả có thời gian tập trung nghiên cứu.
Cảm ơn các đồng nghiệp thuộc Khoa Công nghệ thông tin - Trường Đại học
Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên, các anh chị trong nhóm
nghiên cứu đại số gia tử đã động viên, khích lệ trao đổi những kiến thức và kinh
nghiệm trong quá trình hoàn thành luận án.
Cuối cùng, tác giả xin chân thành cảm ơn bố mẹ, chị em, đặc biệt là vợ và các
con, những người luôn dành cho tác giả những tình cảm và chia sẻ những lúc khó
khăn trong cuộc sống, luôn động viên giúp đỡ tác giả trong quá trình nghiên cứu.
Luận án cũng là món quà tinh thần mà tác giả trân trọng gửi tặng đến các thành viên
trong gia đình.

3

MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT..........................................5
DANH MỤC HÌNH BẢNG BIỂU ...........................................................................6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ..................................................................7
MỞ ĐẦU ....................................................................................................................9
CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ ......................................................17
1.1. Tập mờ và các phép toán trên tập mờ ........................................................17
1.1.1. Tập mờ (fuzzy set) ...................................................................................17
1.1.2. Biến ngôn ngữ ..........................................................................................18
1.1.3. Phân hoạch mờ.........................................................................................19

1.2. Đại số gia tử ...................................................................................................21
1.2.1. Khái niệm Đại số gia tử ...........................................................................21
1.2.2. Một số tính chất của ĐSGT tuyến tính ....................................................22
1.2.3. Định lượng ngữ nghĩa của giá trị ngôn ngữ .............................................23
1.2.4. Khoảng mờ ..............................................................................................24
1.2.5. Độ đo tính mờ của các giá trị ngôn ngữ ..................................................25
1.3. Giải thuật di truyền ......................................................................................27
1.4. Bài toán khai phá luật kết hợp ....................................................................29
1.4.1. Một số khái niệm cơ bản..........................................................................29
1.4.2. Bài toán khai phá luật kết hợp mờ ...........................................................31
1.5. Một số hướng nghiên cứu về luật kết hợp ..................................................34
1.6. Kết luận chương 1 ........................................................................................37
CHƯƠNG 2. KHAI PHÁ LUẬT KẾT HỢP MỜ THEO HƯỚNG TIẾP CẬN
SỬ DỤNG ĐẠI SỐ GIA TỬ ..................................................................................38
2.1. Đặt vấn đề ......................................................................................................38
2.2. Khai phá luật kết hợp mờ theo hướng tiếp cận ĐSGT .............................39
2.2.1. Mờ hóa cơ sở dữ liệu giao dịch ...............................................................39
2.2.2. Quan hệ khoảng cách giao dịch ...............................................................41
2.2.3. Xây dựng bảng định lượng ......................................................................42
2.3. Nén cơ sở dữ liệu giao dịch ..........................................................................43
2.4. Thuật toán trích xuất luật kết hợp mờ .......................................................46

4

2.5. Kết quả thử nghiệm ......................................................................................48
2.5.1. Thử nghiệm với CSDL FAM95...............................................................48
2.5.2. Thử nghiệm với CSDL STULONG ........................................................51
2.6. Kết luận chương 2 ........................................................................................54
CHƯƠNG 3. PHÂN HOẠCH MỜ CHO THUỘC TÍNH DỰA TRÊN BIỂU

DIỄN THỂ HẠT CỦA ĐSGT ................................................................................56
3.1. Phân hoạch cho miền giá trị của thuộc tính ...............................................56
3.1.1. Đặt vấn đề ................................................................................................56
3.1.2. Rời rạc hóa thuộc tính định lượng ...........................................................57
3.1.3. Phân chia miền giá trị của thuộc tính theo cách tiếp cận lý thuyết tập mờ
...........................................................................................................................60
3.2. Phương pháp phân hoạch mờ bằng biểu diễn thể hạt với ĐSGT ............63
3.2.1. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đơn thể hạt ..........64
3.2.2. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đa thể hạt ............66
3.3. Phương pháp tối ưu tham số mờ ĐSGT cho bài toán khai phá luật kết
hợp.........................................................................................................................70
3.3.1. Mô hình giải thuật di truyền CHC ...........................................................71
3.3.2. Mã hóa tập các MF ..................................................................................72
3.3.3. Đánh giá nhiễm sắc thể ............................................................................73
3.4. Thuật toán tìm kiếm phân hoạch mờ tối ưu và luật kết hợp ...................75
3.5. Kết quả thử nghiệm ......................................................................................77
3.5.1. Cơ sở dữ liệu sử dụng trong thử nghiệm .................................................77
3.5.2. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đơn
thể hạt .................................................................................................................78
3.5.3. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đa
thể hạt .................................................................................................................93
3.6. Kết luận chương 3 ........................................................................................97
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................99
CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN
ÁN ...........................................................................................................................101
TÀI LIỆU THAM KHẢO ....................................................................................102

5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Các ký hiệu
𝒜𝒳

Đại số gia tử tuyến tính

𝒜𝒳 ∗

Đại số gia tử tuyến tính đầy đủ

𝜇 (ℎ )

Độ đo tính mờ của gia tử h

𝑓𝑚(𝑥)

Độ đo tính mờ của gia tử x

𝑣 (𝑥 )

Hàm định lượng của giá trị ngôn ngữ của biến x

𝜇𝐴 (𝑥)

Hàm xác định độ thuộc của giá trị x vào tập mờ A

𝑙 (𝑥 )

Độ dài của từ ngôn ngữ x

ℑ𝑓𝑚

Khoảng tính mờ của giá trị ngôn ngữ

𝑋𝑘

Tập các hạng từ có độ dài đúng bằng k

𝑋(𝑘)

Tập các hạng từ có độ dài ≤ 𝑘

Các từ viết tắt

AR
DB, CSDL

Luật kết hợp (association rule)
Cơ sở dữ liệu

ĐLNN

Định lượng ngữ nghĩa

ĐSGT

Đại số gia tử

FRBS

Fuzzy Rule-based Systen

GA

Giải thuật di truyền (Genetic Algorithms)

KB

Knowledge Base

MF

Hàm thuộc (Membership function)

RB

Fuzzy-based

SQM
Min Supp

Semantically Quantifying Mapping
Độ hỗ trợ tối thiểu

6

DANH MỤC HÌNH BẢNG BIỂU
Bảng 2.1: Cơ sở dữ liệu ví dụ ...................................................................................41
Bảng 2.2: Mờ hóa dữ liệu trong Bảng 2.1 ................................................................41

Bảng 2.3: Bảng định lượng của cơ sở dữ liệu Bảng 2.2 ...........................................43
Bảng 2.4: Số lượng luật kết hợp thu được với độ tin cậy 80% .................................48
Bảng 2.5: Luật kết hợp thu được với độ hỗ trợ 60% và độ tin cậy 80% ..................49
Bảng 2.6: Luật kết hợp thu được với độ hỗ trợ 70% và độ tin cậy 80% ..................49
Bảng 2.7: Số lượng luật kết hợp thu được với độ tin cậy 80% .................................51
Bảng 2.8: So sánh thời gian thực hiện khai phá luật kết hợp với độ tin cậy 80% ....52
Bảng 2.9: Luật kết hợp thu được với độ hỗ trợ 85% và độ tin cậy 80% ..................52
Bảng 2.10: Luật kết hợp thu được với độ hỗ trợ 90% và độ tin cậy 80% ................53
Bảng 3.1: CSDL thống kế dân số của 10 gia đình ....................................................58
Bảng 3.2: Rời rạc hóa thuộc tính định lượng ............................................................58
Bảng 3.3: Ví dụ rời rạc hóa thuộc tính "Tuổi" ..........................................................59
Bảng 3.4: CSDL thử nghiệm ....................................................................................77
Bảng 3.5: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với phương
pháp sử dụng biểu diễn đơn thể hạt...........................................................................78
Bảng 3.6: Kết quả thử nghiệm biểu diễn đơn thể hạt ...............................................79
Bảng 3.7: Quan hệ giữa độ thú vị trung bình của các luật ........................................82
Bảng 3.8: Bảng số lượng tập phổ biến 1-ItemSet .....................................................86
Bảng 3.9: Bảng Độ thú vị trung bình ........................................................................90
Bảng 3.10: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với
phương pháp sử dụng biểu diễn đa thể hạt................................................................94
Bảng 3.11: Quan hệ giữa số lượng tập mục và Min supp .........................................94
Bảng 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp .....................................95

7

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Hàm thuộc cho tập mờ thể hiện tuổi người là: Trẻ, Trung niên, Già .......19
Hình 1.2: Một cấu trúc phân hoạch mờ dạng đơn thể hạt .........................................20
Hình 1.3: Một cấu trúc phân hoạch mờ dạng đa thể hạt ...........................................20

Hình 1.4: Khoảng tính mờ của các hạng từ của biến TRUTH .................................25
Hình 1.5: Độ đo tính mờ của biến TRUTH ..............................................................26
Hình 1.6: Lưu đồ giải thuật di truyền .......................................................................28
Hình 2.1: Xây dựng phân hoạch mờ dựa trên ĐSGT ...............................................40
Hình 2.2: Tổng quan về thuật toán nén CSDL giao dịch ..........................................43
Hình 2.3: Thời gian thực hiện với CSDL nén và CSDL không nén .........................50
Hình 2.4: Thời gian thực hiện với CSDL nén ...........................................................50
Hình 2.5: Thời gian thực hiện với CSDL nén và CSDL không nén .........................54
Hình 3.1: Xây dựng phần hoạch miền xác định của thuộc tính theo cách tiếp cận
ĐSGT ........................................................................................................................65
Hình 3.2: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đơn thể hạt ....65
Hình 3.3: Cấu trúc hạt thể nhiều mức .......................................................................67
Hình 3.4: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đa thể hạt ......69
Hình 3.5: Lược đồ tìm kiếm phân hoạch tối ưu cho miền xác định thuộc tính và khai
phái luật kết hợp ........................................................................................................70
Hình 3.6: Mô hình giải thuật di truyền CHC ............................................................72
Hình 3.7: Tập các MF cho mục Ij ......................................................................74
Hình 3.8: Hai tập hàm thuộc phân bố không tốt ................................................75
Hình 3.9: Quan hệ giữa độ phù hợp (Suit) của các hàm thuộc và Min Supp ...........80
Hình 3.10: Quan hệ giữa giá trị hàm mục tiêu và Min Supp ....................................81
Hình 3.11: Quan hệ giữa độ hỗ trợ tập mục 1-ItemSet và Min Supp .......................81
Hình 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp .....................................82
Hình 3.13: Quan hệ giữa độ thú vị trung bình và Min Supp ....................................83

8

Hình 3.14: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp của
Herrera sử dụng lý thuyết tập mờ..............................................................................85
Hình 3.15: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng

biểu diễn đơn thể hạt và ĐSGT .................................................................................86
Hình 3.16: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Pollution ....88
Hình 3.17: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Stulong ......88
Hình 3.18: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Basketball ..89
Hình 3.19: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Quake ........89
Hình 3.20: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL stock ..........90
Hình 3.21: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Pollution ..91
Hình 3.22: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stulong ....92
Hình 3.23: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Basketball 92
Hình 3.24: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Quake ......92
Hình 3.25: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stock ........93
Hình 3.26: Quan hệ giữa số lượng tập phố biến và Min Supp .................................95
Hình 3.27: So sánh số lượng tập phổ biến và Min Supp ..........................................95
Hình 3.28: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng
biểu diễn đa thể hạt và ĐSGT ...................................................................................97

9

MỞ ĐẦU
Cùng với sự phát triển mạnh mẽ của Công nghệ thông tin, đặc biệt là các hệ
thống thông tin quản lý giai đoạn vừa qua, xuất hiện rất nhiều các kho thông tin hay
CSDL lớn hoặc rất lớn. Để khai thác thông tin ẩn trong các kho dữ liệu kích cỡ lớn
như vậy nhằm phục vụ cho các nhu cầu quản lý cũng như cho các hoạt động khoa
học khác nhau (như trí tuệ nhân tạo,..), hướng nghiên cứu khai phá dữ liệu, phát hiện
tri thức đã ra đời thu hút sự quan tâm của các nhà tin học cũng như các chuyên gia
trong nhiều lĩnh vực khác nhau như y tế, giáo dục,… và phát triển mạnh mẽ trong
thời gian gần đây. Vài thí dụ có thể thấy:
- Phát hiện những mối quan hệ dữ liệu, các luật kết hợp trong các kho dữ liệu
lớn như các CSDL, các kho dữ liệu giao dịch bán hàng trong siêu thị, các kho dữ liệu

phản ảnh một phạm vi nào đó của hoạt động kinh tế - xã hội.
- Giải quyết vấn đề trích rút thông tin trong tập dữ liệu lớn dạng các câu tóm tắt
ngôn ngữ (Linguistic summaries).
Bài toán khai thác luật kết hợp (Association rule mining) là hướng nghiên cứu
quan trọng và sớm được nghiên cứu phát triển trong hướng nghiên cứu khai phá dữ
liệu. Giai đoạn đầu, các nghiên cứu trước đây được giới hạn trong phạm vi “bài toán
luật kết hợp cổ điển”, tức là chỉ làm việc với các kho dữ liệu có giá trị nhị phân (0 và
1), sau đó mở rộng ra dữ liệu nằm trong trường số thực. Trong những năm gần đây
nhiều giải thuật dùng cho những công việc đặc thù đã được phát triển theo nhiều
hướng khác nhau nhưng chủ yếu xoay quanh hai hướng chính:
(i) Cải tiến tốc độ trung bình các thuật toán khai phá luật kết hợp, vì thông
thường đây là bài toán có độ phức tạp hàm mũ do phải quét CSDL nhiều lần.
(ii) Nghiên cứu sâu hơn về ý nghĩa của các luật kết hợp vì ta thấy không phải
luật kết hợp nào khai phá được cũng có ý nghĩa đối vời người sử dụng.
Có rất nhiều thuật toán đã được đề xuất để tìm kiếm luật kết hợp từ CSDL có
thuộc tính định lượng. Dạng khai phá luật kết hợp đầu tiên được đề xuất là luật kết
hợp nhị phân dựa trên dữ liệu basket đã được Agrawal và cộng sự đề xuất [21]. Ở đây
CSDL là một bảng các giao dịch tại một siêu thị trong ngày chẳng hạn với các cột là
các mục (hàng hóa) và các dòng là danh sách người mua. Nếu người A mua hàng ở

10

các mục x, y, z,… thì tại đó, CSDL nhận giá trị 1, còn lại là nhận giá trị 0. Như vậy,
bài toán khai phá dữ liệu ban đầu làm việc với các giá trị nhị phân.
Một luật kết hợp có dạng R: "𝑁ế𝑢 𝑋 𝑡ℎì 𝑌", trong đó X, Y là tập các mục,
𝑋, 𝑌 ⊆I và X ∩Y = ∅, X được gọi là tiên đề, Y được gọi là hệ quả của luật. Hai độ do
quan trọng và thường được sử dụng trong bài toán khai phá luật kết hợp là: Độ hỗ trợ
(support) và Độ tin cậy (confidence).
Với CSDL nhị phân chỉ quan tâm là một mặt hàng có xuất hiện trong giao dịch

hay không mà không quan tâm đến số lượng mặt hàng trong mỗi giao dịch. Trong
thực tế CSDL thương bao gồm có cả các thuộc tính định lượng, các thuật toán khai
phá luật kết hợp với dữ liệu nhi phân không thể áp dụng với CSDL dạng này. Để có
thể xử lý dữ liệu kiểu này, phương pháp thường được sử dụng là chia miền giá trị của
các thuộc tính định lượng đó thành các khoảng, sau đó chuyển CSDL thành CSDL
mới để có thể áp dụng các thuật toán khai phá luật kết hợp nhị phân [8]. Luật kết hợp
này có dạng: Nếu Tuổi ∈ [1, 25] thì Thu nhập ∈ [2 triệu, 3 triệu]. Với phương pháp
rời rạc dữ liệu này đã giải quyết được bài toán chuyển từ CSDL giao dịch với dữ liệu
số về dữ liệu giao dịch nhị phân, tuy nhiên với kết quả này cũng chưa thỏa mãn các
nhà nghiên cứu. Một cách tự nhiên, điều này dẫn đến việc đề xuất và nghiên cứu các
luật kết hợp mờ, ở đó người ta phân chia miền xác định của thuộc tính bằng các tập
mờ.
Trong [29-31, 57], thuật toán khai phá luật kết hợp mờ đã được đề xuất. Luật
kết hợp mờ có dạng: “Nếu X là A Thì Y là B”. “X là A” gọi là tiền (tiên) đề, “Y là B”
gọi là kết luận của luật. 𝑋 = {𝑥1 , 𝑥2 , … , 𝑥𝑝 }, Y= {𝑦1 , 𝑦2 , … , 𝑦𝑞 } là tập mục là tập con
của tập thuộc tính I của CSDL. 𝐴 = {𝑓𝑥1 , 𝑓𝑥2 , … , 𝑓𝑥𝑝 }, B= {𝑓𝑦1 , 𝑓𝑦2 , … , 𝑓𝑦𝑞 } là các tập
mờ tương ứng của các thuộc tính X, Y.
Để khai phá luật kết hợp mờ với CSDL có các thuộc tính định lượng, đầu tiên
phải phân hoạch miền giá trị của các thuộc tính thành các miền mờ (mỗi miền mờ
gắn với một nhãn ngôn ngữ). Trong lý thuyết tập mờ, mỗi miền mờ như vậy được coi
là một tập mờ và ứng với một hàm thuộc (Membership Function -MF) nhằm xác định
độ “thuộc” của giá trị biến vào tập mờ đã cho. Hàm thuộc xác định độ thuộc của một
đối tượng vào mỗi tập mờ đã được định nghĩa trước cho các thuộc tính định lượng.
Khi đó, mỗi giá trị của một thuộc tính trong CSDL sẽ ứng với một tập các giá trị của

11

các hàm thuộc ứng với các tập mờ của thuộc tính đó và ta sẽ xử lý tập giá trị độ thuộc
này thay cho xử lý bản thân giá trị đó của CSDL.

Thuật toán khai phá luật kết hợp mờ đề xuất trong [30], thuật toán khai phá
luật kết hợp mờ theo trình tự sau: người sử dụng hoặc chuyên gia phải cung cấp thuật
toán cùng với các tập mờ cho các thuộc tính định lượng và các hàm thuộc. Các hàm
thuộc và tập mờ được cung cấp dựa vào kinh nghiệm của các chuyên gia, có thể không
phù hợp với luật kết hợp mờ của CSDL. Để có được các luật kết hợp chất lượng, một
trong các hướng nghiên cứu đực các tác giả đề xuất là dựa vào CSDL giao dịch đầu
vào trích chọn ra các hàm thuộc.
Trong các nghiên cứu về khai phá tri thức, bài toán phân chia miền xác định
các thuộc tính định lượng của dữ liệu ngày càng nhận được sự quan tâm rộng rãi.
Phân chia miền xác định của thuộc tính là bước khởi đầu quan trọng cho cả một quá
trình xử lý thông tin về sau cho hầu hết các bài toán khai phá tri thức như: khai phá
luật kết hợp, phân loại, nhận dạng, hồi quy [15, 16, 28, 52, 67],...
Trong các năm gần đây, các nhà nghiên cứu đã chú ý đến việc nghiên cứu xây
dựng các tập hàm thuộc như vậy vì thấy rõ tầm ảnh hưởng của công đoạn này lên
công đoạn tiếp theo. Nếu không có một hệ các MF được xây dựng tốt thì cũng sẽ
không thể trích xuất các luật kết hợp tốt được. Nếu ta có một sự phân chia mờ hợp lý
(theo một số tiêu chuẩn xác định), các tri thức khai phá được về sau cũng sẽ là các tri
thức phản ánh đúng đắn hơn các quy luật ẩn trong kho thông tin. Ngược lại, nếu ban
đầu không có sự phân chia mờ hợp lý, tri thức khai phá được có thể sẽ mang nặng
tính chủ quan, áp đặt, không đúng với bản chất sự việc. Đây thật ra là bài toán không
đơn giản dù cho bề ngoài của sự việc không cho thấy rõ điều đó. Bài toán phức tạp
trước hết vì liên quan đến nhận thức mang tính cảm tính của cá nhân, phụ thuộc nhiều
vào ngữ cảnh, chẳng hạn trong miền thuộc tính “khoảng cách” thì khoảng cách bao
nhiêu gọi là “xa”, là “tương đối gần”,... Thứ nữa, việc phân chia mờ cũng phụ thuộc
rất nhiều vào dữ liệu đầu vào mà ta có được. Một số nghiên cứu có giả thiết về hàm
phân bố xác suất của dữ liệu hoặc các giả thiết khác. Tuy nhiên dữ liệu thì rất đa dạng,
các giả thiết không phải lúc nào cũng thỏa mãn và khối lượng thông tin thì vô cùng
lớn, đòi hỏi phải có các phương pháp tin cậy nhưng không quá phức tạp để có thể xử
lý thông tin trong thời gian chấp nhận được.

12

Phương pháp tiếp cận theo lý thuyết tập mờ cho ta một cách xử lý dữ liệu khá
mềm dẻo, nhanh chóng so với các phương pháp xử lý số cổ điển. Tuy vậy, vẫn còn
nhiều vấn đề đặt ra như việc phân chia các miền mờ thế nào cho hợp lý, việc gắn nhãn
ngôn ngữ vào các miền mờ thường dựa vào trực quan của con người, làm sao xây
dựng được các MF nhanh chóng, phù hợp và cách xử lý các MF này thế nào để giữ
được ngữ nghĩa gắn với chúng,... Rất nhiều thuật toán khai phá luật kết hợp mờ đã
được đề xuất [27, 31, 57, 59, 61, 65] với các phương pháp này thường định nghĩa
trước các hàm thuộc, điều này khó trong thực tế và thương mang ý chủ quan của con
người
Một số công bố được các nhà nghiên cứu đề xuất phương pháp tìm kiếm hàm
thuộc và ứng dụng trong bài toán khai phá luật kết hợp từ CSDL có các thuộc tính
định lượng: Tzung-Pei Hong và cộng sự (2004) [83], (2008) [42], (2016) [46], (2018)
[60]; Herrera và cộng sự (2009) [53], (2015) [22]; Harikesh Bahadur Yadav và cộng
sự (2015) [14]; Aashna Agarwal và cộng sự (2016) [7]; Hemant Kumar Soni và cộng
sự (2016) [38]; Harihar Kalia và cộng sự (2016)[74]; Umesh Kumar Patel và cộng sự
(2016) [76]; Umit Can và cộng sự (2017) [9], Archana Gupta và cộng sự (2019) [75].
Ý tưởng chính của các phương pháp sử dụng giải thuật GA để tìm kiếm trong CSDL
các hàm thuộc từ CSDL sau đó áp dụng hàm thuộc tìm kiếm được để khai phá luật
kết hợp. Hướng nghiên cứu này đã cho phép xây dựng tập các hàm thuộc tốt hơn,
không phải dựa hoàn toàn trên cách nhìn chủ quan của các chuyên gia. Tuy vậy, do
tập các hàm thuộc tương ứng với các tập mờ con dùng để phân chia miền xác định
của thuộc tính có điểm xuất phát ban đầu chưa thực sự tốt nên kết quả thu được qua
giải thuật di truyền chưa thật sự tối ưu (chẳng hạn như độ chồng lấn còn cao, tính
đáng quan tâm, hay ngữ nghĩa của các luật thu được chưa thật sự đáp ứng yêu cầu –
mà ta sẽ thấy qua phân tích các kết quả thử nghiệm về sau).
Để khắc phục một số hạn chế của hướng tiếp cận dựa trên lý tuyết tập mờ,
N.C.Ho và Wechler đã đề xuất hướng tiếp cận tính toán đựa trên ngôn ngữ gọi là

ĐSGT [19, 49]. Với cấu trúc của ĐSGT cho phép ngữ nghĩa tính toán của từ được
định nghĩa dựa trên thứ tự ngữ nghĩa vốn có của các từ của biến, các miền của từ của
các biến thiết lập một cấu trúc dựa trên thứ tự là đủ để giải các bài toán thực tế. Việc
gán ngữ nghĩa tính toán cho các từ của một biến bằng các tập mờ được xem như làm
một ánh xạ. Với phương pháp này, chỉ cần một bộ độ đo tính mờ của các từ của một

13

biến là đủ để xác định các đặc tính định lượng khác nhau như: giá trị định lượng ngữ
nghĩa, các khoảng mờ,… Với các tiếp cận sử dụng ĐSGT cho phép dễ dàng phân
hoạch miền giá trị của các thuộc tính thành các miền mờ dựa vào khoảng tính mờ và
giá trị định lượng ngữ nghĩa của các từ. Từ đó, có dễ dàng xây dựng được các hàm
thuộc đựa trên hoạch đã có. Các hàm thuộc này được xây dựng dựa trên một cấu trúc
ĐSGT vì vậy các hàm thuộc có sự ràng buộc với nhau và gắn với một nhãn ngôn ngữ.
Các phân hoạch dựa trên các miền mờ con theo cách tiếp cận ĐSGT còn là một phân
hoạch mạnh, có nghĩa một giá trị bất kỳ của miền xác định thuộc tính đều có tổng các
độ thuộc vào các hàm thuộc phân chia miền xác định của thuộc tính đó bằng 1. Để
khắc phục nhược điểm của lý thuyết tập mờ, một số giải pháp đã ứng dụng ĐSGT
vào giải quyết bài toán khai phá luật kết hợp mờ [2, 3]. Nguyễn Công Hào và cộng
sự (2012) [2] xem miền trị Dom(A) của thuộc tính mờ là một cấu trúc ĐGST. Với
mỗi x ∈ Dom(A) sẽ tương ứng với mỗi phần tử y trong ĐSGT (sử dụng hàm ngược
trong ĐSGT). Phương pháp này đơn giản nhưng việc ứng mỗi giá trị của Dom(A) với
chỉ một phần tử của ĐSGT có thể gây mất mát thông tin. Nguyễn Nam Tiến và cộng
sự (2012) [3] giải quyết được hạn chế đó bằng cách xác định khoảng cách của x với
giá trị định lượng ngữ nghĩa của hai phần tử gần x nhất về hai phía, còn các phần tử
khác của ĐSGT bằng 0. Như vậy với mỗi giá trị x chúng ta lưu một cặp giá trị thay
vì trong [2] chỉ lưu một giá trị.
Bên cạnh hướng nghiên cứu tìm ra các luật kết hợp có ý nghĩa hơn, các nhà
nghiên cứu cũng đề xuất nhiều giải pháp nhằm tăng tốc độ khai phá luật kết hợp: luật

kết hợp song song, nén dữ liệu nên cây FP-Tree,… Jia-Yu Dai và cộng sự (2008) [18]
đề xuất giải pháp nén CSDL nhị phân, giải pháp là gộp các giao dịch nhị phân tạo
thành giao dịch mới giúp giảm kích thước CSDL giao dịch, Chien-Min Lin (2013)
[5] đề xuất giải pháp nén CSDL giao dịch lên cây FP-tree, Chun-Wei Lin và cộng sự
(2009) [34] đề xuất giải pháp nén CSDL giao dịch mờ lên cây FP-Tree.
Với các hướng nghiên cứu về khai phá luật kết hợp mờ nếu trên, đa phần các
nhà nghiên cứu sử dụng biểu diễn các tập mờ dạng đơn thể hạt. Trong một số năm
gần đây nhiều nhà nghiên cứu đã nghiên cứu và sử dụng các hàm thuộc dạng đa thể
hạt cho các bài toán trong khai phá dữ liệu [37, 66-68, 82, 84].
Đây là một lĩnh vực nghiên cứu ứng dụng rộng lớn. Nội dung nghiên cứu của
luận án có tiếp cận cả hai hướng nghiên cứu (là nghiên cứu giảm thời gian tính toán

14

và tìm hiểu xây dựng các luật có ngữ nghĩa đáng quan tâm của các luật mờ) nhưng
được giới hạn trong các hướng nhỏ:
- Tìm kiếm một phương pháp luận cho phép phát hiện tri thức dạng luật mờ,
như luật kết hợp mờ với thông tin ngôn ngữ (luật dạng ngôn ngữ) từ CSDL số nhằm
phát hiện các quan hệ dữ liệu không dễ tiên lượng, nhưng có ích trong công việc quản
lý, hay các tri thức luật mờ sử dụng trong lập luận,...
- Đề xuất giải pháp nén dữ liệu giao dịch mờ nhằm tăng tốc độ khai phá luật kết
hợp.
Trong luận án sử dụng Đại số gia tử (ĐSGT) thay cho lý thuyết tập mờ để
nghiên cứu một số vấn đề về khai phá luật kết hợp vì những lý do sau:
(i) Luật kết hợp mờ được nghiên cứu còn một số nhược điểm kể cả trong việc
xây dựng thuật toán nhằm tăng tốc độ xử lý cũng như trong bài toán phân hoạch miền
xác định của thuộc tính thành các miền mờ nhằm đưa ra các luật kết hợp có ý nghĩa.
Trong khi đó, ĐSGT dựa trên một cấu trúc toán học rõ ràng hơn, do đó việc xây dựng
tập các hàm thuộc xác định các miền mờ con dùng để phân chia miền xác định trở

nên ít mang tính chủ quan hơn và ngữ nghĩa của luật sẽ trở nên dễ chấp nhận hơn.
(ii) Với biểu diễn dữ liệu khác nhau, ĐSGT cho một cách tiếp cận thống nhất
đơn giản mà có hiệu quả cao trong xử lý.
Để nghiên cứu phát triển phương pháp, thuật toán phát hiện tri thức luật như
vậy cần những nội dung nghiên cứu sau:
- Nghiên cứu các phương pháp biểu thị ngữ nghĩa các khái niệm mờ (các từ
ngôn ngữ mờ) thông qua hàm thuộc (tập mờ) hoặc các phương pháp toán học khác
sao cho nó biểu thị ngữ nghĩa các khái niệm phù hợp nhất. Việc nghiên cứu này đòi
hỏi nghiên cứu nắm vững một cách hệ thống thêm các kiến thức về lý thuyết tập mờ
và ĐSGT, những cơ sở lý thuyết liên quan đến biểu thị ngữ nghĩa của các khái niệm
mờ trong ngôn ngữ tự nhiên.
- Một trong những ứng dụng quan trọng của tri thức luật là nó thiết lập cơ sở tri
thức cho lập luận mờ hay lập luận xấp xỉ. Vì vậy, phương pháp luận phát hiện tri thức
luật cũng gắn với phương pháp lập luận mờ: một hệ tri thức luật mờ là tốt, phù hợp
nếu cơ sở tri thức luật được phát hiện tạo được cơ sở cho lập luận hiệu quả. Vì vậy
các phương pháp lập luận mờ cũng là một nội dung nghiên cứu của đề tài. Nội dung

15

nghiên cứu này bao gồm nghiên cứu các phương pháp lập luận dựa trên lý thuyết tập
mờ kết hợp với phương pháp dựa trên ĐSGT.
- Nghiên cứu các phương pháp khai phá tri thức nói chung và các luật mờ nói
riêng.
- Nghiên cứu các cách biểu diễn dữ liệu khác nhau của thông tin để có thể khai
phá luật kết hợp một cách đa dạng, mang nhiều ý nghĩa. Cụ thể các biểu diễn dữ liệu
đa thể hạt (Multi-granularity Representation of Data) được sử dụng, phù hợp với sự
chú ý ngày càng gia tăng của hướng nghiên cứu này.
Kết quả của luận án:
- Đề xuất phương pháp khai phá luật kết hợp mờ dựa trên tiếp cận sử dụng ĐSGT

và giải pháp nén CSDL giao dịch.
- Đề xuất phương pháp tìm kiếm hàm thuộc cho mỗi thuộc tính định lượng trong
CSDL bằng phương pháp sử dụng lý thuyết ĐSGT và giải thuật GA. Các hàm thuộc
trong phương pháp này được xây dựng dựa trên biểu diễn dữ liệu đơn thể hạt và đa
thể hạt.
Bố cục luận án bao gồm: Phần mở đầu, 3 chương, phần kết luận và tài liệu
tham khảo. Kết quả chính của luận án tập trung ở chương 2, và 3. Cụ thể:
Chương 1: Trình bày những kiến thức cơ sở cần thiết làm nền tảng trong quá
trình nghiên cứu và những đề xuất mới của luận án, Các khái niệm của lý thuyết tập
mờ như: tập mờ, phương pháp xây dựng tập mờ, biến ngôn ngữ, phân hoạch mờ.
Trình bày những nội dung cơ bản của lý thuýet ĐSGT như: khái niệm ĐSGT, ĐSGT
tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ, hàm định lượng ngữ nghĩa. Trình
bày tóm tắt về về bài toán khai phá luật kết hợp và một số khái niệm cơ bản liên quan
đến bài toán khai phá luật kết hợp.
Chương 2: Phát triển thuật toán theo hướng tiếp cận ĐSGT cho bài toán khai
phá luật kết hợp mờ. Thay vì cách tiếp cận như truyền thống là sử dụng lý thuyết tập
mờ, luận án sử ĐSGT để mờ hoá CSDL giao dịch, mỗi một thuộc tính định lượng sẽ
sử dụng một cấu trúc ĐSGT. Để giảm thời gian khai phá luật kết hợp, chương này đề
xuất giải pháp nén CSDL giao dịch mờ nhằm giảm kích thước CSDL. Định nghĩa
quan hệ và khoảng cách giữa các giao dịch được đề xuất, từ đó các giao dịch có
khoảng cách gần nhau sẽ được gộp lại với nhau. Do kích thước CSDL thu được nhỏ
hơn kích thước CSDL ban đầu, giúp cho thời gian khai phá giảm.

16

Chương 3: Việc phân chia miền giá trị của các thuộc tính định lượng có ý
nghĩa quan trọng và ảnh hưởng đến ý nghĩa của các luật kết hợp trong bài toán khai
phá luật kết hợp mờ. Trong chương này, luận án sử dụng lý thuyết ĐSGT, mỗi thuộc
tính định lượng sử dụng một ĐSGT. Dựa vào giá trị định lượng ngữ nghĩa của các

phần tử ĐSGT và khoảng tính mờ để xây dựng các hàm thuộc cho các thuộc tính định
lượng. Chúng ta sử dụng biểu diễn đơn thể hạt và đa thể hạt để xây dựng các hàm
thuộc cho các thuộc tính, các hàm thuộc có dạng hình tam giác. Nhằm mục đích thu
được các luật kết hợp có ý nghĩa, luận án sử dụng giải thuật GA để tìm ra các tham
số của ĐSGT. Với cách tiếp cận này, các luật kết hợp được khai phá sẽ phản ánh
phong phú và đa dạng hơn tri thức ẩn chứa trong kho thông tin được khai phá, từ
những tri thức có tính khái quát cao cho đến những tri thức mang tính riêng biệt, chi
tiết hơn.

17

CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ

1.1. Tập mờ và các phép toán trên tập mờ
Lý thuyết tập mờ được Zadeh thiết lập lần đầu năm 1965 trong [40]. Khái niệm
tập mờ là một mở rộng của lý thuyết tập hợp cổ điển và được dùng trong lôgic mờ.
Trong lý thuyết tập hợp cổ điển, quan hệ thành viên của các phần tử trong một tập
hợp được đánh giá theo kiểu nhị phân theo một điều kiện rõ ràng - một phần tử hoặc
thuộc hoặc không thuộc về tập hợp. Mở rộng ra trong lý thuyết tập mờ, ngữ nghĩa
của mỗi từ mờ được biểu diễn bằng một hàm từ tập vũ trụ U vào đoạn [0, 1] và hàm
đó gọi là tập mờ trên U. Với tập mờ thì bất kỳ phần tử nào trong vũ trụ đều có thể
thuộc về nó với mực độ thuộc được đo bởi một giá trị trong đoạn [0, 1].
1.1.1. Tập mờ (fuzzy set)
Định nghĩa 1.1: [40] Cho U là vũ trụ các đối tượng. Tập mờ A trên U là tập
các cặp có thứ tự (x, μA (x)), với μA (x) là hàm từ U vào [0, 1] gán cho mỗi phần tử x
thuộc U giá trị μA (x) phản ảnh mức độ thuộc của x thuộc vào tập mờ A.
Nếu 𝜇𝐴 (𝑥) = 0 thì ta nói x hoàn toàn không thuộc tập A, ngoài ra nếu 𝜇𝐴 (𝑥) =
1 thì ta nói x thuộc hoàn toàn vào A. Trong Định nghĩa 1.1, hàm 𝜇 còn được gọi là
hàm thuộc (membership function).

Khi xây dựng các hàm thuộc của tập mờ A nào đó, một yêu cầu đặt ra là giá
trị của nó phải biến thiên từ 0 đến 1. Trong các ứng dụng lý thuyết tập mờ ta thường
sử dụng một số dạng hàm thuộc dưới đây cho tập mờ A:
Hàm thuộc dạng tam giác: 𝜇𝐴 (𝑥) = 𝑚𝑎𝑥 (𝑚𝑖𝑛 (

𝑥−𝑎 𝑐−𝑥

,

𝑏−𝑎 𝑐−𝑏

) , 0). Trong đó a, b,

c lần lượt là chân bên trái, đỉnh và chân bên phải của tam giác.
Hàm thuộc dạng hình thang: 𝜇𝐴 (𝑥) = 𝑚𝑎𝑥 (𝑚𝑖𝑛 (

𝑥−𝑎 𝑑−𝑥

,

𝑏−𝑎 𝑑−𝑐

, 1) , 0). Trong đó

a, d lần lượt là đỉnh dưới bên trái, bên phải, b, c lần lượt là đỉnh trên bên trái, bên phải
của hình thang.
Hàm thuộc Gauss: 𝜇𝐴 (𝑥) = 𝑒

−(𝑏−𝑥)2
2𝑐2

. Trong đó c là độ rộng và b là vị trí đỉnh

của hàm.
Trong các dạng hàm thuộc của các tập mờ ở trên, hàm thuộc dạng tam giác
được sử dụng nhiều nhất do nó đơn giản và dễ hiểu với người dùng.

18

Các khái niệm, tính chất, phép toán trong lý thuyết tập kinh điển cũng được
mở rộng cho các tập mờ [1, 35, 41]. Theo đó, các phép toán như t-norm, t-conorm,
negation và phép kép theo,... trong logic mờ được đề xuất, nghiên cứu chi tiết cung
cấp cho các mô hình ứng dụng giải các bài toán thực tế.
1.1.2. Biến ngôn ngữ
Biến ngôn ngữ là một biến có thể gán các từ trong ngôn ngữ cho giá trị của nó.
Các từ được đặc trưng bởi định nghĩa tập mờ trong miền xác định mà ở đó biến được
định nghĩa. Các biến ngôn ngữ cho phép biểu diễn một miền các giá trị số dưới dạng
thuật ngữ miêu tả đơn giản của hệ mờ. Ví dụ: tuổi của con người có thể xem đây là
biến ngôn ngữ có tên gọi TUỔI và nó nhận các giá trị ngôn ngữ như: “già”, “rất già”,
“trung bình”, “trẻ”, ”rất trẻ”,... Tương ứng với mỗi hàm thuộc sẽ được gán một giá
trị ngôn ngữ. Giả sử lấy giới hạn của tuổi thông thường trong khoảng [1, 120] và giả
sử rằng các giá trị ngôn ngữ được sinh ra bởi một tập các luật. Khi đó, một cách hình
thức, chúng ta có định nghĩa của biến ngôn ngữ sau đây:
Định nghĩa 1.2: [13] Biến ngôn ngữ là một bộ gồm năm thành phần (X,T(X),
U, R, M), trong đó X là tên biến, 𝑇(𝑋 ) là tập các giá trị ngôn ngữ của biến X, U là
không gian tham chiếu của biến cơ sở u, mỗi giá trị ngôn ngữ xem như là một biến
mờ trên U kết hợp với biến cơ sở u, R là một qui tắc cú pháp sinh các giá trị ngôn
ngữ cho tập 𝑇(𝑋 ), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong 𝑇(𝑋 ) với
một tập mờ trên U.

Ví dụ 1.1: Từ định nghĩa trên, nếu biến ngôn ngữ X là biến TUỔI, biến cơ sở
của u có miền xác định là 𝑈 = [1,120] tính theo tuổi. Tập các giá trị ngôn ngữ tương
ứng của biến ngôn ngữ là 𝑇(𝑇𝑈Ổ𝐼) = {𝑇𝑟ẻ, 𝑇𝑟𝑢𝑛𝑔 𝑛𝑖ê𝑛, 𝐺𝑖à}. R là một qui tắc để
sinh ra các giá trị này. M là luật gán ngữ nghĩa sao cho mỗi một giá trị ngôn ngữ sẽ
được gán với một tập mờ. Chẳng hạn, đối với giá trị nguyên thuỷ “già”, 𝑀(𝐺𝑖à) =
{(𝑢, 𝜇𝐺𝑖à (𝑢))| 𝑢 ∈ [1,120]}, được gán như sau:
0
𝑢 − 40
𝜇𝐺𝑖à (𝑢) = {
120
1

𝑢 ≤ 40
40 < 𝑢 ≤ 55
55 ≤ 𝑢

19

Hình 1.1: Hàm thuộc cho tập mờ thể hiện tuổi người là: Trẻ, Trung niên, Già
1.1.3. Phân hoạch mờ
Chúng ta có định nghĩa phân hoạch mờ như sau:
Định nghĩa 1.3: [36] Cho m điểm cố định 𝑝1 , 𝑝2 , … , 𝑝𝑚 thuộc tập 𝑈 =
[𝑎, 𝑏] ⊂ 𝑅, 𝑝1 = 𝑎, 𝑝𝑚 = 𝑏 là không gian tham chiếu của biến cơ sở 𝑢 của biến
ngôn ngữ 𝑋. Khi đó một tập 𝑇 gồm m tập mờ 𝐴1 , 𝐴2 , … , 𝐴𝑚 định nghĩa trên 𝑈 (với
hàm thuộc tương ứng là 𝜇𝐴1 , 𝜇𝐴2 ,..., 𝜇𝐴𝑚 ) được gọi là một phân hoạch mờ của 𝑈 nếu
các điều kiện sau thoả mãn, ∀𝑘 = 1, … , 𝑚:
1) 𝜇𝐴𝑘 (𝑝𝑘 ) (𝑝𝑘 thuộc về phần được gọi là lõi của 𝐴𝑘 );
2) Nếu x ∉ [𝑝𝑘−1 , 𝑝𝑘+1 ] thì 𝜇𝐴𝑘 (𝑥) = 0 (trong đó 𝑝0 = 𝑝1 = 𝑎 và 𝑝𝑝+1 =
𝑝𝑝 = 𝑏);

3) 𝜇𝐴𝑘 (𝑥) là liên tục;
4) 𝜇𝐴𝑘 (𝑥) đơn điệu tăng trên [𝑝𝑘−1 , 𝑝𝑘 ];
5) ∀𝑥 ∈ 𝑈, ∃𝑘, sao cho 𝜇𝐴𝑘 (𝑥) > 0;
Nếu phân hoạch mờ thoả mãn thêm điều kiện 6) dưới đây thì được gọi là phân
hoạch mờ mạnh.
6) ∀𝑥𝜖𝑈, ∑𝑚
𝑘=1 𝜇𝐴𝑘 (𝑥 ) = 1;
Nếu phân hoạch mờ thoả mãn thêm điều kiện 7), 8), 9) dưới đây thì được gọi
là phân hoạch đều.
7) Với 𝑘 ≠ 𝑚 thì ℎ𝑘 = 𝑝𝑘+1 − 𝑝𝑘 = hằng số
8) Các tập mờ 𝜇𝐴𝑘 (𝑥) là hàm đối xứng
9) Các tập mờ 𝜇𝐴𝑘 (𝑥) có cùng một dạng hình học
Mỗi phân hoạch mờ theo định nghĩa Định nghĩa 1.3 còn được gọi là một thể
hạt (granularity), một phân hoạch mờ gồm một thể hạt gọi là phân hoạch mờ đơn thể

20

hạt (single granularity), một phân hoạch mờ gồm nhiều thể hạt gọi là phân hoạch mờ
đa thể hạt (multi granularity).

Hình 1.2: Một cấu trúc phân hoạch mờ dạng đơn thể hạt
Để thiết kế các phân hoạch mờ, chúng ta có thể tiếp cận theo hai hướng: lý
thuyết tập mờ và tiếp cận theo lý thuyết ĐSGT [19, 49]. Theo tiếp cận lý thuyết tập
mờ việc thiết kế phân hoạch mờ là đi xác định các tập mờ cho mỗi phân hoạch rồi
gắn cho nó một nhãn ngôn ngữ. Quá trình thiết kế tập mờ không xuất phát từ ngữ
nghĩa của từ ngôn ngữ và không có ràng buộc liên kết giữa nhãn ngôn ngữ và tập mờ.
Theo tiếp cận lý thuyết ĐSGT khắc phục được một số nhước điểm của lý thuyết tập
mờ, việc thiết kế phân hoạch mờ là đi xác định các từ ngôn ngữ và ngữ nghĩa của từ
sử dụng trong phân hoạch.

Hình 1.3: Một cấu trúc phân hoạch mờ dạng đa thể hạt
Quá trình này được thực hiện dựa trên ngữ nghĩa của miền ngôn ngữ và dựa
trên hệ hình thức hóa của ĐSGT. Phương pháp thiết kế phân hoạch sử dụng ĐSGT
phù hợp với cấu trúc vốn có của ngôn ngữ tự nhiên.

21

Hình 1.2 là một cấu trúc phân hoạch mờ dạng đơn thể hạt, Hình 1.3 là một cấu
trúc phân hoạch mờ dạng đa thể hạt.
Thiết kế phân hoạch miền giá trị của các thuộc tính sử dụng biểu diễn dạng đa
thể hạt có ưu điểm là các từ có ngữ nghĩa từ khái quát đến đặc tả. Vì vậy nó phù hợp
với ngữ nghĩa vốn có của từ trong thế thế giới thực hơn.
1.2. Đại số gia tử
Để hiểu ý nghĩa của ĐSGT ta hãy lấy biến số 𝑥𝑁 nhận giá trị số thực trên một
khoảng [a, b], định ý biến tốc độ chẳng hạn. Nó mô phỏng một biến của thế giới thực
𝑥𝑅 (Reality). Con người cũng có thể mô tả biến 𝑥𝑅 bằng một biến ngôn ngữ XL sử
dụng các giá trị ngôn ngữ. Vì miền của biến 𝑥𝑁 , Dom(𝑥𝑁 ) có thứ tự tuyến tính, nên
thực tế ta thấy miền ngôn ngữ của XL, Dom(XL), cũng có thức tự tuyến tính và, dó đó,
nó là một cấu trúc toán học. ĐSGT là một lý thuyết nhằm phát hiện và làm rõ cấu
trúc toán học, cụ thể là cấu trúc đại số của miền ngôn ngữ Dom(XL), trong đó các gia
tử như very, rather,… đóng vai trò là các phép tính một ngôi, chẳng hạn “very fast”,
“very rather slow”,…
1.2.1. Khái niệm Đại số gia tử
Định nghĩa 1.4: [19, 49] Một ĐSGT được ký hiệu là bộ 4 thành phần được ký
hiệu 𝐴𝑋 = (𝑋, 𝐺, 𝐻, ≤) trong đó G là tập các phần tử sinh, H là tập các gia tử (hedge)
còn " ≤ " là quan hệ cảm sinh ngữ nghĩa trên X. Giả thiết trong G có chứa các phần
tử hằng 0, W, 1 với ý nghĩa là phần tử bé nhất, phần tử lớn nhất và phần tử trung hoà
(neutral) trong X. Ta gọi mỗi giá trị ngôn ngữ 𝑥 ∈ 𝑋 là một hạng từ (term) trong

ĐSGT.
Tập H được chia thành hai tập con rời nhau, ký hiệu là H − và H + , trong đó H −
là tập gia tử âm (các gia tử làm giảm ngữ nghĩa của các phần tử sinh). H + là tập các
gia tử dương (các gia tử làm tăng ngữ nghĩa của các phần tử sinh). Không mất tính
tổng quát, ta luôn giả thiết rằng H − = {h−1 < h−2 < ⋯ < h−q } và H+ =
{h1 < h2 < ⋯ < hp }.
Khi tác động gia tử h ∈ H vào phần tử x ∈ X, thì thu được phần tử ký hiệu hx.
Với mỗi x ∈ X, ký hiệu H(x) là tập tất cả các hạng từ u ∈ X được sinh từ ngôn ngữ x
bằng cách áp dụng các gia tử trong H và viết u = hn … h1 x với hn ,..., h1 ∈ H, n ≥ 1.

22

Nếu tập X và H là các tâp sắp xếp thứ tự tuyến tính, khi đó AX = (X, G, H, ≤)
gọi là ĐSGT tuyến tính. Và nếu được trang bị thêm hai gia tử giới hạn là 𝜎 và 𝜙 với
ngữ nghĩa là cận trên đúng bà cận dưới đúng của tập H(x) khi tác động lên x, thì ta
được ĐSGT tuyến tính đầy đủ, ký hiệu AX ∗ = (X, G, H, σ, ϕ, ≤). Lưu ý rằng
hn … h1 u được gọi là một biểu diễn chính tắc của một hạng từ x đối với u nếu
x = hn … h1 u và hi … h1 u ≠ hi−1 … h1 u với i nguyên và i ≤ n. Ta gọi độ dài của một
hạng từ 𝑥 là số gia tử trong biểu diễn chính tắc của nó đối với phần tử sinh cộng thêm
1, kí hiệu l(x).
Ví dụ 1.2: Cho biến ngôn ngữ TRUTH, có G = {0, FALSE, W, TRUE, 1}, H− =
{Possible, Little} và H + = {More, Very}. Khi đó giá trị của các ngôn ngữ được sắp
xếp thứ tự như sau: Very false < More false < false < More true < Verry true.
1.2.2. Một số tính chất của ĐSGT tuyến tính
Định lý 1.1: [19, 49] Cho tập H − và H + là các tập có sắp thứ tự tuyến tính của
ĐSGT 𝐴𝑋 = (X, G, H, ≤). Khi đó ta có các khẳng định sau:
i) Với mỗi 𝑢 ∈ 𝑋 thì 𝐻(𝑢) là tập sắp thứ tự tuyến tính.
ii) Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính thì X

cũng là tập sắp thứ tự tuyến tính. Hơn nữa nếu 𝑢 < 𝑣, và 𝑢, 𝑣 là độc lập với nhau, tức
là 𝑢 ∉ 𝐻 (𝑣 ) và 𝑣 ∉ 𝐻 (𝑢), thì 𝐻 (𝑢) ≤ 𝐻 (𝑣 ).
Định lý dưới đây xem xét sự so sánh của hai hạng từ trong niền ngôn ngữ của
biến X. Trong đó I là gia tử đơn vị, khi tác động lên một hạng từ không sinh ngữ
nghĩa mới.
Định lý 1.2: [19, 49] Cho 𝑥 = ℎ𝑛 … ℎ1 𝑢 và 𝑦 = 𝑘𝑛 … 𝑘1 𝑢 là hai biểu diễn
chính tắc của 𝑥 và 𝑦 đối với 𝑢. Khi đó tồn tại chỉ số 𝑗 ≤ 𝑚𝑖𝑛{ 𝑛, 𝑚 } + 1 sao cho
ℎ𝑗′ = 𝑘𝑗′ với mọi 𝑗 ′ < 𝑗 (ở đây nếu 𝑗 = 𝑚𝑖𝑛{𝑛, 𝑚} thì hoặc ℎ𝑗 = 𝐼), ℎ𝑗 là gia tử đơn
vị 𝐼, với 𝑗 = 𝑛 + 1 ≤ 𝑚 hoặc 𝑘𝑗 = 𝐼 với 𝑗 = 𝑚 + 1 ≤ 𝑛 và
i) 𝑥 < 𝑦 khi và chỉ khi ℎ𝑗 𝑥𝑗 < 𝑘𝑗 𝑥𝑗 , trong đó 𝑥𝑗 = ℎ𝑗−1 ℎ1 𝑢.
ii) 𝑥 = 𝑦 khi và chỉ khi m = n và ℎ𝑗 𝑥𝑗 = 𝑘𝑗 𝑥𝑗
iii) x và y là không so sánh được với nhau khi và chỉ khi ℎ𝑗 𝑥𝑗 và 𝑘𝑗 𝑥𝑗 là không
so sánh được với nhau.

23

1.2.3. Định lượng ngữ nghĩa của giá trị ngôn ngữ
Theo phương pháp tiếp cận tập mờ, các gái trị định lượng của mỗi tập mờ là
giá trị khử mờ của hàm thuộc tương ứng. Vì các giá trị ngôn ngữ có thứ tự theo ngữ
nghĩa của nó nên trong ĐSGT đã thiết lập một hàm định lượng ngữ nghĩa của các từ
với các giá trị nằm trong đoạn [0,1], các gái trị tương ứng với các từ đảm bảo thứ tự
này.
Định nghĩa 1.5: [19, 49] Cho AX = (X, G, H, ≤) là một ĐSGT tuyến tính. Ánh
xạ 𝑣𝔵 : 𝑋 → [0,1] được gọi là một hàm định lượng ngữ nghĩa của AX nếu:
(i) 𝑣𝔵 là ánh ạ 1-1 từ tập X vào đoạn [0,1] và bảo toàn thứ tự trên X, tức là
∀𝑥, 𝑦 ∈ 𝑋, 𝑥 < 𝑦 ⇒ 𝑣𝔵 (𝑥) < 𝑣𝔵 (𝑦) và 𝔳𝔵 (0) = 0, 𝔳𝔵 (1) = 1.
(ii) 𝑣 (𝑋 ) liên tục: trù mật trong [0,1], nghĩa là ∀(𝑎, 𝑏) ≠ ∅ và (𝑎, 𝑏) ⊆ [0,1],
(𝑎, 𝑏) ∩ 𝑣𝔵 (𝑋 ) ≠ ∅.
Điều kiện (𝑖) là bắt buộc tối thiểu đối với bất kỳ phương pháp định lượng nào,

còn điều kiện (𝑖𝑖) đảm bảo tính trù mật của H(G) trong X. Dựa trên những ràng buộc
này, các tác giả trong [25] đã xây dựng một phương pháp định lượng ngữ nghĩa của
các hạng từ trong ĐSGT. Trước hết chúng ta xét định nghĩa về dấu của các hạng từ
sau:
Định nghĩa 1.6: [19, 49] Một hàm dấu 𝑆𝑖𝑔𝑛: 𝑋  {−1,0,1} là một ánh xạ
được định nghĩa đệ qui như sau, trong đó ℎ, ℎ′  𝐻 và 𝑐  {𝒄− , 𝒄+ }:
(1) 𝑆𝑖𝑔𝑛(𝑐 − ) = −1, 𝑆𝑖𝑔𝑛(𝑐 + ) = 1;
(2) 𝑆𝑖𝑔𝑛(ℎ𝑐) = −𝑆𝑖𝑔𝑛(𝑐) nếu h âm đối với c; 𝑆𝑖𝑔𝑛(ℎ𝑐) = 𝑆𝑖𝑔𝑛(𝑐) nếu h
dương đối với c;
(3) 𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = −𝑆𝑖𝑔𝑛(ℎ𝑥), nếu ℎ′ℎ𝑥  ℎ𝑥 và ℎ′ âm đối với ℎ;
𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = 𝑆𝑖𝑔𝑛(ℎ𝑥), nếu ℎ′ℎ𝑥  ℎ𝑥 và ℎ′ dương đối với ℎ;
(4) 𝑆𝑖𝑔𝑛(ℎ′ℎ𝑥) = 0, nếu ℎ′ℎ𝑥 = ℎ𝑥.
Dựa trên hàm dấu này, chúng ta có tiêu chuẩn để so sánh ℎ𝑥 và 𝑥.
Mệnh đề 1.1: [19, 49] Với bất kỳ ℎ và 𝑥, nếu 𝑆𝑖𝑔𝑛(ℎ𝑥) = 1 thì ℎ𝑥 > 𝑥; nếu
𝑆𝑖𝑔𝑛(ℎ𝑥) = -1 thì ℎ𝑥 < 𝑥.
Định nghĩa 1.7: [19, 49] Cho AX là một ĐSGT tuyến tính đầy đủ và 𝑓𝑚 là
một độ đo tính mờ trên X. Ta nói ánh xạ 𝔳𝔵 : 𝑋  [0,1] được cảm sinh bởi độ đo tính
mờ 𝑓𝑚 nếu được định nghĩa bằng đệ qui như sau:

Nghiên cứu phát triển phương pháp khai phá luật kết hợp mờ biểu thị bằng thông tin ngôn ngữ và ứng dụng (Luận án tiến sĩ)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về