Nghiên cứu phát triển phương pháp khai phá luật kết hợp mở biểu thị bằng thông tin ngôn ngữ và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.01 MB, 109 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Nguyễn Tuấn Anh

NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ
LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN
NGỮ VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội – Năm 2020

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Nguyễn Tuấn Anh

NGHIÊN CỨU PHÁT TRIỂN PHƯƠNG PHÁP KHAI PHÁ
LUẬT KẾT HỢP MỜ BIỂU THỊ BẰNG THÔNG TIN NGÔN

NGỮ VÀ ỨNG DỤNG
Chuyên ngành: CƠ SỞ TOÁN HỌC CHO TIN HỌC
Mã sỗ: 62.46.01.10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TSKH. Nguyễn Cát Hồ
2. TS. Trần Thái Sơn

Hà Nội – Năm 2020

1

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết quả
được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả trước khi
đưa vào luận án. Các kết quả trong luận án là trung thực và chưa từng được công bố
trong bất kỳ công trình nào khác.
Tác giả

Nguyễn Tuấn Anh

2

LỜI CẢM ƠN
Luận án được hoàn thành dưới sự hướng dẫn tận tình của PGS. TSKH.
Nguyễn Cát Hồ và TS. Trần Thái Sơn. Lời đầu tiên, tác giả xin bày tỏ lòng kính

trọng và biết ơn sâu sắc nhất tới hai thầy.
Tác giả gửi lời cảm ơn chân thành tới Ban lãnh đạo Học viện Khoa học và
Công nghệ, Viện Công nghệ thông tin, khoa Công nghệ thông tin và truyền thông
đã tạo điều kiện thuận lợi trong quá trình học tập, nghiên cứu và hoàn thành luận án.
Xin cảm ơn Ban giám hiệu trường Đại học Công nghệ thông tin và Truyền
thông - ĐHTN, Ban chủ nhiệm khoa Công nghệ thông tin đã quan tâm giúp đỡ, tạo
điều kiện tốt nhất trong công việc để tác giả có thời gian tập trung nghiên cứu.
Cảm ơn các đồng nghiệp thuộc Khoa Công nghệ thông tin - Trường Đại học
Công nghệ thông tin và Truyền thông – Đại học Thái Nguyên, các anh chị trong
nhóm nghiên cứu đại số gia tử đã động viên, khích lệ trao đổi những kiến thức và
kinh nghiệm trong quá trình hoàn thành luận án.
Cuối cùng, tác giả xin chân thành cảm ơn bố mẹ, chị em, đặc biệt là vợ và
các con, những người luôn dành cho tác giả những tình cảm và chia sẻ những lúc
khó khăn trong cuộc sống, luôn động viên giúp đỡ tác giả trong quá trình nghiên
cứu. Luận án cũng là món quà tinh thần mà tác giả trân trọng gửi tặng đến các thành
viên trong gia đình.

3

MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT.......................................... 5
DANH MỤC HÌNH BẢNG BIỂU ........................................................................... 6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .................................................................. 7
MỞ ĐẦU .................................................................................................................... 9
CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ ...................................................... 17
1.1. Tập mờ và các phép toán trên tập mờ ........................................................ 17
1.1.1. Tập mờ (fuzzy set) ................................................................................... 17
1.1.2. Biến ngôn ngữ .......................................................................................... 18
1.1.3. Phân hoạch mờ ......................................................................................... 19

1.2. Đại số gia tử ................................................................................................... 21
1.2.1. Khái niệm Đại số gia tử ........................................................................... 21
1.2.2. Một số tính chất của ĐSGT tuyến tính .................................................... 22
1.2.3. Định lượng ngữ nghĩa của giá trị ngôn ngữ ............................................. 23
1.2.4. Khoảng mờ .............................................................................................. 24
1.2.5. Độ đo tính mờ của các giá trị ngôn ngữ .................................................. 25
1.3. Giải thuật di truyền ...................................................................................... 27
1.4. Bài toán khai phá luật kết hợp .................................................................... 29
1.4.1. Một số khái niệm cơ bản.......................................................................... 29
1.4.2. Bài toán khai phá luật kết hợp mờ ........................................................... 31
1.5. Một số hướng nghiên cứu về luật kết hợp .................................................. 34
1.6. Kết luận chương 1 ........................................................................................ 37
CHƯƠNG 2. KHAI PHÁ LUẬT KẾT HỢP MỜ THEO HƯỚNG TIẾP CẬN
SỬ DỤNG ĐẠI SỐ GIA TỬ .................................................................................. 38
2.1. Đặt vấn đề ...................................................................................................... 38
2.2. Khai phá luật kết hợp mờ theo hướng tiếp cận ĐSGT ............................. 39
2.2.1. Mờ hóa cơ sở dữ liệu giao dịch ............................................................... 39
2.2.2. Quan hệ khoảng cách giao dịch ............................................................... 41
2.2.3. Xây dựng bảng định lượng ...................................................................... 42
2.3. Nén cơ sở dữ liệu giao dịch .......................................................................... 43
2.4. Thuật toán trích xuất luật kết hợp mờ ....................................................... 46

4

2.5. Kết quả thử nghiệm ...................................................................................... 48
2.5.1. Thử nghiệm với CSDL FAM95............................................................... 48
2.5.2. Thử nghiệm với CSDL STULONG ........................................................ 51
2.6. Kết luận chương 2 ........................................................................................ 54
CHƯƠNG 3. PHÂN HOẠCH MỜ CHO THUỘC TÍNH DỰA TRÊN BIỂU

DIỄN THỂ HẠT CỦA ĐSGT ................................................................................ 56
3.1. Phân hoạch cho miền giá trị của thuộc tính ............................................... 56
3.1.1. Đặt vấn đề ................................................................................................ 56
3.1.2. Rời rạc hóa thuộc tính định lượng ........................................................... 57
3.1.3. Phân chia miền giá trị của thuộc tính theo cách tiếp cận lý thuyết tập mờ
........................................................................................................................... 60
3.2. Phương pháp phân hoạch mờ bằng biểu diễn thể hạt với ĐSGT ............ 63
3.2.1. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đơn thể hạt .......... 64
3.2.2. Phân hoạch giá trị miền thuộc tính sử dụng biểu diễn đa thể hạt ............ 66
3.3. Phương pháp tối ưu tham số mờ ĐSGT cho bài toán khai phá luật kết
hợp ......................................................................................................................... 70
3.3.1. Mô hình giải thuật di truyền CHC ........................................................... 71
3.3.2. Mã hóa tập các MF .................................................................................. 72
3.3.3. Đánh giá nhiễm sắc thể ............................................................................ 73
3.4. Thuật toán tìm kiếm phân hoạch mờ tối ưu và luật kết hợp ................... 75
3.5. Kết quả thử nghiệm ...................................................................................... 77
3.5.1. Cơ sở dữ liệu sử dụng trong thử nghiệm ................................................. 77
3.5.2. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đơn
thể hạt ................................................................................................................. 78
3.5.3. Phân tích và đánh giá kết quả thử nghiệm với biểu diễn dữ liệu dạng đa
thể hạt ................................................................................................................. 93
3.6. Kết luận chương 3 ........................................................................................ 97
KẾT LUẬN VÀ KIẾN NGHỊ ................................................................................ 99
CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN
ÁN ........................................................................................................................... 101
TÀI LIỆU THAM KHẢO .................................................................................... 102

5

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Các ký hiệu
Đại số gia tử tuyến tính
Đại số gia tử tuyến tính đầy đủ
∗

(ℎ)

()

()

()

()

Độ đo tính mờ của gia tử h
Độ đo tính mờ của gia tử x
Hàm định lượng của giá trị ngôn ngữ của biến x
Hàm xác định độ thuộc của giá trị x vào tập mờ A
Độ dài của từ ngôn ngữ x
Khoảng tính mờ của giá trị ngôn ngữ

ℑ

Tập các hạng từ có độ dài đúng bằng k
( )

Tập các hạng từ có độ dài ≤

Các từ viết tắt
AR
DB, CSDL

Luật kết hợp (association rule)
Cơ sở dữ liệu

ĐLNN

Định lượng ngữ nghĩa

ĐSGT

Đại số gia tử

FRBS

Fuzzy Rule-based Systen

GA

Giải thuật di truyền (Genetic Algorithms)

KB

Knowledge Base

MF

Hàm thuộc (Membership function)

RB

Fuzzy-based

SQM
Min Supp

Semantically Quantifying Mapping
Độ hỗ trợ tối thiểu

6

DANH MỤC HÌNH BẢNG BIỂU
Bảng 2.1: Cơ sở dữ liệu ví dụ ................................................................................... 41
Bảng 2.2: Mờ hóa dữ liệu trong Bảng 2.1 ................................................................ 41
Bảng 2.3: Bảng định lượng của cơ sở dữ liệu Bảng 2.2 ........................................... 43
Bảng 2.4: Số lượng luật kết hợp thu được với độ tin cậy 80% ................................. 48
Bảng 2.5: Luật kết hợp thu được với độ hỗ trợ 60% và độ tin cậy 80% .................. 49
Bảng 2.6: Luật kết hợp thu được với độ hỗ trợ 70% và độ tin cậy 80% .................. 49
Bảng 2.7: Số lượng luật kết hợp thu được với độ tin cậy 80% ................................. 51
Bảng 2.8: So sánh thời gian thực hiện khai phá luật kết hợp với độ tin cậy 80% .... 52
Bảng 2.9: Luật kết hợp thu được với độ hỗ trợ 85% và độ tin cậy 80% .................. 52
Bảng 2.10: Luật kết hợp thu được với độ hỗ trợ 90% và độ tin cậy 80% ................ 53
Bảng 3.1: CSDL thống kế dân số của 10 gia đình .................................................... 58
Bảng 3.2: Rời rạc hóa thuộc tính định lượng ............................................................ 58
Bảng 3.3: Ví dụ rời rạc hóa thuộc tính "Tuổi" .......................................................... 59
Bảng 3.4: CSDL thử nghiệm .................................................................................... 77
Bảng 3.5: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với phương

pháp sử dụng biểu diễn đơn thể hạt........................................................................... 78
Bảng 3.6: Kết quả thử nghiệm biểu diễn đơn thể hạt ............................................... 79
Bảng 3.7: Quan hệ giữa độ thú vị trung bình của các luật ........................................ 82
Bảng 3.8: Bảng số lượng tập phổ biến 1-ItemSet ..................................................... 86
Bảng 3.9: Bảng Độ thú vị trung bình ........................................................................ 90
Bảng 3.10: Các tham số mờ của các ĐSGT được tối ưu của 10 thuộc tính với
phương pháp sử dụng biểu diễn đa thể hạt ................................................................ 94
Bảng 3.11: Quan hệ giữa số lượng tập mục và Min supp ......................................... 94
Bảng 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp ..................................... 95

7

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Hàm thuộc cho tập mờ thể hiện tuổi người là: Trẻ, Trung niên, Già ....... 19
Hình 1.2: Một cấu trúc phân hoạch mờ dạng đơn thể hạt ......................................... 20
Hình 1.3: Một cấu trúc phân hoạch mờ dạng đa thể hạt ........................................... 20
Hình 1.4: Khoảng tính mờ của các hạng từ của biến TRUTH ................................. 25
Hình 1.5: Độ đo tính mờ của biến TRUTH .............................................................. 26
Hình 1.6: Lưu đồ giải thuật di truyền ....................................................................... 28
Hình 2.1: Xây dựng phân hoạch mờ dựa trên ĐSGT ............................................... 40
Hình 2.2: Tổng quan về thuật toán nén CSDL giao dịch .......................................... 43
Hình 2.3: Thời gian thực hiện với CSDL nén và CSDL không nén ......................... 50
Hình 2.4: Thời gian thực hiện với CSDL nén ........................................................... 50
Hình 2.5: Thời gian thực hiện với CSDL nén và CSDL không nén ......................... 54
Hình 3.1: Xây dựng phần hoạch miền xác định của thuộc tính theo cách tiếp cận
ĐSGT ........................................................................................................................ 65
Hình 3.2: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đơn thể hạt .... 65
Hình 3.3: Cấu trúc hạt thể nhiều mức ....................................................................... 67
Hình 3.4: Phân hoạch miền giá trị của thuộc tính dựa trên biểu diễn đa thể hạt ...... 69

Hình 3.5: Lược đồ tìm kiếm phân hoạch tối ưu cho miền xác định thuộc tính và khai

phái luật kết hợp ........................................................................................................ 70
Hình 3.6: Mô hình giải thuật di truyền CHC ............................................................ 72
Hình 3.7: Tập các MF cho mục Ij ......................................................................

74

Hình 3.8: Hai tập hàm thuộc phân bố không tốt ................................................

75

Hình 3.9: Quan hệ giữa độ phù hợp (Suit) của các hàm thuộc và Min Supp ........... 80
Hình 3.10: Quan hệ giữa giá trị hàm mục tiêu và Min Supp .................................... 81
Hình 3.11: Quan hệ giữa độ hỗ trợ tập mục 1-ItemSet và Min Supp ....................... 81
Hình 3.12: Quan hệ giữa số lượng 1-ItemSet và Min Supp ..................................... 82
Hình 3.13: Quan hệ giữa độ thú vị trung bình và Min Supp .................................... 83

8

Hình 3.14: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp của
Herrera sử dụng lý thuyết tập mờ .............................................................................. 85
Hình 3.15: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng
biểu diễn đơn thể hạt và ĐSGT ................................................................................. 86
Hình 3.16: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Pollution .... 88
Hình 3.17: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Stulong ...... 88
Hình 3.18: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Basketball .. 89
Hình 3.19: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL Quake ........ 89
Hình 3.20: Quan hệ giữa số lượng 1-ItemSet và Min Supp với CSDL stock .......... 90

Hình 3.21: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Pollution .. 91
Hình 3.22: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stulong .... 92
Hình 3.23: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Basketball 92

Hình 3.24: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Quake ...... 92
Hình 3.25: Quan hệ giữa Độ thú vị trung bình và Min Supp với CSDL Stock ........ 93
Hình 3.26: Quan hệ giữa số lượng tập phố biến và Min Supp ................................. 95
Hình 3.27: So sánh số lượng tập phổ biến và Min Supp .......................................... 95
Hình 3.28: Tập hàm thuộc thu được sau khi thực hiện GA với phương pháp sử dụng
biểu diễn đa thể hạt và ĐSGT ................................................................................... 97

9

MỞ ĐẦU
Cùng với sự phát triển mạnh mẽ của Công nghệ thông tin, đặc biệt là các hệ
thống thông tin quản lý giai đoạn vừa qua, xuất hiện rất nhiều các kho thông tin hay
CSDL lớn hoặc rất lớn. Để khai thác thông tin ẩn trong các kho dữ liệu kích cỡ lớn
như vậy nhằm phục vụ cho các nhu cầu quản lý cũng như cho các hoạt động khoa
học khác nhau (như trí tuệ nhân tạo,..), hướng nghiên cứu khai phá dữ liệu, phát
hiện tri thức đã ra đời thu hút sự quan tâm của các nhà tin học cũng như các chuyên
gia trong nhiều lĩnh vực khác nhau như y tế, giáo dục,… và phát triển mạnh mẽ
trong thời gian gần đây. Vài thí dụ có thể thấy:
- Phát hiện những mối quan hệ dữ liệu, các luật kết hợp trong các kho dữ liệu
lớn như các CSDL, các kho dữ liệu giao dịch bán hàng trong siêu thị, các kho dữ
liệu phản ảnh một phạm vi nào đó của hoạt động kinh tế - xã hội.
- Giải quyết vấn đề trích rút thông tin trong tập dữ liệu lớn dạng các câu tóm
tắt ngôn ngữ (Linguistic summaries).
Bài toán khai thác luật kết hợp (Association rule mining) là hướng nghiên
cứu quan trọng và sớm được nghiên cứu phát triển trong hướng nghiên cứu khai phá

dữ liệu. Giai đoạn đầu, các nghiên cứu trước đây được giới hạn trong phạm vi “bài
toán luật kết hợp cổ điển”, tức là chỉ làm việc với các kho dữ liệu có giá trị nhị phân
(0 và 1), sau đó mở rộng ra dữ liệu nằm trong trường số thực. Trong những năm gần
đây nhiều giải thuật dùng cho những công việc đặc thù đã được phát triển theo
nhiều hướng khác nhau nhưng chủ yếu xoay quanh hai hướng chính:
(i) Cải tiến tốc độ trung bình các thuật toán khai phá luật kết hợp, vì thông
thường đây là bài toán có độ phức tạp hàm mũ do phải quét CSDL nhiều lần.
(ii) Nghiên cứu sâu hơn về ý nghĩa của các luật kết hợp vì ta thấy không phải
luật kết hợp nào khai phá được cũng có ý nghĩa đối vời người sử dụng.
Có rất nhiều thuật toán đã được đề xuất để tìm kiếm luật kết hợp từ CSDL có
thuộc tính định lượng. Dạng khai phá luật kết hợp đầu tiên được đề xuất là luật kết hợp
nhị phân dựa trên dữ liệu basket đã được Agrawal và cộng sự đề xuất [21]. Ở đây
CSDL là một bảng các giao dịch tại một siêu thị trong ngày chẳng hạn với các cột là
các mục (hàng hóa) và các dòng là danh sách người mua. Nếu người A mua hàng ở

10

các mục x, y, z,… thì tại đó, CSDL nhận giá trị 1, còn lại là nhận giá trị 0. Như vậy,
bài toán khai phá dữ liệu ban đầu làm việc với các giá trị nhị phân.
Một luật kết hợp có dạng R: " ế
ℎì ", trong đó X, Y là tập các mục, , ⊆I và X ∩Y = ∅, X được gọi là tiên đề,
Y được gọi là hệ quả của luật. Hai độ do quan trọng và thường được sử dụng trong bài toán khai phá luật kết hợp là: Độ hỗ trợ
(support) và Độ tin cậy (confidence).

Với CSDL nhị phân chỉ quan tâm là một mặt hàng có xuất hiện trong giao
dịch hay không mà không quan tâm đến số lượng mặt hàng trong mỗi giao dịch.
Trong thực tế CSDL thương bao gồm có cả các thuộc tính định lượng, các thuật
toán khai phá luật kết hợp với dữ liệu nhi phân không thể áp dụng với CSDL dạng
này. Để có thể xử lý dữ liệu kiểu này, phương pháp thường được sử dụng là chia

miền giá trị của các thuộc tính định lượng đó thành các khoảng, sau đó chuyển
CSDL thành CSDL mới để có thể áp dụng các thuật toán khai phá luật kết hợp nhị
phân [8]. Luật kết hợp này có dạng: Nếu Tuổi ∈ [1, 25] thì Thu nhập ∈ [2 triệu, 3
triệu]. Với phương pháp rời rạc dữ liệu này đã giải quyết được bài toán chuyển từ
CSDL giao dịch với dữ liệu số về dữ liệu giao dịch nhị phân, tuy nhiên với kết quả
này cũng chưa thỏa mãn các nhà nghiên cứu. Một cách tự nhiên, điều này dẫn đến
việc đề xuất và nghiên cứu các luật kết hợp mờ, ở đó người ta phân chia miền xác
định của thuộc tính bằng các tập mờ.
Trong [29-31, 57], thuật toán khai phá luật kết hợp mờ đã được đề xuất. Luật kết hợp mờ có dạng: “Nếu
X là A Thì Y là B”. “X là A” gọi là tiền (tiên) đề, “Y là B” gọi là kết luận của luật. = { 1, 2, … , }, Y= { 1, 2,
… , } là tập mục là tập con của tập thuộc tính I của CSDL. = { 1 , 2, … , }, B= { 1, 2, … , } là các tập mờ
tương ứng của các thuộc tính X, Y.

Để khai phá luật kết hợp mờ với CSDL có các thuộc tính định lượng, đầu tiên
phải phân hoạch miền giá trị của các thuộc tính thành các miền mờ (mỗi miền mờ gắn
với một nhãn ngôn ngữ). Trong lý thuyết tập mờ, mỗi miền mờ như vậy được coi là
một tập mờ và ứng với một hàm thuộc (Membership Function -MF) nhằm xác định độ
“thuộc” của giá trị biến vào tập mờ đã cho. Hàm thuộc xác định độ thuộc của một đối
tượng vào mỗi tập mờ đã được định nghĩa trước cho các thuộc tính định lượng. Khi đó,
mỗi giá trị của một thuộc tính trong CSDL sẽ ứng với một tập các giá trị của

11

các hàm thuộc ứng với các tập mờ của thuộc tính đó và ta sẽ xử lý tập giá trị độ
thuộc này thay cho xử lý bản thân giá trị đó của CSDL.
Thuật toán khai phá luật kết hợp mờ đề xuất trong [30], thuật toán khai phá
luật kết hợp mờ theo trình tự sau: người sử dụng hoặc chuyên gia phải cung cấp
thuật toán cùng với các tập mờ cho các thuộc tính định lượng và các hàm thuộc. Các
hàm thuộc và tập mờ được cung cấp dựa vào kinh nghiệm của các chuyên gia, có

thể không phù hợp với luật kết hợp mờ của CSDL. Để có được các luật kết hợp chất
lượng, một trong các hướng nghiên cứu đực các tác giả đề xuất là dựa vào CSDL
giao dịch đầu vào trích chọn ra các hàm thuộc.
Trong các nghiên cứu về khai phá tri thức, bài toán phân chia miền xác định
các thuộc tính định lượng của dữ liệu ngày càng nhận được sự quan tâm rộng rãi.
Phân chia miền xác định của thuộc tính là bước khởi đầu quan trọng cho cả một quá
trình xử lý thông tin về sau cho hầu hết các bài toán khai phá tri thức như: khai phá
luật kết hợp, phân loại, nhận dạng, hồi quy [15, 16, 28, 52, 67],...
Trong các năm gần đây, các nhà nghiên cứu đã chú ý đến việc nghiên cứu
xây dựng các tập hàm thuộc như vậy vì thấy rõ tầm ảnh hưởng của công đoạn này
lên công đoạn tiếp theo. Nếu không có một hệ các MF được xây dựng tốt thì cũng
sẽ không thể trích xuất các luật kết hợp tốt được. Nếu ta có một sự phân chia mờ
hợp lý (theo một số tiêu chuẩn xác định), các tri thức khai phá được về sau cũng sẽ
là các tri thức phản ánh đúng đắn hơn các quy luật ẩn trong kho thông tin. Ngược
lại, nếu ban đầu không có sự phân chia mờ hợp lý, tri thức khai phá được có thể sẽ
mang nặng tính chủ quan, áp đặt, không đúng với bản chất sự việc. Đây thật ra là
bài toán không đơn giản dù cho bề ngoài của sự việc không cho thấy rõ điều đó. Bài
toán phức tạp trước hết vì liên quan đến nhận thức mang tính cảm tính của cá nhân,
phụ thuộc nhiều vào ngữ cảnh, chẳng hạn trong miền thuộc tính “khoảng cách” thì
khoảng cách bao nhiêu gọi là “xa”, là “tương đối gần”,... Thứ nữa, việc phân chia
mờ cũng phụ thuộc rất nhiều vào dữ liệu đầu vào mà ta có được. Một số nghiên cứu
có giả thiết về hàm phân bố xác suất của dữ liệu hoặc các giả thiết khác. Tuy nhiên
dữ liệu thì rất đa dạng, các giả thiết không phải lúc nào cũng thỏa mãn và khối
lượng thông tin thì vô cùng lớn, đòi hỏi phải có các phương pháp tin cậy nhưng
không quá phức tạp để có thể xử lý thông tin trong thời gian chấp nhận được.

12

Phương pháp tiếp cận theo lý thuyết tập mờ cho ta một cách xử lý dữ liệu khá

mềm dẻo, nhanh chóng so với các phương pháp xử lý số cổ điển. Tuy vậy, vẫn còn
nhiều vấn đề đặt ra như việc phân chia các miền mờ thế nào cho hợp lý, việc gắn
nhãn ngôn ngữ vào các miền mờ thường dựa vào trực quan của con người, làm sao
xây dựng được các MF nhanh chóng, phù hợp và cách xử lý các MF này thế nào để
giữ được ngữ nghĩa gắn với chúng,... Rất nhiều thuật toán khai phá luật kết hợp mờ
đã được đề xuất [27, 31, 57, 59, 61, 65] với các phương pháp này thường định nghĩa
trước các hàm thuộc, điều này khó trong thực tế và thương mang ý chủ quan của
con người
Một số công bố được các nhà nghiên cứu đề xuất phương pháp tìm kiếm hàm
thuộc và ứng dụng trong bài toán khai phá luật kết hợp từ CSDL có các thuộc tính định
lượng: Tzung-Pei Hong và cộng sự (2004) [83], (2008) [42], (2016) [46], (2018) [60];
Herrera và cộng sự (2009) [53], (2015) [22]; Harikesh Bahadur Yadav và cộng sự
(2015) [14]; Aashna Agarwal và cộng sự (2016) [7]; Hemant Kumar Soni và cộng sự
(2016) [38]; Harihar Kalia và cộng sự (2016)[74]; Umesh Kumar Patel và cộng sự
(2016) [76]; Umit Can và cộng sự (2017) [9], Archana Gupta và cộng sự (2019) [75].
Ý tưởng chính của các phương pháp sử dụng giải thuật GA để tìm kiếm trong CSDL
các hàm thuộc từ CSDL sau đó áp dụng hàm thuộc tìm kiếm được để khai phá luật

kết hợp. Hướng nghiên cứu này đã cho phép xây dựng tập các hàm thuộc tốt hơn,
không phải dựa hoàn toàn trên cách nhìn chủ quan của các chuyên gia. Tuy vậy, do
tập các hàm thuộc tương ứng với các tập mờ con dùng để phân chia miền xác định
của thuộc tính có điểm xuất phát ban đầu chưa thực sự tốt nên kết quả thu được qua
giải thuật di truyền chưa thật sự tối ưu (chẳng hạn như độ chồng lấn còn cao, tính
đáng quan tâm, hay ngữ nghĩa của các luật thu được chưa thật sự đáp ứng yêu cầu –
mà ta sẽ thấy qua phân tích các kết quả thử nghiệm về sau).
Để khắc phục một số hạn chế của hướng tiếp cận dựa trên lý tuyết tập mờ,
N.C.Ho và Wechler đã đề xuất hướng tiếp cận tính toán đựa trên ngôn ngữ gọi là ĐSGT
[19, 49]. Với cấu trúc của ĐSGT cho phép ngữ nghĩa tính toán của từ được định nghĩa
dựa trên thứ tự ngữ nghĩa vốn có của các từ của biến, các miền của từ của các biến thiết
lập một cấu trúc dựa trên thứ tự là đủ để giải các bài toán thực tế. Việc gán ngữ nghĩa

tính toán cho các từ của một biến bằng các tập mờ được xem như làm một ánh xạ. Với
phương pháp này, chỉ cần một bộ độ đo tính mờ của các từ của một

13

biến là đủ để xác định các đặc tính định lượng khác nhau như: giá trị định lượng
ngữ nghĩa, các khoảng mờ,… Với các tiếp cận sử dụng ĐSGT cho phép dễ dàng
phân hoạch miền giá trị của các thuộc tính thành các miền mờ dựa vào khoảng tính
mờ và giá trị định lượng ngữ nghĩa của các từ. Từ đó, có dễ dàng xây dựng được các
hàm thuộc đựa trên hoạch đã có. Các hàm thuộc này được xây dựng dựa trên một
cấu trúc ĐSGT vì vậy các hàm thuộc có sự ràng buộc với nhau và gắn với một nhãn
ngôn ngữ. Các phân hoạch dựa trên các miền mờ con theo cách tiếp cận ĐSGT còn
là một phân hoạch mạnh, có nghĩa một giá trị bất kỳ của miền xác định thuộc tính
đều có tổng các độ thuộc vào các hàm thuộc phân chia miền xác định của thuộc tính
đó bằng 1. Để khắc phục nhược điểm của lý thuyết tập mờ, một số giải pháp đã ứng
dụng ĐSGT vào giải quyết bài toán khai phá luật kết hợp mờ [2, 3]. Nguyễn Công
Hào và cộng sự (2012) [2] xem miền trị Dom(A) của thuộc tính mờ là một cấu trúc
ĐGST. Với mỗi x ∈ Dom(A) sẽ tương ứng với mỗi phần tử y trong ĐSGT (sử
dụng hàm ngược trong ĐSGT). Phương pháp này đơn giản nhưng việc ứng mỗi giá
trị của Dom(A) với chỉ một phần tử của ĐSGT có thể gây mất mát thông tin.
Nguyễn Nam Tiến và cộng sự (2012) [3] giải quyết được hạn chế đó bằng cách xác
định khoảng cách của x với giá trị định lượng ngữ nghĩa của hai phần tử gần x nhất
về hai phía, còn các phần tử khác của ĐSGT bằng 0. Như vậy với mỗi giá trị x
chúng ta lưu một cặp giá trị thay vì trong [2] chỉ lưu một giá trị.
Bên cạnh hướng nghiên cứu tìm ra các luật kết hợp có ý nghĩa hơn, các nhà
nghiên cứu cũng đề xuất nhiều giải pháp nhằm tăng tốc độ khai phá luật kết hợp: luật
kết hợp song song, nén dữ liệu nên cây FP-Tree,… Jia-Yu Dai và cộng sự (2008) [18]
đề xuất giải pháp nén CSDL nhị phân, giải pháp là gộp các giao dịch nhị phân tạo thành
giao dịch mới giúp giảm kích thước CSDL giao dịch, Chien-Min Lin (2013)

[5] đề xuất giải pháp nén CSDL giao dịch lên cây FP-tree, Chun-Wei Lin và cộng sự

(2009) [34] đề xuất giải pháp nén CSDL giao dịch mờ lên cây FP-Tree.
Với các hướng nghiên cứu về khai phá luật kết hợp mờ nếu trên, đa phần các
nhà nghiên cứu sử dụng biểu diễn các tập mờ dạng đơn thể hạt. Trong một số năm
gần đây nhiều nhà nghiên cứu đã nghiên cứu và sử dụng các hàm thuộc dạng đa thể
hạt cho các bài toán trong khai phá dữ liệu [37, 66-68, 82, 84].
Đây là một lĩnh vực nghiên cứu ứng dụng rộng lớn. Nội dung nghiên cứu của
luận án có tiếp cận cả hai hướng nghiên cứu (là nghiên cứu giảm thời gian tính toán

14

và tìm hiểu xây dựng các luật có ngữ nghĩa đáng quan tâm của các luật mờ) nhưng
được giới hạn trong các hướng nhỏ:
- Tìm kiếm một phương pháp luận cho phép phát hiện tri thức dạng luật mờ,
như luật kết hợp mờ với thông tin ngôn ngữ (luật dạng ngôn ngữ) từ CSDL số nhằm
phát hiện các quan hệ dữ liệu không dễ tiên lượng, nhưng có ích trong công việc
quản lý, hay các tri thức luật mờ sử dụng trong lập luận,...
- Đề xuất giải pháp nén dữ liệu giao dịch mờ nhằm tăng tốc độ khai phá luật kết
hợp.
Trong luận án sử dụng Đại số gia tử (ĐSGT) thay cho lý thuyết tập mờ để
nghiên cứu một số vấn đề về khai phá luật kết hợp vì những lý do sau:
(i) Luật kết hợp mờ được nghiên cứu còn một số nhược điểm kể cả trong việc xây
dựng thuật toán nhằm tăng tốc độ xử lý cũng như trong bài toán phân hoạch miền xác
định của thuộc tính thành các miền mờ nhằm đưa ra các luật kết hợp có ý nghĩa. Trong
khi đó, ĐSGT dựa trên một cấu trúc toán học rõ ràng hơn, do đó việc xây dựng tập các
hàm thuộc xác định các miền mờ con dùng để phân chia miền xác định trở nên ít mang
tính chủ quan hơn và ngữ nghĩa của luật sẽ trở nên dễ chấp nhận hơn.

(ii) Với biểu diễn dữ liệu khác nhau, ĐSGT cho một cách tiếp cận thống nhất
đơn giản mà có hiệu quả cao trong xử lý.
Để nghiên cứu phát triển phương pháp, thuật toán phát hiện tri thức luật như
vậy cần những nội dung nghiên cứu sau:
- Nghiên cứu các phương pháp biểu thị ngữ nghĩa các khái niệm mờ (các từ
ngôn ngữ mờ) thông qua hàm thuộc (tập mờ) hoặc các phương pháp toán học khác
sao cho nó biểu thị ngữ nghĩa các khái niệm phù hợp nhất. Việc nghiên cứu này đòi
hỏi nghiên cứu nắm vững một cách hệ thống thêm các kiến thức về lý thuyết tập mờ
và ĐSGT, những cơ sở lý thuyết liên quan đến biểu thị ngữ nghĩa của các khái niệm
mờ trong ngôn ngữ tự nhiên.
- Một trong những ứng dụng quan trọng của tri thức luật là nó thiết lập cơ sở tri
thức cho lập luận mờ hay lập luận xấp xỉ. Vì vậy, phương pháp luận phát hiện tri thức
luật cũng gắn với phương pháp lập luận mờ: một hệ tri thức luật mờ là tốt, phù hợp

nếu cơ sở tri thức luật được phát hiện tạo được cơ sở cho lập luận hiệu quả. Vì vậy
các phương pháp lập luận mờ cũng là một nội dung nghiên cứu của đề tài. Nội dung

15

nghiên cứu này bao gồm nghiên cứu các phương pháp lập luận dựa trên lý thuyết
tập mờ kết hợp với phương pháp dựa trên ĐSGT.
- Nghiên cứu các phương pháp khai phá tri thức nói chung và các luật mờ nói
riêng.
- Nghiên cứu các cách biểu diễn dữ liệu khác nhau của thông tin để có thể khai
phá luật kết hợp một cách đa dạng, mang nhiều ý nghĩa. Cụ thể các biểu diễn dữ liệu đa
thể hạt (Multi-granularity Representation of Data) được sử dụng, phù hợp với sự

chú ý ngày càng gia tăng của hướng nghiên cứu này.
Kết quả của luận án:

- Đề xuất phương pháp khai phá luật kết hợp mờ dựa trên tiếp cận sử dụng ĐSGT

và giải pháp nén CSDL giao dịch.
- Đề xuất phương pháp tìm kiếm hàm thuộc cho mỗi thuộc tính định lượng trong

CSDL bằng phương pháp sử dụng lý thuyết ĐSGT và giải thuật GA. Các hàm thuộc
trong phương pháp này được xây dựng dựa trên biểu diễn dữ liệu đơn thể hạt và đa
thể hạt.
Bố cục luận án bao gồm: Phần mở đầu, 3 chương, phần kết luận và tài liệu
tham khảo. Kết quả chính của luận án tập trung ở chương 2, và 3. Cụ thể:
Chương 1: Trình bày những kiến thức cơ sở cần thiết làm nền tảng trong quá
trình nghiên cứu và những đề xuất mới của luận án, Các khái niệm của lý thuyết tập
mờ như: tập mờ, phương pháp xây dựng tập mờ, biến ngôn ngữ, phân hoạch mờ.
Trình bày những nội dung cơ bản của lý thuýet ĐSGT như: khái niệm ĐSGT, ĐSGT
tuyến tính, ĐSGT tuyến tính đầy đủ, độ đo tính mờ, hàm định lượng ngữ nghĩa.
Trình bày tóm tắt về về bài toán khai phá luật kết hợp và một số khái niệm cơ bản
liên quan đến bài toán khai phá luật kết hợp.
Chương 2: Phát triển thuật toán theo hướng tiếp cận ĐSGT cho bài toán khai
phá luật kết hợp mờ. Thay vì cách tiếp cận như truyền thống là sử dụng lý thuyết tập
mờ, luận án sử ĐSGT để mờ hoá CSDL giao dịch, mỗi một thuộc tính định lượng sẽ
sử dụng một cấu trúc ĐSGT. Để giảm thời gian khai phá luật kết hợp, chương này
đề xuất giải pháp nén CSDL giao dịch mờ nhằm giảm kích thước CSDL. Định nghĩa
quan hệ và khoảng cách giữa các giao dịch được đề xuất, từ đó các giao dịch có
khoảng cách gần nhau sẽ được gộp lại với nhau. Do kích thước CSDL thu được nhỏ
hơn kích thước CSDL ban đầu, giúp cho thời gian khai phá giảm.

16

Chương 3: Việc phân chia miền giá trị của các thuộc tính định lượng có ý

nghĩa quan trọng và ảnh hưởng đến ý nghĩa của các luật kết hợp trong bài toán khai
phá luật kết hợp mờ. Trong chương này, luận án sử dụng lý thuyết ĐSGT, mỗi thuộc
tính định lượng sử dụng một ĐSGT. Dựa vào giá trị định lượng ngữ nghĩa của các
phần tử ĐSGT và khoảng tính mờ để xây dựng các hàm thuộc cho các thuộc tính
định lượng. Chúng ta sử dụng biểu diễn đơn thể hạt và đa thể hạt để xây dựng các
hàm thuộc cho các thuộc tính, các hàm thuộc có dạng hình tam giác. Nhằm mục
đích thu được các luật kết hợp có ý nghĩa, luận án sử dụng giải thuật GA để tìm ra
các tham số của ĐSGT. Với cách tiếp cận này, các luật kết hợp được khai phá sẽ
phản ánh phong phú và đa dạng hơn tri thức ẩn chứa trong kho thông tin được khai
phá, từ những tri thức có tính khái quát cao cho đến những tri thức mang tính riêng
biệt, chi tiết hơn.

17

CHƯƠNG 1. MỘT SỐ KIẾN THỨC CƠ SỞ
1.1. Tập mờ và các phép toán trên tập mờ
Lý thuyết tập mờ được Zadeh thiết lập lần đầu năm 1965 trong [40]. Khái
niệm tập mờ là một mở rộng của lý thuyết tập hợp cổ điển và được dùng trong lôgic
mờ. Trong lý thuyết tập hợp cổ điển, quan hệ thành viên của các phần tử trong một
tập hợp được đánh giá theo kiểu nhị phân theo một điều kiện rõ ràng - một phần tử
hoặc thuộc hoặc không thuộc về tập hợp. Mở rộng ra trong lý thuyết tập mờ, ngữ
nghĩa của mỗi từ mờ được biểu diễn bằng một hàm từ tập vũ trụ U vào đoạn [0, 1]
và hàm đó gọi là tập mờ trên U. Với tập mờ thì bất kỳ phần tử nào trong vũ trụ đều
có thể thuộc về nó với mực độ thuộc được đo bởi một giá trị trong đoạn [0, 1].
1.1.1. Tập mờ (fuzzy set)
Định nghĩa 1.1: [40] Cho U là vũ trụ các đối tượng. Tập mờ A trên U là tập các cặp có thứ tự (x, μA(x)), với μA(x) là hàm từ U vào [0, 1] gán cho mỗi phần tử x thuộc
U giá trị μA(x) phản ảnh mức độ thuộc của x thuộc vào tập mờ A.

Nếu ( ) = 0 thì ta nói x hoàn toàn không thuộc tập A, ngoài ra nếu ( ) = 1 thì ta nói x

thuộc hoàn toàn vào A. Trong Định nghĩa 1.1, hàm còn được gọi là hàm thuộc (membership
function).

Khi xây dựng các hàm thuộc của tập mờ A nào đó, một yêu cầu đặt ra là giá
trị của nó phải biến thiên từ 0 đến 1. Trong các ứng dụng lý thuyết tập mờ ta thường
sử dụng một số dạng hàm thuộc dưới đây cho tập mờ A:
giác.

Hàm thuộc dạng tam giác: ( ) = (

(

−
−

,

−
−

) , 0). Trong đó a, b, c lần lượt là chân bên trái, đỉnh và chân bên phải của tam

−

−

Hàm thuộc dạng hình thang: ( ) = (
( − , − , 1) , 0). Trong đó a, d lần lượt là đỉnh dưới
bên trái, bên phải, b, c lần lượt là đỉnh trên bên trái, bên phải của hình thang.
Hàm thuộc Gauss: ( ) = 2

−( − )2

2

. Trong đó c là độ rộng và b là vị trí đỉnh của hàm.

Trong các dạng hàm thuộc của các tập mờ ở trên, hàm thuộc dạng tam giác
được sử dụng nhiều nhất do nó đơn giản và dễ hiểu với người dùng.

18

Các khái niệm, tính chất, phép toán trong lý thuyết tập kinh điển cũng được
mở rộng cho các tập mờ [1, 35, 41]. Theo đó, các phép toán như t-norm, t-conorm,
negation và phép kép theo,... trong logic mờ được đề xuất, nghiên cứu chi tiết cung
cấp cho các mô hình ứng dụng giải các bài toán thực tế.
1.1.2. Biến ngôn ngữ
Biến ngôn ngữ là một biến có thể gán các từ trong ngôn ngữ cho giá trị của
nó. Các từ được đặc trưng bởi định nghĩa tập mờ trong miền xác định mà ở đó biến
được định nghĩa. Các biến ngôn ngữ cho phép biểu diễn một miền các giá trị số
dưới dạng thuật ngữ miêu tả đơn giản của hệ mờ. Ví dụ: tuổi của con người có thể
xem đây là biến ngôn ngữ có tên gọi TUỔI và nó nhận các giá trị ngôn ngữ như:
“già”, “rất già”, “trung bình”, “trẻ”, ”rất trẻ”,... Tương ứng với mỗi hàm thuộc sẽ
được gán một giá trị ngôn ngữ. Giả sử lấy giới hạn của tuổi thông thường trong
khoảng [1, 120] và giả sử rằng các giá trị ngôn ngữ được sinh ra bởi một tập các
luật. Khi đó, một cách hình thức, chúng ta có định nghĩa của biến ngôn ngữ sau đây:
Định nghĩa 1.2: [13] Biến ngôn ngữ là một bộ gồm năm thành phần (X,T(X), U, R, M), trong
đó X là tên biến, ( ) là tập các giá trị ngôn ngữ của biến X, U là không gian tham chiếu của biến cơ sở u,
mỗi giá trị ngôn ngữ xem như là một biến mờ trên U kết hợp với biến cơ sở u, R là một qui tắc cú pháp

sinh các giá trị ngôn ngữ cho tập ( ), M là qui tắc ngữ nghĩa gán mỗi giá trị ngôn ngữ trong ( ) với một
tập mờ trên U.
Ví dụ 1.1: Từ định nghĩa trên, nếu biến ngôn ngữ X là biến TUỔI, biến cơ sở của u có miền xác định là =
[1,120] tính theo tuổi. Tập các giá trị ngôn ngữ tương ứng của biến ngôn ngữ là ( Ổ ) = { ẻ, ê , à}. R là một qui
tắc để sinh ra các giá trị này. M là luật gán ngữ nghĩa sao cho mỗi một giá trị ngôn ngữ sẽ được gán với một tập mờ.
Chẳng hạn, đối với giá trị nguyên thuỷ “già”, ( à) = {( , à( ))| ∈ [1,120]}, được gán như sau:
0

≤ 40

− 40
à(

40< ≤55

)={
120

1

55 ≤

19

Hình 1.1: Hàm thuộc cho tập mờ thể hiện tuổi người là: Trẻ, Trung niên, Già
1.1.3. Phân hoạch mờ
Chúng ta có định nghĩa phân hoạch mờ như sau:
Định nghĩa 1.3: [36] Cho m điểm cố định 1, 2, … , thuộc tập = [ , ] ⊂ , 1 = , = là không gian tham chiếu của biến cơ sở của
biến ngôn ngữ . Khi đó một tập gồm m tập mờ 1, 2, … , định nghĩa trên (với hàm thuộc tương ứng là 1, 2,..., ) được gọi là một phân hoạch mờ

của nếu các điều kiện sau thoả mãn, ∀ = 1, … , :
1)

2)

( ) ( thuộc về phần được gọi là lõi của

);

Nếu x ∉ [ −1, +1] thì( ) = 0 (trong đó 0 = 1 = và

3)

( ) là liên tục;

4)
5)

( ) đơn điệu tăng trên [
∀ ∈ , ∃ , sao cho

−1,

+1

= = );

];

( ) > 0;

Nếu phân hoạch mờ thoả mãn thêm điều kiện 6) dưới đây thì được gọi là
phân hoạch mờ mạnh.
6)

∀

, ∑ =1

( ) = 1;

Nếu phân hoạch mờ thoả mãn thêm điều kiện 7), 8), 9) dưới đây thì được gọi
là phân hoạch đều.
7)
8)

9)

Với ≠thì

ℎ=

+1

− = hằng số

Các tập mờ
Các tập mờ

( ) là hàm đối xứng

( ) có cùng một dạng hình học

Mỗi phân hoạch mờ theo định nghĩa Định nghĩa 1.3 còn được gọi là một thể hạt
(granularity), một phân hoạch mờ gồm một thể hạt gọi là phân hoạch mờ đơn thể

20

hạt (single granularity), một phân hoạch mờ gồm nhiều thể hạt gọi là phân hoạch
mờ đa thể hạt (multi granularity).

Hình 1.2: Một cấu trúc phân hoạch mờ dạng đơn thể hạt
Để thiết kế các phân hoạch mờ, chúng ta có thể tiếp cận theo hai hướng: lý
thuyết tập mờ và tiếp cận theo lý thuyết ĐSGT [19, 49]. Theo tiếp cận lý thuyết tập
mờ việc thiết kế phân hoạch mờ là đi xác định các tập mờ cho mỗi phân hoạch rồi
gắn cho nó một nhãn ngôn ngữ. Quá trình thiết kế tập mờ không xuất phát từ ngữ
nghĩa của từ ngôn ngữ và không có ràng buộc liên kết giữa nhãn ngôn ngữ và tập
mờ. Theo tiếp cận lý thuyết ĐSGT khắc phục được một số nhước điểm của lý thuyết
tập mờ, việc thiết kế phân hoạch mờ là đi xác định các từ ngôn ngữ và ngữ nghĩa
của từ sử dụng trong phân hoạch.

Hình 1.3: Một cấu trúc phân hoạch mờ dạng đa thể hạt
Quá trình này được thực hiện dựa trên ngữ nghĩa của miền ngôn ngữ và dựa
trên hệ hình thức hóa của ĐSGT. Phương pháp thiết kế phân hoạch sử dụng ĐSGT
phù hợp với cấu trúc vốn có của ngôn ngữ tự nhiên.

21

Hình 1.2 là một cấu trúc phân hoạch mờ dạng đơn thể hạt, Hình 1.3 là một
cấu trúc phân hoạch mờ dạng đa thể hạt.
Thiết kế phân hoạch miền giá trị của các thuộc tính sử dụng biểu diễn dạng
đa thể hạt có ưu điểm là các từ có ngữ nghĩa từ khái quát đến đặc tả. Vì vậy nó phù
hợp với ngữ nghĩa vốn có của từ trong thế thế giới thực hơn.
1.2. Đại số gia tử
Để hiểu ý nghĩa của ĐSGT ta hãy lấy biến số nhận giá trị số thực trên một
khoảng [a, b], định ý biến tốc độ chẳng hạn. Nó mô phỏng một biến của thế giới
thực (Reality). Con người cũng có thể mô tả biến bằng một biến ngôn ngữ XL sử
dụng các giá trị ngôn ngữ. Vì miền của biến , Dom( ) có thứ tự tuyến tính, nên thực
tế ta thấy miền ngôn ngữ của XL, Dom(XL), cũng có thức tự tuyến tính và, dó đó, nó
là một cấu trúc toán học. ĐSGT là một lý thuyết nhằm phát hiện và làm rõ cấu trúc
toán học, cụ thể là cấu trúc đại số của miền ngôn ngữ Dom(XL), trong đó các gia tử
như very, rather,… đóng vai trò là các phép tính một ngôi, chẳng hạn “very fast”,
“very rather slow”,…
1.2.1. Khái niệm Đại số gia tử
Định nghĩa 1.4: [19, 49] Một ĐSGT được ký hiệu là bộ 4 thành phần được ký hiệu = ( , , , ≤) trong
đó G là tập các phần tử sinh, H là tập các gia tử (hedge) còn " ≤ " là quan hệ cảm sinh ngữ nghĩa trên X. Giả thiết
trong G có chứa các phần tử hằng 0, W, 1 với ý nghĩa là phần tử bé nhất, phần tử lớn nhất và phần tử trung hoà
(neutral) trong X. Ta gọi mỗi giá trị ngôn ngữ ∈ là một hạng từ (term) trong ĐSGT.
Tập H được chia thành hai tập con rời nhau, ký hiệu là H− và H+, trong đó H− là tập gia tử âm (các gia tử làm giảm ngữ nghĩa của các phần tử
sinh). H+ là tập các gia tử dương (các gia tử làm tăng ngữ nghĩa của các phần tử sinh). Không mất tính tổng quát, ta luôn giả thiết rằng H− = {h−1 < h−2
< ⋯ < h−q} và H+ = {h1 < h2 < ⋯ < hp}.
Khi tác động gia tử h ∈ H vào phần tử x ∈ X, thì thu được phần tử ký hiệu hx. Với mỗi x ∈ X, ký hiệu H(x) là tập tất cả các hạng từ u ∈ X được sinh
từ ngôn ngữ x bằng cách áp dụng các gia tử trong H và viết u = hn … h1x với hn,..., h1 ∈ H, n ≥ 1.

22
Nếu tập X và H là các tâp sắp xếp thứ tự tuyến tính, khi đó AX = (X, G, H, ≤) gọi là ĐSGT tuyến tính. Và nếu được trang bị thêm
hai gia tử giới hạn là và với ngữ nghĩa là cận trên đúng bà cận dưới đúng của tập H(x) khi tác động lên x, thì ta được ĐSGT tuyến tính đầy đủ, ký

∗
hiệu AX = (X, G, H, σ, ϕ, ≤). Lưu ý rằng hn … h1u được gọi là một biểu diễn chính tắc của một hạng từ x đối với u nếu
x = hn … h1u và hi … h1u ≠ hi−1 … h1u với i nguyên và i ≤ n. Ta gọi độ dài của một hạng từ là số gia tử trong biểu diễn chính tắc của nó đối với phần tử sinh
cộng thêm 1, kí hiệu l(x).
Ví dụ 1.2: Cho biến ngôn ngữ TRUTH, có G = {0, FALSE, W, TRUE, 1}, H− = {Possible, Little} và H+ = {More, Very}. Khi đó giá trị của các ngôn ngữ
được sắp xếp thứ tự như sau: Very false < More false < false
< More true < Verry true.
1.2.2. Một số tính chất của ĐSGT tuyến tính
i)

ii)

Định lý 1.1: [19, 49] Cho tập H− và H+ là các tập có sắp thứ tự tuyến tính của ĐSGT = (X, G, H, ≤). Khi đó ta có các khẳng định sau:
Với mỗi ∈ thì ( ) là tập sắp thứ tự tuyến tính.

Nếu X được sinh từ G bởi các gia tử và G là tập sắp thứ tự tuyến tính thì X

cũng là tập sắp thứ tự tuyến tính. Hơn nữa nếu < , và , là độc lập với nhau, tức là ∉ ( ) và ∉ ( ), thì ( ) ≤ ( ).

Định lý dưới đây xem xét sự so sánh của hai hạng từ trong niền ngôn ngữ
của biến X. Trong đó I là gia tử đơn vị, khi tác động lên một hạng từ không sinh
ngữ nghĩa mới.
Định lý 1.2: [19, 49] Cho = ℎ … ℎ1 và = … 1 là hai biểu diễn chính tắc của và đối với . Khi đó tồn tại chỉ số ≤ { , } +
1 sao cho ℎ ′ = ′ với mọi ′ < (ở đây nếu = { , } thì hoặc ℎ = ), ℎ là gia tử đơn vị , với = + 1 ≤ hoặc = với = + 1 ≤ và
i)
ii)

iii)

< khi và chỉ khi ℎ < , trong đó
= khi và chỉ khi m = n và ℎ =

=ℎ

−1ℎ1

.

x và y là không so sánh được với nhau khi và chỉ khi ℎvà là không so sánh
được với nhau.

23

1.2.3. Định lượng ngữ nghĩa của giá trị ngôn ngữ
Theo phương pháp tiếp cận tập mờ, các gái trị định lượng của mỗi tập mờ là
giá trị khử mờ của hàm thuộc tương ứng. Vì các giá trị ngôn ngữ có thứ tự theo ngữ
nghĩa của nó nên trong ĐSGT đã thiết lập một hàm định lượng ngữ nghĩa của các từ
với các giá trị nằm trong đoạn [0,1], các gái trị tương ứng với các từ đảm bảo thứ tự
này.
Định nghĩa 1.5: [19, 49] Cho AX = (X, G, H, ≤) là một ĐSGT tuyến tính. Ánh

xạ

→ [0,1] được gọi là một hàm định lượng ngữ nghĩa của AX nếu:

:

(i) là ánh ạ 1-1 từ tập X vào đoạn [0,1] và bảo toàn thứ tự trên X, tức là

∀ , ∈ , < ⇒ ( ) < ( ) và (0) = 0, (1) = 1.

(ii)

( , )∩

( ) liên tục: trù mật trong [0,1], nghĩa là ∀( , ) ≠ ∅ và ( , ) ⊆ [0,1],
( ) ≠ ∅.

Điều kiện ( ) là bắt buộc tối thiểu đối với bất kỳ phương pháp định lượng nào, còn điều kiện ( ) đảm
bảo tính trù mật của H(G) trong X. Dựa trên những ràng buộc này, các tác giả trong [25] đã xây dựng một phương
pháp định lượng ngữ nghĩa của các hạng từ trong ĐSGT. Trước hết chúng ta xét định nghĩa về dấu của các hạng từ
sau:
− +

, }:

Định nghĩa 1.6: [19, 49] Một hàm dấu
(1)
(2)
(3)

(ℎ′ℎ ) =

(4)

(

−

) = −1,

(

+

) = 1;

(ℎ ) = −

(ℎ′ℎ ) = −

:  {−1,0,1} là một ánh xạ được định nghĩa đệ qui như sau, trong đó ℎ, ℎ′  và  {

( ) nếu h âm đối với c;

(ℎ ), nếu ℎ′ℎ  ℎ và ℎ′ âm đối với ℎ;

(ℎ ) =

( ) nếu h dương đối với c;

(ℎ ), nếu ℎ′ℎ  ℎ và ℎ′ dương đối với ℎ;
(ℎ′ℎ ) = 0, nếu ℎ′ℎ = ℎ .

.

Dựa trên hàm dấu này, chúng ta có tiêu chuẩn để so sánh ℎ và

Mệnh đề 1.1: [19, 49] Với bất kỳ ℎ và , nếu

(ℎ ) = 1 thì ℎ > ; nếu

(ℎ ) = -1 thì ℎ < .

Định nghĩa 1.7: [19, 49] Cho AX là một ĐSGT tuyến tính đầy đủ và là một độ đo tính mờ trên
X. Ta nói ánh xạ :  [0,1] được cảm sinh bởi độ đo tính mờ nếu được định nghĩa bằng đệ qui như sau:

Nghiên cứu phát triển phương pháp khai phá luật kết hợp mở biểu thị bằng thông tin ngôn ngữ và ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về