Tải bản đầy đủ (.docx) (149 trang)

Tóm tắt dữ liệu bằng ngôn ngữ theo cách tiếp cận Đại số gia tử

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.14 MB, 149 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CƠNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ
-----------------------------

TĨM TẮT DỮ LIỆU BẰNG NGÔN NGỮ
THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH

Hà Nội – 2022
BỘ GIÁO DỤC
VÀ ĐÀO TẠO


VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM
HỌC VIỆN KHOA HỌC VÀ CƠNG NGHỆ
-----------------------------

TĨM TẮT DỮ LIỆU BẰNG NGƠN NGỮ
THEO CÁCH TIẾP CẬN ĐẠI SỐ GIA TỬ

LUẬN ÁN TIẾN SĨ NGÀNH MÁY TÍNH
Chun ngành: Khoa học máy tính
Mã số: 9 48 01 01

NGƯỜI HƯỚNG DẪN KHOA HỌC:



Hà Nội – 2022


LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi Các kết
quả được viết chung với các tác giả khác đều được sự đồng ý của các đồng tác
giả trước khi đưa vào luận án Các kết quả nêu trong luận án là trung thực và
chưa từng được cơng bố trong các cơng trình nào khác
Luận án được hồn thành trong thời gian tơi làm Nghiên cứu sinh tại
Học viện Khoa học và Công nghệ, Viện Hàn lâm Khoa học và Công nghệ
Việt Nam
Tác giả

NCS


LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn sâu sắc tới tập thể hướng dẫn là
PGS TSKH Trong q trình nghiên cứu và
hồn thành luận án, tác giả đã nhận được sự chỉ dẫn tận tình, các định hướng khoa
học, những kinh nghiệm quý báu trong nghiên cứu từ hai thầy cô Đặc biệt, thầy cô
luôn quan tâm, khuyến khích, động viên tác giả vượt qua các giai đoạn khó khăn để
hồn thành luận án
Tác giả xin gửi lời cảm ơn chân thành tới các thầy cô, các phịng ban trong
Học viện Khoa học và Cơng nghệ, Viện Hàn lâm Khoa học Việt Nam đã tạo điều
kiện thuận lợi cho tác giả trong suốt quá trình nghiên cứu và thực hiện bảo vệ luận
án Tác giả xin gửi lời cảm ơn tới các thầy cô và anh chị trong nhóm nghiên cứu Đại
số gia tử và ứng dụng đã ln chia sẻ, động viên và đưa ra góp ý quý báu đối với
vấn đề nghiên cứu của tác giả

Tác giả cũng xin gửi lời cảm ơn chân thành tới Ban giám hiệu trường Đại
học Sư phạm Hà Nội, Ban chủ nhiệm khoa và cán bộ, giảng viên tại khoa Công
nghệ thông tin, trường Đại học Sư phạm Hà Nội đã tạo điều kiện, giúp đỡ, động
viên trong suốt q trình học tập, nghiên cứu và hồn thiện bảo vệ luận án
Tác giả xin gửi lời cảm ơn và lòng biết ơn sâu sắc tới các thành viên trong
đại gia đình đã ln hỗ trợ, tạo điều kiện, động viên để tác giả có thời gian, tâm lý
tốt nhất để thực hiện các nhiệm vụ trong nghiên cứu

Tác giả

NCS


1
MỤC LỤC
DANH MỤC CÁC BẢNG

5

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

6

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

8

MỞ ĐẦU

10


CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ

20

1 1 Một số kiến thức cơ bản về tập mờ

20

1 1 1 Định nghĩa tập mờ

20

1 1 2 Biến ngôn ngữ

21

1 1 3 Phân hoạch mờ

22

1 2 Khung nhận thức dựa trên lý thuyết tập mờ

23

1 2 1 Định nghĩa khung nhận thức

23

1 2 2 Các ràng buộc về tính giải nghĩa được


24

1 3 Tổng quan về trích rút tóm tắt bằng ngơn ngữ dựa trên lý thuyết tập mờ 26
1 3 1 Bài tốn trích rút tóm tắt bằng ngơn ngữ là một nhánh trong lĩnh vực
khai phá dữ liệu

26

1 3 2 Dạng câu tóm tắt có từ lượng hóa ngơn ngữ và ứng dụng

29

1 3 3 Trích rút tóm tắt từ cơ sở dữ liệu

36

1 4 Trích rút tập câu tóm tắt tối ưu từ cơ sở dữ liệu

38

1 4 1 Giải thuật di truyền giải bài tốn trích rút tập tóm tắt

39

1 4 2 Các yếu tố trong mơ hình giải thuật di truyền trích rút tập câu tóm tắt
40
1 5 Lý thuyết đại số gia tử

41


1 5 1 Cấu trúc đại số cho miền giá trị của biến ngôn ngữ

42

1 5 2 Đại số gia tử mở rộng mơ hình lõi ngữ nghĩa của hạng từ

48

1 6 Kết luận chương 1

55


2
CHƯƠNG 2 VẤN ĐỀ NỘI DUNG THƠNG TIN CÂU TĨM TẮT VÀ BIỂU
DIỄN TẬP MỜ CỦA MIỀN NGÔN NGỮ THUỘC TÍNH

56

2 1 Vai trị của khung nhận thức trong bài tốn trích rút tóm tắt bằng ngơn ngữ
dựa trên lý thuyết tập mờ

56

2 2 Vấn đề nội dung thông tin của các câu tóm tắt bằng ngơn ngữ

59

2 3 Khung nhận thức ngôn ngữ trong lý thuyết đại số gia tử


62

2 4 Cấu trúc đa ngữ nghĩa và tính mở rộng được của LFoC

64

2 4 1 Cấu trúc đa ngữ nghĩa trong LFoC

65

2 4 2 Mơ hình bụi biểu diễn cấu trúc đa ngữ nghĩa của LFoC

66

2 4 3 Tính mở rộng được của LFoC

68

2 5 Xây dựng cấu trúc ngữ nghĩa tính tốn giải nghĩa được của LFoC

70

2 5 1 Thủ tục xây dựng ngữ nghĩa tính tốn cho LFoC

70

2 5 2 Tính giải nghĩa được của ngữ nghĩa tính tốn với cấu trúc đa thể

76


2 6 Kết luận chương 2

82

CHƯƠNG 3 PHƯƠNG PHÁP TRÍCH RÚT CÂU TĨM TẮT NGÔN NGỮ DỰA
TRÊN ĐẠI SỐ GIA TỬ

84

3 1 Cú pháp câu tóm tắt trong ngơn ngữ tự nhiên

84

3 2 Phương pháp trích rút câu tóm tắt dựa trên lý thuyết Đại số gia tử

85

3 2 1 Các thành phần chính trong phương pháp đề xuất

86

3 2 2 Tính mở rộng được của phương pháp đề xuất

89

3 3 Thực nghiệm

90


3 3 1 Đánh giá thơng tin của câu tóm tắt

90

3 3 2 Mục tiêu thực hiện thí nghiệm

91

3 3 3 Cơ sở dữ liệu, cú pháp và ngữ nghĩa của các thuộc tính

93

3 3 4 Thí nghiệm 1: Ưu điểm của LFoC có số lượng từ lớn và tính mở rộng
được

95


3
3 3 5 Thí nghiệm 2: Khả năng mở rộng tập tri thức trích rút từ cơ sở dữ liệu
98
3 3 6 Thí nghiệm 3: Trích rút phân phối ngơn ngữ cho các nhóm mờ
3 4 Kết luận chương 3

103
107

CHƯƠNG 4 TRÍCH RÚT TẬP CÂU TĨM TẮT TỐI ƯU SỬ DỤNG GIẢI
THUẬT DI TRUYỀN KẾT HỢP CHIẾN LƯỢC THAM LAM


109

4 1 Mối liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt có từ lượng hóa 109
4 1 1 Liên hệ giữa luật kết hợp ngôn ngữ và câu tóm tắt bằng ngơn ngữ

110

4 1 2 Từ thuật tốn khai phá luật kết hợp đến thuật tốn trích rút tóm tắt 111
4 2 Bài tốn trích rút tập con câu tóm tắt tối ưu

113

4 3 Giải thuật di truyền trích rút tập câu tóm tắt tối ưu

115

4 3 1 Hàm đánh giá độ thích nghi

115

4 3 2 Các phép tốn trong mơ hình giải thuật di truyền lai Hybrid-GA

117

4 3 3 Một số hạn chế trong mơ hình giải thuật di truyền lai Hybrid-GA và
định hướng khắc phục
4 4 Đề xuất thủ tục sinh câu tóm tắt tốt dựa trên chiến lược tham lam

118
119


4 4 1 Ý tưởng trích rút câu tóm tắt tốt và làm tăng độ đa dạng tập câu tóm tắt
120
4 4 2 Ý tưởng sinh câu tóm tắt tốt dựa trên đánh giá lực lượng của nhóm mờ
121
4 5 Đề xuất mơ hình giải thuật di truyền kết hợp chiến lược tham lam trích rút
tập câu tóm tắt tối ưu

124

4 5 1 Mã hóa các đối tượng

124

4 5 2 Hàm đánh giá độ thích nghi

124

4 5 3 Mơ hình giải thuật di truyền Greedy-GA

125

4 6 Thực nghiệm
4 6 1 Cơ sở dữ liệu và dạng câu tóm tắt

127
128


4

4 6 2 Khung nhận thức ngôn ngữ của các thuộc tính và từ lượng hóa Q 128
4 6 3 Tham số của giải thuật di truyền

129

4 6 4 Kết quả thực nghiệm

129

4 7 Kết luận chương 4

131

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

133

DANH MỤC CƠNG TRÌNH CỦA TÁC GIẢ

136

TÀI LIỆU THAM KHẢO

137


5

DANH MỤC CÁC BẢNG
Bảng 1 1: Dữ liệu ví dụ về 10 cơng việc


32

Bảng 1 2: Tính độ thuộc của từng mức lương vào các tập mờ tương ứng từ
ngôn ngữ trong Dom(LƯƠNG)

32

Bảng 1 3: Phân loại các mức tổng quát cấu trúc câu tóm tắt

37

Bảng 1 4: Quan hệ dấu giữa một gia tử trên dòng với gia tử trên cột

44

Bảng 3 1: Các câu tóm tắt trích rút từ cơ sở dữ liệu, điều kiện lọc là “o(JOB)
IS ‘technician’ AND o(Y) IS ‘yes’”, có 730 bản ghi thỏa điều kiện lọc

97

Bảng 3 2: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng
hóa Q có tính riêng mức 3 ℱ Q,(3)

105

Bảng 3 3: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘yes’ với tập từ lượng
hóa Q có tính riêng mức 4 ℱ Q,(4)


105

Bảng 3 4: Phân phối ngôn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng
hóa Q có tính riêng mức 3 ℱ Q,(3)

106

Bảng 3 5: Phân phối ngơn ngữ của nhóm mờ xác định bởi điều kiện “(JOB IS
‘student’) AND (AGE IS x)” đối với thuộc tính CCI và Y = ‘no’ với tập từ lượng
hóa Q có tính riêng mức 4 ℱ Q,(4)
Bảng 4 1: Thống kê số lượng câu tóm tắt theo số thuộc tính trong câu

106
114

Bảng 4 2: Kết quả trung bình 10 lần chạy mơ hình Greedy-GA và kết quả
thực nghiệm mơ hình Hybrid-GA trong [38]

131


6

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1 1: Ba kiểu tập mờ phổ biến

21


Hình 1 2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của
biến LƯƠNG trong miền tham chiếu [0, 10] (đơn vị: triệu đồng)

21

Hình 1 3 Ví dụ về phân hoạch mờ: (a) dạng đơn thể hạt; (b) dạng đa thể hạt
23
Hình 1 4: Ví dụ về các tập mờ trên miền tham chiếu số

24

Hình 1 5: Khung nhận thức ngơn ngữ gồm 3 tập mờ và gán nhãn ngữ nghĩa
không đúng về thứ tự ngữ nghĩa

25

Hình 1 6: Hai ví dụ về khung nhận thức được thiết kế có tính giải nghĩa tốt 25
Hình 1 7: Quá trình khai phá tri thức từ cơ sở dữ liệu

26

Hình 1 8: Mờ hóa miền tham chiếu của khoảng cách, lương/tháng và đoạn
[0,1] của từ lượng hóa tương đối

32

Hình 1 9: Các khoảng tính mờ của các hạng từ trong X(2) với tập gia tử H =
{L, V}

46

Hình 1 10: Các tập mờ tam giác xây dựng từ giá trị định lượng ngữ nghĩa 48
Hình 1 11: Cấu trúc ngữ nghĩa của các hạng từ sinh ra từ hạng từ ‘old’

49

Hình 1 12: Các khoảng tính mờ của hạng từ trong Xen,(3) sinh ra từ c+

52

Hình 1 13: Các tập mờ hình thang cho các hạng từ trong X(2)

55

Hình 2 1: Vấn đề chuyển đổi cấu trúc của miền hạng từ ngôn ngữ thành một
cấu trúc tính tốn phù hợp

60

Hình 2 2: Một phần cấu trúc bụi biểu diễn hai quan hệ ngữ nghĩa vốn của
trong LFoC: quan hệ thứ tự và quan hệ tính chung – riêng

67

Hình 2 3: Ngữ nghĩa tập mờ ở dạng đa mức cho các hạng từ ℱ 3 với tập gia tử
H = {L, V}

72

Hình 2 4: Các khoảng tính mờ của các hạng từ trong X(3) sinh từ cấu trúc Đại
số gia tử với tập gia tử H = {L, V}


74

Hình 2 5: Một phần kết hợp các tập mờ hình thang ở mức k và mức k+1 trên
cùng miền tham chiếu [0, 1], với |H| = |H+| = 2

80

Hình 3 1: Các thành phần chính trong phương pháp trích rút tóm tắt bằng
ngơn ngữ dựa trên lý thuyết đại số gia tử

87


7
Hình 3 2: Các tập mờ hình thang biểu diễn ngữ nghĩa cho các từ lượng hóa
trong ℱ Q,1, ℱ Q,2 và ℱ Q,3

96

Hình 3 3: Cây phân cấp biểu diễn phân phối ngơn ngữ các độ tuổi của nhóm
khách hàng JOB = ‘retired’ AND Y = ‘no’

101

Hình 3 4: Cây phân cấp biểu diễn phân phối ngôn ngữ các độ tuổi của nhóm
khách hàng JOB = ‘student’ AND Y = ‘no’

101


Hình 3 5: Cây phân cấp biểu diễn phân phối ngơn ngữ các độ tuổi của nhóm
khách hàng JOB = ‘housemaid’ AND Y = ‘no’
Hình 4 1: Minh họa cấu trúc của một gen biểu diễn một câu tóm tắt

101
124

Hình 4 2: Độ đo Fit của cá thể tốt nhất trong quần thể qua 100 lần tiến hóa
130


8

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Các ký hiệu
Ký hiệu

Ý nghĩa

UA

Miền tham chiếu số của thuộc tính A

LDA

Miền hạng từ của thuộc tính (biến ngơn ngữ) A

AA

Cấu trúc đại số gia tử cho thuộc tính A


SL

Câu tóm tắt bằng ngơn ngữ

T

Giá trị chân lý (đúng đắn) của câu tóm tắt

ℱA

Khung nhận thức ngơn ngữ cho thuộc tính A



Mức tính riêng

ℱ A, κ

Khung nhận thức ngơn ngữ cho thuộc tính A ở mức tính riêng

ℱ A, (κ)

Khung nhận thức ngơn ngữ cho thuộc tính A có mức tính riêng khơng
q

G

Quan hệ chung – riêng


S≤,G

Cấu trúc đa ngữ nghĩa dựa trên quan hệ thứ tự, quan hệ chung – riêng
của miền hạng từ của biến ngôn ngữ



Cấu trúc đa ngữ nghĩa và phân cấp của khung nhận thức có mức tính

�≤,G

riêng
BA

Cấu trúc bụi biểu diễn quan hệ ngữ nghĩa các hạng từ trong miền hạng
từ của thuộc tính A

BA,κ

Một thành phần gồm mức của cấu trúc bụi BA

m(x)

Độ đo tính mờ của hạng từ x

(h)

Độ đo tính mờ của gia tử h

(x)


Khoảng tính mờ của hạng từ x

T(ℱ κ)

Tập tất cả các tập mờ biểu diễn ngữ nghĩa cho các hạng từ trong khung
nhận thức ℱ κ

(x)

Tập mờ biểu diễn ngữ nghĩa cho hạng từ x

T(ℱ κ)

Cấu trúc phân cấp biểu diễn mối quan hệ giữa các tập mờ biểu diễn ngữ
nghĩa cho các hạng từ trong ℱ κ

D

Cơ sở dữ liệu quan hệ

Mls

Phương pháp trích rút các câu tóm tắt bằng ngơn ngữ

o(Es)

Thành phần kết luận trong một câu tóm tắt

o(Fq)


Thành phần lọc trong một câu tóm tắt

KBD, t

Cơ sở tri thức về tập dữ liệu D tại thời điểm t

��

Độ tốt của một câu tóm tắt

��

Độ tốt của một tập câu tóm tắt


9
��

Độ đa dạng của tập câu tóm tắt

Dom(X)

Miền hạng từ của từ của biến ngơn ngữ X

���

Hàm thích nghi cho mỗi cá thế trong giải thuật di truyền

supp(Fq)


Độ hỗ trợ cho thành phần lọc Fq

St(Q)

Trọng số ưu tiên của từ lượng hóa Q

Các từ viết tắt
Chữ viết tắt

Tiếng Anh

Tiếng Việt

LS

Linguistic Summaries

Câu tóm tắt bằng ngơn ngữ

LSMd

Linguistic Summarization Method

Phương pháp trích rút tóm tắt
ngơn ngữ

KDD

Knowledge Discovery in Database


Khai phá tri thức từ cơ sở dữ
liệu

FoC

Frame of Cognition

Khung nhận thức

LFoC

Linguistic Frame of Cognition

Khung nhận thức ngôn ngữ

UA

Universe of A

Miền tham chiếu số của thuộc
tính A

LDA

Linguistic Domain of A

Miền hạng từ của thuộc tính
(biến ngơn ngữ) A


EnHA

Enlarge Hedge Algebra

Đại số gia tử mở rộng

IVQM

Interval Value Quatification
Mapping

Ánh xạ định lượng ngữ nghĩa
khoảng

RW

Real world

Thế giới thực

LS-CP

Linguistic Summarization-Content
Problem

Bài tốn nội dung thơng tin câu
tóm tắt

FRBS


Fuzzy rule based system

Hệ dựa trên luật mờ

fs-REP

fuzzy set – representation

Biểu diễn bằng tập mờ

HA-TFS-MG

Hedge Algebra – Trapezoid Fuzzy
Set – Multi Granualarity

Các tập mờ hình thang với cấu
trúc đa thể hạt xây dựng từ
tham số định lượng của cấu
trúc đại số gia tử

Greedy-GA

Greedy genetic algorithm

Giải thuật di truyền kết hợp
chiến lược tham lam


10
MỞ ĐẦU

1 Tính cấp thiết của đề tài và động lực nghiên cứu
Trong vài thập niên gần đây, khi các kho dữ liệu dễ dàng được thu thập và
lưu trữ, các phương pháp khai phá dữ liệu để trích rút được thông tin, tri thức tiềm
ẩn từ tập dữ liệu luôn là một chủ đề thu hút nhiều nghiên cứu Nhiều phương pháp
khác nhau đã được nghiên cứu để đề xuất các cách khai phá tri thức từ các tập dữ
liệu hay cơ sở dữ liệu Trong đó, phương pháp tính tốn mềm nói chung và tập mờ
nói riêng là một hướng nghiên cứu có nhiều kết quả mong đợi và được ứng dụng
trong thực tế [1, 2] Lý thuyết tập mờ cung cấp một cơ sở phương pháp luận cho
phép phát triển các phương pháp khai phá dữ liệu mà kết quả có thể là những tri
thức được diễn đạt bằng ngơn ngữ tự nhiên Vì ngơn ngữ tự nhiên là phương tiện
giao tiếp hàng ngày của con người, nên dạng tri thức bằng ngơn ngữ tự nhiên có ưu
điểm là dễ hiểu, dễ sử dụng cho mọi đối tượng người dùng Hơn nữa, chúng có thể
được phát thanh tự động hoặc được sử dụng trong các hệ sản sinh báo cáo văn bản
tự động Do đó, hướng nghiên cứu trích rút tri thức diễn đạt bằng ngơn ngữ tự nhiên
từ tập dữ liệu là có tính thời sự và ý nghĩa khoa học cũng như thực tiễn
Các phương pháp trích rút tri thức ngơn ngữ dựa trên lý thuyết tập mờ đã đạt
được nhiều thành tựu về phương pháp luận có giá trị ứng dụng để giải quyết nhiều
lớp bài tốn khác nhau Một trong số đó là vấn đề xây dựng các hệ luật ngôn ngữ và
xây dựng các hệ mờ giải các bài toán thực tiễn như các bài toán phân lớp, bài toán
hồi quy và các bài toán điều khiển mờ Trong các bài toán này, thực chất hệ luật
ngôn ngữ là phương tiện để mô phỏng cách con người giải quyết vấn đề mà quyết
định được dựa trên tri thức ngôn ngữ Hiệu quả của các phương pháp giải chúng
được đánh bằng định lượng, chẳng hạn như dựa trên tỷ lệ phân lớp đúng, sai số bình
phương trung bình (Mean Squared Error - MSE) Do đó, nội dung thơng tin của các
tri thức trong hệ luật ngôn ngữ chưa được xem xét và coi trọng
Một bài tốn trích rút tri thức ngơn ngữ từ dữ liệu được Yager đề xuất năm
1982 [3] dựa trên phương pháp luận của lý thuyết tập mờ là bài tốn tóm tắt dữ liệu
bằng ngơn ngữ (linguistic summarization of data) Trong bài tốn này, chính nội
dung thơng tin trong tri thức ngôn ngữ là cốt yếu trong ứng dụng Trên cơ sở đó,
ơng đã phát triển một số phương pháp trích rút các câu tóm tắt có chứa từ lượng hóa



11
ngôn ngữ [4-6] Các câu này được coi là các mệnh đề mờ diễn đạt tri thức ẩn dấu
trong tập dữ liệu số được xem xét
Hướng nghiên cứu này đã thu hút sự quan tâm đông đảo của các nhà khoa
học, điển hình là nhóm nghiên cứu của Kacprzyk và cộng sự [7-17], Castillo và
cộng sự [18-22], Moyse và cộng sự [23-25], Wilbik và cộng sự [26-37], Donis-Diaz
và cộng sự [38-40],… Một số lĩnh vực ứng dụng cụ thể là tạo các báo cáo, phân tích
kinh doanh hoặc quản lý [9, 13, 35, 41], hỗ trợ trong y tế [31, 33, 34, 42, 43] và một
số lĩnh vực khác [38, 40] Các ứng dụng này đã khẳng định ý nghĩa rất thực tiễn của
việc nghiên cứu, phát triển các phương pháp trích rút các câu tóm tắt bằng ngơn ngữ
tự nhiên
Các nghiên cứu trên quan tâm đến các câu tóm tắt có các dạng cấu trúc tổng
quát như sau:
“Q y are S” và “Q F y are S”
Trong đó: Q (quantifier) là một từ lượng hóa, ví dụ như ‘most’, ‘few’, ‘a
half’; S (summarizer) là kết luận sử dụng ngôn ngữ tự nhiên, ví dụ như “AGE is
‘young’”, “SALARY is ‘high’”; F (qualifier) là điều kiện lọc, ví dụ như “AGE is
‘old’”, “QUALIFICATION is ‘high’” Tổng quát hơn, thành phần S và F có thể là
một biểu thức logic của các điều kiện trên nhiều thuộc tính khác nhau
Ví dụ, ta có thể có các câu tóm tắt ngơn ngữ trích rút từ cơ sở dữ liệu mà giá
trị của thuộc tính AGE và QUALIFICATION được lưu trữ ở dạng số: (1) “Most
wokers are young”; (2) “A half of workers with high qualification are middle”
Trong câu thứ nhất, thành phần kết luận S (‘young’) diễn đạt kết luận trên thuộc tính
đang xem xét (AGE), thành phần Q (most) diễn đạt tỷ lệ các đối tượng thỏa kết luận
S trong tập dữ liệu Trong câu thứ hai, thành phần kết luận S (‘middle’) diễn đạt kết
luận trên thuộc tính AGE của nhóm con gồm các đối tượng thỏa điều kiện lọc F
(workers with high qualification), từ lượng hóa Q (a half) diễn đạt tỷ lệ các đối
tượng thỏa kết luận S trong nhóm con này

Các câu tóm tắt như trên được coi là các mệnh đề mờ diễn đạt tri thức về các
đối tượng trong thế giới thực được lưu trữ trong cơ sở dữ liệu Do đó, với mỗi câu
tóm tắt bằng ngôn ngữ (Linguistic Summary - LS), một yêu cầu đặt ra là cần tính
tốn một giá trị đánh giá độ đúng đắn, giá trị này còn được coi là giá trị chân lý của


12
mệnh đề mờ, ký hiệu là T (T [0, 1]) T được coi là độ đo cơ bản cần thiết để đánh
giá câu LS Những câu LS với giá trị T lớn sẽ được đưa vào tập tri thức trích rút từ
dữ liệu đã cho Trong phương pháp trích rút tóm tắt ngơn ngữ (Linguistic
Summarization Method - LSMd) dựa trên lý thuyết tập mờ, hàm thuộc của các tập
mờ biểu diễn ngữ nghĩa cho hạng từ của các thuộc tính và từ lượng hóa là một thành
phần đầu vào quan trọng của LSMd Các hàm thuộc này được sử dụng để tính giá
trị đúng đắn T Do đó, việc xây dựng các tập mờ đóng vai trị nền tảng cho việc tính
giá trị độ đo T cho các câu tóm tắt Tức là, nó ảnh hưởng trực tiếp đến kết quả của
các phương pháp trích rút tóm tắt ngơn ngữ
Có một vấn đề nổi lên trong phương pháp luận của các nghiên cứu LSMd
dựa trên lý thuyết tập mờ chính là sự liên kết giữa các tập mờ và hạng từ ngôn ngữ
được gán cho chúng Trong khi người dùng giải nghĩa các câu LS dựa trên ngữ
nghĩa vốn có của nó trong ngơn ngữ tự nhiên, các từ ngơn ngữ được lựa chọn bởi
LSMd lại chỉ được xem là nhãn ngôn ngữ của các tập mờ mà chúng được xây dựng
dựa trên trực giác của nhà thiết kế, phát triển phương pháp luận và giải thuật trong
LSMd Do đó, với cùng một câu LS, nó có thể mang hai nội dung thông tin Thứ
nhất là nội dung gán cho một câu LS bởi q trình tính tốn tương tác giữa dữ liệu
của cơ sở dữ liệu và các tập mờ (nội dung này mang tính chủ quan) Thứ hai là nội
dung của câu LS trong ngôn ngữ tự nhiên mà người dùng thu nhận khi đọc câu LS
đó (nội dung này mang tính khách quan) Hai nội dung này nhìn chung là khác nhau
nếu khơng có tiêu chuẩn đảm bảo cách xây dựng tập mờ biểu diễn một cách đúng
đắn ngữ nghĩa vốn có của các từ ngơn ngữ được gán cho chúng Đây là vấn đề cốt
yếu, còn được gọi là vấn đề hay bài toán nội dung thơng tin của các câu LS trích rút

từ cơ sở dữ liệu mà luận án cần giải quyết Tuy nhiên, vấn đề này lại chưa được đặt
ra trong các nghiên cứu trong phạm vi lý thuyết tập mờ
Trong phạm vi nghiên cứu của luận án, tác giả quan tâm giải quyết bài tốn
nội dung thơng tin của các câu LS Đây là vấn đề đầy thách thức và chưa được xem
xét trong các nghiên cứu về LSMd đã công bố Tuy nhiên, có các vấn đề tương tự
trong logic và toán học cho phép gợi mở phương pháp tiếp cận giải quyết vấn đề
trên là khái niệm giải nghĩa được (interpretability) của một lý thuyết S vào một lý
thuyết T của Tarski và cộng sự trong [44] Khái niệm này được hiểu như sau: giả sử


13
ta có một vấn đề P cần giải quyết trong S, nhưng gặp nhiều trở ngại Khi đó, ta có
thể chuyển đổi P thành P’ trong T để kỳ vọng giải nó dễ hơn Điều này có thể thực
hiện được khi và chỉ khi S có thể nhúng đẳng cấu trong T để nghiệm của P chính là
nghịch ảnh của nghiệm bài toán P’ trong T
Ý tưởng trên gợi mở luận án cần nghiên cứu giải quyết một số vấn đề sau:
Thứ nhất, vấn đề tính giải nghĩa (interpretability) trong bài tốn trích rút câu
tóm tắt được đề cập đến trong số rất ít các nghiên cứu [45-47] Hơn nữa, các nghiên
cứu này xem xét về vấn đề tính giải nghĩa theo khía cạnh có dễ đọc khơng, có dễ
hiểu nội dung khơng Do đó, các tác giả trong [45-47] coi việc sử dụng mẫu câu
chứa từ lượng hóa là đảm bảo tính hiểu được dựa trên độ phức tạp của cấu trúc câu
Do đó, dẫn dến việc nghiên cứu các tiêu chuẩn về độ phức tạp của câu như hạn chế
độ dài của câu, giới hạn về số lượng từ ngơn ngữ là đảm bảo tính dễ đọc Tuy nhiên,
như đã phân tích ở trên, tính giải nghĩa cần được xem xét dựa trên việc đảm bảo giải
nghĩa một cách đúng đắn nội dung thông tin của các câu LS Tức là, nội dung tính
tốn dựa trên các tập mờ trong một phương pháp LSMd gán cho câu LS phải tương
đồng (bằng nhau trong môi trường mờ) với nội dung mà các câu LS phản ánh khi
người dùng giải nghĩa trong ngơn ngữ tự nhiên Tính giải nghĩa theo quan điểm này
chưa được đề cập đến trong các LSMd dựa trên lý thuyết tập mờ đã có
Thứ hai, cịn có những hạn chế khơng thỏa đáng trong thiết kế các tập mờ và

gán ngữ nghĩa cho chúng bởi các hạng từ ngôn ngữ trong miền hạng từ của các
thuộc tính Các nghiên cứu thường cố định số lượng tập mờ cho mỗi thuộc tính
trong giới hạn 7 2 và các tập mờ thường tạo thành phân hoạch mạnh trên miền
tham chiếu số Một số nghiên cứu còn lựa chọn phân hoạch mờ đều để dễ dàng
trong thiết kế các tập mờ [40, 42, 48] Khi giới hạn số lượng từ ngơn ngữ của các
thuộc tính sẽ dẫn đến giới hạn tập câu tóm tắt được trích rút từ cơ sở dữ liệu Điều
này không phù hợp với thực tiễn sử dụng ngôn ngữ tự nhiên của con người Trong
thực tế, tùy từng ứng dụng, từng giai đoạn mà con người cần mở rộng tập hạng từ
để mơ tả tính chất, đặc điểm của thuộc tính Khi mở rộng tập hạng từ, tập tri thức
ngôn ngữ cũng được mở rộng để nhận thức tốt hơn về thế giới thực Do đó, tính mở
rộng được của tập hạng từ và tập câu tóm tắt (được coi là tập tri thức ngơn ngữ) là
vấn đề cần được nghiên cứu trong giải bài tốn trích rút tóm tắt bằng ngơn ngữ


14
Thứ ba, khi khảo sát tập từ ngôn ngữ của mỗi thuộc tính với số lượng lớn
hơn sẽ dẫn đến bùng nổ số lượng câu tóm tắt Tuy nhiên, lúc này lại có thể thu được
những câu tóm tắt diễn đạt các tri thức thú vị, bất ngờ, không tầm thường về tập dữ
liệu Từ đó đặt ra bài tốn tìm kiếm một tập con các câu tóm tắt tối ưu từ khơng
gian lớn chứa tất cả các câu tóm tắt Một số nghiên cứu đã áp dụng mơ hình giải
thuật di truyền để giải bài toán tối ưu này [18, 38, 39, 41, 49] Ngồi các phép tốn
di truyền cơ bản, một số nghiên cứu cũng đề xuất sử dụng thêm các phép toán mới
để tăng hiệu quả của việc tìm kiếm tập câu tóm tắt tối ưu, ví dụ như phép toán
cleaning trong [38, 41], phép toán improver trong [38, 39] Tuy nhiên, trong kết quả
thực nghiệm [38, 41], tập câu tóm tắt tối ưu vẫn chứa các câu tóm tắt khơng có chất
lượng khi mà giá trị đúng đắn T = 0 hoặc T < 0 8 Do đó, vấn đề trích rút một tập
câu tóm tắt tối ưu vẫn cần phải tiếp tục nghiên cứu để có kết quả tốt hơn nữa
Từ những phân tích nêu trên, các nhiệm vụ nghiên cứu của luận án được xác
định là cần đề xuất một LSMd sao cho đảm bảo tính giải nghĩa nội dung thơng tin
của các câu tóm tắt; phương pháp LSMd cũng cần tương tác được với khả năng mở

rộng tập hạng từ của các thuộc tính Hơn nữa, luận án cần đề xuất cải tiến mới cho
mơ hình giải thuật di truyền để tìm kiếm tập câu tóm tắt tối ưu từ cơ sở dữ liệu
Cùng với việc xác định nhiệm vụ cần nghiên cứu, tác giả đã tìm hiểu về lý
thuyết Đại số gia tử (ĐSGT) do Nguyễn Cát Hồ và W Wechler đề xuất năm 1990
và 1992 [50, 51] Lý thuyết ĐSGT tiếp tục được phát triển trong các nghiên cứu
[52-55] để mô hình hóa cấu trúc dựa trên quan hệ thứ tự ngữ nghĩa vốn có của miền
hạng từ của các biến ngơn ngữ Tính giải nghĩa ở mức thấp (mức từ vựng) của các
hệ dựa trên luật mờ trong nghiên cứu [56] đã được giải quyết dựa trên lý thuyết
ĐSGT Điều này chứng tỏ lý thuyết ĐSGT có thể cung cấp một phương pháp luận
để thực hiện được các nhiệm vụ nghiên cứu trong luận án đã nêu trên
Từ những nghiên cứu về bài tốn trích rút tóm tắt bằng ngơn ngữ và phương
pháp luận ĐSGT, tác giả đã lựa chọn đề tài “Tóm tắt dữ liệu bằng ngơn ngữ theo
cách tiếp cận Đại số gia tử” làm đề tài nghiên cứu của luận án
2 Mục tiêu, đối tượng, phạm vi nghiên cứu
2 1 Mục tiêu nghiên cứu


15
Mục tiêu của luận án là đề xuất cơ sở phương pháp dựa trên lý thuyết ĐSGT
để phát triển một phương pháp trích rút câu tóm tắt bằng ngơn ngữ để giải quyết bài
tốn nội dung thơng tin của các câu LS Hơn nữa, phương pháp đề xuất cịn có khả
năng tương thích với tính mở rộng được của tập hạng từ của các thuộc tính Mục
tiêu nghiên cứu khác là đề xuất cải tiến cho mơ hình giải thuật di truyền để trích rút
tập câu LS tối ưu, tức là một tập chứa các câu LS có chất lượng cao và cung cấp tri
thức ngôn ngữ phong phú, đa dạng hơn
Cụ thể, luận án nghiên cứu và thực hiện được các nhiệm vụ sau:
o Chỉ ra được điều kiện đảm bảo giải nghĩa đúng đắn nội dung thông tin của
câu tóm tắt trích rút bởi một LSMd dựa trên việc đảm bảo tính giải nghĩa
được của cấu trúc các tập mờ được xây dựng trong mờ hóa miền giá trị của
các thuộc tính

o Phát triển phương pháp luận và đề xuất một thủ tục xây dựng các tập mờ
biểu diễn đúng đắn ngữ nghĩa vốn có của các hạng từ được gán cho chúng
Đồng thời, các tập mờ này cũng mở rộng được tương ứng với tính mở rộng
được của miền ngơn ngữ thuộc tính
o Đề xuất phương pháp LSMd đảm bảo giải được bài tốn nội dung thơng tin
câu tóm tắt và tương thích được với tính mở rộng miền ngơn ngữ của các
thuộc tính Tức là, tập tri thức cũng được bổ sung thêm tri thức mới khi tập
từ ngôn ngữ được tăng trưởng nhưng vẫn duy trì ngữ nghĩa của các tri thức
đã được trích rút trước đó
o Phát triển phương pháp và xây dựng được mơ hình giải thuật di truyền
trích rút tập câu tóm tắt tối ưu có cải tiến so với các mơ hình giải thuật di
truyền đã có
2 2 Đối tượng nghiên cứu
Đối tượng nghiên cứu trong luận án bao gồm:
o Khung nhận thức mờ và khung nhận thức ngơn ngữ Tính giải nghĩa được
của khung nhận thức mờ trong biểu diễn ngữ nghĩa của khung nhận thức
ngôn ngữ tương ứng


16
o Vấn đề nội dung thông tin của các câu tóm tắt ngơn ngữ từ dữ liệu Phương
pháp trích rút câu tóm tắt bằng ngơn ngữ sử dụng tập mờ biểu diễn ngữ
nghĩa cho hạng từ ngôn ngữ
o Khung nhận thức ngôn ngữ dựa trên lý thuyết Đại số gia tử và vấn đề sinh
khung nhận thức mờ giải nghĩa được từ khung nhận thức ngôn ngữ đã cho
o Mô hình giải thuật di truyền trích rút tập câu tóm tắt tối ưu từ tập dữ liệu
2 3 Phạm vi nghiên cứu
Luận án nghiên cứu phương pháp mờ dựa trên lý thuyết ĐSGT và lý thuyết
tập mờ để trích rút tóm tắt bằng ngơn ngữ từ cơ sở dữ liệu Trong đó, tập dữ liệu
đầu vào là các cơ sở dữ liệu có các thuộc tính mà giá trị được lưu trữ ở dạng số,

mẫu câu tóm tắt có chứa từ lượng hóa ngơn ngữ
Luận án nghiên cứu về các mơ hình của giải thuật di truyền áp dụng trong bài
tốn trích rút một tập câu tóm tắt tối ưu từ khơng gian chứa tất cả các câu tóm tắt có
thể trích rút từ cơ sở dữ liệu
3 Phương pháp nghiên cứu
Các phương pháp nghiên cứu được sử dụng trong luận án gồm có:
o Phương pháp tổng hợp, phân tích: được sử dụng khi tìm hiểu kiến thức cơ
sở về trích rút tóm tắt bằng ngơn ngữ, lý thuyết ĐSGT Từ đó tìm được các
hạn chế, tồn tại trong các nghiên cứu đã có, đặt ra các nhiệm vụ mới cần
giải quyết và đưa ra được phương hướng để thực hiện các nhiệm vụ nghiên
cứu mới
o Phương pháp so sánh: được sử dụng để tìm ra điểm khác biệt của bài tốn
trích rút tóm tắt với các nhánh nghiên cứu khác trong lĩnh vực khai phá dữ
liệu; so sánh phương pháp luận khi sử dụng lý thuyết tập mờ và lý thuyết
ĐSGT trong vấn đề tính giải nghĩa của thiết kế tập mờ biểu diễn ngữ nghĩa
các hạng từ trong miền giá trị của biến ngơn ngữ; các mơ hình giải thuật di
truyền trong trích rút tóm tắt bằng ngơn ngữ
o Phương pháp thiết kế và chứng minh: được sử dụng khi đưa ra phương
pháp xây dựng các tập mờ và thuật tốn trích rút tóm tắt; phát biểu và
chứng minh các định lý về đảm bảo tính giải nghĩa của nội dung thơng tin
câu tóm tắt và tính mở rộng được của phương pháp đề xuất


17
o Phương pháp thực nghiệm: thực hiện thực nghiệm để chứng tỏ tính khả thi
và ưu điểm của phương pháp đề xuất dựa trên lý thuyết ĐSGT; thực hiện
cải tiến mơ hình giải thuật di truyền để so sánh với mơ hình đã có trên cùng
một tập dữ liệu đầu vào
4 Các đóng góp chính của luận án
Sau những nỗ lực nghiên cứu, luận án có những đóng góp chính như sau:

 Luận án đã chỉ ra điều kiện đảm bảo tính giải nghĩa của biểu diễn tập mờ
cho miền hạng từ của các thuộc tính dựa trên khái niệm giải nghĩa trong
logic và tốn học của Tarski Từ đó, đưa ra tiêu chuẩn ràng buộc đối với tập
các tập mờ cần xây dựng để biểu diễn ngữ nghĩa của các từ ngôn ngữ gán
cho chúng Một thủ tục HA-TFS-MG (Hedge Algebra – Trapezoid Fuzzy
Set - Multiple Granularity) được đề xuất để sản sinh các tập mờ hình thang
từ bộ tham số định lượng của một cấu trúc ĐSGT của thuộc tính Nó đảm
bảo các tập mờ này trong cấu trúc đa thể được thủ tục sinh ra là ảnh đẳng
cấu ngữ nghĩa với các từ trong miền hạng từ của thuộc tính Khi đó, một
thuật tốn trích rút câu tóm tắt tính tốn với các hàm thuộc của hình thang
này sẽ được coi như tương tác trực tiếp với ngữ nghĩa định tính của từ ngơn
ngữ
 Luận án đã đề xuất một phương pháp trích rút câu tóm tắt (LSMd) tương
tác trực tiếp, hiệu quả với ngữ nghĩa định tính của các hạng từ trong câu
tóm tắt LSMd được đề xuất có khả năng tương tác được với tính mở rộng
các khung nhận thức ngôn ngữ của các thuộc tính để mở rộng tập câu tóm
tắt bằng bổ sung thêm các câu tóm tắt mới Tính khả thi và những ưu điểm
của phương pháp đã đề xuất được chứng tỏ qua các kết quả thực nghiệm
 Luận án đề xuất sử dụng chiến lược tham lam trong hàm Random-GreedyLS để sinh câu tóm tắt hướng đến tăng độ đo tốt và độ đa dạng của tập câu
tóm tắt Đồng thời, luận án đã xây dựng mơ hình giải thuật di truyền
Greedy-GA có sử dụng hàm Random-Greedy-LS để tìm kiếm một tập câu
tóm tắt tối ưu từ một cơ sở dữ liệu
5 Bố cục luận án
Luận án gồm phần mở đầu, 04 chương và phần kết luận:


18
Phần mở đầu: Trình bày về tính cấp thiết của đề tài và động lực nghiên cứu;
mục tiêu, đối tượng, phạm vi nghiên cứu; phương pháp nghiên cứu; các đóng góp
chính của luận án; bố cục luận án

Chương 1: Một số kiến thức cơ sở
Trong chương này, luận án trình bày các kiến thức cơ sở liên quan đến các
bài toán cần nghiên cứu và phương pháp giải quyết các nhiệm vụ nghiên cứu Cụ
thể, các nội dung gồm có một số kiến thức cơ bản về tập mờ, khung nhận thức ngôn
ngữ dựa trên tập mờ, tổng quan về trích rút tóm tắt bằng ngơn ngữ và vấn đề trích
rút tập câu tóm tắt tối ưu và tổng quan về lý thuyết ĐSGT Các nội dung trong
chương 1 là cơ sở lý thuyết được sử dụng để đưa ra một số đề xuất mới giải quyết
các nhiệm vụ nghiên cứu đã đặt ra
Chương 2: Vấn đề nội dung thông tin câu tóm tắt và biểu diễn tập mờ
của miền ngơn ngữ thuộc tính
Phần đầu chương 2, luận án trình bày và phân tích bài tốn nội dung thơng
tin của các câu tóm tắt được sinh ra bởi các thuật tốn tính tốn trên các tập mờ Ý
tưởng giải bài toán này được gợi mở từ khái niệm giải nghĩa trong logic của Tarski
Phần tiếp theo, luận án trình bày phương pháp luận và đề xuất một thủ tục xây dựng
các tập mờ từ bộ tham số định lượng của ĐSGT dùng để mờ hóa miền tham chiếu
của các thuộc tính Phần cuối chương, luận án phát biểu và chứng minh các định lý
để chứng tỏ rằng các tập mờ được xây dựng từ thủ tục đề xuất đảm bảo biểu diễn
đúng đắn ngữ nghĩa của các hạng từ trong miền ngơn ngữ của thuộc tính Đồng
thời, các tập mờ này cũng có khả năng mở rộng được như tính mở rộng được của
miền ngơn ngữ của thuộc tính
Chương 3: Phương pháp trích rút câu tóm tắt ngơn ngữ dựa trên Đại số
gia tử
Phần đầu chương 3, luận án trình bày đề xuất một phương pháp trích rút câu
tóm tắt ngơn ngữ Mls tính tốn trên các tập mờ được sinh bởi thủ tục đã đề xuất
trong chương 2 Nội dung tiếp theo là một chuỗi các thực nghiệm với cơ sở dữ liệu
Bank Marketing trên kho dữ liệu UCI để chứng tỏ tính hiệu quả và ưu điểm của
phương pháp Mls đã đề xuất Mỗi thực nghiệm cụ thể gồm có các kịch bản, kết quả
và phân tích ý nghĩa của kết quả nhận được



19
Chương 4: Trích rút tập câu tóm tắt tối ưu sử dụng giải thuật di truyền
kết hợp chiến lược tham lam
Phần đầu chương 4, luận án trình bày về mối liên hệ giữa bài tốn trích rút
luật kết hợp ngơn ngữ và trích rút tóm tắt ngơn ngữ; bài tốn trích rút tập con câu
tóm tắt tối ưu Nội dung tiếp theo là phân tích các mơ hình giải thuật di truyền đã có
làm cơ sở cho đề xuất cải tiến cho mơ hình giải thuật di truyền mới giải bài tốn
trích rút tập câu tóm tắt tối ưu Các đề xuất mới trong chương này gồm có hàm
Random-Greedy-LS dựa trên chiến lược tham lam để sản sinh một câu tóm tắt tốt
và hướng đến tính đa dạng của tập câu tóm tắt tối ưu và mơ hình giải thuật di truyền
Greedy-GA sử dụng hàm Random-Greedy-LS Phần cuối chương là thực nghiệm so
sánh mơ hình Greedy-GA đề xuất mới so với mơ hình Hybrid-GA để chứng tỏ ưu
điểm của các đề xuất
Phần kết luận và hướng phát triển: Trình bày một số kết luận về ý nghĩa của
những kết quả đã đạt được của luận án và một số hướng nghiên cứu tiếp theo


20
CHƯƠNG 1 MỘT SỐ KIẾN THỨC CƠ SỞ
Trong chương này, luận án trình bày một số kiến thức cơ sở trong lý thuyết
tập mờ, bài tốn trích rút tóm tắt bằng ngôn ngữ dựa trên lý thuyết tập mờ và bài
tốn tìm kiếm một tập câu tóm tắt tối ưu từ cở sở dữ liệu Phần cuối chương, luận án
trình bày những kiến thức cơ bản trong lý thuyết ĐSGT cơ sở và ĐSGT mở rộng
Những kiến thức cơ sở trong chương 1 sẽ được sử dụng khi trình bày các kết quả
nghiên cứu trong các chương tiếp theo
1 1 Một số kiến thức cơ bản về tập mờ
Lý thuyết tập mờ được Zadeh đề xuất năm 1965 trong [57] với ý tưởng làm
cho máy tính có thể hiểu và xử lý được những tri thức diễn đạt bằng ngôn ngữ tự
nhiên Khái niệm tập mờ là một mở rộng của khái niệm tập cổ điển hay tập rõ và
mỗi tập rõ là một trường hợp riêng của khái niệm tập mờ Tập cổ điển chỉ xem xét

một phần tử có thuộc hay khơng thuộc vào nó, với tập mờ thì bất kỳ phần tử nào
trong vũ trụ đều có thể thuộc về nó với mức độ thuộc được đo bởi một giá trị trong
đoạn [0, 1]
1 1 1 Định nghĩa tập mờ
Cho U là một tập hợp các điểm (đối tượng), một tập con mờ X trên miền
tham chiếu U được định nghĩa như sau:
Định nghĩa 1 1 [57-59]: Một tập mờ X trên U là một tập mà mỗi phần tử của
nó là một cặp các giá trị (x,X(x)), trong đó x U vàX là ánh xạ:

X: U[0, 1]
Ánh xạX được gọi là hàm thuộc (membership function) của tập mờ X Tập
U được gọi là tập cơ sở của tập mờ X Giá trịX(x) biểu thị mức độ thuộc của phần
tử x vào tập mờ X Nếu giá trịX(x) càng gần 1 thì mức độ thuộc của x vào X càng
cao KhiX(x) chỉ nhận giá trị 0 hoặc 1 thì tập X là tập con rõ của tập U Do đó, tập
mờ là khái niệm mở rộng của tập rõ
Khi xây dựng các tập mờ, giá trị hàm thuộc biến thiên trong khoảng [0,1]
Trong các ứng dụng lý thuyết tập mờ thường sử dụng các tập mờ có hình dạng phổ
biến như trong Hình 1 1 Các tập mờ này được gọi là các tập mờ chuẩn vì có giá trị


21
hàm thuộc lớn nhất bằng 1 Tập mờ tam giác và tập mờ hình thang được sử dụng
nhiều nhất do tính đơn giản và dễ hiểu với người dùng

(a) Tập mờ tam giác

(b) Tập mờ hình thang

(c) Tập mờ hình chng


Hình 1 1: Ba kiểu tập mờ phổ biến
1 1 2 Biến ngôn ngữ
Theo Zadeh [57] “biến ngôn ngữ là biến mà các giá trị của nó là các từ hoặc
câu trong ngôn ngữ tự nhiên hoặc ngôn ngữ nhân tạo” Ví dụ khi nhận xét về lương
của nhân viên tập sự, chúng ta có thể xem đây là biến ngơn ngữ có tên gọi LƯƠNG
và nhận các giá trị ngơn ngữ như ‘rất thấp’, ‘thấp’, ‘trung bình’, ‘cao’, ‘rất cao’
Với mỗi giá trị ngơn ngữ này, gán cho nó một hàm thuộc tương ứng xác định một
tập mờ trên miền giá trị số [0, 10] (đơn vị triệu đồng) của thuộc tính LƯƠNG (xem
Hình 1 2)
Rất thấp

Thấp

Trung bình

Cao

Rất cao

1

0

1

3

5

7


9

10

Hình 1 2: Ví dụ năm tập mờ biểu diễn ngữ nghĩa các giá trị ngôn ngữ của biến
LƯƠNG trong miền tham chiếu [0, 10] (đơn vị: triệu đồng)
Một cách hình thức, chúng ta có định nghĩa của biến ngơn ngữ như sau:
Định nghĩa 1 2 [58, 59]: Biến ngôn ngữ là một bộ năm thành phần (�, T(�),
U, R, M), trong đó � là tên biến, T(�) là tập các giá trị ngôn ngữ của biến �, U là
không gian tham chiếu, mỗi giá trị ngôn ngữ xem như là một tập mờ trên U, R là


×