Một số phương pháp tính toán dựa trên từ ngôn ngữ trực cảm và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.21 MB, 132 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Phạm Hồng Phong

MỘT SỐ PHƯƠNG PHÁP TÍNH TOÁN DỰA TRÊN
TỪ NGÔN NGỮ TRỰC CẢM VÀ ỨNG DỤNG

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội - 2018

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Phạm Hồng Phong

MỘT SỐ PHƯƠNG PHÁP TÍNH TOÁN DỰA TRÊN
TỪ NGÔN NGỮ TRỰC CẢM VÀ ỨNG DỤNG

Chuyên ngành: Cơ sở Toán cho Tin học
Mã số: 62.46.01.10

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Tập thể hướng dẫn khoa học:
PGS.TSKH. Bùi Công Cường
PGS.TS. Đỗ Trung Tuấn

Hà Nội - 2018

LỜI CAM ĐOAN

Tôi xin cam đoan những kết quả trình bày trong luận án này là mới,
trung thực và chưa từng được công bố trong bất kỳ công trình của ai khác. Những
kết quả viết chung với các tác giả khác đã được sự đồng ý khi đưa vào luận án.

Nghiên cứu sinh

Phạm Hồng Phong

i

LỜI CẢM ƠN
Luận án được hoàn thành tại Trường Đại học Khoa học Tự nhiên - Đại học
Quốc gia Hà Nội, dưới dự hướng dẫn của PGS. TSKH. Bùi Công Cường và PGS.
TS. Đỗ Trung Tuấn. Tôi xin bày tỏ lòng biết ơn sâu sắc tới Thầy Bùi Công Cường,
người đã định hướng, giúp đỡ tận tình, tỉ mỉ trong suốt thời gian học tập và hoàn
thành luận án. Tôi xin gửi lời cảm ơn chân thành đến Thầy Đỗ Trung Tuấn, người
đã tận tâm hỗ trợ học trò về mọi mặt trong suốt 6 năm làm nghiên cứu sinh, từ
những ngày bắt đầu có tới những thủ tục bảo vệ cuối cùng.
Học trò chân thành cảm ơn GS. TSKH. Phạm Thế Long, PGS. TS. Đặng Văn
Chuyết, PGS. TS. Lê Bá Long, PGS. TS. Nguyễn Hà Nam, TS. Nguyễn Thị Minh
Huyền, TS. Đỗ Thanh Hà, TS. Vũ Như Lân, PGS. TS. Trần Đình Khang, PGS. TS.
Ngô Thành Long, PGS. TS. Nguyễn Hữu Điển, TS. Nguyễn Hải Vinh và rất nhiều
Thầy Cô khác về những đóng góp quý báu trong quá trình nghiên cứu cũng như
hoàn thiện luận án.
Nghiên cứu sinh xin chân thành gửi lời cảm ơn đến Ban Giám hiệu, Phòng

Sau đại học, lãnh đạo Khoa Toán - Cơ - Tin học, các Thầy Cô Bộ môn Tin học
Trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà Nội đã tạo điều kiện
thuận lợi nhất để nghiên cứu sinh hoàn thành chương trình học tập và luận án.
Tôi xin cảm ơn Ban Giám hiệu, Khoa Công nghệ Thông tin, Bộ môn Toán học
Trường Đại học Xây dựng nơi tôi công tác và các bạn bè, đồng nghiệp đã luôn
tạo điều kiện, động viên, khuyến khích và hỗ trợ tối đa để tôi có thể hoàn thành
chương trình học tập cũng như luận án này.
Tôi xin cảm ơn riêng PGS. TS. Lê Hoàng Sơn, người bạn thân thiết, đã đồng
hành cùng tôi trên con đường nghiên cứu tại những thời điểm khó khăn nhất.
Cuối cùng, xin cảm ơn Gia đình đã luôn đồng hành, thường xuyên động viên
tôi trong công việc, học tập và nghiên cứu.

ii

Hà Nội, tháng 05 năm 2018

Nghiên cứu sinh

Phạm Hồng Phong

iii

MỤC LỤC
Trang
Lời cam đoan

i

Lời cảm ơn

ii

Mục lục

iv

Danh sách hình vẽ

vi

Danh sách bảng

vii

Danh mục ký hiệu và chữ viết tắt

xi

Mở đầu

1

Chương 1. Tổng quan về lý thuyết mờ và tính toán với từ
1.1 Sơ lược về lý thuyết mờ và mờ trực cảm . . . . . . . .
1.1.1 Tập mờ, số mờ và biến ngôn ngữ . . . . . . . .
1.1.2 Tập mờ trực cảm và giá trị mờ trực cảm . . . .
1.2 Toán tử gộp thông tin cho bằng từ . . . . . . . . . . .
1.2.1 Gộp dựa trên thứ tự giữa các từ . . . . . . . .

1.2.2 Gộp dựa trên Nguyên lý Suy rộng . . . . . . .
1.2.3 Gộp dựa trên chỉ số của các từ . . . . . . . . .
1.2.4 Gộp dựa trên biểu diễn theo cặp ngôn ngữ . .
1.2.5 Gộp các từ với chỉ số liên tục . . . . . . . . . .
1.2.6 Gộp thông tin cho bằng từ có yếu tố trực cảm
1.2.7 Ra quyết định với thông tin cho bằng từ . . . .
1.3 Phân lớp dựa trên độ tương tự mờ . . . . . . . . . . .
1.3.1 Phân lớp dữ liệu . . . . . . . . . . . . . . . . .
1.3.2 Độ tương tự mờ . . . . . . . . . . . . . . . . . .
1.3.3 Độ tương tự mờ trực cảm . . . . . . . . . . . .
1.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . .

iv

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.

7
7
7
10
13
13
15
16
18
19
20
25
32
32
33
35
36

Chương 2. Từ trực cảm và gộp các từ trực cảm
2.1 Tập từ trực cảm và một số phép toán cơ bản . . . . . . . . . . . . .
2.2 Toán tử gộp các từ trực cảm . . . . . . . . . . . . . . . . . . . . . .
2.2.1 Giá trị lớn nhất và giá trị nhỏ nhất của các từ trực cảm . .
2.2.2 Trung vị của các từ trực cảm . . . . . . . . . . . . . . . . .
2.2.3 Tổ hợp lồi của các từ trực cảm . . . . . . . . . . . . . . . . .
2.2.4 Toán tử OWA cho các từ trực cảm . . . . . . . . . . . . . .
2.2.5 Các toán tử gộp cho các từ trực cảm mở rộng . . . . . . . .
2.2.6 Ứng dụng các toán tử gộp cho từ trực cảm vào bài toán ra
quyết định . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 So sánh từ trực cảm với giá trị ngôn ngữ trực cảm và số ngôn ngữ

trực cảm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.1 So sánh trên phương diện lý thuyết . . . . . . . . . . . . .
2.3.2 So sánh trên phương diện thực hành . . . . . . . . . . . . .
2.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

.
.
.
.
.
.
.

37
38
42
42
44
46
48
50

. 53
.
.
.
.

59
59

68
71

Chương 3. Một số độ tương tự và ứng dụng vào bài toán phân lớp thông
tin
73
3.1 Độ tương tự từ, độ tương tự véc-tơ từ và ứng dụng . . . . . . . . . 74
3.1.1 Độ tương tự từ . . . . . . . . . . . . . . . . . . . . . . . . . . 75
3.1.2 Độ tương tự véc-tơ từ . . . . . . . . . . . . . . . . . . . . . . 76
3.1.3 Ứng dụng cho bài toán phân lớp với thông tin cho bằng từ . 81
3.2 Độ tương tự giá trị mờ trực cảm, độ tương tự véc-tơ mờ trực cảm
và ứng dụng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
3.2.1 Độ tương tự giá trị mờ trực cảm . . . . . . . . . . . . . . . . 86
3.2.2 Độ tương tự véc-tơ mờ trực cảm . . . . . . . . . . . . . . . . 87
3.2.3 Ứng dụng cho bài toán phân lớp . . . . . . . . . . . . . . . . 88
3.3 Thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93
3.3.1 Thực nghiệm với bộ dữ liệu Car Evaluation . . . . . . . . . . 95
3.3.2 Thực nghiệm với bộ dữ liệu Mushroom . . . . . . . . . . . . 98
3.3.3 Thực nghiệm với bộ dữ liệu Iris . . . . . . . . . . . . . . . . . 99
3.4 Kết luận chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Kết luận và kiến nghị

108

Danh mục công trình khoa học của tác giả liên quan đến luận án

111

Tài liệu tham khảo

112

v

Danh sách hình vẽ

1.1

Biến ngôn ngữ “Heịght” . . . . . . . . . . . . . . . . . . . . . . . . . 11

1.2

Tập từ mở rộng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

1.3

Các bước của bài toán ra quyết định tập thể . . . . . . . . . . . . . . 26

1.4

CW trong bài toán ra quyết đinh tập thể . . . . . . . . . . . . . . . . 26

2.1

So sánh thời gian thực thi (giây) các Quy trình 1.1 và 2.1. Trục
hoành thể hiện số phương án (đồng thời là số chuyên gia), trục
tung thể hiện thời gian tính toán (tính bằng giây) . . . . . . . . . . . 70

2.2

So sánh thời gian thực thi (giây) các Quy trình 1.2 và 2.2. Trục
hoành thể hiện số phương án (cũng là số tiêu chí, số chuyên gia),
trục tung thể hiện thời gian tính toán (tính bằng giây) . . . . . . . . 71

3.1

So sánh thuật toán LCA với các thuật toán NFS, RBFNN và ANFIS
trên bộ dữ liệu Car Evaluation. Trục tung thể hiện giá trị của các
chỉ số recall, fp-rate, precision và f-measure (lấy trung bình trên các
lớp) với đơn vị là phần trăm (%) . . . . . . . . . . . . . . . . . . . . . 97

3.2

So sánh thuật toán LCA với các thuật toán NFS, RBFNN và ANFIS
trên bộ dữ liệu Mushroom. Trục tung thể hiện giá trị của các chỉ số
recall, fp-rate, precision và f-measure (lấy trung bình trên các lớp) với
đơn vị là phần trăm (%) . . . . . . . . . . . . . . . . . . . . . . . . . 99

3.3

So sánh các thuật toán LCA và IFVSM với các thuật toán NFS,
RBFNN và ANFIS trên bộ dữ liệu Iris. Trục tung thể hiện giá trị
của các chỉ số recall, fp-rate, precision và f-measure (lấy trung bình
trên các lớp) với đơn vị là phần trăm (%) . . . . . . . . . . . . . . . . 101

vi

Danh sách bảng

1.1

Ma trận quyết định R1 . . . . . . . . . . . . . . . . . . . . . . . . . . 30

1.2

Ma trận quyết định R2 . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.3

Ma trận quyết định R3 . . . . . . . . . . . . . . . . . . . . . . . . . . 31

1.4

αik nằm ở hàng i, cột k là đánh giá tổng hợp của chuyên gia dk về
phương án xi (i = 1, 2, 3, 4; k = 1, 2, 3) . . . . . . . . . . . . . . . . . 31

2.1
2.2
2.3
2.4

Ma trận quyết định P˜1 . . . . .
Ma trận quyết định P˜2 . . . . .
Ma trận P˜ . . . . . . . . . . . . .
Ma trận quyết định R˜ 1 . . . . .

. . . . . . . . . . . . . . . . . . . . . 55
. . . . . . . . . . . . . . . . . . . . . 55

. . . . . . . . . . . . . . . . . . . . . 55
. . . . . . . . . . . . . . . . . . . . . 57

2.6

Ma trận quyết định R˜ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Ma trận quyết định R˜ 3 . . . . . . . . . . . . . . . . . . . . . . . . . . 58

2.7

Đánh giá tổng hợp α˜ ik về phương án xi cho bởi chuyên gia dk (i =

2.5

1, 2, 3, 4; k = 1, 2, 3) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.8

So sánh thời gian thực thi (giây) các Quy trình 1.1 và 2.1 . . . . . . . 69

2.9

So sánh thời gian thực thi (giây) các Quy trình 1.2 và 2.2 . . . . . . . 70

3.1

Bộ dữ liệu Car Evaluation . . . . . . . . . . . . . . . . . . . . . . . . 74

3.2

Ví dụ cho thuật toán LCA . . . . . . . . . . . . . . . . . . . . . . . . 84

3.3

Ví dụ cho thuật toán IFVSM . . . . . . . . . . . . . . . . . . . . . . . 91

3.4

Gán nhãn cho dữ liệu Car Evaluation . . . . . . . . . . . . . . . . . 96

3.5

So sánh thuật toán LCA với các thuật toán NFS, RBFNN và ANFIS
trên bộ dữ liệu Car Evaluation . . . . . . . . . . . . . . . . . . . . . . 97

3.6

So sánh chi tiết thuật toán LCA với các thuật toán NFS, RBFNN và
ANFIS trên bộ dữ liệu Car Evaluation (%) . . . . . . . . . . . . . . . 104

3.7

Bộ dữ liệu Mushroom . . . . . . . . . . . . . . . . . . . . . . . . . . 105
vii

3.8

So sánh thuật toán LCA với các thuật toán NFS, RBFNN và ANFIS
trên bộ dữ liệu Mushroom . . . . . . . . . . . . . . . . . . . . . . . . 105

3.9

So sánh chi tiết thuật toán LCA với các thuật toán NFS, RBFNN và
ANFIS trên bộ dữ liệu Mushroom (%) . . . . . . . . . . . . . . . . . 106

3.10 So sánh các thuật toán LCA và IFVSM với các thuật toán NFS,
RBFNN và ANFIS trên bộ dữ liệu Iris . . . . . . . . . . . . . . . . . 106
3.11 So sánh chi tiết các thuật toán LCA và IFVSM với các thuật toán
NFS, RBFNN và ANFIS trên bộ dữ liệu Iris (%) . . . . . . . . . . . . 107

viii

Danh sách ký hiệu và chữ viết tắt

Ký hiệu hoặc chữ viết tắt

Ý nghĩa

app1

Phép xấp xỉ một số mờ bởi một từ

app2

Phép xấp xỉ một số thực bởi một số nguyên

C, C2

Tổ hợp lồi của hai từ

Cn

Tổ hợp lồi của n từ

C, C2

Tổ hợp lồi của hai ILL

Cn

Tổ hợp lồi của n ILL

CW

Tính toán với từ

∆

Hàm chuyển kết quả gộp chỉ số thành cặp ngôn ngữ

∆ −1

Hàm ngược của hàm ∆

¯
∆

¯
Ánh xạ từ tập các ILV (Π) sang tập các ILL (S)

F (X)

Họ tất cả các tập mờ trên X

h

Điểm (của giá trị mờ trực cảm,
từ trực cảm hoặc số ngôn ngữ trực cảm, tùy trường hợp)

H

Độ chắc chắn (của giá trị mờ trực cảm,
từ trực cảm hoặc số ngôn ngữ trực cảm, tùy trường hợp)

IF ( X )

Họ tất cả các tập mờ trực cảm trên X

IFM

Ma trận mờ trực cảm

IFv

Giá trị mờ trực cảm

IFV

Véc-tơ mờ trực cảm

IFVSM

Thuật toán phân lớp dựa trên
độ tương tự véc-tơ mờ trực cảm

ILL

Từ trực cảm

ILL − AA

Trung bình số học cho các ILL

ILL − HA

Toán tử gộp lai cho cho các ILL

ILL − MED

Trung vị của các ILL

ILL − OWA1

Toán tử OWA cho các ILL trong S

ix

ILL − OWA2

Toán tử OWA cho các ILL trong S¯

ILL − WAA

Trung bình số học có trọng số cho các ILL

ILL − WMED

Trung vị có trọng số của các ILL

ILN

Số ngôn ngữ trực cảm

ILN − HA

Toán tử gộp lai cho các ILN

ILN − OWA

Toán tử OWA cho các ILN

ILN − WAA

Trung bình số học có trọng số cho các ILN

ILV

Giá trị ngôn ngữ trực cảm

ILV − AA

Trung bình số học cho các ILV

ILV − WAA

Trung bình số học có trọng số cho các ILV

LA

Toán tử trung bình cho các từ mở rộng

LCA

Thuật toán phân lớp dựa trên độ tương tự véc-tơ từ

LOWA1

Toán tử OWA cho các từ

LOWA2

Toán tử OWA cho các từ mở rộng

LWA

Trung bình có trọng số cho các từ mở rộng

LWC

Phép hội có trọng số cho các từ

LWD

Phép tuyển có trọng số cho các từ

LWM

Trung vị có trọng số cho các từ

max

Giá trị lớn nhất

MCDM

Ra quyết định đa tiêu chí

med

Trung vị

min

Giá trị nhỏ nhất

∇

Ánh từ các lớp tương đương của ILN (Ω/ ∼ )

¯
sang tập các ILL mở rộng (S)

neg

Phép phủ định
(của một từ hoặc cặp ngôn ngữ, tùy trường hợp)

OHA

Toán tử gộp lai dựa trên thứ tự cho các từ

Ω

Tập hợp các ILN

OOWA

Toán tử OWA dựa trên thứ tự cho các từ

Π

Tập hợp các ILV

round

Hàm làm tròn thông thường

R

Tập hợp các số thực

S

Tập từ với chỉ số rời rạc

S¯

Tập từ với chỉ số liên tục

x

S

Tập hợp tất cả các véc-tơ từ có độ dài n

S

Tập hợp các ILL với chỉ số rời rạc

S¯

Tập hợp các ILL với chỉ số liên tục

TAM

Trung bình cho cặp ngôn ngữ

TOWA

Toán tử OWA cho cặp ngôn ngữ

TWA

Trung bình có trọng số cho cặp ngôn ngữ

θ

Tập hợp các IFv

Θ

Tập hợp các IFV

xi

Mở đầu

1. Sơ lược về tính toán với từ
Thông thường, khi đánh giá một đối tượng nào đó, người ta hay quan tâm đến
các chỉ tiêu định lượng. Chẳng hạn, khi đánh giá một dự án, ta có thể xét đến một
số chỉ tiêu như tổng vốn đầu tư, thời gian hoàn vốn. Để đánh giá học sinh, giáo
viên thường sử dụng điểm số môn học, đó cũng là những chỉ tiêu định lượng.
Bên cạnh các chỉ tiêu định lượng, ta cũng cần quan tâm đến các chỉ tiêu định
tính. Ví dụ như đối với dự án công nghệ thông tin, một số chỉ tiêu định tính là
tính may rủi, tính khả thi và tính tương thích. Ngoài việc đánh giá học sinh theo
điểm trung bình môn học, người ta còn đánh giá theo những tiêu chí định tính
như ý thức đạo đức, các kỹ năng mềm.

Trong nhiều tình huống, việc quy đổi một chỉ tiêu định tính sang định lượng
là không hợp lý. Đơn cử, khi muốn đánh giá đạo đức của học sinh, không thể yêu
cầu giáo viên cho điểm trên thang điểm 10. Khi ấy, một cách tiếp cận khoa học,
khách quan, tương đối dễ thực hiện là để các cố vấn, chuyên gia phát biểu bằng
các từ như vẫn dùng trong ngôn ngữ thông thường. Ví dụ, độ may rủi của một
dự án có thể được chuyên gia đánh giá bằng từ trong tập dưới đây:
S = hầu_như_không, rất_thấp, thấp, trung_bình, cao, khá_cao, rất_cao .

(1)

Tính toán trên tập S như ở (1) được gọi là Tính toán với từ (Computing with
word, CW). CW, lần đầu được Zadeh [69] đưa ra vào năm 1973, là quá trình tính
toán với các đối tượng là các từ và mệnh đề trong ngôn ngữ tự nhiên như là
“nhỏ”, “to”, “đắt”, “hoàn toàn có thể”, hay phức tạp hơn như “ngày mai nhiều
mây và không lạnh lắm”. Mục đích chính của CW là thu hẹp sự khác nhau giữa
cách lập luận của con người và phương pháp tính toán truyền thống.
1

Trên thế giới, có nhiều hướng để thực hiện CW. Người ta hay dùng tập từ
để đánh giá là S =

s0 , s1 , . . . , s g , trong đó số phần tử của S thường là số lẻ,

mỗi si (i = 0, . . . , g) ký hiệu cho một giá trị bằng từ của biến ngôn ngữ (linguistic
variable) [70]. Sau đây là một số tiếp cận cơ bản:
1. Dựa trên thứ tự giữa các từ: Yager [61] coi các từ liên quan đến một biến
ngôn ngữ là thông tin có thứ tự (ordinal information). Thành thử, các kỹ
thuật tính toán cho thông tin có thứ tự có thể áp dụng để tính toán với từ.
Các phép toán đơn giản nhất theo tiếp cận này là max, min, neg (phủ định)

và med (trung vị). Dựa trên các phép toán cơ bản, người ta xây dựng các
toán tử gộp.
2. Dựa trên Nguyên lý Suy rộng: Biến ngôn ngữ cho tương ứng mỗi từ với một
hàm thuộc. Do đó, CW có thể được đưa về tính toán trên hàm thuộc. Cụ thể
hơn, CW được thực hiện như sau [20]:
F˜

app

Sn −→ F (R) −→1 S.

(2)

Trong đó, F˜ là suy rộng (theo Nguyên lý Suy rộng của Zadeh [70]) từ một
toán tử F nào đó. F (R) là tập các số mờ, app1 là phép xấp xỉ một số mờ bởi
một từ.
3. Dựa trên chỉ số của các từ: CW dựa trên chỉ số của các từ được mô tả như
sau [20]:
c

app

Sn −→ [0, g] −→2 {0, 1, . . . , g} −→ S.

(3)

Trong đó, c là toán tử gộp chỉ số của các từ. app2 là một phép xấp xỉ, trả về
một số thuộc tập {0, 1, . . . , g}, số này ứng với một từ trong S.
4. Dựa trên cặp ngôn ngữ: Các tiếp cận trước đều có nhược điểm là làm mất
thông tin, dẫn đến kết quả cuối cùng kém chính xác. Để khắc phục điều

này, Herrera và Martínez [20] đề xuất một cách mới để biểu diễn từ, đó là
biểu diễn theo cặp ngôn ngữ (linguistic 2-tuples). Theo đó thì thông tin ngôn
ngữ được biểu diễn bằng một cặp có dạng (si , ), trong đó si ∈ S là một từ
và số là hệ số sai khác (symbolic translation), được dùng để đo sự khác biệt
giữa thông tin ngôn ngữ và từ si .
2

5. Dựa trên các từ mở rộng: Năm 2004, Xu [54] mở rộng tập từ rời rạc với chỉ
số đối xứng S = s− g , . . . , s0 , . . . , s g (tập từ gốc) thành tập từ với chỉ số
2
2
g g
¯ nếu sα ∈ S
¯
(tập từ mở rộng).Với mỗi sα ∈ S,
liên tục S = sα α ∈ − 2 , 2
thì ta nói sα là từ gốc (original linguistic term), ngược lại, sα là từ ảo (virtual
linguistic term). Với cải tiến này, thông tin sẽ được bảo toàn trong quá trình
gộp. Xu cho rằng, “nói chung, người ra quyết định (decision maker) sử dụng
các từ gốc để đánh giá các phương án và từ ảo chỉ xuất hiện trong quá trình
tính toán”.
Cho tới nay, CW đã và đang được tiếp tục nghiên cứu và ứng dụng trong
nhiều lĩnh vực như ra quyết định (decision making), tìm kiếm thông tin, xếp hạng
trong giáo dục, . . . .
Ở trong nước, từ năm 1999 đến nay, đã có một số nghiên cứu về toán tử gộp
thông tin cho bằng từ. Tiêu biểu là các công trình về nghiệm tập thể mờ và ứng
dụng của tác giả Bùi Công Cường và các cộng sự [12, 13].

2. Mục đích của luận án

1. Nghiên cứu một hướng mới của tính toán với từ
Theo các nghiên cứu truyền thống, CW chỉ dừng lại ở biểu diễn và tính toán trên
các từ đơn lẻ. Các tiếp cận ấy là cần thiết để xây dựng cơ sở lý thuyết ban đầu
cho CW, tuy nhiên, không đủ để giải quyết các bài toán ra quyết định ngày càng
phức tạp đang được đặt ra. Lý do dẫn đến hạn chế của các phương pháp truyền
thống khởi nguồn từ yêu cầu ngày càng cao và phức tạp của các bài toán ra quyết
định với thông tin cho bằng từ, cụ thể:
• Cùng với sự bùng nổ thông tin, chúng ta đang phải đối mặt với những bài

toán ra quyết định có kích cỡ lớn, có thông tin đầu vào đa dạng, không rõ
ràng.
• Chuyên gia, hiểu rộng ra là những người cung cấp đánh giá, có hiểu biết

về bài toán và cách cho ý kiến rất khác nhau. Trong thực tế, họ cho những
đánh giá theo những cách không giống nhau, không đơn thuần là một từ.

3

• Ngoài ra, với sự gia tăng của kích cỡ bài toán ra quyết định, thông tin cho

bằng từ rất cần mô hình biểu diễn và xử lý thích hợp giúp giảm thiểu chi
phí tính toán.
Ta thấy, các hạn chế chính của CW theo các tiếp cận cũ nảy sinh ở chỗ: Một
từ đơn lẻ không đủ biểu diễn ý kiến của chuyên gia. Một trong các cách để khắc
phục điều này là kết hợp CW với các khái niệm mở rộng của tập mờ: tập mờ
loại hai (type-2 fuzzy set) [1, 32, 38, 39], tập mờ trực cảm (intuitionistic fuzzy set)
[10, 26, 36, 37, 46, 47, 71], tập mờ lưỡng lự (hesitant fuzzy set) [41, 48–50], ... .
Luận án nghiên cứu CW có kết hợp với tập mờ trực cảm. Khi kết hợp CW với
tập mờ trực cảm, ta có thông tin bằng từ có yếu tố trực cảm; nghĩa là ngoài thành

phần ngôn ngữ, còn có thành phần thuộc và thành phần không thuộc. Một số
khái niệm đã được đưa ra để mô hình hóa và giải quyết bài toán ra quyết định
với thông tin dạng này là giá trị ngôn ngữ trực cảm (intuitionistic linguistic value,
ILV) [71] và số ngôn ngữ trực cảm (intuitionistic linguistic number, ILN) [46]. Như
ta thấy, có nhiều cách biểu diễn thông tin cho bằng từ. Do vậy, cần khảo sát các
cách biểu diễn thông tin cho bằng từ có yếu tố trực cảm về ngữ nghĩa cũng như
ảnh hưởng của chúng đến quá trình tính toán. Nghiên cứu sinh đề xuất từ trực
cảm (intuitionistic linguistic label, ILL), ILL cũng là một cách biểu diễn thông tin
bằng từ có yếu tố trực cảm. Khái niệm ILL góp phần bổ sung cơ sở lý thuyết cho
tính toán với từ có yếu tố trực cảm. Trong khi triển khai nghiên cứu về ILL chúng
tôi chú ý tới:
• Chứng tỏ khả năng biểu diễn và xử lý thông tin của ILL. Các nghiên cứu

liên quan đến luận án chỉ ra rằng: Trong các bài toán ra quyết định, ta hoàn
toàn có thể thay thế ILV và ILN bởi ILL.
• Về tính thực tiễn, để chỉ ra việc đề xuất ILL là thực sự có ý nghĩa, cần chỉ ra

ưu điểm của ILL so với với ILV và ILN khi giải bài toán ra quyết định.
Các vấn đề nói trên sẽ được trình bày trong Chương 2 của luận án.

2. Đề xuất, nghiên cứu lý thuyết và ứng dụng độ đo tương tự cho từ
Một vấn đề quan trọng nữa được nghiên cứu sinh quan tâm là xây dựng độ tương
tự từ (linguistic similarity measure) và ứng dụng. Về lý thuyết, độ tương tự từ một
4

mặt là phần phát triển tiếp theo của độ tương tự mờ (fuzzy similarity measure)
và độ tương tự mờ trực cảm (intuitionistic fuzzy similarity measure), mặt khác làm
giầu thêm kiến thức đã có về CW. Về khả năng ứng dụng, độ tương tự từ cung
cấp công cụ mới để giải bài toán phân lớp thông tin cho bằng từ và tổng quát hơn

là thông tin có thứ tự.
Độ tương tự (similarity measure) là khái niệm quan trọng để mô tả mức độ
giống nhau giữa các đối tượng, có nhiều ứng dụng trong các bài toán liên quan
đến nhận dạng mẫu như phân cụm, phân lớp dữ liệu và tìm kiếm thông tin.
Trong thực tế, khi làm việc với những đối tượng không rõ ràng, mơ hồ, ta cần độ
tương tự mờ thay vì sử dụng các độ đo truyền thống (rõ). Độ tương tự mờ và độ
tương tự mờ trực cảm đã xuất hiện từ lâu, tuy nhiên, rất gần đây mới được tiên
đề hóa thành các khái niệm và nghiên cứu kỹ lưỡng về mặt lý thuyết trong các
công trình của Baccour [3, 4] vào các năm 2014 và 2016. Các khái niệm được đưa
ra trong [3, 4] cho ta cơ sở Toán học về độ tương tự mờ và mờ trực cảm.
Như đã nói, độ tương tự mờ, độ tương tự mờ trực cảm có thể ứng dụng trong
bài toán phân lớp thông tin mờ. Trong nhiều trường hợp, thông tin là định tính
(cho bằng từ). Yêu cầu phân lớp thông tin cho bằng từ gợi ý đề xuất độ tương
tự từ. Thực nghiệm chỉ ra, độ tương tự từ cho kết quả tốt trong bài toán phân
lớp thông tin cho bằng từ. Mặt khác, vì thông tin cho bằng từ là trường hợp đặc
biệt của thông tin có thứ tự nên khái niệm mới cũng có thể sử dụng để phân lớp
thông tin có thứ tự.
Những nghiên cứu về độ đo tương tự từ và một số mở rộng sẽ được trình bày
ở Chương 3 của luận án.
Tất cả kết quả liên quan đến luận án đã được trình bày tại:
• Bộ môn Tin học, Khoa Toán - Cơ - Tin học, Trường Đại học Khoa học Tự

nhiên, Đại học Quốc gia Hà Nội;
• Xê-mi-na Hệ mờ nơ-ron và ứng dụng, Viện Toán Ứng dụng và Tin học, Đại

học Bách khoa Hà Nội.
Các công bố liên quan đến nội dung luận án gồm 9 công trình khoa học. Trong
đó có 2 bài báo trên tạp chí quốc tế (SCIE), 4 bài báo trên tạp chí trong nước (2 bài
trên Tạp chí Tin học và Điều khiển học, 2 bài trên Chuyên san Công nghệ thông
5

tin và Truyền thông thuộc Tạp chí Khoa học, ĐHQGHN) và 3 báo cáo tại hội thảo
quốc tế (2 kỷ yếu của IEEE, 1 kỷ yếu của Springer).

3. Cấu trúc của luận án
Luận án được viết thành ba chương.
1. Chương 1 trình bày tổng quan về lý thuyết mờ và tính toán với từ, là cơ sở
lý thuyết phục vụ cho các chương sau. Nội dung của chương đề cập đến ba
mảng lý thuyết:
• Lý thuyết mờ và mờ trực cảm;
• Toán tử gộp thông tin cho bằng từ;
• Phân lớp dựa trên độ tương tự mờ.

2. Chương 2, là đóng góp thứ nhất của luận án, đề xuất khái niệm ILL và ứng
dụng trong bài toán ra quyết định tập thể. Chương này bao gồm các nội
dung:
• Đề xuất ILL mà một số phép toán cơ bản làm nền tảng để xây dựng

các toán tử gộp;
• Định nghĩa các toán tử gộp cho ILL;
• So sánh ILL với ILV và ILN.

3. Chương 3, liên quan đến các đóng góp còn lại của luận án, được chia thành
các phần:
• Đề xuất độ tương tự từ, độ tương tự véc-tơ từ và Thuật toán LCA;
• Đề xuất độ tương tự giá trị mờ trực cảm, độ tương tự véc-tơ mờ trực

cảm và Thuật toán IFVSM;
• Thực nghiệm: Đánh giá các thuật toán LCA, IFVSM.

6

Chương 1
Tổng quan về lý thuyết mờ và tính toán với từ

Chương này điểm lại các kiến thức liên quan trực tiếp đến hai chương còn lại,
gồm bốn phần:
1. Sơ lược về lý thuyết mờ và mờ trực cảm;
2. Toán tử gộp thông tin cho bằng từ;
3. Phân lớp dựa trên độ tương tự mờ;
4. Kết luận chương.

1.1

Sơ lược về lý thuyết mờ và mờ trực cảm

1.1.1

Tập mờ, số mờ và biến ngôn ngữ

1.1.1.1

Tập mờ

Năm 1965, Zadeh đưa ra khái niệm tập mờ (fuzzy set) [68] bằng cách mở rộng
hàm đặc trưng (nhận một trong hai giá trị 0 và 1, cho biết một phần tử thuộc hay
không thuộc một tập hợp) thành hàm thuộc (nhận giá trị thuộc đoạn [0, 1], xác
định độ thuộc của một phần tử vào một tập hợp). Cụ thể, ta có định nghĩa sau.

Định nghĩa 1.1. [68] Cho tập X = ∅. Tập mờ A trên X được định nghĩa bởi hàm
µ A : X → [0, 1]. Họ tất cả các tập mờ trên X được ký hiệu là F ( X ).
Trong Định nghĩa 1.1, tập X được gọi là không gian nền (universe of discourse).
Hàm µ A là hàm thuộc (membership function). Với mỗi x ∈ X, số thực µ A ( x ) ∈ [0, 1]
là độ thuộc (membership degree) của phần tử x vào tập mờ A.
7

Trên cơ sở mở rộng các tính chất của hàm đặc trưng trên tập hợp theo nghĩa
thông thường, Zadeh [68] định nghĩa các quan hệ và phép toán cơ bản cho tập
mờ như sau.
Định nghĩa 1.2. [68] Xét các tập mờ A, B ∈ F ( X ).
1. A được gọi là tập con của B, ký hiệu là A ⊂ B, nếu:
µ A ( x ) ≤ µ B ( x ) , ∀ x ∈ X;
2. A và B được gọi là bằng nhau, ký hiệu bởi A = B, nếu A ⊂ B và B ⊂ A;
3. Phần bù của A là tập mờ A¯ ∈ F ( X ) thỏa mãn:
µ A¯ ( x ) = 1 − µ A ( x ) , ∀ x ∈ X;
4. Giao của A và B là tập mờ A ∩ B ∈ F ( X ) mà:
µ A∩ B ( x ) = min (µ A ( x ) , µ B ( x )) , ∀ x ∈ X;
5. Hợp của A và B là tập mờ A ∪ B ∈ F ( X ) sao cho:
µ A∪ B ( x ) = max (µ A ( x ) , µ B ( x )) , ∀ x ∈ X.
1.1.1.2

Số mờ

Số mờ (fuzzy number) là một trường hợp riêng quan trọng của tập mờ. Số mờ là
tập mờ trên tập các số thực R, thỏa mãn thêm một số điều kiện nhằm phát triển
những khái niệm của Số học và Giải tích. Định lý 1.1 sau đây cho biết dạng tổng
quát của số mờ.
Định lý 1.1. [33] Xét A ∈ F (R). A là một số mờ khi và chỉ khi tồn tại đoạn [ a, b] = ∅

sao cho:




 l ( x ) với x ∈ (−∞, a)
µ A (x) =
.
1
với x ∈ [ a, b]



r ( x ) với x ∈ (b, +∞)

Trong đó:

8

1. l : (−∞, a) → [0, 1] là hàm đơn điệu tăng, liên tục phải trên (−∞, a), và tồn tại
ω1 ≤ a sao cho l ( x ) = 0 với mọi x ∈ (−∞, ω1 );
2. r : (b, +∞) → [0, 1] là hàm đơn điệu giảm, liên tục trái trên (b, +∞), và tồn tại
ω2 ≥ b sao cho r ( x ) = 0 với mọi x ∈ (ω2 , +∞).
Hai dạng số mờ hay được sử dụng nhất là số mờ tam giác (triangular-shape
fuzzy number) và số mờ hình thang (trapezoidal-shape fuzzy number).
1. Số mờ tam giác A = ( a1 , a2 , a3 ) (với a1 < a2 < a3 ) là số mờ

Định nghĩa 1.3.

mà hàm thuộc có dạng:

µ A (x) =



0




 x − a1

với x ∈ (−∞, a1 )






 0

với x ∈ [ a2 , a3 ]

a2 − a1
a3 − x
a3 − a2

với x ∈ [ a1 , a2 ]

.

với x ∈ ( a3 , +∞)

2. Số mờ hình thang A = ( a1 , a2 , a3 , a4 ) (với a1 < a2 < a3 < a4 ) là số mờ mà
hàm thuộc có dạng:

µ A (x) =



0




x − a1



 a2 − a1
1



a4 − x


a4 − a3




 0

với x ∈ (−∞, a1 )
với x ∈ [ a1 , a2 ]
với x ∈ [ a2 , a3 ]

.

với x ∈ [ a3 , a4 ]
với x ∈ ( a4 , +∞)

Để thực hiện các phép toán số học cho các số mờ, người ta thường sử dụng
hai tiếp cận: Số học đoạn (interval arithmetic) và Nguyên lý suy rộng của Zadeh
(Zadeh’s Extension Principle) [70].
Định nghĩa 1.4. [70] Xét các tập khác rỗng Xi (i = 1, . . . , n) và Y. Ký hiệu X là
n

tích Đề-các X = ∏ Xi . Nguyên lý suy rộng cho phép làm mờ hàm (rõ)
i =1

F : X → Y, x = ( x1 , . . . , xn ) → y = F ( x1 , . . . , xn )
thành hàm (mờ)
F˜ :

n

∏ F (Xi ) → F (Y ) , ( A1, . . . , An ) → B.

i =1

9

Tập mờ B ∈ F (Y ) được xác định thông qua các tập mờ Ai ∈ F ( Xi ) (i = 1, . . . , n)
và hàm F như sau:
µ B (y) =

sup
{ x ∈ X |y= F ( x )}

1.1.1.3

min

i =1,...,n

µ Ai ( x i )

, ∀y ∈ Y.

Biến ngôn ngữ

Theo Zadeh [70], biến ngôn ngữ (linguistic variable) là biến mà giá trị của nó không
phải số mà là từ (word) hay câu (sentence) trong ngôn ngữ tự nhiên. Nói chung, từ
hay câu đều không rõ ràng bằng số, tuy nhiên lại gần với cách mà con người hiểu
và giải thích thế giới thực. Sau đây là khái niệm biến ngôn ngữ do Zadeh đưa ra
vào năm 1975.
Định nghĩa 1.5. [70] Biến ngôn ngữ là một bộ năm có dạng ( L, T ( L) , X, G, M ),

trong đó:
1. L là tên của biến ngôn ngữ;
2. T ( L) là tập các giá trị bằng từ của biến ngôn ngữ;
3. X là không gian nền, gồm tất cả các giá trị bằng số của biến ngôn ngữ;
4. G là quy tắc cho phép sinh các từ trong T ( L); và
5. M : T ( L) → F ( X ) là một luật ngữ nghĩa, cho tương ứng mỗi từ s trong
T ( L) vào một tập mờ trên X.
Ví dụ 1.1. Trong Hình 1.1 (Trang 11), biến ngôn ngữ L = “Heịght” có tập các giá trị
bằng từ là T ( L) = {Very_Low, Low, Medium, High, Very_High}. X là tập hợp các
giá trị bằng số của “Height”. Nhờ luật ngữ nghĩa M, mỗi từ trong T ( L) được ánh xạ
vào một tập mờ trên X.

1.1.2

Tập mờ trực cảm và giá trị mờ trực cảm

Năm 1986, Atanassov [2] khái quát tập mờ của Zadeh thành tập mờ trực cảm
(intuitionistic fuzzy set, IFS). Mỗi tập mờ trực cảm được đặc trưng bởi hàm thuộc
và hàm không thuộc (non-membership function).

10

Hình 1.1: Biến ngôn ngữ “Heịght”
Định nghĩa 1.6. [2] Cho X = ∅, mỗi tập mờ trực cảm A trên X được định nghĩa
bởi hàm thuộc µ A : X → [0, 1] và hàm không thuộc νA : X → [0, 1] sao cho
0 ≤ µ A ( x ) + νA ( x ) ≤ 1 với mọi x ∈ X. Họ tất cả những tập mờ trực cảm trên X
được ký hiệu là IF ( X ).
Với mỗi x ∈ X, các đại lượng µ A ( x ), νA ( x ) và π A ( x ) = 1 − µ A ( x ) − νA ( x )
lần lượt được gọi là độ thuộc (membership degree), độ không thuộc (nonmembership

degree) và độ lưỡng lự (indeterminancy degree) của x vào tập A.
Rõ ràng rằng, tập mờ là trường hợp đặc biệt của tập mờ trực cảm khi cho độ
lưỡng lự của mỗi phần tử x vào tập hợp đó bằng không.
Sau đây là một số khái niệm cơ bản trên tập mờ trực cảm.
Định nghĩa 1.7. [2] Cho hai tập mờ trực cảm A, B ∈ IF ( X ).
1. A được gọi là tập con của B, ký hiệu là A ⊂ B, nếu:
µ A ( x ) ≤ µ B ( x ) , νA ( x ) ≥ νB ( x ) , ∀ x ∈ X;
2. A và B được gọi là bằng nhau, ký hiệu là A = B, nếu A ⊂ B và B ⊂ A;
11

3. Phần bù của A là tập mờ trực cảm A¯ ∈ IF ( X ) sao cho:
µ A¯ ( x ) = 1 − µ A ( x ) , νA¯ ( x ) = 1 − νA ( x ) , ∀ x ∈ X;
4. Giao của A và B là tập mờ trực cảm A ∩ B ∈ IF ( X ) mà:
µ A∩ B ( x ) = min (µ A ( x ) , µ B ( x )) , νA∩ B ( x ) = max (νA ( x ) , νB ( x )) , ∀ x ∈ X;
5. Hợp của A và B là tập mờ trực cảm A ∪ B ∈ IF ( X ) thỏa mãn:
µ A∪ B ( x ) = max (µ A ( x ) , µ B ( x )) , νA∪ B ( x ) = min (νA ( x ) , νB ( x )) , ∀ x ∈ X.
Theo định nghĩa tập mờ trực cảm thì quan hệ giữa phần tử x ∈ X với tập mờ
trực cảm A được đặc trưng bởi cặp (µ A ( x ) , νA ( x )). Đây là cặp số không âm có
tổng không vượt quá 1. Mỗi cặp như vậy được Xu [58] gọi là một giá trị mờ trực
cảm (intuitionistic fuzzy value, IFv).
Định nghĩa 1.8. [58] Cặp số α = (µα , να ) được gọi là một giá trị mờ trực cảm (IFv)
nếu µα , να ∈ [0, 1] và:
µα + να ≤ 1.

(1.1)

Xét α1 = (µα1 , να1 ) và α2 = (µα2 , να2 ) là hai IFv. α1 và α2 được gọi là bằng nhau, ký
hiệu α1 = α2 , nếu µα1 = µα2 và να1 = να2 . Tập hợp tất cả các IFv được ký hiệu là θ.
Để so sánh hai giá trị IFv, người ta dùng điểm (score) và độ chắc chắn (confident

degree) như trong Định nghĩa 1.9.
Định nghĩa 1.9.

1. Điểm của α ∈ θ, ký hiệu là h (α), được định nghĩa như

sau [9]:
h (α) = µα − να .

(1.2)

Khi đó, hàm h : θ → [−1, 1] được gọi là hàm điểm (score function).
2. Độ chắc chắn của α ∈ θ, ký hiệu là H (α), được định nghĩa như sau [24]:
H (α) = µα + να .

(1.3)

Khi đó, hàm H : θ → [0, 1] được gọi là hàm chắc chắn (confident function).

12

Một số phương pháp tính toán dựa trên từ ngôn ngữ trực cảm và ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về