TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Trích chọn đặc trưng và phân tích ảnh
X-Quang nha khoa
NGUYỄN ĐỨC VƯỢNG
Ngành: Cơng nghệ thơng tin
Giảng viên hướng dẫn:
PGS.TS. Trần Đình Khang
Viện:
Công nghệ thông tin và Truyền thông
HÀ NỘI, 2020
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Trích chọn đặc trưng và phân tích ảnh
X-Quang nha khoa
NGUYỄN ĐỨC VƯỢNG
Ngành: Cơng nghệ thơng tin
Giảng viên hướng dẫn:
PGS.TS. Trần Đình Khang
Chữ ký của GVHD
Viện:
Công nghệ thông tin và Truyền thông
HÀ NỘI, 2020
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn : Nguyễn Đức Vượng
Đề tài luận văn: Trích chọn đặc trưng và phân tích ảnh X-quang nha khoa
Chun ngành: Cơng nghệ thông tin
Mã số SV: CA180147
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác
nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày
27 tháng 6 năm 2020 với các nội dung sau:
STT
Nội dung chỉnh sửa
Mục lục
Trang
1
Đề cập và so sánh sự khác biệt của thuật toán phân cụm
mờ cải tiến của tác giả với ý tưởng cải thiện hệ số mũ
Chương 1
khi phân cụm trong thuật toán FCM trước đây (thuật
Chương 3
toán HAm-FCM của tác giả Lê Thái Hưng, Trần Đình
Khang), tài liệu tham khảo [15]
2
Đổi tên thuật tốn phân cụm mờ cải tiến từ HAm-FCM
Tồn
bộ
thành XHAm-FCM do có sự trùng lặp, khó phân biệt
~
luận văn
với thuật tốn đã được công bố trước đây
3
Việc đánh giá và so sánh kết quả phân cụm trong
chương 3 đã được thực hiện theo phương pháp randomsplit với độ đo ngoài (chỉ số Rand Index), tác giả sử
dụng 70% bộ dữ liệu để tiến hành phân cụm và đánh giá Chương 3
bằng 30% bộ dữ liệu cịn lại thay vì sử dụng tất cả toàn
bộ dữ liệu cho vào phân cụm như trước. Update toàn bộ
các bảng kết quả.
4
Đã cập nhật kết quả khảo sát sự ảnh hưởng của tham số Chương 3
tới hiệu quả của thuật toán phân cụm mới XHAm-FCM. Phần
~
Được cập nhật trong các bảng kết quả ở Chương 3.
3.2.3.3
5
Việc sử dụng tham số step ở phần 3.1 đã được cập nhật
Chương 3
Phần 3.1
29
6
Đã thêm trích dẫn tài liệu tham khảo cho thuật toán
Chương 2
FCMT2I trong Chương 2
11
5
27-28
~
7
Bảng kết quả đánh giá ở Chương 3 đã được sửa lại theo
Chương 3
format table
~
8
Luận giả tường minh thách thức cũng như việc lựa chọn
phân cụm mờ làm cách tiếp cận giải quyết bài tốn của Chương 1
mình
4-5
19
Đã giải thích việc sử dụng thuật toán phân cụm
FCMT2I để tiến hành mở rộng ở Chương 1.
Chương 1
5
10
Ý nghĩa việc xác định trục răng số 8 trong nha khoa đã
Chương 4
được trình bày rõ trong Chương 4
42
11
Lỗi soạn thảo, chính tả
~
~
Ngày tháng năm 2020
Tác giả luận văn
Giáo viên hướng dẫn
CHỦ TỊCH HỘI ĐỒNG
LỜI CẢM ƠN
Đầu tiên, tôi xin được gửi lời cảm ơn sâu sắc nhất tới Thầy giáo – PGS.TS
Trần Đình Khang, Giảng viên trường Đại học Bách Khoa Hà Nội đã hướng dẫn
và cho tôi những lời khuyên quý báu trong q trình thực hiện luận văn.
Tiếp theo, tơi xin chân thành cảm ơn các thầy cô trong Viện Công nghệ thông
tin và truyền thông, Viện Đào tạo sau đại học, Trường Đại học Bách Khoa Hà Nội
đã tạo điều kiện cho tơi trong suốt q trình học tập và nghiên cứu tại trường.
Cuối cùng, tơi xin bày tỏ lịng cảm ơn tới những người thân trong gia đình,
đồng nghiệp, bạn bè đã động viên và giúp đỡ để tôi hoàn thành bản luận văn này.
HỌC VIÊN
Nguyễn Đức Vượng
MỤC LỤC
MỤC LỤC ............................................................................................................... i
DANH MỤC HÌNH VẼ ........................................................................................ iii
DANH MỤC BẢNG BIỂU .................................................................................. iv
MỞ ĐẦU ................................................................................................................ 1
CHƯƠNG 1: GIỚI THIỆU BÀI TỐN TRÍCH CHỌN ĐẶC TRƯNG VÀ PHÂN
TÍCH ẢNH X-QUANG NHA KHOA ................................................................... 3
1.1. Đặt vấn đề ................................................................................................. 3
1.2.
Hướng tiếp cận của luận văn. ................................................................... 4
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT ...................................................................... 6
2.1. Bài toán phân cụm dữ liệu ........................................................................ 6
2.2.
Phân cụm mờ và thuật toán FCM. ............................................................ 7
2.3.
Thuật toán phân cụm FCMT2I .............................................................. 11
2.3.1. Ý tưởng của thuật toán FCMT2I ......................................................... 11
2.3.2. Thuật toán FCMT2I............................................................................. 16
2.4.
Tổng quan về đại số gia tử...................................................................... 19
2.4.1. Đại số gia tử ........................................................................................ 19
2.4.2. Đại số gia tử đối xứng tuyến tính ........................................................ 20
2.4.3. Đại số gia tử hữu hạn........................................................................... 22
2.5. Các chỉ số đánh giá mức độ hiệu quả của thuật toán phân cụm ................ 23
2.5.1. Davies-Bouldin .................................................................................... 23
2.5.2. Alternative Silhouetee ......................................................................... 23
2.5.3. PBM..................................................................................................... 24
2.5.4. Rand Index .......................................................................................... 24
CHƯƠNG 3: PHƯƠNG PHÁP PHÂN CỤM VỚI NHIỀU TRỌNG SỐ MŨ
NGÔN NGỮ DỰA TRÊN ĐẠI SỐ GIA TỬ ...................................................... 26
3.1. Điều chỉnh trọng số mũ theo cụm – thuật toán XHAm-FCM1 .............. 27
3.1.1. Phương pháp ........................................................................................ 27
3.1.2. Chi tiết thuật toán ................................................................................ 28
3.1.3. Kết quả thử nghiệm ............................................................................. 29
3.2. Điều chỉnh trọng số mũ theo từng phần tử - thuật toán XHAm-FCM2. ... 31
3.2.1. Phương pháp ........................................................................................ 31
3.2.2. Chi tiết thuật toán. ............................................................................... 33
i
3.2.3. Thử nghiệm, kết quả và đánh giá. ....................................................... 34
3.3. Nhận xét và đánh giá thuật toán. ............................................................... 39
CHƯƠNG 4: TRÍCH CHỌN ĐẶC TRƯNG RĂNG TỪ ẢNH...........................40
X-QUANG NHA KHOA......................................................................................40
4.1. Bài toán ...................................................................................................... 40
4.2. Cấu trúc ảnh X-quang nha khoa ................................................................ 40
4.3. Phương pháp .............................................................................................. 41
4.3.1. Bước tiền xử lý ảnh ............................................................................. 42
4.3.2. Bước phân cụm ảnh............................................................................. 43
4.3.3. Bước xác định trục của răng ............................................................... 45
4.4. Cấu trúc chương trình ................................................................................ 51
4.5. Kết quả, nhận xét và đánh giá .................................................................. 52
KẾT LUẬN ...........................................................................................................54
TÀI LIỆU THAM KHẢO ....................................................................................56
PHỤ LỤC..............................................................................................................58
ii
DANH MỤC HÌNH VẼ
Hình 2.1. Mơ phỏng bài tốn phân cụm bằng hình ảnh ......................................... 6
Hình 2.2.Sự khác biệt giữa phân cụm rõ và phân cụm mờ .................................... 8
Hình 2.3.“Khoảng mờ tối đa” trong trường hợp phân cụm rõ ............................. 12
Hình 2.4.Mối quan hệ giữa khoảng cách tương đối và độ thuộc theo tham số m.
.............................................................................................................................. 13
Hình 2.5.Mối quan hệ giữa vùng mờ tối đa và tham số mũ m(a) khi m nhỏ, (b) khi
m lớn..................................................................................................................... 13
Hình 2.6.Vùng mờ tối đá thích hợp với trường hợp hai cụm có cấu trúc và bán kính
giống nhau. ........................................................................................................... 14
Hình 2.7.Vùng mờ tối đa trong các trường hợp (a) m nhỏ, (b) m lớn với hai cụm
có bán kính và cấu trúc khác nhau ....................................................................... 14
Hình 2.8.“Vùng mờ tối đa” mong muốn trong trường hợp hai cụm có bán kính và
cấu trúc khác nhau. ............................................................................................... 15
Hình 3.1.Ví dụ minh họa cho việc xác định “có nhiều điểm gần hơn” giữa hai điểm
A,B ....................................................................................................................... 32
Hình 4.1.Một bức ảnh X-quang nha khoa ............................................................ 41
Hình 4.2.Các bước thực hiện trích xuất trục của các răng số 8 ........................... 42
Hình 4.3.Vùng ảnh lấy để tiến hành phân tích. .................................................... 43
Hình 4.4.Ảnh “aug (3).jpg” sau khi tiến hành crop. ............................................ 43
Hình 4.5.Kết quả sau khi phân cụm với ảnh đầu vào “aug (3).jpg”. ................... 44
Hình 4.6.Ảnh canny thu được với thresh_hold = 120 .......................................... 46
Hình 4.7.Vùng chưa thơng tin cần thiết và vùng nhiễu (màu vàng) .................... 46
Hình 4.8.Kết quả sau khi loại nhiễu ..................................................................... 47
Hình 4.9.Ảnh gốc sau khi sử dụng thuật tốn Canny .......................................... 48
Hình 4.10.Điểm trong răng được tìm ra với các răng số 8 .................................. 49
Hình 4.11.Mơ phỏng phương pháp tìm trục răng ................................................ 49
Hình 4. 12.Một ví dụ minh họa kết quả đạt được với ảnh “aug (3).jpg” ............. 50
Hình 4.13.Kết quả đạt được khi khơng sử dụng thuật tốn phân cụm với ảnh “aug
(3).jpg”. ................................................................................................................ 50
Hình 4.14.Giao diện chương trình. ...................................................................... 51
iii
DANH MỤC BẢNG BIỂU
Bảng 2.1.Bảng quan hệ SIG................................................................................. 21
Bảng 2. 2.Giá trị fm(.), v(.) với cá tham số cho trước ......................................... 22
Bảng 3.1.Chi tiết về các bộ dữ liệu IRIS, HEART và GLASS ........................... 29
Bảng 3.2.Kết quả thử nghiệm thuật toán FCMT2I và XHAm-FCM1 với bộ dữ liệu
IRIS ...................................................................................................................... 30
Bảng 3.3.Kết quả thử nghiệm thuật toán FCMT2I và HAmFCM với bộ dữ liệu
HEART ................................................................................................................ 30
Bảng 3. 4.Kết quả thử nghiệm thuật toán FCMT2I và HAmFCM với bộ dữ liệu
GLASS ................................................................................................................. 31
Bảng 3. 5.Chi tiết về 5 bộ dữ liệu đươc sử dụng trong việc phân tích độ hiệu quả
của thuật toán XHAm-FCM2. ............................................................................. 35
Bảng 3. 6 Bảng kết quả ảnh hưởng của tham số m1, m2 tới kết quả phân cụm với
bộ dữ liệu IRIS .................................................................................................... 36
Bảng 3. 7 Bảng đánh giá so sánh các thuật toán phân cụm với bộ dữ liệu IRIS. 36
Bảng 3. 8 Bảng kết quả ảnh hưởng của tham số m1, m2 tới kết quả phân cụm với
bộ dữ liệu WINE. ................................................................................................ 37
Bảng 3. 9. Bảng đánh giá so sánh các thuật toán phân cụm với bộ dữ liệu WINE
.............................................................................................................................. 37
Bảng 3. 10 Bảng kết quả ảnh hưởng của tham số m1, m2 tới kết quả phân cụm với
bộ dữ liệu WDBC. ............................................................................................... 37
Bảng 3. 11 Bảng đánh giá so sánh các thuật toán phân cụm với bộ dữ liệu WDBC.
.............................................................................................................................. 37
Bảng 3. 12 Bảng kết quả ảnh hưởng của tham số m1, m2 tới kết quả phân cụm với
bộ dữ liệu HEART. .............................................................................................. 38
Bảng 3.13.Bảng đánh giá so sánh các thuật toán phân cụm với bộ dữ liệu HEART.
.............................................................................................................................. 38
Bảng 3. 14 Bảng kết quả ảnh hưởng của tham số m1, m2 tới kết quả phân cụm với
bộ dữ liệu ECOLI................................................................................................. 38
Bảng 3. 15.Bảng đánh giá so sánh các thuật toán phân cụm với bộ dữ liệu ECOLI.
.............................................................................................................................. 38
Bảng 4.1.Kết quả chạy chương trình với bộ dữ liệu gồm 40 ảnh X-quang ......... 53
iv
MỞ ĐẦU
Trong những năm gần đây, sự phát triển của khoa học thơng tin và máy tính
đã đem lại rất nhiều thành tựu to lớn trong mọi mặt của đời sống như kĩ thuật, kinh
tế và xã hội. Khi mà đời sống con người càng được nâng cao, vấn đề chăm sóc sức
khỏe ngày càng được chú trọng. Một trong những lĩnh vực sức khỏe mà con người
quan tâm nhất đó chính là các bệnh liên quan tới răng miệng.
Ảnh X-quang về răng là một trong những nguồn thông tin rất cần thiết cho
các nha sĩ có thể xác định triệu chứng bệnh hoặc các tổn thương về răng miệng
một cách chính xác. Nếu như trước kia, cần có các bác sĩ đọc ảnh X-quang để xác
định các dấu hiệu cho việc chuẩn đốn và điều trị bệnh, thì ngày nay, với sự phát
triển của khoa học kĩ thuật, đặc biệt là trong lĩnh vực trí tuệ nhân tạo, chúng ta có
thể nghĩ tới việc làm ra một chương trình máy tính đã được huấn luyện có thể
“đọc” các ảnh X-quang và phát hiện ra các dấu hiệu bệnh ban đầu thay các nha sĩ.
Đã có một số cơng trình nghiên cứu về phân tích ảnh X-quang như việc trích
chọn một số đặc trưng ảnh Local Patterns Binary feature (LBP), Entropy, Gradient
feature (GRA)… Từ những bộ dữ liệu trích chọn được đó, người ta dùng các
phương pháp học máy khác nhau để huấn luyện các mơ hình chuẩn đốn bệnh.
Tuy nhiên, các đặc trưng trích chọn được ở trên chủ yếu thiên về việc trích chọn
đặc trưng của ảnh mà khơng có đặc trưng nào liên quan tới răng.
Hướng tiếp cận của luận văn là đưa ra một phương pháp tường minh, sử dụng
thuật toán phân cụm cải tiến và các các kĩ thuật xử lý ảnh để xác định các đặc trưng
về răng trong ảnh X-quang nha khoa. Cụ thể, trong luận văn này, đặc trưng đó là
tìm ra trục của các răng khôn (răng số 8), đây là một trong những đặc trưng quan
trọng trong việc xác định răng khơn có bị mọc lệch hay khơng.
Bố cục của luận văn bao gồm 4 Chương như sau:
Chương 1: Giới thiệu bài tốn trích chọn đặc trưng và phân tích ảnh X-quang nha
khoa.
Chương 2: Trình bày các cơ sở lý thuyết được sử dụng trong luận văn.
Chương 3: Trình bày ý tưởng, nội dung, kết quả thử nghiệm về thuật toán phân
cụm mới được cải tiền từ thuật toán phân cụm mờ truyền thống Fuzzy C-means
Clustering – FCM sử dụng nhiều trọng số mũ ngôn ngữ dựa trên đại số gia tử, thuật
tốn XHAm-FCM.
Chương 4: Trình bày phương pháp trích chọn đặc trưng về răng trong ảnh Xquang nha khoa, có sử dụng phương pháp phân cụm mới được đề xuất trong
Chương 3.
1
Kết luận: Đưa ra được những kết quả đạt được trong luận văn và định hướng phát
triển tiếp cho bài toán.
Phụ lục và Tài liệu tham khảo
2
CHƯƠNG 1: GIỚI THIỆU BÀI TỐN TRÍCH CHỌN ĐẶC TRƯNG VÀ
PHÂN TÍCH ẢNH X-QUANG NHA KHOA
1.1. Đặt vấn đề
Trong những năm gần đây, sự phát triển của khoa học thông tin và máy tính
đã đem lại rất nhiều thành tựu to lớn trong mọi mặt của đời sống như kĩ thuật, kinh
tế và xã hội. Khi mà đời sống con người càng được nâng cao, vấn đề chăm sóc sức
khỏe ngày càng được chú trọng. Một trong những lĩnh vực sức khỏe mà con người
quan tâm nhất đó chính là các bệnh liên quan tới răng miệng.
Ảnh X-quang nha khoa là những hình ảnh chụp răng, xương và mơ mềm
xung quanh răng bằng tia X-quang. Hình chụp X-quang sẽ cho thấy những khoảng
hở, những cấu trúc răng, tình trạng mất xương… những thứ mà sẽ khó phát hiện
khi khám bằng mắt thường. Với các ảnh X-quang, nha sĩ có thể nhìn thấy rõ hơn
các vấn đề răng miệng bên trong. Ảnh X-quang có vai trị rất quan trọng trong việc
chuẩn đốn và điều trị các bệnh về răng miệng, ví dụ như:
• Phát hiện ra những vấn đề gặp phải trong miệng như sâu răng, tổn thương
xương, chấn thương răng…
• Phát hiện ra những răng ở vị trí khơng đúng hay răng bị xuyên sâu vào trong
nướu, những răng mọc q sát nhau…
• Kiểm tra vị trí của những chiếc răng vĩnh viễn đối với những trẻ cịn răng
sữa.
• Phát hiện sâu răng.
• …
Như vậy, việc chụp và phân tích ảnh X-quang nha khoa là rất quan trọng
trong quá trình khám, chữa và chăm sóc răng miệng.
Nếu như trước kia, cần có các bác sĩ đọc ảnh X-quang để xác định các dấu
hiệu cho chuẩn đoán và điều trị bệnh, thì ngày nay, với sự phát triển của khoa học
kĩ thuật, đặc biệt là trong lĩnh vực trí tuệ nhân tạo, chúng ta có thể nghĩ tới việc
làm ra một chương trình máy tính đã được huấn luyện có thể “đọc” các ảnh Xquang và phát hiện ra các dấu hiệu bệnh ban đầu thay các nha sĩ. Luận văn này tập
trung nhiên cứu phương pháp có thể trích chọn ra được một trong những đặc trưng
quan trọng của răng, đó là trục của các răng khơn hay cịn gọi là răng số 8. Từ đó
bước đầu có thể giúp các nha sĩ “đọc” ảnh X-quang.
3
1.2. Hướng tiếp cận của luận văn.
Đã có một số cơng trình nghiên cứu về phân tích ảnh X-quang như việc trích
chọn một số đặc trưng ảnh Local Patterns Binary feature (LBP), Entropy, Gradient
feature (GRA)… Từ những bộ dữ liệu trích chọn được đó, người ta dùng các
phương pháp học máy khác nhau để huấn luyện các mơ hình chuẩn đốn bệnh.
Tuy nhiên, các đặc trưng trích chọn được ở trên chủ yếu thiên về việc trích chọn
đặc trưng của ảnh mà khơng có đặc trưng nào liên quan tới răng.
Bài toán nghiên cứu của luận văn là tập trung nghiên cứu phương pháp trích
chọn ra được đặc trưng của răng trong bức ảnh X-quang nha khoa. Trong quá trình
nghiên cứu, tác giả thấy được tầm quan trọng của việc phân cụm bức ảnh để từ đó
làm nổi bật vùng màu chứa răng trong bức ảnh lên so với các thành phần khác.
Trong các thuật toán phân cụm hiện thời, phân cụm mờ cho thấy tiềm năng về độ
chính xác cao hơn các thuật toán phân cụm rõ hay phân cụm tuần tự khác tuy có
phải đánh đổi về độ phức tạp tính tốn. Do vậy, trong luận văn này, tác giả chọn
phân cụm mờ làm thuật toán phân cụm chính sử dụng trong luận văn. Bên cạnh
việc nghiên cứu bài tốnh chính là trích chọn đặc trưng ảnh X-quang nha khoa,
luận văn còn đưa ra một phương pháp phân cụm mờ cải tiến với nhiều tiềm năng
ứng dụng và đạt hiệu quả tương đối tốt.
Hướng tiếp cận của luận văn là tiến hành nghiên cứu phương pháp để có thể
trích chọn được đặc trưng của răng, cụ thể ở đây là trục của các răng khôn từ một
bức ảnh X-quang nha khoa một cách tường minh qua các bước:
Bước 1: Tiến hành phân cụm ảnh X-quang nha khoa với thuật toán phân cụm
được cải tiến từ thuật toán phân cụm mờ FCM truyền thống để làm tăng độ chính
xác của thuật tốn, từ đó có thể làm nổi bật lên vị trí cũng như hình dạng của các
răng trong bức hình. Chi tiết về ý tưởng và phương pháp được nêu rõ trong Chương
3.
Bước 2: Sử dụng kết quả ảnh sau khi phân cụm từ bước 1, chúng ta tiến hành
lấy viền bao ngoài của răng để xác định hình dạng của răng số 8 thơng qua thư
viện OpenCV, một trong những thư viện mạnh mẽ nhất được sử dụng để xử lý và
phân tích ảnh. Từ đường biên thu được của răng, chúng ta tiến hành tìm vị trí của
răng số 8, vẽ lên khung và trục của nó bằng các phương pháp tường minh, chi tiết
được nêu ở Chương 4.
Phương pháp phân cụm sử dụng trong luận văn được xây dựng và cải tiến
dựa trên thuật toán phân cụm mờ truyền thống, qua việc đi sâu vào phân tích ảnh
hưởng của trọng số mũ 𝑚𝑚 trong việc tính tốn độ thuộc cũng như giá trị vector các
tâm cụm. Thay vì sử dụng một tham số mũ duy nhất, phương pháp được sử dụng
4
trong luận văn sử dụng “nhiều trọng số mũ” khác nhau, thích hợp cho từng cụm
hay cho từng phần tử trong tập dữ liệu cần phân cụm.
Có rất nhiều thuật toán mở rộng của thuật toán phân cụm mờ. Tuy nhiên, việc
mở rộng theo hướng sử dụng “nhiều trọng số mũ” thay vì một hằng số mũ như
trong thuật tốn FCM truyền thơng thì thuật tốn phân cụm mờ với tập mờ loại II
khoảng [3] là nổi bật nhất, qua việc nghiên cứu các luận điểm và hướng giải quyết
của thuật tốn FCMT2I, chúng ta có thể học hỏi những điểm hay và kết hợp các
phương pháp heuristic và đại số gia tử hữu hạn - sử dụng để định lượng mức độ
“lớn” hay “nhỏ” cũng như giới hạn số các giá trị nhận được của tham số mũ 𝑚𝑚-
chúng ta xây dựng lên thuật toán phân cụm cải tiến cũng như tiến hành cài đặt và
đánh giá mức độ hiệu quả của thuật toán.
Trong hướng cải tiến về sử dụng “nhiều trọng số mũ” cho thuật toán FCM,
năm 2016, nhóm tác giả Lê Thái Hưng, Trần Đình Khang cũng đã đưa ra một
hướng tiếp cận phân cụm mờ với trọng số mũ ngơn ngữ [15], thuật tốn HAmFCM. Trong đó, thuật tốn sử dụng 𝑁𝑁x𝐶𝐶 trọng số mũ được cập nhật qua từng vòng
lặp, với N là số phần tử cần phân cụm và C là số cụm. Trong luận văn cũng đã đưa
ra phần phân tích sự khác biệt về cách tiếp cận cũng như so sánh và đánh giá giữa
thuật toán HAm-FCM và thuật toán cải tiến mới của tác giả ở Chương 3. Để phân
biệt với thuật toán HAmFCM, tác giả đặt tên thuật toán phân cụm mới được đề
xuất trong luận văn là X-Hedge Algebras m– FCM, viết tắt là XHAm-FCM.
Trước khi đi vào thuật toán phân cụm cải tiến này cũng như phương pháp để
trích chọn đặc trưng răng của ảnh X-quang nha khoa, chúng ta điểm qua các cơ sở
lý thuyết đã có được sử dụng trong luận văn.
5
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1. Bài toán phân cụm dữ liệu
Bài toán đặt ra là chúng ta cần phân cụm một tập dữ liệu để các thành phần
trong tập dữ liệu có tính chất tương tự nhau sẽ được phân vào các cụm khác. Một
cách đơn giản để mô phỏng bài tốn này là biểu diễn dưới cái nhìn quan sát hình
học. Các thành phần trong tập dữ liệu có thể coi là các điểm trong khơng gian và
khoảng cách giữa các điểm có thể được coi là thơng số đo mức độ tương tự của
chúng, hai điểm càng gần nhau thì độ tương tự của chúng càng lớn.
Dưới đây là một ví dụ minh họa về việc phân một tập các bộ dữ liệu vào 3
cụm với độ tương tự được sử dụng là khoảng các Euclid.
Hình 2.1. Mơ phỏng bài tốn phân cụm bằng hình ảnh
Phân cụm dữ liệu có rất nhiều ứng dụng trong đời sống như thương mại,
nghiên cứu thị trường, sức khỏe…
Cho đến nay, đã có rất nhiều các thuật tốn xử lý bài tốn phân cụm được đề
xuất, đi kèm theo đó là các phương pháp luận để tìm ra lời giải tối ưu cho bài toán.
Các yếu tố cần thiết để cấu thành lên một thuật toán phân cụm bao gồm:
6
1. Độ đo lân cận: được sử dụng nhiều nhất đó chính là độ đo khồng cách
giữa các phần tử. Rõ ràng, các phần tử càng gần nhau thì càng có xu hướng rơi vào
cùng một cụm. Đây là yếu tố chính để tiến hành thực thi các thuật tốn phân cụm.
2. Thuật toán phân cụm: miêu tả cụ thể các bước thực hiện quá trình phân
chia các phần tử của tập dữ liệu đã cho vào các cụm riêng biệt.
Một cách tổng qt, ta có mơ hình tốn học cho bài toán phân cụm được phát
biểu như sau: cho tập dữ liệu 𝑋𝑋 = {𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑁𝑁 } gồm 𝑁𝑁 phần tử. Mỗi phần tử
𝑥𝑥𝑖𝑖 ∈ 𝑋𝑋 là một vector 𝑀𝑀 chiều. Ta định nghĩa một 𝐶𝐶-phân cụm của 𝑋𝑋 là một phân
hoạch các phần tử 𝑋𝑋 và 𝐶𝐶 cụm khác nhau {𝑐𝑐1 , 𝑐𝑐2 , … , 𝑐𝑐𝐶𝐶 } với các tâm cụm lần lượt
là {𝑣𝑣1 , 𝑣𝑣2 , … , 𝑣𝑣𝐶𝐶 }.
Mỗi một phân hoạch phải thỏa mãn các điều kiện sau:
1. Mỗi cụm phải chứa ít nhất một phần tử. 𝑐𝑐𝑖𝑖 ≠ ∅ với ∀𝑖𝑖, 𝑖𝑖 = 1,2, … , 𝐶𝐶.
2. Các cụm đôi một không giao nhau. 𝑐𝑐𝑖𝑖 ∩ 𝑐𝑐𝑗𝑗 = ∅ với ∀𝑖𝑖 ≠ 𝑗𝑗, 𝑖𝑖, 𝑗𝑗 =
1,2, … , 𝐶𝐶.
3. Hợp của các cụm chính là tập dữ liệu 𝑋𝑋. ⋃𝐶𝐶𝑖𝑖=1 𝑐𝑐𝑖𝑖 = 𝑋𝑋.
Tùy theo cách tiếp cận bài tốn mà hình thành nên các kiểu phân cụm khác
nhau như: phân cụm tuần tự, phân cụm có cấp bậc, phân cụm rõ, phân cụm mờ...
Trong luận văn, để làm nổi bật lên được vùng màu chứa răng, so với các vùng
màu khác của bức ảnh X-quang, chúng ta tiến hành phân cụm bức ảnh đó. Thuật
tốn được sử dụng là một thuật toán phân cụm mờ, được cải tiến từ thuật toán
Fuzzy C-means Clustering (FCM) truyền thống.
Như vậy, bước đầu tiên, chúng sẽ tìm hiểu thuật tốn phân cụm mờ cơ bản:
Fuzzy C-means Clustering.
2.2. Phân cụm mờ và thuật tốn FCM.
Để có thể hiểu về phân cụm mờ, trước tiên, chúng ta cần hiểu về một số khái
niệm cơ bản về tập mờ và độ thuộc của một phần tử vào tập mờ đó.
Các tập mờ là một mở rộng của lý thuyết tập hợp cổ điển và được dùng trong
logic mờ. Trong lý thuyết tập hợp cổ điển, quan hệ thành viên của các phần tử
trong một tập hợp được đánh giá kiểu nhị phân theo một điều kiện rõ ràng – một
phần tử hoặc là thuộc, hoặc là khơng thuộc về tập hợp đó. Ngược lại, lý thuyết tập
mờ cho phép đánh giá về quan hệ giữa một phần tử và một tập hợp, được miêu tả
bằng một hàm thuộc 𝜇𝜇. Cụ thể, ta có định nghĩa về tập mờ được Zadeh đưa ra như
sau:
Định nghĩa 1: Một tập mờ 𝐴𝐴̅ trên một không gian nền 𝑋𝑋 được định nghĩa như sau:
𝐴𝐴̅ = ��𝑥𝑥, 𝜇𝜇𝐴𝐴 (𝑥𝑥 )��𝑥𝑥 ∈ 𝑋𝑋 }
7
Hàm thuộc 𝜇𝜇𝐴𝐴 (𝑥𝑥) lượng hóa mức độ mà phần tử 𝑥𝑥 thuộc về tập cơ sở 𝑋𝑋 với điều
kiện:
0 ≤ 𝜇𝜇𝐴𝐴 (𝑥𝑥 ) ≤ 1, ∀ 𝑥𝑥 ∈ 𝑋𝑋
Nếu hàm thuộc cho kết quả 0 đối với một phần tử thì có nghĩa là phần tử đó
khơng thuộc tập đã cho, kết quả 1 đối với những phần tử hồn tồn thuộc tập hợp
đó.
Điểm khác biệt giữa phương pháp phân cụm mờ và các phương pháp khác
như phân cụm rõ như K-means hay phân cụm tuần tự đó là mỗi một phần tử thay
vì chỉ được đánh giá thuộc về một cụm duy nhất thì nay được xem xét thuộc vào
nhiều cụm một lúc dựa trên ý tưởng về tập mờ. Như vậy, nếu cần phân tập dữ liệu
thành C cụm, với mỗi một phần tử ta sẽ có C hàm thuộc tương ứng, thể hiện mức
độ phụ thuộc của phần tử đó vào mỗi cụm.
Hình 2.2.Sự khác biệt giữa phân cụm rõ và phân cụm mờ
Ý tưởng đầu tiên về phương pháp phân cụm mờ là của Ruspini đề xuất năm
1969 không lâu sau khi khái niệm tập mờ của Zadeh ra đời. Kể từ đó, đã có rất
nhiều thuật toán được đề xuất để vận dụng khái niệm hàm thuộc trong tập mờ nhằm
đưa ra những thuật tốn phân cụm tốt hơn. Trong số đó, thuật tốn Fuzzy C-means
(FCM) được xem là kinh điển không chỉ bởi vì nó xuất hiện từ khá sớm mà cịn
bởi vì hiệu quả và tính tổng qt của nó. FCM cũng cho thấy rất nhiều tiềm năng
có thể mở rộng và cải tiến.
Cũng như các thuật toán phân cụm mờ khác, FCM sử dụng hàm thuộc để
đánh giá độ phụ thuộc của mỗi một phần tử vào các cụm. Như vậy với 𝑁𝑁 phần tử
và 𝐶𝐶 cụm, chúng ta sẽ có 𝑁𝑁 x 𝐶𝐶 hàm thuộc tương ứng. Gọi ma trận 𝑈𝑈 là mà trận
thuộc, khi đó 𝑈𝑈 có các tính chất sau:
8
• 0 ≤ 𝑈𝑈(𝑖𝑖, 𝑘𝑘) ≤ 1 với 𝑈𝑈(𝑖𝑖, 𝑘𝑘) là độ thuộc của phần tử 𝑥𝑥𝑖𝑖 vào cụm 𝑐𝑐𝑘𝑘 với 1 ≤
𝑖𝑖 ≤ 𝑁𝑁 và 1 ≤ 𝑘𝑘 ≤ 𝐶𝐶.
• 𝑈𝑈(𝑖𝑖, 𝑘𝑘) càng lớn thì khả năng phần tử 𝑥𝑥𝑖𝑖 thuộc vào cụm 𝑐𝑐𝑘𝑘 càng cao.
Dựa trên mơ hình ma trận thuộc này, một hàm mục tiêu cần được cực tiểu hóa
dựa trên tổng sai số của việc phân cụm được đưa ra với công thức sau:
𝐶𝐶
𝑁𝑁
𝐽𝐽 = � � 𝑢𝑢(𝑖𝑖, 𝑘𝑘)𝑚𝑚 ‖𝑥𝑥𝑖𝑖 − 𝑣𝑣𝑘𝑘 ‖2
𝑖𝑖=1 𝑘𝑘=1
Ở đây, 𝑚𝑚 là trọng số mũ nằm trong khoảng [1.1, 60], 𝑣𝑣𝑘𝑘 là tâm cụm thứ 𝑘𝑘.
‖𝑥𝑥𝑖𝑖 − 𝑣𝑣𝑘𝑘 ‖2 thể hiện khoảng cách giữa điểm 𝑥𝑥𝑖𝑖 và tâm cụm 𝑣𝑣𝑘𝑘 . Độ đo khoảng cách
ở đây thương sử dụng là độ đo Euclidean.
Chi tiết thuật toán FCM như sau:
Thuật toán 2.1. Thuật tốn FCM
• Đầu vào: Tập dữ liệu 𝑋𝑋 = {𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑁𝑁 } gồm 𝑁𝑁 phần tử cần được phân thành
𝐶𝐶 cụm.
• Các tham số: 𝑚𝑚 là trọng số mũ được chọn trong khoảng [1.1, 60], 𝑣𝑣𝑘𝑘 là tâm
cụm thứ 𝑘𝑘 với 1 ≤ 𝑘𝑘 ≤ 𝐶𝐶, hằng số đánh giá sai số epsiolon.
• Đầu ra: Tập dữ liệu X sau khi đã phân cụm.
• Các bước thực hiện:
• Bước 1:
Khởi tạo giá trị cho ma trận thuộc U thỏa mãn điều kiện:
0 ≤ 𝑢𝑢(𝑖𝑖, 𝑘𝑘) ≤ 1 và ∑𝑁𝑁
𝑖𝑖=1 𝑢𝑢 (𝑖𝑖, 𝑘𝑘 ) = 1 với 1 ≤ 𝑖𝑖 ≤ 𝑁𝑁 và 1 ≤ 𝑘𝑘 ≤ 𝐶𝐶
Khởi tạo giá trị cho tham số trọng số mũ 𝑚𝑚 trong khoảng [1.1, 60].
Qua thực nghiệm, giá trị được chọn thương là 𝑚𝑚 = 2.
Độ đo khoảng cách được chọn là độ đo Euclidean.
• Bước 2: Với các giá trị độ thuộc từ ma trận thuộc 𝑈𝑈, chúng ta tiến hành
cập nhật vị trí tâm các cụm 𝑣𝑣𝑘𝑘 theo công thức sau:
𝑣𝑣𝑘𝑘 =
𝑚𝑚
∑𝑁𝑁
𝑖𝑖=1 𝑢𝑢(𝑖𝑖, 𝑘𝑘) 𝑥𝑥𝑖𝑖
𝑚𝑚
∑𝑁𝑁
𝑖𝑖=1 𝑢𝑢(𝑖𝑖, 𝑘𝑘)
• Bước 3: Với giá trị tâm cụm mới nhận được, chúng ta cập nhật hàm thuộc
mới cho các phần tử trong ma trận thuộc theo công thức sau:
1
𝑢𝑢(𝑖𝑖, 𝑘𝑘) =
2
𝑑𝑑(𝑖𝑖, 𝑘𝑘) 𝑚𝑚−1
𝐶𝐶
∑𝑗𝑗=1 �
�
𝑑𝑑(𝑖𝑖, 𝑗𝑗)
Với 𝑑𝑑(𝑖𝑖, 𝑘𝑘) = ‖𝑥𝑥𝑖𝑖 − 𝑣𝑣𝑘𝑘 ‖2 .
• Bước 4: Kiểm tra điều kiện dừng của thuật toán
9
Nếu vị trí các tậm cụm 𝑣𝑣𝑘𝑘 ở bước (t) so với bước (t-1) thỏa mãn điều kiện:
‖𝑣𝑣𝑘𝑘𝑡𝑡 − 𝑣𝑣𝑘𝑘𝑡𝑡−1 ‖ ≤ 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒, ∀ 𝑘𝑘
kết thúc vòng lặp và đưa ra kết quả phân cụm theo công thức sau:
𝑥𝑥𝑖𝑖 ∈ 𝑐𝑐𝑘𝑘 ↔ 𝑢𝑢(𝑖𝑖, 𝑘𝑘) = 𝑚𝑚𝑚𝑚𝑚𝑚 𝑢𝑢(𝑗𝑗, 𝑘𝑘)
𝑗𝑗 ∈[1,𝑁𝑁]
Trái lại, quay lại bước 2.
Giả code của thuật toán FCM:
Begin
Fix 𝐶𝐶, 2 ≤ 𝐶𝐶 ≤ 𝑁𝑁;
Fix maxIterations (e.g maxIterations = 1000);
Choose any inner product norm matric (e.g Educlidean distance);
Fix 𝑚𝑚, 1 < 𝑚𝑚 < 60 (e.g, 𝑚𝑚 = 2);
Randomly initialize membership matrix 𝑈𝑈 with condition:
0 ≤ 𝑢𝑢(𝑖𝑖, 𝑘𝑘) ≤ 1 and ∑𝑁𝑁
𝑖𝑖=1 𝑢𝑢 (𝑖𝑖, 𝑘𝑘 ) = 1
For t = 1 to maxIterations Do
Update new clusters center 𝑣𝑣𝑘𝑘 using the following equation:
𝑚𝑚
∑𝑁𝑁
𝑖𝑖=1 𝑢𝑢(𝑖𝑖, 𝑘𝑘) 𝑥𝑥𝑖𝑖
𝑣𝑣𝑘𝑘 =
𝑚𝑚
∑𝑁𝑁
𝑖𝑖=1 𝑢𝑢(𝑖𝑖, 𝑘𝑘)
Update the membership matrix 𝑈𝑈 using the following equation:
𝑢𝑢(𝑖𝑖, 𝑘𝑘) =
1
2
𝑑𝑑 (𝑖𝑖, 𝑘𝑘) 𝑚𝑚−1
∑𝐶𝐶𝑗𝑗=1 �
�
𝑑𝑑 (𝑖𝑖, 𝑗𝑗)
If (‖𝑣𝑣𝑘𝑘𝑡𝑡 − 𝑣𝑣𝑘𝑘𝑡𝑡−1 ‖ ≤ 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒, ∀ 𝑘𝑘) Then
Break;
End If
End For
End
Thuật tốn FCM có khả năng biểu diễn tổng quát hơn và cho kết quả chính
xác hơn so với các thuật toán phân cụm khác trong nhiều trường hợp, tuy nhiên,
thuật tốn vẫn cịn đó tồn tại những nhược điểm như:
• Thuật tốn ngầm định mỗi cụm có một tâm cụm và các phần tử thuộc cụm
nào thì gần với tâm của cụm đó.
10
• Kết quả phân cụm phụ thuộc vào việc khởi tạo ma trận thuộc 𝑈𝑈 ban đầu.
Nếu khởi tạo không tốt, có thể dẫn tới hàm mục tiêu bị hội tụ địa phương,
dẫn tới kết quả khơng tốt.
• Đưa ra quyết định phân cụm chưa xác đáng với các đối tượng nằm giữa
ranh giới giữa các cụm do độ đo Euclid cịn đơn giản.
• Chưa có tiêu chí cụ thể nào đưa ra cho việc chọn tham số 𝑚𝑚, thông thường
tham số mũ 𝑚𝑚 được chọn bằng thực nghiệm.
Với các nhược điểm như vậy, FCM vẫn cịn nhiều điểm có thể cải tiến. Luận
văn này sẽ đề xuất một cải tiến của thuật toán FCM theo hướng điều chỉnh tham
số mũ 𝑚𝑚 sao cho việc chọn 𝑚𝑚 thực sự có ý nghĩa.
Trước khi đi vào chi tiết thuật toán ở Chương 3, chúng ta sẽ tìm hiểu một
cách tổng quan về một thuật toán cũng tập trung vào việc phân tích và xử lý với
trọng số mũ 𝑚𝑚, đã được được đề xuất bởi hai tác giả Cheul Hwang và Frank Chung-
Hoon trong bài báo “Uncertain Fuzzy Clustering: Interval Type-2 Fuzzy Approach
to C-Means” [3], viết tắt là thuật toán FCMT2I.
Qua việc tìm hiểu ý tưởng cũng như cách thức thực thi của thuật tốn, chúng
ta có thể rút ra những điểm có thể học tập vào sử dụng vào trong luân văn. Đồng
thời cũng là một thước đo để so sánh độ hiệu quả của thuật toán cải tiến mới này.
2.3. Thuật toán phân cụm FCMT2I
2.3.1. Ý tưởng của thuật tốn FCMT2I
Trong thuật tốn FCM hay bất kì một thuật tốn phân cụm nào khác, mục
tiêu chính là cực tiểu hóa tổng khoảng cách giữa các điểm và tâm các cụm mà nó
được phân vào. Q trình lặp thực chất là đi tìm đặc trưng của các cụm dựa trên
dữ liệu là các phần tử thuộc cụm đó. Dựa vào công thức cập nhật tâm cụm và hàm
thuộc của mỗi phần tử vào từng cụm trong thuật toán FCM, chúng ta nhận thấy
rằng:
• Độ thuộc của mỗi phần tử trong tập dữ liệu vào mỗi cụm được tính tốn dựa
trên khoảng cách tương đối của nó với các tâm cụm tương ứng, khoảng cách đó
càng nhỏ thì độ thuộc của phần tử đó vào cụm đang xét là càng lớn và ngược lại,
khi khoảng cách lớn thì độ thuộc của phần tử này vào cụm đang xét là càng nhỏ.
• Mỗi một phần tử đều tham gia vào quá trình hiệu chỉnh vị trí các vector tâm
cụm sao cho hàm mục tiêu được cực tiểu hóa. Với mỗi một trọng số mũ 𝑚𝑚 cố định,
nếu giá trị của hàm thuộc của một phần tử vào một cụm nào đó càng cao thì mức
độ ảnh hưởng của nó trong việc hiệu chỉnh vector tâm của cụm đó càng lớn.
• Giá trị tham số 𝑚𝑚 có ảnh hưởng tới việc tính tốn độ thuộc của mỗi phần tử
vào các cụm cũng như việc hiệu chỉnh vị trí của các tâm cụm.
11
Để rõ hơn việc giá trị tham số 𝑚𝑚 có ảnh hưởng như thế nào trong việc tính
tốn độ thuộc của các phần tử vào các cụm tương ứng, chúng ta xem xét một ví dụ
minh họa đơn giản như sau: giả sử chúng ta có hai cụm 𝐶𝐶1 và 𝐶𝐶2 giống hệt nhau
về mặt cấu trúc, mật độ cũng như bán kính như Hình 2.3.
Chúng ta định nghĩa “khoảng mờ tối đa” là vùng mà khi các phần tử nằm
trong vùng đó thì khoảng cách tương đối hay độ thuộc của các phần tử này vào các
cụm là tương đối bằng nhau. Ví dụ như trong Hình 2.3, đối với phân cụm rõ thì ta
có “khoảng mờ tối đa” này chính là đường trung trực của đoạn thẳng nối tâm hai
cụm 𝐶𝐶1 và 𝐶𝐶2 . Khi đó khoảng cách tương đối của những phần tử này vào hai cụm
tương ứng là bằng nhau vào bằng 0.5
Hình 2.3.“Khoảng mờ tối đa” trong trường hợp phân cụm rõ
Với thuật toán FCM, “vùng mờ tối đa” được xác định thông qua hàm thuộc
của mỗi phần tử vào từng cụm. Do khoảng cách giữa phần tử và tâm cụm là cố
định, như vậy, chúng ta cần xem xét sự ảnh hưởng của tham số mũ 𝑚𝑚 tới việc tính
tốn giá trị hàm thuộc 𝑢𝑢 như thế nào. Điều này thể hiện trong Hình 2.4 dưới đây.
12
Hình 2.4.Mối quan hệ giữa khoảng cách tương đối và độ thuộc theo tham số m.
Chúng ta thấy rằng, khi 𝑚𝑚 càng bé, tiến dần đến 1 thì bài tốn trở thành phân
cụm rõ, phần tử đang xét gần cụm nào hơn thì sẽ thuộc về cụm đó. Trái lại, khi 𝑚𝑚
càng lớn thì độ khơng chắc chắn về việc phần tử đang xét thuộc cụm nào càng lớn.
Tiếp theo, chúng ta xem xét sự phụ thuộc của tham số 𝑚𝑚 vào việc xác định
“vùng mờ tối đa” như thế nào. Trong hình 2.5 dưới đây, “vùng mờ tối đa” được
xác định bởi phần gạch chéo ứng với hai trường hợp 𝑚𝑚 nhỏ và 𝑚𝑚 lớn.
Hình 2.5.Mối quan hệ giữa vùng mờ tối đa và tham số mũ m(a) khi m nhỏ, (b)
khi m lớn.
13
Như vậy, đối với các loại bài toán mà các cụm đều giống nhau về mặt cấu
trúc, mật độ cũng như đường kính thì thuật tốn FCM rất hiệu quả với một tham
số mũ 𝑚𝑚 thích hợp sao cho “vùng có độ mờ tối đa” bám sát đường biên hai cụm
như trong hình 2.6 dưới đây.
Hình 2.6.Vùng mờ tối đá thích hợp với trường hợp hai cụm có cấu trúc và bán
kính giống nhau.
Tuy nhiên, trong các bài tốn thực tế, các cụm thường khác nhau về mặt cấu
trúc, bán kinh và mật độ. Giả sử cũng trong trường hợp này, hai cụm 𝐶𝐶1 và 𝐶𝐶2 có
cấu trúc khác nhau. Cụm cụm 𝐶𝐶1 có bán kính bé hơn so với cụm 𝐶𝐶2 . Khi đó, điều
chúng ta mong muốn giống như trong trường hợp ở Hình 2.6 là khơng thể đạt được
do khi điều chỉnh tham số mũ 𝑚𝑚 do vùng mờ tối đa trong trường hợp này luôn co
dãn đều về hai phía với tâm là đường trung trực của đoạn thẳng nối hai tâm cụm.
Hình 2.7 dưới đây cho thấy điều đó.
Hình 2.7.Vùng mờ tối đa trong các trường hợp (a) m nhỏ, (b) m lớn với hai
cụm có bán kính và cấu trúc khác nhau
14
Điều chúng ta mong muốn là làm thế nào để có thể có được một “khoảng mờ
tối đa” thích hợp như Hình 2.8 dưới đây.
Hình 2.8.“Vùng mờ tối đa” mong muốn trong trường hợp hai cụm có bán
kính và cấu trúc khác nhau.
Như vậy, với m cố định thì việc đạt được “vùng mờ tối đa” mong muốn là
không khả thi. Thuật toán FCMT2I đưa ra một hướng tiếp cận cho vấn đề này là
sử dụng tập mờ loại 2 khoảng để áp dụng cho tham số mũ 𝑚𝑚 nhằm giải quyết vấn
đề trên.
Trước hết ta nhắc lại định nghĩa về tập mờ loại 2 khoảng.
Định nghĩa 2: Tập mờ loại 2 𝐴𝐴̃ trên một không gian nền 𝑋𝑋 được định nghĩa như
sau:
𝐴𝐴̃ =
𝑋𝑋
𝐽𝐽𝑥𝑥
� �
𝑥𝑥 ∈𝑋𝑋 𝑢𝑢∈ 𝐽𝐽𝑥𝑥
𝜇𝜇𝐴𝐴� (𝑥𝑥, 𝑢𝑢)
, 𝐽𝐽𝑥𝑥 ∈ [0,1]
(𝑥𝑥, 𝑢𝑢)
Hàm thuộc u và 𝜇𝜇𝐴𝐴 (𝑥𝑥, 𝑢𝑢) là hàm thuộc sơ cấp và hàm thuộc thứ cấp lượng hóa
mức độ mà phần tử 𝑥𝑥 thuộc về tập cơ sở 𝑋𝑋.
Tập mờ loại 2 khoảng là một trường hợp riêng của tập mờ loại 2 trong trong
trường hợp sau:
Định nghĩa 3: Tập mờ loại 2 khoảng 𝐴𝐴̃ trên một không gian nền 𝑋𝑋 được định nghĩa
như sau:
15
𝐴𝐴̃ =
𝑋𝑋
𝐽𝐽𝑥𝑥
� �
𝑥𝑥 ∈𝑋𝑋 𝑢𝑢∈ 𝐽𝐽𝑥𝑥
1
, 𝐽𝐽 ∈ [0,1]
(𝑥𝑥, 𝑢𝑢) 𝑥𝑥
Hàm thuộc u và 𝜇𝜇𝐴𝐴 (𝑥𝑥, 𝑢𝑢), là hàm thuộc sơ cấp và hàm thuộc thứ cấp lượng hóa
mức độ mà phần tử 𝑥𝑥 thuộc về tập cơ sở 𝑋𝑋. Trong đó 𝜇𝜇𝐴𝐴 (𝑥𝑥, 𝑢𝑢) = 1 với mọi (𝑥𝑥, 𝑢𝑢).
Ý tưởng của thuật toán FCMT2I là sử dụng tập mờ loại 2 khoảng để áp dụng
cho việc điều chỉnh tham số mũ 𝑚𝑚 sao cho đạt được vùng mờ tối đa như mong
muốn nhằm tăng hiệu quả cho việc phân cụm. Thay vì sử dụng một tham số mũ m
cố định, thuật tốn tính tốn giá trị 𝑚𝑚 thích hợp trong khoảng [𝑚𝑚1 , 𝑚𝑚2 ]. Bằng việc
sử dụng cận trên và cận dưới cho việc tính tốn độ thuộc ứng với mỗi trường hợp
khoảng cách giữa phần tử đang xét là xa hay gần cụm mà ta áp dụng công thức cập
nhật hàm thuộc với tham số mũ 𝑚𝑚 thích hợp, thuật tốn hướng tới việc tối ưu hóa
“vùng mờ tối đa” nhằm tăng hiệu quả phân cụm. Sau đây, chúng ta sẽ đi vào chi
tiết thuật toán FCMT2I.
2.3.2. Thuật toán FCMT2I
Nhắc lại bài toán phân cụm: cho tập dữ liệu 𝑋𝑋 = {𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑁𝑁 } gồm 𝑁𝑁 phần
tử. Mỗi phần tử 𝑥𝑥𝑖𝑖 ∈ 𝑋𝑋 là một vector 𝑀𝑀 chiều. Ta định nghĩa một 𝐶𝐶-phân cụm của
𝑋𝑋 là một phân hoạch các phần tử 𝑋𝑋 và 𝐶𝐶 cụm khác nhau {𝑐𝑐1 , 𝑐𝑐2 , … , 𝑐𝑐𝐶𝐶 } với các tâm
cụm lần lượt là {𝑣𝑣1 , 𝑣𝑣2 , … , 𝑣𝑣𝐶𝐶 }.
Chi tiết thuật tốn:
Thuật tốn 2.2. Thuật tốn FCMT2I
• Đầu vào: Tập dữ liệu 𝑋𝑋 = {𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑁𝑁 } gồm 𝑁𝑁 phần tử cần được phân thành
𝐶𝐶 cụm với 𝑥𝑥𝑖𝑖 ∈ 𝑅𝑅𝑀𝑀 với M là số chiều của vector 𝑥𝑥𝑖𝑖 .
• Các tham số: [𝑚𝑚1 , 𝑚𝑚2 ] là tập mờ loại 2 khoảng với 𝑚𝑚1 , 𝑚𝑚2 được chọn trong
khoảng [1.1, 60], 𝑣𝑣𝑘𝑘 là tâm cụm thứ 𝑘𝑘 với 1 ≤ 𝑘𝑘 ≤ 𝐶𝐶.
• Đầu ra: Tập dữ liệu X sau khi đã phân cụm.
• Các bước thực hiện:
• Bước 1:
Khởi tạo giá trị cho vị trí các tâm cụm 𝑣𝑣𝑘𝑘 với 1 ≤ 𝑘𝑘 ≤ 𝐶𝐶, 𝑣𝑣 𝑘𝑘 ∈ 𝑅𝑅𝑀𝑀 .
Khởi tạo giá trị cho tham số trọng số mũ 𝑚𝑚1 , 𝑚𝑚2 trong khoảng [1.1,
60].
Độ đo khoảng cách được chọn là độ đo Euclidean.
• Bước 2: Với các giá trị vector tâm cụm 𝑣𝑣𝑘𝑘 , chúng ta tiến hành cập nhật hai
�, 𝑈𝑈 theo công thức sau:
ma trận thuộc 𝑈𝑈
16