MỞ ĐẦU
Phân đoạn ảnh là chia nhỏ một ảnh thành các vùng đồng nhất cấu tạo nên
ảnh hoặc các đối tƣợng [17], [52]. Phân đoạn ảnh thƣờng đƣợc sử dụng để xác
định vị trí đối tƣợng (chẳng hạn nhƣ các loại cây trồng, khu vực đơ thị, rừng của
một hình ảnh vệ tinh, v.v.) và các đƣờng biên, ranh giới (đƣờng thẳng, đƣờng
cong, v.v.) trong ảnh. Với ảnh nha khoa thì mục đích của phân đoạn ảnh nha khoa
là bƣớc xử lý quan trọng trong nha khoa thực hành nhằm hỗ trợ bác sĩ chẩn đoán
một cách hiệu quả các bệnh quanh răng.
Ảnh X-quang nha khoa gồm 3 phần chính [54]: i) Phần răng: phần có độ
xám cao và là phần ta nhìn thấy rõ nhất trên ảnh; ii) Phần cấu trúc răng: là phần có
độ xám trung bình gồm lợi răng, xƣơng, phần khác (tủy, xi măng v.v.); iii) Phần
nền: là phần có giá trị độ xám nhỏ nhất, là nền tảng của cấu trúc răng. Với cấu trúc
của ảnh X-quang nha khoa thì việc phân đoạn ảnh phức tạp hơn phân đoạn ảnh
thơng thƣờng [70].
Bài tốn phân đoạn ảnh nha khoa đã đƣợc sử dụng để hỗ trợ việc chẩn đoán
bệnh nha khoa và dự đoán tuổi nha khoa [51]. Đồng thời, phân đoạn ảnh nha khoa
mang lại những thơng tin có giá trị cho nha sĩ trong q trình phân tích các thơng
tin từ một hình ảnh [51]. Liên quan đến độ chính xác của phân đoạn ảnh nha khoa,
có các phƣơng pháp học máy khác nhau đƣợc áp dụng [30], [35]. Kết quả phân
đoạn ảnh nha khoa cịn cung cấp thêm các thơng tin cho các nha sỹ trong q trình
chẩn đốn bệnh, giúp các nha sỹ chẩn đốn bệnh chính xác và hiệu quả hơn.
Với bài toán phân đoạn ảnh nha khoa, các nghiên cứu trƣớc đây đã đƣa ra
các kỹ thuật phân đoạn nhƣ phân đoạn ảnh dựa trên phân ngƣỡng [21], [27], phân
đoạn ảnh dựa trên phân cụm [44], [70]. Tuy nhiên các phƣơng pháp này thƣờng
gặp vấn đề khi xác định tham số ngƣỡng hay biên chung của các mẫu răng và
phƣơng pháp phân cụm mờ đƣợc cho là xử lý tốt hơn [59].
1
Trong phân cụm rõ, dữ liệu đƣợc chia vào các nhóm, trong đó mỗi điểm dữ
liệu thuộc vào chính xác một cụm [10]. Trong phân cụm mờ, mỗi điểm dữ liệu có
thể thuộc vào nhiều hơn một cụm với độ thuộc tƣơng ứng [10]. Khi đó, tƣơng ứng
với các điểm dữ liệu là ma trận độ thuộc, với giá trị của các phần tử trong ma trận
chỉ ra mức độ các điểm dữ liệu thuộc vào các cụm khác nhau [10]. Các phƣơng
pháp phân cụm mờ đƣợc sử dụng nhiều trong các bài toán nhận dạng mẫu, phát
hiện tri thức từ các cơ sở dữ liệu, đánh giá rủi ro và nó có ứng dụng nhiều trong
phân đoạn ảnh. Trong các nghiên cứu gần đây việc sử dụng các thông tin bổ trợ
cung cấp bởi ngƣời dùng đƣợc gắn với đầu vào trong phân cụm mờ để hƣớng dẫn,
giám sát và điều khiển q trình phân cụm. Các thuật tốn phân cụm mờ kết hợp
với các thông tin bổ trợ do ngƣời dùng xác định trƣớc hình thành lên nhóm các
thuật toán phân cụm bán giám sát mờ [23].
Một số nghiên cứu gần đây cho thấy các thuật toán phân cụm bán giám sát
mờ rất hiệu quả trong nhiều lĩnh vực nhƣ xử lý ảnh [16], [31], [49], nhận dạng
mẫu, nhận dạng khuôn mặt [5], [33], đánh giá rủi ro [15], dự báo phá sản [36]. Đặc
biệt là trong xử lý ảnh với các ảnh màu và ảnh y học. Cũng đã có một số kết quả
đƣợc đƣa ra cho bài toán phân đoạn ảnh nha khoa nhƣ sử dụng các đặc trƣng của
ảnh nha khoa nhƣ cấu trúc ảnh, màu sắc, hình dáng trong quá trình phân đoạn gồm
phƣơng pháp lấy ngƣỡng [21], [27], phƣơng pháp phân cụm [70]. Tuy nhiên, trong
nghiên cứu này, chƣa có kết quả nào của phân cụm bán giám sát mờ đƣợc áp dụng
cho các ảnh X-quang nói chung và ảnh X-quang nha khoa nói riêng. Các nghiên
cứu trƣớc cũng đã sử dụng phân cụm mờ cùng với các đặc trƣng của ảnh nha khoa
nhƣng chƣa khai thác thông tin không gian của ảnh.
Nội dung nghiên cứu chính của luận án tập trung vào việc đề xuất, cải tiến
các kỹ thuật phân đoạn ảnh bằng thuật toán phân cụm bán giám sát mờ. Trong quá
trình phân đoạn ảnh nha khoa, các kỹ thuật phân cụm mờ (FCM) [10], phân cụm
bán giám sát mờ (eSFCM) [67] và kỹ thuật tách ngƣỡng Otsu [43] là các kỹ thuật
2
cơ bản làm tiền đề cho các phƣơng pháp mới đƣợc đề xuất trong luận án. Trong
các phƣơng pháp mới trình bày trong luận án, thơng tin bổ trợ đƣợc xác định là ma
trận độ thuộc của thuật toán phân cụm mờ FCM kết hợp với các thông tin đặc
trƣng của ảnh nha khoa. Đây là một cách tiếp cận mới mà các phƣơng pháp trƣớc
đó chƣa đề cập đến. Đồng thời, luận án trình bày một số cách xác định thông tin bổ
trợ phù hợp ứng với từng đối tƣợng đầu vào khác nhau. Từ đó thực hiện việc cài
đặt và đánh giá các đề xuất trên máy tính.
Mục tiêu nghiên cứu:
Nghiên cứu các thuật toán phân cụm bán giám sát mờ vào phân đoạn ảnh.
Phát triển các nghiên cứu đề xuất cải tiến các phƣơng pháp phân cụm bán giám sát
mờ cho phân đoạn ảnh nha khoa. Các thuật tốn cải tiến đƣợc đề xuất dựa trên
các thơng tin không gian đặc trƣng của ảnh nha khoa nhằm mục đích nâng cao
chất lƣợng phân cụm của các thuật toán phân cụm bán giám sát mờ áp dụng với
bài toán phân đoạn ảnh nha khoa.
Với mục tiêu nghiên cứu ở trên luận án đã thu đƣợc một số đóng góp
mới nhƣ sau:
Luận án đã nghiên cứu phát triển các thuật toán phân cụm bán giám
sát mờ trong phân đoạn ảnh nha khoa, cụ thể:
-
Đề xuất các phƣơng pháp phân đoạn ảnh nha khoa dựa trên phân cụm
bán giám sát mờ lai ghép. (Lai ghép giữa phân cụm bán giám sát mờ với phân
cụm mờ và phƣơng pháp tách ngƣỡng Otsu).
-
Đề xuất phân cụm bán giám sát mờ có sử dụng đặc trƣng khơng gian
ảnh nha khoa vào bài tốn phân đoạn ảnh;
-
Vận dụng các phƣơng pháp giải tối ƣu đa mục tiêu để giải bài toán tối
ƣu đa mục tiêu của phân cụm bán giám sát mờ, từ đó đƣa ra các mệnh đề, định lý
và tính chất nghiệm của bài toán;
3
-
Xây dựng kho dữ liệu các hàm xác định thông tin bổ trợ cho phân
cụm bán giám sát mờ, từ đó lựa chọn hàm thơng tin bổ trợ phù hợp với từng ảnh
đầu vào để chất lƣợng cụm đƣợc tốt hơn.
Cài đặt thực nghiệm các thuật toán cải tiến dựa trên thu thập và phân
tích dữ liệu ảnh về các mẫu bệnh nha khoa. Ứng dụng phân đoạn ảnh trong hệ hỗ
trợ chẩn đốn nha khoa.
Ngồi phần phần mở đầu và kết luận, luận án đƣợc cấu trúc thành ba chƣơng:
Chƣơng 1 trình bày về tổng quan về phân cụm bán giám sát mờ trong bài
toán phân đoạn ảnh. Đồng thời trình bày các lý thuyết cơ sở sử dụng trong q
trình học tập và nghiên cứu. Thơng qua chƣơng này, luận án đƣa ra đƣợc cái nhìn
tổng quan về bài toán nghiên cứu, các khái niệm và thuật toán cơ bản sử dụng
trong nghiên cứu của luận án.
Các đóng góp chính của luận án lần lƣợt đƣợc trình bày trong chƣơng 2,
chƣơng 3.
Chƣơng 2 trình bày kết quả nghiên cứu các phƣơng pháp phân cụm bán giám
sát mờ sử dụng cho phân đoạn ảnh nha khoa. Chƣơng này trình bày về phân cụm
bán giám sát mờ lai ghép. Đặc biệt luận án cịn trình bày đề xuất phát triển của phân
cụm bán giám mờ có sử dụng thơng tin đặc trƣng không gian và áp dụng phƣơng
pháp nhân tử Lagrange và thỏa dụng mờ giải bài toán tối ƣu đa mục tiêu. Đồng thời,
trong chƣơng 2, luận án xây dựng cách xác định thông tin bổ trợ phù hợp từng ảnh
đầu vào để có đƣợc kết quả phù hợp nhất.
Chƣơng 3 trình bày các kết quả thực nghiệm thu đƣợc khi cài đặt các thuật
toán phân cụm bán giám sát mờ đề xuất ở chƣơng 2 trên bộ dữ liệu ảnh X-quang
nha khoa. Trong đó có trình bày về dữ liệu sử dụng và các tiêu chí đánh giá thông
qua các độ đo. Các kết quả này đƣợc sử dụng để đánh giá hiệu năng của các thuật
toán đề xuất và so sánh với các thuật toán khác đã đƣợc nghiên cứu gần đây đối với
4
các bài toán tƣơng tự. Ứng dụng của phân đoạn ảnh trong thiết kế hệ hỗ trợ chẩn
đoán bệnh.
Cuối cùng, kết luận nêu những đóng góp, hƣớng phát triển, những vấn đề
quan tâm và các cơng trình đã đƣợc cơng bố của luận án.
5
CHƢƠNG 1. TỔNG QUAN VỀ PHÂN CỤM BÁN GIÁM SÁT MỜ TRONG
PHÂN ĐOẠN ẢNH NHA KHOA
1.1. Bài toán phân đoạn ảnh nha khoa
1.1.1. Khái niệm
Phân đoạn ảnh là chia nhỏ một ảnh thành các vùng đồng nhất tạo nên ảnh
hoặc các đối tƣợng [17], [52]. Phân đoạn ảnh thƣờng đƣợc sử dụng để xác định vị
trí đối tƣợng (chẳng hạn nhƣ các loại cây trồng, khu vực đô thị, rừng của một hình
ảnh vệ tinh, v.v.) và các đƣờng biên/ranh giới (đƣờng thẳng, đƣờng cong, v.v.)
trong ảnh. Chính xác hơn, phân đoạn ảnh là quá trình gán nhãn cho mọi pixel trong
ảnh mà những pixel có cùng nhãn thì có chung một số đặc điểm nhất định nào đó.
Với phân đoạn ảnh nha khoa thì mục đích của phân đoạn ảnh nha khoa là bƣớc xử
lý quan trọng trong nha khoa thực hành nhằm hỗ trợ bác sĩ chẩn đoán một cách
hiệu quả các bệnh quanh răng nhƣ viêm chân răng, bệnh nha chu, viêm túi răng,
v.v. Hình 1.1 cho thấy kết quả của phân đoạn ảnh X-quang nha khoa chia ảnh Xquang thành các vùng, vùng màu xanh trong ảnh phân đoạn có thể mắc một bệnh
nha khoa nào đó mà các bác sỹ cần đặc biệt chú ý.
(a)
(b)
Hình 1.1. Ảnh phân đoạn
(a) Ảnh X-quang nha khoa; (b) Ảnh phân đoạn.
6
Kết quả của phân đoạn ảnh là một tập các phân đoạn mà nó bao trùm tồn
bộ ảnh. Mỗi một điểm ảnh trong một phân đoạn là tƣơng đồng nhau về một số
thuộc tính hoặc tính chất tính tốn, ví dụ nhƣ màu sắc, cƣờng độ hoặc cách cấu tạo,
v.v. Việc áp dụng với ảnh phân đoạn nha khoa ngƣời ta có thể xây dựng lên các
ứng dụng nhƣ: hỗ trợ việc thu thập thơng tin trong chẩn đốn bệnh nha khoa của
bác sỹ, các đƣờng mức thu đƣợc sau khi phân đoạn ảnh có thể đƣợc sử dụng để tạo
dựng thành 3D với sự giúp đỡ của các thuật tốn nội suy để từ đó các bác sĩ có thể
nắn chỉnh lại răng sao cho phù hợp v.v.
1.1.2. Ảnh X-quang nha khoa
Cơ quan của răng bao gồm răng và nha chu quanh răng là đơn vị hình thái
và chức năng của bộ răng. Răng là bộ phận trực tiếp nhai nghiền thức ăn, nha chu
là bộ phận giữ và nâng đỡ răng đồng thời là bộ phận nhận cảm, tiếp nhận và dẫn
truyền lực nhai. Răng gồm men, ngà (mô cứng) và tủy (mô mềm). Nha chu gồm
xƣơng chân răng, men chân răng, dây chằng, xƣơng ổ răng, nƣớu (lợi), xƣơng. Bộ
răng là một thể thống nhất thuộc hệ thống nhai tạo thành bởi sự sắp xếp có tổ chức
của các cơ quan răng [2].
Mỗi răng có phần thân răng và chân răng. Giữa thân răng và chân răng là
đƣờng cổ răng hay cổ răng giải phẫu là một đƣờng cong. Thân răng đƣợc bao bọc
bởi men răng, chân răng đƣợc men chân răng bao phủ.
Nƣớu răng viền xung quanh cổ răng tạo thành một bờ gọi là cổ răng sinh lý.
Phần răng thấy đƣợc trong miệng là thân răng lâm sàng. Cổ răng sinh lý thay đổi
tùy theo nơi bám và bờ của viền nƣớu, khi tuổi càng cao thì nơi bám này càng có
khuynh hƣớng di chuyển dần về phía chóp răng. Nhiều trƣờng hợp bệnh lý, nƣớu
răng có thể bị sƣng hoặc trụt, làm thân răng bị ngắn lại hoặc dài ra [2].
Các thông tin về răng đƣợc hiển thị thông qua ảnh X-quang nha khoa. Do đó
ảnh X-quang nha khoa là một trong các cơng cụ chính để trợ giúp các nha sĩ thu
đƣợc các thơng tin nha khoa. Ảnh X-quang nha khoa có thể trợ giúp việc thu thập
7
một số thơng tin mà nha sĩ có thể khơng thấy đƣợc trong q trình thăm khám trực
tiếp. Từ đó ảnh X-quang có thể trợ giúp cho việc xác định thông tin các bệnh nha
khoa nhƣ [2]: Lỗ sâu giữa các răng hoặc phát hiện sâu răng bên dƣới lớp trám
răng, răng mọc ngầm, viêm lợi, tiêu xƣơng quanh răng….
Có rất nhiều loại ảnh X-quang nha khoa khác nhau, trong đó đƣợc chia
thành hai kiểu ảnh X-quang nha khoa chính: ảnh X-quang phạm vi trong miệng và
ảnh X-quang phạm vi cả ngoài miệng [9], [68].
Ảnh trong miệng: là loại ảnh X-quang nha khoa phổ biến. Nó mơ tả các răng
một cách chi tiết và cho phép nha sĩ tìm sâu răng, kiểm tra sức khỏe của các răng
và xƣơng xung quanh răng, kiểm tra tình trạng phát triển của răng và theo dõi sức
khỏe chung của răng và xƣơng hàm. Ảnh X-quang thuộc kiểu trong miệng gồm
ảnh cắn cánh và ảnh quanh chóp.
Ảnh ngồi miệng: cũng cho chúng ta thấy các răng nhƣng mục đích chính là
cho thấy tồn bộ hàm răng và xƣơng sọ. Nó khơng cung cấp các đặc điểm chi tiết
về từng răng nhƣ ảnh trong miệng và do đó, nó khơng đƣợc sử dụng để phát hiện
sâu răng hoặc một số vấn đề khác với từng chiếc răng. Thay vào đó, nó đƣợc sử
dụng để tìm các răng nêm vào nhau, theo dõi sự tăng trƣởng và phát triển hàm
trong quan hệ với răng, để xác định các vấn đề tiềm ẩn giữa răng và hàm, hội
chứng rối loạn thái dƣơng hàm hoặc các xƣơng mặt khác. Các ảnh X-quang thuộc
kiểu ngoài miệng gồm ảnh toàn cảnh, ảnh cắt lớp, phim sọ nghiêng, ảnh X-quang
tuyến nƣớc bọt, ảnh cắt lớp điện tốn.
Một số hình ảnh X-quang nha khoa đƣợc thể hiện ở Hình 1.2.
a) Ảnh cắn cánh. b) Ảnh quanh chóp.
c) Ảnh tồn hàm
Hình 1.2. Một số loại ảnh X – quang nha khoa
8
1.1.3. Nhu cầu và ứng dụng trong y học
Phân đoạn ảnh là giai đoạn đầu tiên trong quá trình xử lý ảnh và đóng vai trị
rất quan trọng [32], [49] trong q trình này. Khi đó, phân đoạn ảnh nha khoa là
bƣớc xử lý then chốt trong nha khoa nhằm hỗ trợ bác sĩ chẩn đoán một cách hiệu
quả các bệnh về răng nhƣ: viêm chân răng, răng mọc ngầm [55], [56]. Khi đó ứng
dụng đầu tiên của phân đoạn ảnh là hỗ trợ việc chẩn đoán bệnh nha khoa.
Một trong những ứng dụng thú vị của phân đoạn ảnh nha khoa từ hình ảnh
X-quang là giám định pháp y [23], [50], việc giám định pháp y thƣờng sử dụng các
cơng nghệ khoa học để phân tích (trong đó có phân tích răng) trong việc xác định
con ngƣời, ví dụ: một vụ máy bay rơi sau khi rơi ngƣời ta phải giám định pháp y
để nhận dạng với từng ngƣời trong tất cả những ngƣời đã chết [50]. Khi đó ngƣời
ta xác định thông qua các nhận dạng sinh trắc học, đặc điểm hình dạng nha khoa
cịn tồn tại của các nạn nhân (trong trƣờng hợp chết trong một thời gian dài [50]).
Do đó, nó trở nên quan trọng để đƣa ra quyết định xác định hình thái mặt của con
ngƣời dựa trên các đặc tính kích thƣớc răng, khoảng cách giữa các răng và các
mẫu xoang, xƣơng trên mặt v.v. [50]. Bên cạnh việc giám định pháp y, phân đoạn
ảnh nha khoa cịn có một số ứng dụng khác: xác định số răng [35], ƣớc lƣợng tuổi
nha khoa [65], phân đoạn ảnh nha khoa có thể phân tích các mảng bám răng [24],
v.v.
1.2. Tổng quan về các nghiên cứu liên quan
Phân đoạn ảnh là giai đoạn đầu tiên trong q trình xử lý ảnh và đóng vai trị
rất quan trọng [32], [49]. Phân đoạn ảnh cũng là công việc khó khăn của xử lý ảnh.
Trong đó, phân đoạn ảnh nha khoa là bƣớc xử lý then chốt nhằm hỗ trợ bác sĩ chẩn
đoán một cách hiệu quả các bệnh về răng nhƣ viêm chân răng, bệnh nha chu, viêm
túi răng [42], [43]. Khi đó q trình phân đoạn ảnh là một trong các bƣớc quan
trọng và cần thiết để phân tích ảnh X-quang nha khoa cho các q trình xử lý sau
9
này nhƣ: hỗ trợ chẩn đoán bệnh [50], xác định các thành phần khác nhau trong ảnh
(răng, lợi, tủy v.v.) [51].
(a)
(b)
Hình 1.3. Ảnh nha khoa
(a) Ảnh X-quang nha khoa; (b) Lỗ trống răng bị thiếu
Ảnh X-quang nha khoa gồm 3 phần chính (hình 1.3 a) [54]: i) Phần răng:
phần có độ xám cao và là phần ta nhìn thấy rõ nhất trên ảnh; ii) Phần cấu trúc răng:
là phần có độ xám trung bình gồm lợi răng, xƣơng, phần khác (tủy, xi măng v.v.);
iii) Phần nền: là phần có giá trị độ xám nhỏ nhất là nền tảng của cấu trúc răng. Với
cấu trúc của ảnh X-quang nha khoa thì việc phân đoạn ảnh phức tạp hơn phân đoạn
ảnh thông thƣờng [70]. Nói cách khác, sự kết nối giữa các phần khác nhau của một
hình ảnh nha khoa X-quang và chất lƣợng thấp của hình ảnh do tạp chất, độ tƣơng
phản thấp, sai sót về chức năng qt hình ảnh, v.v. làm giảm hiệu suất phân đoạn.
Ví dụ, các lỗ trống trong răng bị mất (hình 1.3 b) khơng thể đƣợc xử lý bằng kỹ
thuật xử lý ảnh dựa trên ngƣỡng thơng thƣờng [26]. Vì vậy, phƣơng pháp khai phá
dữ liệu phân đoạn ảnh X-quang nha khoa đã đƣợc nghiên cứu để đạt đƣợc độ chính
xác cao của phân đoạn [40].
10
Các phƣơng pháp phân đoạn ảnh
Dựa trên điểm ảnh
Lấy ngƣỡng
Phân cụm
Dựa trên biên
Dựa trên vùng
Phát hiện biên
Xây dựng
vùng
Otsu
K-Means
Kỹ thuật
Gradient
Phân tách/
Kết hợp
Tồn cục
Fuzzy C Means
Đƣờng mức
kích hoạt
Phƣơng pháp
đồ thị
Kích hoạt
Tập mức
Hình 1.4. Các phƣơng pháp phân đoạn ảnh
Hình 1.4 giới thiệu một số phƣơng pháp phân đoạn ảnh dựa trên điểm ảnh,
dựa trên biên và dựa trên vùng. Trong phân đoạn ảnh có rất nhiều kỹ thuật khác
nhau đƣợc sử dụng và các kỹ thuật đó có thể đƣợc chia thành 2 loại xu hƣớng cơ
bản là: i) Áp dụng các kỹ thuật xử lý ảnh [13], [37] gồm: phƣơng pháp ngƣỡng,
các phƣơng pháp dựa biên và dựa trên vùng; ii) Áp dụng phƣơng pháp phân cụm
[46] gồm: K-means [60], Fuzzy C-Means (FCM) [10]. Các phƣơng pháp có sử
dụng kỹ thuật xử lý ảnh thƣờng phải biến đổi để biểu diễn ảnh dƣới dạng nhị phân,
thông qua ngƣỡng hoặc sử dụng một đƣờng cong phức tạp để xác định biên. Một
phƣơng pháp thƣờng đƣợc sử dụng là phƣơng pháp tách ngƣỡng Otsu [43]. Các
phƣơng pháp này thƣờng gặp vấn đề hết sức khó khăn là xác định tham số ngƣỡng
hay biên chung của các mẫu răng [59]. Trong khi các phƣơng pháp sử dụng kỹ
thuật phân cụm để xác định các cụm thì khơng cần biết trƣớc thơng tin về ngƣỡng
và các đƣờng cong. Tuy nhiên các phƣơng pháp này đặt ra một thách thức là việc
11
lựa chọn các tham số và phát hiện biên giữa các cụm [12], [38], [39], [53]. Điều
này đặt ra các động lực của việc cải tiến các phƣơng pháp phân đoạn ảnh để đạt
đƣợc hiệu suất tốt hơn.
Các nghiên cứu trƣớc đây [6], [66] cho thấy rằng nếu có thêm thơng tin bổ
sung kết hợp với q trình phân cụm thì chất lƣợng phân cụm đƣợc tăng cƣờng.
Việc nghiên cứu đề xuất các phƣơng pháp phân cụm bán giám sát mờ với các
thông tin bổ trợ là một trong ba loại [69]: các ràng buộc Must-link và Cannot-link,
các nhãn lớp của một phần dữ liệu, độ thuộc đƣợc xác định trƣớc. Ví dụ, nếu
chúng ta biết rằng một điểm ảnh đại diện cho một vùng tƣơng ứng là răng thì ta
gán nhãn cho điểm ảnh vào lớp răng, các điểm ảnh khác trong ảnh X-quang nha
khoa đƣợc phân cụm cùng với sự hỗ trợ của các điểm ảnh đã biết. Thông tin về
điểm ảnh đã biết làm cho kết quả phân đoạn ảnh chính xác hơn. Trong các thuật
tốn phân cụm bán giám sát mờ đƣợc đề xuất trong luận án, thông tin bổ trợ đƣợc
sử dụng là ma trận độ thuộc đƣợc xác định trƣớc (cách xác định đƣợc thực hiện chi
tiết cho từng phƣơng pháp trình bày trong chƣơng 2). Đối với thơng tin này, các
thuật tốn phân cụm bán giám sát mờ (SSSFC) [66], thuật toán phân cụm bán giám
sát mờ sử dụng Entropy (eSFCM) [67] có hiệu quả hơn so với thuật toán phân cụm
mờ FCM.
Một ảnh X-quang đầu vào có thể chỉ ra một số bệnh về răng chứ không phải
một bệnh duy nhất. Nếu việc chẩn đoán đƣợc thực hiện trên từng vùng của ảnh
càng chi tiết thì kết quả chẩn đốn cho tồn bộ ảnh càng chính xác. Mục tiêu của
phân đoạn từ một hình ảnh X-quang nha khoa là tạo ra nhiều phân đoạn khác nhau
từ một ảnh đầu vào sao cho các điểm ảnh trong một phân đoạn có sự tƣơng đồng
cao hơn so với các phân đoạn khác. Những ảnh X-quang nha khoa có thể đƣợc
phân loại theo từng vùng khác nhau cụ thể là vùng nền và vùng cấu trúc răng hoặc
vùng có bệnh và vùng khơng có bệnh [70]. Những vùng này sau đó đƣợc so sánh
với các mẫu bệnh bằng một phƣơng pháp tìm kiếm nhanh để xác định hình ảnh
12
nha khoa có hay khơng chứa bệnh nha khoa nào. Vấn đề này đã đƣợc nghiên cứu
rộng rãi trong các cơng trình [10], [12], [19], [29], [30], [43], [45]. Trong đó, các
phƣơng pháp điển hình và phổ biến là phƣơng pháp tách ngƣỡng Otsu [43], phân
cụm mờ FCM [10], phân cụm bán giám sát mờ theo quy tắc Entropy eSFCM [67].
Khi ảnh đƣợc phân đoạn tạo thành các phân đoạn, thuật toán phân lớp đƣợc
sử dụng để xác định bệnh có thể có của từng phân đoạn riêng lẻ và hệ hỗ trợ ra
quyết định đƣợc áp dụng để xác định các bệnh của toàn bộ ảnh đầu vào. Quá trình
phân lớp đơi khi cịn đƣợc gọi là q trình tìm kiếm ảnh X-quang nha khoa nhằm
trợ giúp cho quá trình khớp một ảnh hoặc một phân đoạn X-quang nha khoa với
một mẫu bệnh có trong cơ sở dữ liệu.
Ở trong nƣớc, những năm gần đây cũng có một số nhóm nghiên cứu về các
phƣơng pháp phân đoạn ảnh. Chẳng hạn nhóm tác giả Ngơ Thành Long và cộng sự
[39] đã nghiên cứu phƣơng pháp phân cụm bán giám sát mờ loại 2 dùng với ảnh
viễn thám. Nhóm tác giả Lê Hoàng Sơn và cộng sự [57] cũng đã đề xuất phƣơng
pháp phân cụm áp dụng cho bộ dữ liệu chuẩn từ UCI với các giai đoạn: phân cụm
dữ liệu đầu vào thành các phân hoạch; áp dụng các kỹ thuật phân cụm thông
thƣờng để xác định ma trận tƣơng tự cho từng phân hoạch; tính tốn trọng số cho
các phân đoạn bằng các độ đo phân cụm và xác định ma trận độ thuộc cuối cùng
của thuật toán phân đoạn đƣợc xác định dựa trên nguyên tắc cực tiểu hóa bình
phƣơng sai số từ phƣơng pháp giảm Gradient. Phƣơng pháp này chƣa sử dụng các
thơng tin bổ trợ có lợi trong q trình phân cụm khi thực hiện. Nhóm tác giả Phạm
Huy Thơng và Lê Hồng Sơn [63] đề xuất thuật toán phân cụm mờ bức tranh nhƣ
là một phƣơng pháp của trí tuệ tính tốn. Các thực nghiệm của phƣơng pháp này
đƣợc áp dụng cho bộ dữ liệu số Iris và một vài bộ dữ liệu khác trên UCI. Một cách
tiếp cận của thuật toán phân cụm trong một ứng dụng khác đƣợc tác giả Lê Hồng
Sơn trình bày trong [56], thuật toán phân cụm mờ đƣợc sử dụng trong phân tích
13
địa lý của cụm dân cƣ. Các cách tiếp cận này chƣa thực hiện trên ảnh nha khoa
cũng nhƣ chƣa sử dụng các thông tin đặc trƣng của ảnh trong quá trình phân cụm.
1.3. Một số kiến thức cơ sở
1.3.1 Tập mờ
1.3.1.1. Giới thiệu tập mờ
Tập mờ [1] đƣợc coi là mở rộng của tập kinh điển. Nếu X là một không gian
nền (một tập nền) và những phần tử của nó đƣợc biểu thị bằng x, thì một tập mờ A
trong X đƣợc xác định bởi một cặp các giá trị:
A ( x, A x ) | x X ,0 A x 1
(1.1)
Trong đó A(x) đƣợc gọi là hàm liên thuộc của x trong A viết tắt là MF
(Membership Function). Nó khơng còn là hàm hai giá trị nhƣ đối với tập kinh điển
nữa, mà là một hàm với một tập các giá trị hay còn gọi là một ánh xạ. Tức là, hàm
liên thuộc ánh xạ mỗi một phần tử của X tới một giá trị liên thuộc trong khoảng
[0,1].
Nhƣ vậy, một tập mờ phụ thuộc vào hai yếu tố là không gian nền và hàm liên
thuộc phù hợp.
Các hàm liên thuộc đƣợc xây dựng từ những hàm cơ bản nhƣ: hàm bậc nhất,
hình thang, hình tam giác, hàm phân bố Gaussian, đƣờng cong sigma, đƣờng cong
đa thức bậc hai và bậc ba. Hình 1.5 ở trên mơ tả một vài dạng hàm thuộc cơ bản.
14
Hình 1.5. Một số dạng hàm thuộc cơ bản
Để biểu diễn một tập mờ, tuỳ thuộc vào không gian nền và hàm liên thuộc là
rời rạc hay liên tục mà ta có các cách biểu diễn nhƣ sau:
x X A xi x
i
A
A x / x
X
Nếu X là tập hợp các đối tƣợng rời rạc
Nếu X là không gian liên tục
(1.2)
1.3.1.2. Các phép toán trên tập mờ
Tƣơng tự nhƣ các tập kinh điển, những phép toán cơ bản trên tập mờ là phép
hợp, phép giao và phép phủ định cũng đƣợc định nghĩa thông qua hàm liên thuộc.
Phép giao: Giao của hai tập mờ A và B đƣợc xác định tổng quát bởi một ánh
xạ hai ngôi T, hàm liên thuộc của phép giao giữa hai tập mờ đƣợc thực hiện nhƣ
sau:
AB x T A x , B x
(1.3)
Các yêu cầu cơ bản của hàm T (gọi là toán hạng chuẩn hay T-norm) đƣợc
phát biểu nhƣ sau:
T là một ánh xạ bậc hai T() thoả mãn:
Đƣờng biên:
T(0, 0) = 0; T(a, 1) = T(1, a) = a
(1.4)
Đơn điệu:
T(a, b) T(c, d) nếu a c và b d
(1.5)
15
Giao hoán:
T(a, b) = T(b, a)
(1.6)
Kết hợp:
T(a, T(b, c)) = T(T(a, b), c)
(1.7)
Trên cơ sở đó, ngƣời ta thƣờng sử dụng một số phép toán giao thoả mãn
chuẩn T-norm nhƣ sau:
Min (Zadeh 1965)
Dạng tích:
T ( x, y ) min( x, y )
T ( x, y ) xy
(1.9)
Chuẩn Lukasiewicz T ( x, y) maxx y 1,0
Min nilpotent
(1.8)
min(x,y)
T(x,y)
0
x y 1
x y 1
min(x, y)
0
T chuẩn yếu nhất : Z(x, y)
max(x, y) 1
max(x, y) 1
(1.10)
(1.11)
(1.12)
Phép hợp : Giống nhƣ điểm giao nhau mờ, phép toán kết hợp mờ đƣợc xác
định khái quát bằng một ánh xạ nhị phân S.
AB x S A x , B x
(1.13)
Những toán hạng kết hợp mờ này thƣờng đƣợc coi nhƣ những tốn hạng
khơng tiêu chuẩn T (hoặc tiêu chuẩn S), chúng phải thoả mãn những yêu cầu cơ
bản sau:
Toán hạng không tiêu chuẩn T (hoặc tiêu chuẩn S) là một ánh xạ bậc hai S()
thoả mãn:
Đƣờng biên:
S(1, 1) = 1; S( a, 0) = S(0, a) = a
(1.14)
Đơn điệu:
S( a, b ) S(c, d) nếu a c và b d
(1.15)
Giao hoán:
S(a, b) = S(b, a)
(1.16)
Kết hợp:
S(a, S(b, c)) = S(S(a, b), c)
(1.17)
Trên cơ sở đó, ngƣời ta thƣờng sử dụng một số phép toán giao thoả mãn
chuẩn S nhƣ sau:
Max (Zadeh 1965)
Dạng tích:
S ( x, y ) max( x, y )
S ( x, y ) x y xy
(1.18)
(1.19)
16
Chuẩn Lukasiewicz
S ( x, y) minx y,1
x y 1
max(x, y)
S(x, y)
x y 1
1
max(x, y) min(x, y) 0
Z(x, y)
min(x, y) 0
1
(1.20)
Max nilpotent (Fodor 1993)
(1.21)
S chuẩn yếu nhất :
(1.22)
Phép phủ định: Phủ định là một trong các phép toán logic cơ bản. Để suy rộng
chúng ta cần tới toán tử N gọi là toán tử phủ định mờ. Toán tử này thoả mãn điều
kiện sau:
Hàm N: [0,1][0,1] không tăng đƣợc gọi là hàm phủ định nếu thoả mãn các
điều kiện sau:
Điều kiện biên: N(0)=1 và N(1)=0
Đơn điệu:
N(A) N(B) nếu A B
Nếu N(N(A)) = A thì phép phủ định này gọi là phủ định chặt.
1.3.2. Phân cụm
1.3.2.1. Giới thiệu về phân cụm
Phân cụm dữ liệu [10] là q trình nhóm một tập các đối tƣợng tƣơng tự
nhau trong tập dữ liệu vào các cụm sao cho các đối tƣợng thuộc cùng một cụm là
tƣơng đồng, còn các đối tƣợng thuộc các cụm khác nhau sẽ ít tƣơng đồng (Hình
1.6).
Hình 1.6. Minh họa phân cụm dữ liệu
Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm,
phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn quan trọng trong tập dữ liệu
17
lớn từ đó cung cấp thơng tin hữu ích cho việc ra quyết định. Ngồi ra, phân cụm
dữ liệu cịn có thể đƣợc sử dụng nhƣ một bƣớc tiền xử lý cho các thuật toán khai
phá dữ liệu khác nhƣ là phân loại và mơ tả đặc điểm, có tác dụng trong việc phát
hiện ra các cụm. Phân cụm dữ liệu đang là vấn đề mở và khó vì ngƣời ta cần phải
giải quyết nhiều vấn đề cơ bản về dữ liệu để nó phù hợp với nhiều dạng dữ liệu
khác nhau.
Mục tiêu của phân cụm dữ liệu là xác định đƣợc các dữ liêu có bản chất
tƣơng đồng nhau thành một cụm (gán nhãn) trong tập dữ liệu chƣa có nhãn. Vì
vậy, phân cụm địi hỏi ngƣời sử dụng phải cung cấp tiêu chuẩn phân cụm một cách
rõ ràng theo cách mà kết quả phân cụm sẽ đáp ứng đƣợc yêu cầu của bài toán đặt
ra.
Bài toán phân cụm xuất hiện dƣới nhiều tên gọi khác nhau tùy theo u cầu,
mục đích của việc sử dụng bài tốn. Ngày nay bài toán phân cụm rất phong phú và
đƣợc sử dụng trong nhiều lĩnh vực. Đặc biệt trong các lĩnh vực xử lý thông tin nhƣ
chúng ta biết, thông tin trong thời đại bây giờ là rất lớn và ngày càng nhiều hơn.
Vấn đề đặt ra là phải tìm ra giá trị tri thức từ kho thơng tin đó, KPDL ra đời và
KPDL kết hợp với hệ mờ đang đƣợc phát triển để tăng giá trị tri thức rút ra từ bộ
dữ liệu. Bài toán phân cụm đang đƣợc phát triển theo hƣớng đó.
Phân cụm dữ liệu đƣợc chia thành 2 nhóm cơ bản: Phân cụm rõ (phân cụm
chính xác) và phân cụm mờ. Trong phân cụm rõ, mỗi điểm dữ liệu chỉ thuộc vào
một cụm duy nhất nào đó. Cịn trong phân cụm mờ, một điểm dữ liệu có thể thuộc
vào nhiều cụm khác nhau với các độ thuộc khác nhau. Mục 1.3.2.2 giới thiệu các
thuật toán phân cụm mờ và thuật toán phân cụm bán giám mờ.
1.3.2.2. Phân cụm
a) Phân cụm mờ (Fuzzy C-means – FCM)
Bài toán phân cụm rõ đƣợc phát biểu nhƣ sau:
18
Cho một tập dữ liệu X={x1,x2,….,xN}, với xi Rr , gồm N dữ liệu r chiều.
phân tách tập dữ liệu thành C cụm : v1, v2,…,vC rời nhau thỏa mãn điều kiện sau:
j 1, C
vj ≠Ø
vj∩ vi = Ø (i ≠ j)
C
v
j 1
j
X
C: là số cụm sẽ phân thành, phải cho trƣớc m.
vi: véc tơ tâm cụm, dùng đề chỉ cụm thứ i.
Nhiều vấn đề đã dẫn đến bài toán phân cụm mờ và các ứng dụng đƣợc đề cập
đến nhiều trong bài toán phân cụm mờ bao gồm nhận dạng ảnh, xử lý thông tin,
phân loại khách hàng trong ngân hàng. Đã có rất nhiều nghiên cứu chuyên sâu
trong 2 thập kỷ qua. Điểm quan trọng là sự khác nhau của hai hƣớng tiếp cận theo
hƣớng mờ (một véc tơ thuộc đồng thời vào nhiều cụm) và theo hƣớng xác suất
(một véc tơ chỉ đƣợc thuộc vào duy nhất chỉ một cụm). Ƣu điểm của phân cụm mờ
so với phân cụm rõ đƣợc thể hiện trong thực tế khi mà không thể chỉ ra ranh giới
rõ ràng giữa các cụm. Phân cụm rõ bắt buộc các điểm chỉ đƣợc phép thuộc vào duy
nhất một cụm. Còn phân cụm mờ cho phép các điểm dữ liệu linh hoạt hơn, một
điểm dữ liệu có thể thuộc vào nhiều cụm và ta đƣa ra khái niệm độ thuộc để chỉ
mức độ liên quan của điểm dữ liệu vào cụm mà nó thuộc. Giá trị độ thuộc nằm
trong đoạn [0,1], trƣờng hợp điểm dữ liệu không thuộc một cụm nào hay chỉ thuộc
vào duy nhất một cụm là rất hiếm.
Thuật toán phân cụm mờ đƣợc Bezdek [10] đề xuất dựa trên độ thuộc ukj của phần
tử dữ liệu xk từ cụm thứ j. Hàm mục tiêu đƣợc xác định nhƣ sau:
N
C
J ukj
k 1 j 1
m
xk v j
2
min
(1.23)
m là trọng số mũ đƣợc gọi là tham số mờ, là mức độ mờ tƣơng ứng với ma
trận phân hoạch (theo Bezdek [10] giá trị m đƣợc chọn là 1.5 m 3.0 );
C là số cụm, N là số phần tử dữ liệu, r là số chiều của dữ liệu;
19
u kj là độ thuộc của phần tử dữ liệu xk vào cụm thứ j, hình thành ma trận độ
thuộc. Trong phân cụm mờ, tất cả các phân hoạch mờ có C cụm dữ liệu
của tập dữ liệu có N đối tƣợng trong khơng gian r chiều thì ma trận độ
thuộc đƣợc xác định nhƣ sau:
C
U u kj | u kj 0,1; u kj 1; k 1, N ; j 1, C
j 1
x k R r là phần tử thứ k của X x1 , x2 ,..., x N ;
Vj là tâm của cụm thứ j, j=1,...,C; (vj là một véc tơ có r phần tử tƣơng ứng
số chiều của dữ liệu)
. là chuẩn Euclid đƣợc xác định nhƣ sau: x k v j
x
r
i 1
v ji
2
ki
Khi đó ràng buộc của (1.23) là:
C
u
j 1
kj
u kj 0,1;
1;
k 1, N
(1.24)
Sử dụng phƣơng pháp Lagrange, xác định đƣợc tâm của cụm dựa vào (1.25)
và độ thuộc dựa vào (1.26) từ hàm mục tiêu (1.23) và ràng buộc (1.24):
u
N
vj
k 1
N
m
u
k 1
ukj
xk v j
xk vi
i 1
C
,
j 1, C
(1.25)
m
kj
1
xk
kj
1
m 1
k 1, N ; j 1, C
(1.26)
Khi đó thuật tốn phân cụm mờ đƣợc mô tả nhƣ sau (xem bảng 1.1)
20
Bảng 1.1. Thuật toán phân cụm mờ
Input
Tập dữ liệu X gồm N phần tử trong không gian r chiều; số cụm C; mờ
hóa m; ngƣỡng ε; số lần lặp lớn nhất MaxStep>0.
Output Ma trận U và tâm cụm V.
FCM
1
t=0
2
u kjt random ;
3
Repeat
k 1, N ; j 1, C thỏa mãn điều kiện (1.24)
4
Tính V(t) bới v j ; j 1, C theo cơng thức (1.25)
5
t=t+1
6
Tính U(t) bới u kj ; k 1, N ; j 1, C theo công thức (1.26)
7
Until U t U t 1 hoặc t > MaxStep
Nhận xét về phân cụm mờ: Phân cụm mờ là một sự mở rộng của phân cụm dữ
liệu bằng cách thêm vào yếu tố quan hệ giữa các phần tử và các cụm dữ liệu thông
qua các trọng số trong ma trận U. Bằng cách này, chúng ta có thể khám phá các
cụm dữ liệu phức tạp theo cách mềm dẻo từ một tập dữ liệu dã cho. Thuật toán
phân cụm mờ là một cách thức mở rộng cho các thuật toán phân cụm rõ nhằm
khám phá ra các cụm dữ liệu chồng lên nhau. Tuy nhiên trong thuật toán phân cụm
mờ chƣa sử dụng các thông tin biết trƣớc để làm tăng chất lƣợng của cụm, khi đó
đã có những cải tiến và đề xuất các thuật toán phân cụm bán giám sát mờ.
b) Phân cụm bán giám sát mờ
Các thuật toán phân cụm bán giám sát mờ xây dựng dựa trên các thuật toán
phân cụm mờ kết hợp với các thông tin bổ trợ đƣợc ngƣời dùng cung cấp. Các
thông tin bổ trợ nhằm mục đích hƣớng dẫn, giám sát và điều khiển quá trình phân
cụm.
21
Thông tin bổ trợ thƣờng đƣợc xây dựng dựa trên 3 loại cơ bản [69] sau:
- Các ràng buộc Must-link và Cannot-link: Ràng buộc Must-link yêu cầu 2 phần
tử phải thuộc vào cùng 1 cụm, ngƣợc lại ràng buộc Cannot-link chỉ ra 2 phần
tử không thuộc cùng 1 cụm (mà phải thuộc 2 cụm khác nhau).
-
Các nhãn lớp của một phần dữ liệu: Một phần của dữ liệu đƣợc gán nhãn và
phần cịn lại khơng đƣợc gán nhãn.
-
Độ thuộc đƣợc xác định trƣớc.
Một số nghiên cứu về phân đoạn ảnh sử dụng phân cụm bán giám sát
thƣờng dùng loại thông tin bổ trợ là giá trị hàm độ thuộc đƣợc xác định trƣớc. Với
loại thông tin bổ trợ này, Zhang [69] đã áp dụng quy tắc entropy để giảm số chiều
và đề xuất một tiếp cận mới với ý tƣởng là kết hợp một thành phần theo quy tắc
entropy vào hàm mục tiêu. Bên cạnh đó, Yasunori [66] đã đề xuất thuật toán phân
cụm bán giám sát mờ trên cơ sở của FCM bổ sung thêm hàm độ thuộc bổ trợ sử
dụng trong quá trình phân cụm. Bouchachia và Pedryzc [12] sử dụng thông tin bổ
trợ vào việc xác định các thành phần u kj thông qua giá trị trung gian uik .
Thuật toán phân cụm bán giám sát mờ chuẩn (SSSFC)
Yasunori et al. [66] đã đề xuất một thuật tốn phân cụm bán giám sát mờ với
thơng tin bổ trợ là hàm độ thuộc bổ sung trong hàm mục tiêu của FCM để cải thiện
hiệu quả trong quá trình phân cụm của thuật tốn. Khi đó hàm mục tiêu [66] đƣợc
xác định nhƣ sau:
J u kj u kj
m
xk v j
2
min
(1.27)
Với điều kiện ràng buộc (1.24), khi đó hàm độ thuộc bổ trợ của phần tử xk với
cụm thứ j là u kj 0,1 đồng thời thỏa mãn:
U u kj | u kj 0,1, k 1, N , j 1, C
, u
C
j 1
kj
1 , k 1, N
Khi đó dựa vào điều kiện (1.24) và hàm mục tiêu (1.27) chúng ta có:
22
C
vj
u
k 1
C
kj
u
k 1
u kj
kj
m
u kj
xk
m
,
(1.28)
j 1, C
Và u kj đƣợc xác định theo 2 trƣờng hợp sau:
- m 1 :
2
m 1
1
x v
C
k
j
u kj u kj 1 u kj
2
i 1
C
m 1
1
x v
i 1
k
i
, k 1, N , j 1, C .
(1.29)
- m 1:
C
u kj 1 u kj , khi
j 1
u kj
u kj
, khi
k arg min x k vi
2
, k 1, N , j 1, C .
i
k arg min x k vi
(1.30)
2
i
Các bƣớc thực hiện thuật tốn SSSFC đƣợc trình bày trong bảng 1.2 nhƣ sau:
Bảng 1.2. Thuật toán phân cụm bán giám sát mờ chuẩn
Input
Output
Tập dữ liệu X gồm N phần tử , số cụm C, ma trận độ thuộc bổ trợ U ,
ngƣỡng , số lần lặp tối đa maxStep > 0.
Ma trận U và tâm cụm V.
SSSFC
1:
t=0
2:
Khởi tạo ngẫu nhiên V(t) bởi v j ; ( j 1, C )
3:
Repeat
4:
Tính U(t) bởi u kj ( k 1, N ; j 1, C ) theo công thức (1.29) với m 1
hoặc cơng thức (1.30) với m 1 .
5:
t=t+1
6:
Tính V(t) bởi v j ( j 1, C ) theo công thức (1.28)
7:
Until V (t ) V (t 1) or t > maxStep
23
Thuật toán phân cụm bán giám sát mờ theo quy tắc entropy (eSFCM)
Thuật toán eSFCM đƣợc Yasunori và cộng sự [66] đề xuất năm 2009, đến
năm 2012 Yin [67] có đề xuất hiệu chỉnh hệ số Entropy và khi đó thuật toán phân
cụm bán giám sát mờ dựa trên thuật toán eSFCM, sử dụng độ thuộc bổ trợ ukj để
tăng hiệu suất phân cụm với điều kiện:
C
u
j 1
kj
ukj 0,1;
1;
k 1, N
(1.31)
Với tâm cụm ban đầu đƣợc xác định theo công thức:
N
vj
u
k 1
N
2
kj
u
k 1
xk
; j 1,..., C
(1.32)
2
kj
Sử dụng khoảng cách Mahalanobis, ma trận hiệp phƣơng sai của các mẫu đƣợc xác
định:
P
u x
C
1
N
N
2
j 1 k 1
kj
v j x k v j
T
k
(1.33)
Sau đó, khoảng cách đƣợc tính bởi cơng thức (với A P1 ):
2
d A ( x1 , x 2 ) x1 x 2 Ax1 x 2
T
(1.34)
Khi đó hàm mục tiêu của eSFCM [61], [62] đƣợc xác định nhƣ sau:
N
C
J u kj x k v j
N
2
A
k 1 j 1
C
1 u kj u kj ln u kj u kj min
k 1 j 1
(1.35)
Với điều kiện ràng buộc (1.24) và hàm mục tiêu (1.35) ta có các cơng thức xác
định ma trận độ thuộc:
u kj u kj
e
C
xk v j
e
2
A
x k vi
2
A
C
1 u ki , k 1, N , j 1, C
i 1
(1.36)
i 1
Trong đó xk v j
2
A
d A( k , j ) và tâm cụm:
N
vj
u
k 1
N
kj
u
k 1
xk
,
j 1, C
(1.37)
kj
24
Thuật tốn eSFCM đƣợc mơ tả cụ thể nhƣ sau (xem bảng 1.3)
Bảng 1.3. Thuật toán phân cụm bán giám sát mờ theo quy tắc entropy
Input
Tập dữ liệu X gồm N phần tử , số cụm C, độ thuộc bổ trợ U ,
ngƣỡng , số lần lặp tối đa maxStep > 0.
Ma trận U và tâm cụm V.
Output
eSFCM
1:
Tính ma trận P theo công thức (1.33) với ma trận độ thuộc U đã
cho và các tâm cụm V(0) ban đầu;
2:
t=0
3:
Repeat
4:
Tính U(t) bởi ukj ( k 1, N ; j 1, C ) theo cơng thức (1.36)
5:
Tính V(t+1) bởi vj ( j 1, C ) theo công thức (1.37)
6:
t=t+1
7:
Until U (t ) U (t 1) or t > maxStep
Thuật toán phân cụm bán giám sát mờ của Bouchachia và Pedrycz
(SSFCMBP)
Bouchachia và Pedrycz [12] đã đề xuất phƣơng pháp phân cụm bán giám sát
mờ với thông tin bổ trợ là độ thuộc u kj cho trƣớc, khi đó hàm mục tiêu [12] đƣợc
xác định bởi (1.38).
N
C
C
L
C
J u kj d kj (u kj u kj ) 2 d kj (u kj 1) min
2
2
k 1 j 1
2
j 1 k 1
(1.38)
j 1
Tham số đƣợc xác định bởi công thức:
N
C
1 1 u kj
k 1 j 1
N
C
k 1 j 1
(1.39)
1
2(1 )d kj
2
với các phần tử của ma trận độ thuộc U đƣợc tính nhƣ sau:
25