HỌC VIỆN KỸ THUẬT QUÂN SỰ
KHOA CÔNG NGHỆ THÔNG TIN
TIỂU LUẬN MÔN LOGIC MỜ VÀ SUY DIỄN XẤP XỈ
TÊN ĐỀ TÀI
Thuật toán phân cụm Mountain và ứng dụng phân đoạn ảnh màu
TPHCM, Tháng 11 năm 2012
I. Phương pháp phân cụm Mountain (MCM)
Yager và Filev (1994a) đã phát triển thuật toán tạo ra nguyên mẫu cho dữ liệu
không dán nhãn, phương pháp rất khác biệt so với tất cả những phương pháp trước đây đã
được thảo luận trong phần này.
Trong kế hoạch của họ, một tập hợp hữu hạn lớn các mẫu thử được quy định cụ thể
và cố định, và chức năng mục tiêu MCM được sử dụng để chọn ra các mẫu thử c tốt từ
tập hợp đã được cố định. Từ các thiết lập cố định của các ứng cử viên. Trong ngắn
hạn,các mẫu thử không phải là khởi tạo và sau đó đươc cập nhật lặp lại, nhưng chỉ đơn
giản là được lựa chọnlặp lại từ một tập hợp rời rạc (rất lớn và cố định).
MCM bắt đầu bằng cách xác định một lưới tọa độ giúp nắm bắt các dữ liệu không
gắn nhãn X = (Xj, X2 x ^} c SRP. Không làm mất đi tính tổng quát, chúng ta mô tả một
phiên bản đơn giản của MCM sử dụng một mạng số nguyên. Chúng ta xây dựng mạng
lưới bằng cách mở rộng hyberbox hb(m, M) đầu tiên, sử dụng những đặc tính sàn và trần
thay cho những giá trị đã được cho trong phương trình(4.20). Như vậy, với x, và X., biểu
thị trần và sàn số nguyên của xj ^, tương ứng, chúng ta tính toán hb (LMJ, [M]),
đó là hyperbox nhỏ nhất với các góc có các tọa độ số nguyên chứa X là một tập hợp con
thực sự. Đối với 1 <J <p, cạnh thứ J của hb ([mJ, [M]) bao gồm r các số nguyên chạy từ
tầng tối thiểu[mJ], đến trần tối đa [Mj]). Mạng lưới Lhb(|_mJ, [M]) = Lhb của các điểm
lưới số nguyên ( hoặc các nút) trong hb(LinJ, [M]) gồm các thiết lập của các mẫu thử đề
cử cho mô hình MCM. Chúng ta sẽ sử dụng những kí hiệu thông thường cho những mẫu
thử điểm trong thiết lập này, đó là , và yêu cầu bạn ghi nhớ rằng những tọa
độ của chúng là những số nguyên chỉ trong phân khu này. Kế tiếp, tính toán
những khoảng cách
Yager và Filev (1994a) thảo luận chỉ sử dụng những hàm (metric) Minkowski
(1.11) cho việc này, tuy nhiên rõ ràng là những hàm (metric) sản phẩm bên trong trong
một tập hợp ở (1.6) là có thể áp dụng như nhau. Khác với bất kì mô hình c-means nào,
hàm mục tiêu MCM là không cố định. Thay vào đó, mô hình bắt đầu với một hàm mục
tiêu ban đầu sau đó sử dụng tập hợp các giá trị hiện tại trong phép lặp tiếp theo để
xác định một hàm mục tiêu mới tại mỗi t > 1, rất giống với hàm chức năng sử
dụng bởi FLVQ.
Hàm mục tiêu thiết lập ban đầu là ,(4.32), trong đó là một
hằng số tích cực. Nếu chúng ta xem như một “ khả năng” tại cho bởi , sau đó
đo lường tổng khả năng tại cho bởi dữ liệu. Do đó tổng khả năng sẽ
cao khi những điểm dữ liệu được tập trung gần . Do đó Yager và Filev tranh luận rằng
cực đại của (4.32) xác định các nguyên mẫu tốt.
Nói một cách khác, với một cố định, giá trị tối đa ( tối thiểu) của xảy ra
tại giá trị tối thiểu ( tối đa) của vượt qua . Do tổng kết n giá trị tại
nút , sẽ tỷ lệ thuận với mật độ điểm trong X vùng lân cận của . Một biểu đồ các
giá trị , sẽ là một bề mặt số với những đỉnh tại các nút nơi mật độ dữ
liệu là cao nhất- nơi có các cụm. Do đó thuật ngữ " mountain function " cho (4.32).
Việc tối đa hóa với được thực hiện bằng cách liệt kê một cách đơn giản
những giá trị của nó và tìm ra một giá trị lớn nhất, những liên kết được giải quyết một
cách tùy tiện. chúng ta cho tập hợp những giá trị mountain function (MFVs) đầu tiên là
(4.33).
Xác định mẫu mờ
(4.33)
Bước 1: Nếu , lưới điểm được khai báo.
Bước 2: Xóa đỉnh , định nghĩa lại hàm Mountain bằng cách ,
hay còn gọi là nghịch đảo với khoảng cách
Bước 3: Kết quả được lưu trong các giá trị của đã được cập nhật khi
t> = 1 bước, Hàm này được xác định với công thức
(4.34)
Trong đó:
- β là hằng số thứ 2 được định nghĩa .
- là nguyên mẫu t-th.
Trường hợp tối đa hóa hơn sẽ tạo ra một nút thứ hai , và là một nút ưu tiên
để xác định .
Vì vậy, công thức (4.34) do đó định nghĩa một thủ tục lặp đi lặp lại việc tiếp tục
chọn các nút từ định nghĩa là nguyên mẫu cho các dữ liệu cho đến khi người dùng xác
định điểm dừng được đáp ứng. Năm 1994 Yager và Filev đề nghị điểm dừng khi giá trị
tối đa của hàm Mountain nhỏ.
Ví dụ: bước i khi
Tại một số ngưỡng chấm dứt Ɛ> 0. Tại thời điểm này MCM có bộ
, hay còn gọi là cụm nguyên mẫu cho t (chưa xác định) trong X.
Phương pháp này thì đơn giản, và giống như tất cả các thuật toán, có một số tham số
để chọn. Tuy nhiên trong MCM có thể sử dụng một nút nhiều lần nên lượng giá trị bị
giảm đi của hàm Mountain sẽ phụ thuộc vào p.
Trường hợp lựa chọn sai, sẽ không đủ giá trị để làm phẳng bề mặt của đỉnh mạnh.
Theo Barone et al. (1995), ông phân tích theo chiều sâu và gợi ý sử dụng
và vấn đề tái sử dụng. Mô tả MCM bằng cách sử dụng một sơ đồ lưới với những trường
lưới nguyên mẫu có thể tốt hơn hoặc hợp lý hơn. Barone et al. (1995) xem xét các vấn đề
kích thước lưới, và thảo luận về sự lựa chọn thước đo cho việc tính toán khoảng cách.
Bảng 4,16 tóm tắt phương pháp MCM của thế hệ nguyên mẫu. (Yager và Filev,
1994)
Trường hợp 1: Nếu không có đỉnh được tái sử dụng trước khi MCM ngưng, sau đó
c = t, có nghĩa là số nguyên mẫu riêng biệt tương ứng với giá trị cuối cùng của t
Trường hợp 2: Mặt khác, khi một hoặc nhiều đỉnh núi được tái sử dụng,
số nguyên mẫu riêng biệt được xác định bởi MCM hay c <=t.
Trong cả hai trường hợp, MCM bắt đầu với mẫu thử nghiệm c= 1
c,hay còn gọi là phương pháp phân nhóm theo cấp bậc, và tiếp tục để thêm nguyên
mẫu vào (điều này có thể không khác biệt) cho đến khi tiêu chí chấm dứt của nó
được đáp ứng. Lúc đầu, điều này có vẻ như bỏ qua vấn đề giá trị cụm. Tuy nhiên,
số lượng các nguyên mẫu được xác định bởi MCM phụ thuộc vào . Do đó,
việc xác nhận tính hợp lệ vẫn còn là một vấn đề chưa rõ ràng. Theo Barone et , tính hợp
lệ của cụm được xác nhận từ số lượng nguyên mẫu được lựa chọn bởi một ứng dụng mới
của các giá trị từ việc áp dụng ma trận TXP . Họ đề nghị tìm kiếm một hoặc nhiều
điểm dừng trong danh sách các giá trị đơn (tương tự trong nguyên lý của Hubert trong
Chương 2), và căn cứ cuối cùng vào ước tính của c về thủ tục này. Các cụm của lượng
MCM sử dụng để tính toán,.
Ví dụ: gán nguyên mẫu chính xác nhất là nhãn X. Một số bài toán thí nghiệm đã thể
hiện việc tìm kiếm cụm tốt theo cách này nhưng nó rất dễ dàng để xây dựng dữ liệu cho
từng phương pháp nhằm đánh lạc hướng người sử dụng mới.
Bên cạnh đó, MCM đã được sử dụng cho một ứng dụng quan trọng, và đó là một
cách đơn giản để khởi tạo thành công phân nhóm khác hoặc các thế hệ nguyên mẫu thuật
toán. Thật vậy, Barone et al. (1995) chủ trương điều này nên cung cấp một số ví dụ để hỗ
trợ các điểm dừng của MCM .
Ví dụ 4,4
(Barone et al, 1995). Bảng 4,17 sắp đặt các điểm dừng nguyên mẫu được tìm thấy
bởi MCM và FCM trên các dữ liệu được thiết lập cho được hiển thị trong Hình 4.12.
Cột đầu tiên trong Bảng 4,17 cũng cho thấy các biểu tượng được sử dụng cho 2D hay còn
được thể hiện trong hình 4,12
Bảng 4,17 ga MCM và nguyên mẫu FCM cho ,
Barone et al đã sử dụng tiêu chuẩn cho cả hai thuật toán Euclide, và thiết lập c = 3
cho FCM. Họ cho rằng ALPHA được đặt ở 4 cho MCM, nhưng không có hoặc bất
kỳ các thông số thực thi khác cho FCM nhằm cung cấp cho các kết quả trong Bảng 4,17.
Vì vậy, giá trị MCM trong Bảng 4,17 là không thể thiếu, chúng ta biết rằng mạng
tinh thể được sử dụng bởi MCM cho những tính toán này tốt hơn đáng kể (ít nhất là đủ
mịn để có điểm lưới tọa độ để hai chữ số thập phân) so với đơn vị mạng LHB ([m], [M])
được sử dụng trong đặc điểm kỹ thuật của MCM.
Kết luận rút ra từ Bảng 4,17 là, trao quyền lựa chọn cho MCM, nó có thể sản xuất
nguyên mẫu một cách hợp lý khởi gán cho FCM. Chú ý rằng MCM dự toán dường
như tồi tệ nhất tại dòng thứ 3, nhưng 50 điểm mà nó đại diện thì rất nhỏ gọn và được
phân định rõ ràng từ 100 điểm còn lại trong (xem Hình 4.12).
Ví dụ 4.4:
Bảng 4,17
Bảng 4,17 sắp đặt các thiết bị đầu cuối nguyên mẫu được tìm thấy bởi MCM và
FCM trên các dữ liệu thiết lập Iris được hiển thị trong Hình 4.12. Cột đầu tiên trong Bảng
4,17 cũng cho thấy các biểu tượng được sử dụng cho 2D phương tiện thể hiện trong hình
4,12.
Hình 4,12
Sử dụng chỉ tiêu cho cả hai thuật toán Euclide, và thiết lập c= 3 cho FCM. Họ cho
rằng α được đặt ở 4 cho MCM, nhưng không đối với β và ε, hoặc bất kỳ các thông số chế
biến khác cho FCM cung cấp cho các kết quả trong Bảng 4,17. Kể từ khi giá trị MCM
trong Bảng 4,17 là không thể thiếu, chúng ta biết rằng mạng tinh thể được sử dụng bởi
MCM những tính toán này tốt hơn đáng kể (ít nhất là đủ mịn để có điểm lưới tọa độ để
hai chữ số thập phân) so với đơn vị mạng Lhb (
) được sử dụng trong đặc điểm
kỹ thuật của MCM.
Kết luận rút ra từ Bảng 4,17 là, trao quyền sự lựa chọn cho MCM, nó có thể sản
xuất nguyên mẫu một cách hợp lý cho FCM. Chú ý rằng dự toán MCM có vẻ tồi tệ
nhất của ba loai, nhưng 50 điểm mà nó đại diện rất nhỏ gọn và được phân định rõ ràng từ
100 điểm còn lại trong Iris (xem Hình 4.12).
Có lẽ vấn đề lớn nhất và chắc chắn rõ ràng nhất với MCM là phức tạp tính toán.
Nếu p là nhiều hơn hai hoặc ba, và/hoặc phạm vi của dữ liệu thiết lập X trong bất kỳ kích
thước của nó p là lớn, mạng LHB được sử dụng trong mô tả của chúng tôi MCM sẽ rất
lớn thực sự,
Bởi vì
. Đối với hai dữ liệu chiều thiết lập Iris, số tiền này
(700) (300) = 210.000 nguyên mẫu ban đầu để bao gồm các mạng Lhb ((0,0)
T
, (7,3)
T
).
Trong bối cảnh không cụ thể, giả sử X có chứa các điểm dữ liệu trong 10 chiều - một
không phổ lớn số các tính năng. Nếu mỗi người trong 10 trục được chia bằng 10, mạng
Lhb (
) sẽ có 10
10
nguyên mẫu ứng cử viên - quá nhiều để làm cho MCM tính
toán dễ xử lý.
Chiu (1994, 1995, 1997) đề xuất một sửa đổi của MCM trong đó lưới các điểm
lưới ứng cử viên bị bỏ rơi, và thay thế bằng X, dữ liệu đầu vào không có nhãn. Chiu gọi
là sửa đổi của MCM phương pháp phân nhóm trừ (SCM), và nó không đủ tiểu thuyết hay
khác nhau từ MCM để đảm bảo một cuộc thảo luận riêng biệt ở đây. (Chúng tôi sẽ, tuy
nhiên, thảo luận SCM một lần nữa trong Ví dụ 4,18).
Kể từ khi các nguyên mẫu ứng cử viên trong SCM trùng khớp với các dữ liệu, chỉ
có n số họ, và các vấn đề phức tạp sẽ có vẻ giải quyết. Tuy nhiên, Dave và Krishnapuram
(1997) đã chỉ ra rằng sự phức tạp của SCM là vẫn còn O (n
2
), trong khi sự phức tạp của
FCM là 0(n). Họ tiếp tục thảo luận về các mối quan hệ giữa SCM, PCM và các thuật toán
phân nhóm khác, bao gồm cả chức năng tiềm năng theo phương pháp tiếp cận (Tou và
Gonzalez, 1974).
Velthuizen et al.(1997) thảo luận về một bộ khác nhau của sửa đổi MCM, và được gọi là
thuật toán modified mountain method (M3). Cần chú ý rằng MCM chỉ hữu ích nếu giá trị
"tốt" được lựa chọn cho các thông số MCM α và β, họ đề nghị tính toán α dựa trên một
thống kê mẫu của X. Cho được ma trận hiệp phương
sai mẫu với có nghĩa là
(4.36)
(4.37)
Không giống như MCM, mô hình M3 bản sửa lỗi c, số lượng các nguyên mẫu để
tìm kiếm trong (4.36). Velthuizen et al. cũng trình bày một phương pháp để loại bỏ sự độ
nhạy của MCM để β. Bản chất của phần này của M3 là để chọn một "hợp lý" (β - có lẽ là
bằng cách thử và lỗi (β = 0,06 trong Velthuizen et al.), Cô lập một khu phố của người
chiến thắng hiện tại nguyên mẫu v
T
bằng cách tìm ra 5 nguyên mẫu gần nhất với nó, và
sau đó giới thiệu một lân cân tốt hơn. Chỉ trong một số mở rộng này khu phố, sự phân bố
của các dữ liệu trong khu phố sau đó phù hợp với một phân bố bình thường đa biến (bạn
phải tự hỏi một chút về một sự phù hợp đến 5 điểm). Cuối cùng, trong
(4.34) được thay thế bởi giá trị của Gaussian mật độ được tìm thấy trong các khu phố của
v
T
. Các tác giả khẳng định sửa đổi này vượt qua sự nhạy cảm của MCM với tham số β.
Miền ứng dụng quan tâm Velthuizen et al. từ tính cộng hưởng (MR) hình ảnh phân
khúc. T1
ij
, T2
ij
and P
ij
biểu thị tương ứng, lưới spin thư giãn, thư giãn ngang, và proton
mật độ pixel (i, j) trong một lát MR (ba hình ảnh tại cùng một vị trí trong thời gian và
không gian) có kích thước m x n. Nếu chúng ta tổng hợp các 3 con số này vào một vector
pixel X
ij
= (T1
ij
, T2
ij
, P
ij
), tập dữ liệu X = {x
11
, x
12
,…,x
ij
,…,x
mn
}, chúng tôi sẽ đáp ứng
dữ liệu điểm ảnh vector 3D với một số ví dụ khác trong Chương 4 và 5. Các thuật toán cơ
bản được sử dụng bởi Velthuizen et al. tiền thu được như sau. Cho X đứng cho một bộ
điểm ảnh tính năng vector có nguồn gốc từ bất kỳ hình ảnh MR, và biểu thị nguyên mẫu
được tìm thấy bởi M3 như V
M3
để phân biệt chúng từ V
MCM
.
II. Kết quả đạt được
Chương trình được xây dựng trên Visual Studio 2010
1. Với phân cụm bằng 2, kết quả đạt được là
2. Với phân cụm bằng 3. Kết quả được là