Tải bản đầy đủ (.pdf) (91 trang)

Các thuật toán phân cụm dữ liệu và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.09 MB, 91 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

NGUYỄN THẾ HUỲNH

CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU
VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC
Toán Công Nghệ

NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS. Nguyễn Hữu Tiến

Hà Nội – 2010


MỤC LỤC
LỜI CẢM ƠN..................................................................................................................................... 3
MỞ ĐẦU............................................................................................................................................ 4
DANH MỤC THUẬT NGỮ VIẾT TẮT ............................................................................................. 6
DANH MỤC BẢNG........................................................................................................................... 7
DANH MỤC HÌNH ............................................................................................................................ 9
Chương 1 .......................................................................................................................................... 10
Tổng quan về lý thuyết nhận dạng ..................................................................................................... 10
Chương 2 .......................................................................................................................................... 12
Các khái niệm cơ bản về phân cụm ................................................................................................... 12
2.1. Giới thiệu ............................................................................................................................... 12
2.1.1. Định nghĩa phân cụm ....................................................................................................... 13
2.2. Độ đo sự gần gũi .................................................................................................................... 14


2.2.1 Định nghĩa ........................................................................................................................ 14
2.2.2 Độ đo sự gần gũi giữa hai điểm......................................................................................... 15
2.2.3 Độ đo sự gần gũi giữa một điểm và một tập ...................................................................... 22
2.2.4 Độ đo sự gần gũi giữa hai tập............................................................................................ 25
Chương 3 .......................................................................................................................................... 26
Các thuật toán phân cụm tuần tự ....................................................................................................... 26
3.1. Giới thiệu ............................................................................................................................... 26
3.2. Các thuật toán phân cụm tuần tự ............................................................................................. 26
3.2.1. Trường hợp các véc tơ đặc trưng được duyệt trong thuật toán duy nhất một lần. ............... 26
3.2.2. Thuật toán phân cụm tuần tự cải tiến MBSAS (Modified Basic Sequential Algorithmic
Scheme). ................................................................................................................................... 29
3.2.3. Thuật toán phân cụm tuần tự hai ngưỡng TTSAS (Two – Threshold Sequential Algorithm
Scheme) .................................................................................................................................... 30
3.2.4. Các phương pháp hiệu chỉnh thuật toán BSAS ................................................................. 33
3.2.5. Thuật toán BSAS cải tiến (kết hợp các phương pháp hiệu chỉnh) ...................................... 34
4.1. Giới thiệu ............................................................................................................................... 36

1


4.2. Các thuật toán phân cụm tích tụ .............................................................................................. 37
4.2.1. Định nghĩa một số đại lượng hữu ích trong thuật toán. ..................................................... 38
4.2.2. Thuật toán phân cụm tích tụ dựa trên lý thuyết ma trận .................................................... 40
4.2.3. Thuật toán phân cụm tích tụ dựa trên lý thuyết đồ thị. ...................................................... 45
4.3. Các thuật toán phân cụm phân rã. ........................................................................................... 52
Chương 5 .......................................................................................................................................... 55
5.1. Giới thiệu ............................................................................................................................... 55
5.2. Thuật toán K – means ............................................................................................................. 56
5.3. Thuật toán ISODATA ............................................................................................................ 58
5.4. Thuật toán ISODATA sửa đổi ................................................................................................ 69

PHỤ LỤC CHƯƠNG TRÌNH ỨNG DỤNG ..................................................................................... 72
A.Chuẩn bị dữ liệu ........................................................................................................................ 72
B.Thuật toán K –Means................................................................................................................. 75
C.Thuật toán ISODATA................................................................................................................ 78
D.Một số hình ảnh mô tả kết quả chạy chương trình. ..................................................................... 83
KẾT LUẬN ...................................................................................................................................... 89
TÀI LIỆU THAM KHẢO ................................................................................................................. 90

2


LỜI CẢM ƠN
Trước tiên em xin chân thành cảm ơn thầy giáo TS. NGUYỄN HỮU TIẾN đã
tận tình hướng dẫn, chỉ bảo em trong thời gian qua.
Em xin bày tỏ lòng biết ơn tới các thầy cô giáo trong khoa Toán Tin Ứng Dụng
nói riêng và trường Đại Học Bách Khoa Hà Nội nói chung đã dạy bảo, cung cấp những
kiến thức quý báu cho em trong suốt quá trình học tập và nghiên cứu tại trường.
Em cũng xin gửi lời cảm ơn tới gia đình, bạn bè, những người luôn cổ vũ, quan
tâm và giúp đỡ em trong suốt thời gian học tập cũng như lúc lam luận văn.
Do thời gian và kiến thức có hạn nên luận văn chắc không tránh khỏi những
thiếu sót nhất định. Em rất mong nhận được sự góp ý quý báu của thầy cô và các bạn.

Hà Nội tháng 10 năm 2010
NGUYỄN THẾ HUỲNH

3


MỞ ĐẦU
Trong thời đại công nghiệp hóa ngày nay, để sản xuất ra một sản phẩm công

nghiệp, vai trò của các thông tin định hướng điều khiển càng trở nên quan trọng. Từ
các nghiên cứu về nhận dạng có thể đưa ra các định hướng cơ bản và điều này rất cần
thiết cho việc hoạch định ra con đường đúng đắn để phát triển trong bất kỳ lĩnh vực
nào.
Nhận dạng có lịch sử lâu đời, trước những năm 1960 các thành tựu về nhận
dạng hầu hết thu được từ những nghiên cứu trong thống kê học.
Nhận dạng là một ngành khoa học mà mục đích chính là nghiên cứu các phương
pháp phân chia các đối tượng thành các nhóm hoặc các lớp (phân cụm). Trong khuôn
khổ luận văn sẽ chủ yếu tìm hiểu về các thuật toán phân cụm dữ liệu.
v Bố cục luận văn
Ngoài các phần Mở đầu, Mục lục, Danh mục hình, Phụ lục chương trình, Kết
luận, Tài liệu tham khảo, nội dung luận văn gồm năm chương:
Chương 1: Tổng quan về lý thuyết nhận dạng
Chương này giới thiệu tổng quan về lý thuyết nhận dạng và nêu một số ứng
dụng quan trọng của nhận dạng trong cuộc sống.
Chương 2: Các khái niệm cơ bản về phân cụm
Chương này giới thiệu các khái niệm cơ bản trong kỹ thuật phân cụm gồm định
nghĩa phân cụm, các độ đo độ gần gũi được sử dụng trong phân cụm và xét các độ đo
này trong một số trường hợp cụ thể (độ đo sự gần gũi giữa hai điểm, giữa hai tập, giữa
điểm với tập và trong các trường hợp các véc tơ dữ liệu là các giá trị thực, giá trị rời
rạc, khuyết dữ liệu…).

4


Chương 3: Các thuật toán phân cụm tuần tự
Chương này giới thiệu các thuật toán cơ bản nhất và những cải tiến của chúng
trong phân cụm dữ liệu là các thuật toán phân cụm tuần tự. Đặc điểm của các thuật
toán này là đơn giản, dễ hiểu và có tốc độ xử lý nhanh khi ta cài đặt trên máy tính.
Chương 4: Các thuật toán phân cụm theo thứ bậc

Chương này mô tả một dạng của các thuật toán phân cụm là các thuật toán phân
cụm theo thứ bậc. Cụ thể sẽ tìm hiểu về hai loại thuật toán chính là: Các thuật toán
phân cụm tích tụ và các thuật toán phân cụm phân rã. Đặc điểm của các thuật toán này
là kết quả phân cụm thu được theo cấu trúc một cây thứ bậc mà dựa vào cây này chúng
ta có thể lựa chọn các kết quả phù hợp nhất.
Chương 5: Thuật toán K – Means và thuật toán ISODATA
Chương này tìm hiểu hai thuật toán được ứng dụng chủ yếu trong nhận dạng là
thuật toán K-Means và thuật toán ISODATA. Đây là hai thuật toán mà trong chương
trình, dữ liệu tự tổ chức và gom cụm chỉ dựa vào một vài tham số đầu vào. Đây cũng là
hai thuật toán ngày nay được ứng dụng nhiều trong các lĩnh vực khác nhau.

5


DANH MỤC THUẬT NGỮ VIẾT TẮT
DM

Dissimilarity Measure

SM

Similarity Measure

BSAS

Basic Sequential Algorithmic Scheme

MBSAS

Modified Basic Sequential Algorithmic Scheme


TTSAS

Two – Threshold Sequential Algorithmic Scheme

WPGMA

Weight Pair Group Method Average

UPGMA

Unweighted Pair Group Method Average

UPGMC

Unweighted Pair Group Method Centroid

WPGMC

Weighted Pair Group Method Centroid

GAS

Generalize Agglomerative Scheme

MUAS

Matrix Updating Algorithmic Scheme

GTAS


Graphic Theory Algorithmic Scheme

ISODATA

Iterative Self- Organizing Data Alnalysis Techniques A

6


DANH MỤC BẢNG
Bảng 1: mô tả 20 dữ liệu đầu tiên về các xét nghiệm trên rượu vang đỏ "Vinho
Verde"…………………………………………………………………………………73
Bảng 2 mô tả các thống kê về 300 mẫu xét nghiệm theo điểm đánh giá của các chuyên
gia……………………………………………………………………………………...73
Bảng 3: Kết quả phân cụm dữ liệu theo thuật toán K-Means với k=4……………….76
Bảng 4: Đánh giá độ chính xác của thuật toán K-Means với k=4……………………76
Bảng 5: Kết quả phân cụm dữ liệu theo thuật toán K-Means với k=2……………….76
Bảng 6: Đánh giá độ chính xác của thuật toán K-Means với k=2……………………76
Bảng 7: Kết quả phân cụm theo thuật toán ISODATA với bộ tham số nhập đầu vào của
chương trình (k,I,L, ,

, ) = (4,15,2,30,7,10)………………………………………..79

Bảng 8: Đánh giá độ chính xác của thuật toán ISODATA với bộ tham số đầu vào
(k, I, L, ,

, ) = (4, 20, 2, 30, 7, 10)……………………………...............................79

Bảng 9: Kết quả phân cụm theo thuật toán ISODATA với bộ tham số nhập đầu vào của

chương trình (k, I, L, ,

, ) = (4, 20, 2, 30, 7, 10)…………………………………..79

Bảng 10: Đánh giá độ chính xác của thuật toán ISODATA với bộ tham số nhập đầu
vào của chương trình (k, I, L, ,

, ) = (4, 20, 2, 30, 7, 10)…………………………80

Bảng 11: Kết quả phân cụm theo thuật toán ISODATA với bộ tham số nhập đầu vào
của chương trình (k, I, L, ,

, ) = (2, 15, 2, 30, 7, 10)……………………………..80

7


Bảng 12: Đánh giá độ chính xác của thuật toán ISODATA với bộ tham số nhập đầu
vào của chương trình (k, I, L, ,

, ) = (2, 15, 2, 30, 7, 10)…………………………80

Bảng 13: Kết quả phân cụm theo thuật toán ISODATA với bộ tham số nhập đầu vào
của chương trình (k, I, L, ,

, ) = (2, 20, 2, 30, 7, 10)…………………………….80

Bảng 14: Đánh giá độ chính xác của thuật toán ISODATA với bộ tham số nhập đầu
vào của chương trình (k, I, L, ,


, ) = (2, 20, 2, 30, 7, 10)…………………………81

8


DANH MỤC HÌNH
Hình1: Menu chương trình của thuật toán K-Means………………………………….75
Hình2: Menu chương trình của thuật toán ISODATA………………………………...78
Hình3: Kết quả phân cụm bằng thuật toán K-Means với số phân cụm nhập là 4……..82
Hình4: Kết quả phân cụm bằng thuật toán K-Means với số phân cụm nhập là 2……..83
Hình5: Kết quả phân cụm bằng thuật toán ISODATA với bộ tham số
(k, I, L, ,

, ) = (4, 15, 2, 30, 7, 10)………………………………………………...84

Hình6: Kết quả phân cụm bằng thuật toán ISODATA với bộ tham số
(k, I, L, ,

, ) = (4, 20, 2, 30, 7, 10)………………………………………………...85

Hình7: Kết quả phân cụm bằng thuật toán ISODATA với bộ tham số
(k, I, L, ,

, ) = (2, 15, 2, 30, 7, 10)………………………………………………...86

Hình8: Kết quả phân cụm bằng thuật toán ISODATA với bộ tham số
(k, I, L, ,

, ) = (2, 20, 2, 30, 7, 10)………………………………………………...87


9


Chương 1
Tổng quan về lý thuyết nhận dạng
Nhận dạng là một ngành khoa học mà mục đích chính là nghiên cứu các phương pháp
phân chia các đối tượng thành các nhóm hoặc các lớp. Tùy thuộc vào từng ứng dụng
mà các đối tượng có thể được biểu diễn là một ảnh, một tín hiệu sóng hoặc bất kỳ một
đại lượng nào đó.
Nhận dạng có lịch sử lâu đời, trước những năm 1960 các thành tựu về nhận dạng hầu
hết thu được từ những nghiên cứu trong thống kê học.
Trong thời đại công nghiệp hóa ngày nay, để sản xuất ra một sản phẩm công nghiệp,
vai trò của các thông tin định hướng điều khiển càng trở nên quan trọng. Từ các nghiên
cứu về nhận dạng có thể đưa ra các định hướng cơ bản và điều này rất cần thiết cho
việc hoạch định ra con đường đúng đắn để phát triển trong bất kỳ lĩnh vực nào.
Nhận dạng được tích hợp trong hầu hết các hệ thống máy thông minh để hỗ trợ quá
trình đưa ra quyết định cho một hoạt động cụ thể. Các ứng dụng quan trọng của lý
thuyết nhận dạng có thể kể ra một vài ứng dụng sau:
+ Nhận dạng có vai trò rất quan trọng trong hệ thống các máy nhận dạng.Trong sản
xuất công nghiệp, các máy nhận dạng thông qua một camera lấy các hình ảnh về sản
phẩm, nhận dạng xác định xem sản phẩm đó có lỗi hay không đồng thời phân các sản
phẩm thành các lớp sản phẩm tương ứng với số lỗi của sản phẩm đó.
+ Nhận dạng được ứng dụng nhiều trong việc nhận dạng ký tự. Các hệ thống nhận
dạng sẽ xử lý dữ liệu ảnh đầu vào và phân chia thành các nhóm: chữ cái, chữ số, và
nhóm các ký tự đặc biệt. Từ đó tùy mục đích cụ thể của ứng dụng mà lấy ra thông tin

10


cần thiết. Các ứng dụng nhận dạng trong việc nhận dạng ký tự có thể kể ra như nhận

dạng chữ viết tay, nhận dạng chữ ký trong các hệ thống thẻ tín dụng hoặc nhận dạng
các mã bưu điện bưu phẩm để lọc và phân chia các thư tín về đúng địa chỉ cần được
gửi đến…
+ Nhận dạng được ứng dụng trong các hệ thống máy chẩn đoán y học. Các máy chẩn
đoán đọc các ảnh chụp tia X của bệnh nhân, xử lý và hỗ trợ các bác sĩ đưa ra kết luận
chính xác về tình trạng của bệnh nhân đó.
+ Nhận dạng được ứng dụng trong việc nhận dạng giọng nói nhằm giảm thiểu các điều
khiển tay chân của con người, tăng tính tự động hóa, tăng độ chính xác của sản phẩm…
Quá trình nhận dạng được thực hiện nhờ việc xử lý một tập dữ liệu mẫu bao gồm các
kết quả quan sát thực nghiệm trên các cá thể của tập cần nhận dạng và tập dữ liệu này
được gọi là tập luyện. Bài toán nhận dạng được chia thành hai loại là: nhận dạng có
hướng dẫn và nhận dạng không hướng dẫn. Trong bài toán nhận dạng có hướng dẫn,
bên cạnh các kết quả quan sát về các cá thể còn được gọi là các véc tơ dạng mẫu, tập
luyện còn cho biết mỗi cá thể đó thuộc vào lớp dạng cụ thể nào. Ngược lại, trong bài
toán nhận dạng không hướng dẫn tập luyện chỉ chứa các thông tin về các véc tơ dạng
mẫu.

11


Chương 2
Các khái niệm cơ bản về phân cụm
2.1. Giới thiệu
Chúng ta xét một ví dụ về bài toán phân cụm các loài vật sau: cừu, chó, mèo (động vật
có vú), chim sẻ (chim), rắn, thằn lằn (bò sát), cá vàng, cá đối, cá mập (cá), ếch, nhái
(lưỡng cư). Để tổ chức các loài vật trên thành các nhóm chúng ta cần định nghĩa ra một
chuẩn phân hoạch. Do đó nếu chúng ta phân cụm theo cây phả hệ, dòng dõi quan hệ thì
cừu, chó, mèo và cá mập sẽ thuộc cùng một nhóm trong khi đó phần còn lại sẽ thuộc
nhóm thứ hai. Nếu chúng ta xét dựa trên đặc điểm vể sự tồn tại phổi trong hô hấp thì cá
vàng, cá đối, cá mập lại thuộc cùng một nhóm và các loài khác thuộc nhóm thứ hai. Ở

một khía cạnh khác nếu chúng ta phân chia dựa trên yếu tố môi trường sống thì chúng
ta sẽ có ba nhóm: nhóm sống trên cạn gồm cừu, chó mèo, chim sẻ rắn, thằn lằn; nhóm
sống dưới nước gồm cá vàng, cá đối, cá mập và nhóm lưỡng cư là ếch nhái.
Ví dụ trên cho thấy rằng kết quả của việc phân cụm thu được sẽ khác nhau nếu chúng
ta lựa chọn các tiêu chuẩn phân cụm khác nhau. Chúng ta có thể khái quát các bước cơ
bản để phát triển một tác vụ phân cụm gồm có:
+ Lựa chọn đặc trưng.
+ Xác định độ đo sự gần gũi
+ Xác định tiêu chuẩn phân hoạch
+ Xác định thuật toán phân hoạch
+ Kiểm định tính đúng đắn của kết quả thu được
+ Giải thích kết quả thu được và đưa ra kết luận

12


Để bắt đầu các nghiên cứu, trước hết chúng ta sẽ phát biểu bài toán phân cụm. Rõ ràng
việc phân cụm được đặt ra khi ta cần phân chia các cá thể của một đám đông thành một
số xác định các nhóm cá thể khác nhau (hay còn gọi là các cụm) sao cho các cá thể
thuộc cùng một cụm sẽ có thuộc tính chung trong khi đó các cá thể ở các cụm khác
không có thuộc tính đó. Để nhất quán về thuật ngữ ta sẽ gọi đám đông cần xét là một
không gian dạng, mỗi cá thể của đám đông sẽ được gọi là một dạng, một véc tơ gồm
hữu hạn các đặc trưng của một dạng sẽ được gọi là một véc tơ dạng. Một tập gồm hữu
hạn các véc tơ thu được từ các quan sát thực nghiệm trên các dạng của không gian
dạng sẽ là một tập luyện và các phần tử của nó sẽ gọi là các véc tơ dạng mẫu. Như vậy
các véc tơ dạng mẫu là một điểm của không gian dạng mẫu n chiều và các cụm sẽ được
mô tả như các miền con của không gian dạng mẫu này.
2.1.1. Định nghĩa phân cụm
Ta giả sử không gian dạng mẫu là l chiều và xi là các véc tơ dạng mẫu thuộc một tập
luyện X. Ta có

={ ,

,…,

}

(2.1)

Chúng ta định nghĩa một phân cụm gồm m-cụm của X, khi X được phân hoạch thành m
tập

,…,

với các điều kiện dưới đây:

+ Ci ≠ f, i=1,...,m

+

=

+ ∁ ⋂ ∁ = ∅,

≠ , , = 1, . . ,

Hơn nữa các vectơ dạng mẫu chứa trong cụm Ci đều có nhiều điểm giống nhau và
chúng đều khác biệt so với các véc tơ dạng mẫu thuộc cụm khác.

13



Chú ý rằng với định nghĩa phân cụm như trên thì mỗi dạng chỉ thuộc một cụm duy
nhất. Tuy nhiên Zadeh đã đưa ra định nghĩa phân cụm dựa trên khái niệm các tập mờ là
phân cụm mờ X thành m-cụm dựa trên m hàm uj trong đó
:

→ [0,1],

Trong đó các hàm

= 1, . . ,

(2.2)

thỏa mãn các điều kiện sau:

( ) = 1,

0<

( )<

= 1, . . ,

,

= 1, . . ,

Hàm uj(x) được gọi là một hàm thuộc và nó phản ánh mức độ mà véc tơ dạng x là
thuộc cụm dạng thứ j (j = 1,..,m)

2.2. Độ đo sự gần gũi
2.2.1 Định nghĩa
Độ đo sự gần gũi là đại lượng xác định mức tương quan lẫn nhau giữa các thực thể. Độ
đo sự gần gũi được chia thành hai loại là độ đo không tương tự và độ đo tương tự. Độ
đo không tương tự có thể hiểu là mức độ khác biệt giữa các thực thể trong khi độ đo
tương tự có thể hiểu là mức độ giống nhau của các thực thể.
· Độ đo không tương tự DM (Dissimilarity Measure) trên không gian dạng X là
một hàm ký hiệu là d và được xác định như sau:
:

×

→ℝ

Trong ℝ đó là tập số thực sao cho d(x, y) thỏa mãn các điều kiện sau:


∈ ℝ: − ∞ <

≤ ( , ) < +∞, ∀ ,
14



(2.3)


( , )=

∀ ∈


(2.4)

( , ) = ( , ), ∀ ,





( , )=

Nếu thêm các điều kiện

(2.5)
khi và chỉ khi x = y

( , ) ≤ ( , ) + ( , ), ∀ , , ∈

(2.6)
(2.7)

Thì d được gọi là một độ đo không tương tự metric hay một metric DM. Bất đẳng thức
(2.7) được gọi là bất đẳng thức tam giác.
· Độ đo tương tự SM (Similarity Measure) là một hàm ký hiệu là s và được xác
định như sau:
:


→ℝ


∈ ℝ: − ∞ < ( , ) ≤

( , )=


×

, ∀ ,





( , )=

(2.8)
(2.9)

( , ) = ( , ), ∀ ,

Nếu thêm điều kiện

< +∞, ∀ ,



(2.10)

khi và chỉ khi x = y


( , ) ( , ) ≤ [ ( , ) + ( , )] ( , ),

∀ , , ∈

(2.11)
(2.12)

Khi đó s được gọi là một độ đo tương tự metric hay một metric SM.
2.2.2 Độ đo sự gần gũi giữa hai điểm
A) Véc tơ dạng mẫu nhận giá trị thực
a. Trường hợp độ đo không tương tự:
Độ đo không tương tự có trọng số cấp p ký hiệu là dp(x, y) và định nghĩa như sau:

15


/

( , )=

|



|

(2.13)

Trong đó xi, yi thành phần thứ i của các véc tơ dạng mẫu x và y, i =1,…,l và
wi ≥ 0 là trọng số thứ i. Trường hợp đặc biệt hợp p = 2 và wi =1, với ∀ = 1, . . ,


ta có

d2(x, y) chính là khoảng cách Euclide. Độ đo không tương tự metric còn có dạng tổng
quát như sau:
( , )=

( − )

( − )

(2.14)

Trong đó B là một ma trận đối xứng xác định dương.
Xét một số trường hợp đặc biệt sau:
+ Độ đo không tương tự có trọng số l1 hay chuẩn Manhattan ký hiệu là d1(x, y) và
được xác định như sau:
( , )=

|



|

ℎ ẩ ký hiệu là

+ Độ đo không tương tự có trọng số
( , ) = max


|



(2.15)

|

( , ) và định nghĩa là:

(2.16)

16


b. Trường hợp độ đo tương tự:
+ Tích vô hướng ký hiệu là sinner(x, y) được xác định như sau:
( , )=

=

(2.17)

Trong đó x và y là các vec tơ dạng mẫu l chiều.
+ Độ đo Tanimoto hay khoảng cách Tanimoto được sử dụng trong cả hai trường hợp
các vec tơ dạng mẫu với giá trị thực và các vec tơ dạng mẫu với các thành phần rời rạc:
( , )=





( , )=



(2.18)

‖ ‖

(

) (

(2.19)

)

Nghĩa là độ đo Tanimoto giữa x và y có thuộc tính nghịch đảo với tỷ số của bình
phương khoảng cách giữa x và y và tích vô hướng của x và y.
Trường hợp các véc tơ của tập luyện X được chuẩn hóa cùng một độ dài là a ta có:
( , )=

(2.20)

Sự tương quan với nhau giữa các véc tơ dạng mẫu x và y càng lớn thì giá trị của sT sẽ
càng lớn.
+ Một độ đo tương tự khác cũng được ứng dụng rộng rãi và được ký hiệu là sc và được
biểu diễn như sau:
= 1−‖


( , )

(2.21)

‖ ‖ ‖

17


( )=1 ℎ

Khi đó

=

à min

=0 ℎ

=− .

B) Vec tơ dạng mẫu nhận các giá trị rời rạc
Trong phần này chúng ta xét các véc tơ dạng mẫu x trong đó các thành phần của nó
nhận các giá trị rời rạc trong tập xác định F :={0,…,k - 1}, trong đó k là hằng số
dương. Khi đó rõ ràng có kl véc tơ dạng mẫu
( , )=

,




và với ,



ta ký hiệu:
(2.22)

,..,

là ma trận vuông cấp k, trong đó aij là số lượng các vị trí trong đó thành phần của véc
tơ thứ nhất nhận giá trị i thì thành phần tương ứng của véc tơ thứ hai nhận giá trị j với
, ∈ : {0, 1,2, … , − 1}. A được gọi là ma trận ngẫu nhiên. Ví dụ nếu l =6, k =3
và x =[0,1,2,1,2,1]T , y =[1,0,2,1,0,1]T thì ma trận A là:
0
( , )= 1
1
hay ∑



1
2
0

0
0
1

= . Hầu hết các độ đo giữa hai véc tơ rời rạc đều có thể biểu diễn


như một tổ hợp nào đó của các thành phần của ma trận A.
a. Độ đo không tương tự
+ Khoảng cách Hamming là một độ đo không tương tự của hai véc tơ rời rạc x và y
được ký hiệu là dH(x, y) và được định nghĩa là số các thành phần tương ứng mà hai véc
tơ x và y là sai khác nhau:
( , )=

(2.23)
,

18


Nghĩa là tổng tất cả các thành phần ngoài đường chéo chính của ma trận A sẽ biểu diễn
số các vị trí khác nhau của x và y.
Trường hợp đặc biệt k =2 hay các véc tơ rời rạc là nhị phân thì khoảng cách Hamming
trở thành:
( , )=

(

+

)=

−2

(




)

(2.24)

b. Độ đo tương tự
Độ đo Tanimoto được mở rộng cho việc xác định độ đo tương tự của các véc tơ rời rạc.
Nếu A và B là hai tập và nA, nB,






là số các thành phần của các tập tương ứng A, B

thì độ đo Tanimoto giữa hai tập A và B được định nghĩa:
( , )=




=




Hay nói cách khác, độ đo Tanimoto là tỷ lệ của số các thành phần tương ứng chung
của hai tập trên tổng tất cả các thành phần khác nhau của hai tập.

Bây giờ ta xét độ đo tương tự Tanimoto giữa hai véc tơ rời rạc x và y. Độ đo này sẽ xét
theo tất cả các cặp thành phần tương ứng của véc tơ x và y chỉ trừ trường hợp cả hai
thành phần tương ứng (xi, yi) của chúng đều bằng không.
Với

=∑



=∑

à



hay nx (ny) là số các thành phần khác

không của véc tơ x, (y) tương ứng.
Khi đó ta có độ đo Tanimoto giữa hai véc tơ rời rạc x và y sẽ là:
( , )=




(2.25)



19



Trường hợp đặc biệt với k =2:
( , )=

(2.26)

c. Vec tơ dạng nhận giá trị hỗn hợp
Một trường hợp quan tâm thường diễn ra trong thực tiễn là khi véc tơ dạng nhận các
giá trị hỗn hợp (nghĩa là không thuộc hai trường hợp trên). Một phương pháp có thể
chuyển đổi các thành phần giá trị thực thành dạng giá trị rời rạc được xác định như sau.
Nếu đặc trưng xi nhận giá trị trong khoảng [a, b], chúng ta có thể chia khoảng này
thành k khoảng con. Nếu giá trị xi nằm trong khoảng con thứ r thì giá trị r - 1 sẽ được
gán cho xi. Với cách này một véc tơ dạng với các thành phần nhận các giá trị hỗn hợp
có thể chuyển thành một véc tơ dạng với các thành phần đều nhận các giá trị rời rạc.
Ý tưởng xây dựng một độ đo tương tự cho trường hợp các véc tơ dạng mẫu nhận giá
trị hỗn hợp mà không cần thực hiện chuyển đổi dạng vec tơ được Gowe đề xuất vào
năm 1971 như sau:
,

=



,

(2.27)



Trong đó sq(xi, xj) sự tương tự giữa thành phần thứ q của xi và xj và wq là trọng số tương

ứng của thành phần thứ q. Đặc biệt nếu một trong hai thành phần thứ q không xác định
thì wq=0; nếu thành phần thứ q là một biến nhị phân và tất cả véc tơ x hoặc y đều nhận
giá trị 0 thì wq cũng bằng 0. Trong tất cả các trường hợp khác thì wq đều nhận giá trị là
1. Cuối cùng nếu tất cả wq = 0 thì s(xi, xj) là không xác định.

20


Nếu thành phần thứ q của hai vec tơ xi, xj là các biến danh nghĩa hoặc các biến thứ tự
thì:
,

1,
0,

=

=

ế
á

ườ

ℎợ

ℎá

(2.28)


Nếu thành phần thứ q của hai véc tơ xi, xj là các biến cho theo khoảng hoặc các biến tỷ
lệ thì:
,

=1−

(2.29)

Trong đó rq là độ dài khoảng chứa các biến thành phần thứ q.
d.Khuyết dữ liệu
Khuyết dữ liệu là trường hợp hay gặp phải trong các ứng dụng thực tế khi mà các véc
tơ dạng có một vài thành phần hoặc tất cả các thành phần của nó là chưa biết. Có một
số kỹ thuật xử lý trường hợp này như sau:
1. Loại bỏ tất cả các véc tơ có dữ liệu bị khuyết. Phương pháp này có thể được sử
dụng khi số các véc tơ bị khuyết dữ liệu là nhỏ so với số lượng tất cả vec tơ của tập
luyện X.
2. Đối với thành phần thứ i, tìm ra trung bình dựa trên các vec tơ không bị khuyết
thành phần này, sau đó lấy giá trị trung bình tìm được thay thế cho giá trị thứ i của
vec tơ bị khuyết.
3. Đối với tất cả các cặp thành phần xi và yj của các vec tơ x và y ta định nghĩa bi:
=

0
1

ế


á


à đã á đị ℎ
ườ ℎợ ℎá

21

(2.30)


Khi đó độ gần gũi của hai véc tơ x và y được xác định bởi:
℘( , ) =

Trong đó ∅( ,

∅( ,

−∑

)

(2.31)

∀;

) biểu diễn độ gần gũi giữa hai vô hướng xi và yi, và thường xác

định là: ∅( , ) = |



| . Giả sử [a, b] là khoảng các giá trị có thể nhận được


của ℘( , ). Khi đó cách định nghĩa trên bảo đảm là độ gần gũi giữa hai véc tơ x và
y phủ kín cả khoảng đóng [a, b], vì không tính đến số các đặc trưng khuyết trong cả
hai véc tơ đó.
( ) của tất cả các véc tơ trong X theo tất cả các thành phần

4. Tìm trung bình ∅

i =1,…l. Rõ ràng là một số véc tơ x có thành phần i là bị khuyết. trong trương hợp
này chúng ta định nghĩa độ gần gũi giữa thành phần thứ i của hai véc tơ x và y là
( ,
+

) như sau:

( ,

) = ∅( ,

) nếu các thành phần thứ i của véc tơ x và y đều không bị

khuyết
+

( ,

)= ∅

()=




∑∀ ,

∅( ,

) nếu xi hoặc yi bị khuyết. Khi đó ta

có:
℘( , ) =

( , )

(2.32)

2.2.3 Độ đo sự gần gũi giữa một điểm và một tập
Trong mô hình phân cụm, một véc tơ x được xếp vào cụm C tùy theo độ gần gũi của x
với cụm C đó, và hàm mô tả độ gần gũi này được ký hiệu là ℘( , ). Có hai hướng
định nghĩa hàm ℘( , ) sau:
+ Hàm đo độ gần gũi cực đại:

22




( , )=




℘( , )

(2.33)

+ Hàm đo độ gần gũi cực tiểu:


( , )=



℘( , )

(2.34)

+ Hàm đo độ gần gũi trung bình:

Trong đó

=





℘( , )

(2.35)

là số lượng các phần tử của C và ℘( , ) là độ đo sự gần gũi giữa hai véc


tơ x và y.
Một cách khác để định nghĩa một độ gần gũi giữa x và cụm C là chỉ định trong cụm C
một phần tử đại diện và độ gần gũi giữa véc tơ x và cụm C được xác định bởi độ gần
gũi giữa x và phần tử đại diện đó. Có nhiều loại phần tử đại diện được sử dụng trong
phân cụm. Trong số đó phần tử đại diện là một điểm, một siêu phẳng, một siêu cầu
được sử dụng nhiều nhất. Thông thường đối với một cụm có dạng compact ta chọn một
điểm làm phần tử đại diện trong khi đối với cụm có dạng băng dải ta thường chọn phần
tử đại diện là một siêu phẳng.
a. Phần tử đại diện là một điểm
Ta có thể chọn một trong số các véc tơ sau làm phần tử đại diện:
+ Véc tơ trung bình:
=

1

(2.36)


23


+ Véc tơ trung bình trung tâm
(

, )≤






được định nghĩa:

( , ),

∀ ∈

(2.38)



Trong đó d là độ đo không tương tự giữa hai điểm, trong trường hợp độ đo này được
thay bởi độ đo tương tự thì bất đẳng thức đảo chiều.
b. Phần tử đại diện là một siêu phẳng
Phương trình cơ bản của siêu phẳng H là:
+

=

+

=0

(2.39)

Trong đó x =[x1, x2, …xl]T và a =[a1, a2, …al]T là véc tơ trọng số của H. Khoảng cách
giữa x và H là:
( , ) = min ( , )

(2.40)




Trong trường hợp sử dụng khoảng cách Euclide thì khoảng cách giữa véc tơ x và siêu
phẳng H được xác định như sau:
( , )=

Trong đó ‖ ‖ =

(2.41)

‖ ‖



c. Phần tử đại diện có dạng một siêu cầu
Phương trình tổng quát của siêu cầu Q là:

24


×