Tải bản đầy đủ (.docx) (39 trang)

Nghiên cứu các phương pháp phân cụm dữ liệu để phân loại khách hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (879.9 KB, 39 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nghiên cứu các phương pháp phân cụm dữ liệu
để phân loại khách hàng

Khố Luận Tốt Nghiệp Đại Học Hệ Chính Quy
Ngành: Công nghệ kỹ thuật
Hà nội 05/2023


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Nguyễn Xuân Mạnh

Nghiên cứu các phương pháp phân cụm dữ liệu
để phân loại khách hàng

Khoá Luận Tốt Nghiệp Đại Học Hệ Chính Quy
Ngành: Cơng nghệ kỹ thuật

Cán bộ hướng dẫn: Trần Cao Quyền

Hà nội 05/2023
2


Tóm Tắt
Tóm tắt: Vấn đề đối với phân cụm dữ liệu đã ln được tìm hiểu rộng rãi trong giới datamining ( đào dữ
liệu ) cũng như machine learning vì những ứng dụng của dữ liệu trong việc tổng hợp, học, phân cụm và


cũng như là marketing hướng đối tượng. Trong một chu kì dữ liệu được coi như là một kho báu, việc thiếu
sót đặt tên một cách khoa học khiến cho việc phân cụm dữ liệu được coi như là một mơ hình ngắn gọn có
thể hiểu dưới hai cách là tổng hợp hoặc là mơ hình tự sinh. Vấn đề cơ bản của phân cụm có thể được hiểu
như sau:
Phân cụm là q trình nhóm một tập các đối tượng thực thể hay trừu tượng thành lớp các đối tượng tượng
tự. Một cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau trong cùng một cụm
và phi tương tự với các đối tượng trong cụm khác. Một cụm các đối tượng dữ liệu có thể xem như là một
nhóm trong nhiều ứng dụng.
Từ khố: Data Mining, Phân cụm dữ liệu, Data clustering

3


Mục Lục

Chương 1: Tổng quan về phân cụm dữ liệu
1.1 Giới thiệu về phân cụm dữ liệu
1.2 Các yêu cầu về phân cụm
1.3 Các loại dữ liệu được tìm hiểu trong phân cụm
1.4 Một số phương thức được sử dụng trong phân cụm
Chương 2: Các phương pháp phân cụm dữ liệu
2.1 Mơ hình phân cấp phân
2.1.1 Agglomerative clustering
2.1.1.1 Liên kết đơn và hoàn thiện
2.1.1.2 Phương pháp gom cụm dạng trung bình nhóm
2.1.1.3 Ward’s Criterion
2.1.1.4 Thuật tốn phân cụm phân cấp theo nhóm
2.1.1.5 Cơng thức cập nhật độ khác biệt Lance-Williams
2.1.2 Phân cụm chia tổ
2.1.2.1 Một số vấn đề về phân cụm chia tổ

2.1.2.2 Giải thuật phân chia phân cấp
2.1.2.3 Phân cụm dựa trên cây khung nhỏ nhất
2.1.3 Các thuật toán phân cụm phân cấp khác
2.2 Mơ hình K-means
2.3 Mơ hình dựa trên mật độ
2.3.1 DBSCAN
2.3.2 DENCLUE
Chương 3: Một số ứng dụng phân cụm dữ liệu để phân loại khách hàng
3.1 Mơ phỏng dữ liệu khách hàng theo mơ hình phân cấp
3.2 Mơ phỏng dữ liệu khách hàng theo mơ hình k-means

4


Tài liệu tham khảo:






[1] Data Clustering- Algorithms and Applications, pp. 2-19
[2] Data Clustering- Algorithms and Applications, pp. 89-92, pp.100-105,pp. 111-116
[3] Partitional Clustering Algorithms, pp. 2-10
[4] An Overview on Clustering Methods - Soni Madhulatha
[5] Research on k-means Clustering Algorithm: An Improved k-means Clustering Algorithm, Shi
Na

● [6] Efficient algorithms for agglomerative hierarchical clustering methods, William H. E. Day &
Herbert Edelsbrunner



[7] Data Mining and Knowledge Discovery Handbook

5


Lời cam đoan
Tơi xin cam đoan khóa luận là cơng trình nghiên cứu của riêng cá nhân tơi, khơng sao chép
của ai do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và thực hiện. Nội dung lý thuyết trong khóa
luận tơi có sử dụng một số tài liệu tham khảo như đã trình bày trong phần tài liệu tham khảo. Các
số liệu, chương trình phần mềm và những kết quả trong khóa luận là trung thực và chưa được cơng
bố trong bất kỳ một cơng trình nào khác.

6


Chương 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
Ở chương này chúng ta sẽ tìm hiểu qua về phân cụm dữ liệu là gì và một số phương pháp cơ bản
của phân cụm dữ liệu

1.1: Giới thiệu về phân cụm dữ liệu
Phân cụm nhìn từ góc độ tự nhiên là một việc bình thường mà chúng ta vẫn làm và thực hiện hàng ngày.
Khơng chỉ vậy phân cụm cịn có ý nghĩa rất quan trọng của con người để có thể phân loại các thực thể khác
nhau trong cuộc sống. Phân cụm được sử dụng trong nhiều lĩnh vực như nhận dạng mẫu, phân tích dữ liệu,
xử lý ảnh, nghiên cứu thị trường,...
Một số ứng dụng mà vấn đề của việc phân cụm trở nên quan trọng chúng ta có thể kể đến như:





Bước trung gian cho các vấn đề khai thác dữ liệu cơ bản khác: vì phân cụm có thể coi là một dạng
tổng hợp dữ liệu, nên nó thường được coi là một bước trung gian quan trọng cho nhiều vấn đề cơ
bản liên quan đến đào dữ liệu như việc phân class hay phân tích ngoại lệ. Việc tổng hợp dữ liệu đặc
biệt là đối với các dữ liệu phức tạp một cách ngắn gọn thường rất có ích cho những ứng dụng liên
quan đến chun ngành.[1]
Sàng lọc kết hợp: trong những phương pháp lọc kết hợp, phân cụm cung cấp một tổng hợp của
những người dùng tương tự nhau. Các đánh giá này được cung cấp từ những người dùng khác nhau
7










được sử dụng cho các phương pháp lọc này. Thường được ứng dụng để cung cấp lời khuyên
( recommendations ) cho nhiều ứng dụng khác nhau.[1]
Phân chia khách hàng: Ứng dụng này khá giống với phương pháp lọc như tên, vì ứng dụng này chia
các khách hàng giống nhau thành các nhóm dựa trên dữ liệu của từng người dùng riêng biệt. Điểm
khác lớn nhất giữa việc phân cụm khách hàng và sàng lọc chính là dữ liệu được sử dụng cho việc
phân cụm khách hàng là bất cứ dữ liệu nào mà có thể được sử dụng để phân biệt giữa những người
dùng khác nhau chứ không chỉ là đánh giá sơ bộ.[1]
Tổng hợp dữ liệu: nhiều phương pháp phân cụm có mối quan hệ mật thiết với những phương pháp
giảm chiều dữ liệu. Những phương pháp này cũng có thể coi là một dạng tổng hợp dữ liệu. Và việc
tổng hợp này thường có nhiều những ứng dụng hữu ích trong nhiều việc ví dụ như tạo ra dữ liệu đại
diện,....[4]

Nhận diện xu hướng linh hoạt: nhiều dạng của các thuật tốn linh hoạt và dịng được sử dụng để
nhận diện các xu hướng rộng rãi trong các ứng dụng liên quan đến mạng xã hội. Trong những ứng
dụng này, dữ liệu được phân cụm một cách linh hoạt theo dạng luồng được sử dụng để xác định
những thay đổi theo một quy luật nhất định. Ví dụ luồng dữ liệu có thể ở dạng dữ liệu đa chiều,
luồng chữ, hoặc dữ liệu luồng thời gian, hay định hướng. Những xu hướng và các sự kiện quan
trọng đều có thể xác định được nhờ các phương pháp phân cụm [1]
Phân tích dữ liệu đa phương tiện: nhiều dạng tài liệu như ảnh, đoạn phim, âm thanh đều rơi vào loại
dữ liệu đa phương tiện. Việc xác định được những phân đoạn tương tự nhau được áp dụng vào rất
nhiều thứ, ví dụ như việc xác định được các phân mảnh của nhạc hay ảnh tương tự nhau. Trong
nhiều trường hợp khi dữ liệu là dạng đa thức và có thể chứa nhiều loại dữ liệu khác nhau, lúc này
vấn đề của chúng ta trở nên phức tạp và khó xử lý hơn nhiều [4]

Ngồi những ứng dụng trên việc phân tích dữ liệu của mạng xã hội hay sinh học cũng được áp dụng rộng
rãi ở thời điểm hiện tại. Tuy những ứng dụng được đề cập đến ở bên trên khơng phải tất cả những gì đang
được sử dụng ở thời điểm hiện tại song chúng thể hiện được sự đa dạng của những ứng dụng mà việc phân
cụm dữ liệu được sử dụng trong xã hội hiện tại.
Việc phân cụm dữ liệu thương rơi vào một số hạng mục sau [1]
● Technique-centered ( tập trung vào kỹ thuật ): do việc phân cụm là một vấn đề được biết đến rộng
rãi, nên việc có tồn tại nhiều phương thức như kỹ thuật xác suất, kỹ thuật dựa vào khoảng cách, kỹ
thuật dựa vào mật độ, hay kĩ thuật dựa trên giảm chiều dữ liệu,.. Đã được sử dụng trong quá trình
phân cụm. Mỗi kỹ thuật này đều có những lợi thế cũng như bất lợi của riêng nó và chúng có thể sử
dụng tốt trong một vài tình huống hay các miền vấn đề khác nhau. Những loại dữ liệu như dữ liệu
chiều cao, big data, hay luồng dữ liệu đều có những vấn đề và trở ngại riêng và đều yêu cầu những
kỹ thuật chuyên biệt.
● Data-Type Centered ( tập trung vào loại dữ liệu ): những ứng dụng khác nhau tạo ra nhiều loại dữ
liệu khác nhau với những đặc điểm khác nhau. Bản chất của dữ liệu ảnh hướng rất nhiều đến việc
lựa chọn phương pháp nào trong quá trình phân vùng. Hơn nữa một số loại dữ liệu khó có thể xử lý
hơn do thuộc tính của chúng.
● Additional Insights from clustering variation ( quan niệm về biến thể của phân cụm ): một số thông
tin về các loại phân cụm khác nhau ví dụ như: visual analysis, supervised analysis, ensemble

analysis hay multiview analysis được sử dụng để lấy thêm thông tin. Hơn nữa vấn đề về thẩm định
phân cụm cũng rất quan trọng với góc nhìn để lấy thêm thơng tin về hiệu suất của phân cụm.

8


1.2 Các yêu cầu của phân cụm
● Có khả năng mở rộng: Nhiều thuật toán phân cụm làm việc tốt với những tập dữ liệu nhỏ
chứa ít hơn 200 đối tượng, tuy nhiên, một cơ sở dữ liệu lớn có thể chứa rất nhiều đối tượng
lên đến con số hàng triệu và hơn nữa. Việc phân cụm của một tập dữ liệu lớn có thể ảnh
hưởng tới kết quả rất lớn do đó tính chất có khả năng mở rộng và thích ứng với những có
sở dữ liệu lớn là một yêu cầu quan trọng trong phân cụm. [4]
● Khả năng thích nghi với các kiểu thuộc tính khác nhau: Nhiều thuật toán được thiết kế cho
việc phân cụm dữ liệu có kiểu khoảng. Tuy vậy, nhiều ứng dụng địi hỏi việc phân cụm ở
nhiều loại dữ liệu khác nhau. Do đó việc thích ứng được với các dạng dữ liệu với nhiều
thuộc tính cũng là một yêu cầu lớn đối với phân cụm dữ liệu
● Khám phá các cụm với hình dạng bất kì: Các thuật tốn phân cụm xác định các cụm dựa
trên phép đo khoảng cách Euclidean hay khoảng cách Manhattan. Các thuật toán dựa trên
các phép đo như vậy hướng tới việc tìm kiếm các cụm hình cầu với mật độ và kích cỡ
tương tự nhau. Tuy nhiên, một cụm cũng có thể có bất cứ một hình dạng nào. Do đó, việc
phát triển các thuật tốn có thể khám phá các cụm có hình dạng bất kì là việc quan trọng
● Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào: thuật toán yêu cầu người
dùng đưa vào những tham số nhất định trong phân tích phân cụm, kết quả thường dựa rất
nhiều vào các tham số đầu vào. Trong đó có những tham số rất khó để có thể xác định một
cách chính xác nhất là đối với các tập dữ liệu có lượng các đối tượng lớn. Điều này dẫn đến
những trở ngại không nhỏ cho người dùng mà cịn làm khó để có thể điều chỉnh được chất
lượng phân cụm [4]
● Khả năng thích nghi với dữ liệu nhiễu: Hầu hết các cơ sở dữ liệu thực đều chứa đựng dữ
liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biết hoặc dữ liệu sai. Một số thuật toán phân cụm có
tính chất nhạy cảm với các loại dữ liệu như vậy có thể dẫn đến chất lượng phân cụm bị suy

giảm
● Độ nhạy cảm thấp với thứ tự của dữ liệu đầu vào: Tương tự như trên các thuật tốn có sự
nhạy cảm với thứ tự của dữ liệu đầu vào điều này dẫn đến kết quả khác nhau với các mức
độ nhạy về thứ tự dữ liệu ở các thuật tốn này. Do đó tuỳ vào trường hợp các thuật toán
phù hợp về độ nhạy cần được lựa chọn để đưa ra được các phân cụm chất lượng cao nhất.
● Số chiều lớn: Một cơ sở dữ liệu hay một kho dữ liệu có thể chứa một số chiều hoặc một số
các thuộc tính khác nhau. Nhiều thuật toán phân cụm áp dụng tốt cho dữ liệu với số chiều
thấp ( từ 2-3 chiều ). Người ta đánh giá việc phân cụm có chất lượng tốt nếu nó có thể áp
dụng được cho các cơ sở dữ liệu có từ ba chiều trở lên. Nó là sự thách thức đối với các đối
tượng dữ liệu cụm trong khơng gian với số chiều lớn, đặc biệt vì khi xét những khơng gian
với số chiều lớn có thể rất thưa và có độ nghiêng cao [4]
● Phân cụm ràng buộc: Nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dưới dạng các
loại ràng buộc khác nhau. Giả sử rằng công việc bạn là lựa chọn vị trí cho một số trạm rút

9


tiền tự động ở một thành phố. Để quyết định dựa trên điều này, bạn có thể phân cụm những
hộ gia đình trong khi xem xét các mạng lưới dưới sông và đại lộ, và những yêu cầu khách
hàng của mỗi vùng như những ràng buộc. Một số nhiệm vụ đặt ra là đi tìm những nhóm dữ
liệu có trạng thái phân cụm tốt và thoả mãn các ràng buộc
● Dễ hiểu và dễ sử dụng [1]

1.3 Các loại dữ liệu được tìm hiểu trong phân cụm
Các loại dữ liệu riêng biệt có ảnh hưởng rất lớn đến sự lựa chọn thuật toán để phân cụm.
Đa số các thuật toán phân cụm đầu tiên được thiết kế với ý đồ để xử lý các loại dữ liệu dạng số.
Tuy nhiên, điều này khơng cịn đúng với đa phần các tình huống thực tế nữa khi mà dữ liệu có thể
lấy từ nhiều loại khác nhau như rời rạc, thời gian, cấu trúc. Ở mục này chúng ta sẽ nói về độ ảnh
hưởng của các loại dữ liệu khác nhau lên giai đoạn phân cụm [1]
● Phân cụm dữ liệu phân loại: Dữ liệu phân loại thường khá phổ biến trong cơ sở dữ liệu.

Điều này là do các thuộc tính trong dữ liệu thực như giới tính, chủng tộc, zip code,.... Đều
có tính chất rời rạc và khơng có thứ tự gì. Trong nhiều trường hợp các bộ dữ liệu này cịn
thế bị trộn khi mà các thuộc tính như lương là số trong khi giới tính hay zip code lại là các
phân loại khác nhau. Một dạng đặc biệt của dữ liệu phân loại chính là dữ liệu market basket
( giỏ đi chợ ) khi mà tất cả các thuộc tính đều là nhị phân. Dữ liệu phân loại này dẫn đến
nhiều thách thức cho các thuật toán phân cụm
○ Khi thuật tốn dự vào việc sử dụng tính chất tương đồng hay chức năng khoảng
cách, tiêu chuẩn
khơng cịn có thể sử dụng được. Những điểm tương đồng này
cần được định nghĩa cho dữ liệu phân loại
○ Nhiều thuật toán phân cụm như k-means hay k-median đều tạo ra các phân cụm đại
diện như mean hay median của các điểm dữ liệu trong phân cụm. Trong nhiều
trường hợp số liệu như mean hay median thường được định nghĩa là dữ liệu dạng số
nhưng cần được điều chỉnh phù hợp cho dữ liệu rời rạc.
■ Khi dữ liệu bị trộn, vấn đề sẽ trở nên khó hơn do các thuộc tính khác nhau
cần phải được xử lý theo cách khơng đồng nhất, và các chức năng tương tự
nhau cần được tính tốn rõ ràng cho tính khơng đồng nhất cơ bản
■ Một điều cần lưu ý rằng một số mô hình phân cụm chịu trách nhiệm cho
nhiều dạng dữ liệu hơn một số khác. Ví dụ như, một số mơ hình dựa thuần
theo khoảng cách ( hay sự tương đồng ) chức năng giữa các dữ liệu đã được
lưu. Do đó, các chức năng tương đồng cịn được định nghĩa giữa các dữ liệu
đã lưu trước đó, các phương pháp phân tích phân cụm có thể được sử dụng
một cách hiệu quả. Phân cụm quang phổ là một loại phương pháp có thể sử
dụng với gần như tất cả các loại dữ liệu miễn là các chức năng tương đồng
đã được định nghĩa. Bất cập của phương pháp này là phương pháp sẽ lớn lên
theo căn bậc của kích cỡ các ma trận đồng dạng. Mơ hình sinh cũng có thể
tổng hợp hoá dễ dàng các loại dữ liệu khác nhau, nếu các mơ hình sinh được
định nghĩa cho các thành phần của hỗn hợp. Các thuật toán phổ biến được

10



sử dụng cho thể loại dữ liệu này bao gồm CACTUS, ROCK, STIRR,
LIMBO.
● Phân cụm dữ liệu chữ: Dữ liệu dạng chữ đang ngày càng phổ biến với sự phát triển của
internet và mạng xã hội. Dữ liệu dạng chữ được đại diện dưới dạng vector với việc thứ tự
của dữ liệu được loại bỏ do đó dữ liệu dạng chữ được xử lý dưới dạng túi ( cục ). Một điều
đáng lưu ý rằng những phương pháp cho việc phân cụm dữ liệu dạng chữ cũng có thể sử
dụng cho phân cụm theo các cụm thuộc tính. Dữ liệu dạng chữ có một số đặc điểm cần phải
lưu ý như sau: [1]
○ Dữ liệu dạng này thường có chiều không gian cao và vô cùng thưa. Điều này dẫn
đến mối tương quan giữ chữ và từ vựng rất lớn, nhưng các tài liệu chỉ chứa một số
lượng chữ rất nhỏ. Vì vậy các thuộc tính thường có giá trị bằng khơng.
○ Giá trị của các thuộc tính có mối quan hệ mật thiết với tần suất của từ và chữ do đó
thường sẽ khơng âm. Điều rất quan trọng từ góc nhìn của các phương pháp đồng
phân cụm hay hệ số ma trận do các phương pháp này thường dựa trên đặc tính này.
■ Các phương pháp được sử dụng cho phân cụm dữ liệu ở dạng này như
phương pháp scatter–gather dựa trên phương pháp khoảng cách. Hơn nữa,
việc kết hợp của K-Means và kết tụ ( trong phân cấp ) cũng được sử dụng
trong quá trình phân cụm. Do đó, vấn đề với việc phân cụm dữ liệu chữ đã
thường xun được nghiên cứu dưới dạng mơ hình chủ đề, khi mà một ma
trận của từ và tài liệu được đưa vào phân cụm. Framework EM cũng được
sử dụng song song với những phương pháp trên. Hai phương pháp phổ biến
được sử dụng cho mơ hình chủ đề sinh là PLSI và LDA. Những phương
pháp này có thể được coi là phiên bản mềm của những phương pháp như
đồng phân cụm hay hệ số ma trận khi chúng phân cụm đồng thời cả hàng và
cột cùng một lúc. Phương pháp quang phổ cũng thường được sử dụng trong
việc phân vùng bằng cách tạo ra đồ thị tương đồng lưỡng quyền đại diện cho
sự tương quan giữa hàng và cột……
● Phân cụm dữ liệu đa phương tiện: Với sự phát triển mạnh mẽ của mạng xã hội, nhiều dạng

của dữ liệu đa phương tiện đường sử dụng song song với những phương pháp phân cụm.
Bao gồm dữ liệu hình ảnh, âm thanh, video. Với ví dụ của các trang mạng xã hội chứa
nhiều dữ liệu như Flickr hay Youtube. Bản thân internet và những trang mạng xã hội này
chưa một lượng dữ liệu đa phương tiện lớn. Trong nhiều trường hợp những dữ liệu này có
nhiều sự liên kết với những loại dữ liệu truyền thông/phổ biến như dữ liệu dạng chữ
Việc phân cụm dữ liệu đa phương tiện này thường là một thách thức lớn do bản chất riêng
biệt và đa dạng của loại dữ liệu này. Trong nhiều trường hợp dạng dữ liệu này có thể mà
multimodal hoặc cũng có thể ràng buộc với hành vi và tình huống thuộc tính cụ thể. Ví dụ,
dữ liệu hình ảnh thường sẽ liên quan đến tình huống, khi mà các vị trí của pixel thể hiện
được bối cảnh đó và giá trị của pixel sẽ thể hiện được hành vi. Video và âm nhạc cũng rất
nhạy cảm với bối cảnh do thứ tự nhạy cảm với thời gian là những thông tin cần thiết để
hiệu. Bản chất riêng biệt và ràng buộc bối cảnh có thể được xử lý bằng việc biểu diễn dữ
liệu cụ thể và bên cạnh đó là phân tích chính xác. Trên thực tế biểu diễn dữ liệu dường như
11


là một yếu tố tối quan trọng trong tất cả các dạng dữ liệu đa phương tiện, điều này ảnh
hưởng rất nhiều đến chất lượng đầu ra [1]
● Phân cụm dữ liệu chuỗi thời gian: dữ liệu theo chuỗi thời gian thường khá phổ biến dưới
dạng dữ liệu sensor, thị trường chứng khoán hay bất cứ các loại dữ liệu nào có theo dõi
mang tính nhạy cảm thời gian hay các ứng dụng về tiên đoán/đoán trước. Một trong những
yếu tố của chuỗi thời gian là các giá trị dữ liệu đều không dựa trên lẫn nhau, nhưng về mặt
thời gian thì lại dựa lên nhau. Đặc biệt hơn là các dữ liệu chứa các đặc tính mang tính bối
cảnh/hành vi. Có sự đa dạng đáng kể trong các định nghĩa vấn đề trong kịch bản chuỗi thời
gian. Dữ liệu chuỗi thời gian có thể được phân cụm theo nhiều cách khác nhau, phụ thuộc
vào việc có yêu cầu phân tích trực tuyến dựa trên tương quan hay yêu cầu phân tích ngoại
tuyến dựa trên hình dạng.[1]
○ Trong phân tích trực tuyến dựa trên tương quan, các tương quan giữa các luồng dữ
liệu chuỗi thời gian khác nhau được theo dõi theo thời gian để tạo ra các cụm trực
tuyến. Những phương pháp này thường hữu ích cho việc lựa chọn cảm biến và dự

báo, đặc biệt là khi các luồng có mối tương quan trễ trong các mẫu phân cụm.
Những phương pháp này thường được sử dụng trong các ứng dụng thị trường chứng
khốn, nơi mong muốn duy trì các nhóm chứng khốn phân cụm, theo cách trực
tuyến, dựa trên các mẫu tương quan của chúng. Do đó, các hàm khoảng cách giữa
các loạt chuỗi khác nhau cần được tính tốn liên tục, dựa trên các hệ số hồi quy đối
xứng của chúng. Một số ví dụ về những phương pháp này bao gồm tiếp cận
MUSCLE và một phương pháp giám sát tương quan chuỗi thời gian quy mô lớn.
Trong phân tích ngoại tuyến dựa trên hình dạng, các đối tượng chuỗi thời gian được
phân tích theo cách ngoại tuyến và chi tiết cụ thể về thời điểm tạo ra một chuỗi thời
gian cụ thể khơng quan trọng. Ví dụ, đối với một tập hợp các chuỗi thời gian ECG
được thu thập từ các bệnh nhân, thời điểm chính xác của việc thu thập một chuỗi
không quan trọng, nhưng hình dạng tổng thể của chuỗi rất quan trọng cho mục đích
phân cụm. Trong các trường hợp như vậy, hàm khoảng cách giữa hai chuỗi thời
gian là rất quan trọng. Điều này quan trọng vì các chuỗi thời gian khác nhau có thể
khơng được vẽ trên cùng phạm vi giá trị dữ liệu và cũng có thể hiển thị hiệu ứng
biến dạng thời gian, trong đó các hình dạng chỉ có thể được phù hợp bằng cách kéo
dài hoặc co lại các phần của chuỗi thời gian theo hướng thời gian. Như trong trường
hợp trước đó, thiết kế của hàm khoảng cách giữa vai trò then chốt trong việc sử
dụng hiệu quả của phương pháp.
Một trường hợp đặc biệt thú vị là chuỗi thời gian đa biến, trong đó nhiều chuỗi được sản xuất đồng
thời theo thời gian. Một ví dụ cổ điển về điều này là dữ liệu quỹ đạo, trong đó các hướng tọa độ
khác nhau hình thành các thành phần khác nhau của chuỗi đa biến. Do đó, phân tích quỹ đạo có thể
được coi là một loại đặc biệt của phân cụm chuỗi thời gian. Như trong trường hợp chuỗi thời gian
một biến, có thể thực hiện các bước này bằng cách sử dụng phân tích trực tuyến (quỹ đạo di
chuyển cùng nhau theo thời gian thực) hoặc phân tích ngoại tuyến (hình dạng tương tự).[1]
● Phân cụm dữ liệu chuỗi rời rạc: Nhiều dạng dữ liệu tạo ra các chuỗi rời rạc thay vì các
chuỗi phân loại. Ví dụ, các nhật ký web, các chuỗi lệnh trong các hệ thống máy tính và dữ
12



liệu sinh học đều là các chuỗi rời rạc. Thuộc tính ngữ cảnh trong trường hợp này thường
tương ứng với vị trí (ví dụ, dữ liệu sinh học) thay vì thời gian. Dữ liệu sinh học cũng là một
trong những ứng dụng phổ biến nhất của việc phân cụm chuỗi. Giống như trường hợp các
chuỗi liên tục, thách thức chính là tạo ra các hàm tương đồng giữa các đối tượng dữ liệu
khác nhau. Nhiều hàm tương đồng như khoảng cách Hamming, khoảng cách chỉnh sửa và
chuỗi con chung dài nhất thường được sử dụng phổ biến trong ngữ cảnh này. Vấn đề khác
quan trọng trong ngữ cảnh của phân cụm chuỗi rời rạc là biểu diễn trung gian và tóm tắt
của một tập hợp các chuỗi có thể tốn nhiều tài ngun tính tốn. Khác với dữ liệu số, nơi
các phương pháp trung bình có thể được sử dụng, việc tìm kiếm các biểu diễn như vậy cho
các chuỗi rời rạc là rất khó khăn. Một biểu diễn phổ biến, cung cấp một mức độ tóm tắt
tương đối hạn chế là cây hậu tố. Phương pháp sử dụng cây hậu tố cho các phương pháp
phân cụm chuỗi đã được đề xuất trong CLUSEQ .

Mơ hình sinh có thể được sử dụng để mơ hình hóa khoảng cách giữa các chuỗi và
tạo ra các mơ hình xác suất của việc tạo cụm. Một phương pháp phổ biến là sử dụng
sự kết hợp của các Mơ hình Markov ẩn (HMM). Mơ hình Markov ẩn có thể coi là
một loại mơ hình kết hợp đặc biệt trong đó các thành phần khác nhau của kết hợp
phụ thuộc vào nhau. Một cấp độ thứ hai của mơ hình kết hợp có thể được sử dụng
để tạo ra các cụm từ các HMM khác nhau. Nhiều công việc về phân cụm chuỗi được
thực hiện trong bối cảnh dữ liệu sinh học.
● Phân cụm dữ liệu mạng lưới: Đồ thị và mạng lưới là các biểu diễn dữ liệu cơ bản (và chung
nhất) nhất trong tất cả các biểu diễn dữ liệu. Điều này bởi vì hầu hết mọi loại dữ liệu đều có
thể được biểu diễn dưới dạng đồ thị tương đồng, với các giá trị tương đồng trên các cạnh.
Trong thực tế, phương pháp phân cụm phổ có thể được coi là mối liên hệ chung nhất giữa
tất cả các loại phân cụm khác và phân cụm đồ thị. Do đó, miễn là một hàm tương đồng có
thể được xác định giữa các đối tượng dữ liệu tùy ý, phân cụm phổ có thể được sử dụng để
thực hiện phân tích. Phân cụm đồ thị đã được nghiên cứu rộng rãi trong văn học cổ điển,
đặc biệt là trong bối cảnh vấn đề phân chia đồ thị hai chiều và nhiều chiều. Thuật toán phân
chia nhiều chiều cổ điển nhất là phương pháp Kernighan-Lin. Những phương pháp này có
thể được sử dụng kết hợp với các phương pháp làm giảm kích thước đồ thị để cung cấp các

giải pháp hiệu quả. Những phương pháp này được biết đến với tên gọi là các kỹ thuật phân
chia đa cấp đồ thị. Một thuật toán đặc biệt phổ biến trong danh mục này là METIS.
Một số phương pháp thông thường được sử dụng trong văn học nhằm tạo các phân vùng từ
đồ thị:[1]
○ Mơ hình sinh: Như đã thảo luận trước đó trong chương này, có thể xác định một mơ
hình sinh cho hầu hết các vấn đề phân cụm, miễn là có một phương pháp phù hợp
để xác định mỗi thành phần của hỗn hợp là một phân phối xác suất.
○ Các thuật toán kết hợp cổ điển: Các phương pháp này sử dụng dòng mạng hoặc các
kỹ thuật tổ hợp lặp đi lặp lại khác để tạo ra các phân vùng từ đồ thị cơ bản. Nên
nhấn mạnh rằng, ngay cả việc lấy mẫu cạnh cũng thường được biết đến để tạo ra
các phân vùng chất lượng tốt, khi được lặp lại nhiều lần . Thường mong muốn xác
13


định các phân chia cân bằng tốt trên các phân vùng khác nhau, vì cắt với giá trị
tuyệt đối nhỏ nhất thường chứa đa số các nút trong một phân vùng đơn và một số
rất nhỏ các nút trong các phân vùng còn lại. Các hàm mục tiêu khác nhau trong việc
tạo ra cắt, chẳng hạn như cắt không chuẩn hóa, cắt chuẩn hóa và tỷ lệ cắt, cung cấp
các sự đánh đổi khác nhau giữa cân bằng cụm và chất lượng giải pháp. Nên nhấn
mạnh rằng vì cách cắt đồ thị là một vấn đề tối ưu tổ hợp, chúng có thể được sắp xếp
dưới dạng chương trình số nguyên.
○ Phương pháp phổ: Phương pháp phổ có thể được xem như là các giải pháp tuyến
tính cho các chương trình ngun tuyến tính thể hiện tối ưu hóa của các cắt đồ thị.
Các hàm mục tiêu khác nhau có thể được xây dựng cho các loại cắt khác nhau, như
cắt khơng chuẩn hóa, cắt tỉ lệ và cắt chuẩn hóa. Do đó, các giải pháp liên tục cho
các chương trình tuyến tính này có thể được sử dụng để tạo ra một nhúng đa chiều
cho các nút, trên đó các thuật tốn k-means thơng thường có thể được áp dụng. Các
chương trình tuyến tính này có thể được chứng minh có hình dạng đặc biệt thuận
tiện, trong đó các vectơ riêng tổng quát của Laplacian đồ thị tương ứng với các giải
pháp của vấn đề tối ưu hóa.

○ Phân tích ma trận phi âm: Vì một đồ thị có thể được biểu diễn dưới dạng ma trận
kề, nên phân tích ma trận phi âm có thể được sử dụng để phân rã nó thành hai ma
trận hạng thấp. Các phương pháp phân tích ma trận có thể được áp dụng cho ma
trận kề giữa các nút hoặc ma trận kề giữa nút và cạnh để đạt được các loại thông tin
khác nhau. Việc bổ sung nội dung vào ma trận cũng dễ dàng để tạo ra các phương
pháp phân tích, có thể phân cụm với sự kết hợp của nội dung và cấu trúc. [1]
Trong khi các phương pháp được nêu trên đại diện cho một số phương pháp phân cụm đồ thị quan
trọng, rất nhiều hàm mục tiêu khác có thể được sử dụng cho xây dựng cách cắt đồ thị, chẳng hạn
như sử dụng các hàm mục tiêu dựa trên độ tương đồng . Hơn nữa, vấn đề trở nên khó khăn hơn
trong bối cảnh của các mạng xã hội, nơi nội dung có thể có sẵn ở cả các nút hoặc các cạnh.[1]
● Phân cụm dữ liệu khơng chắc chắn: Có nhiều dạng dữ liệu có độ chính xác thấp hoặc chất
lượng dữ liệu đã bị giảm chất lượng một cách cố ý để thiết kế các thuật toán khai thác
mạng khác nhau. Điều này đã dẫn đến lĩnh vực cơ sở dữ liệu xác suất. Dữ liệu xác suất có
thể được đại diện dưới dạng khơng chắc chắn thuộc tính hoặc dưới dạng mơ hình thế giới
có thể, trong đó chỉ có một số phần của các thuộc tính có thể có mặt trong dữ liệu tại một
thời điểm nhất định. Ý tưởng chính ở đây là tích hợp thơng tin xác suất có thể cải thiện chất
lượng các thuật toán khai thác dữ liệu. Ví dụ, nếu hai thuộc tính là tương đương để sử dụng
trong một thuật toán trong kịch bản xác định, nhưng một trong số chúng có độ khơng chắc
chắn lớn hơn so với thuộc tính cịn lại, thì thuộc tính ít không chắc chắn rõ ràng là tốt hơn
để sử dụng. Các thuật tốn gom cụm khơng chắc chắn cũng đã được mở rộng gần đây vào
lĩnh vực các luồng dữ liệu và đồ thị. Trong bối cảnh của đồ thị, thường mong muốn xác
định các đồ thị phụ đáng tin cậy nhất trong mạng cơ sở. Đây là các đồ thị phụ mà khó tách
ra nhất dưới sự khơng chắc chắn của các cạnh.

14


1.4 Một số phương thức được sử dụng trong phân tích cụm
Feature Selection Methods - Phương pháp lựa chọn dựa trên đặc tính
Giai đoạn lựa chọn đặc tính là một bước quan trọng trong việc tiền xử lý và cũng là một việc cần

thiết để có thể gia tăng chất lượng của phân cụm. Tuy vậy khơng phải đặc tính nào cũng liên quan
tương đương nhau trong việc tìm cụm khi một số đặc tính nhiễu hơn nhau. Do đó trong giai đoạn
tiền xử lý việc loại bỏ những đặc tính bị nhiễu là việc cần thiết, trong lựa chọn đặc tính, những bộ
tập con đặc tính ban đầu đều được lựa chọn. Đối với giảm chiều dữ liệu, những kết hợp tuyến tính
của các đặc tính có thể sử dụng trong các kỹ thuật như phân tích thành phần chủ yếu để có thể
phóng đại các đặc tính được chọn. Lợi thế của việc lựa chọn đặc tính là giúp ta có thể hiểu được dữ
liệu dễ hơn trong khi kỹ thuật giảm chiều là số lượng của những hướng được biến đổi cần thiết cho
quá trình đại diện được giảm đáng kể, cũng có thể nói hai kỹ thuật cả lựa chọn đặc tính và giảm
chiều là hai kỹ thuật có mối quan hệ mật thiết với nhau.
Probabilistic and Generative Models - mơ hình xác suất và sinh
Trong mơ hình xác suất, ý tưởng chính ở đây là lấy dữ liệu từ quá trình sinh. Đầu tiên, một dạng
của mơ hình sinh được chọn ( ví dụ phân phối gauss ), sau đó các tham số của mơ hình này sẽ được
ước lượng dựa trên thuật tốn tối ưu tham số ( EM ) . Những bộ data có sẵn được sử dụng để ước
lượng được các tham số sao cho độ phù hợp được tối đa hoá cho mơ hình. Sau khi đã có được mơ
hình chúng ta sẽ có thể đốn được xác suất sinh của những điểm dữ liệu cơ bản. Những điểm dữ
liệu phù hợp với phân bố tương tự cũng sẽ có độ phù hợp cao với xác suất, ngược lại với những
điểm dị biệt sẽ có độ phù hợp xác suất thấp. [2]
Các ngun tắc chính của một mơ hình sinh dựa trên hỗn hợp là cho rằng rằng các dữ liệu được
sinh ra từ một hỗn hợp của phân bố k với xác suất phân bố
với việc sử dụng quá trình
sau [2]
● Chọn một phân bố dữ liệu với xác suất tiền định là với
, để có thể chọn 1
trong phân bố . Nếu ta cho rằng số được chọn
● Sinh một điểm dữ liệu từ
Với xác suất phân bố
được chọn từ các xác suất khác nhau. Điều đáng ghi lại ở đây là trong quá
trình sinh yêu cầu một số các tham số cần được định trước ví dụ như xác suất tiền định và tham số
của mơ hình cho mỗi phân bố . Mơ hình với nhiều mức độ linh hoạt khác nhau có thể được thiết
kế dựa trên liệu xác suất tiền định là một phần của cài đặt vấn đề không, hay việc tương quan giữa

các thuộc tính được là một phần của hỗn hợp hay khơng. Mơ hình sinh thường được giải bằng tiếp
cận EM bắt đầu với khởi tạo ngẫu nhiên hay heuristic sau đó lặp đi lặp lại cho đến khi mơ hình hội
tụ:[2]

15


● E-step: dựa trên tham số của mơ hình để tính xác suất của các điểm dữ liệu vào 1 nhóm nào
đấy
● M-step: Tối ưu các tham số (hoặc trọng số weights) chính là cái xác suất vừa tính
Một thuộc tính của mơ hình EM là chúng có thể được khái quát hoá một cách khá đơn giản đối với
nhiều loại dữ liệu khác nhau, miên sao mơ hình sinh cho mỗi thành phần được lựa chọn một cách
cẩn thận cho mỗi thành phần của hỗn hợp , một số ví dụ như:[2]
● Đối với dữ liệu số, một mơ hình hỗn hợp Gauss được sử dụng để có thể mơ hình hố các
thành phần của
● Đối với dữ liệu phân loại, mơ hình Bernoulli được sử dụng cho
để có thể mơ hình hố
việc sinh ra các giá trị rời rạc.
● Đối với dữ liệu trình tự, mơ hình Markov ẩn (HMM) có thể dùng cho
để mơ hình hố sự
sinh ra của một chuỗi
Distance-Based Algorithms - Thuật toán dựa trên khoảng cách
Một vài dạng đặc biệt của thuật toán sinh có thể đơn giản hố thành thuật tốn dựa trên khoảng
cách. Việc này là do thành phần hỗn hợp trong mơ hình sinh thường dùng chức năng khoảng cách
trong phân bố xác suất. Các phương thức dựa theo khoảng cách này thường được tìm đến do sự
đơn giản và áp dụng dễ dàng vào các tình huống đa dạng. Thuật toán dựa trên khoảng cách được
chia ra thành 2 loại
● Flat: Trong trường hợp này, dữ liệu được chia ra thành nhiều phân cụm, phổ biến với việc
sử dụng các phân vùng đại diện. Lựa chọn phân vùng đại diện và chức năng khoảng cách là
việc quan trọng và quy định được hành vi của thuật toán cơ bản. Ở mỗi bước các điểm dữ

liệu được giao cho phân vùng đại diện gần nhất, và các đại diện này được điều chỉnh dựa
trên các điểm dữ liệu được giao cho phân cụm. Việc nên làm là so sánh với bản chất lặp lại
của thuật toán EM. Một số phương thức phổ biến có thể kể đến như [2]
○ K-Means: các phân vùng đại diện tương quan với ý nghĩa của các phân cụm.
Khoảng cách euclid được sử dụng để tính toán khoảng cách. K-Means được coi là
phương thức đơn giản nhất cũng như là phương thức cổ điển trong việc phân cụm
dữ liệu và cũng có lẽ là phương thức được sử dụng rộng rãi nhất trong những ứng
dụng ở thời điểm hiện tại do bản chất đơn giản của nó
○ K-Medians: Trong phương thức này median của các chiều thay vì mean được sử
dụng để tạo ra các phân vùng đại diện.
○ K-Medoids: Đối với phương thức này thì phân vùng đại diện được lấy mẫu từ dữ
liệu ban đầu. Kỹ thuật này đặc biệt có ích trong một vài trường hợp như khi điểm
dữ liệu được phân cụm là các đối tượng tuỳ
● Hierarchical (phân cấp): trong những phương pháp này, các phân cụm được đại diện theo
phân cấp qua một biểu đồ thứ bậc (dendrogram) với các cấp độ chi tiết khác nhau. Dựa vào
16


thể hiện phân cấp này được tạo ra theo dạng từ dưới lên hay từ trên xuống, những đại diện
này có thể coi là kết tụ hay rẽ nhánh.
○ Agglomerative ( kết tụ )
○ Divisive ( rẽ nhánh )

CHƯƠNG 2: CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU
Ở chương này chúng ta sẽ đi sâu hơn về những phương pháp phân cụm như thế nào ngoài
ra cũng xem qua về áp dụng/ứng dụng trong thực tế của những phương pháp này

2.1: Thuật toán phân cấp ( hierarchical clustering algorithms )
Các thuật toán phân cụm phân cấp được phát triển để vượt qua một số nhược điểm của các
phương pháp phân cụm phẳng hoặc phân đoạn. Các phương pháp phân đoạn thông thường yêu cầu

một tham số K được định nghĩa trước bởi người dùng để có được một giải pháp phân cụm và
chúng thường là khơng xác định. Các thuật tốn phân cấp được phát triển để xây dựng một cơ chế
phân cụm dữ liệu xác định và linh hoạt hơn. Các phương pháp phân cấp có thể được phân loại
thành các phương pháp phân cụm hợp nhất và phân cụm chia nhỏ. Các phương pháp hợp nhất bắt
đầu bằng cách lấy các cụm đơn (chỉ chứa một đối tượng dữ liệu trên mỗi cụm) ở cấp dưới nhất và
tiếp tục hợp nhất hai cụm để xây dựng một cấu trúc phân cấp từ dưới lên của các cụm. Các phương
pháp chia nhỏ, å về phía khác, bắt đầu với tất cả các đối tượng dữ liệu trong một siêu cụm lớn và
liên tục chia thành hai nhóm tạo ra một cấu trúc phân cấp từ trên xuống của các cụm. Một cụm dữ
liệu có thể được hiểu thơng qua thuật ngữ cây nhị phân tiêu chuẩn như sau. Gốc đại diện cho tất cả
các tập hợp các đối tượng dữ liệu được phân cụm và đây là đỉnh của hệ thống phân cấp (cấp 0). Ở
mỗi cấp, các mục con (hoặc nút) là tập con của toàn bộ tập dữ liệu tương ứng với các cụm. Các
mục trong mỗi cụm này có thể được xác định bằng cách duyệt cây từ nút cụm hiện tại đến các
điểm dữ liệu đơn lẻ ở đáy. Mỗi cấp trong hệ thống phân cấp tương ứng với một tập hợp các cụm.
Ở đáy của hệ thống phân cấp, bao gồm tất cả các điểm đơn lẻ là các lá của cây. Hệ thống phân cấp
này còn được gọi là một dendrogram. Lợi thế cơ bản của việc sử dụng một phương pháp phân cấp
17


là cho phép cắt hệ thống phân cấp ở bất kỳ cấp nào và thu được các cụm tương ứng. Điều này làm
cho phương pháp phân cụm phân cấp khác biệt đáng kể so với các phương pháp phân cụm chia
thành các phần, vì nó khơng địi hỏi một thơng số k (số lượng cụm) được xác định trước bởi người
dùng. [2]
Trong phần này, chúng ta sẽ trước tiên thảo luận về các phương pháp phân cụm tụ hợp khác nhau,
chủ yếu khác nhau trong các độ đo tương đồng mà chúng sử dụng. Các thuật toán được nghiên cứu
rộng rãi trong danh mục này bao gồm: liên kết đơn (lân cận gần nhất), liên kết hồn chỉnh (đường
kính), trung bình nhóm (liên kết trung bình), tương đồng trung tâm và tiêu chuẩn Ward (phương
sai tối thiểu). Sau đó, chúng ta cũng sẽ thảo luận về một số phương pháp phân cụm chia nhỏ phổ
biến.
2.1.1: Agglomerative clustering
Các bước cơ bản được thực hiện trong thuật toán phân cấp gộp liên kết là như sau. Đầu

tiên, sử dụng một độ đo sự tương đồng cụ thể để xây dựng ma trận không giống nhau và tất cả các
điểm dữ liệu được đại diện trực quan ở dưới cùng của cây phân cấp. Các tập hợp cụ thể gần nhất
của các cụm được hợp nhất ở mỗi cấp độ và sau đó ma trận không giống nhau được cập nhật tương
ứng. Quá trình hợp nhất liên kết được thực hiện cho đến khi đạt được cụm tối đa cuối cùng (chứa
tất cả các đối tượng dữ liệu trong một cụm duy nhất). Điều này sẽ đại diện cho đỉnh của cây phân
cấp và đánh dấu sự hồn thành của q trình gộp nối.
2.1.1.1: Liên kết đơn và hoàn thiện ( Single and Complete link )
Phương pháp phân cụm theo liên kết đơn và liên kết hoàn chỉnh là hai phương pháp phân
cụm hiệu quả nhất. Trong phân cụm theo liên kết đơn, độ tương đồng của hai cụm được tính dựa
trên độ tương đồng giữa hai điểm dữ liệu gần nhất của chúng. Phương pháp này tập trung nhiều
vào khu vực hai cụm gần nhau hơn, bỏ qua cấu trúc tổng thể của cụm. Do đó, phương pháp này
thuộc loại phân cụm dựa trên độ tương đồng cục bộ. Vì sự cư xử cục bộ của nó, phân cụm theo
liên kết đơn có khả năng phân cụm hiệu quả các nhóm dữ liệu có hình dạng khơng elip và dài. Tuy
nhiên, một trong những hạn chế chính của phương pháp này là độ nhạy cảm với nhiễu và các giá
trị ngoại lai trong dữ liệu. [2]
Phương pháp phân cụm liên kết đầy đủ [27] đo độ tương tự của hai cụm dữ liệu dựa trên độ tương
tự của hai thành viên khác nhau nhất của chúng. Đây tương đương với việc chọn cặp cụm có
đường kính hợp nhất nhỏ nhất để gộp lại. Vì phương pháp này xem xét cấu trúc của cụm dữ liệu,
nó có hành vi phi cục bộ và thường thu được các cụm dữ liệu có hình dạng thon gọn. Tuy nhiên,
tương tự như phương pháp phân cụm liên kết đơn, phương pháp này cũng nhạy cảm đối với giá trị
ngoại lai. Cả phương pháp phân cụm liên kết đơn và liên kết đầy đủ đều có các giải thích đồ thị
[16], trong đó các cụm dữ liệu được thu được sau phân cụm liên kết đơn sẽ tương ứng với các
thành phần liên thông của đồ thị và các cụm dữ liệu thu được thông qua phân cụm liên kết đầy đủ

18


sẽ tương ứng với các nhóm tối đa của đồ thị. [2]

Từ trái qua phải các cột thể hiện Dissimilarity matrix, Single link và complete link

Hình trên thể hiện ma trận độ không giống nhau và hai dendrogram tương ứng được
thu được bằng cách sử dụng các thuật toán single link và complete link trên một tập dữ liệu
mô phỏng. Trong dendrograms, trục X biểu thị các đối tượng dữ liệu và trục Y biểu thị độ
không giống nhau (khoảng cách) mà các điểm đã được kết hợp. Sự khác biệt trong việc kết
hợp giữa hai dendrogram xảy ra do các tiêu chí khác nhau được sử dụng bởi các thuật toán
single và complete link. Trong single link, trước tiên điểm dữ liệu 3 và 4 được kết hợp ở
mức độ không giống nhau 0.1 như được hiển thị trong (b). Sau đó, dựa trên các tính tốn
được hiển thị trong Phương trình (4.27), cụm (3,4) được kết hợp với điểm dữ liệu 1 ở mức
độ tiếp theo; cuối cùng cụm (3,4,1) được kết hợp với 2. Trong complete link, sự kết hợp
cho cụm (3,4) được kiểm tra với các điểm 1 và 2 và vì d(1,2) = 0,20, các điểm 1 và 2 được
kết hợp ở mức độ tiếp theo. Cuối cùng, các cụm (3,4) và (1,2) được kết hợp ở mức độ cuối
cùng. Điều này giải thích sự khác biệt trong việc phân cụm trong cả hai trường hợp. [2]

2.1.1.2: Group Averaged and Centroid Agglomerative Clustering
Phương pháp gom cụm động dạng trung bình nhóm ( GAAC ) xem xét sự tương đồng giữa
tất cả các cặp điểm có trong cả hai cụm và giảm thiểu các nhược điểm liên quan đến
phương pháp liên kết đơn và liên kết hồn chỉnh. Trước khi chúng ta xem xét cơng thức,
chúng ta sẽ xem qua một số thuật ngữ. Cho cụm

có thể gộp với nhau
với



. Khi đó trọng tâm mới của cụm này sẽ là
,
là trường cho cụm
và . Điểm tương đồng được tính cho GAAC với cơng

19



thức sau [2]

2.1
Chúng ta có thể thấy rằng khoảng cách giữa hai cụm là trung bình của tất cả các khoảng
cách đôi một giữa các điểm dữ liệu trong hai cụm này. Do đó, đo lường này là đắt đỏ để
tính tốn đặc biệt là khi số lượng đối tượng dữ liệu trở nên lớn. Trong khi đó, việc phân
cụm tụ điểm dựa trên cụm tính độ tương tự giữa hai cụm bằng cách đo độ tương tự giữa các
tâm của chúng. Sự khác biệt chính giữa GAAC và phân cụm tụ điểm là GAAC xem xét tất
cả các cặp đối tượng dữ liệu để tính tốn độ tương tự trung bình đơi một, trong khi phân
cụm tụ điểm dựa trên cụm chỉ sử dụng tâm của cụm để tính toán độ tương tự giữa hai cụm
khác nhau. [2]
2.1.1.3: Ward’s Criterion
Tiêu chuẩn Ward được đề xuất để tính khoảng cách giữa hai cụm trong quá trình
phân cụm dựa trên liên kết gom nhóm. Q trình này cũng được gọi là liên kết gom nhóm
Ward. Nó sử dụng tiêu chuẩn bình phương sai số của K-means để xác định khoảng cách.
Đối với hai cụm Ca và Cb bất kỳ, tiêu chuẩn Ward được tính bằng cách đo lường sự tăng
giá trị của tiêu chuẩn SSE cho phân cụm thu được bằng cách gom nhóm chúng thành Ca ∪
Cb. Tiêu chuẩn Ward được định nghĩa như sau:

2.2
Vì vậy, tiêu chí của Ward có thể được hiểu là khoảng cách Euclide bình phương
giữa trung tâm của các cụm được gộp lại Ca và Cb được trọng số bởi một hệ số tỉ lệ với
tích của số lượng thành viên trong các cụm được gộp lại. [2]
2.1.1.4: Thuật toán phân cụm phân cấp theo nhóm (Agglomerative
Hierarchical Clustering Algorithm)
Bước đầu tiên, sử dụng một đo lường độ tương đồng nhất định để tạo ra ma trận độ khác
biệt và tất cả các điểm dữ liệu được đại diện trực quan ở đáy của cây phân cấp. Các tập hợp cụ thể
của các nhóm gần nhau nhất được gộp ở mỗi cấp độ, sau đó ma trận độ khác biệt được cập nhật

tương ứng. Quá trình gộp theo nhóm này được tiếp tục cho đến khi nhóm cực đại cuối cùng (chứa

20



×