Tải bản đầy đủ (.pdf) (78 trang)

Trực quan hóa xu hướng cụm với dữ liệu kích có thước lớn: luận văn thạc sĩ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.23 MB, 78 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG

TÔ TIẾN THÀNH

TRỰC QUAN HÓA XU HƯỚNG CỤM VỚI DỮ LIỆU CÓ
KÍCH THƯỚC LỚN

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Đồng Nai - Năm 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG

TÔ TIẾN THÀNH

TRỰC QUAN HÓA XU HƯỚNG CỤM VỚI DỮ LIỆU CÓ
KÍCH THƯỚC LỚN

Chuyên ngành: Công Nghệ Thông Tin
Mã số: 8480201

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS ĐẶNG TRẦN KHÁNH

Đồng Nai - Năm 2018



i

LỜI CẢM ƠN
Để hoàn thành luận văn này, tôi xin chân thành cám ơn thầy cô cùng Khoa sau
đại học Trường Đại Học Lạc Hồng đã dạy dỗ, hướng dẫn và truyền đạt cho tôi những
kiến thức và kinh nghiệp quý báu.
Xin tỏ lòng biết ơn sâu sắc đến thầy Đặng Trần Khánh, Phó trưởng Bộ môn
Công nghệ thông tin – Trường Đại học Bách Khoa – TP Hồ Chí Minh đã tận tình chỉ
bảo, truyền đạt những kinh nghiệm, kỹ năng và phương pháp nghiên cứu để đề tài
được thực và hoàn thành.
Xin gửi lời cám ơn đến anh, chị, em đồng nghiệp cũng như các bạn cùng lớp đã
động viên, giúp đỡ, đóng góp ý kiến rất nhiều trong quá trình thực hiện đề tài này.
Do kiến thức và thời gian có hạn nên đề tài không tránh khỏi những thiếu sót
và khuyết điểm, kính mong quý thầy cô đóng góp thêm để đề tài được hoàn thiện !
Tôi xin chân thành cám ơn !

Đồng Nai ,ngày

tháng

Học viên

Tô Tiến Thành

năm 2018


ii


LỜI CAM ĐOAN
Tôi xin cam đoan số liệu và kết quả nghiên cứu trong luận văn này là tự tìm
hiểu và phân tích một cách trung thực, khách quan. Kết quả và báo nêu trong luận
văn chưa được công bố trong bất kỳ một công trình nghiên cứu nào khác.
Các tài liệu liên quan đều được trích dẫn rõ ràng từ các nguồn tin cậy,
đúng quy định.
Nếu có gì sai Tôi xin chịu trách nhiệm về luận văn của mình.
Đồng Nai, ngày

tháng

năm 2018

Học viên

Tô Tiến Thành


iii

TÓM TẮT LUẬN VĂN
Đề tài: Trực quan hóa xu hướng cụm với dữ liệu kích có thước lớn.
Ngành: Công nghệ thông tin Mã số: 8480201
Học viên: Tô Tiến Thành
Người hướng dẫn: PGS.TS Đặng Trần Khánh
NỘI DUNG TÓM TẮT
1. Nội dung được giao và kết quả mong đợi của người hướng dẫn
Nội dung:
Luận văn này sẽ trình bày các phương pháp trực quan hóa xu hướng dữ liệu
dựa trên ma trận sai khác. Việc thể hiện ma trận sai khác thành hình ảnh được

Bezdek và Hathaway gọi là VAT. Giải thuật VAT và các biến thể lần lượt giải quyết
được các hạn chế ứng với dữ liệu có đặc điểm cụ thể. Tiếp đó, luận văn này sẽ đề
xuất phương pháp trực quan hóa xu hướng dựa trên coreset. Mục tiêu chính của việc
nghiên cứu này là hướng đến việc áp dụng được các giải thuật trên tập dữ liệu kích
thước lớn và mở rộng hơn nữa là dữ liệu dòng (Streaming) - vốn là một xu hướng
của dữ liệu ngày nay
Kết quả:
 Luận văn sẽ trình bày lại một cách có hệ thống về VAT và các biến thể của
nó cho các bài toán có kích thước lớn. Nội dung trình bày sẽ nêu rõ các bài
toán, các tính chất/đặc điểm lý thuyết liên quan, thuật toán, thực thi, và thực
nghiệm cùng với các kết quả số cụm cụ thể.
 Sản phẩm kỳ vọng có được sau khi hoàn thành luận văn là một demo đơn
giản gắn các thuật toán đã thực thi lại với nhau như là một mô-đun tiền xử lý
cho kỹ thuật phân cụm.
 Viết báo cáo tổng kết luận văn
2. Cách thức giải quyết vấn đề
 Nghiên cứu thuật toán VAT
 Nghiên cứu một biến thể cải tiến của VAT
 Nghiên cứu các biến thể của VAT cho các bài toán với dữ liệu kích thước lớn
 Thực nghiệm các phương pháp ở trên với một kỹ thuật phân cụm cụ thể


iv
3. Đánh giá về mặt khoa học của kết quả
Tìm hiểu tổng quan về bài toán phân cụm và các bước thực hiện chính để giải,
chỉ ra được nhược điểm của thuật toán VAT gốc. Nghiên cứu các biến thể của VAT
cho các bài toán với dữ liệu kích thước lớn gồm: iVAT, re VAT, sVAT và bigVAT,
thực thi bằng Matlab và thực nghiệm với các bộ dữ liệu kích thước lớn. Phân tích các
kết quả thu được, cho thấy sự cải tiến tốt trong các thuật toán này. Mục tiêu chính của
việc nghiên cứu này là hướng đến việc áp dụng được các giải thuật trên tập dữ liệu

có kích thước lớn.
4. Những vấn đề còn tồn tại so với nội dung được giao
Dù đã tìm hiểu và phần nào giải quyết được một số cách tiếp cận đối với dữ
liệu kích thước lớn nhưng tôi tự nhận thấy vẫn còn hạn chế trong việc dự đoán xu
hướng cụm đối với dữ liệu kích thước lớn mà xa hơn nữa là Dữ liệu lớn (Big Data).
Một số cải tiến đã cho thấy thêm được rằng khó có cách giải quyết nào áp dụng tốt
cho mọi mục tiêu và mọi loại dữ liệu. Tuy nhiên dù cải tiến thì nếu cải tiến được tiêu
chí này sẽ đánh đổi đi tiêu chí khác.
Đồng Nai, Ngày

tháng

năm 2018

NGƯỜI HƯỚNG DẪN

HỌC VIÊN

PGS.TS Đặng Trần Khánh

Tô Tiến Thành


v

MỤC LỤC
LỜI CẢM ƠN ..............................................................................................................i
LỜI CAM ĐOAN .......................................................................................................ii
TÓM TẮT LUẬN VĂN ........................................................................................... iii
MỤC LỤC ................................................................................................................... v

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT ...............................................vii
DANH SÁCH HÌNH VẼ ........................................................................................ viii
DANH SÁCH BẢNG ................................................................................................. x
DANH SÁCH GIẢI THUẬT.....................................................................................xi
CHƯƠNG 1: GIỚI THIỆU ......................................................................................... 1
CHƯƠNG 2: TRỰC QUAN HÓA XU HƯỚNG CỤM - GIẢI THUẬT VAT ........ 3
2.1 Giới thiệu ...........................................................................................................3
2.2 Hình ảnh biểu diễn sự khác nhau giữa các đối tượng đã sắp thứ tự ..................4
2.3 Chi tiết giải thuật ...............................................................................................7
2.4 Thực nghiệm và phân tích .................................................................................9
2.5 Kết luận chương ...............................................................................................12
CHƯƠNG 3 : iVAT – MỘT SỐ CẢI TIẾN HIỆU QUẢ CỦA VAT ...................... 13
3.1. Đặt vấn đề .......................................................................................................13
3.2 Một số phương pháp sắp xếp lại ma trận .........................................................13
3.3 Chi tiết giải thuật .............................................................................................14
3.4 Thực thi và thực nghiệm ..................................................................................14
3.5 Kết luận chương ...............................................................................................18
CHƯƠNG 4 : CÁC BIẾN THỂ CỦA VAT CHO DỮ LIỆU KÍCH THƯỚC LỚN .... 19
4.1 Biến thể reVAT ................................................................................................19
4.2 Biến thể bigVAT ..............................................................................................23
4.3 Biến thể sVAT .................................................................................................27
4.4 siVAT – Sự kết hợp giữa sVAT và iVAT ......................................................38
4.5 Biến thể đề xuất cho dữ liệu lớn ......................................................................41
4.5.1 Coreset và giải thuật mẫu ProTras ............................................................41
4.5.2 Đánh giá mẫu thu được .............................................................................50
4.5.3 Đề xuất thuật toán trực quan hóa xu hướng cụm dựa vào coreset ............51


vi
4.5.4 Thực nghiệm và phân tích .........................................................................53

4.5.5 Cải tiến kết quả ..........................................................................................58
KẾT LUẬN ............................................................................................................... 61


vii

DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
Ký hiệu

Thuật ngữ

bigVAT

Visual assessment of cluster tendency for large data sets

iVAT

Improve Visual Assessment of cluster Tendency

MST

Minimum Spanning Tre

ProTraS

Probabilistic Traversing Sampling

reVAT

Revised Visual Assessment of (Cluster) Tendency


sVAT

Scalable Visual Assessment of cluster Tendency

siVAT

Scalable Improve Visual Assessment of cluster Tendency

VAT

Visual Assessment of cluster Tendency


viii

DANH SÁCH HÌNH VẼ
HÌNH 2.1: Hình ảnh biểu diễn ma trận R 5 x 5 ..........................................................5
HÌNH 2.2: Biểu đồ thể hiện 20 điểm trong không gian 2 chiều .................................5
HÌNH 2.3: Thứ tự duyệt 20 điểm và hình ảnh trực quan ma trận khoảng cách ..............6
HÌNH 2.4: Thứ tự 20 điểm đã được sắp xếp ...............................................................6
HÌNH 2.5: Hình ảnh ma trận sai khác 20 điểm đã xếp thứ tự ....................................7
HÌNH 2.6: Kết quả VAT trên ma trận sai khác 5×5 ...................................................9
HÌNH 2.7: Kết quả VAT trên tập dữ liệu 1...............................................................10
HÌNH 2.8: Kết quả cho tập tự tạo 2 ..........................................................................10
HÌNH 2.9: Kết quả VAT trên tập dữ liệu IRIS .........................................................11
HÌNH 2.10: Kết quả cho tập tự tạo 3 ........................................................................11
HÌNH 3.1: Áp dụng iVAT với tập dữ liệu t4.8k .......................................................15
HÌNH 3.2: Áp dụng iVAT với tập dữ liệu t5.8k .......................................................15
HÌNH 3.3: Áp dụng iVAT với tập dữ liệu t8.8k .......................................................16

HÌNH 3.4: Áp dụng iVAT với tập dữ liệu t7.10k .....................................................16
HÌNH 3.5: Thể hiện cụm tập t4.8k............................................................................17
HÌNH 3.6: Thể hiện cụm tập t5.8k............................................................................17
HÌNH 3.7: Thể hiện cụm tập t8.8k............................................................................17
HÌNH 3.8: Thể hiện cụm tập t7.10k..........................................................................18
HÌNH 4.1: Biểu diễn một hàng trong ODI dưới dạng biểu đồ thanh .......................19
HÌNH 4.2: Biểu diễn tập dữ liệu gồm 8 cụm ............................................................19
HÌNH 4.3: Kết quả reVAT trên tập dữ liệu tự tạo gồm 8 cụm .................................22
HÌNH 4.4: Kết quả reVAT trên tập dữ liệu tự tạo gồm 5 cụm .................................25
HÌNH 4.5: Kết quả hình ảnh bigVAT cho tập dữ liệu 5 ...........................................25
HÌNH 4.6: Kết quả hình ảnh bigVAT cho tập dữ liệu 6 ...........................................26
HÌNH 4.7: Kết quả hình ảnh bigVAT cho tập dữ liệu 7 ...........................................26
HÌNH 4.8: Kết quả sVAT trên tập dữ liệu 3 cụm CS ...............................................30
HÌNH 4.9: Kết quả sVAT trên tập dữ liệu không CS ...............................................31
HÌNH 4.10: Kết quả sVAT trên tập dữ liệu 5000 điểm ............................................32
HÌNH 4.11: Kết quả sVAT với giá trị c’ khác nhau .................................................32
HÌNH 4.12: Kết quả sVAT trên tập dữ liệu 𝑛 = 100000 ......................................33
HÌNH 4.13: Kết quả sVAT trên tập dữ liệu thực tế........................................................33
HÌNH 4.14: Kết quả sVAT trên tập data15k-3-CS ...................................................35
HÌNH 4.15: Kết quả sVAT trên tập Dim sets 4 ........................................................35
HÌNH 4.16: Kết quả sVAT trên tập data1M-7..........................................................36
HÌNH 4.17: Kết quả sVAT trên tập A.set 3 ..............................................................37
HÌNH 4.18: Kết quả sVAT trên tập S.sets 3 .............................................................37
HÌNH 4.19: Kết quả sVAT và siVAT trên tập Dim sets 4 2 ....................................38
HÌNH 4.20: Kết quả sVAT và siVAT trên tập A.set 3 .............................................39
HÌNH 4.21: Kết quả sVAT và siVAT trên tập S.sets 3 2 ........................................39
HÌNH 4.22: Kết quả sVAT trên tập data100k-10 3 ..................................................40


ix

HÌNH 4.23: Kết quả cho tập A.set 1 .........................................................................47
HÌNH 4.24: Kết quả cho tập Dim sets 1 ...................................................................47
HÌNH 4.25: Kết quả cho tập data10k-3-CS ..............................................................48
HÌNH 4.26: Kết quả cho tập data100k ......................................................................48
HÌNH 4.27: Kết quả cho tập data1M-7 .....................................................................49
HÌNH 4.28: Kết quả cho tập data2M-77 ...................................................................49
HÌNH 4.29: Kết quả cho tập A.set 1 .........................................................................53
HÌNH 4.30: Kết quả cho tập A.set 2 .........................................................................54
HÌNH 4.31: Kết quả cho tập A.set 3 .........................................................................55
HÌNH 4.32: Kết quả cho tập Flame ..........................................................................56
HÌNH 4.33: Kết quả cho tập Birch-set 3 ...................................................................57
HÌNH 4.34: Kết quả cho tập A.set 3 .........................................................................58
HÌNH 4.35: Cải tiến cho tập A.set 3 ........................................................................59
HÌNH 4.36: Cải tiến cho tập Jain ..............................................................................59


x

DANH SÁCH BẢNG
BẢNG 4.1: Mô tả 31 tập dữ liệu thực nghiệm ..........................................................34
BẢNG 4.2: Số điểm đại diện trên 31 tập dữ liệu với 𝜖 khác nhau ...........................46
BẢNG 4.3: Đánh giá mẫu thu được với Rand Index ................................................51


xi

DANH SÁCH GIẢI THUẬT
Giải thuật 1: VAT [3] ................................................................................................8
Giải thuật 2: iVAT [9] .............................................................................................14
Giải thuật 3: reVAT [10] .........................................................................................20

Giải thuật 4: bigVAT [11] .......................................................................................24
Giải thuật 5: sVAT [8] .............................................................................................28
Giải thuật 6: ProTraS [6] .........................................................................................42
Giải thuật 7: Giải thuật đề xuất ................................................................................51


1

CHƯƠNG 1: GIỚI THIỆU
Big Data là cụm từ không mới, ý chỉ các dữ liệu “khổng lồ” về nhiều mặt. Hiện
nay Big Data đang là lĩnh vực nhận được nhiều sự quan tâm và đang có tiềm năng
phát triển lớn. Về cơ bản Big Data có 5 đặc điểm chính thường được ký hiệu là
5V gồm khối lượng (Volume), tốc độ (Velocity), tính đa dạng (Variety), độ chính
xác (Veracity) và giá trị (Value) của dữ liệu. Trong phạm vi luận văn này, tác giả
sẽ tập trung vào giải quyết chữ V đầu tiên liên quan đến khối lượng dữ liệu. Không
giống dữ liệu truyền thống (như kho dữ liệu sinh viên), khối lượng dữ liệu của Big
Data rất lớn đòi hỏi cần phải có phương pháp lưu trữ phù hợp sao cho không làm
thay đổi giá trị của nó khi khai thác dữ liệu.
Có nhiều phương pháp thực hiện việc khai thác dữ liệu, thường các thuật toán
được phân vào hai nhóm chính là gom cụm và phân lớp. Thuật toán gom cụm có
nhiều ứng dụng thực tế trong nhiều lĩnh vực như thương mại (phân tích giao dịch), y
tế (phân tích mô hình gen), bảo mật (phát hiện bất thường), v.v. Cho đến hiện nay,
hầu hết các giải thuật gom cụm trên các dữ liệu kích thước lớn đều có thời gian chạy
tương đối lớn và độ chính xác chưa cao khi mà chúng ta không biết được xu hướng
trong tập dữ liệu hiện có, đặc biệt là số cụm có thể có trong tập dữ liệu. Do vậy vấn
đề đặt ra ở đây là chúng ta cần xác định được xu hướng cụm, xấp xỉ bao nhiêu cụm
trong tập dữ liệu.
Nếu biết được xu hướng cụm ta có thể có cách tiếp cận tốt hơn, rút ngắn được
thời gian phân tích, tránh được dữ liệu nhiễu (outlier). Giả sử rằng chúng ta đang thực
hiện nhiệm vụ phân cụm dữ liệu và khởi tạo số cụm cần tìm là 100 cụm và cố gắng

thực hiện. Trong quá trình thực hiện không may là thực tế tập dữ liệu của chúng ta
chỉ có 2 cụm, hệ quả là ta đã ép các dữ liệu lẽ ra cùng 1 cụm thì lại bị tách ra. Giả sử
rằng chúng ta đã thành công trong việc phân được thành 100 cụm thì thực tế ta đã
thất bại trong việc khai thác dữ liệu này. Hoặc nếu ta có phân cụm chính xác thì thời
gian để chúng ta nhận ra các cụm đó tương đồng và gộp lại thì không hề nhỏ.
Do đó, sẽ tốt hơn nếu chúng ta ước lượng trước xu hướng có trong tập dữ liệu.
Tất nhiên khi chúng ta thực hiện thêm bước xác định xu hướng cụm thì sẽ tốn thêm
một ít thời gian nhưng thời gian này không đáng kế. Trong phạm vi nghiên cứu của


2
mình, tác giả sẽ trình bày các phương pháp dựa trên ma trận sai khác là Trực quan
hóa xu hướng cụm – Visual Assessment of cluster Tendency (VAT). VAT và các
biến thể của nó là các giải thuật có ý tưởng tương tự giải thuật Prim tìm Cây bao trùm
tối thiểu – Minimum Spanning Tree(MST). Cây bao trùm tối thiểu MST là một đồ
thị không có chu trình chứa tất cả các đỉnh liên quan (điểm dữ liệu) mà có tổng trọng
số các cạnh là nhỏ nhất. Tuy nhiên, các giải thuật VAT cơ bản cũng có sự khác biệt
so với Prim như mục đích của VAT không tìm MST mà chỉ tìm thứ tự các đỉnh được
thêm vào MST và đỉnh khởi tạo ban đầu được chọn phụ thuộc vào cạnh có trọng số
lớn nhất trong ma trận.
Phần còn lại của luận văn trình bày các giải thuật liên quan sắp xếp theo từng
chương. Chương 2 trình bày về giải thuật VAT, các thực nghiệm và một số ưu nhược
điểm liên quan. Chương 3 sẽ trình bày về một cải tiến hiệu quả của giải thuật VAT,
giúp cải thiện kết quả hình ảnh tạo ra từ giải thuật VAT. Chương 4 trình bày về các
biến thể của VAT cho dữ liệu kích thước lớn như reVAT, bigVAT, sVAT và một
giải thuật do tác giả đề xuất dựa trên việc lấy mẫu. Cuối cùng tác giả xin trình bày
một số kết luận về các giải thuật và tiềm năng trong tương lai của bài toán dự đoán
xu hướng dữ liệu.



3

CHƯƠNG 2:
TRỰC QUAN HÓA XU HƯỚNG CỤM - GIẢI THUẬT VAT
2.1 Giới thiệu
Cho một tập các đối tượng o = {o1,o2,...,on}. Việc phân cụm là việc phân chia
một tập hợp của những đối tượng trong o vào các tập con mà mỗi tập con có những
đặc trưng gần giống nhau. Hầu hết các thuật toán phân cụm sẽ tìm thấy số lượng cụm
ngẫu nhiên (1 ≤ c ≤ n), thậm chí nếu không có bất kỳ cụm nào tồn tại trong tập dữ
liệu. Do đó câu hỏi quan trọng đặt ra trước khi áp dụng bất kỳ thuật toán phân cụm
là: Có bao nhiêu cụm có thể có trong một tập dữ liệu đã cho? Làm thế nào để xác
định được một đối tượng trong tập dữ liệu thuộc cụm nào? Độ chính xác về các cụm
đạt được như thế nào?.
Từ những năm 1970 đã có các nhà khoa học đề xuất ra các giải thuật để trực
quan hóa dữ liệu nhằm phục vụ cho mục đích phân cụm. Điển hình là các giải thuật
của Tukey [16] và Cleverland [4]. Thế nhưng các đề xuất chủ yếu về mặt ý tưởng và
chưa đi đến hiện thực thật sự. Năm 2002, Hathaway và cộng sự [3] đã đề xuất ra giải
thuật dùng để trực quan hóa xu hướng cụm với tên gọi là VAT – Visual Assessment
of Cluster Tendency. Giải thuật VAT đã thêm một hướng tiếp cận dùng trong trực
quan hóa dữ liệu với ý tưởng dễ hiểu và có thể hiện thực một cách nhanh chóng. Cách
tiếp cận VAT dùng để biểu diễn thông tin sai khác trong tập các đối tượng dưới dạng
một hình ảnh vuông có kích thước n2 điểm ảnh, với n là số đối tượng trong tập dữ
liệu. Những đối tượng này được sắp xếp lại, do đó hình ảnh sẽ hiển thị các cụm trong
dữ liệu rõ ràng hơn.
Có hai dạng biểu diễn chung của dữ liệu mà kỹ thuật phân cụm có thể áp dụng.
Dạng thứ nhất là mỗi đối tượng trong 𝑜 được biểu diễn dưới dạng một vector cột 𝓍
với các giá trị lần lượt là các đặc trưng của đối tượng dữ liệu. Dạng thứ hai là biểu
diễn dưới dạng dữ liệu quan hệ. Quan hệ ở đây là mối quan hệ giữa từng cặp đối
tượng trong tập dữ liệu. Trường hợp tiêu biểu của cách biểu diễn này là biểu diễn
dưới dạng ma trận sai khác, ký hiệu là 𝑅 = [𝑅𝑖𝑗 ] với [𝑅𝑖𝑗 ]là sự sai khác giữa đối

tượng 𝑜𝑖 và 𝑜𝑗 trong tập dữ liệu có n đối tượng với 1 ≤ 𝑖, 𝑗 ≤ 𝑛


4
VAT được áp dụng rộng rãi bởi vì tính linh hoạt và dễ hiểu của nó. Nếu dữ liệu
gốc biểu diễn dưới dạng các điểm X = {𝑥1 … , 𝑥𝑛 } thì biểu diễn sự sai khác dưới dạng
khoảng cách giữa các điểm dữ liệu 𝑅𝑖𝑗 có thể được tính theo công thức 𝑅𝑖𝑗 = ‖𝑥𝑖

− 𝑥𝑗 ‖

sử dụng bất kỳ chuẩn (norm) nào để tính. Với đặc trưng tính khoảng cách như trên
phải đảm bảo các điểm dữ liệu phải có cùng số đặc trưng. Nếu dữ liệu có những thành
phần bị thiếu thì phải có một quá trình tiền xử lý để “lắp đầy” các thành phần trước
khi tính toán. Trong luận văn này, chúng ta giả sử không có sự mất mát dữ liệu nào
và sự sai khác dữ liệu có thể tính được dễ dàng từ dữ liệu. Kết quả từ giải thuật VAT
là một hình ảnh biểu diễn sự sai khác của dữ liệu đã sắp xếp. Chúng ta sẽ tìm hiểu
hình ảnh biểu diễn sự sai khác dữ liệu ở phần ngay sau đây.

2.2 Hình ảnh biểu diễn sự khác nhau giữa các đối tượng đã sắp thứ tự
Cho R là một ma trận sai khác với kích thước 𝑛 × 𝑛 của tập dữ liệu 𝑜 =
{𝑜, . . . , 𝑜𝑛 }. Vì 𝑅 biểu diễn khoảng cách nên 𝑅 thỏa mãn những tính chất sau trong
tất cả trường hợp (1 ≤ 𝑖, 𝑗 ≤ 𝑛):
𝑅𝑖𝑗 ≥ 0
𝑅𝑖𝑗 = 𝑅𝑗𝑖
𝑅𝑖𝑖 = 0
Chúng ta hiển thị 𝑅 như một hình ảnh cường độ I, từ đây sẽ gọi là hình ảnh ma
trận sai khác. Xét A là tập dữ liệu gồm 20 điểm có ma trận sai khác R như dưới đây:
0. 0.73 0.19 0.71 016
0.73 0 0.59 0.12 0.78
R= 0.19 0.59 0. 0.55 0.19

0.71 0.12 0.55 0. 0.74
[0.16 0.78 0.19 0.74 0.]
Mỗi điểm ảnh (pixel) trong hình ảnh thể hiện một mức độ ứng với sự sai khác
giữa 2 điểm mà trong hình này gọi là mức độ xám (graylevel), ký hiệu là 𝑔𝑖𝑗 (1 ≤ 𝑖,
𝑗 ≤ 𝑛). Giá trị 𝑅𝑖𝑗 = 0 tương ứng với 𝑔𝑖𝑗 = 0 (đen hoàn toàn); 𝑅𝑖𝑗 = 𝑅𝑚𝑎𝑥 , với 𝑅𝑚𝑎𝑥
là giá trị sai khác lớn nhất trong tập dữ liệu, khi đó 𝑔𝑖𝑗 = 𝑅𝑚𝑎𝑥 (trắng hoàn toàn). Các
giá trị 𝑔𝑖𝑗 sẽ nằm trong tập gọi là tập màu xám G = {𝐺1 ,𝐺2 ,...,𝐺𝑚 }. Hình ảnh bên dưới
sử dụng không gian 256 mức độ xám với 𝐺1 = 0 (đen) và 𝐺𝑚 = 𝑅𝑚𝑎𝑥 (trắng).


5
Xét ví dụ dưới đây, Hình 2.1 thể hiện một ma trận sai khác và hình ảnh sai khác
tương ứng. Giá trị 0 trên đường chéo chính trong ma trận tạo ra các ô vuông đen trên
đường chéo trong hình ảnh. Hai giá trị sai khác lớn nhất là 0.78 tạo ra 2 ô trong hình
ảnh sai khác với màu hoàn toàn trắng, tại vị trí lần lượt có tọa độ là (1,4) và (4,1).

HÌNH 2.1: Hình ảnh biểu diễn ma trận R chưa sắp thứ tự

Quan sát sự hiển thị ở Hình 2.1, ta chưa thể xác định được số cụm. Để làm
được đều này ta phải thay đổi thứ tự biểu diễn của các điểm. Các điểm gần nhau phải
có thứ tự gần nhau trong ma trận, khi đó sẽ tạo cho ta hình ảnh với các khối đen tập
trung chủ yếu ở đường chéo chính. Hình ảnh này được gọi là hình ảnh sai khác đã
sắp xếp lại thứ tự (ký hiệu là ODI, viết tắt của Ordered Dissimilarity Image).
Hình 2.2 biểu diễn hình ảnh của 20 điểm trong không gian dữ liệu 2 chiều. Năm
2002, Hathaway và cộng sự [3] sử dụng tập này để mô phỏng tầm quan trọng của thứ
tự hàng và cột trong ma trận sai khác cho phân tích xu hướng cụm một cách đơn giản.

HÌNH 2.2: Biểu đồ thể hiện 20 điểm trong không gian 2 chiều



6
Dữ liệu này có thể thấy được 4 nhóm trong đó có một nhóm chỉ có một phần tử.
Hình 2.3 thể hiện 19 khoảng cách liên tiếp 𝑑1,2 ,𝑑2,3 ,...,𝑑19,20 giữa các điểm
𝑥1 ,𝑥2 ,...,𝑥20 . Các chỉ số 1,2,...,20 tương ứng với thứ tự ngẫu nhiên giữa các điểm

HÌNH 2.3: Thứ tự duyệt 20 điểm và hình ảnh trực quan ma trận khoảng cách tương ứng

Hình ảnh sai khác tương ứng ở bên phải trong Hình 2.3 không chứa bất kỳ thông
tin hữu ích nào về cấu trúc của tập dữ liệu A. Bây giờ ta thực hiện việc sắp xếp lại thứ
tự các điểm mà các điểm gần nhau thì thứ tự xuất hiện trong ma trận gần nhau. Quan
sát sự hiển thi ở Hình 2.4 biểu diễn các điểm đã sắp thứ tự với điểm đầu tiên được ký
hiệu bằng ô vuông màu đen. Hình 2.5 thể hiện hình ảnh ma trận sai khác tương ứng với
thự tự đã sắp xếp như Hình 2.3. Như vậy ta có thể thấy, ODI biểu diễn một khối lớn và
hai khối nhỏ nằm trên đường chéo. Nhóm dữ liệu gồm 1 điểm được biểu diễn như một
chấm đen ở vị trí hàng cuối cột cuối trong hình. Với quan sát trên, rõ ràng xu hướng
cụm đã được thể hiện rõ nét qua việc quan sát hình ảnh ma trận sai khác.

HÌNH 2.4: Thứ tự 20 điểm đã được sắp xếp


7
Ta thấy những khối trên đường chéo ở ODI trong Hình 2.5 chỉ ra một cụm lớn và
hai cụm nhỏ rất rõ ràng cũng như điểm outlier trong tập dữ liệu bên trên. Cơ chế trực
quan rất rõ ràng và dễ hiểu. Khi các điểm gần nhau được đánh thứ tự gần nhau trong
ma trận thì các giá trị khoảng cách gần nhau sẽ tập trung dọc trên đường chéo chính.

HÌNH 2.5: Hình ảnh ma trận sai khác 20 điểm đã xếp thứ tự

Một khối đen trong ODI tương ứng với tập các điểm gần nhau trong tập dữ liệu.
Qua ví dụ trên ta có thể kết luận không có thứ tự chính xác sẽ không thể biểu diễn xu

hướng cụm dựa trên ma trận sai khác được. Tiếp theo tôi sẽ trình bày giải thuật một
cách chi tiết cho việc sắp xếp lại những hàng và cột trong ma trận sai khác.

2.3 Chi tiết giải thuật
Thuật toán sắp thứ tự VAT tương tự như thuật toán tìm cây bao trùm tối thiểu
(MST) của Prim trong đồ thị có trọng số [4]. Sự khác biệt chính ở đây so với Giải
thuật Prim để tìm MST là:
(i) chúng ta không biểu diễn cây bao trùm tối thiểu mà chỉ tìm thứ tự của những
đỉnh lần lượt thêm vào.
(ii) chúng ta thực hiện một phương pháp để chọn đỉnh đầu tiên dựa trên trọng
số tối đa trong đồ thị đầy đủ.
Trước hết xin giới thiệu một vài ký hiệu: I và J là tập con của K = {1,...,𝑛}; Ký
hiệu arg 𝑚𝑖𝑛𝑝∈𝐾,𝑞∈𝐾 𝑅𝑝𝑞 để lấy chỉ số 𝑝, 𝑞 mà khoảng cách 𝑅𝑝𝑞 nhỏ nhất; hàm
𝑎𝑟𝑔 𝑚𝑎𝑥 định nghĩa một cách tương tự. Thuật toán tạo ra một ma trận đã sắp thứ tự
𝑅 ∗ từ ma trận 𝑅 cho trước ban đầu. Chỉ số thứ tự của các điểm lần lượt được lưu vào
mảng P. Ý tưởng chung đơn giản là sắp xếp lại hàng và cột trong 𝑅. Sau bước 1 khởi


8
tạo các giá trị ban đầu, bước 2 của giải thuật VAT thực hiện tìm khoảng cách lớn nhất
giữa 2 điểm trong tập dữ liệu, sau đó chọn một điểm làm điểm khởi tạo. Thuật toán
VAT được áp dụng cho tập dữ liệu mô tả ở Hình 2.1 và kết quả được hiển thị ở Hình
2.6. Chúng ta quan sát được 2 khối đen dọc theo đường chéo chính ứng với 2 cụm
trong tập dữ liệu.
Giải thuật 1: VAT [3]
Input : 𝑅 - ma trận vuông 𝑛 × 𝑛 thỏa điều kiện :
• 𝑅𝑖𝑗 ≥ 0
• 𝑅𝑖𝑗 = 𝐷𝑖𝑗 ∀ 𝑖, 𝑗
• 𝑅𝑖𝑗 = 0 ∀ 𝑖
Output : 𝑅 ∗ - ma trận vuông VAT 𝑛 × 𝑛 đã được xếp thứ tự:

𝑃 - chỉ số các đỉnh theo thứ tự của 𝑅
Bước 1: Khởi tạo K {= {1,2, . . . , 𝑛}, 𝐼 = 𝐽 = Ø
Bước 2: Chọn (𝑖, 𝑗) ∈ 𝑎𝑟𝑔 max 𝑅𝑘𝑞
𝑘∈𝐾,𝑞∈𝐾

𝑃1 = 𝑖; 𝐼 = {𝑖} và 𝐽 = 𝐾 − {𝑖}
Bước 3: for 𝑡 = 2, . . . , 𝑛 do


𝑐ℎọ𝑛 (𝑖, 𝑗) ∈ 𝑎𝑟𝑔 min 𝑅𝑘𝑞
𝑘∈𝐼,𝑞∈𝐽

𝑃𝑡 = 𝑗; 𝐼 = 𝐼 ∪ {𝑗} 𝑣ớ𝑖 𝐽 = 𝐽 − {𝑗}𝑑𝑡−1 = 𝑅𝑖𝑗
Bước 4: for 𝑝 = 1, . . . , 𝑛 do
for 𝑞 = 1, . . . , 𝑛 do
⌊ ⌊𝑅∗ = 𝑅
𝑝,𝑞
𝑃 𝑝,𝑃
𝑞

Bước 5: Hiển thị hình ảnh ma trận sai khác với độ xám tương ứng.

Về độ phức tạp của giải thuật VAT ta quan sát được ở bước cuối nơi hai vòng
lặp for chồng nhau tương ứng với độ phức tạp 𝑂(𝑛2 ). Với kết quả độ phức tạp này
thật khó để áp dụng cho dữ liệu kích thước lớn. Vấn đề này sẽ được trình bày ở những
phần sau. Phần ngay sau đây là những thực nghiệm của một vài tập dữ liệu áp dụng
giải thuật VAT mà chúng ta vừa tìm hiểu qua.


9

2.4 Thực nghiệm và phân tích
Trước tiên chúng ta cùng tìm hiểu một khái niệm liên quan đến tập dữ liệu. Một
dữ liệu mà thể hiện rõ độ tách rời giữa các cụm và độ gom cụm trong mỗi cụm được
gọi là tập dữ liệu CS (viết tắt của cụm Compact and Separate). Với việc trực quan
hóa, chúng ta mong đợi các khối đen sẽ nằm dọc theo đường chéo chính của ODI cho
tập dữ liệu CS. Khi mức độ tách rời giữa những cụm giảm thì sự rõ ràng giữa những
khối vuông trên đường chéo chính cũng giảm theo.

HÌNH 2.6: Kết quả VAT trên ma trận sai khác 5×5

Phần thực nghiệm cho giải thuật VAT và các giải thuật liên quan tiếp theo được
thực thi bằng Matlab trên máy tính hệ điều hành: Window 10 (64 bit); bộ xử lý:
Intel(R) Core(TM) i7-3612 @ 2.10GHz; RAM: 8GB. Đặt 𝑒𝑖 ký hiệu vector đơn vị
thứ i trong không gian 4 chiều và 𝐼4 ký hiệu ma trận kích thước 4 x 4. Trước hết ta
tạo một tập 128 phần tử 4 chiều từ một phân phối chuẩn có vector của trung vị là
(0,0,0,0). 128 đối tượng này chia vào 4 nhóm, mỗi nhóm có 32 phần tử. Trung vị của
phân phối Normal (4) 𝑙à µ1 = (4,0,0,0)𝑇 , µ2 = (0,4,0,0)𝑇 , µ3 = (0,0,4,0)𝑇 ,
µ4 = (0,0,0,4)𝑇 ,... là những điểm trung tâm của từng cụm. Kết quả sau khi áp dụng
giải thuật VAT được cho như Hình 2.7.


10

HÌNH 2.7: Kết quả VAT trên tập dữ liệu 1

Đối với tập dữ liệu này, VAT cho kết quả khá tốt và thể hiện được xu hướng
của cụm. Chỉ quan sát dựa trên ODI ta cũng phần nào đoán được tập dữ liệu sẽ có 4
cụm lớn tách rời, bên trong mỗi cụm sẽ có các phần tử cách nhau không đều do mỗi
khối đen không cùng 1 độ xám. Trước khi quan sát các mẫu dữ liệu VAT cho kết quả
không tốt, ta sẽ xem thêm một trường hợp VAT cho kết quả khả quan. Hai hình dưới

đây lần lượt là tập dữ liệu có cụm tách rời và kết quả VAT của nó.

(a)

(b)
HÌNH 2.8: (a) Tập dữ liệu (b) Áp dụng VAT


11
Kế đến chúng ta đưa một ví dụ hình ảnh sai khác đã sắp thứ tự của tập dữ liệu
IRIS. Đây là tập dữ liệu thực tế có thể tải tại />Dữ liệu gồm 150 mẫu hoa IRIS với 4 đặc trưng ứng với mỗi mẫu. Dữ liệu được
chia ra làm 3 loài khác nhau, tuy nhiên 2 trong số 3 nhóm hoa có dữ liệu khá tương
đồng hay nói chính xác là bị trùng lắp khá nhiều do đó khi biểu diễn khả năng cao chỉ
có 2 cụm. Kết quả sau khi áp dụng VAT được cho như Hình 2.9.

HÌNH 2.9: Kết quả VAT trên tập dữ liệu IRIS

(a)
HÌNH 2.10: (a) Tập dữ liệu, (b) ODI tương ứng

(b)


12
ODI khi áp dụng VAT với tập IRIS chỉ ra rằng có 2 cấu trúc cụm tách biệt rõ
ràng. Điều này phù hợp với dự đoán trước đó. Tiếp theo, chúng ta lần lượt thể hiện
kết quả của việc áp dụng VAT tới dữ liệu có dạng như trong Hình 2.10 và kết quả
cho bởi giải thuật VAT. Dựa trên kết quả có thể thấy rằng số cụm thực sự ta mong
muốn là 3 nhưng kết quả cho ra không thể hiện được điều này (nhiều khối đen hơn).
Do đó, thật khó có thể kết luận được số cụm khi dữ liệu không phải dạng CS. Vấn đề

này sẽ được giải quyết trong những giải thuật cải tiến ở các chương tiếp theo.

2.5 Kết luận chương
Trong chương 2 này chúng ta đã cùng tìm hiểu được một cách cận cho việc trực
quan hóa xu hướng cụm sử dụng hình ảnh sai khác đã sắp thứ tự. Kỹ thuật này áp
dụng rất tốt với các tập dữ liệu mà số cụm được phân chia rõ ràng và kết quả của việc
áp dụng giải thuật là các khối vuông trên đường chéo chính sẽ biểu diễn số cụm trong
tập dữ liệu. Kỹ thuật này có thể áp dụng đến dữ liệu có số chiều bất kỳ. Sở dĩ đa số
thực nghiệm đều áp dụng với tập dữ liệu 2 chiều vì sẽ giúp cho người đọc có sự so
sánh giữa dữ liệu biểu diễn dưới dạng biểu đồ và kết quả từ VAT.
Những vấn đề cần đặt ra sau khi tìm hiểu về VAT là: Có tồn tại một dạng hình
ảnh khác để làm nỗi bật xu hướng cụm hơn hay không? Hay cách cải tiến như thế nào
để áp dụng VAT trên tập dữ liệu có kích thước lớn? Câu trả lời được giải đáp ở các
phần tiếp theo. Trước hết để giải đáp câu hỏi đầu tiên chúng ta sẽ tìm hiểu kỹ thuật
giúp quan sát kết quả từ hình ảnh ma trận sai khác dễ dàng hơn, đó chính là giải thuật
iVAT được giới thiệu ngay sau đây.


×