BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CƠNG NGHỆ QN SỰ
-------------------------
LÊ THỊ CẨM BÌNH
MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ
THEO NHĨM CHO BÀI TỐN DỮ LIỆU ĐA
NGUỒN, NHIỀU ĐẶC TRƯNG
LUẬN ÁN TIẾN SĨ TOÁN HỌC
Hà Nội – 2023
BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CƠNG NGHỆ QN SỰ
-------------------------
LÊ THỊ CẨM BÌNH
MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ
THEO NHĨM CHO BÀI TỐN DỮ LIỆU ĐA
NGUỒN, NHIỀU ĐẶC TRƯNG
Ngành:
Cơ sở toán học cho tin học
Mã số:
9460110
LUẬN ÁN TIẾN SĨ TOÁN HỌC
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1.
2.
PGS.TS. NGÔ THÀNH LONG
TS. LÊ XUÂN ĐỨC
Hà Nội - 2023
i
LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của tơi. Các số liệu, các
kết quả trình bày trong luận án hoàn toàn trung thực và chưa từng được ai
cơng bố trong bất kỳ các cơng trình nào khác, các dữ liệu tham khảo được
trích dẫn đầy đủ.
Hà Nội, ngày 15 tháng 8 năm 2023
Nghiên cứu sinh
Lê Thị Cẩm Bình
ii
LỜI CẢM ƠN
Luận án này được thực hiện và hoàn thành tại Viện Công nghệ thông tin,
Viện Khoa học và Công nghệ quân sự. Trước hết, nghiên cứu sinh xin bày tỏ
lịng biết ơn sâu sắc tới PGS.TS Ngơ Thành Long và TS Lê Xuân Đức đã định
hướng, chỉ bảo và giúp đỡ trong q trình nghiên cứu và hồn thành luận án.
Tôi xin bày tỏ lời cảm ơn sâu sắc tới lãnh đạo, tập thể cán bộ giảng viên
của Viện Khoa học và Cơng nghệ qn sự, Phịng Đào tạo, Viện Công nghệ
thông tin đã tạo điều kiện thuận lợi, hỗ trợ, chia sẻ và giúp đỡ tôi trong thời
gian học tập và nghiên cứu tại Viện. Tôi cũng xin gửi lời cảm ơn tới các thành
viên nhóm nghiên cứu seminar phân cụm dữ liệu đã tạo ra môi trường trao đổi
học thuật thường xuyên và chia sẻ các ý tưởng có giá trị cho các nghiên cứu
của luận án.
Tôi xin phép được gửi lời cảm ơn chân thành tới lãnh đạo Trường Đại
học Văn hóa, các đồng nghiệp tại Khoa Khoa học Cơ bản, Khoa Thông tin,
Thư viện đã tạo điều kiện thuận lợi trong quá trình nghiên cứu và làm việc tại
Trường.
Cuối cùng, xin cảm ơn tới gia đình đã hỗ trợ, động viên và giúp đỡ tôi
rất nhiều về tinh thần, vật chất và thời gian để có thể hồn thành luận án.
Nghiên cứu sinh
Lê Thị Cẩm Bình
iii
MỤC LỤC
Trang
LỜI CAM ĐOAN..............................................................................................i
LỜI CẢM ƠN...................................................................................................ii
MỤC LỤC.......................................................................................................iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT...................................vi
DANH MỤC CÁC BẢNG...........................................................................................................xiii
DANH MỤC CÁC HÌNH VẼ......................................................................................................xv
MỞ ĐẦU...........................................................................................................1
Chương 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU.....................................7
1.1. Giới thiệu chung về phân cụm dữ liệu....................................................... 7
1.1.1. Định nghĩa..........................................................................................7
1.1.2. Phân cụm mờ.......................................................................................8
1.1.3. Phương pháp đánh giá trong phân cụm.............................................10
1.2. Cơ sở toán học của luận án.......................................................................13
1.2.1. Thuật toán tối ưu bầy đàn..................................................................14
1.2.2. Thuật toán đồng phân cụm mờ..........................................................17
1.2.3. Mơ hình phân cụm mờ theo nhóm.................................................... 19
1.2.4. Tri thức ẩn trong phân cụm dữ liệu...................................................23
1.2.5. Dữ liệu đa nguồn............................................................................... 24
1.2.6. Dữ liệu nhiều đặc trưng.....................................................................28
1.3. Kết luận chương 1.................................................................................... 29
Chương 2 MỘT SỐ CẢI TIẾN KỸ THUẬT PHÂN CỤM DỮ LIỆU...........30
2.1. Đề xuất thuật toán đồng phân cụm mờ sử dụng PSO tối ưu tâm cụm với lớp bài
tốn dữ liệu nhiều đặc trưng............................................................................ 30
2.1.1. Mơ hình tốn học tối ưu bầy đàn MPSO...........................................31
iv
2.1.2. Mơ hình tâm cụm tối ưu OCM..........................................................35
2.1.3. Kết quả thực nghiệm......................................................................... 45
2.2. Thuật toán đồng phân cụm mờ dữ liệu đa nguồn MSFCoC.....................54
2.2.1. Mơ hình tốn học của MSFCoC........................................................55
2.2.3. Chia sẻ tri thức trong phân cụm dữ liệu đa nguồn............................ 58
2.2.4. Phương pháp tính tốn điều kiện dừng..............................................60
2.2.5. Thuật toán MSFCoC......................................................................... 61
2.2.6. Kết quả thực nghiệm......................................................................... 62
2.3. Kết luận chương 2.................................................................................... 75
Chương 3 MƠ HÌNH CẢI TIẾN PHÂN CỤM MỜ THEO NHĨM ĐA HÀM
MỤC TIÊU......................................................................................................77
3.1. Mơ hình tốn học của FOMOCE..............................................................77
3.1.1. Dữ liệu đầu vào................................................................................. 79
3.1.2. Bộ phân loại dữ liệu đầu vào.............................................................80
3.1.3. Tập phân cụm cơ sở.......................................................................... 81
3.1.4. Bộ liên kết phân cụm cơ sở...............................................................82
3.1.5. Mô đun đồng thuận........................................................................... 83
3.1.6. Mô đun đánh giá kết quả phân cụm.................................................. 84
3.1.7. Sơ đồ mơ hình phân cụm theo nhóm FOMOCE...............................84
3.2. Tri thức ẩn trong mơ hình FOMOCE....................................................... 86
3.2.1. Tri thức ẩn trong mơ hình FOMOCE................................................86
3.2.2. Các quy tắc dẫn xuất trong mơ hình FOMOCE................................91
3.3. Thuật tốn FOMOCE............................................................................... 97
3.4. So sánh các mơ hình phân cụm theo nhóm.............................................. 99
3.5. Một số kết quả thực nghiệm................................................................... 100
3.5.1. Kết quả thực nghiệm trên các mơ hình phân cụm đơn hàm mục tiêu
...................................................................................................................100
v
3.5.2. Kết quả thực nghiệm trên các mơ hình phân cụm đa hàm mục tiêu
...................................................................................................................111
3.6. Kết luận chương 3.................................................................................. 120
KẾT LUẬN...................................................................................................122
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ...............124
TÀI LIỆU THAM KHẢO.............................................................................125
vi
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Hệ số giới hạn chất lượng của giải pháp thơng qua hàm
thích ứng trong thuật tốn PSO
Khơng gian hoạt động của bầy đàn trong thuật tốn PSO
M
Mơ hình tốn học của FOMOCE
Số vịng lặp
Hệ số qn tính được sử dụng để điều khiển hành vi của bầy
đàn trong thuật toán PSO
Hệ số đại diện cho loại dữ liệu đa nguồn
Phân cụm cơ sở của thuật tốn phân cụm theo nhóm
u,m
entropy của hàm thuộc đối tượng
v,m
entropy của hàm thuộc đặc trưng
Chỉ số chất lượng phân cụm trung bình ở phân cụm cơ sở
Im
thứ m
Chỉ số của phân cụm cơ sở tốt nhất
m̅
A
Tập các hàm mục tiêu được sử dụng cho M phân cụm cơ sở
trong mơ hình FOMOCE
A*
Hàm đồng thuận trong mơ hình FOMOCE
Am
B
Vận tốc của các phần tử bầy đàn trong thuật toán PSO
Số các chỉ số đánh giá chất lượng phân cụm cuối cùng trong
mơ hình FOMOCE
C
Số cụm dữ liệu
C*
Tập tâm cụm kết quả cuối cùng trong mơ hình FOMOCE
vii
Cm
Vị trí của các phần tử bầy đàn trong thuật toán PSO
CGB
Giải pháp tâm cụm tối ưu
D
Tập đặc trưng của dữ liệu
d
Phương pháp đo khoảng cách trong phân cụm
E
Bộ điều kiện dừng của phân cụm cơ sở trong mơ hình
FOMOCE
F
Mơ đun đồng thuận của mơ hình FOMOCE
f
Hàm thích nghi
G
Tập tâm cụm
gc
Tâm cụm thứ c
I
Dữ liệu đầu vào của bầy đàn trong thuật toán PSO
I*
Tập chỉ số đánh giá chất lượng phân cụm cuối cùng trong mơ
hình FOMOCE
Im
Tập chỉ số đánh giá chất lượng phân cụm ở phân cụm cơ sở
thứ m
J
Hàm mục tiêu của kỹ thuật xử lý dữ liệu
K
Số đặc trưng của dữ liệu
L
Bộ liên kết phân cụm cơ sở trong mơ hình FOMOCE
M
Số nguồn của dữ liệu đa nguồn
N
Số đối tượng dữ liệu
O
Giải pháp tiềm năng toàn cục trong thuật tốn PSO
OG
Kết quả phân cụm tối ưu tồn cục tại các bước lặp của các
phân cụm cơ sở trong mơ hình FOMOCE
viii
Oi
Kết quả của các phân cụm cơ sở trong mô hình FOMOCE
P
Tập các phần tử của bầy đàn trong thuật toán PSO
Pcj
Đặc trưng thứ j của tâm cụm c
PGB
Phần tử đại diện cho phần tử tiềm năng tốt nhất của tồn bộ
tiến trình hoạt động của bầy đàn.
PPB
Phần tử đại diện cho phần tử tiềm năng tốt nhất cục bộ tại
mỗi bước di chuyển của bầy đàn.
Q
Bộ phân loại dữ liệu đầu vào trong mơ hình FOMOCE
q1, q2
Hệ số kiểm soát tốc độ hội tụ của các phần từ theo hướng tốt
nhất cục bộ hoặc tồn cục trong thuật tốn PSO
ℝ
Trường số thực
r1, r2
Số ngẫu nhiên phân bố đồng đều trong khoảng từ 0 đến 1
RGB
Quy tắc xác định giải pháp tiềm năng tồn cục sau q trình
bầy đàn di chuyển
RL
Quy tắc xác định và trao đổi tri thức
ẩn trong mơ hình
FOMOCE
RPB
Quy tắc xác định giải pháp tiềm năng cục bộ tại các bước di
chuyển của bầy đàn
Rs
điều kiện dừng trong mơ hình OCM
S
Bầy đàn trong thuật tốn PSO
Tu, Tv
Các trọng số xác định mức độ mờ
U
Ma trận hàm thuộc
uci
Độ thuộc đối tượng của đối tượng dữ liệu thứ i với cụm c
ix
V
vcj
Ma trận hàm thuộc đặc trưng
Độ thuộc đặc trưng của chức năng j với cụm c
X
Tập dữ liệu phân cụm
X*
Kết quả phân cụm theo nhóm trong mơ hình FOMOCE
Acc
Chỉ số Accuracy (Clustering Accuracy)
AR
Chỉ số điều chỉnh Rand (Adjusted Rand Index)
CCAU
thuật toán phân cụm đồng thuận dựa trên các đơn vị cụm
(the consensus clustering algorithm based on cluster units)
CLARA
Phân cụm trong các ứng dụng lớn (Clustering LARge
Applications)
Co-FCM
Phân cụm mờ cộng tác dữ liệu đa khung nhìn (Collaborative
Fuzzy C-Means for multiview data)
Co-FKM
Phân cụm FKM cộng tác dữ liệu đa khung nhìn
(Collaborative FKM for multi-view data)
Co-FW-
Phân cụm mờ cộng tác đa khung nhìn đặc trưng có trọng số
MVFCM
(Collaborative feature-weighted multi-view fuzzy c-means
clustering)
CSMSC
Phân cụm dữ liệu đa không gian con riêng và nhất quán
(Consistent and specific multi-view subspace clustering)
DBI
Chỉ số Davies–Bouldins (Davies–Bouldins index)
EFC
Phân cụm mờ theo nhóm (Emsemble Fuzzy Clustering)
eFCoC
Đồng phân cụm mờ theo nhóm (fuzzy co-clustering
ensemble algorithm)
x
F1- score
Chỉ số F1- score
FCCI
Thuật toán đồng phân cụm mờ để phân loại ảnh màu (Fuzzy
co-clustering algorithm for color image segmentation)
FCM
Phân cụm mờ (Fuzzy C-Means)
FCME
Phân cụm mờ theo nhóm sử dụng thuật toán FCM
(ensemble of Fuzzy C-Means)
FCM-PSO
Phân cụm mờ dựa trên thuật toán tối ưu bầy đàn (Fuzzy CMeans based on Particle Swarm Optimization)
FCoC
Thuật toán Đồng phân cụm mờ (Fuzzy Co-Clustering)
FCOCM
Thuật tốn Đồng phân cụm mờ sử dụng mơ hình tối ưu tâm
cụm (Fuzzy Co- clustering algorithm by using the Optimal
centroids Model)
FOMOCE
Mơ hình phân cụm mờ theo nhóm đa hàm mục tiêu tối ưu
dữ liệu đa nguồn (Fuzzy optimized multi-objective
clustering ensemble method)
IQI
Chỉ số chất lượng ảnh (Image Quality Index)
IT2FCM
Thuật toán phân cụm mờ loại 2 khoảng (Interval type-2
fuzzy clustering algorithm)
IVFCoC
Đồng phân cụm mờ giá trị khoảng (Interval-valued fuzzy
co-clustering algorithm)
JFLMSC
Kết hợp tính năng theo trọng số chung và học cấu trúc cục
bộ cho phân cụm dữ liệu đa không gian con (Joint
Featurewise Weighting and Local Structure Learning for
Multi-view Subspace Clustering)
xi
K-means
Phân cụm rõ (K- Means)
KM-PSO
Phân cụm rõ dựa trên thuật toán tối ưu bầy đàn (K- Means
based on Particle Swarm Optimization)
LMSC
Phân cụm dữ liệu đa không gian con tiềm ẩn (Latent multiview subspace clustering)
minimaxFCM Tối ưu hóa minimax để phân cụm hiệu quả dữ liệu từ nhiều
nguồn (minimax optimization for effective clustering of data
from multiple sources)
MKCE
Thuật toán đa phân cụm rõ theo nhóm (multiple K-Means
clustering ensemble algorithm)
MPSO
Mơ hình tốn học của thuật toán tối ưu bầy đàn
(Mathematical models of Particle Swarm Optimization)
MSFCoC
Thuật toán đồng phân cụm mờ dữ liệu đa nguồn (Multisource Fuzzy Co-clustering Algorithm)
MVFCoC
Thuật toán đồng phân cụm dữ liệu đa khung nhìn (Multiview fuzzy co-clustering algorithm)
NMFCM
Hệ số hóa ma trận khơng âm trong phân cụm theo nhóm dựa
trên tri thức ẩn (Nonnegative matrix factorization for
clustering ensemble based on dark knowledge)
nr-IT2FCM
phân cụm mờ loại 2 kết hợp thông tin lân cận (interval type2 fuzzy set generation is based on the method incorporating
neighborhood information)
OCM
Mơ hình tìm tâm cụm tối ưu (Optimal Centroids Model)
PC
Hệ số phân vùng (Partition Coefficient)
xii
PSO
Thuật toán tối ưu bầy đàn (Particle Swarm Optimization)
Rec & Prec
Chỉ số phục hồi và chính xác (Recall and Precision)
SACT
Thuật toán đánh giá xu hướng cụm theo chỉ số Silhouette
(Silhouette-Based
Assessment
of
Cluster
Tendency
algorithm)
WCoFCM
Phân cụm mờ cộng tác da khung nhìn có trọng số (Weighted
multi-view collaborative fuzzy -means algorithm)
xiii
DANH MỤC CÁC BẢNG
Trang
Bảng 2.1
Thơng tin tóm tắt của các tập dữ liệu
45
Bảng 2.2
Bộ giá trị tham số được cài đặt cho các thuật toán phân cụm
47
Bảng 2.3
Các tham số được sử dụng trong các thuật toán PSO
47
Bảng 2.4
Các kết quả phân cụm trên sáu tập dữ liệu tổng hợp
49
Bảng 2.5
Kết quả phân cụm trên các tập dữ liệu nhiều đặc trưng
51
Bảng 2.6
Kết quả phân cụm trên các tập dữ liệu kích thước lớn
53
Bảng 2.7
Thơng tin tóm tắt của các tập dữ liệu đa nguồn
62
Bảng 2.8
Kết quả phân cụm của các thuật tốn phân cụm đa khung nhìn
65
và thuật tốn đơn trên tập dữ liệu Dim-sets.
Bảng 2.9
Kết quả phân cụm các thuật tốn phân cụm đa khung nhìn và
66
thuật tốn đơn trên tập dữ liệu MF-sets
Bảng 2.10
Kết quả phân cụm các thuật tốn phân cụm đa khung nhìn và
67
thuật tốn đơn trên tập dữ liệu PF
Bảng 2.11
Kết quả phân cụm của các thuật tốn phân cụm đa khơng gian
69
con và thuật toán phân cụm đơn trên tập dữ liệu IS-sets
Bảng 2.12
Kết quả phân cụm của các thuật toán phân cụm đa khơng gian
70
con và thuật tốn phân cụm đơn trên tập dữ liệu HD-sets
Bảng 2.13
Kết quả phân cụm của các thuật tốn phân cụm đa khơng gian
71
con và thuật tốn phân cụm đơn trên tập dữ liệu LS-sets
Bảng 2.14
Kết quả phân cụm và tổng thời gian thực hiện của thuật toán
73
MSFCoC trong hai trường hợp
Bảng 2.15
So sánh thời gian thực hiện (giây) của các thuật tốn đa khung
73
nhìn và thuật tốn đơn trên tập dữ liệu đa khung nhìn
Bảng 2.16
So sánh thời gian thực hiện (giây) của các thuật toán trên ba
tập dữ liệu đa không gian con
74
xiv
Bảng 3.1
So sánh các đặc điểm của mơ hình FOMOCE so với các mơ
hình phân cụm theo nhóm truyền thống
99
Bảng 3.2
Bảng thơng tin tóm tắt của các tập dữ liệu
101
Bảng 3.3
Các kết quả phân cụm của các mẫu quảng cáo nhiều đặc trưng
105
sử dụng các mơ hình phân cụm theo nhóm trên tập dữ liệu
Farm Ads
Bảng 3.4
Các kết quả phân cụm sử dụng mơ hình phân cụm theo nhóm
107
trên tập dữ liệu Chess
Bảng 3.5
Các kết quả phân cụm sử dụng các mơ hình phân cụm theo
108
nhóm trên tập dữ liệu Avila
Bảng 3.6
Các kết quả phân cụm sử dụng các mô hình phân cụm theo
109
nhóm trên tập dữ liệu Covertype
Bảng 3.7
Thơng tin tóm tắt về các tập dữ liệu đa nguồn
111
Bảng 3.8
Kết quả phân cụm trên tập dữ liệu đa nguồn Dim-set
114
Bảng 3.9
Kết quả phân cụm trên tập dữ liệu đa nguồn MF-set
116
Bảng 3.10
Kết quả phân cụm trên tập dữ liệu đa nguồn MF-set
117
Bảng 3.11
Kết quả phân cụm trên tập dữ liệu đa nguồn OR-set
119
xv
DANH MỤC CÁC HÌNH VẼ
Trang
Hình 1.1Phân loại phân cụm dữ liệu
8
Hình 1.2Mơ hình phân cụm theo nhóm truyền thống
22
Hình 1.3Ví dụ tập dữ liệu đa khung nhìn
27
Hình 1.4Ví dụ tập dữ liệu đa khơng gian con
28
Hình 2.1Sơ đồ chức năng của MPSO
34
Hình 2.2
Sơ đồ thuật tốn FCOCM
43
Hình 2.3
Phân bố của sáu tập dữ liệu tổng hợp
48
Hình 3.1
Sơ đồ mơ đun hóa mơ hình FOMOCE
79
Hình 3.2
Sơ đồ mơ hình phân cụm theo nhóm FOMOCE
85
xvi
DANH MỤC CÁC THUẬT TỐN
Trang
Thuật tốn 1.1 Thuật tốn phân cụm mờ FCM
10
Thuật toán 1.2 Thuật toán Tối ưu bầy đàn PSO
16
Thuật toán 1.3 Thuật toán đồng phân cụm mờ FCoC
18
Thuật tốn 2.1
39
Thuật tốn tính hàm mục tiêu
( )
Thuật tốn 2.2 Thuật toán OCM
42
Thuật toán 2.3 Thuật toán FCOCM
44
Thuật toán 2.4 Thuật toán MSFCoC
61
Thuật toán 3.1 Thuật toán phân cụm mờ theo nhóm FOMOCE
97
1
MỞ ĐẦU
1. Tính cấp thiết của đề tài luận án
Tốc độ phát triển đột phá của công nghệ số trong những năm gần đây
như điện thoại thơng minh, điện tốn đám mây, Internet vạn vật, mạng xã hội,
các dịch vụ online,… đã phát sinh một lượng dữ liệu ngày càng lớn và phức
tạp. Trong số đó, dữ liệu được thu thập từ nhiều nguồn khác nhau hoặc có
nhiều đặc trưng có những đặc điểm rất khác biệt so với dữ liệu truyền thống.
Các nguồn dữ liệu này cung cấp các thơng tin hữu ích nếu được khai thác một
cách hiệu quả. Vì vậy, vấn đề nghiên cứu và hồn thiện phương pháp khai phá
dữ liệu trên các nguồn dữ liệu phức tạp này ln là bài tốn cần thiết và có
phạm vi ảnh hưởng mạnh mẽ, có ý nghĩa to lớn và thực tiễn.
Hiện nay phân cụm dữ liệu là một trong những kỹ thuật quan trọng trong lĩnh
vực khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên
tiềm ẩn trong tập dữ liệu khơng gán nhãn, từ đó cung cấp thơng tin, tri thức hữu ích
cho việc ra quyết định. Do đó, phân cụm dữ liệu là một bước tiền xử lý quan trọng,
được sử dụng rộng rãi trong các ứng dụng như truy xuất thơng tin, xử lý hình ảnh,
học máy, nhận dạng mẫu, phân tích hình ảnh, tin sinh học, nén dữ liệu, chẩn đốn,
đồ họa máy tính,... Tuy nhiên, khi áp dụng các kỹ thuật phân cụm dữ liệu truyền
thống đối với dữ liệu đa nguồn và nhiều đặc trưng- vốn có tính chất phức tạp hơn so
với dữ liệu truyền thống thì các kỹ thuật này trở nên kém hiệu quả, khó khăn, hoặc
thậm chí là khơng thể thực hiện được do loại dữ liệu này tiềm ẩn một số thách thức,
đòi hỏi năng lực xử lý tốt đối với các tính chất của nó như kích thước lớn hay tính
đa dạng của dữ liệu,… Do đó, chúng không thể đáp ứng nhu cầu hiện tại của các
ứng dụng sử dụng dữ liệu đa nguồn và nhiều đặc trưng.
Trong xu hướng này, nhiều nhà khoa học đã và đang tập trung nghiên cứu,
phát triển các kỹ thuật phân cụm cho dữ liệu đa nguồn, thể hiện trong một số cơng
trình nghiên cứu đã cơng bố như: Thuật tốn phân cụm đa khung nhìn khơng gian
2
con [61], thuật tốn phân cụm đa khung nhìn sử dụng hệ số ma trận không âm
[14], [84], kỹ thuật phân cụm đa khung nhìn dựa trên phổ [60], và nhiều cơng
trình khác. Tuy nhiên, hầu như tất cả các cơng trình hiện tại đều xem xét các
nguồn sử dụng chung một hàm mục tiêu phân cụm, gọi là các thuật toán phân
cụm dữ liệu đa nguồn đơn hàm mục tiêu. Các mẫu giữa các nguồn khác nhau
có mối quan hệ một-một cho dù đối với dữ liệu hoàn chỉnh hay đối với một
vài phần của dữ liệu. Ngoài ra, mối quan hệ ánh xạ phức tạp giữa các nguồn
dữ liệu cũng chưa được xem xét đầy đủ.
Đối với lĩnh vực nghiên cứu phân cụm dữ liệu có kích thước lớn, nhiều
đặc trưng, mỗi nguồn dữ liệu thường liên quan đến số lượng lớn các đặc điểm
khác nhau. Các thành phần có đặc điểm dữ liệu khác nhau từ các nguồn khác
nhau có số đặc trưng khác nhau. Vì vậy, trong quá trình phân cụm, cần xem xét
tầm quan trọng khác nhau của các đặc điểm ở mỗi nguồn dữ liệu. Nghiên cứu
trong [30] đã đề xuất một lược đồ trọng số đặc trưng với với kỹ thuật giảm đặc
trưng cho FCM đơn nguồn nhưng khơng sử dụng quy trình trọng số đặc trưng
cho dữ liệu đa nguồn. Gần đây, [47] đề xuất một cơ chế trọng số đặc trưng mới
cho MVFCM dựa trên phương pháp học cộng tác có thể giúp xác định tầm quan
trọng khác nhau của các đặc trưng trong mỗi nguồn dữ liệu. Sau đó tự động loại
bỏ các thành phần đặc trưng trọng số nhỏ để nâng cao hiệu suất phân cụm.
Bên cạnh đó, để đạt được kết quả phân cụm có độ chính xác cao hơn và
mạnh hơn đối với các loại dữ liệu này, các nghiên cứu gần đây đã thực hiện một số
mơ hình phân cụm theo nhóm cho dữ liệu đa nguồn, thể hiện trong một số cơng
trình nghiên cứu đã công bố liên quan đến chủ đề này như [64] và [79]. Một số cải
tiến phân cụm theo nhóm gần đây như nghiên cứu trong [1] đề xuất phân cụm mờ
theo nhóm dựa trên độ tin cậy sử dụng thuật toán FCM để phân cụm cơ sở, [18] dựa
trên K- Means và FCM để phân cụm rõ và phân cụm mờ trên tập dữ liệu có kích
thước lớn, [72] đề xuất NMFCE dựa trên tri thức ẩn nhằm trích xuất được nhiều
thông tin hơn từ dữ liệu, đơn giản hơn và phù hợp với dữ liệu có qui mơ lớn.