Tải bản đầy đủ (.doc) (155 trang)

Một số phương pháp phân cụm mờ theo nhóm cho bài toán dữ liệu đa nguồn, nhiều đặc trưng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1001.69 KB, 155 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CƠNG NGHỆ QN SỰ
-------------------------

LÊ THỊ CẨM BÌNH

MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ
THEO NHĨM CHO BÀI TỐN DỮ LIỆU ĐA
NGUỒN, NHIỀU ĐẶC TRƯNG

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội – 2023


BỘ GIÁO DỤC VÀ ĐÀO TẠO
BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CƠNG NGHỆ QN SỰ
-------------------------

LÊ THỊ CẨM BÌNH

MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM MỜ
THEO NHĨM CHO BÀI TỐN DỮ LIỆU ĐA
NGUỒN, NHIỀU ĐẶC TRƯNG
Ngành:

Cơ sở toán học cho tin học

Mã số:



9460110
LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1.
2.

PGS.TS. NGÔ THÀNH LONG
TS. LÊ XUÂN ĐỨC

Hà Nội - 2023


i

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu của tơi. Các số liệu, các
kết quả trình bày trong luận án hoàn toàn trung thực và chưa từng được ai
cơng bố trong bất kỳ các cơng trình nào khác, các dữ liệu tham khảo được
trích dẫn đầy đủ.
Hà Nội, ngày 15 tháng 8 năm 2023
Nghiên cứu sinh

Lê Thị Cẩm Bình


ii

LỜI CẢM ƠN

Luận án này được thực hiện và hoàn thành tại Viện Công nghệ thông tin,
Viện Khoa học và Công nghệ quân sự. Trước hết, nghiên cứu sinh xin bày tỏ
lịng biết ơn sâu sắc tới PGS.TS Ngơ Thành Long và TS Lê Xuân Đức đã định
hướng, chỉ bảo và giúp đỡ trong q trình nghiên cứu và hồn thành luận án.

Tôi xin bày tỏ lời cảm ơn sâu sắc tới lãnh đạo, tập thể cán bộ giảng viên
của Viện Khoa học và Cơng nghệ qn sự, Phịng Đào tạo, Viện Công nghệ
thông tin đã tạo điều kiện thuận lợi, hỗ trợ, chia sẻ và giúp đỡ tôi trong thời
gian học tập và nghiên cứu tại Viện. Tôi cũng xin gửi lời cảm ơn tới các thành
viên nhóm nghiên cứu seminar phân cụm dữ liệu đã tạo ra môi trường trao đổi
học thuật thường xuyên và chia sẻ các ý tưởng có giá trị cho các nghiên cứu
của luận án.
Tôi xin phép được gửi lời cảm ơn chân thành tới lãnh đạo Trường Đại
học Văn hóa, các đồng nghiệp tại Khoa Khoa học Cơ bản, Khoa Thông tin,
Thư viện đã tạo điều kiện thuận lợi trong quá trình nghiên cứu và làm việc tại
Trường.
Cuối cùng, xin cảm ơn tới gia đình đã hỗ trợ, động viên và giúp đỡ tôi
rất nhiều về tinh thần, vật chất và thời gian để có thể hồn thành luận án.
Nghiên cứu sinh

Lê Thị Cẩm Bình


iii

MỤC LỤC
Trang
LỜI CAM ĐOAN..............................................................................................i
LỜI CẢM ƠN...................................................................................................ii
MỤC LỤC.......................................................................................................iii

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT...................................vi
DANH MỤC CÁC BẢNG...........................................................................................................xiii
DANH MỤC CÁC HÌNH VẼ......................................................................................................xv
MỞ ĐẦU...........................................................................................................1
Chương 1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU.....................................7
1.1. Giới thiệu chung về phân cụm dữ liệu....................................................... 7
1.1.1. Định nghĩa..........................................................................................7
1.1.2. Phân cụm mờ.......................................................................................8
1.1.3. Phương pháp đánh giá trong phân cụm.............................................10
1.2. Cơ sở toán học của luận án.......................................................................13
1.2.1. Thuật toán tối ưu bầy đàn..................................................................14
1.2.2. Thuật toán đồng phân cụm mờ..........................................................17
1.2.3. Mơ hình phân cụm mờ theo nhóm.................................................... 19
1.2.4. Tri thức ẩn trong phân cụm dữ liệu...................................................23
1.2.5. Dữ liệu đa nguồn............................................................................... 24
1.2.6. Dữ liệu nhiều đặc trưng.....................................................................28
1.3. Kết luận chương 1.................................................................................... 29
Chương 2 MỘT SỐ CẢI TIẾN KỸ THUẬT PHÂN CỤM DỮ LIỆU...........30
2.1. Đề xuất thuật toán đồng phân cụm mờ sử dụng PSO tối ưu tâm cụm với lớp bài

tốn dữ liệu nhiều đặc trưng............................................................................ 30
2.1.1. Mơ hình tốn học tối ưu bầy đàn MPSO...........................................31


iv

2.1.2. Mơ hình tâm cụm tối ưu OCM..........................................................35
2.1.3. Kết quả thực nghiệm......................................................................... 45
2.2. Thuật toán đồng phân cụm mờ dữ liệu đa nguồn MSFCoC.....................54
2.2.1. Mơ hình tốn học của MSFCoC........................................................55

2.2.3. Chia sẻ tri thức trong phân cụm dữ liệu đa nguồn............................ 58
2.2.4. Phương pháp tính tốn điều kiện dừng..............................................60
2.2.5. Thuật toán MSFCoC......................................................................... 61
2.2.6. Kết quả thực nghiệm......................................................................... 62
2.3. Kết luận chương 2.................................................................................... 75
Chương 3 MƠ HÌNH CẢI TIẾN PHÂN CỤM MỜ THEO NHĨM ĐA HÀM
MỤC TIÊU......................................................................................................77
3.1. Mơ hình tốn học của FOMOCE..............................................................77
3.1.1. Dữ liệu đầu vào................................................................................. 79
3.1.2. Bộ phân loại dữ liệu đầu vào.............................................................80
3.1.3. Tập phân cụm cơ sở.......................................................................... 81
3.1.4. Bộ liên kết phân cụm cơ sở...............................................................82
3.1.5. Mô đun đồng thuận........................................................................... 83
3.1.6. Mô đun đánh giá kết quả phân cụm.................................................. 84
3.1.7. Sơ đồ mơ hình phân cụm theo nhóm FOMOCE...............................84
3.2. Tri thức ẩn trong mơ hình FOMOCE....................................................... 86
3.2.1. Tri thức ẩn trong mơ hình FOMOCE................................................86
3.2.2. Các quy tắc dẫn xuất trong mơ hình FOMOCE................................91
3.3. Thuật tốn FOMOCE............................................................................... 97
3.4. So sánh các mơ hình phân cụm theo nhóm.............................................. 99
3.5. Một số kết quả thực nghiệm................................................................... 100
3.5.1. Kết quả thực nghiệm trên các mơ hình phân cụm đơn hàm mục tiêu
...................................................................................................................100


v

3.5.2. Kết quả thực nghiệm trên các mơ hình phân cụm đa hàm mục tiêu
...................................................................................................................111
3.6. Kết luận chương 3.................................................................................. 120

KẾT LUẬN...................................................................................................122
DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC ĐÃ CƠNG BỐ...............124
TÀI LIỆU THAM KHẢO.............................................................................125


vi

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Hệ số giới hạn chất lượng của giải pháp thơng qua hàm
thích ứng trong thuật tốn PSO
Khơng gian hoạt động của bầy đàn trong thuật tốn PSO
M

Mơ hình tốn học của FOMOCE
Số vịng lặp
Hệ số qn tính được sử dụng để điều khiển hành vi của bầy
đàn trong thuật toán PSO
Hệ số đại diện cho loại dữ liệu đa nguồn
Phân cụm cơ sở của thuật tốn phân cụm theo nhóm

u,m

entropy của hàm thuộc đối tượng

v,m

entropy của hàm thuộc đặc trưng
Chỉ số chất lượng phân cụm trung bình ở phân cụm cơ sở

Im


thứ m
Chỉ số của phân cụm cơ sở tốt nhất


A

Tập các hàm mục tiêu được sử dụng cho M phân cụm cơ sở
trong mơ hình FOMOCE

A*

Hàm đồng thuận trong mơ hình FOMOCE

Am
B

Vận tốc của các phần tử bầy đàn trong thuật toán PSO
Số các chỉ số đánh giá chất lượng phân cụm cuối cùng trong
mơ hình FOMOCE

C

Số cụm dữ liệu

C*

Tập tâm cụm kết quả cuối cùng trong mơ hình FOMOCE



vii

Cm

Vị trí của các phần tử bầy đàn trong thuật toán PSO

CGB

Giải pháp tâm cụm tối ưu

D

Tập đặc trưng của dữ liệu

d

Phương pháp đo khoảng cách trong phân cụm

E

Bộ điều kiện dừng của phân cụm cơ sở trong mơ hình
FOMOCE

F

Mơ đun đồng thuận của mơ hình FOMOCE

f

Hàm thích nghi


G

Tập tâm cụm

gc

Tâm cụm thứ c

I

Dữ liệu đầu vào của bầy đàn trong thuật toán PSO

I*

Tập chỉ số đánh giá chất lượng phân cụm cuối cùng trong mơ

hình FOMOCE
Im

Tập chỉ số đánh giá chất lượng phân cụm ở phân cụm cơ sở
thứ m

J

Hàm mục tiêu của kỹ thuật xử lý dữ liệu

K

Số đặc trưng của dữ liệu


L

Bộ liên kết phân cụm cơ sở trong mơ hình FOMOCE

M

Số nguồn của dữ liệu đa nguồn

N

Số đối tượng dữ liệu

O

Giải pháp tiềm năng toàn cục trong thuật tốn PSO

OG

Kết quả phân cụm tối ưu tồn cục tại các bước lặp của các
phân cụm cơ sở trong mơ hình FOMOCE


viii

Oi

Kết quả của các phân cụm cơ sở trong mô hình FOMOCE

P


Tập các phần tử của bầy đàn trong thuật toán PSO

Pcj

Đặc trưng thứ j của tâm cụm c

PGB

Phần tử đại diện cho phần tử tiềm năng tốt nhất của tồn bộ
tiến trình hoạt động của bầy đàn.

PPB

Phần tử đại diện cho phần tử tiềm năng tốt nhất cục bộ tại
mỗi bước di chuyển của bầy đàn.

Q

Bộ phân loại dữ liệu đầu vào trong mơ hình FOMOCE

q1, q2

Hệ số kiểm soát tốc độ hội tụ của các phần từ theo hướng tốt
nhất cục bộ hoặc tồn cục trong thuật tốn PSO



Trường số thực
r1, r2


Số ngẫu nhiên phân bố đồng đều trong khoảng từ 0 đến 1

RGB

Quy tắc xác định giải pháp tiềm năng tồn cục sau q trình
bầy đàn di chuyển

RL

Quy tắc xác định và trao đổi tri thức

ẩn trong mơ hình

FOMOCE
RPB

Quy tắc xác định giải pháp tiềm năng cục bộ tại các bước di
chuyển của bầy đàn

Rs

điều kiện dừng trong mơ hình OCM

S

Bầy đàn trong thuật tốn PSO

Tu, Tv


Các trọng số xác định mức độ mờ

U

Ma trận hàm thuộc

uci

Độ thuộc đối tượng của đối tượng dữ liệu thứ i với cụm c


ix

V

vcj

Ma trận hàm thuộc đặc trưng
Độ thuộc đặc trưng của chức năng j với cụm c

X

Tập dữ liệu phân cụm

X*

Kết quả phân cụm theo nhóm trong mơ hình FOMOCE

Acc


Chỉ số Accuracy (Clustering Accuracy)

AR

Chỉ số điều chỉnh Rand (Adjusted Rand Index)

CCAU

thuật toán phân cụm đồng thuận dựa trên các đơn vị cụm
(the consensus clustering algorithm based on cluster units)

CLARA

Phân cụm trong các ứng dụng lớn (Clustering LARge
Applications)

Co-FCM

Phân cụm mờ cộng tác dữ liệu đa khung nhìn (Collaborative
Fuzzy C-Means for multiview data)

Co-FKM

Phân cụm FKM cộng tác dữ liệu đa khung nhìn
(Collaborative FKM for multi-view data)

Co-FW-

Phân cụm mờ cộng tác đa khung nhìn đặc trưng có trọng số


MVFCM

(Collaborative feature-weighted multi-view fuzzy c-means
clustering)

CSMSC

Phân cụm dữ liệu đa không gian con riêng và nhất quán
(Consistent and specific multi-view subspace clustering)

DBI

Chỉ số Davies–Bouldins (Davies–Bouldins index)

EFC

Phân cụm mờ theo nhóm (Emsemble Fuzzy Clustering)

eFCoC

Đồng phân cụm mờ theo nhóm (fuzzy co-clustering
ensemble algorithm)


x

F1- score

Chỉ số F1- score


FCCI

Thuật toán đồng phân cụm mờ để phân loại ảnh màu (Fuzzy
co-clustering algorithm for color image segmentation)

FCM

Phân cụm mờ (Fuzzy C-Means)

FCME

Phân cụm mờ theo nhóm sử dụng thuật toán FCM
(ensemble of Fuzzy C-Means)

FCM-PSO

Phân cụm mờ dựa trên thuật toán tối ưu bầy đàn (Fuzzy CMeans based on Particle Swarm Optimization)

FCoC

Thuật toán Đồng phân cụm mờ (Fuzzy Co-Clustering)

FCOCM

Thuật tốn Đồng phân cụm mờ sử dụng mơ hình tối ưu tâm
cụm (Fuzzy Co- clustering algorithm by using the Optimal
centroids Model)

FOMOCE


Mơ hình phân cụm mờ theo nhóm đa hàm mục tiêu tối ưu
dữ liệu đa nguồn (Fuzzy optimized multi-objective
clustering ensemble method)

IQI

Chỉ số chất lượng ảnh (Image Quality Index)

IT2FCM

Thuật toán phân cụm mờ loại 2 khoảng (Interval type-2
fuzzy clustering algorithm)

IVFCoC

Đồng phân cụm mờ giá trị khoảng (Interval-valued fuzzy
co-clustering algorithm)

JFLMSC

Kết hợp tính năng theo trọng số chung và học cấu trúc cục
bộ cho phân cụm dữ liệu đa không gian con (Joint
Featurewise Weighting and Local Structure Learning for
Multi-view Subspace Clustering)


xi

K-means


Phân cụm rõ (K- Means)

KM-PSO

Phân cụm rõ dựa trên thuật toán tối ưu bầy đàn (K- Means
based on Particle Swarm Optimization)

LMSC

Phân cụm dữ liệu đa không gian con tiềm ẩn (Latent multiview subspace clustering)

minimaxFCM Tối ưu hóa minimax để phân cụm hiệu quả dữ liệu từ nhiều
nguồn (minimax optimization for effective clustering of data
from multiple sources)
MKCE

Thuật toán đa phân cụm rõ theo nhóm (multiple K-Means
clustering ensemble algorithm)

MPSO

Mơ hình tốn học của thuật toán tối ưu bầy đàn
(Mathematical models of Particle Swarm Optimization)

MSFCoC

Thuật toán đồng phân cụm mờ dữ liệu đa nguồn (Multisource Fuzzy Co-clustering Algorithm)

MVFCoC


Thuật toán đồng phân cụm dữ liệu đa khung nhìn (Multiview fuzzy co-clustering algorithm)

NMFCM

Hệ số hóa ma trận khơng âm trong phân cụm theo nhóm dựa
trên tri thức ẩn (Nonnegative matrix factorization for
clustering ensemble based on dark knowledge)

nr-IT2FCM

phân cụm mờ loại 2 kết hợp thông tin lân cận (interval type2 fuzzy set generation is based on the method incorporating
neighborhood information)

OCM

Mơ hình tìm tâm cụm tối ưu (Optimal Centroids Model)

PC

Hệ số phân vùng (Partition Coefficient)


xii

PSO

Thuật toán tối ưu bầy đàn (Particle Swarm Optimization)

Rec & Prec


Chỉ số phục hồi và chính xác (Recall and Precision)

SACT

Thuật toán đánh giá xu hướng cụm theo chỉ số Silhouette
(Silhouette-Based

Assessment

of

Cluster

Tendency

algorithm)
WCoFCM

Phân cụm mờ cộng tác da khung nhìn có trọng số (Weighted
multi-view collaborative fuzzy -means algorithm)


xiii

DANH MỤC CÁC BẢNG
Trang
Bảng 2.1

Thơng tin tóm tắt của các tập dữ liệu


45

Bảng 2.2

Bộ giá trị tham số được cài đặt cho các thuật toán phân cụm

47

Bảng 2.3

Các tham số được sử dụng trong các thuật toán PSO

47

Bảng 2.4

Các kết quả phân cụm trên sáu tập dữ liệu tổng hợp

49

Bảng 2.5

Kết quả phân cụm trên các tập dữ liệu nhiều đặc trưng

51

Bảng 2.6

Kết quả phân cụm trên các tập dữ liệu kích thước lớn


53

Bảng 2.7

Thơng tin tóm tắt của các tập dữ liệu đa nguồn

62

Bảng 2.8

Kết quả phân cụm của các thuật tốn phân cụm đa khung nhìn

65

và thuật tốn đơn trên tập dữ liệu Dim-sets.
Bảng 2.9

Kết quả phân cụm các thuật tốn phân cụm đa khung nhìn và

66

thuật tốn đơn trên tập dữ liệu MF-sets
Bảng 2.10

Kết quả phân cụm các thuật tốn phân cụm đa khung nhìn và

67

thuật tốn đơn trên tập dữ liệu PF
Bảng 2.11


Kết quả phân cụm của các thuật tốn phân cụm đa khơng gian

69

con và thuật toán phân cụm đơn trên tập dữ liệu IS-sets
Bảng 2.12

Kết quả phân cụm của các thuật toán phân cụm đa khơng gian

70

con và thuật tốn phân cụm đơn trên tập dữ liệu HD-sets
Bảng 2.13

Kết quả phân cụm của các thuật tốn phân cụm đa khơng gian

71

con và thuật tốn phân cụm đơn trên tập dữ liệu LS-sets
Bảng 2.14

Kết quả phân cụm và tổng thời gian thực hiện của thuật toán

73

MSFCoC trong hai trường hợp
Bảng 2.15

So sánh thời gian thực hiện (giây) của các thuật tốn đa khung


73

nhìn và thuật tốn đơn trên tập dữ liệu đa khung nhìn
Bảng 2.16

So sánh thời gian thực hiện (giây) của các thuật toán trên ba
tập dữ liệu đa không gian con

74


xiv

Bảng 3.1

So sánh các đặc điểm của mơ hình FOMOCE so với các mơ
hình phân cụm theo nhóm truyền thống

99

Bảng 3.2

Bảng thơng tin tóm tắt của các tập dữ liệu

101

Bảng 3.3

Các kết quả phân cụm của các mẫu quảng cáo nhiều đặc trưng


105

sử dụng các mơ hình phân cụm theo nhóm trên tập dữ liệu
Farm Ads
Bảng 3.4

Các kết quả phân cụm sử dụng mơ hình phân cụm theo nhóm

107

trên tập dữ liệu Chess
Bảng 3.5

Các kết quả phân cụm sử dụng các mơ hình phân cụm theo

108

nhóm trên tập dữ liệu Avila
Bảng 3.6

Các kết quả phân cụm sử dụng các mô hình phân cụm theo

109

nhóm trên tập dữ liệu Covertype
Bảng 3.7

Thơng tin tóm tắt về các tập dữ liệu đa nguồn


111

Bảng 3.8

Kết quả phân cụm trên tập dữ liệu đa nguồn Dim-set

114

Bảng 3.9

Kết quả phân cụm trên tập dữ liệu đa nguồn MF-set

116

Bảng 3.10

Kết quả phân cụm trên tập dữ liệu đa nguồn MF-set

117

Bảng 3.11

Kết quả phân cụm trên tập dữ liệu đa nguồn OR-set

119


xv

DANH MỤC CÁC HÌNH VẼ

Trang
Hình 1.1Phân loại phân cụm dữ liệu

8

Hình 1.2Mơ hình phân cụm theo nhóm truyền thống

22

Hình 1.3Ví dụ tập dữ liệu đa khung nhìn

27

Hình 1.4Ví dụ tập dữ liệu đa khơng gian con

28

Hình 2.1Sơ đồ chức năng của MPSO

34

Hình 2.2

Sơ đồ thuật tốn FCOCM

43

Hình 2.3

Phân bố của sáu tập dữ liệu tổng hợp


48

Hình 3.1

Sơ đồ mơ đun hóa mơ hình FOMOCE

79

Hình 3.2

Sơ đồ mơ hình phân cụm theo nhóm FOMOCE

85


xvi

DANH MỤC CÁC THUẬT TỐN
Trang
Thuật tốn 1.1 Thuật tốn phân cụm mờ FCM

10

Thuật toán 1.2 Thuật toán Tối ưu bầy đàn PSO

16

Thuật toán 1.3 Thuật toán đồng phân cụm mờ FCoC


18

Thuật tốn 2.1

39
Thuật tốn tính hàm mục tiêu

( )

Thuật tốn 2.2 Thuật toán OCM

42

Thuật toán 2.3 Thuật toán FCOCM

44

Thuật toán 2.4 Thuật toán MSFCoC

61

Thuật toán 3.1 Thuật toán phân cụm mờ theo nhóm FOMOCE

97


1

MỞ ĐẦU
1. Tính cấp thiết của đề tài luận án

Tốc độ phát triển đột phá của công nghệ số trong những năm gần đây
như điện thoại thơng minh, điện tốn đám mây, Internet vạn vật, mạng xã hội,
các dịch vụ online,… đã phát sinh một lượng dữ liệu ngày càng lớn và phức
tạp. Trong số đó, dữ liệu được thu thập từ nhiều nguồn khác nhau hoặc có
nhiều đặc trưng có những đặc điểm rất khác biệt so với dữ liệu truyền thống.
Các nguồn dữ liệu này cung cấp các thơng tin hữu ích nếu được khai thác một
cách hiệu quả. Vì vậy, vấn đề nghiên cứu và hồn thiện phương pháp khai phá
dữ liệu trên các nguồn dữ liệu phức tạp này ln là bài tốn cần thiết và có
phạm vi ảnh hưởng mạnh mẽ, có ý nghĩa to lớn và thực tiễn.
Hiện nay phân cụm dữ liệu là một trong những kỹ thuật quan trọng trong lĩnh
vực khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên
tiềm ẩn trong tập dữ liệu khơng gán nhãn, từ đó cung cấp thơng tin, tri thức hữu ích
cho việc ra quyết định. Do đó, phân cụm dữ liệu là một bước tiền xử lý quan trọng,
được sử dụng rộng rãi trong các ứng dụng như truy xuất thơng tin, xử lý hình ảnh,
học máy, nhận dạng mẫu, phân tích hình ảnh, tin sinh học, nén dữ liệu, chẩn đốn,
đồ họa máy tính,... Tuy nhiên, khi áp dụng các kỹ thuật phân cụm dữ liệu truyền
thống đối với dữ liệu đa nguồn và nhiều đặc trưng- vốn có tính chất phức tạp hơn so
với dữ liệu truyền thống thì các kỹ thuật này trở nên kém hiệu quả, khó khăn, hoặc
thậm chí là khơng thể thực hiện được do loại dữ liệu này tiềm ẩn một số thách thức,
đòi hỏi năng lực xử lý tốt đối với các tính chất của nó như kích thước lớn hay tính
đa dạng của dữ liệu,… Do đó, chúng không thể đáp ứng nhu cầu hiện tại của các
ứng dụng sử dụng dữ liệu đa nguồn và nhiều đặc trưng.
Trong xu hướng này, nhiều nhà khoa học đã và đang tập trung nghiên cứu,
phát triển các kỹ thuật phân cụm cho dữ liệu đa nguồn, thể hiện trong một số cơng
trình nghiên cứu đã cơng bố như: Thuật tốn phân cụm đa khung nhìn khơng gian


2
con [61], thuật tốn phân cụm đa khung nhìn sử dụng hệ số ma trận không âm
[14], [84], kỹ thuật phân cụm đa khung nhìn dựa trên phổ [60], và nhiều cơng

trình khác. Tuy nhiên, hầu như tất cả các cơng trình hiện tại đều xem xét các
nguồn sử dụng chung một hàm mục tiêu phân cụm, gọi là các thuật toán phân
cụm dữ liệu đa nguồn đơn hàm mục tiêu. Các mẫu giữa các nguồn khác nhau
có mối quan hệ một-một cho dù đối với dữ liệu hoàn chỉnh hay đối với một
vài phần của dữ liệu. Ngoài ra, mối quan hệ ánh xạ phức tạp giữa các nguồn
dữ liệu cũng chưa được xem xét đầy đủ.
Đối với lĩnh vực nghiên cứu phân cụm dữ liệu có kích thước lớn, nhiều
đặc trưng, mỗi nguồn dữ liệu thường liên quan đến số lượng lớn các đặc điểm
khác nhau. Các thành phần có đặc điểm dữ liệu khác nhau từ các nguồn khác
nhau có số đặc trưng khác nhau. Vì vậy, trong quá trình phân cụm, cần xem xét
tầm quan trọng khác nhau của các đặc điểm ở mỗi nguồn dữ liệu. Nghiên cứu
trong [30] đã đề xuất một lược đồ trọng số đặc trưng với với kỹ thuật giảm đặc
trưng cho FCM đơn nguồn nhưng khơng sử dụng quy trình trọng số đặc trưng
cho dữ liệu đa nguồn. Gần đây, [47] đề xuất một cơ chế trọng số đặc trưng mới
cho MVFCM dựa trên phương pháp học cộng tác có thể giúp xác định tầm quan
trọng khác nhau của các đặc trưng trong mỗi nguồn dữ liệu. Sau đó tự động loại
bỏ các thành phần đặc trưng trọng số nhỏ để nâng cao hiệu suất phân cụm.
Bên cạnh đó, để đạt được kết quả phân cụm có độ chính xác cao hơn và
mạnh hơn đối với các loại dữ liệu này, các nghiên cứu gần đây đã thực hiện một số
mơ hình phân cụm theo nhóm cho dữ liệu đa nguồn, thể hiện trong một số cơng
trình nghiên cứu đã công bố liên quan đến chủ đề này như [64] và [79]. Một số cải
tiến phân cụm theo nhóm gần đây như nghiên cứu trong [1] đề xuất phân cụm mờ
theo nhóm dựa trên độ tin cậy sử dụng thuật toán FCM để phân cụm cơ sở, [18] dựa
trên K- Means và FCM để phân cụm rõ và phân cụm mờ trên tập dữ liệu có kích
thước lớn, [72] đề xuất NMFCE dựa trên tri thức ẩn nhằm trích xuất được nhiều
thông tin hơn từ dữ liệu, đơn giản hơn và phù hợp với dữ liệu có qui mơ lớn.




×