Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (608.74 KB, 9 trang )

JOURNAL OF SCIENCE OF HNUE
Educational Sci., 2015, Vol. 60, No. 7A, pp. 103-111
This paper is available online at

DOI: 10.18173/2354-1075.2015-0057

PHƯƠNG PHÁP MỚI DỰA TRÊN ĐƯỜNG BIÊN VÀ VÙNG AN TOÀN
NÂNG CAO HIỆU QUẢ PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG
1

Khúc Quỳnh Hương, 2 Đào Thu Hiền, 1 Nguyễn Thị Hồng và 1 Đặng Xuân Thọ
1 Khoa

Công nghệ Thông tin, Trường Đại học Sư phạm Hà Nội
Toán-tin, Trường Đại học Sư phạm Hà Nội

2 Khoa

Tóm tắt. Phân lớp đối với dữ liệu mất cân bằng là một bài toán có ý nghĩa quan trọng
trong thực tế và đang trở thành xu hướng tiếp cận mới của nhiều nhà nghiên cứu. Đặc biệt,
trong chẩn đoán y học, số người mắc bệnh chỉ chiếm tỉ lệ rất nhỏ trên tổng số người dân
nên khả năng phát hiện người mắc bệnh gặp nhiều khó khăn hoặc sai lệch lớn, gây ra hậu
quả nghiêm trọng, thậm chí ảnh hưởng tới tính mạng con người. Vì vậy, hiệu quả phân lớp
mất cân bằng đòi hỏi phải có tính chính xác cao. Phương pháp tiền xử lí dữ liệu là một
hướng giải quyết phổ biến và đạt kết quả tốt. Bài báo này sẽ giới thiệu một số phương
pháp tiếp cận trong phân lớp dữ liệu mất cân bằng như Random Oversampling và Random
Undersampling. Từ đó, đề xuất một phương pháp mới dựa trên khái niệm đường biên và
vùng an toàn nhằm nâng cao hiệu quả phân lớp. Thuật toán mới được cải tiến dựa trên sự kết
hợp từ hai thuật toán Random Boder Oversampling và Random Safe Undersampling nghĩa
là đồng thời tăng thêm các phần tử trên đường biên ở lớp thiểu số và loại bỏ các phần tử an
toàn ở lớp đa số một cách ngẫu nhiên. Chúng tôi đã cài đặt thuật toán và thực nghiệm trên

các bộ dữ liệu chuẩn quốc tế UCI: Yeast, Breast-p, Glass và Pima. Ví dụ, kết quả phân lớp
dữ liệu Yeast có chỉ số G-mean của dữ liệu nguyên gốc là 18,85% nhưng khi áp dụng
Random Oversampling, Random Undersamling, Random Safe Oversampling, Random
Safe Undersampling và Random Safe Undersampling - Random Border Oversampling thì
G-mean tăng lên hẳn, lần lượt là 69,31%; 46,52%; 30,69%, 41,00% và 74,86%. Từ kết quả
thực nghiệm cho thấy hiệu quả phân lớp dữ liệu mất cân bằng khi áp dụng phương pháp
mới của chúng tôi được cải tiến một cách đáng kể.
Từ khóa: Dữ liệu mất cân bằng; Phân lớp dữ liệu; Mức độ an toàn; Đường biên; Sinh thêm
phần tử ngẫu nhiên; Giảm bớt phần tử ngẫu nhiên.

1.

Mở đầu

Với sự phát triển nhanh chóng của lĩnh vực công nghệ thông tin thì các kĩ thuật khai phá dữ
liệu, trích rút thông tin lại càng được quan tâm nghiên cứu trong đó phân lớp dữ liệu là một trong
những bài toán điển hình về nhận dạng mẫu. Phân lớp là bài toán có ứng dụng rộng rãi trong nhiều
lĩnh vực: công nghệ thông tin, tài chính, viễn thông... Trong đó, rất nhiều bài toán mà phân bố dữ
liệu có sự chênh lệch rất lớn, ví dụ trong chẩn đoán y khoa số người bị bệnh ung thư chiếm tỉ lệ
Ngày nhận bài: 15/7/2015 Ngày nhận đăng: 01/11/2015
Liên hệ: Khúc Quỳnh Hương, e-mail:

103

Khúc Quỳnh Hương, Đào Thu Hiền, Nguyễn Thị Hồng và Đặng Xuân Thọ

rất nhỏ trên tổng số người dân hay những cuộc gọi gian lận chiếm tỉ lệ rất ít trên tổng số các cuộc
gọi [8]. Mặc dù số lượng những người bị ung thư hay số lượng cuộc gọi rất ít nhưng việc phát hiện
ra người bị ung thư hay cuộc gọi gian lận đóng vai trò rất quan trọng.

Việc nghiên cứu về bài toán phân lớp được rất nhiều nhà khoa học quan tâm. Đã có nhiều
thuật toán học phân lớp được công bố như: k – láng giềng gần nhất, cây quyết định, Na¨ıve Bayes,
máy véc tơ hỗ trợ [7]. . . Đó là những thuật toán chuẩn áp dụng cho các trường hợp phân lớp không
mất cân bằng và đã được thực nghiệm kiểm chứng. Tuy nhiên, việc áp dụng những thuật toán này
cho dữ liệu mà sự chênh lệch về số lượng các phần tử của các lớp lớn thì hiệu quả không cao. Vì
vậy, cần có những hướng tiếp cận mới đối với trường hợp dữ liệu mất cân bằng.
Mất cân bằng dữ liệu là trường hợp dữ liệu có số lượng các phần tử của các lớp có sự chênh
lệch đáng kể. Khi đó, lớp có nhiều phần tử được gọi là lớp đa số (Majority Class), lớp có ít phần
tử được gọi là lớp thiểu số (Minority Class). Khi xảy ra vấn đề mất cân bằng dữ liệu, nhiều thực
nghiệm đã cho thấy, do sự áp đảo về số lượng các phần tử lớp đa số làm cho hiệu quả của quá trình
phân lớp bị giảm đáng kể. Chẳng hạn, bộ dữ liệu Mamography gồm 11.183 mẫu dữ liệu, trong đó
có 10.923 mẫu được gán nhãn “Negative” (không ung thư) và 260 mẫu được gán nhãn “Positive”
(ung thư). Giả sử một mô hình phân lớp chỉ đạt độ chính xác 10% nghĩa là có 234 mẫu lớp thiểu
số bị phân lớp sai thành lớp đa số dẫn đến 234 người bị ung thư nhưng được chẩn đoán là không bị
ung thư [9]. Rõ ràng việc phân lớp nhầm bệnh nhân như vậy sẽ gây hậu quả nghiêm trọng hơn việc
phân lớp nhầm từ không bị bệnh thành bị bệnh. Vì vậy, bài toán phân lớp dữ liệu mất cân bằng là
bài toán có ứng dụng quan trọng trong thực tế vàđược rất nhiều nhà khoa học trong lĩnh vực khai
phá dữ liệu quan tâm.
Hiện nay có nhiều công trình nghiên cứu giải quyết bài toán phân lớp dữ liệu mất cân bằng
theo những hướng tiếp cận khác nhau [8]. Trong đó, một trong những hướng tiếp cận hiệu quả là
tiền xử lí dữ liệu bằng cách tạo ra các phần tử nhân tạo nhằm tăng số lượng các phần tử của lớp
thiểu số để giảm tính mất cân bằng giữa các lớp. Sau đó, chúng ta có thể áp dụng các thuật toán
học phân lớp chuẩn như đã nêu ở trên.

2.
2.1.

Nội dung nghiên cứu
Các phương pháp liên quan

Để cải thiện kết quả phân lớp trong trường hợp dữ liệu mất cân bằng, người ta có thể tiếp
cận bằng nhiều phương pháp khác nhau như tiếp cận trên mức độ dữ liệu nghĩa là điều chỉnh dữ
liệu giảm bớt tính mất cân bằng, tiếp cận trên mức độ thuật toán nghĩa là điều chỉnh thuật toán
phân lớp sao cho hiệu quả phân lớp dữ liệu mất cân bằng không bị giảm. Phương pháp điều chỉnh
dữ liệu là một phương pháp đã được nhiều thực nghiệm chứng minh là đơn giản và đạt được hiệu
quả cao trên nhiều bộ dữ liệu. Điều chỉnh dữ liệu cũng có nhiều cách: giảm kích thước mẫu dữ liệu
hoặc tăng kích thước mẫu dữ liệu. Thuật toán đại diện cho kĩ thuật này là Random Oversamplingvà
Random Undersampling. Ngoài ra, có thể kết hợp cả hai phương pháp trên để nâng cao hiệu quả
phân lớp [1].
Ramdom Oversampling (RO) là một phương pháp điều chỉnh tăng kích thước mẫu. Thuật
toán nàysẽ lựa chọn ngẫu nhiên các phần tử trong lớp thiểu số và nhân bản chúng, làm cho bộ dữ
liệu giảm bớt sự mất cân bằng. Ngoài ra, cũng có một số cách sinh phần tử có chủ đích như: tăng
phần tử thiểu số ở vùng an toàn (Safe level), tăng phần tử ở đường biên (Borderline) [2]. . .
Phương pháp điều chỉnh giảm kích thước mẫu Random Undersampling (RU) sẽ loại bỏ các
phần tử ở lớp đa số một cách ngẫu nhiên đến khi tỉ số giữa các phần tử lớp thiểu số và các phần tử
lớp đa số phù hợp. Do đó số lượng các phần tử của tập huấn luyện sẽ giảm đáng kể.
Hai phương pháp trên đã được thực nghiệm chứng minh là hiệu quả, nhưng trong một số
104

Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu...

trường hợp vẫn chưa đạt kết quả mong muốn. Vì vậy, chúng tôi đã nghiên cứu cách thức tăng
(giảm) phần tử của lớp mất cân bằng dựa trên khái niệm đường biên và mức độ an toàn. Đồng thời
đề xuất một phương pháp mới vừa sinh các phần tử trên đường biên ở lớp thiểu số vừa loại bỏ các
phần tử an toàn ở lớp đa số một cách ngẫu nhiên.

2.2.

Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả

phân lớp dữ liệu mất cân bằng

2.2.1. Random Border Oversampling (RBO)
Trong bài toán phân lớp dữ liệu mất cân bằng, tất cả các thuật toán phân loại và các thuật
toán tiền xử lí dữ liệu đều cố gắng xác định được đường phân chia ranh giới giữa hai lớp càng
chính xác càng tốt. Đường phân chia danh giới đó được gọi là đường biên của hai lớp. Phần tử biên
(nằm trên hoặc gần đường biên) sẽ nằm gần với các phần tử lớp khác nhiều hơn so với những phần
tử nằm xa biên. Do vậy những phần tử này thường bị gán nhãn sai cao hơn với những phần tử xa
biên. Vì vậy, chúng có vai trò quan trọng trong việc quyết định hiệu quả phân lớp.
Cải tiến thuật toán Random Oversampling và sử dụng việc sinh ngẫu nhiên phần tử trên
đường biên, thuật toán Random Border Oversampling tìm ra các phần tử nằm ở biên của lớp thiểu
số, sau đó chỉ sinh thêm các phần tử nhân tạo giữa các phần tử biên đã tìm được. Việc sinh thêm
các phần tử nhân tạo giữa các phần tử biên làm tăng cường mật độ các phần tử trên đường biên lớp
thiểu số, từ đó làm tăng khả năng nhận dạng các phần tử lớp thiểu số.
Để xác định một phần tử có phải là phần tử biên hay không, thuật toán xác định dựa vào số
láng giềng là thuộc lớp đa số m trong tổng số k láng giềng gần nhất. Nếu có k/2 ≤ m < k thì phần
tử đó là phần tử biên. Ngược lại, nếu m < k/2 thì phần tử đó không phải phần tử biên [1, 3]. Khi đó,
thuật toán sẽ chọn ngẫu nhiên n phần tử biên thuộc lớp thiểu số vừa tìm được, sao chép các phần
tử đó thành những bản sao giống hệt nhau. Những phần tử mới được sinh thêm này giống hệt các
phần tử lớp thiểu số được chọn từ thuộc tính đến nhãn lớp. Thuật toán này có ưu điểm hơn thuật
toán Random Oversamping ở việc nhân bản có mục tiêu là những phần tử biên lớp thiểu số.
Thuật toán Random Border Oversampling:
Input: Bộ dữ liệu huấn luyện T trong đó có tập các phần tử lớp thiểu số D.
t: Tỉ lệ phần trăm số phần tử positive biên sinh thêm.
k: Số láng giềng gần nhất đối với một phần tử lớp đa số (k nguyên).
m: Số phần tử lớp đa số trên đường biên.
Output: Bộ dữ liệu huấn luyện T và tập các phần tử sinh ngẫu nhiên trên đường biên D’.
Các bước thực hiện của thuật toán như sau:
• D’ = Ø
• Tính k láng giềng gần nhất của p trong T

• Tính số láng giềng thuộc lớp đa số m
• if (k/2 ≤ m) and (m < k)
• Sinh thêm phần tử p biên đang xét theo tỉ lệ t
• return D’.

2.2.2. Random Safe Undersampling (RSU)

Phát triển từ thuật toán Random Undersampling kết hợp với khái niệm vùng an toàn, thuật
toán Random Safe Undersampling sẽ loại bỏ các phần tử an toàn ở lớp đa số một cách ngẫu
nhiên [5]. Thuật toán phân chia mỗi đối tượng xác định ở cấp độ an toàn trước khi loại bỏ các đối
105

Khúc Quỳnh Hương, Đào Thu Hiền, Nguyễn Thị Hồng và Đặng Xuân Thọ

tượng ngẫu nhiên. Như vậy, trong thuật toán đã áp dụng cả hai cách để loại bỏ phần tử, đó là lựa
chọn các phần tử an toàn để loại bỏ và loại bỏ các phần tử một cách ngẫu nhiên. Mức độ an toàn
được ước tính bởi việc sử dụng láng giềng gần nhất của các đối tượng đa số. Bằng cách tổng hợp
nhiều hơn các đối tượng đa số xung quanh cấp độ an toàn lớn hơn, chúng tôi đạt được một hiệu
suất chính xác hơn so với trước và so với thuật toán Random Undersampling.
Trong giải thuật Random Safe Undersampling, cấp độ an toàn Safe Level (SL) được định
nghĩa như trong công thức số (1) [6]. Nếu cấp độ an toàn Safe level của một đối tượng gần với số
0, đối tượng đó gần với phần tử nhiễu. Nếu nó gần với k, đối tượng đó được đặt trong vùng an toàn.
Mức độ an toàn của một phần tử negative được định nghĩa trong công thức số (2). Nó thường được
chọn vị trí an toàn để loại bỏ các phần tử ở lớp đa số.
Safe level (sl) = số láng giềng của lớp đa số trong k láng giềng gần nhất (1).
Safe level area (sl_area) = sl của đối tượng thuộc lớp đa số / k láng giềng gần nhất của
phần tử đang xét (2).
Giả sử n là một phần tử dữ liệu lớp đa số đang xét, thì sl_area là mức độ an toàn của phần
tử đó. Đối tượng lớp đa số có bị loại bỏ hay không phụ thuộc vào tỉ lệ sl_area. Nếu sl_area < 0.5,

nghĩa là xung quanh phần tử đa số đang xét không có nhiều phần tử cùng nhãn với nó, hoặc có
nhiều phần tử nhiễu. Nếu sl_area > 0.5, nghĩa là xung quanh phần tử đa số đang xét có nhiều phần
tử cùng nhãn với nó, phần tử đa số đang xét được coi là an toàn, ta loại bỏ ngẫu nhiên phần tử này.
Thuật toán Random Safe Undersampling:
Input: Bộ dữ liệu huấn luyện T trong đó có tập các phần tử lớp đa số C.
z: Số % negative an toàn bị loại bỏ ngẫu nhiên.
k: Số láng giềng gần nhất của phần tử negative (k nguyên).
Output: Bộ dữ liệu huấn luyện T và tập các phần tử ngẫu nhiên C’.
Các bước thực hiện của thuật toán:
• C’ = Ø
• Tính k láng giềng gần nhất của n trong T
• sl = số lượng các đối tượng negative trong k láng giềng gần nhất của n trong T
• sl_area = sl / k
• if (sl_area > 0.5) and (sl_area ≤ 1)
• Loại bỏ phần tử an toàn đang xét theo tỉ lệ z
• return C’.

2.2.3. Random Safe Undersampling và Random Border Oversampling (RSU_RBO)

Thuật toán mới này sẽ dựa trên đường biên và mức độ an toàn của các đối tượng để vừa sinh
thêm ngẫu nhiên các phần tử trên đường biên ở lớp thiểu số, vừa loại bỏ ngẫu nhiên các phần tử an
toàn ở lớp đa số. Kết hợp thuật toán Random Safe Undersampling và thuật toán Random Border
Oversampling ở trên ta có thuật toán như sau:
• D’ = Ø, C’ = Ø
• if class = “positive”
Thực hiện Thuật toán RBO
• if class = “negative”
Thực hiện Thuật toán RSU
• return D’ ∪ C’.
106

Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu...

2.3.

Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả
phân lớp dữ liệu mất cân bằng

2.3.1. Các tiêu chí đánh giá
Bảng 1. Ma trận nhầm lẫn cho vấn đề mất cân bằng hai lớp
Positive thực tế
Negative thực tế

Positive dự đoán
TP
FP

Negative dự đoán
FN
TN

Phân lớp được đánh giá tương đối bởi một ma trận nhầm lẫn như minh họa trong Bảng 1.
Các dòng của bảng là nhãn lớp thực tế của một đối tượng, và các cột của bảng là nhãn lớp dự đoán
của một đối tượng. Tiêu biểu, nhãn lớp của phân lớp thiểu số gọi là postive, và nhãn lớp của phân
lớp đa số gọi là negative. TP là số phần tử có nhãn lớp thực tế là Positive và cũng được mô hình
phân lớp dự đoán là Positive. FP là số phần tử có nhãn lớp thực tế là Negative nhưng được mô hình
phân lớp dự đoán là Positive. FN là số phần tử có nhãn lớp thực tế là Positive nhưng được mô hình
phân lớp dự đoán là Negative. TN là số phần tử có nhãn lớp thực tế là negative và cũng được mô
hình phân lớp dự đoán là Negative.

Một số độ đo được định nghĩa dựa trên ma trận nhầm lẫn [8]:
- Tỉ lệ phần tử Positive được phân loại đúng: TPrate = TP/(TP+FN)
- Tỉ lệ phần tử Negative được phân loại đúng: TN rate = TN/(TN+FP)
√
- Giá trị G-mean: T Prate ∗ T Nrate
Trong đó, G-mean là độ đo biểu diễn hiệu quả phân lớp của cả hai lớp thiểu số và lớp đa số.
Giá trị G-mean được xác định dựa vào hai giá trị TPrate và TNrate . Và trong phần thực nghiệm,
chúng tôi đã sử dụng độ đo G-mean để đánh giá hiệu quả phân lớp giữa các thuật toán [3].

2.3.2. Dữ liệu
Chúng tôi tiến hành thực nghiệm trên các bộ dữ liệu mất cân bằng của từ kho dữ liệu chuẩn
quốc tế UCI [10]. Bảng 2 là thông tin về một số bộ dữ liệu mà bài nghiên cứu khoa học sử dụng
trong quá trình thực nghiệm.
Tên dữ liệu
Yeast
Glass
Breast-p
Pima

Bảng 2. Dữ liệu chuẩn từ UCI

Số phần tử
1484
193
198
768

Số thuộc tính
4
9

32
8

Tỉ lệ mất cân bằng
1:29
1:6
1:3
1:2

Các bộ dữ liệu trong bảng trên đều là các bộ dữ liệu có sự mất cân bằng lớp. Dữ liệu được
gán nhãn hai lớp, lớp đa số được gán nhãn là Negative và thiểu số được gán nhãn là Positive. Trong
đó, bộ dữ liệu Yeast có tỉ lệ mất cân bằng rất lớn là 1:29, bộ dữ liệu Breast-p có tỉ lệ mất cân bằng
là 1:4, bộ dữ liệu Glass có tỉ lệ mất cân bằng là 1:6 và bộ dữ liệu Pima có tỉ lệ mất cân bằng là 1:2.

2.3.3. Kết quả thực nghiệm và đánh giá
Đối với thuật toán Random Oversampling, thuật toán Random Undersampling, thuật toán
Random Border Oversampling, thuật toán Random Safe Undersampling và thuật toán kết hợp
Random Border Oversampling - Random Safe Undersampling, chúng tôi thực hiện với tham số
107

Khúc Quỳnh Hương, Đào Thu Hiền, Nguyễn Thị Hồng và Đặng Xuân Thọ

sinh thêm phần tử npos lần lượt là 100%, 200%, 300%, 400%, 500%, . . . , 800% (với mỗi phần
tử được xét, ta sinh thêm tương ứng 1, 2, 3, 4, . . . , 8 phần tử ngẫu nhiên với các láng giềng của
nó) và tỉ lệ loại bỏ mneg là 50, 60,. . . tương ứng với số phần tử negative an toàn sẽ bị loại bỏ lần
lượt là 50%, 60%,. . . so với số phần tử negative an toàn ban đầu. Để thấy rõ hiệu quả thuật toán
mới, chúng tôi tiến hành so sánh kết quả dựa trên nhiều tiêu chí như: T Pr ate, T Nr ate, G-mean.
Và trong phần thực nghiệm, chúng tôi sử dụng độ đo G-mean để đánh giá hiệu quả phân lớp giữa
các thuật toán.

Sau khi cài đặt, thống kê kết quả, chúng tôi thực hiện đánh giá hiệu của các thuật toán trên
từng bộ dữ liệu như sau:

Hình 1. Biểu đồ so sánh G-mean của bộ dữ liệu Glass
Bộ dữ liệu Glass với số phần tử là 213, khi áp dụng thuật toán mới Random Safe
Undersampling kết hợp thuật toán Random Border Oversampling thì giá trị G-mean thu được là
86,79% cao hơn so với phương pháp sử dụng thuật toán Random Oversampling có giá trị G-mean
là 85,03%; phương pháp sử dụng thuật toán Random Undersampling có giá trị G-mean là 86,18%;
phương pháp sử dụng thuật toán Random Safe Oversampling có giá trị G-mean là 86,79%; phương
pháp sử dụng thuật toán Random Safe Undersampling có giá trị G-mean là 85,99% và phương pháp
chỉ chạy bộ dữ liệu gốc có giá trị G-mean là 85,06%.

Hình 2. Biểu đồ so sánh G-mean của bộ dữ liệu Yeast
Bộ dữ liệu Yeast với số phần tử là 1484, khi áp dụng thuật toán mới Random Safe
Undersampling kết hợp với Random Border Oversampling thì giá trị G-mean thu được là 74,86%
cao hơn so với phương pháp sử dụng thuật toán Random Oversampling có giá trị G-mean là
69,31%; phương pháp sử dụng thuật toán Random Undersampling có giá trị G-mean là 46,52%;
108

Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu...

phương pháp sử dụng thuật toán Random Safe Oversampling có giá trị G-mean là 30,69%; phương
pháp sử dụng thuật toán Random Safe Undersampling có giá trị G-mean là 41,00% và phương pháp
chỉ chạy bộ dữ liệu gốc có giá trị G-mean là 18,85%.

Hình 3. Biểu đồ so sánh G-mean của bộ dữ liệu Breast-p
Bộ dữ liệu Breast-p với số phần tử là 197, khi áp dụng thuật toán mới Random Safe
Undersampling kết hợp với thuật toán Random Border Oversampling thì giá trị G-mean thu được
là 66,42% cao hơn hẳn so với phương pháp sử dụng thuật toán Random Oversampling có giá trị

G-mean là 64,97%; phương pháp sử dụng thuật toán Random Undersampling có giá trị G-mean là
58,26%; phương pháp sử dụng thuật toán Random Safe Oversampling có giá trị G-mean là 36,26%;
phương pháp sử dụng thuật toán Random Safe Undersampling có giá trị G-mean là 57,20% và
phương pháp chỉ chạy bộ dữ liệu gốc có giá trị G-mean là 35,5%.

Hình 4. Biểu đồ so sánh G-mean của bộ dữ liệu Pima
Bộ dữ liệu Pima với số phần tử là 768, khi áp dụng thuật toán mới Random Safe
Undersampling kết hợp với Random Border Oversampling thì giá trị G-mean thu được là 75,45%
cao hơn so với phương pháp sử dụng thuật toán Random Oversampling có giá trị G-mean là
74,08%; phương pháp sử dụng thuật toán Random Undersampling có giá trị G-mean là 74,61%;
phương pháp sử dụng thuật toán Random Safe Oversampling có giá trị G-mean là 73,66%; phương
pháp sử dụng thuật toán Random Safe Undersampling có giá trị G-mean là 73,46% và phương pháp
chỉ chạy bộ dữ liệu gốc có giá trị G-mean là 69,21%.
Các biểu đồ trên so sánh hiệu quả phân lớp của các bộ dữ liệu bằng thuật toán SVM
(Support Vector Machine) trước và sau khi điều chỉnh dữ liệu bởi Random Oversampling,
109

Khúc Quỳnh Hương, Đào Thu Hiền, Nguyễn Thị Hồng và Đặng Xuân Thọ

Random Undersampling, Random Safe Oversampling, Random Safe Undersamplingvà Random
Safe Undersampling - Random Border Oversampling. Kết quả cho thấy, sau khi điều chỉnh bằng
thuật toán Random Safe Undersampling - Random Boder Oversampling, hiệu quả phân lớp có
tăng lên, điển hình là bộ dữ liệu Yeast và Breast-p tăng lên một cách đáng kể. Thuật toán Random
Safe Undersampling-Random Border Oversampling đã sinh thêm các phần tử positive biên thuộc
lớp thiểu số, đồng thời xóa các phần tử negative an toàn trong lớp đa số một cách ngẫu nhiên. Làm
như vậy, Random Safe Undersampling - Random Border Oversampling không những làm giảm số
phần tử lớp negative, mà còn làm tăng số phần tử positive một cách khoa học, tạo nên sự cân bằng
dữ liệu.

2.4.

Kết quả

Trong nghiên cứu này, chúng tôi đã trình bày tổng quan về thuật toán mới dựa trên đường
biên và vùng an toàn nhằm nâng cao hiệu quả phân lớp dữ liệu. Thông qua việc sinh ngẫu nhiên
phần tử trên đường biên ở lớp thiểu số và loại bỏ phần tử an toàn ở lớp đa số đã tạo ra khả năng
khai phá những cơ sở dữ liệu có kích thước lớn, nâng cao hiệu quả tính toán, làm giảm mức độ mất
cân bằng dữ liệu, đồng thời làm tăng độ chính xác của các kết quả phân lớp dữ liệu.
Bảng 3 thống kê số lượng phần tử an toàn thuộc lớp đa số và tỉ lệ số phần tử an toàn thuộc
lớp đa số so với số phần tử đa số của bộ dữ liệu.
Bảng 3. Thống kê số phần tử
Tên dữ liệu
Yeast
Glass
Breast-p
Pima

Tổng số
phần tử

Số
positive
(A)

Số
negative
(B)

Số

positive
biên (C)

1484
213
197
768

51
28
46
268

1433
185
151
500

33
2
40
114

Số
negative
an toàn
(D)
1419
184
138

421

Tỉ lệ
C/A (%)

Tỉ lệ
D/B (%)

64.7
7,1
87
42,5

99
99,5
91,4
84,2

Nhìn vào Bảng 3, ta dễ dàng nhận thấy trong 4 bộ dữ liệu, riêng bộ Glass có tỉ số positive
biên trên tổng số positive nhỏ (7,1%) tức là trong tổng số positive trên toàn bộ dữ liệu, số positive
biên rất nhỏ. Điều này cho thấy, thuật toán mới RSU_RBO cho hiệu quả phân lớp cao trên các bộ
dữ liệu có số positive biên lớn và có số lượng negative an toàn cao.

3.

Kết luận

Trên cơ sở nghiên cứu và các kết quả đạt được, chúng tôi nhận thấy có nhiều vấn đề cần
được tiếp tục nghiên cứu. Đồng thời, chúng tôi sẽ nghiên cứu kết hợp việc sinh thêm (loại bỏ) phần
tử ngẫu nhiên với các phương pháp khác như Safe level, Boderline-SMOTE, Add-Boder-SMOTE

hoặc phát triển thuật toán theo hướng ngược lại Random Safe Oversampling - Random Border
Undersampling để đạt được hiệu quả cao hơn trong việc giải quyết vấn đề mất cân bằng lớp.
TÀI LIỆU THAM KHẢO
[1] H. Han, W. Wang, and B. Mao, 2005. “Borderline-SMOTE: A New Over-Sampling Method
in,” ICIC, pp. 878–887.
[2] Xu-Ying Liu, Jianxin Wu, and Zhi-Hua Zhou, Senior Member, IEEE, 2006. Exploratory
Undersampling for Class- Imbalance Learning, 6th IEEE International Conference on Data
Mining (ICDM’06), 965-969.
110

Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu...

[3] Nguyễn Thị Hồng, Nguyễn Mạnh Cường, Đặng Xuân Thọ, 2014. “Add-border-SMOTE:
Phương pháp mới sinh thêm phần tử trong dữ liệu mất cân bằng”. Tạp chí Khoa học và Kĩ
thuật - Học viện KTQS - Số 164 (10-2014).
[4] Jiawei Han, Micheline Kamber and Jian Pei, 2012. Data Mining: concepts and techniques.
The Morgan Kaufmann Series of ELSEVIER.
[5] Chumphol Bunkhumpornpat, Krung Sinapiromsaran, and Chidchanok Lursinap, 2009.
“Safe-Level-Smote: Safe-Level-Synthetic Minority Over Samling Technique for Handling the
Class Imbalanced Problem”. PAKDD, pp. 475 – 482.
[6] Chawla, N., Japkowicz, N., Kolcz, 2004. “Special Issue on Learning from Imbalanced Data
Sets”. Sigkdd Exploration, Volume 6, Issue 1.
[7] X. Wu, V. Kumar, J. Ross Quinlan, J. Ghosh, Q. Yang, H. Motoda, G. J. McLachlan, A. Ng, B.
Liu, P. S. Yu, Z.-H. Zhou, M. Steinbach, D. J. Hand, and D. Steinberg 2007. “Top 10 algorithms
in data mining.” Knowl. Inf. Syst., Vol. 14, No. 1, pp. 1–37.
[8] Y. Sun, A. K. C. Wong, and M. S. Kamel, 2009. Classification of imbalanced data: A review.
Int. J. Pattern Recognit, Artificial Intell, Vol 23, No. 4, pp.687-719.
[9] E. a. Garcia, “Learning from Imbalanced Data,” IEEE Trans. Knowl. Data Eng., Vol. 21, No.
9, pp. 1263–1284, Sep. 2009.

[10] A.&Newman, 2007. D.J: UCI Machine Learning Repository. Irvine, CA: University of
California, School of Information and Computer Science.
ABSTRACT
The new method based on safe zone improves the efficiency of imbalanced data classification
Classifying imbalanced data is important and is being looked at by many researchers. In
particular, in medical diagnostics, the number of infected people is very small compared to the
total population which makes it difficult to detect disease and may lead to large deviations with
serious consequences to human beings. Therefore, efficiency of classification of imbalanced data
requires high accuracy level. Preprocessing data brings good results. This article will introduce
several ways to deal with imbalanced data classification such as Random Oversampling and
Random Undersampling. We propose a new method based on the concept of a borderline and
safe area to enhance the classification efficiency. A new algorithm combines the two algorithms
Random Boder Oversampling and Random Safe Undersampling, which means adding more
elements in the minority class boundary while randomly reducing safe elements in the majority
class. We have installed the algorithm and experimented on international standard UCI datasets:
Yeast, Breast-p, Glass và Pima. For example, Yeast data classification results in 18.85 percent
of G-mean index but the index increases significantly when applying Random Oversampling,
Random Undersampling, Random Safe Oversampling, Random Safe Undersampling or Random
Safe Undersampling - Random Border Oversampling, which are 69.31%; 46.52%; 30.69%,
41.00% and 74.86% respectively. The experimental results reflect the improved efficiency of
imbalanced data classification when our new method is applied.
Keywords: Classification, imbalanced data, Random Oversampling, Random
Undersampling, Random Border Oversampling, Random Safe Oversampling.

111

Phương pháp mới dựa trên đường biên và vùng an toàn nâng cao hiệu quả phân lớp dữ liệu mất cân bằng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về