Tải bản đầy đủ (.pdf) (82 trang)

ỨNG DỤNG PHƯƠNG PHÁP PHÂN lớp dữ LIỆU KHÔNG cân BẰNG dựa TRÊN TÍNH TOÁN hạt TRONG VIỆC dự đoán kết QUẢ THI TUYỂN SINH lớp 10 vào TRƯỜNG THPT CHUYÊN LONG AN (1)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (9.08 MB, 82 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TRƢƠNG THỊ TUYẾT HOA

ỨNG DỤNG PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG
DỰA TRÊN TÍNH TOÁN HẠT TRONG VIỆC DỰ ĐOÁN KẾT QUẢ THI
TUYỂN SINH LỚP 10 VÀO TRƢỜNG THPT CHUYÊN LONG AN

KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01

TP HỒ CHÍ MINH – Năm 2015


ĐẠI HỌC QUỐC GIA TP HCM

TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TRƢƠNG THỊ TUYẾT HOA

ỨNG DỤNG PHƢƠNG PHÁP PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG
DỰA TRÊN TÍNH TOÁN HẠT TRONG VIỆC DỰ ĐOÁN KẾT QUẢ THI
TUYỂN SINH LỚP 10 VÀO TRƢỜNG THPT CHUYÊN LONG AN

KHÓA LUẬN CAO HỌC NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 60.48.01

NGƢỜI HƢỚNG DẪN KHOA HỌC:
TS. NGUYỄN HOÀNG TÚ ANH


TP HỒ CHÍ MINH – Năm 2015


LỜI CAM ĐOAN

Tôi xin cam đoan:
(1)

Khóa luận này là sản phẩm nghiên cứu của riêng tôi;

(2)

Các số liệu, kết quả đƣợc trình bày trong khóa luận là trung thực;

(3)

Tôi xin chịu trách nhiệm về nghiên cứu của mình.
Học viên
Trƣơng Thị Tuyết Hoa


MỤC LỤC
DANH MỤC CÁC CHỮ VIẾT TẮT .................................................................................... 4
DANH MỤC CÁC BẢNG .................................................................................................... 5
DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ .......................................................................... 7
LỜI MỞ ĐẦU ........................................................................................................................ 8
CHƢƠNG 1 TỔNG QUAN VỀ KHÓA LUẬN ................................................................... 9
1. 1.

Giới thiệu ............................................................................................................. 9


1. 2.

Phát biểu bài toán ................................................................................................ 9

1. 3.

Các thách thức ................................................................................................... 10

1. 4.

Mục tiêu, đối tƣợng và phạm vi nghiên cứu ...................................................... 10

1. 4. 1.

Mục tiêu ..................................................................................................... 10

1. 4. 2.

Đối tƣợng ................................................................................................... 11

1. 4. 3.

Phạm vi....................................................................................................... 11

1. 5.

Các đóng góp từ kết quả nghiên cứu của khóa luận .......................................... 11

1. 6.


Bố cục của khóa luận ......................................................................................... 12

CHƢƠNG 2 TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG ............... 14
2. 1.

Giới thiệu ........................................................................................................... 14

2. 2.

Các hƣớng tiếp cận giải quyết bài toán phân lớp dữ liệu không cân bằng ........ 14

2. 2. 1.

Các kỹ thuật lấy mẫu (sampling methods) [5] ........................................... 14

2. 2. 2.

Học toàn bộ (ensemble learning methods) ................................................. 15

2. 2. 3.

Học nhạy chi phí ........................................................................................ 17

2. 2. 4.

Lựa chọn đặc trƣng [5] ............................................................................... 18

2. 2. 5.


Phƣơng pháp chỉnh sửa thuật toán: ............................................................ 18

2. 3.

Phƣơng pháp dựa trên tính toán hạt ................................................................... 19

CHƢƠNG 3 CƠ SỞ LÝ THUYẾT ..................................................................................... 21
3. 1.

Các lý thuyết liên quan trong phƣơng pháp dựa trên tính toán hạt ................... 21

1


3. 1. 1.

Chuẩn hoá dữ liệu số .................................................................................. 21

3. 1. 2.

Rời rạc dữ liệu ............................................................................................ 21

3. 1. 3.

Hạt thông tin ............................................................................................... 22

3. 1. 4.

Tính toán hạt .............................................................................................. 22


3. 1. 5.

Thuật toán gom cụm K-means trên tập dữ liệu hỗn hợp ............................ 23

3. 1. 6.

Phân lớp dữ liệu (thu nhận tri thức) ........................................................... 28

3. 1. 7.

Đánh chỉ số ngữ nghĩa tiềm ẩn ................................................................... 30

3. 2.

Các mô hình xử lí với dữ liệu không cân bằng dựa trên tính toán hạt .............. 32

3. 2. 1.

Mô hình thu nhận tri thức dựa trên tính toán hạt KAIG của Su và các đồng

sự [10]

.................................................................................................................... 32

3. 2. 2.

Mô hình phân lớp dữ liệu không cân bằng dựa trên tính toán hạt tổng quát

của Chen và các đồng sự.............................................................................................. 39
3. 2. 3.


Phƣơng pháp phân lớp dựa trên tính toán hạt của Lại Đức Anh [1] .......... 45

CHƢƠNG 4 MÔ HÌNH PHÂN LỚP DỰA TRÊN TÍNH TOÁN HẠT KHÓA LUẬN CÀI
ĐẶT ..................................................................................................................................... 50
4. 1.

Giới thiệu ........................................................................................................... 50

4. 2.

Xây dựng các hạt thông tin theo từng lớp tách biệt ........................................... 50

4. 3.

Biểu diễn hạt thông tin dƣới dạng các thuộc tính con ....................................... 51

4. 4.

Thực hiện phân lớp dữ liệu (thu thập tri thức) .................................................. 52

4. 5.

Thuật toán do khóa luận đề xuất........................................................................ 52

4. 6.

Ví dụ minh họa .................................................................................................. 52

4. 7.


Nhận xét............................................................................................................. 64

CHƢƠNG 5 CÀI ĐẶT ỨNG DỤNG.................................................................................. 66
5. 1.

Tổ chức dữ liệu .................................................................................................. 66

5. 2.

Các tập dữ liệu ................................................................................................... 66

5. 3.

Các độ đo đánh giá ............................................................................................ 67

5. 4.

Các phƣơng pháp thực nghiệm .......................................................................... 68
2


5. 4. 1.

Môi trƣờng cài đặt ...................................................................................... 68

5. 4. 2.

Các phƣơng pháp cài đặt ............................................................................ 68


5. 5.

Các kết quả thực nghiệm ................................................................................... 69

5. 5. 1.

Độ chính xác .............................................................................................. 71

5. 5. 2.

Thời gian tính toán ..................................................................................... 73

5. 6.

Chƣơng trình dự đoán kết quả tuyển sinh lớp 10 vào trƣờng THPT Chuyên

Long An ........................................................................................................................... 74
5. 6. 1.

Giao diện chƣơng trình .............................................................................. 74

5. 6. 2.

Các chức năng của chƣơng trình ................................................................ 74

CHƢƠNG 6 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN...................................................... 76
6. 1.

Kết quả đạt đƣợc ................................................................................................ 76


6. 2.

Hƣớng phát triển ................................................................................................ 76

TÀI LIỆU THAM KHẢO ................................................................................................... 78

3


DANH MỤC CÁC CHỮ VIẾT TẮT
Ký hiệu
GrC
IG
KLSI
KK-Means
LSI
SVD
SVM
THCS

Diễn giải
Tính toán hạt (Granular Computing)
Hạt thông tin (information granule)
Tham số K dùng trong LSI
Tham số K dùng trong thuật toán K-Means
Đánh chỉ số ngữ nghĩa tiềm ẩn (Latent Semantic
Indexing)
Phân tích giá trị riêng (Singular value decomposition)
Máy hỗ trợ vector (Support Vector Machine)
Trung học cơ sở


4


DANH MỤC CÁC BẢNG
Bảng 3. 1. Tập dữ liệu tuyển sinh. ....................................................................................... 25
Bảng 3. 2. Tập dữ liệu tuyển sinh sau khi đƣợc rời rạc. ...................................................... 25
Bảng 3. 3.Bảng xác suất có điều kiện .................................................................................. 25
Bảng 3. 4. Ví dụ của hạt thông tin. ...................................................................................... 34
Bảng 3. 5.Hạt thông tin không thể phân biệt. ...................................................................... 34
Bảng 3. 6. Hai IG đƣợc biểu diễn dƣới hình thức hyperbox [10]. ....................................... 35
Bảng 3. 7. Các IG đƣợc biểu diễn dƣới dạng các thuộc tính con [10]................................ 36
Bảng 3. 8. Kết quả thực nghiệm của mô hình KAIG [10]. .................................................. 38
Bảng 3. 9. Kết quả thực nghiệm của Chen và các đồng sự [6]. ........................................... 44
Bảng 3. 10. Biểu diễn IG đƣới dạng thuộc tính con cho dữ liệu số [1]. .............................. 46
Bảng 3. 11. Biểu diễn IG dƣới dạng thuộc tính con cho dữ liệu định danh [1]. .................. 47
Bảng 3. 12. Kết quả thực nghiệm của Lại Đức Anh [1]. ..................................................... 48
Bảng 4. 1. Rời rạc các giá trị điểm số thành 10 khoảng. ..................................................... 51
Bảng 4. 2. Tập dữ liệu ban đầu. ........................................................................................... 53
Bảng 4. 3. Tập dữ liệu huấn luyện. ...................................................................................... 53
Bảng 4. 4. Tập dữ liệu dùng để kiểm nghiệm. ..................................................................... 54
Bảng 4. 5. Dữ liệu (số) đƣợc rời rạc hoá với 10 khoảng bằng nhau. ................................... 54
Bảng 4. 6. Các IG đƣợc xây dựng lần 1. .............................................................................. 55
Bảng 4. 7. Biểu diễn các IG đƣợc xây dựng lần 1 dƣới dạng các thuộc tính con đối với hai
thuộc tính điểm Toán và điểm Lý. ....................................................................................... 55
Bảng 4. 8. Biểu diễn các IG đƣợc xây dựng lần 1 dƣới dạng các thuộc tính con đối với hai
thuộc tính điểm Hóa và điểm Sinh....................................................................................... 55
Bảng 4. 9. Biểu diễn các IG đƣợc xây dựng lần 1 dƣới dạng các thuộc tính con đối với hai
thuộc tính điểm Văn và điểm Sử. ........................................................................................ 56
Bảng 4. 10. Biểu diễn các IG đƣợc xây dựng lần 1 dƣới dạng các thuộc tính con đối với hai

thuộc tính điểm Địa và điểm Anh văn. ................................................................................ 56
Bảng 4. 11. Biểu diễn các IG đƣợc xây dựng lần 1 dƣới dạng các thuộc tính con đối với hai
thuộc tính Giới tính và nơi học THCS. ................................................................................ 56
Bảng 4. 12. Kết quả phân lớp cho các mẫu tập thử nghiệm lần 1. ...................................... 58
Bảng 4. 13. Kết quả phân lớp cho các mẫu tập thử nghiệm lần 2. ...................................... 59

5


Bảng 4. 14. Các IG đƣợc xây dựng lần 2. ............................................................................ 59
Bảng 4. 15. Biểu diễn các IG đƣợc xây dựng lần 2 dƣới dạng các thuộc tính con đối với
thuộc tính điểm Toán và điểm Lý. ....................................................................................... 60
Bảng 4. 16. Biểu diễn các IG đƣợc xây dựng lần 2 dƣới dạng các thuộc tính con đối với
thuộc tính điểm Hóa và điểm Sinh....................................................................................... 60
Bảng 4. 17. Biểu diễn các IG đƣợc xây dựng lần 2 dƣới dạng các thuộc tính con đối với
thuộc tính điểm Văn và điểm Sử. ........................................................................................ 60
Bảng 4. 18. Biểu diễn các IG đƣợc xây dựng lần 2 dƣới dạng các thuộc tính con đối với
thuộc tính điểm Địa và điểm Anh văn. ................................................................................ 60
Bảng 4. 19. Biểu diễn các IG đƣợc xây dựng lần 2 dƣới dạng các thuộc tính con đối với
thuộc tính Giới tính và nơi học THCS. ................................................................................ 61
Bảng 4. 20. Kết quả phân lớp cho các mẫu tập thử nghiệm lần 3. ...................................... 63
Bảng 4. 21. Kết quả phân lớp cho các mẫu tập thử nghiệm lần 4. ...................................... 64
Bảng 4. 22. Kết quả phân lớp cho các mẫu tập thử nghiệm lần 5. ...................................... 64

Bảng 5. 1. Chi tiết các tập dữ liệu. ....................................................................................... 66
Bảng 5. 2. Sự khác nhau giữa 5 phƣơng pháp. .................................................................... 69
Bảng 5. 3. Ngƣỡng H-index, U-ratio để xây dựng các IG và các tham số thiết đặt cho mạng
neural ứng với từng tập dữ liệu. ........................................................................................... 70
Bảng 5. 4. Tham số của bộ phân lớp SVM và số lƣợng IG ở mỗi lớp tƣơng ứng với từng
tập dữ liệu. ........................................................................................................................... 70

Bảng 5. 5. Độ chính xác của các tập dữ liệu. ....................................................................... 71
Bảng 5. 6. Thời gian tính toán trung bình của 5 phƣơng pháp trên các tập dữ liệu............. 73

6


DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ
Hình 3. 1.Minh họa phân tích giá trị riêng của ma trận A [6], [7]. ...................................... 32
Hình 3. 2. Mô hình thu nhận tri thức dựa trên tính toán hạt KAIG [10]. ............................ 33
Hình 3. 3.Tình huống chồng chéo giữa hai IG A và B [9]. ................................................. 36
Hình 3. 4. Ba bƣớc của quá trình thu nhận tri thức từ các hạt thông tin [6]. ....................... 39
Hình 3. 5.Mô tả IG: Khái niệm “thuộc tính con” dùng cho thuộc tính số Xi [6]. ................ 40
Hình 3. 6. Cấu trúc mạng neural truyền thẳng [6]. .............................................................. 40
Hình 3. 7.Sơ đồ thuật toán của Chen và các đồng sự [6]. .................................................... 42
Hình 3. 8. Mô tả IG dƣới dạng thuộc tính con, (a) dùng cho thuộc tính số Xi đã đƣợc rời
rạc (10 giá trị rời rạc), (b) dùng cho thuộc tính định danh Xj (8 giá trị rời rạc) [1]. ........... 46
Hình 5. 1. Sự phân bố các mẫu thuộc lớp Đậu và lớp Không đậu tƣơng ứng từng tập dữ
liệu. ...................................................................................................................................... 67
Hình 5. 2. Biểu đồ độ chính xác của tập dữ liệu môn Hóa. ................................................. 71
Hình 5. 3. Biểu đồ độ chính xác của tập dữ liệu môn Tiếng Anh. ...................................... 72
Hình 5. 4. Biểu đồ độ chính xác của tập dữ liệu môn Toán................................................. 72
Hình 5. 5. Thời gian tính toán trung bình của năm phƣơng pháp với các tập dữ liệu. ........ 73
Hình 5. 6. Giao diện chƣơng trình. ...................................................................................... 74
Hình 5. 7. Kết quả dự đoán dựa vào thông tin nhập vào từ giao diện chƣơng trình. ........... 75
Hình 5. 8. Kết quả dự đoán dựa vào thông tin nhập vào từ file. .......................................... 75

7


LỜI MỞ ĐẦU

Hiện nay, các thành tựu của tin học đƣợc áp dụng ở hầu hết các lĩnh vực của
xã hội và đem lại nhiều hiệu quả to lớn. Mục tiêu của tin học là khai thác thông tin
hiệu quả nhất phục vụ cho mọi mặt hoạt động của con ngƣời. Trong các tập dữ liệu,
ngoài những thông tin rõ ràng, cũng tiềm tàng những thông tin có giá trị ẩn bên
trong. Một số tập dữ liệu có tỉ lệ phân bố các mẫu ở các lớp chênh lệnh, đôi khi
chênh lệch này rất lớn. Trên thực tế, các tập dữ liệu không cân bằng nhƣ vậy rất phổ
biến nhƣ việc chuẩn đoán bệnh, rủi ro tài chính, trong đó, lớp thiểu số thƣờng là lớp
quan trọng. Thế nên, nhiều nhà khoa học đã nghiên cứu, cải tiến các phƣơng pháp
đã có hoặc đề xuất phƣơng pháp mới để xử lý những tập dữ liệu không cân bằng với
độ chính xác cao và rút ngắn thời gian thực thi giúp giải quyết đƣợc nhiều vấn đề
thực tế. Năm 1979, Zadeh đã đề xuất thuật ngữ “chia nhỏ thông tin”, đặt nền tảng
cho sự ra đời của phƣơng pháp phân lớp dữ liệu dựa trên tính toán hạt. Cho đến nay,
khai phá dữ liệu dựa trên tính toán hạt ngày càng đƣợc nghiên cứu, phát triển và đạt
đƣợc những thành tựu đáng kể trong các lĩnh vực nhƣ ứng dụng tính toán hạt vào dự
đoán lỗi hệ thống truyền lực của máy bay trực thăng [11], dự đoán thị trƣờng chứng
khoán [12], Su và các đồng sự áp dụng vào quá trình kiểm tra sản phẩm điện thoại
di động khi thực hiện sản xuất đạt đƣợc những kết quả khả quan [9]. Do đó, mục
tiêu của khóa luận là nghiên cứu mô hình tính toán hạt, ứng dụng phƣơng pháp phân
lớp dữ liệu không cân bằng dựa trên tính toán hạt trong việc đoán kết quả thi tuyển
sinh lớp 10 vào trƣờng THPT Chuyên Long An.

8


Chƣơng 1. Tổng quan về khóa luận

CHƢƠNG 1
TỔNG QUAN VỀ KHÓA LUẬN
1. 1. Giới thiệu
Trƣờng THPT Chuyên Long An đƣợc thành lập năm 2009. Từ ngày thành lập

đến nay, trƣờng không ngừng phát triển và trở thành một trong những trƣờng trọng
điểm của tỉnh Long An. Năm học 2013- 2014, trƣờng có điểm thi đại học với mức
trung bình là 21,5 xếp hạng thứ 10 toàn quốc. Do đó, kỳ thi tuyển sinh vào lớp 10
hằng năm của trƣờng đƣợc rất nhiều phụ huynh, học sinh quan tâm. Đặc biệt là giáo
viên chủ nhiệm lớp 9 ở các trƣờng trung học cơ sở trong tỉnh, ngoài việc đôn đốc,
kèm cặp học sinh ôn thi còn phải theo sát lớp để nắm bắt tâm tƣ nguyện vọng của
các em nhằm phục vụ cho quá trình tƣ vấn tuyển sinh vào lớp 10. Học sinh vừa phải
chịu áp lực của việc ôn tập kiến thức còn đối mặt với vấn đề chọn lớp học phù hợp
với năng lực, sở thích đồng thời phải đạt đƣợc kết quả tốt trong kỳ thi quan trọng
này. Bộ phận phụ trách công tác tuyển sinh của trƣờng THPT Chuyên Long An
phối hợp với phụ huynh tƣ vấn, định hƣớng chọn lớp học cho học sinh để các em
hiểu biết và chọn đúng nguyện vọng khi tham gia tuyển sinh, tránh tình trạng chọn
nhằm lớp do ảo tƣởng về năng lực, giúp học sinh ổn định về mặt tâm lý, chuẩn bị
tâm thế sẵn sàng bƣớc vào kì thi, góp phần nâng cao chất lƣợng của kì tuyển sinh.
Từ đó cho thấy, giáo viên, phụ huynh, học sinh cần có công cụ mang tính khoa học
để làm cơ sở tham khảo trong việc định hƣớng lựa chọn lớp học phù hợp với năng
lực học tập của học sinh.
Xuất phát từ nhu cầu thực tế này, khóa luận xây dựng ứng dụng dự đoán kết quả
tuyển sinh vào lớp 10 trƣờng THPT Chuyên Long An, nhằm góp thêm một giải
pháp giúp học sinh chọn đúng lớp học theo năng lực, giảm bớt áp lực thi cử, đồng
thời hỗ trợ công tác tuyển sinh của trƣờng.

1. 2. Phát biểu bài toán
Xây dựng ứng dụng dự đoán kết quả tuyển sinh lớp 10 vào trƣờng THPT
Chuyên Long An.

9


Chƣơng 1. Tổng quan về khóa luận


Đầu vào của bài toán (input): Thông tin của học sinh gồm giới tính, nơi học sinh
học trung học cơ sở (huyện/thành phố), môn chuyên đăng ký thi, điểm Toán, điểm
Lý, điểm Hoá, điểm Sinh, điểm Văn, điểm Sử, điểm Địa, điểm Anh Văn ở năm học
lớp 9.
Đầu ra của bài toán (output): Kết quả thi của học sinh : Đậu hoặc Không đậu
(tƣơng ứng với giá trị rời rạc 1 hoặc 2).

1. 3. Các thách thức
 Tập dữ liệu của trƣờng THPT Chuyên Long An với các mẫu có thuộc tính
quyết định mang giá trị Đậu chiếm tỉ lệ phân bố thấp so với các mẫu có thuộc
tính quyết định mang giá trị Không đậu, điều này khiến cho các bộ phân lớp có
xu hƣớng phân lớp tất cả dữ liệu vào lớp đa số, đƣa ra độ chính xác đự đoán cao
cho lớp đa số nhƣng lại đƣa ra độ chính xác dự đoán thấp cho lớp thiểu số.
 Số lƣợng dữ liệu mẫu không nhiều ở môn Hoá, môn Tiếng Anh dẫn đến
thiếu thông tin để tổng quát hóa về phân bố của các mẫu.
 Các miền dữ liệu của một số thuộc tính ở lớp Đậu và lớp Không đậu tƣơng tự
nhau, gây khó khăn cho việc phân biệt giữa hai lớp.
 Khi thay đổi tập dữ liệu huấn luyện và tập dữ liệu thử nghiệm có thể làm sai
lệch kết quả phân lớp trong trƣờng hợp dữ liệu huấn luyện và thử nghiệm có
phân bố khác nhau.

1. 4. Mục tiêu, đối tƣợng và phạm vi nghiên cứu
1. 4. 1.

Mục tiêu

Nghiên cứu mô hình tính toán hạt giải quyết bài toán phân lớp dữ liệu không cân
bằng.
Nghiên cứu các lý thuyết cơ bản liên quan đến mô hình tính toán hạt: Thuật toán

K-means cho dữ liệu hỗn hợp, kỹ thuật rút trích đặc trƣng LSI, các vấn đề tiền xử lý
dữ liệu, mạng neural, bộ phân lớp SVM....
Xây dựng ứng dụng dự đoán kết quả thi tuyển sinh lớp 10 vào trƣờng THPT
Chuyên Long An

10


Chƣơng 1. Tổng quan về khóa luận

1. 4. 2.

Đối tƣợng

Dữ liệu bao gồm: thông tin cá nhân, lớp chuyên đăng ký học và kết quả học tập
năm học lớp 9 của mỗi học sinh
Lý thuyết: Mô hình tính toán hạt, thuật toán K-means cho dữ liệu hỗn hợp, kỹ
thuật rút trích đặc trƣng LSI, các vấn đề tiền xử lý dữ liệu, mạng neural, ...
Đối tƣợng phục vụ của sản phẩm ứng dụng: Cung cấp cho nhà trƣờng, phụ
huynh và học sinh công cụ tƣ vấn lựa chọn lớp chuyên phù hợp với năng lực học
tập của học sinh.
1. 4. 3.

Phạm vi

Phạm vi nghiên cứu của khoá luận là mô hình tính toán hạt giải quyết bài toán
phân lớp dữ liệu không cân bằng của Lại Đức Anh, Su, Chen và các đồng sự và các
lý thuyết cơ bản liên quan đến các mô hình này.
Dữ liệu tại trƣờng THPT Chuyên Long An.


1. 5. Các đóng góp từ kết quả nghiên cứu của khóa luận
Đối với giáo dục, khóa luận đã góp một công cụ mang tính khoa học để làm cơ
sở tham khảo trong việc định hƣớng lựa chọn lớp học phù hợp với năng lực học tập
của học sinh, thúc đẩy nhu cầu ứng dụng công nghệ thông tin vào các hoạt động của
trƣờng học.
Bên cạnh việc nghiên cứu xây dựng ứng dụng đáp ứng nhu cầu thực tiễn, khóa
luận có những đóng góp đề xuất mới về mặt kỹ thuật so với các phƣơng pháp trƣớc:
 Su và các đồng sự đã áp dụng tính toán hạt vào quá trình kiểm tra sản phẩm điện
thoại di động [9], và đã đề xuất mô hình thu đƣợc tri thức qua việc chia nhỏ thông
tin (KAIG) [10] giải quyết một cách hiệu quả các vấn đề phân lớp dữ liệu không
cân bằng. Chen và các đồng sự [6] đề xuất mô hình tổng quát giải quyết vấn đề
phân lớp dữ liệu không cân bằng gồm ba bƣớc: xây dựng IG (Information Granule),
biểu diễn IG và thu nhận tri thức từ các IG. Ba phƣơng pháp gồm cây quyết định,
tập thô và mạng neural với thuật toán lan truyền ngƣợc đƣợc áp dụng để chọn các
đặc trƣng và rút trích tri thức từ các IG cho mục tiêu phân lớp [6], [9], [10]. Khóa
luận bổ sung thêm phƣơng pháp sử dụng bộ phân lớp SVM cho mục tiêu phân lớp

11


Chƣơng 1. Tổng quan về khóa luận

và so sánh hiệu quả phân lớp với phƣơng pháp sử dụng mạng neural trên bộ dữ liệu
thực tế.
 Lại Đức Anh đƣa ra kỹ thuật rời rạc với các khoảng bằng nhau cho việc rời rạc
các giá trị liên tục, chỉ xét sự xuất hiện của các giá trị định danh (bao gồm cả các giá
trị số đã đƣợc rời rạc trong mỗi IG) khi biểu diễn các IG dƣới dạng các thuộc tính
con để giảm thời gian tính toán [1]. Tuy nhiên, phƣơng pháp này cũng có nhƣợc
điểm là giá trị nhỏ nhất và giá trị lớn nhất của từng thuộc tính ứng với từng IG sẽ
đƣợc rời rạc một cách cố định thành các giá trị lớn hơn hoặc nhỏ hơn gây ảnh

hƣởng rất lớn trong việc huấn luyện và kiểm thử về sau. Do đó, dựa trên bộ dữ liệu
thực tế, khóa luận đƣa ra cách rời rạc các giá trị liên tục mà không phải chuẩn hóa
dữ liệu trƣớc, điều này làm giảm số lƣợng phép tính đồng thời khắc phục đƣợc
nhƣợc điểm đã nêu trên.
 Khóa luận cũng tiến hành cài đặt và so sánh hiệu quả giải quyết bài toán của
phƣơng pháp do khóa luận đề xuất với phƣơng pháp của Chen và các đồng sự,
phƣơng pháp của Lại Đức Anh, phƣơng pháp Oversampling dữ liệu, phƣơng pháp
của Chen và các đồng sự, trong đó thay thế việc sử dụng mạng neural bằng việc sử
dụng bộ phân lớp SVM để phân lớp.

1. 6. Bố cục của khóa luận
Khóa luận đƣợc trình bày theo bố cục sau:
Chƣơng 1: Giới thiệu tổng quan về khóa luận bao gồm lý do chọn đề tài, phát
biểu bài toán và các thách thức bài toán đặt ra. Trình bày mục tiêu, đối tƣợng, phạm
vi nghiên cứu và các đóng góp từ kết quả nghiên cứu của đề tài.
Chƣơng 2: Giới thiệu tổng quan về phân lớp dữ liệu không cân bằng, trình bày
các hƣớng tiếp cận giải quyết bài toán phân lớp dữ liệu không cân bằng.
Chƣơng 3: Trình bày cơ sở lý thuyết của khóa luận liên quan trong phƣơng pháp
dựa trên tính toán hạt và các mô hình xử lí dữ liệu không cân bằng dựa trên tính
toán hạt.
Chƣơng 4: Đề xuất mô hình phân lớp dựa trên tính toán hạt khóa luận cài đặt.

12


Chƣơng 1. Tổng quan về khóa luận

Chƣơng 5: Xây dựng ứng dụng là chƣơng trình dự đoán kết quả tuyển sinh lớp
10 vào trƣờng THPT Chuyên Long An, tiến hành thực nghiệm, so sánh và đánh giá
kết quả mới với các phƣơng pháp cũ trên các mẫu dữ liệu cụ thể.

Chƣơng 6: Tổng kết những kết quả đạt đƣợc, những đóng góp mới và đề xuất
hƣớng phát triển của đề tài trong tƣơng lai.

13


Chƣơng 2. Tổng quan về phân lớp dữ liệu không cân bằng

CHƢƠNG 2
TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU KHÔNG CÂN BẰNG
2. 1. Giới thiệu
Phân lớp dữ liệu không cân bằng là một trong 10 vấn đề khó đang đƣợc cộng
đồng máy học và khai thác dữ liệu quan tâm. Vấn đề không cân bằng lớp thƣờng
xảy ra với bài toán phân lớp nhị phân (chỉ có 2 lớp) mà ở đó một lớp mà ngƣời ta
quan tâm chiếm tỉ lệ rất nhỏ so với lớp còn lại. Trong nhiều ứng dụng thực tế, chẳng
hạn nhƣ phát hiện các giao dịch gian lận, phát hiện xâm nhập mạng, sự rủi ro trong
quản lý, phân loại văn bản hay chẩn đoán trong y học. Sự không cân bằng lớp làm
ảnh hƣởng rất lớn đến hiệu quả của các mô hình phân loại. Ví dụ, trong cơ sở dữ
liệu y học, khi phân loại các pixels trong các ảnh phim chụp tia X có bị ung thƣ hay
không, những pixels không bình thƣờng (ung thƣ) chỉ chiếm một phần rất nhỏ trong
toàn bộ ảnh. Với các tập dữ liệu của các bài toán phân lớp nhƣ vậy sẽ làm cho các
mô hình học phân lớp gặp rất nhiều khó khăn trong dự báo cho dữ liệu lớp thiểu số.
Hầu hết giải thuật học nhƣ cây quyết định C4.5, CART, SVM đều đƣợc thiết kế để
cho độ chính xác tổng thể, không quan tâm đến bất kỳ lớp nào. Chính vì lý do này,
cộng đồng máy học cũng đã tập trung để giải quyết vấn đề phân lớp dữ liệu không
cân bằng, thể hiện qua các công trình nghiên cứu đƣợc công bố ở các cuộc hội thảo
khoa học.

2. 2. Các hƣớng tiếp cận giải quyết bài toán phân lớp dữ liệu không cân
bằng

Theo [5], các tiếp cận giải quyết bài toán phân lớp dữ liệu không cân bằng đƣợc
chia làm các nhóm: Các kỹ thuật lấy mẫu, phƣơng pháp học toàn bộ, phƣơng pháp
học nhạy chi phí, phƣơng pháp lựa chọn đặc trƣng và phƣơng pháp chỉnh sửa thuật
toán.
2. 2. 1.

Các kỹ thuật lấy mẫu (sampling methods) [5]

Phƣơng pháp lấy mẫu cơ bản: Hai phƣơng pháp đƣợc sử dụng phổ biến là
undersampling và oversampling.

14


Chƣơng 2. Tổng quan về phân lớp dữ liệu không cân bằng

Undersampling: Phƣơng pháp này cân bằng sự phân bố mẫu ở các lớp bằng

-

cách loại bỏ các mẫu ở lớp đa số.
Oversampling: Phƣơng pháp này làm tăng tỷ lệ của lớp thiểu số bằng cách tạo

-

ra các mẫu trùng lắp ở lớp thiểu số
Các phƣơng pháp lấy mẫu nâng cao:
-

Phƣơng pháp Tomek Link (viết tắt là Tlink): Thuật toán TLink nhƣ sau:

o Lấy hai mẫu x, y ở hai lớp khác nhau
o Khoảng cách giữa hai mẫu này kí hiệu là d(x,y)
o Cặp (x,y) đƣợc gọi là Tlink nếu không tồn tại mẫu z sao cho
d(x,z)Trong undersampling dữ liệu, nếu hai mẫu là Tlink thì mẫu ở lớp đa số sẽ
bị loại bỏ.

-

Phƣơng pháp SMOTE (Synthetic Minority Oversampling Technique):

SMOTE là phƣơng pháp nâng cao của Oversampling. Phƣơng pháp này tạo ra
các mẫu ở lớp thiểu số mới bằng cách nội suy nhiều mẫu lớp thiểu số. Thuật toán
nhƣ sau:
o Đối với mỗi mẫu x thuộc lớp thiểu số, xác định k láng giềng gần nhất của
x.
o Chọn ngẫu nhiên một vài láng giềng (số láng giềng phụ thuộc vào tỉ lệ
oversampling)
o Mẫu mới đƣợc tạo ra dọc theo đƣờng nối từ mẫu x đến các láng giềng gần
nhất.
Nhận xét: Undersampling có thể loại bỏ dữ liệu có ích tiềm tàng, có khả năng là
dữ liệu quan trọng trong quá trình huấn luyện mẫu. Oversampling làm gia tăng kích
thƣớc của tập mẫu nên sẽ tốn thời gian huấn luyện mẫu.
2. 2. 2.

Học toàn bộ (ensemble learning methods)

2.2.2.1.Bagging (đóng gói) [5]
Bagging tạo ra N tập huấn luyện đƣợc chọn có lặp từ tập dữ liệu huấn luyện ban
đầu. Trong đó các mẫu huấn luyện có thể đƣợc chọn hơn một lần hoặc không đƣợc

chọn lần nào. Từ mỗi tập huấn luyện mới, Bagging cho chạy với một thuật toán học

15


Chƣơng 2. Tổng quan về phân lớp dữ liệu không cân bằng

máy Lb để sinh ra M bộ phân lớp cơ bản hm. Khi có một mẫu phân lớp mới, kết quả
của bộ kết hợp sẽ là kết quả nhận đƣợc nhiều nhất khi chạy M bộ phân lớp cơ bản.
Trong trƣờng hợp dữ liệu không cân bằng, các tập dữ liệu huấn luyện mới đƣợc tạo
ra bằng việc lặp lại kỹ thuật lấy mẫu trên tập dữ liệu huấn luyện hoặc gán trọng số
cho các mẫu nhƣ một vài phƣơng pháp sau:
-

Asymmetric Bagging: trong mỗi lần lặp, tập dữ liệu huấn luyện đƣợc tạo ra

theo cách là toàn bộ mẫu lớp thiểu số đƣợc giữ nguyên, lớp đa số đƣợc lấy bằng số
lƣợng mẫu của lớp thiểu số.
-

Over Bagging: Áp dụng oversampling ngẫu nhiên đối với lớp thiểu số trong

mỗi lần lặp.
-

Under Bagging: Áp dụng undersampling ngẫu nhiên đối với lớp đa số trong

mỗi lần lặp.
-


Roughly balanced bagging: gán trọng số cho các mẫu để cân bằng các lớp

trong mỗi lần lặp.
Nhận xét: Trong vẫn đề giải quyết trƣờng hợp dữ liệu không cân bằng, phƣơng
pháp này vẫn gặp hạn chế của các kỹ thuật lấy mẫu và việc xác định trọng số của
các mẫu.
2.2.2.2.Học tăng cƣờng [5]
Thuật toán AdaBoost (Adaptive Boosting): Là một phƣơng pháp lặp tăng cƣờng
đƣợc Freund và Schapire đƣa ra năm 1995. Thuật toán AdaBoost sử dụng một trọng
số đánh dấu các mẫu trong quá trình huấn luyện. Sau mỗi lần lặp, trọng số của các
mẫu bị phân lớp sai sẽ đƣợc tăng lên và trọng số của các mẫu đƣợc phân lớp đúng
sẽ giảm xuống. Trong trƣờng hợp dữ liệu không cân bằng, lớp thiểu số thƣờng bị
phân lớp sai, thuật toán tăng cƣờng sẽ cải thiện độ chính xác của kết quả thu đƣợc.
Nhận xét: Tuy học tăng cƣờng là một kỹ thuật hiệu quả, dễ cài đặt, nhƣng nó
cũng có nguy cơ về lỗi huấn luyện.
2.2.2.3.Thuật toán rừng ngẫu nhiên (Random Forest) [3]
Random Forest (RF) (đƣợc Breiman đề xuất) là thuật toán đƣợc xây dựng trên
nền tảng thuật toán cây quyết định, sử dụng kỹ thuật bagging. Kỹ thuật này cho
phép lựa chọn một nhóm nhỏ các thuộc tính tại mỗi nút của cây để phân chia cho

16


Chƣơng 2. Tổng quan về phân lớp dữ liệu không cân bằng

mức tiếp theo của cây phân lớp. Bằng cách chia nhỏ không gian tìm kiếm thành các
cây nhỏ hơn nhƣ vậy cho phép thuật toán có thể phân loại một cách rất nhanh chóng
cho dù không gian thuộc tính rất lớn. Các tham số đầu vào của thuật toán khá đơn
giản bao gồm số các thuộc tính đƣợc chọn trong mỗi lần phân chia (mtry). Giá trị
mặc định của tham số này là căn bậc hai của p với p là số lƣợng các thuộc tính.

Tƣơng tự nhƣ thuật toán CART, RF vẫn sử dụng công thức Gini là công thức tính
toán việc phân chia cây. Số lƣợng cây đƣợc tạo ra là không hạn chế và cũng không
sự dụng bất kỳ kỹ thuật để hạn chế mở rộng cây. Chúng ta phải lựa chọn tham số
cho biết số lƣợng cây (ntree) sẽ đƣợc sinh ra sao cho đảm bảo rằng sẽ mỗi một
thuộc tính sẽ đƣợc kiểm tra một vài lần. Thuật toán sử dụng kỹ thuật OOB (out-of bag) để xây dựng tập huấn luyện và phƣơng pháp kiểm tra trên nó.
Chen và các đồng sự đã đề xuất hai phƣơng pháp để thuật toán rừng ngẫu nhiên
phù hợp hơn trên tập dữ liệu không cân bằng cao là Balanced Random Forest và
Weighted Random Forest.
Nhận xét: Thuật toán rừng ngẫu nhiên cho kết quả tốt trên dữ liệu có số chiều
vừa phải và giảm đáng kể hiệu quả khi xử lý bài toán có số chiều cao, nhiều nhiễu,
dung lƣợng mẫu ít do trong quá trình xây dựng cây quyết định, tại mỗi nút, RF dùng
phƣơng pháp chọn ngẫu nhiên một tập con thuộc tính từ tập thuộc tính ban đầu để
tìm thuộc tính phân hoạch tốt nhất phân tách nút. Do đó, RF có thể lựa chọn ngẫu
nhiên nhiều nhiễu vào không gian con thuộc tính dùng cho việc tách nút khi dựng
cây, nên khả năng dự đoán của RF giảm sút.
2. 2. 3.

Học nhạy chi phí

Phƣơng pháp học nhạy chi phí xem xét các chi phí của việc phân lớp sai. Trong
khi xử lý vấn đề không cân bằng thƣờng quan trọng để nhận dạng các mẫu lớp thiểu
số hơn các mẫu lớp đa số, do đó chi phí phân lớp sai một mẫu lớp thiểu số cao hơn
chi phí phân lớp sai một mẫu lớp đa số [8].
Ling và Sheng chia phƣơng pháp học nhạy chi phí thành hai loại [5]:
-

Direct Cost-sensitive learning method: sử dụng trực tiếp chi phí trong thuật toán

học.


17


Chƣơng 2. Tổng quan về phân lớp dữ liệu không cân bằng

-

Methods for cost-sensitive meta-learning: phƣơng pháp này biến đổi các bộ phân

lớp không nhạy chi phí thành một bộ phân lớp nhạy chi phí. Phƣơng pháp này đƣợc
chia thành hai loại: phƣơng pháp ngƣỡng và phƣơng pháp lấy mẫu.
+ Phƣơng pháp ngƣỡng: MetCost là thuật toán tiêu biểu cho phƣơng pháp
này với ý tƣởng là cực tiểu hoá chi phí tổng thể
+ Phƣơng pháp lấy mẫu: trong phƣơng pháp này, đầu tiên áp dụng kỹ thuật
lấy mẫu làm thay đổi phân bố lớp trên tập dữ liệu huấn luyện, sau đó áp dụng trực
tiếp bộ phân lớp không nhạy chi phí lên tập dữ liệu mới này. Hai phƣơng pháp
chính trong nhóm này là Costing và Weighting.
Nhận xét: Trong phƣơng pháp học này, các mẫu từ các lớp khác nhau không
đƣợc đối xử nhƣ nhau. Do đó, các thuật toán nhạy chi phí phải xác định các khoản
chi phí để đƣa vào công thức cập nhật trọng số.
2. 2. 4.

Lựa chọn đặc trƣng [5]

Phƣơng pháp lựa chọn đặc trƣng là một phƣơng pháp tìm ra một tập các thuộc
tính từ M tập thuộc tính của tập dữ liệu ban đầu. Phƣơng pháp này thƣờng dùng
trong trƣờng hợp bùng nỗ tập dữ liệu lớn, đặc biệt là trong trƣờng hợp tập dữ liệu
nhiều chiều. Trên tập dữ liệu không cân bằng, phƣơng pháp lựa chọn đặc trƣng
đƣợc áp dụng để lựa chọn các thuộc tính gây ra sự khác biệt lớn giữa các lớp. Nhƣ
vậy phƣơng pháp phải tốn thời gian cho quá trình tìm kiếm tập thuộc tính con tốt

nhất.
Phƣơng pháp Warpper là một trong các phƣơng pháp lựa chọn đặc trƣng rời rạc
áp dụng trên tập dữ liệu không cân bằng đƣợc đề xuất bởi Kohavi. Một tập con của
các đặc trƣng có độ chính xác của kết quả tốt nhất sẽ đƣợc sử dụng để xây dựng bộ
phân lớp trên toàn tập dữ liệu huấn luyện.
Lựa chọn đặc trƣng còn đƣợc dùng kết hợp với các phƣơng pháp học toàn bộ,
đặc biệt trong dự đoán rủi ro nhƣ phƣơng pháp PREE (Prediction Risk based feature
selection for Easy Ensemble).
2. 2. 5.

Phƣơng pháp chỉnh sửa thuật toán:

Đây là phƣơng pháp hiệu quả ngay cả khi kích thƣớc tập dữ liệu nhỏ. Mục đích
của phƣơng pháp chỉnh sửa thuật toán là để làm cho thuật toán học (cây quyết định,

18


Chƣơng 2. Tổng quan về phân lớp dữ liệu không cân bằng

hồi quy, phân tích nhân tố,...) phù hợp với tình huống dữ liệu không cân bằng.
Phƣơng pháp này chủ yếu áp dụng trong thuật toán cây quyết định và SVM [5].

2. 3. Phƣơng pháp dựa trên tính toán hạt
Tính toán hạt là phƣơng pháp mới nổi trong tiếp cận mức thuật toán để phân lớp
dữ liệu không cân bằng. Phƣơng pháp này thuộc hƣớng tiếp cận chỉnh sửa, đề xuất
thuật toán mới. Do đó, phƣơng pháp này hiệu quả trên tập dữ liệu có kích thƣớc
nhỏ. Hạt thông tin đƣợc hiểu nhƣ là các lớp, các cụm, các tập con, các nhóm và các
khoảng, là các tập hợp của các đối tƣợng đƣợc sắp xếp với nhau dựa trên sự tƣơng
tự của chúng, sự gần kề chức năng, và tính không thể phân biệt [13].

Theo [9], các tác giả cho rằng nếu gom các mẫu tƣơng tự nhau vào các cụm thì
một lƣợng lớn dữ liệu sẽ chuyển thành một vài cụm, nhƣ vậy có thể giảm sự chênh
lệnh giữa các mẫu ở lớp đa số và lớp thiểu số. Một ví dụ để minh họa cho quan
điểm này đƣợc đƣa ra trong [10] là: tất cả gia đình hạnh phúc thì giống nhau còn bất
hạnh thì mỗi nhà mỗi khác. Vì vậy có thể xem các mẫu thuộc lớp đa số là giống
nhau trong khi các mẫu thuộc lớp thiểu số là khác nhau. Sau khi gom cụm ở lớp đa
số, số lƣợng cụm ở lớp này ít hơn nhiều so với số lƣợng các mẫu. Nếu chúng ta xem
xét các cụm thay cho việc xét các mẫu sẽ làm giảm sự chênh lệnh giữa lớp đa số và
lớp thiểu số, do đó giải quyết đƣợc vấn đề mất cân bằng dữ liệu. [10]
Đối với tập dữ liệu khóa luận thực nghiệm: Giá trị các thuộc tính số của mẫu ở
lớp thiểu số (lớp Kết quả Đậu) tập trung trong khoảng giá trị từ 7.5 đến 10. Giá trị
các thuộc tính số của mẫu ở lớp đa số (lớp Kết quả Không đậu) tập trung trong
khoảng giá trị từ 7.0 đến 10. Thuộc tính huyện tập trung ở một vài huyện nhƣ Bến
Lức, Cần Đƣớc, Châu Thành, Tân Trụ, Thủ Thừa, thành phố Tân An. Việc gom các
mẫu thuộc cùng một lớp và có giá trị thuộc tính gần nhau hoặc tƣơng tự nhau vào
một cụm sẽ làm giảm sự chênh lệnh về số cụm giữa 2 lớp, mỗi cụm trở thành một
mẫu mới nên sẽ cải thiện tình trạng không cân bằng của dữ liệu. Việc phân lớp đƣợc
tiến hành trên các cụm do đó cũng làm giảm kích thƣớc tập huấn luyện.
Tiếp cận dựa trên tính toán hạt giúp tăng hiệu suất phân lớp và cải tiến tình trạng
không cân bằng lớp, phù hợp với xử lý các thông tin mơ hồ, không rõ ràng, không

19


Chƣơng 2. Tổng quan về phân lớp dữ liệu không cân bằng

đầy đủ [6]. Các mô hình này sử dụng khái niệm các thuộc tính con để biểu diễn các
hạt thông tin đồng thời để giải quyết tình trạng chồng chéo giữa các IG.
Nhƣ vậy, các thách thức của bài toán khóa luận đặt ra ở chƣơng trƣớc cơ bản đã
đƣợc giải quyết. Do đó, hƣớng nghiên cứu phƣơng pháp tính toán hạt đƣợc khóa

luận chọn để xây dựng ứng dụng.

20


Chƣơng 3. Cơ sở lý thuyết

CHƢƠNG 3
CƠ SỞ LÝ THUYẾT
3. 1. Các lý thuyết liên quan trong phƣơng pháp dựa trên tính toán hạt
3. 1. 1.

Chuẩn hoá dữ liệu số

Mỗi thuộc tính số có phạm vi giá trị khác nhau, có thể ảnh hƣởng đến việc so
sánh, đánh giá và tính toán hàm khoảng cách. Việc chuẩn hoá các thuộc tính số
nhằm mục đích đƣa các thuộc tính số về cùng một miền giá trị nhƣ nhau. Có hai
chiến lƣợc dùng để chuẩn hoá dữ liệu số: chuẩn hoá về một miền giá trị cố định từ 0
đến 1 và chuẩn hoá theo thống kê cho ra tập các giá trị mà trung bình của chúng là 0
và độ lệnh chuẩn là 1.
Dữ liệu đƣợc chuẩn hoá về [0,1] giúp đƣa các miền giá trị của các thuộc tính
khác nhau về một miền giá trị giống nhau để thực hiện tính khoảng cách. Việc
chuẩn hoá này đƣợc thực hiện theo công thức:
dik=(xik-xi,min)/(xi,max-xi,min)

(3.1)

Trong đó:
xik là giá trị của dòng thứ k, thuộc tính thứ i;
xi,min là giới hạn dƣới của các giá trị thuộc tính thứ i;

xi,max là giới hạn trên của các giá trị thuộc tính thứ i;
dik là giá trị sau khi đƣợc chuẩn hoá [4].
Dữ liệu có thứ tự cũng đƣợc chuẩn hoá theo công thức này.
3. 1. 2.

Rời rạc dữ liệu

Các thuộc tính có các kiểu dữ liệu khác nhau, có thể chia thành hai loại: dữ liệu
liên tục (dữ liệu số) và dữ liệu rời rạc (định danh). Để xử lý các tập dữ liệu chứa các
thuộc tính có kiểu dữ liệu hỗn hợp, cộng đồng khai thác dữ liệu đã đề xuất các chiến
lƣợc sau [4]:
(1) Các giá trị định danh đƣợc biến đổi thành các giá trị số nguyên và sau đó áp
dụng các phƣơng pháp xử lý dữ liệu số cho tất cả các thuộc tính. Tuy nhiên, rất khó
để cho các giá trị số đúng với các giá trị định danh.

21


Chƣơng 3. Cơ sở lý thuyết

(2) Một tiếp cận khác là rời rạc hoá các thuộc tính số và áp dụng thuật toán xử lý dữ
liệu định danh cho tất cả các thuộc tính. Nhƣng quá trình rời rạc hoá dẫn đến mất
thông tin.
3. 1. 3.

Hạt thông tin

Hạt thông tin đƣợc hiểu là các lớp, các cụm, các tập con, các nhóm và các
khoảng [13]. Các hạt đƣợc tạo bởi sự giống nhau của các đối tƣợng, do đó, các đối
tƣợng trong cùng hạt sẽ có cùng lớp [10]. Quá trình xây dựng các hạt thông tin đƣợc

nói đến nhƣ là việc chia nhỏ thông tin. Điều này đƣợc chỉ ra trong công trình của
Zadeh (1979), ngƣời đã đặt ra thuật ngữ “chia nhỏ thông tin”.
Việc chia nhỏ thông tin là cần thiết để nhận thức thấu đáo vấn đề và có hiểu biết
sâu sắc hơn vào bản chất của nó, hơn là bị vùi lấp vào những chi tiết không cần
thiết. Chúng ta xem xét hạt thông tin thay cho dữ liệu số có thể cải tiến tình trạng
không cân bằng của dữ liệu [10].
3. 1. 4.

Tính toán hạt

Năm 1997, Lin đặt ra thuật ngữ “Tính toán hạt” và tích hợp nó vào lý thuyết tập
thô, lý thuyết từ, lý thuyết không gian thƣơng, ...[11].
Tính toán hạt đƣợc định nghĩa trong tài liệu của hội nghị IEEE – GrC năm 2013,
là lý thuyết tính toán tổng quan cho việc sử dụng có hiệu quả các hạt để xây dựng
mô hình tính toán hiệu suất cao cho các ứng dụng phức tạp với số lƣợng lớn dữ liệu,
thông tin và tri thức [13].
Gần đây, tính toán hạt nhanh chóng trở thành khái niệm đang nổi và trở thành
mô hình tính toán mẫu của việc xử lý thông tin, cụ thể trong tính toán mềm. GrC
hƣớng đến việc biểu diễn và xử lý các IG. Nó là hƣớng mới của trí tuệ nhân tạo [6].
Castellano và Fanelli chỉ ra rằng vấn đề chính của tính toán hạt là cách để xây
dựng IG và cách để mô tả IG [6]. Có nhiều phƣơng pháp đƣợc đề xuất để xây dựng
IG nhƣ mạng neural tự tổ chức (SOM), Fuzzy C-means (FCM), tập thô, tập bị che
bóng [6]. Trong vấn đề mô tả IG, Bargiela và Pedrycz dùng hyperbox, Su và các
đồng sự biểu diễn thuộc tính con để mô tả IG.

22


×