Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.99 MB, 118 trang )

i

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

VILAISAK SOPHABMIXAY

NGHÊN CỨU MỘT SỐ PHƯƠNG PHÁP PHÂN LỚP VÀ ỨNG
DỤNG TRONG PHÂN LỚP DỮ LIỆU PROTEIN SUMO HÓA.
Chuyên ngành: Khoa học máy tính
Mã số chuyên ngành: 84 80 10 1

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS. NGUYỄN VĂN NÚI

THÁI NGUYÊN - 2019

ii

LỜI CAM ĐOAN
Luận văn này là công trình nghiên cứu của cá nhân tôi, được thực hiện dưới sự
hướng dẫn khoa học của TS. Nguyễn Văn Núi. Các số liệu, những kết luận nghiên cứu
được trình bày trong luận văn này hoàn toàn trung thực.
Học Viên
Vilaisak SOPHABMIXAY

3

LỜI CẢM ƠN

Để có thể hoàn thành đề tài luận văn thạc sĩ một cách hoàn chỉnh, bên cạnh sự nỗ
lực cố gắng của bản thân còn có sự hướng dẫn nhiệt tình của quý Thầy Cô, cũng như sự
động viên ủng hộ của gia đình và bạn bè trong suốt thời gian học tập nghiên cứu và thực
hiện luận văn thạc sĩ.
Xin chân thành bày tỏ lòng biết ơn đến Thầy TS. Nguyễn Văn Núi người đã hết
lòng giúp đỡ và tạo mọi điều kiện tốt nhất cho em hoàn thành luận văn này. Xin chân
thành bày tỏ lòng biết ơn đến toàn thể quý thầy cô trong khoa học máy tính nói riêng và
trường Đại học Công Nghệ Thông Tin và Truyền Thông Thái Nguyên nói chung đã dạy
bảo, cung cấp những kiến thức quý báu cho em trong suốt quá trình học tập và nghiên cứu
tại trường.
Cuối cùng, tôi xin chân thành cảm ơn đến gia đình, các anh chị và các bạn đồng
nghiệp đã hỗ trợ cho tôi rất nhiều trong suốt quá trình học tập, nghiên cứu và thực hiện đề
tài luận văn thạc sĩ một cách hoàn chỉnh.

4

MỤC LỤC
LỜI CAM ĐOAN ................................................................................................................. i
LỜI CẢM ƠN ...................................................................................................................iii
MỤC LỤC ......................................................................................................................... iv
DANH MỤC CÁC TỪ VIẾT TẮT ................................................................................vii
DANH MỤC CÁC BẢNG, BIỂU.................................................................................... ix
DANH MỤC HÌNH VẼ..................................................................................................... x
MỞ ĐẦU ............................................................................................................................. 1
CHƯƠNG 1 TỔNG QUAN KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC .........
3
1.1 Giới thiệu chung......................................................................................................... 3
1.1.1 Khái niệm khai phá dữ liệu.................................................................................. 3
1.1.2 Các bước của quá trình phát hiện tri thức............................................................ 4

1.2 Tổng quan các kỹ thuật khai phá dữ liệu cơ bản........................................................ 5
1.2.1 Khai phá dữ liệu dự đoán..................................................................................... 6
1.2.1.1 Phân lớp......................................................................................................... 6
1.2.1.2 Hồi quy .......................................................................................................... 7
1.2.2 Khai phá dữ liệu mô tả......................................................................................... 7
1.2.2.1 Phân cụm ....................................................................................................... 7
1.2.2.2 Luật kết hợp................................................................................................... 8
1.3. Phân tích, so sánh với các phương pháp cơ bản khác ............................................... 8
1.3.1 So sánh với phương pháp hệ chuyên gia (Expert Systems) ................................ 9
1.3.2 So sánh với phương pháp thống kê (Statistics) ................................................... 9
1.3.3 So sánh với phương pháp học máy (Machine Learning)................................... 10
1.3.4 So sánh với phương pháp học sâu (Deep Learning).......................................... 10
CHƯƠNG 2 CÁC PHƯƠNG PHÁP VÀ KỸ THUẬT PHÂN LỚP DỮ LIỆU............... 12
2.1 Tổng quan về phân lớp dữ liệu................................................................................. 13
2.2 Phân lớp dữ liệu bằng cây quyết định ...................................................................... 15

5

2.2.1 Cây quyết định quy nạp ..................................................................................... 16

6

2.2.2 Cây cắt tỉa .......................................................................................................... 20
2.2.3 Trích luật phân lớp từ các cây quyết định ......................................................... 20
2.2.4 Cải tiến cây quyết định quy nạp cơ bản............................................................. 21
2.2.5 Khả năng mở rộng và cây quyết định quy nạp .................................................. 22
2.3 Phân lớp dữ liệu Bayesian........................................................................................ 23
2.3.1 Định lý Bayes..................................................................................................... 24

2.3.2 Phân lớp Bayesian ngây thơ .............................................................................. 25
2.3.3 Các mạng belief Bayesian ................................................................................. 27
2.3.4 Huấn luyện các mạng belief Bayesian............................................................... 29
2.4 Phân lớp dữ liệu với Random Forest (rừng ngẫu nhiên).......................................... 30
2.5 Phân lớp dữ liệu sử dụng máy hỗ trợ vector ............................................................ 33
2.5.1 SVM cho bài toán phân lớp tuyến tính .............................................................. 33
2.5.2 SVM cho phân lớp phi tuyến ............................................................................. 37
2.6 Một số phương pháp phân lớp dữ liệu khác............................................................. 41
2.6.1 Các classifier k-láng giềng gần nhất .................................................................. 42
2.6.2 Lập luận dựa trên tình huống............................................................................. 42
2.7 Vấn đề đánh giá độ chính xác của phương pháp phân lớp dữ liệu .......................... 43
2.7.1 Đánh giá độ chính xác classifier ........................................................................ 44
2.7.2 Gia tăng độ chính xác classifier......................................................................... 45
2.7.3 Độ chính xác có đủ để đánh giá một classifier hay không? .............................. 46
CHƯƠNG 3 KẾT QUẢ THỬ NGHIỆM .......................................................................... 47
3.1 Giới thiệu bài toán phân lớp dữ liệu protein SUMO hóa (SUMOylation) .............. 48
3.1.1 Giới thiệu về protein SUMO hóa (SUMOylation) ............................................ 48
3.1.2 Thu thập và tiền xử lý dữ liệu............................................................................ 48
3.1.3 Trích chọn đặc trưng và mã hóa dữ liệu ............................................................ 53
3.2 Giới thiệu về phân lớp dữ liệu sử dụng công cụ Weka............................................ 55
3.2.1 Thuật toán Hồi quy logistic (Logistic Regression)............................................ 56
3.2.2 Thuật toán Naive Bayes..................................................................................... 58
3.2.3 Thuật toán Cây quyết định (Decision Tree) ...................................................... 60
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

7

3.2.4 Thuật toán k-Nearest Neighbors ........................................................................ 63
3.2.5 Thuật toán Máy hỗ trợ Vector (Support Vector Machines) .............................. 65
3.3 Kết quả phân lớp dữ liệu vị trí protein SUMOylation ............................................. 68
KẾT LUẬN ....................................................................................................................... 70
TÀI LIỆU THAM KHẢO ................................................................................................. 71
Tiếng Việt:...................................................................................................................... 71
Tiếng Anh:...................................................................................................................... 71

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

vii

DANH MỤC CÁC TỪ VIẾT TẮT

TT

Từ viết tắt

Tên đầy đủ

1.

SUMO

Small Ubiquitin-like MOdifier

2.

KDD

3.

SVM

Support Vector Machine

Máy hỗ trợ vector

4.

AAC

Amino Axit Composition

Đặc trưng: AAC

5.

AAPC

6.

TP

True Positive

Đúng là dữ liệu Positive

7.

FP

False Positive

Không phải dữ liệu Positive

8.

TN

True Negative

Đúng là dữ liệu Negative

9.

FN

False Negative

Không phải dữ liệu Negative

10.

SEN

Sensitivity: SEN=TP/(TP+FN)

11.

SPE

12.

ACC

13.

MCC

Knowlegde Discovery in
Databases

Amino Axit Pairwise
Composition

Chú thích
Thành phần sửa đổi tương tựa
như một Ubiquitin nhỏ
Phát hiện tri thức

Đặc trưng: AAPC

Tỷ lệ dự đoán đúng dữ liệu
Positive

Specificity:

Tỷ lệ dự đoán đúng dữ liệu

SPE=TN/(TN+FP)

Negative

Accuracy

Độ chính xác

Mathews Correlation
Coefficient

Hệ số tương quan Mathews

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

8

14.
15.

16.

SUMOylated
protein

Protein mà trong đó có ít nhất một vị trí đã SUMO hóa

SUMO-sites

1 vị trí amino axit Lysine (K) đã được xác định thực nghiệm là

Lysine

SUMO hóa

Non-SUMO-

KHÔNG PHẢI là SUMO hóa

sites Lysine

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

9

DANH MỤC CÁC BẢNG, BIỂU

Bảng 2. 1 Các bộ dữ liệu huấn luyện từ cơ sở dữ liệu khách hang AllElectronics ........... 18
Bảng 2. 2. Dữ liệu mẫu cho lớp mua máy tính.................................................................. 23
Bảng 3. 1 Bảng tổng hợp dữ liệu thu thập từ các nguồn khác nhau.................................. 48
Bảng 3. 2 Bảng tổng hợp dữ liệu thu được sau khi loại bỏ dữ liệu dư thừa bởi công cụ

CD-HIT .......................................................................................................... 52
Bảng 3. 3. Hiệu năng của mô hình dự đoán, đánh giá bởi kiểm tra chéo 5 mặt (5-fold
cross-validation)............................................................................................. 68
Bảng 3. 4 Hiệu năng của mô hình dự đoán, đánh giá bởi dữ liệu kiểm thử độc lập ......... 69

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

1
0

DANH MỤC HÌNH VẼ
Hinh 1. 1. Quá trình phát hiện tri thức................................................................................. 4
Hinh 1. 2. Tập dữ liệu với 2 lớp: có và không có khả năng trả nợ...................................... 6
Hinh 1. 3. Phân lớp được học bằng mạng nơron cho tập dữ liệu cho vay ..........................
7
Hinh 1. 4. Phân cụm tập dữ liệu cho vay vào trong 3 cụm ................................................. 8
Hinh 2. 1. Xử lý phân lớp dữ liệu...................................................................................... 14
Hinh 2. 2. Cây quyết định cho khái niệm mua máy tính ...................................................
15
Hinh 2. 3. Thuộc tính tuổi có thông tin thu được cao nhất................................................ 19
Hinh 2. 4. Các cấu trúc dữ liệu danh sách thuộc tính và danh sách lớp được dung trong
SLIO cho dữ liệu mẫu trong bảng 2.2 ............................................................................... 23
Hinh 2. 5. a) Mạng belief Bayesian đơn giản, b) Bảng xác suất có điều kiện cho............
28
Hinh 2. 6. Mô hình Rừng ngẫu nhiên ................................................................................ 31
Hinh 2. 7. Một đường thẳng tuyến tính phân chia 2 lớp điểm (hình vuông và hình tròn)
trong không gian hai chiều. Ranh giới quyết định chia không gian thành hai tập tùy thuộc

vào dấu của hàm f (x) = <w, x> + b. ................................................................................. 34
Hinh 2. 8. Độ rộng biên lớn nhất được tính toán bởi một SVMs tuyến tính. Khu vực giữa
hai đường mảnh xác định miền biên với -1 ≤ <w, x> + b ≤ 1. Những điểm sáng hơn với
chấm đen ở giữa gọi là các điểm support vectors, đó là những điểm gần biên quyết định
nhất. Ở đây, có ba support vectors trên các cạnh của vùng biên (f(x) = -1 hoặc f (x)=1). 34
Hinh 2. 9. Ảnh hưởng của hằng số biên mềm C trên ranh giới quyết định....................... 36
Hinh 2. 10. Mức độ tác động của kernel đa thức. Kernel đa thức dẫn đến một sự phân tách
tuyến tính (A). Kernel đa thức cho phép một ranh giới quyết định linh hoạt hơn (B - C).
........................................................................................................................................... 38
Hinh 2. 11. Ảnh hưởng của số chiều Gaussian kernel (σ) cho một giá trị cố định của các
hằng số biên mềm. Đối với giá trị của σ (A) lớn quyết định ranh giới là gần như tuyến
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

tính. Khi giảm σ tính linh hoạt của ranh
học

quá

1
1
giới

quyết định tăng (B). Giá trị σ nhỏ dẫn đến
(overfitting)

(C)

................................................................................................................. 41

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

1
2

Hinh 2. 12. Một xấp xỉ tập thô của tập các mẫu thuộc lớp C ...........Error! Bookmark not
defined.
Hinh 2. 13. Các giá trị mờ đối với thu nhập ...................... Error! Bookmark not defined.
Hinh 2. 14. Đánh giá độ chính xác classifier với phương pháp holdout ........................... 44
Hinh 2. 15. Tăng độ chính xác classifier ........................................................................... 45
Hình 3. 1. Sơ đồ tổng thể hoạt động của phương pháp triển khai ..................................... 49
Hình 3. 2. Sơ đồ trích chọn và mã hóa đặc trưng .............................................................. 53
Hình 3. 3. Sơ đồ quá trình trích chọn đặc trưng AAC....................................................... 53
Hình 3. 4. Sơ đồ quá trình trích chọn đặc trưng AAPC .................................................... 55
Hình 3. 5 Phần mềm WEKA (Waikato Environment for Knowledge Analysis).............. 55
Hình 3. 6. Cấu hình Weka cho thuật toán hồi quy logistic................................................ 57
Hình 3. 7. Kết quả phân lớp Weka cho thuật toán hồi quy logistic................................... 58
Hình 3. 8. Cấu hình Weka cho thuật toán Naive Bayes .................................................... 59
Hình 3. 9. Kết quả phân lớp Weka cho thuật toán Naive Bayes ....................................... 60
Hình 3. 10. Cấu hình Weka cho thuật toán Cây quyết định (Decision Tree).................... 61
Hình 3. 11. Kết quả phân lớp Weka cho thuật toán Cây quyết định (Decision Tree)....... 62
Hình 3. 12. Mô hình cây quyết định hiển thị bởi C4.5...................................................... 62
Hình 3. 13. Cấu hình Weka cho thuật toán k-Nearest Neighbors ..................................... 63
Hình 3. 14. Cấu hình weka cho thuật toán tìm kiếm trong thuật toán k-Nearest Neighbors
........................................................................................................................................... 64

Hình 3. 15. Kết quả phân lớp Weka cho thuật toán k-Nearest Neighbors ........................ 65
Hình 3. 16. Cấu hình Weka cho thuật toán Máy hỗ trợ Vector (Support Vector
Machines). ......................................................................................................................... 66
Hình 3. 17. Kết quả phân lớp Weka cho thuật toán Máy hỗ trợ Vector............................ 67

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

1

MỞ ĐẦU

Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin ở hầu
hết các lĩnh vực trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được thu thập
và lưu trữ ngày càng lớn. Các hệ quản trị cơ sở dữ liệu truyền thống cũng chỉ khai thác
được một lượng thông tin nhỏ không còn đáp ứng đầy đủ những yêu cầu, những thách
thức mới. Do vậy một khuynh hướng mới được ra đời đó là kỹ thuật phát hiện tri thức
trong cơ sở dữ liệu. Xin giới thiệu một cách tổng quan về phát hiện tri thức và khai phá
dữ liệu cùng một số kỹ thuật cơ bản để trong khai phá dữ liệu để phát hiện tri thức và một
số ứng dụng trong thực tế nhằm hỗ trợ cho tiến trình ra quyết định.
Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng
dụng trong nhiều lĩnh vực khác nhau ở các nước trên thế giới, kỹ thuật này tương đối còn
mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng. Bước quan trọng
nhất của quá trình này là Khai phá dữ liệu (Data Mining - DM), giúp người sử dụng thu
được những tri thức hữu ích từ những CSDL hoặc các nguồn dữ liệu khổng lồ khác. Rất
nhiều doanh nghiệp và tổ chức trên thế giới đã ứng dụng kĩ thuật khai phá dữ liệu vào
hoạt động sản xuất kinh doanh của mình và đã thu được những lợi ích to lớn. Nhưng để
làm được điều đó, sự phát triển của các mô hình toán học và các giải thuật hiệu quả là

chìa khoá quan trọng. Vì vậy, trong luận văn này, tác giả sẽ đề cập tới kỹ thuật thường
dùng trong khai phá dữ liệu, đó là Phân lớp (Classification).
Sau phần mở đầu, nội dung chính của luận văn được trình bày chi tiết và bố cục chia
thành 3 chương như sau:
Chương 1. Tổng quan về khai phá dữ liệu và phát hiện tri thức
Phần này giới thiệu một cánh tổng quát về quá trình phát hiện tri thức nói chung và
khai phá dữ liệu nói riêng. Đặc biệt nhấn mạnh về một kỹ thuật chính được nghiên cứu
trong luận văn đó là Kỹ thuật phân lớp.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

2

Chương 2. Các phương pháp và kỹ thuật phân lớp dữ liệu
Trong phần này, kỹ thuật phân lớp được giới thiệu một cách chi tiết. Có nhiều kiểu
phân lớp như phân lớp bằng cây quyết định quy nạp, phân lớp dữ liệu Bayesian, phân lớp
dữ liệu với Random Forest (rừng ngẫu nhiên), Phân lớp dữ liệu sử duing máy hỗ trợ
vector và một số phương pháp phân lớp dữ liệu khác. Ngoài ra còn vấn đề đánh giá độ
chính xác của phương pháp phân lớp dữ liệu.
Chương 3. Kết quả thử nghiệm
Phần này giới thiệu bài toán phân lớp dữ liệu protein SUMO hóa, giới thiệu về phân
lớp dữ liệu sử dụng công cụ Weka và một số kết quả phân lớp dữ liệu protein SUMO hóa.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

3

CHƯƠNG 1
TỔNG QUAN KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC
1.1 Giới thiệu chung
Trong những năm gần đây, Công nghệ thông tin phát triển mạnh mẽ và có những
tiến bộ vượt bậc. Cùng với sự phát triển của Công nghệ thông tin là sự bùng nổ thông tin.
Các thông tin tổ chức theo phương thức sử dụng giấy trong giao dịch đang dần được số
hóa, do nhiều tính năng vượt trội mà phương thức này mang lại như: có thể lưu trữ lâu
dài, cập nhật, sửa đổi, tìm kiếm một cách nhanh chóng. Đó là lý do khiến cho số lượng
thông tin số hóa ngày nay đang tăng dần theo cấp số nhân. Hiện nay, không một lĩnh vực
nào lại không cần đến sự hỗ trợ của công nghệ thông tin và sự thành công của các lĩnh
vực đó phụ thuộc rất nhiều vào việc nắm bắt thông tin một cách nhạy bén, nhanh chóng
và hữu ích. Với nhu cầu như thế nếu chỉ sử dụng thao tác thủ công truyền thống thì độ
chính xác không cao và mất rất nhiều thời gian. Do vậy việc khai phá tri thức từ dữ liệu
trong các tập tài liệu lớn chứa đựng thông tin phục vụ nhu cầu nắm bắt thông tin có vai
trò hết sức to lớn. Từ đó, các kĩ thuật khai phá dữ liệu đã trở thành một lĩnh vực thời sự
của nền CNTT thế giới hiện nay.
1.1.1 Khái niệm khai phá dữ liệu
Khai phá dữ liệu (data mining) là quá trình tính toán để tìm ra các mẫu trong các
bộ dữ liệu lớn liên quan đến các phương pháp tại giao điểm của máy học, thống kê và các
hệ thống cơ sở dữ liệu. Đây là một lĩnh vực liên ngành của khoa học máy tính.. Mục tiêu
tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và
chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp. Ngoài bước phân tích thô, nó còn
liên quan tới cơ sở dữ liệu và các khía cạnh quản lý dữ liệu, xử lý dữ liệu trước, suy xét
mô hình và suy luận thống kê, các thước đo thú vị, các cân nhắc phức tạp, xuất kết quả về
các cấu trúc được phát hiện, hiện hình hóa và cập nhật trực tuyến. Khai thác dữ liệu là
bước phân tích của quá trình “khám phá kiến thức trong cơ sở dữ liệu” hoặc KDD.
Data Mining là quá trình khai phá, trích xuất, khai thác và sử dụng những dữ liệu

có giá trị tiềm ẩn từ bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

4

(CSDL), kho dữ liệu, trung tâm dữ liệu… lớn hơn là Big Data dựa trên kĩ thuật như mạng
nơ ron, lí thuyết tập thô, tập mờ, biểu diễn tri thức… Đây là một công đoạn trong hoạt
động “làm sạch” dữ liệu.
1.1.2 Các bước của quá trình phát hiện tri thức
Quá trình phát hiện tri thức tiến hành qua 6 giai đoạn như Hình 1.1:

Hinh 1. 1. Quá trình phát hiện tri thức
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra.
Về lý thuyết thì có vẻ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn gặp
phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ quá
trình, v.v...
(1) Gom dữ liệu: Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu.
Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ
liệu từ các nguồn ứng dụng Web.
(2) Trích lọc dữ liệu: Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo
một số tiêu chuẩn nào đó phục vụ mục đích khai thác, ví dụ chọn tất cả những người có
tuổi đời từ 25 - 35 và có trình độ đại học.
(3) Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu: Giai đoạn thứ ba này là giai
đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai
phá dữ

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

5

liệu. Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẽ, logíc.
Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối dữ liệu. Ví
dụ: tuổi = 673. Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói
trên. Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy,
đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch - tiền xử lý chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng.
(4) Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có
thể sử dụng và điều khiển được bởi việc tổ chức lại nó, tức là dữ liệu sẽ được chuyển đổi
về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp.
(5) Khai phá dữ liệu: Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở giai
đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu.
Thuật toán thường dùng là nguyên tắc phân lớp, nguyên tắc kết, v.v...
(6) Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ liệu được
chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu dữ liệu nào cũng
đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh
giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra. Đánh giá sự hữu ích của
các mẫu biểu diễn tri thức dựa trên một số phép đo. Sau đó sử dụng các kỹ thuật trình
diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng. Trên
đây là 6 giai đoạn của quá trình phát hiện tri thức, trong đó giai đoạn 5 - khai phá dữ liệu
(hay còn gọi đó là Data Mining) là giai đoạn được quan tâm nhiều nhất.
1.2 Tổng quan các kỹ thuật khai phá dữ liệu cơ bản
Hình 1.2 biểu diễn một tập dữ liệu giả hai chiều bao gồm 23 cases (trường hợp).
Mỗi một điểm trên hình đại diện cho một người vay tiền ngân hàng tại một số thời điểm
trong quá khứ. Dữ liệu được phân lớp vào hai lớp: những người không có khả năng trả nợ
và những người tình trạng vay nợ đang ở trạng thái tốt (tức là tại thời điểm đó có khả

năng trả nợ ngân hàng).
Hai mục đích chính của khai phá dữ liệu trong thực tế là dự đoán và mô tả.

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

6

Hinh 1. 2. Tập dữ liệu với 2 lớp: có và không có khả năng trả nợ
1.2.1 Khai phá dữ liệu dự đoán
Nhiệm vụ của khai phá dữ liệu dự đoán là đưa ra các dự đoán dựa vào các suy diễn
trên dữ liệu hiện thời. Nó sử dụng các biến hay các trường trong cơ sở dữ liệu để dự đoán
các giá trị không biết hay các giá trị tương lai. Bao gồm các kĩ thuật: phân lớp
(classification), hồi quy (regression)...
1.2.1.1 Phân lớp
Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ
liệu. Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử dụng mô
hình để phân lớp dữ liệu.
Bước 1: Xây dựng mô hình dựa trên việc phân tích các mẫu dữ liệu cho trước. Mỗi
mẫu thuộc về một lớp, được xác định bởi một thuộc tính gọi là thuộc tính lớp. Các mẫu
dữ liệu này còn được gọi là tập dữ liệu huấn luyện. Các nhãn lớp của tập dữ liệu huấn
luyện đều phải được xác định trước khi xây dựng mô hình, vì vậy phương pháp này còn
được gọi là học có giám sát.
Bước 2: Sử dụng mô hình để phân lớp dữ liệu. Trước hết chúng ta phải tính độ
chính xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng
để dự đoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai. Hay nói cách khác, phân
lớp là học một hàm ánh xạ một mục dữ liệu vào một trong số các lớp cho trước. Hình 1.3
cho thấy sự phân lớp của các dữ liệu vay nợ vào trong hai miền lớp. Ngân hàng có thể sử

dụng
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

7

các miền phân lớp để tự động quyết định liệu những người vay nợ trong tương lai có nên
cho vay hay không.

Hinh 1. 3. Phân lớp được học bằng mạng nơron cho tập dữ liệu cho vay
1.2.1.2 Hồi quy
Phương pháp hồi qui khác với phân lớp dữ liệu ở chỗ, hồi qui dùng để dự đoán về
các giá trị liên tục còn phân lớp dữ liệu thì chỉ dùng để dự đoán về các giá trị rời rạc.
Hồi quy là học một hàm ánh xạ một mục dữ liệu vào một biến dự báo giá trị thực.
Các ứng dụng hồi quy có nhiều, ví dụ như đánh giá xác xuất một bệnh nhân sẽ chết dựa
trên tập kết quả xét nghiệm chẩn đoán, dự báo nhu cầu của người tiêu dùng đối với một
sản phẩn mới dựa trên hoạt động quảng cáo tiêu dùng.
1.2.2 Khai phá dữ liệu mô tả
Kỹ thuật này có nhiệm vụ mô tả về các tính chất hoặc các đặc tính chung của dữ
liệu trong CSDL hiện có. Bao gồm các kỹ thuật: phân cụm (clustering), phân tích luật kết
hợp (association rules)...
1.2.2.1 Phân cụm
Mục tiêu chính của phương pháp phân cụm dữ liệu là nhóm các đối tượng tương tự
nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tương
đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng. Phân cụm dữ liệu
là một ví dụ của phương pháp học không giám sát. Không giống như phân lớp dữ liệu,
phân cụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện. Vì
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

8

thế, có thể coi phân cụm dữ liệu là một cách học bằng quan sát (learning by observation),
trong

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

9

khi phân lớp dữ liệu là học bằng ví dụ (learning by example). Trong phương pháp này
bạn sẽ không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình. Vì
vậy, thông thường cần có một chuyên gia về lĩnh vực đó để đánh giá các cụm thu được.
Phân cụm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân
đoạn khách hàng, nhận dạng mẫu, phân lớp trang Web… Ngoài ra phân cụm dữ liệu còn
có thể được sử dụng như một bước tiền xử lí cho các thuật toán khai phá dữ liệu khác.
Hình 1.4 cho thấy sự phân cụm tập dữ liệu cho vay vào trong 3 cụm: lưu ý rằng
các cụm chồng lên nhau cho phép các điểm dữ liệu thuộc về nhiều hơn một cụm.

Hinh 1. 4. Phân cụm tập dữ liệu cho vay vào trong 3 cụm
1.2.2.2 Luật kết hợp
Mục tiêu của phương pháp này là phát hiện và đưa ra các mối liên hệ giữa các giá
trị dữ liệu trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm
được. Khai phá luật kết hợp được thực hiện qua 2 bước:

• Bước 1: tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định qua tính
độ
hỗ trợ và thỏa mãn độ hỗ trợ cực tiểu.
• Bước 2: sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật phải thỏa mãn độ hỗ
trợ cực tiểu và độ tin cậy cực tiểu.
Phương pháp này được sử dụng rất hiệu quả trong các lĩnh vực như marketing có
chủ đích, phân tích quyết định, quản lí kinh doanh,…
1.3. Phân tích, so sánh với các phương pháp cơ bản khác
Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khác như: hệ
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

10

CSDL, thống kê,... Hơn nữa, tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có

Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

11

thể áp dụng một số kĩ thuật như mạng nơ ron, lý thuyết tập thô hoặc tập mờ, biểu diễn tri
thức…
Như vậy, có thể hiểu rằng khai phá dữ liệu thực ra là dựa trên các phương pháp cơ
bản đã biết. Tuy nhiên, sự khác biệt của khai phá dữ liệu so với các phương pháp đó là
gì? Tại sao khai phá dữ liệu lại có ưu thế hơn hẳn các phương pháp cũ? Ta sẽ lần lượt

xem xét và giải quyết các câu hỏi này.
1.3.1 So sánh với phương pháp hệ chuyên gia (Expert Systems)
Các hệ chuyên gia nắm bắt các tri thức cần thiết cho một bài toán nào đó. Các kỹ
thuật thu thập giúp cho việc lấy tri thức từ các chuyên gia con người.
Mỗi phương pháp hệ chuyên gia là một cách suy diễn các luật từ các ví dụ và giải
pháp đối với bài toán chuyên gia đưa ra. Phương pháp hệ chuyên gia khác với khai phá
dữ liệu ở chỗ các ví dụ của chuyên gia thường ở mức chất lượng cao hơn nhiều so với các
dữ liệu trong CSDL, và chúng thường chỉ bao hàm được các trường quan trọng. Hơn nữa
các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được.
1.3.2 So sánh với phương pháp thống kê (Statistics)
Mặc dù các phương pháp thống kê cung cấp một nền tảng lý thuyết vững chắc cho
các bài toán phân tích dữ liệu nhưng chỉ có tiếp cận thống kê thuần tuý thôi chưa đủ bởi:
● Các phương pháp thống kê không phù hợp với các kiểu dữ liệu có cấu trúc trong
rất nhiều các cơ sở dữ liệu
● Thống kê hoàn toàn tính toán trên dữ liệu, nó không sử dụng tri thức sẵn có về
lĩnh vực quan tâm
● Các kết quả của phân tích thống kê có thể rất nhiều và khó có thể làm rõ được
● Các phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định
phân tích dữ liệu như thế nào và ở đâu.
Phương pháp thống kê là một trong những nền tảng lí thuyết của khai phá dữ liệu.
Sự khác nhau cơ bản giữa khai phá dữ liệu và thống kê ở chỗ khai phá dữ liệu là một
phương tiện được dùng bởi người sử dụng đầu cuối chứ không phải là các nhà thống kê.
Khai phá dữ liệu đã khắc phục được các yếu điểm trên của thống kê, tự động quá trình
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

12

thống kê một cách hiệu quả vì thế giảm bớt công việc của người dùng đầu cuối, tạo ra
một công cụ dễ sử dụng hơn.
1.3.3 So sánh với phương pháp học máy (Machine Learning)
So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ
liệu có thể sử dụng với các cơ sở dữ liệu thường động, không đầy đủ, bị nhiễu và lớn hơn
nhiều so với các tập dữ liệu học máy điển hình. Trong khi đó phương pháp học máy chủ
yếu được áp dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không quá lớn.
Thật vậy, trong học máy, thuật ngữ cơ sở dữ liệu chủ yếu đề cập tới một tập các
mẫu được lưu trong tệp. Các mẫu thường là các vectơ với độ dài cố định, thông tin về đặc
điểm, dãy các giá trị của chúng đôi khi cũng được lưu lại như trong từ điển dữ liệu. Một
giải thuật học sử dụng tập dữ liệu và các thông tin kèm theo tập dữ liệu đó làm đầu vào
và đầu ra biểu thị kết quả của việc học. Học máy có khả năng áp dụng cho cơ sở dữ liệu,
lúc này, học máy sẽ không phải là học trên tập các mẫu nữa mà học trên tập các bản ghi
của cơ sở dữ liệu. Tuy nhiên, trong thực tế, cơ sở dữ liệu thường động, không đầy đủ và
bị nhiễu, lớn hơn nhiều so với các tập dữ liệu học máy điển hình. Các yếu tố này làm cho
hầu hết các giải thuật học máy trở nên không hiệu quả. Khai phá dữ liệu lúc này sẽ xử lý
các vấn đề vốn đã điển hình trong học máy và vượt quá khả năng của học máy, đó là sử
dụng được các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liên tục.
1.3.4 So sánh với phương pháp học sâu (Deep Learning)
Khái niệm chính trong thuật toán nghiêng sâu là tự động hóa việc khai thác các
biểu diễn (trừu tượng) từ dữ liệu. Thuật toán học tập sâu sử dụng một lượng lớn dữ liệu
không giám sát để tự động trích xuất biểu diễn phức tạp. Những thuật toán này chủ yếu
được thúc đẩy bởi lĩnh vực trí thông minh nhân tạo, có mục tiêu chung là mô phỏng khả
năng của con người để quan sát, phân tích, học hỏi và đưa ra quyết định, đặc biệt cho các
vấn đề cực kỳ phức tạp. Công việc liên quan đến những thách thức phức tạp này là động
lực chính đằng sau các thuật toán Deep Learning cố gắng mô phỏng cách tiếp cận học tập
phân cấp của bộ não con người. Các mô hình dựa trên kiến trúc học tập nông như cây
quyết định, máy hỗ trợ vector và lý do dựa trên trường hợp có thể bị thiếu khi cố gắng
Số hóa bởi Trung tâm Học liệu và Công nghệ thông tin – ĐHTN

Nghiên cứu một số phương pháp phân lớp và ứng dụng trong phân lớp dữ liệu protein sumo hóa

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về