Tải bản đầy đủ (.pdf) (32 trang)

Báo cáo bài tập lớn thuộc học phần tìm hiểu hồi quy logistic và ứng dụng cho bài toán phân loại vị trí nội địa hóa tế bào của protein

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 32 trang )

lOMoARcPSD|39222806

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
======* * * ======

BÁO CÁO BÀI TẬP LỚN THUỘC HỌC PHẦN:
HỌC MÁY

Đề tài: Tìm hiểu hồi quy logistic và ứng dụng cho bài toán phân loại vị trí nội
địa hóa tế bào của protein

GVHD : Trần Hùng Cường
Lớp : 20222IT6047002
Nhóm :5
Thành viên : Lương Đức Anh

Nguyễn Lương Nam Anh
Nguyễn Đức Chiến
Nguyễn Đức Hảo
Bùi Hải Linh

Hà Nội, 2023

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

MỤC LỤC

DANH MỤC HÌNH ẢNH............................................................................................4


MỞ ĐẦU....................................................................................................................... 5
CHƯƠNG 1: TỔNG QUAN.......................................................................................6

1.1 Tìm hiểu về Machine Learning (Học Máy)..........................................................6
1.1.1 Khái niệm......................................................................................................6
1.1.2 Vai trò của Machine Learning.......................................................................6
1.1.3 Một số kỹ thuật trong Machine Learning......................................................7
1.1.3 Một số phương pháp của Machine Learning.................................................7

1.2 Tìm hiểu về bài tốn phân loại vị trí nội địa hóa tế bào của protein...................11
1.2.1 Tổng quan về bài tốn phân loại vị trí nội địa hóa tế bào của protein.........11
1.2.2 Ứng dụng của bài toán phân loại vị trí nội địa hóa tế bào của protein trong
đời sống hiện nay.................................................................................................12

CHƯƠNG 2: CÁC PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ..............................13
2.1 Thuật toán hồi quy logistic (Logistic Regression)..............................................13
2.1.1 Định nghĩa...................................................................................................13
2.1.2 Quy trình làm việc của thuật tốn KNN......................................................13
2.1.3 Ví dụ minh họa............................................................................................13
2.1.4 Ví dụ về KNN nhiễu...................................................................................14
2.1.5 Khoảng cách trong không gian vector.........................................................14
2.1.6 Ưu điểm của thuật toán...............................................................................14
2.1.7 Nhược điểm của thuật toán.........................................................................15
2.2 Random Forests.................................................................................................15
2.2.1 Định nghĩa...................................................................................................15
2.2.2 Cách hoạt động...........................................................................................15
2.3.3 Ưu điểm của thuật toán...............................................................................15
2.3.4 Nhược điểm của thuật toán.........................................................................15
2.4 Support Vector Machine (SVM)........................................................................15
2.4.1 Định nghĩa...................................................................................................15

2.4.2 Ví dụ minh họa............................................................................................15
2.4.3 Ưu điểm của thuật toán...............................................................................16
2.4.4 Nhược điểm của thuật tốn.........................................................................16

CHƯƠNG 3 : XÂY DỰNG MƠ HÌNH....................................................................17
2

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

3.1 Nhận diện khuôn mặt bằng KNN (K-Nearest Neighbors).................................17
3.1.1 Lí do chọn KNN (K-Nearest Neighbors)........................................................17
3.1.2 Các thư viện được sử dụng nhận dạng............................................................18
3.3 Bộ dữ liệu huấn luyện thuật toán.......................................................................20
3.4 Thực hiện xây dựng mơ hình.............................................................................21
Tài liệu Tham khảo....................................................................................................27

3

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

DANH MỤC HÌNH ẢNH

4

Downloaded by MON HOANG ()


lOMoARcPSD|39222806

MỞ ĐẦU
Những năm gần đây, trí tuệ nhân tạo (AI) nổi lên như một bằng chứng của cuộc
cách mạng công nghiệp lần thứ 4. Trí tuệ nhân tạo có thể được định nghĩa như một
ngành của khoa học máy tính liên quan đến việc tự động hóa các hành vi thơng minh.
Machine learning là một lĩnh vực của trí tuệ nhân tạo. Mục tiêu của machine learning
nói chung là hiểu cấu trúc dữ liệu và điều chỉnh dữ liệu đó thành các model mà mọi
người có thể hiểu và sử dụng. Các ứng dụng của Machine Learning đã quá quen thuộc
với con người: xe tự hành của Google và Tesla, hệ thống tự tag khuôn mặt trên
Facebook, hệ thống gợi ý sản phẩm của Amazon, hệ thống gợi ý phim của Netflix …,
chỉ là một vài trong vô vàn những ứng dụng của trí tuệ nhân tạo và cụ thể là Machine
Learning. Xu hướng phát triển công nghệ thông tin ngày càng tăng, song song với nó
lượng dữ liệu được sinh ra cũng ngày lớn. Vì vậy nhu cầu để xử lý dữ liệu cũng lớn
hơn, Machine Learnig đang góp phần giải quyết vấn đề này. Một trong những thuật
toán thường dùng trong Machine Learning đó là thuật hồi quy logistic. Thuật toán hồi
quy logistic là một thuật toán phân loại được dùng để gán các đối tượng cho một tập
hợp các giá trị rời rạc.

NHÓM 5

5

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

CHƯƠNG 1: TỔNG QUAN
1.1 Tìm hiểu về Machine Learning (Học Máy)
1.1.1 Khái niệm


Là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng
các kĩ thuật cho phép các hệ thống học tự động từ dữ liệu để giải quyết các vấn đề cụ
thể. Ví dụ các máy có thể học cách phân loại thư điện tử có phải thư rác hay không và
tự động sắp xếp vào các thư mục tương ứng. Machine Learning có liên quan thống kê
với cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê,
học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính tốn.
Machine Learning có hiện nay được áp dụng rộng rãi bao gồm truy tìm dữ liệu, máy
phân tích thị trường chứng khốn, nhận dạng tiếng nói và chữ viết …

1.1.2 Vai trị của Machine Learning
Ngày nay, hầu hết các ngành nghề khi phải làm việc với lượng dữ liệu lớn đang

dần nhận thấy sự quan trọng của machine learning. Nhiều ngành nghề đã áp dụng
chúng vào trong thực tiễn.

 Dịch vụ tài chính: Có thể thấy ngành nghề này liên quan đến những con số và
dữ liệu rất cao, chúng được sử dụng để xác định những thông tin quan trọng về
dữ liệu và ngăn chặn gian lận. Phân tích được các cơ hội đầu tư tránh những rủi
ro.

 Chính phủ: Các cơ quan an ninh cộng đồng và các đơn vị cơng ích đã sử dụng
cho các ứng dụng như phân tích dữ liệu cảm biến, phát hiện gian lận và hành vi
trộm cắp danh tính.

 Chăm sóc sức khỏe: Các thiết bị đeo trên người là ứng dụng dựa trên machine
learning, chúng có thể phân tích cảm biến để đánh giá sức khỏe của bệnh nhân
theo thời gian thực và đưa ra cảnh báo kịp thời.

 Dầu khí: ngành dầu khí sử dụng để tìm kiếm những nguồn năng lượng mới.

Phân tích được các chất khống phía dưới lịng đất và dự đốn lỗi cảm biến của
những máy lọc dầu.

6

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

 Giao thơng vận tải: Phân tích mơ hình và xu hướng cho các địa hình cho ngành
vận tải. Đưa ra những tuyến đường hiệu quả hơn và dự đoán những vấn đề tiềm
ẩn về lợi nhuận.

1.1.3 Một số kỹ thuật trong Machine Learning
 Trợ lý cá nhân ảo (Virtual Personal Assistants)
 Nhận dạng khuôn mặt, giọng nói, vân tay, chữ, số, …
 Chuyển đổi lời nói thành văn bản
 Xử lý ngôn ngữ tự nhiên
 Chuyển đổi văn bản thành giọng nói
 Ứng dụng trong các mạng xã hội
 Tự động phân loại

1.1.3 Một số phương pháp của Machine Learning
- Học có giám sát (supervised learning):

Hình 1.1 Học có giám sát (supervised learning)

Học máy có giám sát yêu cầu thực hiện huấn luyện thuật toán với cả dữ liệu đầu
vào sẽ được gắn nhãn. Các thuật tốn học tập có giám sát phù hợp với các tác vụ
sau:


● Phân loại nhị phân: Chia dữ liệu thành hai loại.
● Phân loại nhiều lớp: Lựa chọn giữa nhiều hơn hai loại câu trả lời.
● Mơ hình hồi quy: Dự đốn các giá trị liên tục.

7

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

● Ghép nối: Kết hợp các dự đốn của nhiều mơ hình học máy để tạo ra dự
đốn chính xác

- Học khơng có giám sát (unsupervised learning):

Hình 1.2 Học khơng có giám sát (unsupervised learning)
Các thuật tốn học máy khơng giám sát không yêu cầu dữ liệu phải được
gắn nhãn. Hầu hết các loại học sâu, bao gồm cả mạng thần kinh nhân tạo, đều là
các thuật tốn khơng được giám sát. Các thuật tốn học tập không giám sát tốt
cho các tác vụ sau:
● Phân cụm: Tách tập dữ liệu thành các nhóm dựa trên sự giống nhau.
● Phát hiện bất thường: Xác định các điểm dữ liệu bất thường trong tập dữ

liệu.
● Khai thác liên kết: Xác định các tập hợp các mục trong tập dữ liệu

thường xuyên xảy ra cùng nhau.
 Giảm kích thước: Giảm số lượng biến trong tập dữ liệu.


8

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

- Học bán giám sát (semi-supervised learning):

Hình 1.3 Học bán giám sát (semi-supervised learning)
Học máy bán giám sát hoạt động khi các nhà khoa học cung cấp một lượng
nhỏ dữ liệu đào tạo được gắn nhãn cho một thuật tốn. Từ đó, thuật tốn tìm hiểu
các kích thước của tập dữ liệu, sau đó nó có thể áp dụng cho dữ liệu mới, chưa
được gắn nhãn. Hiệu suất của các thuật toán thường được cải thiện khi chúng đào
tạo trên các tập dữ liệu được gắn nhãn. Tuy nhiên việc ghi nhãn dữ liệu có thể tốn
thời gian và tốn kém. Học máy bán giám sát đặt nền tảng trung gian giữa hiệu
suất của học máy có giám sát và hiệu quả của học máy không giám sát. Một số
lĩnh vực sử dụng phương pháp học máy bán giám sát bao gồm:
 Dịch máy: Dạy các thuật tốn dịch ngơn ngữ dựa trên ít hơn một từ điển

đầy đủ các từ.
 Phát hiện gian lận: Xác định các trường hợp gian lận khi bạn chỉ có một

vài ví dụ tích cực.
 Dán nhãn dữ liệu: Các thuật toán được đào tạo trên tập dữ liệu nhỏ có

thể học cách áp dụng nhãn dữ liệu cho các tập lớn hơn một cách tự động.

9

Downloaded by MON HOANG ()


lOMoARcPSD|39222806

- Học tăng cường (reinforcement learning):

Hình 1.4 Học tăng cường (reinforcement learning)
Học máy tăng cường hoạt động bằng cách lập trình một thuật tốn với một
mục tiêu riêng biệt và một bộ quy tắc được chỉ định để hồn thành mục tiêu đó.
Các nhà khoa học cũng lập trình thuật tốn để tìm kiếm phần thưởng tích cực –
mà nó nhận được khi thực hiện một hành động có lợi cho mục tiêu cuối cùng –
và tránh các hình phạt – mà nó nhận được khi thực hiện một hành động khiến nó
càng xa mục tiêu cuối cùng. Học máy tăng cường thường được sử dụng trong các
lĩnh vực như:
● Robot: Robot có thể học cách thực hiện các nhiệm vụ trong thế giới thực

bằng cách sử dụng kỹ thuật này.
● Trò chơi video: Học máy tăng cường đã được sử dụng để dạy bot chơi

một số trò chơi điện tử.
● Quản lý nguồn lực: Với nguồn lực hữu hạn và một mục tiêu xác định,

việc học máy tăng cường có thể giúp doanh nghiệp lập kế hoạch phân bổ
nguồn lực.

10

Downloaded by MON HOANG ()

lOMoARcPSD|39222806


1.2 Tìm hiểu về bài tốn phân loại vị trí nội địa hóa tế bào của protein

1.2.1 Tổng quan về bài toán phân loại vị trí nội địa hóa tế bào của protein

 Input: Các thuộc tính mcg, gvh, alm, mit, erl, pox, vac, nuc.

Tên thuộc tính Thông tin của thuộc tính
mcg Phương pháp nhận dạng chuỗi tín hiệu của McGeoch
gvh Phương pháp nhận dạng chuỗi tín hiệu của von Heijne
alm Điểm của chương trình dự đốn khu vực kéo dài màng ALOM
Điểm phân tích phân biệt hàm lượng axit amin của vùng đầu N
mit
(dài 20 gốc) của protein ty thể và protein ngoài ty thể
Sự hiện diện của chuỗi con "HDEL" (được cho là hoạt động

erl như một tín hiệu để lưu giữ trong lịng mạng lưới nội chất).

Thuộc tính nhị phân

pox Tín hiệu nhắm mục tiêu peroxisomal trong C-terminator

Điểm phân tích phân biệt hàm lượng axit amin của protein
vac

không bào và protein ngoại bào.

Điểm phân tích phân biệt các tín hiệu định vị hạt nhân của
nuc

protein hạt nhân và phi hạt nhân.


 Output: xuất ra tên lớp vị trí nội địa hóa tế bào của protein.
Bài tốn phân loại vị trí nội địa hóa tế bào của protein là một bài toán quan trọng trong
sinh học phân tử và được giải quyết bằng các phương pháp học máy như SVM,
Random Forests và Neural Networks, Logistic Regression, …

11

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

1.2.2 Ứng dụng của bài tốn phân loại vị trí nội địa hóa tế bào của protein trong
đời sống hiện nay

Bài tốn phân loại vị trí nội địa hóa tế bào của protein có nhiều ứng dụng trong
đời sống hiện nay. Một số ứng dụng của bài toán này bao gồm:

 Dự doán chức năng của protein: Bài toán phân loại vị trí nội địa hóa tế bào của
protein có thể giúp xác định chức năng của protein.

 Nghiên cứu bệnh lý: Bài tốn này có thể giúp xác định các protein liên quan
đến các bệnh lý và giúp phát triển các phương pháp điều trị mới.

 Thiết kế thuốc: Bài tốn này có thể giúp thiết kế các thuốc mới để điều trị các
bệnh lý liên quan đến protein.

12

Downloaded by MON HOANG ()


lOMoARcPSD|39222806

CHƯƠNG 2: CÁC PHƯƠNG PHÁP GIẢI QUYẾT VẤN ĐỀ.
2.1 Thuật toán hồi quy logistic (Logistic Regression)
2.1.1 Định nghĩa

K-láng giềng gần nhất (K Nearest Neighbor - KNN) là một trong những thuật
tốn học có giám sát đơn giản nhất trong Machine Learning. Ý tưởng của KNN là tìm
ra output của dữ liệu dữ trên thơng tin của những dữ liệu training gần nó nhất.
2.1.2 Quy trình làm việc của thuật toán KNN.

Bước 1: Xác định tham số K = số láng giềng gần nhất.
Bước 2: Tính khoảng cách đối tượng cần phân lớp với tất cả các đối tượng trong

training data.
Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần

nhất với đối tượng cần phân lớp.
Bước 4: Lấy tất cả các lớp của K láng giềng gần nhất.
Bước 5: Dựa vào phần lớn lớp của K để xác định lớp cho đối tượng cần phân lớp.
2.1.3 Ví dụ minh họa

Hình 2.1 Ví dụ minh họa của thuật toán KNN
Bài tốn được đặt ra: Bạn có điểm của một môn học nhưng bạn không biết thuộc

loại nào (Giỏi, khá). Giả sử bạn không biết bất kỳ quy tắc nào để phân loại cả.Ta dễ
dàng thấy: Hình vng đỏ biểu diễn cho những bạn có điểm Khá, hình tam giác xanh
biểu diễn cho những bạn có điểm Giỏi. Điểm chấm xanh lá là điểm của mình muốn
tìm thuộc loại nào.Có một cách giải quyết là bạn phải đi khảo sát những người xung

quanh. Để biết điểm của mình thuộc loại nào thì bạn phải đi hỏi những đứa có điểm

13

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

gần số điểm mình nhất. Giả sử trong lớp 50 đứa, mình khảo sát 3 đứa gần điểm mình
nhất và được dữ liệu như hình trên. Với K = 3 dựa theo hình trên ta dễ dàng nhận ra có
hai hình tam giác xanh và một hình vng đỏ có khoảng cách gần nhất với điểm chấm
xanh và với tỷ lệ tam giác xanh nhiều hơn hình vng đỏ ta có thể đốn được điểm của
mình là điểm Khá.
2.1.4 Ví dụ về KNN nhiễu

Hình 2.2 KNN nhiễu
Ví dụ trên đây là bài toán phân lơp với 3 lớp: Đỏ, Lam, Lục. Mỗi điểm dữ liệu

mới (test data point) sẽ được gán label theo màu của điểm mà nó thuộc về. Trong hình
này, có một vài vùng nhỏ xem lẫn vào các vùng lớn hơn khác màu. Ví dụ có một điểm
màu Lục ở gần góc 11 giờ nằm giữa hai vùng lớn với nhiều dữ liệu màu Đỏ và Lam.
Điểm này rất có thể là nhiễu. Dẫn đến nếu dữ liệu test rơi vào vùng này sẽ có nhiều
khả năng cho kết quả khơng chính xác.
2.1.5 Khoảng cách trong không gian vector

Trong không gian một chiều, khoảng cách giữa hai điểm là trị tuyệt đối giữa hiệu
giá trị của hai điểm đó. Trong không gian nhiều chiều, khoảng cách giữa hai điểm có
thể được định nghĩa bằng nhiều hàm số khác nhau, trong đó độ dài đường thằng nổi
hai điểm chỉ là một trường hợp đặc biệt trong đó. Nhiều thơng tin bổ ích (cho Machine
Learning) có thể được tìm thấy tại Norms (chuẩn) của vector trong tab Math.

2.1.6 Ưu điểm của thuật toán

● Dễ sử dụng và cài đặt.
14

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

● Việc dự đoán kết quả của dữ liệu mới dễ dàng.
● Độ phức tạp tính tốn nhỏ.
2.1.7 Nhược điểm của thuật toán
● KNN nhiễu dễ đưa ra kết quả không chính xác khi K nhỏ.
● Cần thời gian lưu training set, khi dữ liệu training và test tăng lên nhiều sẽ

mất nhiều thời gian tính tốn.
2.2 Decision Tree
2.2.1 Định nghĩa.
Decision tree là một mơ hình supervised learning, có thể được áp dụng vào cả hai bài
toán classification và regression. Mỗi một nút trong (internal node) tương ứng với một
biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi
nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến
được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng trong cây
quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là
cây quyết định.

Mơ hình ví dụ về bài toán phân lớp sử dụng decision tree.

15


Downloaded by MON HOANG ()

lOMoARcPSD|39222806

2.2.2Ví dụ minh họa.
Đây là một bảng dữ liệu được sử dụng rất nhiều trong các bài giảng về decision tree.
Bảng dữ liệu này mô tả mối quan hệ giữa thời tiết trong 14 ngày (bốn cột đầu, khơng
tính cột id) và việc một đội bóng có chơi bóng hay khơng (cột cuối cùng). Nói cách
khác, ta phải dự đốn giá trị ở cột cuối cùng nếu biết giá trị của bốn cột còn lại.

Có bốn thuộc tính thời tiết:
1. Outlook nhận một trong ba giá trị: sunny, overcast, rainy.
2. Temperature nhận một trong ba giá trị: hot, cool, mild.
3. Humidity nhận một trong hai giá trị: high, normal.
4. Wind nhận một trong hai giá trị: weak, strong.

(Tổng cộng có 3×3×2×2=363×3×2×2=36 loại thời tiết khác nhau, trong đó 14 loại
được thể hiện trong bảng.)
Đây có thể được coi là một bài tốn dự đốn liệu đội bóng có chơi bóng khơng dựa
trên các quan sát thời tiết. Ở đây, các quan sát đều ở dạng categorical. Cách dự đốn
dưới đây tương đối đơn giản và khá chính xác, có thể khơng phải là cách ra quyết định
tốt nhất:

 Nếu outlook = sunny và humidity = high thì play = no.
 Nếu outlook = rainy và windy = true thì play = no.
 Nếu outlook = overcast thì play = yes.
 Ngồi ra, nếu humidity = normal thì play = yes.
 Ngoài ra, play = yes.
Chúng ta sẽ cùng tìm thứ tự các thuộc tính bằng thuật tốn ID3.
Trong 14 giá trị đầu ra ở Bảng trên, có năm giá trị bằng no và chín giá trị bằng yes.

Entroy tại root node của bài toán là:

16

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

Tiếp theo, chúng ta tính tổng có trọng số entropy của các child node nếu chọn một
trong các thuộc tính outlook, temperature, humidity, wind, play để phân chia dữ liệu.

Xét thuộc tính outlook. Thuộc tính này có thể nhận một trong ba giá trị sunny,

overcast, rainy. Mỗi một giá trị sẽ tương ứng với một child node. Gọi tập hợp các

điểm trong mỗi child node này lần lượt là với

tương ứng phần tử. Sắp xếp lại Bảng ban đầu theo thuộc tính outlook ta đạt

được ba Bảng nhỏ sau đây.

Quan sát nhanh ta thấy rằng child node ứng với outlook = overcast sẽ có entropy bằng
0 vì tất cả mo=4 output đều là yes. Hai child node cịn lại với ms=mr=5có
entropy khá cao vì tần suất output bằng yes hoặc no là xấp xỉ nhau. Tuy nhiên,
hai child node này có thể được phân chia tiếp dựa trên hai thuộc
tính humidity và wind.

17

Downloaded by MON HOANG ()


lOMoARcPSD|39222806

Bạn đọc có thể kiểm tra được rằng

Xét thuộc tính temperature, ta có phân chia như các Bảng dưới đây.

Việc tính tốn với hai thuộc tính cịn lại được dành cho bạn đọc. Nếu các kết quả là
giống nhau, chúng sẽ bằng:
Như vậy, thuộc tính cần chọn ở bước đầu tiên là outlook vì H(outlook,S) đạt giá trị
nhỏ nhất (information gain là lớn nhất).
Sau bước phân chia đầu tiên này, ta nhận được ba child node với các phần tử như trong
ba Bảng phân chia theo outlook. Child node thứ hai không cần phân chia tiếp vì nó
đã tinh khiết. Với child node thứ nhất, ứng với outlook = sunny, kết quả tính được
bằng ID3 sẽ cho chúng ta thuộc tính humidity vì tổng trọng số của entropy sau bước

18

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

này sẽ bằng 0 với output bằng yes khi và chỉ khi humidity = normal. Tương tự, child
node ứng với outlook = wind sẽ được tiếp tục phân chia bởi thuộc tính wind với output
bằng yes khi và chỉ khi wind = weak.
Như vậy, cây quyết định cho bài toán này dựa trên ID3 sẽ có dạng như dưới:

Decision tree cho bài tốn ví dụ sử dụng thuật toán ID3.
2.3.3 Ưu điểm của thuật toán.


 Mơ hình dễ hiểu và dễ giải thích.
 Cần ít dữ liệu để huẩn luyện.
 Có thể xử lý tốt với dữ liệu dạng số (rời rạc và liên tục) và dữ liệu hạng mục.
 Mơ hình dạng white box rõ ràng.
 Xây dựng nhanh.
 Phân lớp nhanh.
2.3.4 Nhược điểm của thuật toán.
 Không đảm bảo xây dựng được cây tối ưu.
 Có thể overfitting (tạo ra những cây quá khớp với dữ liệu huấn luyện hay quá

phức tạp).
 Thường ưu tiên thuộc tính có nhiều giá trị (khắc phục bằng các sử dụng Gain

Ratio).
2.4 Support Vector Machine (SVM)
2.4.1 Định nghĩa

Support Vector Machine (SVM) là một mơ hình phân loại hoạt động bằng việc
xây dựng một siêu phẳng (hyperplane) có (n - 1) chiều trong không gian n chiều của

19

Downloaded by MON HOANG ()

lOMoARcPSD|39222806

dữ liệu sao cho siêu phẳng này phân loại các lớp một cách tối ưu nhất. Nói cách khác,
cho một tập dữ liệu có nhãn (học có giám sát), thuật tốn sẽ dựa trên dữ liệu học để
xây dựng một siêu phẳng tối ưu được sử dụng để phân loại dữ liệu mới. Ở khơng gian
2 chiều thì siêu phẳng này là 1 đường thẳng phân cách chia mặt phẳng không gian

thành 2 phần tương ứng 2 lớp với mỗi lớp nằm ở 1 phía của đường thẳng.
2.4.2 Ví dụ minh họa

Ta có các điểm dữ liệu như hình dưới đây với mỗi điểm thuộc 1 trong 2 lớp cho
trước:

Hình 2.16 Ví dụ mơ hình SVM
Một đường thẳng phân cách có thể được vẽ như sau:

Hình 2.17 Ví dụ mơ hình SVM
Đường thẳng này chia cách khá tốt 2 lớp trên mặt phẳng. Tất cả những điểm dữ

liệu nằm bên trái đường thẳng đều thuộc về lớp hình trịn và những điểm nằm ở bên
phải thuộc về lớp hình vng. Nhiệm vụ của SVM chính là tìm ra đường thẳng / siêu
phẳng phân cách cách sao cho phân loại dữ liệu tốt nhất có thể.
2.4.3 Ưu điểm của thuật tốn

Là một kĩ thuật phân lớp khá phổ biến, SVM thể hiện được nhiều ưu điểm trong
số đó có việc tính tốn hiệu quả trên các tập dữ liệu lớn. Có thể kể thêm một số ưu
điểm của phương pháp này như:

20

Downloaded by MON HOANG ()


×