Tải bản đầy đủ (.pdf) (18 trang)

Các câu hỏi có câu trả lời về Học máy (machine learning)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.03 MB, 18 trang )

TRƯỜNG ĐẠI HỌC SƯ PHẠM KĨ THUẬT TP.HCM
KHOA ĐÀO TẠO CHẤT LƯỢNG CAO

TÀI LIỆU ÔN TẬP
MACHINE LEARNING
(Tài liệu chỉ dùng để ơn tập thi cuối kì, khơng dùng cho mục đích khác)

Thành phố Hồ Chí Minh, Tháng 5 năm 2022

i


PHỤ LỤC
CHƯƠNG 1: LÝ THUYẾT MACHINE LEARNING.................................................... 1
1. Định nghĩa Artificial Intelligence (AI)? Cho ví dụ .................................................. 1
2. Định nghĩa Machine Learning? Cho ví dụ ............................................................... 1
3. Định nghĩa Deep Learning? Cho ví dụ...................................................................... 1
4. Định nghĩa Supervised Learning? Cho ví dụ? Liệt kê các thuật tốn? ................. 1
5. Định nghĩa Unsupervised Learning? Cho ví dụ? Liệt kê các thuật tốn?............. 1
6. Định nghĩa Clustering? Cho ví dụ ............................................................................. 2
7. Principle Component Analysis (PCA) là gì, ưu điểm của PCA .............................. 2
8. Linear Discriminant Analysis (LDA) là gì, ưu điểm của LDA ............................... 2
9. So sánh thuật toán Principle Component Analysis (PCA) và Linear
Discriminant Analysis (LDA)? ....................................................................................... 3
10. So sánh sự khác biệt giữa thuật toán Supervised Learning và Unsupervised
Learning? Liệt kê các thuật tốn. .................................................................................. 3
11. Giải thích ngắn gọn thuật tốn Gradient Descent? ............................................... 4
12. Regression là gì? Cho ví dụ ...................................................................................... 4
13. Trình bày sự giống và khác nhau của linear regression, nonlinear regression,
polynomial regression ..................................................................................................... 4
14. Giải thích thuật ngữ Data Preprocessing ................................................................ 5


15. Feature extraction là gì? Cho ví dụ một số thuật tốn .......................................... 5
16. Feature selection là gì Cho ví dụ một số thuật tốn ............................................... 5
17. Cross Validation là gì? .............................................................................................. 5
18. Giải thích thuật ngữ “fold” trong Machine Learning? ......................................... 5
19. “Sparse matrix” là gì? Cho ví dụ? ........................................................................... 6
ii


20. Rescaling a feature là gì? Cho ví dụ? ...................................................................... 6
21. Standardizing a Feature là gì? Cho ví dụ? ............................................................. 6
22. Detecting Outliers là gì? Cho ví dụ?........................................................................ 6
23. Handling Outliers là gì? Cho ví dụ? ........................................................................ 7
24. Thresholding Numerical Feature Variance là gì? dùng để làm gì? ..................... 7
25. Thresholding Binary Feature Variance là gì? dùng để làm gì? Giải thích và cho
ví dụ? ................................................................................................................................ 7
Câu 26: Handling Highly Correlated Features là gì? dùng để làm gì? Giải thích và
cho ví dụ? ......................................................................................................................... 7

iii


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
CHƯƠNG 1: LÝ THUYẾT MACHINE LEARNING
1. Định nghĩa Artificial Intelligence (AI)? Cho ví dụ
AI được đề cập tới khả năng mà một cái máy bắt chước trí thơng minh của con người
và động vật
Vd: Trợ lí ảo, ơtơ tự lái, chatbot và các bot dịch vụ, Nhận dạng khn mặt bằng
MTCNN, Nhận dạng món ăn bằng CNN…
2. Định nghĩa Machine Learning? Cho ví dụ
ML là một lĩnh vực của trí tuệ nhân tạo, ML là ứng dụng của AI mà chúng cho phép

một hệ thống tự động học tập và cả thiện chất lượng từ những kinh nghiệm.
Vd: dự đoán giá nhà boston, nhận diện tập hoa iris, bộ lọc spam mail...
3. Định nghĩa Deep Learning? Cho ví dụ
DL là ứng dụng machine learning trong việc sử dụng những thuật toán phức tạp và
mạng nơ-ron sâu để tạo mơ hình.
Vd: Trợ lí ảo, ơtơ tự lái, chatbot và các bot dịch vụ, Nhận dạng khn mặt bằng
CNN, Nhận dạng món ăn bằng CNN …
4. Định nghĩa Supervised Learning? Cho ví dụ? Liệt kê các thuật tốn?
Supervised Learning là khả năng học có giám sát, thuật toán này dự đoán đầu ra của
một tập dữ liệu mới (new input) dựa trên các cặp (đầu ra và đầu vào) đã biết trước. Các cặp
này còn được gọi là (data, label).
Vd: dự đoán giá nhà ở Boston khi dữ liệu train gồm có input và output.
Các thuật tốn: Classification, Regression.
5. Định nghĩa Unsupervised Learning? Cho ví dụ? Liệt kê các thuật tốn?
Unsupervised Learning là thuật tốn hóc khơng giám sát, thuật tốn khơng biết được
đầu ra hay nhãn mà chỉ dựa vào đầu vào. Thuật toán tiếp cận đến việc mơ hình hóa được
cấu trúc hay thơng tin ẩn trong dữ liệu.
1


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
Vd: doanh nghiệp muốn tập trung tìm hiểu khách hàng cùng hành vi của họ, như: họ
là ai, họ có xu hướng sử dụng loại phương tiện nào?
Các thuật toán: Clustering, Association
6. Định nghĩa Clustering? Cho ví dụ
Clusrering là bài tốn phân nhóm tồn bộ dữ liệu X thành các nhóm nhỏ dựa trên sự
liên quan giữa các dữ liệu trong mỗi nhóm.
Vd: cơng ty đó có rất nhiều dữ liệu của rất nhiều khách hàng sử dụng thuật tốn
Clustering chia tồn bộ khách hàng đó thành một số nhóm/cụm khác nhau dễ dàng quản lí
và rút gọn đi khối lượng cơng việc.

7. Principle Component Analysis (PCA) là gì, ưu điểm của PCA
Trích xuất được thông tin hoặc các đặc trưng ẩn từ tập dữ liệu, định nghĩa dữ liệu do
dùng ít thành phần hơn dựa trên phương sai của dữ liệu giúp giảm số lượng dặc trưng và số
lượng đầu vào góp phần tính tốn đơn giản hơn. Xác định được 1 điểm dữ liệu mới thuộc
nhóm nào trong tập dữ liệu mà nó khơng ảnh hưởng tới việc huấn luyện phân tích dữ liệu.
Ưu điểm: Loại bỏ các đặc trưng tương quan (giảm các đặc trưng), cải thiện hiệu ѕuất
thuật toán, cải thiện trực quan hóa dữ liệu (dễ trực quan hóa khi có ít chiều)
8. Linear Discriminant Analysis (LDA) là gì, ưu điểm của LDA
LDA có thể được coi là một phương pháp giảm chiều dữ liệu (dimensionality
reduction), và cũng có thể được coi là một phương pháp phân lớp (classification), và cũng
có thể được áp dụng đồng thời cho cả hai, tức giảm chiều dữ liệu sao cho việc phân lớp
hiệu quả nhất
Ưu điểm: Dùng để giảm chiều dữ liệu, ngồi ra tìm ra sự kết hợp tuyến tính giữa các
biến để phân chia lớp, tránh được bài toán overfitting, tăng khả năng phân lớp dữ liệu.

2


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
9. So sánh thuật tốn Principle Component Analysis (PCA) và Linear Discriminant
Analysis (LDA)?
LCA:
+ Trích xuất các yếu tố ẩn từ tập dữ liệu
+ Xác định dữ liệu bằng cách sử dụng ít thành phần hơn, giải thích sự khác biệt trong
dữ liệu của bạn.
+ Giảm độ phức tạp tính tốn.
+ Xác định xem một điểm dữ liệu mới có phải là một phần hay khơng của nhóm các
điểm dữ liệu từ tập huấn luyện.
PCA:
+ Giảm kích thước.

+ Tìm kiếm sự kết hợp tuyến tính của các biến phân tách tốt nhất hai lớp.
+ Giảm overfitting.
+ Xác định quan sát cách phân loại ra khỏi nhóm lớp
10. So sánh sự khác biệt giữa thuật tốn Supervised Learning và Unsupervised
Learning? Liệt kê các thuật toán.
Đối với Supervised Learning thuật toán này dự đoán đầu ra của một tập dữ liệu
mới (new input) dựa trên các cặp (đầu ra và đầu vào) đã biết trước. Còn với Unsupervised
Learning là thuật tốn khơng biết được đầu ra hay nhãn mà chỉ dựa vào đầu vào. Thuật
toán tiếp cận đến việc mơ hình hóa được cấu trúc hay thơng tin ẩn trong dữ liệu.
Supervised Learning có thuật tốn Classification và Regression
Unsupervised Learning có thuật tốn Clusrering và Association

3


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
11. Giải thích ngắn gọn thuật toán Gradient Descent?
Gradient decent là hàm tối ưu hóa bậc nhất lặp đi lăp lại để tìm giá trị tối thiểu/tối
đa cục bộ của một hàm nhất định.
12. Regression là gì? Cho ví dụ
Định nghịa: Khi xây dựng mơ hình hồi quy chúng ta có thể suy ra được mối quan
hệ, dựa trên mối quan hệ các biến dúng ta sẽ phân tích giữa các biến đầu vào hay mối quan
hệ giữa các biến đầu vào hay các biến đầu ra dự báo.
Ví dụ: Dự báo kết quả liên tục như giá nhà, giá cổ phiếu hoặc doanh số, dự đốn sự
thành cơng của các chiến dịch bán hàng hoặc tiếp thị bán lẻ trong tương lai để đảm bảo các
nguồn lực được sử dụng hiệu quả, dự đoán xu hướng của khách hàng hoặc người dùng,
chẳng hạn như trên các dịch vụ phát trực tuyến hoặc các trang web thương mại điện tử ….
13. Trình bày sự giống và khác nhau của linear regression, nonlinear regression,
polynomial regression
Linear Regression là một phương pháp thống kê để hồi quy dữ liệu với biến phụ

thuộc có giá trị liên tục trong khi các biến độc lập có thể có một trong hai giá trị liên tục
hoặc là giá trị phân loại. Nói cách khác "Hồi quy tuyến tính" là một phương pháp để dự
đoán biến phụ thuộc (Y) dựa trên giá trị của biến độc lập (X). Nó có thể được sử dụng cho
các trường hợp chúng ta muốn dự đốn một số lượng liên tục. Ví dụ, dự đốn giao thơng ở
một cửa hàng bán lẻ, dự đốn thời gian người dùng dừng lại một trang nào đó hoặc số trang
đã truy cập vào một website nào đó v.v...
None-Linear Regression là một hình thức của mơ hình tốn học phản ánh kết quả
trong một đường cong giữa hai biến (x & y) thay vì mối quan hệ đường thẳng như trong
trường hợp hồi quy tuyến tính, thường đơn giản hơn với biểu thức như y = a + bx. Đặc điểm
chính của hồi quy phi tuyến tính là phương trình dự đốn khơng phụ thuộc tuyến tính vào
các tham số chưa biết. Loại hồi quy này sử dụng các hàm như lượng giác, logarit và hàm
mũ.

4


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
Polynomial Regression là một hình thức hồi quy tuyến tính trong đó chỉ do mối
quan hệ phi tuyến tính giữa các biến phụ thuộc và độc lập, chúng tôi thêm một số thuật ngữ
đa thức để hồi quy tuyến tính để chuyển đổi nó thành hồi quy đa thức. Giả sử chúng ta có
x là dữ liệu độc lập và y làm dữ liệu phụ thuộc. Trước khi cung cấp dữ liệu đến một chế độ
trong giai đoạn tiền xử lý, chúng tôi chuyển đổi các biến đầu vào thành các thuật ngữ đa
thức bằng cách sử dụng một mức độ nào đó.
14. Giải thích thuật ngữ Data Preprocessing
Tiền xử lý dữ liệu là một kỹ thuật khai thác dữ liệu có liên quan đến chuyển dữ
liệu thô thành một định dạng dễ hiểu. dữ liệu thực tế thường không đầy đủ, không nhất
quán và có khả năng chứa nhiều lỗi.
15. Feature extraction là gì? Cho ví dụ một số thuật tốn
Feature extraction là tự đông tạo ra các biến mới bằng cách thu thập từ dữ liệu
thơ. Mục đích của feature extraction là giảm khối lượng dữ liệu để giúp dễ quản lý hơn

cho tạo mơ hình.
16. Feature selection là gì Cho ví dụ một số thuật toán
Feature Selection được sử dụng để chọn những đặc trưng có thuộc tính hữu ích
nhất để dự báo các giá trị đầu ra mà chúng ta quan tâm hay nói cách khác là chúng ta loại
bỏ những features dư thừa đi.
17. Cross Validation là gì?
Cross validation là một kỹ thuật lấy mẫu để đánh giá mô hình học máy trong
trường hợp dữ liệu khơng được dồi dào cho lắm.
18. Giải thích thuật ngữ “fold” trong Machine Learning?

Fold trong học máy (machine learning) là một tập hợp các bản ghi (thường là
liên tiếp) của tập dữ liệu (dataset)
Thuật ngữ folds này ta thường thấy trong kỹ thuật K-Fold Cross-Validation. Trong
K-Fold Cross-Validation, thì ta thường chia dữ liệu thành k phần được gọi là “Folds”, Sau
đó, mơ hình được huấn luyện bằng cách sử dụng k - 1 Folds — được kết hợp thành một tập
5


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
huấn luyện — và sau đó Folds cuối cùng được sử dụng như một tập test. Chúng ta lặp lại
điều này k lần, mỗi lần sử dụng một Folds khác nhau làm bộ thử nghiệm. Hiệu suất trên mơ
hình cho mỗi lần lặp lại k sau đó được tính trung bình để tạo ra một phép đo tổng thể.
19. “Sparse matrix” là gì? Cho ví dụ?
Sparse matrix là ma trận chỉ chứa các giá trị khác khơng và giả sử các giá trị cịn
lại bằng khơng.

20. Rescaling a feature là gì? Cho ví dụ?
Rescaling a feature là là chia lại tỷ lệ các giá trị của một đối tượng số thành một
khoảng giữa hai giá trị.
Ví dụ: Có rất nhiều kĩ thuật rescaling, nhưng một trong nhưng ví dụ đơn giản nhất

là min-max scaling. Min-max scaling sử dụng các giá trị tối thiểu và tối đa của một đối
tượng để điều chỉnh tỷ lệ các giá trị trong một phạm vi. Ta có cơng thức:

21. Standardizing a Feature là gì? Cho ví dụ?
Standardizing a Feature là biến đổi một đối tượng để có giá trị trung bình bằng 0
và độ lệch chuẩn là 1.
Ví dụ: Khi ta sử dụng thuật toán PCA thường hoạt động tốt hơn khi sử dụng tiêu
chuẩn hóa.
22. Detecting Outliers là gì? Cho ví dụ?
Dectecting Outliers là phát hiện ra các điểm khác thường bằng cách giả định dữ
liệu được phân phối bình thường và dựa trên giả định đó "vẽ" một hình elip xung quanh
6


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
dữ liệu, phân loại bất kỳ quan sát nào bên trong hình elip dưới dạng phần trong (được gắn
nhãn là 1) và bất kỳ quan sát nào bên ngồi hình elip như một phần ngoại (được gắn nhãn
là -1)
23. Handling Outliers là gì? Cho ví dụ?
24. Thresholding Numerical Feature Variance là gì? dùng để làm gì?
Thresholding Numerical Feature Variance là một trong những cách tiếp cận cơ bản
nhất để lựa chọn đối tượng .
Thresholding Numerical Feature được dùng để loại bỏ những tính năng có phương
sai thấp (tức là có thể chứa ít thơng tin).
25. Thresholding Binary Feature Variance là gì? dùng để làm gì? Giải thích và cho
ví dụ?
Thresholding Binary Feature Variance là một trong những cách tiếp cận cơ bản
nhất để lựa chọn đối tượng
Dùng để loại bỏ những tính năng có phương sai thấp (tức là có thể chứa ít thơng
tin) trong tập hợp các các đặc trưng phân loại nhị phân.

Câu 26: Handling Highly Correlated Features là gì? dùng để làm gì? Giải thích và
cho ví dụ?
Handling Highly Correlated Features là xử lí các feature có mức độ tương quan
cao. Nếu hai đặc điểm có mối tương quan cao, khi đó thơng tin sẽ bị dư thừa nếu gồm cả
2 feature.
Handling Highly Correlated Features dùng để loại bỏ đi một feature.

7


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
27. Removing Irrelevant Features for Classification là gì? Giải thích và Cho ví dụ ?
28. Recursively Eliminating Features là gì? Cho ví dụ
29. Baseline Regression Model là gì? dùng để làm gì?
30. Baseline Classification Model là gì? dùng để làm gì?
31. Cross-Validating Model là gì? Cho ví dụ?
32. Confusion matrix là gì? cho ví dụ?
Confusion matrix là một hình dung dễ dàng và hiệu quả về hiệu suất phân lớp.
Ví dụ: Tập hoa iris có 3 loại hoa

- 13 bơng sentosa nó dự đốn đúng 10 bơng sentosa
- 10 bơng versicolor nó dự đốn đúng 10 bơng versicolor
- 9 bơng virsinica nó dự đốn đúng 9 bơng versinica
Tuy nhiên: có 6 bơng versicolor lại bị nhận nhầm thánh virginica
=> Qua đây ta thấy được mơ hình chúng ta cịn bị nhận sai một số bơng versicolor thành
virginica, từ đây ta có những đề xuất để cải thiện chất lượng mơ hình.
33. Performance metric là gì? Cho ví dụ?
Performance metric là số liệu và đại diện cho dữ liệu của các hành động, khả
năng và chất lượng tổng thể của một mơ hình.


8


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
Ví dụ: accuracy, precision, recall, and F1.
34. Training Set Size ảnh hưởng như thế nào đến chất lượng của mơ hình thu được
sau huấn luyện? Giải thích.
Training Set Size làm ảnh hưởng đáng kể tới chất lương mơ hình thu được sau
huấn luyện nhưng nếu tăng số lượng tập dữ liêu tới một ngưỡng nhất định thì chất lượng
mơ hình sẽ khơng thay đổi nhiều.
Ví dụ: ta có một tập dữ liệu có 100 tấm hình để phân loại ổi với táo với 50 hình ổi
và 50 hình táo thì chúng ta có chất lượng mơ hình chỉ với độ chính xác dự đốn giả sử là
50%. Mặt khác, ta tăng số lượng tập huấn luyện lên thành 300 tấm hình ổi và 300 tấm
hình táo thì chất lượng có thể lên tới 70%, nếu ta tăng ổi lên 1000 và táo lên 1000 thì chất
lượng có thể lên tới 90%. Tuy nhiên, nếu ta tăng số lượng ảnh huẩn luyện ổi lên 1600 và
táo lên 1600 thì chất lượng cũng chỉ lên được 90.1%.
=> Ta thấy được khi tập dữ liệu huấn luyện ít nếu ta tăng thêm thì chất lượng mơ hình
thay đổi đáng kể, nhưng khi tăng tập huấn luyện lên một ngưỡng nào đó thì chất lượng
mơt hình tăng rất ít hoặc thậm chí không đổi. Để giả quyết vấn đề này thì ta chỉ cịn cách
thay đổi thuật tốn để cải thiện chất lượng mơ hình.
35. Ảnh hưởng của Hyperparameter values như thế nào đến chất lượng của mô hình
thu được sau huấn luyện?
Trong những thuật tốn thì có những thông số hiệu chỉnh, khi chúng ta thay đổi
những thơng số đó thì nó sẽ dẫn đến những kết quả mơ hình khác nhau (tức là cùng một
thuật tốn nhưng ta thay đổi các thơng số trong thuật tốn đó khác nhau thì chất lượng của
mơ hình sẽ khác nhau).
Để hiểu hơn về ảnh hưởng của Hyperaparameter values thì ta đưa ra một ví dụ về
nướng bánh: khi ta nướng một cái bánh cùng nhiệt độ 100 độ C thì khi ta nước ít thời gian
q thì bánh chín khơng đều, nếu ta nướng lâu q thì sẽ làm bánh bị khô và cháy, bánh
chỉ ngon khi ta nướng đủ thời gian.


9


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
36. Giải thích các thuật ngữ Accuracy, Precision, rRecall, F1 score
Accuracy là tỷ lệ của các giá trị dự đốn tích cực so với tổng giá trị dự đoán.

Precision là tỷ lệ của tất cả các quan sát được dự đốn là tích cực, có bao nhiêu
thực sự là tích cực.

Recall là tỷ lệ của mọi quan sát thực sự tích cực, có bao nhiêu quan sát được dự
đốn là tích cực.

Để có tác dụng kết hợp giữa Precision và Recall, chúng ta sử dụng điểm F1. ĐIểm
F1 là giá trị trung bình hài hịa của độ chính xác và thu hồi.

37. Giải thích Receiving Operating Characteristic (ROC) curve? Cho ví dụ?
Receiving Operating Characteristic (ROC) curve là một phương pháp phổ biến
để đánh giá chất lượng của bộ phân loại nhị phân. ROC so sánh sự hiện diện của dương
tính thật và dương tính giả ở mọi ngưỡng xác suất (tức là xác suất mà một quan sát được
dự đoán là một lớp).
38. Giải thích thuật ngữ True Positives (TP), True Negatives (TN), False Positives
(FP), False Negatives (FN)
TP là tất cả các quan sát thuộc về lớp positive và chúng được dự đoán đúng là
positive. Ví dụ các bệnh nhân dương tính COVID 19 được dự đốn chính xác là dương tính.

10



Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
TN là tất cả các quan sát thuộc về lớp negative và chúng được dự đốn đúng là
negative. Ví dụ các bệnh nhân âm tính COVID 19 được dự đốn chính xác là âm tính.
FP là tất cả các quan sát được dự đốn là thuộc lớp positive nhưng thật ra nó ở lớp
negative. Ví dụ các bệnh nhân âm tính COVID 19 được chuẩn đốn sai thành dương tính.
FN là tất cả các quan sát được dự đoán là thuộc lớp negative nhưng thật ra nó ở lớp
positive. Ví dụ các bệnh nhân dương tính COVID 19 được chuẩn đốn sai thành âm tính.
39. SVM là gì, ưu điểm của SVM?Kernel là gì, kernel có ưu điểm gì ?trình bày một
số kernel SVM tiêu biểu

Ý tưởng của SVM là tìm một siêu phẳng (hyper lane) để phân tách các điểm
dữ liệu. Siêu phẳng này sẽ chia không gian thành các miền khác nhau và mỗi miền
sẽ chứa một loại giữ liệu
Ưu điểm SVM:
 Đây là thuật tốn hoạt động hiệu quả với khơng gian cao chiều
 Thuật tốn tiêu tốn ít bộ nhớ vì chỉ sử dụng các điểm trong tập hỗ trợ để dự
báo trong hàm quyết định.
 Chúng ta có thể tạo ra nhiều hàm quyết định từ những hàm kernel khác
nhau. Thậm chí sử dụng đúng kernel có thể giúp cải thiện thuật toán lên
đáng kể.
Kernel là một hàm ánh xạ dữ liệu từ khơng gian ít nhiều hơn sang không gian
nhiều chiều hơn. Đây là kỹ thuật quan trọng trong SVM.
Ưu điểm: Giúp phân biệt 2 tập hợp dữ liệu khơng phân biệt tuyến tính bằng
cách biến đổi các tập dự liệu phân biệt tuyến tính trong một khơng gian mới
Một số kernel như radius basic function, linear

11


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác

40. Decision Tree algorithm là gì, ưu điểm của DC, Random forest algorithm là gì,
có ưu điểm gì ?
Thuật tốn decision tree là thuật tốn học có giám sát, ở đây chúng ta cho dữ liệu
về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây quyết định sẽ sinh
ra các luật để dự đoán lớp của các dữ liệu chưa biết.
Ưu điểm:
Cây quyết định là một thuật toán đơn giản và phổ biến. Thuật toán này được sử
dụng rộng rãi bới những lợi ích của nó:
 Mơ hình sinh ra các quy tắc dễ hiểu cho người đọc, tạo ra bộ luật với mỗi nhánh lá
là một luật của cây.
 Dữ liệu đầu vào có thể là là dữ liệu missing, khơng cần chuẩn hóa hoặc tạo biến
giả.
 Có thể làm việc với cả dữ liệu số và dữ liệu phân loại.
 Có thể xác thực mơ hình bằng cách sử dụng các kiểm tra thống kê.
 Có khả năng làm việc với dữ liệu lớn.
Thuật toán random forest là thuật tốn học có giám sát, có thể được sử dụng cho
cả hồi quy và phân lớp. Random forest tạo ra cây quyết định trên các mẫu dữ liệu được
chọn ngẫu nhiên, được dự đoán từ mỗi cây và chọn giải pháp tốt nhất bằng cách bỏ phiếu.
Ưu điểm:
 Tránh được overfitting.
 Có thể sử dụng trong cả 2 vấn đề là phân loại và hồi quy
 Có thể xử lý các giá trị còn thiếu
Nhược điểm:
 Chậm tạo ra dự đốn vì có nhiều cây quyết định
 Mơ hình khó hiểu hơn so với cây quyết định

12


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác

41. Ney Bayes algorithm for classification?

Ney Bayes Classifier là sự kết hợp các phẩm chất mong muốn trong học
máy thực tế vào một bộ phân loại duy nhất.
Ưu điểm:





Có tính trực quan
Có khả năng tốt khi làm việc với dữ liệu kích thước nhỏ
Chi phí tính tốn huấn luyện và dự đốn thấp
Kết quả tốt và ít thay đổi

42. Trình bày thuật tốn K-mean? Thuật tốn Kmean dung để làm gì, ưu và nhược
điểm của K-mean.

Thuật toán phân cụm k-means là một phương pháp được sử dụng trong phân
tích tính chất cụm của dữ liệu. Nó đặc biệt được sử dụng nhiều trong khai phá dữ
liệu và thống kê. Nó phân vùng dữ liệu thành k cụm khác nhau. Giải thuật này giúp
chúng ta xác định được dữ liệu của chúng ta nó thực sử thuộc về nhóm nào.
43. Trình bày thuật tốn K-nearest-neighbour? Thuật tốn KNN dùng để làm gì, ưu

và nhược điểm của KNN.
KNN (K-Nearest Neighbors) là một trong những thuật toán học có giám sát
đơn giản nhất được sử dụng nhiều trong khai phá dữ liệu và học máy. Ý tưởng của
thuật tốn này là nó khơng học một điều gì từ tập dữ liệu học (nên KNN được xếp
vào loại lazy learning), mọi tính tốn được thực hiện khi nó cần dự đoán nhãn của
dữ liệu mới.

Ưu điểm:
1. Thuật toán đơn giản, dễ dàng triển khai.
2. Độ phức tạp tính toán nhỏ.
3. Xử lý tốt với tập dữ liệu nhiễu
Nhược điểm:
1. Với K nhỏ dễ gặp nhiễu dẫn tới kết quả đưa ra khơng chính xác
2. Cần nhiều thời gian để thực hiện do phải tính tốn khoảng cách với tất cả các
đối tượng trong tập dữ liệu.
3. Cần chuyển đổi kiểu dữ liệu thành các yếu tố định tính.
13


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
44. Boostrap, bagging là gì, ưu điểm khi dùng Boostrap và bagging?
Bootstrap bagging là giảm phương sai khi ước lượng bằng cách lấy giá trị trung bình
của nhiều mơ hình. Từ tập dữ liệu gốc ban đầu tạo ra nhiều tập dữ liệu con.
Bagging tạo ra nhiều mơ hình song song. Boosting tạo ra nhiều mơ hình tuần tự. Mỗi
tập dữ liệu con sẽ giúp tạo ra 1 mơ hình phân lớp khác nhau, sau đó lấy giá trị trung bình
của các dự báo để đưa ra kết quả cuối cùng.
Ưu điểm: Giúp nâng cao khả năng dự đốn và chất lượng của mơ hình khi kết hợp
nhiều thuật tốn
45. Ensemble là gì, ưu điểm và nhược điểm là gì?
Ensemble là kỹ thuật kết hợp nhiều mơ hình dự báo để tạo mơ hình có khả năng dự
báo có chất lượng tốt hơn. Mỗi mơ hình phù hợp vs 1 kiểu dữ liệu.
Ưu điểm: Loại bỏ Phương sai, và độ lệch của mơ hình trong dự báo. Tạo ra một mơ
hình dự báo mang tính tổng hợp, nơi mà độ chính xác của mơ hình sẽ tốt hơn độ chính xác
của từng mơ hình đơn lẻ được tạo từ nhiều thuật toán khác nhau
Sử dụng đa mơ hình cho chất lượng tốt hơn đơn mơ hình
Nhược điểm: Thực tốn khá phức tạp và vì sử dụng nhiều thuật toán nên thời gian
thực thi sẽ lâu hơn khi thực thi riêng lẻ từng thuật toán


46. Adaboost là gì? ưu điểm của Adaboost?
AdaBoost là một thuật toán boosting dùng để xây dựng bộ phân lớp
(classifier). Boosting là thuật toán học quần thể bằng cách xây dựng nhiều thuật
toán học cùng lúc (như cây quyết định) và kết hợp chúng lại. Mục đích để tạo ra
các weak learner sau đó kết hợp chúng lại thành strong learner. weak learner phân
loại với độ chính xác hầu như khơng cao. Một ví dụ phổ biến của weak learner là
cây quyết định một cấp (decision stump). Ngược lại, strong leaner có độ chính xác
hơn nhiều.

14


Tài liệu chỉ dùng để ơn tập thi cuối kì - khơng dùng cho mục đích khác
Ưu điểm: Thuật tốn đơn giản, dễ dàng thiết lập. Tốc độ xử lý nhanh. AdaBoost là
thuật tốn linh hoạt vì có thể kết hợp vs bất kì thuật tốn máy học nào và làm việc được với
một lượng lớn dữ liệu khác nhau

15



×