CÂU HỎI TRẮC NGHIỆM KHAI THÁC DỮ LIỆU
Câu hỏi
1
Các lần chạy K-means có khả năng cho kết quả khác nhau là đúng hay sai?
Select one:
a. Sai
b. Đúng
Câu hỏi
2
Các ý nào sau đây đúng với K-Means:
1.
K-Means cực kỳ nhạy cảm với việc khởi tạo tâm cụm
2.
Việc khởi tạo tâm cụm không tốt sẽ dẫn đến việc hội tụ kém 3. Việc
khởi tạo tâm cụm không tốt sẽ dẫn đến kết quả gom cụm kém
Select one:
a.
b.
c.
d.
1 và 3
1 và 2
1, 2, và 3
2 và 3
Câu hỏi
3
Chỉ ra mệnh đề sai về K-Means Select one:
a. Giải thuật gom cụm K-means tương tự giải thuật KNN (K- nearest neighbor) b. Tất
cả các mệnh đề đều sai
c. K-Means phân chia n đối tượng dữ liệu thành k cụm
d. K-means là một phương pháp lượng tử hóa vector (vector quantization)
Câu hỏi
4
Giải pháp nào sau đây cho phép tính độ tương tự giữa hai clusters trong gom cụm phân
cấp
(hierachical clustering)
1. MIN / Single-Link
2. MAX / Complete-Link
3. Average-Link
4. Euclidean Distance
Select one:
a.
b.
c.
d.
e.
Tất
Chỉ
Tất
Tất
Tất
cả, trừ số 3
có số 4
cả
cả, trừ số 4
cả, trừ số 1
Câu hỏi
5
Giải thuật gom cụm nào phù hợp với tập dữ liệu mơ tả trong hình?
Select one:
a. K-Means
b. DBSCAN
Câu hỏi
6
Cho dữ liệu gồm 6 điểm trong không gian 2 chiều và khoảng cách giữa các điểm thể
hiện ở các bảng sau:
Cho biết kết quả nào khi gom cụm dùng phương pháp gom cụm phân cấp với độ đo
AVERAGE-Link Select one:
a.
b.
c.
d.
Câu hỏi
7
Cho dữ liệu gồm 6 điểm trong không gian 2 chiều và khoảng cách giữa các điểm thể
hiện ở các bảng sau:
Cho biết kết quả nào khi gom cụm dùng phương pháp gom cụm phân cấp với độ đo
MAX Select one:
a.
b.
c.
d.
Câu hỏi
8
Số lượng thuộc tính (features) tối thiểu để gom cụm được là bao nhiêu?
Select one:
a.
b.
c.
d.
e.
2
1
k
3
0
Câu hỏi
9
Trường hợp nào sau đây K-Means khơng cho kết quả tốt
1. Dữ liệu có ngoại biên (outlier)
2. Dữ liệu có mật độ phân bố thay đổi
3. Dữ liệu phân bố theo hình trịn
4. Dữ liệu phân bố theo dạng hình khơng lồi (non-convex)
Select one:
a.
b.
c.
d.
e.
3 và 4
1 và 2
2 và 3
1, 2, và 3
1, 2, và 4
Câu hỏi
10
Một trang web thương mại điện tử muốn bổ sung chức năng dự đoán việc click lên các
mục quảng cáo của khách viếng thăm. Đây là dạng bài toán:
Select one:
a.
b.
c.
d.
Data Visualization
Data Pre-processing
Classification
Clustering
Câu hỏi
11
Bài toán phát hiện giao dịch gian lận của thẻ tín dụng là dạng bài tốn?
Select one:
a. Clustering
b. Data Pre-processing
c. Classification
d. Frequent Pattern Mining
Câu hỏi
12
Cây quyết định là giải pháp cho bài toán khai thác dữ liệu nào?
Select one:
a.
b.
c.
d.
Phân lớp
Gom cụm
Hồi quy
Khai thác mẫu và tìm luật kết hợp
Câu hỏi
13
Ứng dụng lọc thư rác sẽ áp dụng bài toán khai thác dữ liệu nào dưới đây?
Select one:
a.
b.
c.
d.
Classification
Data Pre-processing
Frequent Pattern Mining
Clustering
Câu hỏi
14
Cây quyết định được xây dựng dựa trên giải thuật?
Select one:
a.
b.
c.
d.
Giải thuật tham lam
Quy hoạch động
Tất cả đều đúng
Chia để trị
Câu hỏi
15
Trong cây quyết định node nào chứa giá trị của thuộc tính dự đốn?
Select one:
a.
b.
c.
d.
Node gốc
Node trung gian
Node lá
Tất cả đều đúng
Câu hỏi
16
Trong cây quyết định node nào đại diện cho thuộc tính dùng để kiểm tra?
Select one:
a.
b.
c.
d.
Node trung gian
Tất cả đều sai
Tất cả đều đúng
Node lá
Câu hỏi
17
Mệnh đề nào dưới đây mô tả đúng cho độ chính xác của một giải thuật phân lớp?
Select one:
a.
b.
c.
d.
Là độ hiệu quả của giải thuật khi thực thi
Được tính dựa trên các độ đo và qua thực nghiệm
Được chứng minh bằng tính đúng đắn của giải thuật
Tất cả đều đúng
Câu hỏi
18
Trong giải thuật KMeans, K mang nghĩa?
Select one:
a.
b.
c.
d.
Số cụm
Số datasets
Số thuộc tính
Hàm mục tiêu
Câu hỏi
19
Giải thuật K-Means yêu cầu điều gì?
Select one:
a.
b.
c.
d.
Số cụm cho trước
Độ đo khoảng cách định nghĩa trước
Trung tâm cụm khởi tạo trước
Tất cả các ý còn lại
Câu hỏi
20
Chỉ ra mệnh đề sai về K-Means Select one:
a. Giải thuật gom cụm K-means tương tự giải thuật KNN (K- nearest neighbor)
b.K-means là một phương pháp lượng tử hóa vector (vector quantization) c. Tất cả
các mệnh đề đều sai
d. K-Means phân chia n đối tượng dữ liệu thành k cụm
Câu hỏi
21
Các lần chạy K-means có khả năng cho kết quả khác nhau là đúng hay sai?
Select one:
a. Đúng
b. Sai
Câu hỏi
22
Số lượng thuộc tính (features) tối thiểu để gom cụm được là bao nhiêu?
Select one:
a.
b.
c.
d.
e.
2
k
1
0
3
Câu hỏi
23
Hai lần chạy K-means trên cùng một tập dữ liệu có đảm bảo hai kết quả đồng nhất
khơng?
Select one:
a. Khơng
b. Có
Câu hỏi
24
Điều kiện dừng của giải thuật K-Means có thể là:
Select one or more:
a.
b.
c.
d.
Nếu giá trị hàm mục tiêu có giá trị dưới ngưỡng cho trước
Sau một số lần lặp định trước
Việc phân cụm không thay đổi
Các trung tâm cụm không thay đổi
Câu hỏi
25
Những trường hợp nào dưới đây K-Means thất bại:
1.
Dữ liệu có nhiều nhiễu
2.
Dữ liệu có phân bố mật độ thay đổi
3.
Dữ liệu phân bố dạng dạng tròn (round shapes) 4. Dữ liệu phân bố dạng không
lồi (non-convex shapes)
Select one:
a. 3 và 4
b. 2 và 3
c. 1 và 2
d. 1, 2, và 4
Câu hỏi
26
Giải thuật K-Means chạy trên tập dữ liệu gồm 7 điểm với k=3. Sau lần lặp đầu tiên, các
cụm phân bổ như sau:
C1: {(2,2), (4,4), (6,6)}
C2: {(0,4),
(4,0)} C3:
{(5,5), (9,9)}
Cho biết tâm cụm sau lần lặp tiếp theo.
Select one:
a. C1: (6,6), C2: (4,4), C3: (9,9)
b. C1: (4,4), C2: (2,2), C3: (7,7)
c. C1: (2,2), C2: (0,0), C3: (5,5)
d. Tất cả đều sai
Câu hỏi
27
Các ý nào sau đây đúng với K-Means:
1.
K-Means cực kỳ nhạy cảm với việc khởi tạo tâm cụm
2.
Việc khởi tạo tâm cụm không tốt sẽ dẫn đến việc hội tụ kém 3. Việc
khởi tạo tâm cụm không tốt sẽ dẫn đến kết quả gom cụm kém
Select one:
a.
b.
c.
d.
2 và 3
1 và 3
1 và 2
1, 2, và 3
Câu hỏi
28
Thao tác nào sau đây có khả năng cải thiện kết quả gom cụm K-Means:
1. Chạy nhiều lần với các khởi tạo tâm cụm khác nhau
2. Điều chỉnh số lần lặp
3. Tìm ra số cụm tối ưu
Select one:
a. 1 và 2
b. 1, 2 và 3
c. 2 và 3
d. 1 và 3
Câu hỏi
29
Số cụm thu được bởi giải thuật K-Means áp dụng trên tập dữ liệu có n
điểm Select one:
a. n/k
b. n-k
c. k
d. n
Câu hỏi
30
Giải thuật gom cụm nào phù hợp với tập dữ liệu mô tả trong hình?
Select one:
a. DBSCAN
b. K-Means
Câu hỏi
31
K-Means thuộc giải thuật học máy
Select one:
a. Khơng có giám sát (unsupervised learning)
b. Có giám sát (supervised learning)Supervised
c. Tất cả đều sai
Câu hỏi
32
Số lượng bộ phân loại và số lượng dataset trong tutorial trên lần
lượt là Select one:
a.
b.
c.
d.
10 & 10
3&3
10 & 3
1&1
Câu hỏi
33
Dữ liệu sử dụng trong thực nghiệm ở tutorial trên là dữ liệu có sẵn?
Hãy chọn một:
Đúng
Sai
Câu hỏi
34
Lệnh sau có tác dụng gì:
X, y = make_classification(n_features=2, n_redundant=0, n_informative=2,
random_state=1, n_clusters_per_class=1)
Select one:
a. Sinh ngẫu nhiên dữ liệu thực nghiệm
b. Tạo bộ phân loại với các tham số cho trước
c. Tạo bộ phân loại với các tham số mặc định
Câu hỏi
35
Trong tutorial bước huấn luyện mơ hình phân loại nằm ở dòng lệnh:
Select one:
X
,
a.
y
=
make_classification(n_features=2,
n_redundant=0,
n_informative=2,
n_clusters_per_class=1) b.
.score(X_test, y_test)
random_state=1,
c
l c.
f
clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])
[:, 1] d.
clf.fit(X_train, y_train)
Câu hỏi
36
Áp dụng giải thuật apriori trên tập dữ liệu gồm 5 loại mục {A, B, C, D, E}.
Giả sử thu được các 2-itemsets phổ biến là {A, B}, {A, C}, {A, D}, {B, C}, {B, E}, {C,
E}.
Hỏi trong các itemsets sau, itemset nào sẽ là ứng viên 3-itemsets cần xem xét ở vòng
lặp tiếp theo?
Select one or more:
a. {C, D, E}
b. {A, B, C}
c. {B, C, D}
d. {B, C, E}
Câu hỏi
37
Cho trước ngưỡng hỗ trợ minSup = 60% và ngưỡng tin cậy minConf = 80% để tìm tập
phổ biến và luật kết hợp trên cho dataset sau:
T_id
Itemlist
T1
{A, B, D, F}
T2
{A, B, C, D, E}
T3
{A, B, C, E}
T4
{A, B, D}
Cho biết các 1-itemsets nào là phổ biến?
Select one or more:
a.
b.
c.
d.
e.
{A}
{C}
{B}
{E}
{D}
Câu hỏi
38
Cho trước ngưỡng hỗ trợ minSup = 60% và ngưỡng tin cậy minConf = 80% để tìm tập
phổ biến và luật kết hợp trên cho dataset sau:
T_id
Itemlist
T1
{A, B, D, F}
T2
{A, B, C, D, E}
T3
{A, B, C, E}
T4
{A, B, D}
Cho biết kích cỡ itemsets lớn nhất có thể tìm được là bao nhiêu?
Select one:
a.
b.
c.
d.
1
2
4
3
Câu hỏi
39
Giải thuật Apriori dựa trên thuộc tính nào của độ hỗ trợ (support)?
Select one:
a.
b.
c.
d.
Độ hỗ trợ luôn dương
Độ hỗ trợ là giá trị hằng khơng âm
Thuộc tính Anti-monotone
Thuộc tính Monotone
Câu hỏi
40
Giải thuật khai thác mẫu phổ biến?
Select one:
a.
b.
c.
d.
FP-Grownth
ECLAT
Apriori
Tất cả các giải thuật trên
Câu hỏi
41
Một tập mục (itemset) được gọi là phổ biến nếu:
Select one:
a.
b.
c.
d.
Độ hỗ trợ lớn hơn hoặc bằng ngưỡng cho trước
Tất cả đều sai
Độ hỗ trợ đúng bằng ngưỡng cho trước
Độ hỗ trợ thấp hơn hoặc bằng ngưỡng cho trước
Câu hỏi
42
Cho biết các vấn đề nào sau đây liên quan đến chất lượng dữ liệu?
Select one:
a. Tồn tại nhiễu dữ liệu
b. Dữ liệu thiếu sót
c. Xuất hiện trùng lặp dữ liệu
d. Câu a, b, và c đúng
e. Chỉ câu a và b đúng
Câu hỏi
43
Cho đồ thị như hình vẽ, hãy cho biết mệnh đề nào sau đây sai?
Select one:
a. Khi số ngưỡng của độ hỗ trợ rất lớn, thời gian thực thi của 2 thuật toán FP-Growth
và Apriori là tương đương.
b. Thuật toán FP-Growth thực hiện nhanh hơn thuật toán Apriori.
c. Với cùng ngưỡng độ hỗ trợ, thời gian thức thi thuật tốn FP-Growth ln ít hơn thời
gian thực thi thuật toán Apriori.
d. Thuật toán Apriori thực hiện nhanh hơn thuật toán FP-Growth.
Câu hỏi
43
Thao tác nào sau đây giúp thu giảm số thuộc tính trong tập dữ liệu?
Select one:
a. Thu giảm số chiều và lấy mẫu
b. Lấy mẫu
c. Nén dữ liệu
d. Thu giảm số chiều
Câu hỏi
44
Bài toán khai thác dữ liệu nào dưới đây thực hiện để nhận dạng cho dữ liệu mới dựa
trên những dữ liệu đã biết trước?
Select one:
a.
b.
c.
d.
Frequent Pattern Mining
Clustering
Classification
Data Pre-processing
Câu hỏi
45
Bài tốn tìm cấu trúc ẩn chứa bên trong tập dữ liệu không được gán nhãn được
gọi là Select one:
a.
b.
c.
d.
Tất cả các câu còn lại đều sai
Học tăng cường (reinforcement learning)
Học khơng giám sát (unsupervised learning)
Học có giám sát (supervised learning)
Câu hỏi
46
Cho biết loại thuộc tính dữ liệu nào sau đây là thuộc tính rời rạc (discrete attribute)?
Select one:
a.
b.
c.
d.
Mã vùng
Cân nặng
Chiều cao
Nhiệt độ
Câu hỏi
47
DBSCAN cho phép tìm mật độ phân bố của các điểm dữ liệu trong tập dữ liệu?
Hãy chọn một:
Đúng
Sai
Câu hỏi
48
Các tham số để thực thi giải thuật Apriori để tìm mẫu phổ biến và luật kết hợp?
Select one:
a. Ngưỡng hỗ trợ MinSup
b. Ngưỡng tin cậy MinConf
c. Số điểm tối thiểu MinPTs
d. câu a và b
Câu hỏi
49
Cho biết vấn đề liên quan đến chất lượng dữ liệu trong dòng đánh dấu A của bảng dữ
liệu sau:
Select one:
a. Dữ liệu bị thiếu hoặc không đầy đủ
b. Dữ liệu khả năng bị sai
c. Dữ liệu bị trùng lặp
d. Dữ liệu không có vấn đề
Câu hỏi
50
Cho X ={A, B} khơng là tập mục phổ biến, Y = {A, B, C}. Hãy cho biết kết luận nào sau
đây là đúng?
a.
b.
c.
d.
Select one:
Y là tập mục phổ biến.
X là tập mục phổ biến.
C không là tập mục phổ biến.
Y không là tập mục phổ biến.
Câu hỏi
52
Thao tác nào sau đây giúp thu giảm số điểm dữ liệu trong tập dữ liệu?
Select one:
a.
b.
c.
d.
Lấy mẫu
Nén dữ liệu
Thu giảm số chiều và lấy mẫu
Thu giảm số chiều
Câu hỏi
53
Cho biết vấn đề liên quan đến chất lượng dữ liệu trong hai dòng đánh dấu C của bảng
dữ liệu sau:
Select one:
a. Dữ liệu bị thiếu hoặc khơng đầy đủ
b. Dữ liệu khơng có vấn đề
c. Dữ liệu bị trùng lặp
d. Dữ liệu khả năng bị sai
Câu hỏi
54
Hãy cho biết đồ thị sau biểu diễn điều gì?
Select one:
a. Với cùng số lượng giao dịch như nhau, thời gian thực thi của thuật tốn FP-Growth
ln nhiều hơn
thời gian thực thi của thuật toán Apriori.
b. Với cùng số lượng giao dịch như nhau, thời gian thức thi thuật tốn FP-Growth ln ít
hơn thời gian thực thi thuật toán Apriori.
c. Thuật toán Apriori thực hiện nhanh hơn thuật toán FP-Growth.
d. Hai thuật toán FP-Growth và Apriori đều thức thi với thời gian rất nhỏ.
Câu hỏi
55
Mô tả nào sau đây đúng cho khái niệm
"underfitting" Select one:
a. Khi mơ hình học q đơn giản dẫn đến khi thực thi trên tập dữ liệu huấn luyện và tập
dữ liệu kiểm tra đều có nhiều dự đốn sai.