Tải bản đầy đủ (.docx) (26 trang)

Câu hỏi trắc nghiệm khai thác dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (487.32 KB, 26 trang )

CÂU HỎI TRẮC NGHIỆM KHAI THÁC DỮ LIỆU

Câu hỏi

1

Các lần chạy K-means có khả năng cho kết quả khác nhau là đúng hay sai?
Select one:
a. Sai
b. Đúng

Câu hỏi

2

Các ý nào sau đây đúng với K-Means:
1.

K-Means cực kỳ nhạy cảm với việc khởi tạo tâm cụm

2.

Việc khởi tạo tâm cụm không tốt sẽ dẫn đến việc hội tụ kém 3. Việc

khởi tạo tâm cụm không tốt sẽ dẫn đến kết quả gom cụm kém
Select one:
a.
b.
c.
d.


1 và 3
1 và 2
1, 2, và 3
2 và 3

Câu hỏi

3

Chỉ ra mệnh đề sai về K-Means Select one:
a. Giải thuật gom cụm K-means tương tự giải thuật KNN (K- nearest neighbor) b. Tất
cả các mệnh đề đều sai
c. K-Means phân chia n đối tượng dữ liệu thành k cụm
d. K-means là một phương pháp lượng tử hóa vector (vector quantization)

Câu hỏi

4

Giải pháp nào sau đây cho phép tính độ tương tự giữa hai clusters trong gom cụm phân
cấp
(hierachical clustering)
1. MIN / Single-Link
2. MAX / Complete-Link
3. Average-Link
4. Euclidean Distance


Select one:


a.
b.
c.
d.
e.

Tất
Chỉ
Tất
Tất
Tất

cả, trừ số 3
có số 4
cả
cả, trừ số 4
cả, trừ số 1

Câu hỏi

5

Giải thuật gom cụm nào phù hợp với tập dữ liệu mơ tả trong hình?

Select one:
a. K-Means
b. DBSCAN

Câu hỏi


6

Cho dữ liệu gồm 6 điểm trong không gian 2 chiều và khoảng cách giữa các điểm thể
hiện ở các bảng sau:


Cho biết kết quả nào khi gom cụm dùng phương pháp gom cụm phân cấp với độ đo
AVERAGE-Link Select one:
a.


b.

c.

d.

Câu hỏi

7


Cho dữ liệu gồm 6 điểm trong không gian 2 chiều và khoảng cách giữa các điểm thể
hiện ở các bảng sau:

Cho biết kết quả nào khi gom cụm dùng phương pháp gom cụm phân cấp với độ đo
MAX Select one:

a.



b.
c.

d.


Câu hỏi

8

Số lượng thuộc tính (features) tối thiểu để gom cụm được là bao nhiêu?
Select one:
a.
b.
c.
d.
e.

2
1
k
3
0

Câu hỏi

9

Trường hợp nào sau đây K-Means khơng cho kết quả tốt

1. Dữ liệu có ngoại biên (outlier)
2. Dữ liệu có mật độ phân bố thay đổi
3. Dữ liệu phân bố theo hình trịn
4. Dữ liệu phân bố theo dạng hình khơng lồi (non-convex)
Select one:
a.
b.
c.
d.
e.

3 và 4
1 và 2
2 và 3
1, 2, và 3
1, 2, và 4

Câu hỏi

10

Một trang web thương mại điện tử muốn bổ sung chức năng dự đoán việc click lên các
mục quảng cáo của khách viếng thăm. Đây là dạng bài toán:
Select one:
a.
b.
c.
d.

Data Visualization

Data Pre-processing
Classification
Clustering

Câu hỏi

11

Bài toán phát hiện giao dịch gian lận của thẻ tín dụng là dạng bài tốn?
Select one:
a. Clustering
b. Data Pre-processing


c. Classification
d. Frequent Pattern Mining

Câu hỏi

12

Cây quyết định là giải pháp cho bài toán khai thác dữ liệu nào?
Select one:
a.
b.
c.
d.

Phân lớp
Gom cụm

Hồi quy
Khai thác mẫu và tìm luật kết hợp

Câu hỏi

13

Ứng dụng lọc thư rác sẽ áp dụng bài toán khai thác dữ liệu nào dưới đây?
Select one:
a.
b.
c.
d.

Classification
Data Pre-processing
Frequent Pattern Mining
Clustering

Câu hỏi

14

Cây quyết định được xây dựng dựa trên giải thuật?
Select one:
a.
b.
c.
d.


Giải thuật tham lam
Quy hoạch động
Tất cả đều đúng
Chia để trị

Câu hỏi

15

Trong cây quyết định node nào chứa giá trị của thuộc tính dự đốn?
Select one:
a.
b.
c.
d.

Node gốc
Node trung gian
Node lá
Tất cả đều đúng

Câu hỏi

16

Trong cây quyết định node nào đại diện cho thuộc tính dùng để kiểm tra?
Select one:


a.

b.
c.
d.

Node trung gian
Tất cả đều sai
Tất cả đều đúng
Node lá

Câu hỏi

17

Mệnh đề nào dưới đây mô tả đúng cho độ chính xác của một giải thuật phân lớp?
Select one:
a.
b.
c.
d.

Là độ hiệu quả của giải thuật khi thực thi
Được tính dựa trên các độ đo và qua thực nghiệm
Được chứng minh bằng tính đúng đắn của giải thuật
Tất cả đều đúng

Câu hỏi

18

Trong giải thuật KMeans, K mang nghĩa?

Select one:
a.
b.
c.
d.

Số cụm
Số datasets
Số thuộc tính
Hàm mục tiêu

Câu hỏi

19

Giải thuật K-Means yêu cầu điều gì?
Select one:
a.
b.
c.
d.

Số cụm cho trước
Độ đo khoảng cách định nghĩa trước
Trung tâm cụm khởi tạo trước
Tất cả các ý còn lại

Câu hỏi

20


Chỉ ra mệnh đề sai về K-Means Select one:
a. Giải thuật gom cụm K-means tương tự giải thuật KNN (K- nearest neighbor)
b.K-means là một phương pháp lượng tử hóa vector (vector quantization) c. Tất cả
các mệnh đề đều sai
d. K-Means phân chia n đối tượng dữ liệu thành k cụm

Câu hỏi

21


Các lần chạy K-means có khả năng cho kết quả khác nhau là đúng hay sai?
Select one:
a. Đúng
b. Sai

Câu hỏi

22

Số lượng thuộc tính (features) tối thiểu để gom cụm được là bao nhiêu?
Select one:
a.
b.
c.
d.
e.

2

k
1
0
3

Câu hỏi

23

Hai lần chạy K-means trên cùng một tập dữ liệu có đảm bảo hai kết quả đồng nhất
khơng?
Select one:
a. Khơng
b. Có

Câu hỏi

24

Điều kiện dừng của giải thuật K-Means có thể là:
Select one or more:
a.
b.
c.
d.

Nếu giá trị hàm mục tiêu có giá trị dưới ngưỡng cho trước
Sau một số lần lặp định trước
Việc phân cụm không thay đổi
Các trung tâm cụm không thay đổi


Câu hỏi

25

Những trường hợp nào dưới đây K-Means thất bại:
1.

Dữ liệu có nhiều nhiễu

2.

Dữ liệu có phân bố mật độ thay đổi

3.

Dữ liệu phân bố dạng dạng tròn (round shapes) 4. Dữ liệu phân bố dạng không

lồi (non-convex shapes)
Select one:
a. 3 và 4
b. 2 và 3


c. 1 và 2
d. 1, 2, và 4

Câu hỏi

26


Giải thuật K-Means chạy trên tập dữ liệu gồm 7 điểm với k=3. Sau lần lặp đầu tiên, các
cụm phân bổ như sau:
C1: {(2,2), (4,4), (6,6)}
C2: {(0,4),
(4,0)} C3:
{(5,5), (9,9)}
Cho biết tâm cụm sau lần lặp tiếp theo.
Select one:
a. C1: (6,6), C2: (4,4), C3: (9,9)
b. C1: (4,4), C2: (2,2), C3: (7,7)
c. C1: (2,2), C2: (0,0), C3: (5,5)
d. Tất cả đều sai

Câu hỏi

27

Các ý nào sau đây đúng với K-Means:
1.

K-Means cực kỳ nhạy cảm với việc khởi tạo tâm cụm

2.

Việc khởi tạo tâm cụm không tốt sẽ dẫn đến việc hội tụ kém 3. Việc

khởi tạo tâm cụm không tốt sẽ dẫn đến kết quả gom cụm kém
Select one:
a.

b.
c.
d.

2 và 3
1 và 3
1 và 2
1, 2, và 3

Câu hỏi

28

Thao tác nào sau đây có khả năng cải thiện kết quả gom cụm K-Means:
1. Chạy nhiều lần với các khởi tạo tâm cụm khác nhau
2. Điều chỉnh số lần lặp
3. Tìm ra số cụm tối ưu
Select one:


a. 1 và 2
b. 1, 2 và 3
c. 2 và 3
d. 1 và 3

Câu hỏi

29

Số cụm thu được bởi giải thuật K-Means áp dụng trên tập dữ liệu có n

điểm Select one:
a. n/k
b. n-k
c. k
d. n

Câu hỏi

30

Giải thuật gom cụm nào phù hợp với tập dữ liệu mô tả trong hình?

Select one:
a. DBSCAN
b. K-Means


Câu hỏi

31

K-Means thuộc giải thuật học máy
Select one:

a. Khơng có giám sát (unsupervised learning)
b. Có giám sát (supervised learning)Supervised
c. Tất cả đều sai

Câu hỏi


32

Số lượng bộ phân loại và số lượng dataset trong tutorial trên lần
lượt là Select one:
a.
b.
c.
d.

10 & 10
3&3
10 & 3
1&1

Câu hỏi

33

Dữ liệu sử dụng trong thực nghiệm ở tutorial trên là dữ liệu có sẵn?
Hãy chọn một:
Đúng
Sai

Câu hỏi

34

Lệnh sau có tác dụng gì:
X, y = make_classification(n_features=2, n_redundant=0, n_informative=2,
random_state=1, n_clusters_per_class=1)


Select one:
a. Sinh ngẫu nhiên dữ liệu thực nghiệm
b. Tạo bộ phân loại với các tham số cho trước
c. Tạo bộ phân loại với các tham số mặc định

Câu hỏi

35

Trong tutorial bước huấn luyện mơ hình phân loại nằm ở dòng lệnh:
Select one:
X
,

a.

y

=

make_classification(n_features=2,

n_redundant=0,


n_informative=2,
n_clusters_per_class=1) b.
.score(X_test, y_test)


random_state=1,

c
l c.
f
clf.predict_proba(np.c_[xx.ravel(), yy.ravel()])
[:, 1] d.

clf.fit(X_train, y_train)

Câu hỏi

36

Áp dụng giải thuật apriori trên tập dữ liệu gồm 5 loại mục {A, B, C, D, E}.
Giả sử thu được các 2-itemsets phổ biến là {A, B}, {A, C}, {A, D}, {B, C}, {B, E}, {C,
E}.
Hỏi trong các itemsets sau, itemset nào sẽ là ứng viên 3-itemsets cần xem xét ở vòng
lặp tiếp theo?
Select one or more:
a. {C, D, E}
b. {A, B, C}
c. {B, C, D}
d. {B, C, E}

Câu hỏi

37

Cho trước ngưỡng hỗ trợ minSup = 60% và ngưỡng tin cậy minConf = 80% để tìm tập

phổ biến và luật kết hợp trên cho dataset sau:
T_id

Itemlist

T1

{A, B, D, F}

T2

{A, B, C, D, E}

T3

{A, B, C, E}

T4

{A, B, D}

Cho biết các 1-itemsets nào là phổ biến?
Select one or more:
a.
b.
c.
d.
e.

{A}

{C}
{B}
{E}
{D}

Câu hỏi

38

Cho trước ngưỡng hỗ trợ minSup = 60% và ngưỡng tin cậy minConf = 80% để tìm tập


phổ biến và luật kết hợp trên cho dataset sau:
T_id

Itemlist

T1

{A, B, D, F}

T2

{A, B, C, D, E}

T3

{A, B, C, E}

T4


{A, B, D}

Cho biết kích cỡ itemsets lớn nhất có thể tìm được là bao nhiêu?
Select one:
a.
b.
c.
d.

1
2
4
3

Câu hỏi

39

Giải thuật Apriori dựa trên thuộc tính nào của độ hỗ trợ (support)?
Select one:
a.
b.
c.
d.

Độ hỗ trợ luôn dương
Độ hỗ trợ là giá trị hằng khơng âm
Thuộc tính Anti-monotone
Thuộc tính Monotone


Câu hỏi

40

Giải thuật khai thác mẫu phổ biến?
Select one:
a.
b.
c.
d.

FP-Grownth
ECLAT
Apriori
Tất cả các giải thuật trên

Câu hỏi

41

Một tập mục (itemset) được gọi là phổ biến nếu:
Select one:
a.
b.
c.
d.

Độ hỗ trợ lớn hơn hoặc bằng ngưỡng cho trước
Tất cả đều sai

Độ hỗ trợ đúng bằng ngưỡng cho trước
Độ hỗ trợ thấp hơn hoặc bằng ngưỡng cho trước


Câu hỏi

42

Cho biết các vấn đề nào sau đây liên quan đến chất lượng dữ liệu?
Select one:
a. Tồn tại nhiễu dữ liệu
b. Dữ liệu thiếu sót
c. Xuất hiện trùng lặp dữ liệu
d. Câu a, b, và c đúng
e. Chỉ câu a và b đúng

Câu hỏi

43

Cho đồ thị như hình vẽ, hãy cho biết mệnh đề nào sau đây sai?

Select one:
a. Khi số ngưỡng của độ hỗ trợ rất lớn, thời gian thực thi của 2 thuật toán FP-Growth
và Apriori là tương đương.
b. Thuật toán FP-Growth thực hiện nhanh hơn thuật toán Apriori.
c. Với cùng ngưỡng độ hỗ trợ, thời gian thức thi thuật tốn FP-Growth ln ít hơn thời
gian thực thi thuật toán Apriori.
d. Thuật toán Apriori thực hiện nhanh hơn thuật toán FP-Growth.



Câu hỏi

43

Thao tác nào sau đây giúp thu giảm số thuộc tính trong tập dữ liệu?
Select one:
a. Thu giảm số chiều và lấy mẫu
b. Lấy mẫu
c. Nén dữ liệu

d. Thu giảm số chiều

Câu hỏi

44

Bài toán khai thác dữ liệu nào dưới đây thực hiện để nhận dạng cho dữ liệu mới dựa
trên những dữ liệu đã biết trước?
Select one:
a.
b.
c.
d.

Frequent Pattern Mining
Clustering
Classification
Data Pre-processing


Câu hỏi

45

Bài tốn tìm cấu trúc ẩn chứa bên trong tập dữ liệu không được gán nhãn được
gọi là Select one:
a.
b.
c.
d.

Tất cả các câu còn lại đều sai
Học tăng cường (reinforcement learning)
Học khơng giám sát (unsupervised learning)
Học có giám sát (supervised learning)

Câu hỏi

46

Cho biết loại thuộc tính dữ liệu nào sau đây là thuộc tính rời rạc (discrete attribute)?
Select one:
a.
b.
c.
d.

Mã vùng
Cân nặng
Chiều cao

Nhiệt độ

Câu hỏi

47

DBSCAN cho phép tìm mật độ phân bố của các điểm dữ liệu trong tập dữ liệu?
Hãy chọn một:
Đúng


Sai

Câu hỏi

48

Các tham số để thực thi giải thuật Apriori để tìm mẫu phổ biến và luật kết hợp?
Select one:
a. Ngưỡng hỗ trợ MinSup
b. Ngưỡng tin cậy MinConf
c. Số điểm tối thiểu MinPTs
d. câu a và b

Câu hỏi

49

Cho biết vấn đề liên quan đến chất lượng dữ liệu trong dòng đánh dấu A của bảng dữ
liệu sau:


Select one:
a. Dữ liệu bị thiếu hoặc không đầy đủ
b. Dữ liệu khả năng bị sai
c. Dữ liệu bị trùng lặp
d. Dữ liệu không có vấn đề

Câu hỏi

50

Cho X ={A, B} khơng là tập mục phổ biến, Y = {A, B, C}. Hãy cho biết kết luận nào sau
đây là đúng?


a.
b.
c.
d.

Select one:
Y là tập mục phổ biến.
X là tập mục phổ biến.
C không là tập mục phổ biến.
Y không là tập mục phổ biến.

Câu hỏi

52


Thao tác nào sau đây giúp thu giảm số điểm dữ liệu trong tập dữ liệu?
Select one:
a.
b.
c.
d.

Lấy mẫu
Nén dữ liệu
Thu giảm số chiều và lấy mẫu
Thu giảm số chiều

Câu hỏi

53

Cho biết vấn đề liên quan đến chất lượng dữ liệu trong hai dòng đánh dấu C của bảng
dữ liệu sau:

Select one:
a. Dữ liệu bị thiếu hoặc khơng đầy đủ
b. Dữ liệu khơng có vấn đề
c. Dữ liệu bị trùng lặp


d. Dữ liệu khả năng bị sai

Câu hỏi

54


Hãy cho biết đồ thị sau biểu diễn điều gì?

Select one:
a. Với cùng số lượng giao dịch như nhau, thời gian thực thi của thuật tốn FP-Growth
ln nhiều hơn
thời gian thực thi của thuật toán Apriori.
b. Với cùng số lượng giao dịch như nhau, thời gian thức thi thuật tốn FP-Growth ln ít
hơn thời gian thực thi thuật toán Apriori.
c. Thuật toán Apriori thực hiện nhanh hơn thuật toán FP-Growth.
d. Hai thuật toán FP-Growth và Apriori đều thức thi với thời gian rất nhỏ.

Câu hỏi

55

Mô tả nào sau đây đúng cho khái niệm
"underfitting" Select one:
a. Khi mơ hình học q đơn giản dẫn đến khi thực thi trên tập dữ liệu huấn luyện và tập
dữ liệu kiểm tra đều có nhiều dự đốn sai.



×