Tải bản đầy đủ (.docx) (23 trang)

Đề cương Khai phá dữ liệuKhai thác dữ liệu Data mining

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (181.7 KB, 23 trang )

CÂU 1: Confidence là gì?
a. Độ tin cậy
b. Độ hỗ trợ
c. Tất cả đều đúng
d. Tất cả đều sai
CÂU 2: Support của tập mục A trong CSDL giao tác D là gì?
a. Là tỉ lệ phần trăm số giao tác trong CSDL có chứa A trên tổng số các giao
tác trong D
b. Là tỉ lệ phần trăm số giao tác trong CSDL không chứa A trên tổng số các giao
tác trong D
c. Là chỉ số hỗ trợ trong A
d. Là chỉ số hỗ trợ trong B
CÂU 3: Độ tin cậy của luật kết hợp X Y là gì?
a. Là tỉ lệ phần trăm giữa số giao tác chứa cả X và Y với số giao tác chứa X
trong CSDL D
b. Là tỉ lệ phần trăm giữa số giao tác Y và số giao tác chứa X trong CSDL D
c. Là tỉ lệ phần trăm giữa số giao tác X và số giao tác chứa Y trong CSDL D
d. Là chỉ số hỗ trợ trong CSDL
CÂU 4: Confidence của luật kết hợp X Y là gì?
a. Là tỉ lệ phần trăm giữa số giao tác chứa cả X và Y với số giao tác chứa X
trong CSDL D
b. Là tỉ lệ phần trăm giữa số giao tác Y và số giao tác chứa X trong CSDL D
c. Là tỉ lệ phần trăm giữa số giao tác X và số giao tác chứa Y trong CSDL D
d. Là chỉ số hỗ trợ trong CSDL
CÂU 5: Phần mềm nào sau đây sử dụng minh họa thuật toán Apriori
a. Phần mềm Weka
b. Phần mềm Project
c. Phần mềm Prolog
d. Phần mềm Spy bot



CÂU 6: Phần mềm Weka cài đặt một số thuật toán trong lĩnh vực nào?
a. Data Mining
b. Tìm kiếm văn bản
c. Trí tuệ nhân tạo
d. Học máy
CÂU 7: Tập mục thường xuyên là gì?
a. Là tập mục có độ hỗ trợ lớn hơn hoặc bằng ngưỡng hỗ trợ hỗ trợ tối thiểu
cho trước
b. Là tập mục có độ hỗ trợ lớn hơn hoặc bằng 50%
c. Là tập mục có độ hỗ trợ lớn hơn hoặc bằng 90%
d. Là tập mục có độ hỗ trợ lớn hơn hoặc bằng 30%
CÂU 8: Tập mục có độ hỗ trợ lớn hơn hoặc bằng ngưỡng hỗ trợ hỗ trợ tối thiểu
cho trước là gì?
a. Tập mục thường xuyên
b. Tập mục ứng viên
c. Không gian tìm kiếm
d. Không gian giới hạn
CÂU 9: Đâu không phải là thuật toán khai phá dữ liệu bằng luật kết hợp?
a. Thuật toán K-Mean
b. Thuật toán Apriori
c. Thuật toán AprioriTID
d. Thuật toán FP -Growth
CÂU 10: Khai phá dữ liệu bằng luật kết hợp sử dụng thuật toán nào?
a. Thuật toán Apriori
b. Thuật toán K-Mean
c. Thuật toán C4.5
d. Thuật toán Thuật toán ID3


CÂU 11: Thuật toán Apriori sử dụng trong phương pháp khai phá dữ liệu nào?

a. Khai phá dữ liệu bằng luật kết hợp
b. Khai phá dữ liệu bằng phân cụm dữ liệu
c. Khai phá dữ liệu bằng phân lớp dữ liệu
d. Phương pháp mạng Nơ - ron
CÂU 12: Đầu vào của thuật toán FP_growth là gì?
a. Một CSDL giao dịch, min_sup_count
b. Tập các mục thường xuyên
c. Độ tin cậy
d. Độ hỗ trợ
CÂU 13: Đầu ra của thuật toán FP_growth là gì?
a. Tập các mục thường xuyên
b. Một CSDL giao dịch, min_sup_count
c. Support
d. Độ hỗ trợ
CÂU 14: Đầu vào của thuật toán Apriori là gì?
a. Một CSDL giao dịch, min_sup_count
b. Tập các mục thường xuyên
c. L tập các frequent itemset trong D
d. Độ hỗ trợ
CÂU 15: Thuật toán phân cụm dữ liệu nào sau đây thuộc nhóm phân cụm phân
hoạch:
a. K-MEANS
b. BIRCH
c. DBSCAN
d. EM
CÂU 16: Thuật toán phân cụm k-means do ai đề xuất:
a. MacQueen


b. P. Kriegel và J. Sander

c. Kaufman và Rousseeuw
d. Tian Zhang, Amakrishnan và Livny
CÂU 17: Hoveland và Hind giới thiệu thuật toán CLS lần đầu tiên vào năm bao
nhiêu?
a. Năm 50 của thế kỷ XX
b. Năm 40 của thế kỷ XX
c. Năm 60 của thế kỷ XX
d. Năm 70 của thế kỷ XX
CÂU 18: Kết quả của thuật toán CLS là đưa ra cây quyết định dựa trên:
a. Các mẫu mô tả quyết định
b. Các ngày để quan tâm
c. Các con số tính toán
d. Tất cả đều sai
CÂU 19: Hàm Entropy dùng để làm gì?
a. Để đo tính thuần nhất của một tập mẫu dữ liệu
b. Để đo tính không thuần nhất của dữ liệu xấu
c. Để đo tính thuần của thuộc tính
d. Các đáp án đều sai
CÂU 20: Cho tập ví dụ học như bảng. Có bao nhiêu thuộc tính để phân lớp ?

a. 4 thuộc tính
b. 3 thuộc tính


c. 5 thuộc tính
d. 6 thuộc tính

CÂU 22: Cho tập ví dụ học như bảng. Các thuộc tính dùng để phân lớp là:

a. Outlook, Temperature, Humidity, Wind

b. Outlook, Temperature, Humidity, Wind, Play Ball
c. Day, Outlook, Temperature, Humidity, Wind
d. Day, Outlook, Temperature, Humidity, Wind, Play Ball
CÂU 23: Khi chọn 1 thuộc tính A để làm gốc cây quyết định. Nếu thuộc tính A có
3 giá trị thì cây quyết định có bao nhiêu nhánh?
a. 3 nhánh
b. 2 nhánh
c. Nhiều nhánh
d. Phải biết kết luận C có bao nhiêu giá trị thì mới phân nhánh được
CÂU 24: Cho tập ví dụ học như bảng. Với (Wind =’Weak’) thì P+ mang giá trị
bao nhiêu:

a. 2


b. 3
c. 0
d. Giá trị khác
CÂU 925: Cho CSDL Giao tác như hình vẽ, Số lượng giao dịch trong cơ sở dữ
liệu là:

a. 5
b. 16
c. 6
d. 10
CÂU 27: Cho CSDL giao dịch như hình vẽ, Độ hỗ trợ của tập mục X={A, M} là:

a. 3 (60%)
b. 4 (80%)
c. 5 (100%)

d. 2 (40%)


CÂU 27: Thuật toán Apriori có nhược điểm chính là:
a. Tốn nhiều bộ nhớ và thời gian. Không thích hợp với các mẫu lớn. Chi phí
để duyệt CSDL nhiều.
b. Không tìm được các tập thường xuyên
c. Kết quả của thuật toán không ứng dụng được trong các bài toán thực tế
d. Thuật toán quá phức tạp, khó hiểu
CÂU 28: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%). Tập nào
là tập mục thường xuyên thỏa Min_support:
a. {A,C}
b. {D}
c. {A,D}
d. {B, C, D}
CÂU 29: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%). Tập nào
không là tập mục thường xuyên:

a. {A,C,D}
b. {A,E}
c. {A, C}
d. {B,E}
CÂU 30: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%). Cho
CSDL giao dịch như hình vẽ với Min_Support = 2 (50%). Tập nào không là tập
mục thường xuyên:


a. {D}
b. {A,E}
c. {A, C}

d. {B,E}
CÂU 31: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%). Sử dụng
thuật toán Apriori, sau lần duyệt thứ nhất, tập mục chứa 1-item bị loại bỏ là:

a. {D}
b. {A}
c. {B}
d. {A}, {D}
CÂU 32: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%). Tập nào
không là tập mục thường xuyên:

a. {B, D}
b. {A, E}


c. {A, C}
d. {B, E}
CÂU 33: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%). Tập nào
là tập mục thường xuyên với độ hỗ trợ là 75%:

a. {B,E}
b. {A,E}
c. {A, C}
d. {B,C}
CÂU 34: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%). Tập nào
là tập mục thường xuyên với độ hỗ trợ là = 70%

a. Không có tập nào
b. {A, E}
c. {A, C, D}

d. {B, C, D}
CÂU 35: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%),
Min_Cofidence = 50%. Luật kết hợp nào thỏa mãn các điều kiện đã cho:


a. A-->C
b. A-->D
c. A--> E
d. AB-->C
CÂU 36: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%),
Min_Cofidence = 50%. Luật kết hợp nào thỏa mãn các điều kiện đã cho:

a. B-->E
b. A-->D
c. A--> E
d. AB-->C
CÂU 37: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%),
Min_Cofidence = 50%. Luật kết hợp nào thỏa mãn các điều kiện đã cho:

a. A-->C
b. A-->D


c. A--> E
d. AB-->C
CÂU 38: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%),
Min_Cofidence = 50%. Luật kết hợp nào có độ tin cậy = 100%

a. A-->C
b. A-->D

c. AD--> E
d. AB-->C
CÂU 39: Cho tập mục thường xuyên X={A, B}, từ tập X có thể sinh ra các luật
kết hợp sau:
a. A--> B, B--> A, không tính luật AB --> ∅ và ∅ --> AB
b. A-->B, B--> A, A--> ∅ và ∅ --> B
c. A--> B
d. B--> A
CÂU 40: Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút m


a. 2 đường đi
b. 1 đường đi
c. 3 đường đi
d. 4 đường đi
CÂU 41: Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút p

a. 2 đường đi
b. 1 đường đi
c. 3 đường đi
d. 4 đường đi
CÂU 42: Hai thuật toán FP-Growth và Apriori dùng để:
a. Tìm các tập mục thường xuyên
b. Tìm các luật kết hợp


c. Tìm các tập mục có k - item
d. Thực hiện công việc khác
CÂU 43: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất
cả các mục (item) trong CSDL. X là một tập chứa các mục thuộc I. Giao dịch hỗ

trợ X là giao dịch chứa tất cả các mục có trong X. Độ hỗ trợ của tập mục X được
định nghĩa là:
a. Support(X)=Số lượng giao dịch hỗ trợ X / N
b. Support(X)=Số lượng giao dịch hỗ trợ X
c. Support(X)=Số lượng giao dịch hỗ trợ X / N * |I|, trong đó |I| là tổng số mục
trong CSDL
d. Support(X)=Số lượng giao dịch hỗ trợ X *100%
CÂU 44: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất
cả các mục (item) trong CSDL. X, Y là tập chứa các mục thuộc I. Độ tin cậy của
luật kết hợp X Y được định nghĩa là:
a. Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch
hỗ trợ X
b. Confidence(XY)=Số lượng giao dịch hỗ trợ X / Số lượng giao dịch hỗi trợ Y
c. Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ
trợ Y
d. Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y /N
CÂU 45: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất
cả các mục (item) trong CSDL. X, Y là tập chứa các mục thuộc I. Độ hỗ trợ của
luật kết hợp X Y được định nghĩa là:
a. Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / N
b. Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ
Y
c. Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ
X
d. Support(XY)=Số lượng giao dịch hỗ trợ cả X / Số lượng giao dịch hỗ trợ Y


CÂU 46: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất
cả các mục (item) trong CSDL. Min_Supp là độ hỗ trợ tối thiểu. X là tập chứa các
mục thuộc I. Tập mục X được gọi là tập mục thường xuyên (frequent itemset) nếu:

a. Support(X)>=Min_Supp
b. Support(X)<=Min_Supp
c. Support(X)=Min_Supp
d. Support(X) = Min_Supp/N
CÂU 47: Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất
cả các mục (item) trong CSDL. Min_Supp là độ hỗ trợ tối thiểu, Min_Conf là độ
tin cậy tối thiểu. X, Y là tập chứa các mục thuộc I. Luật kết hợp XY được chọn
nếu:
a. Support(XY)>=Min_Supp, Confidence(XY)>=Min_Conf
b. Support(XY)=Min_Supp, Confidence(XY)=Min_Conf
c. Support(XY)d. Support(XY)>Min_Supp, Confidence(XY)=Min_Conf
CÂU 48: Cho CSDL giao dịch như hình vẽ. Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%.

Các tập mục thường xuyên có 1 mục thỏa mãn Min_Supp là:
a. F:4, C:4, A:3, C:3, M:3, P:3
b. C:4, A:3, C:3, M:3, P:3
c. F:4, C:4


d. A:3, C:3, M:3, P:3
CÂU 49: Cho CDSL giao dịch như hình vẽ, Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%.

Tập mục thường xuyên có 4 mục thỏa mãn Min_Supp là:
a. FCAM:3
b. FCAM:2
c. FC:4
d. FCAM:4

CÂU 50: Cho CSDL giao dịch như hình vẽ. Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%.

Cơ sở điều kiện của nút M là:
a. {F:2, C:2, A:2} và { F:1, C:1, A:1, B:1}


b. {F:2, C:2, A:2}
c. F:1, C:1, A:1
d. F: 3, C:3, A:3
CÂU 51: Cho CSDL giao dịch như hình vẽ. Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%.

Cơ sở điều kiện của nút M là:
a. {F:2, C:2, A:2, M:2} và { C:1, B:1}
b. {F:2, C:2, A:2, M:2}
c. C:3
d. F: 3, C:3, A:3
CÂU 52: Cho CDSL giao dịch như hình vẽ. Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%.


Cây điều kiện FP của P là:
a. {C:3}| p
b. {CF:3}|p
c. {C:4}|p
d. Cây điều kiện là rỗng
CÂU 53: Cho CSDL giao dịch như hình vẽ. Độ hỗ trợ tối thiểu Min_Support = 3
(60%) và độ tin cậy tối thiểu Min_Confidence = 100%.


Cây điều kiện FP của A là:
a. {F:3, C:3}| p
b. {CF:3}|p
c. {C:4}|p
d. Cây điều kiện là rỗng
CÂU 54: Cho CSDL giao dịch gồm N mục phân biệt, tổng số các tập mục được
sinh ra (không tính tập rỗng) là:
a. 2^N - 1
b. 2^N
c. N
d. Vô số tập mục
CÂU 55: Cho A, B, C, D là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ
tối thiểu Min_Sup và độ tin cậy tối thiểu Min_Conf. Hãy cho biết luật kết hợp nào


sau đây chắc chắn thỏa mãn Min_Sup và Min_Conf mà không cần phải tính độ hỗ
trợ và độ tin cậy:
a. AB-->C
b. A-->D
c. ABD-->C
d. D-->C
CÂU 56: Cho A, B, C, là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ
tối thiểu Min_Sup và độ tin cậy tối thiểu Min_Conf. Ta thấy rằng luật kết hợp
AB-->C cũng thỏa mãn điều kiện về độ hỗ trợ tối thiểu và độ tin cậy tối thiểu vì:
a. Conference(AB-->C) >= Conference(A-->BC)
b. Conference(AB-->C) <= Conference(A-->BC)
c. Conference(AB-->C) = Conference(A-->BC)
d. Chưa kết luận được AB-->C có thỏa độ hỗ trợ tối tiểu và độ tin cậy tối thiểu hay
không
CÂU 57: Cho A, B, C, D là các mục trong cơ sở dữ liệu giao dịch. Kết luận nào

sau đây là sai:
a. Support(ABC) < Support(ABCD)
b. Support(ABC) >= Support(ABCD)
c. Support(AB) >= Support(ABC)
d. Support(AB) <= Support(A)
CÂU 58: Phát biểu nào sau đây là đúng:
a. Confidence(AC--> B) >= Confidence(A--> BC)
b. Confidence(AC--> B) = Confidence(A--> BC)
c. Confidence(A--> AB)>=Confidence(AC-->C)
d. Confidence(AB--> C) >= Confidence(AC--> B)
CÂU 59: Giả sử ta có các tập mục thường xuyên {A,B}, {A,C}, {B,D} chứa 2item. Sử dụng thuật toán Apriori để ghép các tập mục có 2-item thành các tập mục
có 3-item , các ứng viên sinh ra có 3-item là:
a. {A, B, C}, {A, B, D}


b. {A, B, C}, {A, B, D}, {A, B, C, D}
c. {A, B, C}, {B, C, D}
d. {A, B, C}, {C, B, D}
CÂU 60: Trong thuật toán Apriori, tập mục chứa k-item được tạo ra bằng cách nào
trong các cách sau:
a. Tạo ra từ tập chứa k-1 item bằng cách ghép 2 tập k-1 item với nhau với
điều kiện là 2 tập k-1 item này phải có chung nhau k-2 item
b. Tổ hợp k item từ các item có trong cơ sở dữ liệu giao dịch.
c. Lấy ngẫu nhiên k item sau đó ghép lại với nhau.
d. Sinh mọi tập con có k item từ các item có trong cơ sở dữ liệu giao dịch
CÂU 61: Cho tập L3={abc, abd, ade, ace} là các tập mục thường xuyên chứa 3item. Để tạo các ứng viên chứa 4-item abcd, ta cần ghép các tập chứa 3-item nào
với nhau?
a. abc và abd
b. abc và ade
c. abc và ace

d. abd và ade
CÂU 62: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%),
Min_Cofidence = 50%.

Luật kết hợp nào không thỏa mãn điều kiện đề bài:
a. BA-->E
b. BC -->E
c. C--> E
d. B-->C


CÂU 63: k-Mean phù hợp với các cụm có hình dạng nào sau đây:
a. Dạng hình cầu
b. Cụm dài và mảnh
c. Các cụm có các điểm phân bố ngẫu nhiên
d. Hình dạng bất kỳ
CÂU 64: Thuật toán phân cụm K-MEANS dừng khi:
a. Không thể gán (hoặc gán lại) từng điểm vào cụm khác
b. Số cụm sinh ra là k
c. Tùy theo yêu cầu của người dùng
d. Khi tất cả các phần tử đã được gán vào k cụm
CÂU 65: Hãy chọn phát biểu sai trong các phát biểu sau đây về thuật toán phân
cụm K-MEANS:
a. Phụ thuộc vào thứ tự các phần tử đưa vào phân cụm
b. Cần phải xác định trước số cụm cần sinh ra
c. K-MEANS phù hợp với các cụm có dạng hình cầu
d. Vector được chọn làm trọng tâm của mỗi cụm là vector trung bình của cụm đó
CÂU 66: Thuật toán phân cụm nào sau đây có thể tìm ra các cụm với hình thù bất
kỳ :
a. DBSCAN

b. K-MEANS
c. PAM
d. BIRCH
CÂU 67: Cho tập mục thường xuyên X={A, B, C}, từ tập X có thể sinh ra bao
nhiêu luật kết hợp:
a. 6 luật, không tính luật X → ∅ và ∅ → X
b. 8 luật, không tính luật X → ∅ và ∅ → X
c. 3 luật
d. 1 luật


CÂU 68: Cho CSDL giao dịch như hình vẽ với Min_Support = 2 (50%).

Sử dụng thuật toán Apriori, sau lần duyệt thứ hai, danh sách L2 chứa các tập mục
thường xuyên có 2-item được tạo ra là:
a. L2={{A,C}, {B,C}, {B,E}, {C,E}}
b. L2={{ A,D}, {B,D}, {B,E}, {C,E}}
TB (c. L2= {{B,C}, {B,E}, {C,E}}
d. L2= {{A,C}, {C,E}}
CÂU 69: Với công thức tính Gain thông thường không phù hợp với tình huống
nào ?
a. Với các thuộc tính có rất nhiều giá trị
b. Không phụ hợp với ba thuộc tính
c. Không phù hợp với tập chỉ có duy nhất một mẫu
d. Mọi trường hợp đều phù hợp
CÂU 70: Cho tập ví dụ học như bảng. P(Play Ball= ‘No’) là:

a. 1/2
b. 1/3
c. 0/3



d. Giá trị khác
CÂU 71: Thuật ngữ Tiền xử lí dữ liệu bằng tiếng Anh là:
a. Data Preprocessing
b. Data Processing
c. Preprocessing in Database
d. Data Process
CÂU 72: Cho ví dụ trong bảng với thuộc tính Wind, thì:

a. P(Weak | Yes)=2/4; P(Weak | No) = 2/4; P(Strong | Yes) = 1/2; P(Strong | No)
= 1/2
b. P(Weak | Yes)=1/3; P(Weak | No) = 2/3; P(Strong | Yes) = 3/3; P(Strong | No) =
1/3
c. P(Weak | Yes)=2/3; P(Weak | No) = 1/3; P(Strong | Yes) = 2/3; P(Strong | No) =
2/3
d. P(Weak | Yes)=2/3; P(Weak | No) = 0/3; P(Strong | Yes) = 1/3; P(Strong | No) =
1/3
CÂU 73: Cho các ví dụ học trong bảng. Entropy của kết luận Play Ball là:


a. Entropy(Play ball) = 1
b. Entropy(Play ball) = 2
c. Entropy(Play ball) = 0.5
d. Entropy(Play ball) = 0
----------------- & -----------------




×