Tải bản đầy đủ (.docx) (21 trang)

Tổng hợp 45 câu hỏi môn khai thác dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (326.41 KB, 21 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

Câu hỏi <b>2</b>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Trong danh sách sau, thao tác nào không được cho là thao tác khai thác dữ liệu : 1. Frequent pattern mining

2. Regression 3. Data warehousing 4. Clustering Select one:

a. 3 b. 2 c. 2 và 3 d. 1

Câu hỏi <b>3</b>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Bài tốn tìm cấu trúc ẩn chứa bên trong tập dữ liệu không được gán nhãn được gọi là Bài toán phát hiện giao dịch gian lận của thẻ tín dụng là dạng bài toán?

Select one:

a. Data Pre-processing b. Clustering

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

Câu hỏi <b>4</b>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Bài toán dẫn xuất ra mơ hình từ tập dữ liệu huấn luyện được gán nhãn được gọi là Select one:

a. Học có giám sát (supervised learning) b. Học khơng giám sát (unsupervised learning) c. Học tăng cường (reinforcement learning) d. Tất cả các câu còn lại đều sai

Câu hỏi <b>5</b>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Bài toán khai thác dữ liệu nào dưới đây thực hiện để nhận dạng cho dữ liệu mới dựa trên những dữ liệu đã biết trước?

Select one:

a. Data Pre-processing b. Clustering

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Cho biết các vấn đề nào sau đây liên quan đến chất lượng dữ liệu? Select one:

a. Tồn tại nhiễu dữ liệu b. Dữ liệu thiếu sót

c. Xuất hiện trùng lặp dữ liệu d. Câu a, b, và c đúng e. Chỉ câu a và b đúng

Câu hỏi <b>8</b>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 Đặt cờ </small>

Đoạn văn câu hỏi

Câu hỏi <b>6</b>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Một trang web thương mại điện tử muốn tăng cường thêm tính năng gợi ý cho khách hàng các món hàng nên mua cùng nhau sẽ áp dụng bài toán khai thác dữ liệu nào dưới đây?

Select one:

a. Data Pre-processing b. Clustering

c. Classification

d. Frequent Pattern Mining

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

Cho dataset như hình, cho biết số chiều (dimension) và kích thước (size) của dataset?

Select one:

a. Số chiều dữ liệu là 5, Kích thước dữ liệu là 10 b. Số chiều dữ liệu là 10, Kích thước dữ liệu là 5 c. Số chiều dữ liệu là 2, Kích thước dữ liệu là 10

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Câu hỏi <b>9</b>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Cho biết vấn đề liên quan đến chất lượng dữ liệu trong hai dòng đánh dấu B của bảng dữ liệu sau:

Đoạn văn câu hỏi

d. Số chiều dữ liệu là 1, Kích thước dữ liệu là 5

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Cho dataset như hình, cho biết thuộc tính nào có dạng

Ordinal

Select one:

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

a. Taxable Income b. Refund

Các mệnh đề nào sau đây đúng với khái niệm sampling Select one:

a. Sampling là kỹ thuật chính cho thao tác chọn dữ liệu (data selection)

b. Sử dụng sampling vì lý do thao tác trên toàn bộ tập dữ liệu là tốn kém và mất nhiều thời gian c. Dùng kết quả sampling để khai thác sẽ cho kết quả tương đương với dùng toàn bộ dataset nếu thực hiện sampling hợp lý.

d. Các câu còn lại đều đúng

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

<b>Thao tác nào sau đây giúp thu giảm số điểm dữ liệu trong tập dữ liệu? </b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

Câu hỏi <b>14</b>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Giải thuật nào sau đây được xếp vào nhóm học khơng giám sát (unsupervised learning)? Select one:

a. Linear Regression b. ID3 Decision Tree c. K-Means

Case-based learning là gì? Select one:

a. Là giải thuật học máy để tìm sự phân lớp tối ưu cho một tập dữ liệu mẫu dựa trên lý thuyết xác suất

b. Là giải thuật học máy để giới hạn khơng gian tìm kiếm cho một giả thiết

c. Là một hướng tiếp cận để thiết kế giải thuật học máy lấy ý tưởng từ việc con người gặp tình huống mới thì sẽ diễn giải tình huống mới bằng cách tham chiếu đến các tình huống đã xảy ra trước đó. d. Khơng có câu nào đúng

<small>Đúng </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Một trang web thương mại điện tử muốn bổ sung chức năng dự đoán việc click lên các mục quảng cáo của khách viếng thăm. Đây là dạng bài toán:

Select one:

a. Data Pre-processingb. Clustering

c. Classification d. Data Visualization

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

<b>Thao tác nào sau đây giúp thu giảm số thuộc tính trong tập dữ liệu? </b>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Trong Naive Bayes, các giá trị xác suất được xác định bằng cách nào? Select one:

a. Là các tham số nhập vào từ người dùng

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Giải thuật nào sau đây là giải thuật xây dựng m ơ hình phân lớp dựa trên cây quyết địnhSelect one:

a. Hunt’s Algorithm b. CART

c. C4.5

d. Tất cả đều đúng

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

b. Được ước lượng từ tập dữ liệu huấn luyện c. Được ước lượng từ tập dữ liệu kiểm tra

d. Được gán giá trị mặc định và giải thuật tự điều chỉnh sau khi đánh giá kết quả

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Cho Confusion Matrix như sau:

Cho số lượng trường hợp bộ phân lớp cho kết quả sai? Select one:

a. 15 b. 50 c. 110 d. 105

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Đoạn văn câu hỏi

Mô tả nào sau đây đúng cho khái niệm "overfitting"?Select one:

a. Khi mơ hình học quá đơn giản dẫn đến khi thực thi trên tập dữ liệu huấn luyện và tập dữ liệu kiểm tra đều có nhiều dự đốn sai.

b. Khi mơ hình học quá phức tạp dẫn đến thực thi chính xác trên tập dữ liệu huấn luyện nhưng nhiều dự đoán sai trên tập dữ liệu kiểm tra

c. Khi mơ hình học q phức tạp dẫn đến thời gian thực thi lớn nhưng có kết quả chính xác.d. Tất cả các câu cịn lại đều sai

Mơ hình cây quyết định rơi vào tình huống overfitting nghĩa là? Select one:

a. Cây có cấu trúc phức tạp b. Cây có cấu trúc đơn giản c. Cây có nhiều node lá d. Tất cả đều sai

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Đoạn văn câu hỏi

Mệnh đề nào đúng về độ đo F-score cho mơ hình phân lớp Select one:

a. F-Score càng lớn thì bộ phân lớp càng tốt b. F-Score càng bé thì bộ phân lớp càng tốt

c. F-Score khơng tính được cho bộ phân lớp nhị phân d. Tất cả đều sai

Trong cây quyết định node nào đại diện cho thuộc tính dùng để kiểm tra? Select one:

a. Node lá

b. Node trung gian

Đoạn văn câu hỏi

Mơ hình học máy nào được gọi là lazy-learning? Select one:

a. KNN b. K-Means c. Naive Bayes d. Tất cả đều đúng

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

c. Tất cả đều sai d. Tất cả đều đúng

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Mô tả nào sau đây đúng cho khái niệm "underfitting" Selectone:

a. Khi mơ hình học q đơn giản dẫn đến khi thực thi trên tập dữ liệu huấn luyện và tập dữ liệu kiểm tra đều có nhiều dự đốn sai.

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Số lượng thuộc tính (features) tối thiểu để gom cụm được là bao nhiêu? Select one:

a. 0 b. 1 c. 2 d. 3 e. k

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<small>Đặt cờ </small>

Đoạn văn câu hỏi

DBSCAN là giải thuật phân vào nhóm: Select one:

a. Clustering b. Classification

c. Association rule discovery d. Tất cả đều đúng

Trong giải thuật gom cụm theo mật độ DBSCAN, khái niệm mật độ được mơ hình hóa như thế nào? Select one:

a. Qua tham số mô tả số điểm tối thiểu trong một bán kính cho trước b. Qua tham số mô tả số điểm tối đa trong một bán kính cho trước

c. DBSCAN tự phát hiện số cụm cùng mật độ của nó d. Tất cả đều sai

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Đoạn văn câu hỏi

DBSCAN cần cho biết số cụm trước khi thực thi? Hãy chọn một:

Đúng Sai

Chỉ ra mệnh đề sai về K-Means Select

Đoạn văn câu hỏi

Trường hợp nào sau đây K-Means không cho kết quả tốt 1. Dữ liệu có ngoại biên (outlier)

2. Dữ liệu có mật độ phân bố thay đổi 3. Dữ liệu phân bố theo hình trịn

4. Dữ liệu phân bố theo dạng hình khơng lồi (non-convex) Select one:

a. 1 và 2 b. 2 và 3 c. 3 và 4 d. 1, 2, và 3 e. 1, 2, và 4

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

K-Means thuộc giải thuật học máy Selectone:

a. Có giám sát (supervised learning)Supervised b. Khơng có giám sát (unsupervised learning) c. Tất cả đều sai

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

Đoạn văn câu hỏi

Giải thuật K-Means yêu cầu điều gì? Select one:

a. Số cụm cho trước

b. Độ đo khoảng cách định nghĩa trước c. Trung tâm cụm khởi tạo trước d. Tất cả các ý còn lại

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<small>Đặt cờ </small>

Đoạn văn câu hỏi

DBSCAN cho phép tìm mật độ phân bố của các điểm dữ liệu trong tập dữ liệu?

Hãy chọn một: Đúng Sai

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Nếu biết support của Itemset {a, b, c} là 99, hãy chobiết giá trị nào sau đây chắc chắn không phải support của itemset {a, b} :

Select one: a. 98 b. 99 c. 100

d. Tất cả đều sai

<small>Đúng một phần Đạt điểm 0,33 trên 1,00 </small>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Điều kiện dừng của giải thuật K-Means có thể là: Select one or more:

a. Sau một số lần lặp định trước b. Việc phân cụm không thay đổi c. Các trung tâm cụm không thay đổi

d. Nếu giá trị hàm mục tiêu có giá trị dưới ngưỡng cho trước

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Câu hỏi <b>38</b>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Nếu biết support của Itemset {a, b} là 99, hãy cho biết giá trị nào sau đây chắc chắn không phải support của itemset {a, b, c} :

Select one: a. 98 b. 99 c. 100

d. Tất cả đều sai

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Câu hỏi <b>39</b>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Cho trước ngưỡng hỗ trợ minSup = 60% và ngưỡng tin cậy minConf = 80% để tìm tập phổ biến và luật kết hợp trên cho dataset sau:

<b> T_id Itemlist </b>

T1 {A, B, D, F} T2 {A, B, C, D, E} T3 {A, B, C, E} T4 {A, B, D}

Cho biết kích cỡ itemsets lớn nhất có thể tìm được là bao nhiêu? Select one:

a. 3 b. 2 c. 1 d. 4

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Giải thuật khai thác mẫu phổ biến? Select one:

a. Apriori b. FP-Grownth c. ECLAT

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Câu hỏi <b>41</b>

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Các tham số để thực thi giải thuật Apriori để tìm mẫu phổ biến và luật kết hợp? Select one:

a. Ngưỡng hỗ trợ MinSup b. Ngưỡng tin cậy MinConf c. Số điểm tối thiểu MinPTs d. câu a và b

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Cho một tập dữ liệu và một ngưỡng hỗ trợ minSup. Gọi A là số lượng frequent itemset,

B là số lượng closed frequent itemsets, C là số lượng max frequent itemsets tìm được. Cho biết mệnh đề nào sau đây là đúng:

Select one:

a. A >= B >= C b. A <= B <= C c. A <= C <= B

d. Tất cả các giải thuật trên

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Trong khai thác tập phổ biến, nếu một dataset có 99 loại mục (item) thì số tập phổ biến tối đa có thể có là bao nhiêu?

Select one: a. 2^99 - 1 b. 99 c. 100 d. 99!

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 </small>

<small>Đặt cờ </small>

Đoạn văn câu hỏi

Một tập mục (itemset) được gọi là phổ biến nếu: Select one:

a. Độ hỗ trợ lớn hơn hoặc bằng ngưỡng cho trước b. Độ hỗ trợ thấp hơn hoặc bằng ngưỡng cho trước c. Độ hỗ trợ đúng bằng ngưỡng cho trước

d. Tất cả đều sai

<small>Đúng </small>

<small>Đạt điểm 1,00 trên 1,00 Đặt cờ </small>

Đoạn văn câu hỏi

Áp dụng giải thuật apriori trên tập dữ liệu gồm 5 loại mục {A, B, C, D, E}.

Giả sử thu được các 2-itemsets phổ biến là {A, B}, {A, C}, {A, D}, {B, C}, {B, E}, {C, E}.

Hỏi trong các itemsets sau, itemset nào sẽ là ứng viên 3-itemsets cần xem xét ở vòng lặp tiếp theo?

Select one or more: a. {A, B, C}

b. {B, C, E} c. {C, D, E} d. {B, C, D} d. B <= A <= C

</div>

×