Tải bản đầy đủ (.doc) (2 trang)

Bài tập lớn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (68.93 KB, 2 trang )

Danh sách bài tập lớn môn học Khai phá dữ liệu
Phần 1. Các đề tài học thuật
1. Khai phá luật kết hợp: Tìm hiểu lý thuyết về khai phá luật kết hợp; lựa chọn một thuật
toán khai phá luật kết hợp; tìm kiếm và tiền xử lý một bộ dữ liệu giao dịch (có thể là cơ
sở dữ liệu quan hệ hoặc dạng khác); tiền xử lý bộ dữ liệu; cài đặt thuật toán tìm tập phổ
biến và luật kết hợp trong cơ sở dữ liệu; thiết kế giao diện cho chương trình.
2. Phân lớp bằng SVM: Tìm hiểu lý thuyết về SVM (2 lớp đơn giản); tìm hiểu chương
trình giải bài toán tối ưu CPLEX và cách sử dụng nó trong C++; cài đặt một chương trình
C++ cho bài toán phân lớp SVM và đánh giá kết quả trên dữ liệu UCI.
3. Tìm hiểu mô hình MSVM: Tìm hiểu kỹ thuật phân lớp bằng SVM; các chiến lược
phân đa lớp: one vs all, one vs one; tìm hiểu các mô hình MSVM của Cramer and singer;
Weston and Watkins, Lee and Lin; sử dụng code về SVM có sẵn để test trên các bộ dữ
liệu UCI.
4. Phân lớp bằng K-NN: Tìm hiểu giải thuật K-NN; thu thập và tiền xử lý dữ liệu số
(dạng quan hệ hoặc dạng tệp, dữ liệu UCI hoặc dữ liệu dành riêng cho K-NN); cài đặt
giải thuật K-NN trên các bộ dữ liệu đã xử lý; đánh giá giải thuật.

5. Phân lớp bằng Naïve Bayesian: Tìm hiểu giải thuật phân lớp Naïve Bayesian; thu thập
và tiền xử lý dữ liệu; cài đặt giải thuật bằng C++ và đánh giá kết quả thu được.
7. Phân cụm bằng K-Means: Tìm hiểu giải thuật K-Means; ưu, nhược điểm của k-means;
thu thập và tiền xử lý dữ liệu phân cụm UCI; cài đặt giải thuật k-means trên dữ liệu đã xử
lý; tổng hợp và đánh giá kết quả thu được.
8. Phân cụm trên đồ thị - phương pháp Newman: Tìm hiểu bài toán phân cụm trên đồ thị,
độ đo Modularity và giải thuật phân cụm trên đồ thị của Newman; thu thập và tiền xử lý
dữ liệu đồ thị (network datasets); cài đặt giải thuật bằng C++; tổng hợp và đánh giá kết
quả thu được.
9. Phân cụm trên đồ thị - phương pháp DCA: Tìm hiểu bài toán phân cụm trên đồ thị, độ
đo Modularity và giải thuật phân cụm trên đồ thị của Lê Thị Hoài An – Nguyễn Mạnh
Cường (DCAM); thu thập và tiền xử lý dữ liệu đồ thị (network datasets); cài đặt giải
thuật bằng C++; tổng hợp và đánh giá kết quả thu được.
10. Bản đồ tự tổ chức SOM – giải thuật cơ bản: Tìm hiểu về SOM và Batch SOM, giải


thuật huấn luyện batch SOM cơ bản; thu thập và tiền xử lý dữ liệu SOM; cài đặt giải
thuật Batch SOM cơ bản bằng C++; tổng hợp và đánh giá kết quả.
11. Bản đồ tự tổ chức SOM – giải thuật DCA: Tìm hiểu về SOM, Batch SOM, giải thuật
huấn luyện SOM (DCASOM) của Lê Thị Hoài An – Nguyễn Mạnh Cường; thu thập và
tiền xử lý dữ liệu SOM; Cài đặt giải thuật DCASOM bản bằng C++; tổng hợp và đánh
giá kết quả.
12. Hệ thống IDS chống xâm nhập và giải thuật phân lớp: Tìm hiểu hệ thống IDS và bài
toán phân lớp trong IDS; tìm hiểu về SVM hai lớp; thu thập và tiền xử lý dữ liệu của
UCI; cài đặt SVM cho bài toán intrusion detection; tổng hợp và đánh giá kết quả.

13. Tìm hiểu, mô tả lại chi tiết, đánh giá ưu nhược điểm, đưa ra các phương án xử lý
nhược điểm của một thuật toán bất kỳ trong số các thuật toán sau đây (sinh viên có thể
chọn 1 hoặc nhiều thuật toán): giải thuật sinh luật kết hợp Apriori/ AprioriTID/ FP-
tree…; giải thuật sinh cây quyết định ID3; giải thuật phân lớp Bayesian; giải thuật phân
lớp bằng SVM; giải thuật phân đa lớp MSVM; bài toán và giải thuật phân đoạn ảnh
(image segmentation); giải thuật phân cụm k-means; giải thuật phân cụm DCA-Kmeans;
giải thuật phân cụm đồ thị Modularity maximization của newman (CNM); giải thuật phân
cụm đồ thị DCAM; giải thuật phân cụm đồ thị Walktrap; giải thuật phân cụm trên đồ thị
SP (spectral bisection algorithm của newman); giải thuật huấn luyện online SOM, Batch
SOM, DCASOM (chọn 1 trong 3); phân lớp bằng S3VM; bài toán và giải thuật trích chọn
thuộc tính (feature selection); …
Phần 2: Các đề tài ứng dụng
14. Giải thuật K-NN cho hệ thống recommender: Tìm hiểu giải thuật K-NN; tìm hiểu bài
toán đưa ra khuyến nghị trong recommender systems; thu thập và tiền xử lý dữ liệu giao
dịch trong một website bán hàng; cài đặt chức năng đưa ra khuyến nghị mua hàng cho
các khách hàng dựa trên lịch sử giao dịch bằng giải thuật K-NN;
15. Gợi ý quảng cáo thông minh: Tìm hiểu một giải thuật phân lớp bất kỳ; tìm hiểu bài
toán đưa ra các quảng cáo thông minh (phù hợp với người dùng); thu thập và tiền xử lý
một bộ dữ liệu của một website (mạng xã hội, bán hàng, tin tức…); cài đặt thêm chức
năng tìm ra quảng cáo phù hợp với người dùng.

16. Tìm và đưa ra gợi ý nhóm mua chung: Thu thập và tiền xử lý một bộ dữ liệu bán hàng
(web hoặc winform); thiết lập một đồ thị dựa trên các tương tác giữa các khách hàng;
nghiên cứu và cài đặt chức năng gợi ý thành lập nhóm mua chung cho các khách hàng,
dựa trên đồ thị vừa xây dựng (sử dụng một giải thuật phân cụm trên đồ thị);
17. Phân loại tự động khách hàng: Thu thập một cơ sở dữ liệu về khách hàng của một
website bán hàng hoặc phần mềm quản lý bán hàng dạng winform; Chọn lọc và tiền xử lý
dữ liệu demographic của khách hàng với class-label là tên nhóm khách hàng để làm bộ
dữ liệu huấn luyện; cài đặt thêm chức năng tự động phân loại khách hàng bằng một giải
thuật phân lớp phù hợp.
18. Phân loại hành vi mua hàng của khách hàng: Thu thập và tiền xử lý một bộ dữ liệu về
khách hàng của website bán hàng hoặc phần mềm quản lý bán hàng winform; xây dựng
bảng dữ liệu về: khách hàng nào, mua hàng gì, số lượng bao nhiêu; phân cụm các khách
hàng thành các cụm dựa trên bảng dữ liệu vừa xây dựng.
Một đề tài sinh viên tự đề xuất
19. Xây dựng Winform chuẩn đuán về bệnh hô hấp

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×