Trịnh Tấn Đạt
Khoa CNTT – Đại Học Sài Gòn
Email:
Website: />
1
Nội dung
Giới thiệu môn học
Các nội dung
Tài liệu tham khảo
Hình thức đánh giá
Danh sách các đề tài – đồ án môn học
Các vấn đề trong data mining
Trao đổi và thảo luận
2
Giới Thiệu Môn Học
Khai phá dữ liệu (data mining)
3 tín chỉ
Mục tiêu:
Cung cấp cho sinh viên các nguyên lý, các khái niệm, và các kỹ thuật căn bản và
nền tảng trong khai phá dữ liệu
Giới thiệu cho sinh viên những hiểu biết nhất định về các chủ đề khai phá dữ liệu
mới mẻ và hiện đại cũng như các xu hướng của lĩnh vực.
Cung cấp nền tảng tốt về suy luận thống kê và cấu trúc tốn học cần thiết để phục
vụ cho cơng việc nghiên cứu khoa học.
Kỹ năng thực hành, thiết kế mô phỏng thực nghiệm.
Thái độ học tập chăm chỉ, nghiêm túc và sáng tạo.
3
Các Nội Dung
Giới thiệu về khai phá dữ liệu và các vấn đề liên quan
Tiền xử lý dữ liệu (preprocessing)
Hồi quy dữ liệu (regression)
Các phương pháp phân lớp (classification): Naïve Bayes Classifier, Neural
Network, SVM, Boosting…
Các phương pháp phân cụm (clustering): Kmeans, Phân cụm đa cấp, …
Luật kết hợp (association rules)
Đồ án môn học – seminar nhóm
4
Tài liệu tham khảo
Slide giảng viên cung cấp
Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques,
3rd edition, Morgan Kaufmann Publishers, 2011
Ian H. Witten and Eibe Frank, Data Mining – Practical Machine Learning Tools and
Techniques, 2nd edition, Morgan Kaufmann Publishers, 2005
Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification,
Wiley,2000.
Các nguồn khác trên internet
Google
Kaggle
…
5
Hình thức đánh giá
Điểm quá trình:
Chuyên cần: 10%
Báo cáo đề tài: 40%
Soạn slide báo cáo.
Thuyết trình giảng bài trước lớp. (20 phút đến 30 phút).
Chương trình demo mơ phỏng ứng dụng của phương pháp/thuật tốn trình bày.
Báo cáo cuối kỳ: 50% .
Báo cáo trình bày theo mẫu nghiên cứu khoa học/ khóa luận tốt nghiệp
Báo cáo u cầu ít nhất 30 trang
Có tài liệu tham khảo và trích dẫn (ít nhất 15 tài liệu tham khảo)
Trình bày chi tiết cơ sở lý thuyết của thuật toán/ phương pháp lựa chọn.
❖ Điểm thưởng (+): phát biểu, giải bài tập, đặt câu hỏi cho nhóm thuyết trình, ...
6
Danh sách chủ đề báo cáo
❖ Sinh viên đăng ký làm đề tài theo nhóm (mỗi nhóm tối đa 3 sinh viên):
K-Nearest Neighbors
2. Decision Tree (C4.5, CART, …)
3. Clustering (K-means, Spectral clustering, hierarchical clustering, DBSCAN, …)
4. Support vector machines (SVM)
5. Boosting algorithm: thuật toán AdaBoost
6. Association rules: thuật toán Apriori
7. Expectation–Maximization algorithm
8. Naïve Bayes Classifier
9. Neural Network
10. Rough set theory (Lý thuyết tập thô)
1.
7
Các ứng dụng
▪ Trích chọn thơng tin
▪ Phân tích chủ đề và ứng dụng
▪ Phân tích liên kết và tìm kiếm trên Web
▪ Quảng cáo trực tuyến
▪ Phân tích quan điểm
▪ Các hệ thống gợi ý
▪ Phân tích mạng xã hội
▪ Dữ liệu lớn và Khai phá dữ liệu quy mơ lớn
▪ Phân tích và dự báo với dữ liệu kinh tế tài chính
▪ Đấu giá và thị trường
▪ …
8
Các Vấn Đề Trong Data Mining
❖ Data Mining là gì?
• Q trình trích xuất tri thức từ lượng lớn dữ liệu.
• Q trình trích xuất thơng tin ẩn, hữu ích, chưa được biết trước từ dữ liệu.
9
Các Vấn Đề Trong Data Mining
Các ứng dụng: Prediction
Tid Refund Marital
Status
Taxable
Income Cheat
1
Yes
Single
125K
No
2
No
Married
100K
No
3
No
Single
70K
4
Yes
Married
120K
5
No
6
Refund Marital
Status
Taxable
Income Cheat
No
No
Single
75K
?
No
Yes
Married
50K
?
Divorced 95K
Yes
No
Married
150K
?
No
Married
No
Yes
Divorced 90K
?
7
Yes
Divorced 220K
No
No
Single
40K
?
8
No
Single
Yes
No
Married
80K
?
60K
85K
10
9
No
Married
75K
No
10
No
Single
90K
Yes
10
10
Các Vấn Đề Trong Data Mining
Các ứng dụng: Biometric recognition – face, fingerprint, iris, gait, …
11
Các Vấn Đề Trong Data Mining
Các ứng dụng : Recommender system
12
Các Vấn Đề Trong Data Mining
Các ứng dụng : Sentiment Analysis
13
Các Vấn Đề Trong Data Mining
Các ứng dụng : Credit scoring
14
Các Vấn Đề Trong Data Mining
Quá trình khám phá tri thức
Pattern Evaluation
Data Mining
Task-relevant Data
Data Warehouse
Selection
Data Cleaning
Data Integration
Databases
15
Các Vấn Đề Trong Data Mining
❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước:
Data cleaning (làm sạch dữ liệu)
Data integration (tích hợp dữ liệu)
Data selection (chọn lựa dữ liệu)
Data transformation (biến đổi dữ liệu)
Data mining (khai phá dữ liệu)
Pattern evaluation (đánh giá mẫu)
Knowledge presentation (biểu diễn tri thức)
16
Các Vấn Đề Trong Data Mining
❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:
Data sources (các nguồn dữ liệu)
Data warehouse (kho dữ liệu)
Task-relevant data (dữ liệu cụ thể sẽ được khai phá)
Patterns (mẫu kết quả từ khai phá dữ liệu)
Knowledge (tri thức đạt được)
17
18
Các Vấn Đề Trong Data Mining
Lượng lớn dữ liệu sẵn có để khai phá
Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúc hay phi
cấu trúc
Dữ liệu được lưu trữ
Các tập tin truyền thống (flat files)
Các cơ sở dữ liệu giao tác (transactional databases) hay kho dữliệu (data warehouses)
Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu chuỗi thời gian (time series databases), cơ
sở dữ liệu văn bản (text databases), cơ sở dữ liệu đa phương tiện (multimedia databases), …
Các kho thông tin: the World Wide Web, …
Dữ liệu tạm thời: các dòng dữ liệu (data streams)
19
Các Vấn Đề Trong Data Mining
Database
Technology
Machine
Learning
Pattern
Recognition
Statistics
Data Mining
Algorithm
Visualization
Other
Disciplines
20
Các Vấn Đề Trong Data Mining
Phân loại các thuật toán: (chức năng)
Regression Algorithms
Classification Algorithms
Bayesian Algorithms
Clustering Algorithms
Artificial Neural Network Algorithms
Ensemble Algorithms
Association Rules
21
Các vấn đề trong Data Mining
Regression vs. Classification
Regression: biến đầu ra là định lượng
(liên tục/dạng số/có thứ tự)
Classification: biến đầu ra dạng định
tính (kiểu rời rạc/thứ bậc/định danh)
(categorical)
22
Các vấn đề trong Data Mining
Prediction vs. Inference
Prediction (dự đoán): Dự đoán
biến output với tập dữ liệu input
cho trước, sử dụng một hàm ước
lượng thống kê.
Inference (suy diễn): Tìm hiểu mối
quan hệ giữa output với các biến
input
23
Các vấn đề trong Data Mining
Recognition: Verification vs. Identification
24
Các Vấn Đề Trong Data Mining
❖ Phân cụm (clustering)
Chia dữ liệu thành các tập con mà chúng có các đặc tính chung
25