Tải bản đầy đủ (.pdf) (26 trang)

Bài giảng khai phá dữ liệu (data mining) introduction

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (806.68 KB, 26 trang )

Trịnh Tấn Đạt
Khoa CNTT – Đại Học Sài Gòn
Email:
Website: />
1


Nội dung
 Giới thiệu môn học
 Các nội dung
 Tài liệu tham khảo
 Hình thức đánh giá
 Danh sách các đề tài – đồ án môn học
 Các vấn đề trong data mining
 Trao đổi và thảo luận

2


Giới Thiệu Môn Học
 Khai phá dữ liệu (data mining)
 3 tín chỉ
 Mục tiêu:
 Cung cấp cho sinh viên các nguyên lý, các khái niệm, và các kỹ thuật căn bản và
nền tảng trong khai phá dữ liệu
 Giới thiệu cho sinh viên những hiểu biết nhất định về các chủ đề khai phá dữ liệu
mới mẻ và hiện đại cũng như các xu hướng của lĩnh vực.
 Cung cấp nền tảng tốt về suy luận thống kê và cấu trúc tốn học cần thiết để phục
vụ cho cơng việc nghiên cứu khoa học.
 Kỹ năng thực hành, thiết kế mô phỏng thực nghiệm.
 Thái độ học tập chăm chỉ, nghiêm túc và sáng tạo.


3


Các Nội Dung
 Giới thiệu về khai phá dữ liệu và các vấn đề liên quan
 Tiền xử lý dữ liệu (preprocessing)
 Hồi quy dữ liệu (regression)
 Các phương pháp phân lớp (classification): Naïve Bayes Classifier, Neural

Network, SVM, Boosting…
 Các phương pháp phân cụm (clustering): Kmeans, Phân cụm đa cấp, …
 Luật kết hợp (association rules)
 Đồ án môn học – seminar nhóm

4


Tài liệu tham khảo
 Slide giảng viên cung cấp
 Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques,

3rd edition, Morgan Kaufmann Publishers, 2011
 Ian H. Witten and Eibe Frank, Data Mining – Practical Machine Learning Tools and
Techniques, 2nd edition, Morgan Kaufmann Publishers, 2005
 Richard O. Duda, Peter E. Hart, and David G. Stork, Pattern Classification,
Wiley,2000.
 Các nguồn khác trên internet
 Google
 Kaggle
 …


5


Hình thức đánh giá
 Điểm quá trình:
 Chuyên cần: 10%
 Báo cáo đề tài: 40%




Soạn slide báo cáo.
Thuyết trình giảng bài trước lớp. (20 phút đến 30 phút).
Chương trình demo mơ phỏng ứng dụng của phương pháp/thuật tốn trình bày.

 Báo cáo cuối kỳ: 50% .

 Báo cáo trình bày theo mẫu nghiên cứu khoa học/ khóa luận tốt nghiệp
 Báo cáo u cầu ít nhất 30 trang
 Có tài liệu tham khảo và trích dẫn (ít nhất 15 tài liệu tham khảo)
 Trình bày chi tiết cơ sở lý thuyết của thuật toán/ phương pháp lựa chọn.
❖ Điểm thưởng (+): phát biểu, giải bài tập, đặt câu hỏi cho nhóm thuyết trình, ...
6


Danh sách chủ đề báo cáo
❖ Sinh viên đăng ký làm đề tài theo nhóm (mỗi nhóm tối đa 3 sinh viên):
K-Nearest Neighbors
2. Decision Tree (C4.5, CART, …)

3. Clustering (K-means, Spectral clustering, hierarchical clustering, DBSCAN, …)
4. Support vector machines (SVM)
5. Boosting algorithm: thuật toán AdaBoost
6. Association rules: thuật toán Apriori
7. Expectation–Maximization algorithm
8. Naïve Bayes Classifier
9. Neural Network
10. Rough set theory (Lý thuyết tập thô)
1.

7


Các ứng dụng
▪ Trích chọn thơng tin
▪ Phân tích chủ đề và ứng dụng
▪ Phân tích liên kết và tìm kiếm trên Web
▪ Quảng cáo trực tuyến
▪ Phân tích quan điểm
▪ Các hệ thống gợi ý

▪ Phân tích mạng xã hội
▪ Dữ liệu lớn và Khai phá dữ liệu quy mơ lớn
▪ Phân tích và dự báo với dữ liệu kinh tế tài chính
▪ Đấu giá và thị trường

▪ …
8



Các Vấn Đề Trong Data Mining
❖ Data Mining là gì?
• Q trình trích xuất tri thức từ lượng lớn dữ liệu.
• Q trình trích xuất thơng tin ẩn, hữu ích, chưa được biết trước từ dữ liệu.

9


Các Vấn Đề Trong Data Mining
 Các ứng dụng: Prediction
Tid Refund Marital
Status

Taxable
Income Cheat

1

Yes

Single

125K

No

2

No


Married

100K

No

3

No

Single

70K

4

Yes

Married

120K

5

No

6

Refund Marital
Status


Taxable
Income Cheat

No

No

Single

75K

?

No

Yes

Married

50K

?

Divorced 95K

Yes

No


Married

150K

?

No

Married

No

Yes

Divorced 90K

?

7

Yes

Divorced 220K

No

No

Single


40K

?

8

No

Single

Yes

No

Married

80K

?

60K

85K

10

9

No


Married

75K

No

10

No

Single

90K

Yes

10

10


Các Vấn Đề Trong Data Mining
 Các ứng dụng: Biometric recognition – face, fingerprint, iris, gait, …

11


Các Vấn Đề Trong Data Mining
 Các ứng dụng : Recommender system


12


Các Vấn Đề Trong Data Mining
 Các ứng dụng : Sentiment Analysis

13


Các Vấn Đề Trong Data Mining
 Các ứng dụng : Credit scoring

14


Các Vấn Đề Trong Data Mining
 Quá trình khám phá tri thức
Pattern Evaluation

Data Mining

Task-relevant Data
Data Warehouse

Selection

Data Cleaning
Data Integration

Databases


15


Các Vấn Đề Trong Data Mining
❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước:
 Data cleaning (làm sạch dữ liệu)
 Data integration (tích hợp dữ liệu)
 Data selection (chọn lựa dữ liệu)
 Data transformation (biến đổi dữ liệu)
 Data mining (khai phá dữ liệu)
 Pattern evaluation (đánh giá mẫu)
 Knowledge presentation (biểu diễn tri thức)

16


Các Vấn Đề Trong Data Mining
❖ Quá trình khám phá tri thức là một chuỗi lặp gồm các bước được thực thi với:
 Data sources (các nguồn dữ liệu)
 Data warehouse (kho dữ liệu)
 Task-relevant data (dữ liệu cụ thể sẽ được khai phá)
 Patterns (mẫu kết quả từ khai phá dữ liệu)
 Knowledge (tri thức đạt được)

17


18



Các Vấn Đề Trong Data Mining
 Lượng lớn dữ liệu sẵn có để khai phá
 Bất kỳ loại dữ liệu được lưu trữ hay tạm thời, có cấu trúc hay bán cấu trúc hay phi
cấu trúc
 Dữ liệu được lưu trữ






Các tập tin truyền thống (flat files)
Các cơ sở dữ liệu giao tác (transactional databases) hay kho dữliệu (data warehouses)
Các cơ sở dữ liệu hướng ứng dụng: cơ sở dữ liệu chuỗi thời gian (time series databases), cơ
sở dữ liệu văn bản (text databases), cơ sở dữ liệu đa phương tiện (multimedia databases), …
Các kho thông tin: the World Wide Web, …

 Dữ liệu tạm thời: các dòng dữ liệu (data streams)

19


Các Vấn Đề Trong Data Mining
Database
Technology

Machine
Learning
Pattern

Recognition

Statistics

Data Mining

Algorithm

Visualization

Other
Disciplines
20


Các Vấn Đề Trong Data Mining
 Phân loại các thuật toán: (chức năng)
 Regression Algorithms
 Classification Algorithms
 Bayesian Algorithms
 Clustering Algorithms
 Artificial Neural Network Algorithms
 Ensemble Algorithms
 Association Rules

21


Các vấn đề trong Data Mining
 Regression vs. Classification

 Regression: biến đầu ra là định lượng
(liên tục/dạng số/có thứ tự)
 Classification: biến đầu ra dạng định

tính (kiểu rời rạc/thứ bậc/định danh)
(categorical)

22


Các vấn đề trong Data Mining
 Prediction vs. Inference
 Prediction (dự đoán): Dự đoán
biến output với tập dữ liệu input
cho trước, sử dụng một hàm ước
lượng thống kê.
 Inference (suy diễn): Tìm hiểu mối

quan hệ giữa output với các biến
input

23


Các vấn đề trong Data Mining
 Recognition: Verification vs. Identification

24



Các Vấn Đề Trong Data Mining
❖ Phân cụm (clustering)
 Chia dữ liệu thành các tập con mà chúng có các đặc tính chung

25


×