Tải bản đầy đủ (.ppt) (22 trang)

Khai phá dữ liệu (Data mining)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (764.68 KB, 22 trang )

Khoa Khoa Học & Kỹ Thuật Máy Tính
Trường Đại Học Bách Khoa Tp. Hồ Chí Minh

Chương 7: Phát triển ứng dụng
khai phá dữ liệu
Khai phá dữ liệu
(Data mining)

Học kỳ 1 – 2009-2010

1


Nội dung
 7.1.

Tổng quan về vấn đề phát triển ứng
dụng khai phá dữ liệu

 7.2.

Qui trình phát triển ứng dụng khai
phá dữ liệu

 7.3.

Các chuẩn dành cho khai phá dữ liệu

 7.4.

Các công cụ hỗ trợ phát triển ứng


dụng khai phá dữ liệu

 7.5.

Tóm tắt
2


Tài liệu tham khảo


[1] Jiawei Han, Micheline Kamber, “Data Mining: Concepts
and Techniques”, Second Edition, Morgan Kaufmann
Publishers, 2006.



[2] David Hand, Heikki Mannila, Padhraic Smyth, “Principles
of Data Mining”, MIT Press, 2001.



[3] David L. Olson, Dursun Delen, “Advanced Data Mining
Techniques”, Springer-Verlag, 2008.



[4] Graham J. Williams, Simeon J. Simoff, “Data
Mining: Theory, Methodology, Techniques, and
Applications”, Springer-Verlag, 2006.




[5] ZhaoHui Tang, Jamie MacLennan, “Data Mining
with SQL Server 2005”, Wiley Publishing, 2005.



[6] Oracle, “Data Mining Concepts”, B28129-01, 2008.



[7] Oracle, “Data Mining Application Developer’s
Guide”, B28131-01, 2008.

3


7.1. Tổng quan về vấn đề phát triển ứng
dụng khai phá dữ liệu




Vấn đề dữ liệu


Lượng và chất lượng dữ liệu




Kiểu dữ liệu

Vấn đề tri thức từ quá trình khai phá




Vấn đề kỹ thuật khai phá




Biểu diễn và tích hợp vào ứng dụng

Lựa chọn giải thuật khai phá

Vấn đề hiệu quả (effective) và hiệu suất
(efficient)

4


7.2. Qui trình phát triển ứng dụng khai
phá dữ liệu
 Qui

trình phát triển ứng dụng

 Qui


trình phát triển ứng dụng khai phá
dữ liệu

 Tương đồng và khác biệt

5


7.3. Các chuẩn dành cho khai phá dữ liệu


The Predictive Model Markup Language (PMML
– www.dmg.org)



Standard application programming interfaces
(APIs)



The Cross-Industry Standard Process for Data
Mining (CRISP-DM – www.crisp-dm.org)

Nguồn: R. L. Grossman, M. F. Hornick, G.
Meyer, Data Mining Standards Initiatives,
Communications of the ACM 45 (8) 2002 5961.

6



7.3. Các chuẩn dành cho khai phá dữ liệu


The Predictive Model Markup Language (PMML
– www.dmg.org)


Chuẩn dựa trên XML




Mô tả các mơ hình thống kê và khai phá dữ liệu, các tác
vụ làm sạch và biến đổi dữ liệu

Các thành phần của PMML


Data dictionary



Mining schema



Transformation dictionary




Model statistics



Models

7


7.3. Các chuẩn dành cho khai phá dữ liệu

8


7.3. Các chuẩn dành cho khai phá dữ liệu

9


7.3. Các chuẩn dành cho khai phá dữ liệu

10


7.3. Các chuẩn dành cho khai phá dữ liệu


Standard application programming interfaces

(APIs)


SQL/MM Part 6: Data Mining



The Java Specification Request-73 (JSR-73)




Jcp.org/jsr/detail/073.jsp

Microsoft APIs


Microsoft.AnalysisServices.AdomdClient
11


7.4. Các công cụ hỗ trợ phát triển ứng
dụng khai phá dữ liệu


Các công cụ mã nguồn mở (open-source
tools)




Các công cụ thương mại

12


7.4. Các công cụ hỗ trợ phát triển ứng
dụng khai phá dữ liệu


Các công cụ mã nguồn mở (open-source)


R (www.r-project.org)



Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/)



Weka (www.cs.waikato.ac.nz/ml/weka)



YALE (rapid-i.com)



KNIME (www.knime.org)




Orange (www.ailab.si/orange)





Nguồn: B. Zupan, J. Demsar, “Open-Source Tools for
Data Mining”, Clinics in Laboratory Medicine
28(2008) 37-54.
13


7.4. Các công cụ hỗ trợ phát triển ứng
dụng khai phá dữ liệu

14


7.4. Các công cụ hỗ trợ phát triển ứng
dụng khai phá dữ liệu

15


7.4. Các công cụ hỗ trợ phát triển ứng
dụng khai phá dữ liệu

16



7.4. Các công cụ hỗ trợ phát triển ứng
dụng khai phá dữ liệu

17


7.4. Các công cụ hỗ trợ phát triển ứng
dụng khai phá dữ liệu

18


7.4. Các công cụ hỗ trợ phát triển ứng
dụng khai phá dữ liệu

19


7.4. Các công cụ hỗ trợ phát triển ứng
dụng khai phá dữ liệu


Các công cụ thương mại


Hỗ trợ từ Intelligent Miner (IBM)




Hỗ trợ từ Microsoft data mining tools (MS SQL
Server 2000/2005/2008)



Hỗ trợ từ Oracle Data Mining



Hỗ trợ từ Enterprise Miner (SAS Institute)




20



×