Tải bản đầy đủ (.pptx) (26 trang)

Thuyết trình GOM cụm TRONG DATA MINING và bài TOÁN hổ TRỢ RA QUYẾT ĐỊNH với GIAO DIỆN WEKA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.76 MB, 26 trang )

Seminar
Môn: Hệ hỗ trợ ra quyết định
GOM CỤM TRONG DATA MINING VÀ BÀI
TOÁN HỔ TRỢ RA QUYẾT ĐỊNH VỚI GIAO
DIỆN WEKA
GVHD: PGS.TS Đỗ Phúc
HVTH: 1. Huỳnh Ngọc Ca – CH1401002
2. Hứa Phước Trường – CH1401023
3. Chu Thị Huế - CH1401004
4. Phạm Thị Thắm – CH1401019
TỔNG QUAN QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
GIỚI THIỆU VỀ PHẦN MỀM WEKA
GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
KẾT LUẬN
NỘI DUNG TRÌNH BÀY
TỔNG QUAN QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
1.1 KHÁI NIỆM
1. TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU
1.1 KHÁI NIỆM
1. TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU
Data mining là quá trình tự động tìm kiếm và trích xuất các mẫu
thông tin có giá trị ẩn chứa từ tập dữ liệu lớn (Data Set) trong
thực tế.
1.3 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
1. TỔNG QUAN QUÁ TRÌNH KHAI PHÁ DỮ LIỆU
1.2 NHIỆM VỤ CỦA KHAI PHÁ DỮ LIỆU
1. TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU
1.4 CÁC PHƯƠNG PHÁP CHÍNH CHO KHAI PHÁ DỮ LIỆU


1. TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU

Phân lớp và dự đoán

Phân cụm và phân đoạn

Luật kết hợp (Association rules)
1.5 CÁC ỨNG DỤNG KHAI PHÁ DỮ LIỆU
1. TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU

Phân tích dữ liệu và hỗ trợ ra quyết định (Analysis & decition
support).

Điều trị trong y học (Medical)

Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang Web
(Text mining & Web mining).

Tin sinh học (Bio-informatics), Nhận dạng.

Tài chính và thị trường chứng khoán (Finance & stock market

Bảo hiểm (Insurance), giáo dục (Education),…
TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU
PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
GIỚI THIỆU VỀ PHẦN MỀM WEKA
GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
KẾT LUẬN

NỘI DUNG TRÌNH BÀY
2. PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
1. Phân cụm là gì?

Quá trình phân chia 1 tập dữ liệu ban đầu thành các cụm dữ liệu thỏa
mãn các đối tượng trong một cụm có tính chất “tương tự” nhau.
2.1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
2. PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
2. Mục đích của phân cụm


Xác định được bản chất của việc nhóm các đối tượng trong 1 tập
dữ liệu không có nhãn.

Phân cụm không dựa trên 1 tiêu chuẩn chung nào, mà dựa vào
tiêu chí mà người dùng cung cấp trong từng trường hợp.
2.1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
2. PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
3. Một số phương pháp phân cụm điển hình

Phân cụm phân hoạch

Phân cụm phân cấp

Phân cụm dựa trên mật độ

Phân cụm dựa trên lưới


Phân cụm dựa trên mô hình

Phân cụm có ràng buộc
2.1 TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
2. PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS

Thuật toán phân cụm K-Means

Phân cụm phân cấp (Hierarchical Clustering)

Phân cụm theo mật độ DBSCAN

Phân cụm mô hình EM
2.2 MỘT SỐ THUẬT TOÁN PHÂN CỤM TIÊU BIỂU
2. PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS

Thuật toán phân cụm K-Means

Phân cụm phân cấp (Hierarchical Clustering)

Phân cụm theo mật độ DBSCAN

Phân cụm mô hình EM
2.2 MỘT SỐ THUẬT TOÁN PHÂN CỤM TIÊU BIỂU
2. PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
2.3 THUẬT TOÁN GOM CỤM K-MEANS


Determine the centroid
coordinate

Determine the distance of each
object to the centroids

Group the object based on
minimum distance
2. PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
2.3 THUẬT TOÁN GOM CỤM K-MEANS
2. PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
2.3 THUẬT TOÁN GOM CỤM K-MEANS
2. PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
2.3 THUẬT TOÁN GOM CỤM K-MEANS
TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU
PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
GIỚI THIỆU VỀ PHẦN MỀM WEKA
GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
KẾT LUẬN
NỘI DUNG TRÌNH BÀY
3. GIỚI THIỆU VỀ PHẦN MỀM WEKA
GIỚI THIỆU VỀ PHẦN MỀM WEKA

Waikato Enviroment for Knowledge

Analysis

Được phát triển bởi ĐH Waikato, New
Zealand

Là phần mềm mã nguồn mở viết bằng Java
và tích hợp các thuật toán máy học và khai
thác dữ liệu
Có thể tải về từ địa chỉ:
/> 3. GIỚI THIỆU VỀ PHẦN MỀM WEKA
WEKA – Các môi trường chính

Simple CLI : giao diện đơn giản kiểu dòng lệnh (như MS – DOS)

Explorer : môi trường cho phép sử dụng tất cả các chức năng của Weka để
khám phá dữ liệu

Experimenter: môi trường cho phép tiến hành các thí nghiệm và thực hiện các
kiểm tra thống kê giữa các mô hình học máy.

KnowledgeFlow: môi trường cho phép tương tác đồ họa kiểu kéo/thả để thiết
kế các bước của một thí nghiệm
TỔNG QUAN QÚA TRÌNH KHAI PHÁ DỮ LIỆU
PHÂN CỤM DỮ LIỆU VÀ THUẬT TOÁN
K-MEANS
GIỚI THIỆU VỀ PHẦN MỀM WEKA
GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
KẾT LUẬN
NỘI DUNG TRÌNH BÀY

4. GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
Mô tả bài toán
Cả nước hầu hết các tỉnh/TP đều có diện tích sản xuất lúa nhất định.
Cùng với việc sản xuất thì năng suất lúa của mỗi địa phương đem lại sẽ
khác nhau. Nhằm mục đích đánh giá sự hiệu quả về sản lượng mà các địa
phương sản xuất lúa mang để có cái nhìn và kế hoạch phát triển việc sản
xuất ở mỗi địa phương.
Giải pháp gom cụm dữ liệu để giúp đánh giá về việc sản lượng lúa của
các tỉnh/ TP. Qua đó có cái nhìn tổng thể và đưa ra những định hướng để phát
triển việc sản xuất cho các địa phương.
4. GOM CỤM K-MEANS SỬ DỤNG GIAO DIỆN
WEKA
DEMO
5. KẾT LUẬN
Qua đề tài này, nhóm nghiên cứu đã tìm hiểu và nắm được kiến
thức về gom cụm dữ liệu và thuật toán để gom cụm dữ liệu, cơ bản hiện
thực việc gom cụm dữ liệu trên phần mềm Weka.
Vì thời gian và kiến thức có hạn nên trong quá trình thực hiện báo
cáo không thể tránh những thiếu sót, nhóm chúng em rất mong sự đóng
góp ý kiến của Thầy và của mọi người.

×