Tải bản đầy đủ (.pptx) (15 trang)

Quy trình khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (623.2 KB, 15 trang )

Quy trình khai phá dữ liệu và phát hiện tri thức và các ứng dụng chính của khai phá
dữ liệu
“We are drowning in data but starving for knowledge”
Đại học Kinh tế quốc dân
Khoa Tin học kinh tế
Người trình bày: Trần Thái Hòa
Định nghĩa
Ferruzza: “KPDL là tập hợp các phương pháp được dùng trong tiến trình khám phá tri
thức để chỉ ra sự khác biệt các mối quan hệ và các mẫu chưa biết bên trong dữ liệu”
Parsaye: “KPDL là quá trình trợ giúp quyết định, trong đó chúng ta tìm kiếm các mẫu
thông tin chưa biết và bất ngờ trong CSDL lớn”
Fayyad: “Khai phá tri thức là một quá trình không tầm thường nhận ra những mẫu dữ
liệu có giá trị, mới, hữu ích, tiềm năng và có thể hiểu được”.
Các lĩnh vực liên quan
Thống kê (Statistics):Kiểm định model và
đánh giá tri thức phát hiện được
Máy học(Machine Learning): Nghiên cứu xây dựng các giải thuật
trên nền tảng của trí tuệ nhân tạo giúp cho máy tính có thể suy luận
(dự đoán) kết quả tương lai thông qua quá trình huấn luyện (học) từ
dữ liệu lịch sử.
Cơ sở dữ liệu(Databases): Công nghệ
quản trị dữ liệu nhất là kho dữ liệu
Trực quan hóa(Visualization): Giúp dữ liệu dễ hiểu,
dễ sử dụng như chart, map
Nhiệm vụ
Dự đoán (Predictive)
1. Phân lớp (Classification)
-
Cây quyết định (Decision tree)
- Láng giềng gần nhất (Nearest Neighbor)
- Luật qui nạp (Rule Induction)


- Mạng Neural (Neural Network)
2. Hồi quy (Regression)
3. Phát hiện độ lệch (Deviation Detection)
Mô tả (Descriptive)
1. Phân cụm (Clustering)
Thuật toán K-Means (K-Means)
Mạng Neural (Neural Network)
2. Phát hiện luật kết hợp (Association Rule Discovery)
DM & KDD
Khai phá dữ liệu (Data Mining): là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên
trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho dữ liệu…
Khám phá tri thức trên csdl, được viết tắt là KDD (Knowledge Dicovery in Database) nó
mang nhiều ý nghĩa hơn chỉ là khai phá dữ liệu.
Q trình KDD
chuyển đổi
hay hợp nhất
về dạng thích
hợp
Những dữ liệu
thích hợp với
nhiệm vụ phân
tích.
Làm sạch dữ liệu
Tích hợp dữ liệu
xác đònh lợi ích thực
sự, độ quan trọng
của các mẫu biểu
diễn tri thức.
Quy trình khai phá dữ liệu
Nghiên cứu lĩnh vực

Nghiên cứu lĩnh vực
Rút gọn/chiều
Rút gọn/chiều
Tạo tập dữ liệu đầu vào
Tạo tập dữ liệu đầu vào
Tiền xử lý/ làm sạch, mã hóa
Tiền xử lý/ làm sạch, mã hóa
Chọn tác vụ khai thác dữ liệu
Chọn tác vụ khai thác dữ liệu
1
2
3
5
4
Quy trình khai phá dữ liệu
Chọn các giải thuật KPDL
Chọn các giải thuật KPDL
Biểu diễn tri thức
Biểu diễn tri thức
Tìm kiếm tri thức
Tìm kiếm tri thức
Đánh giá mẫu tìm được
Đánh giá mẫu tìm được
Sử dụng các tri thức vừa khám phá
Sử dụng các tri thức vừa khám phá
6
7
8
10
9

Quy trình khai phá dữ liệu
1) Nghiên cứu lĩnh vực
- Nghiên cứu lĩnh vực cần sử dụng DM để xác định được những tri thức ta cần
chắt lọc  tránh tốn thời gian cho những tri thức không cần thiết.
2) Tạo tập tin dữ liệu đầu vào
- Xây dựng tập tin để lưu trữ các dữ liệu đầu vào để máy tính có thể lưu trữ và xử
lý.
3) Tiền xử lý, làm sạch, mã hóa
- Tiến hành bỏ bớt những dữ liệu rườm rà, không cần thiết, tinh chỉnh lại cấu trúc
của dữ liệu và mã hóa chúng để tiện cho quá trình xử lý.
Quy trình khai phá dữ liệu
4) Rút gọn chiều
Một tập dữ liệu có chiều khá lớn sẽ sinh ra một lượng dữ liệu khổng lồ giai đoạn
giảm đáng kể hao tổn về tài nguyên trong quá trình xử lý tri thức.
5) Chọn tác vụ khai thác dữ liệu
Đặc trưng (feature)
Phân biệt (discrimination)
Kết hợp (association)
Phân lớp (classification)
Gom cụm (clusterity)
Xu thế (trend analysis)
Phân tích độ lệch
Phân tích hiếm
Quy trình khai phá dữ liệu
6) Chọn các thuật giải Khai thác dữ liệu
7) Khai thác dữ liệu: Tìm kiếm tri thức
8) Đánh giá mẫu tìm được
Ta cần đánh giá lại xem trong các tri thức tìm được, ta sẽ sử đụng được
những tri thức nào, những tri thức nào dư thừa, không cần thiết
Quy trình khai phá dữ liệu

9) Biểu diễn tri thức
Ta biểu diễn tri thức vừa thu thập được dưới dạng ngôn ngữ tự nhiên và hình
thức sao cho người dùng có thể hiểu được những tri thức đó.
10) Sử dụng các tri thức vừa khám phá
Ứng dụng tổng quan
Cung cấp tri thức, hỗ trợ ra quyết định.
Dự báo.
Khái quát dữ liệu.
Ứng dụng thực tế
Bảo hiểm, tài chính và thị trường chứng khoán: phân tích tình hình tài chính của
một công ty dựa trên báo cáo tài chính; dựa vào dữ liệu về thị trường chứng khoán
để dự đoán được giá cổ phiếu; Phát hiện gian lận,…
Thống kê, phân tích dữ liệu và hỗ trợ ra quyết định.
Y học: dựa vào mối liên hệ giữa các triệu chứng để chuẩn đoán bệnh và hướng
điều trị.
Mạng viễn thông: phân tích các cuộc gọi điện thoại để dự đoán hành vi người
dùng nhằm nâng cao chất lượng dịch vụ.
Bán hàng: phân tích các mặt hàng để dự đoán nhu cầu người dùng để đưa ra
hướng phát triển đúng cho nhà sản xuất…
Ngoài ra, khai thác dữ liệu còn ứng dụng vào trong rất nhiều lĩnh vực khác nhau
của đời sống giúp đưa ra những giải pháp hiệu quả cho các vấn đề nan giải của đời
sống.
Xin chân thành
cảm ơn !!!

×