Tải bản đầy đủ (.pdf) (102 trang)

Bài giảng Khai phá dữ liệu: Nội dung bổ sung về Khai phá dữ liệu - PGS. TS. Hà Quang Thụy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.37 MB, 102 trang )

BÀI GIẢNG KHAI PHÁ DỮ LIỆU

Nội dung bổ sung về Khai phá dữ liệu

PGS. TS. Hà Quang ThụyHÀ NỘI, 10-2018
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI

/>
1


Nội dung
1.

Một số tài nguyên khai phá dữ liệu
2.
Khai phá quy trình
3.
Khai phá dữ liệu: Học suốt đời

2


1. Tài nguyên KPDL: 9 kiểu công cụ

▪ Data mining suites (DMS): Gói chứa nhiều phương pháp
▪ Business intelligence packages (BIs): Không tập trung chuyên










Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data
Mining and Knowledge Discovery 1(5): 431-443 (2011).

3



về KPDL mà hướng tới các chức năng KPDL cơ bản, đặc biệt
thống kê trong ứng dụng kinh doanh
Mathematical packages (MATs): Không tập trung chuyên về
KPDL mà hướng tới một tập lớn và mở rộng các thuật toán và thủ
tục trực quan hóa.
Integration packages (INTs): gói mở rộng nhiều thuật toán nguồn
mở khác nhau/phần mềm độc lập (chủ yếu là dựa trên Java).
EXT: tiện ích bổ sung nhỏ cho các công cụ khác như Excel,
Matlab, R… với chức năng hạn chế song rất hữu dụng.
Data mining libraries (LIBs): thực thi các phương pháp KPDL
như một gói chức năng.
Specialties (SPECs): tương tự như LIB song gồm chỉ một nhóm
phương pháp chuyên biệt (mạng nơron, …)
RES: thường là sự thi hành lần đầu tiên thuật toán mới, cách tân.
Solutions (SOLs): một nhóm các cơng cụ được tùy biến cho các
lĩnh vực ứng dụng hẹp như khai phá văn bản (GATE), xử lý hình July
12,

ảnh (ITK, ImageJ) ...
202
1


Tài nguyên KPDL: Công cụ TM

4

Data mining suites
BI packages
Mathematical packages
Integration packages
Specialties
RES

Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data
Mining and Knowledge Discovery 1(5): 431-443 (2011).

July
12,
202
1


5

Tài nguyên KPDL: Công cụ TM

BI packages

Mathematical packages
Integration packages
Specialties
July
RES
Data mining suites
12,
Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data 202
1
Mining and Knowledge Discovery 1(5): 431-443 (2011).


Tài nguyên KPDL: Công cụ nguồn mở

6

Data mining suites
BI packages
Mathematical packages

Integration packages
Specialties
RES

July
12,
Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data 202
1
Mining and Knowledge Discovery 1(5): 431-443 (2011).



Tài nguyên KPDL: Công cụ nguồn mở

7

Data mining suites
BI packages
Mathematical packages
Integration packages
Specialties
RES

July
12,
Ralf Mikut, Markus Reischl (2011). Data mining tools, Wiley Interdisc. Rew.: Data 202
1
Mining and Knowledge Discovery 1(5): 431-443 (2011).


8

Tài nguyên KPDL: Dữ liệu mẫu

July
12,
Kho chứa dữ liệu của nhóm học máy tại University of California, Irvine – UCI (UC 202
Irvine Machine Learning Repository). (11/2015)
1



9

: Trang web công đồng DM

July
12,
202
1


10

/>
Winner: Mining Latent Entity Structures From Massive Unstructured
and Interconnected Data. Chi Wang (student) and Jiawei Han (advisor) at
University of Illinois at Urbana-Champaign
Runner-up: Modeling Large Social Networks in Context. Qirong Ho
(student) and Eric Xing (advisor) at Carnegie Mellon University

July
Runner-up: Computing Distrust in Social Media. Jiliang Tang (Student) 12,
and Huan Liu (Advisor) at Arizona State University. Định hướng Khóa 202
1
luận đại học K56: Thái Thị Hồi, Nguyễn Quỳnh Nga, Mai Cơng Đạt


2. Tại sao KPQT: Chỉ số cạnh tranh quốc tế


Giới thiệu khả năng cạnh tranh

▪ Diễn đàn Kinh tế Thế giới (World Economic Forum), 2005
▪ khả năng cạnh tranh: tập chỉ số về thể chế, chính sách, và các



Tập chỉ số cạnh tranh quốc gia
▪ Index, còn được gọi là cột trụ (pillar)
▪ 12 cột trụ: thể chế, hạ tầng, môi trường kinh tế vĩ mô, sức khỏe
và giáo dục tiểu học, giáo dục và đào tạo đại học, thị trường
hàng hóa hiệu quả, thị trường lao động hiệu quả, phát triển thị
trường tài chính, sẵn sàng cơng nghệ, kích cỡ thị trường, kinh
doanh tinh vi (tinh xảo), đổi mới.
▪ Có tương quan nhau, tác động lẫn nhau: cột trụ 12  cột trụ
4&5, cột trụ 8&9 liên quan cột trụ 6…

[WEF13] World Economic Forum (2013). The Global Competitiveness Report 2013–
2014. />
11

yếu tố xác định mức năng suất của một quốc gia
▪ Mức năng suất: tập các mức thành công thu được từ nền kinh tế
▪ Đo lường bằng tập chỉ số


Trình độ nền kinh tế: 3 mức


Nền kinh tế định hướng yếu tố cơ bản
▪ factor-driven economy
▪ lợi thế cạnh tranh: xuất khẩu yếu tố giá trị thấp như tài nguyên




Nền kinh tế định hướng hiệu quả
▪ Efficiency - Driven Economy
▪ Lợi thế cạnh tranh: sản phẩm và dịch vụ tiên tiến hơn rất hiệu quả
(i) Đầu tư mạnh cơ sở hạ tầng hiệu quả; (ii) quản lý chính quyền thân
thiện với doanh nghiệp; (iii) ưu đãi đầu tư mạnh; (iv) nâng cao kỹ năng; (v)
tiếp cận tốt với nguồn vốn đầu tư nhằm cải thiện lớn về năng suất



Nền kinh tế định hướng đổi mới
▪ innovation-driven economy
▪ Lợi thế cạnh tranh: sản phẩm, dịch vụ mới và/hoặc độc đáo
▪ dựa trên cơng nghệ mới nhất và/hoặc quy trình sản xuất/mơ
hình kinh doanh tinh vi nhất
▪ Khu vực dịch vụ có tỷ trọng cao trong nền kinh tế
▪ kiên cường trước những cú sốc từ bên ngoài

12

thiên nhiên và lao động chưa qua chế biến
▪ rất nhạy cảm :chu kỳ KT thế giới, giá hàng hóa, biến động tỷ giá


13

Mối quan hệ các cột trụ với nền kinh tế


Việt Nam

[WEF13] World Economic Forum (2013). The Global Competitiveness Report 2013–2014.

Nghị quyết 19/2014/NQ-CP ngày 18/3/2014 của Chính phủ về những nhiệm vụ, giải
pháp chủ yếu cải thiện môi trường kinh doanh, nâng cao năng lực cạnh tranh quốc gia


Giới thiệu Khai phá quy trình
ĐHCN Eindhoven (Eindhoven Univ. of Technology (TU/e))
Khởi xướng và duy trì phát triển khai phá quá trình
/>Master's thesis “Specificatie en Simulatie met behulp van ExSpect”
Đặc tả và mô phỏng bởi ExSpect, 1988
PhD thesis “Timed coloured Petri nets and their application to
logistics”, 1992
Nhà khoa học Tin học ngồi Mỹ có chỉ số h-index cao thứ nhất: 112
(9/2015; 101: 9/2013, 94: 5/2013) />







14

Wil van der Aalst

-


number.html

Tổ chức nghề nghiệp về khai phá quy trình

-

Cho tài nguyên
phong phú:








các bài báo,
luận án Tiến sỹ
[Http] />bộ công cụ PRoM và các công cụ khác
các tập dữ liệu nhật ký sự kiện: một phần từ hơn 100 tổ chức

July
12,
202
1


15

Mối quan hệ giữa một số khái niệm



Khái niệm và triết lý khai phá quy trình
Khái niệm khai phá quy trình




Process Mining: chiết xuất thơng tin có giá trị, liên quan đến
quy trình từ các nhật ký ghi sự kiện, bổ sung vào các tiếp cận
hiện có để quản lý quy trình tác nghiệp (Business Process
Management : BPM).
Kết hợp giữa khai phá dữ liệu và quản lý quy trình tác nghiệp

Triết lý “đường mịn” của khai phá quy trình









16

-

Đường mịn (desire line) / đường xã hội (the social trail)
Là con đường được hình thành do sự xói mòn bởi bước

chân của con người hoặc động vật
Chiều rộng và độ xói mịn thể hiện độ thường xun sử dụng
“Đường mịn là ngắn nhất/thuận tiện nhất giữa hai điểm
Xói mòn càng cao  Sử dụng càng thường xuyên
Hành động trong kinh doanh hình thành đường mịn kinh
doanh ~ nhật ký sự kiện phản ánh quy trình tốt/thuận tiện
[Aalst11] WMP Van der Aalst (2011). Process Mining: Discovery, Conformance
and Enhancement of Business Processes, Springer, 2011.

July
12,
202
1


Ví dụ triết lý đường mịn
Xây dựng lối đi trong ĐH Columbia

-

Tác giả: Dwight Eisenhower, Chủ tịch ĐH Columbia (sau này
là Tổng thống Mỹ đời thứ 34)
Bài toán: xây lối đi tốt nhất nối các nhà trong khu trường
Lời giải:










Cho cỏ mọc giữa các tịa nhà và trì hỗn tạo vỉa hè
Mọi người đi: Hình thành dần lối mịn giữa các nhà
Xây vỉa hè theo các lối mịn đó

17


Cơ bản về Khai phá quy trình
Khái niệm







KPQT: phát hiện, theo dõi, cải thiện quy trình kinh doanh dựa trên trích
xuất tri thức từ nhật ký sự kiện NKSK (event log)
NKSK={trường hợp (case) “thể hiện” quy trình}: “xuất phát điểm của
KPQT”
Case: dãy có thứ từ các hành động (activity), hành động được “xác
định tốt”
NKSK = {hành vi quan sát được}  {hành vi}

Cộng đồng KPQT





Quan tâm KPQT: Tuyên ngôn KPQT (Process Mining Manifesto) do
the IEEE Task Force on Process Mining công bố
53 tổ chức, 77 chuyên gia KPQT (người dùng, cung cấp cơng cụ, tư
vấn, phân tích, nghiên cứu):
KPDL  KPQT  mơ hình hóa BM (quy trình kinh doanh)

[Aalst13] Wil M. P. van der Aalst (2013). Decomposing Petri nets for process mining: A
generic approach. Distributed and Parallel Databases 31(4): 471-507

18


Khai phá quy trình: cầu nối
Triết lý “đường mịn” [Aalst11]
khai phá dữ liệu với khoa học quy trình

19


Vai trị của khai phá quy trình

▪ Quản lý quy trình nghiệp vụ (tự động hóa): Vịng đời hở (pha chẩn
đốn: Diagnosis) theo tiếp cận truyền thống (trái), vịng đời khép kín
theo tiếp cận khai phá quy trình (phải)
[Mans11] Ronny Mans. Workflow Support for the Healthcare Domain. PhD Thesis,
Eindhoven University of Technology, 2011
20



Nhật

sự
kiện
Contents
Cycle Diagram
Dữ liệu đầu vào cho khai phá quá trình là nhật ký sự kiện. Ngầm định
dữ liệu chuẩn:
▪ Một nhật ký sự kiện bao gồm nhiều trường hợp (cases).
▪ Một trường hợp chứa nhiều sự kiện (events) được sắp xếp theo
trình tự. Một trường hợp là “một lần thi hành mơ hình q trình
trong thực tiễn”
▪ Mỗi sự kiện chứa các thuộc tính (attributes).

21


22

Nhật ký sự kiện








a=register request; b=examine thoroughly; c=examine casually;

d=check
ticket;
e-decide;
f=reinititate
request;
g=pay
compensasion, và h=reject request
Dạng đơn giản: dãy hành động {<a,b,c,d>, <a,c,b,d>,…}. x2,..,xn> là một “vết” (trace)
Tập bội (multi-set): mở rộng tập thông thường, một phần tử xuất
hiện nhiều lần: Gộp {<a,b,c,d>112, <a,c,b,d>99,…}
Cho tập X: tập mọi tập bội trong X ký hiệu B(X)
Định nghĩa: Cho A tập hành động, một vết của A là A* là dãy
các hành động, Một LB(A*) là một nhật ký dự kiện (trên A)

[AD13] Wil M. P. van der Aalst, Boudewijn F. van Dongen (2013). Discovering Petri
Nets from Event Logs. T. Petri Nets and Other Models of Concurrency 7: 372-422.22


Nhật ký sự kiện: khía cạnh bổ sung







Ba khía cạnh bổ sung điển hình
Tổ chức: Con người, đơn vị, tổ chức…
Thời gian: Tem thời gian, thời gian thực hiện, thời gian chờ, …

Tài ngun: Chi phí.
Quy trình chung: Phát hiện mơ hình quy trình từ NKSK đơn
giản, tiến hành khai phá dữ liệu các khía cạnh bổ sung

[AD13] Wil M. P. van der Aalst, Boudewijn F. van Dongen (2013). Discovering Petri
Nets from Event Logs. T. Petri Nets and Other Models of Concurrency 7: 372422.

23


Mơ hìnhDiagram
quy
Mơ trình
hình
Contents
q trình [3]
Cycle
-

Mơ hình quy trình được biểu diễn bằng một ngơn ngữ mơ
hình hóa.
Có nhiều loại ngơn ngữ mơ hình hóa khác nhau như:
BPMN, BPEL, UML, Petri-net,…
Petri-net là mơ hình thường được sử dụng để mơ hình hóa
quy trình và có thể chuyển đổi sang các mơ hình BPMN,
PBEL, UML,…

24



Ví dụ mơ hình quy trình bằng lưới Petri

Lưới Petri mơ hình hóa quy trình giải quyết u cầu bồi thường từ
khách hàng của một hãng hàng không
25


×