Tải bản đầy đủ (.pdf) (92 trang)

Bài giảng Nhập môn khai phá dữ liệu: Chương 1 - PGS. TS. Hà Quang Thụy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.94 MB, 92 trang )

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU
CHƯƠNG 1. GIỚI THIỆU CHUNG
VỀ KHAI PHÁ DỮ LIỆU

PGS. TS. Hà Quang Thụy
HÀ NỘI, 09-2020
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI

/>
1


Nội dung
Tại sao khai phá dữ liệu (KPDL)?
Khái niệm KPDL và phát hiện tri thức trong CSDL
3.
KPDL và xử lý CSDL truyền thống
4.
Kiểu dữ liệu trong KPDL
5.
Kiểu mẫu được khai phá
6.
Cơng nghệ KPDL điển hình
7.
Một số ứng dụng điển hình
8.
Các vấn đề chính trong KPDL
1.

2.



2


1. Tại sao khai phá dữ liệu



Một ví dụ: Donal Trump Thắng cử Tổng thống Mỹ
Bùng nổ dữ liệu và dữ liệu lớn (Big Data)








Lý do công nghệ
Lý do xã hội
Thể hiện

Ngành kinh tế tri thức, dữ liệu và thông tin (Infonomics)


Kinh tế tri thức



Phát hiện tri thức từ dữ liệu


Nhu cầu khai phá dữ liệu tại Việt Nam


Trường hè KHDL 2016

3


Ví dụ: Tại sao khai phá dữ liệu ?

1.

2.

3.

4.

5.

Phân tích dữ liệu giúp ứng viên Tổng thống Mỹ
Đào Trung Thành. Big Data đã giúp Trump chiến thắng trong cuộc Bầu cử Mỹ.
/>15:02 GMT+7). Big Data nguy hiểm tới mức nào? (10/02/2017 21:55:30 (GMT+7)) TÍNH MỚI LẠ TỪ DỮ LIỆU LỚN
TRẦN THẮNG (kỹ sư hàng không ở Mỹ). Mạng xã hội giúp ơng Trump đắc cử tổng
thống
Mỹ
như
thế
nào?

/>(10/11/2016 19:15 GMT+7) TÍNH KHÁC BIỆT: TWITER  TRUYỀN THÔNG TT
Von Hannes Grassegger und Mikael Krogerus. Ich habe nur gezeigt, dass es die
Bombe
gibt.
Das
Magazin
N°48

3.
Dezember
2016.
/>Nhà tâm lý học Michal Kosinski phát triển một phương pháp phân tích tinh tế mọi người
dựa trên hành vi của họ trên Facebook. Và như thế giúp Donald Trump chiến thắng.
PHƯƠNG PHÁP, KỸ THUẬT MIỀN ỨNG DỤNG: PHÂN TÍCH DỮ LIỆU TÂM LÝ
an Assistant Professor in Organizational Behavior
at Stanford Graduate School of Business
Leonid
Bershidsky.
No,
Big
Data
Didn't
Win
the
U.S.
Election.
(DEC 8, 2016 2:56 PM EST). "Obviously, it is not big data analytics that wins
the election," he (Michal Kosinski) wrote back. "Candidates do. We don't know how
much his victory was helped by big data analytics.“ KINH DOANH MÀ KHÔNG LÀ
CÔNG NGHỆ


4


Công nghệ: Bùng nổ dữ liệu: Luật Moore
[APEC18]



[42Year]

Xu thế từ Định luật Moore
▪ Gordon E. Moore (1965). Cramming more components onto integrated
circuits, Electronics, 38 (8), April 19, 1965. Một quan sát và dự báo
▪ Lượng bóng bán dẫn (giá) của mạch tích hợp tăng (rẻ) gần gấp đơi
sau mỗi chu kỳ hai năm
▪ Máy tính (điện thoại, v.v.) mạnh hơn, gọn hơn, giá cả phù hợp

[APEC18] APEC Policy Support Unit. APEC Regional Trends Analysis - The Digital
Productivity Paradox. Asia-Pacific Economic Cooperation Policy Support
Unit, November 2018.
[42Year] />5


Bùng nổ dữ liệu: Giá thành và thể hiện
/>


Nguồn: IDC Digital Universe Study, Seagate Technology, 2018




Giá tạo dữ liệu ngày càng rẻ hơn
▪ Chiều hướng giá tạo mới dữ liệu giảm dần
▪ 0,5 xu Mỹ/1 GB vào năm 2009 giảm tới 0,02 xu Mỹ /1 GB vào năm 2020



Dung lượng tổng thể tăng
▪ Độ dốc tăng càng cao
▪ Đã đạt 33ZB năm 2018 (năm 2011 dự kiến đạt 35 ZB vào năm 2020)
6


Phân bổ lượng dữ liệu theo khu vực
/>
Rest of World
US

Asia-Pacific, including Japan, except China
The Europe, the Middle East, and Africa

EMEA
China

Nguồn: IDC Digital Universe Study, Seagate Technology, 2018
7


Nhu cầu nắm bắt dữ liệu




Bùng nổ dữ liệu với tăng trưởng nhận lực CNTT
▪ Dung lượng thông tin tăng 67 lần, đối tượng dữ liệu tăng 67 lần
▪ Lực lượng nhân lực CNTT tăng 1,4 lần
▪ Nguồn: IDC Digital Universe Study, sponsored by EMC, May 2010.

8


Nhu cầu thu nhận tri thức từ dữ liệu


Jim Gray, chuyên gia của Microsoft, giải thưởng Turing 1998
▪ “Chúng ta đang ngập trong dữ liệu khoa học, dữ liệu y tế, dữ liệu nhân khẩu học,
dữ liệu tài chính, và các dữ liệu tiếp thị. Con người khơng có đủ thời gian để xem
xét dữ liệu như vậy. Sự chú ý của con người đã trở thành nguồn tài nguyên quý giá.
Vì vậy, chúng ta phải tìm cách tự động phân tích dữ liệu, tự động phân loại nó, tự
động tóm tắt nó, tự động phát hiện và mơ tả các xu hướng trong nó, và tự động chỉ
dẫn các dị thường.
Đây là một trong những lĩnh vực năng động và thú vị nhất của cộng đồng nghiên
cứu cơ sở dữ liệu. Các nhà nghiên cứu trong lĩnh vực bao gồm thống kê, trực quan
hóa, trí tuệ nhân tạo, và học máy đang đóng góp cho lĩnh vực này. Bề rộng của lĩnh
vực làm cho nó trở nên khó khăn để nắm bắt những tiến bộ phi thường trong vài
thập kỷ gần đây” [HK0106].



Kenneth Cukier,



“Thông tin từ khan hiếm tới dư dật. Điều đó mang lại lợi ích mới to lớn… tạo nên
khả năng làm được nhiều việc mà trước đây không thể thực hiện được: nhận ra các
xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm …
Được quản lý tốt, dữ liệu như vậy có thể được sử dụng để mở khóa các nguồn mới
có giá trị kinh tế, cung cấp những hiểu biết mới vào khoa học và tạo ra lợi ích từ
quản lý”. />9


Kinh tế tri thức



Kinh tế tri thức
▪ Tri thức là tài nguyên cơ bản
▪ Sử dụng tri thức là động lực chủ chốt cho tăng trưởng kinh tế



Hình vẽ: Năm 2003, đóng góp của tri thức cho tăng GDP/đầu người của
Hàn Quốc gấp đơi so với đóng góp của lao động và vốn. TFP: Total Factor
Productivity (The World Bank. Korea as a Knowledge Economy, 2006)
10


Kinh tế dịch vụ: Từ dữ liệu tới giá trị




Kinh tế dịch vụ
▪ Xã hội loài người chuyển dịch từ kinh tế hàng hóa sang kinh tế dịch vụ.
Lao động dịch vụ vượt lao động nông nghiệp (2006).
▪ Mọi nền kinh tế là kinh tế dịch vụ.
▪ Đơn vị trao đổi trong kinh tế và xã hội là dịch vụ



Dịch vụ: dữ liệu & thông tin  tri thức  giá trị mới
▪ Khoa học: dữ liệu & thông tin  tri thức
▪ Kỹ nghệ: tri thức  dịch vụ
▪ Quản lý: tác động tới tồn bộ quy trình thi hành dịch vụ
Jim Spohrer (2006). A Next Frontier in Education, Employment, Innovation, and
Economic Growth, IBM Corporation, 2006
11


Q trình tiến hóa dữ liệu tới trí tuệ



Từ dữ liệu tới trí tuệ
▪ Dữ liệu (data): dữ kiện khơng ngữ cảnh. Trình bày dữ kiện.
▪ Thơng tin (information): dữ kiện với ngữ cảnh và khía cạnh nào đó.
Dữ liệu có ý nghĩa, dữ liệu trong ngữ cảnh. Hiểu được quan hệ
▪ Tri thức (knowledge): Thông tin được dung để phát hiện và hiểu
được mẫu trong dữ liệu. Hiểu được mẫu
▪ Trí tuệ (wisdom): Tri thức nảy sinh khi hiểu được lý do mẫu xuất
hiện trong dữ liệu. Hiểu được nguyên lý
▪ />12



Dữ liệu lớn không ngừng gia tăng và giá trị

▪ (i) Mỹ: tiết kiệm 300 tỷ US$ ngành y tế, (ii) Châu Âu: chỉnh phủ tiết kiệm
100 tỷ Euro (giảm gian lận, sai sót, chênh lệch thuế), v.v.
[Chen14] Min Chen, Shiwen Mao, Yunhao Liu. Big Data: A Survey. MONET
19(2): 171-209, 2014.
13


Giá trị dữ liệu: Ví dụ 1 (Capital One)


-1980’s: Mơ hình xác śt mặc định với thẻ tín
dụng đờng mức





Người q/lý NH tin khách hàng chưa ưa mức khác nhau;
HTTT chưa thể đáp ứng quản lý mức tín dụng khác nhau

Richard Fairbanks và Nigel Morris








CNTT cho mơ hình dự báo tinh vi hơn (mơ hình lợi nhuận), đủ
năng lực các mức tín dụng
Thuyết phục nhà QL NH lớn: thất bại.
Thuyết phục được người QL ngân hàng nhỏ Signet Bank: tin một
tỷ lệ nhỏ khách hàng thực sự tạo ra hơn 100% lợi nhuận của NH
từ hoạt động thẻ tín dụng
MHLN: tốt hơn → KH tốt nhất + thu hút KH tốt nhất từ NH lớn

và />
14


Giá trị dữ liệu: Ví dụ 1 (Capital One)


Thiếu dữ liệu và giải pháp







Khơng có dữ liệu với mức thẻ tín dụng khác nhau.
Tạo DL cho mơ hình (MHLN): cung cấp ngẫu nhiên mức tín
dụng khác nhau tới KH khác nhau. DL là tài nguyên thì
phải đầu tư
Tốn kém: tỷ lệ "khoanh nợ“: 2,9% đầu ngành, do cung cấp

ngẫu nhiên giảm sút tới gần 6% dư chưa thanh toán

Kết quả







4 năm: vừa thu thập dữ liệu vừa hồn thiện mơ hình. 1994.
(Học máy tăng cường). 1994 tách thành Capital One
Nhanh chóng thành có lợi nhuận lớn nhất. Nhà phát hành
thể tín dụng thứ sáu nước Mỹ: mở 48,6 triệu tài khoản 53,2
tỷ US$, 12% gia đình Mỹ.
Bền vững sau khủng khoảng 9/11
Chiến lược dựa trên thông tin Information-Based Strategy
(IBS) là lợi thế lớn

và />15


Giá trị dữ liệu: Ví dụ 2 (Microsoft-LinkedIn)


Sự kiện và vấn đề
▪ Microsoft mua lại LinkedIn với giá 26,2 tỷ đơ-la Mỹ
▪ Định giá kế tốn của LinkedIn là 3,2 tỷ đô-la Mỹ
▪ Độ chênh lệch 23 tỷ đô-la Mỹ là một con số rất lớn ?




Giá trị dữ liệu Linkedln mang lại cho Microsoft
▪ 23 tỷ đô-la Mỹ chủ yếu từ giá trị dữ liệu
▪ Đo lường giá trị dữ liệu ?
▪ Infonomics (Chương 2)



Với Google và Facebook
▪ Ban đầu: Dữ liệu phục vụ quảng cáo tốt hơn
▪ Hiện tại: Dữ liệu là một dịch vụ trí tuệ nhân tạo. Công nghiệp 4.0



Liên hệ với Grab Việt Nam
▪ Họ thu thập được các dữ liệu gì ?
▪ Dữ liệu đó có thể được sử dụng (kinh doanh) như thế nào ?

/> />rise-new-economy


Ví dụ 3: Chi tiêu dữ liệu 2016-18, 2019-21

2019-21
2019-21

2019-21

2016-18


2016-18

2016-18



2016-18
2019-21

2016-18

2019-21

2016-18

2019-21

McKinsey & Company
▪ Chi tiêu dữ liệu hàng năm: hàng trăm triệu đô la/công ty loại vừa
đến hàng tỷ đô la/công ty lớn nhất. COVID-19 tăng chi phí.

July 31, 2020

17


Ví dụ 3: Phân bố chi phí theo cơng đoạn

2019-21

2016-18
2016-18



2019-21

2016-18

2019-21
2016-18

2019-21

2016-18

2019-21

2016-18

2019-21

McKinsey & Company, 2020
▪ (1). Khơng bao gồm quy trình thu thập dữ liệu nội bộ; (2). Các ngành công
nghiệp không trực tiếp chạm vào người tiêu dùng (ví dụ: hàng hóa đóng gói
của người tiêu dùng) dành phần cao hơn (> 20%) cho việc tìm nguồn cung
ứng dữ liệu; (3) Đối với cơng ty loại vừa có doanh thu từ 5 tỷ đến 10 tỷ đơ
la và chi phí hoạt động từ 4 tỷ đến 6 tỷ đô la.
▪ Giá trị tuyệt đối khác nhau tùy theo ngành và quy mơ cơng ty; ví dụ, chi tiêu
tuyệt đối (trung bình) của ngành viễn thông là cao hơn.

18


Giá trị dữ liệu: Thị trường dữ liệu châu Âu

Tăng trường hàng năm 14,1%

Tăng trường hàng năm 8,9%

€ 247 billion in 2013
2,0% GDP châu Âu

4,0% GDP châu Âu

/>19


Việt nam:Trường hè Khai phá dữ liệu 2016


Chuỗi trường hè của Trường ĐHCN
▪ 26/11/2014: Hội thảo “Machine Learning and Its Application in
Vietnam (MLAVN)” thuộc ACML 2014 tại NhaTrang (Ảnh).
▪ 10-13/8/2015: Trường hè “Học máy thống kê” tại Nhà G3, ĐHCN
▪ 16-19/8/2016: Trường hè “Khai phá dữ liệu” tại Nhà G3, ĐHCN.
/>▪ 2017 (dự kiến): Trường hè “Khoa học dữ liệu”? Trao đổi 19/8/2016

20



Chủ đề - diễn giả: Nền tảng và nâng cao

21


Chủ đề - diễn giả: Công nghiệp-thực hành

22


Giới thiệu về học viên


Một số thống kê
▪ 175 người, trong đó 01 ĐH Duy Tân, 07 ĐH Hoa Sen, 04 ĐH
Nguyễn Tất Thành, 03 ĐH Thủ Dầu Một, 01 ĐH Tohoku (Nhật Bản)
▪ Giới tính: 134 nam, 36 nữ, 05 chưa có thơng tin
▪ Hai biểu đồ về Kiểu cơ quan cơng tác và Trình độ tốt nghiệp
▪ Khơng ít ứng viên không được đáp ứng cơ sở vật chất

23


2. Khái niệm KDD và KPDL


Knowledge discovery from databases


Trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường,

ẩn, chưa biết và hữu dụng tiiềm năng) từ một tập hợp lớn dữ
liệu



KDD và KPDL: tên gọi lẫn lộn? theo hai tác giả|Khai phá dữ liệu



Data Mining là một bước trong quá trình KDD

July 12, 2021

24


Quá trình KDD [FPS96]

[FPS96] Usama M. Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996). From
Data Mining to Knowledge Discovery: An Overview, Advances in Knowledge Discovery
and Data Mining 1996: 1-34
July 12, 2021

25


×