Tải bản đầy đủ (.pdf) (77 trang)

Bài giảng Nhập môn khai phá dữ liệu: Chương 2 - PGS. TS. Hà Quang Thụy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.06 MB, 77 trang )

BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU
CHƯƠNG 2. CÔNG NGHỆ TRI THỨC

PGS. TS. HÀ QUANG THỤY
HÀ NỘI 09-2018
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐẠI HỌC QUỐC GIA HÀ NỘI

1


Nội dung


Nghịch lý năng suất của Công nghệ Thông tin



Các mơ hình khai phá dữ liệu



Sơ bộ về khoa học dữ liệu



Công nghệ tri thức và kinh tế tri thức

July 12, 2021

Công nghệ tri thức 2




CNTT: Hạ tầng hay thượng tầng?


Công nghệ thông tin là hạ tầng của hạ tầng ?

“xác định CNTT giữ vai trò là hạ tầng của hạ tầng quốc
gia” />tang.htm

Nhầm lẫn tai hại: “hạ tầng CNTT” với bản thân “CNTT”
◼ Vai trị của CNTT trong kinh tế
◼ Nghịch lý về tính hiệu quả của CNTT
◼ Luận điểm của CARR
◼ Bản chất vai trị của CNTT trong kinh tế
◼ Kinh tế thơng tin và kinh tế tri thức

July 12, 2021

Công nghệ Tri thức 3


Vai trò của CNTT


Nghịch lý năng suất của CNTT


Robert Solow, nhà kinh tế được giải thưởng Nobel, có nhận định
“chúng ta nhìn thấy máy tính ở mọi nơi ngoại trừ trong thống kê năng

suất“ (1987)







Căn cứ: Thống kê năng suất kinh tế (theo lý thuyết kinh tế cổ
điển) và đầu tư CNTT

Luận điểm của CARR


“CNTT không quan trọng”: IT does not matter !



Nhận đinh về luận điểm của CARR

Vai trò bản chất của CNTT trong kinh tế


Hệ thống tác nghiệp, điều hành



Hệ thống phát hiện tri thức

July 12, 2021


Công nghệ tri thức 4


Nghịch lý năng suất của CNTT


“Nghịch lý năng suất “: Một xung đột của kỳ vọng
với thống kê


Mối quan hệ giữa IT và năng suất: nhiều tranh luận song hiểu
biết vẫn cịn rất hạn chế.






Năng lực máy tính được đưa vào kinh tế Mỹ đã tăng hơn bậc hai
về độ lớn từ năm 1970
Năng suất, đặc biệt trong khu vực dịch vụ có vẻ đình trệ.

Cho một hứa hẹn khổng lồ của IT tới mở ra trong “cuộc cách
mạng công nghệ lớn nhất mà lồi người từng có" (Snow, 1966),


Sự vỡ mộng, thâm chí làm thất vọng với cơng nghệ gia tăng một
cách hiển nhiên: “Khơng, máy tính khơng làm tăng hiệu quả, ít nhất
khơng hầu hết thời gian" (Economist, 1990).


Erik Brynjolfsson. The Productivity Paradox of Information Technology: Review
and Assessment. Communications of the ACM, Volume 36 Issue 12, Dec.
1993 Pages 66-77
Erik Brynjolfsson, Daniel Rock, Chad Syverson. Artificial Intelligence and the Modern
Productivity Paradox: A Clash of Expectations and Statistics. Working Paper 24001, 2017.
5


Nghịch lý năng suất: Nền kinh tế Mỹ
Sự không tương quan trong tăng GNP
Giai đoạn

Chi phí cho máy
Tăng GNP hàng năm
tính (%GNP)

1960s

0.003

4.50%

1970s

0.05

2.95%

1980s


0.3

2.75%

1990s

3.1

2.20%

6


Nghịch lý năng suất: mức cơng ty







Trái: Khơng có quan hệ giữa đầu tư CNTT/nhân viên (trục hoành)
với thu hồi vốn (trục tung): tỷ lệ đầu tư nhiều cũng như ít !
Phải: Có 90,6 % số cơng ty giá thành CNTT lớn hơn giá thu hồi
vốn: đầu tư CNTT lãng phí ? Thu hồi vốn chậm ?
/>
7



Nghịch lý năng suất: mức cơng ty tài chính



Quan hệ “tỷ lệ thuận” giữa đầu tư CNTT/nhân viên (trục
hoành) với thu hồi vốn (trục tung) tại các công ty tài chính
8


Luận điểm của G. Carr: IT does'n matter !


Nicholas G. Carr. IT does'n matter! HBR at Large,
May 2003: 41-49
CNTT xuất hiện khắp nơi và tầm quan trọng chiến lược của nó
đã giảm. Cách tiếp cận đầu tư và quản lý CNTT cần phải thay
đổi đáng kể !
◼ Khi một tài nguyên trở thành bản chất để cạnh tranh nhưng
không quan trọng cho chiến lược, rủi ro mà nó tạo ra trở
thành quan trọng hơn các lợi thế mà nó cung cấp.
◼ Với các cơ hội đạt được lợi thế chiến lược từ CNTT đã nhanh
chóng biến mất, nhiều cơng ty cần có một cái nhìn nghiêm
khắc đầu tư vào CNTT và quản lý các hệ thống của họ.
Carr đưa ra ba quy tắc hướng dẫn cho tương lai: phủ nhận vai
trò chiến lược của CNTT !







Nicholas G. Carr. The end of corporate computing,
MIT Sloan Management Review, Spring 2005: 67-73.
Thuộc 100 người có tên được nhắc đến nhiều nhất !
9


Định hướng quản lý đầu tư CNTT

Paul A. Strassmann [Strass07]: chi tiêu CNTT so với các
doanh nghiệp đồng hạng:




Hơn hay kém hơn so với mức thơng thường khi có hiệu quả đo
lường được,
Hơn mức thông thường khi mà hiệu quả thông tin của doanh
nghiệp hơn mức thông thường,

Hơn mức thông thường khi mà tri thức của nhân viên hơn mức
thông thường.
[Strass07] Paul A. Strassmann (2007), Measuring and
Communicating
I.T.
Value,
/>➢


Phân tích nghịch lý năng suất



E. Brynjolfsson [Bryn93]: khơng nghịch lý năng suất


Lỗi đo lường từ cơng thức tính năng suất của kinh tế cổ điển: Biến
đầu vào, biến đầu ra và đo lường các biến này .








Đầu tư CNTT có độ trễ phát huy năng suất 2-3 năm
Tính phân phối lại tài nguyên thông tin “sản phẩm công cộng”: Cty
này đầu tư – công ty khác hưởng lợi
Sai lầm trong quản lý đầu tư CNTT: Ph/pháp phân tích lỗi thời.

Cơng thức tính năng suất kinh tế

11


2. Dữ liệu, thông tin, tri thức
Biết quan hệ

Biết xử lý


12


Dữ liệu → Thông tin dựa trên tri thức

13


Dữ liệu, thơng tin, tri thức, trí tuệ

14


Dữ liệu, thơng tin, tri thức, trí tuệ

15


Các đặc trưng của thơng tin có giá trị


Thơng tin có giá trị
▪ Cho người quản lý và người ra quyết định (“quản lý” và “lãnh đạo”).
Nhìn chung “chính xác, đúng người, đúng thời điểm”
▪ Đặc trưng: truy nhập được, chính xác, đầy đủ, kinh tế, linh hoạt, có
liên quan, tin cậy, an toàn, đơn giản, kịp thời, kiểm chứng được.



Truy nhập được

▪ Người sử dụng có thẩm quyền dễ dàng nhận được, ở dạng phù
hợp, đúng thời điểm theo u cầu.



Chính xác
▪ Chính xác là khơng bị lỗi. Trong nhiều trường hợp, thơng tin khơng
chính xác do dữ liệu khơng chính xác trong q trình chuyển đổi
(được gọi là “nhập rác, xuất rác”: garbage in, garbage out: GIGO).



Đầy đủ
▪ Thông tin cần bao gồm các yếu tố quan trọng. Phản ví dụ: Một báo
cáo đầu tư khơng nói về chi phí quan trọng.
16


Thơng tin có giá trị (tiếp)


Kinh tế
▪ Tính kinh tế liên quan tới chi phí tạo thơng tin. Người ra quyết định
cần cân bằng giá trị của thông tin với chi phí tạo ra nó.



Linh hoạt
▪ Thơng tin được sử dụng linh hoạt cho nhiều mục đích. Ví dụ,
thơng tin lượng hàng tồn kho cho người bán hàng, cho người

quản lý tài chính…



Có liên quan
▪ Có liên quan là quan trọng cho người ra quyết định.



Tin cậy
▪ Theo sự tín nhiệm của người dùng. Tính tin cậy phụ thuộc vào
tính tin cậy của phương pháp thu thập thông tin / tính tin cậy của
nguồn thơng tin.



An tồn
▪ Tránh được sự truy nhập trái phép.

17


Thơng tin có giá trị (tiếp)


Đơn giản
▪ Cần đơn giản, không quá phức tạp. Thông tin phức tạp và chi
tiết có thể khơng cần thiết.




Kịp thời
▪ Được cung cấp khi cần đến nó: “Biết thời tiết cuối tuần trước
khơng giúp gì cho chọn áo khốc mặc thứ Năm”.



Kiểm chứng được
▪ Thơng tin cần kiểm chứng được: kiểm tra được tính đúng đắn
có thể bằng nhiều nguồn khác nhau.



Lưu ý
▪ Độ quan trọng các đặc trưng tùy thuộc vào kiểu dữ liệu cần đến:
(i) Với dữ liệu thông minh thị trường: tính kịp thời > tính chính
xác / tính đầy đủ (chẳng hạn, các đối thủ cạnh tranh có thể tạo
ra giảm giá lớn…); (ii) tính chính xác, đầy đủ và kiểm chứng
được là quan trọng
18


Dữ liệu thế kỷ 21Dầu mỏ thế kỷ 20



Một vài đối sánh
Đều là động lực tăng trưởng và trao đổi
Dầu mỏ và dữ liệu: “nhồi vào ống dẫn”
Nhà máy lọc dầu: dầu thô (nhiệt→) xăng, nhớt, thành phần khác

Trung tâm dữ liệu: dữ liệu thơ (hàng nghìn máy tính mát →) mẫu
có giá trị, dự báo, và hiểu biết sâu sắc mới.
▪ Đều tạo nguyên liệu thô quan trọng → nền kinh tế thế giới
▪ Hệ thống thực ảo cho sản xuất
▪ Dữ liệu lớn biết rất nhiều về mỗi con người, mọi thứ, v.v.






Fuel of the future - Data is giving rise to a new economy


Tăng trưởng dữ liệu



Dự báo IDC
▪ 2020: Vũ trụ dữ liệu 35 zettabytes (“35” và 21 chữ số “0”, dự báo

2011) → 44 zettabytes (dự báo 2014); 2025: 180 zettabytes.
▪ Bơm qua Internet băng thông rộng mất 450 triệu năm!
▪ Amazon: vì mục đích tính tốn đám mây, dùng thùng chứa 100
petabytes
▪ 2016: Amazon, Alphabet và Microsoft đạt gần 32 tỷ US$ chi tiêu
và hợp đồng


Dữ liệu lớn (Big data)



Đặt vấn đề
▪ Vũ trụ số: chứa dữ liệu về mọi thứ, mọi lúc, mọi nơi →
“biết” được mọi thứ
▪ Tiềm ẩn thơng tin hữu ích cho các tổ chức → dữ liệu
lớn



Khái niệm
▪ Dữ liệu lớn là một tập dữ liệu có các đặc trưng đặc
biệt, được xử lý (lưu trữ, tính tốn, chuyển dạng) và
phân tích (tìm các mẫu liên quan mới lạ hữu dụng từ dữ
liệu) bằng các quy trình hoặc cơng cụ đặc biệt nhằm
nhận được thông tin hỗ trợ ra quyết định hoặc đánh
giá có giá trị
▪ Được mơ tả qua các đặc trưng đặc biệt thường là nV
▪ 3V → 5V → 8V, 14V, 42V
21


Đặc trưng 5V của dữ liệu lớn

22


Đặc trưng 5V: chi tiết



Dung lượng lớn (Volume)
▪ Cỡ Texabytes (1012Bytes)
▪ Kích thược lớn tiềm ẩn thơng tin giá trị



Tốc độ cao (Velocity)







Tốc độ cao: tốc độ phát sinh, tốc độ chuyển động
Thời gian thực hoặc tựa thời gian thực
Tốc độ cao  tính kịp thời
Ví dụ: phát hiện gian lận giao dịch cần với tốc độ miligiây, dữ liệu cần cập nhật tốc độ cao

Đa dạng (Variety)
▪ Có/khơng cấu trúc (văn bản, hình ảnh, video, dữ liệu

cảm biến, v.v.), đa yếu tố, có tính xác suất
▪ Đa dạng  khung nhìn đa chiều (chính xác hơn) về sự
vật/hiện tượng
23


Đặc trưng 5V: chi tiết (2)



Xác thực được (Veracity)
▪ Được xác thực theo độ tin cậy, quy trình, xuất xứ, uy
tín, tính khả dụng và được giải trình
▪ Thơng tin giá trị từ nguồn tin cậy, được xác thực



Có giá trị (Value)
▪ Đặc trưng giá trị là quan trọng nhất
▪ Mục tiêu phân tích dữ liệu lớn (mục tiêu kinh doanh)
dẫn dắt hoạt động xây dựng/phân tích dữ liệu lớn
▪ Hiểu biết thực sự về chi phí và lợi ích
▪ Dữ liệu lớn chỉ bao gồm các dữ liệu liên quan
▪ Tránh hiện tượng “dữ liệu lớn” theo phong trào

24


Đặc trưng 8V, 10V
Lan truyền

Dung lượng
Giá trị

Kết dính

Xác thực

Trực quan


Tốc độ
Đa dạng

▪ 10V: #1: Volume, #2: Velocity, #3: Variety, #4:

Variability, #5: Veracity, #6: Validity, #7: Vulnerability,
#8: Volatility, #9: Visualization, #10: Value
25


×