Tải bản đầy đủ (.pdf) (32 trang)

Tìm hiểu về Bigdata và phân tích một số thuật toán của bigdata

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.51 MB, 32 trang )

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN



BÁO CÁO ĐỒ ÁN GIỚI THIỆU NGÀNH
Đề tài: Đồ án 6
- Tìm hiểu về big data và các kĩ thuật trong big data.
- Phân tích và trình bày ít nhất một bài toán big data.

GV dạy: Thầy Mai Xuân Hùng
Nguyễn Hồ Duy Trí
Sinh viên thực hiện:
STT

Họ tên

MSSV

1

Nguyễn Văn Toàn

15520904

2

Phạm Quang Toàn

15520907


3

Phan Minh Toàn

15520908

4

Võ Văn Thơ

15520850

TP. HỒ CHÍ MINH – 12/2016


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

Giới Thiệu
Chúng ta đang sống trong một thời đại mới, thời đại phát triển rực rỡ của CNTT.
CNTT đã ở một bước phát triển cao đó là số hóa tất cả các dữ liệu thông tin, luân
chuyển mạnh mẽ và kết nối tất cả chúng ta lại với nhau. Mọi loại thông tin, số liệu âm
thanh, hình ảnh có thể được đưa về dạng kỹ thuật số để bất kỳ máy tính nào cũng có
thể lưu trữ, xử lý và chuyển tiếp cho nhiều người. Nhu cầu lưu trữ ngày càng tăng lên
thêm vào đó là sự phát triển mạnh về lưu lượng ổ cứng. Hằng ngày lượng thông tin
được lưu trữ tăng lên cách chóng mặt. Theo tài liệu của Intel vào tháng 9/2013, hiện
nay thế giới đang tạo ra 1 petabyte dữ liệu trong mỗi 11 giây và nó tương đương với
một đoạn video HD dài 13 năm. Vấn đề đặt ra là với một khối lượng dữ liệu lớn như
thế làm sao chúng ta có thể khai thác và nó có thật sự cần thiết? Tháng 8 năm 2015,
Big Data đã vượt ra khỏi bảng xếp hạng những công nghệ mới nổi Cycle Hype của
Gartner và tạo một tiếng vang lớn cho xu hướng công nghệ của thế giới.

Bài viết này sẽ giúp chúng ta hiểu rõ khái niệm Big Data, những nguồn tạo ra Big
Data, tầm quan trọng của nó vào các lĩnh vực đời sống, chương cuối sẽ phân tích một
bài toán Big Data và tương lai rộng mở của nó.

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 1


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

MỤC LỤC
CHƯƠNG I: GIỚI THIỆU BIG DATA ......................................................................4
1.

2.

Định Nghĩa Big Data ..........................................................................................4
a.

Volume (Số lượng lưu trữ) ......................................................................4

b.

Velocity (Tốc độ xử lý) ...........................................................................5

c.

Variety (Đa dạng chủng loại) ..................................................................5


d.

Veracity (Độ chính xác) ..........................................................................5

e.

Value (Giá trị thông tin) ..........................................................................5

Những nguồn chính tạo ra big data ....................................................................5
a.

Hộp đen dữ liệu: ......................................................................................5

b.

Dữ liệu từ các kênh truyền thông xã hội: ................................................6

c.

Dữ liệu giao dịch chứng khoán: ..............................................................6

d.

Dữ liệu điện lực: ......................................................................................6

e.

Dữ liệu giao thông: ..................................................................................6

f.


Dữ liệu các thiết bị tìm kiếm: ..................................................................6

3.

Vì sao Big Data nằm trong năm xu hướng trọng điểm ngành công nghệ thông

tin

7

CHƯƠNG II: SỨC MẠNH BIG DATA ......................................................................8
1.

Big data quan trọng như thế nào? .......................................................................8

2.

Ứng dụng Big Data trong đời sống ....................................................................8
a.

Ứng dụng của Big Data trong khoa học va nghiên cứu như : .................8

b.

Ứng dụng của Big Data trong tối ưu hóa hiệu suất và thiết bị: .............10

c.

Ứng dụng của Big Data trong cải thiện an ninh và thực thi pháp luật: .11


d.

Ứng dụng Big Data trong cải thiện và tối ưu hóa các thành phố quốc

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 2


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

gia:

11

e.

Ứng dụng Big Data trong kinh doanh tài chính: ...................................12

f.

Sự hiểu biết và khách hàng mục tiêu (Internet, Mobile và Digital

Marketing) ........................................................................................................14

4.

g.


Sự hiểu biết và tối ưu hóa quy trình kinh doanh ...................................15

h.

Định lượng cá nhân và tối ưu hóa hiệu suất ..........................................15

i.

Cải thiện chăm sóc sức khỏe và y tế công .............................................16

j.

Cải thiện hiệu suất thể thao ...................................................................16

Phân tích bài toán Big Data ..............................................................................18
a.

Top 10 thuật toán khai thác dữ liệu được dùng trong lĩnh vực Bigdata 18

b.

Phân tích sơ lược về thuật toán Cây quyết định C4.5 ...........................19

c.

Mã giả của thuật toán C4.5: ...................................................................23

CHƯƠNG III: BIG DATA TRONG TƯƠNG LAI .................................................27
TÀI LIỆU THAM KHẢO...........................................................................................30
PHỤ LỤC PHÂN CÔNG NHIỆM VỤ ......................................................................31


Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 3


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

CHƯƠNG I: GIỚI THIỆU BIG DATA
1. Định Nghĩa Big Data
Trên thế giới có nhiều định nghĩa về Big Data. Vào năm 2001, nhà phân tích Doug
Laney của hãng META Group (bây giờ chính là công ty nghiên cứu Gartner) đã nói
rằng những thách thức và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mô tả
bằng ba chiều “3V”: tăng về số lượng lưu trữ (volume), tăng về tốc độ xử lý (velocity)
và tăng về chủng loại (variety). Giờ đây, Gartner cùng với nhiều công ty và tổ chức
khác trong lĩnh vực công nghệ thông tin tiếp tục sử dụng mô hình “3V” này để định
nghĩa nên Big Data. Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngoài ba tính
chất trên thì còn phải “cần đến các dạng xử lí mới để giúp đỡ việc đưa ra quyết định,
khám phá sâu vào sự vật/sự việc và tối ưu hóa các quy trình làm việc”.

Sau đây là khái niệm mới về Big Data 2014 của Gartner về mô hình “5Vs”– năm tính
chất quan trọng nói lên Big Data:
a. Volume (Số lượng lưu trữ)
Big Data (“dữ liệu lớn”) là tập hợp dữ liệu có dung lượng lưu trữ vượt mức đảm
đương của những ứng dụng và công cụ truyền thống. Kích cỡ của Big Data đang từng
ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục terabyte

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 4



Bài thu hoạch môn Giới thiệu ngành - IT009.H11

cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu mà
thôi.
b. Velocity (Tốc độ xử lý)
Dung lượng gia tăng của dữ liệu rất nhanh và tốc độ xử lý đang tiến tới real-time. Các
ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân
sự, Y tế – Sức khỏe ngày hôm nay phần lớn dữ liệu lớn đc xử lý real-time. Công nghệ
xử lý dữ liệu lớn ngày một tiên tiến cho phép chúng ta xử lý tức thì trước khi chúng
được lưu trữ vào cơ sở dữ liệu.
c. Variety (Đa dạng chủng loại)
Hình thức lưu trữ và chủng loại dữ liệu ngày một đa dạng hơn. Trước đây chúng ta hay
nói đến dữ liệu có cấu trúc thì ngày nay hơn 80% dữ liệu trên thế giới được sinh ra là
phi cấu trúc (tài liệu, blog, hình ảnh, video, voice v.v.). Công nghệ Big Data cho phép
chúng ta ngày nay liên kết và phân tích đa dạng chủng loại dữ liệu với nhau như
comments/post của một nhóm người dùng nào đó trên Facebook với thông tin video
được chia sẻ từ Youtube và Twitter.
d. Veracity (Độ chính xác)
Một trong những tính chất phức tạp nhất của BigData là độ chính xác của dữ liệu. Với
xu hướng Social Media và Social Network ngày nay và sự gia tăng mạnh mẽ tính
tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định về độ tin cậy
& chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu
thiếu chính xác và nhiễu đang là tính chất quan trọng của BigData.
e. Value (Giá trị thông tin)
Giá trị thông tin là tính chất quan trọng nhất của xu hướng công nghệ Big Data.
Ở đây doanh nghiệp phải hoạch định được những giá trị thông tin hữu ích của BigData
cho vấn đề, bài toán hoặc mô hình hoạt động kinh doanh của mình. Có thể nói việc đầu
tiên là phải xác định được tính chất “Value” thì mới nên bắt tay vào BigData


2. Những nguồn chính tạo ra big data
a. Hộp đen dữ liệu: đây là dữ liệu được tạo ra bởi máy bay, bao gồm máy bay
phản lực và trực thăng. Hộp đen dữ liệu này bao gồm thông tin tạo ra bởi giọng

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 5


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

nói của phi hành đoàn, các bản thu âm và thông tin về chuyến bay.
b. Dữ liệu từ các kênh truyền thông xã hội: Đây là dữ liệu được tạo ra và phát
triển bởi như các trang web truyền thông xã hội như Twitter, Facebook,
Instagram, Pinterest và Google+.
c. Dữ liệu giao dịch chứng khoán: Đây là số liệu từ thị trường chứng khoán đối
với quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng.
d. Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực. Nó bao gồm các thông tin cụ
thể từ các điểm giao nhau của các nút thông tin sử dụng.
e. Dữ liệu giao thông: dữ liệu này bao gồm sức chưa và các mẫu phương tiện giao
thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông.
f. Dữ liệu các thiết bị tìm kiếm: đây là dữ liệu được tạo ra từ các công cụ tìm kiếm
và đây cũng là nguồn dữ liệu lớn nhất của Big Data. Công cụ tìm kiếm có cơ sở
dữ liệu cực kỳ rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần.
Thêm vào đó, Bernard Marr, chuyên gia về Big Data và phân tích Big Data, đã đưa ra
danh sách 20 nguồn Big Data uy tín mà mọi người có thể truy cập miễn phí trên trang
web. Dưới đây là một số ví dụ:
-


Data.gov - nơi mà mọi người được phép tự do truy cập tất cả các dữ liệu của
Chính phủ Mỹ bao gồm các thông tin khác nhau, từ khí hậu đến tội phạm
đang giam giữ.

-

Data.gov.uk – nơi tương tự của Chính phủ Anh. Tại đây, mọi người có thể
tập hợp được siêu dữ liệu trên tất cả các sách và các ấn phẩm của Anh kể từ
năm 1950.

-

Ngoài ra còn có Cục Điều tra Dân số Mỹ - bao gồm các thông tin có giá trị
như dân số, địa lý và dữ liệu khác. Tương tự là kho dữ liệu mở Liên minh
châu Âu, bao gồm các dữ liệu điều tra dân số của các tổ chức Liên minh
châu Âu.

-

Và một thứ yêu thích của chúng ta đó là Facebook. Những biểu đồ của FB
cung cấp cho chúng ta các thông tin và giao diện các ứng dụng, sau khi truy
cập các thông tin công khai được cung cấp bởi người sử dụng.

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 6


Bài thu hoạch môn Giới thiệu ngành - IT009.H11


-

Trong lĩnh vực y tế, đó là Healthdata.gov của Mỹ và Trung tâm Thông tin
chăm sóc Y tế và xã hội NHS, từ Anh.

3. Vì sao Big Data nằm trong năm xu hướng trọng điểm ngành công
nghệ thông tin
Nhà bán lẻ online Amazon.com thì phải xử lí hàng triệu hoạt động mỗi ngày cũng
như những yêu cầu từ khoảng nửa triệu đối tác bán hàng. Amazon sử dụng một hệ
thống Linux và hồi năm 2005, họ từng sở hữu ba cơ sở dữ liệu Linux lớn nhất thế
giới với dung lượng là 7,8TB, 18,5TB và 24,7TB.
Tương tự, Facebook cũng phải quản lí 50 tỉ bức ảnh từ người dùng tải lên,
YouTube hay Google thì phải lưu lại hết các lượt truy vấn và video của người dùng
cùng nhiều loại thông tin khác có liên quan.
Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vòng một ngày mà
thôi
Trên Twitter có 500 triệu dòng tweet mới mỗi ngày, Facebook thì có 1,15 tỉ thành
viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video…
=> Nhu cầu xử lý, tìm kiếm, khai thác thông tin, đánh giá, tiên đoán một cách
khách quan xu thế thị trường từ đó đưa ra chiến lược đúng đắn.

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 7


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

CHƯƠNG II: SỨC MẠNH BIG DATA
1. Big data quan trọng như thế nào?

Big data là công nghệ thu thập thông tin quy mô lớn từ các website. Các doanh nghiệp
thường vận dụng công cụ này nhằm phục vụ công việc dự đoán xu hướng thị trường,
nâng cao chất lượng sản phẩm hoặc dịch vụ hiện có, tạo ra sản phẩm mới hoặc tìm
hiểu về hành vi khách hàng
Phân tích dữ liệu cũng có thể giúp các doanh nghiệp thích nghi, tạo ra nội dung
website thu hút nhiều khách hàng hơn, có được cái nhìn sâu sắc vào hành vi mua hàng.
Dữ liệu càng nhiều thì càng tốt cho công ty. Để làm được như vậy, doanh nghiệp nên
cung cấp nội dung trên nhiều nền tảng social media, nhằm thu thập được nhiều thông
tin từ những điểm tiếp xúc với khách hàng.
Bằng cách tìm hiểu qua hệ thống cơ sở dữ liệu, công ty có thể tạo ra nội dung có liên
quan hơn với người đọc. Chính ý tương này đã giúp Craig Rayner - Giám đốc tuyển
dụng hãng SEO.io thu hút nhân tài. Nhờ vào việc phân tích và tổng hợp những dữ liệu
nội bộ phòng nhân sự, ông đã tạo ra những quảng cáo tuyển dụng hấp dẫn đối với
người tìm việc.

2. Ứng dụng Big Data trong đời sống
a. Ứng dụng của Big Data trong khoa học va nghiên cứu như :
-Khoa học và nghiên cứu hiện đang biến đổi rất nhanh bởi các khả năng mới mà dữ
liệu lớn mang lại. Lấy ví dụ, CERN, phòng thí nghiệm vật lý hạt nhân Thụy Sĩ với
chiếc máy gia tốc hạt lớn nhất và mạnh nhất thế giới, Large Hadron Collider. Với
những thí nghiệm để mở khóa những bí mật của vũ trụ, cách hình thành và vận hành ra
sao, đã tạo ra một lượng lớn dữ liệu.
-Trong Y học: giải mã gen.
-Trong vật lý: các dụng cụ giám sát khoa học như máy gia tốc hạt lớn của CERN(tổ
chức nghiên cứu nguyên tử châu Âu) tạo ra 40 terabyte dữ liệu trong 1 gây .
-Trong toán học : chế tạo các siêu máy tính để giải quyết các bài toán mà con người
không thể giải quyết được.

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ


Trang 8


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

->Trong Y học: -Big Data đã ghi điểm trong lĩnh vực Y học vào năm 2009
khi Google đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng
ảnh hưởng, lan truyền của dịch cúm H1N1. Dịch vụ này có tên là Google Flu Trends.
-Với sự phát triển của công nghệ thông tin giúp mọi người chúng ta tiếp xúc được với
những sự tiên tiến của khoa học nhằm nâng cao sức khỏe con người.
-Nhưng đó chưa phải tất cả, tiềm năng lớn nhất của Big Data đối với y học chính là là
khả năng áp dụng vào quá trình phân tích gen, giúp phân tích trình tự bộ gen người
trong một vài giờ, thay vì tới hàng tuần như trước kia.
-Big Data chính là sự bổ sung cần thiết cho nền y học hiện đại và chúng ta đang chứng
kiến sự thay đổi bước ngoặt. Giải mã trình tự gen là một cách rất tốt để theo dõi một
dải rộng gen để từ đó đưa ra những nhận định về nguyên nhân từng loại bệnh và tiến
hành đánh giá rủi ro, phát hiện sớm hoặc dự đoán khả năng tái phát. Công nghệ này
cũng có thể được sử dụng để đưa ra những phương pháp trị liệu và hướng điều trị phù
hợp với từng bệnh nhân.
=>Trong vật lý:- Máy gia tốc hạt lớn được chế tạo bởi Tổ chức nghiên cứu hạt nhân
châu Âu (CERN), nằm bên dưới mặt đất tại biên giới Pháp-Thụy Sĩ giữa núi Jura và
dãy Alps gần Genève, Thụy Sĩ.

-Các trung tâm của CERN có 65.000 bộ vi xử lý để phân tích 30 petabyte dữ liệu .Tuy
nhiên nó sử dụng quyền tính toán của hàng ngàn máy tính phân phối tại 150 trung tâm

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 9



Bài thu hoạch môn Giới thiệu ngành - IT009.H11

dữ liệu trên toàn thế giới để phân tích.Quyền hạn tính toán như vậy có thể được thừa
hưởng và làm thay đổi nhiều lĩnh vực khoa học nghiên cứu .
-Trong toán học: -Siêu máy tính giúp con người chúng ta thực hiện được các bài toán
khó mà con người không thể nào làm được.
-Siêu máy tính hiện nay có tốc độ xử lý hàng nghìn teraflop (một teraflop tương đương
với hiệu suất một nghìn tỷ phép tính/giây) hay bằng tổng hiệu suất của 6.000 chiếc
máy tính hiện đại nhất hiện nay gộp lại (một máy có tốc độ khoảng từ 3-3,8 gigaflop).

b. Ứng dụng của Big Data trong tối ưu hóa hiệu suất và thiết bị:
-Phân tích dữ liệu lớn giúp máy móc và thiết bị trở nên thông minh và độc lập hơn. Ví
dụ, các công cụ dữ liệu lớn được sử dụng để vận hành xe hơi tự lái của Google. Toyota
Prius được trang bị máy ảnh, GPS cũng như các máy tính mạnh mẽ và bộ cảm biến để
lái xe an toàn trên đường mà không có sự can thiệp của con người. Công cụ dữ liệu lớn
cũng được sử dụng để tối ưu hóa lưới điện năng lượng sử dụng dữ liệu từ công-tơ
thông minh. Chúng ta thậm chí có thể sử dụng công cụ dữ liệu lớn để tối ưu hóa hiệu
suất của máy tính và các kho dữ liệu.
-Big Data trong tối ưu hóa hiệu suất và thiết bị :
+Việc tối ưu hóa hiệu suất giúp các thiết bị có thể hoạt động nhanh và hiệu quả hơn
trước kia rất nhiều.Điều này nhằm giúp các thiết bị có thể đáp ứng được các yêu cầu
của con người ngày càng một cao hơn so với trước kia.
+Trong máy tính việc tối ưu hóa hiệu suất giúp máy tính hoạt động cách trơn tru để
đảm bảo độ ổn định và nhanh nhạy trong việc ngày nay đang diễn ra bùng nổ dữ
Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 10



Bài thu hoạch môn Giới thiệu ngành - IT009.H11

liệu.Trong thời đại bùng nổ dữ liệu như ngày nay thì việc tối ưu hóa hiệu suất máy
tính và kho dữ liệu là một thách thức đối với con người chúng ta.
+Việc tối ưu hóa hiệu suất và thiết bị giúp con người chúng ta có thể tận dụng tối đa
nguồn nguyên liệu để phục vụ đời sống con người nhằm đảm bảo nhu cầu ngày một
tăng cao trong thách thức về vấn đề khang hiếm nguyên liệu hiện nay.
+Các lĩnh vực mà Big Data trong tối ưu hóa hiếu suất và thiết bị ứng dụng như: Giao
thông vận tải ,điện lực, sản xuất,công nghiệp,cong nghệ thông tin,….
c. Ứng dụng của Big Data trong cải thiện an ninh và thực thi pháp luật:
-Dữ liệu lớn được áp dụng rất nhiều trong việc cải thiện an ninh và cho phép thực thi
pháp luật. Cơ quan An ninh Quốc gia Mỹ (NSA) sử dụng phân tích dữ liệu lớn để
chống âm mưu khủng bố (và có thể gián điệp trên tất cả chúng ta). Các đơn vị khác sử
dụng kỹ thuật dữ liệu lớn để phát hiện và ngăn chặn các cuộc tấn công không gian
mạng. Lực lượng cảnh sát sử dụng các công cụ dữ liệu lớn để bắt tội phạm và thậm chí
dự đoán hoạt động tội phạm, và những công ty thẻ tín dụng sử dụng dữ liệu lớn dùng
nó để phát hiện các giao dịch gian lận.
-Các ứng dụng của Big Data trong lĩnh vực cải thiện an ninh và thực thi pháp luật:
+Phân tích tâm lý tội phạm: Tổng hợp dữ liệu từ các tâm lý phạm tội để đưa ra kết
luận chính xác từ các hành vi tâm lý khác nhau trong từng trường hợp khác nhau.
+Tội phạm công nghệ cao: Ứng dụng phân lớp và phân cụm dữ liệu trong công tác
phòng chống tội phạm trong lĩnh vực này.
+Khủng bố: Phân tích dữ liệu lớn để phòng chống các âm mưu khủng bố.
+Anh ninh mạng:Phân tích tấn công mạng nhằm ứng phó kịp thời trong các cuộc tấn
công mạng.
d. Ứng dụng Big Data trong cải thiện và tối ưu hóa các thành phố quốc gia:
Dữ liệu lớn được sử dụng để cải thiện nhiều khía cạnh của các thành phố và quốc gia.
Ví dụ như nó cho phép các thành phố tối ưu hóa luồng giao thông dựa trên thông tin
giao thông trong thời gian thực cũng như dữ liệu trên các phương tiện truyền thông xã
hội và dữ liệu thời tiết. Một số thành phố đang thực hiện thí điểm phân tích dữ liệu lớn

với mục đích biến mình thành thành phố thông minh, nơi mà cơ sở hạ tầng giao thông

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 11


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

và các quy trình tiện ích đều được kết nối với nhau. Nơi một chiếc xe buýt sẽ chờ một
đoàn tàu đến trễ và nơi tín hiệu giao thông dự đoán khối lượng giao thông và hoạt
động để giảm thiểu ùn tắc.
-Ứng dụng chủ yếu của Big Data trong lĩnh vực này là xây dựng thành phố thông
minh.
+Thành phố thông minh là thành phố ứng dụng công nghệ trong việc xây dựng và
quản lý thành phố.

+Ứng dụng của Big Data trong lĩnh vực này là mọi thú điều được quản lý bằng dữ
liệu.Điều này giúp xây dựng và quản lý thành phố một cách dễ dàng.Tạo sự thuận tiện
cho mọi người khi sống trong thành phố.Từ việc quản lý giao thông bằng công nghệ
cho tới quản lý về con người,kinh tế,văn hóa,giao dục,….Sự phát triển này nhằm giảm
sựng dụng sức lực của con người và dần thay bằng công nghệ giúp mang lại tính hiệu
quả,sự chính xác và sự nhanh nháy góp phần giúp thành phố phát triển một cách nhanh
chóng.
e. Ứng dụng Big Data trong kinh doanh tài chính:
-Thể loại cuối cùng về ứng dụng dữ liệu lớn đến từ các giao dịch tài chính. Tần số giao

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 12



Bài thu hoạch môn Giới thiệu ngành - IT009.H11

dịch cao (HFT) là một lĩnh vực nơi dữ liệu lớn được sử dụng rất nhiều ngày nay. Ở
đây, thuật toán dữ liệu lớn được sử dụng để đưa ra các quyết định giao dịch. Ngày nay,
phần lớn các giao dịch cổ phiếu diễn ra thông qua các thuật toán dữ liệu dựa ngày càng
nhiều vào tín hiệu tài khoản từ các mạng truyền thông xã hội và các trang web tin tức
để đưa ra quyết định mua và bán trong từng giây.
-Một số ứng dụng của Big Data trong kinh doanh tài chính:

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 13


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

+Phân tích ,xếp hạng rủi ro tín dụng: tổng hợp dữ liệu và phân tích thông tin về các
khoảng tín dụng để đưa ra xếp hạng về tín dụng.
+Phân tích thị trường chứng khoáng,bất động sản: Tổng hợp dữ liệu và phân tích
thông tin về thị trường chứng khoáng cũng như bất động sản trong các phiên giao dịch.
+Phân tích thông tin khách hàng trong thời gian thực: Xây dựng cơ sở dữ liệu để quản
lý thông tin khách hàng nhằm tránh gian lận trong kinh doanh.
f.

Sự hiểu biết và khách hàng mục tiêu (Internet, Mobile và Digital Marketing)

Đây là một trong những lĩnh vực lớn nhất và được công bố công khai nhất cách dữ liệu
lớn được sử dụng ngày nay. Ở đây, dữ liệu lớn được sử dụng để hiểu rõ hơn về khách

hàng và hành vi cũng như sở thích của họ.
Nếu để ý một chút, bạn sẽ thấy khi
đăng nhập vào các trang như lazada,
thegioididong.com,… để xem hoặc
mua một sản phẩm nào đó thì trang
này cũng sẽ đưa ra những sản phẩm
gợi ý tiếp theo cho bạn, ví dụ khi xem
Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 14


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

điện thoại, nó sẽ gợi ý cho bạn mua thêm ốp lưng, pin dự phòng,…
Thông qua sự tương tác này họ sẽ có các thông tin về nhu cầu sở thích của bạn để giúp
học tăng lợi nhuận.
g. Sự hiểu biết và tối ưu hóa quy trình kinh doanh
Dữ liệu lớn cũng ngày càng được sử dụng để tối ưu hóa quy trình kinh doanh. Các nhà
bán lẻ có thể tối ưu hóa giá cả và lượng hàng hóa của họ dựa trên các dự đoán được
tạo ra từ dữ liệu phương tiện truyền thông xã hội, xu hướng tìm kiếm web và dự báo
thời tiết. Một quy trình kinh doanh với rất nhiều phân tích dữ liệu lớn là chuỗi cung
ứng hoặc cung cấp lộ trình tối ưu hóa. Ở đây, cảm biến nhận dạng tần số vô tuyến định
vị và địa lý được sử dụng để theo dõi hàng hóa, phương tiện giao hàng và các tuyến
đường tối ưu bằng cách tích hợp dữ liệu giao thông trực tiếp.
Lĩnh vực nhân sự cũng đang được cải thiện bằng cách sử dụng phân tích dữ liệu lớn.
Điều này bao gồm việc tối ưu hóa của việc „săn‟ tài năng, cũng như đánh giá nền văn
hóa công ty và sự tham gia của nhân viên trong việc sử dụng công cụ dữ liệu lớn.
h. Định lượng cá nhân và tối ưu hóa hiệu suất
Dữ liệu lớn không chỉ dành cho các công ty và chính phủ mà còn cho từng cá nhân.

Ngày nay chúng ta có thể được hưởng lợi từ dữ liệu được tạo ra từ các thiết bị đeo như
đồng hồ thông minh hoặc vòng đeo tay thông minh.
Lấy sợi dây Up của Jawbone làm ví dụ: Sợi dây thu thập dữ liệu về việc tiêu thụ calo
của chúng ta, mức độ hoạt động, và mô hình giấc ngủ. Ngoài việc mang lại cho cá
nhân những hiểu biết phong phú, giá trị hơn cả là trong việc phân tích các dữ liệu thu
thập được.
Phân tích khối lượng dữ liệu lớn này sẽ mang lại cái nhìn hoàn toàn mới để phản hồi
cho người dùng cá nhân. Các lĩnh vực khác, nơi mà chúng ta được hưởng lợi từ phân
tích dữ liệu lớn chính là việc tìm kiếm tình yêu trực tuyến. Các trang web hẹn hò trực
tuyến lớn nhất đang áp dụng công cụ dữ liệu lớn và các thuật toán để tìm thấy người

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 15


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

phù hợp nhất cho chúng ta.
i.

Cải thiện chăm sóc sức khỏe và y tế công
Dữ liệu lớn còn được áp dụng trong y khoa.
Chẳng hạn như việc giám sát chăm sóc sức
khỏe của trẻ sơ sinh. Kỹ thuật này giúp cho
ta ghi lại và phân tích nhịp tim hơi thể của
của từng bé. Thông qua đó mà có thể đưa ra
cách chăm sóc tốt nhất cho mỗi bé.Hơn nữa,
phân tích dữ liệu lớn cho phép chúng ta theo


dõi, dự đoán sự phát triển của dịch bệnh và sự bùng phát dịch bệnh. Tích hợp dữ liệu
từ hồ sơ y tế với phân tích phương tiện truyền thông xã hội cho phép chúng ta giám sát
dịch cúm trong thời gian thực, chỉ đơn giản bằng cách lắng nghe những gì mọi người
đang đề cấp đến, ví dụ như: “Cảm giác như người thừa hôm nay – trên giường với
bệnh cảm lạnh”.
j.

Cải thiện hiệu suất thể thao

Hầu hết các môn thể thao hiện đại đều áp dụng phân tích dữ liệu lớn. Chúng ta có công
cụ SlamTracker của IBM dành cho các giải đấu quần vợt. Chúng ta sử dụng phân tích
video để theo dõi hiệu suất của mỗi cầu thủ trong bóng đá hoặc bóng chày, và công
nghệ cảm biến trong các thiết bị thể thao như bóng rổ hay các câu lạc bộ golf cho phép
chúng ta có được thông tin phản hồi (thông qua điện thoại thông minh và các máy
chủ điện toán đám mây) về hiệu suất thi đấu của mình và làm thế nào để cải thiện nó.
Nhiều đội thể thao có tiếng còn theo dõi các vận động viên bên ngoài của môi trường
thể thao, như sử dụng công nghệ thông minh để theo dõi chế độ dinh dưỡng và giấc
ngủ, cũng như các cuộc hội thoại truyền thông xã hội để nhận biết tâm tư, tình cảm.

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 16


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 17



Bài thu hoạch môn Giới thiệu ngành - IT009.H11

4. Phân tích bài toán Big Data

a. Top 10 thuật toán khai thác dữ liệu được dùng trong lĩnh vực Bigdata


1. C4.5



2. k-means



3. Support vector machines



4. Apriori



5. EM



6. PageRank




7. AdaBoost



8. kNN



9. Naive Bayes



10. CART

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 18


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

b. Phân tích sơ lược về thuật toán Cây quyết định C4.5
Định nghĩa: Cây quyết định là biểu đồ quyết định phát triển có cấu trúc dạng
cây:





Gốc: Node trên cùng cây.
Node trong: biểu diễn 1 kiểm tra
hoặc 1 thuộc tính đơn




Gốc

Node lá: biểu diễn lớp.

Node Trong

NodeL
á

Nhánh

Nhánh: Kết quả kiểm tra của node
trên

NodeL

NodeL

á

á

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ


Trang 19


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

Ví dụ cây quyết định



Xây dựng cây quyết định gồm 2 bước:

– Phát triển cây quyết định: đi từ gốc, đến các nhánh, phát triển quy nạp theo
hình thức chia để trị.




Chọn thuộc tính “tốt” nhất bằng một độ đo đã định trước
Phát triển cây bằng việc thêm các nhánh tương ứng với từng giá trị
của thuộc tính đã chọn





Sắp xếp, phân chia tập dữ liệu đào tạo tới node con
Nếu các ví dụ được phân lớp rõ ràng thì dừng.
Ngược lại: lặp lại bước 1 tới bước 4 cho từng node con


– Cắt tỉa cây: nhằm đơn giản hóa, khái quát hóa cây, tăng độ chính xác



VD: thuật toán Hunt sử dụng trong C4.5, CDP...





S={S1,S2,…,Sn} là tập dữ liệu đào tạo
C={C1,C2,…,Cm} là tập các lớp
TH1: Si (i=1…n) thuộc về Cj => Cây quyết định là 1 lá ứng
Cj.





TH2: S thuộc về nhiều lớp trong C.

Chọn 1 test trên thuộc tính đơn có nhiều giá trị O={O1,..Ok} (k
thường bằng 2).



Test từ gốc của cây, mỗi Oi tạo thành 1 nhánh, chia S thành các tập
con có giá trị thuộc tính = Oi. Đệ quy cho từng tập con => cây

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ


Trang 20


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

quyết định gồm nhiều nhánh, mỗi nhánh tương ứng với Oi.



Điểm mạnh của cây quyết định:









Sinh ra các quy tắc hiểu được: chuyển đổi được sang tiếng Anh hoặc SQL.
Thực thi trong lĩnh vực hướng quy tắc.
Dễ dàng tính toán trong khi phân lớp.
Xử lý với thuộc tính liên tục và rời rạc.
Thể hiện rõ ràng những thuộc tính tốt nhất: phân chia dữ liệu từ gốc.

Điểm yếu của cây quyết định:




Dễ xảy ra lỗi khi có nhiều lớp: do chỉ thao tác với các lớp có giá trị dạng
nhị phân.



Chi phí tính toán đắt để học: do phải đi qua nhiều node để đến node lá cuối
cùng




Là sự phát triển từ CLS và ID3.
ID3 (Quinlan, 1979)- 1 hệ thống đơn giản ban đầu chứa khoảng 600 dòng lệnh
Pascal






Năm 1993, J. Ross Quinlan phát triển thành C4.5 với 9000 dòng lệnh C.
Hiện tại: phiên bản See5/C5.0.
Tư tưởng thuật toán: Hunt, chiến lược phát triển theo độ sâu.
Pseudocode:




Kiểm tra case cơ bản
Với mỗi thuộc tính A tìm thông tin nhờ việc tách thuộc tính A


Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 21


Bài thu hoạch môn Giới thiệu ngành - IT009.H11



Chọn a_best là thuộc tính mà độ đo lựa chọn thuộc
tính “tốt nhất”




Dùng a_best làm thuộc tính cho node chia cắt cây.
Đệ quy trên các danh sách phụ được tạo ra bởi việc phân chia theo a_best,
và thêm các node này như là con của node

Với những đặc điểm C4.5 là thuật toán phân lớp dữ liệu dựa trên cây quyết định hiệu
quả và phổ biến trong những ứng dụng khai phá cơ sở dữ liệu có kích thước nhỏ. C4.5
sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chính đặc điểm này làm C4.5
chỉ thích hợp với những cơ sở dữ liệu nhỏ, và cơ chế sắp xếp lại dữ liệu tại mỗi node
trong quá trình phát triển cây quyết định. C4.5 còn chứa một kỹ thuật cho phép biểu
diễn lại cây quyết định dưới dạng một danh sách sắp thứ tự các luật if-then (một dạng
quy tắc phân lớp dễ hiểu). Kỹ thuật này cho phép làm giảm bớt kích thước tập luật và
đơn giản hóa các luật mà độ chính xác so với nhánh tương ứng cây quyết định là tương
đương.
Tư tưởng phát triển cây quyết định của C4.5 là phương pháp Hunt đã nghiên cứu

ở trên. Chiến lược phát triển theo độ sâu (depth-first strategy) được áp dụng cho C4.5.

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 22


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

c. Mã giả của thuật toán C4.5:

(1) ComputerClassFrequency(T);
(2) if OneClass or FewCases
return a leaf;
Create a decision node N;
(3) ForEach Attribute A
ComputeGain(A);
(4) N.test=AttributeWithBestGain;
(5) if (N.test is continuous)
find Threshold;
(6) ForEach T' in the splitting of T
(7) If ( T' is Empty )
Child of N is a leaf
else
(8) Child of N=FormTree(T');
(9) ComputeErrors of N;
return N
C4.5 có những đặc điểm khác với các thuật toán khác, đó là: cơ chế chọn
thuộc tính để kiểm tra tại mỗi node, cơ chế xử lý với những giá trị thiếu,
việc tránh “quá vừa” dữ liệu, ước lượng độ chính xác và cơ chế cắt tỉa

cây.



Chuyển đổi sang luật: cắt tỉa cây



Dạng luật: if A and B and C… then class X. Không thỏa mãn
điều kiện chuyển về lớp mặc định.





Xây dựng luật: 4 bước

Mỗi đường đi từ gốc đến lá là một luật mẫu. Đơn giản luật mẫu

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 23


Bài thu hoạch môn Giới thiệu ngành - IT009.H11

bằng cách bỏ dần điều kiện mà không ảnh hưởng tới độ chính xác
của luật.




Các luật đã cắt tỉa được nhóm lại theo giá trị phân lớp tạo ra các tập
con. Với mỗi tập con, xem xét để lựa chọn luật để tối ưu hóa độ
chính xác dự đoán của lớp gắn với tập luật đó.



Sắp xếp các tập luật trên theo tần số lỗi. Lớp mặc định được tạo ra
bằng cách xác định các case trong tập S không chứa trong các luật
hiện tại và chọn lớp phổ biến nhất trong các case đó làm lớp mặc
định.



Ước lượng đánh giá: các luật được ước lượng trên toàn tập S, loại
bỏ luật làm giảm độ chính xác của sự phân lớp.

– Hoàn thành: 1 tập các quy tắc đơn giản được lựa chọn cho mỗi lớp



Đặc điểm C4.5:

– Chiếm thời gian sử dụng CPU và bộ nhớ lớn:



VD: với 10k tới 100k case, tạo cây quyết định tăng từ 1,4s lên 61s, tạo
luật tăng từ 32s lên 9,715s.


– Sử dụng cơ chế lưu dữ liệu thường trú trong bộ nhớ => ứng dụng với
database nhỏ ( tần số lỗi lặp lại 4% với database 20000 cases).

– Có cơ chế xử lý thiếu, lỗi hoặc quá vừa dữ liệu.
– Luật tạo ra đơn giản.
• Ứng dụng vào bài toán phân lớp dữ liệu:
– Bước 1 (Học): xây dựng mô hình mô tả tập dữ liệu; khái niệm đã biết

Nguyễn Văn Toàn - Phạm Quang Toàn - Phan Minh Toàn - Võ Văn Thơ

Trang 24


×