Tải bản đầy đủ (.doc) (34 trang)

ĐỒ ÁN CƠ SỞ/ CHUYÊN NGÀNH TÌM HIỂU DỮ LIỆU LỚN (BIG DATA)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (969.72 KB, 34 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CƠNG NGHỆ THƠNG TIN

ĐỒ ÁN CƠ SỞ/ CHUN NGÀNH

TÌM HIỂU DỮ LIỆU LỚN
(BIG DATA)

Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ
Sinh viên thực hiện: TRẦN ĐĂNG DIỆP
MSSV:
2000006366
Chuyên ngành:
Khoa học dữ liệu
Mơn học:
Đồ án cơ sở Khoa học dữ liệu
Khóa:
2020

Tp.HCM, tháng 07 năm 2022


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH
KHOA CÔNG NGHỆ THÔNG TIN


ĐỒ ÁN CƠ SỞ/ CHUYÊN NGÀNH

TÌM HIỂU DỮ LIỆU LỚN
(BIG DATA)

Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ
Sinh viên thực hiện: TRẦN ĐĂNG DIỆP
MSSV:
2000006366
Chuyên ngành:
Khoa học dữ liệu
Môn học:
Đồ án cơ sở Khoa học dữ liệu
Khóa:
2020

Tp.HCM, tháng 07 năm 2022
Châu Thiên Bảo – Trần Đăng Diệp

Trang 2


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

Trường Đại học Nguyễn Tất Thành

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Khoa Cơng Nghệ Thông Tin


Độc lập – Tự do – Hạnh phúc

   

   

NHIỆM VỤ ĐỒ ÁN CHUYÊN NGÀNH/CƠ SỞ
Họ và tên: Trần Đăng Diệp.................................................MSSV: 2000005640...............

Chuyên ngành: KHOA HỌC DỮ LIỆU.............................Lớp: 20DTH2A......................
Email: ĐT: 11111111........................
Tên đề tài: Tìm hiểu Dữ liệu lớn (Big Data)
.........................................................................................................................................
Gíao viên hướng dẫn: Vương Xuân Chí
.........................................................................................................................................
Thời gian thực hiện: 20/06/2022 đến 20/09/2022

-

Nhiệm vụ/nội dung:
- CHƯƠNG 1: Giới thiệu Big Data
- CHƯƠNG 2: Sức mạnh Big Data
- CHƯƠNG 3: Cơ sở hạ tầng IT để hỗ trợ big data và cơ hội nghề nghiệp
- CHƯƠNG 4: Các cơng nghệ đặc biệt dành cho Big data
Có kiến thức, đam mê, hiểu biết về công nghệ mới như Mạng neural, Machine Learning,

Deep Learning…. Đọc hiểu tài liệu tiếng Anh, kỹ năng trình bày văn bản trên máy tính tốt.
- Có tác phong làm việc chăm chỉ, tinh thần trách nhiệm cao, có khả năng làm việc độc lập
hoặc làm việc trong nhóm tốt.
Nội dung và yêu cầu đã được thơng qua Bộ mơn.


TP.HCM, ngày
TRƯỞNG BỘ MƠN
(Ký và ghi rõ họ tên)

tháng

năm

GIÁO VIÊN HƯỚNG DẪN
(Ký và ghi rõ họ tên)

Châu Thiên Bảo – Trần Đăng Diệp

Trang 3


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

LỜI CẢM ƠN

Đầu tiên xin cảm ơn thầy Vương Xn Chí bộ mơn Lập trình
Web đã dẫn dắt và hướng dẫn, trang bị cho sinh viên chúng em
những kiến thức, những kinh nghiệm quý báu mà các thầy đã
trải qua và truyền đạt lại trong suốt kỳ vừa qua. Và chúng em
cũng cảm ơn Trường Đại học Nguyễn Tất Thành đã đưa bộ mơn
Lập trình Web này vào chương trình giảng dạy.
Có thể những kiến thức và kỹ năng của chúng em không được
tốt và đồ án làm ra không được như mong muốn và có nhiều sai
sót nên mong các thầy cơ xem xét và góp ý để giúp cho báo cáo

của chúng em ngày càng được hoàn thiện và tốt hơn

Em xin cảm ơn rất nhiều ạ!

Châu Thiên Bảo – Trần Đăng Diệp

Trang 4


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

LỜI MỞ ĐẦU

Chúng ta đang sống trong một thời đại mới, thời đại phát
triển rực rỡ của Công nghệ thông tin. CNTT đã ở một bước phát
triển cao đó là số hóa tất cả các dữ liệu thông tin, luân chuyển
mạnh mẽ và kết nối tất cả chúng ta lại với nhau. Mọi loại thông
tin, số liệu âm thanh, hình ảnh có thể được đưa về dạng kỹ thuật
số để bất kỳ máy tính nào cũng có thể lưu trữ, xử lý và chuyển
tiếp cho nhiều người. Nhu cầu lưu trữ ngày càng tăng lên thêm
vào đó là sự phát triển mạnh mẽ về lưu lượng ổ cứng. Hằng
ngày lượng thông tin được lưu trữ tăng lên một cách chóng mặt.
Vấn đề đặt ra là với một khối lượng dữ liệu lớn như thế làm sao
chúng ta có thể khai thác và nó có thực sự cần thiết? Và tháng 8
năm 2015, Big Data đã vượt ra khỏi bảng xếp hạng những công
nghệ mới nổi Cycle Hype của Gartner và tạo một tiếng vang lớn
cho xu hướng công nghệ của thế giới.
Bài viết này sẽ giúp chúng ta hiểu rõ khái niệm của Big
Data, những nguồn tạo ra Big Data, tầm quan trọng của nó vào
các lĩnh vực đời sống, và chương cuối ta sẽ có một vài phân tích

về Big Data và tương lai rộng mở của nó

Châu Thiên Bảo – Trần Đăng Diệp

Trang 5


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN

.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
.......................................................................................................
Điểm đồ án: ......................................................................................

.......................................................................................................
.......................................................................................................
.......................................................................................................
TPHCM, Ngày …… tháng …… năm

Giáo viên hướng dẫn
(Ký tên, đóng dấu)
Châu Thiên Bảo – Trần Đăng Diệp

Trang 6


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

MỤC LỤC
Em xin cảm ơn rất nhiều ạ!................................................................................................4
LỜI MỞ ĐẦU.................................................................................................................... 5
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN.............................................................6
CHƯƠNG I: GIỚI THIỆU BIG DATA..............................................................................9
I. Định nghĩa về Big Data...............................................................................................................................9

1.1. Volume (Số lượng lưu trữ).........................................................................................10
1.2. Velocity (Tốc độ xử lý)..............................................................................................11
1.3. Veriety (Đa dạng chủng loại).....................................................................................11
1.4. Veracity (Độ chính xác).............................................................................................11
II. Những nguồn chính tạo ra big data.......................................................................................................11
III. Vì sao Big Data nằm trong năm xu hướng trọng điểm ngành công nghệ thông tin............................13

CHƯƠNG II: SỨC MẠNH BIG DATA...........................................................................14
I. Big Data quan trọng như thế nào?..........................................................................................................14
II. Ứng dụng Big Data trong đời sống.........................................................................................................14

2.1. Ứng dụng của Big Data trong khoa học va nghiên cứu như :....................................14
2.2. Ứng dụng của Big Data trong tối ưu hóa hiệu suất và thiết bị:..................................16
2.3. Ứng dụng của Big Data trong cải thiện an ninh và thực thi pháp luật:......................17

2.4. Ứng dụng Big Data trong cải thiện và tối ưu hóa các thành phố quốc gia:................18
2.5. Ứng dụng Big Data trong kinh doanh tài chính:........................................................19
2.6. Sự hiểu biết và khách hàng mục tiêu (Internet, Mobile và Digital Marketing)..........21
2.7 .Sự hiểu biết và tối ưu hóa quy trình kinh doanh........................................................22
2.8 Định lượng cá nhân và tối ưu hóa hiệu suất................................................................22
2.9 Cải thiện chăm sóc sức khỏe và y tế công cộng..........................................................23
2.10 Cải thiện hiệu suất thể thao......................................................................................23
CHƯƠNG III: CƠ SỞ HẠ TẦNG HỖ TRỢ BIG DATA VÀ CƠ HỘI NGHỀ NGHIỆP.24
I, Cơ sở hạ tầng IT để hỗ trợ big data.........................................................................................................24
II,Cơ hội nghề nghiệp với Big Data.............................................................................................................25
III:Data Scientist trong ngành nói gì?.........................................................................................................27

CHƯƠNG IV: CÁC CƠNG NGHỆ ĐẶC BIỆT DÀNH CHO BIG DATA......................28
1.Hệ sinh thái Hadoop......................................................................................................28
Châu Thiên Bảo – Trần Đăng Diệp

Trang 7


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

2.Apache Spark................................................................................................................29
3 .Apache Storm...............................................................................................................29
4.Apache Cassandra.........................................................................................................29
5. MongoDB..................................................................................................................... 29
6.R Programming ............................................................................................................30
8.RapidMiner...................................................................................................................31
9.Data lakes...................................................................................................................... 31
10.NoSQL Databases.......................................................................................................32
11.In-memory databases...................................................................................................32

12.Các kĩ năng Big data...................................................................................................32
KẾT LUẬN....................................................................Error: Reference source not found
TÀI LIỆU THAM KHẢO..............................................Error: Reference source not found

DANH MỤC CÁC BẢNG HÌNH
1. Mơ hình về Big Data......................................................................................................9
2. Máy gia tốc hạt lớn của Pháp-Thụy Sĩ.........................................................................14
3. Siêu máy tính Teraflop.................................................................................................15
Châu Thiên Bảo – Trần Đăng Diệp

Trang 8


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

4. Ứng dụng Big Data vào mơ hình thành phố thơng minh..............................................18
5. Ứng dụng của Big Data vào mơ hình tài chính.............................................................19
6. Ứng dụng Big Data vào mơ hình chứng khống..........................................................20
7. Mơ hình về Big Data....................................................................................................23
8. Nghề nghiệp đối với lĩnh vực Big Data........................................................................24
9. Big data........................................................................................................................27

CHƯƠNG I: GIỚI THIỆU BIG DATA
I. Định nghĩa về Big Data
Châu Thiên Bảo – Trần Đăng Diệp

Trang 9


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)


Trên thế giới có nhiều định nghĩa về Big Data. Vào năm 2001, nhà phân tích Doug
Laney của hãng META Group (bây giờ chính là cơng ty nghiên cứu Gartner) đã nói rằng
những thách thức và cơ hội nằm trong việc tăng trưởng dữ liệu có thể được mơ tả bằng ba
chiều “3V”: tăng về số lượng lưu trữ (volume), tăng về tốc độ xử lý (velocity) và tăng về
chủng loại (variety). Giờ đây, Gartner cùng với nhiều công ty và tổ chức khác trong lĩnh
vực công nghệ thông tin tiếp tục sử dụng mô hình “3V” này để định nghĩa nên Big Data.
Đến năm 2012, Gartner bổ sung thêm rằng Big Data ngoài ba tính chất trên thì cịn phải
“cần đến các dạng xử lí mới để giúp đỡ việc đưa ra quyết định, khám phá sâu vào sự
vật/sự việc và tối ưu hóa các quy trình làm việc”.

Hình 1: Mơ hình về Big Data

Sau đây là khái niệm mới về Big Data trong thời đại ngày nay, dựa trên biểu đồ ta
thấy ở trên có thể chia ra năm tính chất quan trọng nói về Big Data:
1.1. Volume (Số lượng lưu trữ)
Big Data (Dữ liệu lớn) là tập hợp dữ liệu có dung lượng lưu trữ vượt mức đảm
đương của những ứng dụng và cơng cụ truyền thống. Kích cỡ của Big Data đang từng
ngày tăng lên, và nó có thể nằm trong khoảng vài chục terabyte cho đến nhiều petabyte (1
petabyte = 1024 terabyte), thậm chí cao hơn nhất nhiều, chỉ cho một tập hợp dữ liệu.
Châu Thiên Bảo – Trần Đăng Diệp

Trang 10


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

1.2. Velocity (Tốc độ xử lý)
Dung lượng gia tăng của dữ liệu rất nhanh và tốc độ xử lý đang tiến tới real-time.
Các ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân

sự, Y tế – Sức khỏe ngày hôm nay phần lớn dữ liệu lớn được xử lý ở thời gian thực. Công
nghệ xử lý dữ liệu lớn ngày một tiên tiến cho phép chúng ta xử lý tức thì trước khi chúng
được lưu trữ vào cơ sở dữ liệu.
1.3. Veriety (Đa dạng chủng loại)
Hình thức lưu trữ và chủng loại dữ liệu ngày một đa dạng hơn. Trước đây chúng ta
hay nói đến dữ liệu có cấu trúc thì ngày nay hơn 80% dữ liệu trên thế giới được sinh ra là
phi cấu trúc (tài liệu, blog, hình ảnh, video, voice v.v.). Công nghệ Big Data cho phép
chúng ta ngày nay liên kết và phân tích đa dạng chủng loại dữ liệu với nhau như
comments/post của một nhóm người dùng nào đó trên Facebook với thơng tin video được
chia sẻ từ Youtube và Twitter.
1.4. Veracity (Độ chính xác)
Một trong những tính chất phức tạp nhất của Big Data là độ chính xác của dữ liệu.
Với xu hướng Social Media và Social Network ngày nay và sự gia tăng mạnh mẽ tính
tương tác và chia sẻ của người dùng di động làm cho bức tranh xác định về độ tin cậy và
chính xác của dữ liệu ngày một khó khăn hơn. Bài tốn phân tích và loại bỏ dữ liệu thiếu
chính xác và nhiễu đang là tính chất quan trọng của Big Data.
1.5. Value (Giá trị thông tin)
Giá trị thơng tin là tính chất quan trọng nhất của xu hướng công nghệ Big Data. Ở đây
doanh nghiệp phải hoạch định được những giá trị thơng tin hữu ích của Big Data cho vấn
đề, bài tốn hoặc mơ hình hoạt động kinh doanh của mình. Có thể nói việc đầu tiên là
phải xác định được tính chất “Value” thì mới nên bắt tay vào BigData.

II. Những nguồn chính tạo ra big data

Châu Thiên Bảo – Trần Đăng Diệp

Trang 11


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)


-

Hộp đen dữ liệu: đây là dữ liệu được tạo ra bởi máy bay, bao gồm máy bay phản

lực và trực thăng. Hộp đen dữ liệu này bao gồm thông tin tạo ra bởi giọng nói của phi
hành đồn, các bản thu âm và thơng tin về chuyến bay.
-

Dữ liệu từ các kênh truyền thông xã hội: Đây là dữ liệu được tạo ra và phát triển

bởi như các trang web truyền thông xã hội như Twitter, Facebook, Instagram, Pinterest và
Google+.
-

Dữ liệu giao dịch chứng khoán: Đây là số liệu từ thị trường chứng khoán đối với

quyết định mua và bán cổ phiếu được thực hiện bởi khách hàng.
-

Dữ liệu điện lực: đây là dữ liệu tạo ra bởi điện lực. Nó bao gồm các thông tin cụ thể

từ các điểm giao nhau của các nút thông tin sử dụng.
-

Dữ liệu giao thông: dữ liệu này bao gồm sức chưa và các mẫu phương tiện giao

thông, độ sẵn sàng và khoảng cách đã đi được của từng phương tiện giao thông.
-


Dữ liệu các thiết bị tìm kiếm: đây là dữ liệu được tạo ra từ các cơng cụ tìm kiếm và

đây cũng là nguồn dữ liệu lớn nhất của Big Data. Cơng cụ tìm kiếm có cơ sở dữ liệu cực
kỳ rộng lớn, nơi họ có thể tìm thấy dữ liệu họ cần.
-

Một chun gia về Big Data và phân tích Big Data, đã đưa ra danh sách 20 nguồn

Big Data uy tín mà mọi người có thể truy cập miễn phí trên trang web. Dưới đây là một
số ví dụ:
• Data.gov – nơi mà mọi người được phép tự do truy cập tất cả các dữ liệu của
Chính phủ Mỹ bao gồm các thơng tin khác nhau, từ khí hậu đến tội phạm đang
giam giữ.
• Data.gov.uk – nơi tương tự của Chính phủ Anh. Tại đây, mọi người có thể tập hợp
được siêu dữ liệu trên tất cả các sách và các ấn phẩm của Anh kể từ năm 1950.
• Ngồi ra cịn có Cục Điều tra Dân số Mỹ, bao gồm các thông tin có giá trị như dân
số, địa lý và dữ liệu khác. Tương tự là kho dữ liệu mở Liên minh châu Âu, bao
gồm các dữ liệu điều tra dân số của các tổ chức Liên minh châu Âu.

Châu Thiên Bảo – Trần Đăng Diệp

Trang 12


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

• Và một thứ yêu thích của chúng ta đó là Facebook. Những biểu đồ của FB cung
cấp cho chúng ta các thông tin và giao diện các ứng dụng, sau khi truy cập các
thông tin cơng khai được cung cấp bởi người sử dụng.
• Trong lĩnh vực y tế, đó là Healthdata.gov của Mỹ và Trung tâm Thơng tin chăm

sóc Y tế và xã hội NHS, từ Anh.

III. Vì sao Big Data nằm trong năm xu hướng trọng điểm ngành công nghệ
thông tin
- Nhà bán lẻ online Amazon.com thì phải xử lí hàng triệu hoạt động mỗi ngày cũng như
những yêu cầu từ khoảng nửa triệu đối tác bán hàng. Amazon sử dụng một hệ thống
Linux và hồi năm 2005, họ từng sở hữu ba cơ sở dữ liệu Linux lớn nhất thế giới với dung
lượng là 7,8TB, 18,5TB và 24,7TB.
-

Tương tự, Facebook cũng phải quản lí 50 tỉ bức ảnh từ người dùng tải lên, YouTube

hay Google thì phải lưu lại hết các lượt truy vấn và video của người dùng cùng nhiều loại
thơng tin khác có liên quan.
-

Dịch vụ thẻ VISA xử lí hơn 172.800.000 giao dịch thẻ chỉ trong vịng một ngày.

-

Trên Twitter có 500 triệu dịng tweet mới mỗi ngày, Facebook thì có 1,15 tỉ thành

viên tạo ra một mớ khổng lồ dữ liệu văn bản, tập tin, video…
 Nhu cầu xử lý, tìm kiếm, khai thác thơng tin, đánh giá, tiên đoán một cách
khách quan xu thế thị trường từ đó đưa ra chiến lược đúng đắn.

Châu Thiên Bảo – Trần Đăng Diệp

Trang 13



Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

CHƯƠNG II: SỨC MẠNH BIG DATA
I. Big Data quan trọng như thế nào?
-

Big data là công nghệ thu thập thông tin quy mô lớn từ các website. Các doanh

nghiệp thường vận dụng công cụ này nhằm phục vụ cơng việc dự đốn xu hướng thị
trường, nâng cao chất lượng sản phẩm hoặc dịch vụ hiện có, tạo ra sản phẩm mới hoặc
tìm hiểu về hành vi khách hàng
-

Phân tích dữ liệu cũng có thể giúp các doanh nghiệp thích nghi, tạo ra nội dung

website thu hút nhiều khách hàng hơn, có được cái nhìn sâu sắc vào hành vi mua hàng.
Dữ liệu càng nhiều thì càng tốt cho công ty. Để làm được như vậy, doanh nghiệp nên
cung cấp nội dung trên nhiều nền tảng Social media, nhằm thu thập được nhiều thông tin
từ những điểm tiếp xúc với khách hàng.
-

Bằng cách tìm hiểu qua hệ thống cơ sở dữ liệu, cơng ty có thể tạo ra nội dung có

liên quan hơn với người đọc.

II. Ứng dụng Big Data trong đời sống
2.1. Ứng dụng của Big Data trong khoa học va nghiên cứu như :
- Khoa học và nghiên cứu hiện đang biến đổi rất nhanh bởi các khả năng mới mà dữ liệu
lớn mang lại. Lấy ví dụ, CERN, phịng thí nghiệm vật lý hạt nhân Thụy Sĩ với chiếc máy

gia tốc hạt lớn nhất và mạnh nhất thế giới, Large Hadron Collider. Với những thí nghiệm
để mở khóa những bí mật của vũ trụ, cách hình thành và vận hành ra sao, đã tạo ra một
lượng lớn dữ liệu.
- Trong Y học: giải mã gen.
- Trong vật lý: các dụng cụ giám sát khoa học như máy gia tốc hạt lớn của CERN(tổ
chức nghiên cứu nguyên tử châu Âu) tạo ra 40 terabyte dữ liệu trong 1 gây .
- Trong toán học : chế tạo các siêu máy tính để giải quyết các bài tốn mà con người
khơng thể giải quyết được.
==> Trong Y học: Big Data đã ghi điểm trong lĩnh vực Y học vào năm 2009 khi Google
đã sử dụng dữ liệu Big Data của mình để phân tích và dự đoán xu hướng ảnh hưởng, lan
Châu Thiên Bảo – Trần Đăng Diệp

Trang 14


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

truyền của dịch cúm H1N1. Dịch vụ này có tên là Google Flu Trends. Với sự phát triển
của công nghệ thông tin giúp mọi người chúng ta tiếp xúc được với những sự tiên tiến
của khoa học nhằm nâng cao sức khỏe con người.
- Nhưng đó chưa phải tất cả, tiềm năng lớn nhất của Big Data đối với y học chính là là
khả năng áp dụng vào q trình phân tích gen, giúp phân tích trình tự bộ gen người trong
một vài giờ, thay vì tới hàng tuần như trước kia.
- Big Data chính là sự bổ sung cần thiết cho nền y học hiện đại và chúng ta đang
chứng kiến sự thay đổi bước ngoặt. Giải mã trình tự gen là một cách rất tốt để theo dõi
một dải rộng gen để từ đó đưa ra những nhận định về nguyên nhân từng loại bệnh và tiến
hành đánh giá rủi ro, phát hiện sớm hoặc dự đốn khả năng tái phát. Cơng nghệ này cũng
có thể được sử dụng để đưa ra những phương pháp trị liệu và hướng điều trị phù hợp với
từng bệnh nhân.
==> Trong vật lý: Máy gia tốc hạt lớn được chế tạo bởi Tổ chức nghiên cứu hạt nhân

châu Âu (CERN), nằm bên dưới mặt đất tại biên giới Pháp-Thụy Sĩ giữa núi Jura và dãy
Alps gần Genève, Thụy Sĩ.

Hình 2: Máy gia tốc hạt lớn của Pháp-Thụy Sĩ

Châu Thiên Bảo – Trần Đăng Diệp

Trang 15


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

- Các trung tâm của CERN có 65.000 bộ vi xử lý để phân tích 30 petabyte dữ liệu. Tuy
nhiên nó sử dụng quyền tính tốn của hàng ngàn máy tính phân phối tại 150 trung tâm
dữ liệu trên tồn thế giới để phân tích. Quyền hạn tính tốn như vậy có thể được thừa
hưởng và làm thay đổi nhiều lĩnh vực khoa học nghiên cứu .
- Trong tốn học: Siêu máy tính giúp con người chúng ta thực hiện được các bài tốn
khó mà con người khơng thể nào làm được.
- Siêu máy tính hiện nay có tốc độ xử lý hàng nghìn teraflop (một teraflop tương đương
với hiệu suất một nghìn tỷ phép tính/giây) hay bằng tổng hiệu suất của 6.000 chiếc máy
tính hiện đại nhất hiện nay gộp lại (một máy có tốc độ khoảng từ 3-3,8 gigaflop).

Hình 3: Siêu máy tính Teraflop

2.2. Ứng dụng của Big Data trong tối ưu hóa hiệu suất và thiết bị:
- Phân tích dữ liệu lớn giúp máy móc và thiết bị trở nên thơng minh và độc lập hơn. Ví
dụ, các cơng cụ dữ liệu lớn được sử dụng để vận hành xe hơi tự lái của Google. Toyota
Prius được trang bị máy ảnh, GPS cũng như các máy tính mạnh mẽ và bộ cảm biến để lái
xe an tồn trên đường mà khơng có sự can thiệp của con người. Công cụ dữ liệu lớn cũng
được sử dụng để tối ưu hóa lưới điện năng lượng sử dụng dữ liệu từ công-tơ thông minh.

Chúng ta thậm chí có thể sử dụng cơng cụ dữ liệu lớn để tối ưu hóa hiệu suất của máy
tính và các kho dữ liệu.
Châu Thiên Bảo – Trần Đăng Diệp

Trang 16


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

- Big Data trong tối ưu hóa hiệu suất và thiết bị :
+ Việc tối ưu hóa hiệu suất giúp các thiết bị có thể hoạt động nhanh và hiệu quả hơn trước
kia rất nhiều.Điều này nhằm giúp các thiết bị có thể đáp ứng được các yêu cầu của con
người ngày càng một cao hơn so với trước kia.
+ Trong máy tính việc tối ưu hóa hiệu suất giúp máy tính hoạt động cách trơn tru để đảm
bảo độ ổn định và nhanh nhạy trong việc ngày nay đang diễn ra bùng nổ dữ liệu.Trong
thời đại bùng nổ dữ liệu như ngày nay thì việc tối ưu hóa hiệu suất máy tính và kho dữ
liệu là một thách thức đối với con người chúng ta.
+ Việc tối ưu hóa hiệu suất và thiết bị giúp con người chúng ta có thể tận dụng tối đa
nguồn nguyên liệu để phục vụ đời sống con người nhằm đảm bảo nhu cầu ngày một tăng
cao trong thách thức về vấn đề khang hiếm nguyên liệu hiện nay.
+ Các lĩnh vực mà Big Data trong tối ưu hóa hiếu suất và thiết bị ứng dụng như: Giao
thông vận tải, điện lực, sản xuất, công nghiệp, công nghệ thông tin,….
2.3. Ứng dụng của Big Data trong cải thiện an ninh và thực thi pháp luật:
- Dữ liệu lớn được áp dụng rất nhiều trong việc cải thiện an ninh và cho phép thực thi
pháp luật. Cơ quan An ninh Quốc gia Mỹ (NSA) sử dụng phân tích dữ liệu lớn để chống
âm mưu khủng bố (và có thể gián điệp trên tất cả chúng ta). Các đơn vị khác sử dụng kỹ
thuật dữ liệu lớn để phát hiện và ngăn chặn các cuộc tấn công không gian mạng. Lực
lượng cảnh sát sử dụng các công cụ dữ liệu lớn để bắt tội phạm và thậm chí dự đốn hoạt
động tội phạm, và những cơng ty thẻ tín dụng sử dụng dữ liệu lớn dùng nó để phát hiện
các giao dịch gian lận.

- Các ứng dụng của Big Data trong lĩnh vực cải thiện an ninh và thực thi pháp luật:
+ Phân tích tâm lý tội phạm: Tổng hợp dữ liệu từ các tâm lý phạm tội để đưa ra kết luận
chính xác từ các hành vi tâm lý khác nhau trong từng trường hợp khác nhau.
+ Tội phạm công nghệ cao: Ứng dụng phân lớp và phân cụm dữ liệu trong cơng tác
phịng chống tội phạm trong lĩnh vực này.
+ Khủng bố: Phân tích dữ liệu lớn để phịng chống các âm mưu khủng bố.
Châu Thiên Bảo – Trần Đăng Diệp

Trang 17


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

+ Anh ninh mạng:Phân tích tấn cơng mạng nhằm ứng phó kịp thời trong các cuộc tấn
công mạng.
2.4. Ứng dụng Big Data trong cải thiện và tối ưu hóa các thành phố quốc gia:
Dữ liệu lớn được sử dụng để cải thiện nhiều khía cạnh của các thành phố và quốc gia. Ví
dụ như nó cho phép các thành phố tối ưu hóa luồng giao thông dựa trên thông tin giao
thông trong thời gian thực cũng như dữ liệu trên các phương tiện truyền thông xã hội và
dữ liệu thời tiết. Một số thành phố đang thực hiện thí điểm phân tích dữ liệu lớn với mục
đích biến mình thành thành phố thơng minh, nơi mà cơ sở hạ tầng giao thơng và các quy
trình tiện ích đều được kết nối với nhau. Nơi một chiếc xe buýt sẽ chờ một đoàn tàu đến
trễ và nơi tín hiệu giao thơng dự đốn khối lượng giao thông và hoạt động để giảm thiểu
ùn tắc.
- Ứng dụng chủ yếu của Big Data trong lĩnh vực này là xây dựng thành phố thông minh:
+ Thành phố thông minh là thành phố ứng dụng công nghệ trong việc xây dựng và quản
lý thành phố.

Hình 4: Ứng dụng Big Data vào mơ hình thành phố thơng minh


Châu Thiên Bảo – Trần Đăng Diệp

Trang 18


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

+ Ứng dụng của Big Data trong lĩnh vực này là mọi thú điều được quản lý bằng dữ liệu.
Điều này giúp xây dựng và quản lý thành phố một cách dễ dàng. Tạo sự thuận tiện cho
mọi người khi sống trong thành phố. Từ việc quản lý giao thông bằng công nghệ cho tới
quản lý về con người, kinh tế, văn hóa, giáo dục,…. Sự phát triển này nhằm giảm sức lực
của con người và dần thay bằng cơng nghệ giúp mang lại tính hiệu quả,sự chính xác và sự
nhanh nhạy góp phần giúp thành phố phát triển một cách nhanh chóng.
2.5. Ứng dụng Big Data trong kinh doanh tài chính:
- Thể loại cuối cùng về ứng dụng dữ liệu lớn đến từ các giao dịch tài chính. Tần số giao
dịch cao (HFT) là một lĩnh vực nơi dữ liệu lớn được sử dụng rất nhiều ngày nay. Ở đây,
thuật toán dữ liệu lớn được sử dụng để đưa ra các quyết định giao dịch. Ngày nay, phần
lớn các giao dịch cổ phiếu diễn ra thơng qua các thuật tốn dữ liệu dựa ngày càng nhiều
vào tín hiệu tài khoản từ các mạng truyền thông xã hội và các trang web tin tức để đưa ra
quyết định mua và bán trong từng giây.
- Một số ứng dụng của Big Data trong kinh doanh tài chính:

Châu Thiên Bảo – Trần Đăng Diệp

Trang 19


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

Hình 5: Ứng dụng của Big Data vào mơ hình tài chính


Châu Thiên Bảo – Trần Đăng Diệp

Trang 20


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

Hình 6: Ứng dụng Big Data vào mơ hình chứng khống

+ Phân tích ,xếp hạng rủi ro tín dụng: tổng hợp dữ liệu và phân tích thơng tin về các
khoảng tín dụng để đưa ra xếp hạng về tín dụng.
+ Phân tích thị trường chứng khống,bất động sản: Tổng hợp dữ liệu và phân tích thơng
tin về thị trường chứng khống cũng như bất động sản trong các phiên giao dịch.
+ Phân tích thơng tin khách hàng trong thời gian thực: Xây dựng cơ sở dữ liệu để quản lý
thông tin khách hàng nhằm tránh gian lận trong kinh doanh.
2.6. Sự hiểu biết và khách hàng mục tiêu (Internet, Mobile và Digital
Marketing)
Đây là một trong những lĩnh vực lớn nhất và được công bố công khai nhất cách dữ liệu
lớn được sử dụng ngày nay. Ở đây, dữ liệu lớn được sử dụng để hiểu rõ hơn về khách
hàng và hành vi cũng như sở thích của họ. Nếu để ý một chút, bạn sẽ thấy khi đăng nhập
vào các trang như lazada, thegioididong.com,… để xem hoặc mua một sản phẩm nào đó

Châu Thiên Bảo – Trần Đăng Diệp

Trang 21


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)


thì trang này cũng sẽ đưa ra những sản phẩm gợi ý tiếp theo cho bạn, ví dụ khi xem điện
thoại, nó sẽ gợi ý cho bạn mua thêm ốp lưng, pin dự phịng,…
Thơng qua sự tương tác này họ sẽ có các thơng tin về nhu cầu sở thích của bạn để giúp
học tăng lợi nhuận.
2.7 .Sự hiểu biết và tối ưu hóa quy trình kinh doanh
Dữ liệu lớn cũng ngày càng được sử dụng để tối ưu hóa quy trình kinh doanh. Các nhà
bán lẻ có thể tối ưu hóa giá cả và lượng hàng hóa của họ dựa trên các dự đốn được tạo ra
từ dữ liệu phương tiện truyền thông xã hội, xu hướng tìm kiếm web và dự báo thời tiết.
Một quy trình kinh doanh với rất nhiều phân tích dữ liệu lớn là chuỗi cung ứng hoặc cung
cấp lộ trình tối ưu hóa. Ở đây, cảm biến nhận dạng tần số vô tuyến định vị và địa lý được
sử dụng để theo dõi hàng hóa, phương tiện giao hàng và các tuyến đường tối ưu bằng
cách tích hợp dữ liệu giao thông trực tiếp.
Lĩnh vực nhân sự cũng đang được cải thiện bằng cách sử dụng phân tích dữ liệu lớn. Điều
này bao gồm việc tối ưu hóa của việc săn tài năng, cũng như đánh giá nền văn hóa cơng
ty và sự tham gia của nhân viên trong việc sử dụng công cụ dữ liệu lớn.
2.8 Định lượng cá nhân và tối ưu hóa hiệu suất
Dữ liệu lớn khơng chỉ dành cho các cơng ty và chính phủ mà cịn cho từng cá nhân. Ngày
nay chúng ta có thể được hưởng lợi từ dữ liệu được tạo ra từ các thiết bị đeo như đồng hồ
thông minh hoặc vịng đeo tay thơng minh.
Lấy sợi dây Up của Jawbone làm ví dụ: Sợi dây thu thập dữ liệu về việc tiêu thụ calo của
chúng ta, mức độ hoạt động, và mơ hình giấc ngủ. Ngồi việc mang lại cho cá nhân
những hiểu biết phong phú, giá trị hơn cả là trong việc phân tích các dữ liệu thu thập
được.
Phân tích khối lượng dữ liệu lớn này sẽ mang lại cái nhìn hồn tồn mới để phản hồi cho
người dùng cá nhân. Các lĩnh vực khác, nơi mà chúng ta được hưởng lợi từ phân tích dữ
liệu lớn chính là việc tìm kiếm tình yêu trực tuyến. Các trang web hẹn hò trực tuyến lớn

Châu Thiên Bảo – Trần Đăng Diệp

Trang 22



Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

nhất đang áp dụng công cụ dữ liệu lớn và các thuật tốn để tìm thấy người phù hợp nhất
cho chúng ta.
2.9 Cải thiện chăm sóc sức khỏe và y tế cơng cộng
Dữ liệu lớn còn được áp dụng trong y khoa. Chẳng hạn như việc giám sát chăm sóc sức
khỏe của trẻ sơ sinh. Kỹ thuật này giúp cho ta ghi lại và phân tích nhịp tim hơi thể của
của từng bé. Thơng qua đó mà có thể đưa ra cách chăm sóc tốt nhất cho mỗi bé.Hơn nữa,
phân tích dữ liệu lớn cho phép chúng ta theo dõi, dự đoán sự phát triển của dịch bệnh và
sự bùng phát dịch bệnh. Tích hợp dữ liệu từ hồ sơ y tế với phân tích phương tiện truyền
thông xã hội cho phép chúng ta giám sát dịch cúm trong thời gian thực, chỉ đơn giản bằng
cách lắng nghe những gì mọi người đang đề cấp đến, ví dụ như: “Cảm giác như người
thừa hơm nay – trên giường với bệnh cảm lạnh”.
2.10 Cải thiện hiệu suất thể thao
Hầu hết các môn thể thao hiện đại đều áp dụng phân tích dữ liệu lớn. Chúng ta có cơng
cụ SlamTracker của IBM dành cho các giải đấu quần vợt. Chúng ta sử dụng phân tích
video để theo dõi hiệu suất của mỗi cầu thủ trong bóng đá hoặc bóng chày, và cơng nghệ
cảm biến trong các thiết bị thể thao như bóng rổ hay các câu lạc bộ golf cho phép chúng
ta có được thơng tin phản hồi (thông qua điện thoại thông minh và các máy chủ điện toán
đám mây) về hiệu suất thi đấu của mình và làm thế nào để cải thiện nó. Nhiều đội thể
thao có tiếng cịn theo dõi các vận động viên bên ngồi của mơi trường thể thao, như sử
dụng công nghệ thông minh để theo dõi chế độ dinh dưỡng và giấc ngủ, cũng như các
cuộc hội thoại truyền thơng xã hội để nhận biết tâm tư, tình cảm.

Châu Thiên Bảo – Trần Đăng Diệp

Trang 23



Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)

CHƯƠNG III: CƠ SỞ HẠ TẦNG HỖ TRỢ BIG DATA VÀ CƠ
HỘI NGHỀ NGHIỆP
I, Cơ sở hạ tầng IT để hỗ trợ big data
Đối với khái niệm big data để làm việc, các tổ chức cần phải có cơ sở hạ tầng để thu thập
và chứa dữ liệu, cung cấp quyền truy cập và đảm bảo thơng tin trong khi lưu trữ và
chuyển tiếp.

Hình 7: Mơ hình về Big Data

Ở cấp độ cao, bao gồm hệ thống lưu trữ và máy chủ được thiết kế cho big data, phần
mềm quản lý và tích hợp dữ liệu, thơng tin kinh doanh và phần mềm phân tích dữ liệu, và
các ứng dụng big data.
Phần lớn các cơ sở hạ tầng này sẽ tập trung một chỗ, vì các công ty muốn tiếp tục tận
dụng các khoản đầu tư vào trung tâm dữ liệu của mình. Nhưng ngày càng có nhiều tổ
chức dựa vào các dịch vụ điện toán đám mây để xử lý nhiều yêu cầu big data của họ.
Thu thập dữ liệu địi hỏi phải có nguồn. Rất nhiều trong số những ứng dụng sau đây, như
các ứng dụng web, các kênh truyền thông xã hội, ứng dụng di động và lưu trữ email đã
được cài sẵn.
Nhưng khi IoT trở nên phổ biến hơn, các công ty có thể cần phải triển khai cảm biến trên
tất cả các loại thiết bị, phương tiện và sản phẩm để thu thập dữ liệu, cũng như các ứng

Châu Thiên Bảo – Trần Đăng Diệp

Trang 24


Đồ án cơ sở Khoa học Dữ liệu – Tìm hiểu Dữ liệu lớn (Big Data)


dụng mới tạo ra dữ liệu người dùng. Phân tích dữ liệu theo định hướng IoT có các kỹ
thuật và cơng cụ chun biệt của nó.
Để lưu trữ tất cả các dữ liệu đến, các tổ chức cần phải có đủ dung lượng lưu trữ tại chỗ.
Các tùy chọn lưu trữ bao gồm kho dữ liệu truyền thống, data lakes và lưu trữ trên đám
mây.
Các cơng cụ cơ sở hạ tầng bảo mật có thể bao gồm việc mã hóa dữ liệu, xác thực người
dùng và các điều khiển truy cập khác, hệ thống giám sát, tường lửa, quản lý di động của
doanh nghiệp và các sản phẩm khác để bảo vệ hệ thống và dữ liệu.

II,Cơ hội nghề nghiệp với Big Data

Hình 8: Nghề nghiệp đối với lĩnh vực Big Data

So với nghề Developer nói chung thì tất nhiên là số việc làm liên quan đến Big Data(hay
cịn gọi là Data Scientist) sẽ ít hơn nhiều. Tuy nhiên, bởi vì ít, hiếm nên mức thu nhập
khá ổn. Cơng việc cũng mang lại cái nhìn toàn diện hơn về hoạt động của sản phẩm mà
bạn đang theo làm.
Nghề “làm” Big Data là gì? Là Data Scientist!
Công việc hằng ngày của một Data Scientist
Châu Thiên Bảo – Trần Đăng Diệp

Trang 25


×