BAN CƠ YẾU CHÍNH PHỦ
HỌC VIỆN KỸ THUẬT MẬT MÃ
LỜI NÓI ĐẦU
Cách đây chỉ hơn một thập niên trong căn phòng của các doanh nghiệp hay
trong phòng làm việc riêng, hình ảnh chiếc máy tính bàn cồng kềnh gắn liền với
góc làm việc của mỗi người, mọi dữ liệu đều được lưu trữ trên ổ cứng hay các
đĩa CD.Thì hiện nay với sự ra đời của các ứng dụng và điện toán đám mây ,
cùng với sự bùng nổ của các thiết bị di động, mọi thứ đều được đưa lên hệ
thống lưu trử đám mấy Cloud và khai thác thơng qua các ứng dụng Mobile. Mỗi
cá nhân đều có thể là một đơn vị sản xuất dữ liệu với hàng loạt video, file thông
BÀI TẬP LỚN
tin, file âm thanh được đăng tải trên các kênh thông tin hằng ngày hằng giờ
thậm trí tính bằng giây. Việc số hóa và lưu trữ trên điện toán đám mây này
TÀI:
hiểukhổng
về Biglồ,Data
khiến thế giới sinh ra một ĐỀ
lượng
lớnTìm
dữ liệu
vượt quá khả năng xử lý
của các cơ sở dữ liệu truyền thống. Từ đó xu hướng Big data hay còn gọi là dữ
liệu lớn ra đời để giải quyết các bài toán về lưu trữ và xử lý số liệu. Trong bài
Học
Anhợp
toàn
mạng
báo cáo
nàyPhần:
sẽ tổng
một
số điều cần biết về Big data: lịch sử, khái niệm, đặc
trưng, cấu trúc,… hay làm thế nào để các doanh nghiệp có thể nắm bắt được cơ
hội phát triển lớn từ kho dữ liệu đồ sộ này. Bài báo cáo sẽ cho người đọc cái
nhìn tổng quan về Big data để từ đó có thể vận dụng một cách hợp lý Big data
vào từng lĩnh vựng cụ thể.
MỤC LỤC
Hà Nội, 2020
DANH MỤC BẢNG BIỂU
CHƯƠNG I SỰ CẦN THIẾT NGHIÊN CỨU BIG DATA, KHÁI NIỆM,
ĐẶC TRƯNG VÀ SỰ KHÁC BIỆT CỦA BIG DATA VỚI DỮ LIỆU
TRUYỀN THỐNG
1.1Sự cần thiết nghiên cứu Big data
1.1.1
Sự hình thành big data và nguồn khai thác và quản lý big data
Từ khi biết đến sự tồn tại và phát triển vượt bậc của Big data, nhiều câu hỏi
đã được đặt ra là “Big data đến từ đâu?”. Dưới đây là tổng hợp một số nguồn mà
từ đó dữ liệu sinh ra ngày một tăng để đưa đến khái niệm Big data.
Hình I.1: Sự hình thành BIG DATA
Hiện nay, mỗi ngày con người tạo ra 2.5 quintillion(1030) byte dữ liệu. Khối
lượng dữ liệu mới được tạo ra nhiều và nhanh đến mức mà hai năm gần đây nhất
chiếm đến 90% khối lượng dữ liệu trên thế giới hiện nay. Những dữ liệu lớn này
2
được tạo ra từ nhiều nguồn khác nhau. Hình trên là tổng hợp một số nguồn phát
sinh điển hình:
(1) Dữ liệu được tạo ra từ Social media: tức là dữ liệu được tạo ra từ một mạng xã
hội. Không đơn thuần là mạng xã hội như Facebook, tweeter,… mà nó cịn bao
gồm cả thơng tin trong một cơng ty như mạng lưới nhân viên, khách hàng,…
Một ví dụ minh họa cho nguồn dữ liệu này như tweeter mỗi ngày có 230 triệu
tweets, hay 2.7 triệu comment trên Facebook, đối với trang Youtube có 86400
giờ video được tải lên.
(2) Dữ liệu được tạo ra từ Machine Data: thông tin này được tính bao gồm thơng
tin trong q trình vận hành các máy công nghiệp như dữ liệu sinh ra từ các cảm
biến, thông tin weblog…
(3) Dữ liệu được tạo ra từ các Transations: bao gồm các thông tin về các giao
dịch phát sinh từ khách hàng hay trong các nhà cung cấp và phân phối (sản
phẩm, giá sản phẩm, phương thức thanh tốn,…). Ví dụ điển hình của nguồn dữ
liệu này là dữ liệu của Amazon (ví dụ quý 3 năm 2011 số giao dịch trong hệ
thống đã lên tới 10 tỉ $).
Nguồn gốc khác hình thành Big data: (1)Dữ liệu hành chính (phát sinh từ
chương trình của một tổ chức, có thể là chính phủ hay phi chính phủ). Ví dụ, hồ
sơ ý tế điện tử ở bệnh viện, hồ sơ bảo hiểm, hồ sơ ngân hàng,…; (2)Dữ liệu từ
hoạt động thương mại (phát sinh từ các giao dịch giữa hai thực thể). Ví dụ, các
giao dịch thẻ tín dụng, giao dịch trên mạng, bao gồm các thiết bị di động; (3)Dữ
liệu từ các thiết bị cảm biến như thiết bị cảm biến đường, cảm biến khí hậu, ảnh
chụp vệ tinh,… ; (4)Dữ liệu các thiết bị theo dõi, ví dụ như theo dõi camera giao
thông, theo dõi thiết bị di động, GPS,… ; (5)Dữ liệu từ các hoạt động, ví dụ như
tìm kiếm trực tuyến (mặt hàng, sản phẩm, thông tin,…),… ; (6)Dữ liệu từ các
thông tin về ý kiến, quan điểm của cá nhân, tổ chức, trên các phương tiện thông
tin xã hội.
Phương pháp khai thác và quản lí Big data hiện nay được thiết kế phù hợp
dựa theo các nguồn hình thành Big data. Mỗi nguồn dữ liệu khác nhau sẽ có các
Phương pháp khai thác và quản lí dữ liệu khác nhau. Tuy nhiên, hiện nay phần
lớn các tổ chức trên thế giới đều dùng Hadoop ecosystem là giải pháp tối ưu để
khai thác và quản lí Big data.
3
1.1.2
Sự lớn của Big data và ảnh hưởng của Big data
Eric Schmidt, CEO điều hành của Google cho biết: Cứ hai ngày, lượng
thông tin được tạo ra bằng từ thời bình minh của nền văn minh lồi người cho
đến năm 2003.
Hình I.2: Eric Schmidt nói về Big data
Theo nghiên cứu của Văn phịng cơng nghệ kinh doanh của McKinsey (viện
nghiên cứu toàn cầu) thống kê : trong các nền kinh tế phát triển Châu Âu, các
nhà quản lý của chính phủ có thể tiết kiệm được hơn 100 tỷ Euro (149 tỷ USD)
trong cải tiến hiệu quả hoạt động bằng cách sử dụng Big data, không bao gồm sử
dụng Big data để giảm gian lận và sai sót và tăng thu thuế. Và người sử dụng
dịch vụ được kích hoạt bởi dữ liệu cá nhận- vị trí có thể nắm bắt 600 tỷ USD
thặng dư tiêu dùng.
Theo công bố cúa IDC: thị trường Big data sẽ tăng từ hơn 130 tỷ $ đến
203 tỷ $ vào năm 2020 (dự báo được công bố vào 03 tháng 10 năm 2016), 46%
các công ty đầu tư vào dữ liệu lớn vào năm 2016 tăng 3% so với năm 2015.
4
1.2Khái niệm về big data
Theo Wikipedia: Big data là một thuật ngữ chỉ bộ dữ liệu lớn hoặc phức tạp
mà các phương pháp truyền thống không đủ các ứng dụng để xử lý dữ liệu này.
Theo Gartner (tổ chức nghiên cứu thị trường tồn cầu) cơng bố năm 2012
thì: Big data là những nguồn thơng tin có đặc điểm chung khối lượng lớn, tốc độ
nhanh và dữ liệu định dạng dưới nhiều hình thức khác nhau, do đó muốn khai
thác địi hỏi phải có hình thức xử lý mới để đưa ra quyết định, khám phá và tối
ưu hóa quy trình.
Có nghĩa là: Big data (dữ liệu lớn) là thuật ngữ dùng để chỉ một tập hợp dữ
liệu lớn và rất phức tạp đến nỗi những công cụ, ứng dụng xử lí dữ liệu truyền
thống khơng thể nào đảm đương được. Tuy nhiên, Big data lại chứa trong mình
rất nhiều thơng tin q giá mà nếu trích xuất thành cơng, nó sẽ giúp rất nhiều
cho việc kinh doanh, nghiên cứu khoa học, dư đoán các dịch bệnh sắp phát sinh
và thậm chí là cả việc xác định điều kiện giao thơng theo thời gian thực. Chính
vì thế, những dữ liệu này phải được thu thập, tổ chức, lưu trữ, tìm kiếm, chia sẻ
theo một cách khác so với bình thường.
1.3Đặc trưng 5V của big data
Hiện nay, để mơ hình hóa Big data trên toàn cầu người ta căn cứ vào tiêu
chuẩn 5V của Big data, năm tính chất quan trọng của Big data
5
Hình I.3: Mơ hình 5V của Big data
1.3.1
Volume (số lượng lưu trữ)
Đây là đặc điểm tiêu biểu nhất của Big data, khối lượng dữ liệu rất lớn. Kích
cớ của Big data đang từng ngày tăng lên nhanh chóng, và tính đến năm 2012
đơn vị tính của Big data sẽ nằm trong khoảng vài chục terabyte cho đến nhiều
petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu. Dữ liệu
truyền thống có thể lưu trữ trên các đĩa mềm, đĩa cứng. Theo IDC, thế giới sẽ
tạo ra khoảng 180 nghìn tỷ gigabyte vào năm 2025, tăng từ dưới 10 wattabyte
vào năm 2015. Nhưng với dữ liệu lớn Big data thì cần sử dụng cơng nghệ “đám
mây” mới đáp ứng khả năng lưu trữ được dữ liệu lớn.
1.3.2
Velocity (tốc độ xử lý)
Tốc độ có thể hiểu theo hai khía cạnh: (a) Khối lượng dữ liệu gia tăng rất
nhanh (mỗi giây có tới 72,9 triệu các yêu cầu truy cập tìm kiếm trên web bán
hàng của Amazon); (b)Xử lý dữ liệu nhanh ở mức sát với thời gian thực realtime, có nghĩa dữ liệu được xử lý ngay tức thời sau khi chúng phát sinh. Các
ứng dụng phổ biến trên lĩnh vực Internet, tài chính, ngân hàng, hàng khơng,
qn sự, y tế sức khỏe như hiện nay phần lớn dữ liệu được xử lý đạt tới real-
6
time. Công nghệ xử lý Big data ngày nay đã cho phép con người xử lý tức thời
trước khi chúng được lưu vào cơ sở dữ liệu.
1.3.3
Variety (đa dạng chủng loại)
Đối với dữ liệu truyền thống thường được nhắc đến dữ liệu có cấu trúc (file
tập tin,văn bản), thì ngày nay hơn 80% dữ liệu được sinh ra là phi cấu trúc (blog,
hình ảnh, video, bài hát, dữ liệu từ các thiết bị cảm biến vật lý, thiết bị chăm sóc
sức khỏe,…). Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khác
nhau. Ví dụ, với các bình luận của một nhóm người dùng nào đó trên facebook
với thông tin video được chia sẻ từ Youtube.
1.3.4
Veracity (Độ tin cậy)
Một trong những tính chất phức tạp nhất của Big data là độ tin cậy của dữ
liệu. Với xu hướng Phương tiện truyền thông xã hội (Social Media) và mạng xã
hội (Social Network) ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ
của người dùng Mobile làm cho bức tranh xác định về độ tin cậy, chính xác của
dữ liệu ngày càng khó khăn hơn. Bài tốn phân tích và loại bỏ dữ liệu thiếu
chính xác và nhiễu đang là tính chất quan trọng của Big data.
1.3.5
Value (giá trị)
Giá trị là đặc điểm quan trọng nhất của Big data, vì khi bắt đầu triển khai xây
dựng dữ liệu lớn thì việc đầu tiên cần phải làm rõ đó là xác định đươc giá trị của
thơng tin mang lại như thế nào, khi đó mới quyết định có nên triển khai dữ liệu
lớn hay khơng. Nếu sở hữu Big data mà chỉ nhận được 1% lợi ích từ nó, thì
khơng nên đầu tư vào phát triển Big data. Kết quả dự báo chính xác thể hiện rõ
nét nhất về giá trị của Big data mạng lại. Ví dụ, từ khối dữ liệu phát sinh trong
q trình khám, chữa bệnh sẽ giúp dự báo về sức khỏe được chính xác hơn, sẽ
giảm được chi phí điều trị và các chi phí liên quan.
7
1.4Sự khác biệt giữa big data với giữ liệu truyền thống
Big data khác với dạng dữ liệu truyền thống ở 4 đặc điểm cơ bản: Dữ liệu đa
dạng hơn, lưu trữ được dữ liệu lớn hơn, truy vẫn dữ liệu nhanh hơn, độ chính
xác cao hơn.
1.4.1
Dữ liệu đa dạng hơn
Khi khai thác dữ liệu truyền thống (dữ liệu có cấu trúc), thường phải đặt ra
các câu hỏi: Dữ liệu lấy ra kiểu gì? Định dạng dữ liệu như thế nào? Đối với Big
data, không phải trả lời các câu hỏi trên. Hay nói khác, khi khai thác, phân tích
dữ liệu Big data không cần phải quan tâm đến kiểu dữ liệ và định dạng của
chúng, điều quan tâm là giá trị mà dữ liệu mang lại có đáp ứng được cho công
việc hiện tại và tương lai không.
1.4.2
Lưu trữ dữ liệu lớn hơn
Lưu trữ dữ liệu truyền thống vô cùng phức tạp và luôn đặt ra câu hỏi lưu như
thế nào? Dung lượng khi lưu trữ bao nhiêu là đủ? Gắn kèm với câu hỏi đó là chi
phí đầu tư tương ứng. Công nghệ lưu trữ Big data hiện nay đã phần nào có thể
giải quyết được vấn đề trên nhờ những công nghệ lưu trữ đám mây, phân phối
lưu trữ dữ liệu phân tán và có thể kết hợp các dữ liệ phân tán lại với nhau một
cách chính xác và xử lý nhanh trong thời gian thực.
1.4.3
Truy vấn dữ liệu nhanh hơn
Big data được cập nhật liên tục, trong khi đó kho dữ liệu truyền thống thì lâu
lâu mới được cập nhật và trong tình trạng khơng theo dõi thường xuyên gây nên
tình trạng lỗi cấu trúc truy vẫn dấn đến khơng tìm kiếm được thơng tin đáp ứng
yêu cầu.
1.4.4
Độ chính xác cao hơn
Big data khi đưa vào sử dụng thường được kiểm định lại dữ liệu với những
điều kiện chặt chẽ, số lượng thông tin được kiểm tra thông thường rất lớn, và
đảm bảo về nguồn lấy dữ liệu khơng có sự tác động của con người vào thay đổi
số liệu thu thập.
8
CHƯƠNG II GIẢI PHÁP CƠNG NGHỆ PHÂN TÍCH BIG DATA VÀ
CÁCH THỨC TRIỂN KHAI BIG DATA
2.1Giải pháp công nghệ phân tích Big data
2.1.1
Giải pháp cơng nghệ lưu trữ và phân tích Hadoop ecosystem
Apache Hadoop là nền tảng mềm mã nguồn mở, miễn phí, dựa trên java,
cung cấp một nền tảng phân tán mạnh để lưu trữ và quản lý Big data. Bản quyền
Apache V2 license. Nó chạy ứng dụng trên các cụm phần cứng lớn và xử lý
hàng ngàn terabyte dữ liệu trên hàng ngàn nodes. Hadoop lấy cảm hứng từ
Google MapReduce và Google File System (GFS). Điểm mạng của nền tảng
hadoop là cung cấp độ tin cậy và tính năng sẵn sang cao.
Hình II.4: Cơng nghệ Hadoop ecosystem
Các thành phần của Hadoop
Nền tảng Hadoop được xây dựng trên hai thành phần chính là Hadoop
MapReduce và Hadoop Distributed File System.
2.1.1.1
Hadoop MapReduce
Là cách chia một vấn đề dữ liệu lớn thành các đoạn nhỏ hơn và phân tán nó
trên nhiều máy chủ. Mỗi máy chỉ có một tập tài nguyên riêng và máy chủ xử lý
dữ liệu trên cục bộ. Khi máy chỉ xử lý xong dữ liệu, chúng sẽ gửi chở về máy
chủ chính.
9
Hình II.5: Hadoop MaReduce
2.1.1.2
Hadoop Distributed File System (HDFS)
Là hệ thống tập tin ảo. Có một sự khác biệt lớn giữa các hệ thống tập tin
khác và Hadoop. Khi di chuyển một tập tin trên HDFS, nó sẽ tự động chia thành
nhiều mảnh nhỏ. Các mảnh nhỏ của tập tin sẽ được phân rộng và lưu trữ trên
nhiều máy chỉ khác (thường là ba) để tăng sức chịu lỗi và tính sẵn sàng cao.
10
Hình II.6: Hadoop Distributed File System
Hadoop là một Framework mã nguồn mở hỗ trợ lưu trữ và xử lý Big data với
các cấu trúc khác nhau (kể cả không cấu trúc) trên những mãy chủ bình thường.
Hadoop có nhiều lợi thế so với các framework khác:
• Khả năng mở rộng: cho phép thay đổi số lượng phần cứng mà không cần thay
đổi định dạng dữ liệu hay khởi động lại hệ thống.
• Hiệu quả chi phí: hỗ trợ lưu trữ và xử lý song song trên những máy chủ bình
thường.
• Linh hoạt: hỗ trợ bất kỳ loại dữ liệu từ bất kỳ nguồn nào.
• Chịu lỗi: thiếu dữ liệ và phân tích thất bại và hiện tượng thường gặp trong phân
tích Big data. Hadoop có thể phục hồi và phát hiện nguyên nhân thất bại do tắc
nghẽn mạng.
Bên cạnh hai phần lõi thì, Hadoop cũng chứa một số module:
• Hadoop Common: các tiện ích thơng dụng cho các module khác của Hadoop.
• Hadoop Yarn: một nền tảng cho lập lịch và quản lý tài nguyên cụm (cluster).
11
2.2Triển khai khai thác Big data
2.2.1
Đánh giá thực trạng về quản lý dữ liệu tại đơn vị có nhu cầu triển
khai
Đây là bước đầu tiên trong quá trình bắt tay vào thực hiện. Bước này có vai
trị quan trọng trong việc nhìn nhận thực trạng dữ liệ của đơn vị quản lý như thế
nào dựa vào đó đưa ra kế hoạch cụ thể điều chỉnh về hoạt động quản lý và khai
thác dữ liệu khi triển khai Big data.
Theo nguồn thông tin được tổng hợp trên website của các lãnh đạo cơng nghệ
thơng tin và an tồn thơng tin Đơng Nam Á CIO CSO 2014: Dịch vụ tài chính
năm 2015 đầu tư vào dữ liệu lớn là 6.4 tỷ USD và dự kiến tăng 22%, lập trình
phần mềm năm 2015 đầu tư khoảng 2.8 tỷ USD vào dữ liệu lớn và dự kiến tăng
26%, hoạt động chính phủ năm 2015 đầu tư 2.8 tỷ USD vào đầu tư dữ liệu lớn,
dự kiến tăng 22% và lĩnh vực đa phượng tiện năm 2015 đầu tư vào dữ liệu lớn là
1.2 tỷ USD với mức dự kiến tăng là 40%.
2.2.2
Xác định vấn đề muốn giải quyết dựa trên vấn đề đánh giá
Đây là bước thứ hai trong việc triển khai khai thác Big data. Từ việc đánh
giá thực trạng cần xác định được một số những nội dụng quan trọng sau đây:
• Xác định được có dữ liệu hay khơng để triển khai Big data về vấn đề muốn
giải quyết
Ở đây cần xem xét chi tiết về dữ liệu đã được đánh giá thực trạng có đủ để
đáp ứng giải quyết được vấn đề khơng. Nếu trường hợp có dữ liệu mà vẫn khơng
đủ đạp ứng triển khai Big data thì sẽ phải điều chỉnh nguồn thu thập thông tin.
Nếu trường hợp đánh giá thực trạng mà khơng có dữ liệu thì khơng thể triển khai
Big data
• Xác định Big data có thực sự phù hợp để giải quyết vấn đề này
Việc xác định Big data có thực sự phù hợp để giải quyết vấn đề đang gặp
phải không, trước tiên cần trả lời và hoạch định rõ tính chất “Value” Big data đối
với vấn đề hoặc bài toán đang quan tâm. Đây cũng là chứ “V” quan trọng nhất
trong mơ hình 5V. Ví dụ: Amazong là một web Commerce đã đặt ra mục tiêu
thay vì “làm sao để bán hàng?” thì công ty đã xác định luôn “làm sao để bán mặt
hàng tiếp theo?”. Và với mơ hình kinh doanh Online/Offline này Amazon đã tận
12
dụng Big data rất hiệu quả cho việc tối ưu hóa các quy trình vận hàng từ tự động
cho đến bán tự động. Hệ thống website, marketing và CRM của công ty hoạt
động trên Big data để thấu hiểu nhu cầu khách hàng khi mua sắm trên Amazon.
Hệ thống Recommendation của Amazon được xem là một trong những hệ thống
khuyến nghị người dùng mua sắp tối nhất thế giới với lợi thế vượt trội hơn
Google, Facebook ở dữ liệu mua bán của người tiêu dùng.
2.2.3
Xây dựng cấu trúc tổng thể của Big data
Hồn tồn khơng thể đưa ra giải pháp tối ưu nhất cho bất kỳ giải pháp Big
data nào, tuy nhiên với mỗi giải pháp có thể dựa trên khối xây dựng cơ bản
trong triến trúc Big data
Hình II.7: Cấu trúc tổng thể của Big data
Cấu trúc về một Big data cần đảm bảo những thành phần và chức năng sau
13
• Đa dạng về nguồn dữ liệu: Big data có thể được láy từ rất nhiều nguồn như âm
thanh, đoạn phim, kho dữ liệu, nguồn dữ liệu đầu vào rất là đa dạng
• Mã hóa dữ liệu: sau khi thu thập các thông tin từ các nguồn dữ liệu này được
chuyển qua khâu data extract ( giải nén dữ liệu). Transtorm và intergrate process
(chuyển đổi và xử lý hợp nhất dữ liệu).
• Phân tích dữ liệu: sau đó dữ liệu được đưa vào kho lưu trữ phục vụ cho việc
thực hiện phân tích và khai thác dữ liệu. Thơng qua các cơng cụ hỗ trợ.
• Tổng hợp dữ liệu (báo cáo): cuối cùng của mơ hình chức năng Big data là đưa
ra được các bản báo cáo cho người sử dụng. Dựa vào các thông tin trong bản
báo cáo người dùng có thể nắm bắt được thơng tin, tình trạng của các vấn đề cần
giải quyết. Quan trọng hơn là đưa ra được những quyết định kịp thời và chính
xác dựa trên những nguồn dữ liệu đã được phân tích ở trên.
2.2.4
Xây dựng mơ hình- quy trình xử lý Big data cho vấn đề cần giải quyết
Kiến trúc Big data được thiết kế để xử lý việc nhập, xử lý và phân tích dữ
liệu quá lớn hoặc phức tạp thay cho các hệ thống cơ sở dữ liệu truyền thống.
14
Hình II.8: Mơ hình-quy trình xử lý Big data
Big data được xử lý thơng qua 4 giai đoạn chính: thu thập thơng tin
(acquire), tổ chức dữ liệu (organize), phân tích dữ liệu (analyze), đưa ra quyết
định (decide).
• Thu thập dữ liệu: hầu hết đã có giải pháp, ví dụ: Oracle đưa ra NoSQL
database, Google có Google BigTable,…
• Tổ chức dữ liệu: có thể lưu trữ ở dạng phân tán, song song … nhưng phổ biến
nhất vẫn là Hadoop/MapReduce.
• Phân tích dữ liệu: với các dữ liệu truyển thống, các công ty lớn đều đã có giải
pháp, ví dụ: Oracle có Oracle Warehousing, IBM có InfoSphere warehouse…
• Đưa ra quyết định: dựa vào các thơng tin được phân tích sẽ đưa ra các quyết
định giải pháp kinh doanh kịp thời.
15
CHƯƠNG III ỨNG DỤNG CỦA BIG DATA
3.1Bức tranh tổng thể về ứng dụng của Big data (dữ liệu lớn)
Từ khi xuất hiện, sức ảnh hưởng của Big data rất lớn và đang ngày môt tăng
lên. Big data đã được ứng dụng trong nhiều lĩnh vực như: hoạt động chính trị,
giao thơng, y tế, thể thao, tài chính, thương mại, thống kê,… dưới đây là một số
lĩnh vực tiêu biểu sử dụng Big data để phát triển:
3.1.1
Ứng dụng Big data trong hoạt động chính trị
Hình dưới cho thấy tổng thống Mỹ Obama đã sử dụng dữ liệu lớn để phục
vụ cho cuộc tranh cử Tổng thống của mình. Ơng xây dựng một đội ngũ nhân
viên chuyên đi thu thập thông tin và phân tích dữ liệu thu dược trong dự án triển
khai về dữ liệu lớn. Đội ngũ nhân viên này thu thập tất cả thông tin về người dân
ở các khi vực, sau đó phân tích và chỉ ra một số thơng tin quan trọng về người
dân Mỹ như: thích đọc sách gì, thích mua loại thuốc gì, thích sử dụng Phương
tiện gì,… Thậm trí cịn biết được cả thơng tin về người đó đã bỏ phiếu tìn nhiệm
ai ở lần bầu cử trước. Trên cơ sở những thông tin này, Obama đã đưa ra kế
hoạch vận động phù hợp, giúp ông tái đắc cử Tổng thống lần 2 ở Mỹ.
Ngoài ra một số ứng dụng khác trong lĩnh vực chính trị mà dữ liệ lớn được áp
dụng như: Hệ thống chính phủ điện tử, phân tích quy định và việc tuân thủ quy
định, phân tích giám sát theo dõi và phát hiện gian lận, mối đe dọa an ninh
mạng.
16
Hình III.9: Tổng thống Obama sử dụng Big data trong hoạt động tranh cử
3.1.2
Ứng dụng dữ liệu lớn trong giao thông
Sử dụng số liệu CDR trong quá khứ để ước lượng các dịng giao thơng trong
thành phố vào các giờ cao điểm, từ đó có những kế hoặc phân luồn giao thông
chi tiết, hợp lý giúp giảm thiểu kẹt xe. Ngoai ra cịn đưa ra thơng tin cho người
tham gia giao thông được biết nếu muốn đi từ nơi này đến nơi khác thì nên đi
vào giờ nào để tránh kẹt xe, hoặc đi đường nào ngắn nhất,… ngoài ra cịn giúp
phân tích định vị người dùng thiết bị di động, ghi nhận chi tiết cuộc gọi trong
thời gian thực, và giảm thiểu tình trạng ùn tắc giao thơng.
17
Hình III.10: Sử dụng số liệu CRD trong quản lý giao thông
3.1.3
Ứng dụng Big data trong y tế
Trong y học các bác sĩ dựa bào số liệu trong các bệnh án để đưa ra dự đoán
về nguy cơ mắc bệnh. Đồng thời cũng đưa ra được xu hướng lây lan của bệnh.
Ví dụ, ứng dụng Google Flu Trend là một trong những ứng dụng thành công của
Google, ứng dung này dựa trên từ khóa tìm kiếm ở một khi vực nào đó, sau đó
bộ máy phân tích của Google sẽ phân tích và đối chiếu kết quả tìm kếm đó, sau
cùng là đưa ra dự báo về xu hướng dịch cúm tại khu vực đó. Qua đó cho biết
tính hình cúm tại khi vưc đó sẽ diến ra như thế nào để đưa vào các giải pháp
phòng tránh. Những kết quả mà Google Flu Trend đưa ra hoàn toàn phù hợp với
báo cáo của tổ chức y tế thế giới WHO về tình hình bệnh cúm tại các khu vực
đó.
18
Hình III.11: Dựa vào Big data để tìm giải pháp chống bệnh trong ý tế
3.1.4
Ứng dụng Big data trong thể thao
Hầu hết các môn thể thao hiện đại đều áp dụng phân tích dữ liệu lớn. Chúng
ta có cơng cụ Slam Tracker của IBM dành cho các giải đấu quần vợt. Chúng ta
sử dụng phân tích video để theo dõi hiệu suất của mỗi càu thủ trong bóng đá
hoặc bóng chày, và công nghệ cảm biến trong các thiết bị thể thao như bóng rổ
hay các câu lạc bộ golf cho phép chúng ta có được thơng tin phản hồi( thông qua
điện thoại thông minh và các máy chủ điện tốn đám mây) về hiệu suất thi đấu
của mình và làm thế nào để cải thiện nó.
Nhiều đội thể thao có tiếng cịn theo dõi các vận động viên bên ngồi của
mơi trường thể thao, như sử dụng cơng nghệ thông minh để theo dõi chế độ dinh
dưỡng và giấc ngủ, cũng như các cuộc hội thoại truyền thông xã hội để nhận biết
tâm tư, tình cảm.
19
Hình III.12: Cơng nghệ Slam Tracker được sử dụng trong thể thao quần vợt
3.1.5
Ứng dụng Big data trong tài chính
Từ những dữ iệu chính xác kịp thời thi thập được thông qua các giao dịch
của khách hàng, tiến hành phân tích, xếp hạng và quản lí các rủi ro trong đầu tư
tài chính, tín dụng.
3.1.6
Ứng dụng của Big data trong thương mại
Trong thương mại, Big data đã và đang giúp ích trong nhiều công việc như:
phân khúc thị trường và khách hàng, phân tích hành vi khác hàng tại cửa hàng,
tiếp thị trên nền tảng định vị, phân tích tiếp thị tréo kênh, tiếp thị đa kênh, quản
lý các chiến dịch tiếp thị và khách hàng thân thiết, so sánh giá, phân tích và quản
lý chuỗi cung ứng, phân tích hành vi, thói quen người tiêu dùng,…
3.1.7
Ứng dụng Big data trong thống kê
Một nghiên cứu thu thập thông tin qua các Phương tiện truyền thống ở Hà
Lan đã thống kê được nội dung các tin nhắn của người dân Hà Lan, trong đó có
đến 50% số tin nhắn vơ nghĩa. Số liệu này cho thấy kinh phí đã chi ra không
20
đem lại lợi ích cho người dân cũng như xã hội Hà Lan, chính phủ cần phải có
những điều chỉnh về hoạt động này.
3.2Thách thức khi áp dụng Big data
3.2.1
Tài chính
Nhiều đơn vị thường khơng đo lường trước vấn đề phát trinh trong quá trình
triển khai thực hiện, do vậy thường khơng dự đốn được các khoản phát sinh
trong q trình làm việc với Big data, nên dẫn đến khi xảy ra thường không giải
quyết được khiến dự án không được triển khai thành cơng. Vì vậy để triển khai
được thành công điều đầu tiên là các đơn vị phải có tiềm lực tài chính vững
chắc. Ví dụ như IBM là một tập đồn cơng nghệ của mỹ có tiềm lực tài chính
vững chắc đã xây dựng thành cơng hệ thống dữ liệu Big data. Hay website bán
hàng thương mại điện tử Amazon với tiềm lực tài chính vững chắc cũng đã xây
dụng thành công hệ thống dữ liệu Big data.
3.2.1
Chính sách, quy định luật pháp về truy nhập và sử dụng dữ liệu
Việc sử dụng và khai thác Big data phụ thuộc vào luật quy định của mỗi
quốc gia. Ví dụ: ở Canada người dùng có thể được tiếp cận dữ liệu từ cả hai tổ
chức chính phủ và phi chính phủ, nhưng ở những nước khác như Ireland thì phải
được sự cho phép từ các cơ quan chính phủ. Điều này có thể dẫn đến những hạn
chế truy cập vào một số loại dữ liệu lớn. Đây cũng là một trong những thách
thức cản trở triển khai xây dựng và phát triển Big data.
3.2.2
Trình độ khai thác và quản lí dữ liệu
Luật pháp quy định sử dụng và khai thác ở mỗi quốc gia là khác nhau nên
cách quản lý cũng khác nhau. Tuy nhiên, một vấn đề liên quan đến quản lý
thông tin hiện nay là nguồn nhân lực. Khoa học dữ liệ lớn đang phát triển mạng
trong những tổ chức tư nhân, trong khi đó bộ phận này chưa được liên kết với
những tổ chức của chính phủ một cách chặt chẽ dẫn đến việc quản lý vẫn còn
nhiều vướng mắc. Đây cũng là một trong những nguyên nhân gây cản trở việc
triển khai xây dựng khai thác Big data.
21
3.2.3
Hạ tầng công nghệ thông tin
Thu thập dữ liệu trong thời gian thực hoặc gần với giới hạn thực trong thực
tế. Tiềm năng của dữ liệu mở ra cơ hội mới để kết hợp dữ liệu hành chính và vận
tốc truy cập dữ liệu cao đến từ các nguồn khác nhau, chẳng hạn như:
• Thương mại dữ liệu (các giao dịch thẻ tín dụng, về giao dịch trực tuyến, bán
hàng,…)
• Theo dõi các thiết bị (điện thoại di động, GPS, camera giám sát, ứng dụng,…)
và cảm biến vật lý (giao thơng khí tượng, ơ nhiễm mơi trường, năng lượng,…)
• Truyền thơng xã hội (twitter, facebook,…) và các cơng cụ tìm kiếm (tìm kiếm
trực tuyến, trang xem trực tuyến,…)
• Hồ sơ hành chính
Từ đây, trước khi sử dụng Big data các doanh nghiệm, tổ chức cần đặt ra những
thách thức cần giải quyết trước khi tính đến việc khai thác và sử dụng Big data
để phát triển doanh nghiệp, tránh việc không những việc khai thác, sử dụng Big
data không đạt được hiệu quả mà còn gây tổn thất về nhiều mặt cho công ty và
tổ chức.
22
CHƯƠNG IV TỔNG KẾT
Trong bài báo cáo đã đưa ra được những thông tin cơ bản về Big data, những
lợi ích mà Big data mang lại cho con người. Bên cạnh đó cũng chỉ ra những
thách thức khi triển khai áp dụng khai thác Big data. Điểu quan trọng nhất trong
báo cáo này là đưa ra những ưu điểm của Big data đó là cung cấp thơng tin để có
thể xử lý được các tình huống nhanh nhất, chính xác nhất và giá trị của Big data
mang lại ln có tính định hướng đến tương lai.
Tuy vậy, bài báo cáo mới chỉ dừng ở chỗ tìm hiểu các thơng tin cơ bản của
Big data, chưa thực sự đi sâu vào những chi tiết và ứng dụng chuyên sâu cũng
như sự lớn mạnh của Big data hiện nay.
TÀI LIỆU THAM KHẢO
• big-data-la-gi-va-nguoi-ta-khai-thac-ung-dung-no-vaocuoc-song-nhu-the-nao.2210939/
• Big Data| Tiendv’s Blog
• 6 Predictions for the $203 billion Big data analytics market
• Big data 2020: the future, growth and challenges of the big data industry
23