Tải bản đầy đủ (.docx) (15 trang)

BIG DATA – dữ liệu lớn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (587.89 KB, 15 trang )

Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính

NHẬP MÔN ĐIỆN TOÁN
Bài tập lớn

BIG DATA – DỮ LIỆU LỚN
Giáo viên giảng dạy:
GV. Trần Ngọc Thịnh
Nhóm: 101


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính

BIG DATA DỮ LIỆU LỚN

2|Page
Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính

MỤC LỤC

3|Page
Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh


Khoa Khoa Học & Kỹ Thuật Máy Tính

ĐỊNH NGHĨA
-

-

I.

Dữ liệu lớn (Big data) được định nghĩa khái quát là sự thu thập, quản lý và phân tích
dữ liệu, những việc đó đã vượt xa dữ liệu cấu trúc tiêu biểu (typical), nó có thể được
truy vấn với hệ thống quản lý dữ liệu quan hệ — thường với những tệp phi cấu trúc
(unstructured files), video kỹ thuật số, hình ảnh, dữ liệu cảm biến, tệp lưu nhật ký,
thực sự bất cứ dữ liệu nào không có trong hồ sơ với các phạm vi tìm kiếm khác.
Trong một số ý nghĩa, dữ liệu phi cấu trúc là dữ liệu thú vị, nhưng nó khó tổng hợp
vào BI (Business Intelligence) hoặc rút trích ra những kết luận từ nó trừ khi nó có thể
tương quan với dữ liệu có cấu trúc. [1]
Dữ liệu lớn (Big data) là thuật ngữ dùng để để mô tả các bộ dữ liệu có kích thước rất
lớn, khả năng phát triển nhanh, và rất khó thu thập, lưu trữ, quản lý và phân tích với
các công cụ thống kê hay ứng dụng cơ sở dữ liệu truyền thống. [2]

LỊCH SỬ CỦA BIG DATA

Câu chuyện của Big Data đã bắt đầu từ nhiều năm trước, khi các tin đồn gây nhiễu còn
chưa tràn lan như hiện nay. Bảy mươi năm đã qua kể từ lần đầu tiên chúng ta cố gắng định lượng
mức độ tăng trưởng của khối lượng dữ liệu, hay còn gọi là tốc độ bùng nổ thông tin (thuật ngữ
được sử dụng lần đầu tiên năm 1941, theo The Oxford English Dictionary), có thể liệt kê một số
cột mốc lịch sử quan trọng về quá trình đánh giá kích thước dữ liệu cũng như những đổi mới cơ
bản trong ý tưởng xây dựng dữ liệu lớn và các quan sát có liên quan như sau:
-


Năm 1944, Fremont Rider – quản lý thư viện trường đại học Wesleyan, đã xuất bản
cuốn The Scholar and the Future of the Research Libriary. Ông ước tính rằng thư
viện của các trường đại học ở Mỹ đã phát triển gấp đôi chỉ trong vòng 16 năm.

4|Page
Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
-

Năm 1961, Derek Price xuất bản Science Since Babylon, trong đó ông biểu thị sự phát
triển của kiến thức khoa học dựa trên sự tăng trưởng về số lượng các tạp chí khoa học và
tài liệu. Ông kết luận rằng số lượng tạp chí mới đã phát triển theo cấp số nhân.

-

Tháng 11 năm 1967, B.A Maron và P.A.D de Maine công bố nghiên cứu “Automatic
data compression” trên tờ Communications of the ACM, cho rằng khái niệm “bùng nổ
thông tin” được chú ý trong những năm gần đây khiến cho yêu cầu lưu trữ tất cả thông tin
ở mức tối thiểu trở nên cần thiết hơn bao giờ hết. Bài báo mô tả “chiếc máy nén ba phần”
hoàn toàn tự động và nhanh nhẹn, có thể sử dụng với bất cứ khối thông tin nào nhằm
giảm đáng kể các yêu cầu lưu trữ từ phía ngoài và tăng tốc độ truyền tải thông tin trên
máy tính.

-

Tháng 4 năm 1980, I.A. Tjomsland tổ chức một cuộc đối thoại với chủ đề “Từ Nay

Chúng Ta Sẽ Đi Về Đâu?” tại hội nghị IEEE lần thứ tư về hệ thống tập trung dữ liệu.

-

Năm 1981, văn phòng thống kê trung ương Hungary bắt đầu dự án nghiên cứu ngành
công nghiệp thông tin của đất nước, bao gồm việc đo lường khối lượng thông tin bằng
“bits”, và ngày nay vẫn còn tiếp tục thực hiện.

-

Tháng 7 năm 1986, Hal B. Becker cho xuất bản cuốn “Liệu Người Sử Dụng Có Thể
Thực Sự Hấp Thu Dữ Liệu Với Tốc Độ Hiện Nay? Còn Ngày Mai Thì Sao?” trên tờ Data
Communications.

-

Tháng 9 năm 1990, Peter J. Denning công bố tác phẩm “Saving All the Bits” trên tờ
American Scientist. Denning nói rằng: “Sự cấp thiết của việc lưu tất cả các bit đưa chúng
ta vào đến tình thế không thể giải quyết: Tốc độ và khối lượng dòng thông tin làm tắc
nghẽn mạng lưới, thiết bị lưu trữ và hệ thống phục hồi của chúng ta, cũng như khả năng
nhận thức của con người… Loại máy nào chúng ta có thể chế tạo ra để điều khiển luồng
dữ liệu của một nhạc cụ hoặc sàng lọc cơ sở dữ liệu ghi âm, và cung cấp cho ta bản thống
kê tóm tắt về những gì đang hiện hữu?
Tháng 10 năm 1997 Michael Cox và David Ellsworth trình bày “Application-controlled
demand paging for out-of-core visualization” trong chuỗi các hoạt động của Hội nghị
IEEE lần thứ 8. Mở đầu bài viết nêu lên “Bộ nhớ ngoài cung cấp thách thức thú vị cho
các hệ điều hành máy tính: bộ dữ liệu nói chung là khá lớn, yêu cầu gay gắt về năng lực
của bộ nhớ chính, đĩa cục bộ, và thậm chí cả ổ đĩa tách biệt. Chúng tôi gọi đây là vấn đề
của big data (dữ liệu lớn). Khi tập hợp dữ liệu không phù hợp trong bộ nhớ chính (trong
lõi), hoặc khi chúng không phù hợp với ngay cả trên đĩa cục bộ, giải pháp phổ biến nhất

là giành lấy nhiều nguồn hơn.”Đây là bài viết đầu tiên trong thư viện số ACM sử dụng
thuật ngữ “Big Data”.

-

-

Tháng 4 năm 1998 John R. Masey, Giám đốc khoa học SGI, trình bày nghiên cứu “Big
Data…and the Next Wave of Infrastress” tại một cuộc họp của USENIX.
5|Page

Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính

II.

-

Tháng 11 năm 2000, Francis X. Diebold trình bày với Đại hội Thế giới lần thứ VIII của
Hiệp hội kinh tế lượng một tài liệu có tiêu đề “ Big Data Dynamic Factor Models for
Macroeconomic Measurement and Forecasting“. Trong đó ông khẳng định rằng: “Gần
đây, nhiều ngành khoa học, như vật lý, sinh học, khoa học xã hội, vốn đang buộc phải
đương đầu với khó khăn – đã thu được lợi từ hiện tượng Big Data và đã gặt hái được
nhiều thành công. Big Data chỉ sự bùng nổ về số lượng (và đôi khi, chất lượng), khả năng
liên kết cũng như độ có sẵn của dữ liệu, chủ yếu là kết quả của những tiến bộ gần đây và
chưa từng có trong việc ghi lại dữ liệu và công nghệ lưu trữ. ”


-

Tháng 3 năm 2007 John F. Gantz, David Reinsel và các nhà nghiên cứu khác của IDC đã
đưa ra thông cáo báo với tựa đề “The Expanding Digital Universe: A Forecast of
Worldwide Information Growth through 2010”. Đây là nghiên cứu đầu tiên ước tính và
dự báo số lượng dữ liệu kỹ thuật số được tạo ra và nhân rộng mỗi năm.

-

Tháng 9 năm 2008, A special issue of Nature on Big Data nghiên cứu ý nghĩa của các bộ
dữ liệu lớn đối với khoa học hiện đại.

-

Tháng 2 năm 2010, Kenneth Cukier đăng trên tờ The Economist a Special Report bài viết
có tựa đề “Data, data everywhere”. Cukier viết: “… thế giới chứa một số lượng thông tin
số lớn đến mức không tưởng, và càng ngày càng được nhân rộng với tốc độ nhanh hơn
bao giờ hết… Hiệu quả đã được thể hiện ở khắp mọi nơi, từ kinh doanh đến khoa học, từ
chính phủ cho nghệ thuật. Các nhà khoa học và kỹ sư máy tính đã đặt ra một thuật ngữ
mới cho hiện tượng này: Big Data”.

-

Tháng 5 năm 2012, Danah Boyd và Kate Crawford đưa ra luận điểm của họ trong bài
“Critical Question for Big Data” trên tờ Information, Communications and Society. Họ
định nghĩa Big Data như là “một hiện tượng văn hóa, công nghệ và học thuật dựa trên sự
tương tác của: (1) Công nghệ tối đa hóa sức mạnh tính toán và độ chính xác thuật toán để
thu thập, phân tích, liên kết, và so sánh các tập dữ liệu lớn. (2) Phân tích: tạo ra trên dữ
liệu lớn để xác định mô hình để làm cho tuyên bố kinh tế, xã hội, kỹ thuật và pháp lý. (3)
Thần thoại: Niềm tin phổ biến rằng dữ liệu lớn cung cấp một hình thức cao hơn của trí

thông minh và kiến thức có thể tạo ra mà những hiểu biết mà trước đây không thể, với
hào quang của sự thật, khách quan, chính xác.” [3]

CÁC ĐẶC TRƯNG CỦA BIG DATA
Có 4 đặc trưng của Big Data như sau: [4]
1. Volume: là sự tăng trưởng về mặt khối lượng. Dữ liệu trong các hệ thống thông tin

luôn luôn và không ngừng tăng lên về mặt kích thước (khối lượng). Chúng ta có thể
tìm thấy dữ liệu trong các định dạng video, music, image lớn trên các kênh truyền
6|Page
Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
thông xã hội. Khối lượng dữ liệu của một hệ thống thông tin có thể lên đến hàng
Terabyte và Petabyte.
2. Velocity: là sự tăng trưởng về mặt tốc độ. Bên cạnh sự tăng trưởng về khối lượng, tốc
độtăng trưởng của dữ liệu cũng tăng lên một cách chóng mặt. Một ví dụ đơn giản là
trên các mạng xã hội đôi khi các thông báo cách đó vài giây (tweet, status,….) đã là
cũ và không được người dùng quan tâm. Người dùng thường loại bỏ các tin nhắn cũ
và chỉ chú ý đến các cập nhật gần nhất. Sự chuyển động của dữ liệu bây giờ hầu như
là thực tế (real time) và tốc độ cập nhật thông tin đã giảm xuống đơn vị hàng mili
giây.
3. Variety: là sự tăng lên về tính đa dạng của dữ liệu. Dữ liệu không chỉ ở dạng có cấu
trúc, mà còn bao gồm rất nhiều kiểu dữ liệu phi cấu trúc nữa như video, hình ảnh, dữ
liệu cảm biến, cũng như các file log. Dữ liệu của một doanh nghiệp hay một hệ thống
thông tin ngày nay không còn đơn giản chỉ có một hoặc một vài loại dữ liệu nữa, mà
tính đa dạng của nó cũng đang ngày càng tăng lên làm cho tính phức tạp của dữ liệu
ngày càng phức tạp hơn.

4. Veracity: là tính xác thực của dữ liệu. Với xu hướng Social ngày nay và sự gia tăng
mạnh mẽ tính tương tác và chia sẻ của người dùng Mobile làm cho bức tranh xác định
về độ tin cậy & chính xác của dữ liệu ngày một khó khăn hơn. Bài toán phân tích và
loại bỏ dữ liệu thiếu chính xác và nhiễu đang là tính chất quan trọng của Big Data.

Hình 1: Bốn chữ V - Đặc trưng của Big Data

7|Page
Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
III.

KHÍA CẠNH KỸ THUẬT CỦA BIG DATA
1. Luồng dữ liệu trong Big Data [5]

Hệ thống Big data thường lớn và phức tạp, nó cung cấp các chức năng để xử lý Big
Data từ lúc hình thành đến lúc kết thúc. Thường luồng dữ liệu trong Big Data được
phân làm 4 giai đoạn: Nguồn tạo ra dữ liệu, Thu thập dữ liệu, Lưu trữ dữ liệu và Phân
tích dữ liệu. Hình 1 bên dưới mô tả các công nghệ liên quan đến 4 giai đoạn của
luồng dữ liệu:

Hình 2: Bản đồ công nghệ của Big data theo luồn dữ liệu
 Nguồn tạo ra dữ liệu:

Do sự phát triển vượt bậc của các công nghệ hiện đại nên nguồn tạo ra dữ liệu
ngày càng phát triển mạnh mẽ. Thật vậy, IBM ước tính rằng 90% dữ liệu trong
thế giới ngày nay đã được tạo ra trong 2 năm qua. Nguyên nhân của sự bùng nổ

dữ liệu này cũng có nhiều tranh cãi. Theo sự bùng nổ dữ liệu có liên hệ mật thiết
đến sự phát triển của công nghệ thông tin, được chia làm 3 giai đoạn như sau:


Giai đoạn 1: bắt đầu từ những năm 1990. Khi công nghệ số và những hệ
thống cơ sở dữ liệu được áp dụng rộng rãi, nhiều tổ chức đã sử dụng chúng để
lưu trữ những dữ liệu lớn của họ như các giao dịch trong lãnh vực ngân hàng

8|Page
Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
hay các trung tâm tài chính, các tài liệu của chính phủ… Đây là những dữ liệu
có cấu trúc và được phân tích thông qua hệ thống CSDL quan hệ.


Giai đoạn 2: giai đoạn 2 bắt đầu bằng sự bùng nổ của Internet. Vào những
năm cuối của thập niên 90, hệ thống Web 1.0, đặc trưng bởi các công cụ tìm
kiếm và thương mại điện tử, tạo ra 1 lượng lớn dữ liệu bán cấu trúc và/hoặc
không cấu trúc, bao gồm các trang web và lịch sử giao dịch. Kể từ những năm
2000, rất nhiều các ứng dụng Web 2.0 đã tạo ra một lượng dữ liệu phong phú
các dữ liệu do người dùng đóng góp từ các diễn đàn, nhóm, blog, các trang
web, mạng xã hội.

Giai đoạn 3: được kích thích bởi các thiết bị di động như điện thoại thông
minh, máy tính bảng, cảm biến và các thiết bị hỗ trợ Internet dựa trên cảm
biến. Với cách phân loại này, chúng ta thấy rằng các mô hình tạo dữ liệu phát
triển 1 cách nhanh chóng, từ lưu trữ thụ động trong giai đoạn 1 đến tạo dữ liệu

tích cực trong giai đoạn 2 và tạo dữ liệu tự động trong giai đoạn 3. Ba loại dữ
liệu này chính là nguồn dữ liệu chính của Big Data, trong đó các dữ liệu tự
động sẽ đóng góp nhiều nhất trong tương lai gần.
 Thu thập dữ liệu:
- Thu nhận dữ liệu
- Truyền dữ liệu
- Tiền xử lý dữ liệu
 Lưu trữ dữ liệu:
- Hệ thống tập tin
- Cơ sở dữ liệu
- Những mô hình lập trình
 Phân tích dữ liệu:
- Những phương pháp phân tích chung
- Dữ liệu trực quan (Data Visualization)
- Phân tích thống kê
- Khai phá dữ liệu
- Những phương pháp phân tích mới trong Big Data
- Phân tích cấu trúc dữ liệu
- Phân tích văn bản
- Phân tích Web
- Phân tích đa phương tiện
- Phân tích mạng
- Phân tích di động


2. Nền tảng Hadoop [6]

Hadoop đã được tạo ra vào năm 2005 bởi Doug Cutting và Mike Cafarella để giải
quyết các vấn đề của Big Data. Hadoop là một framework mã nguồn mở hỗ trợ lưu
9|Page

Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
trữ và xử lý Big Data với các cấu trúc khác nhau (kể cả không cấu trúc) trên những
máy chủ bình thường. Hadoop có nhiều lợi thế so với các framework khác:


Khả năng mở rộng: cho phép thay đổi số lượng phần cứng mà không cần thay
đổi định dạng dữ liệu hay khởi động lại hệ thống



Hiệu quả chi phí: hỗ trợ lưu trữ và xử lý song song trên những máy chủ bình
thường



Linh hoạt: hỗ trợ bất kỳ loại dữ liệu từ bất kỳ nguồn nào
Chịu lỗi: thiếu dữ liệu và phân tích thất bại là hiện tượng thường gặp trong



phân tích tích Big Data. Hadoop có thể phục hồi và phát hiện nguyên nhân
thất bại do tắc nghẽn mạng.
Hadoop gồm nhiều module kết hợp với nhau hỗ trợ tất cả các giai đoạn trong luồng
Big Data từ giai đoạn thu thập đến phân tích và quản lý dữ liệu.
Giai đoạn
Thu thập dữ

liệu

Module

Mô tả

Flume

Thu thập, tập hợp và chuyển 1 lượng lớn dữ liệu từ
các nguồn khác nhau về trung tâm lưu trữ

Sqoop

Cho phép dễ dàng nhập và xuất dữ liệu giữa Hadoop
và các kho dữ liệu có cấu trúc

HDFS

Hệ thống file phân phối có thể chạy trên những máy
chủ bình thường, dựa trên thiết kế của GFS. Gồm 1
NameNode để quản lý file metadata và nhiều
DataNode để lưu trữ dữ liệu thực tế. Một file được
chia làm nhiều khối và các khối sẽ lưu trong các
DataNode

Hbase

CSDL hướng cột dựa trên Bigtable của Google

Lưu trữ dữ liệu


Tính toán

Phân tích dữ
liệu

MapReduce Là cốt lõi tính toán để phân tích Big Data.
MapReduce framework sẽ gồm 1 master và 1 slave
trên mỗi node. Master có trách nhiệm lập kế hoạch
cho những slave, theo dõi và thực hiện lại các nhiệm
vụ thất bại. Các slave thực hiện các nhiệm vụ theo
chỉ dẫn của của master. Gồm 2 chức năng chính:
map và reduce
Pig Latin
Hive
Mahout

Ngôn ngữ cho xử lý dữ liệu
Tổng hợp dữ liệu và truy vấn adhoc
Thư viện khai phá dữ liệu và máy học, gồm 4 nhóm:
lọc tập hợp, gom cụm, phân loại, khai phá mô hình
10 | P a g e

Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
theo hướng song song


Quản lý

IV.

Zokeeper

Là 1 trung tâm dịch vụ cho việc bảo trì cấu hình, đặt
tên, đồng bộ phân phối và cung cấp các dịch vụ theo
nhóm

Chukwa

Chịu trách nhiệm theo dõi tình trạng hệ thống và có
thể hiển thị, giám sát và phân tích các dữ liệu thu thập
được

ỨNG DỤNG CỦA BIG DATA
Big Data và các ứng dụng có liên quan đang ngày càng được sử dụng rộng rãi trong các
tổ chức, trong các lĩnh vực khác nhau, nhằm giảm thiểu các rủi ro, hỗ trợ tổ chức trong
việc quản lý các hoạt động hằng ngày cũng như ra quyết định.
- Các cơ quan chính phủ tìm cách phân tích dữ liệu nhằm tìm ra những cách thức
thu thuế một cách khéo léo, dự đoán được tỷ lệ thất nghiệp, xu hướng nghề
nghiệp trong tương lai.
- Các doanh nghiệp trong lĩnh vực y tế cũng đang chủ động hơn trong việc quản lý
và theo dõi sức khỏe khách hàng, thiết kế các gói sản phẩm hợp lý nhằm giảm chi
phí chăm sóc sức khỏe.
- Ngành khách sạn và du lịch sử dụng dữ liệu từ nhiều nguồn như mạng xã hội và
tạo ra những gói kỳ nghỉ cá nhân cho các khách hàng.
- Các doanh nghiệp phân tích dữ liệu nhằm tìm hiểu hành vi khách hàng và tư vấn
cho họ về danh mục sản phẩm, thời gian và địa điểm mua có những chính sách

giá hấp dẫn.
Hình 3 sau đây sẽ cho chúng ta hình dung rõ hơn về ứng dụng của Big Data trong một số
lĩnh vực phổ biến:

11 | P a g e
Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính

Hình 3: Ứng dụng của Big Data trong một số lĩnh vực [8]
12 | P a g e
Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
V.

TƯƠNG LAI VÀ THÁCH THỨC CỦA BIG DATA
1. Thách thức
-

Truyền dữ liệu lớn thường phải gánh chịu chi phí rất cao trong khi đó việc
truyền dữ liệu lớn lại là một việc không thể thiếu trong các ứng dụng Big
Data.

-


Dữ liệu ngày tăng ngày càng nhanh, vì vậy lượng dữ liệu các ứng dụng Big
Data phải xử lý ngày càng lớn, việc này yêu cầu sự phát triển về phần mềm và
phần cứng.

-

Mặc dù Hadoop đã trở thành trụ cột trong nền tảng phân tích Big Data nhưng
nó vẫn chưa phải là tối ưu nhất, do vậy cần những công cụ mạnh hơn nữa

Vấn đề thông tin riêng tư, nếu các công ty, chính phủ, và các tổ chức cẩn thận
thu thập, phân tích và sử dụng dữ liệu lớn, giá trị cộng đồng sẽ được rõ ràng.
Nhưng, nếu khả năng phân tích thông tin bị lạm dụng, thông tin được sử dụng
cho các mục đích xấu thì đó hẳn là một vấn đề.
2. Tương lai
-

Theo các chuyên gia, Big Data có thể mang lại bốn lợi ích: cắt giảm chi phí, giảm
thời gian, tăng thời gian phát triển, tối ưu hóa sản phẩm và hỗ trợ con người đưa ra
quyết định hợp lý hơn.
Ngày nay, dữ liệu chính là tiền bạc của doanh nghiệp. Lấy ví dụ, những thông tin về
thói quen, sở thích của khách hàng có được từ lượng dữ liệu khổng lồ các doanh
nghiệp thu thập trong lúc khách hàng ghé thăm và tương tác với trang web của mình.
Chỉ cần doanh nghiệp biết khai thác hiệu quả, Big Data không chỉ giúp tăng lợi
nhuận cho chính họ mà giúp tiết kiệm thời gian cho khách hàng trong mua sắm.
Nhờ Big Data, năm 2013, Amazon đạt doanh thu tới 74 tỷ USD, IBM đạt hơn 16 tỷ
USD. Big Data là nhu cầu tăng trưởng lớn đến nỗi từ năm 2010, Software AG,
Oracle, IBM, Microsoft, SAP, EMC, HP và Dell đã chi hơn 15 tỷ USD cho các công
ty chuyên về quản lý và phân tích dữ liệu.
Với tiềm năng ưu việt, Big Data không chỉ ứng dụng trong kinh doanh mà còn có
khả năng tác động đến hầu hết ngành nghề khác. Chính phủ các nước có thể ứng

dụng Big Data để dự đoán tỷ lệ thất nghiệp, xu hướng nghề nghiệp của tương lai để
đầu tư cho những hạng mục phù hợp hoặc cắt giảm chi tiêu, kích thích tăng trưởng
kinh tế, thậm chí dự đoán sự phát triển của mầm bệnh và khoanh vùng sự lây lan của
bệnh dịch.
Nói cách khác, Big Data sẽ là công cụ thúc đẩy sự phát triển kinh tế - xã hội trong
tương lai. Theo ước tính của Gartner, một công ty nghiên cứu và tư vấn về công
nghệ hàng đầu của Mỹ, tới năm 2015 Big Data có thể tạo ra thêm 4,4 triệu việc làm
13 | P a g e
Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính
trong ngành IT toàn cầu và trong 5 năm (2012-2017), thế giới sẽ đầu tư 232 tỷ USD
cho Big Data.
Với hơn 30 triệu người dùng Internet và hơn 15 triệu người dùng Internet trên điện
thoại di động, Việt Nam đang là đích ngắm của nhiều nhà cung cấp giải pháp Big
Data như Microsoft, IBM, Oracle… Big Data và các công nghệ phân tích có khả
năng làm thay đổi hoàn toàn bộ mặt của các ngành kinh tế và nghề nghiệp. Vì vậy,
những mô hình kinh doanh mới dựa trên Big Data đang được hình thành để giúp các
tổ chức, doanh nghiệp tận dụng dữ liệu. “Đây cũng là xu thế tất yếu trong tương lai
không xa với doanh nghiệp Việt Nam", ông Tan Jee Toon, Tổng Giám đốc IBM Việt
Nam dự đoán. [9]
VI.

KẾT LUẬN
Big Data đóng vai trò quan trọng trong việc mang lại những giá trị to lớn, không chỉ cho
các tổ chức doanh nghiệp mà còn cho nền kinh tế quốc gia và cho các công dân trong nền
kinh tế đó. Thông tin được thu thập ngày càng minh bạch, chi tiết, chính xác, giúp các
nhà lãnh đạo có thể ra những quyết định đúng và hợp lý hơn, giảm thiểu các rủi ro có thể

xảy ra, giúp cho các cá nhân được trải nghiệm các dịch vụ mà các tổ chức và chính phủ
mang lại một cách tốt hơn. Big Data cũng đặt ra thách thức cho các tổ chức, doanh
nghiệp trong thời đại số hiện nay. Một khi làm chủ được dữ liệu lớn thì họ sẽ có cơ hội
thành công lớn hơn trong bối cảnh cạnh tranh ngày nay, thế giới thì sẽ được hưởng lợi
hơn từ việc trích xuất thông tin một cách chính xác hơn, hữu ích hơn với chi phí thấp
hơn. Tuy nhiên, đây vẫn là lĩnh vực còn rất mới, đặt ra nhiều vấn đề và thách thức mà các
tổ chức và các nhà nghiên cứu cần giải quyết.

14 | P a g e
Nhóm 101: Big Data


Trường Đại Học Bách Khoa Tp. Hồ Chí Minh
Khoa Khoa Học & Kỹ Thuật Máy Tính

I.

TÀI LIỆU THAM KHẢO

[1] />[2] Manyika, J., et al., Big data: The next frontier for innovation, competition, and
productivity. 2011.
[3] Lược sử của Big DATA, Available from />[4] Nguyễn Thanh Hải, Bắt đầu với Big Data - Phần 1, Available from />[4] Tuan, D.Q. Facebook xử lí hơn 500 TB dữ liệu mỗi ngày. 23/08/2012 Available from:
/>[5] [6] Lê Thị Quỳnh Nga, Nguyễn Mạnh Tuấn ( Khoa Hệ Thống Thông Tin Kinh Doanh – ĐH
Kinh Tế TP. HCM), BIG DATA: BỨC TRANH TOÀN CẢNH - TẬP SAN TIN HỌC QUẢN
LÝ, Tập 03, Số 1&2, 2014, 53-73.)
[7] [8] Các ứng dụng của Big Data, Available from />[9] Anh Thư, Kỷ nguyên của Big Data, 10/08/2014, Available from />
15 | P a g e
Nhóm 101: Big Data




Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×