Tải bản đầy đủ (.pdf) (109 trang)

Phân tích ảnh hưởng của big data đến quá trình phân tích dữ liệu tại các doanh nghiệp kiểm toán của việt nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.45 MB, 109 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH

VÕ THỊ BÍCH HÀ

PHÂN TÍCH ẢNH HƯỞNG CỦA BIG DATA ĐẾN
QUÁ TRÌNH PHÂN TÍCH DỮ LIỆU TẠI CÁC
DOANH NGHIỆP KIỂM TOÁN CỦA VIỆT NAM

LUẬN VĂN THẠC SĨ KINH TẾ

Tp. Hồ Chí Minh – Năm 2018


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH

VÕ THỊ BÍCH HÀ

PHÂN TÍCH ẢNH HƯỞNG CỦA BIG DATA ĐẾN
QUÁ TRÌNH PHÂN TÍCH DỮ LIỆU TẠI CÁC
DOANH NGHIỆP KIỂM TOÁN CỦA VIỆT NAM

Chuyên ngành: Kế toán
Mã số: 8340301

LUẬN VĂN THẠC SĨ KINH TẾ

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. TRẦN KHÁNH LÂM


Tp. Hồ Chí Minh – Năm 2018


LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Phân tích ảnh hưởng của Big Data đến quá trình
phân tích dữ liệu tại các doanh nghiệp kiểm toán của Việt Nam” là kết quả nghiên
cứu độc lập của tôi, do chính tôi hoàn thành.
Nội dung luận văn có tham khảo và sử dụng tài liệu, thông tin được đăng tải
trên các tác phẩm, tạp chí và các trang web theo danh mục tài liệu tham khảo của
luận văn.
Thành phố Hồ Chí Minh, tháng 04 năm 2018

VÕ THỊ BÍCH HÀ


MỤC LỤC
TRANG PHỤ BÌA
LỜI CAM ĐOAN .................................................................................................. 3
MỤC LỤC.............................................................................................................. 4
DANH MỤC CÁC TỪ VIẾT TẮT ....................................................................... 1
DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, SƠ ĐỒ .......................................... 1
DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, SƠ ĐỒ .......................................... 2
PHẦN MỞ ĐẦU .................................................................................................... 1
1. Lý do chọn đề tài ............................................................................................. 1
2. Mục tiêu nghiên cứu ....................................................................................... 2
3. Câu hỏi nghiên cứu ......................................................................................... 3
4. Đối tượng nghiên cứu ..................................................................................... 3
5. Phạm vi nghiên cứu ........................................................................................ 3
5.1.


Về nội dung ............................................................................................... 3

5.2.

Về không gian và thời gian....................................................................... 3

6. Phương pháp nghiên cứu ................................................................................ 3
7. Những đóng góp khoa học và thực tiễn của luận văn.................................... 4
8. Kết cấu của luận văn....................................................................................... 4
CHƯƠNG 1: TỔNG QUAN VỀ BIG DATA VÀ PHÂN TÍCH DỮ LIỆU
TRONG KIỂM TOÁN .......................................................................................... 6
1.1. Big Data ........................................................................................................... 6
1.1.1. Tóm lược một số thay đổi trong dữ liệu .................................................. 6
1.1.2. Big Data .................................................................................................... 7
1.1.2.1.

Các vấn đề quan trọng ..................................................................... 7

1.1.2.2.

Những yếu tố tạo nên Big Data ..................................................... 10

1.1.2.3.

Các lĩnh vực thuộc Big Data ......................................................... 12

1.1.2.4.

Phương pháp thu thập và truy xuất kiến thức từ Big Data ........... 13


1.1.3. Các vấn đề về quản lý và an ninh dữ liệu .............................................. 14


1.2. Phân tích dữ liệu kiểm toán .......................................................................... 16
1.2.1. Khái quát về phân tích dữ liệu kiểm toán ............................................. 16
1.2.2. Phân tích dữ liệu gia tăng chất lượng kiểm toán .................................. 18
1.2.3. Phản ứng của các bên liên quan đến phân tích dữ liệu......................... 20
1.2.3.1.

Những người sử dụng nội bộ ........................................................ 20

1.2.3.2.
ngoài

Chính phủ, ủy ban kiểm toán, các tổ chức - cơ quan quản lý bên
....................................................................................................... 21

1.2.3.3.

Bộ phận công nghệ thông tin ........................................................ 22

1.2.3.4.

Những khách hàng có sử dụng phân tích dữ liệu ......................... 22

1.3. Các nghiên cứu về Big Data và phân tích dữ liệu kiểm toán ...................... 23
1.3.1. Các nghiên cứu về Big Data trong kiểm toán ........................................ 23
1.3.2. Các nghiên cứu về phân tích dữ liệu kiểm toán .................................... 26
KẾT LUẬN CHƯƠNG 1 .................................................................................... 30
CHƯƠNG 2: THỰC TRẠNG ẢNH HƯỞNG CỦA BIG DATA ĐẾN QUÁ

TRÌNH PHÂN TÍCH DỮ LIỆU TẠI CÁC DOANH NGHIỆP KIỂM TOÁN
CỦA VIỆT NAM ................................................................................................. 32
2.1. Sơ lược về đặc điểm hoạt động kiểm toán độc lập Việt Nam ...................... 32
2.1.1. Lịch sử hình thành và phát triển hoạt động kiểm toán độc lập Việt
Nam ................................................................................................................. 32
2.1.2. Tình hình hoạt động của KTĐL hiện nay ............................................. 34
2.1.2.1.

Số lượng, cơ cấu và loại hình công ty kiểm toán........................... 34

2.1.2.2.

Đội ngũ KTV và nhân viên chuyên nghiệp ................................... 35

2.1.2.3.

Về số lượng, cơ cấu khách hàng và doanh thu dịch vụ cung cấp . 36

2.2. Khảo sát ảnh hưởng của Big Data đến quá trình phân tích dữ liệu tại các
doanh nghiệp kiểm toán của Việt Nam............................................................... 37
2.2.1. Mục tiêu của khảo sát............................................................................. 37
2.2.2. Đối tượng khảo sát ................................................................................. 38
2.2.3. Phương pháp khảo sát ............................................................................ 38
2.3. Kết quả khảo sát ........................................................................................... 38
2.3.1. Khái niệm về Big Data............................................................................. 39
2.3.2. Những nhận định về Big Data................................................................ 45


2.3.2.1.


Big Data giúp cải thiện việc ra quyết định dựa vào số liệu ........... 45

2.3.2.2. Trọng tâm chính khi sử dụng Big Data là hướng đến khách hàng
và giảm thiểu rủi ro........................................................................................ 46
2.3.2.3. Big Data quan trọng ở sự đa dạng (variety) chứ không phải ở dung
lượng (volume) ............................................................................................... 48
2.3.2.4. Cơ cấu tổ chức trong môi trường Big Data sẽ ảnh hưởng đến
thành công của doanh nghiệp ....................................................................... 49
2.3.2.5. Thách thức nhất khi sử dụng Big Data không phải đến từ công
nghệ mà xuất phát từ con người .................................................................... 51
2.3.3. Phân tích dữ liệu kiểm toán từ Big Data ............................................... 53
2.3.4. Nguồn nhân lực trong những vấn đề liên quan đến Big Data và phân
tích dữ liệu kiểm toán....................................................................................... 58
2.3.4.1.

Nhà lãnh đạo ................................................................................. 58

2.3.4.2.

Bộ phận công nghệ thông tin ........................................................ 61

2.4. Đánh giá chung về thực trạng ..................................................................... 64
2.4.1. Ưu điểm................................................................................................... 64
2.4.2. Hạn chế ................................................................................................... 65
2.4.3. Nguyên nhân ........................................................................................... 65
2.4.3.1.

Nguyên nhân khách quan ............................................................. 65

2.4.3.2.


Nguyên nhân chủ quan ................................................................. 66

KẾT LUẬN CHƯƠNG 2 .................................................................................... 66
CHƯƠNG 3: GIẢI PHÁP NÂNG CAO TÍNH HỮU ÍCH CỦA BIG DATA VÀ
PHÂN TÍCH DỮ LIỆU KIỂM TOÁN TẠI CÁC DOANH NGHIỆP KIỂM
TOÁN CỦA VIỆT NAM ..................................................................................... 68
3.1. Quan điểm chung về giải pháp ..................................................................... 68
3.2. Các giải pháp cụ thể ...................................................................................... 69
3.2.1. Đầu tư vào nguồn nhân lực .................................................................... 69
3.2.2. Đầu tư vào cơ sở vật chất ....................................................................... 70
3.2.3. Các giải pháp hỗ trợ khác ...................................................................... 71
KẾT LUẬN CHƯƠNG 3 .................................................................................... 71
KẾT LUẬN .......................................................................................................... 72


TÀI LIỆU THAM KHẢO ................................................................................... 88
PHỤ LỤC ............................................................................................................. 88


DANH MỤC CÁC TỪ VIẾT TẮT
Tên viết tắt

Tên đầy đủ

AICPA

Hiệp hội kế toán viên công chứng Hoa Kỳ

ACCA


Hội Kế toán công chứng Anh Quốc

BCTC

Báo cáo tài chính

Big4

Nhóm 4 công ty kiểm toán hàng đầu thế giới

CMKT

Chuẩn mực kiểm toán

DNNN

Doanh nghiệp nhà nước

FRC

Hội đồng Báo cáo tài chính (Anh Quốc)

IAASB

Ủy ban Quốc tế về Chuẩn mực kiểm toán và Dịch vụ đảm bảo

ISA

Chuẩn mực kiểm toán quốc tế


ISA 240

Chuẩn mực kiểm toán quốc tế số 240

KTĐL

Kiểm toán độc lập

KTV

Kiểm toán viên

PCAOB

Ủy ban giám sát các công ty đại chúng Hoa Kỳ

VACPA

Hội Kiểm toán viên hành nghề Việt Nam


DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, SƠ ĐỒ
Hình 1.1

Số lượng tài khoản Facebook trên thế giới vào 06/2017 ................

7

Hình 1.2


Ba thành phần đặc trưng cấu thành Big Data ..................................

8

Hình 1.3
Hình 2.1

Doanh thu dự báo từ Big Data và phân tích kinh doanh toàn thế
giới từ năm 2015 đến 2020 ............................................................
Kích thước dữ liệu được xem là Big data ......................................

10
40

Hình 2.2

Dữ liệu thuộc Big Data .................................................................

41

Hình 2.3

Những tiêu chuẩn và cấu trúc được quan tâm khi nói về Big Data .

42

Hình 2.4
Hình 2.5


Những chức năng trong doanh nghiệp sử dụng Big Data và phân
tích dữ liệu ....................................................................................
Đánh giá tính phù hợp, chính xác và đúng thời điểm của dữ liệu ....

43
43

Hình 2.6

Vai trò của Big Data trong doanh nghiệp .......................................

44

Hình 2.7

Thang đo đánh giá sự thành công khi ứng dụng Big Data ..............

45

Hình 2.8

Những lợi ích mong muốn Big Data mang lại ................................

46

Hình 2.9

Những miền dữ liệu tập trung nhiều trong Big Data .......................

47


Hình 2.10

Các lĩnh vực được quan tâm trong Big Data ...................................

48

Hình 2.11

Những thách thức khi sử dụng Big Data.........................................

49

Hình 2.12

Hình 2.15

Những bộ phận trong doanh nghiệp tham gia nghiên cứu - phát
triển - ứng dụng Big Data...............................................................
Số lượng nhân viên trong đơn vị có năng lực chuyên môn về phân
tích, mô hình hóa, khai thác dữ liệu................................................
Đánh giá việc tìm kiếm nhân sự có kỹ năng về phân tích dữ liệu và
kỹ năng quản lý công nghệ thông tin, Big Data ..............................
Lợi ích Big Data mang lại cho phân tích dữ liệu ............................

Hình 2.16

Đánh giá khả năng phân tích dữ liệu của doanh nghiệp ..................

54


Hình 2.17

Các loại phân tích thường sử dụng Big Data ..................................

55

Hình 2.18

Những chức năng quan trọng khi phân tích Big Data .....................

55

Hình 2.19

Nguồn gốc các ứng dụng phân tích ................................................

56

Hình 2.20

Cách bố trí và quản lý những phát kiến mới về Big Data và phân
tích dữ liệu .....................................................................................

57

Hình 2.13
Hình 2.14

50

52
52
54


DANH MỤC CÁC BẢNG BIỂU, HÌNH VẼ, SƠ ĐỒ
Hình 2.21
Hình 2.22

Tư duy chiến lược - mối quan tâm về Big Data được thể hiện từ
cấp lãnh đạo ...................................................................................
Người chỉ đạo những vấn đề liên quan đến Big Data......................

58
58

Hình 2.25

Đánh giá khả năng sử dụng và phân tích dữ liệu để cải thiện hoặc
chuyển đổi doanh nghiệp của nhà điều hành và lãnh đạo................
Đánh giá việc tìm kiếm những nhà quản lý/giám đốc điều hành có
thể nhận dạng và tận dụng các cơ hội kinh doanh từ Big Data ........
Nguồn lực cho bộ phận công nghệ thông tin ..................................

Hình 2.26

Đánh giá khả năng tìm kiếm nhân sự có kỹ năng phân tích dữ liệu

62


Hình 2.27

Nơi tuyển dụng những nhà khoa học dữ liệu ..................................

62

Hình 2.23
Hình 2.24

59
60
61


1

PHẦN MỞ ĐẦU
1. Lý do chọn đề tài
Ngày nay, hầu như tất cả công ty điều đã nhận ra tầm quan trọng của việc sử
dụng dữ liệu trong quá trình ra quyết định thực hiện những chiến lược nhằm đáp
ứng sự thay đổi của môi trường kinh doanh mới. Bên cạnh đó, cuộc cách mạng công
nghiệp lần thứ tư (4.0), còn được gọi là cuộc cách mạng số, hàm chứa sự thay đổi
lớn lao, không chỉ ở khía cạnh kinh tế mà còn thay đổi văn hóa, xã hội một cách
toàn diện thông qua các chiến lược công nghệ cao, công nghiệp hóa ngành sản xuất
mà không cần sự tham gia của con người, sử dụng trí thông minh nhân tạo, điện
toán đám mây, phân tích dữ liệu… để chuyển hóa toàn bộ thế giới thực thành thế
giới số, khi đó những ưu thế, vốn là điểm mạnh của Việt Nam và một số nước khác,
như lực lượng lao động dồi dào, giá rẻ sẽ không còn là điểm mạnh nữa, thậm chí
còn bị đe dọa nghiêm trọng. Vì những thay đổi mang tính thời đại trong kinh doanh
hiện nay nên mỗi đơn vị, tổ chức không thể không hành động để thích ứng với

chúng, nếu doanh nghiệp biết tận dụng những thế mạnh mà công nghệ, cụ thể là dữ
liệu mang lại thì chắc chắn sẽ đạt được mục tiêu chiến lược đề ra, ngược lại việc
chậm thay đổi sẽ càng khiến doanh nghiệp mất đi khả năng cạnh tranh trên thị
trường ngày càng năng động và phát triển với tốc độ chóng mặt này.
Khi nhắc đến cuộc cách mạng công nghiệp và phân tích dữ liệu thì không thể
không nhắc đến “nguồn tài nguyên” vô cùng lớn và phong phú là Big Data, được
xem là nền tảng để tạo ra những giá trị ở tầm cao mới cho doanh nghiệp. Với lợi thế
dân số trẻ trên 90 triệu người, số người sử dụng internet cao vào khoản 54 triệu
người, chiếm 54%, Việt Nam được xem là khu vực tìm năng về Big Data hàng đầu
Châu Á. Các chuyên gia trong nhiều lĩnh vực đều cho rằng việc phân tích dữ liệu từ
Big Data sẽ giúp doanh nghiệp nắm bắt chính xác nhất xu thế vận động của ngành
từ những thông tin thu thập được như hành vi, sở thích, thói quen, xu hướng của
từng người tiêu dùng nhằm tìm kiếm những thông tin bổ ích về xu thế phát triển và


2

vận động của lĩnh vực đang kinh doanh và cả nền kinh tế, điều này sẽ giúp doanh
nghiệp ra quyết định chính xác và đúng thời điểm.
Không đứng ngoài vòng quay của sự phát triển, những doanh nghiệp kiểm toán
hiện nay cũng đang tìm cách thích ứng với những thay đổi mang lại từ cuộc cách
mạng công nghiệp 4.0, mà khởi đầu là việc nghiên cứu những dữ liệu có liên quan
từ Big Data trong cuộc kiểm toán để xác định những phương pháp kiểm toán cần
thiết và hiệu quả. Trong nhiều năm trở lại đây, các kiểm toán viên (KTV) đã có thể
dựa vào những công cụ phân tích dữ liệu tương đối phát triển nhờ công nghệ thông
tin để đưa ra kết luận, tuy nhiên với sự bùng nổ gần đây về dữ liệu thì các công cụ
hiện tại có thể không đủ, đòi hỏi phải có sự chuyển đổi trong cách xử lý và phân
tích thông tin cũng như những hiểu biết của KTV về nguồn dữ liệu Big Data là rất
quan trọng và cần thiết.
Để theo kịp xu hướng đổi mới và phát triển, các công ty kiểm toán lớn thuộc

Big Four và các hội nghề nghiệp Kế toán – Kiểm toán như ACCA, AICPA… đã có
những nghiên cứu liên quan đến vấn đề vận dụng Big Data trong kiểm toán. Tuy
nhiên tại Việt Nam, những vấn đề này hiện nay vẫn còn khá mới mẻ và ít nhận được
sự quan tâm từ phía các KTV và công ty kiểm toán. Nhận thấy tầm quan trọng, tính
thời sự của vấn đề cũng như có mong muốn hiểu rõ những khái niệm liên quan và
tìm hiểu cụ thể những ảnh hưởng mà Big Data và phân tích dữ liệu mang lại trong
quá trình kiểm toán, tác giả chọn thực hiện đề tài Luận văn: “Phân tích ảnh hưởng
của Big Data đến quá trình phân tích dữ liệu tại các doanh nghiệp kiểm toán
của Việt Nam” để xây dựng và hoàn thiện.
2. Mục tiêu nghiên cứu
Mục tiêu tổng quát của luận văn là tìm hiểu thực trạng Big Data và phân tích dữ
liệu từ Big Data tại các công ty kiểm toán của Việt Nam.
Để đạt được mục tiêu tổng quát nêu trên, luận văn đưa ra một số mục tiêu
nghiên cứu cụ thể sau:
Thứ nhất, hệ thống hóa lý luận cơ bản về ảnh hưởng của Big Data đến quá trình
phân tích dữ liệu kiểm toán.


3

Thứ hai, đánh giá thực trạng ảnh hưởng của Big Data và phân tích dữ liệu kiểm
toán đến các doanh nghiệp kiểm toán của Việt Nam.
Thứ ba, đề xuất một số phương hướng và giải pháp góp phần nâng cao khả năng
ứng dụng Big Data và phân tích dữ liệu nhằm tăng cường chất lượng kiểm toán.
3. Câu hỏi nghiên cứu
Để đạt được những mục tiêu đề ra, nghiên cứu cần trả lời những câu hỏi sau:
- Thế nào là Big Data và phân tích dữ liệu kiểm toán?
- Các doanh nghiệp kiểm toán của Việt Nam hiện nay đang sử dụng Big Data
và phân tích dữ liệu như thế nào?
- Giải pháp nào được đưa ra để vận dụng tốt nhất Big Data và phân tích dữ liệu

trong quá trình kiểm toán?
4. Đối tượng nghiên cứu
Đối tượng nghiên cứu là những ảnh hưởng của Big Data và phân tích dữ liệu
trong kiểm toán BCTC tại các công ty kiểm toán của Việt Nam.
5. Phạm vi nghiên cứu
5.1. Về nội dung
Luận văn chỉ tập trung nghiên cứu ảnh hưởng của Big Data và phân tích dữ liệu
đến hoạt động KTĐL của các doanh nghiệp kiểm toán, không nghiên cứu trong các
loại hình kiểm toán khác như kiểm toán nhà nước hay kiểm toán hoạt động.
5.2. Về không gian và thời gian
- Về không gian: các công ty kiểm toán tại Việt Nam
- Về thời gian: tác giả tiến hành khảo sát, thu thập dữ liệu từ tháng 06/2017
đến tháng 12/2017.
6. Phương pháp nghiên cứu
Để đạt mục tiêu nghiên cứu của đề tài, trả lời các câu hỏi đặt ra, nghiên cứu sử
dụng chủ yếu phương pháp định tính. Bên cạnh đó, nghiên cứu cũng sử dụng
phương pháp phân tích và tổng hợp.


4

- Phương pháp phân tích tổng hợp: khái quát lý thuyết về các vấn đề nghiên
cứu và các nghiên cứu có liên quan.
- Phương pháp định tính: được tiến hành theo hướng tìm hiểu và hệ thống hóa
những thông tin thu thập được từ những nguồn tin uy tín, những nghiên cứu của các
hiệp hội nghề nghiệp và những công ty kiểm toán lớn trên thế giới. Tác giả sử dụng
đồng thời thống kê mô tả: bao gồm việc tìm hiểu bằng bảng câu hỏi, sau đó thống
kê, so sánh, phân tích nhằm đánh giá việc áp dụng Big Data và phân tích dữ liệu
kiểm toán trong hoạt động KTĐL tại các doanh nghiệp kiểm toán của Việt Nam.
7. Những đóng góp khoa học và thực tiễn của luận văn

- Đóng góp về mặt lý thuyết: tìm hiểu những quan điểm, khái niệm liên quan
đến Big Data và phân tích dữ liệu hiện nay, qua đó đánh giá những lợi ích cũng như
thách thức khi ứng dụng Big Data và phân tích dữ liệu trong quá trình kiểm toán
của KTV tại những công ty KTĐL.
- Đóng góp về mặt thực tiễn: kết quả nghiên cứu của luận văn với một vấn đề
khá thời sự hiện nay sẽ có giá trị tham khảo cho KTV và các công ty KTĐL tại Việt
Nam, giúp họ có cái nhìn rõ ràng và cụ thể hơn về Big Data và phân tích dữ liệu
cũng như những giải pháp giúp ứng dụng Big Data và phân tích dữ liệu hiệu quả
hơn để gia tăng chất lượng kiểm toán.
8. Kết cấu của luận văn
Ngoài phần mở đầu, nghiên cứu được thiết kế gồm 3 chương:
Chương 1: Tổng quan về Big Data và phân tích dữ liệu trong kiểm toán.
Nội dung chương 1 trình bày tóm tắt những vấn đề liên quan đến Big Data và
phân tích dữ liệu cũng như những nghiên cứu gần đây về hai vấn đề này.
Chương 2: Thực trạng ảnh hưởng của Big Data và phân tích dữ liệu kiểm toán
tại các doanh nghiệp kiểm toán của Việt Nam.
Chương 2 cung cấp những số liệu cụ thể về thực trạng nhận thức và ứng dụng
Big Data và phân tích dữ liệu của các doanh nghiệp kiểm toán, từ đó nhận ra những


5

ưu điểm và hạn chế cũng như chỉ ra nguyên nhân về những vấn đề liên quan đến
Big Data và phân tích dữ liệu.
Chương 3: Giải pháp nâng cao tính hữu ích của Big Data và phân tích dữ liệu
kiểm toán tại các doanh nghiệp kiểm toán của Việt Nam.
Chương này trước hết trình bày quan điểm chung khi đưa ra những giải pháp,
sau đó đi sâu vào những giải pháp cụ thể và giải pháp hỗ trợ về những vấn đề liên
quan đến Big Data và phân tích dữ liệu nhằm mục tiêu chính nâng cao chất lượng
kiểm toán.

Kết luận


6

CHƯƠNG 1: TỔNG QUAN VỀ BIG DATA VÀ PHÂN TÍCH
DỮ LIỆU TRONG KIỂM TOÁN
1.1. Big Data
1.1.1. Tóm lược một số thay đổi trong dữ liệu
Big Data và phân tích dữ liệu hiện nay được xem là trung tâm của khoa học và
kinh doanh hiện đại, các dữ liệu này được tạo ra từ các giao dịch trực tuyến, email,
video, âm thanh, hình ảnh, những cú nhấp chuột, blog, truy vấn tìm kiếm, hồ sơ sức
khỏe, tương tác trên mạng xã hội, dữ liệu khoa học, cảm biến từ điện thoại di động
và các ứng dụng đi kèm (C.Eaton et al., 2012; RD. Schneider, 2012). Tất cả những
yếu tố trên được lưu trữ trong những nền tảng cơ sở dữ liệu đang phát triển mạnh
mẽ và càng trở nên khó nắm bắt, lưu trữ, quản lý, chia sẻ, phân tích và hình dung
thông qua các phần mềm cơ sở dữ liệu truyền thống.
5 exabytes (1018 bytes) đã được con người tạo ra đến năm 2003, nhưng hiện nay
lượng thông tin này có thể được tạo thành chỉ trong vòng hai ngày. Năm 2012, dữ
liệu số của thế giới đã được mở rộng đến 2.72 zettabytes (1021 bytes), và dự báo sẽ
tăng gấp đôi sau mỗi hai năm, đạt khoản 8 zettabytes vào khoản năm 2015. IBM,
tập đoàn công nghệ máy tính đa quốc gia của Mỹ, chỉ ra rằng mỗi ngày có 2.5
exabytes dữ liệu được tạo ra tương đương với 90% dữ liệu được tạo ra trong vòng
hai năm qua (S. Singh and N. Singh, 2011). Một máy tính cá nhân chứa khoản 500
gigabytes (109 bytes), do đó sẽ cần khoản 20 tỷ máy tính để lưu trữ tất cả dữ liệu
của thế giới. Trong quá khứ, quá trình giải mã bộ gen của con người mất khoản 10
năm, bây giờ thì việc này mất không quá một tuần. Dữ liệu đa phương tiện được dữ
kiến tăng 70% vào năm 2013 (J. Manyika et al., 2011). Chỉ Google mới có hơn một
triệu máy chủ trên toàn thế giới. Hiện đã có hơn 6 tỷ thuê bao điện thoại di động
trên thế giới và mỗi ngày có hơn một tỷ tin nhắn được gửi đi. Đến năm 2020, 50 tỷ

thiết bị sẽ được kết nối với mạng và internet (B. Gerhardt et al., 2012).
Năm 2012, hình thái dữ liệu của Big Data đã được hoàn thành với quy mô toàn
cầu, dự án tập trung thu thập thời gian, hình dung và phân tích một khối lượng lớn
dữ liệu. Theo dự án này, có rất nhiều thống kê đã được đưa ra, chẳng hạn Facebook


7

có 955 triệu tài khoản hoạt động hàng tháng bằng 70 ngôn ngữ, 140 tỷ hình ảnh
được tải lên, 125 tỷ kết nối bạn bè, mỗi ngày có 30 tỷ nội dung và 2.7 tỷ lượt thích
và bình luận được đăng tải, số lượng tài khoản Facebook vào tháng 06/2017 tại các
châu lục được thể hiện ở hình 1.1 (nguồn Internet World Stats). Mỗi phút, có 48 giờ
video được tải lên và mỗi ngày có 4 tỷ lượt xem được thực hiện trên Youtube.
Google hỗ trợ nhiều dịch vụ như giám sát 7.2 tỷ trang mạng mỗi ngày và xử lý 20
petabyte (1015 bytes) dữ liệu dịch sang 66 ngôn ngữ khác nhau. Có khoảng 1 tỷ
Tweets (những mẫu tin nhỏ dưới dạng blog – theo Wikipedia) sau mỗi 72 giờ từ
hơn 140 triệu người dùng đang hoạt động trên Twitter. 571 trang web mới được tạo
ra mỗi phút trong ngày. Dự báo trong thập kỷ tới, khối lượng thông tin sẽ tăng gấp
50 lần, tuy nhiên số lượng các chuyên gia về công nghệ thông tin theo kịp với tiến
độ phát triển đó chỉ tăng 1.5 lần (C. Tankard et al., 2012).

Hình 1.1: Số lượng tài khoản Facebook trên thế giới vào 06/2017
1.1.2. Big Data
1.1.2.1. Các vấn đề quan trọng


8

Big Data là thuật ngữ dùng cho các bộ dữ liệu có cấu trúc đa dạng và phức tạp
hơn với những khó khăn trong việc lưu trữ, phân tích và hiển thị cho các quá trình

hoặc kết quả tiếp theo. Big Data được đặc trưng bởi các thành phần chính: sự đa
dạng (variety), tốc độ (velocity) và dung lượng (volume) (Intel IT Center, 2012).
- Sự đa dạng: làm cho Big Data thật sự là nguồn dữ liệu rất lớn. Big Data
thường đến từ nhiều nguồn và thường có ba loại: có cấu trúc, bán cấu trúc và không
có cấu trúc. Dữ liệu có cấu trúc nằm trong kho dữ liệu đã được gắn thẻ và dễ dàng
sắp xếp nhưng dữ liệu phi cấu trúc là ngẫu nhiên và khó phân tích. Dữ liệu bán cấu
trúc không thích hợp cho các lĩnh vực cố định mà chứa những phần tử dữ liệu riêng
biệt.
- Dung lượng: hay kích thước của dữ liệu bây giờ lớn hơn terabytes và
petabytes. Quy mô lớn và sự gia tăng của dữ liệu vượt xa các kỹ thuật phân tích và
lưu trữ truyền thống.
- Tốc độ: nghĩa là vận tốc các dữ liệu được tạo ra và xử lý để đáp ứng các nhu
cầu và thách thức trên con đường tăng trưởng và phát triển.
Cụ thể từng thành phần được minh họa như sau:

Hình 1.2: Ba thành phần đặt trưng cấu thành Big Data
Dưới áp lực của nền thông tin phát triển, một vấn đề khác cần quan tâm là xác
minh nguồn dữ liệu, rất khó để kiểm soát một nguồn dữ liệu lớn nên cần phải quan
tâm đến bảo mật dữ liệu, thêm vào đó là sau khi tạo ra và xử lý Big Data thì sẽ tạo


9

ra một giá trị tăng thêm cho tổ chức. Có một số vấn đề được rút ra từ nghiên cứu
của TDWI – Transforming Data with Intelligence (P. Russom, 2011) được yêu cầu
cho các chuyên gia quản lý:
- Sau khi tổ chức áp dụng một số hình thức phân tích Big Data, những lợi ích
mang lại gồm: markerting tốt hơn, hiểu biết sâu sắc hơn về kinh doanh, mở rộng
nhiều phân khúc khách hàng, có nhiều thay đổi trong doanh thu và trên thị trường.
- Trong khi thực hiện phân tích Big Data, sẽ phát sinh nhiều rào cản: sự thiếu

chuyên môn, chi phí, khó khăn trong thiết kế hệ thống phân tích, thiếu những phần
mềm cơ sở để phân tích. Big Data không chỉ là cơ hội vì sự phân tích toàn diện
trong hiện tại và tương lai mà còn là rào cản vì rất khó tiếp cận và quản lý.
- Big Data hiện nay đang được lưu trữ và sử dụng với những kỹ thuật tiên tiến
gồm: có cấu trúc, bán cấu trúc, phức hợp, dữ liệu sự kiện và không cấu trúc.
- Khi thay đổi nền tảng phân tích, những vấn đề có thể xảy ra: không phù hợp
với một dung lượng dữ liệu lớn, không thể hỗ trợ các mô hình phân tích cần thiết,
dữ liệu được tải quả chậm, công nghệ thông tin không thể bắt kịp với nhu cầu.
Có thể thấy từ nghiên cứu này rằng phân tích Big Data vẫn cần rất nhiều sự
quan tâm, ngoại trừ tính đa dạng, dung lượng lớn và tốc độ vượt trội thì việc phân
tích Big Data còn mang lại tiềm năng mở ra những hiểu biết mới giúp tối ưu hóa
việc ra quyết định. Cần hiểu rằng Big Data không phải là công cụ dành riêng cho
các doanh nghiệp lớn, “big” ở đây không chỉ lớn đo bằng số lượng mà còn chỉ độ
sâu của việc phân tích, nghĩa là không kể doanh nghiệp thu thập được bao nhiêu số
liệu, quan trọng là sẽ làm gì với những số liệu đó, phân tích như thế nào để mang lại
lợi ích tốt nhất trong hoạt động của chính doanh nghiệp. Hình 1.2 thể hiện thống kê
dự báo doanh thu cho ngành công nghiệp Big Data và phân tích kinh doanh trên
toàn cầu từ 2015-2020 (tỷ đô la Mỹ) do trang Statistics Portal thực hiện.


10

Hình 1.3: Doanh thu dự báo từ Big Data và phân tích kinh doanh toàn thế
giới từ năm 2015 đến 2020 (tỷ đô la Mỹ)
1.1.2.2. Những yếu tố tạo nên Big Data
Theo ICAEW (2015), xu hướng của Big Data được thúc đẩy bởi các yếu tố:
năng lực tính toán, các nguồn dữ liệu mới và cơ sở hạ tầng để tạo ra dữ liệu. Ba yếu
tố này tạo ra những tiến bộ đáng kể trong việc hình thành và phát triển Big Data:
- Năng lực tính toán: năng lực cốt lõi của Big Data là sự tăng trưởng mạnh mẽ
về năng lực tính toán và khả năng lưu trữ trong những năm gần đây, giúp thu thập

và xử lý toàn bộ bộ dữ liệu, bất kể kích thước và độ phức tạp của chúng, điều này
thường được mô tả như sự tăng trưởng theo cấp số nhân trong năng lực tính toán.
Mô hình điện toán đám mây đang tiếp tục hỗ trợ trong việc sử dụng rộng rãi Big
Data, cụ thể điện toán đám mây dựa trên mô hình chia sẻ tài nguyên máy tính trong
toàn bộ doanh nghiệp (đám mây riêng) hay giữa một số khách hàng với nhau (đám
mây công cộng). Bằng việc sử dụng điện toán đám mây, doanh nghiệp không cần
phải mua tất cả tài nguyên máy tính để sử dụng mà chỉ đơn giản là truy cập vào đám


11

máy đó khi cần thiết. Do đó, mô hình điện toán đám mây có khả năng cung cấp cho
doanh nghiệp quyền truy cập vào các tài nguyên máy tính lớn một cách hiệu quả và
linh hoạt. Những tiến bộ về phần mềm cũng mang lại sự phát triển về khả năng xử
lý và lưu trữ dữ liệu, chẳng hạn các loại phần mềm mới hỗ trợ cho những dữ liệu
lớn và không có cấu trúc tốt hơn so với các hệ thống quản lý cơ sở dữ liệu truyền
thống (ví dụ: phần mềm Apache Hadoop giúp quản lý bộ dữ liệu rất lớn bằng cách
chia tách việc xử lý giữa nhiều máy tính với nhau), bên cạnh đó khả năng xử lý dữ
liệu phi cấu trúc (như video hay văn bản) đã được cải thiện rất nhiều, các công cụ
phục vụ cho việc trình bày dữ liệu cũng đang có những tiến triển đáng kể.
- Nguồn dữ liệu: sự gia tăng sức mạnh tính toán làm tăng tính khả thi trong
việc thu thập và xử lý dữ liệu từ nhiều nguồn mới, chẳng hạn từ internet cung cấp
rất nhiều dữ liệu từ những cú nhấp chuột thông qua các tìm kiếm, các truy cập vào
các trang web để mua hàng hóa, dịch vụ; truyền thông xã hội cũng tạo ra nhiều loại
dữ liệu mới bao gồm các trạng thái, bình luận, lượt thích, hình ảnh, video và mạng
lưới liên lạc; công nghệ di động đang mang lại nhiều cơ hội để tạo ra truyền thông
xã hội và dữ liệu interet cũng như những dữ liệu mới về định vị cá nhân; dữ liệu mở
đề cập đến số lượng lớn dữ liệu chủ yếu từ khu vực công, chẳng hạn như dữ liệu
không gian địa lý, dữ liệu vận chuyển, dữ liệu tài chính của chính phủ và dữ liệu
dịch vụ công; “internet of things” là việc nhúng chíp máy tính và cảm biến vào các

thiết bị vật lý như máy móc, tòa nhà, đồ gia dụng, quần áo… tất cả đều tạo ra dữ
liệu. Khi doanh nghiệp ngày càng sử dụng công nghệ số trong các lĩnh vực như bán
hàng, marketing, quản lý khách hàng, chuỗi cung ứng, truyền thông nội bộ… thì
lượng dữ liệu bên trong được tạo ra sẽ tăng lên đáng kể, hơn nữa, những cải tiến
trong quản lý dữ liệu bán cấu trúc, phi cấu trúc cho phép doanh nghiệp tận dụng tốt
hơn nguồn dữ liệu hiện có và mới như email, văn bản, hình ảnh và giọng nói.
- Cơ sở hạ tầng kỹ thuật số cho phép tạo ra các hợp tác và sáng tạo kiến thức
mới, được minh chứng thông qua các xu hướng crowdsourcing - là hình thức một
công ty hay tổ chức giao việc cho mạng lưới cộng tác viên gia công theo hình thức
“mời gọi rộng rãi”, việc này có thể tiến hành theo hình thức đồng thực hiện (khi


12

công việc có tính cộng tác), nhưng cũng có thể thực hiện bởi từng cá nhân riêng lẻ
(Jeff Howe, 2006) và phần mềm nguồn mở. Việc chia sẻ kiến thức này đã mang lại
cho cộng đồng những hiểu biết sâu sắc hơn về những dữ liệu từ những nơi hạn chế
tiếp cận, từ những chuyên gia trong các lĩnh vực cụ thể… Hiện nay các nghiên cứu
ứng dụng đang được nhấn mạnh, chẳng hạn trong dịch thuật ngôn ngữ, người ta cho
rằng sẽ không hiệu quả nếu chỉ dịch từng từ sang từ vì trong nhiều trường hợp một
từ duy nhất có thể chuyển sang một số từ, kết quả là các nghiên cứu ứng dụng đã
cho ra đời việc dịch cụm từ sang cụm từ và đây là cách tiếp cận thông minh hơn rất
nhiều. Do đó, tiến bộ đến từ sự hiểu biết mới về các vấn đề cụ thể chứ không nhất
thiết là những đột phá trong lý thuyết chung.
1.1.2.3. Các lĩnh vực thuộc Big Data
Học viện McKinsey Global đã xác định tiềm năng của Big Data tồn tại chủ yếu
trong năm lĩnh vực chính sau:
- Chăm sóc sức khỏe: hệ thống hỗ trợ các quyết định lâm sàn, phân tích bệnh
án, phân phối thuốc cho từng bệnh nhân, trả lương dựa trên hiệu quả của nhân viên
y tế, phân tích mẫu bệnh, cải thiện sức khỏe cộng đồng.

- Khu vực công: tạo sự minh bạch thông qua các dữ liệu có thể tiếp cận được,
phát hiện nhu cầu mới, nâng cao hiệu suất công việc, ra quyết định dựa trên các hệ
thống tự động để giảm chi phí, đổi mới các sản phẩm và dịch vụ cung cấp.
- Bán lẻ: phân tích hành vi dự trữ hàng, đa dạng và tối ưu hóa giá, thiết kế lại
việc sắp xếp sản phẩm, cải thiện hiệu suất, tối ưu hóa đầu vào lao động, phân phối
sản phẩm và hậu cần, tiếp thị dựa trên công nghệ mới.
- Sản xuất: dự báo nhu cầu cải tiến, quy hoạch chuỗi cung ứng, hỗ trợ bán
hàng, phát triển hoạt động sản xuất, áp dụng tìm kiếm trên các trang web.
- Dữ liệu vị trí cá nhân: hành trình thông minh, quảng cáo nhắm vào vị trí địa
lý hoặc tình huống khẩn cấp, quy hoạch đô thị, mô hình kinh doanh mới.
Các Website cung cấp nhiều cơ hội cho Big Data, chẳng hạn phân tích mạng xã
hội từ những người tiêu dùng nhằm mục tiêu quảng cáo sản phẩm, thực hiện các
chiến dịch marketing, xác định hành vi của khách hàng dựa vào các mô hình mua và


13

phân tích tâm lý, từ những kết luận thu được, các công ty sẽ tối ưu hóa nội dung và
các đề nghị được đưa ra (A.Vailaya, 12/2012, p.24-31). Một số công ty như Google
hay Amazon xuất bản các bài báo liên quan đến công việc của họ, Facebook,
Twitter và Linkedln đang tiến thêm một bước nữa khi xuất bản các dự án mã nguồn
mở cho các dữ liệu lớn như Cassandra, Hive, Pig, Voldemort, Storm, IndexTank.
Ngoài ra, các phân tích dự đoán về lưu lượng giao thông hoặc xác định các mối đe
dọa từ các nguồn cấp video, âm thanh và dữ liệu khác nhau cũng là lợi thế của Big
Data (B.Gerhardt et al., 2012).
1.1.2.4. Phương pháp thu thập và truy xuất kiến thức từ Big Data
Hầu hết các doanh nghiệp điều phải đối mặt với nhiều dữ liệu mới, có nhiều
hình thức khác nhau và Big Data có tiềm năng cung cấp các thông tin chi tiết để có
thể chuyển đổi mọi doanh nghiệp. Big Data đã tạo ra một ngành công nghiệp mới
hỗ trợ chẳng hạn như MapReduce - là một khuôn khổ được lập trình bởi Google sử

dụng phương pháp chia nhỏ và chiếm giữ để giải quyết các vấn đề dữ liệu phức tạp
thành các đơn vị làm việc nhỏ và xử lý chúng song song nhau (S. Curry et al.,
2013).
Việc truy xuất kiến thức từ Big Data được hiểu là việc thực hiện một số thao tác
được thiết kế trước để lấy thông tin từ bộ dữ liệu phức tạp (E. Belogi and J. Horey,
2012). Quá trình này được miêu tả trải qua những bước cơ bản như:
- Xác định các miền ứng dụng của thông tin và mục đích của quá trình từ quan
điểm của khách hàng;
- Tạo điểm dữ liệu con cho việc khám phá tri thức;
- Loại bỏ nhiễu, xử lý dữ liệu thiếu, thu thập thông tin cần thiết đến mô hình
và tính toán thông tin về thời gian và các thay đổi cần thiết;
- Tìm kiếm các thuộc tính hữu ích để trình bày dữ liệu tùy thuộc vào mục đích
của công việc;
- Lập bảng đồ mục tiêu cho từng phương pháp khai thác dữ liệu cụ thể;
- Chọn các thuật toán khai thác dữ liệu và phương pháp tìm kiếm các mẫu dữ
liệu;


14

- Nghiên cứu các dạng thể hiện của dữ liệu;
- Quay lại bất kỳ các bước kể trên, có thể lặp lại từng bước một, bao gồm việc
chọn lại hình thức hiển thị hay chọn lại mẫu;
- Sử dụng thông tin trực tiếp, kết hợp với những thông tin từ những hệ thống
khác hoặc chỉ đơn giản là đăng ký vào hệ thống và nhận kết quả.
1.1.3. Các vấn đề về quản lý và an ninh dữ liệu
Vào tháng 05 năm 2012, trung tâm công nghệ thông tin Intel đã khảo sát 200
nhà quản lý công nghệ thông tin trong các công ty lớn để tìm ra cách họ tiếp cận với
việc phân tích Big Data (Intel IT Center, 2012). Các nhà quản lý công nghệ thông
tin khi được hỏi về những tiêu chuẩn mà họ muốn xem xét để phân tích Big Data thì

câu trả lời thu được bao gồm những vấn đề như: bảo mật dữ liệu, công nghệ để sở
hữu dữ liệu khách hàng, minh bạch dữ liệu, các tiêu chuẩn đo lường hiệu quả, khả
năng tương tác giữa dữ liệu và hệ thống.
Khi những kẻ tấn công mạng phá vỡ những tuyến phòng thủ truyền thống của
dữ liệu sẽ đòi hỏi các tổ chức cần áp dụng những mô hình an ninh theo hướng thông
minh, có nhiều nhận thức về rủi ro hơn, thay đổi nhanh chóng theo ngữ cảnh. Hệ
thống an ninh thông minh được phát triển từ việc phân tích Big Data, liên quan đến
cả bề rộng của nguồn dữ liệu và chiều sâu của thông tin cần thiết để xác định chính
xác rủi ro nhằm chống lại các hoạt động bất hợp pháp và các mối đe dọa trực tuyến
phát triển khác. Một mô hình bảo mật dữ liệu thường có các đặc điểm sau: (S. Curry
et al., 2013)
- Các nguồn dữ liệu bên trong và bên ngoài đều có thể tạo giá trị và mang lại
hiệu quả;
- Các công cụ tự động thu thập nguồn dữ liệu đa dạng và chuẩn hóa chúng;
- Các công cụ phân tích xử lý một khối lượng lớn dữ liệu luôn thay đổi nhanh
chóng trong thời gian hạn chế;
- Hệ thống giám sát liên tục phân tích các nguồn tài nguyên có giá trị cao và
xem xét chúng dựa trên các mô hình về hành vi và rủi ro;


15

- Kiểm soát hoạt động như là xác thực người dùng bổ sung, ngăn chặn truyền
tải dữ liệu hoặc rút gọn việc ra quyết định;
- Các nhà phân tích an ninh có thể truy vấn được những dữ liệu liên quan;
- Chuẩn hóa những tiêu chuẩn về an ninh dưới dạng văn bản hoặc được chia sẻ
thông qua những nguồn đáng tin cậy;
- Mở rộng cơ sở hạ tầng có khả năng xử lý các tìm kiếm lớn và phức tạp;
- Mức độ tích hợp cao của các công cụ quản lý rủi ro và bảo mật để phát hiện
các vấn đề tiềm ẩn.

- Để phát triển cách tiếp cận toàn diện và chắc chắn đối với Big Data thì khi
bắt đầu quản lý dự án, các công ty cần thiết lập và mô tả chi tiết nguồn gốc dữ liệu,
tạo và truy cập các ủy quyền cũng như phân loại các phát hiện theo tầm quan trọng
của chúng, bên cạnh đó cần đảm bảo các hồ sơ dữ liệu được lưu trữ và bảo vệ theo
đúng quy định, nên phát triển các chính sách liên quan đến quy trình xử lý dữ liệu,
chẳng hạn như kiểu dữ liệu được lưu trữ, thời gian lưu trữ, kho lưu trữ và các kiểu
truy cập vào dữ liệu (C. Tankard, 2012).
Một vấn đề khác cũng đáng quan tâm đó là khi lưu trữ dữ liệu tại một địa chỉ
duy nhất sẽ phát sinh nguy cơ dữ liệu bị tấn công, do đó đòi hỏi kho dữ liệu cần có
những hoạt động kiểm soát thích hợp. Để chắc chắn việc truyền thông an toàn nên
áp dụng mã bảo mật và sử dụng nguyên tắc giảm đặc quyền, đặc biết đối với quyền
truy cập, ngoại trừ quản trị viên có quyền truy cập dữ liệu để xử lý các vấn đề phát
sinh theo quy định.
Để kiểm soát truy cập hiệu quả dữ liệu nên liên tục quan sát và thay đổi vai trò
của các tổ chức, nhân viên để hạn chế sự lạm dụng những quyền hạn không chính
đáng. Các công ty nên đầu tư vào các sản phẩm bảo mật đảm bảo bằng cách sử
dụng những công nghệ phân tích nhanh chóng thay vì những thiết bị cố định. Ngoài
ra, các tổ chức cần xem xét phân nhánh pháp lý để lưu trữ dữ liệu nhằm tuân thủ
quy định của luật bảo vệ dữ liệu (C. Tankard, 2012 và M. Smith et al., 2012 và S.
Curry et al., 2013). Tuy nhiên cũng cần nói thêm là Big Data có lợi thế lớn về an
ninh vì khi các tổ chức phân loại dữ liệu, họ kiểm soát bằng những quy định đặc


×