Tải bản đầy đủ (.pdf) (83 trang)

Công nghệ big data và ứng dụng phân tích số liệu kinh doanh của tập đoàn viettel

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.22 MB, 83 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN HỮU THẢO THUẬN

CÔNG NGHỆ BIG DATA
VÀ ỨNG DỤNG PHÂN TÍCH SỐ LIỆU KINH DOANH
CỦA TẬP ĐOÀN VIETTEL

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)

HÀ NỘI - 2016


HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
---------------------------------------

NGUYỄN HỮU THẢO THUẬN

CÔNG NGHỆ BIG DATA
VÀ ỨNG DỤNG PHÂN TÍCH SỐ LIỆU KINH DOANH
CỦA TẬP ĐOÀN VIETTEL
CHUYÊN NGÀNH : HỆ THỐNG THÔNG TIN
MÃ SỐ:

0

60.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT


(Theo định hướng ứng dụng)

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN ĐÌNH HÓA

HÀ NỘI - 2016


i

LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai
công bố trong bất cứ công trình nào.
TÁC GIẢ

Nguyễn Hữu Thảo Thuận


ii

LỜI CẢM ƠN
Qua luận văn này Tôi xin chân thành cảm ơn TS.Nguyễn Đình Hóa - Khoa
Công nghệ thông tin - Học viện Công nghệ Bưu chính Viễn thông đã tận tình giúp
đỡ, động viên, định hướng, hướng dẫn Tôi nghiên cứu và hoàn thành luận văn này.
Tôi xin cảm ơn các thầy cô giáo trong Học viện Công nghệ Bưu chính Viễn thông,
các thầy cô giáo khoa Công nghệ thông tin Học viện Công nghệ Bưu chính Viễn
thông, đã giảng dạy và giúp đỡ Tôi trong hai năm học qua, cảm ơn sự giúp đỡ nhiệt
tình của các bạn đồng nghiệp.
Trong quá trình nghiên cứu của mình, mặc dù được sự hướng dẫn rất nhiệt
tình, đầy trách nhiệm của TS. Nguyễn Đình Hóa và các thầy cô giáo trong Học viện

Công nghệ Bưu Chính Viễn thông cùng với sự nỗ lực của cá nhân nhưng cũng
không thể tránh được những thiếu sót. Tác giả chân thành mong nhận được những ý
kiến đóng góp từ quý Thầy, Cô và các bạn bè đồng nghiệp.
Trân trọng cám ơn.
Tác giả.


iii

MỤC LỤC
LỜI CAM ĐOAN……….. ......................................................................................... i
LỜI CẢM ƠN………. ............................................................................................... ii
DANH MỤC VIẾT TẮT………. ...............................................................................v
DANH MỤC BẢNG BIỂU………..…. ................................................................... vi
DANH MỤC HÌNH VẼ……… ............................................................................... vii
TỔNG QUAN VỀ BIG DATA ........................................................3
Khái niệm về Big data ....................................................................................3
Các đặc tính của việc xử lý Big Data .............................................................4
Ứng dụng Big Data trong tài chính ngân hàng, bảo hiểm .......................6
Thương mại .............................................................................................8
Hiện trạng khai thác Big Data trên thế giới và ở Việt Nam...........................8
Tổng quan về các giải pháp Big Data ..........................................................11
Google Cloud Platform..........................................................................11
Amazon EMR ........................................................................................16
Apache Hadoop .....................................................................................26
Kết luận chương 1 ........................................................................................27
CÔNG NGHỆ APACHE HADOOP ..............................................28
Giới thiệu về Hadoop ...................................................................................28
Các trình nền của Hadoop ............................................................................32
NameNode .............................................................................................32

DataNode ...............................................................................................33
Secondary NameNode ...........................................................................33
JobTracker .............................................................................................34
TaskTracker ...........................................................................................34
Kiến trúc tổng thể Hadoop ...........................................................................35
Hệ thống tập tin phân tán Hadoop (HDFS) ...........................................38
Hadoop MapReduce ..............................................................................42
Hệ sinh thái các sản phẩm đi kèm Hadoop ..................................................47
Kết luận chương 2 ........................................................................................50
ỨNG DỤNG ...................................................................................52
Đặt vấn đề bài toán ứng dụng ......................................................................52
Xây dựng hệ thống .......................................................................................55


iv

Mô hình kiến trúc tổng thể ....................................................................55
Mô tả dữ liệu đầu vào ..................................................................................59
Kết quả chương trình ...................................................................................60
Trung tâm GPCNTT Viettel ..................................................................60
Đánh giá chương trình .................................................................................69
Kết luận chương 3 ........................................................................................71
KẾT LUẬN…… .......................................................................................................72
TÀI LIỆU THAM KHẢO .........................................................................................73


v

DANH MỤC TỪ VIẾT TẮT
STT


1
2

Từ viết tắt
BI

minh hóa doanh nghiệp)
Big Data

Dữ liệu lớn

CDR

Call Detail Record (Bản ghi chi tiết cuộc
gọi)

3
CRM
4
5
6

Data mining

Khai phá dữ liệu

Data set

Tập dữ liệu


ERP

Enterprise Resource Planning (Lập kế
hoạch nguồn lực doanh nghiệp)

IoT

Internet Of Things (Internet vạn vật)

MIS

Management Inventory System (Hệ thống

9
10

báo cáo điều hành)
MultiMedia

Đa phương tiện

OLTP

Online transaction processing (Xử lý giao
dịch trực tuyến)

11
OSS
12


Operating support system (Hệ thống hỗ trợ
vận hành)

PAY-AS-YOU13

Customer Relationship Management (Hệ
thống quản lý quan hệ khách hàng)

7
8

Ý nghĩa
Business Intelligence (Hệ thống thống

Dùng đến đâu trả đến đấy

GO

14

PB

Petabytes

15

TB

Terabyte


vRTAP
16
17

(1 terabyte = 1 ngàn tỷ byte)

Viettel Realtime Analytic Processing (Xử
lý phân tích thời gian thực)

ZB

Zetabyte

(1 zetabyte = 1 ngàn tỷ tỷ byte )


vi

DANH MỤC CÁC BẢNG BIỂU
Bảng 3.1Bảng đánh giá hệ thống ..............................................................................69


vii

DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Thống kê các nguồn dữ liệu hiện nay ..........................................................4
Hình 1.2 Biểu đồ google trends về sự quan tâm tới các sản phẩm phân tích dữ liệu
trên thế giới .........................................................................................................9
Hình 1.3 Nhà cung cấp dịch vụ lập kế hoạch đầu tư vào Big Data và phân tích sâu

...........................................................................................................................10
Hình 1.4 Mô hình kiến trúc mẫu hệ thống Big Data của google ..............................12
Hình 1.5 Mô hình kiến trúc tích hợp Amazon webservice điển hình ........................18
Hình 2.1 Mô hình Hadoop lưu trữ dữ liệu phân tán trên hệ thống Hadoop
Distributed File System (HDFS) .......................................................................30
Hình 2.2 Mô hình Hadoop xử lý dữ liệu song song và phân tán trên các nút ..........30
Hình 2.3 Tương tác giữa JobTracker và TaskTracker .............................................34
Hình 2.4 Cấu trúc liên kết của một nhóm Hadoop điển hình ...................................35
Hình 2.5 Mô hình kiến trúc tổng quát của Hadoop ..................................................36
Hình 2.6 Sơ đồ kiến trúc hệ thống HDFS .................................................................39
Hình 2.7 Sơ đồ quá trình client đọc một file trên HDFS ..........................................40
Hình 2.8 Sơ đồ quá trình ghi file trên HDFS ............................................................41
Hình 2.9 Sơ đồ thành phần Map Reduce ..................................................................42
Hình 2.10 Sơ đồ luồng hoạt động Map Reduce ........................................................44
Hình 2.11 Sơ đồ luồng hoạt động của Map ..............................................................45
Hình 2.12 Sơ đồ luồng hoạt động của Reduce ..........................................................46
Hình 2.13 Sơ đồ luồng thông báo TaskTracker hoàn thành Reduce Task................47
Hình 2.14 Hình vẽ hệ sinh thái các sản phẩm trên Hadoop .....................................48
Hình 3.1 Mô hình kiến trúc tổng thể hệ thống xử lý số liệu kinh doanh ...................55
Hình 3.2 Hình vẽ vào chức năng xem biểu đồ ..........................................................60
Hình 3.3 Hình vẽ màn hình tìm kiếm ........................................................................61
Hình 3.4 Hình vẽ vào chức năng xem biểu đồ ..........................................................61
Hình 3.5 Hình vẽ kết quả xem biểu đồ ......................................................................62
Hình 3.6 Hình vẽ vào chức năng xem biểu đồ ..........................................................63


viii

Hình 3.7 Hình vẽ vào chức năng xem biểu đồ ..........................................................63
Hình 3.8 Hình vẽ vào chức năng xem biểu đồ ..........................................................64

Hình 3.9 Hình vẽ kết quả chức năng xem biểu đồ ....................................................64
Hình 3.10 Hình vẽ vào chức năng xem biểu đồ ........................................................65
Hình 3.11 Hình vẽ vào chức năng xem biểu đồ ........................................................65
Hình 3.12 Hình vẽ vào chức năng xem biểu đồ ........................................................66
Hình 3.13 Hình vẽ kết quả chức năng xem biểu đồ ..................................................66
Hình 3.14 Hình vẽ vào chức năng xem biểu đồ ........................................................67
Hình 3.15 Hình vẽ vào chức năng xem biểu đồ ........................................................67
Hình 3.16 Hình vẽ vào chức năng xem biểu đồ ........................................................68
Hình 3.17 Hình vẽ kết quả xem biểu đồ ....................................................................68


1

MỞ ĐẦU
Ngày nay, sự phát triển của Internet đã làm thay đổi mạnh mẽ cách thức hoạt
động của các tổ chức. Các ứng dụng Web 2.0, mạng xã hội, điện toán đám mây đã
một phần mang lại cho các tổ chức phương thức kinh doanh mới. Số lượng người sử
dụng máy tính và các tài nguyên trực tuyến để xử lý công việc, giải trí, ... ngày càng
tăng nhanh. Đặc biệt dữ liệu được tạo ra và truyền tải trên internet là vô cùng lớn,
cụ thể: dữ liệu trên thế giới tăng gấp đôi sau mỗi 2 năm. Google có hơn 3 triệu máy
chủ để xử lý hơn 1,7 nghìn tỷ lượt tìm kiếm trong một năm, các trung tâm dữ liệu
tiêu thụ gần 1,5% điện năng trên toàn thế giới, có 571 website mới được tạo ra sau
mỗi phút, dự đoán sẽ có 1/3 lượng dữ liệu trên thế giới sẽ được lưu trữ và truyền tải
thông qua "đám mây" vào năm 2020, Twitter xử lý 7 TB dữ liệu mỗi ngày,
Facebook xử lý 10 TB dữ liệu mỗi ngày, có 750 triệu bức ảnh được đăng tải lên
Facebook mỗi 2 ngày, có hơn 247 tỷ email được gửi đi mỗi ngày, gần 80% email là
thư rác, số lượng tin nhắn văn bản được gửi và nhận mỗi ngày vượt qua số lượng
con người trên hành tinh này, 48 giờ video được đăng tải lên YouTube mỗi phút,
tương đương lượng nội dung số dài 8 năm mỗi ngày[1].
Trong kỷ nguyên của IoT, các cảm biến được nhúng vào trong các thiết bị di

động như điện thoại di động, ô tô, và máy móc công nghiệp,… việc chuyển dữ liệu
định kỳ hoặc liên tục từ chiếc xe bạn lái về máy chủ tại chính hãng không còn là
chuyện viễn tưởng nữa. Vấn đề chỉ còn là xử lý: kích thước, tốc độ, phương thức xử
lý và kết quả đầu ra. Ford, GE hay Rolls Royce cùng rất nhiều hãng xe hơi khác
đang đầu tư vào IoT. Điều tương tự cũng xuất hiện ở nhiều ngành khác, vốn là kịch
bản tất yếu của khái niệm vạn vật kết nối. Hệ quả tất yếu là khối lượng dữ liệu số
đang phình to ra với tốc độ chóng mặt. Khối lượng dữ liệu mới được tạo ra nhiều và
nhanh đến mức mà hai năm gần đây nhất chiếm đến 90% khối lượng dữ liệu trên
thế giới hiện nay. Những dữ liệu này tới từ mọi nơi. Ví dụ như từ những chiếc cảm
biến để thu thập thông tin thời tiết, những thông tin được cập nhật trên các trang
web mạng xã hội, những bức ảnh và video kỹ thuật số được đưa lên mạng, dữ liệu


2

giao dịch của các hoạt động mua sắm trên mạng... dưới mọi hình thức khác nhau (có
cấu trúc, phi cấu trúc, bán cấu trúc).
Theo một báo cáo của IDC, năm 2011, lượng dữ liệu được tạo ra trên thế
giới là 1.8 ZB (ngìn tỷ tỷ byte), tăng gần 9 lần chỉ trong 5 năm. Năm 2012 là 2.8
ZB. Dự báo đến năm 2020 là 40 ZB. Dưới sự bùng nổ này, thuật ngữ Big Data được
sử dụng để chỉ những bộ dữ liệu khổng lồ, chủ yếu không có cấu trúc, được thu thập
từ nhiều nguồn khác nhau. Với những tác động trong việc khám phá giá trị tiềm ẩn
to lớn, Big Data đang được xem là một yếu tố mới quan trọng mang lại lợi ích cho
các tổ chức trong nhiều lĩnh vực khác nhau. Các chuyên gia tài chính đánh giá đầu
tư vào Big Data sẽ là yếu tố then chốt để đạt được lợi thế cạnh tranh. Chính vì
những lợi ích to lớn mà Big Data có thể mang lại, nhiều tổ chức đã đầu tư mạnh vào
việc nghiên cứu và ứng dụng vào xử lý khai thác Big Data [1].
Tại Tập đoàn Viễn thông Quân đội Viettel, cùng với việc mở rộng mạng lưới
kinh doanh dịch vụ viễn thông toàn cầu, khối lượng dữ liệu tăng trưởng rất mạnh.
Đặc biệt là số liệu kinh doanh: hóa đơn điện tử, giao dịch đấu nối, dữ liệu cước, …

Việc đầu tư vào nghiên cứu ứng dụng công nghệ Big Data để đưa ra các quyết định
kinh doanh kịp thời và chính xác là rất cần thiết.
Từ nhu cầu thực tế đó, tác giả quyết định chọn đề tài “Công nghệ Big Data
và ứng dụng phân tích số liệu kinh doanh của Tập đoàn Viettel” cho luận văn
tốt nghiệp với mục đích nghiên cứu công nghệ Big Data và giải quyết bài toán xử lý
số liệu kinh doanh tại Viettel.
Luận văn của Tác giả gồm có 3 chương với nội dung cơ bản sau:
Chương 1: Làm rõ định nghĩa Big Data và hiện trạng ứng dụng khai thác xử
lý Big Data ở Việt Nam và trên thế giới. Giới thiệu tổng quan về 3 giải pháp Big
Data. Đề xuất sử dụng công nghệ Apache Hadoop để xây dựng module xử lý số liệu
kinh doanh của Viettel.
Chương 2: Trình bày chi tiết công nghệ Hadoop.
Chương 3: Trình bày xây dựng ứng dụng xử lý số liệu kinh doanh tại
Viettel.


3

TỔNG QUAN VỀ BIG DATA
Khái niệm về Big data
Big Data là một thuật ngữ dùng để mô tả các bộ dữ liệu có kích thước rất
lớn, khả năng phát triển nhanh, rất khó thu thập, lưu trữ, quản lý và phân tích với
các công cụ thống kê hay ứng dụng cơ sở dữ liệu truyền thống. Big Data rất quan
trọng với các tổ chức, doanh nghiệp. Dữ liệu ngày một lớn và nhiều sẽ giúp các
phân tích càng chính xác hơn. Việc phân tích chính xác này sẽ giúp doanh nghiệp
đưa ra các quyết định giúp tăng hiệu quả sản xuất, giảm rủi ro và chi phí [2].
Big Data có thể bao gồm ba nhóm kiểu dữ liệu.
Thứ nhất là dữ liệu của các hệ thống doanh nghiệp truyền thống bao gồm các
dữ liệu từ hệ thống CRM, các giao dịch của hệ thống ERP, các dữ liệu kế toán….
Thứ hai là dữ liệu máy tạo ra/ Dữ liệu từ các thiết bị cảm biến: Bao gồm

CDR, các dữ liệu ghi log thiết bị, …
Thứ ba là dữ liệu mạng xã hội (Social data): bao gồm các dữ liệu được sinh
ra từ quá trình sử dụng mạng xã hội của người dùng như: hình ảnh, video, thông tin
trên Facebook, Twitter, …


4

Hình 1.1 Thống kê các nguồn dữ liệu hiện nay[2]

Các đặc tính của việc xử lý Big Data
Nói đến Big Data người ta thường nói đến bốn chữ “V” thể hiện đặc trưng
của Big Data.
Thứ nhất là độ lớn dữ liệu (volume), nghĩa là dữ liệu sinh ra tự động có số
lượng nhiều hơn rất nhiều so với dữ liệu truyền thống. Dữ liệu có thể sinh ra hàng
TB trong thời gian ngắn và dữ liệu lưu trữ có thể lên đến PB. Cách đây vài năm,
việc lưu trữ dữ liệu lớn là một vấn đề khó khăn. Tuy nhiên hiện nay, với việc phần
cứng ngày càng rẻ cộng thêm công nghệ lưu trữ đám mây thì việc xác định giá trị
cần thiết từ tập dữ liệu lớn mới là vấn đề cốt yếu.
Thứ hai là tốc độ xử lý dữ liệu (Velocity), tức là dữ liệu lớn không đồng
nghĩa với xử lý chậm. Ngày nay các hệ thống Mutilmedia cần xử lý nhanh và có
phản hồi chấp nhận được với người dùng. Trong việc xử lý dữ liệu lớn luôn cần
quan tâm đến Tốc độ xử lý dữ liệu.
Thứ ba là tính đa dạng dữ liệu (variety), tức là với việc thu thập từ nhiều
nguồn dữ liệu khác nhau (web, mobile…), Big Data không chỉ có dữ liệu kiểu
truyền thống dạng lược đồ cấu trúc mà ngày nay còn có nhiều loại dữ liệu khác như


5


dạng image, video và các cấu trúc dữ liệu phức tạp khác. Big Data có thể xử lý dữ
liệu có cấu trúc, phi cấu trúc và bán cấu trúc.
Thứ tư là giá trị (value), đây là đặc trưng quan trọng nhất của Big Data, đề
cập đến quá trình trích xuất các giá trị to lớn đang tiềm ẩn trong các bộ dữ liệu
khổng lồ.
Ứng dụng của Big Data
Big Data và các ứng dụng có liên quan đang ngày càng được sử dụng rộng
rãi trong các tổ chức, trong các lĩnh vực khác nhau, nhằm giảm thiểu các rủi ro, hỗ
trợ tổ chức trong việc quản lý các hoạt động hằng ngày cũng như ra quyết định.
Như đã nói ở trên, vấn đề không phải chúng ta thu thập được bao nhiêu dữ liệu mà
là sẽ làm gì với tập dữ liệu được thu thập đó. Dữ liệu càng lớn thì việc đưa ra quyết
định cho một vấn đề càng chính xác. Một tổ chức, doanh nghiệp sẽ lấy dữ liệu từ
nhiều nguồn khác nhau, thu thập các dữ liệu phù hợp và phân tích để đưa ra quyết
định, cho phép giảm chi phí và giảm thời gian thực hiện xây dựng sản phẩm, giúp
lập kế hoạch phát triển và tối ưu hóa sản phẩm, hỗ trợ đưa ra quyết định tốt hơn
trong kinh doanh.
Các cơ quan chính phủ tìm cách phân tích dữ liệu nhằm tìm ra những cách
thức thu thuế một cách khéo léo, dự đoán được tỷ lệ thất nghiệp, xu hướng nghề
nghiệp trong tương lai, các doanh nghiệp trong lĩnh vực y tế cũng đang chủ động
hơn trong việc quản lý và theo dõi sức khỏe khách hàng, thiết kế các gói sản phẩm
hợp lý nhằm giảm chi phí chăm sóc sức khỏe. Ngành khách sạn và du lịch sử dụng
dữ liệu từ nhiều nguồn như mạng xã hội và tạo ra những gói kỳ nghỉ cá nhân cho
các khách hàng. Các doanh nghiệp phân tích dữ liệu nhằm tìm hiểu hành vi khách
hàng và tư vấn cho họ về danh mục sản phẩm, thời gian và địa điểm mua có những
chính sách giá hấp dẫn. Nhiều nghiên cứu đã tìm hiểu về các ứng dụng của Big Data
và các lĩnh vực trong đó Big Data có thể được áp dụng. Chẳng hạn: Hsinchun,
Chiang phân tích một số ứng dụng của Big Data bao gồm thương mại điện tử, chính
phủ điện tử, khoa học và công nghệ, chăm sóc sức khỏe, và an ninh và an toàn công
cộng. O'Leary mô tả một số ưu điểm cũng như trở ngại của Big Data và các ứng



6

dụng nền tảng cảm biến trên thiết bị di động trong quản lý cơ sở hạ tầng đường bộ.
McKinsey và Company thực hiện nghiên cứu về những giá trị dữ liệu mang lại đối
với y tế, quản lý công, bán lẻ, sản xuất ở Mỹ. Báo cáo nêu rõ nếu Big Data được sử
dụng một cách sáng tạo và hiệu quả để cải tiến năng suất và chất lượng công việc,
các doanh nghiệp bán lẻ Mỹ có thể tăng lợi nhuận trên 60%, chi tiêu cho công
nghiệp, y tế Mỹ có thể giảm trên 8%, các nền kinh tế phát triển ở châu Âu cũng có
thể tiết kiệm được 149 triệu Euro nhờ việc cải tiến hiệu suất hoạt động.

Ứng dụng Big Data trong tài chính ngân hàng, bảo hiểm
Nhiều cuộc khảo sát được thực hiện để xác định vai trò của Big Data
trong hoạt động của tổ chức. Khảo sát của Gartner FEI năm 2013 nhấn mạnh tầm
quan trọng của BI và AI trong công việc của các giám đốc tài chính. Nhờ khung
nhìn tổng quan, rõ ràng vào dữ liệu của tổ chức, các giám đốc tài chính có thể có
những quyết định tốt hơn, làm tăng hiệu quả hoạt động của tổ chức, tăng tính liên
kết giữa tài chính và hoạt động kinh doanh chung, cũng như tăng cường tính linh
hoạt của tổ chức. Một ví dụ từ ngân hàng China Merchants Bank (CMB) Trung
Quốc, cho thấy hiệu quả của việc ứng dụng Big Data. Để thu hút khách hàng, ngân
hàng sử dụng dịch vụ tích điểm và đổi điểm. Ngân hàng cũng sử dụng mô hình cảnh
báo khả năng người dùng ngưng sử dụng dịch vụ để xây dựng các gói dịch vụ tín
dụng lãi suất cao nhằm giữ chân khách hàng. Đồng thời, thông qua việc phân tích
dữ liệu các giao dịch, các khách hàng tiềm năng là các doanh nghiệp nhỏ, cũng
được xác định một cách hiệu quả [1].
Có nhiều nguyên nhân dẫn đến quyết định đầu tư vào các dự án Big Data.
Trên thực tế, nhiều ứng dụng về Big Data được nghiên cứu và phát triển nhằm cải
tiến hiệu quả hoạt động của các tổ chức tín dụng và bảo hiểm.

1.2.1.1 Quản lý rủi ro

Hoạt động quản lý rủi ro được cải thiện đáng kể nhờ những tác động của Big
Data. Trước đây, hoạt động phân tích các tình huống rủi ro chủ yếu phụ thuộc vào
việc phân tích khách hàng, các danh mục đầu tư, độ tin cậy tín dụng. Hiện nay, với


7

những nguồn dữ liệu từ các phương tiện truyền thông xã hội cho phép tạo ra những
hiểu biết mới về các danh mục rủi ro của khách hàng. Các dữ liệu thu được từ nhiều
nguồn không liên kết làm tăng khả năng phát hiện các hoạt động gian lận sớm hơn
so với các phương pháp hiện hành. Hiểu về rủi ro và làm thế nào để quản lý rủi ro
tốt hơn là mối quan tâm chính của các công ty bảo hiểm. Phân tích rủi ro bao gồm
việc đanh giá khả năng rủi ro xảy ra và chi phí phải bỏ ra trong từng trường hợp rủi
ro. Những dữ liệu như mưa đá, cháy rừng, bão lụt, tội phạm và các yếu tố khác cần
được khai thác và tận dụng để đánh giá rủi ro. Các dữ liệu từ các thiết bị viễn thông,
thiết bị cảm biến được cài đặt trong các phương tiện giao thông có thể thu thập
những dữ liệu như địa điểm, tốc độ, quãng đường đi, tình trạng vận hành của
phương tiện trong thời gian thực, giúp cải thiện khả năng đánh giá rủi ro, từ đó,
doanh nghiệp có thể tạo ra nhiều chiến lược giá khác nhau [1].

1.2.1.2 Tư vấn Big Data và các ứng dụng liên quan
Cho phép các tổ chức tài chính thu thập và tổ chức các dữ liệu như sở thích
của khách hàng, lịch sử giao dịch, phương thức giao dịch, vị trí địa lý, thông tin gia
đình, v.v... Từ đó, hệ tư vấn sẽ dựa vào mục tiêu kinh doanh của ngân hàng, nhu cầu
của Khách hàng để từ đó đưa ra các kiến nghị về bán chéo, bán thêm hoặc cung cấp
các dịch vụ tốt hơn cho khách hàng. Thông qua việc phân tích dữ liệu khách hàng ở
cấp độ tinh vi hơn, các tổ chức còn có thể tạo ra những cơ hội mới từ việc tạo ra
những sản phẩm mục tiêu mới [1].

1.2.1.3 Các kỹ thuật thống kê trên dữ liệu lịch sử

Cho phép dự đoán các hành động tiếp theo của khách hàng. Nền tảng phân
tích dữ liệu lớn thông qua việc sử dụng các kỹ thuật xử lý phân tán (Map-Reduce)
cho phép tổ chức tài chính, ngân hàng có thể lưu trữ, xử lý khối lượng dữ liệu rất
lớn. Nhờ vậy, các mô hình dự báo có thể chạy trên toàn bộ các tập dữ liệu, giúp rút
ngắn thời gian trích xuất, khám phá những thông tin quý giá còn tiềm ẩn.


8

Thương mại
Các phân tích trên lượng dữ liệu lớn còn góp phần cải tiến và tối ưu hóa quá
trình ra quyết định, giảm thiểu rủi ro, tạo ra những giá trị gia tăng cho doanh
nghiệp. Bằng việc khai thác nền tảng phân tích dữ liệu lớn, các doanh nghiệp có thể
khám phá các giá trị tiềm ẩn to lớn, thông qua các khung nhìn tổng hợp về hành vi
mua hàng của khách hàng. Chẳng hạn, các công ty kinh doanh qua mạng chẳng
những có thể theo dõi để biết được không chỉ những thông tin như khách hàng mua
gì, mà còn biết được họ xem những mặt hàng nào, họ xem những gì, làm gì mỗi lần
họ truy cập vào trang web, hay mức độ khách hàng bị tác động bởi những chính
sách khuyến mãi hay bình luận từ những khách hàng khác; từ đó phát hiện ra được
những điểm chung của những nhóm khách hàng. Ngoài ra, sự phát triển của
Internet, web 2.0, các thiết bị di động, cho phép tổ chức sử dụng nhiều phương thức
khác nhau để tương tác với khách hàng bên cạnh các phương tiện truyền thống.
Việc phân tích các giao dịch của khách hàng qua các kênh khác nhau này cho phép
tổ chức hiểu hành vi khách hàng, phân cụm nhóm khách hàng, từ đó có thể cung
cấp các sản phẩm và dịch vụ phù hợp với yêu cầu khách hàng. Big Data còn mang
lại lợi ích cho các doanh nghiệp trong việc lên kế hoạch bán hàng. Bằng việc so
sánh các yếu tố khác nhau từ nguồn dữ liệu khổng lồ, doanh nghiệp có thể tối ưu
hóa việc định giá cho các sản phẩm. Việc sử dụng Big Data trong quản lý chuỗi
cung ứng cho phép các doanh nghiệp tối ưu hóa dự trữ kho, vận chuyển, phối hợp
với nhà cung cấp nhằm giảm thiểu khoảng cách giữa nhà cung cấp và người tiêu thụ

[1].

Hiện trạng khai thác Big Data trên thế giới và ở Việt Nam
Phân tích, khai phá dữ liệu không phải là lĩnh vực mới. Về bản chất, phân
tích dữ liệu, kho dữ liệu và thông minh doanh nghiệp BI là các khái niệm đi liền với
nhau, là các giai đoạn phát triển của nhau, hỗ trợ nhau. Trong đó, thiết kế và triển
khai Kho dữ liệu là bước chuẩn bị cho quá trình phân tích dữ liệu, các ứng dụng BI
là công cụ để khai thác các dữ liệu này. Trên thế giới, rất nhiều doanh nghiệp từ lâu
đã ứng dụng khai phá dữ liệu (data mining) và xem đó như là phương pháp tạo ra sự


9

khác biệt, đột phá trong các hoạt động sản xuất kinh doanh. Các hãng phần mềm lớn
đều có các nền tảng phân tích dữ liệu của riêng mình như: Oracle Exadata, IBM
Netezza, HP Vertica, EMC Greenplum, SAP HANA, Google, ... Ngoài ra, các công
ty công nghệ mới nổi cũng đang phát triển những sản phẩm cho riêng mình như
Amazon Redshift, Cloudera Impala, ADATAO pAnalytics, Metamarkets Druid…

Hình 1.2 Biểu đồ google trends về sự quan tâm tới các sản phẩm phân tích dữ liệu
trên thế giới [1]

Đặc biệt, vài năm trở lại đây, phân tích dữ liệu luôn được các doanh nghiệp
viễn thông quan tâm, đầu tư, có thể thấy điều đó qua bản báo cáo nghiên cứu của
Heavy Reading tháng 12/2013 (thực hiện dưới sự tài trợ của Huawei) được biểu
diễn trong Hình 1.3


10


Hình 1.3 Nhà cung cấp dịch vụ lập kế hoạch đầu tư vào Big Data và phân tích sâu
[1]

Tuy nhiên ở Việt Nam nói chung và Viettel nói riêng, việc khai phá dữ liệu
và phân tích dữ liệu thời gian thực (real-time analysis) còn là cái gì đó mới mẻ. Hệ
thống ZTE BI hiện đang triển khai ở Viettel thuần túy là một hệ thống báo cáo điều
hành (MIS), chưa có các cấu phần rất quan trọng là cấu phần tương tác với khách
hàng hoặc các hệ thống nghiệp vụ OLTP khác và cấu phần phân tích dữ liệu thời
gian thực. Các công ty phần mềm trong nước hiện cũng chưa phát triển nền tảng
phân tích dữ liệu lớn thời gian thực nào. Dự kiến, theo xu thế chung, các doanh
nghiệp sẽ nhanh chóng nhận ra sự cần thiết của tương tác và phân tích dữ liệu thời
gian thực. Đối với Viettel, nhu cầu này đã là rất hiển nhiên. Như vậy, phát triển sản
phẩm Viettel Realtime Analytic Processing (vRTAP) vừa đáp ứng nhu cầu nội tại,
vừa mở ra một phân khúc thị trường phần mềm mới trong nước và xa hơn nữa là
cạnh tranh với các sản phẩm nước ngoài.


11

Dữ liệu lớn không chỉ là thách thức dành cho tổ chức và doanh nghiệp; hơn
thế, dữ liệu lớn là cơ hội để tìm kiếm những thông tin chiến lược từ những dạng dữ
liệu mới, để bảo đảm rằng công việc kinh doanh bền vững, có hiệu quả hơn, và
cũng là cơ hội để tìm ra câu trả lời cho những vấn đề mà trước đây chưa có lời giải
đáp.

Tổng quan về các giải pháp Big Data
Google Cloud Platform
1.4.1.1 Tổng quan
Hứa hẹn Bigdata là nhìn thấu bên trong doanh nghiệp nhanh hơn, tốt hơn,
nhưng nó thường rơi vào bài toán hạ tầng. Chẳng hạn bạn có thể thu thập một lượng

dữ liệu khổng lồ, sau đó tìm cách kết hợp, biến đổi để trích xuất dữ liệu có giá trị
bên trong. Giả sử không dựa trên nền tảng Cloud, hệ thống sẽ rất lớn, cồng kềnh.
Xây dựng hệ thống xử lý Big Data dựa trên nền tảng điện toán đám mây
“Cloud computing” sẽ nhanh hơn, sẽ không phải lo lắng về hạ tầng bên dưới. Đặc
biệt hơn, nó cho phép:
Không vận hành (NoOps): Nhà cung cấp cloud sẽ chịu trách nhiệm triển
khai, quản lý và nâng cấp hạ tầng để làm cho hệ thống tin cậy và có khả năng mở
rộng. “NoOps” có nghĩa là nền tảng tự động xử lý các công việc như thế cho người
sử dụng, giải phóng người dùng hoàn toàn để có thể tập trung vào việc hiểu và khai
thác giá trị dữ liệu
Chi phí hiệu quả: Không chỉ dễ sử dụng và nhanh, một giải pháp “NoOPs”
cung cấp lợi ích chi phí khá rõ ràng thông qua việc loại bỏ công việc vận hành,
nhưng lợi ích về mặt chi phí của Big Data theo “Cloud way” còn hơn nữa - nền
tảng tự động mở rộng và tối ưu việc tiêu tốn hạ tầng của bạn, bỏ qua các tài nguyên
nhàn rỗi như các cụm không hoạt động. Bạn quản lý chi phí bằng số truy vấn và độ
trễ dựa trên phân tích lợi ích/chi phí. Bạn không bao giờ phải cấu trúc lại hệ thống
chỉ để điều chỉnh chi phí.


12

Cộng tác an toàn và dễ dàng: Bạn có thể chia sẻ bộ dữ liệu “data set” lên
Google Cloud Storage hoặc các bảng trong google big query với bộ cộng tác bên
trong hoặc bên ngoài tổ chức mà không cần tạo bản sao hoặc gán quyền truy cập cơ
sở dữ liệu. Có một phiên bản dữ liệu mà bạn kiểm soát và xác thực quyền truy cập
mà không ảnh hưởng đến hiệu năng.

Hình 1.4 Mô hình kiến trúc mẫu hệ thống Big Data của google [3]

1.4.1.2 Các thành phần

1.4.1.2.1 Google App Engine
Google App Engine (gọi tắt là GAE hay App Engine) là một môi trường phát
triển ứng dụng dựa trên công nghệ điện toán đám mây. Ở đó, Google cung cấp một
hệ thống gồm: ngôn ngữ lập trình, hệ cơ sở dữ liệu, các thư viện lập trình. Người
lập trình sẽ viết ứng dụng và ứng dụng này sẽ chạy trên các máy chủ của Google.
Google App Engine được cung cấp miến phí cho mỗi ứng dụng trong một
giới hạn, khi các ứng dụng vượt qua mức hạn mức thì phải trả thêm khoản phí cho
mức vượt quá này
Hiện App Engine hỗ trợ 2 loại ngôn ngữ chính là: Python và Java. Ngôn ngữ
Go đang ở mức thử nghiệm. Một số ngôn ngữ khác như PHP cũng có thể chạy được
nếu cài cùng với bộ chuyển từ PHP sang Java.


13

1.4.1.2.2 Google Cloud Pub/Sub
Google Cloud Pub / Sub mang lại khả năng mở rộng, tính linh hoạt và độ tin
cậy khi giao tiếp với các doanh nghiệp ngoài qua bản tin - định hướng đến điện toán
đám mây . Bằng cách cung cấp nhiều - nhiều, bản tin không đồng bộ tách riêng
người gửi và người nhận, nó cho phép giao tiếp an toàn và tính sẵn sàng cao giữa
các ứng dụng được viết một cách độc lập. Google Cloud Pub / Sub cung cấp độ trễ
thấp, giúp nhà phát triển tích hợp nhanh chóng các hệ thống lưu trữ trên nền tảng
đám mây của Google và bên ngoài.

1.4.1.2.3 Google Cloud Monitoring
Hiểu sâu hơn về hiệu suất và tính sẵn sàng của các ứng dụng điện toán đám
mây của bạn. Xem xét số liệu hiệu suất và các bản ghi cho các dịch vụ Google
Cloud Platform và các máy ảo, và tạo ra các biểu đồ giám sát tùy biến. Google
Cloud Monitoring có nhiều ưu điểm. Thứ nhất là cài đặt đơn giản, tức là người sử
dụng không bao giờ phải lo lắng về việc triển khai một hệ thống giám sát một lần

nữa. Thứ hai là cung cấp biểu đồ mạnh mẽ, cho phép tìm kiếm và cảnh báo cho các
công cụ bên ngoài, cho phép Alerting mạnh mẽ, tức là xác định cảnh báo theo quy
luật để phù hợp với ứng dụng của người sử dụng. Ngoài ra nó còn cho phép nhận
thông báo qua email, tin nhắn SMS, chat và nhiều hơn nữa, các thông báo về các số
liệu cá nhân và ngưỡng hoặc trên hiệu suất của nhóm tổng hợp.
Thứ ba là có thể tích hợp với các hệ thống OSS, nó cung cấp cái nhìn sâu sắc
vào nhiều máy chủ mã nguồn mở phổ biến với cấu hình tối thiểu.

1.4.1.2.4 Google Cloud Storage
Google Cloud Storage là dịch vụ lưu trữ dữ liệu mạnh mẽ, đơn giản và chi
phí hiệu quả. Dịch vụ lưu trữ mạnh mẽ và đơn giản, cung cấp cho các nhà phát triển
và các tổ chức CNTT tính sẵn sàng cao khi lưu trữ đối tượng. Google đã tạo ra ba
lựa chọn đơn giản để giúp bạn giải quyết nhu cầu của các ứng dụng của bạn trong
khi vẫn giữ chi phí thấp, cung cấp cho bạn một phương pháp truy cập đơn giản và
phù hợp.


14

Dịch vụ có Chi phí thấp và không có phí tối thiểu, tức là không có lệ phí tối
thiểu cho những gì bạn sử dụng, mô hình Google Cloud Storage là chi phí hiệu quả
nhất trên thị trường. Ngoài ra, với quản lý vòng đời của Google Cloud Storage cho
phép bạn giảm chi phí hơn nữa bằng cách lưu trữ các đối tượng thành Cloud
Storage tuyến tính và thông qua xóa bỏ lịch trình.
Dịch vụ có hiệu suất cao, ổn định và sẵn sang, tức là lưu trữ dữ liệu của bạn
trên cơ sở hạ tầng của Google với mức độ rất cao về độ ổn định và tính sẵn sàng .
Dịch vụ an toàn, riêng tư và bảo mật, tức là Google Cloud Storage được xây
dựng với một chiến lược lưu trữ bản sao. Tất cả các dữ liệu được mã hóa cả khi
đang sử dụng và đang lưu trữ. Các mô hình bảo mật của Google là một quá trình
end- to-end, được xây dựng trên hơn 15 năm kinh nghiệm.


1.4.1.2.5 Google Cloud Dataflow
Một mô hình lập trình và dịch vụ điện toán đám mây cho phép quản lý đầy
đủ xử lý dữ liệu lớn theo luồng và lô
Quản lý & hợp nhất: Dataflow là một mô hình lập trình hợp nhất và một dịch
vụ được quản lý để phát triển và thực hiện một loạt các chuỗi xử lý dữ liệu bao gồm
ETL, tính toán lô, và tính liên tục. Cloud Dataflow giải phóng bạn khỏi nhiệm vụ
như quản lý tài nguyên và tối ưu hóa hiệu năng.
Quản lý đầy đủ: Các dịch vụ quản lý xử lý trong suốt vòng đời tài nguyên và
có thể tự động cung cấp các tài nguyên để giảm thiểu độ trễ trong khi vẫn duy trì
hiệu quả sử dụng. Tài nguyên dataflow được phân bổ theo yêu cầu cung cấp cho
bạn nguồn tài nguyên gần như vô hạn để giải quyết những thách thức lớn khi xử lý
dữ liệu của bạn.
Mô hình lập trình hợp nhất: Dataflow cung cấp nguyên thủy lập trình như
điều khiển cửa sổ và tự động sửa lỗi một cách mạnh mẽ mà có thể được áp dụng
trên cả hai lô và dòng nguồn dữ liệu dựa trên nguồn dữ liệu. Dataflow loại bỏ hiệu
quả chi phí chuyển đổi mô hình lập trình giữa lô và xử lý dòng liên tục bằng cách
cho phép các nhà phát triển thể hiện yêu cầu tính toán bất kể nguồn dữ liệu nào.


15

Tích hợp & nguồn mở: Được xây dựng trên các dịch vụ như Google
Compute Engine, Dataflow là một môi trường tính toán hoạt động quen thuộc mà
hoàn toàn phù hợp với Cloud Storage, Cloud Pub / Sub, Cloud Datastore, Cloud
Bigtable, và BigQuery. Các mã nguồn mở dựa trên Java Cloud Dataflow SDK cho
phép các nhà phát triển thực hiện các phần mở rộng tùy chỉnh và mở rộng Dataflow
để thay thế môi trường dịch vụ .
Quan hệ đối tác & Tích hợp: đối tác Google Cloud Platform và các nhà phát
triển bên thứ 3 đã phát triển tích hợp với Dataflow một cách nhanh chóng và dễ

dàng để cho phép các nhiệm vụ xử lý dữ liệu mạnh mẽ của bất kỳ kích thước nào.
Tích hợp được thực hiện với các API mở được cung cấp bởi Dataflow .
Một kho dữ liệu nhanh chóng, tiết kiệm và quản lý đầy đủ để phân tích dữ
liệu quy mô lớn.
Phân tích dữ liệu Quy mô lớn: BigQuery là quản lý đầy đủ, NoOps, phân tích
cơ sở dữ liệu chi phí thấp của Google. Với BigQuery bạn không có cơ sở hạ tầng để
quản lý và không cần một quản trị cơ sở dữ liệu, sử dụng SQL quen thuộc và có thể
tận dụng lợi thế của mô hình pay-as-you-go (dùng bao nhiêu trả bấy nhiêu). Bộ sưu
tập các tính năng này cho phép bạn tập trung vào việc phân tích dữ liệu để tìm hiểu
ý nghĩa. BigQuery là một nền tảng phân tích dữ liệu lớn mạnh mẽ được sử dụng bởi
tất cả các loại hình tổ chức, từ các startups đến 500 công ty lớn.
Tốc độ & Hiệu năng: Nạp dữ liệu của bạn từ Google Cloud Storage hoặc
Google Cloud kho dữ liệu , hoặc chuyển nó vào BigQuery để cho phép phân tích
thời gian thực dữ liệu của bạn. Với BigQuery bạn có thể dễ dàng triển khai cơ sở dữ
liệu quy mô Petabyte.
Giá không thể tin nổi: BigQuery tách khái niệm về lưu trữ và tính toán dữ
liệu lớn, cho phép bạn mở rộng quy mô và thanh toán cho mỗi cái một cách độc lập.
Ngoài ra, các terabyte đầu tiên (1 TB) dữ liệu xử lý mỗi tháng là miễn phí. Vui lòng
tham khảo trang định giá để biết thêm thông tin.


×