Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (935.29 KB, 23 trang )

1

MỞ ĐẦU
1. Đặt vấn đề
Trước đây, chúng ta mới chỉ biết đến dữ liệu có cấu
trúc (structure data), ngày nay, với sự kết hợp của dữ liệu
và internet, đã xuất hiện một dạng khác của dữ liệu Big
data (dịch là “dữ liệu lớn”). Dữ liệu này có thể từ các
nguồn như: hồ sơ hành chính, giao dịch điện tử, dòng
trạng thái (status), chia sẻ hình ảnh, bình luận, nhắn
tin...của chính chúng ta, nói cách khác chúng là dữ liệu
được sản sinh qua quá trình chia sẻ thông tin trực tuyến
liên tục của người sử dụng. Với mục đích đưa những tiến
bộ công nghệ vào phục vụ cho sản xuất kinh doanh của cơ
quan là Viễn Thông Hà Nội, tôi xin chọn đề tài nghiên
cứu: “Xây dựng kho dữ liệu BIG DATA cho VNPT HÀ
NỘI”.
2. Mục tiêu của luận văn
Tìm hiểu BIG DATA và xây dựng ứng dụng vào thực
tiễn phục vụ công việc
3. Các đóng góp của luận văn
- Hiều các khái niệm cơ bản về BIG DATA.

2

- Tìm hiểu một giải pháp triển khai Big Data là Microsoft
A Microsoft Azure HDInsight.
- Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội.
4. Bố cục của luận văn
Bố cục luận văn gồm 3 phần:

Chương 1. TỔNG QUAN VỀ BIG DATA.
Chương 2. THIẾT KẾ KHO DỮ LIỆU BIG DATA CHO
VNPT HÀ NỘI
Chương 3. CÀI ĐẶT VÀ THỰC NGHIỆM

3

CHƯƠNG 1: TỔNG QUAN VỀ BIG DATA
1.1 Định nghĩa, lịch sử hình thành và các đặc trưng

1.1.1 Định nghĩa Big Data
Giới thiệu các khái niệm, định nghĩa về Big Data.
- Theo wikipedia: Big data là một thuật ngữ chỉ tập hợp
dữ liệu lớn hoặc phức tạp mà các phương pháp truyền
thống không đủ các ứng dụng để xử lý dữ liệu này.
- Theo Garnier: Dữ liệu lớn là những nguồn thông tin có
đặc điếm chung khối lượng lớn, tốc dộ nhanh và dữ liệu
định dạng dưới nhiều hình thức khác nhau, do đó muốn
khai thác được đòi hỏi phải có hình thức xử lý mới để
đưa ra quyết định.
Lịch sử hình thành: Big data chủ yếu hình thành từ 6 nguồn:
(1) Dữ liệu hành chính: sinh ra từ dữ liệu của các tổ
chức, có thể là chính phủ hoặc phi chính phủ. VD: hồ sơ
y tế điện tử ở bệnh viện, hồ sơ bảo hiểm, ngân hàng …
(2) Dữ liệu từ hoạt động thương mại (phát sinh từ hoạt
động giao dịch giữa hai thực thể) VD: giao dịch giữa các
thẻ tín dụng, giao dịch trên mạng, bao gồm cả từ các
thiết bị di động;

4

(3) Dữ liệu từ các thiết bị cảm biến như thiết bị chụp
hình ảnh, vệ tinh, cảm biến đường, cảm biến khí hậu …
(4) Dữ liệu từ các thiết bị theo dõi, vd: dữ liệu từ điện
thoại di động, GPS …
(5) Dữ liệu về các hành vi, ví dụ: tìm kiếm trực tuyến (về
một sản phẩm, dịch vụ hay thông tin khác) hay đọc các
trang mạng trực tuyến,
(6) Dữ liệu từ các thông tin về ý kiến, quan điểm của các
cá nhân, tổ chức trên các phương tiện thông tin xã hội.
1.1.2 Đặc trưng cơ bản của Big Data
Giới thiệu mô hình 3V để định nghĩa Big Data là là khối
lượng (volume), tốc độ (velocity) và đa dạng (variety).

Hình 1.1.2: Mô hình 3V [5]

5

1.2 Cơ bản về kiến trúc Big Data
1.2.1 Các thành phần của kiến trúc Big Data
- Các đặc trưng của dữ liệu lớn
(1)

Khối lượng dữ liệu – Volume: đây là đặc điểm tiêu

biểu nhất của dữ liệu lớn. Kích cỡ của Big Data đang tăng
lên từng ngày và tính đến năm 2012 thì nó có thể nằm

trong khoảng vài chục terabyte đến nhiều petabyte (1
petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liệu. Dữ
liệu truyền thống có thể lưu trên các đĩa mềm, đĩa cứng,
nhưng với Big Data chúng ta sẽ sử dụng công nghệ “đám
mây” mới đáp ứng được khả năng lưu trữ được dữ liệu
lớn.
(2) Tốc độ (Velocity): Tốc độ có thể hiểu theo 2 khía cạnh
: a) Khối lượng dữ liệu gia tăng rất nhanh (vd: mỗi giây có
tới 72,9 triệu các yêu cầu truy cập tìm kiếm trên trang web
bán hàng của Amazon ) b) Xử lý dữ liệu ở mức thời gian
thực (Real time), tức dữ liệu được xử lý ngay tức thời sau
khi phát sinh (tính bằng mili giây). Các ứng dụng phổ biến
trên internet, tài chính, ngân hàng, hàng không, y tế, quân
sự như hiện nay phần lớn được xử lý realtime. Công nghệ

6

xử lý dữ liệu lớn ngày nay đã cho phép chúng ta xử lý tức
thì trước khi chúng được lưu vào cơ sở dữ liệu.
(3)Đa dạng (Variety): Đối với dữ liệu truyền thống chúng
ta hay nói đến dữ liệu có cấu trúc, thì ngày nay hơn 80%
dữ liệu sinh ra là phi cấu trúc ( Tài liệu, hình ảnh, blog,
video, bài hát, dữ liệu từ các thiết bị cảm biến vật lý, thiết
bị chăm sóc sức khỏe …) Big data cho phép liên kết và
phân tích nhiều dạng dữ liệu khác nhau. VD: với bình luận
của một nhóm người dùng trên facebook với thông tin
video được chia sẻ từ Youtube và Twitter.
1.2.2 Kiến trúc của Big Data
Các khối xây dựng cơ bản trong kiến trúc big data

7

Kiến trúc Big Data

1.2.3 NoSQL trong quản lý dữ liệu
NoSQL là 1 thuật ngữ rất nổi tiếng và nó thật sự có ý
nghĩa là Not Relational SQL hay Not Only SQL. Điều này
là do trong kiến trúc big data, dữ liệu ở định dạng bất kỳ.
Để mang tất cả dữ liệu cùng nhau thì công nghệ mối quan
hệ là không đủ, do các công cụ mới, kiến trúc và các thuật
toán khác được phát minh sẽ nhận tất cả các loại dữ liệu.
Những điều này được gọi chung là NoSQL.

8

1.3 Tình hình nghiên cứu Big Data ở thế giới và trong
nước
Giới thiệu các thành quả nghiên cứu Big Data trong và
ngoài nước
1.4 Kết chương 1
Nội dung chương này trình bày những kiến thức cơ bản về
BIG DATA bao gồm giới thiệu về lịch sử hình thành, phát
triển, các tính chất, đặc trưng ứng dụng của Big Data và
nêu tổng quan về tình hình nghiên cứu Big Data ở thế giới
và trong nước, các lợi ích khi triển khai sử dụng Big Data.

9

CHƯƠNG 2: THIẾT KẾ KHO DỮ LIỆU BIG DATA
CHO VNPT HÀ NỘI
2.1. Các mô hình dữ liệu lớn
2.1.1 Hadoop Apache
(1) Hadoop là một framework cho phép phát triển các ứng
dụng phân tán.
(2) Hadoop viết bằng Java. Tuy nhiên, nhờ cơ chế
streaming, Hadoop cho phép phát triển các ứng dụng phân
tán bằng cả java lẫn một số ngôn ngữ lập trình khác như
C++, Python, Pearl.
(3) Hadoop cung cấp một phương tiện lưu trữ dữ liệu phân
tán trên nhiều node, hỗ trợ tối ưu hoá lưu lượng mạng, đó
là HDFS. HDSF che giấu tất cả các thành phần phân tán,
các nhà phát triển ứng dụng phân tán sẽ chỉ nhìn thấy
HDFS như một hệ thống file cục bộ bình thường.
(4) Hadoop giúp các nhà phát triển ứng dụng phân tán tập
trung tối đa vào phần logic của ứng dụng, bỏ qua được
một số phần chi tiết kỹ thuật phân tán bên dưới (phần này
do Hadoop tự động quản lý).
(5) Hadoop là Linux-based. Tức Hadoop chỉ chạy trên môi
trường Linux .

10

2.1.2 Hadoop Distributed File System (HDFS)
Kiến trúc của HDFS được thể hiện qua sơ đồ dưới đây:

Kiến trúc HDFS
2.1.3 Map reduce
Theo tài liệu “MapReduce: Simplified Data Processing on
Large Clusters” của Google, Google định nghĩa rằng:
“MapReduce là mô hình lập trình và thực thi song song
các xử lý và phát sinh các tập dữ liệu lớn”. Tuy nhiên, với
định nghĩa như vậy, chúng ta chưa thật sự hiểu rõ được
mô hình MapReduce là như thế nào.[21]

11

Mô hình MapReduce của Oracle

12

Cơ chế hoạt động của Hadoop MapReduce
2.2. Xây dựng mô hình dữ liệu lớn cho VNPT Hà Nội
VNPT Hà Nội là doanh nghiệp kinh doanh trong lĩnh vực viễn
thông tại địa bàn Hà Nội. VNPT Hà Nội cần giải pháp Big
Data đặt mục tiêu phân tích dữ liệu nhằm phục vụ nhu cầu sản
xuất kinh doanh: Dự đoán nhu cầu tăng trưởng thuê bao, Phân
tích ra quyết định chiến lược bán hàng, Phân tích dữ liệu
cước…. Nguồn dữ liệu: Dữ liệu thuê bao (các dịch vụ của

13
VNPT: PSTN, Internet….), dữ liệu cước, dữ liệu kinh doanh,
dữ liệu lấy từ fanpage của doanh nghiệp trên các mạng xã hội.

Các hệ thống thông tin của VNPT Hà Nội

2.2.1 Xác định BigData là giải pháp phù hợp cho
doanh nghiệp
Cần trả lời các câu hỏi:


Dữ liệu nguồn đến từ đâu?



Định dạng của dữ liệu là gì?



Đặc điểm phân phối và chất lượng của dữ liệu là gì?



Có cần tích hợp với một hệ thống BI hiện có
không?

2.2.3 Xác định dữ liệu nguồn
- Dữ liệu kinh doanh nội bộ từ các ứng dụng hiện tại hoặc
các giải pháp BI: Danh mục khách hàng, thuê bao, địa chỉ,

14

hồ sơ lịch sử bán hàng từ các hệ thống nghiệp vụ của
VNPTHN như phát triển thuê bao, quản lý thanh toán, tính
cước..
- Log nhật ký đăng nhập.
- Dữ liệu từ phương tiện truyền thông xã hội
- Nguồn dữ liệu khác: các trang web và dịch vụ cung cấp
dữ liệu được khách hàng sử dụng phổ biến bao gồm RSS,
ATOM, và các định dạng XML như blog, dịch vụ tin tức,
dự báo thời tiết, và dữ liệu thị trường tài chính...
- Chính sách chính phủ và các nhóm lợi ích đặc biệt: Ví
dụ: số liệu về dân số, chi tiêu, sức khoẻ và nhiều thứ khác
theo nhiều định dạng khác nhau.
2.2.4 Chỉ định cơ sở hạ tầng

Các lựa chọn chính cho các giải pháp dữ liệu lớn dựa trên nền
tảng Hadoop trên nền Microsoft.

15

2.3 Kết chương 2
Chương này đã trình bày về các mô hình dữ liệu Big Data, các
mô hình Hadoop, HDFS, Map Reduce và đề xuất mô hình xây
dựng kho dữ liệu Big Data cho VNPT Hà Nội.

16

CHƯƠNG 3. CÀI ĐẶT VÀ THỰC NGHIỆM
3.1 Tổng quan về Microsoft Azure HDInsight

3.1.1 Giới thiệu Microsoft Azure

Nền tảng tổng quát của Microsoft Azure
3.1.2 Giới thiệu HDInsight service
Hadoop trên HDInsight là một dịch vụ cung cấp sản
phẩm Apache Hadoop trên mô hình SaaS -mô hình
phần mềm như là dịch vụ. Nó bao gồm tất cả các thành
phần quan trọng của ngăn xếp công nghệ Apache
Hadoop như Apache Spark, HBase, Kafka, Storm, Pig,
Hive và Interactive Hive.

17

3.2 Thiết kế big data bằng HDInsight
3.2.1 Kịch bản 1: Iterative exploration (thăm dò lặp)

Hình 3.2.1: Iterative exploration (thăm dò lặp)[8]
* Khi nào sử dụng mô hình này:
- Dữ liệu không thể xử lý bằng cách sử dụng các hệ thống
hiện có, có lẽ bằng cách thực hiện các phép tính và biến
đổi phức tạp vượt quá khả năng của các hệ thống hiện tại
để hoàn thành trong một thời gian hợp lý.
- Thu thập phản hồi từ khách hàng thông qua email, các
trang web, hoặc các nguồn bên ngoài như các trang truyền
thông xã hội, sau đó phân tích nó để có được một hình ảnh
về tình cảm của khách hàng đối với sản phẩm của bạn.

18

- Kết hợp thông tin với các dữ liệu khác, như dữ liệu nhân
khẩu học cho biết mật độ và đặc điểm dân số ở mỗi thành
phố nơi bán sản phẩm của doanh nghiệp.
- Việc chuyển đổi dữ liệu từ hệ thống thông tin hiện tại
vào HDInsight để có thể xử lý mà không làm gián đoạn
các quy trình kinh doanh khác hoặc tránh nguy cơ ảnh
hưởng đến dữ liệu ban đầu.
- Thử nghiệm các ý tưởng mới và xác nhận quá trình trước
khi triển khai trong hệ thống trực tiếp.
3.2.2 Kịch bản 2: Kho dữ liệu theo yêu cầu (Data
warehouse on demand)

Hình 3.2.2: Kho dữ liệu theo mô hình nhu cầu (Data
warehouse on demand)

19

3.2.3 Kịch bản 3: Tự động hóa ETL (ETL
automation)

Hình 3.2.3: Tự động hóa ETL
3.2.4 Kịch bản 4: Tích hợp BI (BI integration )

Hình 3.2.4_1: Tổng quan về kho dữ liệu doanh nghiệp
điển hình và triển khai BI

20

3.3 Thực nghiệm HDInsight
3.3.1 Kịch bản 1: Thăm dò lặp
3.3.2 Kịch bản 2: Kho dữ liệu theo yêu cầu
3.3.3 Kịch bản 3: Tích hợp BI
3.4 Kết chương
Chương 3 đã nêu kiến thức tổng quan về Microsoft
Azure HDInsight, cách thiết kế big data bằng
HDInsight (bao gồm 4 kịch bản), Thực nghiệm
HDInsight (qua 3 kịch bản)

21

DANH MỤC CÁC TÀI LIỆU THAM KHẢO
[1] Bài giảng môn học Các hệ thống phân tán, PGS.TS Hà
Hải Nam – Học Viện Bưu Chính Viễn Thông năm
2016.
[2] Bài giảng môn học Hệ điều hành mạng, TS Hoàng
Xuân Dậu – Học Viện Bưu Chính Viễn Thông năm
2016.
[3] Bài giảng môn học Phương pháp nghiên cứu khoa học,
PGS.TS Bùi Trung Hiếu – Học Viện Bưu Chính
Viễn Thông năm 2016.
[4] Bài giảng môn học Điện toán đám mấy, PGS.TS
Hoàng Đăng Hải – Học Viện Bưu Chính Viễn Thông
năm 2016.
[5] Bài viết học thuật
Big Data–What is Big Data–3 Vs of Big Data–Volume,
Velocity and Variety–Day2of21 Xuất bản: 10/2016,

[6] Tài liệu mô tả các hệ thống nghiệp vụ của VNPT Hà
Nội năm 2015.

22

[7] 20533C- Implementing Microsoft Infrastructure
Solutions – Microsoft Leaning: 2017
[8] Introducing Microsoft Azure HDInsight

[9] Bài viết học thuật Planning a big data solution
/>Microsoft - Năm 2017
[10 ] Khoa Học Khám Phá - Dữ Liệu Lớn, Tác giả: Viktor
Mayer - SchÖnberger & Kenneth Cukier, Nhà Xuất bản
Trẻ dịch và xuất bản 03/2014

[11] Hadoop World 2011: Big Data Analytics – Data
Professionals: The New Enterprise Rock Stars - Martin
Hall, Karmasphere
[12] Các bài viết trên trang />
[13] />

23

KẾT LUẬN
1. Những đóng góp của luận văn
Với mục tiêu XÂY DỰNG KHO DỮ LIỆU BIG DATA
CHO VNPT HÀ NỘI. Luận văn đã đi sâu nghiên cứu tổng
quan về Big Data, các định nghĩa, đặc trưng và kiến trúc

của BigData, nghiên cứu mô hình dữ liệu lớn và thiết kế
kho dữ liệu Big Data cho VNPT Hà Nội.
Những kết quả chính đã đạt được trong luận văn:
- Khái quát được một số vấn đề về kiến trúc BigData, các
mô hình dữ liệu lớn.
- Nêu được phương pháp, cách triển khai BigData và xây
dựng kịch bản thực nghiệm với dữ liệu của VNPT Hà Nội.
2. Hướng phát triển của luận văn
- Hoàn thiện giải pháp và triển khai thực tế kho dữ liệu
Big Data cho doanh nghiệp là VNPT Hà Nội.
- Xây dựng ứng dụng khai thác kho dữ liệu Big Data cho
doanh nghiệp.

Xây dựng kho dữ liệu Big Data cho VNPT Hà Nội (tt)

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về