Tải bản đầy đủ (.pdf) (26 trang)

NGHIÊN CỨU VÀ ỨNG DỤNG DATA WAREHOUSE TRONG PHÂN TÍCH THÔNG TIN DI ĐỘNG CHO VNPT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.18 MB, 26 trang )


HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG







PHẠM ĐỨC TÚ


NGHIÊN CỨU VÀ ỨNG DỤNG DATA WAREHOUSE TRONG


PHÂN TÍCH THÔNG TIN DI ĐỘNG CHO VNPT


Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01

TÓM TẮT LUẬN VĂN THẠC SĨ






HÀ NỘI -2013
1


Luận văn đƣợc hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG


Ngƣời hƣớng dẫn khoa học: TS. NGUYỄN DUY PHƢƠNG

Phản biện 1: …………………………………………………………………………


Phản biện 2: …………………………………………………………………………


Luận văn sẽ đƣợc bảo vệ trƣớc Hội đồng chấm luận văn thạc sĩ tại Học viện Công
nghệ Bƣu chính Viễn thông.
Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:
- Thƣ viện của Học viện Công nghệ Bƣu chính Viễn thông

2


MỞ ĐẦU

Với sự phát triển nhanh chóng của ngành viễn thông, các doanh nghiệp viễn thông
hiện nay đang phải đối mặt với việc điều hành và lƣu trữ một khối lƣợng dữ liệu khổng lồ
gồm hàng tỷ bản tin chi tiết cƣớc, thông tin của hàng trăm triệu khách hàng với rất nhiều
dịch vụ của các nhà mạng đang ngày một đa dạng và phát triển nhanh chóng.
Trƣớc một khối lƣợng thông tin khổng lồ theo lịch sử thời gian nhƣ vậy, các doanh
nghiệp viễn thông biết khai thác, phân tích, chọn lọc các thông tin có giá trị sẽ cung cấp
đƣợc các dịch vụ tốt hơn làm hài lòng khách hàng và đồng thời tăng khả năng cạnh tranh
trên thị trƣờng viễn thông vốn đã rất khốc liệt.
Từ đó yêu cầu đặt ra là cần phải xây dựng đƣợc một kho dữ liệu tập trung về di động
nhằm hỗ trợ phân tích kinh doanh và hỗ trợ lãnh đạo ra quyết định.

Bằng việc cung cấp các thông tin có đƣợc từ kho dữ liệu về khách hàng, nhà cung
cấp, hoạt động, hiệu suất… giải pháp Data Warehouse và phân tích dữ liệu dựa trên nền
tảng BI sẽ giúp doanh nghiệp:
 Phân tích đƣợc bức tranh toàn cảnh về tình hình kinh doanh di động hiện nay trên
thị trƣờng.
 Đặc biệt tích hợp các nguồn thông tin dữ liệu phân tán khác nhau tạo nên một kho
dữ liệu đầy đủ để phân tích theo nhiều chiều.
 Phân tích, dự báo đƣợc các nhu cầu của thị trƣờng trong thời gian tới.
Mục đích nghiên cứu
 Nắm đƣợc Tổng quan chung về lĩnh vực BI.
 Nắm bắt đƣợc mô hình tổ chức lƣu trữ dữ liệu Data Warehouse.
 Nắm bắt đƣợc một số thông tin về tổ chức dữ liệu tính cƣớc di động của VNPT.

 Nắm bắt đƣợc kỹ thuật phân tích dữ liệu OLAP, từ đó xây dựng cấu trúc Data
Warehouse ứng dụng phân tích dữ liệu di động của VNPT.
Đối tượng và phạm vi nghiên cứu
Nghiên cứu Data Warehouse ứng dụng cho lĩnh vực phân tích dữ liệu di động của
VNPT.
Phương pháp nghiên cứu
 Nghiên cứu về các chuẩn tổ chức dữ liệu Data Warehouse.
 Nghiên cứu các giải pháp phân tích cơ sở dữ liệu lớn.
3

 Áp dụng để phân tích dữ liệu di động của VNPT.
Việc xây dựng một kho dữ liệu Data Warehouse chiếm tỷ trọng tƣơng đối lớn,

khoảng 50%-60% trong toàn bộ dự án, đƣợc coi là xây dựng nền tảng hạ tầng cho toàn bộ
hệ thống phân tích kinh doanh.Việc đánh giá đúng vai trò quan trọng của Data Warehouse
sẽ giúp cho việc mô hình hóa, phân tích và thiết kế một hệ thống BI toàn diện và tối ƣu.
Hiện nay VNPT đang sở hữu hai mạng di động là Vinaphone và Mobifone chiếm tỉ
trọng lớn trên toàn bộ thị trƣờng viễn thông, với việc phân tích giá trị trong toàn bộ khối
lƣợng thông tin vô cùng lớn và quý giá này sẽ giúp ích rất lớn cho lãnh đạo VNPT và các
đơn vị thành viên trong công tác định hƣớng quy hoạch và tăng khả năng cạnh tranh với các
đối thủ trên thị trƣờng.
Nhận thức đƣợc tầm quan trọng đặc biệt của Data Warehouse, tôi xin chọn đề tài
“Nghiên cứu Data Warehouse và ứng dụng trong lĩnh vực phân tích di động cho VNPT”.
Cấu trúc của luận văn
Luận văn đƣợc cấu trúc thành 3 chƣơng:

Chƣơng 1: Tổng quan về Data Warehouse
Chƣơng này trình bày các khái niệm, các thành phần, chức năng trong kho dữ liệu
Data Warehouse, các ứng dụng cũng nhƣ những mô hình kho dữ liệu. Tổng quan về các kỹ
thuật phân tích và tích hợp thông tin trong mô hình kho dữ liệu Data Warehouse.
Chƣơng 2: Ứng dụng trong lĩnh vực di động cho VNPT
Chƣơng này tập trung vào phân tích, thiết kế một số tính năng chính tổ chức trong hệ
thống kho dữ liệu di động, đồng thời ứng dụng kỹ thuật OLAP để đƣa ra một phân tích ứng
dụng trong phân tích kinh doanh di động của VNPT.
Chƣơng 3: Kết quả xây dựng ứng dụng trong lĩnh vực di động cho VNPT.
Chƣơng cuối cùng của luận văn trình bày một số kết quả đã đạt đƣợc trong chƣơng 2

4


CHƢƠNG 1. TỔNG QUAN VỀ DATA WAREHOUSE
Nội dung chính của chƣơng: Chƣơng này học viên tập trung vào việc nghiên cứu các
khái niệm, vai trò và các kiến trúc, mô hình triển khai BI đã đem lại hiệu quả cho doanh
nghiệp ứng dụng, đồng thời học viên tập trung vào các mô hình và nguyên tắc xây dựng
Data warehouse và một số giải pháp tích hợp và phân tích thông tin đa chiều OLAP làm nền
tảng lý thuyết cho việc xây dựng ứng dụng kho dữ liệu Data warehouse cho doanh nghiệp
viễn thông.
1.1. Mục đích và nhu cầu
Việc xác định đƣợc rõ ràng mục đích và nhu cầu thực tế của việc triển khai hệ thống
BI cho doanh nghiệp là một vấn đề cực kỳ quan trọng trong quá trình phát triển doanh
nghiệp. Phần này học viên tập trung vào việc phân tích khó khăn và xác định mục đích của

việc tạo ra kho dữ liệu Data warehouse.
1.1.1. Mục đích và nhu cầu thực tiễn
Vậy mục đích kho dữ liệu Data Warehouse sinh ra nhằm phục vụ tập trung dữ liệu
của các hệ thống theo lịch sử thời gian dùng trong việc tập hợp, phân tích dữ liệu và báo cáo
hỗ trợ các quyết định trong kinh doanh.
1.1.2. Xác định phạm vi nghiên cứu
Nội dung nghiên cứu về Data warehouse là rất lớn, trong phạm vi luận văn tôi xin
đƣợc xác định phạm vi nghiên cứu tổng quan về Data warehouse và ứng dụng để tổ chức
một phần hệ thống data warehouse dùng phân tích kinh doanh di động của VNPT.
1.2. Tổng quan về BI
Phần này học viên tập trung vào việc giới thiệu chung về BI, các thành phần của BI,
phân tích những ƣu nhƣợc điểm của BI đem lại khi triển khai trong doanh nghiệp.

1.2.1. Giới thiệu chung về BI
Nhƣng ƣu điểm khi áp dụng BI trong doanh nghiệp
Doanh nghiệp của bạn có thể thu đƣợc đƣợc những lợi ích to lớn khi quyết định mua và
triển khai một Giải pháp quản trị doanh nghiệp thông minh. Có thể kể ra:
 Cải thiện khả năng truy cập và tích hợp các dữ liệu sản xuất kinh doanh từ nhiều
nguồn riêng biệt.
5

 Có đƣợc cái nhìn toàn cảnh tất cả các hoạt động trong doanh nghiệp.
 Chia sẻ thông tin nhanh chóng trên qui mô toàn doanh nghiệp.
 Kiểm soát nhanh và chính xác hơn các xu hƣớng có tác động tích cực cũng nhƣ tiêu
cực đến hoạt động sản xuất kinh doanh.

1.2.2. Kiến trúc tổng thể của BI
Hệ thống BI đơn giản có thể đƣợc xem là sự kết hợp của 3 thành phần chính nhƣ sau:
 Data Warehouse (Kho dữ liệu): Chứa dữ liệu tổng hợp của doanh nghiệp.
 Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai phá dữ liệu và phát hiện
tri thức nhƣ phân loại (Classification), phân nhóm (clustering), phát hiện luật kết hợp
(Association Rule), Dự đoán (Prediction)…
 Business Analyst (Phân tích kinh Doanh): Các nhà lãnh đạo Doanh nghiệp đƣa ra
những quyết định chiến lƣợc đối với hoạt động kinh doanh của doanh nghiệp.
1.3. Kiến trúc tổng thế Data Warehouse
Phần này học viên tập trung vào việc giới thiệu các đặc trƣng của kho dữ liệu, các
thành phần cơ bản trong kho dữ liệu Data warehouse. Đồng thời học viên phân tích đi sâu
vào các mô hình thông dụng của DW nhƣ hình sao hay bông tuyết mà hiện nay rất nhiều

giải pháp đang triển khai. Học viên cũng nghiên cứu các phƣơng pháp thiết kế Data marts
trong mô hình của Data warehouse. Cuối cùng để thể hiện đƣợc những khả năng phân tích
thông tin thì học viên tập trung nghiên cứu các phƣơng pháp xử lý đa chiều OLAP dùng
trong phân tích dữ liệu trong kho dữ liệu Data warehouse.
1.3.1. Giới thiệu chung
Data warehouse là tập hợp dữ liệu tƣơng đối ổn định, không hay thay đổi, cập nhật theo
thời gian, đƣợc tích hợp theo hƣớng chủ đề nhằm hỗ trợ quá trình tạo quyết định về mặt
quản lý. Một data warehouse điển hình sẽ:
 Chứa 1 số lƣợng lớn dữ liệu có liên quan tới các giao dịch trong quá khứ.
 Đƣợc tối ƣu hóa cho các thao tác đọc trong các yêu cầu truy vấn dữ liệu. Điều này
đối lập với các cơ sở dữ liệu trong các hệ thống xử lý tác vụ (OLTP) đƣợc thiết kế để
hỗ trợ cả các thao tác thêm, xóa, sửa dữ liệu luôn.

 Đƣợc nạp các dữ liệu mới hoặc dữ liệu đƣợc cập nhật 1 cách định kỳ.
 Là nguồn dữ liệu cơ bản cho các ứng dụng BI mức doanh nghiệp.
6

1.3.2. Các đặc trưng của kho dữ liệu
 Hƣớng chủ đề
 Tính tích hợp
 Tính bền vững
 Gắn với thời gian
 Dữ liệu tổng hợp
1.3.3. Các thành phần cơ bản của Data Warehouse
Data Warehouse là một cơ sở dữ liệu quan hệ đƣợc xây dựng cho mục đích truy vấn

và phân tích dữ liệu mang tính lịch sử, nó không phải là loại cơ sở dữ liệu giao dịch
(OLTP).

Hình 1.1. Các thành phần cơ bản của Data warehouse
Khác với cơ sở dữ liệu giao dịch thông thƣờng, Data Warehouse đƣợc bổ sung thêm
bộ công cụ kết xuất, chuyển đổi và tích hợp dữ liệu (Extraction, Transformation, Loading –
ETL), bộ phân tích dữ liệu trực tuyến (Online Analyst Processing – OLAP), và các công cụ
quản trị các tiến trình thu thập dữ liệu. Đặc biệt Data Warehouses đƣợc tổ chức nâng cao
theo các chủ đề Data Mart.
1.3.4. Các loại mô hình dữ liệu trong Data Warehouse
Lƣợc đồ hình sao
7


Trong mô hình dữ liệu này,phạm vi dữ liệu đƣợc tổ chức trong các bảng chiều, mỗi
chiều ứng với một đặc trƣng của dữ liệu (khách hàng, sản phẩm , bán hàng, thời gian…),
các bảng sự kiện biểu diễn các sự kiện xảy ra và các thông tin chi tiết về các sự kiện đó
Lƣợc đồ hình bông tuyết
Đây là mô hình tƣơng tự mô hình sao tuy nhiên nó mở rộng hơn mô hình sao , trong
mô hình này một chiều của dữ liệu có thể gồm nhiều bảng, và trong đó có 1 bảng sự kiện ,
bảng sự kiện này chính là một chiều trong mô hình lớn hơn
Lƣợc đồ chòm sao sự kiện (fact constellation)
Các ứng dụng phức tạp có thể đòi hỏi nhiều bảng sự kiện cùng chia sẻ các bảng
chiều. Loại lƣợc đồ này có thể đƣợc xét nhƣ một tập hợp các lƣợc đồ hình sao. Và vì thế, nó
đƣợc gọi là lƣợc đồ chòm sao sự kiện.

1.3.5.Tổng quan về Data Mart
1.3.5.1. Giới thiệu Data Mart
Data Mart là một dạng thu nhỏ của kho dữ liệu, nếu kho dữ liệu mô tả thông tin của
một tổ chức thƣơng mại thì Data Mart mô tả thông tin cho từng phòng ban của tổ chức đó
(nhƣ phòng kinh doanh, phòng nhân sự,…).
1.3.5.2. Các kiểu Data Mart
 Data mart phụ thuộc (Dependent Data Mart)
Chứa những dữ liệu đƣợc lấy từ DW và những dữ liệu này sẽ đƣợc trích lọc và tinh
chế, tích hợp lại ở mức cao hơn để phục vụ một chủ đề nhất định của Datamart.
 Data mart độc lập (Independent Data Marts)
Không giống nhƣ Data Mart phụ thuộc, Data mart độc lập đƣợc xây dựng trƣớc DW
và dữ liệu đƣợc trực tiếp lấy từ các nguồn khác nhau.

 Data Mart lai (Hybrid Data Mart)
Một Data Mart lai cho phép kết hợp các đầu vào từ các nguồn khác hơn so với một
kho dữ liệu duy nhất. Điều này có thể hữu ích trong nhiều tình huống, đặc biệt là khi cần
tích hợp đặc biệt, chẳng hạn nhƣ sau khi một nhóm mới hoặc sản phẩm đƣợc bổ sung cho tổ
chức
8

1.3.6. Trình bày kỹ thuật OLAP
1.3.6.1. Giới thiệu OLAP
OLAP là một phƣơng pháp tiếp cận để trả lời nhanh chóng các truy vấn phân tích đa
chiều. OLAP là một phần của business intelligence, một lĩnh vực bao hàm relational
reporting và data mining.

1.3.6.2. Các mô hình của OLAP
 Mô hình Multidimensional OLAP
MOLAP là dạng cổ điển của OLAP và đôi khi đƣợc xem đơn giản nhƣ là OLAP.
MOLAP lƣu giữ những dữ liệu này trong một mảng lƣu trữ đa chiều đƣợc tối ƣu hóa, thay
vì trong cơ sở dữ liệu quan hệ. Do đó chúng đòi hỏi tính toán trƣớc và lƣu trữ thông tin
trong khối, hoạt động đƣợc gọi là xử lý(processing).
 Mô hình Relational OLAP
ROLAP làm việc trực tiếp với cơ sở dữ liệu quan hệ. Dữ liệu cơ bản và các bảng
chiều đƣợc lƣu trữ nhƣ các bảng quan hệ và các bảng mới đƣợc tạo để giữ các thông tin kết
hợp. Tùy thuộc vào một thiết kế sơ đồ đƣợc đặc trƣng hóa.
 Mô hình Hybrid OLAP
Không có sự đồng thuận rõ ràng trong công nghiệp về HOLAP, trừ việc một cơ sở

dữ liệu sẽ phân chia dữ liệu giữa lƣu trữ quan hệ và chuyên biệt.
1.4. Các giải pháp tích hợp các nguồn dữ liệu khác nhau trong kho dữ liệu Data
Warehouse
Thu thập và tích hợp các nguồn thông tin đa dạng khác nhau luôn là một vấn đề quan
trọng làm đau đầu đối với các nhà triển khai hệ thống Data warehouse. Trong phần này học
viên tập trung vào các phƣơng pháp tích hợp tiếp cận theo hƣớng Data warehouse.
1.4.1. Giải pháp tích hợp thông tin
1.4.1.3. Một số giải pháp tích hợp và nhân bản dữ liệu
Oracle hiện có rất nhiều giải pháp liên quan tới lĩnh vực tích hợp và nhân bản dữ liệu,
trong phạm vi luận văn tôi chỉ đề cập tới giải pháp tiên tiến nhất Golden Gate của Oracle
hiện nay:
9


 Active Data Guard: GoldenGate: giải pháp tích hợp và nhân bản số liệu của hãng
GoldenGate (đã đƣợc Oracle mua lại).
 Oracle Data Integrator-ODI: Giair pháp toàn diên trong để giải quyết tất cả các yêu
cầu tích hợp dữ liệu đòi hỏi tốc độ cao, số liệu lớn, và trên nhiều nguồn dữ liệu khác
nhau.
 Materialized Views: Có khả năng nhân bản các dữ liệu phục vụ báo cáo thống kê
(hiện nay nhóm đang ứng dụng trong công tác nhân bản dữ liệu các báo cáo thống kê
cho hệ thống phân tích kinh doanh di động của Tập đoàn VNPT).
 Database Link: liên kết giữa các cơ sở dữ liệu khác nhau có thể cùng nguồn Oracle
hoặc các hệ quản trị cơ sở dữ liệu khác nhau nhƣ SQL Server, DB2…
 Oracle data loader: giải pháp load dữ liệu từ các nguồn vào data warehouse của

Oracle.
 Oracle data warehouse builder: công cụ xây dựng data warehouse kèm theo giải pháp
tích hợp dữ liệu từ các nguồn thông tin khác.
1.4.2. Công cụ tích hợp thông tin trong Data Warehouse
Hệ thống ETL (Extract-Transform-Load) là nền tảng của kho dữ liệu. Một hệ thống
ETL đƣợc thiết kế cho việc trích xuất dữ liệu từ các hệ thống nguồn, chuyển đổi dữ liệu
đảm bảo các nguồn độc lập có thể tích hợp, và cuối cùng dữ liệu sau chuyển đổi đƣợc đƣa
vào kho dữ liệu phục vụ mục đích phát triển ứng dụng.
Giải pháp GoldenGate của Oracle
GoldenGate đƣợc thiết kế nhƣ một chuẩn tích hợp dữ liệu và cho nhiều mục đích sử
dụng khác nhau nhƣ khắc phục thảm họa, bảo vệ dữ liệu, báo cáo, real time cho BI, nhân
bản dữ liệu….

1.5. Kết luận chƣơng
Chƣơng này tác giả đã nêu tổng quan về BI và Data warehouse, đồng thời cũng phân
tích các đặc chƣng của giải pháp. Đồng thời cũng đã đặt vấn đề nghiên cứu chung về
OLAP, các mô hình tổ chức Data Mart…Tuy nhiên đây sẽ là nền tảng lý thuyết mà tác giả
sẽ áp dụng một phần trong nội dung chƣơng 2 và chƣơng 3 của luận văn.

10

CHƢƠNG 2. ỨNG DỤNG TRONG LĨNH VỰC DI ĐỘNG CHO VNPT
Nội dung chính của chƣơng này bao gồm: Tìm hiểu về dữ liệu hệ thống, xác định yêu
cầu đặt ra, thiết kế mô hình kho dữ liệu dựa trên yêu cầu đã phân tích và dữ liệu hệ thống
nguồn, sử dụng kỹ thuật OLAP của Oracle để xây dựng các cơ sở dữ liệu nhiều chiều phục

vụ việc phân tích số liệu kinh doanh di động.
2.1. Vấn đề tích hợp thông tin di động
2.1.1. Mục tiêu của vấn đề tích hợp thông tin di động
Những năm gần đây, tập đoàn VNPT đang chuyển mình trong định hƣớng phát triển
chung của ngành. Sau một giai đoạn phát triển theo định hƣớng mở rộng các loại hình kinh
doanh, đến này tập đoàn VNPT đã có nhiều mảng dịch vụ nhƣ: thoại (cố định và di dộng),
truyền dữ liệu, vệ tinh, truyền thông và công nghệ thông tin
Tuy nhiên với ứng dụng công nghệ thông tin tại các đơn vị kinh doanh hiện đang không
đồng bộ và phân tán, gây khó khăn nhiều trong công tác báo cáo thông kê, hỗ trợ các cấp lãnh
đạo ra quyết định kinh doanh kịp thời. Hiện nay VNPT đang có rất nhiều hệ thống khác nhau
với các nguồn dữ liệu phi chuẩn đã đƣa ra nhiều kết quả khác nhau của cùng một yêu cầu
thông tin đã gây ra sự bối rối khi ra quyết định kinh doanh của các cấp lãnh đạo.


Hình 2.1. Hiện trạng xử lý thông tin
Vì vậy trong giai đoạn tới tập đoàn VNPT cần một hệ thống có khả năng tích hợp
đƣợc một số nguồn dữ liệu thống nhất mà nơi đó các dữ liệu kết quả sản xuất kinh doanh
của các đơn vị chủ lực nhƣ Vinaphone, Mobifone, VDC, VTN, VTI và 63 đơn vị viễn thông
tỉnh đƣợc lƣu trữ đƣợc tổ chức có hệ thống và liên kết với nhau, đƣợc theo dõi theo chu kỳ
thời gian. Từ hệ thống đó lãnh đạo tập đoàn và lãnh đạo các đơn vị có thể khai thác báo cáo
11

thống kê chính xác nhất, chi tiết, nhanh chóng và thuận tiện nhất nhằm hỗ trợ nhanh nhất
việc ra quyết định kinh doanh khi mà các đối thủ của VNPT đang liên tục phát triển nhanh
chóng trong môi trƣờng cạnh tranh khốc liệt.

Mục tiêu của bài toán là xây dựng kho dữ liệu tích hợp các dữ liệu di động của VNPT dùng
cho phân tích các bài toán kinh doanh để đảm bảo các tiêu chí:
 Nâng cao chất lƣợng dịch vụ hiện VNPT đang cung cấp.
 Kiểm soát đƣợc tình hình phát triển các dịch vụ.
 Toàn bộ thông tin di động đƣợc tập trung và thống nhất cho thời gian dài từ 5 đến 10
năm.
 Các hệ thống thông tin đƣợc tích hợp chặt chẽ với nhau.
 Phân tích nắm bắt đƣợc hành vi, thói quen của ngƣời tiêu dùng để nâng cao việc chăm
sóc khách hàng.
 Đo lƣờng đƣợc sự hiệu quả của các đợt quảng cáo, khuyến mại.
 Đặc biệt xác định đƣợc tƣơng đối chính xác thị phần của đối thủ cạnh tranh.
 Hỗ trợ lãnh đạo ra quyết định nhanh và chính xác trong kinh doanh.

2.1.2. Xác định yêu cầu đối với ứng dụng
Một số yêu cầu đối với việc triển khai kho dữ liệu:
 Yêu cầu của doanh nghiệp.
- Doanh nghiệp cần xác định rõ mục đích cũng nhƣ nhu cầu thực tế của doanh
nghiệp.
- Doanh nghiệp cần chuẩn hóa các quy trình nghiệp vụ thống nhất trƣớc khi triển
khai dự án.
- Doanh nghiệp cần xác định đƣợc năng lực đầu tƣ tài chính cho hệ thống khi triển
khai vì hệ thống đầy đủ sẽ có chi phí rất lớn.
- Doanh nghiệp cũng cần xác định tổng thời gian cần thiết để triển khai dự án cũng
nhƣ xác định rõ từng giai đoạn triển khai để đảm bảo dự án đƣợc triển khai thành
công.

 Yêu cầu phát triển và mở rộng hệ thống
- Đảm bảo dễ dàng tích hợp với các nguồn dữ liệu khác nhau đang đƣợc tổ chức
phân tán.
12

- Dữ liệu phải đƣợc lƣu trữ trong một thời gian dài từ 5-10 năm với khối lƣợng lƣu
trữ hàng Petabyte.
- Do khối lƣợng dữ liệu lƣu trong thời gian dài và có khối lƣợng rất lớn, chi tiết
từng bản tin di động nên hệ thống yêu cầu cần tốc độ query cao.
- Hệ thống có thể dễ dàng mở rộng đƣợc khi có thay đổi.
- Đảm bảo tính đúng đắn về mặt số liệu đƣợc phân tích so với hệ thống dữ liệu
nguồn đƣợc đƣa vào hệ thống.

- Đảm bảo tuân thủ các nguyên tắc tổ chức của kho dữ liệu.
 Yêu cầu của ngƣời sử dụng
- Hệ thống trực quan, dễ sử dụng.
- Hệ thống có thể cung cấp cho ngƣời dùng các khung nhìn tổng quan thông qua hệ
thống phân tích đa chiều OLAP.
2.1.3. Xác định phạm vi của bài toán
 Nguồn dữ liệu di động giả lập của VMS
 Xây dựng một vài data mart dùng để phân tích sản lƣợng di động của VMS.
 Ứng dụng kỹ thuật OLAP để xây dựng khối dữ liệu phân tích sản lƣợng di động của
VMS theo hƣớng đa chiều.
2.2. Phân tích bài toán
2.2.1. Mô hình hóa các yêu cầu của bài toán

2.2.1.1. Phân tích về mô hình quản lý dữ liệu hiện tại của MobiFone
 Hệ thống và địa chỉ máy chủ
VMS Mobifone hiện tổ chức lƣu trữ dữ liệu tổng đài theo bằng hệ thống file. Dữ liệu từ
các nguồn tổng đài đƣợc tập trung lƣu trữ tại File Server đặt tại VMS.
 Các loại dữ liệu
- IN là dữ liệu tính cƣớc online cho các dịch vụ trả trƣớc nhƣ: thoại, tin nhắn, truy
cập internet của thuê bao trả trƣớc.
- MSC chứa dữ liệu kết nối dịch vụ từ các tổng đài chuyển mạch của VMS. Các
dịch vụ trong dữ liệu MSC gồm thoại, tin nhắn.
- FLEXI chứa dữ liệu kết nối dịch vụ từ các tổng đài internet của VMS. Các dịch
vụ trong dữ liệu FLEXI gồm truy cập internet không dây.
13


- CARD chứa dữ liệu kích hoạt thẻ nạp từ các gateway của VMS. Các loại dữ liệu
gồm thuê bao trả trƣớc kích hoạt thẻ nạp, thuê bao trả sau kích hoạt thẻ nạp, hãng
thứ 3 sử dụng thẻ nạp để thanh toán dịch vụ.
- CELL_ID chứa dữ liệu quản lý các BTS của VMS, gồm các thông tin về vị trí
theo cấu trúc tổ ong của mạng di động.
 Khảo sát, phân tích việc nhận dữ liệu của MobiFone
Các tổng đài đều 2 quy tắc ghi file: dung lƣợng tới hạn hoặc 10 phút một lần; tuy theo
điều kiện nào tới trƣớc. Riêng dữ liệu quản lý của BTS, hệ thống quản lý của VMS xuất một
lần trong ngày vào khoảng 2h sáng đến 5h sáng mỗi ngày.
2.2.1.2. Quy trình hoạt động hệ thống phân tích kinh doanh Mobifone
Toàn bộ dữ liệu di động của VMS sẽ đƣợc chuyển sang trung tâm dữ liệu tập trung

(Data Center) của VNPT và đƣợc phân tích theo một quy trình khép kín theo sơ đồ sau:

Dữ liệu:
- Nạp thẻ
- Tiêu thụ
- Sản lượng
- Chất lượng
Dữ liệu đã
được tính toán
Lưu trữ dữ liệu
thô & tính toán
số liệu phục vụ

sản xuất kinh
doanh
Nhận dữ liệu thô
từ bên VMS
Server VMS
FTP server (VNPT)
Database tính toán
(VNPT)
Database trình diễn
(VNPT)
Trình diễn dữ
liệu online

Portal (VNPT)
Đẩy dữ liệu thô
Conver và
Upload dữ liệu
vào database

Hình 2.2. Tổng quan về quy trình lấy và phân tích dữ liệu di động của VMS
 Toàn bộ dữ liệu di động của VMS đƣợc chuyển về Data Center của VNPT.
 Dữ liệu đƣợc làm sạch và đƣợc chuyển vào Data warehouse để tính toán số liệu.
 Sau khi tính toán xong theo yêu cầu thì sẽ đƣợc đồng bộ hóa với hệ thống phân tích
lớp trên và trình diễn .
2.2.1.3. Mô hình phân cấp khối chức năng của hệ thống

Đối với hệ thống tổ chức dữ liệu của VMS đƣợc tổ chức thành 4 khối chức năng:
 Khối nạp thẻ: khối chức năng tính toán phân tích về tình hình kích hoạt thẻ của hệ
thống trên toàn quốc.
 Khối hệ thống tiêu thụ trả trƣớc (IN): Khối chức năng tính toán phân tích về hệ thống
tiêu thụ trả trƣớc của VMS.
 Khối hệ thống sản lƣợng (MSC): khối chức năng tính toán phân tích về sản lƣợng di
động.
14

 Khối hệ thống lƣu lƣợng, chất lƣợng mạng (KPI): khối chức năng phân tích chất lƣợng
mạng.
Hệ thống phân

tích kinh doanh
Mobiphone Vinaphone
Nạp thẻ Lưu lượng
Sản lượng
(MSC)
Tiêu thụ
Data
Lưu
lượng
SMS
Voice
Data

SMS
Voice
Vat
Vas

Hình 2.3. Tổng quan về các chức năng phân tích dữ liệu của VMS
2.3. Thiết kế Data Warehouse ứng dụng cho lĩnh vực di động của VNPT
2.3.1. Kiến trúc đa tầng

Hình 2.4. Kiến trúc đa tầng hệ thống Data Warehouse
Sau khi phân tích thấy đƣợc nhiều ƣu điểm của hệ thống Data warehouse, tôi đã
quyết định chọn mô hình sau đây để tổ chức cơ sở dữ liệu dƣới dạng data warehouse.

 Sử dụng mô hình Data Warehouse Star để lƣu trữ dữ liệu kinh doanh của VNPT.
 Data warehouse đƣợc thiết kế hƣớng các chủ đề dữ liệu Data mart để lƣu trữ dữ liệu
nhƣ chủ đề sản lƣợng, chủ đề tiêu thụ, chủ đề nạp thẻ….
15

 Sử dụng kỹ thuật OLAP, tạo các Cube, dimention để phục vụ phân tích kinh doanh
đa chiều theo các chiều nhƣ thời gian, vị trí, dịch vụ, nhà cung cấp…
 Sử dụng giải pháp của hãng Oracle phiên bản 11gR2 để thực hiện.
2.3.2. Mô hình triển khai VNPT

Hình 2.5. Kiến trúc triển khai hệ thống
 Hệ thống dữ liệu nguồn của 2 hãng di động đƣợc tổ chức phân tán tại các đơn vị

thành viên.
 Hệ thống Data Center của VNPT đặt tại trụ sở chính sẽ thực hiện công tác thu thập
và xử lý số liệu trƣớc khi đƣa vào kho dữ liệu dùng chung.
 Các hệ thống server của VNPT đƣợc tính toán phân tán theo từng loại dữ liệu của
từng nhà cung cấp dịch vụ.
 Toàn bộ dữ liệu phân tích kinh doanh đƣợc tích hợp với cổng thông tin Potal của tập
đoàn đã đƣợc trang bị các kỹ thuật SSO, OTP để đảm bảo an toàn hệ thống.
2.3.3. Chuẩn hóa dữ liệu
Chuẩn hóa quy ƣớc tên, thuộc tính, các đơn vị đo lƣờng…của dữ liệu (thẻ nạp, sản
lƣơng, lƣu lƣợng, cuộc gọi trả trƣớc, SMS, Data) của MobiFone.
2.3.4. Thiết kế các data mart chủ đề dữ liệu
Thiết kế một số chủ đề dữ liệu trong kho dữ liệu:

 Chủ đề dữ liệu sản lƣợng di động.
16

 Chủ đề dữ liệu Flexi (data).

Hình 2.6. Mô hình xử lý dữ liệu hệ thống
 Thiết kế chủ đề dữ liệu sản lượng di động
Đây là kho dữ liệu lƣu giữ tổng hợp về sản lƣợng của các dịch vụ theo các tiêu chí:
các tỉnh thành phố, đầu số, các nhóm dịch vụ, mạng viễn thông, loại thuê bao…trong
từng ngày.
- Các dữ liệu chiều:
 Chiều thời gian: gồm trục thời gian theo đơn vị nhƣ ngày, tuần, tháng, năm.

 Chiều dịch vụ: Service_Type: gồm các dịch vụ nhƣ Voice, SMS, VAS….
 Chiều nhà cung cấp (hƣớng dịch vụ): Owner_Ex, bao gồm các dữ liệu về nhà cung
cấp dịch vụ nhƣ Vinaphone, Mobifone, Vietel, Gtel…
 Chiều vị trí (location): Bao gồm vị trí của CELL_ID, LAC_ID sẽ xác định đƣợc tọa
độ của các trạm BTS và xác định đƣợc thuộc đơn vị quản lý.
- Bảng dữ liệu sự kiện: MSC_CDR_DATA
Bao gồm toàn bộ các sự kiện phát sinh nhƣ Voice, SMS…cả chiều đến và chiều đi của
hệ thống sản lƣợng MSC của hệ thống di động nguồn.
17




Hình 2.7. Lược đồ kho dữ liệu chi tiết sản lượng
- Bảng tổng hợp dữ liệu sản lƣợng: bao gồm dữ liệu đƣợc tổng hợp tính toán


Hình 2.8. Lược đồ kho dữ liệu chủ đề tổng hợp Sản lượng
 Thiết kế chủ đề dữ liệu Flexi (data)
Lƣợc đồ bao gồm:
 Chiều thời gian: gồm trục thời gian theo đơn vị nhƣ ngày, tuần, tháng, năm.
 Chiều dịch vụ: Service_Type: gồm các dịch vụ nhƣ 2G, 3G….
 Chiều vị trí (location): Bao gồm vị trí của CELL_ID, LAC_ID sẽ xác định đƣợc tọa
độ của các trạm BTS và xác định đƣợc thuộc đơn vị quản lý.
18



Hình 2.9. Lược đồ kho dữ liệu chi tiết Flexi
- Bảng dữ liệu sự kiện: MSC_FLEXI_DATA bao gồm toàn bộ các sự kiện phát sinh nhƣ
dữ liệu Upload, download của hệ thống quản lý dữ liệu phát sinh data.

Hình 2.10. Lược đồ kho dữ liệu chủ đề tổng hợp Flexi
2.4. Thiết kế một số tính năng phân tích dữ liệu
2.4.1. Thiết kế các chiều dimension
- Xây dựng Dimension vị trí tỉnh/thành phố: Provinces.
- Xây dựng Dimension thời gian: Time_calendar_dim
- Xây dựng Dimension nhà cung cấp viễn thông: nhƣ Vinaphone, Mobifone, Vietel….

- Xây dựng Dimension dịch vụ: Services
19

2.4.2. Thiết kế các Cube trong OLAP
2.4.2.1. Cube sản lƣợng
Cube xây dựng nhằm mục đích phân tích tình hình sử dụng các dịch vụ về SMS,
Voice…của ngƣời tiêu dùng theo các chiều nhƣ thời gian, địa điểm sử dụng dịch vụ, hƣớng
sử dụng dịch vụ
2.4.2.2. Cube nạp thẻ
Cube nạp thẻ đƣợc xây dựng nhằm mục đích phân tích đƣợc tình hình kích hoạt
thẻ nạp điện thoại của ngƣời tiêu dùng theo từng thời điểm, địa điểm kích hoạt và các
mệnh giá thẻ.

2.4.2.3. Cube Flexi
Cube Flexi đƣợc xây dựng nhằm mục đích phân tích tình hình sử dụng dịch vụ về
Data của ngƣời tiêu dùng, các dịch vụ bao gồm cả 2G và 3G.
2.4.2.4. Cube lƣu lƣợng
Cube dữ liệu chủ đề lƣu lƣợng nhằm phân tích đƣợc lƣu lƣợng của các dịch vụ
nhƣ Voice, SMS…trong ngày tại thời điểm nào là đƣợc sử dụng hiệu quả nhất để nhằm
giúp bộ phận kinh doanh nắm đƣợc thói quen của ngƣời tiêu dùng khi sử dụng dịch vụ.
2.4.3. Xây dựng các chỉ tiêu phân tích nâng cao
OLAP cung cấp các phép tính, phân tích cơ bản và nâng cao:
- Số học Cơ bản: Cộng, trừ, nhân và chia, sử dụng hai phép đo hoặc một phép đo.
- Số học nâng cao: Cumulative, index, percent markup, rank, share, variance…
2.5. Kết luận chƣơng

Trong chƣơng này học viên đã tập trung vào phân tích bài toán phân tích dữ liệu kinh
doanh di động của VMS, đồng thời xây dựng thiết kế một số DM trong kho dữ liệu di động.
Bằng việc áp các lý thuyết về OLAP ở chƣơng một, tác giả cũng đã thiết kế và xây dựng một số
Cube trong kiến trúc của OLAP để phục vụ công tác phân tích kinh doanh đa chiều trong bài
toán phân tích kinh doanh di động của VNPT. Tuy nhiên do hệ thống di động thƣờng chứa dữ
liệu rất lớn nên trong quá trình hoàn thiện học viên cần nâng cấp, tối ƣu hệ thống hơn nữa
để đảm bảo khả năng triển khai đƣợc khả thi nhất.
20

CHƢƠNG 3. KẾT QUẢ XÂY DỰNG ỨNG DỤNG TRONG LĨNH
VỰC DI DỘNG CHO VNPT
Chƣơng này học viên trình bày một số kết quả đã nghiên cứu, phát triển và triển khai

thử nghiệm hệ thống tại VNPT.
3.1. Cài đặt hệ thống
3.1.1. Tập hợp nguồn dữ liệu cho bài toán
Do hệ thống đang sử dụng dữ liệu di động của công ty VMS để nghiên cứu, vì vậy để
đảm bảo nguyên tắc an toàn bảo mật thông tin của công ty cũng như của VNPT, học viên đã
sử dụng mẫu dữ liệu giả lập để nhằm phục vụ công tác nghiên cứu, mô phỏng và thử
nghiệm trong phạm vi của luận văn.
- Nguồn dữ liệu sản lƣợng của VMS.
- Nguồn dữ liệu Flexi của VMS.
3.1.2. Cài đặt thử nghiệm
- Hệ thống máy chủ đặt tại Data Center của VNPT.
- Hệ quản trị cơ sở dữ liệu Oracle 11gR2.

- Hệ thống đƣợc triển khai thử nghiệm trên nền tảng hạ tầng đƣợc ứng dụng công
nghệ Clustering đảm bảo khả năng tính toán trên khối lƣợng số lƣợng lớn số liệu
- OLAP server sử dụng giải pháp của hãng Oracle phiên bản 11gR2.
- Hệ điều hành Window Server 2008
3.2. Một số kết quả đạt đƣợc
Một số kết quả dữ liệu của các chiều:

21


Hình 3.1. Các chiều dữ liệu
Một số kết quả phân tích CUBE:



Hình 3.2. Cube sản lượng theo tỉnh


22


Hình 3.3. Cube sản lượng theo nhà cung cấp dịch vụ


Hình 3.4. Cube Flexi theo đơn vị


23


Hình 3.5. Cube lưu lượng sử dụng dịch vụ


Hình 3.6. Cube kích hoạt nạp thẻ

3.3. Kết luận chƣơng
Trong chƣơng ba học viên đã trình bày một số kết quả, hình ảnh của một số chức
năng của kho dữ liệu đã đạt đƣợc của hệ thống khi triển khai thử nghiệm tại Data Center của

VNPT.

24

KẾT LUẬN
Luận văn nghiên cứu “NGHIÊN CỨU VÀ ỨNG DỤNG DATA WAREHOUSE
TRONG PHÂN TÍCH THÔNG TIN DI ĐỘNG CHO VNPT” đã đƣợc hoàn thành.
 Nghiên cứu lý thuyết, mô hình tổng quan về BI trong doanh nghiệp.
 Nghiên cứu và phân tích đƣợc mô hình triển khai DW trong doanh nghiệp.
 Thực hiện xây dựng kho dữ liệu DW thử nghiệm từ hệ thống nguồn dữ liệu kinh
của Mobifone. Tuy nhiên do thời gian thực hiện luận văn có giới hạn nên luận
văn chỉ dừng lại với việc xây dựng một số DM cơ bản của hệ thống di động nhƣ

chủ đề sản lƣợng và chủ đề flexi.
 Thực hiện xây dựng một số Cube trên cơ sở lý thuyết về OLAP để phục vụ công
tác phân tích kinh doanh theo nhiều chiều phục vụ công tác hỗ trợ ra quyết định.
 Trong tƣơng lai học viên đề xuất thiết kế phát triển tiếp các DM về chủ đề
tiêu thụ tài khoản của các thuê bao trả trƣớc của VMS. Đặc biệt sẽ tích hợp
thêm nhiều nguồn thông tin từ hệ thống di động của mạng Vinaphone từ đó
sẽ phân tích đƣợc toàn cảnh thị trƣờng di động tại Việt Nam.
Qua đó, có thể khẳng định xây dựng một kho dữ liệu về kinh doanh di động của
doanh nghiệp là hết sức cần thiết đối với doanh nghiệp VMS cũng nhƣ của VNPT. Việc
hiểu đƣợc tầm quan trọng và phƣơng pháp xây dựng hệ thống Data warehous đóng vai trò
quyết định trong việc xây dựng hệ thống BI của doanh nghiệp viễn thông.





×