Tải bản đầy đủ (.pdf) (11 trang)

Xây dựng kho dữ liệu và báo cáo quản trị BI cho tập đoàn vin group với hệ thống SAP BOBI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (433.58 KB, 11 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN HUY HÙNG

XÂY DỰNG KHO DỮ LIỆU VÀ BÁO CÁO QUẢN TRỊ
BI CHO TẬP ĐOÀN VINGROUP VỚI HỆ THỐNG SAP BOBI

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI, 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN HUY HÙNG

XÂY DỰNG KHO DỮ LIỆU VÀ BÁO CÁO QUẢN TRỊ
BI CHO TẬP ĐOÀN VINGROUP VỚI HỆ THỐNG SAP BOBI
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS. VũĐức Thi

HÀ NỘI, 2015



1

MỤC LỤC

LỜI CẢM ƠN ................................................................................................................1
LỜI CAM ĐOAN ........................................ ERROR! BOOKMARK NOT DEFINED.
DANH MỤC CÁC KÍ HIỆU, TỪ VIẾT TẮT ............................................................3
CHƯƠNG I. TỔNG QUAN KHO DỮ LIỆU VÀ BÁO CÁO BI ..............................6
1.1.

Kho dữ liệu (Data warehouse) ...........................................................................6

1.1.1. Kho dữ liệu ..................................................... Error! Bookmark not defined.
1.1.2. Đặc điểm của Kho dữ liệu .............................. Error! Bookmark not defined.
1.1.3. Lợi ích của Kho dữ liệu .................................. Error! Bookmark not defined.
1.1.4. Cấu trúc Kho dữ liệu ....................................... Error! Bookmark not defined.
1.1.5. Mô hình thực thể trong Kho dữ liệu ............... Error! Bookmark not defined.
1.2.

Báo cáo thông minh (Business Intelligent) ......... Error! Bookmark not defined.

1.2.1. Các giải pháp BI ............................................... Error! Bookmark not defined.
1.2.2. Cấu trúc của báo cáo BI .................................. Error! Bookmark not defined.
CHƯƠNG II. QUY TRÌNH ETL TRONG KHO DỮ LIỆU ERROR! BOOKMARK
NOT DEFINED.
2.1.

Tổng quan ETL .................................................... Error! Bookmark not defined.

2.1.1 Khái niêm ........................................................ Error! Bookmark not defined.

2.1.2 Vai trò của ETL trong kho dữ liệu.................. Error! Bookmark not defined.
2.1.3 Các chức năng của ETL .................................... Error! Bookmark not defined.
2.2.

Kiến trúc của ETL ................................................ Error! Bookmark not defined.

2.3.

Kỹ thuật ETL trong kho dữ liệu ......................... Error! Bookmark not defined.

2.3.1 Xác định nguồn dữ liệu ................................... Error! Bookmark not defined.
2.3.2 Kỹ thuật trích xuất dữ liệu .............................. Error! Bookmark not defined.
2.3.3 Kỹ thuật làm sạch và chuyển đổi dữ liệu ........ Error! Bookmark not defined.
2.3.4 Tải dữ liệu vào kho dữ liệu ............................. Error! Bookmark not defined.
CHƯƠNG III. XÂY DỰNG KHO DỮ LIỆU VÀ BÁO CÁO BI TRÊN HỆ
THỐNG SAP BPC ....................................... ERROR! BOOKMARK NOT DEFINED.
3.1 Kiến trúc Kho dữ liệu SAP BW .............................. Error! Bookmark not defined.


2

3.2 Xây dựng Kho dữ liệu cho tập đoàn VIN trên SAP BW. .... Error! Bookmark not
defined.
3.2.1 Yêu cầu bài toán của VIN GROUP .................. Error! Bookmark not defined.
3.2.2 Phân tích thiết kế hệ thống ................................ Error! Bookmark not defined.
3.3. Xây dựng Kho dữ liệu .............................................. Error! Bookmark not defined.
3.3.1 Quy trình lấy dữ liệu tích hợp cho các chiều phân tích (Dimension) ....... Error!
Bookmark not defined.
3.3.2 Xây dựng Model theo nghiệp vụ ...................... Error! Bookmark not defined.
3.4.2 Tạo báo cáo BI với BEx Analyzer .................... Error! Bookmark not defined.

CHƯƠNG IV. KẾT LUẬN ......................... ERROR! BOOKMARK NOT DEFINED.
4.1 Kết quả thu được ...................................................... Error! Bookmark not defined.
4.2 Hướng phát triển. ...................................................... Error! Bookmark not defined.


3

DANH MỤC HÌNH VẼ
Hinh 1.1 – Tích hợp dữ liệu .............................................................................................8
Hình 1.2 – Tính thời gian của dữ liệu ........................... Error! Bookmark not defined.
Hình 1.3 – Cơ chế hoạt động của Data Warehouse ...... Error! Bookmark not defined.
Hình 1.4 – Kiến trúc của Kho dữ liệu ........................... Error! Bookmark not defined.
Hình 1.5 – Quy trình ETL .............................................. Error! Bookmark not defined.
Hình 1.6 - Sự phân cách giữa ODS và DW ................... Error! Bookmark not defined.
Hình 1.7 – Dữ liệu theo mô hình sao............................. Error! Bookmark not defined.
Hình 1.8 - Mô hình bông tuyết...................................... Error! Bookmark not defined.
Hình 1.9 – Mô hình chòm sao ....................................... Error! Bookmark not defined.
Hình 1.10 Các thành phần của BI ................................ Error! Bookmark not defined.
Hình 1.11 Các thành phần chính của BI ...................... Error! Bookmark not defined.
Hình 2.1 tiến trình ETL nằm ở nguồn dữ liệu ............... Error! Bookmark not defined.
Hình 2.2 - Tiến trình ETL nằm ở server chứa kho dữ liệuError!
defined.

Bookmark

not

Hình 2.3 - Tiến trình ETL nằm ở server trung gian ...... Error! Bookmark not defined.
Hình 3.1 – Kiến trúc SAP BW ....................................... Error! Bookmark not defined.
Hình 3.2 – Luồng dữ liệu trong SAP BW ...................... Error! Bookmark not defined.

Hình 3.3 – Sơ đồ luồng dữ liệu ...................................... Error! Bookmark not defined.
Hình 3.4 – Danh sách các Dimension của hệ thống ..... Error! Bookmark not defined.
Hình 3.3 – Function Module trích xuất dữ liệu nguồn. . Error! Bookmark not defined.
Hình 3.4 – Tạo Datasource ........................................... Error! Bookmark not defined.
Hình 3.5 – Thông tin Datasource .................................. Error! Bookmark not defined.
Hình 3.7 – Công cụ SAP BW Workbench ...................... Error! Bookmark not defined.
Hình 3.8 – Thông tin chung Chiều phân tích ................ Error! Bookmark not defined.
Hình 3.9 – Bảng chứa dữ liệu của đối tượng ................ Error! Bookmark not defined.
Hình 3.10 – Thông tin về cây của đối tượng Hierachy . Error! Bookmark not defined.
Hình 3.11 Thông tin thuộc tính của chiều phân tích ..... Error! Bookmark not defined.


4

Hình 3.12 – Transfromation nạp dữ liệu cho chiều phân tíchError! Bookmark not
defined.
Hình 3.13 – Loading dữ liệu vào chiều phân tích ......... Error! Bookmark not defined.
Hình 3.14 – Kết quả Transfromation ............................ Error! Bookmark not defined.
Hình 3.15 – Thành phần dữ liệu của ODS .................... Error! Bookmark not defined.
Hình 3.16 Transformation của ODS ............................. Error! Bookmark not defined.
Hình 3.17 – Thông tin Model CAPEX ........................... Error! Bookmark not defined.
Hình 3.18 – Lập trình ROUTINE tính toán chuyển đổi sang Model từ ODS ....... Error!
Bookmark not defined.
Hình 3.19 – File Transformation Rules ......................... Error! Bookmark not defined.
Hình 3.20 – File Conversions Rules .............................. Error! Bookmark not defined.
Hình 3.21 – Kết quả sau khi nạp dữ liệu chuyển đổi .... Error! Bookmark not defined.
Hình 3.22 – Thông tin Query truy vấn dữ liệu từ Model CAPEXError! Bookmark not
defined.
Hình 3.23 – Restricted Key Figure ................................ Error! Bookmark not defined.
Hình 3.24 Báo cáo BI với BEx Analyzer ...................... Error! Bookmark not defined.

Hình 3.25 – Hiển thị báo cáo BI dạng đồ họa .............. Error! Bookmark not defined.


5

MỞ ĐẦU
Cùng với việc áp dụng rộng rãi Công nghệ Thông tin vào trong hầu hết các lĩnh
vực trong đời sống, kinh tế, xã hội đó là việc dữ liệu thu nhận được qua thời gian ngày
càng nhiều.Vì vậy, yêu cầu thiết yếu đặt ra đối với các doanh nghiệp đó là việc khai
thác các dữ liệu này một cách hiệu quả để phục vụ cho việc kinh doanh ngày càng tốt
hơn. Tập đoàn VinGroup là một tập đoàn lớn với một hệ thống thông tin đã cũ và phân
tán. Do đó, tập đoàn nhận ra rằng việc xây dựng một hệ thống báo cáo nhanh và hỗ trợ
kịp thời cho các chiến lược kinh doanh là rất quan trọng. Tập đoàn VinGroup đã chọn
giải pháp SAP BOBI để xây dựng kho dữ liệu và báo cáo tài chính. Tôi được giao
trọng trách trực tiếp nghiên cứu và xây dựng hệ thống này với vai trò Trưởng nhóm
lập trình của nhà thầu FPT IS (Công ty TNHH Hệ thống Thông tin FPT).
Luận văn này với đề tài "Xây dựng Kho dữ liệu và Báo cáo quản trị BI cho Tập
đoàn Vin Group với Hệ thống SAP BOBI " giới thiệu về kho dữ liệu, phương pháp
OLAP và ứng dụng trong phân tích Doanh thu, lợi nhuận trong các báo cáo tài chính
của tập đoàn VinGroup bằng hệ thống tiên tiến trên thế giới SAP BOBI.
Luận văn gồm bốn chương:
Chương 1. Tổng quan Kho dữ liệu và báo cáo BIGiới thiệu tổng quan về kho
dữ liệu, cấu trúc kho dữ liệu, các thành phần của kho dữ liêu, cách thiết kế kho dữ liệu
và ứng dụng của kho dữ liệu trong thiết kế báo cáo BI.
Chương 2. Quy trình ETL trong Kho dữ liệu Giới thiệu tổng quan về kỹ thuật
ETL tích hợp chuyển đổi dữ liệu từ hệ thống nguồn vào Kho dữ liệu.
Chương 3Xây dựng Kho dữ liệu và Báo cáo trên hệ thống SAP BOBIXây
dựng và cài đặt dữ liệu trong Kho dữ liệu trên nền tảng công nghệ SAP BPC để lưu trữ
theo yêu cầu nghiệp vụ, lập trình tính toán chuyển đổi dữ liệu vào Kho dữ liệu cho Tập
đoàn Vin Group.

Chương 4. Kết luận
Phần kết luận tổng kết và tóm lược những kết quả, đóng góp chính của khóa
luận.


6

CHƯƠNG I. TỔNG QUAN KHO DỮ LIỆU VÀ BÁO CÁO BI
1.1.

Kho dữ liệu (Data warehouse)
1.1.1. Lịch sử hình thành

Khái niệm Data Warehousing được xuất hiện vào những năm 80, khi mà các hê ̣
thố ng quản lý cở sở dữ liê ̣u quan hê ̣ nổ i lên như những sản phẩ m thương ma ̣i .
Năm 1988, có một bài báo mô tả định nghĩa đầu tiên về kiến trúc kho dữ liệu .
Bài báo mô tả những công việc đã thực hiện để thiế t kế kho dữ liê ̣u phu ̣c vu ̣ chi nhánh
IBM ta ̣i châu Âu.
Đầu thập niên 90, cuô ̣c cách ma ̣ng về xử lý dữ liê ̣u không chỉ là phổ câ ̣p kho dữ
liê ̣u mà còn ta ̣o điề u kiê ̣n để mở rô ̣ng khái niê ̣m kho dữ liê ̣u
Thế kỷ 20 – kỷ nguyên của quản lý dựa trên thông tin
Ngày nay, chúng ta chờ đợi và dự đoán tương lai dựa trên những phác thảo quá
khứ. Nhu cầ u về lơ ̣i thế ca ̣nh tranh tăng ca khiế n nề n tảng để hỗ trơ ̣ viê ̣c ra quyế t đinh
̣
chuyể n từ dữ liê ̣u da ̣ng số sang thông tin và viê ̣c này có thể đươ ̣c mô tả bởi thuâ ̣t ngữ
quản lý dựa trên thông tin
Kho dữ liệu là tuyển tập các cơ sở dữ liệu tích hợp, hướng chủ đề, được thiết
kế để hỗ trợ cho chức năng trợ giúp quyết định.
Theo John Ladley [9], Công nghệ kho dữ liệu (Data Warehouse Technology) là
tập các phương pháp, kỹ thuật và các công cụ có thể kết hợp, hỗ trợ nhau để cung cấp

thông tin cho người sử dụng trên cơ sở tích hợp từ nhiều nguồn dữ liệu, nhiều môi
trường khác nhau.
Kho dữ liệu thường rất lớn tới hàng trăm GB hay thậm chí hàng Terabyte. Kho
dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều kiểu dữ
liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công nghệ hiện
đại và kế thừa được từ những hệ thống đã có sẵn từ trước.
1.1.2. Data warehouse là gì?
Data warehouse được sử dụng như là một nền tảng cho hệ thống hỗ trợ ra quyết định. Nó
gắn liền với khái niệm Business Inteligence (Kinh doanh thông minh). Nó được dùng để giải
quyết các vấn đề gặp phải khi một tổ chức cố gắng phân tích chiến lược từ số liệu trong một hệ
thống database được dùng chung với hệ thống xử lý dữ liệu trực tuyến (OLTP).
Một hệ thống OLTP điển hình được đặc trưng bởi một hệ thống có nhiều người sử dụng
đồng thời để thêm, sửa, xóa dữ liệu. Ví dụ như một hệ thống bán lẻ, có nhiều nhân viên bán hàng
đồng thời cùng nhập và chỉnh sửa dữ liệu vào hệ thống. Trong một hệ thống nhỏ, việc sử dụng


7
cùng một hệ thống database này cho mục đích lên báo cáo thống kê, phân tích có thể chấp nhận
được do khối lượng dữ liệu ít, ít người dùng. Nhưng trong một hệ thống với khối lượng dữ liệu
hàng chục triệu đến trăm triệu bản ghi trên một bảng thì việc khai thác dữ liệu chung trên cùng
một hệ thống database OLTP là không thể chấp nhận được vì thời gian xử lý dữ liệu rất lâu, làm
cho tài nguyên hệ thống trở nên quá tải và có thể làm cho toàn bộ hệ thống bị tê liệt.
Hệ thống OLTP được thiết kế cho mục đích thu thập dữ liệu, khối lượng dữ liệu càng càng
càng lớn khiến cho nhu cầu phân tích càng trở nên cấp thiết hơn. Tuy nhiên database trong
OLTP được thiết kế cho mục đích thu thập số liệu thường phải tối ưu hóa cả về không gian lưu
trữ lẫn chuẩn hóa trong thiết kế tuân thủ nghiêm ngặt theo mô hình dữ liệu quan hệ. Khi có nhu
cầu phân tích, khai thác dữ liệu thông qua các báo cáo sẽ phát sinh các vấn đề:
- Người xây dựng báo cáo không hiểu nổi mối quan hệ phức tạp giữa các bảng trong
nhiều database của các ứng dụng khác nhau
- Khó xây dựng truy vấn vì các database nẳm ở các server khác nhau

- Việc phân quyền không cho phép người dùng có thể lấy dữ liệu chi tiết
- Các câu truy vấn với dữ liệu lớn có thể khiến hệ thống bị tê liệt
Ví dụ: Một quản lý bán hàng muốn lên một báo cáo tổng hợp hàng bán trong tháng cho
từng vùng miền khác nhau. Nếu lên dữ liệu từ cùng hệ thống OLTP thì mỗi lẫn chạy báo cáo thì
hệ thống phải thực hiện lại một lần việc truy xuất và tổng hợp dữ liệu. Ngoài ra có thể dữ liệu lại
được lưu trữ trên nhiều vùng địa lý, trên nhiều nguồn dữ liệu khác nhau (file excel, Oracle, SQL
Server, ms access...). Điều này dẫn tới việc mức độ thỏa mãn nhu cầu tổng hợp và phân tích số
liệu cho người dùng là rất thấp. Họ mong muốn có một hệ thống nhanh chóng hơn.
Data warehouse và hệ thống phân tích dữ liệu trực tuyến (Online Analytical Processing - OLAP)
cung cấp các giải pháp để giải quyết các vấn đề trên. Data warehouse cung cấp phương pháp tiếp
cận lưu trữ số liệu từ các nguồn khác nhau (thường là từ nguồn OLTP) vào một kho lưu trữ duy
nhất. Data warehouse cung cấp các lợi ích sau tới những người dùng phân tích số liệu:

- Dữ liệu được tổ chức để tạo thuận lợi cho các truy vấn phân tích chứ không phải
cho việc xử lý các giao dịch

- Sự khác biệt về cấu trúc dữ liệu được lưu trữ trên nhiều nguồn dữ liệu không đồng
nhất sẽ được giải quyết

- Những quy tắc thống nhất sẽ được áp dụng khi hợp nhất dữ liệu từ các hệ thống
không đồng nhất sang data warehouse

- Tính bảo mật và hiệu suất có thể được cải thiện mà không cần phải thực hiện bất kỳ
sửa đổi nào trên hệ thống dữ liệu gốc
Các đặc trưng của Kho dữ liệu:

- Tính tích hợp: Dữ liệu trong Dataware house được tổ chức theo nhiều cách
khác nhau sao cho phù hợp với các quy ước đặt tên, thống nhất về số đo, cơ cấu mã



8

hóa và cấu trúc vật lý của dữ liệu. Một Datawarehouse là một khung nhìn thông tin
mức tổng thể, toàn tổ chức, thống nhất các khung nhìn khác nhau thành một khung
nhìn theo một chủ đề nào đó. Tính tích hợp thể hiện ở chỗ : Dữ liệu trong kho dữ liệu
được tập trung từ nhiều nguồn và được ghép với nhau tạo thành một thể thống nhất.

Hinh 1.1 – Tích hợp dữ liệu
Hướng chủ đề: Dữ liệu trong Dataware house được tổ chức theo các chủ
đề phục vụ cho những tổ chức dễ dàng xác định được những thông tin cần thiết trong
từng hoạt động của mình. Dữ liệu gắn thời gian và có tính lịch sử: Một kho dữ liệu bao
hàm một khối lượng lớn khối lượng lịch sử. Dữ liệu trong Dataware house được gọi là
các ảnh chụp dữ liệu (data snapshort), mỗi bản ghi phản ánh những giá trị của dữ liệu
tại một thời điểm nhất định thể hiện một khung nhìn của một của một chủ điểm trong
một giai đoạn. Yếu tố thời gian đóng vai trò như một phần của khóa để đảm bảo tính
đơn nhất của mỗi bản ghi và cung cấp đặc trưng về thời gian cho dữ liệu. Dữ liệu trong
CSDL tác nghiệp cần phải chính xác ở chính thời điểm truy cập, trong khi ở Dataware
house chỉ cần có hiệu lực trong một khoảng thời gian nào đó, trong khoảng 5 năm đến
10 năm hoặc lâu hơn. Dữ liệu của CSDL sau một thời gian nhất định sẽ trở thành dữ
liệu lịch sử và chúng sẽ được chuyển vào kho dữ liệu.


9

TÀI LIỆU THAM KHẢO
Tiếng Anh
[1] The Data Warehouse ETL Toolkit Practical Techniques for Extracting,
Conforming, and Delivering Data, Ralph Kimball, Joe Caserta.
[2] Data Warehousing Fundamentals: A Comprehensive Guide for IT
Professionals. Paulraj Ponniah, Copyright © 2001 John Wiley & Sons, Inc.

[3] Conceptual Modeling for ETL Processes, Panos Vassiliadis, Alkis Simitsis,
Spiros Skiadopoulos.
[4] Building the Data Warehouse, W.H.Inmon, Copyright © 2005 John Wiley
& Sons, Inc.
[5] Arktos : towards the modeling, design, control and execution of ETL
processes, Panos Vassiliadis*, Zografoula Vagena, Spiros Skiadopoulos, Nikos
Karayannidis, Timos Sellis, 2001
[6] Larissa T. Moss, Shaku Atr. Business Intelligence Roadmap, AddisonWesley,2008



×