Tải bản đầy đủ (.pdf) (86 trang)

(Luận văn thạc sĩ) xây dựng hệ thống data warehouse và ứng dụng công nghệ olap để phân tích dữ liệu kinh doanh của doanh nghiệp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.62 MB, 86 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
---------------------------------------

NGUYỄN KHÁNH DUY

XÂY DỰNG HỆ THỐNG DATA
WAREHOUSE VÀ ỨNG DỤNG CÔNG
NGHỆ OLAP ĐỂ PHÂN TÍCH DỮ LIỆU
KINH DOANH CỦA DOANH NGHIỆP
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

TP. HỒ CHÍ MINH - 2019


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC MỞ THÀNH PHỐ HỒ CHÍ MINH
---------------------------------------

NGUYỄN KHÁNH DUY

XÂY DỰNG HỆ THỐNG DATA
WAREHOUSE VÀ ỨNG DỤNG CÔNG
NGHỆ OLAP ĐỂ PHÂN TÍCH DỮ LIỆU
KINH DOANH CỦA DOANH NGHIỆP
Chuyên ngành

: Khoa học máy tính

Mã số chuyên ngành : 60 48 01 01
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH



HƯỚNG DẪN KHOA HỌC
PGS.TS ĐỖ PHÚC

TP. HỒ CHÍ MINH - 2019


i

LỜI CAM ĐOAN
Tôi cam đoan rằng luận văn “XÂY DỰNG HỆ THỐNG DATA WAREHOUSE VÀ
ỨNG DỤNG CÔNG NGHỆ OLAP ĐỂ PHÂN TÍCH DỮ LIỆU KINH DOANH
CỦA DOANH NGHIỆP” là bài nghiên cứu của chính tôi.
Ngoại trừ những tài liệu tham khảo được trích dẫn trong luận văn này, tôi cam đoan
rằng toàn phần hay những phần nhỏ của luận văn này chưa từng được công bố hoặc
được sử dụng để nhận bằng cấp ở những nơi khác.
Không có sản phẩm/nghiên cứu nào của người khác được sử dụng trong luận văn này
mà không được trích dẫn theo đúng quy định.
Luận văn này chưa bao giờ được nộp để nhận bất kỳ bằng cấp nào tại các trường đại
học hoặc cơ sở đào tạo khác.
TP. Hồ Chí Minh, tháng 11 năm 2019

Nguyễn Khánh Duy


ii

LỜI CẢM ƠN
Sau thời gian học tập và nghiên cứu tại Trường Đại học Mở Thành phố Hồ Chí
Minh, bằng sự biết ơn và kính trọng, tôi xin gửi lời cảm ơn chân thành đến Ban giám

hiệu nhà trường, khoa Công nghệ thông tin cùng các giảng viên đã nhiệt tình giảng
dạy và tạo điều kiện tốt nhất cho tôi hoàn thành đề tài nghiên cứu khoa học này.
Đặc biệt tôi xin gửi lời cảm ơn sâu sắc đến thầy PGS.TS Đỗ Phúc, người đã trực
tiếp hướng dẫn tôi bằng tất cả sự nhiệt huyết của mình và luôn đồng hành cùng tôi
trong suốt quá trình thực hiện đề tài.
Tôi cũng xin chân thành cảm ơn các đồng nghiệp trong công ty đã tạo điều kiện
và giúp đỡ để tôi có thể hoàn thành đề tài nghiên cứu này.
Mặc dù đã rất cố gắng, nhưng do hạn chế về thời gian và một số điều kiện khách
quan nên luận văn không thể tránh khỏi những thiếu sót. Kính mong nhận được sự
đóng góp ý kiến của Quý thầy cô, bạn bè và các đồng nghiệp để đề tài được hoàn
thiện hơn nữa.


iii

TÓM TẮT
Trong thời đại hiện nay, dữ liệu đang trở thành nguồn tài nguyên vô tận để các
cá nhân, tổ chức khai thác ở mọi lĩnh vực. Nguồn tài nguyên này ngày càng trở nên
quan trọng đối với ngành bán lẻ, việc khai thác tốt dữ liệu sẽ giúp các nhà quản trị
đưa ra những quyết định mang tính chiến lược, đột phá nhằm mở rộng quy mô và
nâng cao lợi nhuận trong kinh doanh. Hệ thống Data Warehouse là một trong những
giải pháp hiệu quả nhất để quản lý lượng dữ liệu khổng lồ của doanh nghiệp. Chính
vì vậy mà tác giả lựa chọn thực hiện đề tài “Xây dựng hệ thống Data Warehouse và
ứng dụng công nghệ OLAP khai thác dữ liệu kinh doanh của doanh nghiệp” để giải
quyết 3 vấn đề chính:


Xây dựng hệ thống Data Warehouse là nơi tập trung dữ liệu để Chuỗi cửa
hàng Retailer khai thác cho nhu cầu tạo báo cáo.




Rút ngắn tối đa thời gian tạo báo cáo, ứng dụng kỹ thuật OLAP để phân tích
các dữ liệu mà hệ thống Data Warehouse cung cấp.



Ứng dụng hệ thống Data Warehouse đã xây dựng vào thực tiễn vận hành
của Chuỗi cửa hàng Retailer.

Nội dung của chương 2 trình bày về kiến trúc dòng dữ liệu cũng như một số mô
hình dữ liệu của Data Warehouse; các kiến trúc của tiến trình trích xuất, biến đổi và
chuyển nạp dữ liệu; các thao tác OLAP thực thi phân tích dữ liệu đa chiều. Chương
này cũng đã nêu rõ ưu – khuyết điểm của từng kiến trúc để làm cơ sở cho giai đoạn
thiết kế Data Warehouse.
Chương 3 thực hiện khảo sát hiện trạng hệ thống, các yêu cầu tạo và phân tích
báo cáo làm căn cứ cho việc thiết kế kiến trúc của hệ thống Data Warehouse. Sau khi
hoàn tất khảo sát, tiến hành giai đoạn thiết kế kiến trúc dòng dữ liệu và lựa chọn mô
hình tổ chức dữ liệu phù hợp; xây dựng tiến trình trích xuất, biến đổi, chuyển nạp dữ
liệu; triển khai khối dữ liệu đa chiều thông qua các công cụ SSIS và SSAS của
Microsoft. Khối dữ liệu đa chiều này là đối tượng chính để các thao tác OLAP khai
thác dữ liệu.


iv

Chương 4 tiến hành sử dụng thao tác Drill down, Roll up, Slice, Dice nhằm tổng
hợp dữ liệu thành thông tin giúp nhà quản trị có căn cứ đưa ra những quyết định quan
trọng. Kỹ thuật OLAP tạo ra những báo cáo có khung nhìn linh động, thời gian thực
thi được rút ngắn đáng kể từ đó giải quyết được các mục tiêu ban đầu. Bên cạnh đó,

các hạn chế cũng được chỉ ra và đề xuất hướng giải quyết để dần hoàn thiện hệ thống
Data Warehouse.


v

ABSTRACT
Nowadays, data become an endless resource for individuals and organization to
exploit for their purpose. This resource has an especially important role in retail
industry. Data mining will support business managers making strategic and
breakthrough decisions to expand the organization scale and improve profits. Data
Warehouse system is one of the most effective solutions to manage huge data volume
of enterprises. Therefore, the author decided to choose the project “Builidng Data
Warehouse System And Organization Adoption Of OLAP Technology To Exploid
Data”. This project aim to solve 3 main objectives:


Building Data Warehouse system that store all data of Retailer Convenience
Store Chain for reporting purpose.



Increasing performance of creating reports, apply OLAP techniques to
analyze data provided by Data Warehouse system.



Implementing Data Warehouse system to support operations of Retailer
Convenience Store Chain.


Chapter 2 covers data flow architectures and data models of Data Warehouse
system; the architectures of extraction, transformation and loading process (ETL); the
OLAP operations that analyze data using multidimensional database. This chapter
highlights advantages and disadvantages of each architecture for Data Warehouse
designing phase.
Chapter 3 carries out a system status survey, the requirements for creating and
analyzing reports. The author design data flow architecture and selecting the
appropriate data model base on result of survey; building extraction, transformation
and loading process; deploy OLAP cube by using SSIS and SSAS tools. This OLAP
cube is the main object for OLAP operations to exploit data.
Finally, chapter 4 applies OLAP operations Drill down, Roll up, Slice, Dice to
organize and present data in a given context so that making data become useful


vi

information. OLAP operations create reports with flexible views, shortening
execution time, supporting business managers making decisions. In addition,
limitions of this research were also pointed out and proposed solutions to improve the
Data Warehouse system.


vii

MỤC LỤC
LỜI CAM ĐOAN ...................................................................................................... i
LỜI CẢM ƠN ........................................................................................................... ii
TÓM TẮT ................................................................................................................ iii
ABSTRACT ...............................................................................................................v
DANH MỤC CHỮ VIẾT TẮT .............................................................................. ix

DANH MỤC CÁC BẢNG ........................................................................................x
DANH MỤC HÌNH ẢNH ....................................................................................... xi
CHƯƠNG 1: TỔNG QUAN.....................................................................................1
1.1. Giới thiệu .......................................................................................................1
1.2. Mục tiêu của luận văn ....................................................................................2
1.2.1. Giới thiệu về Chuỗi cửa hàng Retailer ...................................................2
1.2.2. Mục tiêu nghiên cứu của luận văn ..........................................................3
1.3. Phạm vi, đối tượng và nội dung nghiên cứu ..................................................3
1.3.1. Phạm vi ...................................................................................................3
1.3.2. Đối tượng ................................................................................................3
1.3.3. Nội dung .................................................................................................4
1.4. Ý nghĩa của luận văn .....................................................................................4
1.5. Bố cục luận văn .............................................................................................4
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT DATA WAREHOUSE ................................6
2.1. Lý thuyết về Data Warehouse .......................................................................6
2.1.1. Khái niệm ................................................................................................6
2.1.2. Kiến trúc Data Warehouse ......................................................................7
2.1.3. Mô hình dữ liệu đa chiều ......................................................................11
2.2. Lý thuyết về ETL .........................................................................................12
2.2.1. Khái niệm ..............................................................................................12
2.2.2. Kiến trúc ETL .......................................................................................15
2.3. Lý thuyết về OLAP......................................................................................16
2.3.1. Khái niệm ..............................................................................................16
2.3.2. Phân loại OLAP ....................................................................................17
2.3.3. Các thao tác của OLAP .........................................................................20
CHƯƠNG 3: KHẢO SÁT HIỆN TRẠNG VÀ THIẾT KẾ HỆ THỐNG DATA
WAREHOUSE ........................................................................................................24


viii


3.1. Khảo sát và phân tích yêu cầu .................................................................... 24
3.1.1. Hiện trạng hệ thống thông tin của doanh nghiệp ................................. 24
3.1.2. Khảo sát dữ liệu ................................................................................... 26
3.1.3. Khảo sát báo cáo .................................................................................. 28
3.2. Thiết kế kiến trúc Data Warehouse và mô hình hóa dữ liệu ...................... 30
3.2.1. Thiết kế Stage ...................................................................................... 31
3.2.2. Thiết kế DDS ....................................................................................... 33
3.2.3. Ánh xạ dữ liệu ...................................................................................... 40
3.3. Xây dựng tiến trình ETL............................................................................. 42
3.3.1. Trích xuất dữ liệu của ODS ................................................................. 43
3.3.2. Biến đổi và chuyển dữ liệu vào DDS................................................... 45
3.4. Triển khai cơ sở dữ liệu đa chiều................................................................ 54
CHƯƠNG 4: ỨNG DỤNG OLAP VÀ ĐÁNH GIÁ HỆ THỐNG ..................... 57
4.1. Báo cáo số lượng sản phẩm bán ra ............................................................. 58
4.2. Báo cáo doanh số ........................................................................................ 62
4.2.1. Báo cáo doanh số theo nhà cung cấp ................................................... 62
4.2.2. Báo cáo doanh số theo KHTT .............................................................. 63
4.3. Phát hiện bất thường dữ liệu ....................................................................... 65
4.4. Đánh giá hệ thống ....................................................................................... 67
4.4.1. Kết quả đạt được .................................................................................. 67
4.4.2. Hạn chế của hệ thống Data Warehouse ............................................... 69
4.4.3. Hướng phát triển tiếp theo ................................................................... 69
KẾT LUẬN ............................................................................................................. 70
TÀI LIỆU THAM KHẢO ..................................................................................... 71


ix

DANH MỤC CHỮ VIẾT TẮT

BI

Business Intelligence

OLTP

Online Transactional Processing

OLAP

Online Analytical Processing

ETL

Extraction, Transformation, Loading

NDS

Normalized Data Store

ODS

Operational Data Store

DDS

Dimensional Data Store

POS


Point of Sale

KHTT

Khách hàng thân thiết

SSIS

SQL Server Integration Services

SSAS

SQL Server Analysis Services

SSRS

SQL Server Report Services

LSET

Last Successful Extraction Timestamp

CET

Current Extraction Timestamp


x

DANH MỤC CÁC BẢNG


Bảng 2. 1 Ví dụ về xác thực chất lượng dữ liệu

14

Bảng 2. 2 Mô tả một số đặc tính của hai loại hệ thống OLTP và OLAP

17

Bảng 3. 1 Bảng Fact doanh số .................................................................................. 35
Bảng 3. 2 Bảng chiều thời gian ................................................................................ 36
Bảng 3. 3 Bảng chiều sản phẩm ............................................................................... 37
Bảng 3. 4 Bảng chiều khách hàng ............................................................................ 37
Bảng 3. 5 Bảng chiều cửa hàng ................................................................................ 38
Bảng 3. 6 Bảng chiều nhà cung cấp ......................................................................... 38
Bảng 3. 7 Ánh xạ dữ liệu nguồn vào bảng Fact doanh số ........................................ 40
Bảng 3. 8 Ánh xạ dữ liệu nguồn vào bảng DimProduct .......................................... 41
Bảng 3. 9 Ánh xạ dữ liệu nguồn vào bảng DimStore .............................................. 41
Bảng 3. 10 Ánh xạ dữ liệu nguồn vào bảng DimCustomer ..................................... 42
Bảng 3. 11 Ánh xạ dữ liệu nguồn vào bảng DimVendor ......................................... 42
Bảng 4. 1 So sánh kết quả sau khi triển khai hệ thống OLAP ................................. 68


xi

DANH MỤC HÌNH ẢNH
Hình 1. 1 Mô hình hệ hỗ trợ ra quyết định ..................................................................2
Hình 2. 1 Hệ thống Data Warehouse ..........................................................................6
Hình 2. 2 Kiến trúc Single DDS..................................................................................9
Hình 2. 3 Kiến trúc NDS + DDS ................................................................................9

Hình 2. 4 Kiến trúc ODS + DDS ..............................................................................10
Hình 2. 5 Lược đồ sao ...............................................................................................11
Hình 2. 6 Lược đồ bông tuyết ...................................................................................12
Hình 2. 7 Lược đồ chòm sao .....................................................................................12
Hình 2. 8 Thực thi ETL trên đĩa và trên bộ nhớ [7, p.174] .......................................15
Hình 2. 9 Kiến trúc tiến trình ETL và ELT [7, p.175] ..............................................16
Hình 2. 10 Kiến trúc MOLAP ...................................................................................18
Hình 2. 11 Kiến trúc ROLAP ....................................................................................19
Hình 2. 12 Kiến trúc HOLAP ...................................................................................20
Hình 2. 13 Minh họa thao tác Roll up .......................................................................21
Hình 2. 14 Minh họa thao tác Drill down .................................................................21
Hình 2. 15 Minh họa thao tác Slice ...........................................................................22
Hình 2. 16 Minh họa thao tác Dice ...........................................................................22
Hình 2. 17 Minh họa thao tác Pivot ..........................................................................23
Hình 3. 1 Mô hình kết nối POS với Server ...............................................................26
Hình 3. 2 Báo cáo số lượng sản phẩm bán trong năm 2018 .....................................28
Hình 3. 3 Báo cáo doanh số theo nhà cung cấp qua các năm ...................................29
Hình 3. 4 Báo cáo doanh số KHTT năm 2018 ..........................................................30
Hình 3. 5 Kiến trúc dòng dữ liệu của Data Warehouse ............................................30
Hình 3. 6 Lược đồ sao bảng Fact và các Dimension ................................................34
Hình 3. 7 Lược đồ hình sao chủ đề doanh số ............................................................39
Hình 3. 8 Kiến trúc tiến trình ETL ............................................................................42
Hình 3. 9 Data Flow quá trình trích xuất dữ liệu từ ODS .........................................44


xii

Hình 3. 10 Control Flow tiến trình trích xuất dữ liệu từ ODS ................................. 44
Hình 3. 11 Minh họa bảng DataFlowDDS ............................................................... 46
Hình 3. 12 Data Flow của quá trình cập nhật dữ liệu DimStore .............................. 47

Hình 3. 13 Control Flow của tiến trình đưa dữ liệu vào DimStore .......................... 47
Hình 3. 14 Data Flow của quá trình cập nhật dữ liệu DimCustomer ....................... 48
Hình 3. 15 Control Flow của tiến trình đưa dữ liệu vào DimCustomer ................... 49
Hình 3. 16 Data Flow của quá trình cập nhật dữ liệu DimProduct .......................... 50
Hình 3. 17 Control Flow của tiến trình đưa dữ liệu vào DimProduct ...................... 50
Hình 3. 18 Data Flow của quá trình cập nhật dữ liệu DimVendor .......................... 51
Hình 3. 19 Control Flow của tiến trình đưa dữ liệu vào DimVendor ...................... 52
Hình 3. 20 Control Flow của tiến trình đưa dữ liệu vào FactSales .......................... 54
Hình 3. 21 Phân cấp chiều thời gian ........................................................................ 55
Hình 3. 22 Phân cấp chiều sản phẩm ....................................................................... 55
Hình 3. 23 Khối dữ liệu đa chiều đã được triển khai ............................................... 56
Hình 4. 1 Sơ đồ hệ thống Data Warehouse đã xây dựng ......................................... 57
Hình 4. 2 Báo cáo số lượng sản phẩm theo danh mục qua các năm ........................ 58
Hình 4. 3 Minh họa báo cáo chi tiết số lượng sản phẩm bán ra năm 2018 .............. 58
Hình 4. 4 Báo cáo số lượng sản phẩm bán ra theo khu vực năm 2018 .................... 59
Hình 4. 5 Minh họa báo cáo sản phẩm bán ra theo khu vực quận 1 năm 2018 ....... 60
Hình 4. 6 Dashboard thể hiện số lượng sản phẩm bán ra ......................................... 61
Hình 4. 7 Minh họa báo cáo top 10 nhà cung cấp có doanh số cao ......................... 62
Hình 4. 8 Biểu đồ báo cáo doanh số nhà cung cấp qua các năm ............................. 63
Hình 4. 9 Minh họa báo cáo doanh số KHTT năm 2017 và 2018 ........................... 64
Hình 4. 10 Biểu đồ doanh số KHTT theo khu vực năm 2018 ................................. 65
Hình 4. 11 Minh họa báo cáo số lượng sản phẩm bán ra ......................................... 66
Hình 4. 12 Minh họa lỗ hổng của hệ thống .............................................................. 67


1

CHƯƠNG 1: TỔNG QUAN
1.1. Giới thiệu
Sau khi gia nhập Tổ chức Thương mại thế giới (WTO), Việt Nam trở thành một

trong những thị trường bán lẻ hấp dẫn nhất thế giới. Nhận thấy tiềm năng này, một
số doanh nghiệp bán lẻ lớn như: Lotte, Aeon, Emart, 7-Eleven, … ồ ạt đổ bộ vào thị
trường Việt Nam để tham gia vào cuộc đua tranh giành thị phần với các doanh nghiệp
trong nước. Các doanh nghiệp này đã và đang triển khai hàng ngàn cửa hàng trên
khắp các tỉnh thành của cả nước.
Trong môi trường cạnh tranh khốc liệt, việc tìm ra những hướng đi mới nhằm
cải tiến và tăng trưởng lợi nhuận kinh doanh là ưu tiên hàng đầu của các chủ doanh
nghiệp. Họ phải quản lý hệ thống các cửa hàng được phân bố khắp nơi, hàng ngày
mỗi cửa hàng sẽ phát sinh lượng lớn các dữ liệu giao dịch bán lẻ gồm các thông tin
cơ bản như: sản phẩm, cửa hàng, khách hàng, ngày, giờ, số lượng, giá bán, … Một
doanh nghiệp sẽ chiếm ưu thế nếu biết quản lý và khai thác dữ liệu một cách hiệu
quả, hiển nhiên người nắm giữ thông tin sẽ dẫn đầu thị trường, càng nắm giữ nhiều
thông tin doanh nghiệp càng có nhiều khả năng thành công. Ví dụ điển hình là
Amazon, công ty công nghệ đa quốc gia này đang rất thành công nhờ việc phân tích
dữ liệu của người dùng. Amazon thu thập dữ liệu của người dùng khi họ sử dụng
trang web như: những món hàng mà khách hàng đã mua, những món hàng mà khách
hàng đã tìm kiếm, địa chỉ giao hàng của khách hàng, các đánh giá hoặc phản hồi, …
Từ những dữ liệu này, Amazon sẽ phân tích và đoán chính xác sở thích, mức thu nhập
dựa trên nơi khách hàng sinh sống, từ đó gợi ý những sản phẩm tương đồng với nhu
cầu mà khách hàng đang tìm kiếm.
Vì những lí do trên, hiện nay nhiều doanh nghiệp đang triển khai các giải pháp
Business Intelligence sử dụng Data Warehouse để quản lý và khai thác dữ liệu. Data
Warehouse là nơi tập trung toàn bộ dữ liệu của doanh nghiệp, dữ liệu được lưu trữ
tách biệt nên khi tạo những báo cáo phức tạp sẽ không làm giảm hiệu suất của hệ
thống nguồn. Với cấu trúc tổ chức dữ liệu đặc thù để truy vấn dữ liệu lớn và kỹ thuật
Online Analytical Processing (OLAP) của Data Warehouse thì việc khai thác dữ liệu


2


trở nên đơn giản, nhanh chóng và hiệu quả. Các kỹ thuật OLAP cho phép tổng hợp,
chi tiết hóa và xoay chiều giúp phân tích dữ liệu dưới nhiều góc độ khác nhau từ đó
hỗ trợ tích cực cho nhà quản trị ra các quyết định chiến lược kinh doanh.

Strategy
Data Analysis
OLAP
Data Mining
Data Warehouse
E-T-L
Data Sources
Hình 1. 1 Mô hình hệ hỗ trợ ra quyết định
1.2. Mục tiêu của luận văn
1.2.1. Giới thiệu về Chuỗi cửa hàng Retailer
Chuỗi cửa hàng Retailer có hơn 200 cửa hàng phân bố khắp địa bàn thành phố
Hồ Chí Minh và đang tiếp tục mở rộng. Retailer cung cấp các mặt hàng chính bao
gồm: rau củ quả, thực phẩm tươi sống và đông lạnh, hóa mỹ phẩm, hàng gia dụng,
… Nhiệm vụ của Retailer là: bình ổn giá thị trường; cung cấp thực phẩm sạch, chất
lượng đến người tiêu dùng; cung cấp hàng hóa đa dạng về sản phẩm và phong phú về
chủng loại.
Hiện tại do Chuỗi cửa hàng Retailer vẫn chưa được triển khai giải pháp BI nên
các báo cáo hiện nay chủ yếu dựa vào truy vấn SQL trên các cơ sở dữ liệu OLTP và
được hiển thị trên file excel khá đơn giản. Do dữ liệu quá lớn nên việc tạo các báo


3

cáo mất khá nhiều thời gian, khung nhìn của báo cáo chưa được linh động, chưa đáp
ứng được nhu cầu của người quản trị doanh nghiệp. Từ những khó khăn này, các nhà
quản trị nhận thấy cần thiết triển khai hệ thống Data Warehouse để lưu trữ và tổng

hợp dữ liệu thành các thông tin có giá trị, hỗ trợ cho hoạt động của doanh nghiệp.
1.2.2. Mục tiêu nghiên cứu của luận văn
− Xây dựng hệ thống Data Warehouse lưu trữ và phân tích dữ liệu của Chuỗi
cửa hàng Retailer.
− Rút ngắn thời gian thực thi truy vấn dữ liệu, tạo các báo cáo có khung nhìn
linh động giúp nhà quản trị có cái nhìn đa góc độ về tình hình bán lẻ của Chuỗi
cửa hàng.
− Áp dụng thực nghiệm đề tài vào hoạt động bán lẻ của Chuỗi cửa hàng Retailer.
1.3. Phạm vi, đối tượng và nội dung nghiên cứu
1.3.1. Phạm vi
Luận văn tập trung vào việc nghiên cứu và xây dựng hệ thống Data Warehouse
có chủ đề doanh số thông qua các giai đoạn:
− Khảo sát hiện trạng hệ thống, các vấn đề đang gặp phải và nhu cầu khai thác
dữ liệu của Chuỗi cửa hàng Retailer.
− Thiết kế và triển khai hệ thống Data Warehouse lưu trữ dữ liệu phát sinh
hàng năm.
− Sử dụng kỹ thuật OLAP trên khối dữ liệu đa chiều (OLAP Cube) để tạo các
báo cáo và phân tích dữ liệu từ hệ thống Data Warehouse đã xây dựng.
1.3.2. Đối tượng
Đối tượng nghiên cứu của luận văn:
− Dữ liệu của Chuỗi cửa hàng Retailer.
− Hệ thống Data Warehouse và kỹ thuật OLAP để lưu trữ và phân tích dữ
liệu.
− Các báo cáo được tạo ra bằng kỹ thuật OLAP.


4

− Mối quan hệ giữa việc phân tích báo cáo và ra quyết định chiến lược kinh
doanh dựa trên các dữ liệu đã thu thập.

− Các công cụ hỗ trợ cho việc xây dựng Data Warehouse của Microsoft.
1.3.3. Nội dung
Nội dung nghiên cứu của luận văn:
− Khảo sát hiện trạng hệ thống thông tin của Chuỗi cửa hàng, các vấn đề gặp
phải và nhu cầu phân tích dữ liệu của các nhà quản trị.
− Phân tích và thiết kế Data Warehouse căn cứ vào kết quả khảo sát.
− Triển khai hệ thống Data Warehouse vào hoạt động của Chuỗi cửa hàng.
− Đánh giá hiệu quả của hệ thống Data Warehouse sau khi ứng dụng vào hoạt
động của Chuỗi cửa hàng.
− Viết tài liệu về quá trình nghiên cứu, thực nghiệm và kết quả đạt được.
1.4. Ý nghĩa của luận văn
− Tìm hiểu về hệ thống Data Warehouse để ứng dụng cho Chuỗi cửa hàng
Retailer.
− Xây dựng và triển khai hệ thống Data Warehouse để lưu trữ tập trung dữ
liệu và phục vụ việc tạo báo cáo của Chuỗi.
− Nghiên cứu và áp dụng kỹ thuật OLAP cho phân tích dữ liệu lớn.
− Rút ngắn thời gian truy vấn dữ liệu, tạo ra các báo cáo có khung nhìn linh
động hỗ trợ nhà quản trị xem xét hoạt động bán lẻ ở nhiều góc độ.
1.5. Bố cục luận văn
Luận văn bao gồm 4 chương:
Chương 1: Tổng quan
Chương 2: Cơ sở lý thuyết Data Warehoue
Chương 3: Khảo sát hiện trạng và thiết kế hệ thống Data Warehoue
Chương 4: Ứng dụng OLAP và đánh giá hệ thống


5

Chương 1 đã giới thiệu tổng quan về những lợi ích mà hệ thống Data Warehouse
đem đến cho doanh nghiệp bằng việc tổng hợp dữ liệu thành những thông tin hữu ích

để hỗ trợ cho việc ra các quyết định phát triển kinh doanh. Chương này cũng đã giới
thiệu tóm lược quy mô và những tồn tại mà Chuỗi cửa hàng Retailer đang gặp phải
trong quá trình hoạt động, đặt ra các mục tiêu và hướng giải quyết cụ thể nhằm hạn
chế những khó khăn của Chuỗi cửa hàng do chưa có hệ thống hỗ trợ cho việc phân
tích dữ liệu.


6

CHƯƠNG 2: CƠ SỞ LÝ THUYẾT DATA WAREHOUSE
2.1. Lý thuyết về Data Warehouse
2.1.1. Khái niệm
Data Warehouse: là một hệ thống có nhiệm vụ truy xuất và tổng hợp dữ liệu
định kỳ từ các hệ thống nguồn vào nơi lưu dữ liệu theo chiều hoặc theo dạng chuẩn
hóa. Hệ thống này lưu dữ liệu lịch sử của nhiều năm và được truy vấn cho mục đích
Business Intelligence (BI) hoặc các hoạt động phân tích khác. Hệ thống này thông
thường sẽ cập nhật dữ liệu theo đợt chứ không cập nhật từng giao dịch như các hệ
thống nguồn [7][9].

Hình 2. 1 Hệ thống Data Warehouse
Trong hình 2.1:
− Data Source (hệ thống nguồn): nơi phát sinh dữ liệu.
− ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu từ hệ thống nguồn vào Data
Warehouse.
− Data Warehouse: nơi lữu trữ toàn bộ dữ liệu được trích xuất từ các hệ thống
nguồn, dữ liệu này được tổng hợp theo các chủ đề (Data Mart) về doanh số
(Sales), tồn kho (Inventory), nguồn hàng (Purchasing). Mỗi chủ đề tạo thành
một khối dữ liệu đa chiều để người dùng truy vấn và khai thác dữ liệu.



7

Data Warehouse có các đặc tính sau:
− Hướng đối tượng: hệ thống Data Warehouse chỉ lưu trữ những dữ liệu cần
thiết cho việc phân tích trực tuyến, dữ liệu sẽ được tổ chức theo những đối
tượng xác định mà người dùng quan tâm như: khách hàng, sản phẩm, nhà
cung cấp, …
− Tính tích hợp: hệ thống Data Warehouse là nơi tập hợp dữ liệu từ nhiều hệ
thống khác nhau như: các cơ sở dữ liệu quan hệ, các tập tin excel, text, các
bản ghi dữ liệu giao dịch, …
− Tính lịch sử: hệ thống Data Warehouse lưu dữ liệu để cung cấp thông tin
trong khoảng thời gian rất dài (5-10 năm), mỗi sự kiện trong hệ thống Data
Warehouse đều gắn liền với yếu tố thời gian.
− Tính bất biến: hệ thống Data Warehouse chỉ có hai thao tác chính là chuyển
dữ liệu vào và truy xuất dữ liệu mà không có thao tác xóa hay chỉnh sửa, vì
vậy dữ liệu sẽ không bị thay đổi [2].
2.1.2. Kiến trúc Data Warehouse
Một hệ thống Data Warehouse bao gồm hai kiến trúc chính: kiến trúc dòng dữ
liệu và kiến trúc hệ thống. Kiến trúc dòng dữ liệu cho biết các nơi lưu dữ liệu được
sắp xếp trong Data Warehouse như thế nào và việc dữ liệu di chuyển từ hệ thống
nguồn qua nơi lưu dữ liệu đến người dùng ra sao. Kiến trúc hệ thống là cấu hình vật
lý của server, hạ tầng mạng, phần mềm và người dùng.
Một data store là một hoặc nhiều cơ sở dữ liệu hoặc các file chứa dữ liệu của
Data Warehouse, được bố trí theo định dạng riêng biệt và liên quan đến các tiến trình
của Data Warehouse.
Dựa vào mục đích sử dụng, data store được phân thành 3 loại:
− User-facing data store: cho phép người dùng, các phần mềm truy cập và
truy vấn dữ liệu.



8

− Internal data store: chỉ được sử dụng bởi các thành phần của Data
Warehouse và không dùng cho việc truy vấn của người dùng hoặc các phần
mềm.
− Hybird data store: được sử dụng bởi các thành phần của Data Warehouse,
cho phép người dùng và các phần mềm truy cập để truy vấn dữ liệu.
Dựa vào định dạng dữ liệu, data store được phân thành 4 loại:
− Stage: là một internal data store dùng để biến đổi và lưu trữ tạm thời những
dữ liệu từ các hệ thống nguồn trước khi nạp vào các data store khác trong
hệ thống Data Warehouse.
− Normalized data store (NDS): là một internal data store chứa tất cả dữ liệu
của hệ thống Data Warehouse có định dạng là cơ sở dữ liệu quan hệ đã được
chuẩn hóa với mục đích tích hợp dữ liệu từ nhiều nguồn đã được lưu tạm
thời ở Stage trước khi nạp vào user-facing data store.
− Operational data store (ODS): là một hybrid data store ở định dạng cơ
sở dữ liệu quan hệ đã được chuẩn hóa, chứa các dữ liệu giao dịch cho mục
đích hỗ trợ các ứng dụng nghiệp vụ.
− Dimensional data store (DDS): là một user-facing data store ở định dạng
cơ sở dữ liệu quan hệ, là nơi dữ liệu được bố trí theo định dạng chiều cho
mục đích hỗ trợ truy vấn và phân tích.
Kiến trúc dòng dữ liệu là sự sắp xếp của các data store trong một hệ thống
Data Warehouse, cùng với sự bố trí việc dữ liệu di chuyển như thế nào từ hệ thống
nguồn qua các data store để đến ứng dụng của người dùng. Các kiến trúc dòng dữ
liệu chính: Single DDS, NDS + DDS và ODS + DDS.


9

Single DDS


Hình 2. 2 Kiến trúc Single DDS
Trong hình 2.2:
Stage ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu vào Stage.
Stage: nơi lưu dữ liệu tạm thời.
DDS ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu vào DDS.
DDS: nơi lưu dữ liệu theo cấu trúc chiều.
Cube: khối dữ liệu đa chiều.
Application: ứng dụng của người dùng.
− Ưu điểm: đơn giản vì dữ liệu từ Stage được nạp trực tiếp và DDS mà không phải
thông qua các data store nào khác.
− Khuyết điểm: DDS là nơi chứa toàn bộ dữ liệu của hệ thống Data Warehouse nên
khi tạo DDS thứ 2 không thể sử dụng lại tiến trình ETL hiện có mà phải tạo mới tiến
trình ETL để trích xuất dữ liệu từ DDS chính.
NDS + DDS

Hình 2. 3 Kiến trúc NDS + DDS


10

Trong hình 2.3:
NDS ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu vào NDS.
NDS: nơi lưu dữ liệu đã chuẩn hóa.
− Ưu điểm: dễ dàng xây dựng DDS thứ 2 vì có thể tái sử dụng tiến trình ETL; dễ
dàng bảo trì vì dữ liệu trong NDS đã được chuẩn khóa.
− Khuyết điểm: phức tạp hơn kiến trúc Single DDS vì phải xây dựng thêm tiến trình
NDS ETL và NDS.

ODS + DDS


Hình 2. 4 Kiến trúc ODS + DDS
Trong hình 2.4:
ODS ETL: tiến trình trích xuất, biến đổi, nạp dữ liệu vào ODS.
ODS: nơi lưu dữ liệu tác nghiệp.
− Ưu điểm: hiệu suất khi thực thi ODS ETL và DDS ETL tốt hơn so với kiến trúc
NDS + DDS vì ODS chỉ lưu dữ liệu hiện tại nên dữ liệu tương đối ít; dễ dàng bảo trì
vì ODS đã được chuẩn hóa; người dùng được quyền cập nhật trên ODS nên hỗ trợ
được cho các ứng dụng nghiệp vụ.
− Khuyết điểm: khó khăn trong việc tạo mới DDS thứ 2 vì không thể sử dụng tiến
trình ETL hiện có mà phải tạo mới.


11

2.1.3. Mô hình dữ liệu đa chiều
Các cơ sở dữ liệu quan hệ được thiết kế theo mô hình dữ liệu thực thể - mối
kết hợp, lược đồ của mô hình này chứa tập những thực thể và mối liên hệ giữa chúng
với nhau phù hợp cho các xử lý giao dịch trực tuyến. Tuy nhiên hệ thống Data
Warehouse yêu cầu một lược đồ hướng chủ đề đơn giản, thuận tiện cho việc phân
tích dữ liệu trực tuyến. Mô hình đa chiều là mô hình dữ liệu phổ biến nhất của Data
Warehouse, gồm các lược đồ: lược đồ sao, lược đồ bông tuyết và lược đồ chòm sao.
− Lược đồ sao: là mô hình trong đó Data Warehouse chứa một bảng trung
tâm lớn (Fact table) và một tập hợp các bảng nhỏ hơn tham gia vào
(Dimension tables), mỗi bảng đại diện cho một chiều xác định. Lược đồ này
có hình dạng giống như một ngôi sao với các bảng chiều được biểu diễn
xung quanh bảng trung tâm lớn.

Time
Dimension


Product
Dimension

Sales Fact

Vendor
Dimension

Store
Dimension

Hình 2. 5 Lược đồ sao

− Lược đồ bông tuyết: là một biến thể của mô hình lược đồ sao với các bảng
chiều được chuẩn hóa vì vậy dữ liệu sẽ được tách ra các bảng bổ sung. Kết
quả là lược đồ này có hình dạng giống như một bông tuyết.


×