Tải bản đầy đủ (.docx) (88 trang)

Xây dựng data warehouse và business intelligence cho công ty ngành nhựa tại tp HCM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.4 MB, 88 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN VĂN TÀI

XÂY DỰNG DATA WAREHOUSE VÀ BUSINESS
INTELLIGENCE CHO CÔNG TY NGÀNH NHỰA TẠI
TP.HCM
Ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ
Mã số: 60.34.04.05

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 07 năm 2019


CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BACH KHOA -ĐHQG -HCM
Cán bộ hướng dẫn khoa học : PGS.TS Nguyễn Thanh Bình
Cán bộ chấm nhận xét 1: PGS.TS Trần Mạnh Hà..........................................
Cán bộ chấm nhận xét 2: PGS.TS Đặng Trần Khánh.....................................
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp. HCM
ngày 03 tháng 07 năm 2019.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1.
2.
3.
4.
5.

TS Trần Quang Minh................................


TS Trương Tuấn Anh.................................
PGS.TS Trần Mạnh Hà.............................
PGS.TS Đặng Trần Khánh........................
TS Lê Hồng Trang.....................................
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên
ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG

TRƯỞNG KHOA KH&KTMT


ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Nguyễn Văn Tài...............................................MSHV: 1670466..............
Ngày, tháng, năm sinh: 09/01/1991 ............................................Nơi sinh: Thái Bình.........
Ngành: Hệ Thống Thông Tin Quản Lý........................................Mã số : 60.34.04.05.........
TÊN ĐỀ TÀI: Xây dựng Data Warehouse và Business Intelligence cho một công ty ngành

Nhựa tại TP.HCM.
NHIỆM VỤ VÀ NỘI DUNG:
- Tìm hiểu về cơ sở lý thuyết để xây dựng Data Warehouse và Business Intelligence.
- Khảo sát thực trạng cơ sở hạ tầng CNTT và quy trình nghiệp vụ bán hàng tại một công ty

ngành nhựa TPHCM.

- Đề xuất xây dựng hệ thống Data Warehouse và Business Intelligence cho một công ty

ngành nhựa tại TPHCM
I. NGÀY GIAO NHIỆM VỤ: 13/08/2018
II. NGÀY HOÀN THÀNH NHIỆM VỤ: 02/06/2019
III.

CÁN BỘ HƯỚNG DẪN: PGS.TS Nguyễn Thanh Bình

Tp. HCM, ngày .... thảng.. . . năm 20....
CÁN BỘ HƯỚNG DẪN

(Họ tên và chữ ký)

TRƯỞNG KHOA KH & KTMT

(Họ tên và chữ ký)


LỜI CẢM ƠN
Để có thể hoàn thành đề tài luận văn thạc sĩ một cách hoàn chỉnh, bên cạnh sự nỗ
lực cố gắng của bản thân còn có sự hướng dẫn nhiệt tình của quý Thầy Cô, cũng như sự
tạo điều kiện thuận lợi từ phía công ty đang công tác và sự động viên ủng hộ của gia đình
và bạn bè trong suốt thời gian học tập nghiên cứu và thực hiện luận văn thạc sĩ.
Xin chân thành bày tỏ lòng biết ơn đến Thầy PGS.TS Nguyễn Thanh Bình người đã
hết lòng giúp đỡ tạo mọi điều kiện tốt nhất cho tôi hoàn thành luận văn này. Xin chân
thành bày tỏ lòng biết ơn đến quý thầy cô trong khoa Khoa học máy tính và khoa sau đại
học Đại học Quốc gia TPHCM - Trường Đại học Bách Khoa đã tận tình truyền đạt những
kiến thức quý báu cũng như tạo điều kiện thuận lợi cho tôi trong suốt quá trình học tập
nghiên cứu tại trường.

Xin chân thanh cảm ơn công ty ngành nhựa mà tôi đang công tác đã cho phép và
không ngừng hỗ trợ thực hiện luận văn.
Cuối cùng tôi xin chân thành cảm ơn đến gia đình, bạn bè, đồng nghiệp đã hỗ trợ
cho tôi rất nhiều trong suốt quá trình nghiên cứu và thực hiện đề tài luận văn thạc sĩ một
cách hoàn chỉnh.

TP. Hồ Chí Minh, tháng 4 năm 2019
Học viên thực hiện

Nguyễn Văn Tài


TÓM TẮT LUẬN VĂN

Mục tiêu của đề tài là “Xây dựng hệ thống Data Warehouse và BI cho một công ty ngành
nhụa tại TPHCM”. Hệ thống này nhằm tập trung dữ liệu từ nhiều nguồn dữ liệu khác nhau
với mục địch khai thác, xử lý thông tin hỗ trợ cho ban lãnh đạo ra quyết định nhanh và chính
xác. Đề tài này tác giả giới hạn lại việc xây dụng hệ thống data warehouse và BI dành cho
phân hệ bán hàng và đi sâu vào bốn sụ kiện: bán hàng, công nợ khách hàng, kế hoạch sản
xuất, khiếu nại của khách hàng. Để triển khai mục tiêu trên tác giả thục hiện các công việc
nhu: Tìm hiểu cơ sở lý thuyết data warehouse và BI, khảo sát thục trạng cơ sở hạ tầng CNTT
và quy trình nghiệp vụ bán hàng của công ty, đề xuất mô hình data warehouse và BI cho công
ty đi sâu vào ba sụ kiện chính: bán hàng, công nợ khách hàng, kế hoạch sản xuất, khiếu nại
khách hàng, và cuối cùng tác giả xin ý kiến đánh giá từ ban lãnh đạo công ty, hệ thống có thể
đáp ứng đuợc với nhu cầu hiện nay của công ty.
ABTRACT

The objective of the project is "Building a Data Warehouse and BI system for a plastic
industry company in Ho Chi Minh City". This system aims to focus data from many different
data sources with the aim of exploiting and processing information to support management

board to make decisions quickly and accurately. This topic limits the construction of data
warehouse and BI systems for sales modules and delves into four events: sales, customer
debt, production plans and customer complaints. To implement the objectives on the author
perform tasks such as: Understanding warehouse data base and BI, surveying the status of IT
infrastructure and the company's sales process, proposing models Data warehouse and BI for
the company went into three main events: sales, customer debt, production plans, customer
complaints, and finally the author asked for comments from the company's management, The
system can meet the current needs of the company.


LỜI CAM ĐOAN
Tôi xin cam đoan Luận văn Thạc sĩ Hệ Thống Thông Tin Quản Lý: “ Xây dụng Data
Warehouse và Business Intelligence cho một công ty ngành Nhụa tại TP.HCM” là kết quả
của quá trình học tập, nghiên nghiêm túc.
Các số liệu, kết quả trong luận văn là trung thục, tôi thục hiện khảo sát tại công ty ngành
nhụa mà tôi đang làm việc, đuợc sụ cho phép, ủng hộ từ Ban Lãnh Đạo công ty.
TP. Hồ Chí Minh, ngày 01 tháng 04 năm 2019.
Nguyễn Văn Tài


MỤC LỤC

DANH MỤC BẢNG BIỂU


DANH MỤC HÌNH ẢNH



TỪ VIẾT TẮT


DW:

Data Warehouse

BI:

Business Intelligence

CSDL:

Cơ sở dữ liệu

DM:

Data Mart

ETL:

Extraction - Transformation - Loading

DSA:

Data Staging Arear

ĐVBH:

Đơn vị bán hàng: các Phòng Kinh Doanh,các Đại lý,các cửa hàng.

PXK:


Phòng Xuất Khẩu

PKD:

Phòng Kinh doanh.

KTSX :

Phòng kỹ thuật sản xuất

TCKT :

Phòng Tài chính kế toán

MARK:

Phòng Marketing

HCNS :

Phòng Hành Chính nhân sự

KTCĐ :

Phòng Kỹ thuật Cơ Điện

KV :

Phòng Kho Vận


BP KHSX: Bộ phận Kế hoạch Sản xuất
TGĐ:

Tổng Giám Đốc.

P.TGĐ:

Phó Tổng Giám đốc .

ĐDLĐ:

Đại diện lãnh đạo

GĐKD:

Giám đốc Kinh doanh.

GĐKD :

Giám đốc Xuất khẩu

HTQLCL: Hệ thống quản lý chất lượng
NLĐƯ :

Năng lực đáp ứng


PYCTM-ĐM: Phiếu yêu cầu thử mẫu và tính Định mức.
PYCSP:

Phiếu yêu cầu sản phẩm
ĐĐH:

Đơn đặt hàng

HĐMB :

Hợp đồng Mua Bán

HĐGC:

Hợp đồng GC

BBTLHĐ: Biên bản thanh lý hợp đồng.
BCTGSP:

Bảng chiết tính giá sản phẩm

BBHĐG:

Biên bản hội đồng giá

KHQ:

Khai Hải Quan

TT:

Chứng từ thanh toán


BPTG:

Bộ phận tính giá

KDO:

Kinh doanh Online

KH :

Khách hàng

PXK:

Phiếu xuất kho

ĐĐH:

Đơn đặt hàng

CB/CNV : Cán bộ/công nhân viên
DT:

Doanh Thu

KM:

Khuyến Mại

HĐ:


Hợp đồng giữa Rạng Đông và Công ty giao nhận


CHƯƠNG I. GIỚI THIỆU
Trong chương này tác giả nêu ra lý do cũng như mục tiêu đề xuất xây dựng hệ thống
data warehouse và BI trong một công ty ngành nhựa tại TP.HCM. Để triển khai các mục
tiêu đặt ra, tác giả liệt kê ra sáu công việc cần làm để hoàn thành mục tiêu.
Trong quá trình triển khai xây dựng data warehouse và BI cần một nguồn lực tương
đối lớn (con người, thời gian, chi phí ...). Vì thế tác giả đề xuất chọn phân hệ bán hàng và
chỉ đi sâu vào một số bước trên tổng sáu bước nói ở trên.
Để hiểu
tiết
củarõ
chương
hơn về
giới
chương
thiệu
này,
đề tài.
dưới đây là phần trình bày chi

1
1


1.1. GIỚI THIỆU ĐỀ TÀI

Trong môi trường cạnh tranh trong ngành nhựa tại Việt Nam như ngày nay, khách hàng

là nhân tố quyết định sự tồn tại của doanh nghiệp. Các doanh nghiệp ngành nhựa cần phải
tìm hiểu nhu cầu đa dạng của khách hàng, giành cho họ giá trị tối ưu hơn so với đối thủ
cạnh tranh và có những quyệt định chiến lược phù hợp trong sản xuất và kinh doanh.
Trong những năm qua thị trường ngành Nhựa tại Việt Nam đang gặp rất nhiều cạnh
tranh khốc liệt. Các công ty lớn ngành nhựa đang bị các tập toàn nước ngoài mua và kiểm
soát công ty, còn lại một số danh nghiệp vẫn còn trụ lại thì đang gặp rất nhiều khó khăn
về việc nhập khẩu nguyên liệu, chính sách, giá thành, chất lượng và một vấn đề cũng
quan trọng không kém là áp dụng hệ thống công nghệ thông tin vào quản lý.
Một số doanh nghiệp nói chung cũng như doanh nghiệp Nhựa nói riêng ngày nay đang
gặp phải một số thách thức về hệ thống CNTT trong quản lý như:
Hệ thống báo cáo lấy từ nhiều nguồn sau đó mới hợp nhất lại để thành báo cáo tổng

-

thể, rất mất thời gian, dễ xảy ra sai sót
Ban lãnh đạo công ty không tự tin ra quyết định vì thiết thông tin, các thông tin

-

chấp vá từ nhiều hệ thống, từ nhiều loại file khác nhau
Chính vì sự ra quyết định chậm của Ban Lãnh Đạo công ty đôi khi công ty mất đi

-

cơ hội đầu tư, mất đi khách hàng.
Từ những thách thức trên, và hơn nữa Tác giả lại là một nhân viên làm trong một công
ty trong ngành nhựa đang sử dụng nhiều hệ thống CNTT riêng lẻ trong quản lý, rất mất
thời gian trong khi làm báo cáo, thiếu thông tin để ra quyết định. Vì thế công ty Tác giả
đang cần mộ hệ thống tích hợp dữ liệu từ các nguồn dữ liệu riêng lẻ công ty đang sử
dụng.

Với những thách thức và nhu cầu trên, Tác giả xin đề xuất: “Xây dựng Data
Warehouse và BI cho một công ty ngành Nhựa tại TP.HCM” để giải quyết những vướng
mắc mà công ty đang gặp phải.
1.2. MỤC TIÊU CỦA ĐÈ TÀI

Mục tiêu của đề tài là “Xây dựng data warehouse và BI cho công ty ngành nhựa tại
TPHCM” nhằm giải quyết các vấn đề sau:
- Cung cấp thông tin đầy đủ, chính xác, đa chiều; bám sát các nhu cầu quản lý của

lãnh đạo công ty, theo dõi tình hình thực hiện các chỉ tiêu kế hoạch năm của từng
đơn vị, phân tích tình hình kinh doanh các chiến lược theo các chiều thông tin
khác nhau.


- số liệu báo cáo được lưu trữ trong một CSDL tập trung theo mô hình DW, đảm bảo

tính an toàn, bảo mật và tránh nguy cơ mất dữ liệu.
- Báo cáo được trình bày dễ hiểu, cho phép truy cập mọi lúc.
1.3. NỘI DUNG CỦA ĐỀ TÀI

Đề tài tập trung nghiên cứu, xây dựng một hệ thống thông tin quản trị trong một công
ty ngành nhựa tại TPHCM, theo mô hình Data Warehouse và BI. Data Warehouse là hệ
thống lưu trữ dữ liệu tập trung từ nhiều nguồn dữ liệu khác nhau nhằm mục đích khai
thác, xử lý thông tin hỗ trợ ra quyết định. BI gồm các các chương trình ứng dụng phần
mềm để đưa ra các báo cáo gần với nghiệp vụ cho nhà lãnh đạnh đưa ra quyết định chính
xác và nhanh nhất.
Việc triển khai đề tài gồm có các công việc sau:
-

Tìm hiểu cơ sở lý thuyết liên quan đến đề tài.


-

Tìm hiểu quy trình nghiệp vụ trong công ty ngành nhựa.

-

Khảo sát thực trạng hạ tầng CNTT và quy trình nghiệp vụ của công ty.

-

Xây dựng hệ thống cơ sở dữ liệu chủ đề (Data Mart) của nghiệp vụ chọn để
triển khai

-

Thực hiện tiến trình đưa dữ liệu từ hệ thống nguồn vào hệ thống dữ liệu chủ đề
(Data Mart) - Tiến trình ETL

-

Xây dựng hệ thống báo cáo thông minh BI

-

Hiện thực hệ thống.

1.4. GIỚI HẠN ĐỀ TÀI

Dựa vào mục tiêu của đề tài “Xây dựng Data Warehouse và BI cho công ty ngành nhựa

tại TPHCM”, Tác giả muốn hướng tới xây dựng toàn bộ các phân hệ trong công ty để có
một giải pháp toàn diện Data Warehouse và BI.
Nhưng có một số vướng mắc như sau:
-

Việc xây dựng một hệ thống DW và BI cần một nguồn nhân lực tương đối lơn
(Con người, chi phí, thời gian...).

Với những vướng mắc như trên, Tác giả xin đề xuất chọn một phân hệ Bán Hàng để
triển khai trong đề tài này.
Để triển khai công việc xây dựng DW và BI cho phân hệ Bán Hàng tại công ty thì cần
phải làm các công việc sau:
-

Công Việc thứ nhất: Tìm hiểu quy trình nghiệp vụ bán hàng trong công ty.


-

Công Việc thứ hai: Khảo thực trạng hạ tầng CNTT và quy trình nghiệp vụ bán
hàng của công ty.

-

Công Việc thứ ba: Xây dựng hệ thống cơ sở dữ liệu chủ đề (Data Mart) cho
phân hệ bán hàng.

-

Công Việc thứ tư: Thực hiện tiến trình đưa dữ liệu từ hệ thống nguồn vào hệ

thống dữ liệu chủ đề (Data Mart) - Tiến trình ETL

-

Công Việc thứ năm: Xây dựng hệ thống báo cáo thông minh BI

-

Công Việc thứ sau: Hiện thực hệ thống.

Với sáu công việc cần làm để xây dựng DW và BI, Tác giả sẽ đi nghiên cứu kỹ phần công
việc thứ nhất, hai, ba và thứ tư.
1.5. PHƯƠNG PHÁP NGHIÊN CỨU
- Phương pháp phân tích và tổng hợp lý thuyết.
- Phương pháp điều tra
- Phương pháp hỏi ý kiến chuyên gia
1.6. CẤU TRÚC LUẬN VĂN

Luận văn được trình bày gồm 6 chương sau đây:
- Chương 1: Giới thiệu
- Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan
- Chương 3: Thực trạng cơ sở hạ tầng CNTT và quy trình nghiệp vụ bán hàng của công

ty.
- Chương 4: Phương pháp đề xuất xây dựng hệ thống data warehouse và BI
- Chương 5: Đánh giá hệ thống
- Chương 6: Kết luận


CHƯƠNG 2: cơ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN cứu

LIÊN QUAN
Trong chương 2: cơ sở lý thuyết và các nghiên cứu liên quan, tác giả trình bày về cơ
sở lý thuyết data warehouse và BI trong đó đi tìm hiểu về: lý do cần phải có data
warehose và BI trong doanh nghiệp, đặc tính của data warehouse, lợi ích của kho dữ liệu,
các kho dữ liệu hiện nay và tổ chức dữ liệu trong kho dữ liệu.
Tiếp theo trình bay đến phần kiến trúc của data warehouse gồm có: thành phần trong
data warehouse, tiến trình ETL, CSDL đa chiều với OLAP, và các công cụ truy vấn phân
tích dữ liệu. Cuối cùng trong chương này tác giả trình bày một số nghiên cứu liên quan.
Dưới đây là phần tác giả đã trình bày chi tiết trong chương này để người đọc hiểu rõ
hơn.


2.1.

Cơ SỞ LÝ THUYẾT DATA WAREHOUSE BI
2.1.1.

Một số lý do cần phải có Data Warehouse và BI trong doanh nghiệp

Các doanh nghiệp ngày nay khi áp dụng một hệ thống thông tin vào công việc sản xuất
kinh doanh của công ty thì không thể thiếu được phần báo cáo.
Đề có được báo cáo tốt thì doanh nghiệp cần cung cấp vào hệ thống các dữ liệu đầu vào
đủ, chính xác và tổn tại theo thời gian. Với thời đại công nghệ thông tin phát triển như
ngày nay thì có rất nhiều giải pháp để giải quyết việc kiểm soát một hệ thống đầu vào dữ
liệu để đưa ra được các báo cáo mang tính chất quyết định.
Trong phần này Tác giả xin đề cấp đến một số lý do doanh nghiệp cần phải có hệ thống
kho dữ liệu (DW) và báo cáo thông minh (BI) như sau:
Data Warehouse
-


Đối với các tổ chức có một lượng dữ liệu ngày càng lớn thì càng khó truy cập và
sử dụng dữ liệu.

-

Dữ liệu trong nhiều định dạng khác nhau, tồn tại trên nhiều nền tảng khác nhau, và
lưu trữ trong nhiều tập tin khác nhau, cấu trúc cơ sở dữ liệu khác nhau được phát
triển bởi các nhà cung cấp khác nhau.

-

Tổ chức phải viết và duy trì hàng trăm chương trình để trích xuất, chuẩn bị, hợp
nhất dữ liệu để sử dụng cho nhiều chương trình khác nhau dùng để phân tích và
báo cáo.

-

Người ra quyết định muốn khai thác sâu hơn vào các dữ liệu.

-

Điều này dẫn đến các yêu cầu phát triển chương trình trích xuất mới hơn. Quá
trình này rất tốn kém, không hiệu quả và tốn thời gian. Data Warehousing cung cấp
một phương pháp tiếp cận tốt hơn.

-

Data Warehousing thực hiện quá trình truy cập dữ liệu từ các nguồn không đồng
nhất; làm sạch, lọc và chuyển đổi dữ liệu; lưu trữ dữ liệu theo cấu trúc để dễ dàng
truy cập, hiểu rõ và sử dụng.


-

Dữ liệu sau đó được dùng để truy vấn, báo cáo và phân tích dữ liệu.

-

Khối lượng dữ liệu trong kho dữ liệu có thể rất lớn, đặc biệt khi xem xét các yêu
cầu phân tích dữ liệu mang tính lịch sử.

-

Chương trình phân tích dữ liệu đòi hỏi phải quét qua khối lượng dữ liệu rất lớn, có
thể dẫn đến kết quả không tốt cho các ứng dụng hoạt động.

Business Intelligence
-

Giúp các tổ chức doanh nghiệp đưa ra những quyết định đúng đắn nhất cho việc
kinh doanh giữa hàng trăm, hàng ngàn lựa chọn.


-

Đây là cách tốt nhất để công ty có thể vượt lên trên đối thủ của mình vì bản thân
dữ liệu chính là feedback của khách hàng, là xu hướng của thị trường ...vv..

-

Khi phân tích các sự kiện mua hàng hoặc sử dụng 1 sản phẩm của khách hàng,

công ty có thể xác định được ngân sách ngay từ ban đầu khi muốn đưa ra sản phẩm
mới cho thị trường.

-

Ngoài việc phát hiện những cơ hội kinh doanh mới, BI còn giúp doanh nghiệp
đánh giá lại những mặt yếu kém về: quy trình nội bộ, sản phẩm, chiến lược
marketing... dựa trên những benchmark của thị trường và đối thủ.

2.1.2.

Đặc trưng của kho dữ liệu (Data Warehouse)

Cũng như các hệ thống CNTT khác, kho dữ liệu có những đặc trưng riêng biệt sau:
-

Tính tích họp (Integration): Dữ liệu của DW được tập hợp về từ các nguồn khác

nhau như các CSDL của các hệ thống tác nghiệp, các file tài liệu...của một doanh
nghiệp.
-

Hướng chủ đề (Subject-Oriented): Dữ liệu của DW được tổ chức và lưu trữ theo

các chủ đề nghiệp vụ mà người khai thác quan tâm. Ví dụ: Dữ liệu của một doanh
nghiệp trong DW có các chủ đề sau:
Thực thể doanh nghiệp: Khách hàng, đối tác, đại lý
Hoạt động của doanh nghiệp: Bán hàng, phân phối, chế tạo
-


Tích lũy theo thời gian (Time-Variant): Dữ liệu lưu trữ có tính chất lịch sử, theo

dòng thời gian tính từ một thời điểm trong quá khứ cho đến hiện tại và các dữ liệu
sẽ phát sinh trong tương lai.
-

Bất biến (Non-Volatile): Dữ liệu đã đưa vào trong DW nói chung ở dạng chỉ đọc

(read-only) và rất hiếm khi thay đổi (không update, không delete). DW chính là
những cơ sở dữ liệu (CSDL) được thiết kế cho mục đích khai thác và phân tích
thông tin (query - truy vấn) chứ không phải mục đích cập nhật (update-cập nhật,
delete-xóa) như trong CSDL của các ứng dụng tác nghiệp.
2.1.2.

Đặc tính của kho dữ liệu

Trong quá trình hoạt động kinh doanh, các dữ liệu của doanh nghiệp phát sinh ngày càng
nhiều. Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho những mục đích hỗ trợ
cho công việc kinh doanh ví dụ như cho mục đích thống kê hay phân tích. Quá trình tập
hợp và thao tác trên các dữ liệu này có những đặc tính sau:
- Tính tích họp

Khái niệm tích hợp có nghĩa là kho dữ liệu có khả năng thu thập dữ liệu từ nhiều
nguồn và trộn ghép với nhau tạo thành một thể thống nhất.


Một kho dữ liệu là một khung nhìn tổng thể thống nhất các khung nhìn khác nhau. Ví
dụ: một hệ thống tác nghiệp như bán hàng hoặc tiếp thị có thể có chung một dạng thông
tin về khách hàng, nhưng các vấn đề về tài chính cần một khung nhìn khác cho thông tin
về khách hàng. Một kho sẽ có một khung nhìn toàn thể về một khách hàng. Khung nhìn

đó bao gồm các phần dữ liệu khác nhau từ các hệ thống tác nghiệp khác nhau.
- Tính lịch sử

Các thông tin trong kho dữ liệu được tập trung theo thời gian và thể hiện một khung
nhìn của một chủ đề trong một giai đoạn.
- Chỉ đọc

Dữ liệu trong kho là dữ liệu chỉ đọc và chỉ có thể tra cứu, không được sửa đổi bởi
người sử dụng cuối.
- Không biến động

Tính không biến động của kho dữ liệu được hiểu theo nghĩa: dữ liệu được lưu trữ lâu
dài trong kho dữ liệu. Mặc dù có thêm dữ liệu mới nhập vào nhưng dữ liệu cũ trong kho
vẫn không bị xóa, điều đó cho phép cung cấp thông tin về một khoảng thời gian dài, cung
cấp đủ số liệu cần thiết cho các mô hình nghiệp vụ phân tích, dự báo.
- Dữ liệu tổng họ p

Dữ liệu chi tiết là thông tin mức thấp nhất được lưu trữ trong kho dữ liệu. Dữ liệu tác
nghiệp chính là thông tin mức thấp nhất. Dữ liệu tổng hợp được tích hợp lại qua nhiều
giai đoạn khác nhau.
2.1.3.

Đặc trưng kho dữ liệu và cư sở dữ liệu thông thường

DW về bản chất cũng là một database bình thường, các hệ quản trị cơ sở dữ liệu quản
lý và lưu trữ nó như các database thông thường (tuy nhiên có hỗ trợ thêm về quản lý dữ
liệu lớn và truy vấn). Một số khác biệt của DW so với database
-

Trước tiên DW là database rất lớn


-

Database hướng về xử lý thời gian thực, DW hướng về dữ liệu lịch sử, tính ổn
định.

-

Database phục vụ xử lý transaction, cập nhật. Datawarehouse thường chỉ đọc, phục
vụ cho những nhu cầu báo cáo.

-

DW sẽ lấy thông tin có thể từ nhiều nguồn khác nhau: DB2, Oracle, SQLServer
thậm chí cả File thông thưởng rồi làm sạch chúng và đưa vào cấu trúc của nó. DW
rất lớn nên muốn cho từng bộ phận chuyên biệt người sử dụng cuối cùng có thể
khai thác thông dễ dàng thì bản thân DW phải được chuyên hoá, phân ra thành
những chủ đề, do đó những chủ đề chuyên môn hóa đó tạo thành một Database
chuyên biệt, đó là Data mart.


- Một điểm quan trọng là Database thuờng đuợc chuẩn hóa (Dạng chuẩn 1, 2, 3, BCK)
để khai thác. DW phải phi chuẩn hoá rồi sau đó có thể chuẩn hoá theo luợc đồ hình
sao trong Data mart, điều này đồng nghĩa với việc DW sẽ trùng lắp thông tin. Thật
ra điều này theo Tác giả nghĩ là hiển nhiên vì việc chuẩn hoá nhằm tránh sụ trùng
lắp thông tin, do đó sẽ nhất quán trong việc cập nhật, thêm, xoá, sủa, tuy nhiên
DW là Database rất lớn phục vụ cho báo cáo, truy vấn chỉ đọc nên việc trùng lắp
thông tin sẽ giúp thao tác tìm kiếm sẽ nhanh hơn. Đây cũng là một quy luật: Càng
trùng lắp thông tin thì tìm kiếm càng dễ dàng và nguợc lại.
2.1.4.


Lợi ích của kho dữ liệu mang lại

Tạo ra nhũng quyết định có ảnh hưởng lớn: Một DW cho phép trích rút tài nguyên

nhân lực và máy tính theo yêu cầu để cung cấp các câu truy vấn và các báo cáo dựa vào
cơ sở dữ liệu hoạt động và sản xuất. Điều này tạo ra sự tiết kiệm đáng kể. Có kho dữ liệu
cũng trích rút tài nguyên khan hiếm của hệ thống sản xuất khi thực thi một chương trình
quá lâu hoặc các báo cáo và các câu truy vấn phức hợp.
Công việc kỉnh doanh trở nên thông minh hon: Tăng thêm chất lượng và tính linh

hoạt của việc phân tích kinh doanh do phát sinh từ cấu trúc dữ liệu đa tầng của kho dữ
liệu, đó là nơi cung cấp dữ liệu được sắp xếp từ mức độ chi tiết của công việc kinh doanh
cho đến mức độ cao hơn - mức độ tổng quát. Đảm bảo được dữ liệu chính xác và đáng tin
cậy do đảm bảo được là trong kho dữ liệu chỉ chứa duy nhất dữ liệu có chất lượng cao và
ổn định (trusted data).
Dịch vụ khách hàng được nâng cao: Một doanh nghiệp có thể giữ gìn mối quan hệ

với khách hàng tốt hơn do có mối tương quan với dữ liệu của tất cả khách hàng qua một
kho dữ liệu riêng.
Tái sáng tạo những tiến trình kinh doanh: Sự cho phép phân tích không ngừng thông

tin kinh doanh thường cung cấp sự hiểu biết mọi mặt của phương thức kinh doanh do đó
có thể làm nảy sinh ra những ý kiến cho sự sáng tạo ra những tiến trình này lại. Chỉ khi
xác định chính xác các nhu cầu từ kho dữ liệu thì mới giúp ta đánh giá được những hạn
chế và mục tiêu kinh doanh một cách chính xác hơn.
Tái sáng tạo hệ thống thông tin: Một DW là nền tảng cho các yêu cầu dữ liệu trong

mọi lĩnh vực kinh doanh, nó cung cấp một chi phí ảnh hưởng nghĩa là đưa ra thói quen
cho cho cả hai sự chuẩn hóa dữ liệu và sự chuẩn hóa hoạt động của hệ điều hành theo

chuẩn quốc tế.


2.1.5.

Kho dữ liệu hiện nay

Ngày nay, hầu hết các kho dữ liệu đang được dùng cho quản trị doanh nghiệp thông
minh làm tăng mối quan hệ khách hàng (CRM - Customer Relationship Management) và
khai thác dữ liệu. Một số được sử dụng để báo cáo tổng hợp, một số được sử dụng để tích
hợp dữ liệu. Các cách sử dụng này đều tương quan với nhau; ví dụ, quản trị doanh nghiệp
thông minh (Business Intelligence - BI) và CRM sử dụng khai thác dữ liệu, kinh doanh
thông minh sử dụng báo cáo, còn BI và CRM còn sử dụng tích hợp dữ liệu. Trong các
phần sau sẽ mô tả cách sử dụng chính, bao gồm quản trị doanh nghiệp thông minh, CRM
và khai thác dữ liệu.
a. Quản trị doanh nghiệp thông minh

Dường như nhiều nhà cung cấp thích dùng quản trị doanh nghiệp thông minh hơn là
DW. Nói cách khác, họ tập trung hơn vào việc xem DW có thể làm gì cho doanh nghiệp.
Nhiều DW hiện nay được dùng cho BI: giúp nhà kinh doanh hiểu công việc kinh doanh
của họ hơn; giúp họ đưa ra các quyết định hành động, chiến lược, và mục tiêu kinh doanh
tốt hơn; giúp họ cải tiến hoạt động kinh doanh.
Một số các nhà lãnh đạo doanh nghiệp ngày nay ra quyết định dựa trên dữ liệu. Và 1
công cụ quản trị doanh nghiệp thông minh chạy và vận hành trên của kho dữ liệu có thể là
một công cụ hỗ trợ tốt cho mục đích đó. Điều này có được là do sử dụng báo cáo và
OLAP. Báo cáo DW được sử dụng để đưa ra số liệu kinh doanh đã tổng hợp trong DW tới
những người kinh doanh. OLAP cho phép doanh nghiệp phân tích sựảnh hưởng lẫn nhau
của dữ liệu giao dịch kinh doanh được lưu trữ trong DW đa chiều.
b. Quản lý mối quan hệ khách hàng


Một hệ thống quản lý mối quan hệ khách hàng (CRM - Customer Relationship
Management) gồm có những ứng dụng mà hỗ trợ quản lý mối quan hệ khách hàng. Trong
một hệ thống CRM, chức năng lý tưởng sau đây được xây dựng trong một DW đa chiều:
-

Đồng nhất khách hàng.

-

Quản lý cho phép.

-

Phân đoạn chiến dịch.

-

Dịch vụ/hỗ trợ khách hàng.

-

Phân tích khách hàng.
Cá nhân hóa,...

c. Khai phá dữ liệu

Data mining là quá trình tìm kiếm các mẫu mới, những thông tin tiềm ẩn mang tính dự
đoán trong các khối dữ liệu lớn. Những công cụ data mining có thể phát hiện những xu
hướng trong tương lai, các tri thức mà data mining mang lại cho các doanh nghiệp có thể



ra các quyết định kịp thời và trả lời những câu hỏi trong lĩnh vực kinh doanh mà trước đây
tốn nhiều thời gian để xử lý. Với ưu điểm trên, Data mining đã chứng tỏ được tính hữu
dụng của nó trong môi trường kinh doanh đầy tính cạnh tranh20 ngày nay và được ứng
dụng rộng rãi trong các lĩnh vực thương mại, tài chính, điều trị y học, giáo dục, viễn
thông,...
d. Tích họp dữ liệu khách hàng

Tích hợp dữ liệu khách hàng (CDI- Customer Data Integration) là MDM cho dữ liệu
khách hàng. CDI là một quá trình chiết, làm sạch, lưu trữ, duy trì, và phân phối dữ liệu
của khách hàng. CDI hệ thống chiết dữ liệu khách hàng từ hệ thống OLTP, làm sạch nó,
lưu trữ trong một kho dữ liệu khách hàng chính, duy trì dữ liệu của khách hàng, lưu giữ
nó, và phân phối các dữ liệu khách hàng cho các hệ thống khác.
Hệ thống CDI cho phép bạn có một phiên bản dữ liệu khách hàng sạch hơn, duy nhất,
đáng tin cậy mà các ứng dụng khác trong các doanh nghiệp có thể sử dụng. Điều này cũng
có thể gia tăng lợi ích kinh doanh chẳng hạn như tăng sự hài lòng của khách hàng và phân
tích kinh doanh tốt hơn, và nó làm giảm sự phức tạp của các quá trình sử dụng dữ liệu
khách hàng. Tất cả các loại khác nhau của quản lý dữ liệu chính, CDI là sử dụng rộng rãi
nhất bởi vì mỗi tổ chức có khách hàng. CDI cung cấp dữ liệu tích hợp sạch cho quản lý
mối quan hệ khách hàng.
e. Dữ liệu phi cấu trúc

Dữ liệu có cấu trúc thường dùng để chỉ dữ liệu lưu trữ trong các hệ quản trị cơ sở dữ
liệu quan hệ như Oracle, MS SQL Server, MySQL,... trong đó các thực thể và các thuộc
tính được định nghĩa sẵn. Ví dụ, dữ liệu của một thí sinh dự thi đại học có thể bao gồm
các thông tin như họ tên, năm sinh, trường dự thi, điểm thi các môn. Trong khi đó dữ liệu
phi cấu trúc (Unstructured Data) thường dùng để chỉ dữ liệu ở dạng tự do (free type) và
không cần có cấu trúc định nghĩa sẵn. Các trang web, video, ảnh, âm thanh là các ví dụ
của dữ liệu phi cấu trúc.
Dữ liệu phi cấu trúc được lưu trữ trong kho dữ liệu như thế nào ? Và, sau khi lưu giữ,

làm thế nào để nhận được những thông tin mà bạn cần ra khỏi dữ liệu này ? Để trả lời câu
hỏi thứ nhất, đối với mỗi thành phần dữ liệu phi cấu trúc bạn định nghĩa thuộc tính và sau
đó thiết lập những thành phần đó theo các thuộc tính. Bạn có thể lưu trữ các thành phần
dữ liệu phi cấu trong một cơ sở dữ liệu quan hệ như là một cột đối tượng nhị phân, với
các thuộc tính như là các cột khác. Hoặc bạn có thể lưu trữ các thành phần dữ liệu phi cấu
trúc trong hệ thống tập tin và chỉ cần lưu trữ các con trỏ vào tập tin trong cơ sở dữ liệu.
Mỗi kiểu của dữ liệu phi cấu trúc có thuộc tính về vật lý và nội dung khác nhau. Các
thuộc tính có thể được lưu giữ trong một hay nhiều cơ sở dữ liệu để cho phép người sử


dụng dễ dàng tìm thấy dữ liệu phi cấu trúc riêng chi tiết. Nội dung của các dữ liệu phi cấu
trúc chính nó có thể được phân tích, trích xuất, phân loại, lưu trữ và để hỗ trợ truy vấn
thông tin.
f. Kho dữ liệu thời gian thực:

DW ngày nay thông thường được cập nhật từng ngày, từng tuần, từng tháng,...Có một
số yêu cầu của những người sử dụng muốn nhìn thấy dữ liệu trong kho dữ liệu được cập
nhật cứ hai phút một lần hay thậm chí thời gian thực. Một DW thời gian thực (Real-Time
Data Warehouse) là một DW mà được cập nhật (bởi ETL) ngay thời điểm giao dịch xảy ra
trong hệ thống nguồn.
2.1.7. Tổ chức dữ liệu trong kho dữ liệu
a. Lược đồ dữ liệu trong DW

Trong thiết kế logic DW, có hai loại mô hình CSDL thường được sử dụng, đó là: mô
hình sao và mô hình bông tuyết:
- Star Schema (lược đồ hình sao): là CSDL quan hệ được thiết kế logic dạng hình sao
bao gồm một bảng dữ liệu chi tiết ở vị trí trung tâm quan hệ với các bảng dữ liệu danh
mục xung quanh (kiểu N:l). Mỗi bảng danh mục đều là bảng duy nhất của nhánh, không
có quan hệ với bảng danh mục nào khác. Ví dụ, trong mô hình sao sau đây, bảng dữ liệu
trung tâm thể hiện sản lượng và doanh số, các bảng danh mục xung quanh là: khách hàng,

sản phẩm, kênh phân phối, thời gian.

Hình 2. 1: Ví dụ về lược đồ hình sao
Hình 2.1 là một ví dụ về lược đồ hình sao và mục tiêu của lược đồ hình sao là truy vấn
dữ liệu được nhanh nhất; chấp nhận dư thừa dữ liệu ở các bảng danh mục.
- Snowflake Schema (lược đồ hình bông tuyết): là CSDL hình sao nhưng được chuẩn
hóa theo một dạng chuẩn khác: mỗi bảng danh mục được tách thành các bảng danh mục
phân cấp (nếu có) để đảm bảo không dư thừa dữ liệu. Trong ví dụ dưới đây, nhánh bảng
khách hàng đã được tách thành các bảng phân cấp


Hĩnh 2. 2: Ví dụ về lược đồ hình bông tuyết
Hình 2.2 là ví dụ về lược đồ bông tuyết và mục tiêu của mô hình bông tuyết là kế thừa
việc truy vấn nhanh của mô hình sao; không để dưa thừa dữ liệu.
b. Mô hình dữ liệu đa chiều

Bản chất đa chiều của các câu hỏi trong nghiệp vụ được phản ánh trong thực tế chẳng
hạn như những người quản lí thị trường không được thoả mãn với câu hỏi theo một chiều
đơn giản, thay vào đó là những câu hỏi phức tạp. Một cách để quan sát một mô hình dữ
liệu nhiều chiều là nhìn nó như một hình khối. Hình 2.3 thể hiện câu truy vấn theo bốn
chiều: khách hàng, dịch vụ, thời gian.
Facts

Hình 2. 3: Mô hình dữ liệu đa chiều
Thời gian ừả lời một truy vấn nhiều chiều phụ thuộc vào số lượng các ô được thêm vào
trong quá trình thực hiện. Khỉ số lượng chiều tăng thì số ô của khối này tăng theo cấp số
mũ. Bên cạnh đó, những truy vấn đa chiều đều liên quan tới những dữ liệu ờ cao và dữ liệu


tổng. Vì vậy, giải pháp để xây dựng một cơ sở dữ liệu đa chiều có hiệu quả là phải kết hợp từ

trước tất cả các tổng con logic và các tổng theo tất cả các chiều. Sự kết hợp trước này đặc
biệt cố giá trị khi các chiều mang tính phân cấp.
Sự phân cáp về kích thước, quản lí dữ liệu thưa hơn và sự kết hợp trước là quan trọng vì
chúng làm giảm đáng kề kích cỡ của cơ sở dữ liệu và những yếu cầu tính toán các giá trị.
Một thiết kế như vậy loại bỏ việc phải kết hợp nhiều bảng và cung cấp sự truy nhập trực
tiếp và nhanh tới các câu trả lời vì vậy cải thiện đáng kể tốc độ trong việc thực hiện các truy
vấn đa chiều.
Các thành phần chính

Các dữ kiện (Facts)
-

Miêu tả các vùng kỉnh doanh

-

Không thay đổi khỉ nỗ đã được sinh ra

-

Được lưu tại một cấp thô nào đó

Các chiều (Dimensions)
-

Thông tin tham chiếu qua đó các dữ kiện cố thể được cấu trúc cho việc phan Tích

-

Định nghĩa cảc phân cấp


Và các khối đa chiều (Cubes)
Một khối có thể có nhiều chiều
-

Một khối bao gồm nhiều ô dữ liệu

c. Bảng sự kiện

Bảng sự kiện điển hình có hai kiểu cột, chúng chứa đựng những sự kiện số (thường gọi
là thước đo), và chứa khóa của các bảng dimension. Bảng sự kiện chứa đựng những sự
kiện mức chi tiết hoặc những sự kiện mà đã được tổng hợp lại. Bảng sự kiện mà chứa sự
kiện tổng hợp thường được gọi là những bảng tóm tắt. Bảng sự kiện thông thường chứa
đựng những sự kiện với cùng mức của sự tổng hợp. Tuy nhiên hầu hết những sự kiện liên
kết tất cả các chiều, nó có thể liên kết với 1 số chiều hoặc không liên kêt.
Bảng sự kiện là bảng chứa dữ liệu chi tiết nên có số lượng bản ghi rất lớn và còn
thường xuyên được cập nhật, bổ sung dữ liệu, trong khi đó các bảng dimension thường cố
định nói đúng hơn là có sự thay đổi không đáng kể theo thời gian. Bảng theo chiều chứa
đựng các thuộc tính có thể được sử dụng như các tiêu chí tìm kiếm và thường có kích
thước nhỏ hơn rất nhiều, rất quen thuộc với người sử dụng từ trước.
d. Bảng chiều dữ liệu

Các chiều là cách mô tả chủng loại mà theo đó các dữ liệu số trong khối được phân
chia để phân tích. Khi xác định một chiều, chọn một hoặc nhiều cột của một trong các


bảng liên kết (bảng chiều). Nếu ta chọn các cột phức tạp thì tất cả cần có quan hệ với
nhau, chẳng hạn các giá trị của chúng có thể được tổ chức theo hệ thống phân cấp đơn. Để
xác định hệ thống phân cấp, sắp xếp các cột từ chung nhất tới cụ thể nhất. Ví dụ: một
chiều thời gian được tạo ra từ các cột năm, qúy, tháng, ngày.

Mỗi cột trong chiều góp phần vào một cấp độ cho chiều. Các cấp độ được sắp đặt theo
nét riêng biệt và được tổ chức trong hệ thống cấp bậc mà nó thừa nhận các con đường hợp
logic cho việc đào sâu (drill_down). Ví dụ: chiều thời gian được miêu tả ở trên cho phép
người dùng khối đào sâu từ năm tới qúy, từ qúy tới tháng và từ tháng tới ngày.
2.2. KIẾN TRÚC DATA WAREHOUSE

DW và kiến trúc của nó tùy thuộc vào vị trí của từng tổ chức. Có 3 kiến trúc phổ biến
của DW:
-

Kiến trúc DW cơ bản: Đây là kiến trức đơn giản cho DW
Data

Ware

Use

Hình 2. 4: Kiến trúc DW cơ bản
( 1882 Oĩ/server. 112/e255Wconcept.htm#DWHSG80711

Hình 2.4 mô tả kiến trúc data warehouse dạng cơ bản. Trong kiến trúc này bao gồm
các thành phần sau: data source, data warehouse, user
Hình 2.5 mô tả kiến trúc DW với staging area: thêm thành phần làm sạch và xử lý dữ
liệu trước khi đưa vào data warehouse.


×