Tải bản đầy đủ (.pdf) (14 trang)

Kho dữ liệu trong phân tích và quản trị dữ liệu thông minh tại các cơ quan - doanh nghiệp (Enterprise data warehouse in smart data analytics and management)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (627.84 KB, 14 trang )

KHO DỮ LIỆU TRONG PHÂN TÍCH VÀ QUẢN TRỊ DỰ LIỆU THÔNG
MINH TẠI CÁC CƠ QUAN - DOANH NGHIỆP

(Enterprise Data Warehouse in Smart Data Analytics and Management)
VÕ XUÂN THỂ
Khoa Công nghệ Thơng tin. Trường Đại học Tài chính – Marketing
Email:

Tóm tắt: Bài viết này giới thiệu giải pháp tổ chức hình thành hệ thống Kho dự liệu (Data
Warehouse) tại các cơ quan, doanh nghiệp phục vụ cho việc quản trị dữ liệu thơng minh và phân
tích dữ liệu thơng minh hỗ trợ cho việc hoạch định chiến lược quản trị và quản lý một cách khoa
học và hiệu quả trên cơ sở khai phá kho dữ liệu. Đây là một giải pháp thuộc lĩnh vực Khoa học dữ
liệu – Data Science – cung cấp nền tảng khoa học mới và hiện đại trong lĩnh vực quản trị - quản
lý và là cơ sở hình thành BigData – một trong những nền tảng của Cách mạng công nghiệp lần
thứ 4 (CMCN 4.0). Nền tảng chính của việc quản trị dữ liệu thơng minh nhờ Data Warehouse là
Mơ hình CSDL đa chiều (Dimensional Modeling) và luồng cơng việc tích hợp dữ liệu (Data
Integration Workflows) thông qua OLTP (On-Line Transaction Processing: Xử lý giao dịch trực
tuyến). Nền tảng chính của việc phân tích dữ liệu thơng minh nhờ Data Warehouse là hệ thống
cơng cụ xử lý phân tích dữ liệu trực tuyến (On-Line Analytical Processing: OLAP)và ngơn ngữ vấn
tin phân tích với các dạng SQL Subtotal, SQL Analytic và Materialized View.
Từ khóa: Kho dữ liệu – Data Warehouse, Phân tích dữ liệu thông minh – Smart Data
analytics, Quản trị dữ liệu thông tin – Smart Data Management.

1. GIỚI THIỆU CHUNG
Kho dự liệu (còn gọi là Nhà kho dữ liệu: Data Warehouse) là mơ hình nền tảng tổ
chức hình thành hệ thống dữ liệu lâu dài phục vụ cho việc quản trị dữ liệu thơng minh
và phân tích dữ liệu thơng minh hỗ trợ cho việc hoạch định chiến lược quản trị và quản
lý một cách khoa học và hiệu quả trên cơ sở khai phá kho dữ liệu tại các cơ quan, doanh
nghiệp. Đây cũng là nền tảng hình thành BigData.
Kho dự liệu cung cấp một giải pháp thuộc lĩnh vực Khoa học dữ liệu – Data Science
– là nền tảng khoa học mới và hiện đại trong lĩnh vực quản trị - quản lý và là cơ sở hình


thành BigData – một trong những nền tảng của Cách mạng công nghiệp lần thứ 4
(CMCN 4.0).
1. Nền tảng chính của việc quản trị dữ liệu thông minh nhờ Data Warehouse là
+ Mô hình CSDL đa chiều (Dimensional Modeling) và
336


+ Luồng cơng việc tích hợp dữ liệu (Data Integration Workflows) thông qua OLTP
(On-Line Transaction Processing: Xử lý giao dịch trực tuyến).
2. Nền tảng chính của việc phân tích dữ liệu thông minh nhờ Data Warehouse là
+ Hệ thống công cụ xử lý phân tích dữ liệu trực tuyến (On-Line Analytical Processing:
OLAP) và
+ ngơn ngữ vấn tin phân tích với các dạng SQL Subtotal, SQL Analytic và
Materialized View.
Bài viết này nhằm giới thiệu tổng quan và minh họa tổ chức cài đặt Kho dữ liệu trong
thực tiễn nhằm giúp người đọc có cái nhìn tổng quan về Kho dữ liệu trong phân tích và
quản trị dữ liệu thơng minh.
Đối tượng tham khảo bài viết này gồm: các giảng viên đại học, người học, nhà nghiên
cứu thuộc chuyên ngành Khoa học dữ liệu và Khoa học máy tính nói chung.
2. GIỚI THIỆU VỀ KHO DỮ LIỆU
2.1. “Kho dữ liệu” (Data Warehouse: DWH) 1
“Kho dữ liệu” còn gọi là “Nhà kho dữ liệu” là một lĩnh vực Khoa học dữ liệu nghiên
cứu và ứng dụng các mơ hình tổ chức hệ thống dữ liệu tích hợp (Integrated) từ nhiều
nguồn khác nhau từ các các Hệ quản trị Cơ sở dữ liệu khác nhau; trên cơ sở đó hình
thành một cơ sở dữ liệu có cố lượng (nhiều table với lượng mẫu tin) rất lớn. Hệ thống
dữ liệu này phục vụ cho cơ chế phân tích đánh giá các dữ liệu tích hợp (Factors) theo
nhiều chiều (Dims) khác nhau phục vụ cho hoạch định chiến lược, chiến thuật hoạt động
của các cơ quan – doanh nghiệp, như Hình 2. Như vậy có thể xem Data warehouse là cơ
sở nền tảng cho Data Mining (Khai phá dữ liệu).


Hình 2. Mơ hình kho dữ liệu

1

Có nhiều khái niệm về DWH (theo nhiều góc độ khác nhau), đây là khái niệm được tổng hợp và biên tập bởi tác giải bài viết này.

337


Theo khái niệm của wikipedia: Kho dữ liệu (tiếng Anh: data warehouse) là kho lưu
trữ dữ liệu lưu trữ bằng thiết bị điện tử của một tổ chức. Các kho dữ liệu được thiết kế
để hỗ trợ việc phân tích dữ liệu và lập báo cáo.
Định nghĩa cổ điển này về kho dữ liệu tập trung vào việc lưu trữ dữ liệu. Tuy nhiên,
các phương tiện cho việc lấy và phân tích, trích rút, biến đổi, nạp dữ liệu, và quản lý dữ
liệu từ điển cũng được coi là các thành phần cốt yếu của một hệ thống kho dữ liệu. Nhiều
người sử dụng thuật ngữ "kho dữ liệu" với ngữ cảnh rộng hơn. Một định nghĩa mở rộng
cho kho dữ liệu bao gồm cả các công cụ thông minh, các cơng cụ để trích, biến đổi và
nạp dữ liệu vào kho, và các công cụ để quản lý và lấy siêu dữ liệu (meta data).
Trong quá trình hoạt động kinh doanh, các dữ liệu của doanh nghiệp phát sinh ngày
càng nhiều. Người ta muốn tận dụng nguồn dữ liệu này để sử dụng cho những mục đích
hỗ trợ cho cơng việc kinh doanh ví dụ như cho mục đích thống kê hay phân tích. Q
trình tập hợp và thao tác trên các dữ liệu này có những đặc điểm sau:
1. Dữ liệu tích hợp (Atomicity): Dữ liệu tập hợp từ nhiều nguồn khác nhau. Điều
này sẽ dẫn đến việc quá trình tập hợp phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ
liệu.
2. Theo chủ đề (Consistency): Không phải tất cả các dữ liệu đều được tập hợp,
người ta chỉ lấy những dữ liệu có ích.
3. Biến thời gian (Isolation): Các dữ liệu truy suất không bị ảnh hưởng bởi các dữ
liệu khác hoặc tác động lên nhau.
4. Dữ liệu cố định (Durable): Khi một Transaction hoàn chỉnh, dữ liệu không thể

tạo thêm hay sửa đổi.
2.2. Kiến trúc cơ bản của kho dữ liệu
Mơ hình data warehouse 3 tầng (lớp) như Hình 3:
1. Tầng đáy (hình thành DWH): Là nơi cung cấp dịch vụ lấy dữ liệu từ nhiều nguồn
khác sau đó chuẩn hóa, làm sạch và lưu trữ dữ liệu đã tập trung
2. Tầng giữa (duy trì hoạt động DWH = xử lý khai thác sử dụng): Cung cấp các dịch
vụ để thực hiện các thao tác với kho dữ liệu gọi là dịch vụ OLAP (OLAP server).

338


Có thể cài đặt bằng Relational OLAP, Multidimensional OLAP hay kết hợp cả
hai mơ hình trên Hybrid OLAP
3. Tầng trên cùng (hỗ trợ người sử dụng khai thác sử dụng DWH): nơi chứa các câu
truy vấn, báo cáo, phân tích

Hình 3. Kiến trúc 3 tầng của Kho dữ liệu

2.3. Lý do phải sử dụng Kho dữ liệu?
Kho dữ liệu là công cụ hiệu quả không thế thiếu trong các cơ quan – doanh nghiệp
hiện nay. Có nhiều lý do mà các cơ quan – doanh nghiệp hiện nay phải tổ chức Kho dữ
liệu, như Hình 4:
1. Đối với các tổ chức có lượng dữ liệu ngày càng lớn thì càng khó truy cập và sử dụng
dữ liệu.
2. Dữ liệu trong nhiều định dạng khác nhau, tồn tại trên nhiều nền tảng khác nhau, và
lưu trữ trong nhiều tập tin khác nhau, cấu trúc cơ sở dữ liệu khác nhau được phát triển
bởi các nhà cung cấp khác nhau.
3. Tổ chức phải viết và duy trì hàng trăm chương trình để trích xuất, chuẩn bị, hợp nhất
dữ liệu để sử dụng cho nhiều chương trình khác nhau dùng để phân tích và báo cáo.
4. Người ra quyết định muốn khai thác sâu hơn vào các dữ liệu.

5. Điều này dẫn đến các u cầu phát triển chương trình trích xuất mới hơn. Q trình
này rất tốn kém, khơng hiệu quả và tốn thời gian. Data warehouse cung cấp một
phương pháp tiếp cận tốt hơn.
6. Kho dữ liệu thực hiện quá trình truy cập dữ liệu từ các nguồn không đồng nhất; làm
sạch, lọc và chuyển đổi dữ liệu; lưu trữ dữ liệu theo cấu trúc để dễ dàng truy cập, hiểu
rõ và sử dụng.
339


7. Dữ liệu sau đó được dùng để truy vấn, báo cáo và phân tích dữ liệu.
8. Khối lượng dữ liệu trong kho dữ liệu có thể rất lớn, đặc biệt khi xem xét các yêu
cầu phân tích dữ liệu mang tính lịch sử.
9. Chương trình phân tích dữ liệu đòi hỏi phải quét qua khối lượng dữ liệu rất lớn, có
thể dẫn đến kết quả khơng tốt cho các ứng dụng hoạt động.
10. Do đó có một yêu cầu tách riêng hai môi trường để giảm thiểu xung đột và sự
xuống cấp của hiệu suất trong môi trường hoạt động.

Hình 4. Mục đích sử dụng Kho dữ liệu trong các cơ quan - đaonh nghiệp

2.4. Công cụ và Ngôn ngữ hỗ trợ kho dữ liệu
• Ngơn ngữ xử lý phân tích trực tuyến (OLAP - On-Line Analytical Processing), rất
phù hợp với kho dữ liệu, ngôn ngữ này tương tự với ngôn ngữ truy vấn SQL và tập
trung vào các câu lệnh sau:
1. Thu nhỏ (roll-up): ví dụ: nhóm dữ liệu theo năm thay vì theo quý.
2. Mở rộng (drill-down): ví dụ: mở rộng dữ liệu, nhìn theo tháng thay vì theo quý.
3. Cắt lát (slice): nhìn theo từng lớp một. Ví dụ: từ danh mục bán hàng của Q1, Q2,
Q3, Q4 chỉ xem của Q1.
4. Rút ngắn (dice): bỏ bớt một phần của dữ liệu (tương ứng thêm điều kiện vào câu
lệnh WHERE trong SQL).
So sánh giữa OLAP với OLTP như Hình


5

340


Hình 5. So sánh OLAP với OLTP

• Cơng cụ ETL(Extract, Transform, Load: Trích xuất, Biến đổi, Nạp dữ liệu): hỗi trợ
tầng đáy trong nạp dữ liệu từ nhiều nguồn vào kho dữ liệu và tiền xử lý
(Preprocessing), như Hình

6

Hình 6. Công cụ ETL nạp dữ liệu và tiền xử lý Kho dữ liệu

2.5. Mối quan hệ giữa kho dữ liệu và khai phá dữ liệu
Cả hai đều có thể sử dụng độc lập với nhau, tuy nhiên khi kết hợp được kho dữ liệu
với khai phá dữ liệu thì lợi ích rất lớn lý do như:
1. Dữ liệu của kho dữ liệu rất phù hợp cho việc khai phá dữ liệu do đã được tập hợp và
làm sạch.
2. Cơ sở hạ tầng của kho dữ liệu hỗ trợ rất tốt cho các việc như xuất, nhập cũng như
các thao tác cơ bản trên dữ liệu
3. OLAP về cung cấp các tập lệnh rất hữu hiệu trong phân tích
2.6. Các lĩnh vực ứng dụng
Kho dữ liệu có rất nhiều ứng dụng trong thực tiễn phân tích dữ liệu và hoạch định
chiến lược – chiến thuật hoạt động hoặc kinh doanh của các cơ quan – doanh nghiệm và
có thể chia thành ba nhóm ứng dụng chính:
1. Xử lý thơng tin như tạo ra các báo cáo và trả lời các câu hỏi định trước.
2. Phân tích và tổng hợp dữ liệu, kết quả được thể hiện bằng các báo cáo và bảng biểu.

3. Dùng trong các mục đích kế hoạch như khai phá (cịn gọi là khai khống) dữ liệu.
341


Các lĩnh vực hiện tại có ứng dụng kho dữ liệu bao gồm:
1. Phân tích hoạch định kinh doanh
2. Thương mại điện tử
3. Quản lý quan hệ khách hàng (CRM - Customer Relationship Management)
4. Chăm sóc sức khỏe
5. Viễn thơng
2.7. Các mơ hình thiết kế Kho dữ liệu
Có nhiều mơ hình thiết kế Kho dữ liệu
1. Subject Oriented – Hướng chủ đề
- Kho dữ liệu được thiết kế để hỗ trợ trong việc phân tích dữ liệu
- Được tổ chức xung quanh các chủ đề chính như: khách hàng, sản phẩm, bán hàng,…
- Loại bỏ những dữ liệu không hữu ích cho trình ra quyết định
Mơ hình này giúp cho người dùng hướng theo một chủ đề nhất định giúp xác định
được những thông tin cần thiết trong hoạt động của mình.
2. Integrated – Hướng tích hợp
- Dữ liệu của kho dữ liệu rất đa dạng
- Dữ liệu được tập hợp từ nhiều nguồn khác nhau:
Mơ hình này dựa trên Cở sở dữ liệu quan hệ (Relational Databases), flat files, các
bảng ghi toàn tác trực tuyến. Điều này sẽ dấn đến việc trong quá trình tập hợp dữ liệu
phải thực hiện việc tiền xử lý, tức là: làm sạch, sắp xếp, rút gọn dữ liệu.
3. Non Volatile – Hướng ổn định
- Dữ liệu được lấy từ nhiều nguồn dữ liệu của hệ thống tác nghiệp có sẵn
- Kho dữ liệu tách rời với vật lý, trực tiếp từ môi trường tác nghiệp, nên dữ liệu
trong kho dữ liệu là dữ liệu chỉ đọc, không chỉnh sửa hoặc thêm mới được.
4. Time Variant – Hướng biến đổi theo thời gian
- Dữ liệu bao gồm quá khứ và hiện tại

- Mỗi dữ liệu trong kho dữ liệu đều được gắn với thời gian và có tính lịch sử
Dữ liệu trong kho dữ liệu rất lớn và khơng được thêm, xóa, sửa dữ liệu.
2.8. Các bước cơ bản trong tiến trình tích hợp dữ liệu
Từ các nguồn không đồng nhất, ta tiến hành các bước tích hợp kho dữ liệu như sau:
342


Bước 1. Trích xuất dữ liệu: thu thập dữ liệu lớn từ nhiều nguồn từ đa nền tảng
Bước 2. Làm sạch: tìm lỗi và sửa sai Data Base nguồn
Bước 3. So khớp mẫu: Lọc và chuyển đổi dữ liệu = chuyển đổi từ định dạng cơ sở dữ
liệu sang định dạng kho (DWH)
Bước 4. Lưu trữ dữ liệu theo cấu trúc: sắp xếp, hợp nhất và tổng hợp,... nhằm dễ truy
cập, dễ hiểu và dễ sử dụng.
2.9. Khai thác sử dụng Kho dữ liệu
Một số cấu trúc khai thác sử dụng kho dữ liệu thông dụng:
Vấn tin với các phép toán tổng hợp của SQL trên kho dữ liệu: SQL Subtotal, bao gồm:
+ Mệnh đề GROUP BY
+ Các mở rộng của các hệ quản trị cơ sở dữ liệu để hỗ trợ cho kho dữ liệu, gồm:
Mệnh đề SQL CUBE
Mệnh đề SQL ROLLUP
Mệnh đề SQL GROUPING SETS
Kết hợp các phép tốn SUBTOTAL

Vấn tin với các hàm phân tích của SQL trên kho dữ liệu: SQL Analytic, gồm:
Mơ hình xử lý và cú pháp cơ bản
Cú pháp mở rộng và các hàm xếp hạng (rank)
So sánh cửa sổ (Window Comparisons)
Các hàm so sánh tỷ lệ

Vấn tin dùng Materialized View để phân tích trên kho dữ liệu, gồm: Truy vấn dùng

Materialized View với khung nhìn (views)
Hệ thống OLAP (On-Line Analytical Processing: cơng cụ xử lý phân tích trực tuyến),
gồm:
+ Cube (khối) Khối dữ liệu + Tạo khối (cube) cho dữ liệu với
. Các bảng đa chiều(dimension table) và
. Bảng sự kiện (fact table)

+ Một số thao tác (lệnh) cơ bản của OLAP:
. Thu nhỏ (roll-up): VD: nhóm dữ liệu theo năm thay vì theo quý.
343


. Mở rộng (drill-down): VD: mở rộng dữ liệu, nhìn theo tháng thay vì theo quý.
. Cắt lát (slice): nhìn theo từng lớp một.
Ví dụ: từ danh mục bán hàng của Q1, Q2, Q3, Q4 chỉ xem của Q1.
. Rút ngắn (dice): bỏ bớt một phần của dữ liệu (thêm điều kiện WHERE vào câu
lệnh trong SQL).

3. MINH HỌA MỘT MƠ HÌNH KHO DỮ LIỆU
3.1. Giới thiệu mơ hình Data nguồn
Xét mơ hình phân tích kho dữ liệu: Quản lý khám chữa bệnh bằng Thể bảo hiểm y tế:
Gồm 2 Data Base
[1] Data Base: Quản lý Thẻ BHYT như Hình 7: QLBHYT

Hình 7. Cơ sở dữ liệu ngồm: Quản lý thẻ Bảo hiểm y tế

[2] Data Base: Quản lý Khám chữa bệnh dùng Thẻ Bảo hiểm Y Tế như Hình 8: QLKCB

Hình 8. Cơ sở dữ liệu nguồn: Quản lý khám chữa bệnh bằng bảo hiểm y tế


Một số giải thích:
+ Nếu DOTKHAM có MATHE_BHYT <> NULL = Bệnh nhân sử dụng Thẻ BHYT
+ Chi phí thuốc = SL * GIA (thuốc)
+ Chi phí dịch vụ = SL * GIA (Dịch vụ)
+ Nếu khơng dùng dịch vụ thì Chi phí dịch vụ = 0, Nếu khơng cấp thuốc thì Chi phí thuốc = 0

344


3.2. Các yêu cầu đặt ra
Phân tích tổng chi phí Khám chữa bệnh (Fact: Factor) dùng BHYT theo các Dim
(Dimension)
+ Theo Loại Đơn vị
+ Theo Ngày
+ Theo Cơ sở y tế
+ Theo Quận
3.3. Phân tích Kho dữ liệu
Xuất phát từ Factor TongChiPhiDichVu, TongChiPhiThuoc, TongSoLuotKham, ta thấy:
TongChiPhiThuoc = được tính theo trình tự
DOTKHAM.STT:
Tiền (chi phí) thuốc [Tien]= CAPTHUOC.SL * DMTHUOC.GIA / MSTHUOC, STT
Tổng Tiền (chi phí) thuốc theo từng lượt khám [TienSTT] = SUM(Tien) / STT
Tơng Tiền (chi phí) thuốc theo từng KV làm cơ sở nạp vào BIDS phân tích số liệu nhà kho.
TongChiPhiDichVu = tính theo trình tự tương tự trên
CÀI ĐẶT Views
TÍNH TIỀN THUỐC CHO TỪNG ĐỢT KHÁM (STT)
w_TienThuocMsThuoc: Tính tiền thuốc theo từng loại thuốc (MSTHUOC) của mỗi đợt
khám (STT) = dùng 3 Tables[k, c, t]
SELECT


k.STT, t.MSTHUOC, c.SL, t.GIA, c.SL * t.GIA AS Tien

FROM

dbo.DOTKHAM AS k INNER JOIN
dbo.CAPTHUOC AS c ON k.STT = c.STT INNER JOIN
dbo.DMTHUOC AS t ON c.MSTHUOC = t.MSTHUOC

GROUP BY k.STT, t.MSTHUOC, c.SL, t.GIA
w_TienThuocSTT: Tính tiền thuốc theo từng đợt khám (STT) = dùng 1 Table + View nêu
trên [k, t]
SELECT

k.STT, SUM(t.Tien) AS TienThuocSTT

FROM

dbo.DOTKHAM AS k INNER JOIN
dbo.w_TienThuocMsThuoc AS t ON k.STT = t.STT

GROUP BY k.STT

345


TÍNH TIỀN DỊCH VỤ CHO TỪNG ĐỢT KHÁM (STT)
w_TienDVMsDV: Tính tiền Dịch vụ theo từng loại dịch vụ (MADV) của mỗi đợt khám
(STT) = dùng 3 Tables[k, s, d]
SELECT


k.STT, d.MADV, s.SL, d.GIA, s.SL * d.GIA AS Tien

FROM

dbo.DOTKHAM AS k INNER JOIN
dbo.SDDV AS s ON k.STT = s.STT INNER JOIN
dbo.DICHVU AS d ON s.MADV = d.MADV

GROUP BY k.STT, d.MADV, s.SL, d.GIA
w_TienDVSTT: Tính tiền Dịch vụ theo từng đợt khám (STT) = dùng 1 Table + 1 View nêu trên
[k, d]
SELECT

k.STT, SUM(d.Tien) AS TienDVSTT

FROM

dbo.DOTKHAM AS k INNER JOIN
dbo.w_TienDVMsDV AS d ON k.STT = d.STT

GROUP BY k.STT
TÍNH TỔNG TIỀN CHI PHÍ [Thuốc + Dịch vụ] CHO TỪNG ĐỢT KHÁM (STT)
w_TongTienSTT
SELECT
FROM

k.STT, t.TienThuocSTT AS 'TienThuoc', d.TienDVSTT AS 'TienDV',
t.TienThuocSTT + d.TienDVSTT AS TongTien
dbo.DOTKHAM AS k INNER JOIN
dbo.w_TienDVSTT AS d ON k.STT = d.STT INNER JOIN

dbo.w_TienThuocSTT AS t ON k.STT = t.STT

GROUP BY k.STT, t.TienThuocSTT, d.TienDVSTT
===XỬ LÝ KHI CHỈ
DÙNG Thuốc OR CHỈ Dịch vụ cũng Tính
Các nội dung khác tương tự

3.4. Thiết kế Kho dữ liệu đế phân tích dữ liệu theo u cầu trên
Mơ hình Kho dữ liệu phân tích được thiết kế như Hình

9

+ Dùng ETL (Extract - Transform – Load: Trích xuất - Biến đổi – Nạp dữ liệu trên SQL Server:
Chuyển DB từ OLTP (On-Line Transaction Processing = Xử lý giao dịch trực tuyến) => DW
Nguồn: QLBHYT, QLKCB

=>

Đích: QLKCBBHYT_DWH

346


Hình 9. Mơ hình Kho dữ liệu quản lý khám chữa bệnh bằng Bảo hiểm y tế

Có thể load Data Base theo phương pháp Copy Data Base Dùng SQL Server
Integrated Services (SSIS) để phục vụ việc nạp Data Base từ OLTP vào các Dim (tức
là các chiều phần tích số liệu trong Kho dữ liệu
Nhiệm vụ của việc dùng ETL thơng qua các Views là phục vụ cho việc tính tốn
các số liệu thơng kê Factor phục vụ phân tich số liệu nhà kho.

Trong đó:
+ Factor là các số liệu thống kế được hình thành thơng qua các vấn tin có sử dụng các mệnh
đề mở rộng, như: Compute với các hàm tính tốn thơng kế, như: SUM, AVERAGE, MIN,
MAX, COUNT trên các fields tính tốn của các Data Base nguồn.
+ Dim là các tiêu chí phân tích (đáng giá) các Facter trên Bảng (Tables) đã có hoặc được
lập mới, như: DimNgay.

3.5. Dùng BIDS đề phân tích số liệu Kho dữ liệu theo u cầu trên
Dùng cơng cụ phân tích nhà kho dữ liệu của Microsoft là BIDS để phân tích kho dữ
liệu đã cài đặt nêu trên như Hình 10

347


Hình 10. Phân tích kho dữ liệu dùng BIDS của Microsoft

4. KẾT LUẬN
Với mơ hình kho dữ liệu sẽ giúp các cơ quan – doanh nghiệp hiện nay tổ chức quản
lý, duy trình hoạt động và khai thác sử dụng một cách hiệu quả trong việc hoạch định
chiến lược, chiến thuật hoạt động và vận hành thơng qua phân tích các Factors theo các
Dim. Vì vậy kho dữ liệu là mơ hình khơng thể thiếu trong các cơ quan – doanh nghiệp
hiện này, phục vục việc phân tích và quản lý dự liệu thông minh.
Các giải pháp kho dữ liệu trong khoa học dữ liệu mở ra nhiều hướng ứng dụng trong
thực tiễn tại các cơ quan – doanh nghiệp, như: dự đoán thị trường kinh tế, dự báo khuynh
hướng xã hội và nhiều bài tốn hữu ích khác.

348


DANH MỤC MỘT SỐ TỪ VIẾT TẮT được dùng trong bài viết

Tiếng Việt:
1. CMCN 4.0: Cách mạng công nghiệp lần thứ 4.
Tiếng Anh:
2. BIDS: SQL Server Business Intelligence Development Studio: Cơng cụ phân tích
nhà kho dữ liệu của Microsoft.
3. DWH:Data Warehouse: Kho dự liệu còn gọi là Nhà kho dữ liệu.
4. ETL: Extract, Transform, Load: Trích xuất, Biến đổi, Nạp dữ liệu
5. OLAP: On-Line Analytical Processing: công cụ xử lý phân tích trực tuyến
6. SQL: Structured Query Language: Ngơn ngữ vấn tin có cấu trúc.
TÀI LIỆU THAM KHẢO:
[1]. Võ Xuân Thể (2021), Bài giảng: Kho dữ liệu, Trường Đại học Sư phạm Kỹ thuật
Tp.HCM.
[2]. Alejandro Vaisman and Esteban Zimányi, Data Warehouse Systems: Design and
Implementation, Springer, 2014.
[3]. Christian S. Jensen et al., Multidimensional Databases and Data Warehousing,
Morgan & Claypool, 2010.
[4]. Paul Lane et al., Oracle Database Data Warehousing Guide, 12cRelease 1 (12.1),
Oracle, 2014.
[5]. Ralph Kimball and Margy Ross, The Data Warehouse Toolkit: The Definitive
Guide to Dimensional Modeling, 3rd Edition, Wiley, 2013.
[6]. Matt Casters et al., Pentaho Kettle, Solutions: Building Open Source ETL
Solutions with Pentaho Data Integration, Wiley, 2010.
[7]. Microsoft, SQL Server 2012 Tutorials: Analysis Services - Multidimensional
Modeling, SQL Server 2012 Books Online, 2012.
[8]. Ramez Elmasri and Shamkant Navathe, Fundamental of Database Systems, 6th
Edition, Addison-Wesley, 2011.
Websites
[9]. />[10]. />[11].

349




×