Tải bản đầy đủ (.pdf) (14 trang)

Bài giảng Khai phá dữ liệu trong kinh doanh - Chương 3: Sử dụng công cụ OLAP trong khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (904.5 KB, 14 trang )

Association rules at the 1-item
values of X
Có thể sử dụng cách như trên đểtìm luật kết hợp của 1-item
VD:
Consider the rule: Milk → Bread. Out of total 12 transactions Milk
occurs 9 times while (Milk, Bread) occurs 7 times. The rule has a
support level of 7/12 (or 58 percent) and a confidence level of 7/9 (or
77 percent).

Thus, the next valid association rule is as follows:

Milk → Bread {S = 58%, C = 77%}.

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

133

Chương 3: Sử dụng công cụ OLAP trong khai phá dữ
liệu
3.1. Tồng quan chung về SQL server analysis service
3.1.1. Một số khái niệm liên quan
3.1.2. Tổ chức mơ hình cơ sở dữ liệu đa chiều
3.1.3. Giới thiệu và cài đặt công cụ OLAP
3.2. Xây dựng OLAP Cube
3.2.1. Xây dựng DB Engine
3.2.2. Thiết lập nguồn , bảng Fact
3.2.3. Thiết lập các chiều cho Cube
3.2.4. Xây dựng Cube

3.3. Xây dựng Report
3.3.1. Thiết lập nguồn cho Report


3.3.2. Lập Report từ cơ sở dữ liệu nhiều chiều
KHAI PHÁ
DỮ LIỆU TRONG
KINH DOANH
3.3.3. Quản lý Report (bảo mật- security,
truyềnsubscription,
quản lý thực thi –excution).
134

67


3.1. Tổng quan chung về SQL
server analysis service
3.1.1. Một số khái niệm liên quan

SQL Server Analysis Service là một công cụ phân tích dữ liệu
được sử dụng trong hỗ trợ quyết định và phân tích kinh
doanh.
Dữ liệu phân tích được lưu trữ dưới mơ hình bảng, hình
khối đa chiều (cubes), và các mơ hình khai phá dữ liệu mà
NSD có thể truy cập từ các báo cáo, bảng tính và bảng điều
khiền.

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

135

OLAP Cube là thuật ngữ dùng để chỉ dữ liệu có nhiều
chiều (Cube) mà có thể xử lý phân tích online (OLAP).

Thường số chiều của Cube là 3, còn nếu số chiều của dữ liệu
lớn hơn 3, dữ liệu này còn được gọi là hypercube.
Dữ liệu nhiều chiều (multi-dimension) có thể hiểu đơn giản
là dữ liệu mà người dùng muốn nhóm theo các tiêu chí khác
nhau. Ví dụ, dữ liệu tài chính của một cơng ty được nhóm
theo sản phẩm, khung thời gian, thành phố.. để so sánh.
Mỗi tiêu chí (sản phẩm, khung thời gian, địa điểm...) là
một chiều dữ liệu vì nó cung cấp một góc nhìn khác đến dữ
liệu hiện có

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

136

68


Fact table có thể được hiểu như là bảng chứa các dữ
liệu có tính chất đo lường (measurement). Một fact
(hay còn gọi là measure) trong Data warehouse được
dùng để minh họa cho một trường (field/column)
chứa một giá trị đo lường được
Tiến trình ETL (Extract-Transform-Load)
Tiến trình ETL là một quy trình dùng để lấy dữ liệu từ các hệ
thống nguồn sau đó xử lý và đưa nó vào data warehouse. Nó
bao gồm các chức năng: Rút trích dữ liệu; biến đổi dữ liệu; và
tải (load) vào kho dữ liệu hoặc các hệ thống báo cáo khác

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH


137

Mơ hình các bước của tiến trình ETL

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

138

69


Thống nhất hóa (roll-up) là q trình tập hợp lại dữ
liệu từ một hay nhiều chiều
Drill- down – chi tiết hóa: ngược với roll-up
Chọn và cắt lát dữ liệu (slice-cịn gọi là chọn và
chiếu): là kĩ thuật cho phép ta lấy ra khối dữ liệu
nhiều chiều (rubic), sau đó tiến hành phân tích
bằng các nhát cắt khác nhau dựa trên khối đó. Kết
quả thu được sẽ là một khối dữ liệu con

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

139

3.1.2. Tổ chức mơ hình cơ sở
dữ liệu đa chiều
Lược đồ đa chiều hình sao (star schema) là kiểu
đơn giản nhất của lược đồ data mart. Lược đồ
sao bao gồm một hoặc nhiều bảng Fact, tham
chiếu đến một số bảng dimension.

Khi ta liên kết Fact table và Dimension table lại với
nhau dựa trên các Primary Key của dimension và
Foreign Key tương ứng của fact, ta được một lược
đồ dữ liệu dạng hình sao - Star schema.

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

140

70


VD

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

141

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

142

VD2

71


3.1.3. Giới thiệu và cài đặt công cụ OLAP
Các bước cài đặt (xem sách tham khảo)


KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

143

3.2. Xây dựng OLAP Cube
Khởi tạo dự án và thiết lập Data Soure
Cài đặt đầy đủ SQL Server với các dịch vụ: Database Engine, Analysis
Services, Reporting Services, Intergration Services sau đó khởi động
cơng cụ SQL Server Management Studio.

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

144

72


Khởi động Business Intelligence Development
Studio (BIDS)
Khởi tạo dự án phân tích dữ liệu với BIDS
Thiết lập Data Source

Chọn bảng Fact, và related tables cho dự án

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

145

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH


146

73


Kết quả

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

147

3.2.4. Xây dựng Cube

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

148

74


Kết quả

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

149

Triển khai và phân tích dữ liệu với OLAP Cube
Tùy chỉnh lại thứ bậc các thuộc tính trong Dimension Dim Date như sau:
Double Click vào Dim Date.dim: Kéo thả các date tương ứng muốn hiển
thị


KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

150

75


Tùy chỉnh một số thuộc tính trước khi triển khai Cube (Deployment).
Click chuột phải vào SaleDataAnalysis  hiển thị menu ngữ cảnh 
chọn Properties:

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

151

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

152

76


Chú ý: thuộc tính Server chính là Instance Name của SQL
Server Analysis Services và trong trường hợp này sử dụng
localhost
Thuộc tính Database là do người dùng tùy ý nhập vào và
thuộc tính này mơ tả tên của Analysis Database sẽ được
sinh ra trong SQL Server Analysis Services sau khi Deploy
thành cơng.

Nhấn OK để hồn tất.
Tiếp tục Click chuột phải vào SaleDataAnalysis  hiển thị
menu ngữ cảnh  chọn Deploy:
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

153

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

154

77


Developing a Data Warehouse
The phases of a data warehouse project listed
below are similar to those of most database
projects, starting with identifying requirements
and ending with executing the T-SQL Script to
create data warehouse:

Identify and collect requirements
Design the dimensional model
Execute T-SQL queries to create and populate your
dimension and fact tables
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

155

Design the Dimensional Model

Dimension: The dimension is a master table
composed of individual, non-overlapping data
elements. The primary functions of dimensions are
to provide filtering, grouping and labeling on your
data. Dimension tables contain textual descriptions
about the subjects of the business.
Product, Customer, Store, Date, Time, Sales person

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

156

78


Measure: A measure represents a column
that contains quantifiable data, usually
numeric, that can be aggregated. A measure
is generally mapped to a column in a fact
table.
Actual Cost, Total Sales, Quantity, Fact table
record count

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

157

Fact Table: Data in fact table are called measures
(or dependent attributes), Fact table provides
statistics for sales broken down by customer,

salesperson, product, period and store dimensions.
Fact table usually contains historical transactional
entries of your live system, it is mainly made up of
Foreign key column which references to various
dimension and numeric measure values on which
aggregation will be performed.

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

158

79


Identify what attributes should be there in
our Fact Sales Table.
Foreign Key ColumnSales Date key, Sales
Time key, Invoice Number, Sales Person ID,
Store ID, Customer ID
MeasuresActual Cost, Total Sales, Quantity,
Fact table record count

KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

159

Using the Code
Open SQL Server Management Studio

Connect Database Engine

Open New Query editor
Copy paste Scripts given below in various
steps in new query editor window one by
one
To run the given SQL Script, press F5
KHAI PHÁ DỮ LIỆU TRONG KINH DOANH

160

80



×