Tải bản đầy đủ (.docx) (88 trang)

báo cáo đồ án kho dữ liệu và olap

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (11.64 MB, 88 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN

BÁO CÁO ĐỒ ÁN KHO DỮ LIỆU VÀ OLAP

Giảng viên hướng dẫn : ThS. Nguyễn Thị Kim Phụng
Sinh viên thực hiện:
1. Nguyễn Lê Nhật Triều

Mssv: 12520751

Lớp: Hệ thống thơng tin 2012
Khóa: 2012

TP. Hồ Chí Minh, tháng 7 năm 2016

1


LỜI NĨI ĐẦU
Trong những năm gần đây, cơng nghệ kho dữ liệu ra đời đáp ứng được nhu cầu quản lý,
lưu trữ thơng tin có khối lượng lớn và có khả năng khai thác dữ liệu đa chiều và theo
chiều sâu nhằm hỗ trợ việc ra quyết định của các nhà quản lý.
Đối với các doanh nghiệp nước ngoài, họ đã áp dụng kho dữ liệu trong quản lý phân tích
dữ liệu và đã cho thấy hiệu quả to lớn giúp ích cho việc hoạch định các chiến lược kinh
doanh cũng như nghiên cứu phát triển các ứng dụng phân tích dữ liệu.
Thơng qua mơn học Kho dữ liệu và Olap và các môn học khác mà các thầy cô khoa Hệ
Thống Thông Tin đã truyền đạt kiến thức, giúap chúng em bắt tay vào việc xây dựng đồ
án Xây dựng kho dữ liệu Olap và thực hiện Data mining.


Bằng cách vận dụng những nền tảng kiến thức đã học được cùng với thái độ học tập
nghiêm túc của mình, chúng em mong muốn đồ án đạt được kết quả tốt.
Chúng em rất chân thành cảm ơn Cô Ths Nguyễn Thị Kim Phụng đã tận tình giảng dạy
và giúp chúng em thực hiện đồ án này.
Do thời gian có hạn, đồ án tìm hiểu khó tránh khỏi những thiếu sót, kính mong sự thơng
cảm và góp ý chân thành của cô.

2


NHẬN XÉT CỦA GIẢNG VIÊN
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................

.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................
.............................................................................................................................................................................

3


MỤC LỤC
LỜI NĨI ĐẦU................................................................................................................................2
I.

MƠ TẢ BÀI TỐN...............................................................................................................6
1. Nguồn gốc dữ liệu...............................................................................................................6
2. Mơ tả thuộc tính..................................................................................................................6

II. SSIS.........................................................................................................................................7
1. Phân tích dữ liệu.................................................................................................................7


Mơ hình dữ liệu...............................................................................................................8



Bảng fact..........................................................................................................................9




Bảng Dim_Organization...............................................................................................10



Bảng Dim_Department.................................................................................................10



Bảng Dim_Union...........................................................................................................10



Bảng Dim_Job_Family.................................................................................................10



Bảng Dim_Job...............................................................................................................10



Bảng Dim_Year.............................................................................................................10



Bảng Dim_Year_Type...................................................................................................11



Mô tả dữ liệu mức vật lý...............................................................................................11


2. Các bước thực hiện...........................................................................................................11
Bước 1: Tạo mới một Database..........................................................................................12
Bước 2: Tạo project mới trong cơng cụ SQL Data Tool, thực hiện q trình SSIS.......14
Bước 3: Tạo Data Flow Task, các nguồn dữ liệu (Excel Source), các OLDB Destination
thiết lập các bảng để đổ dữ liệu vào...................................................................................14
Bước 4: Thực hiện quá trình đổ dữ liệu............................................................................20
III.

SSAS...................................................................................................................................23

1. Mô tả cube xây dựng measure.........................................................................................23
Bước 1: Tạo project thực hiện tạo các data Source, Data source view...........................24
Bước 2: Tạo Cube, chọn các trường cần thiết để thực hiện các measure.......................29
4


Bước 3: Thực hiện một số truy vấn sau khi đã tạo cube và định nghĩa các measure....38
2. Các câu truy vấn MDX.....................................................................................................39
3. So sánh một số kết quả thực hiện các câu truy vấn MDX và trên PIVOT TABLE....51
4. Báo biểu và các bước tạo báo biểu (SSRS).....................................................................56
IV.

DATA MINING.................................................................................................................69

1. Mơ tả dữ liệu.....................................................................................................................69
2. Mục đích Data Mining......................................................................................................70
3. Các bước thực hiện...........................................................................................................70
Bước 1: Tạo mới database, import dữ liệu từ file excel...................................................70
Bước 2: Tạo mới project, tạo data source, tạo Data source View....................................74

Bước 3: Tạo mining Structure (chọn thuật toán Decision –Cây quyết định )................81
Bước 4: Thực thi process, hiển thị kết quả........................................................................83
4. Rút ra luật.........................................................................................................................85
V.

Bảng phân công công việc...................................................................................................87

5


I.

MƠ TẢ BÀI TỐN
1. Nguồn gốc dữ liệu
-

Tên dữ liệu: Employee Compensaton(tiền bồi thường cho người lao động)
Dữ liệu được lấy tại: />
-

File tải về có dạng:

2. Mơ tả thuộc tính
Tên thuộc tính
Year_Type

Kiểu dữ liệu
Nvarchar(255)

Ý nghĩa

Năm được tính theo 2 loại là năm bình
thường từ (t1 đến t12) và năm tài chính

Year
Organization_Group_Code
Organization_Group
Department_Code
Department
Union_Code
Union
Job_Family_Code
Job_Family
Job_Code

Nvarchar(255)
Float
Nvarchar(255)
Nvarchar(255)
Nvarchar(255)
Float
Nvarchar(255)
Float
Nvarchar(255)
Float
6

từ t9 năm nay đến tháng 10 năm sau
Năm
Mã tập đồn
Tên tập đồn

Mã phịng ban
Tên phịng ban
Mã cơng đồn(đại diện quyền lợi cho
người lao động)
Tên cơng đồn
Mã của nhóm cơng việc
Tên nhóm cơng việc
Mã của cơng việc


Job
Employee_Identifier
Salaries
Overtime
Other_Salaries

Nvarchar(255)
Float
Float
Float
Float

Total_Salary

Float

Retirement
Heath_Dental

Float

Float

Other_Benefits

Float

Total_Benefits

Float

Total_Compensation

II.

Tên công việc
Mã để nhận dạng nhân viên
Tiền lương cứng
Tiền lương tăng ca
Các khoản lương khác
Tổng tiền lương
(Overtime+Salaries,Other Salaries)
Tiền hưu
Tiền bảo hiểm y tế
Tiền trợ cấp khác (bảo hiểm thất nghiệp,
an sinh xã hội…)
Tổng tiền trợ cấp
(Retirement+ Heath_Dental+
Other_Benefits)
Tổngtiềnbồithường(Total_Salary +


Float

Total_Benneffits)

SSIS
1. Phân tích dữ liệu
-

Từ dữ liệu có được, nhóm đã phân tích thành 7 bảng dim gồm:
 Dim_Organization: Bảng chứa thơng tin mã các tập đoàn và tên tập
đoàn tương ứng với mã .
 Dim_Department: Bảng chứa thơng tin mã phịng ban và tên phịng ban.
 Dim_Union: Bảng chứa thơng tin mã cơng đồn và tên cơng đồn
 Dim_Job_Family: Bảng chứa thơng tin mã nhóm cơng việc và tên tương

-

ứng.
 Dim_Job:Bảng chứa thông tin mã công việc và tên công việc
 Dim_Year: Bảng chứa thông tin các năm.
 Dim_Year_Type: Bảng chứa thông tinloại năm(Calendar hay Fiscal).
Và 1 bảng fact chứa các thơng tin gồm:mã tập đồn,mã phịng ban,mã cơng
đồn,năm ,loại năm, mã nhóm cơng việc ,mã cơng việc,lương cứng,lương
ngồi giờ,các lương khác,tổng tiền lường,tiền hưu,tiền bảo hiểm,các khoản
trợ cấp khác,tổng tiền trợ cấp và tổng tiền bồi thường.

 Mơ hình dữ liệu

7



 Bảng fact
Thuộc tính
Id
Job_Code
Organization_Group_Cod
e
Department_Code
Union_Code
Job_Family_Code
Year_Type
YearID
Salaries
Overtime
Other_Salaries
Total_Salary
Retirement

Kiểu dữ liệu
Int
Float
Float
nvarchar(255)
Float
Float
Nvarchar(255)
Int
Float
Float
Float

Float
Float
8

Ràng buộc
Khóa chính
Khóa ngoại
Khóa ngoại
Khóa ngoại
Khóa ngoại
Khóa ngoại
Khóa ngoại
Khóa ngoại
Null
Null
Null
Null
Null


Heath_Dental
Other_Benefits
Total_Benefits
Total_Compensation

Float
Float
Float
Float


Null
Null
Null
Null

9


 Bảng Dim_Organization
Thuộc tính
Organization_Group_Code
Organization_Group_Nam

Kiểu dữ liệu
float
nvarchar(255)

e

Ràng buộc
Khóa chính
Null

 Bảng Dim_Department
Thuộc tính
Department_Code
Department_Name

Kiểu dữ liệu
nvarchar(255)

nvarchar(255)

Ràng buộc
Khóa chính
Null

 Bảng Dim_Union
Thuộc tính
Union_Code
Union_Name

Kiểu dữ liệu
float
nvarchar(255)

Ràng buộc
Khóa chính
Null

 Bảng Dim_Job_Family
Thuộc tính
Job_Family_Code
Job_Family_Name

Kiểu dữ liệu
float
nvarchar(255)

Ràng buộc
Khóa chính

Null

Kiểu dữ liệu
float
nvarchar(255)

Ràng buộc
Khóa chính
Null

Thuộc tính
Kiểu dữ liệu
YearID
Int
 Bảng Dim_Year_Type

Ràng buộc
Khóa chính

Thuộc tính
Year_Type

Ràng buộc
Khóa chính

 Bảng Dim_Job
Thuộc tính
Job_Code
Job_Name
 Bảng Dim_Year


Kiểu dữ liệu
nvarchar(255)

 Mô tả dữ liệu mức vật lý
- Fact(Id, Organization_Group_Code, Department_Code, Union_Code,
Job_Family_Code, Job_Code, Year_Type, YearID,Salaries, Overtime,
10


Other_Salaries,Total_Salary, Retirement, Heath_Dental, Other_Benefits,
Total_Benefits, Total_Compensation): Lưu trữ các thông tin là khóa
chính của các bảng Dimenstion, ngồi ra cịn có lương, tổng lương và
-

trợ cấp,trợ cấp khác,tổng bồi thường….
Dim_Organization(Organization_Group_Code,Organization_Group_N

-

ame ): Lưu trữ thơng tin mã tập đồn và tên tập đồn.
Dim_Department (Department_Code ,Department_Name): Lưu trữ

-

thơng tin mã phịng ban và tên phịng ban.
Dim_Union (Union_Code,Union_Name): Lưu trữ thơng tin mã cơng

-


đồn và tên cơng đồn.
Dim_Job_Family (Job_Family_Code,Job_Family_Name): Lưu trữ

-

thơng tin mã nhóm cơng việc và tên nhóm cơng việc.
Dim_Job (Job_Code,Job_ Name): Lưu trữ thông tin mã công việc và

-

tên công việc.
Dim_Year (YearID): Lưu trữ thông tin năm.
Dim_Year_Type (Year_Type,): Lưu trữ thông tin loại năm, có 2 cách
tính năm là năm bình thường(calendar) và năm tài chính(Fiscal).

2. Các bước thực hiện
Gồm có 4 bước mà nhóm đã chia ra thực hiện:
-

Bước 1: Tạo mới một Database để lưu trữ dữ liệu khi đổ vào.
Bước 2: Tạo project mới trong công cụ SQL Data Tool, thực hiện quá trình

-

SSIS.
Bước 3: Tạo các Data Flow Task, các nguồn dữ liệu (Excel Source), các

OLE DB Destination thiết lập các bảng để đổ dữ liệu vào.
- Bước 4: Thực hiện quá trình đổ dữ liệu.
 Quá trình thực hiện các bước:

Bước 1: Tạo mới một Database.
- Mở công cụ SQL Server (2012), click chuột phải vào phần Database ở
thanh Object Explorer chọn New Database…

11


12


-

Hộp thoại New Database xuất hiện, tiến hành đặt tên cho database ở
khung Database nam: và chọn OK

13


Bước 2: Tạo project mới trong công cụ SQL Data Tool, thực hiện q
trình SSIS.
- Mở cơng cụ SQL Data Tool, chọn new project và chọn Integeration
Services Project sau đó đặt tên cho project ở khung Name, chọn địa chỉ
lưu ở khung Location sau đó click OK.

Bước 3: Tạo Data Flow Task, các nguồn dữ liệu (Excel Source), các
OLDB Destination thiết lập các bảng để đổ dữ liệu vào.
- Ở thanh Toolbox click double vào Data Flow Task

14



-

Tiếp theo click double vào biểu tượng Data Flow Task vừa hiện ở tab
Package.dtsx [Design], ứng dụng sẽ chuyển qua phần Data Flow, ở
đây kéo vào Excel Source ở khung Toolbox để xác định nguồn dữ liệu
đổ vào và kéo OLE DB Destinationở khung Toolbox vào để xác định
nơi dữ liệu lưu trữ.Tiến hành đổi tên sao cho phù hợp.

15


-

Sau khi đổi tên, click double vào biểu tượng Excel Source ở tab Data
Flow để thực hiện chọn nguồn dữ liệu. Khi hộp thoại Excel Source
Editor xuất hiện, chọn New -> hộp thoạt Excel Connection Manager
xuất hiện -> chọn Browse và trỏ đường dẫn đến file dữ liệu ->OK. Sau
khi đã chọn được file dữ liệu nguồn, tiếp theo ở phần Name of Excel
sheet ta chọn bảng dữ liệu cần thiết để đổ vào.

16


-

Ngồi ra cịn có thể tùy chọn các cột dữ liệu trong bảng cần thiết để đổ
vào bằng cách chọn Columns (ở khung bên trái) sau đó chọn hoặc bỏ đi
các cột không cần thiết. Chọn OK.
17



-

Tiếp theo kéo mũi tên màu xanh nước biển từ biểu tượng Excel Source
đến OLEDB Destination để tạo liên kết. Sau đó click double vào biểu
tượng OLE DB Destination ở tab Data Flow để tạo các bảng dim, fact
chứa dữ liệu đổ vào. Khi hộp thoại OLE DB Destination xuất hiện, ở
dòng OLE DB connection manager chọn New để tạo mới một liên kết
đến database đã tạo trong SQL Server trước đó, hộp thoại Configure
OLE DB Connect Manager xuất hiện chọn New.

-

Ở bảng Connect Manager chọn các thông tin cần thiết để kết nối như
Server name, Use SQL Server Authentication và chon tên database

-

sau đó chọn OK.
Sau đó ở hộp thoại OLE DB Destination, dòng Name of the table or
view chọn New, hộp thoại Create Table xuất hiện, chỉnh các các thông
tin cần thiết và click OK để tạo bảng, ở đây là khởi tạo các bảng dim,
fact để lưu dữ liệu từ nguồn khi đổ vào database đã tạo trước đó.

18


- Tiếp theo ở khung bên trái chọn Mappings để xem việc liên kết các
thuộc tính giữa bảng nguồn và bảng chứa dữ liệu đổ vào để có thể chỉnh

sửa nếu chưa đúng.

19


-

Sau đó click OK.

-

Với các bảng cịn lại ta thực hiện tương tự như các bước ở trên.

Bước 4: Thực hiện quá trình đổ dữ liệu.
-

Sau khi đã tạo các bảng nguồn và bảng chứa dữ liệu hoàn tất, nhấn F5
để công cụ tiến hành đổ dữ liệu vào.

20


-

Sau khi q trình đổ thành cơng sẽ có kết quả thơng báo như trên.

-

Các bảng mới sẽ có trong database mới tạo


-

Và sau khi tạo các khóa ngoại cho các bảng ta sẽ có bộ dữ liệu sau khi
xây dựng
21


22


III. SSAS
1. Mơ tả cube xây dựng measure
Gồm có 4 bước mà nhóm đã chia ra thực hiện:
-

Bước 1: Tạo project thực hiện tạo các data Source, Data source view
Bước 2: Tạo Cube, chọn các trường cần thiết để thực hiện các measure
Bước 3: Thực hiện một số truy vấn sau khi đã tạo cube và định nghĩa các

measure.
 Quá trình thực hiện các bước:

23


Bước 1: Tạo project thực hiện tạo các data Source,Data source view
a. Tạo Data Source
- Tạo mới project. Chọn Business Intelligence -> Analysis Services
-> Analysis Services Multidimensional and Data Mining Project.
Đặt tên project và chọn OK (như trong hình).


-

Chuột phải vào Data Sources chọn New Data Source.. để kết nối
với dữ liệu trên SQL.

24


-

Xuất hiện bảng Data Source Wizard chọn New để tạo mới một kết
nối đến dữ liệu trong SQL.

-

Xuất hiện bảng Connect Manager
25


×