Tải bản đầy đủ (.docx) (52 trang)

Báo cáo bài tập lớn KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.32 MB, 52 trang )

Học viện Cơng nghệ Bưu chính Viễn thơng
Khoa Cơng Nghệ Thơng Tin

BÁO CÁO BÀI TẬP LỚN
MƠN HỌC: KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Nhóm 02
Đề tài: KHO DỮ LIỆU
Giảng Viên Hướng Dẫn: Ths.Nguyễn Quỳnh Chi
Sinh viên thực hiện:


Đỗ Đình Nam - B17DCCN434



Nguyễn Văn Đức - B17DCCN145



Lê Quang Anh - B17DCCN017



Nguyễn Tiến Anh - B17DCCN037



Hồng Hiệp - B17DCCN218
Hà Nội 2021



Page | 2

Trang 2


MỤC LỤC

Page | 3

Trang 3


CHƯƠNG 1. GIỚI THIỆU
Tên đề tài : “Thiết kế và triển khai kho dữ liệu cho hệ thống xử lý đơn
hàng của khách hàng trong một công ty sử dụng MS SQL Server”
Hệ thống kho dữ liệu của chúng tôi là một doanh nghiệp bao gồm một số
cửa hàng nằm ở các thành phố và tiểu bang khác nhau. Mỗi cửa hàng có nhiều mặt
hàng với số lượng khác nhau. Ngồi ra, doanh nghiệp giữ thơng tin của khách
hàng. Có hai loại khách hàng: đi bộ hướng dẫn du lịch và đặt hàng qua thư theo địa
chỉ. Vị trí của thành phố của khách hàng, cùng với dữ liệu theo thứ tự đầu tiên của
khách hàng, được lưu trữ bởi hệ thống hiện có. Mỗi khách hàng chỉ sống ở một
thành phố và doanh nghiệp đó sẽ cố gắng đáp ứng các mặt hàng trong đơn hàng
của khách bằng cách lấy từ kho ở thành phố mà khách hàng đó sinh sống. Mỗi đơn
đặt hàng của khách có thể đặt thoải mái về số lượng và số các mặt hàng và mỗi đơn
đặt hàng được xác định bởi một mã số đơn đặt hàng
Vị trí của cửa hàng cũng được ghi lại. Mỗi cửa hàng nằm ở một thành phố,
và có thể có nhiều cửa hàng trong thành phố. Mỗi thành phố có một trụ sở chính để
điều phối tất cả các cửa hàng của mình.
1.1Mục tiêu
Mục tiêu của chương trình là xử lý, tích hợp, triển khai thành cơng kho dữ liệu

phục vụ việc đọc, tra cứu và lưu trữ dữ liệu lâu dài, đưa ra được các báo cáo, phân
tích, đánh giá từ dữ liệu của kho giúp nhà đầu tư dễ dàng hơn.
- Cụ thể, chương trình phải thực hiện được các cơng việc chính sau:
 Phải có khả năng đáp ứng mọi u cầu về thơng tin của khách hàng.
 Tích hợp các lược đồ, dữ liệu từ nhiều nguồn.
 Thiết kế kho dữ liệu.
 Tiến hành đổ dữ liệu từ nhiều nguồn khác nhau để có được dữ liệu
đích
 Xử lý phân tích trực tuyến (OLAP)

Page | 4

Trang 4


 Đưa ra các báo cao, phân tích dữ liệu từ OLAP phục vụ việc ra quyết
định của công ty .
 Hỗ trợ để các nhân viên của tổ chức thực hiện tốt, hiệu quả cơng việc
của mình, như có những quyết định hợp lý, nhanh và bán được nhiều
hàng hơn, năng suất cao hơn, thu được lợi nhuận cao hơn, v.v.
 Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau
 Đồng bộ hoá các nguồn dữ liệu với kho dữ liệu.
 Cung cấp thông tin được tích hợp, tóm tắt hoặc được liên kết, tổ chức
theo các chủ đề
1.2 Phạm vi
• Quản lý, lưu trữ dữ liệu kinh doanh tại nhiều cửa hàng, thành phố và các
bang của một cơng ty
• Sử dụng kĩ thuật OLAP để xây dựng khối dữ liệu phân tích sản lượng hàng
hóa, khách hàng,…với số lượng lớn của doanh nghiệp theo hướng đa chiều.
• Hỗ trợ việc ra quyết định quản lý kinh doanh tại các cửa hàng của doanh

nghiệp.
• Khơng sử dụng để phân tích dữ liệu theo thời gian thực ( chỉ phân tích dữ
liệu theo các q, các tháng, các năm )
• Dữ liệu phân tích phải đủ lớn

Page | 5

Trang 5


CHƯƠNG 2. YÊU CẦU NGHIỆP VỤ
Để đáp ứng được nhu cầu của khách hàng, hệ thống kho dữ liệu trích lọc dữ
liệu từ hai cơ sở dữ liệu hiện có để cho vào kho dữ liệu và cung cấp các xử lý phân
tích trực tuyến với các thao tác cuộn lên, khoan xuống, chọn và chiếu dựa trên
những yêu cầu chọn lựa của khách hàng và các bảng theo chiều để đáp ứng yêu cầu
của người sử dụng.
Thiết lập một chiều thời gian, hệ thống sẽ sinh một báo cáo Phân tích trực
tuyến cho những u cầu sau:
1. Tìm tất cả các cửa hàng cùng với thành phố, bang, số điện thoại, mơ tả, kích
cỡ, trọng lượng và đơn giá của tất cả các mặt hàng được bán ở kho đó.
2. Tìm tất cả các đơn đặt hàng với tên khách hàng và ngày đặt hàng được thực
hiện bởi khách hàng đó
3. Tìm tất cả các cửa hàng cùng với tên thành phố và số điện thoại mà có bán
các mặt hàng được đặt bởi một khách hàng nào đó
4. Tìm địa chỉ văn phịng đại diện với tên thành phố, bang của tất cả các cửa
hàng lưu kho một mặt hàng nào đó với số lượng trên mức cụ thể.
5. Với mỗi một đơn đặt hàng của khách, liệt kê các mặt hàng được đặt cùng với
mô tả, mã cửa hàng, tên thành phố và các cửa hàng có bán mặt hàng đó.
6. Tìm thành phố và bang mà một khách hàng nào đó sinh sống
7. Tìm mức độ tồn kho của một mặt hàng cụ thể tại tất cả các cửa hàng ở một

thành phố cụ thể nào đó
8. Tìm các mặt hàng, số lượng đặt, khách hàng, cửa hàng và thành phố của một
đơn đặt hàng.
9. Tìm các khách hàng du lịch, khách hàng đặt theo đường bưu điện và khách
hàng thuộc cả hai loại

Page | 6

Trang 6


CHƯƠNG 3. ĐẶC TẢ CHỨC NĂNG
3.1 Đặc điểm đầu vào
• Kho dữ liệu là cơ sở dữ liệu rất lớn, hướng về tính ổn định. Kho dữ liệu có
sẽ được lấy thông tin từ các nguồn khác nhau như: Oracle, MS SQL server...
• Headquarter Database : dữ liệu của mỗi cửa hàng đầu não ở mỗi thành phố
• Sales Databases: dữ liệu bán hàng (mặt hàng, đơn hàng, …)
• Dữ liệu từ nhiều nguồn khác nhau có thể được lưu trữ ở các định dạng khác
nhau,có thể gây xung đột.
3.2 Đặc điểm đầu ra
• Hệ thống kho dữ liệu trích lọc dữ liệu từ hai cơ sở dữ liệu hiện có để cho vào
kho dữ liệu và cung cấp các xử lý phân tích trực tuyến với các thao tác roll
up, drill down, slice và dice dựa trên những yêu cầu của người sử dụng đê
hỗ trợ người sử dụng đưa ra quyết định.
• Dữ liệu từ nhiều nguồn được tích hợp, giải quyết các xung đột để có được
tính thống nhất, đúng đắn về định dạng.
• Dữ liệu đầu ra của kho dữ liệu là có thể dư thừa.

Page | 7


Trang 7


CHƯƠNG 4. THIẾT KẾ KHO DỮ LIỆU
4.1 Chuyển đổi lược đồ dữ liệu giữa các mơ hình
Bảng phân loại các quan hệ và các thuộc tính:
Bảng 4. 1 Bảng phân loại các quan hệ và các thuộc tính
Quan hệ

Loại
quan
hệ

PR

KAP

KAG

FKA

NKA

KhachHang

PR1

MaKH

KhachHangDL


PR2

MaKH

MaKH

HDVDL, ThoiGian

KhachHangBD

PR2

MaKH

MaKH

DiaChiBD, ThoiGian

VanPhongDD

PR1

MaTP

CuaHang

PR1

MaCuaHang


MatHang

PR1

MaMH

MoTa, KichThuoc,
TrongLuong, Gia,
ThoiGian

DonHang

PR1

MaDon

NgayDH, MaKH

MatHangDD

SR1

MaDon, MaMH

MaDon,
MaMH

SoLuongDat, GiaDat,
ThoiGian


MatHangLuuTru

SR1

MaMH,
MaCuaHang

MaMH,
MaCuaHang

SoLuongTrongKho,
ThoiGian

Ánh xạ PR1 thành thực thể:
Page | 8

KhachHang


MaKH
Trang 8
• TenKH

TenKH, MaTP,
NgayDHDT

TenTP, DiaChiVP,
Bang, ThoiGian
MaT

P

SDT, ThoiGian


VanPhongDD

DonHang

CuaHang



MaTP



MaCuaHang



TenTP



MaTP

MatHang




MaDon



MaMH



NgayDH



MoTa



KichThuoc

Ánh xạ PR2 sang thực thể yếu:

Hình 4. 1 Anh xạ loại quan hệ PR2 sang thực thể yếu thực thể Khách Hàng và thực
thể Khách Hàng Du Lịch

Page | 9

Trang 9


Hình 4. 2 Anh xạ loại quan hệ PR2 sang thực thể yếu thực thể Khách Hàng và thực

thể Khách Hàng Du Lịch

Anh xạ SR1 thành quan hệ 2 ngôi hoặc nhiều ngơi

Hình 4. 3 Anh xạ SR1 thành quan hệ 2 ngôi hoặc nhiều ngôi thực thể Cửa Hàng và
thực thể Mặt Hàng

Page | 10

Trang 10


Hình 4. 4 Anh xạ SR1 thành quan hệ 2 ngôi hoặc nhiều ngôi thực thể Đơn Hàng và
thực thể Mặt Hàng

Ánh xạ mỗi FKA thành một quan hệ:

Hình 4. 5 Ánh xạ mỗi FKA thành một quan hệ thực thể Văn Phòng Đại Diện và thực
thể Cửa Hàng

Ánh xạ phụ thuộc bao hàm sang ngữ nghĩa:
Bảng 4. 2 Anh xạ phụ thuộc bao hàm sang ngữ nghĩa
Các phụ thuộc bao hàm phái sinh
CuaHang.MaTP

VanPhongDD.MaTP

MatHangLuuTru.MaMH

CuaHang.MaMH


MatHangLuuTru.MaMH

MatHang.MaMH

MatHangDD.MaMH
Page | 11

Trang 11

MatHang.MaMH

Ngữ nghĩa suy ra
Quan hệ nhiều-1 giữa Cửa Hàng và Văn
Phòng Đại Diện
Quan hệ n-n giứa Cửa Hàng và Mặt Hàng

Quan hệ n-n giưa Mặt Hàng và Đơn Hàng


MatHangDD.MaDon

DonHang.MaDon

Từ kết quả của 7 bước trên ta thu được mơ hình EER như hình vẽ dưới đây:

Lược đồ EER thực thể Khách Hàng, Khách Hàng Du Lịch, Khách Hàng Bưu Điện

Page | 12


Trang 12


Lược đồ EER thực thể Văn Phòng Đại Diện, Cửa Hàng, Mặt Hàng, Đơn Hàng

4.2 Tích hợp lược đồ dữ liệu
Xử lý xung đột đồng âm:
MatHangDuocDat : ThoiGian -> ThoiGian_DatHang
MatHangLuuTru

: ThoiGian -> ThoiGian_Them_MatHang

CuaHang

: ThoiGian -> ThoiGian_BatDau

KhachHangDL: ThoiGian ThoiGian_DatHangGanNhat
KhachHangBD: ThoiGian -> ThoiGian_DatHangGanNhat
MatHang: ThoiGian -> Ngay_Nhap
VanPhongDaiDien: ThoiGian -> ThoiGian_ThanhLap
Trộn thực thể
Page | 13

Trang 13

:


Hình 4. 6


Vì MaTP xuất hiện trong KhachHang và VanPhongDD nên :

Hình 4. 7

MaKH xuất hiện trong KhachHang và DonHang nên :

Cuối cùng ta có một mơ hình EER như hình vẽ dưới đây:

Page | 14

Trang 14


4.3 Tạo cơ sở dữ liệu đích
Lược đồ quan hệ:

Page | 15

Trang 15


Hình 4. 8 Bảng dữ liệu quan hệ giữa các thực thể

Page | 16

Trang 16


4.4 Dữ liệu
Sinh dữ liệu: - Sử dụng file data có sẵn trên mạng. Q trình ETL sử dụng

SSIS của Visual Studio. Dữ liệu các bảng sau khi sinh
Dữ liệu các bảng sau khi sinh:
VanPhongDaiDien: 3 bản ghi

Hình 5. 1 Dữ liệu thực thể Văn Phòng Đại Diện

KhachHang: 1188 bản ghi

Hình 5. 2 Dữ liệu thực thể Khách Hàng

Page | 17

Trang 17


MatHang: 1187 bản ghi

Hình 5. 3 Dữ liệu thực thể Mặt Hàng

Page | 18

Trang 18


DonDatHang: 1024 bản ghi

Hình 5. 5 Dữ liệu thực thể Đơn Đặt Hàng

Page | 19


Trang 19


MatHangDuocDat: 79185 Bản ghi

Hình 5. 6 Dữ liệu thực thể Mặt Hàng Được Đặt

Page | 20

Trang 20


MatHangDuocLuuTru: 1633 bản ghi

Hình 5. 7 Dữ liệu thực thể Mặt Hàng Lưu Trữ

Page | 21

Trang 21


CuaHang: 3 bản ghi

Hình 5. 8 Dữ liệu thực thể Cửa Hàng

Page | 22

Trang 22



DimensionTimes: 1095 bản ghi (Bản ghi cho 3 năm 2018, 2019, 2020)

Page | 23

Trang 23


4.5 Lược đồ hình sao
Đặt hàng (lược đồ hình bơng tuyết):



Bảng fact:

Page | 24

Trang 24


o





Fact_MatHangDuocDat: Bảng này chứa các tham chiếu đến các bảng
chiều: thời gian, mặt hàng, đơn đặt hàng. Đồng thời khóa chính của
Fact_MatHangDuocDat là một ID mới.
Độ đo:
o

Số lượng: tổng số hàng hóa đã bán của một mặt hàng tại một Văn phòng
đại diện (Thành phố) cho một khách hàng trong thời gian một tháng.
o
Tổng tiền: tổng doanh thu của một Mặt hàng tại một Văn phòng đại diện
(Thành phố) cho một khách hàng trong thời gian một tháng.
Bảng chiều:
o
Dim_Times: Thuộc tính khóa chính là DateKey, các thuộc tính cịn lại là
ngày, tháng, quý, năm. Bảng thể hiện thời gian mà độ đo ở bảng fact được tính
tốn.
o
Dim_MatHang: Là bảng lưu trữ các mặt hàng đã được bán. Thuộc tính
khóa chính là MaMH, các thuộc tính cịn lại là mơ tả, kích thước, trọng lượng,
giá, thời gian là các thuộc tính mô tả cho sản phẩm.
o
Dim_DonDatHang: Là bảng lưu trữ các đơn đặt hàng. Thuộc tính khóa
chính là MaDon, các thuộc tính cịn lại là MaMH, Ngày đặt hàng là các thuộc
tính mơ tả cho đơn đặt hàng.
o
Dim_KhachHang: Là bảng lưu trữ danh sách khách hàng. Thuộc tính khóa
chính là MaKH, tên khách hàng là TenKH, MaTP là văn phòng đại diện mà
khách hàng này đăng kí. Là chiều thứ cấp.
o
Dim_VanPhongDaiDien: Là bảng lưu trữ các văn phịng đại diện. Thuộc
tính khóa chính là MaTP, các thuộc tính cịn lại là TenTP, địa chỉ, bang, thời gian
thành lập là các thuộc tính mơ tả cho văn phịng đại diện. Là chiều thứ cấp.

Page | 25

Trang 25



×