Tải bản đầy đủ (.docx) (27 trang)

Kho dữ liệu và khai phá dữ liệu data mining

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (981.64 KB, 27 trang )

Kho dữ liệu và khai phá dữ liệu

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
----------

BÁO CÁO MÔN HỌC
KHO DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU
Đề tài : Kho dữ liệu

Giảng Viên:

NGUYỄN QUỲNH CHI

Nhóm: 10
Thành viên :

1

Nguyễn Thị Hương

B12DCCN172

Lê Thị Hằng

B12DCCN163


Kho dữ liệu và khai phá dữ liệu

Mục Lục


Lời nói đầu
Đến nay những hệ thống cơ sở dữ liệu đã có mặt tại hầu hết các hoạt động
kinh tế xã hội. Cùng với sự phát triển của công nghệ phần cứng như vi xử
lý tốc độ cao, ổ đĩa với dung lượng lưu trữ lớn, khả năng sao lưu thì dữ liệu
của các tổ chức, doanh nghiệp trong quá trình hoạt động đã được cập nhật
và lưu giữ một cách đầy đủ. Cùng với sự đa dạng hoạt động hàng ngày của
phòng ban, nhân sự cũng như với các đối tác bên ngoài, dữ liệu nghiệp vụ
của tổ chức ngày càng trở nên khổng lồ. Dữ liệu có thể là tệp phẳng( không
có cấu trúc ) như hình ảnh, văn bản đến dữ liệu có cấu trúc được lưu giữ tại
các hệ quản trị CSDL. Một hãng bán lẻ phải xử lý hàng chục triệu giao
dịch mỗi ngày. Dữ liệu ngày qua ngày được tích lũy thay thế dần các hoạt
động giấy tờ. Người ta có thể truy cập dữ liệu mình cần một cách nhanh
chóng bằng các phép tìm kiếm hay thông qua sơ đồ thư mục lưu trữ trên hệ
điều hành. Với các công nghệ hiện đại đã và đang đáp ứng tốt một giai
đoạn yêu cầu của người dùng. Data warehouse, một công nghệ mới ra đời
vào khoảng đầu những năm 90 đã được đón nhận và đưa vào thực tiễn. Tại
2


Kho dữ liệu và khai phá dữ liệu

Việt Nam, khái niệm và công nghệ này đã được làm quen cách đây cũng
được khoảng 5 năm nhưng trên thực tế chúng hầu như chưa được quan tâm
và ứng dụng một cách hiệu quả. Điều này cũng bắt nguồn từ nhu cầu quản
lý trong một thế giới cạnh tranh chưa gay gắt, trình độ quản lý không cao.
Nắm được điều trên, một công ty bán lẻ đã lập ra kế hoạch thiết kế một
kho dữ liệu( data warehouse) để giao dịch cũng như quản lý hàng hóa được
thuận tiện hơn.
I.
1.


Giới thiệu
Mục tiêu
Mục tiêu của bài toán là xây dựng kho dữ liệu tích hợp các dữ liệu của
doanh nghiệp dùng cho phân tích các bài toán kinh doanh để đảm bảo các
tiêu chí:
− Xử lý đặt hàng của khách hàng của doanh nghiệp.
− Đáp ứng đầy đủ các yêu cầu của khách hàng từ những cửa hàng nằm
trong thành phố mà khách hàng sinh sống. Nếu những yêu cầu đó
không thể đáp ứng thì công ty sẽ chuyển yêu cầu tới các thành phố khi
đến khi mặt hàng có đủ để cung cấp.
− Nâng cao chất lượng kinh doanh hiện doanh nghiệp đang cung cấp.
− Đo lường được sự hiệu quả của các đợt quảng cáo, khuyến mại.
− Đặc biệt xác định được tương đối chính xác thị phần của đối thủ cạnh
tranh.
− Hỗ trợ để các nhân viên thực hiện tốt, hiệu quả công việc của mình,
như có những quyết định hợp lý, nhanh và bán được nhiều hàng hơn,
năng suất cao hơn, thu được lợi nhuận cao hơn v.v.
− Kiểm soát được tình hình, số lượng các mặt hàng, cửa hàng và khách
hàng.

2.

Phạm vi của bài tập lớn
• Quản lý việc kinh doanh của một doanh nghiệp gồm nhiều cửa hàng
nằm rải rác ở nhiều thành phố và bang khác nhau nhằm đáp ứng được
nhu cầu của khách hàng.
• Nguồn dữ liệu của hệ thống cơ sở dữ liệu quan hệ hiện tại của doanh
nghiệp.
• Ứng dụng kỹ thuật OLAP để xây dựng khối dữ liệu phân tích sản

lượng hàng hóa, khách hàng …của doanh nghiệp theo hướng đa chiều.

3


Kho dữ liệu và khai phá dữ liệu
II.

Yêu cầu nghiệp vụ
Các đặc tả ứng dụng của kho dữ liệu cho người sử dụng:

1. Tìm tất cả các cửa hàng cùng với thành phố, bang, số điện thoại, mô tả, kích cỡ,

trọng lượng và đơn giá của tất cả các mặt hàng được bán ở kho đó.
2. Tìm tất cả các đơn đặt hàng với tên khách hàng và ngày đặt hàng được thực hiện
bởi khách hàng đó.
3. Tìm tất cả các cửa hàng cùng với tên thành phố và số điện thoại mà có bán các
mặt hàng được đặt bởi một khách hàng nào đó.
4. Tìm địa chỉ văn phòng đại diện với tên thành phố, bang của tất cả các cửa hàng
lưu kho một mặt hàng nào đó với số lượng trên mức cụ thể.
5. Với mỗi một đơn đặt hàng của khách, liệt kê các mặt hàng được đặt cùng với mô
tả, mã cửa hàng, tên thành phố và các cửa hàng có bán mặt hàng đó.
6. Tìm thành phố và bang mà một khách hàng nào đó sinh sống.
7. Tìm mức độ tồn kho của một mặt hàng cụ thể tại tất cả các cửa hàng ở một thành
phố cụ thể nào đó.
8. Tìm các mặt hàng, số lượng đặt, khách hàng, cửa hàng và thành phố của một
đơn đặt hàng.
9. Tìm các khách hàng du lịch, khách hàng đặt theo đường bưu điện và khách hàng
thuộc cả hai loại.


III.



4

Đặc tả chức năng
− Công cụ sử dụng cho bài tập lớn MS SQL Server và Oracle
− Đặc tả đầu vào đầu ra:
o Đầu vào :
Cơ sở dữ liệu văn phòng đại diện gồm các thông tin của khách hàng.
• Cơ sở dữ liệu văn phòng đại diện gồm: các thông tin của khách
hàng.


Kho dữ liệu và khai phá dữ liệu



o

IV.
A.

Cơ sở dữ liệu bán hàng gồm các thông tin của văn phòng đại diện,
cửa hàng, mặt hàng, đơn hàng, mặt hàng được lưu trong kho và
mặt hàng được đặt.
Phương thức quản lý tại các cửa hàng ,văn phòng đại diện, doanh
nghiệp
Đầu ra của kho dữ liệu là các bảng dữ liệu động để hỗ trợ cho

người sử dụng ra quyết định thực hiện các phép chiếu chọn, các
thao tác cơ bản như cuộn lên, khoan xuống…

Thiết kế kho dữ liệu
Xây dựng mô hình thực thể liên kết mở rộng.
Lược đồ quan hệ của hệ thống cơ sở dữ liệu quan hệ hiện tại của doanh
nghiệp này như sau:
 Cơ sở dữ liệu Văn phòng đại diện bao gồm những quan hệ với các
lược đồ như sau:
Khách hàng (Mã KH, Tên KH, *Mã Thành phố, Ngày đặt hàng đầu tiên)
Khách hàng du lịch (*Mã KH, Hướng dẫn viên du lịch, Thời gian)
Khách hàng bưu điện (* Mã KH, Địa chỉ bưu điện, Thời gian)
 Cơ sở dữ liệu Bán hàng gồm những quan hệ với lược đồ như sau:
Văn phòng đại diện (Mã Thành phố, Tên Thành phố, Địa chỉ VP, Bang, Thời
gian)
Cửa hàng (Mã cửa hàng, * Mã Thành phố, Số điện thoại, Thời gian)
Mặt hàng (Mã MH, Mô tả, Kích cỡ, Trọng lượng, Giá, Thời gian)
Mặt hàng_được lưu trữ (* Mã cửa hàng, *Mã mặt hàng, Số lượng trong kho,
Thời gian)
Đơn đặt hàng (Mã đơn, Ngày đặt hàng, *Mã Khách hàng)
Mặt hàng được đặt (* Mã đơn, * Mã mặt hàng, Số lượng đặt, Giá đặt, Thời
gian)
 Trong đó những thuộc tính được gạch chân là khóa chính và thuộc
tính đánh dấu (*) là khóa ngoại.
1. Xác định kiểu quan hệ, khóa và các trường.

Relation Name
Khách hàng
Khách hàng du lịch
Khách hàng bưu điện

Văn phòng đại diện
Cửa hàng
5

RelType
PR1
PR2
PR2
PR1
PR1

Primary Key
Ma_KH
Ma_KH
Ma_KH
Ma-TP
Ma_CH

FKA
Ma_TP

Ma_TP


Kho dữ liệu và khai phá dữ liệu

Mặt hàng
Mặt hàng được lưu trữ

PR1

SR1

Đơn đặt hàng
Mặt hàng được đặt

PR1
SR1

2.

Ma_CH
Ma_MH
Ma_CH
Ma_Don
Ma_Don
Ma_MH

Ma_KH

Chuyển đổi mỗi PR1 thành một thực thể.

Khách hàng
Ma_KH
Tên KH
Ngày đặt hàng đầu tiên

Văn phòng đại diện
Ma_TP
Tên thành phố
Địa chỉ VP

Bang
Thời gian
Mặt hàng

Cửa hàng
Ma_CH
Số điện thoại
Thời gian
Đơn đặt hàng

Ma_MH
Mô tả
Kích cỡ
Gía
Thời gian

Ma_Don
Ngày đặt hàng
3.

6

Ánh xạ PR2 sang 1 thực thể lớp con hoặc 1 thực thể yếu.


Kho dữ liệu và khai phá dữ liệu

4.

7


Ánh xạ SR1 sang quan hệ 2 ngôi hoặc nhiều ngôi


Kho dữ liệu và khai phá dữ liệu

5.
6.

8

Ánh xạ SR2 sang quan hệ 2 ngôi hoặc nhiều ngôi.
Ánh xạ FKA sang một quan hệ.


Kho dữ liệu và khai phá dữ liệu

9


Kho dữ liệu và khai phá dữ liệu
7.

Ánh xạ ý nghĩa phụ thuộc bao hàm sang ngữ nghĩa.

Các phụ thuộc bao hàm phái sinh
DonDatHang.MaKH⊆KhachHang.MaKH

Ngữ nghĩa suy ra
Quan hệ n-1 giữa thực

thể đơn đặt hàng và
khách hàng
Quan hệ n-m giữa thực
MatHang.MaMH⊇MatHangDuocLT.MaMH
CuaHang.MaCuaHang⊇MatHangDuocLT.MaCuaHang thể Mặt hàng với Cửa
hàng
Quan hệ n-m giữa thực
MatHang.MaMH⊇MatHangDuocDat.MaMH
thể Mặt hàng với Đơn
DonDatHang.MaDon⊇MatHangDuocDat.MaDon
hàng.
KhachHang.MaThanhPho⊆VanPhongDD.MaThanhPho Quan hệ n-1 giữa 2 thưc
thể Khách hàng với Văn
phòng đại diện.
Quan hệ n-1 giữa 2 thưc
CuaHang.MaThanhPho⊆ VanPhongDD.MaThanhPho
thể Cửa hàng với Văn
phòng đại diện.

8.

10

Vẽ lược đồ EER


Kho dữ liệu và khai phá dữ liệu

B.
1.


11

Thiết kế lược đồ hình sao
Lược đồ dải thiên hà


Kho dữ liệu và khai phá dữ liệu

2.

Ngôn ngữ truy vấn khai phá dữ liệu.
Hàm nguyên thủy định nghĩa sơ đồ dải thiên hà :

define cube Sale1 [CuaHang, VPĐD, MatHang]:
SoLuong = count(*)
define dimension MatHang as (Ma_MH, MoTa, KichCo, TrongLuong, Gia)
12


Kho dữ liệu và khai phá dữ liệu

define dimension CuaHang as (Ma_CH, Ma_TP, SĐT)
define dimension VPĐD as (Ma_TP, Ten, Bang,DiaChiVP)

define cube Sale2 [DonBanHang, KhachHang, MatHang,CuaHang]:
SoLuongDat= count(*), TongTien=sum(Gia)
define dimension MatHang as MatHang in cube Sale1
define dimension CuaHang as CuaHang in cube Sale1
define dimension DonBanHang as (Ma_Don,Ma_KH,NgayDatHang)

define dimension KhachHang as( Ma_KH,TenKH,Ma_TP)
3.

Phân cấp
• Chiều dữ liệu VPĐD có một phân cấp là Thành Phố, Bang. Ý nghĩa
của phân cấp này nói rằng một Bang thì có nhiều Thành Phố, và mỗi
Thành Phố sẽ có một VP đại diện. Vì thế nếu biết được số cửa hàng
thuộc mỗi văn phòng đại diện thì sẽ tổng hợp được số cửa hàng của
từng thành phố và của từng Bang .

Bang
Thành Phố
Văn phòng đại diện
4.

13

Các thao tác xử lý phân tích trực tuyến


Kho dữ liệu và khai phá dữ liệu

Mô hình mạng truy vấn :

1.


Tìm tất cả các cửa hàng cùng với thành phố, bang, số điện thoại, mô tả, kích
cỡ, trọng lượng và đơn giá của tất cả các mặt hàng được bán ở kho đó.
Câu truy vấn này lấy dữ liệu theo 3 chiều: Cửa hàng, VPĐD, và Mặt hàng. Ở

chiều Mặt hàng là Mặt hàng lưu trữ. Ở chiều VPĐD là Thành phố, Bang. Ở

2.

chiều Cửa hàng là Cửa hàng chi tiết .
Tìm tất cả các đơn đặt hàng với tên khách hàng và ngày đặt hàng được thực
hiện bởi khách hàng đó

14


Kho dữ liệu và khai phá dữ liệu


Câu truy vấn này lấy dữ liệu theo 2 chiều là : Đơn đặt hàng và Khách hàng.
Ở chiều Đơn đặt hàng là Đơn đặt hàng chi tiết . Ở chiều Khách hàng là

3.

Khách hàng chi tiết .
Tìm tất cả các cửa hàng cùng với tên thành phố và số điện thoại mà có bán



các mặt hàng được đặt bởi một khách hàng nào đó.
Câu truy vấn này lấy dữ liệu theo 4 chiều là : Cửa hàng , VPĐD, Khách
hàng,Mặt hàng.Ở chiều Cửa hàng là Cửa hàng chi tiết.Ở chiều VPĐD là
Thành phố . Ở chiều Khách hàng là Khách hàng chi tiết . Ở chiều Mặt hàng

4.


là Mặt hàng được đặt.
Tìm địa chỉ văn phòng đại diện với tên thành phố, bang của tất cả các cửa



hàng lưu kho một mặt hàng nào đó với số lượng trên mức cụ thể.
Câu truy vấn này lấy dữ liệu theo 3 chiều : VPĐD, Cửa hàng ,Mặt hàng . Ở
chiều VPĐD là Thành phố, Bang. Ở Cửa hàng là Cửa hàng chi tiết. Ở Mặt

5.

hàng là Mặt hàng lưu trữ.
Với mỗi một đơn đặt hàng của khách, liệt kê các mặt hàng được đặt cùng với



mô tả, mã cửa hàng, tên thành phố và các cửa hàng có bán mặt hàng đó.
Câu truy vấn này lấy dữ liệu theo 4 chiều :Đơn đặt hàng , VPĐD, Cửa hàng ,
Mặt hàng. Ở VPĐD là Thành phố . Ở chiều Cửa hàng là Cửa hàng chi tiết.
Ở Mặt hàng là Mặt hàng được đặt. Ở chiều Đơn đặt hàng là Đơn đặt hàng

6.


chi tiết.
Tìm thành phố và bang mà một khách hàng nào đó sinh sống.
Câu truy vấn này lấy dữ liệu theo 2 chiều : VPĐD và Khách hàng .Ở chiều

7.


VPĐD là Bang và Thành phố . Ở chiều Khách hàng là Khách hàng chi tiết .
Tìm mức độ tồn kho của một mặt hàng cụ thể tại tất cả các cửa hàng ở một



thành phố cụ thể nào đó.
Câu truy vẫn này lấy dữ liệu theo 3 chiều : VPĐD, Cửa hàng , Mặt hàng . Ở
chiều VPĐD là Thành phố. Ở chiều Cửa hàng là Cửa hàng chi tiết. Ở chiều

8.

Mặt hàng là Mặt hàng lưu trữ.
Tìm các mặt hàng, số lượng đặt, khách hàng, cửa hàng và thành phố của một
đơn đặt hàng.

15


Kho dữ liệu và khai phá dữ liệu


Câu truy vấn này lấy dữ liệu theo 5 chiều : Mặt hàng,Khách hàng , Cửa
hàng, VPĐD, Đơn đặt hàng .
Ở chiều Mặt hàng là Mặt hàng được đặt. Ở chiều Khách hàng là Khách
hàng chi tiết. Ở Cửa hàng là Cửa hàng chi tiết. Ở VPĐD là Thành phố. Ở

9.

Đơn đặt hàng là Đơn đặt hàng chi tiết .

Tìm các khách hàng du lịch, khách hàng đặt theo đường bưu điện và khách



hàng thuộc cả hai loại.
Câu truy vấn này lấy dữ liệu theo 1 chiều : Khách hàng. Chiều Khách hàng

V.

là : Khách hàng DL, Khách hàng BĐ.
Báo cáo phân tích trực tuyến
• Khởi động SQL Server Management Studio và tạo CSDL có tên DW
như sau và nhập vào các bảng một số records để phân tích.



16

Khởi động SQL Server Business Intelligence Development Studio


Kho dữ liệu và khai phá dữ liệu



17

Tạo một Analysis Services Project mới có tên “DW”



Kho dữ liệu và khai phá dữ liệu



Trong của sổ Solution Explorer của Project OLAP_DW, bấm phím
phải chuột vào Data Source để tạo một bộ kết nối đến dữ liệu dùng
cho phân tích.

18


Kho dữ liệu và khai phá dữ liệu



Xác định các tham số kết nối đến kho dữ liệu có tên “DW” đã tạo ra
trong SQL Server Management Studio.

19


Kho dữ liệu và khai phá dữ liệu



Đặt tên cho Data Source vàm bấm Finish để hoàn thành việc kết nối



đến cơ sở dữ liệu.

Tạo Data Source View để lấy các bảng dữ liệu cần thiêt cần cho phân
tích. Bấm phím phải chuột vào Data Source View trong của sổ
Solution Explorer chọn New Data Source View

20


Kho dữ liệu và khai phá dữ liệu



Xác định nguồn dữ liệu (Data Source) cần lấy là DW mới vừa tạo ra ở bước
trước

21


Kho dữ liệu và khai phá dữ liệu



22

Chọn Next và chọn các bảng cần cho phân tích


Kho dữ liệu và khai phá dữ liệu

Chú ý: Nếu bạn muốn chọn bảng Fact và các bảng Dimension liên quan đến bảng
Fact thì chỉ cần chọn Fact Table đưa qua khung bên phải và bấm nút "Add Related

Tables" để tự động lấy các bảng Dimensions liên quan.


23

Sau khi hoàn thành, các bảng Fact và Dimension như sau:


Kho dữ liệu và khai phá dữ liệu



Sau khi tao Data Source và Data Source View ta tạo dữ liệu khối cho phân
tích bằng cách bấm chuột phải lên Cube trong Solution Explorer và chọn
New Cube

24


Kho dữ liệu và khai phá dữ liệu


Chọn Next và chọn nguồn dữ liệu cho Khối (DW), hệ thống sẽ tự động dò
tìm fact và Dimension Tables. Khối dữ liệu các chiều được sinh ra :

25


×