Tải bản đầy đủ (.docx) (61 trang)

Báo cáo đồ án olap ĐH CNTT ĐHQG TPHCM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (27.59 MB, 61 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
----------

BÁO CÁO ĐỒ ÁN MƠN HỌC
KHO DỮ LIỆU VÀ OLAP
IS217.K11
Đề tài

PHÂN TÍCH KẾT QUẢ BÓNG ĐÁ QUỐC TẾ TỪ
1900 ĐẾN 2019
GIẢNG VIÊN HƯỚNG DẪN
ThS Nguyễn Thị Kim Phụng
NHÓM SINH VIÊN THỰC HIỆN:
Bàn Thị Hồng Nhung – 16520898
Hoàng Thị Hải Yến – 16521854

Thành phố Hồ Chí Minh, tháng 10 năm 2019


GVHD: ThS. Nguyễn Thị Kim Phụng

LỜI CẢM ƠN
Đầu tiên, nhóm em xin gởi lời cảm ơn Cô Nguyễn Thị Kim Phụng (Giảng viên
môn Kho dữ liệu và OLAP). Cảm ơn cơ đã hướng dẫn tận tình, sửa chữa và đóng
góp nhiều ý kiến q báu giúp nhóm em hồn thành tốt báo cáo mơn học của mình.
Trong thời gian một học kỳ thực hiện đề tài, nhóm em đã vận dụng những kiến
thức nền tảng đã tích lũy đồng thời kết hợp với việc học hỏi và nghiên cứu những
kiến thức mới. Từ đó, nhóm tác giả vận dụng tối đa những gì đã thu thập được để
hồn thành một báo cáo đồ án tốt nhất. Xin chân thành cảm ơn các q Thầy Cơ!



Nhóm sinh viên thực hiện

2


GVHD: ThS. Nguyễn Thị Kim Phụng

NHẬN XÉT CỦA GIẢNG VIÊN

……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
…………………………………………………………………….............

....................................................................................................................
.
3


GVHD: ThS. Nguyễn Thị Kim Phụng

MỤC LỤC
PHẦN I: TỔNG QUAN ĐỀ TÀI..................................................................................................................6
1. Lý do chọn đề tài..................................................................................................................................6
2. Mô tả dữ liệu.........................................................................................................................................6
2.1 Giới thiệu chung.............................................................................................................................6
2.2 Kiểu dữ liệu.....................................................................................................................................7
3. Tiền xử lý dữ liệu..................................................................................................................................8
4. Thiết kế kho dữ liệu..............................................................................................................................9
4.1 FACT...............................................................................................................................................9
4.2 DIM_DATE..................................................................................................................................10
4.3 DIM_MATCH..............................................................................................................................10
4.4 DIM_SCORE...............................................................................................................................10
4.5 DIM_TOURNAMENT................................................................................................................11
4.6 DIM_LOCATION........................................................................................................................11
PHẦN II: XÂY DỰNG KHO DỮ LIỆU (SSIS)........................................................................................12
1. Mô tả chủ đề........................................................................................................................................12
2. Mô tả nguồn dữ liệu gốc....................................................................................................................12
3. Quá trình SSIS....................................................................................................................................12
3.1.Bước 1: Chuẩn bị dữ liệu............................................................................................................12
3.2.Bước 2: Chuẩn bị cơng cụ...........................................................................................................13
3.3.Bước 3: Bắt đầu q trình..........................................................................................................13
3.4.Bước 4: Kiểm tra kết quả...........................................................................................................22
PHẦN III: PHÂN TÍCH KHO DỮ LIỆU (SSAS)....................................................................................28

1. Bước 1: Tạo project SSAS.................................................................................................................28
2. Bước 2: Tạo Data Source...................................................................................................................28
3. Bước 3: Tạo Data Source View.........................................................................................................30
4. Bước 4: Tạo Cube...............................................................................................................................32
5. Bước 5: Chỉnh sửa các Dimension....................................................................................................33
6. Bước 6: Chạy tiến trình để deployment...........................................................................................36
PHẦN IV: TRUY VẤN MDX......................................................................................................................37
1. Roll up/ Drill down.............................................................................................................................37
4


GVHD: ThS. Nguyễn Thị Kim Phụng
2. Slice and Dice......................................................................................................................................43
3. Privot Excel.........................................................................................................................................48
PHẦN V: REPORT (SSRS).........................................................................................................................49
1. Bước 1: Tạo project SSRS.................................................................................................................49
2. Bước 2: Tạo kết nối đến database....................................................................................................50
3. Thực hiện Report trên SSRS và PowerBI.......................................................................................52
4. Report dạng Chart thống kê giải đấu có được phát trực tiếp khơng...........................................55
PHẦN VI: KHAI PHÁ DỮ LIỆU (DATA MINING)...............................................................................56
PHẦN VII: KẾT LUẬN..............................................................................................................................60
1. Môi trường làm việc...........................................................................................................................60
2. Kết quả đạt được................................................................................................................................60
3. Hướng phát triển................................................................................................................................60
PHẦN VIII: TÀI LIỆU THAM KHẢO.....................................................................................................60

5


GVHD: ThS. Nguyễn Thị Kim Phụng


PHẦN I: TỔNG QUAN ĐỀ TÀI
1. Lý do chọn đề tài
Bóng đá là mơn thể thao đồng đội được chơi theo các quy tắc đề ra trong luật bóng đá.
Các vận động viên tham gia chơi bóng đá được gọi là các cầu thủ, họ sử dụng một trái
bóng hình cầu được gọi đơn giản là quả bóng đá, trái bóng hoặc trái banh. Trong trận đấu
bóng đá, hai đội, mỗi đội gồm 11 cầu thủ sẽ tìm cách đưa trái bóng vào khung thành, đội
nào đưa bóng vào khung thành đối phương nhiều hơn (ghi được nhiều bàn thắng hơn) sẽ
là đội chiến thắng, nếu hai đội có số lần đưa bóng vào khung thành đối phương như nhau,
hoặc không đội nào làm được việc này thì trận đấu kết thúc với kết qủa hịa.
Ngày nay, bóng đá đã được chơi ở cấp độ chuyên nghiệp trên khắp thế giới với hàng triệu
người đến sân theo dõi các trận đấu cũng như hàng tỷ người theo dõi qua truyền hình.
Khơng chỉ là mơn thể thao phổ biến nhất thế giới, bóng đá cịn có ảnh hưởng lớn đến nền
thể thao và xã hội nhiều quốc gia. Và chắc chắn có rất nhiều người sẽ quan tâm đến:
 Những trận đấu diễn ra tại các địa điểm khác nhau
 Số lượng trận đấu thay đổi qua các năm như thế nào
 Sự thay đổi về các đội tham gia - số lượng quốc gia đã thay đổi như thế nào, các
đội thích chơi với nhau khơng
 Những đội nào tham gia tích cực nhất trong các trận chơi giao hữu và các giải đấu
giao hữu - điều đó có giúp ích cho họ khơng
Để hiểu rõ về những điều này nhóm đã quyết định chọn đề tài này để phân tích, khai
thác dữ liệu.

2. Mơ tả dữ liệu
2.1 Giới thiệu chung
6


GVHD: ThS. Nguyễn Thị Kim Phụng


Dữ liệu được thu thập từ một số nguồn bao gồm nhưng không giới hạn ở Wikipedia,
fifa.com, rsssf.com và các trang web của các hiệp hội bóng đá cá nhân. Bộ dữ liệu này
bao gồm 40.838 kết quả của các trận đấu bóng đá quốc tế bắt đầu từ trận đấu chính thức
đầu tiên vào năm 1900 đến năm 2019. Các trận đấu từ FIFA World Cup đến Fify Wild
Cup đến các trận giao hữu thơng thường. Các trận đấu hồn tồn là quốc tế của nam giới
và dữ liệu không bao gồm Thế vận hội hoặc các trận đấu mà ít nhất một trong số các đội
là đội B, U-23 hoặc đội tuyển chọn của giải đấu.
Link dataset: />
2.2 Kiểu dữ liệu
ST

Tên thuộc tính

Ý nghĩa

Kiểu dữ liệu

1

The_date

Ngày của trận đấu

Datetime

2

Home_team

Tên của đội chủ nhà


String

3

Away_team

Tên của đội khách

String

4

Home_score

Điểm số của đội chủ nhà toàn

Number

T

thời gian bao gồm cả hiệp phụ,
5

Away_score

không bao gồm trận sút luân lưu
Điểm số của đội khách toàn thời

Number


gian bao gồm cả hiệp phụ,
6

tournamert

không bao gồm trận sút luân lưu
Tên giải trận đấu

7

city

Tên thành phố/ thị trấn/ đơn vị

String
String

hành chính nơi trận đấu được
8
9

country

diễn ra
Tên quốc gia nơi trận đấu được

String

neutral


diễn ra
Cột TRUE / FALSE cho biết

Nvarchar

trận đấu đã được phát trực tiếp
7


GVHD: ThS. Nguyễn Thị Kim Phụng

tại một địa điểm

3. Tiền xử lý dữ liệu
Làm sạch dữ liệu:
 Thêm cột id_fact trong dataset.
 Xóa các cột có date nhỏ hơn năm 1900 do dữ liệu q cũ.
 Xóa ơ trống và dữ liệu bị lỗi.
 Dữ liệu gốc

 Dữ liệu sau khi tiền xử lý

8


GVHD: ThS. Nguyễn Thị Kim Phụng

4. Thiết kế kho dữ liệu
4.1 FACT

STT

Tên thuộc tính

Kiểu

Ràng buộc

Ý nghĩa / Ghi chú

1

fact_id

int

PK

Mã Fact

2

the_date

datetime

FK

Mã ngày


3

id_match

int

FK

Mã đội

4

id_score

int

FK

Mã tỷ số trận đấu

5

id_tournament

int

FK

Mã giải trận đấu


6

id_location

int

FK

Mã vị trí

7

netral

Nvarchar

FK

Trận đấu có được phát
trực tiếp hay khơng

4.2 DIM_DATE
STT

Tên thuộc tính

Kiểu

Ràng buộc


9

Ý nghĩa / Ghi chú


GVHD: ThS. Nguyễn Thị Kim Phụng

1

The_date

datetime

Ngày diễn ra trận đấu

2

the_year

int

Năm

3

the_month

int

Tháng


4

the_day

int

Ngày

4.3 DIM_MATCH
STT

Tên thuộc tính

Kiểu

Ràng

Ý nghĩa / Ghi chú

buộc
1

Id_match

int

PK

Mã đội


2

Home_team

nvarchar(20)

Đội chủ nhà

3

Away_team

nvarchar(20)

Đội khách

4.4 DIM_SCORE
STT

Tên thuộc tính

Kiểu

Ràng

Ý nghĩa / Ghi chú

buộc
1


Id_score

int

PK

Mã tỷ số trận đấu

2

Home_score

int

Điểm đội nhà

3

Away_score

int

Điểm đội khách

4.5 DIM_TOURNAMENT
STT

Tên thuộc tính


Kiểu

1

Id_tournament

int

2

Tournament

nvarchar(20)

Ràng buộc
PK

4.6 DIM_LOCATION
10

Ý nghĩa / Ghi chú
Mã giải đấu
Tên giải đấu


GVHD: ThS. Nguyễn Thị Kim Phụng

STT

Tên thuộc tính


Kiểu

Ràng

Ý nghĩa / Ghi chú

buộc
1

Id_location

int

PK



2

City

nvarchar(20)

Thành phố

3

Country


nvarchar(20)

Quốc gia

4.7 DIM_NEUTRAL
STT

Tên thuộc tính

Kiểu

Ràng

Ý nghĩa / Ghi chú

buộc
1

neutral

Nvarchar(20)

PK

Trận đấu được phát
trực tiếp không

11



GVHD: ThS. Nguyễn Thị Kim Phụng

PHẦN II: XÂY DỰNG KHO DỮ LIỆU (SSIS)
1. Mơ tả chủ đề
Phân tích kết quả bóng đá quốc tế từ 1900 đến 2019

2. Mơ tả nguồn dữ liệu gốc
 Thuộc tính dữ liệu gốc
ST

Tên thuộc tính

Ý nghĩa

1

Date

Ngày của trận đấu

2

Home_team

Đội chủ nhà

3

Away_team


Đội khách

4

Home_score

Điểm đội chủ nhà

5

Away_score

Điểm đội khách

6

Tournament

Tên giải trận đấu

7

City

Thành phố/ thị trấn/ địa phương trận đấu

8

Country


diễn ra
Quốc gia

9

Neutral

Trận đấu được phát trực tiếp hay khơng

T

 Thuộc tính sử dụng để phân tích
Sử dụng tất cả các thuộc tính để phân tích

3. Q trình SSIS
Sau đây là quá trình SSIS cho dữ liệu

3.1.

Bước 1: Chuẩn bị dữ liệu

Tên file: results.csv
Nguồn: />
12


GVHD: ThS. Nguyễn Thị Kim Phụng

3.2.


Bước 2: Chuẩn bị công cụ

Tên công cụ:
 Microsoft SQL Server Express Advance 2017.
 Microsoft Visual Studio 2017.

3.3. Bước 3: Bắt đầu quá trình
a. Tạo CSDL SSIS trong SQL Server
Tạo database đặt tên SSIS_1

13


GVHD: ThS. Nguyễn Thị Kim Phụng

b. Tạo Integration Services Project

c. Trích xuất dữ liệu
 Tạo File .CSV source

 Tạo đường dẫn đến file các file .csv
14


GVHD: ThS. Nguyễn Thị Kim Phụng

 Chọn cột tương ứng để đổ dữ liệu vào Flat File Source

15



GVHD: ThS. Nguyễn Thị Kim Phụng

 Sử dụng Sort để đẩy dữ liệu và loại bỏ các giá trị giống nhau bằng cách
click Remove row with duplicate sort value

 Tạo OLE DB Destination

16


GVHD: ThS. Nguyễn Thị Kim Phụng

 Kết nối đến database SSIS_1

 Tạo bảng và chỉ định khóa chính bằng cách thêm primary key sau thuộc
tính

17


GVHD: ThS. Nguyễn Thị Kim Phụng

 Xây dựng bảng fact bằng cách sử dụng lookup để thay thế id khóa ngoại
trong bảng fact lấy từ bảng dim

 Lựa chọn database và bảng để lookup

18



GVHD: ThS. Nguyễn Thị Kim Phụng

 Thực hiện kéo các cột từ nguồn sang bảng tạo

 Khi liên kết sẽ hiện ra bảng và click chọn Lookup Match Output

19


GVHD: ThS. Nguyễn Thị Kim Phụng


Sử dụng Execute SQL Task xóa bảng để khi chạy dữ liệu khơng bị trùng

 Tại cột Connection chọn database mình kết nối tới. Tại cột SQLStatement
viết lệnh delete from các bảng Dim và bảng fact.

20


GVHD: ThS. Nguyễn Thị Kim Phụng

 Lược đồ toàn bộ q trình trích xuất dữ liệu các bảng Dim

 Lược đồ tồn bộ q trình trích xuất dữ liệu bảng Fact

21



GVHD: ThS. Nguyễn Thị Kim Phụng

3.4. Bước 4: Kiểm tra kết quả
a. Phần trích xuất

 Các bảng DIM

22


GVHD: ThS. Nguyễn Thị Kim Phụng

 Bảng FACT

b. Bảng FACT

c. Bảng DIM_TIME

23


GVHD: ThS. Nguyễn Thị Kim Phụng

 Thực hiện tách ngày tháng năm trong bảng Dim_Time

 Bảng Dim_Time sau khi thực hiện

24



GVHD: ThS. Nguyễn Thị Kim Phụng

d. Bảng DIM_MATCH

e. Bảng DIM_SCORE

25


×