ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
----------
BÁO CÁO ĐỒ ÁN MƠN HỌC
KHO DỮ LIỆU VÀ OLAP
IS217.K11
Đề tài
PHÂN TÍCH KẾT QUẢ BÓNG ĐÁ QUỐC TẾ TỪ
1900 ĐẾN 2019
GIẢNG VIÊN HƯỚNG DẪN
ThS Nguyễn Thị Kim Phụng
NHÓM SINH VIÊN THỰC HIỆN:
Bàn Thị Hồng Nhung – 16520898
Hoàng Thị Hải Yến – 16521854
Thành phố Hồ Chí Minh, tháng 10 năm 2019
GVHD: ThS. Nguyễn Thị Kim Phụng
LỜI CẢM ƠN
Đầu tiên, nhóm em xin gởi lời cảm ơn Cô Nguyễn Thị Kim Phụng (Giảng viên
môn Kho dữ liệu và OLAP). Cảm ơn cơ đã hướng dẫn tận tình, sửa chữa và đóng
góp nhiều ý kiến q báu giúp nhóm em hồn thành tốt báo cáo mơn học của mình.
Trong thời gian một học kỳ thực hiện đề tài, nhóm em đã vận dụng những kiến
thức nền tảng đã tích lũy đồng thời kết hợp với việc học hỏi và nghiên cứu những
kiến thức mới. Từ đó, nhóm tác giả vận dụng tối đa những gì đã thu thập được để
hồn thành một báo cáo đồ án tốt nhất. Xin chân thành cảm ơn các q Thầy Cơ!
Nhóm sinh viên thực hiện
2
GVHD: ThS. Nguyễn Thị Kim Phụng
NHẬN XÉT CỦA GIẢNG VIÊN
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
……………………………………………………………………………
…………………………………………………………………….............
....................................................................................................................
.
3
GVHD: ThS. Nguyễn Thị Kim Phụng
MỤC LỤC
PHẦN I: TỔNG QUAN ĐỀ TÀI..................................................................................................................6
1. Lý do chọn đề tài..................................................................................................................................6
2. Mô tả dữ liệu.........................................................................................................................................6
2.1 Giới thiệu chung.............................................................................................................................6
2.2 Kiểu dữ liệu.....................................................................................................................................7
3. Tiền xử lý dữ liệu..................................................................................................................................8
4. Thiết kế kho dữ liệu..............................................................................................................................9
4.1 FACT...............................................................................................................................................9
4.2 DIM_DATE..................................................................................................................................10
4.3 DIM_MATCH..............................................................................................................................10
4.4 DIM_SCORE...............................................................................................................................10
4.5 DIM_TOURNAMENT................................................................................................................11
4.6 DIM_LOCATION........................................................................................................................11
PHẦN II: XÂY DỰNG KHO DỮ LIỆU (SSIS)........................................................................................12
1. Mô tả chủ đề........................................................................................................................................12
2. Mô tả nguồn dữ liệu gốc....................................................................................................................12
3. Quá trình SSIS....................................................................................................................................12
3.1.Bước 1: Chuẩn bị dữ liệu............................................................................................................12
3.2.Bước 2: Chuẩn bị cơng cụ...........................................................................................................13
3.3.Bước 3: Bắt đầu q trình..........................................................................................................13
3.4.Bước 4: Kiểm tra kết quả...........................................................................................................22
PHẦN III: PHÂN TÍCH KHO DỮ LIỆU (SSAS)....................................................................................28
1. Bước 1: Tạo project SSAS.................................................................................................................28
2. Bước 2: Tạo Data Source...................................................................................................................28
3. Bước 3: Tạo Data Source View.........................................................................................................30
4. Bước 4: Tạo Cube...............................................................................................................................32
5. Bước 5: Chỉnh sửa các Dimension....................................................................................................33
6. Bước 6: Chạy tiến trình để deployment...........................................................................................36
PHẦN IV: TRUY VẤN MDX......................................................................................................................37
1. Roll up/ Drill down.............................................................................................................................37
4
GVHD: ThS. Nguyễn Thị Kim Phụng
2. Slice and Dice......................................................................................................................................43
3. Privot Excel.........................................................................................................................................48
PHẦN V: REPORT (SSRS).........................................................................................................................49
1. Bước 1: Tạo project SSRS.................................................................................................................49
2. Bước 2: Tạo kết nối đến database....................................................................................................50
3. Thực hiện Report trên SSRS và PowerBI.......................................................................................52
4. Report dạng Chart thống kê giải đấu có được phát trực tiếp khơng...........................................55
PHẦN VI: KHAI PHÁ DỮ LIỆU (DATA MINING)...............................................................................56
PHẦN VII: KẾT LUẬN..............................................................................................................................60
1. Môi trường làm việc...........................................................................................................................60
2. Kết quả đạt được................................................................................................................................60
3. Hướng phát triển................................................................................................................................60
PHẦN VIII: TÀI LIỆU THAM KHẢO.....................................................................................................60
5
GVHD: ThS. Nguyễn Thị Kim Phụng
PHẦN I: TỔNG QUAN ĐỀ TÀI
1. Lý do chọn đề tài
Bóng đá là mơn thể thao đồng đội được chơi theo các quy tắc đề ra trong luật bóng đá.
Các vận động viên tham gia chơi bóng đá được gọi là các cầu thủ, họ sử dụng một trái
bóng hình cầu được gọi đơn giản là quả bóng đá, trái bóng hoặc trái banh. Trong trận đấu
bóng đá, hai đội, mỗi đội gồm 11 cầu thủ sẽ tìm cách đưa trái bóng vào khung thành, đội
nào đưa bóng vào khung thành đối phương nhiều hơn (ghi được nhiều bàn thắng hơn) sẽ
là đội chiến thắng, nếu hai đội có số lần đưa bóng vào khung thành đối phương như nhau,
hoặc không đội nào làm được việc này thì trận đấu kết thúc với kết qủa hịa.
Ngày nay, bóng đá đã được chơi ở cấp độ chuyên nghiệp trên khắp thế giới với hàng triệu
người đến sân theo dõi các trận đấu cũng như hàng tỷ người theo dõi qua truyền hình.
Khơng chỉ là mơn thể thao phổ biến nhất thế giới, bóng đá cịn có ảnh hưởng lớn đến nền
thể thao và xã hội nhiều quốc gia. Và chắc chắn có rất nhiều người sẽ quan tâm đến:
Những trận đấu diễn ra tại các địa điểm khác nhau
Số lượng trận đấu thay đổi qua các năm như thế nào
Sự thay đổi về các đội tham gia - số lượng quốc gia đã thay đổi như thế nào, các
đội thích chơi với nhau khơng
Những đội nào tham gia tích cực nhất trong các trận chơi giao hữu và các giải đấu
giao hữu - điều đó có giúp ích cho họ khơng
Để hiểu rõ về những điều này nhóm đã quyết định chọn đề tài này để phân tích, khai
thác dữ liệu.
2. Mơ tả dữ liệu
2.1 Giới thiệu chung
6
GVHD: ThS. Nguyễn Thị Kim Phụng
Dữ liệu được thu thập từ một số nguồn bao gồm nhưng không giới hạn ở Wikipedia,
fifa.com, rsssf.com và các trang web của các hiệp hội bóng đá cá nhân. Bộ dữ liệu này
bao gồm 40.838 kết quả của các trận đấu bóng đá quốc tế bắt đầu từ trận đấu chính thức
đầu tiên vào năm 1900 đến năm 2019. Các trận đấu từ FIFA World Cup đến Fify Wild
Cup đến các trận giao hữu thơng thường. Các trận đấu hồn tồn là quốc tế của nam giới
và dữ liệu không bao gồm Thế vận hội hoặc các trận đấu mà ít nhất một trong số các đội
là đội B, U-23 hoặc đội tuyển chọn của giải đấu.
Link dataset: />
2.2 Kiểu dữ liệu
ST
Tên thuộc tính
Ý nghĩa
Kiểu dữ liệu
1
The_date
Ngày của trận đấu
Datetime
2
Home_team
Tên của đội chủ nhà
String
3
Away_team
Tên của đội khách
String
4
Home_score
Điểm số của đội chủ nhà toàn
Number
T
thời gian bao gồm cả hiệp phụ,
5
Away_score
không bao gồm trận sút luân lưu
Điểm số của đội khách toàn thời
Number
gian bao gồm cả hiệp phụ,
6
tournamert
không bao gồm trận sút luân lưu
Tên giải trận đấu
7
city
Tên thành phố/ thị trấn/ đơn vị
String
String
hành chính nơi trận đấu được
8
9
country
diễn ra
Tên quốc gia nơi trận đấu được
String
neutral
diễn ra
Cột TRUE / FALSE cho biết
Nvarchar
trận đấu đã được phát trực tiếp
7
GVHD: ThS. Nguyễn Thị Kim Phụng
tại một địa điểm
3. Tiền xử lý dữ liệu
Làm sạch dữ liệu:
Thêm cột id_fact trong dataset.
Xóa các cột có date nhỏ hơn năm 1900 do dữ liệu q cũ.
Xóa ơ trống và dữ liệu bị lỗi.
Dữ liệu gốc
Dữ liệu sau khi tiền xử lý
8
GVHD: ThS. Nguyễn Thị Kim Phụng
4. Thiết kế kho dữ liệu
4.1 FACT
STT
Tên thuộc tính
Kiểu
Ràng buộc
Ý nghĩa / Ghi chú
1
fact_id
int
PK
Mã Fact
2
the_date
datetime
FK
Mã ngày
3
id_match
int
FK
Mã đội
4
id_score
int
FK
Mã tỷ số trận đấu
5
id_tournament
int
FK
Mã giải trận đấu
6
id_location
int
FK
Mã vị trí
7
netral
Nvarchar
FK
Trận đấu có được phát
trực tiếp hay khơng
4.2 DIM_DATE
STT
Tên thuộc tính
Kiểu
Ràng buộc
9
Ý nghĩa / Ghi chú
GVHD: ThS. Nguyễn Thị Kim Phụng
1
The_date
datetime
Ngày diễn ra trận đấu
2
the_year
int
Năm
3
the_month
int
Tháng
4
the_day
int
Ngày
4.3 DIM_MATCH
STT
Tên thuộc tính
Kiểu
Ràng
Ý nghĩa / Ghi chú
buộc
1
Id_match
int
PK
Mã đội
2
Home_team
nvarchar(20)
Đội chủ nhà
3
Away_team
nvarchar(20)
Đội khách
4.4 DIM_SCORE
STT
Tên thuộc tính
Kiểu
Ràng
Ý nghĩa / Ghi chú
buộc
1
Id_score
int
PK
Mã tỷ số trận đấu
2
Home_score
int
Điểm đội nhà
3
Away_score
int
Điểm đội khách
4.5 DIM_TOURNAMENT
STT
Tên thuộc tính
Kiểu
1
Id_tournament
int
2
Tournament
nvarchar(20)
Ràng buộc
PK
4.6 DIM_LOCATION
10
Ý nghĩa / Ghi chú
Mã giải đấu
Tên giải đấu
GVHD: ThS. Nguyễn Thị Kim Phụng
STT
Tên thuộc tính
Kiểu
Ràng
Ý nghĩa / Ghi chú
buộc
1
Id_location
int
PK
Mã
2
City
nvarchar(20)
Thành phố
3
Country
nvarchar(20)
Quốc gia
4.7 DIM_NEUTRAL
STT
Tên thuộc tính
Kiểu
Ràng
Ý nghĩa / Ghi chú
buộc
1
neutral
Nvarchar(20)
PK
Trận đấu được phát
trực tiếp không
11
GVHD: ThS. Nguyễn Thị Kim Phụng
PHẦN II: XÂY DỰNG KHO DỮ LIỆU (SSIS)
1. Mơ tả chủ đề
Phân tích kết quả bóng đá quốc tế từ 1900 đến 2019
2. Mơ tả nguồn dữ liệu gốc
Thuộc tính dữ liệu gốc
ST
Tên thuộc tính
Ý nghĩa
1
Date
Ngày của trận đấu
2
Home_team
Đội chủ nhà
3
Away_team
Đội khách
4
Home_score
Điểm đội chủ nhà
5
Away_score
Điểm đội khách
6
Tournament
Tên giải trận đấu
7
City
Thành phố/ thị trấn/ địa phương trận đấu
8
Country
diễn ra
Quốc gia
9
Neutral
Trận đấu được phát trực tiếp hay khơng
T
Thuộc tính sử dụng để phân tích
Sử dụng tất cả các thuộc tính để phân tích
3. Q trình SSIS
Sau đây là quá trình SSIS cho dữ liệu
3.1.
Bước 1: Chuẩn bị dữ liệu
Tên file: results.csv
Nguồn: />
12
GVHD: ThS. Nguyễn Thị Kim Phụng
3.2.
Bước 2: Chuẩn bị công cụ
Tên công cụ:
Microsoft SQL Server Express Advance 2017.
Microsoft Visual Studio 2017.
3.3. Bước 3: Bắt đầu quá trình
a. Tạo CSDL SSIS trong SQL Server
Tạo database đặt tên SSIS_1
13
GVHD: ThS. Nguyễn Thị Kim Phụng
b. Tạo Integration Services Project
c. Trích xuất dữ liệu
Tạo File .CSV source
Tạo đường dẫn đến file các file .csv
14
GVHD: ThS. Nguyễn Thị Kim Phụng
Chọn cột tương ứng để đổ dữ liệu vào Flat File Source
15
GVHD: ThS. Nguyễn Thị Kim Phụng
Sử dụng Sort để đẩy dữ liệu và loại bỏ các giá trị giống nhau bằng cách
click Remove row with duplicate sort value
Tạo OLE DB Destination
16
GVHD: ThS. Nguyễn Thị Kim Phụng
Kết nối đến database SSIS_1
Tạo bảng và chỉ định khóa chính bằng cách thêm primary key sau thuộc
tính
17
GVHD: ThS. Nguyễn Thị Kim Phụng
Xây dựng bảng fact bằng cách sử dụng lookup để thay thế id khóa ngoại
trong bảng fact lấy từ bảng dim
Lựa chọn database và bảng để lookup
18
GVHD: ThS. Nguyễn Thị Kim Phụng
Thực hiện kéo các cột từ nguồn sang bảng tạo
Khi liên kết sẽ hiện ra bảng và click chọn Lookup Match Output
19
GVHD: ThS. Nguyễn Thị Kim Phụng
Sử dụng Execute SQL Task xóa bảng để khi chạy dữ liệu khơng bị trùng
Tại cột Connection chọn database mình kết nối tới. Tại cột SQLStatement
viết lệnh delete from các bảng Dim và bảng fact.
20
GVHD: ThS. Nguyễn Thị Kim Phụng
Lược đồ toàn bộ q trình trích xuất dữ liệu các bảng Dim
Lược đồ tồn bộ q trình trích xuất dữ liệu bảng Fact
21
GVHD: ThS. Nguyễn Thị Kim Phụng
3.4. Bước 4: Kiểm tra kết quả
a. Phần trích xuất
Các bảng DIM
22
GVHD: ThS. Nguyễn Thị Kim Phụng
Bảng FACT
b. Bảng FACT
c. Bảng DIM_TIME
23
GVHD: ThS. Nguyễn Thị Kim Phụng
Thực hiện tách ngày tháng năm trong bảng Dim_Time
Bảng Dim_Time sau khi thực hiện
24
GVHD: ThS. Nguyễn Thị Kim Phụng
d. Bảng DIM_MATCH
e. Bảng DIM_SCORE
25