BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HOA SEN
BÁO CÁO ĐỒ ÁN
MÔN KHAI THÁC DỮ LIỆU
Giảng viên
Lớp
Sinh viên
: Nguyễn Phượng Hoàng
: HT421DV01
: Mai Thuận Thảo - 2001753
Giản Diệu KIên - 2001925
ngày 28, tháng 10 năm 2014
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC HOA SEN
BÁO CÁO ĐỒ ÁN
MÔN KHAI THÁC DỮ LIỆU
Giảng viên
Lớp
Sinh viên
: Nguyễn Phượng Hoàng
: HT421DV01
: Mai Thuận Thảo - 2001753
Giản Diệu KIên - 2001925
ngày 28, tháng 10 năm 2014
Mục Lục
Mục Lục....................................................................................1
I.ĐỊNH NGHĨA BÀI TOÁN............................................................2
II.THU THẬP DỮ LIỆU................................................................3
III.TIỀN XỬ LÝ DỮ LIỆU..............................................................4
1)Làm sạch dữ liệu (Data Cleaning)......................................4
2)Tích hợp dữ liệu (data integration)....................................5
3)Biến đổi dữ liệu (data transformation)...............................6
4)Thu giảm dữ liệu (data reduction).....................................8
IV.TÀI LIỆU THAM KHẢO............................................................9
MỤC LỤC HÌNH ẢNH................................................................10
1
I.
ĐỊNH NGHĨA BÀI TOÁN
Hiện nay Việt Nam ta đang hội nhập với quốc tế nên du lịch nước ta ngày càng
được chú trọng và đẩy mạnh. Cho nên việc phân tích, khai phá dữ liệu lượng khách
quốc tế đến Việt Nam ta rất cần thiết sẽ giúp cho công ty du lịch có số liệu thống kê
chính xác về du lịch Việt Nam. Cụ thể là nắm rõ thong tin thị trường du lịch khách
quốc tế đến Việt Nam để có thể đề ra các chính sách đẩy mạnh khu vực du lịch
(dịch vụ, văn hóa,…) đối với từng thị trường cho khách quốc tế
Dựa vào môn học Khai Thác Dữ Liệu, nhóm sẽ áp dụng các bước trong tiền xử lý
dữ liệu để làm sạch dữ liệu và chuyển đổi dữ liệu cho phù hợp với mục đích thống
kê được Tình Hình Khách Quốc Tế Đến Việt Nam vào tháng 7 năm 2014 (đặc biệt
là các nước lân cận).
2
II.
THU THẬP DỮ LIỆU
Nhóm lấy dữ liệu từ:
- Website ITDR ( viện nghiên cứu phát triển du lịch.
Link lấy dữ liệu: />
Hình 1: Dữ liệu tình hình khách quốc tế đến Việt Nam tháng 7năm 2014
3
III.
TIỀN XỬ LÝ DỮ LIỆU
1) Làm sạch dữ liệu (Data Cleaning)
Làm sạch dữ liệu là quá trình thêm vào các giá trị còn thiếu, làm gọn dữ liệu nhiễu,
xác định hoặc xóa bỏ outlier và giải quyết dữ liệu thiếu nhất quán. Như ở dữ liệu trên, côt
dữ liệu “7 tháng năm 2014” là không cần thiết so với mục đích chính của nhóm.
Quá trình làm sạch dữ liệu:
Đối với những dữ liệu bị thiếu
-
: Kiểm tra dữ liệu thiếu gì. Các trường hợp thiếu:
o Giá trị (người, %) đã thống nhất mỗi cột chưa
o Các đơn vị tổng số có chính xác chưa
Chỉ tiêu
tháng
7/2014
Tháng 7/2014 so với
tháng trước (%)
Tháng 7/2014 so với
tháng 7/2013 (%)
7 tháng năm 2014 so với cùng
kỳ năm trước (%)
(người)
Tổng số
564.736
104,6
85,8
115,6
448.724
102,7
88,6
115,1
2000
146
10,6
30,6
114.012
112,1
85,7
135
Chia theo phương tiện đến
Đường không
Đường biển
Đường bộ
Chia theo mục đích chuyến đi
Du lịch, nghỉ
ngơi
341.383
105,4
84,6
113,9
Đi công việc
94.876
103,4
86,1
116,1
96.852
104,3
88,3
119,5
31.625
101
90,2
121,1
Thăm thân
nhân
Các mục đích
khác
Chia theo một số thị trường
Hồng Kông
644
127,3
72,6
211,3
Đức
7.884
129,1
116,4
199,4
Nga
22.713
121,2
136,5
127
Lào
16.066
120
91,8
126,7
Trung Quốc
123.442
90,3
71,2
126
3.629
174,5
116,4
123,6
Campuchia
26.537
83,3
86,6
123
Anh
15.020
111
104,2
117,9
Italy
1.879
97,9
96,2
115
Niuzilan
3.569
141,3
105,7
114,4
Bỉ
3.097
301,9
106,3
113,3
Philippin
7.463
78,6
98,1
112,1
Na Uy
4.385
295,9
107,8
112,1
Đan Mạch
3.731
296,8
103,6
111,9
Thụy Sỹ
2.779
198,4
104,4
111,6
Đài Loan
38.428
129,1
84,3
108,1
Tây Ban Nha
4
Hà Lan
5.836
206,7
93,8
107,3
Thái Lan
19.594
95,8
87,4
107,2
Nhật
44.681
100,1
100,4
106,9
Thụy Điển
2.545
163,4
101,5
106,6
Canada
7.716
114,5
88,6
106,4
Mỹ
38.881
98,9
105,9
105,9
Pháp
15.872
151
100,3
105,8
Singapo
13.452
80,2
91,4
105,5
Hàn Quốc
56.450
111,5
106
105,2
Malaisia
16.661
48,1
63,8
105
Úc
30.997
151
99,1
104,8
Indonesia
3.766
57,1
64,2
98,6
Phần Lan
929
114,7
85,4
97,6
26.090
218,9
48,2
127
Các thị trường
khác
Hình 2: Bảng thống kê tình hình khách du lịch quốc tế sau khi được làm sạch
2) Tích hợp dữ liệu (data integration)
Tích hợp dữ liệu là quá trình trộn dữ liệu từ các nguồn khác nhau vào một kho
dữ liệu có sẵn cho quá trình khai phá dữ liệu.
Vì dữ liệu này được lấy từ Website ITDR ( viện nghiên cứu
phát triển du lịch. Cho nên thong tin ở đây đã được tích hợp từ nhiều nguồn dữ liệu
khác do đó tại bước này nhóm chúng tôi chỉ kiểm tra, xác thực tính tổng hợp dữ liệu
ở website này.
Sau khi tìm hiểu thì nhóm xác định đây là dữ liệu đã được thống nhất và chính xác.
Chỉ tiêu
tháng
7/2014
Tháng 7/2014 so với
tháng trước (%)
Tháng 7/2014 so với
tháng 7/2013 (%)
7 tháng năm 2014 so với cùng
kỳ năm trước (%)
(người)
Tổng số
564.736
104,6
85,8
115,6
102,7
88,6
115,1
2000
146
10,6
30,6
114.012
112,1
85,7
135
Chia theo phương tiện đến
Đường không
Đường biển
Đường bộ
448.724
Chia theo mục đích chuyến đi
Du lịch, nghỉ
ngơi
341.383
105,4
84,6
113,9
Đi công việc
94.876
103,4
86,1
116,1
96.852
104,3
88,3
119,5
31.625
101
90,2
121,1
644
127,3
72,6
211,3
7.884
129,1
116,4
199,4
Nga
22.713
121,2
136,5
127
Lào
16.066
120
91,8
126,7
123.442
90,3
71,2
126
3.629
174,5
116,4
123,6
Campuchia
26.537
83,3
86,6
123
Anh
15.020
111
104,2
117,9
Thăm thân
nhân
Các mục đích
khác
Chia theo một số thị trường
Hồng Kông
Đức
Trung Quốc
Tây Ban Nha
5
Italy
1.879
97,9
96,2
115
Niuzilan
3.569
141,3
105,7
114,4
Bỉ
3.097
301,9
106,3
113,3
Philippin
7.463
78,6
98,1
112,1
Na Uy
4.385
295,9
107,8
112,1
Đan Mạch
3.731
296,8
103,6
111,9
Thụy Sỹ
2.779
198,4
104,4
111,6
Đài Loan
38.428
129,1
84,3
108,1
Hà Lan
5.836
206,7
93,8
107,3
Thái Lan
19.594
95,8
87,4
107,2
Nhật
44.681
100,1
100,4
106,9
2.545
163,4
101,5
106,6
Thụy Điển
Canada
7.716
114,5
88,6
106,4
Mỹ
38.881
98,9
105,9
105,9
Pháp
15.872
151
100,3
105,8
Singapo
13.452
80,2
91,4
105,5
Hàn Quốc
56.450
111,5
106
105,2
Malaisia
16.661
48,1
63,8
105
Úc
30.997
151
99,1
104,8
Indonesia
3.766
57,1
64,2
98,6
Phần Lan
929
114,7
85,4
97,6
26.090
218,9
48,2
127
Các thị trường
khác
Hình 3: Bảng thống kê sau khi tích hợp dữ liệu
3) Biến đổi dữ liệu (data transformation)
Biến đổi dữ liệu là việc chuyển toàn bộ tập giá trị của một thuộc tính sang một tập
các giá trị thay thế, sao cho mỗi giá trị cũ tương ứng với một trong các giá trị mới.
Các phương pháp biến đổi dữ liệu :
- Làm trơn (smoothing) : Loại bỏ nhiễu/lỗi khỏi dữ liệu
- Kết hợp (aggregation) : Sự tóm tắt dữ liệu, xây dựng các khối dữ liệu.
- Khái quát hóa (generalization) : Xây dựng các phân cấp khái niệm.
- Chuẩn hóa (normalization) : Đưa các giá trị về một khoảng được chỉ định.
Tại dữ liệu chia theo thị trường vẫn còn rộng và là nơi cần tích hợp thêm một số
thông tin hữu ích đối với mục đích chính là thống kê du lịch ở các nước lân cận.
Nên nhóm chúng tôi dùng phương pháp Khái quát hóa để phân cấp dữ liệu.
Chỉ tiêu
tháng
7/2014
Tháng 7/2014 so với
tháng trước (%)
Tháng 7/2014 so với
tháng 7/2013 (%)
7 tháng năm 2014 so với
cùng kỳ năm trước (%)
(người)
Tổng số
564.736
104,6
85,8
115,6
448.724
102,7
88,6
115,1
2000
146
10,6
30,6
114.012
112,1
85,7
135
341.383
105,4
84,6
113,9
94.876
103,4
86,1
116,1
Chia theo phương tiện đến
Đường không
Đường biển
Đường bộ
Chia theo mục đích chuyến đi
Du lịch, nghỉ ngơi
Đi công việc
6
Thăm thân nhân
96.852
104,3
88,3
119,5
Các mục đích khác
31.625
101
90,2
121,1
Hồng Kông
644
127,3
72,6
211,3
Trung Quốc
Chia theo một số thị trường
Thị trường Châu Á
123.442
90,3
71,2
126
Đài Loan
38.428
129,1
84,3
108,1
Nhật
44.681
100,1
100,4
106,9
Singapo
13.452
80,2
91,4
105,5
56.450
111,5
106
105,2
Hàn Quốc
Thị trường Đông Nam Á
Lào
16.066
120
91,8
126,7
Campuchia
26.537
83,3
86,6
123
Philippin
7.463
78,6
98,1
112,1
Thái Lan
19.594
95,8
87,4
107,2
Malaisia
16.661
48,1
63,8
105
3.766
57,1
64,2
98,6
Indonesia
Tổng số
Đông Nam Á
Tổng số Châu Á
90.087
367.184
Thị trường Châu Âu
Đức
7.884
129,1
116,4
199,4
Nga
22.713
121,2
136,5
127
Tây Ban Nha
3.629
174,5
116,4
123,6
Anh
15.020
111
104,2
117,9
Italy
1.879
97,9
96,2
115
Bỉ
3.097
301,9
106,3
113,3
Na Uy
4.385
295,9
107,8
112,1
Đan Mạch
3.731
296,8
103,6
111,9
Thụy Sỹ
2.779
198,4
104,4
111,6
Hà Lan
5.836
206,7
93,8
107,3
Thụy Điển
Pháp
Phần Lan
Tổng số châu Âu
2.545
163,4
101,5
106,6
15.872
151
100,3
105,8
929
114,7
85,4
97,6
3.569
141,3
105,7
114,4
30.997
151
99,1
104,8
7.716
114,5
88,6
106,4
38.881
98,9
105,9
105,9
218,9
48,2
127,2
90.299
Thị trường Châu Úc
Niuzilan
Úc
Tổng số Châu Úc
34.566
Thị trường Châu Mỹ
Canada
Mỹ
Tổng số Châu Úc
Các thị trường khác
46.597
26.090
Hình 4: Dữ liệu sau khi biến đổi dữ liệu
Thông qua bảng trên nhóm chúng tôi tổng kết được
7
Bảng dữ liệu so sánh tổng số du lịch Đông Nam Á so với các khu vực (%)
4) Thu giảm dữ liệu (data reduction)
Một kho dữ liệu lớn có thể chứa lượng dữ liệu lên đến terabytes sẽ làm cho quá
trình khai phá dữ liệu chạy rất mất thời gian, do đó nên thu giảm dữ liệu.
Việc thu giảm dữ liệu sẽ thu được một biểu diễn thu gọn, mà nó vẫn sinh ra cùng
(hoặc xấp xỉ) các kết quả khai phá như tập dữ liệu ban đầu.
Chiến lược thu giảm:
- Giảm số chiều (dimensuinality reduction), loại bỏ bớt các thuộc tính khống
(ít) quan trọng.
- Giảm lượng dữ liệu (data/numberosity reduction)
+ Kết hợp khối dữ liệu
+ Nén dữ liệu
+ Hồi quy
+ Rời rạc hóa.
Sau khi xem xét kỹ lưỡng dữ liệu trên thì nhóm cho rằng dữ liệu trên không cần
phải thu giảm bởi vì dữ liệu trên nhỏ và các giá trị trên đều cần thiết (không thể
lược bỏ thêm) cho mục đích thống kê tình hình khách quốc tế đến Việt Nam.
8
IV.
TÀI LIỆU THAM KHẢO
Data Mining Concepts and Techniques - Third Edition by Jiawei Han, Micheline
Kamber, Jian Pei
Data Mining with SQL Server 2008
/>%87u_-_data_mining
9
MỤC LỤC HÌNH ẢNH
Hình 1: Dữ liệu tình hình khách quốc tế đến Việt Nam tháng
7năm 2014...............................................................................3
Hình 2: Bảng thống kê tình hình khách du lịch quốc tế sau khi
được làm sạch..........................................................................5
Hình 3: Bảng thống kê sau khi tích hợp dữ liệu........................6
Hình 4: Dữ liệu sau khi biến đổi dữ liệu....................................7
10