Tải bản đầy đủ (.docx) (69 trang)

BT2 Phân tích dữ liệu kinh doanh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.63 MB, 69 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
__________________________

BÁO CÁO LAB 2

Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH

Giảng viên hướng dẫn:

TS. Nguyễn Đình Thuân

Nhóm thực hiện:
Nhóm 5Girls: -

Nguyễn Thị Cẩm Hoài – 17520499

-

Phạm Huỳnh Mỹ Hạnh – 17520433

-

Hồ Thị Ngọc Huyền – 17520596

-

Trương Thị Mỹ Linh – 17520692

-



Trà Thảo Nguyên - 17520831

TP HCM, Ngày 12 tháng 03 năm 2020


Mục lục

2


I.

BÀI 2: CADSOFT TECHNICAL SUPPORT RESPONSE TIMES

1.Sử dụng R thực hiện các phép tính về Suy diễn Thống kê (Statistical Inference):
1.1. Nhập dữ liệu:
- Dùng lệnh setwd() để chuyển về thư mục chứa file csv cần phân tích.

-

Dùng lệnh read.csv() để nhập dữ liệu vào và gán cho tên lab2a.

-

Lưu lại và dùng lệnh attach() để đọc dữ liệu thực thi.

-

Kiểm tra dữ liệu.


1.2. Kiểm định trung bình một tổng thể (One sample Hypothesis Test):
- Giả thuyết đặt ra như sau:
H0: Giá trị trung bình của biến Time..min.=20
H1: Giá trị trung bình của biến Time..min.≠20
- Sử dụng lệnh t.test() để kiểm định với:
3


• Time..min là biến số cần kiểm định.
• Mu=20 là giá trị giả thuyết

-

Nhận xét:
Trong lệnh trên Time..min. là biến số chúng ta cần kiểm định, và mu=20 là giá
trị giả thiết
R trình bày trị số t = 0.64987, với 43 bậc tự do.
R cũng cho biết độ tin cậy 95% của Time..min. là từ 15.98474 đến 27.83344
(thời gian bằng 20 nằm trong khoảng tin cậy này).
Trị số p=0.519>α=0.05
Vậy ta bác bỏ giả thuyết H0

2. Sử dụng SPSS thực hiện các phép tính về Suy diễn Thống kê (Statistical
Inference):
2.1. Nhập dữ liệu:
- Để tạo dataset mới chọn New Dataset, chọn OK.

4



5

-

Chọn File -> Open -> Data để mở file Cadsoft technical support response
times

-

Tiếp tục chọn file Cadsoft technical support response times.xlxs, rồi OK.


-

Chọn Read variable names from the first row of data, rồi OK.

-

Nhập dữ liệu xong.

2.2. Kiểm định trung bình một tổng thể (One sample Hypothesis Test):
- Giả thuyết đặt ra như sau:
H0: Giá trị trung bình của biến Time..min.=20
H1: Giá trị trung bình của biến Time..min.≠20
- Chọn Analyze -> Compare Means->One-Sample T Test

6



7

-

Tiếp tục chọn cột cần kiểm định vào Test variable và giá trị kiểm định vào
Test Value.

-

Vào Option kiểm tra mức ý nghĩa.


-

-

-

8

Sau khi nhấn OK ta được kết quả như sau.

Nhận xét:
Trong bảng One-Sample Statistics tính toán thống kê của Time(min)
• Mẫu: N=44
• Giá trị trung bình: Mean=21.909
• Độ lệch chuẩn: Std. Deviation=19.4862
• Sai số tiêu chuẩn của giá trị trung bình: Std. Error Mean=2.9377
Trong bảng One-Sample Test kết quả kiểm định thu được
• Giá trị t =0.650

• Bậc tự do: df=n-1=43
• Giá trị p-value: Sig.=0.519
• Khoảng cách giữa Giá trị trung bình và giá trị kiểm định: Mean
Difference=1.9091


-

9

• Khoảng tin cậy cho độ chênh lệch trung bình tổng thể của t và Test
Value là [-4.015; 7.833], điều đó cho chúng ta thấy thời giant trung bình
phải lớn hơn 20.
Sig.=0.519 >α=0.05 bác bỏ H0


II. BÀI 2: VACATION SURVEY
1. Sử dụng SPSS thực hiện các phép tính về Suy diễn Thống kê (Statistical
Inference):
1.1.Kiểm định về trung bình một tổng thể:
1.1.1 Có thể cho rằng độ tuổi trung bình của khách du lịch (ký hiệu là µ) là 35 hay
không?
- Cặp giả thuyết đặt ra như sau:
H0: µ = 35
H1: µ # 35
- Tiến hành:
Analyze  Compare Means  One-Sample T Test

10


-

Đưa biến Age vào khung Test Variable, khai báo giá trị cần so sánh của trung
bình tổng thể vào ô Test Value.

-

Chọn Options để chọn độ tin cậy cho khoảng ước lượng, sau đó ấn Continue và
OK.


11

-

Kết quả:

-

Nhận xét:
Trong bảng One-Sample Statistic, ta có giá trị trung bình của mẫu là 38.68 tuổi
và độ lệch chuẩn là 7,858
Trong bảng One-Sample Test, biến Age có 34 quan sát nên độ tự do trong cột
df=33, giá trị kiểm định t =2.728 , giá trị p-value (Sig. (2-tailed)) cho kiểm
định hai phía (2-tailed) này là 0.01 < 5% nên ta bác bỏ giả thuyết H0. Sự khác
biệt trung bình = Trung bình mẫu quan sát -Trung bình giả thuyết = 38,68 –35
= 3.68
Căn cứ vào chênh lệch dương giữa trung bình mẫu và giá trị Test Value = 35,
ta cho rằng độ tuổi trung bình của các khách du lịch trên 35. Khoảng tin cậy
95% cho sự khác biệt giữa các trung bình từ 0.93 -> 6.42 cho biết ước lượng



khoảng với độ tin cậy 95% cho độ tuổi trung bình của khách du lịch là (35.93,
41.42). Qua đó có thể thấy khách du lịch tập trung trong độ tuổi trưởng thành.
I.2.2 Có thể cho rằng số lượng kỳ nghỉ trung bình của khách du lịch trong năm (ký hiệu là
µ) là 3 hay không?
- Cặp giả thuyết đặt ra như sau:
H0 : µ = 3
H1 : µ # 3
- Tiến hành:
Analyze  Compare Means  One-Sample T Test

12

-

Đưa biến Number of Vacations per Year vào khung Test Variable, khai báo giá
trị cần so sánh của trung bình tổng thể vào ô Test Value.

-

Chọn Options để chọn độ tin cậy cho khoảng ước lượng, sau đó ấn Continue và
OK.


-

Kết quả:

Nhận xét:

Trong bảng One-Sample Statistic, ta có giá trị trung bình của mẫu là 2,85 và độ
lệch chuẩn là 1,844
Trong bảng One-Sample Test, biến có 34 quan sát nên độ tự do trong cột
df=33, giá trị kiểm định t = -0.465 , giá trị p-value (Sig. (2-tailed)) cho kiểm
định hai phía (2-tailed) này là 0.645< 5% .Vậy ta chấp nhận giả thuyết H0
Sự khác biệt trung bình = Trung bình mẫu quan sát -Trung bình giả thuyết =
2,85–3 = = - 0.65. Khoảng tin cậy 95% cho sự khác biệt giữa các trung bình từ
-0.79-> 0.5 cho biết ước lượng khoảng với độ tin cậy 95% cho số lượng kỳ
nghỉ trung bình trong năm của khách du lịch là (2.1, 3.5). Qua đó có thể thấy
khách du lịch có khoảng 3 kỳ nghỉ trong năm.
1.2. Kiểm định mối liên hệ hai biến định danh, hay định danh-thứ bậc:
1.2.1 Kiểm định xem giữa biến Gender và Number of Vacations per Year.
- Giả thuyết đặt ra như sau:
13


-

14

H0: Gender và Number of Vacations per Year không có mối quan hệ
H1: Gender và Number of Vacations per Year có mối quan hệ
Tiến hành:
Vào Analyze -> Descriptive Statistics -> Crosstabs

-

Đưa biến thứ nhất Gender vào Row và biến thứ hai Number of Vacations per
Year vào Column.


-

Chọn Statistics, sau đó đánh dấu vào ô Chi-square


-

15

Nhấn Continue trở lại giao diện Crosstabs, chọn Cells. Trong khung Count của
Cell Display, Observed là số lượng thực tế quan sát, Expected là số lượng kì
vọng


-

Chọn Continue để quay lại Crosstabs và nhấn OK. Ta được 3 bảng kết quả:

-

Nhận xét:
Trong bảng Chi-Square Tests, trên dòng Pearson Chi-Square ta thấy p-giá trị =
0.003 rất nhỏ <5%. Ta bác bỏ giả thuyết H0 rằng không có mối liên hệ giữa
Gender và Number of Vacations per Year. Kiểm định có ý nghĩa khi có không
quá 20% số tần số kỳ vọng nhỏ hơn 5. Dòng chữ nhỏ phía cuối bảng cho biết
số tần số kỳ vọng dưới 5 có 14 ô chiếm 87.5%.

1.2.2 Kiểm định xem giữa biến Relationship Status và Number of Vacations per Year.
- Giả thuyết đặt ra như sau:
H0: Relationship Status và Number of Vacations per Year không có mối quan

hệ
H1: Relationship và Number of Vacations per Year có mối quan hệ
- Tiến hành:
Vào Analyze -> Descriptive Statistics -> Crosstabs

16


17

-

Đưa biến thứ nhất Relationship Status vào Row và biến thứ hai Number of
Vacations per Year vào Column.

-

Chọn Statistics, sau đó đánh dấu vào ô Chi-square


-

18

Nhấn Continue trở lại giao diện Crosstabs, chọn Cells. Trong khung Count của
Cell Display, Observed là số lượng thực tế quan sát, Expected là số lượng kì
vọng


-


19

Chọn Continue để quay lại Crosstabs và nhấn OK. Ta được 3 bảng kết quả:


-

Nhận xét:
Trong bảng Chi-Square Tests, trên dòng Pearson Chi-Square ta thấy p-giá trị =
0.043 < α = 0.05. Ta bác bỏ giả thuyết H0 rằng không có mối liên hệ giữa
Relationship Status và Number of Vacations per Year. Kiểm định có ý nghĩa khi
có không quá 20% số tần số kỳ vọng nhỏ hơn 5. Dòng chữ nhỏ phía cuối bảng
cho biết số tần số kỳ vọng dưới 5 có 15 ô chiếm 93.8%.
1.2.3 Kiểm định xem giữa biến Number of Children và Number of Vacations per Year.
- Giả thuyết đặt ra như sau:
H0: Number of Children và Number of Vacations per Year không có mối quan
hệ
H1: Number of Children và Number of Vacations per Year có mối quan hệ
- Tiến hành:
Vào Analyze -> Descriptive Statistics -> Crosstabs

-

20

Đưa biến thứ nhất Num of Chirdren vào Row và biến thứ hai Number of
Vacations per Year vào Column.



-

21

Chọn Statistics, sau đó đánh dấu vào ô Chi-square


22

-

Nhấn Continue trở lại giao diện Crosstabs, chọn Cells. Trong khung Count của
Cell Display, Observed là số lượng thực tế quan sát, Expected là số lượng kì
vọng

-

Chọn Continue để quay lại Crosstabs và nhấn OK. Ta được 3 bảng kết quả:


-

Nhận xét:
Trong bảng Chi-Square Tests, trên dòng Pearson Chi-Square ta thấy p-giá trị =
0.627 > α = 0.05. Ta chấp nhận giả thuyết H0 rằng không có mối liên hệ giữa
Number of Children và Number of Vacations per Year. Kiểm định có ý nghĩa
khi có không quá 20% số tần số kỳ vọng nhỏ hơn 5. Dòng chữ nhỏ phía cuối
bảng cho biết số tần số kỳ vọng dưới 5 có 48 ô chiếm 100%.
1.3. Kiểm định trung bình hai tổng thể :
- Người độc thân/ ly dị có nhiều kỳ nghỉ hơn (3.9 với 2.417). Vậy đây là sự khác

biệt hệ thống hay là yếu tố ngẫu nhiên gây nên.
H : µ1 = µ2
K : µ1 # µ1
- Tiến hành:
- Trước tiên chúng ta cần tạo một biến nhóm mới, bởi vì biến nhóm hiện tại
trong tập dữ liệu bao gồm văn bản khá dài. Trong SPSS, a two-sample t-test
phải được thực hiện với biến nhóm có chứa các giá trị số hoặc văn bản rất
ngắn. Vì vậy, chúng ta cần tạo một biến mới có 1 cho người trong Relationship
Status: Married, và 2 cho người trong Relationship Status: Single/Divorced,
được gọi là biến giả
- Vào Transform -> Recode into Different Variables

23


24

-

Chọn Relationship Status vào ô Input Variable -> Output variable.

-

Nhập Name và Label và nhấn nút Change


25

-


Kích chuột vào ô Old and New values. Mã hóa lại các nhóm của mình thành 1
và 2, nhập Married vào hộp Old value và nhập 1 vào new Value Sau đó, nhấn
Add.

-

Làm tương tự như vậy với single/Divorced


×