Tải bản đầy đủ (.docx) (59 trang)

BT3 Phân tích dữ liệu kinh doanh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.38 MB, 59 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
__________________________

BÁO CÁO LAB 3
Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH

Giảng viên hướng dẫn:

PGS.TS. Nguyễn Đình Thuận

Nhóm thực hiện:
Nhóm 8: - Nguyễn Thị Cẩm Hoài – 17520499
-

Phạm Huỳnh Mỹ Hạnh – 17520433

-

Hồ Thị Ngọc Huyền – 17520596

-

Trương Thị Mỹ Linh – 17520692

-

Trà Thảo Nguyên - 17520831

TP HCM, Ngày 19 tháng 04 năm 2020




Nhóm 8

Mục lục

2


Nhóm 8

I.

Tập dữ liệu “Insurance Survey”

1.Sử dụng R
1.1. Nhập dữ liệu:
- Dùng lệnh setwd() để chuyển về thư mục chứa file csv cần phân tích.

3

-

Dùng lệnh read.csv() để nhập dữ liệu vào và gán cho tên bt3.

-

Lưu lại và dùng lệnh attach() để đọc dữ liệu thực thi.

-


Kiểm tra dữ liệu.


Nhóm 8

1.2. Kiểm định Chi Square về tính độc lập của 2 biến định danh
- Giả thuyết đặt ra như sau:
H0: Marial Status và Education không có mối quan hệ.
H1: Marial Status và Education có mối quan hệ.
- Sử dụng lệnh chiq.test() để kiểm định với Marial Status và Education:
-

Nhận xét:
- Giá trị Chi Square là 7.5709
- Giá trị bậc tự do df là 6
- Giá trị sig là 0.2713 >0.05 vậy nên ta chấp nhận H0, nghĩa là không có
mối liên hệ giữa Marital Status và Education
I.3.

Kiểm định giả thuyết về trị trung bình của 2 tổng thể độc lập:

-

Ta kiểm định mối quan hệ giữa Satisfaction và Gender

-

Nhận xét:
Ta thấy p-value=0.9758>0.05 nên không1.4 có sự khác biệt có ý nghĩa về

trung bình của 2 tổng thể.

Giả thuyết đặt ra như sau:
H0: Không có sự khác nhau về phương sai 2 tổng thể.
H1: Có sự khác nhau về phương sai 2 tổng thể.
- Sử dụng lệnh t.test()

4


Nhóm 8

Kiểm định phương sai ANOVA:
- Ta kiểm định mối quan hệ giữa Years Employed và Satisfaction.
- Giả thuyết đặt ra như sau:
I.4.

H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa.
H1: Phương sai các nhóm khác nhau một cách có ý nghĩa.
-

Sử dụng lệnh anova

-

Nhận xét:
Ta thấy p-value=0.4795>0.05 nên chấp nhận giả thuyết H0

2. Sử dụng SPSS thực hiện về ANOVA và kiểm định Chi Square về tính độc
lập của 2 biến định danh với tập tin dữ liệu: Insurance Survey:

2.1. Nhập dữ liệu:
- Để tạo dataset mới chọn New Dataset, chọn OK.

5


Nhóm 8

6

-

Chọn File -> Open -> Data để mở file 0. Insurance Survey.xlxs

-

Tiếp tục chọn file 0. Insurance Survey.xlxs, rồi OK.


Nhóm 8

7

-

Chọn Read variable names from the first row of data, rồi OK.

-

Nhập dữ liệu xong.



Nhóm 8

2.2. Biến đổi dữ liệu:
- Thêm Values Label để mã hóa số liệu:
• Ở cột Marital Status

• Ở cột Education:

8


Nhóm 8

2.3. Kiểm định Chi Square về tính độc lập của 2 biến định danh:
- Giả thuyết đặt ra như sau:
H0: Marial Status và Education không có mối quan hệ.
H1: Marial Status và Education có mối quan hệ
-

Tiến hành:

Vào Analyze  Descriptive Statistics  Crosstabs

Đưa Marital Status vào Rows và Education vào Columns.

9



Nhóm 8

Chọn Statistics, sau đó đánh dấu vào ô Chi-square

10


Nhóm 8

Nhấn Continue trở lại giao diện Crosstabs, chọn Cells. Trong khung Counts,
chọn Observed nếu muốn hiển thị tần số quan sát trong bảng chéo, chọn
Expected nếu muốn hiển thị tần số lý thuyết trong bảng chéo.

-

11

Kết quả hiện ra:


Nhóm 8

-

Nhận xét: Trong bảng Chi-Square Tests
• Giá trị Chi Square là 7.571
• Giá trị bậc tự do df là 6
• Giá trị sig là 0.271 >0.05 vậy nên ta chấp nhận H0, nghĩa là
không có mối liên hệ giữa Marital Status và Education
• Có 10 ô(83,8%) có tần suất mong đợi dưới 5.


2.4. Kiểm định giả thuyết về trị trung bình của 2 tổng thể độc lập:
- Ta kiểm định mối quan hệ giữa Satisfaction và Gender
- Giả thuyết đặt ra như sau:
H0: Không có sự khác nhau về phương sai 2 tổng thể.
H1: Có sự khác nhau về phương sai 2 tổng thể.
12


Nhóm 8

13

-

Tiến hành:
Analyze  Compare Means  Independent-samples T-test.

-

Đưa Satisfaction vào Test Variable và Gender vào Grouping Variable

-

Vào Options chọn Confidence Interval Percentage là 95.


Nhóm 8

-


Vào Define Groups. Điền vào Group 1 là F, Group 2 là M.

Chọn Continue và OK
- Kết quả:
-

14


Nhóm 8

-

Nhận xét:
• Dựa vào bảng kết quả, giá trị p-value trong kiểm định
Levene = 0.882 > 0.05, nên chấp nhận giả thuyết H0 không có sự
khác nhau về phương sai 2 tổng thể, ta sử dụng kết quả kiểm định
dòng Equal variances assumed. Ta có: p-value = 0.976 > 0.05 tức
là không có sự khác biệt có ý nghĩa về trung bình của 2 tổng thể.

2.4. Kiểm định phương sai ANOVA:
- Ta kiểm định mối quan hệ giữa Years Employed và Satisfaction.
- Giả thuyết đặt ra như sau:
H0: Phương sai các nhóm không khác nhau một cách có ý nghĩa.
H1: Phương sai các nhóm khác nhau một cách có ý nghĩa.
- Tiến hành:
Analyze  Compare Means  One-Way ANOVA.

15



Nhóm 8

Đưa biến định lượng (trị trung bình) vào Dependent List và biến phân loại xác
định các nhóm cần so sánh với nhau vào Factor.

Chọn Option, trong đó ta chọn Descriptive để tính đại lượng thống kê mô tả
(tính trị trung bình) theo từng nhóm so sánh, chọn Homogeneity of variance test
để kiểm định sự bằng nhau của các phương sai nhóm (thực hiện kiểm định
Levene).
Chọn Continue và OK.

16


Nhóm 8

Kết quả:

17


Nhóm 8

Nhận xét:
Trong bảng Test of Homogeneity of Variances, p-value=0.231>0.05 nên chấp
nhận giả thuyết H0
Vậy nên không có sự khác biệt có ý nghĩa giữa các nhóm với nhau.


18


Nhóm 8

II.

Tập dữ liệu “Energy Drink Survey”

1

Sử dụng SPSS

1.1. Chuyển

19

đổi dữ liệu

-

Chuyển đổi dữ liệu Gender và Brand Preference sang Numeric

-

Trong cột Values của bảng Gender: Male = 1, Female = 2.

-

Trong cột Values của bảng Brand Preference: Brand 1 = 1, Brand 2 =

2, Brand 3 = 3.


Nhóm 8

1.2. Kiểm

định Chi Square

a)

Đặt vấn đề

-

Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference.

-

Giả thuyết đặt ra như sau:

+ H0: Gender và Brand Preference không có mối quan hệ.
+ H1: Gender và Brand Preference có mối quan hệ.

20

b)

Tiến hành:


-

Vào Analyze và Descriptive Statistics và Crosstabs.

-

Đưa biến thứ nhất Gender vào Row và biến thứ hai Brand Preference
vào Column.


Nhóm 8

-

21

Chọn Statistics, sau đó đánh dấu vào ô Chi-square


Nhóm 8

22

-

Nhấn Continue trở lại giao diện Crosstabs, chọn Cells. Trong khung
Count của Cell Display, chọn Observed nếu muốn hiển thị tần số quan
sát trong bảng chéo, chọn Expected nếu muốn hiển thị tần số lý thuyết
trong bảng chéo.


c)

Kết quả:

-

Chọn Continue để quay lại Crosstabs và nhấn OK. Ta được 3 bảng kết
quả:


Nhóm 8

d)

Kết luận:

Trong bảng Chi-Square Tests, trên dòng Pearson Chi-Square ta thấy p-giá
trị = 0.039 < α = 0.05. Ta bác bỏ giả thuyết H0. Có nghĩa là có mối liên
hệ giữa Gender và Brand Preference. Kiểm định có ý nghĩa khi có không
quá 20% số tần số lý thuyết nhỏ hơn 5. Dòng chữ nhỏ phía cuối bảng cho
biết số tần số kỳ vọng dưới 5 có 0 ô chiếm 0% nên giá trị Chi - Bình
phương là đáng tin cậy.
1.3. Kiểm

23

định giả thuyết về trị trung bình của 2 tổng thể độc lập


Nhóm 8


a)

Đặt vấn đề

-

Ta kiểm định mối quan hệ giữa biến Gender và Brand Preference.

-

Giả thuyết đặt ra như sau:

+ H0: Không có sự khác nhau về phương sai 2 tổng thể.
+ H1: Có sự khác nhau về phương sai 2 tổng thể.
b)

Tiến hành

- Analyze à Compare Means à Independent-samples T-test.

- Đưa Brand Preference vào ô Test Variable(s). Gender vào ô Grouping
Variable.

24


Nhóm 8

- Chọn Define Groups. Điền vào Group 1 là 1, Group 2 là 2.


c)
-

25

Kết quả:
Chọn Continue và OK. Ta được kết quả sau:


×