Bài tập về Thống kê trong kinh doanh
Đề tài:
Để nghiên cứu về tỷ lệ người dân tử vong vì các bệnh liên quan đến
tim mạch, một nhóm nghiên cứu tại 1 trường Đại học của Mỹ đã
thu thập số liệu tại các Bang trên toàn nước Mỹ về số người tử
vong và một số số liệu về kinh tế xã hội liên quan. Bảng số liệu
được cho dưới đây:
State
AL
AK
AZ
AR
CA
CO
CT
DE
FL
GA
HI
ID
IL
IN
IA
KS
KY
LA
ME
MD
MA
MI
MN
MS
MO
MT
NE
NV
Số người
chết
307.1
90.9
226.0
325.9
217.0
158.3
278.1
266.9
340.4
225.9
203.3
202.3
275.3
280.4
303.2
262.8
305.4
274.6
272.8
233.6
257.0
280.8
199.6
337.2
328.7
232.1
269.9
233.9
Tuổi 65
13.0
5.7
13.0
14.0
10.6
9.7
13.8
13.0
17.6
9.6
13.3
11.3
12.1
12.4
14.9
13.3
12.5
11.6
14.4
11.3
13.5
12.3
12.1
12.1
13.5
13.4
13.6
11.0
Thu
Tỷ lệ da
nhập
23.471
30.064
25.578
22.257
32.275
32.949
40.640
31.255
28.145
27.940
28.221
24.180
32.259
27.011
26.723
27.816
24.294
23.334
25.623
33.872
37.992
29.612
32.101
20.993
27.445
22.569
27.829
30.529
màu
26.0
3.5
3.1
15.7
6.7
3.8
9.1
19.2
14.6
28.7
1.8
0.4
15.1
8.4
2.1
5.7
7.3
32.5
0.5
27.9
5.4
14.2
3.5
36.3
11.2
0.3
4.0
6.8
Vùng
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
2
2
1
NH
NJ
NM
NY
NC
ND
OH
OK
OR
PA
RI
SC
SD
TN
TX
UT
VT
VA
WA
WV
WI
WY
229.0
288.5
198.4
324.2
250.8
289.3
294.9
335.4
219.0
347.7
303.6
256.9
276.1
296.9
216.6
130.8
226.0
223.0
200.0
377.5
263.3
210.4
12.0
13.2
11.7
12.9
12.0
14.7
13.3
13.2
12.8
15.6
14.5
12.1
14.3
12.4
9.9
8.5
12.7
11.2
11.2
15.3
13.1
11.7
33.332
36.983
22.203
34.547
27.194
25.068
28.400
23.517
28.350
29.539
29.685
24.321
26.115
26.239
27.871
23.907
26.901
31.162
31.528
21.915
28.232
27.230
0.7
13.6
1.9
15.9
21.6
0.6
11.5
7.6
1.6
10.0
4.5
29.5
0.6
16.4
11.5
0.8
0.5
19.6
3.2
3.2
5.7
0.8
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
Trong đó:
-
Số người chết: Số lượng người chết liên quan tới các bệnh về tim mạch trong
100.000 dân
-
Tuổi 65: Phần trăm dân số từ 65 tuổi trở lên
-
Thu nhập: Thu nhập bình quân tính bằng nghìn đô la
-
Tỷ lệ da mầu: phần trăm dân số là người da mầu.
-
Vùng: Các bang được chia thành 2 vùng nghiên cứu là Vùng 1 và Vùng 2
Hãy sử dụng các số liệu trên đây để trả lời các câu hỏi sau:
1.
Sử dụng các mô tả thống kê thích hợp để nhận xét về các biến trong số liệu trên.
2.
Sử dụng đồ thị thích hợp và hệ số tương quan để nhận xét về mối quan hệ giữa số
lượng người chết do các bệnh liên quan đến tim mạch với từng biến còn lại. Từ đó
có nhận định nếu thiết lập mô hình hồi quy tuyến tính với biến phụ thuộc là số người
chết thì biến nào trong số các biến còn lại ở trên có thể ảnh hưởng đến biến phụ
thuộc (không cần phân biệt vùng).
2
3.
Hãy ước lượng khoảng tin cậy cho số người chết trung bình cho các bang ở vùng
1 và vùng 2.
4.
Hãy so sánh số người chết trung bình cho các bang ở vùng 1 và vùng 2 (dùng
kiểm định). Kết quả so sánh có tương đồng với so sánh về thu nhập không?
5.
Ước lượng mô hình hồi quy tuyến tính với biến phụ thuộc là số người chết, biến
độc lập là các biến còn lại (không phân theo vùng):
a.
Giải thích ý nghĩa của các hệ số hồi quy và hệ số R2.
b.
Dùng kiểm định thích hợp cho biết những biến độc lập nào có ảnh hưởng và
không ảnh hưởng đến biến phụ thuộc? Từ đó có thể đưa ra nhận định gì về các yếu
tố có thể tác động đến tỷ lên người chết do các bệnh tim mạch. Liệu còn có các yếu
tố nào khác có thể ảnh hưởng đến tỷ lệ người chết này?
c.
Dùng kiểm định F cho biết liệu mô hình có ý nghĩa hay không? Nếu ý nghĩa của
kết quả nhận được.
d.
Hãy dự báo tỷ lệ người chết ở 1 bang có các biến độc lập lần lượt là:
15% từ 65 tuổi trở lên, 25000usd thu nhập trung bình, 4% da màu.
Giải thích ý nghĩa kết quả nhận được.
Bài làm:
Để trả lời câu hỏi, các thành viên của nhóm I đã sử dụng phần mền Megastat để phần
tích số liệu, sau đó sử dụng kết quả từ phần mền tính toán để trả lời các câu hỏi.
1. Sử dụng các mô tả thống kê thích hợp để nhận xét về các biến trong số liệu trên.
1.1 Số lượng người chết vì các bệnh liên quan đến tim mạch.
Từ phần mềm Megastat/Descriptive statistics, sau đó ta nhập số liệu số người chết vào
bảng. Ta có bảng số liệu như sau.
Descriptive statistics
Count
Mean
sample variance
sample standard deviation
Minimum
Số người chết
50
258.954
3,191.835
56.496
90.9
3
Maximum
Range
377.5
286.6
Skewness
Kurtosis
coefficient of variation (CV)
-0.482
0.681
21.82%
1st quartile
Median
3rd quartile
interquartile range
Mode
223.725
265.100
296.400
72.675
226.000
Nhận xét:
Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang.
- Số lượng người chết vì các bệnh liên quan đến tim mạch ở một bang của Mỹ
trung bình là 259 người trong 100.000 dân. Số lượng người chết vì các bệnh liên quan
đến tim mạch trung vị là 265.100. Như vậy, có 50% số bang được nghiên cứu có Số
lượng người chết vì các bệnh liên quan đến tim mạch thấp hơn 265.1 người và 50% số
bang được nghiên cứu có Số lượng người chết vì các bệnh liên quan đến tim mạch lớn
hơn 265.1 người. Số lượng người chết vì các bệnh liên quan đến tim mạch trung bình ở
một bang xấp xỉ trung vị cho thấy mẫu nghiên cứu có phân phối khá cân xứng.
- Độ lệch chuẩn mẫu là: 56.496 cho thấy độ lệch của phân phối.
- Một số bang có Số lượng người chết vì các bệnh liên quan đến tim mạch như nhau
nhưng Số lượng người chết vì các bệnh liên quan đến tim mạch phổ biến nhất (có tần số
lớn nhất) là 226 người trong 100.000 dân. Số lượng người chết vì các bệnh liên quan đến
tim mạch ở một bang thấp nhất là: 90.9 người trong 100.000 dân. Số lượng người chết vì
các bệnh liên quan đến tim mạch ở một bang cao nhất là: 377.5 trong 100.000 dân.
Khoảng biến thiên thực tế là 286.6.
Biểu đồ thể hiện tần suất của Số lượng người chết vì các bệnh liên quan đến tim
mạch ở một bang của Mỹ
Từ phần mền Megastat/Frequency Distribution/Quantitative, ta nhập số liệu số người
chết vào bảng, từ đó ta có bảng số liệu sau:
4
Frequency Distribution - Quantitative
Số người chết
uppe midpoin
lowe
r
50
100
150
200
250
300
350
<
<
<
<
<
<
<
r
100
150
200
250
300
350
400
t
75
125
175
225
275
325
375
widt
frequenc
percen
h
50
50
50
50
50
50
50
y
1
1
3
15
18
11
1
t
2.0
2.0
6.0
30.0
36.0
22.0
2.0
50
100.0
cumulative
frequenc percen
y
1
2
5
20
38
49
50
t
2.0
4.0
10.0
40.0
76.0
98.0
100.0
Căn cứ vào bảng phân bố tần suất ở trên, ta thấy: Số lượng người chết vì các bệnh
liên quan đến tim mạch ở các bang của nước Mỹ phổ biến là từ 200 – 350 người trong
tổng số 100.000 dân (chiếm tỷ lệ 88%).
Đồ thị phân bố tần số của biến Số người chết khá cân đối, tập trung ở giữa. Tuy
nhiên, độ lệch (Sknewness) của biểu đồ là -0.482 < 0 chỉ ra rằng phân phối có hướng
lệch trái.
5
1.2. Phần trăm dân số từ 65 tuổi trở lên
Từ phần mềm Magastat/Descriptive Statistics. Ta nhập số liệu phần dân số từ 65
tuổi trở lên, từ đó ta có bảng số liệu như sau :
Descriptive statistics
Count
Mean
sample variance
sample standard deviation
Minimum
Maximum
Range
Skewness
Kurtosis
coefficient
Tuổi 65
50
12.538
3.628
1.905
5.7
17.6
11.9
-0.741
3.078
of
variation
(CV)
15.19%
1st quartile
Median
3rd quartile
interquartile range
Mode
11.700
12.750
13.475
1.775
12.100
Nhận xét:
Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang.
- Phần trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ trung bình là 12.538%. Phần
trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ trung vị là 12.75%. Như vậy, có 50%
số bang được nghiên cứu có Phần trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ thấp
hơn 12.75% và 50% số bang được nghiên cứu có Phần trăm dân số từ 65 tuổi trở lên ở
một bang của Mỹ lớn hơn 12.75%. Phần trăm dân số từ 65 tuổi trở lên ở một bang của
Mỹ ở một bang xấp xỉ trung vị cho thấy mẫu nghiên cứu có phân phối khá cân xứng.
- Độ lệch chuẩn mẫu là: 1.905% cho thấy độ lệch của phân phối.
- Một số bang có Phần trăm dân số từ 65 tuổi trở lên như nhau nhưng Phần trăm dân
số từ 65 tuổi trở lên ở một bang của Mỹ phổ biến nhất (có tần số lớn nhất) là 12.1%. Phần
trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ thấp nhất là: 5.7%. Phần trăm dân số từ
6
65 tuổi trở lên ở một bang của Mỹ cao nhất là: 17.6%. Khoảng biến thiên thực tế là
11.9%.
Biểu đồ thể hiện tần suất của Phần trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ
Frequency Distribution - Quantitative
lowe
Tuổi 65
uppe
r
5.0
6.0
7.0
8.0
9.0
10.0
11.0
12.0
13.0
14.0
15.0
16.0
17.0
r
6.0
7.0
8.0
9.0
10.0
11.0
12.0
13.0
14.0
15.0
16.0
17.0
18.0
<
<
<
<
<
<
<
<
<
<
<
<
<
midpoin
widt
frequenc
percen
t
5.5
6.5
7.5
8.5
9.5
10.5
11.5
12.5
13.5
14.5
15.5
16.5
17.5
h
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
y
1
0
0
1
3
1
8
13
14
6
2
0
1
t
2.0
0.0
0.0
2.0
6.0
2.0
16.0
26.0
28.0
12.0
4.0
0.0
2.0
50
100.0
cumulative
frequenc percen
y
1
1
1
2
5
6
14
27
41
47
49
49
50
t
2.0
2.0
2.0
4.0
10.0
12.0
28.0
54.0
82.0
94.0
98.0
98.0
100.0
Căn cứ vào bảng phân bố tần suất ở trên, ta thấy: Phần trăm dân số từ 65 tuổi trở
lên ở các bang của nước Mỹ phổ biến là từ 11 – 15% (chiếm tỷ lệ 82%).
Kết luận: Dựa vào kết quả điều tra, chính quyền có thể xem xét xây dựng các
chính sách ưu đãi dành cho người già như xây dựng thêm các bệnh viện, viện dưỡng lão
để đảm bảo người già được chăm sóc sức khỏe tốt nhất hoặc xây dựng mức phân bổ các
quỹ phúc lợi dành cho người già tại các bang cho phù hợp với tỷ lệ người già hiện tại ….
7
Đồ thị phân bố tần số của biến Phần trăm dân số từ 65 tuổi trở lên khá cân đối, tập
trung ở giữa. Tuy nhiên, độ lệch (Sknewness) của biểu đồ là -0.741 < 0 chỉ ra rằng phân
phối có hướng lệch trái hơn lệch phải.
1.3. Thu nhập bình quân của người dân tính bằng nghìn USD
Từ phần mền Megastat/Descriptive statistics. Sau đó ta nhập dữ liệu thu nhập vào bảng,
từ đó ta có bảng số liệu sau.
Descriptive statistics
Thu
count
mean
sample variance
sample standard deviation
minimum
maximum
range
skewness
kurtosis
coefficient
(CV)
nhập
50
28.82432
38.33179
6.19127
20.993
59.685
38.692
2.71490
11.83641
of
variation
21.48%
8
1st quartile
median
3rd quartile
interquartile range
mode
25.19550
27.85000
31.23175
6.03625
#N/A
Nhận xét.
Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang.
- Thu nhập bình quân của người dân ở một bang của Mỹ trung bình là 28.824 nghìn
USD. Thu nhập bình quân của người dân ở một bang của Mỹ trung vị là 27.85 nghìn
USD. Như vậy, có 50% số bang được nghiên cứu có Thu nhập bình quân của người dân
thấp hơn 27.85 nghìn USD và 50% số bang được nghiên cứu có Thu nhập bình quân của
người dân lớn hơn 27.85 nghìn USD. Thu nhập bình quân của người dân trung bình ở
một bang xấp xỉ trung vị cho thấy mẫu nghiên cứu có phân phối khá cân xứng.
- Độ lệch chuẩn mẫu là: 6.19 cho thấy độ lệch của phân phối.
- Thu nhập bình quân của người dân ở mỗi bang của Mỹ là khác nhau (không có
giá trị phổ biến). Thu nhập bình quân của người dân ở một bang thấp nhất là: 20.993
nghìn USD. Thu nhập bình quân của người dân ở một bang cao nhất là: 59.685 nghìn
USD. Khoảng biến thiên thực tế là 38.692 nghìn USD.
Biểu đồ thể hiện tần suất của Thu nhập bình quân của người dân ở một bang của Mỹ
Frequency Distribution - Quantitative
Thu nhập
cumulative
lowe
uppe
midpoin
widt
frequenc
percen
frequenc
percen
r
20.00
22.00
24.00
26.00
28.00
30.00
32.00
34.00
36.00
38.00
r
22.00
24.00
26.00
28.00
30.00
32.00
34.00
36.00
38.00
40.00
t
21.00
23.00
25.00
27.00
29.00
31.00
33.00
35.00
37.00
39.00
h
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00
y
2
7
6
12
7
5
6
1
2
0
t
4.0
14.0
12.0
24.0
14.0
10.0
12.0
2.0
4.0
0.0
y
2
9
15
27
34
39
45
46
48
48
t
4.0
18.0
30.0
54.0
68.0
78.0
90.0
92.0
96.0
96.0
<
<
<
<
<
<
<
<
<
<
9
40.00
42.00
44.00
46.00
48.00
50.00
52.00
54.00
56.00
58.00
<
<
<
<
<
<
<
<
<
<
42.00
44.00
46.00
48.00
50.00
52.00
54.00
56.00
58.00
60.00
41.00
43.00
45.00
47.00
49.00
51.00
53.00
55.00
57.00
59.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00
1
0
0
0
0
0
0
0
0
1
2.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
2.0
50
100.0
49
49
49
49
49
49
49
49
49
50
98.0
98.0
98.0
98.0
98.0
98.0
98.0
98.0
98.0
100.0
Căn cứ vào bảng phân bố tần suất ở trên, ta thấy: Thu nhập bình quân của người
dân ở mỗi bang của Mỹ phổ biến là từ 22 – 34 nghìn USD (chiếm tỷ lệ 86%). Trong đó,
mức thu nhập từ 26 – 28 nghìn USD chiếm tỷ lệ cao nhất đạt 24%.
Kết luận: Dựa vào kết quả điều tra, chính quyền có thể xem xét áp dụng mức phí
dịch vụ công khác nhau phù hợp với mức thu nhập bình quân tại các bang hoặc đưa ra
chính sách về viện phí và chi phí khác liên quan tới chữa bệnh phù hợp ….
Đồ thị phân bố tần số của biến Thu nhập bình quân có xu hướng tập trung ở giữa.
Tuy nhiên có một số vùng có thu nhập cao hơn hẳn các vùng còn lại, mức thu nhập từ
56.000 – 60.000 USD
10
1.4. Phần trăm dân số là người da màu.
Từ phần mềm Megastat/Descriptive statistics, sau đó ta nhập số liệu tỷ lệ da màu
vào bảng, từ đó ta có bảng số liệu như sau :
Descriptive statistics
Count
Mean
sample variance
sample standard deviation
Minimum
Maximum
Range
Tỷ lệ da màu
50
9.902
91.779
9.580
0.3
36.3
36
Skewness
Kurtosis
coefficient of variation
(CV)
1st quartile
Median
3rd quartile
interquartile range
Mode
1.130
0.453
96.75%
2.350
6.750
14.975
12.625
3.500
Nhận xét:
Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang.
- Phần trăm dân số là người da màu ở một bang của Mỹ trung bình là 9.9%. Phần
trăm dân số là người da màu ở một bang của Mỹ trung vị là 6.75%. Như vậy, có 50% số
bang được nghiên cứu có Phần trăm dân số là người da màu thấp hơn 6.75% và 50% số
bang được nghiên cứu có Phần trăm dân số là người da màu lớn hơn 6.75%. Phần trăm
dân số từ 65 tuổi trở lên ở một bang của Mỹ ở một bang lớn hơn trung vị cho thấy mẫu
nghiên cứu có phân phối lệch phải.
- Độ lệch chuẩn mẫu là: 9.58% cho thấy độ lệch của phân phối.
- Một số bang có Phần trăm dân số là người da màu như nhau nhưng Phần trăm dân
số là người da màu phổ biến nhất (có tần số lớn nhất) là 3.5%. Phần trăm dân số là người
11
da màu ở một bang của Mỹ thấp nhất là: 0.3%. Phần trăm dân số là người da màu ở một
bang của Mỹ cao nhất là: 36.3%. Khoảng biến thiên thực tế là 36%.
Biểu đồ thể hiện tần suất của Thu nhập bình quân của người dân ở một bang của Mỹ
Frequency Distribution - Quantitative
lowe
r
0
5
10
15
20
25
30
35
Tỷ lệ da màu
uppe midpoin
<
<
<
<
<
<
<
<
r
5
10
15
20
25
30
35
40
t
3
8
13
18
23
28
33
37
widt
frequenc
percen
Cumulative
frequenc percen
h
5
5
5
5
5
5
5
5
y
21
9
7
6
1
4
1
1
t
42.0
18.0
14.0
12.0
2.0
8.0
2.0
2.0
y
21
30
37
43
44
48
49
50
50
100.0
t
42.0
60.0
74.0
86.0
88.0
96.0
98.0
100.0
Căn cứ vào bảng phân bố tần suất ở trên, ta thấy: Phần trăm dân số là người da màu
ở mỗi bang của Mỹ phổ biến là từ 0 – 20% (chiếm tỷ lệ 86%). Trong đó, các bang có
Phần trăm dân số là người da màu từ 0 – 5% chiếm tỷ lệ cao nhất đạt 42%.
Kết luận: Dựa vào kết quả điều tra, chính quyền có thể xem xét áp dụng chính
sách phúc lợi, ưu tiên cho người da màu.
12
Đồ thị phân bố tần số của biến Phần trăm dân số là người da màu có dạng phân phối lệch
trái.
2. Sử dụng đồ thị và hệ số tương quan để nhận xét mối quan hệ giữa số lượng người
chết do các bệnh liên quan đến tim mạch với các biến còn lại:
2.1. Đồ thị mối quan hệ giữa Số lượng người chết do các bệnh liên quan đến tim
mạch với Phần trăm dân số từ 65 tuổi trở lên
Từ phần mền Megastat/ Correlation/ Regession/ Scatter Plot. Sau đó ta nhập số liệu số
người chết và phần trăm dân số từ 65 tuổi trở lên vào bảng, ta có bảng số liệu sau.
13
Căn cứ vào đồ thị trên, ta thấy: Đồ thị phân tán có dạng tuyến tính. Do đó, Giữa Số
lượng người chết do các bệnh liên quan đến tim mạch với Phần trăm dân số từ 65 tuổi
trở lên có mối quan hệ tỷ lệ thuận với nhau.
2.2. Đồ thị mối quan hệ giữa Số lượng người chết do các bệnh liên quan đến tim
mạch với Thu nhập bình quân của người dân
Từ phần mền Megastat/ Correlation/ Regession/ Scatter Plot. Sau đó ta nhập số
liệu số người chết và thu nhập vào bảng, ta có bảng số liệu sau.
Căn cứ vào đồ thị trên, ta thấy: Đồ thị phân tán không có dạng tuyến tính. Do đó,
Giữa Số lượng người chết do các bệnh liên quan đến tim mạch với Thu nhập bình quân
không có mối quan hệ với nhau.
1.3. Đồ thị mối quan hệ giữa Số lượng người chết do các bệnh liên quan đến tim
mạch với Phần trăm dân số là người da màu
Từ phần mền Megastat/ Correlation/ Regession/ Scatter Plot. Sau đó ta nhập số
liệu số người chết và phần trăm dân số là người da màu vào bảng, ta có bảng số liệu sau.
14
Căn cứ vào đồ thị trên, ta thấy: Đồ thị phân tán có dạng tuyến tính -> Giữa Số lượng
người chết do các bệnh liên quan đến tim mạch với Tỷ lệ da màu có mối quan hệ với
nhau.
Hệ số tương quan giữa các biến
Từ phần mền Megastat/Correlation/Regresion/Correlation Matrix, sau đó ta đưa toàn bộ
dữ liệu số người chết, tuổi 65, thu nhập, tỷ lệ da màu vào bảng, ta có bảng kết quả như
sau:
Correlation Matrix
Số người
Số người chết
Tuổi 65
Thu nhập
Tỷ lệ da màu
chết
1.000
.788
-.044
.312
Tuổi 65
1.000
.040
-.095
Thu
Tỷ lệ da
nhập
màu
1.000
-.093
1.000
Căn cứ vào bảng trên ta thấy:
- Tương quan giữa Số người chết và Phần trăm dân số từ 65 tuổi trở lên là 0.788
- Tương quan giữa Số người chết và Thu nhập bình quân là -0.044
- Tương quan giữa Số người chết và Phần trăm dân số là người da màu là 0.312
15
Như vậy, Phần trăm dân số từ 65 tuổi trở lên có ảnh hưởng lớn nhất đến sự thay đổi
của Số lượng người chết vì các bệnh liên quan đến tim mạch, sau đó đến Phần trăm dân
số là người da màu. Thu nhập bình quân không ảnh hưởng đến Số lượng người chết vì
các bệnh liên quan đến tim mạch.
3. Ước lượng khoảng tin cậy cho Số người chết trung bình cho các bang ở Vùng 1 và
Vùng 2
3.1. Số người chết trung bình cho các bang ở Vùng 1
a. Mô tả thống kê cơ bản của Số người chết tại các bang ở Vùng 1
Từ phần mền Megastat/Descriptive statistics. Sau đó ta nhập số liệu, số người
chết ở vùng 1 vào bảng, từ đó ta có bảng số liệu như sau:
Descriptive statistics
Count
Mean
sample variance
sample standard deviation
Minimum
Maximum
Range
1st quartile
Median
3rd quartile
interquartile range
Mode
Số người chết
26
257.138
3,361.783
57.981
90.9
340.4
249.5
225.925
269.850
297.600
71.675
#N/A
b. Ước lượng Số người chết trung bình cho các bang ở Vùng 1
Từ số liệu ở bảng trên, ta sử dụng Phần mền Megastat/Confidence interval –
mean, nhập số liệu vào bảng, ta có bảng số liệu sau:
Confidence interval - mean
95%
257.138
57.981
26
2.060
23.419
confidence level
mean
std. dev.
n
t (df = 25)
half-width
16
280.557 upper confidence limit
233.719 lower confidence limit
Căn cứ vào kết quả trên, chúng ta có thể ước lượng được khoảng tin cậy của Số
người chết do các bệnh liên quan đến tim mạch trung bình tại các bang Vùng 1 là nằm
trong khoảng (233.719; 280.557). Nói cách khác, chúng ta có thể ước đoán rằng 95% số
bang ở Vùng 1 có Số người chết do các bệnh liên quan đến tim mạch nằm trong khoảng
từ 233,7 đến 280,6 người trong số 100.000 dân.
3.2. Số người chết trung bình cho các bang ở Vùng 2
Làm tương tự như câu trên ta có.
a. Mô tả thống kê cơ bản của Số người chết tại các bang ở Vùng
2.
Descriptive statistics
Count
Mean
sample variance
sample standard deviation
Minimum
Maximum
Range
1st quartile
Median
3rd quartile
interquartile range
Mode
Số người chết
24
260.921
3,138.122
56.019
130.8
377.5
246.7
222.000
260.100
295.400
73.400
#N/A
b. Ước lượng Số người chết trung bình cho các bang ở Vùng 2.
Confidence interval - mean
95%
260.921
56.019
24
2.069
23.655
284.576
confidence level
mean
std. dev.
N
t (df = 23)
half-width
upper confidence limit
17
237.266
lower confidence limit
Khoảng tin cậy của Số người chết do các bệnh liên quan đến tim mạch trung bình
tại các bang Vùng 2 là nằm trong khoảng (237.266; 284.576). Nói cách khác, chúng ta
có thể ước đoán rằng 95% số bang ở Vùng 2 có Số người chết do các bệnh liên quan
đến tim mạch nằm trong khoảng từ 237,3 đến 284,6 người trong số 100.000 dân.
4.1 So sánh Số người chết trung bình cho các bang ở Vùng 1 và Vùng 2
Từ phần mền Megastat/Hypothesis tets/Compare Two Independent Groups. Sau
đó ta nhập số liệu số người chết vùng 1 và vùng 2 vào bảng, sau đó ta có bảng số liệu
sau:
Hypothesis Test: Independent Groups (t-test, pooled variance)
Số người chết: Group
1
257.138
57.981
26
Group 2
260.921
56.019
24
mean
std. dev.
n
48
-3.7824
3,254.6121
57.0492
16.1489
0
df
difference (Số người chết - Group 2)
pooled variance
pooled std. dev.
standard error of difference
hypothesized difference
-0.23
.8158
t
p-value (two-tailed)
Căn cứ vào kết quả trên, chúng ta thấy: Với mức ý nghĩa α = 5%, Số người chết do các
bệnh liên quan đến tim mạch trung bình tại các bang Vùng 1 và Vùng 2 là như nhau (do pvalue > α).
4.2. So sánh Thu nhập bình quân của người dân các bang ở Vùng 1 và Vùng 2
Ta làm tương tự như phần 4.2 ta có kết quả như sau:
Hypothesis Test: Independent Groups (t-test, pooled variance)
18
Thu nhập Group 1
28.40842
4.82352
26
Group 2
29.27488
7.48108
24
Mean
std. dev.
N
48
-0.866452
38.935179
6.239806
1.766297
0
Df
difference (Thu nhập - Group 2)
pooled variance
pooled std. dev.
standard error of difference
hypothesized difference
-0.49
.6260
T
p-value (two-tailed)
Căn cứ vào kết quả trên, chúng ta thấy: Với mức ý nghĩa α = 5%, Thu nhập bình
quân của người dân trung bình tại các bang Vùng 1 và Vùng 2 là như nhau (do p-value > α
-> chưa có cơ sở bác bỏ giả thiết H0).
5. Ước lượng mô hình hồi quy tuyến tính với biến phụ thuộc là Số người chết và biến
độc lập là các biến còn lại
R²
Adjusted R²
R
Std. Error
0.774
0.759
0.880
27.731
SS
121,024.764
df
n
k
Dep. Var.
50
3
Số người chết
ANOVA
table
Source
Regression
Residual
Total
5
35,375.1597
156,399.924
2
Regression output
variables
coefficients
3
46
MS
40,341.588
2
769.0252
F
p-value
52.46
6.92E-15
49
std.
t (df=46)
p-value
confidence interval
95%
95%
19
error
Intercept
-60.1955
32.6430
-1.844
Tuổi 65
24.5202
2.0904
11.730
Thu nhập
Tỷ lệ da
-0.3757
0.6430
-0.584
2.2768
0.4171
5.459
màu
.0716
2.01E15
.5619
1.86E06
lower
125.9025
upper
5.5114
20.3124
28.7280
-1.6700
0.9186
1.4373
3.1163
5.1. Giải thích ý nghĩa của các hệ số hồi quy và hệ số R2
Căn cứ vào bảng trên ta thấy:
Mô hình thu được là:
= -60.2 + 24.5xTuổi 65 – 0.4xThu nhập + 2.3xTỷ lệ da
màu
- Ý nghĩa các hệ số hồi quy:
+ 24.5: Nếu thu nhập và tỷ lệ da màu được giữ không đổi, khi phần trăm dân số
từ 65 tuổi trở lên tăng 1% thì cứ trong 100.00 dân, Số người chết vì các bệnh liên quan
đến tim mạch tăng thêm 24.5 người.
+ (-0.4): Nếu phần trăm dân số từ 65 tuổi trở lên và tỷ lệ da màu được giữ
không đổi, khi thu nhập bình quân tăng 1.000 USD thì cứ trong 100.00 dân, Số người
chết vì các bệnh liên quan đến tim mạch giảm 0.4 người.
+ 2.3: Nếu phần trăm dân số từ 65 tuổi trở lên và thu nhập được giữ không đổi,
khi tỷ lệ người da màu tăng 1% thì cứ trong 100.00 dân, Số người chết vì các bệnh liên
quan đến tim mạch tăng thêm 2.3 người.
- Ý nghĩa của R2 = 0.774: Với 03 biến độc lập là Phần trăm dân số từ 65 tuổi trở
lên, Thu nhập bình quân của người dân và Phần trăm dân số là người da màu, mô hình
giải thích được 77,4% sự thay đổi của Số lượng người chết do các bệnh liên quan đến
tim mạch.
5.2. Dùng kiểm định thích hợp cho biết những biến độc lập nào có ảnh hưởng và
không ảnh hưởng đến biến phụ thuộc? Từ đó có thể đưa ra nhận định gì về các yếu
20
tố có thể tác động đến tỷ lên người chết do các bệnh tim mạch. Liệu còn có các yếu
tố nào khác có thể ảnh hưởng đến tỷ lệ người chết này?
Căn cứ vào bảng tính trên, để kiểm định những biến độc lập nào có ảnh hưởng và
không ảnh hưởng đến biến phụ thuộc, ta xây dựng 03 cặp giả thiết sau:
+ Cặp giả thiết 1:
H0: β1 = 0 (Phần trăm dân số từ 65 tuổi trở lên không ảnh hưởng đến Số
người chết)
H1: β1 ≠ 0 (Phần trăm dân số từ 65 tuổi trở lên có ảnh hưởng đến Số người
chết)
+ Cặp giả thiết 2:
H0: β2 = 0 (Thu nhập bình quân không ảnh hưởng đến Số người chết)
H1: β2 ≠ 0 (Thu nhập bình quân có ảnh hưởng đến Số người chết)
+ Cặp giả thiết 3:
H0: β3 = 0 (Thu nhập bình quân không ảnh hưởng đến Số người chết)
H1: β3 ≠ 0 (Thu nhập bình quân có ảnh hưởng đến Số người chết)
Để kiểm định 3 cặp giả thiết trên, ta quan sát các giá trị P – Value thu được tại bảng
tính ban đầu:
+ Với cặp giả thiết 1: P-Value = 2x10 -15 < α = 0.05 -> bác bỏ giả thiết H 0 ->
Phần trăm dân số từ 65 tuổi trở lên có ảnh hưởng đến Số người chết do các bệnh liên
quan đến tim mạch.
+ Với cặp giả thiết 2: P-Value = 0.56 > α = 0.05 -> chấp nhận giả thiết H 0 ->
Thu nhập bình quân của người dân không ảnh hưởng đến Số người chết do các bệnh liên
quan đến tim mạch.
+ Với cặp giả thiết 3: P-Value = 1.86x10 -6 < α = 0.05 -> bác bỏ giả thiết H 0 ->
Phần trăm dân số là người da màu có ảnh hưởng đến Số người chết do các bệnh liên
quan đến tim mạch.
Kết luận: Với 3 biến độc lập nghiên cứu, chỉ có 2 biến là Phần trăm dân số từ 65 tuổi
trở lên và Phần trăm dân số là người da màu có ảnh hưởng đến Số người chết do các
bệnh liên quan đến tim mạch. Như vậy, còn có các yếu tố khác có thể ảnh hưởng đến Số
21
người chết do các bệnh liên quan đến tim mạch mà chúng ta cần nghiên cứu thêm như:
Số bác sĩ trên 100.000 dân, Tỷ lệ nam/nữ trên 100.000 dân, …
5.3. Dùng kiểm định F cho biết liệu mô hình có ý nghĩa hay không? Nêu ý nghĩa của
kết quả nhận được.
Căn cứ vào kết quả kiểm định trên, ta xây dựng lại mô hình hồi quy tuyến tính thể
hiện mối quan hệ giữa Số người chết do các bệnh liên quan đến tim mạch (biến phụ
thuộc) với Phần trăm dân số từ 65 tuổi trở lên và Phần trăm dân số là người da màu (biến
độc lập).
Regression Analysis
R²
Adjusted R²
R
Std. Error
0.772
0.762
0.879
27.536
SS
120,762.185
df
n
k
Dep. Var.
50
2
Số người chết
ANOVA
table
Source
Regression
Residual
Total
4
35,637.7388
156,399.924
2
2
47
MS
60,381.092
7
758.2498
F
p-value
79.63
8.04E-16
49
Regression output
variables
coefficients
Intercept
-70.7553
Tuổi 65
Tỷ lệ da
màu
std.
t (df=47)
p-value
26.9931
-2.621
.0118
24.4814
2.0747
11.800
2.2987
0.4125
5.573
error
1.18E15
1.18E06
confidence interval
95%
95%
lower
125.0585
upper
-16.4522
20.3077
28.6551
1.4689
3.1285
Mô hình thu được là:
= -70.7 + 24.5 x Tuổi 65 + 2.3 x Tỷ lệ da màu
22
Để kiểm định xem mô hình có ý nghĩa hay không, ta sử dụng kiểm định cặp giả thiết
sau:
H0: β1 = β2 = 0 (Phần trăm dân số từ 65 tuổi trở lên và Tỷ lệ da màu không
ảnh hưởng đến Số người chết)
H1: Có ít nhất một hệ số β ≠ 0 (Có ít nhất 1 trong 2 biến Phần trăm dân số từ
65 tuổi trở lên hoặc Tỷ lệ da màu có ảnh hưởng đến Số người chết)
Căn cứ vào kết quả kiểm định ANNOVA và kiểm định F như bảng trên ta có:
- Ý nghĩa của R2 = 0.772 -> Mô hình có ý nghĩa trong việc giải thích sự biến thiên
của Số lượng người chết do các bệnh liên quan đến tim mạch: Với 02 biến độc lập là
Phần trăm dân số từ 65 tuổi trở lên và Phần trăm dân số là người da màu, mô hình giải
thích được 77,2% sự thay đổi của Số lượng người chết do các bệnh liên quan đến tim
mạch.
- Các hệ số β > 0 cho thấy biến phụ thuộc có quan hệ tỷ lệ thuận với các biến độc
lập.
- Giá trị P-Value trong kiểm định F là 8.04x10-16 < α = 0.05 -> bác bỏ giả thiết H 0
-> Có ít nhất một trong hai biến Phần trăm dân số từ 65 tuổi trở lên hoặc Tỷ lệ da màu có
ảnh hưởng đến Số người chết.
Kết luận: Để giảm tỷ lệ người chết vì bệnh tim mạch, chính quyền cần có sự quan
tâm đầu tư hơn nữa tới hệ thống y tế, chăm sóc sức khỏe cho người cao tuổi (trên 65
tuổi).
5.4. Hãy dự báo tỷ lệ người chết ở 1 bang có các biến độc lập lần lượt là:
15% từ 65 tuổi trở lên, 25000usd thu nhập trung bình, 4% da màu.
Giải thích ý nghĩa kết quả nhận được.
Predicted values for: Số người
chết
Tuổi
Tỷ lệ da
65
màu
Predicted
95% Confidence
95% Prediction
Interval
Interval
lower
upper
lower
upper
Leverage
23
15
4
305.6603
292.1914
319.1291 248.6504
362.6701
0.059
Nếu 1 bang có Phần trăm dân số từ 65 tuổi trở lên là 15 và Phần trăm dân số là
người da màu là 4% thì: Số người chết do các bệnh liên quan đến tim mạch sẽ nằm trong
khoảng từ 292 đến 319 người trong 100.000 dân.
Tài liệu tham khảo:
1. Giáo trình Ra quyết định quản lý – Tiến sỹ Nguyễn Mạnh Thế = PGSM
24