Tải bản đầy đủ (.doc) (24 trang)

bài tập về thống kê trong kinh doanh MBA

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (293.18 KB, 24 trang )

Bài tập về Thống kê trong kinh doanh

Đề tài:
Để nghiên cứu về tỷ lệ người dân tử vong vì các bệnh liên quan đến

tim mạch, một nhóm nghiên cứu tại 1 trường Đại học của Mỹ đã
thu thập số liệu tại các Bang trên toàn nước Mỹ về số người tử
vong và một số số liệu về kinh tế xã hội liên quan. Bảng số liệu
được cho dưới đây:
State
AL
AK
AZ
AR
CA
CO
CT
DE
FL
GA
HI
ID
IL
IN
IA
KS
KY
LA
ME
MD
MA


MI
MN
MS
MO
MT
NE
NV

Số người
chết
307.1
90.9
226.0
325.9
217.0
158.3
278.1
266.9
340.4
225.9
203.3
202.3
275.3
280.4
303.2
262.8
305.4
274.6
272.8
233.6

257.0
280.8
199.6
337.2
328.7
232.1
269.9
233.9

Tuổi 65
13.0
5.7
13.0
14.0
10.6
9.7
13.8
13.0
17.6
9.6
13.3
11.3
12.1
12.4
14.9
13.3
12.5
11.6
14.4
11.3

13.5
12.3
12.1
12.1
13.5
13.4
13.6
11.0

Thu

Tỷ lệ da

nhập
23.471
30.064
25.578
22.257
32.275
32.949
40.640
31.255
28.145
27.940
28.221
24.180
32.259
27.011
26.723
27.816

24.294
23.334
25.623
33.872
37.992
29.612
32.101
20.993
27.445
22.569
27.829
30.529

màu
26.0
3.5
3.1
15.7
6.7
3.8
9.1
19.2
14.6
28.7
1.8
0.4
15.1
8.4
2.1
5.7

7.3
32.5
0.5
27.9
5.4
14.2
3.5
36.3
11.2
0.3
4.0
6.8

Vùng
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1

1
1
1
1
1
1
1
1
1
1
2
2
1


NH
NJ
NM
NY
NC
ND
OH
OK
OR
PA
RI
SC
SD
TN
TX

UT
VT
VA
WA
WV
WI
WY

229.0
288.5
198.4
324.2
250.8
289.3
294.9
335.4
219.0
347.7
303.6
256.9
276.1
296.9
216.6
130.8
226.0
223.0
200.0
377.5
263.3
210.4


12.0
13.2
11.7
12.9
12.0
14.7
13.3
13.2
12.8
15.6
14.5
12.1
14.3
12.4
9.9
8.5
12.7
11.2
11.2
15.3
13.1
11.7

33.332
36.983
22.203
34.547
27.194
25.068

28.400
23.517
28.350
29.539
29.685
24.321
26.115
26.239
27.871
23.907
26.901
31.162
31.528
21.915
28.232
27.230

0.7
13.6
1.9
15.9
21.6
0.6
11.5
7.6
1.6
10.0
4.5
29.5
0.6

16.4
11.5
0.8
0.5
19.6
3.2
3.2
5.7
0.8

2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2
2

2
2

Trong đó:
-

Số người chết: Số lượng người chết liên quan tới các bệnh về tim mạch trong
100.000 dân

-

Tuổi 65: Phần trăm dân số từ 65 tuổi trở lên

-

Thu nhập: Thu nhập bình quân tính bằng nghìn đô la

-

Tỷ lệ da mầu: phần trăm dân số là người da mầu.

-

Vùng: Các bang được chia thành 2 vùng nghiên cứu là Vùng 1 và Vùng 2

Hãy sử dụng các số liệu trên đây để trả lời các câu hỏi sau:
1.

Sử dụng các mô tả thống kê thích hợp để nhận xét về các biến trong số liệu trên.


2.

Sử dụng đồ thị thích hợp và hệ số tương quan để nhận xét về mối quan hệ giữa số
lượng người chết do các bệnh liên quan đến tim mạch với từng biến còn lại. Từ đó
có nhận định nếu thiết lập mô hình hồi quy tuyến tính với biến phụ thuộc là số người
chết thì biến nào trong số các biến còn lại ở trên có thể ảnh hưởng đến biến phụ
thuộc (không cần phân biệt vùng).
2


3.

Hãy ước lượng khoảng tin cậy cho số người chết trung bình cho các bang ở vùng
1 và vùng 2.

4.

Hãy so sánh số người chết trung bình cho các bang ở vùng 1 và vùng 2 (dùng
kiểm định). Kết quả so sánh có tương đồng với so sánh về thu nhập không?

5.

Ước lượng mô hình hồi quy tuyến tính với biến phụ thuộc là số người chết, biến
độc lập là các biến còn lại (không phân theo vùng):

a.

Giải thích ý nghĩa của các hệ số hồi quy và hệ số R2.

b.


Dùng kiểm định thích hợp cho biết những biến độc lập nào có ảnh hưởng và
không ảnh hưởng đến biến phụ thuộc? Từ đó có thể đưa ra nhận định gì về các yếu
tố có thể tác động đến tỷ lên người chết do các bệnh tim mạch. Liệu còn có các yếu
tố nào khác có thể ảnh hưởng đến tỷ lệ người chết này?

c.

Dùng kiểm định F cho biết liệu mô hình có ý nghĩa hay không? Nếu ý nghĩa của
kết quả nhận được.

d.

Hãy dự báo tỷ lệ người chết ở 1 bang có các biến độc lập lần lượt là:

15% từ 65 tuổi trở lên, 25000usd thu nhập trung bình, 4% da màu.
Giải thích ý nghĩa kết quả nhận được.
Bài làm:
Để trả lời câu hỏi, các thành viên của nhóm I đã sử dụng phần mền Megastat để phần
tích số liệu, sau đó sử dụng kết quả từ phần mền tính toán để trả lời các câu hỏi.
1. Sử dụng các mô tả thống kê thích hợp để nhận xét về các biến trong số liệu trên.
1.1 Số lượng người chết vì các bệnh liên quan đến tim mạch.
Từ phần mềm Megastat/Descriptive statistics, sau đó ta nhập số liệu số người chết vào
bảng. Ta có bảng số liệu như sau.

Descriptive statistics
Count
Mean
sample variance
sample standard deviation

Minimum

Số người chết
50
258.954
3,191.835
56.496
90.9
3


Maximum
Range

377.5
286.6

Skewness
Kurtosis
coefficient of variation (CV)

-0.482
0.681
21.82%

1st quartile
Median
3rd quartile
interquartile range
Mode


223.725
265.100
296.400
72.675
226.000

Nhận xét:
Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang.
- Số lượng người chết vì các bệnh liên quan đến tim mạch ở một bang của Mỹ
trung bình là 259 người trong 100.000 dân. Số lượng người chết vì các bệnh liên quan
đến tim mạch trung vị là 265.100. Như vậy, có 50% số bang được nghiên cứu có Số
lượng người chết vì các bệnh liên quan đến tim mạch thấp hơn 265.1 người và 50% số
bang được nghiên cứu có Số lượng người chết vì các bệnh liên quan đến tim mạch lớn
hơn 265.1 người. Số lượng người chết vì các bệnh liên quan đến tim mạch trung bình ở
một bang xấp xỉ trung vị cho thấy mẫu nghiên cứu có phân phối khá cân xứng.
- Độ lệch chuẩn mẫu là: 56.496 cho thấy độ lệch của phân phối.
- Một số bang có Số lượng người chết vì các bệnh liên quan đến tim mạch như nhau
nhưng Số lượng người chết vì các bệnh liên quan đến tim mạch phổ biến nhất (có tần số
lớn nhất) là 226 người trong 100.000 dân. Số lượng người chết vì các bệnh liên quan đến
tim mạch ở một bang thấp nhất là: 90.9 người trong 100.000 dân. Số lượng người chết vì
các bệnh liên quan đến tim mạch ở một bang cao nhất là: 377.5 trong 100.000 dân.
Khoảng biến thiên thực tế là 286.6.
Biểu đồ thể hiện tần suất của Số lượng người chết vì các bệnh liên quan đến tim
mạch ở một bang của Mỹ
Từ phần mền Megastat/Frequency Distribution/Quantitative, ta nhập số liệu số người
chết vào bảng, từ đó ta có bảng số liệu sau:
4



Frequency Distribution - Quantitative
Số người chết
uppe midpoin

lowe
r
50
100
150
200
250
300
350

<
<
<
<
<
<
<

r
100
150
200
250
300
350

400

t
75
125
175
225
275
325
375

widt

frequenc

percen

h
50
50
50
50
50
50
50

y
1
1
3

15
18
11
1

t
2.0
2.0
6.0
30.0
36.0
22.0
2.0

50

100.0

cumulative
frequenc percen
y
1
2
5
20
38
49
50

t

2.0
4.0
10.0
40.0
76.0
98.0
100.0

Căn cứ vào bảng phân bố tần suất ở trên, ta thấy: Số lượng người chết vì các bệnh
liên quan đến tim mạch ở các bang của nước Mỹ phổ biến là từ 200 – 350 người trong
tổng số 100.000 dân (chiếm tỷ lệ 88%).

Đồ thị phân bố tần số của biến Số người chết khá cân đối, tập trung ở giữa. Tuy
nhiên, độ lệch (Sknewness) của biểu đồ là -0.482 < 0 chỉ ra rằng phân phối có hướng
lệch trái.

5


1.2. Phần trăm dân số từ 65 tuổi trở lên
Từ phần mềm Magastat/Descriptive Statistics. Ta nhập số liệu phần dân số từ 65
tuổi trở lên, từ đó ta có bảng số liệu như sau :
Descriptive statistics
Count
Mean
sample variance
sample standard deviation
Minimum
Maximum
Range

Skewness
Kurtosis
coefficient

Tuổi 65
50
12.538
3.628
1.905
5.7
17.6
11.9
-0.741
3.078

of

variation

(CV)

15.19%

1st quartile
Median
3rd quartile
interquartile range
Mode

11.700

12.750
13.475
1.775
12.100

Nhận xét:
Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang.
- Phần trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ trung bình là 12.538%. Phần
trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ trung vị là 12.75%. Như vậy, có 50%
số bang được nghiên cứu có Phần trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ thấp
hơn 12.75% và 50% số bang được nghiên cứu có Phần trăm dân số từ 65 tuổi trở lên ở
một bang của Mỹ lớn hơn 12.75%. Phần trăm dân số từ 65 tuổi trở lên ở một bang của
Mỹ ở một bang xấp xỉ trung vị cho thấy mẫu nghiên cứu có phân phối khá cân xứng.
- Độ lệch chuẩn mẫu là: 1.905% cho thấy độ lệch của phân phối.
- Một số bang có Phần trăm dân số từ 65 tuổi trở lên như nhau nhưng Phần trăm dân
số từ 65 tuổi trở lên ở một bang của Mỹ phổ biến nhất (có tần số lớn nhất) là 12.1%. Phần
trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ thấp nhất là: 5.7%. Phần trăm dân số từ
6


65 tuổi trở lên ở một bang của Mỹ cao nhất là: 17.6%. Khoảng biến thiên thực tế là
11.9%.
Biểu đồ thể hiện tần suất của Phần trăm dân số từ 65 tuổi trở lên ở một bang của Mỹ

Frequency Distribution - Quantitative
lowe

Tuổi 65
uppe


r
5.0
6.0
7.0
8.0
9.0
10.0
11.0
12.0
13.0
14.0
15.0
16.0
17.0

r
6.0
7.0
8.0
9.0
10.0
11.0
12.0
13.0
14.0
15.0
16.0
17.0
18.0


<
<
<
<
<
<
<
<
<
<
<
<
<

midpoin

widt

frequenc

percen

t
5.5
6.5
7.5
8.5
9.5
10.5

11.5
12.5
13.5
14.5
15.5
16.5
17.5

h
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0
1.0

y
1
0
0
1
3
1

8
13
14
6
2
0
1

t
2.0
0.0
0.0
2.0
6.0
2.0
16.0
26.0
28.0
12.0
4.0
0.0
2.0

50

100.0

cumulative
frequenc percen
y

1
1
1
2
5
6
14
27
41
47
49
49
50

t
2.0
2.0
2.0
4.0
10.0
12.0
28.0
54.0
82.0
94.0
98.0
98.0
100.0

Căn cứ vào bảng phân bố tần suất ở trên, ta thấy: Phần trăm dân số từ 65 tuổi trở

lên ở các bang của nước Mỹ phổ biến là từ 11 – 15% (chiếm tỷ lệ 82%).
Kết luận: Dựa vào kết quả điều tra, chính quyền có thể xem xét xây dựng các
chính sách ưu đãi dành cho người già như xây dựng thêm các bệnh viện, viện dưỡng lão
để đảm bảo người già được chăm sóc sức khỏe tốt nhất hoặc xây dựng mức phân bổ các
quỹ phúc lợi dành cho người già tại các bang cho phù hợp với tỷ lệ người già hiện tại ….

7


Đồ thị phân bố tần số của biến Phần trăm dân số từ 65 tuổi trở lên khá cân đối, tập
trung ở giữa. Tuy nhiên, độ lệch (Sknewness) của biểu đồ là -0.741 < 0 chỉ ra rằng phân
phối có hướng lệch trái hơn lệch phải.

1.3. Thu nhập bình quân của người dân tính bằng nghìn USD
Từ phần mền Megastat/Descriptive statistics. Sau đó ta nhập dữ liệu thu nhập vào bảng,
từ đó ta có bảng số liệu sau.

Descriptive statistics
Thu
count
mean
sample variance
sample standard deviation
minimum
maximum
range
skewness
kurtosis
coefficient
(CV)


nhập
50
28.82432
38.33179
6.19127
20.993
59.685
38.692
2.71490
11.83641

of

variation

21.48%
8


1st quartile
median
3rd quartile
interquartile range
mode

25.19550
27.85000
31.23175
6.03625

#N/A

Nhận xét.
Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang.
- Thu nhập bình quân của người dân ở một bang của Mỹ trung bình là 28.824 nghìn
USD. Thu nhập bình quân của người dân ở một bang của Mỹ trung vị là 27.85 nghìn
USD. Như vậy, có 50% số bang được nghiên cứu có Thu nhập bình quân của người dân
thấp hơn 27.85 nghìn USD và 50% số bang được nghiên cứu có Thu nhập bình quân của
người dân lớn hơn 27.85 nghìn USD. Thu nhập bình quân của người dân trung bình ở
một bang xấp xỉ trung vị cho thấy mẫu nghiên cứu có phân phối khá cân xứng.
- Độ lệch chuẩn mẫu là: 6.19 cho thấy độ lệch của phân phối.
- Thu nhập bình quân của người dân ở mỗi bang của Mỹ là khác nhau (không có
giá trị phổ biến). Thu nhập bình quân của người dân ở một bang thấp nhất là: 20.993
nghìn USD. Thu nhập bình quân của người dân ở một bang cao nhất là: 59.685 nghìn
USD. Khoảng biến thiên thực tế là 38.692 nghìn USD.
Biểu đồ thể hiện tần suất của Thu nhập bình quân của người dân ở một bang của Mỹ

Frequency Distribution - Quantitative
Thu nhập

cumulative

lowe

uppe

midpoin

widt


frequenc

percen

frequenc

percen

r
20.00
22.00
24.00
26.00
28.00
30.00
32.00
34.00
36.00
38.00

r
22.00
24.00
26.00
28.00
30.00
32.00
34.00
36.00

38.00
40.00

t
21.00
23.00
25.00
27.00
29.00
31.00
33.00
35.00
37.00
39.00

h
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00

y
2
7

6
12
7
5
6
1
2
0

t
4.0
14.0
12.0
24.0
14.0
10.0
12.0
2.0
4.0
0.0

y
2
9
15
27
34
39
45
46

48
48

t
4.0
18.0
30.0
54.0
68.0
78.0
90.0
92.0
96.0
96.0

<
<
<
<
<
<
<
<
<
<

9


40.00

42.00
44.00
46.00
48.00
50.00
52.00
54.00
56.00
58.00

<
<
<
<
<
<
<
<
<
<

42.00
44.00
46.00
48.00
50.00
52.00
54.00
56.00
58.00

60.00

41.00
43.00
45.00
47.00
49.00
51.00
53.00
55.00
57.00
59.00

2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00
2.00

1
0
0
0
0
0

0
0
0
1

2.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
0.0
2.0

50

100.0

49
49
49
49
49
49
49
49
49
50


98.0
98.0
98.0
98.0
98.0
98.0
98.0
98.0
98.0
100.0

Căn cứ vào bảng phân bố tần suất ở trên, ta thấy: Thu nhập bình quân của người
dân ở mỗi bang của Mỹ phổ biến là từ 22 – 34 nghìn USD (chiếm tỷ lệ 86%). Trong đó,
mức thu nhập từ 26 – 28 nghìn USD chiếm tỷ lệ cao nhất đạt 24%.
Kết luận: Dựa vào kết quả điều tra, chính quyền có thể xem xét áp dụng mức phí
dịch vụ công khác nhau phù hợp với mức thu nhập bình quân tại các bang hoặc đưa ra
chính sách về viện phí và chi phí khác liên quan tới chữa bệnh phù hợp ….

Đồ thị phân bố tần số của biến Thu nhập bình quân có xu hướng tập trung ở giữa.
Tuy nhiên có một số vùng có thu nhập cao hơn hẳn các vùng còn lại, mức thu nhập từ
56.000 – 60.000 USD
10


1.4. Phần trăm dân số là người da màu.
Từ phần mềm Megastat/Descriptive statistics, sau đó ta nhập số liệu tỷ lệ da màu
vào bảng, từ đó ta có bảng số liệu như sau :

Descriptive statistics

Count
Mean
sample variance
sample standard deviation
Minimum
Maximum
Range

Tỷ lệ da màu
50
9.902
91.779
9.580
0.3
36.3
36

Skewness
Kurtosis
coefficient of variation
(CV)
1st quartile
Median
3rd quartile
interquartile range
Mode

1.130
0.453
96.75%

2.350
6.750
14.975
12.625
3.500

Nhận xét:
Qua bảng trên ta thấy:
- Số lượng các bang được nghiên cứu là: 50 bang.
- Phần trăm dân số là người da màu ở một bang của Mỹ trung bình là 9.9%. Phần
trăm dân số là người da màu ở một bang của Mỹ trung vị là 6.75%. Như vậy, có 50% số
bang được nghiên cứu có Phần trăm dân số là người da màu thấp hơn 6.75% và 50% số
bang được nghiên cứu có Phần trăm dân số là người da màu lớn hơn 6.75%. Phần trăm
dân số từ 65 tuổi trở lên ở một bang của Mỹ ở một bang lớn hơn trung vị cho thấy mẫu
nghiên cứu có phân phối lệch phải.
- Độ lệch chuẩn mẫu là: 9.58% cho thấy độ lệch của phân phối.
- Một số bang có Phần trăm dân số là người da màu như nhau nhưng Phần trăm dân
số là người da màu phổ biến nhất (có tần số lớn nhất) là 3.5%. Phần trăm dân số là người
11


da màu ở một bang của Mỹ thấp nhất là: 0.3%. Phần trăm dân số là người da màu ở một
bang của Mỹ cao nhất là: 36.3%. Khoảng biến thiên thực tế là 36%.
Biểu đồ thể hiện tần suất của Thu nhập bình quân của người dân ở một bang của Mỹ

Frequency Distribution - Quantitative
lowe
r
0
5

10
15
20
25
30
35

Tỷ lệ da màu
uppe midpoin
<
<
<
<
<
<
<
<

r
5
10
15
20
25
30
35
40

t
3

8
13
18
23
28
33
37

widt

frequenc

percen

Cumulative
frequenc percen

h
5
5
5
5
5
5
5
5

y
21
9

7
6
1
4
1
1

t
42.0
18.0
14.0
12.0
2.0
8.0
2.0
2.0

y
21
30
37
43
44
48
49
50

50

100.0


t
42.0
60.0
74.0
86.0
88.0
96.0
98.0
100.0

Căn cứ vào bảng phân bố tần suất ở trên, ta thấy: Phần trăm dân số là người da màu
ở mỗi bang của Mỹ phổ biến là từ 0 – 20% (chiếm tỷ lệ 86%). Trong đó, các bang có
Phần trăm dân số là người da màu từ 0 – 5% chiếm tỷ lệ cao nhất đạt 42%.
Kết luận: Dựa vào kết quả điều tra, chính quyền có thể xem xét áp dụng chính
sách phúc lợi, ưu tiên cho người da màu.

12


Đồ thị phân bố tần số của biến Phần trăm dân số là người da màu có dạng phân phối lệch
trái.
2. Sử dụng đồ thị và hệ số tương quan để nhận xét mối quan hệ giữa số lượng người
chết do các bệnh liên quan đến tim mạch với các biến còn lại:
2.1. Đồ thị mối quan hệ giữa Số lượng người chết do các bệnh liên quan đến tim
mạch với Phần trăm dân số từ 65 tuổi trở lên
Từ phần mền Megastat/ Correlation/ Regession/ Scatter Plot. Sau đó ta nhập số liệu số
người chết và phần trăm dân số từ 65 tuổi trở lên vào bảng, ta có bảng số liệu sau.

13



Căn cứ vào đồ thị trên, ta thấy: Đồ thị phân tán có dạng tuyến tính. Do đó, Giữa Số
lượng người chết do các bệnh liên quan đến tim mạch với Phần trăm dân số từ 65 tuổi
trở lên có mối quan hệ tỷ lệ thuận với nhau.
2.2. Đồ thị mối quan hệ giữa Số lượng người chết do các bệnh liên quan đến tim
mạch với Thu nhập bình quân của người dân
Từ phần mền Megastat/ Correlation/ Regession/ Scatter Plot. Sau đó ta nhập số
liệu số người chết và thu nhập vào bảng, ta có bảng số liệu sau.

Căn cứ vào đồ thị trên, ta thấy: Đồ thị phân tán không có dạng tuyến tính. Do đó,
Giữa Số lượng người chết do các bệnh liên quan đến tim mạch với Thu nhập bình quân
không có mối quan hệ với nhau.

1.3. Đồ thị mối quan hệ giữa Số lượng người chết do các bệnh liên quan đến tim
mạch với Phần trăm dân số là người da màu
Từ phần mền Megastat/ Correlation/ Regession/ Scatter Plot. Sau đó ta nhập số
liệu số người chết và phần trăm dân số là người da màu vào bảng, ta có bảng số liệu sau.

14


Căn cứ vào đồ thị trên, ta thấy: Đồ thị phân tán có dạng tuyến tính -> Giữa Số lượng
người chết do các bệnh liên quan đến tim mạch với Tỷ lệ da màu có mối quan hệ với
nhau.
Hệ số tương quan giữa các biến
Từ phần mền Megastat/Correlation/Regresion/Correlation Matrix, sau đó ta đưa toàn bộ
dữ liệu số người chết, tuổi 65, thu nhập, tỷ lệ da màu vào bảng, ta có bảng kết quả như
sau:
Correlation Matrix

Số người
Số người chết
Tuổi 65
Thu nhập
Tỷ lệ da màu

chết
1.000
.788
-.044
.312

Tuổi 65
1.000
.040
-.095

Thu

Tỷ lệ da

nhập

màu

1.000
-.093

1.000


Căn cứ vào bảng trên ta thấy:
- Tương quan giữa Số người chết và Phần trăm dân số từ 65 tuổi trở lên là 0.788
- Tương quan giữa Số người chết và Thu nhập bình quân là -0.044
- Tương quan giữa Số người chết và Phần trăm dân số là người da màu là 0.312
15


Như vậy, Phần trăm dân số từ 65 tuổi trở lên có ảnh hưởng lớn nhất đến sự thay đổi
của Số lượng người chết vì các bệnh liên quan đến tim mạch, sau đó đến Phần trăm dân
số là người da màu. Thu nhập bình quân không ảnh hưởng đến Số lượng người chết vì
các bệnh liên quan đến tim mạch.
3. Ước lượng khoảng tin cậy cho Số người chết trung bình cho các bang ở Vùng 1 và
Vùng 2
3.1. Số người chết trung bình cho các bang ở Vùng 1
a. Mô tả thống kê cơ bản của Số người chết tại các bang ở Vùng 1
Từ phần mền Megastat/Descriptive statistics. Sau đó ta nhập số liệu, số người
chết ở vùng 1 vào bảng, từ đó ta có bảng số liệu như sau:

Descriptive statistics
Count
Mean
sample variance
sample standard deviation
Minimum
Maximum
Range
1st quartile
Median
3rd quartile
interquartile range

Mode

Số người chết
26
257.138
3,361.783
57.981
90.9
340.4
249.5
225.925
269.850
297.600
71.675
#N/A

b. Ước lượng Số người chết trung bình cho các bang ở Vùng 1
Từ số liệu ở bảng trên, ta sử dụng Phần mền Megastat/Confidence interval –
mean, nhập số liệu vào bảng, ta có bảng số liệu sau:
Confidence interval - mean
95%
257.138
57.981
26
2.060
23.419

confidence level
mean
std. dev.

n
t (df = 25)
half-width
16


280.557 upper confidence limit
233.719 lower confidence limit
Căn cứ vào kết quả trên, chúng ta có thể ước lượng được khoảng tin cậy của Số
người chết do các bệnh liên quan đến tim mạch trung bình tại các bang Vùng 1 là nằm
trong khoảng (233.719; 280.557). Nói cách khác, chúng ta có thể ước đoán rằng 95% số
bang ở Vùng 1 có Số người chết do các bệnh liên quan đến tim mạch nằm trong khoảng
từ 233,7 đến 280,6 người trong số 100.000 dân.
3.2. Số người chết trung bình cho các bang ở Vùng 2
Làm tương tự như câu trên ta có.

a. Mô tả thống kê cơ bản của Số người chết tại các bang ở Vùng
2.
Descriptive statistics
Count
Mean
sample variance
sample standard deviation
Minimum
Maximum
Range
1st quartile
Median
3rd quartile
interquartile range

Mode

Số người chết
24
260.921
3,138.122
56.019
130.8
377.5
246.7
222.000
260.100
295.400
73.400
#N/A

b. Ước lượng Số người chết trung bình cho các bang ở Vùng 2.
Confidence interval - mean
95%
260.921
56.019
24
2.069
23.655
284.576

confidence level
mean
std. dev.
N

t (df = 23)
half-width
upper confidence limit
17


237.266

lower confidence limit

Khoảng tin cậy của Số người chết do các bệnh liên quan đến tim mạch trung bình
tại các bang Vùng 2 là nằm trong khoảng (237.266; 284.576). Nói cách khác, chúng ta
có thể ước đoán rằng 95% số bang ở Vùng 2 có Số người chết do các bệnh liên quan
đến tim mạch nằm trong khoảng từ 237,3 đến 284,6 người trong số 100.000 dân.

4.1 So sánh Số người chết trung bình cho các bang ở Vùng 1 và Vùng 2
Từ phần mền Megastat/Hypothesis tets/Compare Two Independent Groups. Sau
đó ta nhập số liệu số người chết vùng 1 và vùng 2 vào bảng, sau đó ta có bảng số liệu
sau:
Hypothesis Test: Independent Groups (t-test, pooled variance)
Số người chết: Group
1
257.138
57.981
26

Group 2
260.921
56.019
24


mean
std. dev.
n

48
-3.7824
3,254.6121
57.0492
16.1489
0

df
difference (Số người chết - Group 2)
pooled variance
pooled std. dev.
standard error of difference
hypothesized difference

-0.23
.8158

t
p-value (two-tailed)

Căn cứ vào kết quả trên, chúng ta thấy: Với mức ý nghĩa α = 5%, Số người chết do các
bệnh liên quan đến tim mạch trung bình tại các bang Vùng 1 và Vùng 2 là như nhau (do pvalue > α).

4.2. So sánh Thu nhập bình quân của người dân các bang ở Vùng 1 và Vùng 2
Ta làm tương tự như phần 4.2 ta có kết quả như sau:

Hypothesis Test: Independent Groups (t-test, pooled variance)
18


Thu nhập Group 1
28.40842
4.82352
26

Group 2
29.27488
7.48108
24

Mean
std. dev.
N

48
-0.866452
38.935179
6.239806
1.766297
0

Df
difference (Thu nhập - Group 2)
pooled variance
pooled std. dev.
standard error of difference

hypothesized difference

-0.49
.6260

T
p-value (two-tailed)

Căn cứ vào kết quả trên, chúng ta thấy: Với mức ý nghĩa α = 5%, Thu nhập bình
quân của người dân trung bình tại các bang Vùng 1 và Vùng 2 là như nhau (do p-value > α
-> chưa có cơ sở bác bỏ giả thiết H0).

5. Ước lượng mô hình hồi quy tuyến tính với biến phụ thuộc là Số người chết và biến
độc lập là các biến còn lại

Adjusted R²
R
Std. Error

0.774
0.759
0.880
27.731

SS
121,024.764

df

n

k
Dep. Var.

50
3
Số người chết

ANOVA
table
Source
Regression
Residual
Total

5
35,375.1597
156,399.924
2

Regression output
variables
coefficients

3
46

MS
40,341.588
2
769.0252


F

p-value

52.46

6.92E-15

49

std.

t (df=46)

p-value

confidence interval
95%
95%
19


error
Intercept

-60.1955

32.6430


-1.844

Tuổi 65

24.5202

2.0904

11.730

Thu nhập
Tỷ lệ da

-0.3757

0.6430

-0.584

2.2768

0.4171

5.459

màu

.0716
2.01E15
.5619

1.86E06

lower
125.9025

upper
5.5114

20.3124

28.7280

-1.6700

0.9186

1.4373

3.1163

5.1. Giải thích ý nghĩa của các hệ số hồi quy và hệ số R2
Căn cứ vào bảng trên ta thấy:
Mô hình thu được là:
= -60.2 + 24.5xTuổi 65 – 0.4xThu nhập + 2.3xTỷ lệ da
màu
- Ý nghĩa các hệ số hồi quy:
+ 24.5: Nếu thu nhập và tỷ lệ da màu được giữ không đổi, khi phần trăm dân số
từ 65 tuổi trở lên tăng 1% thì cứ trong 100.00 dân, Số người chết vì các bệnh liên quan
đến tim mạch tăng thêm 24.5 người.
+ (-0.4): Nếu phần trăm dân số từ 65 tuổi trở lên và tỷ lệ da màu được giữ

không đổi, khi thu nhập bình quân tăng 1.000 USD thì cứ trong 100.00 dân, Số người
chết vì các bệnh liên quan đến tim mạch giảm 0.4 người.
+ 2.3: Nếu phần trăm dân số từ 65 tuổi trở lên và thu nhập được giữ không đổi,
khi tỷ lệ người da màu tăng 1% thì cứ trong 100.00 dân, Số người chết vì các bệnh liên
quan đến tim mạch tăng thêm 2.3 người.
- Ý nghĩa của R2 = 0.774: Với 03 biến độc lập là Phần trăm dân số từ 65 tuổi trở
lên, Thu nhập bình quân của người dân và Phần trăm dân số là người da màu, mô hình
giải thích được 77,4% sự thay đổi của Số lượng người chết do các bệnh liên quan đến
tim mạch.
5.2. Dùng kiểm định thích hợp cho biết những biến độc lập nào có ảnh hưởng và
không ảnh hưởng đến biến phụ thuộc? Từ đó có thể đưa ra nhận định gì về các yếu

20


tố có thể tác động đến tỷ lên người chết do các bệnh tim mạch. Liệu còn có các yếu
tố nào khác có thể ảnh hưởng đến tỷ lệ người chết này?
Căn cứ vào bảng tính trên, để kiểm định những biến độc lập nào có ảnh hưởng và
không ảnh hưởng đến biến phụ thuộc, ta xây dựng 03 cặp giả thiết sau:
+ Cặp giả thiết 1:
H0: β1 = 0 (Phần trăm dân số từ 65 tuổi trở lên không ảnh hưởng đến Số
người chết)
H1: β1 ≠ 0 (Phần trăm dân số từ 65 tuổi trở lên có ảnh hưởng đến Số người
chết)
+ Cặp giả thiết 2:
H0: β2 = 0 (Thu nhập bình quân không ảnh hưởng đến Số người chết)
H1: β2 ≠ 0 (Thu nhập bình quân có ảnh hưởng đến Số người chết)
+ Cặp giả thiết 3:
H0: β3 = 0 (Thu nhập bình quân không ảnh hưởng đến Số người chết)
H1: β3 ≠ 0 (Thu nhập bình quân có ảnh hưởng đến Số người chết)

Để kiểm định 3 cặp giả thiết trên, ta quan sát các giá trị P – Value thu được tại bảng
tính ban đầu:
+ Với cặp giả thiết 1: P-Value = 2x10 -15 < α = 0.05 -> bác bỏ giả thiết H 0 ->
Phần trăm dân số từ 65 tuổi trở lên có ảnh hưởng đến Số người chết do các bệnh liên
quan đến tim mạch.
+ Với cặp giả thiết 2: P-Value = 0.56 > α = 0.05 -> chấp nhận giả thiết H 0 ->
Thu nhập bình quân của người dân không ảnh hưởng đến Số người chết do các bệnh liên
quan đến tim mạch.
+ Với cặp giả thiết 3: P-Value = 1.86x10 -6 < α = 0.05 -> bác bỏ giả thiết H 0 ->
Phần trăm dân số là người da màu có ảnh hưởng đến Số người chết do các bệnh liên
quan đến tim mạch.
Kết luận: Với 3 biến độc lập nghiên cứu, chỉ có 2 biến là Phần trăm dân số từ 65 tuổi
trở lên và Phần trăm dân số là người da màu có ảnh hưởng đến Số người chết do các
bệnh liên quan đến tim mạch. Như vậy, còn có các yếu tố khác có thể ảnh hưởng đến Số
21


người chết do các bệnh liên quan đến tim mạch mà chúng ta cần nghiên cứu thêm như:
Số bác sĩ trên 100.000 dân, Tỷ lệ nam/nữ trên 100.000 dân, …
5.3. Dùng kiểm định F cho biết liệu mô hình có ý nghĩa hay không? Nêu ý nghĩa của
kết quả nhận được.
Căn cứ vào kết quả kiểm định trên, ta xây dựng lại mô hình hồi quy tuyến tính thể
hiện mối quan hệ giữa Số người chết do các bệnh liên quan đến tim mạch (biến phụ
thuộc) với Phần trăm dân số từ 65 tuổi trở lên và Phần trăm dân số là người da màu (biến
độc lập).

Regression Analysis

Adjusted R²
R

Std. Error

0.772
0.762
0.879
27.536

SS
120,762.185

df

n
k
Dep. Var.

50
2
Số người chết

ANOVA
table
Source
Regression
Residual
Total

4
35,637.7388
156,399.924

2

2
47

MS
60,381.092
7
758.2498

F

p-value

79.63

8.04E-16

49

Regression output
variables

coefficients

Intercept

-70.7553

Tuổi 65

Tỷ lệ da
màu

std.

t (df=47)

p-value

26.9931

-2.621

.0118

24.4814

2.0747

11.800

2.2987

0.4125

5.573

error

1.18E15

1.18E06

confidence interval
95%
95%
lower
125.0585

upper
-16.4522

20.3077

28.6551

1.4689

3.1285

Mô hình thu được là:
= -70.7 + 24.5 x Tuổi 65 + 2.3 x Tỷ lệ da màu
22


Để kiểm định xem mô hình có ý nghĩa hay không, ta sử dụng kiểm định cặp giả thiết
sau:
H0: β1 = β2 = 0 (Phần trăm dân số từ 65 tuổi trở lên và Tỷ lệ da màu không
ảnh hưởng đến Số người chết)
H1: Có ít nhất một hệ số β ≠ 0 (Có ít nhất 1 trong 2 biến Phần trăm dân số từ
65 tuổi trở lên hoặc Tỷ lệ da màu có ảnh hưởng đến Số người chết)

Căn cứ vào kết quả kiểm định ANNOVA và kiểm định F như bảng trên ta có:
- Ý nghĩa của R2 = 0.772 -> Mô hình có ý nghĩa trong việc giải thích sự biến thiên
của Số lượng người chết do các bệnh liên quan đến tim mạch: Với 02 biến độc lập là
Phần trăm dân số từ 65 tuổi trở lên và Phần trăm dân số là người da màu, mô hình giải
thích được 77,2% sự thay đổi của Số lượng người chết do các bệnh liên quan đến tim
mạch.
- Các hệ số β > 0 cho thấy biến phụ thuộc có quan hệ tỷ lệ thuận với các biến độc
lập.
- Giá trị P-Value trong kiểm định F là 8.04x10-16 < α = 0.05 -> bác bỏ giả thiết H 0
-> Có ít nhất một trong hai biến Phần trăm dân số từ 65 tuổi trở lên hoặc Tỷ lệ da màu có
ảnh hưởng đến Số người chết.
Kết luận: Để giảm tỷ lệ người chết vì bệnh tim mạch, chính quyền cần có sự quan
tâm đầu tư hơn nữa tới hệ thống y tế, chăm sóc sức khỏe cho người cao tuổi (trên 65
tuổi).

5.4. Hãy dự báo tỷ lệ người chết ở 1 bang có các biến độc lập lần lượt là:
15% từ 65 tuổi trở lên, 25000usd thu nhập trung bình, 4% da màu.

Giải thích ý nghĩa kết quả nhận được.
Predicted values for: Số người
chết

Tuổi

Tỷ lệ da

65

màu


Predicted

95% Confidence

95% Prediction

Interval

Interval

lower

upper

lower

upper

Leverage
23


15

4

305.6603

292.1914


319.1291 248.6504

362.6701

0.059

Nếu 1 bang có Phần trăm dân số từ 65 tuổi trở lên là 15 và Phần trăm dân số là
người da màu là 4% thì: Số người chết do các bệnh liên quan đến tim mạch sẽ nằm trong
khoảng từ 292 đến 319 người trong 100.000 dân.

Tài liệu tham khảo:
1. Giáo trình Ra quyết định quản lý – Tiến sỹ Nguyễn Mạnh Thế = PGSM

24



×