BAI TẬP VI DỤ VỀ THỐNG KE TRONG KINH DOANH
Bài tập 1:
Một công ty sản xuất lốp xe đã phát minh ra một phương pháp mới, rẻ hơn để cải
thiện một trong những giai đoạn của quá trình sản xuất. Trước khi sử dụng phương
pháp này, Công ty muốn kiểm tra xem liệu phương pháp này có làm giảm sức bền
của lốp xe sản xuất ra không qua việc kiểm tra ngẫu nhiên 40 lốp xe đối với từng
phương pháp như sau:
ST
Phương pháp
Phương pháp 2 STT Phương pháp 1
Phương pháp
T
1
1
2792
2713
21
2693
2683
2
2755
2741
22
2740
2664
3
2745
2701
23
2731
2757
4
2731
2731
24
2707
2736
5
2799
2747
25
2754
2741
6
2793
2679
26
2690
2767
7
2705
2773
27
2797
2751
8
2729
2676
28
2761
2723
9
2747
2677
29
2760
2763
10
2725
2721
30
2777
2750
11
2715
2742
31
2774
2686
12
2785
2775
32
2713
2727
13
2718
2680
33
2741
2757
14
2719
2786
34
2789
2788
15
2751
2737
35
2723
2676
2
1
16
2755
2740
36
2713
2779
17
2685
2760
37
2781
2676
18
2700
2748
38
2706
2690
19
2712
2660
39
2776
2764
20
2778
2789
40
2738
2720
1. Vẽ các đồ thị thích hợp (hộp ria mèo) để đánh giá về tính đối xứng của dữ liệu
của 2 phương pháp nêu trên.
2. Tính các thống kê đặc trưng cho 2 phương pháp trên và so sánh
3. Tìm khoảng tin cậy 95% cho trung bình sức bền của lốp xe trong mỗi phương
pháp.
4. Hãy tiến hành kiểm định để so sánh trung bình sức bền của lốp xe trong 2
phương pháp trên và rút ra kết luận với α = 0.05
Sau đó, người ta thấy có một vài lốp xe bị hỏng trên đường. Trong quá trình điều
tra, giả thiết trên lại được đưa ra. Một bảng ghi chép về việc kiểm tra này được
thực hiện với 40 cặp mẫu được chọn ngẫu nhiên khác. Mỗi lốp xe trong từng cặp
được sản xuất theo 2 phương pháp khác nhau (ở giai đoạn có sự cải thiện về
phương pháp), còn tất cả các giai đoạn khác trong quá trình sản xuất là như nhau.
Có ý kiến cho rằng việc kiểm tra cặp thích hợp hơn. Thực hiện kiểm tra cặp với
α=0.05 (giả sử vẫn lấy dữ liệu trên).
Bài tập 2:
Gần đây, một nhóm nghiên cứu đã tập trung vào vấn đề dự đoán thị phần của nhà
sản xuất bằng cách sử dụng thông tin về chất lượng sản phẩm của họ. Giả sử rằng
các số liệu sau là thị phần đã có tính theo đơn vị phần trăm (%) (Y) và chất lượng
2
sản phẩm theo thang điểm 0-100 được xác định bởi một quy trình định giá khách
quan (X).
X: 27, 39, 73, 66, 33, 43, 47, 55, 60, 68, 70, 75, 82, 85, 88, 92, 90.
Y: 2, 3, 10, 9, 4, 6, 5, 8, 7, 9, 10, 13, 12, 9, 13, 15, 14.
a. Vẽ đồ thị rải điểm đễ nhận xét về mối quan hệ có thể có giữa Y và X
b. Hãy ước lượng mối quan hệ hồi quy tuyến tính đơn giữa thị phần và chất
lượng sản phẩm. Kết luận?
c. Kiểm định sự tồn tại mối liên hệ tương quan tuyến tính giữa X và Y.
d. Cho biết hệ số R2 và giải thích ý nghĩa của nó.
e. Hãy dự báo thị phần nếu thang điểm cho chất lượng sản phẩm là 40, 50, 80
và 90.
f. Theo anh chị, liệu chỉ sử dụng 1 biến X như trên để giải thích cho Y đã đủ
chưa. Nếu có thể đưa thêm biến độc lập thì có thể là những yếu tố nào?
Bài làm
Câu 1.
1. Vẽ các đồ thị thích hợp (hộp ria mèo) vào hộp boxbot để đánh giá về tính
đối xứng của dữ liệu của 2 phương pháp nêu trên.
Nhập dữ liệu vào phần mêm và sử dụng ham Descriptive ta được hình như
sau
3
Nhìn vào 02 đồ thị trên dữ liệu cho ta thấy phương pháp 1 tương đối đối
xứng. do chiều dài của hộp tương đương. Phương pháp 2 lệch sang trái,
2. Tính các thống kê đặc trưng cho 2 phương pháp trên và so sánh
Dùng hàm Desccriptive và chọn các thông số Mean , Sample , Minimun ,
Median ta có kết quả như bảng sau
Descriptive
statistics
PP1
PP2
Count
40
40
Mean
2,742.58
2,729.35
sample variance
1,087.94
1,468.34
deviation
32.98
38.32
Minimum
2685
2660
Maximum
2799
2789
sample standard
4
Range
114
129
1st quartile
2,714.50
2,689.00
Median
2,740.50
2,738.50
3rd quartile
2,774.50
2,757.75
60.00
68.75
2,755.00
2,676.00
low extremes
0
0
low outliers
0
0
High outliers
0
0
High extremes
0
0
interquartile range
Mode
5
Nhân xét : Cả 02 phương pháp đều có 40 Quan sát (giá trị quan sát). Gía trị
trung bình tương đương (2.742 & 2.729). So sánh trung vị cũng có giá trị tương
đương
2,74
2,738.5
0.50
0
So sánh về độ phân tán phương pháp 2 có độ phân tán lớn hơn do cả độ lệch
tiêu chuẩn & Khoảng tứ phân vị đều lớn hơn phương pháp 01
Cả 2 phương pháp đều không có giá trị ngoại lai,
3.
Tìm khoảng tin cậy 95% cho trung bình sức bền của lốp xe trong mỗi phương
pháp.
Descriptive statistics
Phương pháp
1
Phương pháp 2
40
40
2,732.03
2,717.10
2,753.12
2,741.60
10.55
12.25
Count
confidence interval 95.%
lower
confidence interval 95.%
upper
half-width
Kết luận : Với độ tin cậy 95 % thì trung bình của sức bền cho phương pháp
1 là từ 2.732 đến 2.753 Còn cho phương pháp 2 là 2.717 đến 2.741
4. Hãy tiến hành kiểm định để so sánh trung bình sức bền của lốp xe trong 2
phương pháp trên và rút ra kết luận với α = 0.05
Ta có ; Ho ; ℳ1 = ℳ2
Trong đó ℳ1 : Sức bền của lốp trong PP1
6
H1 ; ℳ1# ℳ2
ℳ2 : Sức bền của lốp trong PP2
Dùng hàm nHypothesis Test ta có kết quả như sau
Hypothesis Test: Independent Groups (t-test, pooled variance)
PP1
PP2
2,742.58
2,729.35
32.98
38.32
40
Mean
std. dev.
40 N
78
Df
13.225
difference (PP1 – PP2)
1,278.139
pooled variance
35.751
pooled std. dev.
standard error of
7.994
difference
0 hypothesized difference
1.65
.1021
T
p-value (two-tailed)
Kết luận : p-value = 0,1021 lớn hơn α = 0,05 Nên chưa bác bỏ Ho . Có thể kết
luận trung bình sức bền lốp xe trong 02 phương pháp là như nhau ( như nhân định
trong câu số 02 )
5.Sau đó, người ta thấy có một vài lốp xe bị hỏng trên đường. Trong quá trình
điều tra, giả thiết trên lại được đưa ra. Một bảng ghi chép về việc kiểm tra này
7
được thực hiện với 40 cặp mẫu được chọn ngẫu nhiên khác. Mỗi lốp xe trong từng
cặp được sản xuất theo 2 phương pháp khác nhau (ở giai đoạn có sự cải thiện về
phương pháp), còn tất cả các giai đoạn khác trong quá trình sản xuất là như nhau.
Có ý kiến cho rằng việc kiểm tra cặp thích hợp hơn. Thực hiện kiểm tra cặp với
α=0.05 (giả sử vẫn lấy dữ liệu trên).
Nếu coi thử nghiệm trên đây là theo cặp thì ta sử dụng bộ số liệu cặp trong đó
mỗi một cặp bao gồm PP1 & PP2 . sử dụng phần mềm có bộ số liệu cặp
Dùng hàm Hypothesis Test và chọn Paired Observations ta có kết quả như
sau:
Hypothesis Test: Paired Observations
0.000
hypothesized value
mean
2,742.575 PP1
mean
2,729.350 PP2
13.225
mean difference (PP1 - PP2)
48.480
std. dev.
7.665
std. error
40
n
39
df
1.73
t
.0924
p-value (two-tailed)
8
Với p-value = 0.0924 lớn hơn α= 5% nên cung chưa bác H0 . Vậy nếu sử dụng
cặp số liệu thì trung bình độ bền lốp xe trong 02 phương pháp được coi là như
nhau
Bài tập 2:
a.
Vẽ đồ thị rải điểm đễ nhận xét về mối quan hệ có thể có giữa Y và X
b. Từ số liệu thu được, phân tích hồi qui bằng Dùng
MegaStat/Correlation Regression/ Regression Analysis của hai tham số thị phần
Y và chất lượng sản phẩm X ta có các kết quả sau:
Regression Analysis
r²
0.896
n
17
r
0.946
k
1
Std. Error
1.301
Dep. Var. Y
ANOVA table
Source
SS
df
MS
F
p-value
9.30E-
Regression
217.6803
1
217.6803
128.66
09
9
Residual
25.3786
15
Total
243.0588
16
1.6919
Regression
output
confidence interval
coefficient
std.
t
95%
95%
variables
s
error
(df=15)
p-value
lower
upper
Intercept
-2.7054
1.0593
-2.554
.0220
-4.9632
-0.4476
X
0.1784
0.0157
11.343
9.30E-09
0.1449
0.2119
Vậy, hàm hồi qui của hai tham số này được viết như sau
Y = β0 + β1X = -2.7054 + 0.1784X
Hệ số chặn β0= -2.7054
Hệ số góc β1 = 0.1784
Kết luận: Do β1 >0 nên Y và X biến thiên cùng chiều nên khi chất lượng tăng, thị
phần sẽ tăng. Nếu chất lượng thay đổi 1 điểm thì thị phần thay đổi 0.1784%
c.
Để kiểm định có mối liên quan tuyến tính giữa thị phần và chất lượng sản
phẩm hay không, ta giả thiết rằng mối tương quan đó là không có (β1=0) và
ta kiểm định cặp giả thiết sau:
H0: β1 = 0
H1: β1 # 0
Từ kết quả phân tích hồi qui ở trên ta thấy p-value = 9.30E-09 < α = 0.05. Như vậy
có cơ sở để bác bỏ H0 có nghĩa là có mối liên quan tuyến tính giữa thị phần và chất
lượng sản phẩm.
10
Kết luận: Giữa X và Y có tồn tại mối liên hệ tương quan tuyến tính.
d.
Cũng từ kết quả phân tích hồi qui ở trên ta có R 2 = 0.896. Điều này có nghĩa
rằng sự thay đổi thị phần Y được giải thích bởi 89,6% là do sự biến thiên về
chất lượng sản phẩm X
Mô hình hồi quy tuyến tính đơn tổng thể như sau:
Yi = β0 + β1Xi + εi
A
Và đưa ra hệ số xác định r2:2
r =
B
A
A+B
Trong đó
A:
Phần quan hệ tuyến tính của biến phụ thuộc
B:Phần sai số ngẫu nhiên của biến phụ thuộc (hay nhiễu)
Giá trị xác định của r2 nằm trong khoảng: 0 ≤ r2 ≤ 1
Như vậy ý nghĩa của r2 là:
- r2 càng lớn, quan hệ tuyến tính của hai biến Y và X càng chặt chẽ. Nếu r 2
= 1 thì quan hệ giữa hai biến là một quan hệ tuyến tính hoàn hảo.
- r2 càng nhỏ, quan hệ tuyến tính của hai biến Y và X càng lỏng lẻo. Nếu r 2
= 0 có nghĩa là hoàn toàn không có quan hệ tuyến tính giữa hai biến.
11
e. Phân tích hồi qui các dữ liệu của hai tham số thị phần Y và chất lượng sản
phẩm X bằng megastat có dự báo thị phần trong các trường hợp chỉ số chất lượng
là 40, 50, 80 và 90 ta được kết quả như sau:
Regression Analysis
r²
0.896
n
17
r
0.946
k
1
Std. Error
1.301
Dep. Var. Y
ANOVA table
Source
SS
df
MS
F
p-value
9.30E-
Regression
217.6803
1
217.6803
Residual
25.3786
15
1.6919
Total
243.0588
16
128.66
09
Regression
output
confidence interval
coefficient
std.
t
95%
95%
variables
s
error
(df=15)
p-value
lower
upper
Intercept
-2.7054
1.0593
-2.554
.0220
-4.9632
-0.4476
X
0.1784
0.0157
11.343
9.30E-09
0.1449
0.2119
Predicted values for: Y
95% Confidence
Intervals
95% Prediction Intervals
Leverag
X
Predicted
lower
upper
lower
upper
e
40
4.431
3.374
5.487
1.464
7.397
0.145
12
50
6.215
5.389
7.040
3.322
9.107
0.089
80
11.567
10.713
12.421
8.666
14.468
0.095
90
13.351
12.258
14.444
10.371
16.331
0.155
Từ bảng kết quả trên ta có kết quả dự báo thị phần Y tương ứng với các mức
chất lượng cho trước theo bảng sau đây:
X
Y được dự báo (%)
40
4.431
50
6.215
80
11.567
90
13.351
Có nghĩa là: Thị phần của sản phẩm được dự báo đạt 4.43% ứng với thang
điểm chất lượng là 40; Thị phần đạt 6.215% ứng với thang điểm chất lượng là
50…..
d. p value = 9.3 E-09. Là rất nhỏ nên anfa ><0. Vậy thi phần phụ thuộc vào
chất lượng sản phẩm, chỉ sử dụng 1 biến X về chất lượng để giải thích cho Y là
chưa đủ mặc dù chất lượng có ảnh hưởng và đóng góp rất lớn (89%) vào thị phần.
liệu chỉ sử dụng 1 biến X như trên để giải thích cho Y đã đủ chưa. Nếu có thể đưa
thêm biến độc lập thì có thể là các đánh giá về chất lượng dịch vụ, mức độ qui mô
quảng cáo hình ảnh sản phẩm.
13