•24/10/2014
Chương V: Xử lý dữ liệu
•Nguyen Hung Phong
NHP
1
Chương 5: Xử lý dữ liệu
I. Các đại lượng đo lường độ phân tán
II. Ước lượng thông số đám đông từ mẩu
III. Một số phép kiểm định cơ bản
IV. Phân tích nhân tố
V. Phân tích tương quan bằng hàm tương
quan
VI. Kiểm tra các giả định của hàm tương quan
VII.Các phép kiểm định phi tham số (nonparametric tests)
NHP
2
Sử dụng các công cụ thống kê trong phân tích
Mục tiêu và kiểu của các câu hỏi nghiên cứu
Mục tiêu chung
Mục tiêu cụ thể
Kiểu câu hỏi/ giả thiết
Kiểu thống kê
Quan hệ giữa các biến
Mức độ liên
quan, các biến
liên quan
So sánh
nhóm
Khác biệt
Thống kê khác biệt
(v.d. t-test, ANOVA)
NHP
Liên quan
Thống kê liên
quan
(v.d. tương
quan, hồi quy)
Mơ tả
Tóm lược
dữ liệu
Mơ tả
Thống kê mơ
tả (v.d. trung
bình, tỷ lệ)
3
•1
•24/10/2014
I. Các đại lượng đo lường độ phân tán
• Thông soỏ
ã 1.Trung
bỡnh
ã ẹaựm ủoõng
ã Maồu
n
X= (X /n
i )
N
à = Xi/ N
i=1
1
i=
N
ã 2. Phửụng
sai
= ( Xi à ) / N
• 3. Độ lệch
tiêu chuẩn
• 4. Hàm
phân phối
σ =2 σ2
2
2
n
s = ∑ ( Xi − X ) 2 /( n − 1)
2
i =1
i =1
s = 2 s2
X i ∈ N (µ , σ 2 )
2
X i ∈ N (µ ,σ X )
NHP
4
I. Các đại lượng đo lường độ phân tán
• Thông số
• 5. Tỷ lệ
• 6. Phương sai
• 7. Độ lệch
• tiêu chuẩn
• Đám đông
Mẩu
Pp
σP 2 =
p
Ps
σP 2 =
Pp (1− Pp )
s
N
σp =2σp
p
2
p
P(1−P)
s
s
n
σp = 2 σp 2
s
s
NHP
5
Phân phối chuẩn một đơn vị
NHP
6
•2
•24/10/2014
Đo lường dạng hình của phân phối (Measures
of Shape)
•
•
•
•
•
Độ lệch (skewness) đo lường độ lệch của phân phối về một trong
hai phía.
Phân phối lệch trái (negative skew, left-skewed) khi đi phía trái
dài hơn, và phần lớn số liệu tập trung ở phía phải của phân phối.
Phân phối lệch phải (positive sknew, right-skewed) khi đi phía
phải dài hơn, và phần lớn số liệu tập trung ở phía trái của phân
phối.
Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị
skewness âm. Độ càng lớn thì giá trị sknewness càng lớn hơn 0.
Với phân phối chuẩn, độ lệch gần như nhận giá trị 0. Tuy nhiên khi
giá trị này nằm trong khỏang -1 cho đến =1, chúng ta vẫn chấp
nhận phân phối xấp xĩ phân phối chuẩn
NHP
7
Đo lường dạng hình của phân phối (Measures
of Shape)
NHP
8
Đo lường dạng hình của phân phối (Measures
of Shape)
•
Độ nhọn (kurtosis)
–
–
Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của phân
phối so với phân phối bình thường (có độ nhọn bằng 0).
Phân phối có dạng nhọn khi giá trị kurtosis dương và có
dạng bẹt khi giá trị kurtosis âm.
Với phân phối bình thường, giá trị của độ lệch và độ nhọn
bằng 0. Căn cứ trên tỷ số giữa giá trị skewness và kurtosis
và sai số chuẩn của nó, ta có thể đánh giá phân phối có bình
thường hay khơng (khi tỷ số này nhỏ hơn -2 và lớn hơn +2,
phân phối là khơng bình thường).
NHP
9
•3
•24/10/2014
Kỷ thuật chuyển đổi về phân phối chuẩn
Biến ban đầu: X
Giảm độ lệch âm
Giảm độ lệch dương
Kỷ thuật chuyển đổi
Dùng biến X2 hoặc X3
LogX
(X)1/2
1/X
1/X2
ArcsineX
Kéo dài các đi của
phân phối
NHP
10
II. Ước lượng thông số đám đông
−
S
S
X
Ps
μ
Pp
Đám đông
NHP
11
II. Ước lượng thông số đám đông
II.1.1 Ước lượng trung
bình đám đông
n ≥ 30
– Chuyển phân phối
chuẩn tổng quát trở về
X − µ
Z =
phân phối chuẩn một
σ X
đơn vị với biến ngẩu
nhiên
– Tìm xác xuất P sao
P (a ≤ Z ≤ b) = (1 −
cho:
– Đối với phân phối
chuẩn một đơn vị, ta
P(− Zα / 2 ≤ Z ≤ + Zα / 2 ) = (1 −
có
NHP
α)
α)
12
•4
•24/10/2014
II. Ước lượng thông số đám đông
Như vậy, chúng ta sẽ có :
− Zα / 2 ≤ Z ≤ + Zα / 2
Hay:
− Zα / 2 ≤
Suy ra:
X −µ
σX
≤ + Zα / 2
X − Zα 2 .σ X ≤ µ ≤ X + Zσ 2 .σ X
2
Ở đây, ta có: σ X = 2 σ X = 2
σ2
n
=σ
2
n
NHP
13
II. Ước lượng thông số đám đông
n<30
X −µ
t=
II.1.2 Ước lượng trung
bình đám đông
– Chuyển phân phối
chuẩn tổng quát trở về
phân phối t
– Tìm xác xuất P sao
cho:
– Đối với phân phối t
(phân phối student), ta
P(−tα / 2 , ( n −1)
coù
σX
P(a ≤ t ≤ b) = (1 − α )
≤ t ≤ +tα / 2,( n −1) ) = (1 − α )
NHP
14
II. Ước lượng thông số đám đông
Như vậy, chúng ta sẽ coù : − tα / 2 , ( n −1)
Hay:
Suy ra:
− tα / 2 , ( n −1) ≤
X −µ
σX
≤ t ≤ +tα / 2,( n −1)
≤ +tα / 2 ,( n−1)
X − tα 2 ,( n −1) .σ X ≤ µ ≤ X + tσ 2 ,( n −1) .σ X
2
Ở đây, ta có: σ X = 2 σ X = 2
σ2
n
NHP
=σ
2
n
15
•5
•24/10/2014
II. Ước lượng thông số đám đông
II.2.1 Ước lượng tỷ lệ đám đông(Khi n lớn hơn hoặc bằng
30 phần tử)
– Chuyển phân phối
tổng quát về phân
phối chuẩn
Z=
Ps − Pp
σP
S
– Tỷ lệ đám đông sẽ
nằm trong khoảng
Ps − Zα 2 .σ PS ≤ Pp ≤ Ps + Zσ 2 .σ PS
NHP
16
II. Ước lượng thông số đám đông
II.2.1 Ước lượng tỷ lệ đám đông(Khi n nhỏhơn 30 phần tử)
– Chuyển phân phối
tổng quát về phân
phối student (t)
t=
Ps − Pp
σP
S
– Tỷ lệ đám đông sẽ
nằm trong khoảng
Ps − tα 2 ,( n −1) .σ Ps ≤ Pp ≤ Ps + tσ
2,( n −1)
.σ PS
NHP
17
III. Một số phép kiểm định giả thuyết
III.1 Kiểm định trung bình và tỷ lệ đám đông
Mục đích
Phát hiện xem các giá trị trung bình/tỷ lệ của đám đông
có sự thay đổi hay không
Phương pháp tiến hành
– Lấy mẩu từ đám đông sau đó tính trung bình hoặc tỷ
lệ mẩu
– Sử dụng trung bình hoặc tỷ lệ mẩu để kiểm định có sự
thay đổi về trung bình và tỷ lệ đám đông hay không
NHP
18
•6
•24/10/2014
Các kỹ thuật kiểm định cơ bản
Các kỹ thuật kiểm định dùng theo loại dữ liệu và trắc nghiệm
One-sample
Case
Thang đo
Two-Samples Tests
Related
Samples
k-Samples Tests
Independent
Samples
Related
Samples
Independent
Samples
Nominal
- Binomial
- χ2 one-sample
test
- McNemar
- Fisher exact
test
- χ2 twosample test
- Cochran Q
- χ2 for ksamples
Ordinal
- KolmogorovSmirnov onesample test
- Runs test
- Sign test
- Wilcoxon
matched-pairs
test
-Median test
MannWhitney U
- KolmogorovSmirnov
WaldWolfowitz
-Friedman
two-way
ANOVA
- Median
extension
- KruskalWallis oneway ANOVA
Interval and Ratio
- T-test
- Z test
- T-test for
- T-test
paired
NHP - Z test
samples
- Repeatedmeasured
ANOVA
- One-way
ANOVA 19
- N-way
ANOVA
Sai lầm trong kiểm định
Quyết định
Bản chất của giả thuyết Ho
Đúng
Sai
Chấp nhận H0
Quyết định
đúng
Sai lầm loại II
(Beta)
Từ chối H0
Sai lầm loại I
(alpha)
Quyết định
đúng
NHP
20
Giá trị xác suất (p Values)
• Giá trị p value được so sánh với mức ý nghĩa
(significant level - α), và dựa trên kết quả này để
bác bỏ hay không bác bỏ giả thiết.
• Nếu giá trị p value nhỏ hơn mức ý nghĩa, giả
thiết bị bác bỏ (p value < α, bác bỏ giả thiết H0).
• Nếu giá trị p value bằng hoặc lớn hơn mức ý
nghĩa, không bác bỏ giả thiết Ho (p value > α,
khơng bác bỏ giả thiết H0).
NHP
21
•7
•24/10/2014
Kiểm định ý nghĩa: các kiểu kiểm định
• Có hai loại: parametric (tham số) và
nonparametric (phi tham số).
– Parametric tests là cơng cụ mạnh vì xử lý các
dữ liệu dạng scale (interval, ratio).
– Nonparametric tests là công cụ xử lý các dữ
liệu dạng nominal và ordinal.
NHP
22
Kiểm định ý nghĩa: các kiểu kiểm định
• Parametric tests địi hỏi một số giả định:
– Các quan sát phải độc lập với nhau.
– Các quan sát phải được rút ra từ các đám
đơng có phân phối chuẩn.
– Các nhóm trong đám đơng phải có phương
sai tương đương.
– Các biến phải có quan hệ tuyến tính
– Thang đo phải ở dạng scale để các tính tốn
có thể thực hiện được.
NHP
23
Kiểm định ý nghĩa: các kiểu kiểm định
• Nonparametric tests ít địi hỏi các giả định:
– Khơng địi hỏi các quan sát phải được rút ra từ các
đám đơng có phân phối chuẩn.
– Khơng địi hỏi các nhóm phải có phương sai tương
đương.
– Là cách duy nhất để xử lý dữ liệu danh xưng
(nominal).
– Là cách đúng đắn để xử lý dữ liệu với thang đo thứ
tự (ordinal), mặc dù parametric có thể áp dụng được.
– Dễ hiểu và dễ sử dụng.
NHP
24
•8
•24/10/2014
III.1 Kiểm định trung bình và tỷ lệ đám
đông
Trình tự
– Bước 1: Thiết lập giả thuyết
H 0 : µ = µo
H1 : µ ≠ µ o
– Bước 2: Chọn alpha
– Bước 3: Xác định phép kiểm
định (Z hoặc t) trong trường
hợp kiểm định trung bình
Z tt =
ttt =
X −µ
σX
X −µ
σX
NHP
25
III.1 Kiểm định trung bình và tỷ lệ đám
đông
Trong trường hợp kiểm
định tỷ lệ đám đông,
chúng ta sẽ xác định
Ztt hoặc ttt nhö sau
Z tt =
ttt =
Ps − Pp
σp
S
Ps − Pp
σP
S
NHP
26
III.1 Kiểm định trung bình và tỷ lệ đám
đông
Bước 4: xác định giá trị
Z tthoặc ttt có nằm trong
vùng chấp nhận hay
khoâng
Z tt ∈ [ − Zα / 2 , Zα 2 ]
Chấp nhận H0 nếu
Z tt ∉ [ − Zα / 2 , Zα 2 ]
Từ chối H0, chấp nhận H1, nếu
Tương tự trong trường hợp kiểm
định t, ta chấp nhận Ho nếu
ttt ∈ [−tα / 2,( n −1) , tα
2,( n −1)
]
ttt ∉ [−tα / 2,( n −1) , tα 2,( n −1) ]
Từ chối Ho và chấp nhận H1 nếu
NHP
27
•9
•24/10/2014
Ví dụ: µ=6.5, lấy mẩu với n=9, tính
được giá trị trung bình là 7
1. One-Sample T Test
Analyze
Compare Means
One-Sample T Test
NHP
28
Ví dụ: µ=6.5, lấy mẩu với n=9, tính
được giá trị trung bình là 7
1. One-Sample T Test
Analyze
Compare Means
One-Sample T Test
NHP
29
III.2 Kiểm định sự khác biệt giửa hai trung
bình, tỷ lệ
III.2.1 Kiểm định sự khác biệt giửa hai trung
bình/tỷ lệ
Trường hợp áp dụng:
– Khi đám đông được phân ra thành 2 hay nhiều nhóm
– Chúng ta muốn xác định các trung bình/tỷ lệ đám
đông có khác biệt hay không
– Dựa vào mẩu chúng ta sẽ tìm được hai trung bình/tỷ
lệ và sử dụng chúng để kiểm định cho trung bình/tỷ lệ
đám đông
NHP
30
•10
•24/10/2014
III.2 Kiểm định sự khác biệt giửa hai trung
bình, tỷ lệ
Quy trình: tương tự như
kiểm định trung bình/tỷ
lệ
Bước 1: Xác định giả thuyết
H o : µ1 = µ 2 ( Pp1 = Pp 2 )
H1 : µ1 ≠ µ 2 ( Pp1 ≠ Pp 2 )
Bước 2: Chọn alpha
X1 − X 2
Z tt =
(
2
Bước 3: Xác định Ztt hoặc ttt
(kiểm định 2 trung bình)
σ 12
n1
+
2
σ2
n2
)
X1 − X 2
ttt =
2
(
σ 12
n1
+
σ 22
n2
)(
1 1
+ )
n1 n2
NHP
31
III.2 Kiểm định sự khác biệt giửa hai trung
bình, tỷ lệ
Nếu kiểm định sự khác biệt giửa hai tỷ lệ chúng ta
sẽ xác định giá trị Ztt theo caùch sau
Z tt =
2
p=
Ps1 − Ps 2
1
1
p (1 − p )( + )
n1 n 2
Ps1 .n1 + Ps 2 .n 2
n1 + n 2
NHP
32
III.2 Kiểm định sự khác biệt giửa hai trung
bình, tỷ lệ
• Bước 4: Khẳng định hay
bác bỏ giả thuyết
• Chấp nhận Ho nếu
tt
Z ∈ [− Zα / 2 , Zα 2 ]
• Từ chối Ho nếu
Z tt ∉ [ − Z α / 2 , Z α 2 ]
NHP
33
•11
•24/10/2014
Ví dụ
3. Two-Sample T Test
• Ví dụ 3. Số liệu điều tra sử dụng xe máy
– Giả thiết Ho: tuổi trung bình của người sử
dụng xe máy nam và nữ là như nhau.
– Giả thuyết H1: Có sự khác biệt về độ tuổi sử
dụng
NHP
34
Ví dụ
3. Two-Sample T Test
Analyze
Compare Means
Independent-Samples T Test
NHP
35
Ví dụ
3. Two-Sample T Test
NHP
36
•12
•24/10/2014
Ví dụ
3. Two-Sample T Test
Chọn biến Age cho ơ
Test Variable(s)
Grouping Variable:
Group 1 = 1 (male);
Group 2 = 0 (female)
NHP
37
Ví dụ
3. Two-Sample T Test
Independent Samples Test
Levene's Test for
Equality of Variances
F
Age of motorbike user variances
Equal
1.239
assumed
Equal variances
not assumed
Sig.
.268
t-test for Equality of Means
t
95% Confidence
Interval of the
Difference
Mean Std. Error
Sig. (2-tailed)Difference Difference Lower
Upper
df
-.315
98
.754
-.93
2.95
-6.77
4.92
-.321
91.785
.749
-.93
2.89
-6.66
4.81
P values (Sig. (2-tailed)) cao hơn α = 0.05 rất nhiều.
Ta chấp nhận giả thiết và diễn giải là khơng có sự khác biệt về tuổi
trung bình giữa người sử dụng xe máy là Nam và Nữ.
NHP
38
Phân tích anova một chiều
•
•
•
•
Giả sử chúng ta phân nhóm đám đơng theo một tiêu thức phân loại
gồm k nhóm (j)
Tiến hành lấy k mẫu với cở mẫu của một nhóm i nào đó là ni
Giá trị của một quan sát i thuộc nhóm j sẽ được tính như sau:
Xij = µ + αj + εij . Trong ú:
ã à: l trung bỡnh tng th (trung bỡnh ca k nhóm)
• αj : giá trị tác động của nhóm j vào trung bình tổng thể
• εij : sai số
•
•
•
Giả định εij có phân phối chuẩn một đơn vị
Hai thơng số cần ước tính là µ và αj : ước tính theo phương pháp
tổng bình phương các sai lệch là nhỏ nhất
Đối với mẫu:
x = x + (x − x) + (x − x )
ij
j
ij
NHP
j
39
•13
•24/10/2014
Phân tích anova một chiều
• Tổng biến thiên (SST):
ni
k
SST = ∑∑ ( xij − x ) 2
i =1 j =1
• Tổng biến thiên giữa các nhóm(SSB)
k
SSB = ∑ n j ( x j − x ) 2
j =1
• Tổng biến thiên trong phạm vi nhóm (SSW)
ni
k
SSW = ∑∑ ( xij − x j ) 2
j =1 i =1
NHP
40
III.3 Kiểm định sự khác biệt giửa nhiều
trung bình (ANOVA một chiều)
H o : à1 = à 2 = ...... = àk
ã Bửụực 1: Thieỏt laọp giaỷ
thuyeỏt
H1 : à i à j
ã Bước 2: Chọn alpha
k
∑ n (x
Bước 3: Xác định giá trò
Ftt
j
Ftt =
j
− x ) 2 /( k − 1)
j =1
k
ni
∑∑ ( x
ij
− x j ) 2 /( n − k )
j =1 i =1
NHP
41
III.3 Kiểm định sự khác biệt giửa nhiều
trung bình (ANOVA một chiều)
• Bước 4: So sánh giửa Ftt
với Ftc
• Nếu Ftt nhỏ hơn Ftc,
chúng ta chấp nhận Ho,
nếu ngược lại, chúng ta từ
chối Ho
• K: số nhóm
• n: tổng số phần tử lấy ra
từ k mẩu, số phần tử của
mỗi mẩu là nj
NHP
Ftc = Fα ,(k −1),( n − k )
42
•14
•24/10/2014
Ví dụ áp dụng: Anova
5. One-Way ANOVA (Parametric Test)
• Ví dụ 5. Số liệu điều tra sử dụng xe máy
• Giả thiết: Khơng có sự khác biệt giữa các người sử
dụng xe máy ở các nhóm tuổi khác nhau về số ngày
sử dụng bình qn trong tháng.
Analyze
Compare Means
One-Way ANOVA…
NHP
43
Ví dụ áp dụng: Anova
5. One-Way ANOVA (Parametric Test)
NHP
44
Ví dụ áp dụng: Anova
5. One-Way ANOVA (Parametric Test)
ANOVA
Number of used days in a month
Between Groups
Within Groups
Total
Sum of
Squares
1428.944
3987.806
5416.750
df
5
94
99
Mean Square
285.789
42.423
F
6.737
Sig.
.000
P value < 0.05.
Kết luận: bác bỏ giả thiết;
Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các
nhóm tuổi khác nhau về số ngày sử dụng bình qn trong tháng
NHP
45
•15
•24/10/2014
Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
• Trường hợp áp dụng:
– Khi có hai biến độc lập và một biến phụ thuộc
– Tìm kiếm có sự khác biệt của biến phụ thuộc theo
tiêu thức phân nhóm của biến độc lập
– Một biến độc lập đóng vai trị là biến phân nhóm
(category) biến cịn lại có thể xem như biến ngoại lai
– Không xem xét sự tương tác giữa hai biến độc lập
(phân tích thử nghiệm khối ngẫu nhiên-randomized
block design)
– Trong mơ hình khối ngẫu nhiên các mẫu được chọn
theo các cặp tương xứng
NHP
46
Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
• Ví dụ: Hiệu ứng của quảng cáo tại điểm bán hàng (POP:
point of purchase advertisng) lên doanh thu của cửa
hàng: nếu xem diện tích của cửa hàng là một biến can
thiệp/ngoại lai có thể tạo nên sự khác biệt của doanh thu
là một mơ hình thử nghiệm khối ngẫu nhiên
• Cách thử nghiệm: trong mỗi nhóm/khối kích thước cửa
hàng (giả sử có 6 nhóm) chọn ngẫu nhiên 3 cửa hàng,
mỗi cửa hàng được trưng bày một kiểu POP (có 3 kiểu
POP)
• Tổng số quan sát sẽ là 18 cửa hàng, sô 1lie65u về
doanh số của 18 cửa hàng phân theo POP và khối như
sau
Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
Diện tích cửa
hàng (khối)
Doanh thu cửa hàng
POP1
1
126.20
2
125.00
3
126.00
4
124.50
5
124.00
6
124.10
TB nhóm 124.97
POP2
123.80
123.50
124.30
123.60
123.80
124.50
123.92
POP3
126.00
125.50
125.90
124.10
123.80
125.50
125.13
Trung bình
khối
124.33
124.67
125.40
124.07
123.87
124.70
124.67
•16
•24/10/2014
Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
• Các giả định
– Phương sai của các nhóm phải bằng nhau
(dùng Levene test để kiểm định giả thuyết
này)
– Biến phụ thuộc phải có phân phối chuẩn
– Các quan sát phải độc lập với nhau
NHP
49
Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
Nhóm (xử lý)
Khối (biến
ngoại lai)
Trung
bình theo
khối
1
2
i
k
y11
y21
yi1
yk1
2
y12
y22
yi1
yk1
y2
J
Y1j
y2j
yij
ykj
yj
h
y1h
y2h
yih
ykh
TB theo
nhóm
y1
yi
yk
1
y2
y1
yh
TB tổng
thể y
NHP
50
Mơ hình phân tích phương sai
hai chiều
• Giá trị của một quan sát của đám đông(yij)
y ij = µ + α i + β j + ε ij (1 )
• Giá trị quan sát của mẫu (yij)
y ij = y + α i + β j + ε ij ( 2 )
• Ta có thể biến đổi đẳng thức (2) thành (3) và (4)
yij = y + ( yi − y) + ( y j − y) + ( yij − yi − y j + y)(3)
( yij − y) = ( yi − y) + ( yj − y) + ( yij − yi − yj + y)(4)
NHP
51
•17
•24/10/2014
Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
k
•Biến thiên giữa các nhóm
SS
∑
= k
G
( y
− y )
2
i
− y )
2
j
i=1
•Biến thiên giữa các khối
h
SS
= h
B
∑
( y
j=1
k
SS
j=1
∑ ∑
=
E
h
i=1
•Sai số
( y
ij
− y
i
− y
j
+ y )
2
•Tổng biến thiên
k
T
= SS
G
+ SS
B
+ SS
E
=
h
i=1
SS
j=1
∑ ∑
( y
ij
− y)2
NHP
52
Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
Loại biến
thiên
Tổng biến Bậc tự do
thiên
Giữa nhóm
SSG
(k-1)
Giữa khối
SSB
(h-1)
Sai số
SSE
(k-1)(h-1)
Tổng
SST
Trung bình biến
thiên
k.h-1
MSG =
SSG
k −1
SS
MS B = B
h −1
F
MS
MS
G
E
MS
MS
B
E
SS E
MS E =
( k − 1)(h − 1)
NHP
53
Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
•Giả thuyết Ho
H 01 : µ 1 = µ 2 = ..... = µ i = ... = µ k
H 02 : µ 1 = µ 2 = ..... = µ j = ... = µ h
•Giả thuyết H1 : Có ít nhất hai trung bình theo nhóm và
theo khối khác nhau
•Từ chối H01 nếu
•Từ chối H02 nếu
F=
F=
MSG
〉 F(k −1),(k −1)(h−1),α
MSE
MSB
〉 F(h−1),(k −1)(h−1),α
MSE
NHP
54
•18
•24/10/2014
Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
• Trình tự xữ lý trên SPSS
– Vào analyze, general linear models, univariate: nhập
biến phụ thuộc vào “dependent list” và hai biến độc
lập vào “fixed factor”
– Vào “model”, chọn “custom”: đưa biến phụ thuộc và
biến ngoại lai (từ factors and covariates) vào “model”,
nhấp chuột để thay “interaction” bằng “main effects”
– Chọn “continue”, chọn “option”, vào “descriptive
statistics” và “homogeneity tests” sau đó nhấp vào
“continue”, và “ok”
NHP
55
Kiểm định ANOVA n chiều (two- way
anova): thử nghiệm thừa số
• Giả sử chúng ta có hai xử lý thực nghiệm A & B.
Xử lý A có a mức và xử lý B có b mức
• Mơ hình này sẽ có a.b mức xử lý kết hợp
• Nếu chúng ta thực hiện đo lường lặp lại
(replicated measure)cho các nhóm mẫu khác
nhau với số lần lập lại là r: AB(a.b:r)
• Cách thức phân tích cũng tương tự như trường
hợp hai biến, nhưng tương tác giữa hai cách xử
lý sẽ xuất hiện ở đây
Kiểm định ANOVA n chiều (two- way
anova): thử nghiệm thừa số
• Ví dụ: chúng ta thử nghiệm 3 dạng POP (POP1,
POP2, POP3) và 5 kiểu bao bì PK (PK1, PK2,
….,PK5): đây là thử nghiệm thừa số 3x5
• Chúng ta chọn 1 cửa hàng cho mỗi cách xử lý
kết hợp, như vậy chúng ta cần 15 cửa hàng cho
một lần thử nghiệm, và thực hiện lặp lại 3 lần,
cho nên tổng số quan sát sẽ là 45
• Dạng này là thử nghiệm lặp lại và đo lường cho
3 cửa hàng khác nhau gọi là đo lường lặp lại
•19
•24/10/2014
Kiểm định ANOVA n chiều (two- way anova): thử nghiệm thừa số
Kiểu bao bì
PK (tác động
2)
Loại POP (tác động 1)
pop1
pop2
TB PK
pop3
PK1
128.00
126.50
126.00
120.00
122.00
120.50
129.50
129.00
127.00
125.39
PK2
124.00
124.50
122.50
117.50
119.00
120.00
126.50
125.00
127.00
122.89
PK3
130.00
131.50
132.50
123.00
125.00
124.50
128.50
130.00
127.50
128.06
PK4
120.50
122.00
122.00
119.00
120.50
119.00
120.50
118.00
117.50
119.89
PK5
120.00
118.00
121.00
122.00
122.00
121.00
126.00
126.00
127.50
122.61
124.60
121.00
125.70
TB tổng thể:
123.77
TB POP
Kiểm định ANOVA hai chiều (two- way
anova): thử nghiệm thừa số
Xử lý
2
Xử lý 1
1
2
……………..
1
Y111 y112….. y11r
Y211 y212 …..y21r
………………. Ya11 ya12. ya1r
.
2
Y121 y122…. y12r
Y221 y222… y22r
………………………
………
Ya21 ya22.. ya2r
…
……
……………….
………………..
..
…………………..
...........................
................................
……………
….………….
b
Y1b1 y1b2…. y1br
Y2b1 y2b2… y2br
………………
…
……………………….
a
Yab1 yab2... yabr
Kiểm định ANOVA hai chiều (two- way anova):
thử nghiệm thừa số
• Giá trị một quan sát (yijr)
y ijr = y + α i + β i + (α i β j ) ij + ε ijr (1)
• Đẳng thức (1) có thể biến đổi thành đẳng thức (2) và (3)
yijr = y+(yi −y)+(yj −y)+(yij −yi −yj +y)+(yijr −yij)(2)
(yijr −y) =(yi −y)+(yj −y)+(yij −yi −yj +y)+(yijr −yij)( )
3
•
Như vậy tổng biến thiên sẽ bao gồm bốn bộ phận: biến thiên
giữa các nhóm i, j, biến thiên của tương tác, và biến thiên của
các sai lệch
NHP
60
•20
•24/10/2014
Kiểm định ANOVA n chiều (two- way
anova): thử nghiệm thừa số
Các biến thiên
Bậc tự do
a
b
r
SST = SS A + SS B + SS I + SS E = ∑∑∑ ( yijr − y )
i =1 j =1 r =1
a
SS A = a.r ∑ ( yi − y ) 2
2
(abr-1)
(a-1)
i =1
a
SS B = b.r ∑ ( y j − y )
2
(b-1)
i =1
a
b
SS I = r ∑∑ ( yij − y i − y j + y )
2
(a-1)(b-1)
i =1 j =1
a
b
r
SS E = ∑∑∑ (yijr − y ij )2
ab(r-1)
i =1 j =1 r =1
Bảng Anova hai chiều:ab:r
Loại biến thiên
Tổng
Bậc tự do Trung bình
Giữa các xử lý A SSA
(a-1)
Giữa các xử lý B SSB
(b-1)
Hổ tương
SSI
(a-1)(b-1)
Mơ hình
SSM
(ab-1)
Sai số
SSE
ab(r-1)
Tổng
SST
F
MSA
MSE
(abr-1)
SS
MS A = A
a-1
SS B
b-1
SS I
MS I =
(a-1)(b-1)
SS
MS M = M
ab-1
SS E
MS E =
ab(r-1)
MS B =
MSB
MSE
MSI
M SE
M SM
MSE
Kiểm định ANOVA n chiều (two- way
anova): thử nghiệm thừa số
• Trình tự xữ lý trên SPSS
– Vào analyze, general linear models, univariate: nhập
biến phụ thuộc vào “dependent list” và hai biến độc
lập vào “fixed factor”
– Vào “model”, chọn “custom”: đưa biến phụ thuộc và
biến ngoại lai (từ factors and covariates) vào “model”,
chọn “ interaction” là “full factorial”
– Chọn “continue”, chọn “option”, vào “descriptive
statistics” và “homogeneity tests” sau đó nhấp vào
“continue”, và “ok”
•21
•24/10/2014
Kiểm định ANOVA hai chiều (two- way anova)
có tính đến tương tác giữa hai biến độc lập
• Trình tự xữ lý trên SPSS
– Vào lệnh analize, chọn general linear model,
sau đó chọn univariate
– Nhập biến độc lập vào ơ dependent variable
– Nhập lần lượt hai biến độc lập vào “Fixed
factor”
– Select option và click vào: descriptive,
estimates of effect size, và homogeneity tests
– Nhấp chuột vào “continue” và sau đó nhấp
“ok”
NHP
64
IV. Mơ hình EFA
• EFA là phương pháp giúp chúng ta đánh
giá được giá trị hội tụ và giá trị phân biệt
của đo lường
• EFA giúp chúng ta rút gọn một tập hợp k
biến quan sát thành một tập hợp f biến
các yếu tố có ý nghĩa hơn (f < k)
• Dịch chuyển các items đo lường một biến
này sang biến khác
Mơ hình EFA một nhân tố
(Phương sai của biến đo lường)
• Tìm mối quan hệ giữa 3 đại lượng trong
mơ hình
– Phương sai của biến đo lường: var(Xi)
– Hiệp phương sai giữa nhân tố Fi và biến đo
lường Xi: Cov(Fi, Xi)
– Hiệp phương sai giữa hai biến đo lường Xi và
Xj: Cov (Xi, Xj)
•22
•24/10/2014
I. Mơ hình EFA một nhân tố
λ1
X1
X2
λ2
F
δ1
U1
δ2
U2
.
.
λ3
.
δ3
Xk
Uk
I. Mơ hình EFA một nhân tố
(Phương sai của biến đo lường)
• Giả định 1: biến đo
lường Xi bao gồm hai
thành phần: phần
i
i
i i
chung F (common
factor) và phần riêng
U (unique factor)
• Giả định 2: F và U Cov(F,Ui)=cov(F,Uj) = cov(Ui,Uj) = 0
độc lập với nhau; Ui
độc lập với Uj
X = λ F +δ U
Mô hình EFA một nhân tố
(phương sai của biến đo lường)
• Quan hệ giữa biến Xi với phần chung và
riêng được tính như sau
X 1 = λ1 F + δ1U1
X 2 = λ2 F + δ 2U 2
…………
X k = λk F + δ kU k
•23
•24/10/2014
Mơ hình EFA một nhân tố
(Phương sai của biến đo lường)
• Phương sai của biến var( X ) = E[( X à ) 2 ]
i
i
xi
o lng
ã Do Xi c chuyển về var( X ) = E ( X ) 2
i
i
N(0, 1) nên μxi=0
var( X i ) = E[(λi F + δ iU i )]2
var( X i ) = E (λi2 F 2 + δ i2U i2 + 2λiδ i FU i )
var( X i ) = λi2 E ( F 2 ) + δ i2 E (U i2 ) + 2λiδ i E ( FU i )
var( X i ) = λi2 var( F ) + δ i2 var(U i ) + 2λiδ i Co v( F ,U i )
Mơ hình EFA một nhân tố
(phương sai của biến đo lường)
•
Vì các biến Xi, F, và Ui được
đưa về N(0, 1) nên phương sai
của chúng bằng 0, và do cov
(F,Ui)= 0 cho nên
Phần
2
i
λ
var( X i ) = λi2 var( F ) + δ i2 var(U i )
var( X i ) = λi2 + δ i2 = 1
là phần chung (community) và được
ký hiệu là H2i
Hi2 nói lên phần phương sai của biến quan
sát Xi được giải thích bởi F, và Hi2 càng lớn
thì phần riêng sẽ càng nhỏ cho nên biến Xi
càng đóng góp nhiều cho biến F
Mơ hình EFA một nhân tố
(Hiệp phương sai giữa F và Xi)
Do trung bình các biến nhận giá trị bằng 0, nên
Cov ( F , X i ) = E[( F − µ F )( X i − µ xi )] = E ( FX i )
Cov ( F , X i ) = E[( F )(λi F + δ iU i )] = E (λi F 2 + δ i FU i )
Cov ( F , X i ) = λi E ( F 2 ) + δ i E ( FU i ) = λi var( F ) + δ i cov( F ,U i )
Do Cov(F, Ui)= 0, và phương sai các biến bằng 1, nên
Cov ( F , X i ) = λi v ar( F ) = λi = corr ( F , X i )
Như vậy: trong EFA một nhân tố, trọng số nhân tố chính là hệ số
tương quan giữa nhân tố đó với biến đo lường Xi
•24
•24/10/2014
Mơ hình EFA một nhân tố
(Hiệp phương sai giữa Xi và Xj)
Cov( X i , X j ) = E[( X i − µ xi )( X j − µ x j )] = E ( X i X j )
Cov( X i , X j ) = E[(λi F + δ iU i )(λ j F + δ jU j )]
Cov( X i , X j ) = E (λi λ j F 2 + λiδ j FU j + δ i λ jU i F + δ iδ jU iU j )
Cov( X i , X j ) = λi λ j E ( F 2 ) + λiδ j E ( FU j ) + δ i λ j E (U i F ) + δ iδ j E (U iU j )
Cov( X i , X j ) = λi λ jVa r( F ) + λiδ j Cov ( F ,U j ) + δ i λ j Cov(U i , F ) + δ iδ j C ov(U i ,U j )
Cov ( X i , X j ) = λi λ jVa r( F ) = λi λ j = corr ( X i , X j )
Như vậy: nếu hệ số tương quan giữa hai biến đó lường Xi, Xj càng lớn
thì trọng số nhân tố của hai biến này càng lớn. Do đó hai biến này đo
lường tốt cho yếu tố F (factor)
Mơ hình EFA hai nhân tố độc lập
λ11
F1
X1
λ21
λk1
X2
δ1
δ2
U1
U2
.
λ12
.
λ22
F2
λk 2
.
δ3
Xk
U3
Mơ hình EFA hai nhân tố độc lập
•
•
Khái qt về mơ hình:gồm
X i = λi1 F1 + λi2 F2 + δ iU1
phần chung cho F1 và F2 và
phần riêng U1của Xi
Giả định: F1 và F2 độc lập, và
chúng cũng độc lập với các
phần riêng của các biến Xi
Cov ( Fi , F j ) = Cov ( Fi , U i ) = Cov ( Fi , U j ) = Cov (U i , U j )
•
Các biến có phân phối chuẩn
một đơn vị N(0,1)
•25