Tải bản đầy đủ (.pdf) (73 trang)

CAO HỌC BÀI GIẢNG PHƯƠNG PHÁP NGHIÊN CỨU KHOA HỌC 5

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (752.26 KB, 73 trang )

•24/10/2014

Chương V: Xử lý dữ liệu
•Nguyen Hung Phong

NHP

1

Chương 5: Xử lý dữ liệu
I. Các đại lượng đo lường độ phân tán
II. Ước lượng thông số đám đông từ mẩu
III. Một số phép kiểm định cơ bản
IV. Phân tích nhân tố
V. Phân tích tương quan bằng hàm tương
quan
VI. Kiểm tra các giả định của hàm tương quan
VII.Các phép kiểm định phi tham số (nonparametric tests)
NHP

2

Sử dụng các công cụ thống kê trong phân tích
Mục tiêu và kiểu của các câu hỏi nghiên cứu
Mục tiêu chung

Mục tiêu cụ thể

Kiểu câu hỏi/ giả thiết

Kiểu thống kê



Quan hệ giữa các biến

Mức độ liên
quan, các biến
liên quan

So sánh
nhóm

Khác biệt
Thống kê khác biệt
(v.d. t-test, ANOVA)
NHP

Liên quan
Thống kê liên
quan
(v.d. tương
quan, hồi quy)

Mơ tả

Tóm lược
dữ liệu

Mơ tả

Thống kê mơ
tả (v.d. trung

bình, tỷ lệ)
3

•1


•24/10/2014

I. Các đại lượng đo lường độ phân tán
• Thông soỏ
ã 1.Trung
bỡnh

ã ẹaựm ủoõng

ã Maồu
n

X= (X /n
i )

N

à = Xi/ N
i=1

1
i=

N


ã 2. Phửụng
sai

= ( Xi à ) / N

• 3. Độ lệch
tiêu chuẩn
• 4. Hàm
phân phối

σ =2 σ2

2

2

n

s = ∑ ( Xi − X ) 2 /( n − 1)
2

i =1

i =1

s = 2 s2

X i ∈ N (µ , σ 2 )


2

X i ∈ N (µ ,σ X )

NHP

4

I. Các đại lượng đo lường độ phân tán
• Thông số
• 5. Tỷ lệ
• 6. Phương sai

• 7. Độ lệch
• tiêu chuẩn

• Đám đông

Mẩu

Pp
σP 2 =
p

Ps
σP 2 =

Pp (1− Pp )

s


N

σp =2σp
p

2
p

P(1−P)
s
s
n

σp = 2 σp 2
s

s

NHP

5

Phân phối chuẩn một đơn vị

NHP

6

•2



•24/10/2014

Đo lường dạng hình của phân phối (Measures
of Shape)







Độ lệch (skewness) đo lường độ lệch của phân phối về một trong
hai phía.
Phân phối lệch trái (negative skew, left-skewed) khi đi phía trái
dài hơn, và phần lớn số liệu tập trung ở phía phải của phân phối.
Phân phối lệch phải (positive sknew, right-skewed) khi đi phía
phải dài hơn, và phần lớn số liệu tập trung ở phía trái của phân
phối.
Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị
skewness âm. Độ càng lớn thì giá trị sknewness càng lớn hơn 0.
Với phân phối chuẩn, độ lệch gần như nhận giá trị 0. Tuy nhiên khi
giá trị này nằm trong khỏang -1 cho đến =1, chúng ta vẫn chấp
nhận phân phối xấp xĩ phân phối chuẩn

NHP

7


Đo lường dạng hình của phân phối (Measures
of Shape)

NHP

8

Đo lường dạng hình của phân phối (Measures
of Shape)



Độ nhọn (kurtosis)




Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của phân
phối so với phân phối bình thường (có độ nhọn bằng 0).
Phân phối có dạng nhọn khi giá trị kurtosis dương và có
dạng bẹt khi giá trị kurtosis âm.
Với phân phối bình thường, giá trị của độ lệch và độ nhọn
bằng 0. Căn cứ trên tỷ số giữa giá trị skewness và kurtosis
và sai số chuẩn của nó, ta có thể đánh giá phân phối có bình
thường hay khơng (khi tỷ số này nhỏ hơn -2 và lớn hơn +2,
phân phối là khơng bình thường).

NHP

9


•3


•24/10/2014

Kỷ thuật chuyển đổi về phân phối chuẩn
Biến ban đầu: X
Giảm độ lệch âm
Giảm độ lệch dương

Kỷ thuật chuyển đổi
Dùng biến X2 hoặc X3
LogX
(X)1/2
1/X
1/X2
ArcsineX

Kéo dài các đi của
phân phối

NHP

10

II. Ước lượng thông số đám đông




S

S

X
Ps

μ
Pp

Đám đông

NHP

11

II. Ước lượng thông số đám đông
II.1.1 Ước lượng trung
bình đám đông

n ≥ 30

– Chuyển phân phối
chuẩn tổng quát trở về
X − µ
Z =
phân phối chuẩn một
σ X
đơn vị với biến ngẩu
nhiên

– Tìm xác xuất P sao
P (a ≤ Z ≤ b) = (1 −
cho:
– Đối với phân phối
chuẩn một đơn vị, ta
P(− Zα / 2 ≤ Z ≤ + Zα / 2 ) = (1 −

NHP

α)

α)
12

•4


•24/10/2014

II. Ước lượng thông số đám đông
Như vậy, chúng ta sẽ có :

− Zα / 2 ≤ Z ≤ + Zα / 2

Hay:

− Zα / 2 ≤

Suy ra:


X −µ

σX

≤ + Zα / 2

X − Zα 2 .σ X ≤ µ ≤ X + Zσ 2 .σ X

2
Ở đây, ta có: σ X = 2 σ X = 2

σ2
n



2

n

NHP

13

II. Ước lượng thông số đám đông
n<30
X −µ
t=

II.1.2 Ước lượng trung

bình đám đông
– Chuyển phân phối
chuẩn tổng quát trở về
phân phối t
– Tìm xác xuất P sao
cho:
– Đối với phân phối t
(phân phối student), ta
P(−tα / 2 , ( n −1)
coù

σX

P(a ≤ t ≤ b) = (1 − α )
≤ t ≤ +tα / 2,( n −1) ) = (1 − α )

NHP

14

II. Ước lượng thông số đám đông
Như vậy, chúng ta sẽ coù : − tα / 2 , ( n −1)
Hay:

Suy ra:

− tα / 2 , ( n −1) ≤

X −µ


σX

≤ t ≤ +tα / 2,( n −1)
≤ +tα / 2 ,( n−1)

X − tα 2 ,( n −1) .σ X ≤ µ ≤ X + tσ 2 ,( n −1) .σ X

2
Ở đây, ta có: σ X = 2 σ X = 2

σ2
n

NHP



2

n

15

•5


•24/10/2014

II. Ước lượng thông số đám đông
II.2.1 Ước lượng tỷ lệ đám đông(Khi n lớn hơn hoặc bằng

30 phần tử)
– Chuyển phân phối
tổng quát về phân
phối chuẩn

Z=

Ps − Pp

σP

S

– Tỷ lệ đám đông sẽ
nằm trong khoảng

Ps − Zα 2 .σ PS ≤ Pp ≤ Ps + Zσ 2 .σ PS
NHP

16

II. Ước lượng thông số đám đông
II.2.1 Ước lượng tỷ lệ đám đông(Khi n nhỏhơn 30 phần tử)
– Chuyển phân phối
tổng quát về phân
phối student (t)

t=

Ps − Pp


σP

S

– Tỷ lệ đám đông sẽ
nằm trong khoảng

Ps − tα 2 ,( n −1) .σ Ps ≤ Pp ≤ Ps + tσ

2,( n −1)

.σ PS

NHP

17

III. Một số phép kiểm định giả thuyết
III.1 Kiểm định trung bình và tỷ lệ đám đông
Mục đích
Phát hiện xem các giá trị trung bình/tỷ lệ của đám đông
có sự thay đổi hay không

Phương pháp tiến hành
– Lấy mẩu từ đám đông sau đó tính trung bình hoặc tỷ
lệ mẩu
– Sử dụng trung bình hoặc tỷ lệ mẩu để kiểm định có sự
thay đổi về trung bình và tỷ lệ đám đông hay không
NHP


18

•6


•24/10/2014

Các kỹ thuật kiểm định cơ bản
Các kỹ thuật kiểm định dùng theo loại dữ liệu và trắc nghiệm
One-sample
Case

Thang đo

Two-Samples Tests
Related
Samples

k-Samples Tests

Independent
Samples

Related
Samples

Independent
Samples


Nominal

- Binomial
- χ2 one-sample
test

- McNemar

- Fisher exact
test
- χ2 twosample test

- Cochran Q

- χ2 for ksamples

Ordinal

- KolmogorovSmirnov onesample test
- Runs test

- Sign test
- Wilcoxon
matched-pairs
test

-Median test
MannWhitney U
- KolmogorovSmirnov
WaldWolfowitz


-Friedman
two-way
ANOVA

- Median
extension
- KruskalWallis oneway ANOVA

Interval and Ratio

- T-test
- Z test

- T-test for
- T-test
paired
NHP - Z test
samples

- Repeatedmeasured
ANOVA

- One-way
ANOVA 19
- N-way
ANOVA

Sai lầm trong kiểm định
Quyết định


Bản chất của giả thuyết Ho
Đúng

Sai

Chấp nhận H0

Quyết định
đúng

Sai lầm loại II
(Beta)

Từ chối H0

Sai lầm loại I
(alpha)

Quyết định
đúng

NHP

20

Giá trị xác suất (p Values)
• Giá trị p value được so sánh với mức ý nghĩa
(significant level - α), và dựa trên kết quả này để
bác bỏ hay không bác bỏ giả thiết.

• Nếu giá trị p value nhỏ hơn mức ý nghĩa, giả
thiết bị bác bỏ (p value < α, bác bỏ giả thiết H0).
• Nếu giá trị p value bằng hoặc lớn hơn mức ý
nghĩa, không bác bỏ giả thiết Ho (p value > α,
khơng bác bỏ giả thiết H0).

NHP

21

•7


•24/10/2014

Kiểm định ý nghĩa: các kiểu kiểm định

• Có hai loại: parametric (tham số) và
nonparametric (phi tham số).
– Parametric tests là cơng cụ mạnh vì xử lý các
dữ liệu dạng scale (interval, ratio).
– Nonparametric tests là công cụ xử lý các dữ
liệu dạng nominal và ordinal.

NHP

22

Kiểm định ý nghĩa: các kiểu kiểm định


• Parametric tests địi hỏi một số giả định:
– Các quan sát phải độc lập với nhau.
– Các quan sát phải được rút ra từ các đám
đơng có phân phối chuẩn.
– Các nhóm trong đám đơng phải có phương
sai tương đương.
– Các biến phải có quan hệ tuyến tính
– Thang đo phải ở dạng scale để các tính tốn
có thể thực hiện được.
NHP

23

Kiểm định ý nghĩa: các kiểu kiểm định

• Nonparametric tests ít địi hỏi các giả định:
– Khơng địi hỏi các quan sát phải được rút ra từ các
đám đơng có phân phối chuẩn.
– Khơng địi hỏi các nhóm phải có phương sai tương
đương.
– Là cách duy nhất để xử lý dữ liệu danh xưng
(nominal).
– Là cách đúng đắn để xử lý dữ liệu với thang đo thứ
tự (ordinal), mặc dù parametric có thể áp dụng được.
– Dễ hiểu và dễ sử dụng.
NHP

24

•8



•24/10/2014

III.1 Kiểm định trung bình và tỷ lệ đám
đông

Trình tự

– Bước 1: Thiết lập giả thuyết

H 0 : µ = µo
H1 : µ ≠ µ o

– Bước 2: Chọn alpha
– Bước 3: Xác định phép kiểm
định (Z hoặc t) trong trường
hợp kiểm định trung bình

Z tt =

ttt =

X −µ

σX
X −µ

σX


NHP

25

III.1 Kiểm định trung bình và tỷ lệ đám
đông
Trong trường hợp kiểm
định tỷ lệ đám đông,
chúng ta sẽ xác định
Ztt hoặc ttt nhö sau

Z tt =

ttt =

Ps − Pp

σp

S

Ps − Pp

σP

S

NHP

26


III.1 Kiểm định trung bình và tỷ lệ đám
đông
Bước 4: xác định giá trị
Z tthoặc ttt có nằm trong
vùng chấp nhận hay
khoâng

Z tt ∈ [ − Zα / 2 , Zα 2 ]

Chấp nhận H0 nếu

Z tt ∉ [ − Zα / 2 , Zα 2 ]

Từ chối H0, chấp nhận H1, nếu
Tương tự trong trường hợp kiểm
định t, ta chấp nhận Ho nếu

ttt ∈ [−tα / 2,( n −1) , tα

2,( n −1)

]

ttt ∉ [−tα / 2,( n −1) , tα 2,( n −1) ]
Từ chối Ho và chấp nhận H1 nếu

NHP

27


•9


•24/10/2014

Ví dụ: µ=6.5, lấy mẩu với n=9, tính
được giá trị trung bình là 7
1. One-Sample T Test
Analyze

Compare Means

One-Sample T Test

NHP

28

Ví dụ: µ=6.5, lấy mẩu với n=9, tính
được giá trị trung bình là 7
1. One-Sample T Test
Analyze

Compare Means

One-Sample T Test

NHP


29

III.2 Kiểm định sự khác biệt giửa hai trung
bình, tỷ lệ
III.2.1 Kiểm định sự khác biệt giửa hai trung
bình/tỷ lệ
Trường hợp áp dụng:
– Khi đám đông được phân ra thành 2 hay nhiều nhóm
– Chúng ta muốn xác định các trung bình/tỷ lệ đám
đông có khác biệt hay không
– Dựa vào mẩu chúng ta sẽ tìm được hai trung bình/tỷ
lệ và sử dụng chúng để kiểm định cho trung bình/tỷ lệ
đám đông

NHP

30

•10


•24/10/2014

III.2 Kiểm định sự khác biệt giửa hai trung
bình, tỷ lệ
Quy trình: tương tự như
kiểm định trung bình/tỷ
lệ
Bước 1: Xác định giả thuyết


H o : µ1 = µ 2 ( Pp1 = Pp 2 )
H1 : µ1 ≠ µ 2 ( Pp1 ≠ Pp 2 )

Bước 2: Chọn alpha

X1 − X 2

Z tt =

(

2

Bước 3: Xác định Ztt hoặc ttt
(kiểm định 2 trung bình)

σ 12
n1

+

2
σ2

n2

)

X1 − X 2


ttt =
2

(

σ 12
n1

+

σ 22
n2

)(

1 1
+ )
n1 n2

NHP

31

III.2 Kiểm định sự khác biệt giửa hai trung
bình, tỷ lệ
Nếu kiểm định sự khác biệt giửa hai tỷ lệ chúng ta
sẽ xác định giá trị Ztt theo caùch sau

Z tt =
2


p=

Ps1 − Ps 2
1
1
p (1 − p )( + )
n1 n 2

Ps1 .n1 + Ps 2 .n 2
n1 + n 2
NHP

32

III.2 Kiểm định sự khác biệt giửa hai trung
bình, tỷ lệ
• Bước 4: Khẳng định hay
bác bỏ giả thuyết
• Chấp nhận Ho nếu
tt

Z ∈ [− Zα / 2 , Zα 2 ]

• Từ chối Ho nếu

Z tt ∉ [ − Z α / 2 , Z α 2 ]

NHP


33

•11


•24/10/2014

Ví dụ
3. Two-Sample T Test

• Ví dụ 3. Số liệu điều tra sử dụng xe máy
– Giả thiết Ho: tuổi trung bình của người sử
dụng xe máy nam và nữ là như nhau.
– Giả thuyết H1: Có sự khác biệt về độ tuổi sử
dụng

NHP

34

Ví dụ
3. Two-Sample T Test

Analyze

Compare Means

Independent-Samples T Test
NHP


35

Ví dụ
3. Two-Sample T Test

NHP

36

•12


•24/10/2014

Ví dụ
3. Two-Sample T Test

Chọn biến Age cho ơ
Test Variable(s)
Grouping Variable:
Group 1 = 1 (male);
Group 2 = 0 (female)

NHP

37

Ví dụ
3. Two-Sample T Test
Independent Samples Test

Levene's Test for
Equality of Variances

F
Age of motorbike user variances
Equal
1.239
assumed
Equal variances
not assumed

Sig.
.268

t-test for Equality of Means

t

95% Confidence
Interval of the
Difference
Mean Std. Error
Sig. (2-tailed)Difference Difference Lower
Upper

df

-.315

98


.754

-.93

2.95

-6.77

4.92

-.321

91.785

.749

-.93

2.89

-6.66

4.81

P values (Sig. (2-tailed)) cao hơn α = 0.05 rất nhiều.
Ta chấp nhận giả thiết và diễn giải là khơng có sự khác biệt về tuổi
trung bình giữa người sử dụng xe máy là Nam và Nữ.
NHP


38

Phân tích anova một chiều





Giả sử chúng ta phân nhóm đám đơng theo một tiêu thức phân loại
gồm k nhóm (j)
Tiến hành lấy k mẫu với cở mẫu của một nhóm i nào đó là ni
Giá trị của một quan sát i thuộc nhóm j sẽ được tính như sau:
Xij = µ + αj + εij . Trong ú:
ã à: l trung bỡnh tng th (trung bỡnh ca k nhóm)
• αj : giá trị tác động của nhóm j vào trung bình tổng thể
• εij : sai số





Giả định εij có phân phối chuẩn một đơn vị
Hai thơng số cần ước tính là µ và αj : ước tính theo phương pháp
tổng bình phương các sai lệch là nhỏ nhất
Đối với mẫu:
x = x + (x − x) + (x − x )
ij

j


ij

NHP

j

39

•13


•24/10/2014

Phân tích anova một chiều
• Tổng biến thiên (SST):
ni

k

SST = ∑∑ ( xij − x ) 2
i =1 j =1

• Tổng biến thiên giữa các nhóm(SSB)
k

SSB = ∑ n j ( x j − x ) 2
j =1

• Tổng biến thiên trong phạm vi nhóm (SSW)
ni


k

SSW = ∑∑ ( xij − x j ) 2
j =1 i =1
NHP

40

III.3 Kiểm định sự khác biệt giửa nhiều
trung bình (ANOVA một chiều)
H o : à1 = à 2 = ...... = àk

ã Bửụực 1: Thieỏt laọp giaỷ
thuyeỏt

H1 : à i à j

ã Bước 2: Chọn alpha
k

∑ n (x

Bước 3: Xác định giá trò
Ftt

j

Ftt =


j

− x ) 2 /( k − 1)

j =1
k

ni

∑∑ ( x

ij

− x j ) 2 /( n − k )

j =1 i =1

NHP

41

III.3 Kiểm định sự khác biệt giửa nhiều
trung bình (ANOVA một chiều)
• Bước 4: So sánh giửa Ftt
với Ftc
• Nếu Ftt nhỏ hơn Ftc,
chúng ta chấp nhận Ho,
nếu ngược lại, chúng ta từ
chối Ho
• K: số nhóm

• n: tổng số phần tử lấy ra
từ k mẩu, số phần tử của
mỗi mẩu là nj
NHP

Ftc = Fα ,(k −1),( n − k )

42

•14


•24/10/2014

Ví dụ áp dụng: Anova
5. One-Way ANOVA (Parametric Test)

• Ví dụ 5. Số liệu điều tra sử dụng xe máy
• Giả thiết: Khơng có sự khác biệt giữa các người sử
dụng xe máy ở các nhóm tuổi khác nhau về số ngày
sử dụng bình qn trong tháng.
Analyze

Compare Means

One-Way ANOVA…

NHP

43


Ví dụ áp dụng: Anova
5. One-Way ANOVA (Parametric Test)

NHP

44

Ví dụ áp dụng: Anova
5. One-Way ANOVA (Parametric Test)
ANOVA
Number of used days in a month

Between Groups
Within Groups
Total

Sum of
Squares
1428.944
3987.806
5416.750

df
5
94
99

Mean Square
285.789

42.423

F
6.737

Sig.
.000

P value < 0.05.
Kết luận: bác bỏ giả thiết;
Phát biểu rằng có sự khác biệt giữa các người sử dụng xe máy ở các
nhóm tuổi khác nhau về số ngày sử dụng bình qn trong tháng
NHP

45

•15


•24/10/2014

Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
• Trường hợp áp dụng:
– Khi có hai biến độc lập và một biến phụ thuộc
– Tìm kiếm có sự khác biệt của biến phụ thuộc theo
tiêu thức phân nhóm của biến độc lập
– Một biến độc lập đóng vai trị là biến phân nhóm
(category) biến cịn lại có thể xem như biến ngoại lai
– Không xem xét sự tương tác giữa hai biến độc lập

(phân tích thử nghiệm khối ngẫu nhiên-randomized
block design)
– Trong mơ hình khối ngẫu nhiên các mẫu được chọn
theo các cặp tương xứng
NHP

46

Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
• Ví dụ: Hiệu ứng của quảng cáo tại điểm bán hàng (POP:
point of purchase advertisng) lên doanh thu của cửa
hàng: nếu xem diện tích của cửa hàng là một biến can
thiệp/ngoại lai có thể tạo nên sự khác biệt của doanh thu
là một mơ hình thử nghiệm khối ngẫu nhiên
• Cách thử nghiệm: trong mỗi nhóm/khối kích thước cửa
hàng (giả sử có 6 nhóm) chọn ngẫu nhiên 3 cửa hàng,
mỗi cửa hàng được trưng bày một kiểu POP (có 3 kiểu
POP)
• Tổng số quan sát sẽ là 18 cửa hàng, sô 1lie65u về
doanh số của 18 cửa hàng phân theo POP và khối như
sau

Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
Diện tích cửa
hàng (khối)

Doanh thu cửa hàng


POP1
1
126.20
2
125.00
3
126.00
4
124.50
5
124.00
6
124.10
TB nhóm 124.97

POP2
123.80
123.50
124.30
123.60
123.80
124.50
123.92

POP3
126.00
125.50
125.90
124.10
123.80

125.50
125.13

Trung bình
khối

124.33
124.67
125.40
124.07
123.87
124.70
124.67

•16


•24/10/2014

Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
• Các giả định
– Phương sai của các nhóm phải bằng nhau
(dùng Levene test để kiểm định giả thuyết
này)
– Biến phụ thuộc phải có phân phối chuẩn
– Các quan sát phải độc lập với nhau

NHP


49

Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
Nhóm (xử lý)

Khối (biến
ngoại lai)

Trung
bình theo
khối

1

2

i

k

y11

y21

yi1

yk1

2


y12

y22

yi1

yk1

y2

J

Y1j

y2j

yij

ykj

yj

h

y1h

y2h

yih


ykh

TB theo
nhóm

y1

yi

yk

1

y2

y1

yh

TB tổng
thể y

NHP

50

Mơ hình phân tích phương sai
hai chiều
• Giá trị của một quan sát của đám đông(yij)


y ij = µ + α i + β j + ε ij (1 )
• Giá trị quan sát của mẫu (yij)

y ij = y + α i + β j + ε ij ( 2 )
• Ta có thể biến đổi đẳng thức (2) thành (3) và (4)

yij = y + ( yi − y) + ( y j − y) + ( yij − yi − y j + y)(3)
( yij − y) = ( yi − y) + ( yj − y) + ( yij − yi − yj + y)(4)
NHP

51

•17


•24/10/2014

Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
k

•Biến thiên giữa các nhóm

SS



= k


G

( y

− y )

2

i

− y )

2

j

i=1

•Biến thiên giữa các khối

h

SS

= h

B




( y

j=1
k

SS

j=1

∑ ∑

=

E

h

i=1

•Sai số

( y

ij

− y

i

− y


j

+ y )

2

•Tổng biến thiên
k

T

= SS

G

+ SS

B

+ SS

E

=

h

i=1


SS

j=1

∑ ∑

( y

ij

− y)2

NHP

52

Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
Loại biến
thiên

Tổng biến Bậc tự do
thiên

Giữa nhóm

SSG

(k-1)


Giữa khối

SSB

(h-1)

Sai số

SSE

(k-1)(h-1)

Tổng

SST

Trung bình biến
thiên

k.h-1

MSG =

SSG
k −1

SS
MS B = B
h −1


F

MS
MS

G
E

MS
MS

B
E

SS E
MS E =
( k − 1)(h − 1)

NHP

53

Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
•Giả thuyết Ho

H 01 : µ 1 = µ 2 = ..... = µ i = ... = µ k
H 02 : µ 1 = µ 2 = ..... = µ j = ... = µ h

•Giả thuyết H1 : Có ít nhất hai trung bình theo nhóm và

theo khối khác nhau

•Từ chối H01 nếu

•Từ chối H02 nếu

F=

F=

MSG
〉 F(k −1),(k −1)(h−1),α
MSE

MSB
〉 F(h−1),(k −1)(h−1),α
MSE

NHP

54

•18


•24/10/2014

Kiểm định ANOVA hai chiều (two- way
anova) với khối ngẫu nhiên
• Trình tự xữ lý trên SPSS

– Vào analyze, general linear models, univariate: nhập
biến phụ thuộc vào “dependent list” và hai biến độc
lập vào “fixed factor”
– Vào “model”, chọn “custom”: đưa biến phụ thuộc và
biến ngoại lai (từ factors and covariates) vào “model”,
nhấp chuột để thay “interaction” bằng “main effects”
– Chọn “continue”, chọn “option”, vào “descriptive
statistics” và “homogeneity tests” sau đó nhấp vào
“continue”, và “ok”
NHP

55

Kiểm định ANOVA n chiều (two- way
anova): thử nghiệm thừa số
• Giả sử chúng ta có hai xử lý thực nghiệm A & B.
Xử lý A có a mức và xử lý B có b mức
• Mơ hình này sẽ có a.b mức xử lý kết hợp
• Nếu chúng ta thực hiện đo lường lặp lại
(replicated measure)cho các nhóm mẫu khác
nhau với số lần lập lại là r: AB(a.b:r)
• Cách thức phân tích cũng tương tự như trường
hợp hai biến, nhưng tương tác giữa hai cách xử
lý sẽ xuất hiện ở đây

Kiểm định ANOVA n chiều (two- way
anova): thử nghiệm thừa số
• Ví dụ: chúng ta thử nghiệm 3 dạng POP (POP1,
POP2, POP3) và 5 kiểu bao bì PK (PK1, PK2,
….,PK5): đây là thử nghiệm thừa số 3x5

• Chúng ta chọn 1 cửa hàng cho mỗi cách xử lý
kết hợp, như vậy chúng ta cần 15 cửa hàng cho
một lần thử nghiệm, và thực hiện lặp lại 3 lần,
cho nên tổng số quan sát sẽ là 45
• Dạng này là thử nghiệm lặp lại và đo lường cho
3 cửa hàng khác nhau gọi là đo lường lặp lại

•19


•24/10/2014

Kiểm định ANOVA n chiều (two- way anova): thử nghiệm thừa số
Kiểu bao bì
PK (tác động
2)

Loại POP (tác động 1)

pop1

pop2

TB PK

pop3

PK1

128.00

126.50
126.00

120.00
122.00
120.50

129.50
129.00
127.00

125.39

PK2

124.00
124.50
122.50

117.50
119.00
120.00

126.50
125.00
127.00

122.89

PK3


130.00
131.50
132.50

123.00
125.00
124.50

128.50
130.00
127.50

128.06

PK4

120.50
122.00
122.00

119.00
120.50
119.00

120.50
118.00
117.50

119.89


PK5

120.00
118.00
121.00

122.00
122.00
121.00

126.00
126.00
127.50

122.61

124.60

121.00

125.70

TB tổng thể:
123.77

TB POP

Kiểm định ANOVA hai chiều (two- way
anova): thử nghiệm thừa số

Xử lý
2

Xử lý 1
1

2

……………..

1

Y111 y112….. y11r

Y211 y212 …..y21r

………………. Ya11 ya12. ya1r
.

2

Y121 y122…. y12r

Y221 y222… y22r

………………………
………

Ya21 ya22.. ya2r



……

……………….
………………..

..
…………………..
...........................

................................

……………
….………….

b

Y1b1 y1b2…. y1br

Y2b1 y2b2… y2br

………………


……………………….

a

Yab1 yab2... yabr


Kiểm định ANOVA hai chiều (two- way anova):
thử nghiệm thừa số
• Giá trị một quan sát (yijr)

y ijr = y + α i + β i + (α i β j ) ij + ε ijr (1)
• Đẳng thức (1) có thể biến đổi thành đẳng thức (2) và (3)

yijr = y+(yi −y)+(yj −y)+(yij −yi −yj +y)+(yijr −yij)(2)
(yijr −y) =(yi −y)+(yj −y)+(yij −yi −yj +y)+(yijr −yij)( )
3


Như vậy tổng biến thiên sẽ bao gồm bốn bộ phận: biến thiên
giữa các nhóm i, j, biến thiên của tương tác, và biến thiên của
các sai lệch
NHP

60

•20


•24/10/2014

Kiểm định ANOVA n chiều (two- way
anova): thử nghiệm thừa số
Các biến thiên

Bậc tự do
a


b

r

SST = SS A + SS B + SS I + SS E = ∑∑∑ ( yijr − y )
i =1 j =1 r =1
a

SS A = a.r ∑ ( yi − y ) 2

2

(abr-1)
(a-1)

i =1
a

SS B = b.r ∑ ( y j − y )

2

(b-1)

i =1

a

b


SS I = r ∑∑ ( yij − y i − y j + y )

2

(a-1)(b-1)

i =1 j =1
a

b

r

SS E = ∑∑∑ (yijr − y ij )2

ab(r-1)

i =1 j =1 r =1

Bảng Anova hai chiều:ab:r
Loại biến thiên

Tổng

Bậc tự do Trung bình

Giữa các xử lý A SSA

(a-1)


Giữa các xử lý B SSB

(b-1)

Hổ tương

SSI

(a-1)(b-1)

Mơ hình

SSM

(ab-1)

Sai số

SSE

ab(r-1)

Tổng

SST

F
MSA
MSE


(abr-1)

SS
MS A = A
a-1

SS B
b-1
SS I
MS I =
(a-1)(b-1)
SS
MS M = M
ab-1
SS E
MS E =
ab(r-1)
MS B =

MSB
MSE
MSI
M SE

M SM
MSE

Kiểm định ANOVA n chiều (two- way
anova): thử nghiệm thừa số

• Trình tự xữ lý trên SPSS
– Vào analyze, general linear models, univariate: nhập
biến phụ thuộc vào “dependent list” và hai biến độc
lập vào “fixed factor”
– Vào “model”, chọn “custom”: đưa biến phụ thuộc và
biến ngoại lai (từ factors and covariates) vào “model”,
chọn “ interaction” là “full factorial”
– Chọn “continue”, chọn “option”, vào “descriptive
statistics” và “homogeneity tests” sau đó nhấp vào
“continue”, và “ok”

•21


•24/10/2014

Kiểm định ANOVA hai chiều (two- way anova)
có tính đến tương tác giữa hai biến độc lập

• Trình tự xữ lý trên SPSS
– Vào lệnh analize, chọn general linear model,
sau đó chọn univariate
– Nhập biến độc lập vào ơ dependent variable
– Nhập lần lượt hai biến độc lập vào “Fixed
factor”
– Select option và click vào: descriptive,
estimates of effect size, và homogeneity tests
– Nhấp chuột vào “continue” và sau đó nhấp
“ok”
NHP


64

IV. Mơ hình EFA
• EFA là phương pháp giúp chúng ta đánh
giá được giá trị hội tụ và giá trị phân biệt
của đo lường
• EFA giúp chúng ta rút gọn một tập hợp k
biến quan sát thành một tập hợp f biến
các yếu tố có ý nghĩa hơn (f < k)
• Dịch chuyển các items đo lường một biến
này sang biến khác

Mơ hình EFA một nhân tố
(Phương sai của biến đo lường)
• Tìm mối quan hệ giữa 3 đại lượng trong
mơ hình
– Phương sai của biến đo lường: var(Xi)
– Hiệp phương sai giữa nhân tố Fi và biến đo
lường Xi: Cov(Fi, Xi)
– Hiệp phương sai giữa hai biến đo lường Xi và
Xj: Cov (Xi, Xj)

•22


•24/10/2014

I. Mơ hình EFA một nhân tố


λ1

X1

X2

λ2

F

δ1

U1

δ2

U2

.
.

λ3

.

δ3

Xk

Uk


I. Mơ hình EFA một nhân tố
(Phương sai của biến đo lường)
• Giả định 1: biến đo
lường Xi bao gồm hai
thành phần: phần
i
i
i i
chung F (common
factor) và phần riêng
U (unique factor)
• Giả định 2: F và U Cov(F,Ui)=cov(F,Uj) = cov(Ui,Uj) = 0
độc lập với nhau; Ui
độc lập với Uj

X = λ F +δ U

Mô hình EFA một nhân tố
(phương sai của biến đo lường)
• Quan hệ giữa biến Xi với phần chung và
riêng được tính như sau
X 1 = λ1 F + δ1U1

X 2 = λ2 F + δ 2U 2
…………

X k = λk F + δ kU k

•23



•24/10/2014

Mơ hình EFA một nhân tố
(Phương sai của biến đo lường)
• Phương sai của biến var( X ) = E[( X à ) 2 ]
i
i
xi
o lng
ã Do Xi c chuyển về var( X ) = E ( X ) 2
i
i
N(0, 1) nên μxi=0

var( X i ) = E[(λi F + δ iU i )]2
var( X i ) = E (λi2 F 2 + δ i2U i2 + 2λiδ i FU i )

var( X i ) = λi2 E ( F 2 ) + δ i2 E (U i2 ) + 2λiδ i E ( FU i )
var( X i ) = λi2 var( F ) + δ i2 var(U i ) + 2λiδ i Co v( F ,U i )

Mơ hình EFA một nhân tố
(phương sai của biến đo lường)


Vì các biến Xi, F, và Ui được
đưa về N(0, 1) nên phương sai
của chúng bằng 0, và do cov
(F,Ui)= 0 cho nên

Phần

2
i

λ

var( X i ) = λi2 var( F ) + δ i2 var(U i )
var( X i ) = λi2 + δ i2 = 1

là phần chung (community) và được
ký hiệu là H2i

Hi2 nói lên phần phương sai của biến quan
sát Xi được giải thích bởi F, và Hi2 càng lớn
thì phần riêng sẽ càng nhỏ cho nên biến Xi
càng đóng góp nhiều cho biến F

Mơ hình EFA một nhân tố
(Hiệp phương sai giữa F và Xi)
Do trung bình các biến nhận giá trị bằng 0, nên

Cov ( F , X i ) = E[( F − µ F )( X i − µ xi )] = E ( FX i )
Cov ( F , X i ) = E[( F )(λi F + δ iU i )] = E (λi F 2 + δ i FU i )
Cov ( F , X i ) = λi E ( F 2 ) + δ i E ( FU i ) = λi var( F ) + δ i cov( F ,U i )
Do Cov(F, Ui)= 0, và phương sai các biến bằng 1, nên

Cov ( F , X i ) = λi v ar( F ) = λi = corr ( F , X i )
Như vậy: trong EFA một nhân tố, trọng số nhân tố chính là hệ số
tương quan giữa nhân tố đó với biến đo lường Xi


•24


•24/10/2014

Mơ hình EFA một nhân tố
(Hiệp phương sai giữa Xi và Xj)
Cov( X i , X j ) = E[( X i − µ xi )( X j − µ x j )] = E ( X i X j )
Cov( X i , X j ) = E[(λi F + δ iU i )(λ j F + δ jU j )]
Cov( X i , X j ) = E (λi λ j F 2 + λiδ j FU j + δ i λ jU i F + δ iδ jU iU j )
Cov( X i , X j ) = λi λ j E ( F 2 ) + λiδ j E ( FU j ) + δ i λ j E (U i F ) + δ iδ j E (U iU j )
Cov( X i , X j ) = λi λ jVa r( F ) + λiδ j Cov ( F ,U j ) + δ i λ j Cov(U i , F ) + δ iδ j C ov(U i ,U j )

Cov ( X i , X j ) = λi λ jVa r( F ) = λi λ j = corr ( X i , X j )
Như vậy: nếu hệ số tương quan giữa hai biến đó lường Xi, Xj càng lớn
thì trọng số nhân tố của hai biến này càng lớn. Do đó hai biến này đo
lường tốt cho yếu tố F (factor)

Mơ hình EFA hai nhân tố độc lập
λ11
F1

X1

λ21

λk1

X2


δ1
δ2

U1

U2

.

λ12

.

λ22
F2

λk 2

.

δ3

Xk

U3

Mơ hình EFA hai nhân tố độc lập





Khái qt về mơ hình:gồm
X i = λi1 F1 + λi2 F2 + δ iU1
phần chung cho F1 và F2 và
phần riêng U1của Xi
Giả định: F1 và F2 độc lập, và
chúng cũng độc lập với các
phần riêng của các biến Xi

Cov ( Fi , F j ) = Cov ( Fi , U i ) = Cov ( Fi , U j ) = Cov (U i , U j )


Các biến có phân phối chuẩn
một đơn vị N(0,1)

•25


×