Tải bản đầy đủ (.pdf) (20 trang)

Phương pháp nghiên cứu và phân tích dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.59 MB, 20 trang )

1
PhươngPhương pháppháp ghiênghiên cứucứu
vàvà PhânPhân tíchtích dữdữ liệuliệu
CâuCâu hhỏỏii nghiênnghiên ccứứuu
2
MMụục tiêu nghiên cc tiêu nghiên cứứuu
 Xác ñịnh những kết quả cần ñạt ñể trả lời
cho câu hỏi nghiên cứu
3
GiGiảả thithiếếtt
 Mô tả mối quan hệ giữa các biến
 Các biến phải ño lường ñược
 Giả thiết phải thể hiện dưới dạng kiểm tra
ñược (xác nhận hay không xác nhận)
◦ Nếu giả thuyết ñược xác nhận => ñóng góp vào
khám phá của ñề tài
◦ Nếu giả thuyết không ñược xác nhận =>tìm hiểu
xem nhân tố nào là quan trọng cần nghiên cứu
thêm
4
TTổổngng quanquan lýlý thuythuyếếtt
((Literature Review)Literature Review)
 Vấn ñề quan tâm ñã ñược nghiên cứu trước
ñây chưa và kết quả như thế nào.
 Liệu có thể phát triển thêm từ công trình ñã có.
 Các chuyên gia ñánh giá phần này dựa trên:
◦ Tính logic trong lập luận
◦ Tính ñầy ñủ trong tham khảo các ñề tài ñã có
◦ Tính liên quan ñến mục tiêu nghiên cứu
5
TTổổngng quanquan lýlý thuythuyếếtt


 Cấu trúc của phần này ñược xây dựng dựa
trên Mô hình phân tích (Analytical
Framework) của nghiên cứu
 Trong một số trường hợp, mô hình này còn
ñược gọi là Mô hình khái niệm (Conceptual
Framework)
◦ Sơ ñồ diễn tả mối quan hệ giữa các nhân tố
◦ ðây là cơ sở ñể xây dựng các giả thiết
6
2
Ví dVí dụụ vvềề mô hình phân tíchmô hình phân tích
7
Employer
needs
Employability
Learning
approach
Graduate
competencies
Student
involvement
Part-time
experience
PHÂ TÍCH DỮ LIỆU TROG PHÂ TÍCH DỮ LIỆU TROG
QUÁ TRÌH GHIÊ CỨUQUÁ TRÌH GHIÊ CỨU
Thiết kế nghiên cứu
Phân tích và diễn giải thông tin
Thống kê mô tả dựa trên các biến
Bảng chéo của các biến
Chuẩn bị trình bày dữ liệu

Xác định các kiến nghị
Báo cáo nghiên cứu
Quyết định
quản lý
Hoạch định phân tích sơ bộ
Điều chỉnh giả thiết
Trình bày bằng biểu đồ
Kiểm định các giả thiết
Thu thập và chuẩn bị
thông tin
Các loCác loạại phân tích di phân tích dữữ liliệệuu
 Phân tích dữ liệu ñể khám phá (EDA)
◦ Dữ liệu hướng dẫn lựa chọn phân tích - hay
xem lại phân tích ñã dự kiến
 Phân tích dữ liệu ñể khẳng ñịnh (CDA)
◦ Gần với suy lý thống kê cổ ñiển qua sử dụng
ñộ tin cậy và mức ý nghĩa
◦ Có thể sử dụng thông tin từ bộ dữ liệu có
liên quan mật thiết hay xác nhận giá trị các
kết quả tìm thấy qua thu thập và phân tích
dữ liệu mới
10
PHAÂN TÍCH DỮ LIEÄU
ĐEÅ KHAÙM PHAÙ (EDA)
206 0 10
43,5% ,0% 2,1%
157 27 74
33,1% 5,7% 15,6%
Female
Male

Gender
Clerical
Custodial
Manager
Employment Category
Gender * Employment Category Gender * Employment Category
CrosstabulationCrosstabulation
12
3
ThThốốngng kêkê mơmơ ttảả
 MÔ TẢ SỐ LIỆU BẰNG BIỂU ĐỒ
Bar
Pie
Histogram
 CÁC ĐẶC TRƯNG CỦA SỐ LIỆU MỘT BIẾN
Đặc trưng vò trí (Central tendency)
Đặc trưng phân tán (Dispersion)
Đặc trưng phân phối (Distribution)
13
Các kCác kỹỹ thuthuậật trình bày và t trình bày và
khkhảảo sát phân pho sát phân phốốii
 Bảng tần số
 Trình bày bằng hình ảnh
◦ Biểu đồ (Histograms)
◦ Stem-and-leaf
◦ Box-plot
 Bảng chéo của các biến
14
Các kCác kỹỹ thuthuậật trình bày và t trình bày và
khkhảảo sát phân pho sát phân phốốii

 Biểu đồ
◦ Trình bày tất cả các khoảng trong phân
phối, kể cả khơng có giá trị quan sát
◦ Khảo sát dạng của phân phối về độ lệch,
độ nhọn
15 16
Stem width: 10000
Each leaf: 3 case(s)
Frequency Stem & Leaf
33 1 . 56667789999
110 2 . 00001111111222222222333334444444444
115 2 . 555555556666666667777777778888889999999
80 3 . 000000000001111112233333444
32 3 . 55556677889
20 4 . 0001233
12 4 . 5678
12 5 . 0124
7 5 . 556
53 Extremes (>=56750)
Current Salary Current Salary
StemStem andand Leaf PlotLeaf Plot
17
Các kCác kỹỹ thuthuậật trình bày và t trình bày và
khkhảảo sát phân pho sát phân phốốii
 Box-plot
◦ Hộp chữ nhật chứa 50% giá trị của dữ liệu
◦ Vạch đứng trên hộp diễn tả trung vị
◦ Các đoạn mở rộng về bên phải và trái kết
thúc với giá trị lớn nhất và nhỏ nhất
18

4
19
Các kCác kỹỹ thuthuậật trình bày và t trình bày và
khkhảảo sát phân pho sát phân phốốii
 Biến ñổi dữ liệu
◦ Nâng cao khả năng diễn giải và tương
thích với các bộ dữ liệu khác
◦ ðối xứng hơn và cân bằng ñộ phân tán
◦ Cải thiện quan hệ tuyến tính giữa các biến
20
BBảảng chéong chéo
 Kỹ thuật so sánh hai biến phân loại
◦ Các ô
◦ Biên
◦ Bảng hai chiều
21
Gender * Employment Category Crosstabulation
206 0 10 216
95,4% ,0% 4,6% 100,0%
56,7% ,0% 11,9% 45,6%
43,5% ,0% 2,1% 45,6%
157 27 74 258
60,9% 10,5% 28,7% 100,0%
43,3% 100,0% 88,1% 54,4%
33,1% 5,7% 15,6% 54,4%
363 27 84 474
76,6% 5,7% 17,7% 100,0%
100,0% 100,0% 100,0% 100,0%
76,6% 5,7% 17,7% 100,0%
Count

% within Gender
% within Employment
Category
% of Total
Count
% within Gender
% within Employment
Category
% of Total
Count
% within Gender
% within Employment
Category
% of Total
Female
Male
Gender
Total
Clerical Custodial Manager
Employment Category
Total
22
ThThốốngng kêkê mômô ttảả
 Ñaëc tröng vò trí (Central
tendency)
Trung bình (Mean)
Mode
Trung vị (Median)
23
TrungTrung bìnhbình (MEAN(MEAN) & Mode) & Mode

 Trung bình là:
◦ Bình quân số học
◦ Tổng giá trị quan sát/Số lần quan sát
 Mode là:
◦ Giá trị (chứ không phải số lần) xuất hiện thường
xuyên nhất
24
5
Trung vTrung v (MEDIAN)(MEDIAN)
Trung v l:
im gia ca phõn phi
50% quan sỏt nm phớa trờn & 50% quan sỏt nm
phớa di
Nu s s hng trong dóy s l s chn, trung v l s
bỡnh quõn ca 2 giỏ tr gia dóy s
Trung v khụng ph thuc vo cỏc cc tr, trong khi
Trung bỡnh (Mean) chu nh hng ca cỏc giỏ tr
cao v thp nht trong dóy s.
25
Khi no thỡ sKhi no thỡ s ddng cỏc sng cỏc s ủo ủo
nyny
S o Thang o Khi s dng Vớ d
Mode nh danh D liu di dng
phõn loi
Mu mt, hỡnh thc
hp ng, gii tớnh
Trung v
(Median)
Th t D liu bao gm
cỏc giỏ tr cc biờn

Phõn hng trong lp,
th t lỳc sinh
Trung bỡnh
(Mean)
Quóng v
t l
D liu phự hp T l tr li, tui, mc
thớch
26
ThThngng kờkờ mụmụ tt
ẹaởc trửng phaõn taựn (Dispersion)
Variance
Standard deviation
Standard error of Mean
Min, Max
Extreme values - Outliers
Range
Quartiles
Interquartile range
Boxplot
27
ThThngng kờkờ mụmụ tt
ẹaởc trửng phaõn phoỏi (Distribution)
Phaõn phoỏi chuaồn
28
SS ủủ phõn phphõn phi chui chun (hỡnh chuụng)n (hỡnh chuụng)
Mean = median = mode
i xng qua ủim gia
uụi chuụng tip cn trc X , nhng khụng ct
29

GiỏGiỏ trtr trungtrung bỡnhbỡnh vv llchch chuchunn
30
t bin thiờn hn
Bin thiờn nhiu hn
6
ððộộ llệệch chuch chun và % các quan sátn và % các quan sát
 Sơ ñồ phân phối chuNn
 Di chuyển về bất kỳ bên nào của Mean 1 khoảng cách là một ñộ lệch chuNn,
khoảng phân phối ñều chứa 34% của không gian giới hạn bởi sơ ñồ
 68% số quan sát nằm trong khoảng ± 1 ñộ lệch chuNn của Trung bình
31
Current Salary - Descriptive Statistics
$34,419.57 $784.311
$32,878.40
$35,960.73
$28,875.00
$17,075.661
$15,750
$135,000
$119,250
$13,163
2,125 ,112
5,378 ,224
Mean
Lower Bound
Upper Bound
95% Confidence
Interval for Mean
Median
Std. Deviation

Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Statistic Std. Error
32
PHAÂN TÍCH DỮ LIEÄU
ĐEÅ XAÙC NHAÄN (CDA)
Các loCác loạại gii giảả thithiếếtt
 Giả thiết không
 Giả thiết khác
34
Logic cLogic củủa kia kiểểm ñm ñịịnh ginh giảả thithiếếtt
 Phép kiểm hai ñuôi
 Phép kiểm một ñuôi
35
Logic cLogic củủa kia kiểểm ñm ñịịnh ginh giảả thithiếếtt
 Lỗi loại 1
 Lỗi loại 2
36
7
KiKiểểm ñm ñịịnh vnh vớới ý nghĩa thi ý nghĩa thốống kêng kê
 Phát biểu giả thiết không
 Chọn phép kiểm thống kê
 Chọn mức ý nghĩa α mong muốn
 Tính giá trị sai biệt
 Tra bảng tìm giá trị sig. tương ứng
 Sig. nhỏ hơn α ⇔ Bác bỏ giả thiết không

 Diễn giải kết quả kiểm ñịnh
37
Các loCác loạại phép kii phép kiểểm theo mm theo mứức ý c ý
nghĩanghĩa
 Phép kiểm tham số
◦ Phép kiểm Z hay t ñược sử dụng ñể xác ñịnh
sự khác biệt có ý nghĩa về mặt thống kê giữa
trung bình mẫu và trung bình ñám ñông
 Các giả ñịnh:
◦ Các quan sát ñộc lập
◦ Phân phối chuNn
◦ Các ñám ñông có cùng phương sai
◦ Thang ño ít ra phải là thang ño quãng
38
OneOne sample T testsample T test
One-Sample Statistics
474 13,49 2,885 ,133
Educational
Level (years)
N Mean
Std.
Deviation
Std. Error
Mean
One-Sample Test
-3,837 473 ,000 -,508
Educational
Level (years)
t df Sig. (2-tailed)
Mean

Difference
Test Value = 14
39
IndependentIndependent sample T testsample T test
Group Statistics
258 14,43 2,979 ,185
216 12,37 2,319 ,158
Gender
Male
Female
Educational
Level (years)
N Mean
Std.
Deviation
Std. Error
Mean
Independent Samples Test
17,884 ,000 8,28 472 ,000 2,060 ,249
8,46 469,6 ,000 2,060 ,244
Equal variances
assumed
Equal variances
not assumed
Educational
Level
(years)
F Sig.
Levene's Test
for Equality of

Variances
t df
Sig.
(2-tailed)
Mean
Difference
Std. Error
Difference
t-test for Equality of Means
40
Levene's Test:
H
0
: Equal Variance
H
a
: Unequal Variance
Equal Variance:
df = N
1
+N
2
-2
Các loCác loạại phép kii phép kiểểm theo mm theo mứức ý c ý
nghĩanghĩa
tailed) Sig.(2
Difference

Mean


of

Error

Standard
Difference

Mean
t ↔=⇒








+
−+
−+−

=
2121
2
22
2
11
21
N
1

N
1
2NN
1)S(N1)S(N
XX
t
41
Unequal Variance:
Các loCác loạại phép kii phép kiểểm theo mm theo mứức ý c ý
nghĩanghĩa
tailed) Sig.(2
Difference

Mean

of

Error

Standard
Difference

Mean
t ↔=⇒









+

=
2
2
2
1
2
1
21
N
S
N
S
XX
t
1N1N
)(
df
2
2
2
1
2
1
2
21


+

+
=
ωω
ωω
1
2
1
1
N
S
ω =
2
2
2
2
N
S
ω =
42
8
PairedPaired sample T testsample T test
Paired Samples Statistics
$34,419.57 474 $17,075.661 $784.311
$17,016.09 474 $7,870.638 $361.510
Current Salary
Beginning Salary
Mean N Std. Deviation
Std. Error

Mean
Paired Samples Test
$17403.48 $10,814.620 $496.732 35,04 473 ,000
Current Salary -
Beginning Salary
Mean Std. Deviation
Std. Error
Mean
Paired Differences
t df
Sig.
(2-tailed)
43
ANOVAANOVA
 Phân tích phương sai (ANOVA)
◦ Phương pháp thống kê để kiểm định
giả thiết khơng về sự bằng nhau của
nhiều trung bình
◦ H: µ
1
= µ
2
= = µ
i
= = µ
n
44
ANOVAANOVA
 Sum of Squares Between Groups
df = n -1

 Sum of Squares Within Groups
df = N – n
 Sum of Squares Total
df = N – 1

−=
i
22
i
i
XNXNSSB
∑ ∑






−=
i j
2
ii
2
iij
XNXNSSW

−=
ij
2
2

ijij
XNXNSST
45
OneOne way ANOVAway ANOVA
Descriptives - Educational Level (years)
N Mean Std. Deviation Std. Error
Clerical 363 12,87 2,333 ,122
Custodial 27 10,19 2,219 ,427
Manager 84 17,25 1,612 ,176
Total 474 13,49 2,885 ,133
ANOVA
Educational Level (years)
1622,989 2 811,495 165,2 ,000
2313,477 471 4,912
3936,466 473
Between Groups
Within Groups
Total
Sum of
Squares df
Mean
Square F Sig.
46
ANOVAANOVA
 Nếu bác bỏ H: µ
1
= µ
2
= = µ
i

= = µ
n
,
tiến hành tiếp Post hoc để xác đònh các
trung bình nào khác nhau.
 Phải làm Levene test trước để xác đònh xem
các phương sai trong từng nhóm có đồng
nhất không.
47
ANOVAANOVA
Levene's Test:
H: Homogeneity of Variance
 Equal Variances:
Có thể dùng các tests như LSD, Bonferroni, Sidak,
Scheffe, Tukey
 Unequal Variances:
Có thể dùng các tests như Tamhane's T2, Dunnett's
T3, Games-Howell
48
9
Các phép kiCác phép kiểểm so sánh ñm so sánh ñồồng ng
ththờời nhii nhiềều cu cặặp p
 Quy trình so sánh ñng thi nhiu cp
◦ Kim s khác bit gia tng cp trung
bình và ch ra các nhóm có trung bình
khác nhau có ý nghĩa  mc alpha (<.05)
◦ Dùng các trung bình nhóm và kt hp vi
giá tr MS
error
ca kim ñnh F

49
Post Hoc TestsPost Hoc Tests
Test of Homogeneity of Variances
Educational Level (years)
6,159 2 471 ,002
Levene
Statistic df1 df2 Sig.
Multiple Comparisons
Dependent Variable: Educational Level (years)
Tamhane
2,683* ,444 ,000
-4,382* ,214 ,000
-2,683* ,444 ,000
-7,065* ,462 ,000
4,382* ,214 ,000
7,065* ,462 ,000
(J) Employment
Category
Custodial
Manager
Clerical
Manager
Clerical
Custodial
(I) Employment
Category
Clerical
Custodial
Manager
Mean

Difference (I-J)
Std.
Error Sig.
The mean difference is significant at the .05 level.
*.
50
PhânPhân tíchtích PhPhươươngng saisai mmộộtt yyếếuu ttốố
(One(One way ANOVA)way ANOVA)
 Ta có th kim tra xu hưng ca các trung bình ca
các nhóm.
 Ngoài vic xác ñnh s khác bit gia các trung
bình, ñôi khi ta mun so sánh các trung bình c th.
51
PhânPhân tíchtích PhPhươươngng saisai mmộộtt yyếếuu ttốố
(One(One way ANOVA)way ANOVA)
 Có 2 loi kim tra ñ so sánh các trung bình c th:
◦ ði chiu trưc (priori contrast) nhm kim tra mt biu
thc c th gia các trung bình. Ví d:
◦ Kim tra hu kỳ (post hoc test) ñưc s dng ñ so sánh
nhiu cp trung bình cùng mt lúc
52
2
µµ
µ
52
1
+
=
ChChọọn phép kin phép kiểểm nhm nhưư ththếế nào?nào?
 Phép kim liên quan ñn

◦ Một mẫu,
◦ Hai mẫu
◦ K mẫu
 Nu là hai hay k mu, các quan sát ñc
lp hay có liên quan?
 Thang ño là danh xưng, th t, quãng,
hay t l?
53
PhépPhép kikiểểmm Phi Phi thamtham ssốố
10
Điềiều kiệnkiện củacủa cáccác phépphép
kiểmkiểm thamtham sốsố
 Các phép kiểm T dùng để so sánh trung
bình dựa trên loại dữ liệu theo thang đo
quãng (interval)
 Phân phối của quan sát là phân phối chuẩn
 Trên thực tế, đôi khi các điều kiện này
không thõa, hoặc ta muốn kiểm các vấn đề
khác chứ không chỉ muốn so sánh các
trung bình
55
 Các gi đnh
◦ Các quan sát đc lp cho mt s phép kim
◦ Phân phi khơng cn phi chuNn
◦ Phương sai khơng cn phi đng nht
◦ Phù hp cho d liu danh xưng hay th t, có
th dùng cho c trưng hp qng và t l
PhépPhép kikiểểmm phi phi thamtham ssốố
56
ChiChi square square testtest

H
0
: Có sự phù hợp giữa thực tế và lý thuyết
H
0
: Các yếu tố độc lập, hay
H
0
: Các mẫu đồng nhất
57
ChiChi square square testtest
 Kiểm tính phù hợp giữa thực tế và lý thuyết
bằng cách tính chênh lệch giữa các tần số
thực tế và tần số lý thuyết.
Q có phân phối Chi-square, Q càng lớn càng
dễ bác bỏ H.
58

=
thuyết Lý
thuyết) Lý-tế (Thực
Q
2
ChiChi square square testtest
 Kiểm tính độc lập của hai yếu tố (dòng và
cột), không chỉ ra mức độ và hướng của mối
quan hệ.
 Kiểm tính đồng nhất của nhiều mẫu có các
quan sát đònh tính.
 Gồm các thống kê Pearson chi-square,

likelyhood-ratio chi-square, linear-by-linear
association chi-square.
59
ChiChi Square TestsSquare Tests
Chi-Square Tests
79,277
a
2 ,000
95,463 2 ,000
67,463 1 ,000
474
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value df
Asymp. Sig.
(2-sided)
0 cells (,0%) have expected count less than 5. The
minimum expected count is 12,30.
a.
gender * Employment Category Crosstabulation
157 27 74 258
206 0 10 216
363 27 84 474
male
female
gender
Total

Clerical Custodial Manager
Employment Category
Total
60
11
ONEONE SAMPLE KOLMOGOROVSAMPLE KOLMOGOROV
SMIRNOV TESTSMIRNOV TEST
 H
0
: Số liệu phù hợp với phân phối lý thuyết
 K-S test:
◦ Tính sai lệch lớn nhất giữa hai đường phân phối tích
lũy thực nghiệm và lý thuyết
◦ Sai lệch tuyệt đối càng lớn càng dễ bác bỏ H.
61
TWOTWO INDEPENDENTINDEPENDENT SAMPLES SAMPLES
TESTSTESTS
 H
0
: Hai mẫu có cùng phân phối
 U của Mann-Whitney:
◦ Hai mẫu được sắp theo thứ tự tăng dần
◦ U là số lần giá trò trong mẫu thứ nhất nhỏ hơn giá
trò trong mẫu thứ hai
◦ U quá nhỏ hay quá lớn đều dễ bác bỏ H
62
TWOTWO INDEPENDENTINDEPENDENT SAMPLES SAMPLES
TESTSTESTS
 H
0

: Hai mẫu có cùng phân phối
 Moses extreme reactions:
◦ Các quan sát phải dùng thang đo thứ tư
◦ Tầm (span = max – min) của nhóm đối chứng đo
mức độ các cực trò trong nhóm thí nghiệm ảnh
hưởng đến giá trò tầm nầy khi kết hợp với nhóm
đối chứng
◦ nh hưởng càng lớn càng dễ bác bỏ H
63
TWOTWO INDEPENDENTINDEPENDENT SAMPLES SAMPLES
TESTSTESTS
 H
0
: Hai mẫu có cùng phân phối
 Wald-Wolfowitz runs:
◦ Các quan sát sử dụng thang đo thứ tư
◦ Hai mẫu được kết hợp lại và sắp hạng từ nhỏ đến
lớn
◦ Run là một dãy liên tiếp các giá trò trong cùng một
mẫu
◦ Nếu các mẫu có cùng phân phối thì hai nhóm phải
phân tán ngẫu nhiên qua quá trình sắp hạng,
nghóa là số runs càng nhỏ càng dễ bác bỏ H
64
TESTS FOR SEVERAL TESTS FOR SEVERAL
INDEPENDENT SAMPLESINDEPENDENT SAMPLES
 H
0
: k mẫu có cùng phân phối
 Kruskal-Wallis H:

◦ Tương ứng với One-way ANOVA
◦ Số liệu có phân phối liên tục và sử dụng thang đo
thứ tự
◦ k mẫu được kết hợp và sắp hạng lại
◦ Tính H dựa trên các hạng này
◦ H càng lớn càng dễ bác bỏ giả thiết không
65
( )

1)-square(k-Chi H
sát quansố tổng là N
j

mẫu

của

sát

quan
số


N
; RRN
N
1
1N
12
H

j
2
jj








+
=

TESTS FOR SEVERAL TESTS FOR SEVERAL
INDEPENDENT SAMPLESINDEPENDENT SAMPLES
 H
0
: k mẫu có cùng phân phối
 Median:
◦ Liệt kê số trường hợp lớn hơn và nhỏ hơn trung vò
cho từng nhóm
◦ Dùng Chi-square tính sai lệch Q giữa lý thuyết và
thực tế
 Jonckheere-Terpstra:
◦ Mạnh hơn Kruskal-Wallis trong trường hợp các dữ
liệu liên tục hay thang đo thứ tự
◦ J-T càng lớn càng dễ bác bỏ H
66
12

TWOTWO RELATED SAMPLES TESTSRELATED SAMPLES TESTS
 H
0
: Hai mẫu liên quan có cùng phân phối
 W của Wilcoxon:
◦ Chú ý các cặp có sai lệch lớn, sắp hạng các trò
tuyệt đối sai lệch (có phân biệt dấu)
◦ Tính tổng hạng có dấu (W
+
, W
-
)
◦ W = min(W
+
, W
-
), W quá nhỏ hay quá lớn đều dễ
bác bỏ H
67
TWOTWO RELATED SAMPLES TESTSRELATED SAMPLES TESTS
 H
0
: Hai mẫu liên quan có cùng phân phối
 Sign:
◦ Tính hiệu số của hai mẫu
◦ Chú ý số trường hợp có hiệu số dương và âm
◦ Khi hai giá trò này chênh lệch nhau nhiều (biểu
hiện qua giá trò Z quá âm hay quá dương), ta càng
dễ bác bỏ H
68

TWOTWO RELATED SAMPLES TESTSRELATED SAMPLES TESTS
 H
0
: Hai mẫu liên quan có cùng phân phối
 McNemar:
◦ Khi hai biến lấy giá trò nhò phân và có liên quan
 Marginal Homogeneity:
◦ Mở rộng của McNemar cho trường hợp dữ kiện đa
thức (multinomial)
69
TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED
SAMPLESSAMPLES
 H
0
: k mẫu liên quan có cùng phân phối
 Friedman:
◦ Tương ứng với Two-way ANOVA
◦ k biến trong mỗi trường hợp được sắp hạng lại từ
1 tới k
◦ F
r
tính dựa trên các hạng này
◦ F
r
càng lớn càng dễ bác bỏ H
70
( )
1)-square(k-Chi F
mẫu
từng

trong

sát

quan
số



N
1);3N(k-RN
1)Nk(k
12
F
r
2
jr

+
+
=

TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED
SAMPLESSAMPLES
 H
0
: k mẫu liên quan có cùng phân phối
 W của Kendall:
◦ Đo mức độ thống nhất trong việc đánh giá k đối
tượng của N chuyên gia

◦ Với mỗi đối tượng ta tính tổng hạng
◦ W lấy giá trò từ 0 (không thống nhất) tới 1 (hoàn
toàn thống nhất)
71
TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED
SAMPLESSAMPLES
 H
0
: k mẫu liên quan có cùng phân phối
 Q của Cochran:
◦ Giống như F
r
của Friedman nhưng được dùng khi k
biến quan sát trên cùng đối tượng chỉ lấy giá trò
nhò phân
◦ Đây là mở rộng của phép kiểm McNemar từ 2 mẫu
ra cho trường hợp k mẫu
72
13
TómTóm tắttắt phépphép kiểmkiểm phi phi thamtham sốsố
 Chi-square
ONE-SAMPLE KOLMOGOROV-SMIRNOV TEST
TWO-INDEPENDENT-SAMPLES TESTS
 U của Mann-Whitney
 Moses extreme reactions
 Wald-Wolfowitz runs
TESTS FOR SEVERAL INDEPENDENT SAMPLES
 H của Kruskal-Wallis
 Median
 Jonckheere-Terpstra

73
TómTóm tắttắt phépphép kiểmkiểm phi phi thamtham sốsố
TWO-RELATED SAMPLES TESTS
 W của Wilcoxon
 Sign
 McNemar
 Marginal Homogeneity
TESTS FOR SEVERAL RELATED SAMPLES
 F
r
của Friedman
 W của Kendall
 Q của Cochran
74
HỒI QUY & TƯƠNG QUANHỒI QUY & TƯƠNG QUAN
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
 H
0
: Hệ số tương quan bằng 0, nghóa là
hai biến không có tương quan tuyến
tính
76
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
 Tương quan 2 biến (Bivariate
Correlations)
 Tương quan riêng phần (Partial
Correlations)
77
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
 Tương quan 2 biến (Bivariate

Correlations)
◦ Hệ số tương quan Pearson
◦ Hệ số tương quan Tau-b của Kendall
◦ Hệ số tương quan Spearman
78
14
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
 Hệ số tương quan Pearson:
◦ ánh giá mức độ tương quan tuyến tính của
hai biến, lấy giá trò từ –1 đến +1
◦ Dấu chỉ chiều tương quan (nghòch hay thuận)
◦ ộ lớn cho thấy mức độ tương quan tuyến
tính nhiều hay ít
79
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
 Hệ số tương quan Tau-b của Kendall:
◦ Số liệu theo thang đo thứ tự hay các biến đã
được sắp hạng lại
◦ Tau-b lấy giá trò trong khoảng [-1;+1]
◦ Ý nghóa giống như hệ số tương quan
Pearson, nhưng giá trò –1 và +1 chỉ có thể
đạt được khi bảng số liệu hai chiều là bảng
vuông.
80
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
 Hệ số tương quan Spearman:
◦ Dựa trên hạng chứ không dựa trên giá trò
thực của quan sát
◦ Sử dụng khi số liệu theo thang đo thứ tự
hoặc không thỏa các giả thuyết chuẩn

81
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
 Tương quan riêng phần (Partial
Correlations)
◦ Nghiên cứu mối quan hệ tuyến tính của hai
biến có loại trừ ảnh hưởng của các yếu tố
khác.
◦ Zero Order Partials
◦ Controlling for…
82
TươngTương quanquan riêngriêng phầnphần
(Partial Correlations)(Partial Correlations)
83
Biến kiểm soát Qu chăm
sóc sc khe
T l bnh
báo cáo
Số lần đi
khám bệnh
Không Qu chăm
sóc sc khe
1 0.737 0.964
T l bnh
báo cáo
0.737 1 0.762
Số lần đi
khám bệnh
0.964 0.762 1
Số lần đi
khám bệnh

Qu chăm
sóc sc khe
1 0.013
T l bnh
báo cáo
0.013 1
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
 Hồi quy đơn (Simple Regression)
 Hồi quy bội (Multiregression)
84
15
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
 Hoài quy ñôn (Simple Regression)
85
P
4
XX
1
X
2
X
3
X
4
P
3
P
2
P
1

R
1
R
2
R
3
R
4
(sai biệt-residual)
e
1
e
2
e
3
e
4
XbbY
10
ˆ
+=
b
0
Y
ˆ
(giá trị ước lượng)
Y (giá trị thật)
e
Y
Y

=
==
=

−−

ˆ
Y
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
86
Phân tích phương sai trong hi quy

−=
2
total
YYSS )(
regressionresidualtotal
22
total
2
total
SSSSSS
YYYYSS
YYYYSS
+=
−+−=
−+−=
∑∑

)()(

)(
^^
^^
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
87
T l phương sai gii thích ñưc (hay mc
ñ ñi din các quan sát ca ñưng hi
qui)
total
residualtotal
2
SS
SSSS
R

=
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
88
H
0
: Không có tương quan tuyn tính gia hai bin
1310179340.332 1 1310179340.332 4.527 .034
a
136606316096.008 472 289420161.220
137916495436.340 473
Regression
Residual
Total
Model
1

Sum of Squares df Mean Square F Sig.
ANOVA
b
Predictors: (Constant), Previous experience (months)
a.
Dependent Variable: Current salary
b.
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
89
H
0
: Không có tương quan tuyn tính gia hai bin
Model Summary
.097
a
.009 .007 $17,012.353
Model
1
R R Square
Adjust ed
R Square
Std. Error of
the Estimate
Predictors: (Const ant), Prev ious Experience (months)
a.
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
90
H
0
: Không có tương quan tuyn tính gia hai bin

Coefficients
a
35945.029 1060.488 33.895 .000
-15.913 7.479 097 -2.128 .034
(Constant)
Prev ious Experience
(months)
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig.
Dependent Variable: Current Salary
a.
16
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
 Hồi quy bội (Multiregression)
Khi muốn tìm mối quan hệ tuyến tính của một
biến (dependent variable) theo nhiều biến
(independent variables or predictors), ta phải
tìm hiểu các phương pháp đưa biến vào mô
hình.
91
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
 Hồi quy bội (Multiregression)
Các phương pháp ưa biến vào mô hình:

Enter: Tất cả các biến đã chọn được đưa vào
mô hình cùng một lúc
Remove: Tất cả các biến đã chọn được đưa ra
khỏi mô hình cùng một lúc
92
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
 Hồi quy bội (Multiregression)
Các phương pháp đưa biến vào mô hình:
Forward:
 Từng biến có tương quan riêng với biến phụ
thuộc lớn nhất được lần lượt đưa vào mô
hình
Backward:
 Đưa tất cả các biến đã chọn vào mô hình
 Lần lượt lấy ra từng biến có tương quan
riêng với biến phụ thuộc nhỏ nhất
93
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
 Hồi quy bội (Multiregression)
Các phương pháp đưa biến vào mô hình:
Stepwise:
 Ở mỗi bước, biến độc lập chưa đưa vào mô
hình có P(F) nhỏ nhất sẽ được đưa vào
 Các biến đã có trong mô hình sẽ được đưa
ra nếu P(F) của chúng tăng lên đáng kể
 Quy trình kết thúc khi không còn biến nào
có thể đưa vào hay đưa ra
94
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
 Hi quy bi (Multiregression)

 Làm th nào đ bit đưa bin đc lp nào vào
mơ hình?
◦ Lý thuyt
◦ Mơ hình tt nht là mơ hình có giá tr R
2
ln nht
vi s lưng bin s đc lp nh nht
95
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
 ChNn đốn vn đ đa cng tuyn
◦ Có quan h tuyn tính gia các bin đc lp
◦ Tolerance là t l phương sai ca mt bin đc lp
khơng th đưc gii thích bi các bin đc lp khác
◦ Tolerance ca mt bin q nh là có hin tưng
cng tuyn
◦ Gii quyt bng cách chy li mơ hình vi cách chn
bin stepwise
96
17
MôMô hìnhhình tuytuyếếnn tínhtính ttổổngng quátquát
(General Linear Model)(General Linear Model)
General Linear Model (GLM)General Linear Model (GLM)
 T-tests, ANOVA, tương quan, và hi quy bi
liên h vi nhau như th nào?
 V mt logic, T-tests và tương quan ñưc gii
thiu trưc, sau ñó là ANOVA và hi quy bi
 Các quy trình này liên quan vi nhau v mt
toán hc, ñó là cách GLM mô t các mi quan
h
 Lý thuyt GLM cho rng nhiu phép kim

thng kê có th ñưc gii quyt bng phân
tích hi quy, trong ñó có t-test và ANOVA
 GLM còn hu dng hơn vì có th x lý c
thang ño quãng và ñnh danh trong mô hình
General Linear Model (GLM)General Linear Model (GLM)
General Linear Model: General Linear Model: HHồồii quyquy bbộộii
Y = a +b
1
* X
1
+ b
2
*X
2
+ b
3
*X
3
+ … + e
Trong biu thc này, im Y ca mt ngưi là tng hp
ca nhiu nh hưng:
1. nh hưng c nh ging nhau cho mi cá nhân (a)
2. nh hưng ca các bin khác ghi im khác nhau
cho tng ngưi (X
s
)
3. Các nh hưng không o lưng ưc (e)
Ví d:
Current Salary = 771 + 1.9 (Beginning Salary) ± e
General Linear Model: General Linear Model:

TTươươngng quanquan haihai bibiếếnn vàvà HHồồii quyquy bbộộii
• Tương quan hai bin là trưng hp ơn gin ca hi
quy tuyn tính ơn. Sai s e là phn phương sai ca
bin ph thuc không ưc gii thích bi bin c
lp
• Pearson r là 1.0, 100% phương sai ưc gii thích
• Pearson r là 0.6, 36% phương sai ưc gii thích,
còn li 64% phương sai chưa gii thích ưc
General Linear Model: t General Linear Model: t vàvà F testsF tests
t-test là gì?
Kh năng ca s
khác bit gia
trung bình ca X
1
và X
2
, cho bit
phương sai ca hai
mu?
18
General Linear Model: t General Linear Model: t vàvà F testsF tests
F-test là gì?
Kh năng ca s khác bit gia trung bình ca hai bin
bt kỳ, cho bit phương sai ca các mu?
General Linear Model: t General Linear Model: t vàvà F testsF tests
t-test là trưng hp c
bit ca F-test khi ch có
hai nhóm
General Linear Model: tGeneral Linear Model: t test test vàvà rr
t-test ging h s tương quan  im nào?

t-test cho phép ta phán oán liu hai trung bình có
khác nhau không?
H s tương quan cho phép ta phán oán liu hai bin
có liên quan vi nhau không?
0
5
10
15
20
25
30
35
0 5 10 15 20 25
Series1
General Linear Model: tGeneral Linear Model: t test test vàvà rr
Thy khác nhau nhưng tht ra t-test là trưng hp c
bit ca phép kim h s tương quan
Bin 1: i lưng ph thuc
Bin 2: Bin tách i tưng thành 2 nhóm
General Linear Model: tGeneral Linear Model: t test test vàvà rr
Gi thit nghiên cu ca t: Các trung bình khác nhau
Gi thit nghiên cu ca r: r ≠ 0
Nu r ≠ 0 thì các trung bình phi khác nhau
General Linear Model: General Linear Model:
ANOVA ANOVA vàvà HHồồii quyquy bbộộii
• Nu t là trưng hp c bit ca phép kim h s
tương quan thì ANOVA cũng có th là trưng hp
c bit ca phép kim cho hi quy bi
• Vì t-test là trưng hp c bit ca F-test khi s
nhóm là hai, F cũng có th kim h s tương quan

khi ch có hai nhóm
19
So sánh các tính toán trong F và hi quy:
1. Cách tính SSRegression trong hi quy và SSB
trong ANOVA
2. Cách tính SSE trong hi quy và SSW trong
ANOVA
3. SST trong hi quy và trong ANOVA
General Linear Model: General Linear Model:
ANOVA ANOVA vàvà HHồồii quyquy bbộộii
4. T l phương sai gii thích ưc trong ANOVA và
r
2
trong hi quy
5. Nu r có ý nghĩa thì các nhóm to ra t bin c
lp phi có trung bình khác nhau
6. Nu có nhiu hơn hai nhóm thì phi to mt s
bin gi (dummy)  xây dng mô hình hi quy
General Linear Model: General Linear Model:
ANOVA ANOVA vàvà HHồồii quyquy bbộộii
111
QuyQuy trìnhtrình ttạạoo bibiếếnn gigiảả
Mã hóa ban ñu
ca bin Class
To các bin gi mi
lowerClass middleClass upperClass
1 = lower class 1 0 0
2 = working class 0 0 0
3 = middle class 0 1 0
4 = upper class 0 0 1

SW388R6
Data Analysis and
Computers I
Slide 112
DùngDùng Recode trong SPSS Recode trong SPSS ññểể ttạạoo
cáccác bibiếếnn gigiảả
Chn Recode >
Into Different
Variables t
Transform menu.
CácCác bibiếếnn gigiảả chocho bibiếếnn classclass
Các ñi tưng trưc ñây
có mã là 2 trong bin
Class bây gi nhn giá
tr 0  mi bin dummy
Các ñi tưng trưc ñây
có mã là 3 trong bin
Class gi ñây nhn giá
tr 1 trong bin
middleClass và 0  các
bin dummy khác
Các ñi tưng trưc ñây có mã là 4
trong bin Class gi ñây nhn giá
tr 1 trong bin upperClass và 0 
các bin dummy khác
Các ñi tưng trưc ñây có
mã là 1 trong bin Class
gi ñây nhn giá tr 1
trong bin lowerClass và 0
 các bin dummy khác

General linear models General linear models
Trước tiên, ñưa bin
ph thuc vào hp
Dependent Variable
Thứ hai, ñưa bin gi vào
hp Fixed Factors. Các mã
có th có ñưc trình bày
trong cơ s d liu
Thứ ba,
chn nút
Options ñ
xác ñnh
kt qu b
sung
Random Factors là
bin phân loi ly
các giá tr khác
vi các giá tr
trong b cơ s d
liu
Covariates là các bin
có thang ño quãng
20
• Kt qu hi quy bin ph thuc theo các bin
gi ñng nht vi kt qu phân tích phương sai
vi factor là bin Class
• Giá tr và mc ý nghĩa ca F-test trong GLM
ñng nht vi các kt qu có ñưc t hi quy
và One-way ANOVA vi post hoc tests
General Linear Model: General Linear Model:

ANOVA ANOVA vàvà HHồồii quyquy bbộộii

×