1
PhươngPhương pháppháp ghiênghiên cứucứu
vàvà PhânPhân tíchtích dữdữ liệuliệu
CâuCâu hhỏỏii nghiênnghiên ccứứuu
2
MMụục tiêu nghiên cc tiêu nghiên cứứuu
Xác ñịnh những kết quả cần ñạt ñể trả lời
cho câu hỏi nghiên cứu
3
GiGiảả thithiếếtt
Mô tả mối quan hệ giữa các biến
Các biến phải ño lường ñược
Giả thiết phải thể hiện dưới dạng kiểm tra
ñược (xác nhận hay không xác nhận)
◦ Nếu giả thuyết ñược xác nhận => ñóng góp vào
khám phá của ñề tài
◦ Nếu giả thuyết không ñược xác nhận =>tìm hiểu
xem nhân tố nào là quan trọng cần nghiên cứu
thêm
4
TTổổngng quanquan lýlý thuythuyếếtt
((Literature Review)Literature Review)
Vấn ñề quan tâm ñã ñược nghiên cứu trước
ñây chưa và kết quả như thế nào.
Liệu có thể phát triển thêm từ công trình ñã có.
Các chuyên gia ñánh giá phần này dựa trên:
◦ Tính logic trong lập luận
◦ Tính ñầy ñủ trong tham khảo các ñề tài ñã có
◦ Tính liên quan ñến mục tiêu nghiên cứu
5
TTổổngng quanquan lýlý thuythuyếếtt
Cấu trúc của phần này ñược xây dựng dựa
trên Mô hình phân tích (Analytical
Framework) của nghiên cứu
Trong một số trường hợp, mô hình này còn
ñược gọi là Mô hình khái niệm (Conceptual
Framework)
◦ Sơ ñồ diễn tả mối quan hệ giữa các nhân tố
◦ ðây là cơ sở ñể xây dựng các giả thiết
6
2
Ví dVí dụụ vvềề mô hình phân tíchmô hình phân tích
7
Employer
needs
Employability
Learning
approach
Graduate
competencies
Student
involvement
Part-time
experience
PHÂ TÍCH DỮ LIỆU TROG PHÂ TÍCH DỮ LIỆU TROG
QUÁ TRÌH GHIÊ CỨUQUÁ TRÌH GHIÊ CỨU
Thiết kế nghiên cứu
Phân tích và diễn giải thông tin
Thống kê mô tả dựa trên các biến
Bảng chéo của các biến
Chuẩn bị trình bày dữ liệu
Xác định các kiến nghị
Báo cáo nghiên cứu
Quyết định
quản lý
Hoạch định phân tích sơ bộ
Điều chỉnh giả thiết
Trình bày bằng biểu đồ
Kiểm định các giả thiết
Thu thập và chuẩn bị
thông tin
Các loCác loạại phân tích di phân tích dữữ liliệệuu
Phân tích dữ liệu ñể khám phá (EDA)
◦ Dữ liệu hướng dẫn lựa chọn phân tích - hay
xem lại phân tích ñã dự kiến
Phân tích dữ liệu ñể khẳng ñịnh (CDA)
◦ Gần với suy lý thống kê cổ ñiển qua sử dụng
ñộ tin cậy và mức ý nghĩa
◦ Có thể sử dụng thông tin từ bộ dữ liệu có
liên quan mật thiết hay xác nhận giá trị các
kết quả tìm thấy qua thu thập và phân tích
dữ liệu mới
10
PHAÂN TÍCH DỮ LIEÄU
ĐEÅ KHAÙM PHAÙ (EDA)
206 0 10
43,5% ,0% 2,1%
157 27 74
33,1% 5,7% 15,6%
Female
Male
Gender
Clerical
Custodial
Manager
Employment Category
Gender * Employment Category Gender * Employment Category
CrosstabulationCrosstabulation
12
3
ThThốốngng kêkê mơmơ ttảả
MÔ TẢ SỐ LIỆU BẰNG BIỂU ĐỒ
Bar
Pie
Histogram
CÁC ĐẶC TRƯNG CỦA SỐ LIỆU MỘT BIẾN
Đặc trưng vò trí (Central tendency)
Đặc trưng phân tán (Dispersion)
Đặc trưng phân phối (Distribution)
13
Các kCác kỹỹ thuthuậật trình bày và t trình bày và
khkhảảo sát phân pho sát phân phốốii
Bảng tần số
Trình bày bằng hình ảnh
◦ Biểu đồ (Histograms)
◦ Stem-and-leaf
◦ Box-plot
Bảng chéo của các biến
14
Các kCác kỹỹ thuthuậật trình bày và t trình bày và
khkhảảo sát phân pho sát phân phốốii
Biểu đồ
◦ Trình bày tất cả các khoảng trong phân
phối, kể cả khơng có giá trị quan sát
◦ Khảo sát dạng của phân phối về độ lệch,
độ nhọn
15 16
Stem width: 10000
Each leaf: 3 case(s)
Frequency Stem & Leaf
33 1 . 56667789999
110 2 . 00001111111222222222333334444444444
115 2 . 555555556666666667777777778888889999999
80 3 . 000000000001111112233333444
32 3 . 55556677889
20 4 . 0001233
12 4 . 5678
12 5 . 0124
7 5 . 556
53 Extremes (>=56750)
Current Salary Current Salary
StemStem andand Leaf PlotLeaf Plot
17
Các kCác kỹỹ thuthuậật trình bày và t trình bày và
khkhảảo sát phân pho sát phân phốốii
Box-plot
◦ Hộp chữ nhật chứa 50% giá trị của dữ liệu
◦ Vạch đứng trên hộp diễn tả trung vị
◦ Các đoạn mở rộng về bên phải và trái kết
thúc với giá trị lớn nhất và nhỏ nhất
18
4
19
Các kCác kỹỹ thuthuậật trình bày và t trình bày và
khkhảảo sát phân pho sát phân phốốii
Biến ñổi dữ liệu
◦ Nâng cao khả năng diễn giải và tương
thích với các bộ dữ liệu khác
◦ ðối xứng hơn và cân bằng ñộ phân tán
◦ Cải thiện quan hệ tuyến tính giữa các biến
20
BBảảng chéong chéo
Kỹ thuật so sánh hai biến phân loại
◦ Các ô
◦ Biên
◦ Bảng hai chiều
21
Gender * Employment Category Crosstabulation
206 0 10 216
95,4% ,0% 4,6% 100,0%
56,7% ,0% 11,9% 45,6%
43,5% ,0% 2,1% 45,6%
157 27 74 258
60,9% 10,5% 28,7% 100,0%
43,3% 100,0% 88,1% 54,4%
33,1% 5,7% 15,6% 54,4%
363 27 84 474
76,6% 5,7% 17,7% 100,0%
100,0% 100,0% 100,0% 100,0%
76,6% 5,7% 17,7% 100,0%
Count
% within Gender
% within Employment
Category
% of Total
Count
% within Gender
% within Employment
Category
% of Total
Count
% within Gender
% within Employment
Category
% of Total
Female
Male
Gender
Total
Clerical Custodial Manager
Employment Category
Total
22
ThThốốngng kêkê mômô ttảả
Ñaëc tröng vò trí (Central
tendency)
Trung bình (Mean)
Mode
Trung vị (Median)
23
TrungTrung bìnhbình (MEAN(MEAN) & Mode) & Mode
Trung bình là:
◦ Bình quân số học
◦ Tổng giá trị quan sát/Số lần quan sát
Mode là:
◦ Giá trị (chứ không phải số lần) xuất hiện thường
xuyên nhất
24
5
Trung vTrung v (MEDIAN)(MEDIAN)
Trung v l:
im gia ca phõn phi
50% quan sỏt nm phớa trờn & 50% quan sỏt nm
phớa di
Nu s s hng trong dóy s l s chn, trung v l s
bỡnh quõn ca 2 giỏ tr gia dóy s
Trung v khụng ph thuc vo cỏc cc tr, trong khi
Trung bỡnh (Mean) chu nh hng ca cỏc giỏ tr
cao v thp nht trong dóy s.
25
Khi no thỡ sKhi no thỡ s ddng cỏc sng cỏc s ủo ủo
nyny
S o Thang o Khi s dng Vớ d
Mode nh danh D liu di dng
phõn loi
Mu mt, hỡnh thc
hp ng, gii tớnh
Trung v
(Median)
Th t D liu bao gm
cỏc giỏ tr cc biờn
Phõn hng trong lp,
th t lỳc sinh
Trung bỡnh
(Mean)
Quóng v
t l
D liu phự hp T l tr li, tui, mc
thớch
26
ThThngng kờkờ mụmụ tt
ẹaởc trửng phaõn taựn (Dispersion)
Variance
Standard deviation
Standard error of Mean
Min, Max
Extreme values - Outliers
Range
Quartiles
Interquartile range
Boxplot
27
ThThngng kờkờ mụmụ tt
ẹaởc trửng phaõn phoỏi (Distribution)
Phaõn phoỏi chuaồn
28
SS ủủ phõn phphõn phi chui chun (hỡnh chuụng)n (hỡnh chuụng)
Mean = median = mode
i xng qua ủim gia
uụi chuụng tip cn trc X , nhng khụng ct
29
GiỏGiỏ trtr trungtrung bỡnhbỡnh vv llchch chuchunn
30
t bin thiờn hn
Bin thiờn nhiu hn
6
ððộộ llệệch chuch chun và % các quan sátn và % các quan sát
Sơ ñồ phân phối chuNn
Di chuyển về bất kỳ bên nào của Mean 1 khoảng cách là một ñộ lệch chuNn,
khoảng phân phối ñều chứa 34% của không gian giới hạn bởi sơ ñồ
68% số quan sát nằm trong khoảng ± 1 ñộ lệch chuNn của Trung bình
31
Current Salary - Descriptive Statistics
$34,419.57 $784.311
$32,878.40
$35,960.73
$28,875.00
$17,075.661
$15,750
$135,000
$119,250
$13,163
2,125 ,112
5,378 ,224
Mean
Lower Bound
Upper Bound
95% Confidence
Interval for Mean
Median
Std. Deviation
Minimum
Maximum
Range
Interquartile Range
Skewness
Kurtosis
Statistic Std. Error
32
PHAÂN TÍCH DỮ LIEÄU
ĐEÅ XAÙC NHAÄN (CDA)
Các loCác loạại gii giảả thithiếếtt
Giả thiết không
Giả thiết khác
34
Logic cLogic củủa kia kiểểm ñm ñịịnh ginh giảả thithiếếtt
Phép kiểm hai ñuôi
Phép kiểm một ñuôi
35
Logic cLogic củủa kia kiểểm ñm ñịịnh ginh giảả thithiếếtt
Lỗi loại 1
Lỗi loại 2
36
7
KiKiểểm ñm ñịịnh vnh vớới ý nghĩa thi ý nghĩa thốống kêng kê
Phát biểu giả thiết không
Chọn phép kiểm thống kê
Chọn mức ý nghĩa α mong muốn
Tính giá trị sai biệt
Tra bảng tìm giá trị sig. tương ứng
Sig. nhỏ hơn α ⇔ Bác bỏ giả thiết không
Diễn giải kết quả kiểm ñịnh
37
Các loCác loạại phép kii phép kiểểm theo mm theo mứức ý c ý
nghĩanghĩa
Phép kiểm tham số
◦ Phép kiểm Z hay t ñược sử dụng ñể xác ñịnh
sự khác biệt có ý nghĩa về mặt thống kê giữa
trung bình mẫu và trung bình ñám ñông
Các giả ñịnh:
◦ Các quan sát ñộc lập
◦ Phân phối chuNn
◦ Các ñám ñông có cùng phương sai
◦ Thang ño ít ra phải là thang ño quãng
38
OneOne sample T testsample T test
One-Sample Statistics
474 13,49 2,885 ,133
Educational
Level (years)
N Mean
Std.
Deviation
Std. Error
Mean
One-Sample Test
-3,837 473 ,000 -,508
Educational
Level (years)
t df Sig. (2-tailed)
Mean
Difference
Test Value = 14
39
IndependentIndependent sample T testsample T test
Group Statistics
258 14,43 2,979 ,185
216 12,37 2,319 ,158
Gender
Male
Female
Educational
Level (years)
N Mean
Std.
Deviation
Std. Error
Mean
Independent Samples Test
17,884 ,000 8,28 472 ,000 2,060 ,249
8,46 469,6 ,000 2,060 ,244
Equal variances
assumed
Equal variances
not assumed
Educational
Level
(years)
F Sig.
Levene's Test
for Equality of
Variances
t df
Sig.
(2-tailed)
Mean
Difference
Std. Error
Difference
t-test for Equality of Means
40
Levene's Test:
H
0
: Equal Variance
H
a
: Unequal Variance
Equal Variance:
df = N
1
+N
2
-2
Các loCác loạại phép kii phép kiểểm theo mm theo mứức ý c ý
nghĩanghĩa
tailed) Sig.(2
Difference
Mean
of
Error
Standard
Difference
Mean
t ↔=⇒
+
−+
−+−
−
=
2121
2
22
2
11
21
N
1
N
1
2NN
1)S(N1)S(N
XX
t
41
Unequal Variance:
Các loCác loạại phép kii phép kiểểm theo mm theo mứức ý c ý
nghĩanghĩa
tailed) Sig.(2
Difference
Mean
of
Error
Standard
Difference
Mean
t ↔=⇒
+
−
=
2
2
2
1
2
1
21
N
S
N
S
XX
t
1N1N
)(
df
2
2
2
1
2
1
2
21
−
+
−
+
=
ωω
ωω
1
2
1
1
N
S
ω =
2
2
2
2
N
S
ω =
42
8
PairedPaired sample T testsample T test
Paired Samples Statistics
$34,419.57 474 $17,075.661 $784.311
$17,016.09 474 $7,870.638 $361.510
Current Salary
Beginning Salary
Mean N Std. Deviation
Std. Error
Mean
Paired Samples Test
$17403.48 $10,814.620 $496.732 35,04 473 ,000
Current Salary -
Beginning Salary
Mean Std. Deviation
Std. Error
Mean
Paired Differences
t df
Sig.
(2-tailed)
43
ANOVAANOVA
Phân tích phương sai (ANOVA)
◦ Phương pháp thống kê để kiểm định
giả thiết khơng về sự bằng nhau của
nhiều trung bình
◦ H: µ
1
= µ
2
= = µ
i
= = µ
n
44
ANOVAANOVA
Sum of Squares Between Groups
df = n -1
Sum of Squares Within Groups
df = N – n
Sum of Squares Total
df = N – 1
∑
−=
i
22
i
i
XNXNSSB
∑ ∑
−=
i j
2
ii
2
iij
XNXNSSW
∑
−=
ij
2
2
ijij
XNXNSST
45
OneOne way ANOVAway ANOVA
Descriptives - Educational Level (years)
N Mean Std. Deviation Std. Error
Clerical 363 12,87 2,333 ,122
Custodial 27 10,19 2,219 ,427
Manager 84 17,25 1,612 ,176
Total 474 13,49 2,885 ,133
ANOVA
Educational Level (years)
1622,989 2 811,495 165,2 ,000
2313,477 471 4,912
3936,466 473
Between Groups
Within Groups
Total
Sum of
Squares df
Mean
Square F Sig.
46
ANOVAANOVA
Nếu bác bỏ H: µ
1
= µ
2
= = µ
i
= = µ
n
,
tiến hành tiếp Post hoc để xác đònh các
trung bình nào khác nhau.
Phải làm Levene test trước để xác đònh xem
các phương sai trong từng nhóm có đồng
nhất không.
47
ANOVAANOVA
Levene's Test:
H: Homogeneity of Variance
Equal Variances:
Có thể dùng các tests như LSD, Bonferroni, Sidak,
Scheffe, Tukey
Unequal Variances:
Có thể dùng các tests như Tamhane's T2, Dunnett's
T3, Games-Howell
48
9
Các phép kiCác phép kiểểm so sánh ñm so sánh ñồồng ng
ththờời nhii nhiềều cu cặặp p
Quy trình so sánh ñng thi nhiu cp
◦ Kim s khác bit gia tng cp trung
bình và ch ra các nhóm có trung bình
khác nhau có ý nghĩa mc alpha (<.05)
◦ Dùng các trung bình nhóm và kt hp vi
giá tr MS
error
ca kim ñnh F
49
Post Hoc TestsPost Hoc Tests
Test of Homogeneity of Variances
Educational Level (years)
6,159 2 471 ,002
Levene
Statistic df1 df2 Sig.
Multiple Comparisons
Dependent Variable: Educational Level (years)
Tamhane
2,683* ,444 ,000
-4,382* ,214 ,000
-2,683* ,444 ,000
-7,065* ,462 ,000
4,382* ,214 ,000
7,065* ,462 ,000
(J) Employment
Category
Custodial
Manager
Clerical
Manager
Clerical
Custodial
(I) Employment
Category
Clerical
Custodial
Manager
Mean
Difference (I-J)
Std.
Error Sig.
The mean difference is significant at the .05 level.
*.
50
PhânPhân tíchtích PhPhươươngng saisai mmộộtt yyếếuu ttốố
(One(One way ANOVA)way ANOVA)
Ta có th kim tra xu hưng ca các trung bình ca
các nhóm.
Ngoài vic xác ñnh s khác bit gia các trung
bình, ñôi khi ta mun so sánh các trung bình c th.
51
PhânPhân tíchtích PhPhươươngng saisai mmộộtt yyếếuu ttốố
(One(One way ANOVA)way ANOVA)
Có 2 loi kim tra ñ so sánh các trung bình c th:
◦ ði chiu trưc (priori contrast) nhm kim tra mt biu
thc c th gia các trung bình. Ví d:
◦ Kim tra hu kỳ (post hoc test) ñưc s dng ñ so sánh
nhiu cp trung bình cùng mt lúc
52
2
µµ
µ
52
1
+
=
ChChọọn phép kin phép kiểểm nhm nhưư ththếế nào?nào?
Phép kim liên quan ñn
◦ Một mẫu,
◦ Hai mẫu
◦ K mẫu
Nu là hai hay k mu, các quan sát ñc
lp hay có liên quan?
Thang ño là danh xưng, th t, quãng,
hay t l?
53
PhépPhép kikiểểmm Phi Phi thamtham ssốố
10
Điềiều kiệnkiện củacủa cáccác phépphép
kiểmkiểm thamtham sốsố
Các phép kiểm T dùng để so sánh trung
bình dựa trên loại dữ liệu theo thang đo
quãng (interval)
Phân phối của quan sát là phân phối chuẩn
Trên thực tế, đôi khi các điều kiện này
không thõa, hoặc ta muốn kiểm các vấn đề
khác chứ không chỉ muốn so sánh các
trung bình
55
Các gi đnh
◦ Các quan sát đc lp cho mt s phép kim
◦ Phân phi khơng cn phi chuNn
◦ Phương sai khơng cn phi đng nht
◦ Phù hp cho d liu danh xưng hay th t, có
th dùng cho c trưng hp qng và t l
PhépPhép kikiểểmm phi phi thamtham ssốố
56
ChiChi square square testtest
H
0
: Có sự phù hợp giữa thực tế và lý thuyết
H
0
: Các yếu tố độc lập, hay
H
0
: Các mẫu đồng nhất
57
ChiChi square square testtest
Kiểm tính phù hợp giữa thực tế và lý thuyết
bằng cách tính chênh lệch giữa các tần số
thực tế và tần số lý thuyết.
Q có phân phối Chi-square, Q càng lớn càng
dễ bác bỏ H.
58
∑
=
thuyết Lý
thuyết) Lý-tế (Thực
Q
2
ChiChi square square testtest
Kiểm tính độc lập của hai yếu tố (dòng và
cột), không chỉ ra mức độ và hướng của mối
quan hệ.
Kiểm tính đồng nhất của nhiều mẫu có các
quan sát đònh tính.
Gồm các thống kê Pearson chi-square,
likelyhood-ratio chi-square, linear-by-linear
association chi-square.
59
ChiChi Square TestsSquare Tests
Chi-Square Tests
79,277
a
2 ,000
95,463 2 ,000
67,463 1 ,000
474
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value df
Asymp. Sig.
(2-sided)
0 cells (,0%) have expected count less than 5. The
minimum expected count is 12,30.
a.
gender * Employment Category Crosstabulation
157 27 74 258
206 0 10 216
363 27 84 474
male
female
gender
Total
Clerical Custodial Manager
Employment Category
Total
60
11
ONEONE SAMPLE KOLMOGOROVSAMPLE KOLMOGOROV
SMIRNOV TESTSMIRNOV TEST
H
0
: Số liệu phù hợp với phân phối lý thuyết
K-S test:
◦ Tính sai lệch lớn nhất giữa hai đường phân phối tích
lũy thực nghiệm và lý thuyết
◦ Sai lệch tuyệt đối càng lớn càng dễ bác bỏ H.
61
TWOTWO INDEPENDENTINDEPENDENT SAMPLES SAMPLES
TESTSTESTS
H
0
: Hai mẫu có cùng phân phối
U của Mann-Whitney:
◦ Hai mẫu được sắp theo thứ tự tăng dần
◦ U là số lần giá trò trong mẫu thứ nhất nhỏ hơn giá
trò trong mẫu thứ hai
◦ U quá nhỏ hay quá lớn đều dễ bác bỏ H
62
TWOTWO INDEPENDENTINDEPENDENT SAMPLES SAMPLES
TESTSTESTS
H
0
: Hai mẫu có cùng phân phối
Moses extreme reactions:
◦ Các quan sát phải dùng thang đo thứ tư
◦ Tầm (span = max – min) của nhóm đối chứng đo
mức độ các cực trò trong nhóm thí nghiệm ảnh
hưởng đến giá trò tầm nầy khi kết hợp với nhóm
đối chứng
◦ nh hưởng càng lớn càng dễ bác bỏ H
63
TWOTWO INDEPENDENTINDEPENDENT SAMPLES SAMPLES
TESTSTESTS
H
0
: Hai mẫu có cùng phân phối
Wald-Wolfowitz runs:
◦ Các quan sát sử dụng thang đo thứ tư
◦ Hai mẫu được kết hợp lại và sắp hạng từ nhỏ đến
lớn
◦ Run là một dãy liên tiếp các giá trò trong cùng một
mẫu
◦ Nếu các mẫu có cùng phân phối thì hai nhóm phải
phân tán ngẫu nhiên qua quá trình sắp hạng,
nghóa là số runs càng nhỏ càng dễ bác bỏ H
64
TESTS FOR SEVERAL TESTS FOR SEVERAL
INDEPENDENT SAMPLESINDEPENDENT SAMPLES
H
0
: k mẫu có cùng phân phối
Kruskal-Wallis H:
◦ Tương ứng với One-way ANOVA
◦ Số liệu có phân phối liên tục và sử dụng thang đo
thứ tự
◦ k mẫu được kết hợp và sắp hạng lại
◦ Tính H dựa trên các hạng này
◦ H càng lớn càng dễ bác bỏ giả thiết không
65
( )
1)-square(k-Chi H
sát quansố tổng là N
j
mẫu
của
sát
quan
số
là
N
; RRN
N
1
1N
12
H
j
2
jj
∈
−
+
=
∑
TESTS FOR SEVERAL TESTS FOR SEVERAL
INDEPENDENT SAMPLESINDEPENDENT SAMPLES
H
0
: k mẫu có cùng phân phối
Median:
◦ Liệt kê số trường hợp lớn hơn và nhỏ hơn trung vò
cho từng nhóm
◦ Dùng Chi-square tính sai lệch Q giữa lý thuyết và
thực tế
Jonckheere-Terpstra:
◦ Mạnh hơn Kruskal-Wallis trong trường hợp các dữ
liệu liên tục hay thang đo thứ tự
◦ J-T càng lớn càng dễ bác bỏ H
66
12
TWOTWO RELATED SAMPLES TESTSRELATED SAMPLES TESTS
H
0
: Hai mẫu liên quan có cùng phân phối
W của Wilcoxon:
◦ Chú ý các cặp có sai lệch lớn, sắp hạng các trò
tuyệt đối sai lệch (có phân biệt dấu)
◦ Tính tổng hạng có dấu (W
+
, W
-
)
◦ W = min(W
+
, W
-
), W quá nhỏ hay quá lớn đều dễ
bác bỏ H
67
TWOTWO RELATED SAMPLES TESTSRELATED SAMPLES TESTS
H
0
: Hai mẫu liên quan có cùng phân phối
Sign:
◦ Tính hiệu số của hai mẫu
◦ Chú ý số trường hợp có hiệu số dương và âm
◦ Khi hai giá trò này chênh lệch nhau nhiều (biểu
hiện qua giá trò Z quá âm hay quá dương), ta càng
dễ bác bỏ H
68
TWOTWO RELATED SAMPLES TESTSRELATED SAMPLES TESTS
H
0
: Hai mẫu liên quan có cùng phân phối
McNemar:
◦ Khi hai biến lấy giá trò nhò phân và có liên quan
Marginal Homogeneity:
◦ Mở rộng của McNemar cho trường hợp dữ kiện đa
thức (multinomial)
69
TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED
SAMPLESSAMPLES
H
0
: k mẫu liên quan có cùng phân phối
Friedman:
◦ Tương ứng với Two-way ANOVA
◦ k biến trong mỗi trường hợp được sắp hạng lại từ
1 tới k
◦ F
r
tính dựa trên các hạng này
◦ F
r
càng lớn càng dễ bác bỏ H
70
( )
1)-square(k-Chi F
mẫu
từng
trong
sát
quan
số
là
N
1);3N(k-RN
1)Nk(k
12
F
r
2
jr
∈
+
+
=
∑
TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED
SAMPLESSAMPLES
H
0
: k mẫu liên quan có cùng phân phối
W của Kendall:
◦ Đo mức độ thống nhất trong việc đánh giá k đối
tượng của N chuyên gia
◦ Với mỗi đối tượng ta tính tổng hạng
◦ W lấy giá trò từ 0 (không thống nhất) tới 1 (hoàn
toàn thống nhất)
71
TESTS FOR SEVERAL RELATED TESTS FOR SEVERAL RELATED
SAMPLESSAMPLES
H
0
: k mẫu liên quan có cùng phân phối
Q của Cochran:
◦ Giống như F
r
của Friedman nhưng được dùng khi k
biến quan sát trên cùng đối tượng chỉ lấy giá trò
nhò phân
◦ Đây là mở rộng của phép kiểm McNemar từ 2 mẫu
ra cho trường hợp k mẫu
72
13
TómTóm tắttắt phépphép kiểmkiểm phi phi thamtham sốsố
Chi-square
ONE-SAMPLE KOLMOGOROV-SMIRNOV TEST
TWO-INDEPENDENT-SAMPLES TESTS
U của Mann-Whitney
Moses extreme reactions
Wald-Wolfowitz runs
TESTS FOR SEVERAL INDEPENDENT SAMPLES
H của Kruskal-Wallis
Median
Jonckheere-Terpstra
73
TómTóm tắttắt phépphép kiểmkiểm phi phi thamtham sốsố
TWO-RELATED SAMPLES TESTS
W của Wilcoxon
Sign
McNemar
Marginal Homogeneity
TESTS FOR SEVERAL RELATED SAMPLES
F
r
của Friedman
W của Kendall
Q của Cochran
74
HỒI QUY & TƯƠNG QUANHỒI QUY & TƯƠNG QUAN
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
H
0
: Hệ số tương quan bằng 0, nghóa là
hai biến không có tương quan tuyến
tính
76
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
Tương quan 2 biến (Bivariate
Correlations)
Tương quan riêng phần (Partial
Correlations)
77
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
Tương quan 2 biến (Bivariate
Correlations)
◦ Hệ số tương quan Pearson
◦ Hệ số tương quan Tau-b của Kendall
◦ Hệ số tương quan Spearman
78
14
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
Hệ số tương quan Pearson:
◦ ánh giá mức độ tương quan tuyến tính của
hai biến, lấy giá trò từ –1 đến +1
◦ Dấu chỉ chiều tương quan (nghòch hay thuận)
◦ ộ lớn cho thấy mức độ tương quan tuyến
tính nhiều hay ít
79
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
Hệ số tương quan Tau-b của Kendall:
◦ Số liệu theo thang đo thứ tự hay các biến đã
được sắp hạng lại
◦ Tau-b lấy giá trò trong khoảng [-1;+1]
◦ Ý nghóa giống như hệ số tương quan
Pearson, nhưng giá trò –1 và +1 chỉ có thể
đạt được khi bảng số liệu hai chiều là bảng
vuông.
80
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
Hệ số tương quan Spearman:
◦ Dựa trên hạng chứ không dựa trên giá trò
thực của quan sát
◦ Sử dụng khi số liệu theo thang đo thứ tự
hoặc không thỏa các giả thuyết chuẩn
81
TƯƠNG QUAN (CORRELATIONS)TƯƠNG QUAN (CORRELATIONS)
Tương quan riêng phần (Partial
Correlations)
◦ Nghiên cứu mối quan hệ tuyến tính của hai
biến có loại trừ ảnh hưởng của các yếu tố
khác.
◦ Zero Order Partials
◦ Controlling for…
82
TươngTương quanquan riêngriêng phầnphần
(Partial Correlations)(Partial Correlations)
83
Biến kiểm soát Qu chăm
sóc sc khe
T l bnh
báo cáo
Số lần đi
khám bệnh
Không Qu chăm
sóc sc khe
1 0.737 0.964
T l bnh
báo cáo
0.737 1 0.762
Số lần đi
khám bệnh
0.964 0.762 1
Số lần đi
khám bệnh
Qu chăm
sóc sc khe
1 0.013
T l bnh
báo cáo
0.013 1
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
Hồi quy đơn (Simple Regression)
Hồi quy bội (Multiregression)
84
15
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
Hoài quy ñôn (Simple Regression)
85
P
4
XX
1
X
2
X
3
X
4
P
3
P
2
P
1
R
1
R
2
R
3
R
4
(sai biệt-residual)
e
1
e
2
e
3
e
4
XbbY
10
ˆ
+=
b
0
Y
ˆ
(giá trị ước lượng)
Y (giá trị thật)
e
Y
Y
=
==
=
−
−−
−
ˆ
Y
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
86
Phân tích phương sai trong hi quy
∑
−=
2
total
YYSS )(
regressionresidualtotal
22
total
2
total
SSSSSS
YYYYSS
YYYYSS
+=
−+−=
−+−=
∑∑
∑
)()(
)(
^^
^^
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
87
T l phương sai gii thích ñưc (hay mc
ñ ñi din các quan sát ca ñưng hi
qui)
total
residualtotal
2
SS
SSSS
R
−
=
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
88
H
0
: Không có tương quan tuyn tính gia hai bin
1310179340.332 1 1310179340.332 4.527 .034
a
136606316096.008 472 289420161.220
137916495436.340 473
Regression
Residual
Total
Model
1
Sum of Squares df Mean Square F Sig.
ANOVA
b
Predictors: (Constant), Previous experience (months)
a.
Dependent Variable: Current salary
b.
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
89
H
0
: Không có tương quan tuyn tính gia hai bin
Model Summary
.097
a
.009 .007 $17,012.353
Model
1
R R Square
Adjust ed
R Square
Std. Error of
the Estimate
Predictors: (Const ant), Prev ious Experience (months)
a.
HOÀI QUY (REGRESSION)HOÀI QUY (REGRESSION)
90
H
0
: Không có tương quan tuyn tính gia hai bin
Coefficients
a
35945.029 1060.488 33.895 .000
-15.913 7.479 097 -2.128 .034
(Constant)
Prev ious Experience
(months)
Model
1
B Std. Error
Unstandardized
Coeff icients
Beta
Standardized
Coeff icients
t Sig.
Dependent Variable: Current Salary
a.
16
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
Hồi quy bội (Multiregression)
Khi muốn tìm mối quan hệ tuyến tính của một
biến (dependent variable) theo nhiều biến
(independent variables or predictors), ta phải
tìm hiểu các phương pháp đưa biến vào mô
hình.
91
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
Hồi quy bội (Multiregression)
Các phương pháp ưa biến vào mô hình:
Enter: Tất cả các biến đã chọn được đưa vào
mô hình cùng một lúc
Remove: Tất cả các biến đã chọn được đưa ra
khỏi mô hình cùng một lúc
92
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
Hồi quy bội (Multiregression)
Các phương pháp đưa biến vào mô hình:
Forward:
Từng biến có tương quan riêng với biến phụ
thuộc lớn nhất được lần lượt đưa vào mô
hình
Backward:
Đưa tất cả các biến đã chọn vào mô hình
Lần lượt lấy ra từng biến có tương quan
riêng với biến phụ thuộc nhỏ nhất
93
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
Hồi quy bội (Multiregression)
Các phương pháp đưa biến vào mô hình:
Stepwise:
Ở mỗi bước, biến độc lập chưa đưa vào mô
hình có P(F) nhỏ nhất sẽ được đưa vào
Các biến đã có trong mô hình sẽ được đưa
ra nếu P(F) của chúng tăng lên đáng kể
Quy trình kết thúc khi không còn biến nào
có thể đưa vào hay đưa ra
94
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
Hi quy bi (Multiregression)
Làm th nào đ bit đưa bin đc lp nào vào
mơ hình?
◦ Lý thuyt
◦ Mơ hình tt nht là mơ hình có giá tr R
2
ln nht
vi s lưng bin s đc lp nh nht
95
HỒI QUY (REGRESSION)HỒI QUY (REGRESSION)
ChNn đốn vn đ đa cng tuyn
◦ Có quan h tuyn tính gia các bin đc lp
◦ Tolerance là t l phương sai ca mt bin đc lp
khơng th đưc gii thích bi các bin đc lp khác
◦ Tolerance ca mt bin q nh là có hin tưng
cng tuyn
◦ Gii quyt bng cách chy li mơ hình vi cách chn
bin stepwise
96
17
MôMô hìnhhình tuytuyếếnn tínhtính ttổổngng quátquát
(General Linear Model)(General Linear Model)
General Linear Model (GLM)General Linear Model (GLM)
T-tests, ANOVA, tương quan, và hi quy bi
liên h vi nhau như th nào?
V mt logic, T-tests và tương quan ñưc gii
thiu trưc, sau ñó là ANOVA và hi quy bi
Các quy trình này liên quan vi nhau v mt
toán hc, ñó là cách GLM mô t các mi quan
h
Lý thuyt GLM cho rng nhiu phép kim
thng kê có th ñưc gii quyt bng phân
tích hi quy, trong ñó có t-test và ANOVA
GLM còn hu dng hơn vì có th x lý c
thang ño quãng và ñnh danh trong mô hình
General Linear Model (GLM)General Linear Model (GLM)
General Linear Model: General Linear Model: HHồồii quyquy bbộộii
Y = a +b
1
* X
1
+ b
2
*X
2
+ b
3
*X
3
+ … + e
Trong biu thc này, im Y ca mt ngưi là tng hp
ca nhiu nh hưng:
1. nh hưng c nh ging nhau cho mi cá nhân (a)
2. nh hưng ca các bin khác ghi im khác nhau
cho tng ngưi (X
s
)
3. Các nh hưng không o lưng ưc (e)
Ví d:
Current Salary = 771 + 1.9 (Beginning Salary) ± e
General Linear Model: General Linear Model:
TTươươngng quanquan haihai bibiếếnn vàvà HHồồii quyquy bbộộii
• Tương quan hai bin là trưng hp ơn gin ca hi
quy tuyn tính ơn. Sai s e là phn phương sai ca
bin ph thuc không ưc gii thích bi bin c
lp
• Pearson r là 1.0, 100% phương sai ưc gii thích
• Pearson r là 0.6, 36% phương sai ưc gii thích,
còn li 64% phương sai chưa gii thích ưc
General Linear Model: t General Linear Model: t vàvà F testsF tests
t-test là gì?
Kh năng ca s
khác bit gia
trung bình ca X
1
và X
2
, cho bit
phương sai ca hai
mu?
18
General Linear Model: t General Linear Model: t vàvà F testsF tests
F-test là gì?
Kh năng ca s khác bit gia trung bình ca hai bin
bt kỳ, cho bit phương sai ca các mu?
General Linear Model: t General Linear Model: t vàvà F testsF tests
t-test là trưng hp c
bit ca F-test khi ch có
hai nhóm
General Linear Model: tGeneral Linear Model: t test test vàvà rr
t-test ging h s tương quan im nào?
t-test cho phép ta phán oán liu hai trung bình có
khác nhau không?
H s tương quan cho phép ta phán oán liu hai bin
có liên quan vi nhau không?
0
5
10
15
20
25
30
35
0 5 10 15 20 25
Series1
General Linear Model: tGeneral Linear Model: t test test vàvà rr
Thy khác nhau nhưng tht ra t-test là trưng hp c
bit ca phép kim h s tương quan
Bin 1: i lưng ph thuc
Bin 2: Bin tách i tưng thành 2 nhóm
General Linear Model: tGeneral Linear Model: t test test vàvà rr
Gi thit nghiên cu ca t: Các trung bình khác nhau
Gi thit nghiên cu ca r: r ≠ 0
Nu r ≠ 0 thì các trung bình phi khác nhau
General Linear Model: General Linear Model:
ANOVA ANOVA vàvà HHồồii quyquy bbộộii
• Nu t là trưng hp c bit ca phép kim h s
tương quan thì ANOVA cũng có th là trưng hp
c bit ca phép kim cho hi quy bi
• Vì t-test là trưng hp c bit ca F-test khi s
nhóm là hai, F cũng có th kim h s tương quan
khi ch có hai nhóm
19
So sánh các tính toán trong F và hi quy:
1. Cách tính SSRegression trong hi quy và SSB
trong ANOVA
2. Cách tính SSE trong hi quy và SSW trong
ANOVA
3. SST trong hi quy và trong ANOVA
General Linear Model: General Linear Model:
ANOVA ANOVA vàvà HHồồii quyquy bbộộii
4. T l phương sai gii thích ưc trong ANOVA và
r
2
trong hi quy
5. Nu r có ý nghĩa thì các nhóm to ra t bin c
lp phi có trung bình khác nhau
6. Nu có nhiu hơn hai nhóm thì phi to mt s
bin gi (dummy) xây dng mô hình hi quy
General Linear Model: General Linear Model:
ANOVA ANOVA vàvà HHồồii quyquy bbộộii
111
QuyQuy trìnhtrình ttạạoo bibiếếnn gigiảả
Mã hóa ban ñu
ca bin Class
To các bin gi mi
lowerClass middleClass upperClass
1 = lower class 1 0 0
2 = working class 0 0 0
3 = middle class 0 1 0
4 = upper class 0 0 1
SW388R6
Data Analysis and
Computers I
Slide 112
DùngDùng Recode trong SPSS Recode trong SPSS ññểể ttạạoo
cáccác bibiếếnn gigiảả
Chn Recode >
Into Different
Variables t
Transform menu.
CácCác bibiếếnn gigiảả chocho bibiếếnn classclass
Các ñi tưng trưc ñây
có mã là 2 trong bin
Class bây gi nhn giá
tr 0 mi bin dummy
Các ñi tưng trưc ñây
có mã là 3 trong bin
Class gi ñây nhn giá
tr 1 trong bin
middleClass và 0 các
bin dummy khác
Các ñi tưng trưc ñây có mã là 4
trong bin Class gi ñây nhn giá
tr 1 trong bin upperClass và 0
các bin dummy khác
Các ñi tưng trưc ñây có
mã là 1 trong bin Class
gi ñây nhn giá tr 1
trong bin lowerClass và 0
các bin dummy khác
General linear models General linear models
Trước tiên, ñưa bin
ph thuc vào hp
Dependent Variable
Thứ hai, ñưa bin gi vào
hp Fixed Factors. Các mã
có th có ñưc trình bày
trong cơ s d liu
Thứ ba,
chn nút
Options ñ
xác ñnh
kt qu b
sung
Random Factors là
bin phân loi ly
các giá tr khác
vi các giá tr
trong b cơ s d
liu
Covariates là các bin
có thang ño quãng
20
• Kt qu hi quy bin ph thuc theo các bin
gi ñng nht vi kt qu phân tích phương sai
vi factor là bin Class
• Giá tr và mc ý nghĩa ca F-test trong GLM
ñng nht vi các kt qu có ñưc t hi quy
và One-way ANOVA vi post hoc tests
General Linear Model: General Linear Model:
ANOVA ANOVA vàvà HHồồii quyquy bbộộii