Tải bản đầy đủ (.pdf) (81 trang)

Bài giảng Phương pháp nghiên cứu: Chương 4: xử lý dữ liệu - Nguyễn Hùng Phong

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (570.47 KB, 81 trang )

Chương 4: Xữ lý dữ liệu
I. Các đại lượng đo lường sự phân tán
II. Ước lượng thông số đám đông từ mẫu
III.Một số phép kiểm định cơ bản
IV.Kiểm định phi tham số: Chi-square
V. Phân tích nhân tố (factor analysis)
VI.Phân tích tương quan (Regression
analysis)
Sử dụng các công cụ thống kê trong phân tích
Mục tiêu và kiểu của các câu hỏi nghiên cứu
Mục tiêu chung
Mục tiêu cụ thể
Kiểu câu hỏi/ giả thiết
Kiểu thống kê
Khác biệt Liên quan Mô tả
Mức độ liên
quan, các biến
liên quan
So sánh
nhóm
Tóm lược
dữ liệu
Quan hệ giữa các biến Mô tả
Thống kê khác biệt
(v.d. t-test, ANOVA)
Thống kê liên
quan
(v.d. tương
quan, hồi quy)
Thống kê mô
tả (v.d. trung


bình, tỷ lệ)
I. Các đại lượng đo lường độ phân tán



N
i
N
Xi
1
/




n
i
i
nXX
1
)
/(
• Đám đông • Mẩu• Thông số
• 1.Trung
bình



N
i

NXi
1
22
/)(

)1/()(
1
22



n
i
nXXis
2 2


2
2
ss 
),(
2

NX
i

),(
2
X
i

NX


• 2. Phương
sai
• 3. Độ lệch
tiêu chuẩn
• 4. Hàm
phân phối
I. Các đại lượng đo lường độ phân tán
• Thông số • Đám đông Mẩu
PsPp
N
PP
pp
P
p
)1(
2



n
PP
ss
P
s
)1(
2




2
2
pp
pp


2
2
ss
pp


• 5. Tỷ lệ
• 6. Phương sai
• 7. Độ lệch
• tiêu chuẩn
Phân phối chuẩn một đơn vị
Đo lường dạng hình của phân phối (Measures
of Shape)
• Độ lệch (skewness) đo lường độ lệch của phân phối về một
trong hai phía.
• Phân phối lệch trái (negative skew, left-skewed) khi đuôi phía
trái dài hơn, và phần lớn số liệu tập trung ở phía phải của
phân phối.
• Phân phối lệch phải (positive sknew, right-skewed) khi đuôi
phía phải dài hơn, và phần lớn số liệu tập trung ở phía trái
của phân phối.
• Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị

skewness âm. Độ càng lớn thì giá trị sknewness càng lớn
hơn 0.
• Với phân phối chuẩn, độ lệch gần như nhận giá trị 0
Đo lường dạng hình của phân phối (Measures
of Shape)
Đo lường dạng hình của phân phối (Measures
of Shape)
• Độ nhọn (kurtosis)
– Độ nhọn (kurtosis) đo lường mức độ nhọn hay bẹt của phân
phối so với phân phối bình thường (có độ nhọn bằng 0).
Phân phối có dạng nhọn khi giá trị kurtosis dương và có
dạng bẹt khi giá trị kurtosis âm.
– Với phân phối bình thường, giá trị của độ lệch và độ nhọn
bằng 0. Căn cứ trên tỷ số giữa giá trị skewness và kurtosis
và sai số chuẩn của nó, ta có thể đánh giá phân phối có bình
thường hay không (khi tỷ số này nhỏ hơn -2 và lớn hơn +2,
phân phối là không bình thường).
II. Ước lượng thông số đám đông
μ
Đám đông
S S
P
p

X
P
s
II. Ước lượng thông số đám đông
II.1.1 Ước lượng trung
bình đám đông

– Chuyển phân phối chuẩn
tổng quát trở về phân
phối chuẩn một đơn vị
với biến ngẩu nhiên
– Tìm xác xuất P sao cho:
– Đối với phân phối chuẩn
một đơn vị, ta có
X
X
Z




)1()(





bZaP
)1()(
2/2/


 ZZZP
30

n
II. Ước lượng thông số đám đông

Như vậy, chúng ta sẽ có :
Hay:
Suy ra:
Ở đây, ta có:
2/2/

ZZZ 
2/2/



Z
X
Z
X



XX
ZXZX



22

2
2
2
2
2

n
n
XX




II. Ước lượng thông số đám đông
II.1.2 Ước lượng trung
bình đám đông
– Chuyển phân phối chuẩn
tổng quát trở về phân
phối t
– Tìm xác xuất P sao cho:
– Đối với phân phối t
(phân phối student), ta có
X
X
t




)1()(





btaP

)
1(),(
)1(,2/)1(2/



 nn
tttP
n<30
II. Ước lượng thông số đám đông
Như vậy, chúng ta sẽ có :
Hay:
Suy ra:
Ở đây, ta có:
)1(,2/)1(2/
,


nn
ttt

)1(2/)1(2/
,,




n
X
n

t
X
t



X
n
X
n
tXtX


.,.,
)1(2)1(2 

2
2
2
2
2
n
n
XX




II. Ước lượng thông số đám đông
S

P
ps
PP
Z



II.2.1 Ước lượng tỷ lệ đám đông(Khi n lớn hơn hoặc bằng 30
phần tử)
– Chuyển phân phối
tổng quát về phân
phối chuẩn
– Tỷ lệ đám đông sẽ
nằm trong khoảng
SS
PspPs
ZPPZP



22

II. Ước lượng thông số đám đông
S
P
ps
PP
t




II.2.1 Ước lượng tỷ lệ đám đông(Khi n nhỏhơn 30 phần tử)
– Chuyển phân phối
tổng quát về phân
phối student (t)
– Tỷ lệ đám đông sẽ
nằm trong khoảng
Ss
PnspPns
tPPtP



,
)1(,2)1(2 




III. Một số phép kiểm định giả thuyết
III.1 Kiểm định trung bình và tỷ lệ đám đông
Mục đích
Phát hiện xem các giá trị trung bình/tỷ lệ của đám đông có sự
thay đổi hay không
Phương pháp tiến hành
– Lấy mẩu từ đám đông sau đó tính trung bình hoặc tỷ lệ mẩu
– Sử dụng trung bình hoặc tỷ lệ mẩu để kiểm định có sự thay
đổi về trung bình và tỷ lệ đám đông hay không
Các kỹ thuật kiểm định cơ bản
Các kỹ thuật kiểm định dùng theo loại dữ liệu và trắc nghiệm

Thang đo One-sample
Case
Two-Samples Tests k-Samples Tests
Related
Samples
Independent
Samples
Related
Samples
Independent
Samples
Nominal - Binomial
- χ
2
one-sample
test
- McNemar - Fisher exact
test
- χ
2
two-
sample test
- Cochran Q - χ
2
for k-
samples
Ordinal - Kolmogorov-
Smirnov one-
sample test
- Runs test

- Sign test
- Wilcoxon
matched-pairs
test
-Median test
Mann-
Whitney U
- Kolmogorov-
Smirnov
Wald-
Wolfowitz
-Friedman
two-way
ANOVA
- Median
extension
- Kruskal-
Wallis one-
way ANOVA
Interval and Ratio - T-test
- Z test
- T-test for
paired
samples
- T-test
- Z test
- Repeated-
measured
ANOVA
- One-way

ANOVA
- N-way
ANOVA
Sai lầm trong kiểm định
Quyết định Bản chất của giả thuyết H
o
Đúng Sai
Chấp nhận H
0
Quyết định
đúng
Sai lầm loại II
(Beta)
Từ chối H
0
Sai lầm loại I
(alpha)
Quyết định
đúng
Giá trị xác suất (p Values)
• Giá trị p value được so sánh với mức ý nghĩa
(significant level - α), và dựa trên kết quả này để
bác bỏ hay không bác bỏ giả thiết.
• Nếu giá trị p value nhỏ hơn mức ý nghĩa, giả
thiết bị bác bỏ (p value < α, bác bỏ giả thiết H
0
).
• Nếu giá trị p value bằng hoặc lớn hơn mức ý
nghĩa, không bác bỏ giả thiết H
o

(p value > α,
không bác bỏ giả thiết H
0
).
Kiểm định ý nghĩa: các kiểu kiểm định
• Có hai loại: parametric (tham số) và
nonparametric (phi tham số).
– Parametric tests là công cụ mạnh vì xử lý các
dữ liệu dạng scale (interval, ratio).
– Nonparametric tests là công cụ xử lý các dữ
liệu dạng nominal và ordinal.
Kiểm định ý nghĩa: các kiểu kiểm định
• Parametric tests đòi hỏi một số giả định:
– Các quan sát phải độc lập với nhau.
– Các quan sát phải được rút ra từ các đám
đông có phân phối chuẩn.
– Các nhóm trong đám đông phải có phương
sai tương đương.
– Thang đo phải ở dạng scale để các tính toán
có thể thực hiện được.
Kiểm định ý nghĩa: các kiểu kiểm định
• Nonparametric tests ít đòi hỏi các giả định:
– Không đòi hỏi các quan sát phải được rút ra từ các
đám đông có phân phối chuẩn.
– Không đòi hỏi các nhóm phải có phương sai tương
đương.
– Là cách duy nhất để xử lý dữ liệu danh xưng
(nominal).
– Là cách đúng đắn để xử lý dữ liệu với thang đo thứ
tự (ordinal), mặc dù parametric có thể áp dụng được.

– Dễ hiểu và dễ sử dụng.
III.1 Kiểm định trung bình và tỷ lệ đám đông
o
H

:
0
o
H

:
1
X
tt
X
Z




Trình tự
X
tt
X
t




– Bước 1: Thiết lập giả thuyết

– Bước 2: Chọn alpha
– Bước 3: Xác định phép kiểm
định (Z hoặc t) trong trường
hợp kiểm định trung bình
III.1 Kiểm định trung bình và tỷ lệ đám đông
Trong trường hợp kiểm
định tỷ lệ đám đông,
chúng ta sẽ xác định Z
tt
hoặc t
tt
như sau
S
p
ps
tt
PP
Z



S
P
ps
tt
PP
t




III.1 Kiểm định trung bình và tỷ lệ đám đông
Bước 4: xác định giá trị
Z
tt
hoặc t
tt
có nằm trong vùng
chấp nhận hay không
Chấp nhận H
0
nếu
Từ chối H
0
, chấp nhận H
1,
nếu
Tương tự trong trường hợp kiểm định
t, ta chấp nhận H
o
nếu
Từ chối H
o
và chấp nhận H
1
nếu
],[
22/

ZZZ
tt


],[
22/

ZZZ
tt

],[
)1(,2)1(,2/ 

nntt
ttt

],[
)1(,2)1(,2/ 

nntt
ttt


×