Nội dung : Chương 3
PHƯƠNG PHÁP PHÂN TÍCH DỮ
LIỆU
Xuất phát từ cách nhìn của
một nhà nghiên cứu muốn xác đònh
các phương pháp phân tích đưa vào
ứng dụng cho dữ liệu, chứ không
phải từ cách nhìn của một kỹ thuật
viên thống kê (có thể thấu hiểu đầy
đủ hơn bản chất các phương pháp
thống kê),
3.1 Bản chất và chức năng của phân tích thống kê
Phân tích thống kê có thể được hiểu là các phương
pháp chắt lọc dữ liệu để rút ra các suy luận
logic.
Các giai đoạn chủ yếu của phân tích thống kê gồm
có:
Sắp xếp dữ liệu thô vào các thứ bậc đã được đo
lường.
Tóm tắt dữ liệu.
Áp dụng các phương pháp phân tích để làm rõ các
mối quan hệ tương hỗ và các ý nghóa đònh lượng
giữa các dữ liệu.
3.2 Quá trình phân tích dữ liệu
Xếp dữ liệu theo thứ tự
(lập dãy, lập bảng, xếp loại, tính %)Tóm tắt
dữ liệu thống kêChọn phương pháp phân
tích thích hợp (chọn các tiêu chuẩn)Phân
tích các sai biệtNghiên cứu các mối liên
hệPhân tích dữ liệu thực nghiệm
a/ Xếp dữ liệu theo thứ tự
Dữ liệu thô được thu thập từ thực đòa và mã hóa
vẫn chưa đủ điều kiện để cho phép phân
tích, diễn giải. Chúng cần được trải qua giai
đoạn sắp xếp theo thứ tự và bước thống kê
(lập bảng). Phân làm 3 loại như sau:
b/ Lập dãy (array)
Đây là hình thức đơn giản nhất để sắp xếp
dữ liệu. Cách này sẽ xếp dữ liệu thành
chuỗi số theo hướng tăng dần, hoặc
giảm dần. Phương pháp này chỉ thích
hợp với những dãy dữ liệu nhỏ, nó cho
thấy sự phân bố của dãy số, giá trò max
và min của dãy số, sự tập trung của
dãy số đó
c/ Lập bảng đơn giản (một chiều hoặc một
biến)
Ta đếm tần suất xuất hiện của dữ liệu
trong chuỗi dữ liệu và lập thành bảng
phân phối tần suất (frequency
distribution) như sau
Bảng phân bố tuổi của các thí sinh
Tuổi Tần số tuyệt
đối
Tần số tương đối (%) Tần số tích lũy (%)
17
1 6.3 6.3
18
3 18.8 25.0
19
2 12.5 37.5
20
5 31.5 68.8
21
2 12.5 81.3
22
3 18.8 100.0
Tổng
cộng
16 100.0
Dạng bảng này thể hiện khá rõ ràng về phân bố dãy
dữ liệu theo các mức dữ liệu khác nhau
Tần số quan sát tuyệt đối ứng với từng mức dữ liệu khác
nhau.
Tần số quan sát tương đối tính theo tỷ lệ % của từng mức
dữ liệu so với toàn bộ mẫu quan sát.
Tần số tích lũy chỉ rõ tỷ lệ % của tất cả quan sát có giá trò
nhỏ hơn hay bằng giá trò mức dữ liệu đang xem xét.
Các giá trò dữ liệu bất thường (quá lớn hay quá nhỏ) để
kiểm chứng lại vì những giá trò dữ liệu sau có thể
làm lệch kết quả phân tích thống kê, hoặc những giá
trò đúng nhưng bất thường đôi khi cần một cách xử
lý đặc biệt khác.
Các giá trò mã hóa bất thường sẽ chỉ ra sai sót do việc
nhập liệu hay mã hóa.
d/ Lập bảng so sánh toàn diện (Cross-tabulation)
Nhiều vấn đề nghiên cứu có thể được giải quyết bằng
việc lập những bảng đơn giản. Tuy nhiên, bảng đơn
giản chỉ cho biết sự phân bố của một biến số tại một
thời điểm nào đó, và có thể không đem lại đầy đủ
thông tin cho dữ liệu. Hầu hết các dữ liệu đều có thể
được tổ chức ở hình thức cao hơn để cho ra những
thông tin phụ thêm. Bảng so sách toàn diện chính là
hình thức mở rộng của bảng một chiều để nhà nghiên
cứu có thể nghiên cứu mối liên hệ giữa hai hay nhiều
biến bằng cách đồng thời đếm tần số xuất hiện ở
từng bảng một chiều.
Ví dụ: Liên hệ giữa mức lợi tức và
trình độ giáo dục
Giáo dục
trên mỗi
đầu người
Mức lợi tức (dollar)
Dưới
5000
5000-
7999
800
0-
999
9
1000
0
-
1249
9
1250
0
-
1499
9
1500
0
-
1999
9
20000
-
24999
Trên
25000
Tổ
ng
số
Giáo dục
phổ thông
trở xuống
232 136 61 48 40 46 16 13
592
Có từ 1-3
năm trung
học
145 99 46 80 51 61 26 33
541
Tốt nghiệp
trung học
196 217 137 187 217 220 164 139
147
7
Có từ 1-3
năm cao
đẳng
116 81 91 139 148 220 122 132
104
9
Tốt nghiệp
cao đẳng
29 56 34 43 74 137 177 178
668
Tốt nghiệp
nghiên cứu
sinh
7 31 11 36 40 76 85 165
453
Tổng số 725 620 380 535 570 760 530 660 478
0
Các cột tổng số ở bên phải và dưới cùng được gọi là tổng số lề
(marginal), nó thể hiện các bảng một chiều riêng biệt của các biến
mức lợi tức, trình độ giáo dục.
Về mặt toán học, các biến trong bảng so sánh toàn diện có thể hoán
đổi vò trí cho nhau: hàng
→
cột, cột
→
hàng.
Trong bảng so sánh toàn diện, ta có thể trình bày dưới dạng tỷ lệ %
theo hướng nào (hàng hay cột) cũng được. Tuy nhiên, các bảng mới
phát sinh sẽ chứa những thông tin hoàn toàn khác nhau. Một bảng
cho thấy biến hàng tác động đến sự thay đổi của biến cột, trong khi
ở bảng kia thì ngược lại.
Thông thường, hướng tính tỷ lệ % được xác đònh theo chiều của tác
nhân, tức là tính ngang qua biến phụ thuộc. Tuy nhiên, đôi khi
hướng của tác nhân không dễ xác đònh, nhà phân tích có thể xem
xét tính toán tỷ lệ % theo từng hướng vì điều này có thể cung cấp
những thông tin bổ ích kết hợp với bản chất vấn đề, giúp chúng ta
tìm được biến phụ thuộc và cách tính tỷ lệ % thích hợp.
Ta có thể thêm các biến vào một bảng so sánh toàn diện và có thể
biến mới sẽ làm xuất hiện mối quan hệ mà trước đó chưa thể thấy
ngay, hay có thể bổ sung cho kết luận rút ra được từ bảng 2 biến.
Việc đưa thêm biến số vào phụ thuộc số biến và số bậc có liên
quan giữa các biến. Về lý thuyết, bảng nhiều chiều có thể được
triển khai không giới hạn, nhưng trên thực tế đến một mức độ nào
đó bảng sẽ không thể đọc và diễn dòch được nữa. Vì vậy, hầu hết
các bảng này đều chứa không quá 3 hay 4 biến.
4- Đo lường khuynh hướng hội tụ
của dữ liệu
Ba cách đơn giản nhất để đo lường khuynh
hướng hội tụ của dãy dữ liệu là tính các giá
trò mode, giá trò trung vò (median) và giá trò
trung bình (mean).
Giá trò mode
Giá trò mode là giá trò dữ liệu có tần số quan sát lớn
nhất, hoặc thuộc lớp có tần suất xuất hiện lớn
nhất.
Giá trò trung vò
Giá trò trung vò của một dãy phân phối là giá trò mà
50% giá trò quan sát được của dãy nhỏ hơn nó
và 50% giá trò còn lại của dãy lớn hơn nó.
Trước khi tính giá trò trung vò, ta phải sắp xếp dữ
liệu theo thứ tự.
Giá trò trung bình
Giá trò trung bình được hiểu là trung bình số
học, được tính bằng tổng các giá trò của các
quan sát chia cho số lần quan sát.
5- Đo lường độ phân tán của dữ
liệu
Hai dãy phân phối có thể có cùng giá trò về
đo lường khuynh hướng hội tụ, nhưng rất
khác nhau về tính chất phân bố của các
quan sát, gọi là độ phân tán của dữ liệu.
Các giá trò đo lường độ phân tán này rất
cần thiết, chúng bổ sung cho các giá trò đo
lường độ hội tụ để làm rõ đặc trưng của
dãy dữ liệu đang được nghiên cứu.
Khoảng biến thiên (range)
Khoảng biến thiên là sai biệt giữa giá trò lớn
nhất và nhỏ nhất trong dãy phân phối.
Giá trò này chỉ nêu bật các cực trò của dữ
liệu mà không so sánh với giá trò trung
bình nên có thể làm lệch hình ảnh dãy
phân phối.
Hệ số biến thiên (Coefficient of Variation)
Nếu cần so sánh độ phân tán của hai hay
nhiều dãy phân phối có giá trò trung bình
khác nhau hay có các đơn
6- Lựa chọn phương pháp phân tích dữ liệu
thích hợp
Khi cân nhắc lựa chọn phương pháp phân tích
dữ liệu thích hợp, chúng ta phải dựa trên
những cơ sở sau đây:
6.1 Kỹ thuật phân tích muốn chứng minh
điều gì ?
Nhà nghiên cứu thường phải trả lời các câu
hỏi: “Những kết quả có ý nghóa gì về mặt
thống kê ?”, hoặc “Liệu các kết quả có
xuất hiện một cách ngẫu nhiên do việc
chỉ sử dụng một mẫu duy nhất không ?”.
Dữ liệu tham số và dữ liệu phi tham số
Dữ liệu gọi là thuộc loại tham số (parametric) khi
chúng được phân phối xung quanh giá trò
trung bình hoặc giá trò trung tâm của chúng
một cách đối xứng tương tự đường cong xác
suất chuẩn tắc. Khi đó, chúng ta có thể dùng
những kiểm đònh xác suất để xác đònh ý
nghóa thống kê đối với bất kỳ mẫu nghiên
cứu nào lấy ra từ tổng thể.
Dữ liệu phi tham số (non parametric) không được
phân phối theo đường cong xác suất chuẩn
tắc nên ý nghóa thống kê học của chúng phải
được xem xét bằng những kiểm đònh khác với
loại kiểm đònh căn cứ trên xác suất.
Phương pháp đơn biến : chỉ phân tích 1 biến số
duy nhất.
Phương pháp hai biến : phân tích sự liên hệ giữa
2 biến số.
Phương pháp đa biến : phân tích sự liên hệ giữa
3 hay nhiều biến số với nhau.
Tính phụ thuộc và phụ thuộc lẫn nhau
Phương pháp phân tích sự liên hệ giữa các biến số
được chia làm 2 nhóm:
Một biến số phụ thuộc được kiểm đònh về tính phụ
thuộc của nó với những biến số độc lập khác.
Tất cả các biến số được nghiên cứu về mối liên hệ
lẫn nhau, tính phụ thuộc lẫn nhau giữa chúng.
Số lượng mẫu nghiên cứu cần đến
Các kiểm đònh thống kê được dùng tùy theo mục đích:
Kiểm tra những sai biệt đáng kể giữa một mẫu đơn
thuần với tổng thể đặc biệt nào đó.
Kiểm tra những sai biệt đáng kể giữa hai mẫu độc lập
hay có liên quan với nhau.
Kiểm đònh ý nghóa của những sai biệt giữa ba hay
nhiều mẫu độc lập hay có liên quan với nhau.
Sự đo lường mối tương quan và những kết quả kiểm
đònh về ý nghóa của chúng.
7- Kiểm đònh thống kê để đánh giá
các giả thuyết
Nguyên tắc kiểm đònh giả thuyết
Trong mục III, ta đã dùng kết quả của mẫu để ước
lượng một số trò số thực còn chưa biết của tổng
thể và dựa vào đó làm cơ sở mô tả tổng thể.
Ngoài ra, để nhận biết các tham số của thò
trường (tổng thể) một cách đầy đủ và chi tiết
hơn, ta có thể đưa ra một số giả thuyết về các
thông số đó và sử dụng các thông tin thu thập
trên mẫu để chứng minh. Công cụ chủ yếu cho
quá trình đó là các kiểm đònh thống kê.
Các bước tổng quát cần thực hiện khi
kiểm đònh giả thuyết
Phát biểu giả thuyết “không” và giả
thuyết thay thế
Chọn mức ý nghóa mong
muốn
Chọn kiểm đònh
thống kê thích
hợp
Rút ra kết
luận thống kê
về giả thuyết
“không”
Tính trò số
thống kê của
kiểm đònh
thích hợp cho
phân phối lấy
mẫu
Xác đònh vùng
bác bỏ hay các
vùng tới hạn
4
4
1
1
2
2
3
3
6
6
5
5
Bước 1:
Giả thuyết về một giá trò tổng thể nào đó cần phải
được kiểm đònh gọi là giả thuyết “không” (null
hypothesis), ký hiệu là. Một kết luận khác mà
việc chấp nhận nó phụ thuộc vào việc bác bỏ
giả thuyết “không” thì được gọi là giả thuyết
thay thế (alternative hypothesis), ký hiệu là .
Việc thiết lập tùy thuộc vào bản chất và tính
đònh hướng sai biệt của tình huống. Nếu tình
huống không có đònh hướng sai biệt, giả thuyết
sẽ được kiểm đònh 2 đuôi (two-tailed test). Nếu
tình huống có đònh hướng sai biệt, sẽ được kiểm
đònh 1 đuôi (one-tailed test). Tính đònh hướng của
giả thiết sẽ ảnh hưởng đến kiểm đònh thống kê
được thực hiện và việc ra quyết đònh.
Bước 2:
Vì ảnh hưởng của sai số lấy mẫu nên thật khó
đánh giá việc quyết đònh chấp nhận hay bác
bỏ một giả thuyết là đúng. Khi một giả thuyết
“không” bò bác bỏ mà lẽ ra nó phải được chấp
nhận thì sẽ dẫn đến sai lầm loại I. Khả năng
phạm sai lầm như vậy được gọi là mức ý nghóa
và ký hiệu là α. Thường dùng α = 0.1, α = 0.05
và α = 0.01. Mức α càng nhỏ thì rủi ro bác bỏ
lý thuyết “không” khi nó đúng sẽ giảm xuống.
Nhưng ngược lại, rủi ro chấp nhận giả thuyết
“không” khi nó sai lại tăng lên, dẫn đến sai
lầm loại II, và ký hiệu là β. Trong thực tế khó
đạt được sự cân bằng giữa 2 loại sai số này.
Bước 3:
Việc chọn kiểm đònh thống kê thích hợp phụ
thuộc vào :
Bản chất vấn đề: phân tích sai biệt, hoặc
nghiên cứu các mối liên hệ.
Cấp độ đo lường.
Số mẫu : 1, 2 hay nhiều hơn.
Các mẫu độc lập hay có liên hệ với nhau.
Và nhà nghiên cứu phải biết phân phối xác
suất mà số thống kê của kiểm đònh được
tính toán sẽ có liên quan đến.