01/01/2023
THU THẬP, XỬ LÝ VÀ
PHÂN TÍCH SỐ LIỆU
Ths.Bs. Huỳnh Nguyễn Phương Quang
NHẮC LẠI VỀ BIẾN SỐ
Tính chất
Định lượng
Liên tục
Rời rạc
Nhị giá
Định tính
Danh định
Thứ tự
NHẮC LẠI VỀ BIẾN SỐ
Giả thuyết:
Biến số phụ thuộc
Biến số độc lập
Biến số nhiễu
1
01/01/2023
NHẮC LẠI VỀ BIẾN SỐ
Biến phụ thuộc (biến kết cục): Là mục
tiêu quan tâm chính của nhà nghiên cứu. Là
mục tiêu của bài luận cần phải hiểu rõ, dự
đoán, hoặc giải thích sự biến thiên của nó.
Biến độc lập (ngun nhân): Ảnh hưởng
đến biến phụ thuộc, có thể có tác động
dương hoặc tác động âm. Sự thay đổi của
biến phụ thuộc được giải thích bởi sự thay
đổi của biến độc lập.
NHẮC LẠI VỀ BIẾN SỐ
- - - / / - - -
THU
THẬP
&
XỬ LÝ
SỐ
LIỆU
2
01/01/2023
Công tác chuẩn bị thu thập số liệu
Công tác chuẩn bị thu thập số liệu
3
01/01/2023
Vấn đề trong quá trình thu thập số liệu
Khắc phục các vấn đề trong q trình thu
thập số liệu
Vai trị của giám sát viên tại thực địa
4
01/01/2023
Vai trò của người thu thập số liệu
LÀM SẠCH VÀ MÃ HÓA SỐ LIỆU
- Việc làm sạch số liệu bao gồm việc xem xét và loại bỏ các
phiếu mà thông tin thu thập bị nghi ngờ là thiếu tính chính
xác hoặc thiếu logic.
- Các phiếu này có thể được phát hiện trong khi mã hóa số
liệu hoặc sau khi vào số liệu. Với các phiếu mà giá trị của
một vài biến nào đó quá nhỏ hoặc quá lớn so với các phiếu
khác thì phiếu đó cũng có thể bị loại bỏ.
- Nếu triển khai tốt quá trình giám sát trong khi thu thập số
liệu thì sẽ hạn chế đáng kể việc loại bỏ phiếu trong giai đoạn
làm sạch số liệu.
- Rõ ràng là nếu loại bỏ một số phiếu điều tra thì cỡ mẫu của
nghiên cứu sẽ nhỏ đi và mẫu có thể bị giảm tính ngẫu nhiên
và tính đại diện cho quần thể nghiên cứu Hạn chế tối đa
MÃ HÓA SỐ LIỆU
5
01/01/2023
MÃ HĨA
Các bước mã hóa
Đặt tên biến cho các câu hỏi
- Câu hỏi 1 lựa chọn
- Câu hỏi nhiều lựa chọn
• Chuyển tập các chọn lựa trả lời của mỗi
câu hỏi thành tập các số/nhãn phù hợp,
có ý nghĩa
- Câu hỏi đóng/mở
- Câu hỏi có lựa chọn khác
- Trường hợp “Khơng biết”
•
LÀM SẠCH VÀ MÃ HĨA SỐ LIỆU
LÀM SẠCH VÀ MÃ HÓA SỐ LIỆU
6
01/01/2023
Kiểm tra chất lượng số liệu
Bộ số liệu cần được kiểm tra tính đầy đủ và
thống nhất của số liệu.
Một số biến khơng có thơng tin
Sự khơng thống nhất về số liệu trong bộ câu
hỏi.
• Do người phỏng vấn
• Do người trả lời
Nếu khơng thể nào hiệu chỉnh, cần phải cân
nhắc đến việc loại bỏ một phần số liệu.
21
7
01/01/2023
Quyết định loại bỏ một phần số liệu:
Ảnh hưởng đến chất lượng của nghiên
cứu.
Chứng tỏ tính trung thực về mặt khoa học
của người nghiên cứu.
Nên đưa vào bàn luận về điều này
trong báo cáo cuối cùng
22
Phân loại số liệu
Đối với các biến phân loại: định nghĩa ngay
từ khi thiết kế bộ câu hỏi.
Câu hỏi có dạng trả lời khác như “loại khác,
xin chỉ rõ.” phân loại sau khi đã điều tra, cần
được liệt kê vào một bảng các dạng trả lời
khác nhau hoặc “khác”, (<= 5% )
Đối với các biến dạng số: Khơng cần phân
loại trước
23
Mã hố số liệu
Mang lại hiệu quả trong việc xử lý,
nhập và phân tích.
Có (hoặc dương tính)
mã là 1
Khơng (âm tính)
mã là 2
Khơng biết
mã là 8 hoặc (88)
Khơng trả lời
mã là 9 (hoặc 99)
5/12/2011
24
8
01/01/2023
KIỂM TRA CHẤT LƯỢNG
Thường tiến hành ngay trong quá trình thu thập
Trong giai đoạn xử lý là kiểm tra lại
kiểm tra tính thống nhất, đầy đủ của thông tin
=> Làm sạch Số liệu
CÁC VIỆC CẦN LÀM:
- Nếu BCH thu được có tỷ lệ “missing” cao → bỏ
- Sự không thống nhất số liệu trao đổi lại chỉnh sửa
VD:
ĐT Không hút thuốc lá các câu LQ HTL của cá
nhân sẽ được bỏ qua, sẽ không thống nhất nếu người PV
tiếp tục ghi nhận các câu trả lời LQ HTL của cá nhân
CÁC VIỆC CẦN LÀM:
- Nếu sự không thống nhất:
không do người PV mà do ghi chép
(Bộ câu hỏi tự điền) hỏi lại người trả lời
- Nếu không thể hiệu chỉnh các sai sót
cân nhắc loại bỏ 1 phần số liệu
khơng gộp dữ liệu để phân tích
- Đối với các câu TL mơ hồ loại bỏ
LÀM SẠCH VÀ MÃ HÓA SỐ LIỆU
- Việc làm sạch số liệu bao gồm việc xem xét và loại bỏ các
phiếu mà thông tin thu thập bị nghi ngờ là thiếu tính chính
xác hoặc thiếu logic.
- Các phiếu này có thể được phát hiện trong khi mã hóa số
liệu hoặc sau khi vào số liệu. Với các phiếu mà giá trị của
một vài biến nào đó quá nhỏ hoặc quá lớn so với các phiếu
khác thì phiếu đó cũng có thể bị loại bỏ.
- Nếu triển khai tốt quá trình giám sát trong khi thu thập số
liệu thì sẽ hạn chế đáng kể việc loại bỏ phiếu trong giai đoạn
làm sạch số liệu.
- Rõ ràng là nếu loại bỏ một số phiếu điều tra thì cỡ mẫu của
nghiên cứu sẽ nhỏ đi và mẫu có thể bị giảm tính ngẫu nhiên
và tính đại diện cho quần thể nghiên cứu Hạn chế tối đa
9
01/01/2023
PHÂN TÍCH SỐ LIỆU
Số liệu điều tra thực sự trở nên có ích
khi được tập hợp lại và phân tích hồn
chỉnh.
Việc xử lý và phân tích số liệu nhất
thiết phải được tiến hành chuẩn bị một
cách cẩn thận
Khi phân tích số liệu:
Loại thiết kết nghiên cứu
Các phương pháp thu thập số liệu.
Số liệu định lượng: mô tả các số liệu của
từng biến trong toàn bộ các đơn vị nghiên cứu
Số liệu định tính: thường là các mô tả, tổng
hợp, và phiên giải các số liệu thu thập
30
10
01/01/2023
Phân tích số liệu bằng máy tính: Chọn
chương trình máytính: EXCEL, R, SPSS,
STATA, EPI_INFO…
Nhập số liệu: Lập một khn dạng (form)
cho việc nhập số liệu trên máy tính.
Kiểm tra chất lượng số liệu sau khi nhập
Phân tích và đưa ra các kết quả
31
Định nghĩa phân tích số liệu
Là sự tính tốn những chỉ số được qui
định trong những mục tiêu.
Kết quả phân tích dữ kiện trả lời mục
tiêu nghiên cứu.
32
Có 2 loại phân tích số liệu
Thống kê mơ tả: Mơ tả bản chất và đặc
tính của hiện tượng nghiên cứu.
Thống kê suy luận: Tính toán và so
sánh các chỉ số, kiểm định ý nghĩa, xác
định mức độ liên quan, tương quan, xây
dựng mơ hình hồi quy.
33
11
01/01/2023
Nguyên tắc phân tích số liệu
Nguyên tắc
Mục tiêu và thiết kế nghiên cứu
Thang đo lường/loại dữ kiện
Tham khảo ý kiến của chuyên gia thống kê.
Những phương pháp phân tích dữ kiện phải
được xác định trong giai đoạn thiết kế đề cương
34
Các bước phân tích số liệu
Xem lại mục tiêu tổng quát để có khái niệm
chung về những kết quả cuối cùng của nghiên
cứu.
Xem những mục tiêu cụ thể: chú ý biến số được
khảo sát và tuỳ theo bản chất của biến số.
Khi cần khảo sát mối liên quan: cần xác định
biến số nào là độc lập, và biến số nào là phụ
thuộc, biến số gây nhiễu.
35
THỐNG KÊ MƠ TẢ
Tính chất biến số
Biến định tính
Phân phối chuẩn
Biến định
lượng
Không phân phối
chuẩn
Chỉ tố
Tần số và tỷ lệ
Trung bình
độ lệch chuẩn
Trung Vị
khoảng tứ vị
Trung bình: cho dãy số: 1 2 3 4 5 số trung bình là 3
Trung vị: cho dãy số: 2 3 4 4 1 1 4 6 9
1 1 2 3 4 4 4 6 9: trung vị là 4
12
01/01/2023
THỐNG KÊ PHÂN TÍCH
Phân tích sự khác biệt: thơng qua các
kiểm định để dựa vào các kiểm định
này xem xác suất của giả thuyết nào
là xảy ra
Phân tích mối liên quan: Xem yếu tố
nguyên nhân ảnh hưởng đến yếu tố
kết cục mới lượng giá là bao nhiêu
Phân tích biến định lượng
Thống kê mơ tả: Các chỉ số cần tính là số đo
lường khuynh hướng tập trung và phân tán.
Trung bình, trung vị
Độ lệch chuẩn, khoảng
Thống kê suy luận:
Test thống kê cho kiểm định trung bình
Test phương sai
Tương quan,
Hồi quy tuyến tính
38
Phân tích biến định tính
Mơ tả:
Phân bố tấn số
Tỷ lệ
Để so sánh,
Test Chi bình phương,
McNemar ...
Nếu biến số là nhị phân: số đo kết hợp.
RR
OR
39
13
01/01/2023
CHỌN TEST THỐNG KÊ/KIỂM ĐỊNH
TRONG PHÂN TÍCH SỐ LIỆU
Cơ sở của các test thống kê
Nghiên cứu phải dùng phép so sánh sự khác biệt
của các nhóm (giả thuyết: H0 ,H1)
Test thống kê xem xét là sự khác biệt có phải do:
Yếu tố nghiên cứu
Yếu tố may rủi
Sai số
Cơ sở: Nếu lập lại 100 lần nc (cùng điều kiện) sẽ
cho khác biệt độ lớn như vậy bao nhiêu lần?
Nếu tính tốn: khác biệt chỉ 1 lần; 5 lần – Không
là yếu tố may rủi
41
Giả thuyết H0
Giả thuyết H0: Khơng có sự khác biệt
Giả thuyết H1: Có sự khác biệt (2 chiều); lớn
hơn hoặc nhỏ hơn (một chiều)
Ví dụ: Nghiên cứu Đoàn hệ về hút thuốc lá
và ung thư phổi:
H0: Tỷ lệ ung thư phổi của nhóm có hút
thuốc và không hút thuốc là như nhau
H1: Tỷ lệ ung thư phổi của nhóm khơng hút
thuốc lá thấp hơn nhóm có hút thuốc lá
5/12/2011
42
14
01/01/2023
Ngưỡng ý nghĩa
Khi bác bỏ giả thuyết H0 đều mắc sai
lầm nhất định
Đề xuất một “xác xuất sai lầm” chấp
nhận được: mức ý nghĩa
Tuỳ theo tính chất của nghiên cứu,
mức ý nghĩa: 5%, 1%...
43
Phân phối chuẩn
Phân phối chuẩn
15
01/01/2023
Phân phối chuẩn
Ý nghĩa của phân phối chuẩn
Phân phối chuẩn
16
01/01/2023
Chuyển dạng Phân phối không chuẩn
Nguyên tắc chọn test thống kê
Mục tiêu của nghiên cứu: Đo lường sự khác
biệt hay đo lường tương quan giữa các biến
Số nhóm nghiên cứu: 1 nhóm, 2 nhóm, hoặc
trên hai nhóm
Bản chất số liệu, loại biến số: Biến định tính,
biến định lượng
Phân bố mẫu: Chuẩn hay không chuẩn
Loại quan sát: Mẫu độc lập hay ghép cặp
51
17
01/01/2023
Ngun tắc chọn test thống kê
• Biến định tính:
Sự khác biệt so với 1 tỷ lệ giả thuyết
Sự khác biệt 2 tỷ lệ
Nhiều hơn hai tỷ lệ
Sự khác biệt tỷ lệ lặp lại
• Biến định lượng:
Sự khác biệt 1 trung bình
Sự khác biệt 2 trung bình
Sự khác biệt nhiều hơn 2 trung bình
Sự khác biệt trung bình lặp lại
Test phi tham số
18
01/01/2023
19
01/01/2023
20
01/01/2023
21
01/01/2023
Ví dụ phân tích số liệu định tính
Bệnh
Phơi nhiễm
Tổng
Có
Khơng
Có
a
b
e
Khơng
c
d
f
Tổng
g
h
n
66
22
01/01/2023
df: (hang - 1) x (cột -1)
O: Giá trị qua sát
(O E) 2
E
2
E: Giá trị kỳ vọng
E = (tổng hàng x tổng
cột)/tổng chung
Điều kiện: <20% số ơ có kỳ
vọng < 5
Bảng 2 x 2
2 n(ad bc)
2
efgh
67
Ví dụ
Hút thuốc lá
Có
Nhồi máu CT n(%)
Có
Khơng
30 (33.3)
60 (66.7)
Tổng
90
Khơng
20 (18.2)
90 (81.8)
110
Tổng
50
150
200
OR=(30x90)/(60x20)=2,25;
p = 0,0138
69
23
01/01/2023
Biến nhị phân
Ngun
nhân
Có
Khơng
Tổng
Hậu quả
Có
Khơng
Tổng
a
b
a+b
c
a+c
d
b+d
c+d
a+b+c+d
Trong nghiên cứu bệnh-chứng
OR = ad / bc
70
Biến nhị phân
Ngun
nhân
Có
Khơng
Tổng
Hậu quả
Có
Khơng
Tổng
a
b
a+b
c
a+c
d
b+d
c+d
a+b+c+d
Trong nghiên thuần tập
RR = [a / (a + b)] : [c / (c + d)]
71
NC bệnh chứng về hút thuốc lá – K phổi
HTL
K phổi
Có
Khơng
Có
40
80
120
Khơng
Tổng
20
60
100
180
120
240
Tổng
chỉ số đo lường
OR = 2,5
72
24
01/01/2023
NC đoàn hệ về uống thuốc ngừa thai và
nhiễm trùng tiểu
Có
NTT
Khơng
Tổng
UTNT
Có
200
1800
2000
Khơng
Tổng
300
500
5700
750000
6000
8000
Chỉ số đo lường
RR = 0,1/0,05 =2
73
HỆ SỐ TƯƠNG QUAN
25