Tải bản đầy đủ (.pdf) (30 trang)

BÀI GIẢNG THU THẬP, XỬ LÝ VÀ PHÂN TÍCH SỐ LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.18 MB, 30 trang )

01/01/2023

THU THẬP, XỬ LÝ VÀ
PHÂN TÍCH SỐ LIỆU
Ths.Bs. Huỳnh Nguyễn Phương Quang

NHẮC LẠI VỀ BIẾN SỐ
Tính chất

Định lượng

Liên tục
Rời rạc
Nhị giá

Định tính

Danh định
Thứ tự

NHẮC LẠI VỀ BIẾN SỐ

Giả thuyết:
Biến số phụ thuộc
Biến số độc lập

Biến số nhiễu

1



01/01/2023

NHẮC LẠI VỀ BIẾN SỐ
Biến phụ thuộc (biến kết cục): Là mục
tiêu quan tâm chính của nhà nghiên cứu. Là
mục tiêu của bài luận cần phải hiểu rõ, dự
đoán, hoặc giải thích sự biến thiên của nó.
Biến độc lập (ngun nhân): Ảnh hưởng
đến biến phụ thuộc, có thể có tác động
dương hoặc tác động âm. Sự thay đổi của
biến phụ thuộc được giải thích bởi sự thay
đổi của biến độc lập.

NHẮC LẠI VỀ BIẾN SỐ

- - - / / - - -

THU
THẬP
&
XỬ LÝ
SỐ
LIỆU

2


01/01/2023

Công tác chuẩn bị thu thập số liệu


Công tác chuẩn bị thu thập số liệu

3


01/01/2023

Vấn đề trong quá trình thu thập số liệu

Khắc phục các vấn đề trong q trình thu
thập số liệu

Vai trị của giám sát viên tại thực địa

4


01/01/2023

Vai trò của người thu thập số liệu

LÀM SẠCH VÀ MÃ HÓA SỐ LIỆU
- Việc làm sạch số liệu bao gồm việc xem xét và loại bỏ các
phiếu mà thông tin thu thập bị nghi ngờ là thiếu tính chính
xác hoặc thiếu logic.
- Các phiếu này có thể được phát hiện trong khi mã hóa số
liệu hoặc sau khi vào số liệu. Với các phiếu mà giá trị của
một vài biến nào đó quá nhỏ hoặc quá lớn so với các phiếu
khác thì phiếu đó cũng có thể bị loại bỏ.

- Nếu triển khai tốt quá trình giám sát trong khi thu thập số
liệu thì sẽ hạn chế đáng kể việc loại bỏ phiếu trong giai đoạn
làm sạch số liệu.
- Rõ ràng là nếu loại bỏ một số phiếu điều tra thì cỡ mẫu của
nghiên cứu sẽ nhỏ đi và mẫu có thể bị giảm tính ngẫu nhiên
và tính đại diện cho quần thể nghiên cứu  Hạn chế tối đa

MÃ HÓA SỐ LIỆU

5


01/01/2023

MÃ HĨA
Các bước mã hóa
Đặt tên biến cho các câu hỏi
- Câu hỏi 1 lựa chọn
- Câu hỏi nhiều lựa chọn
• Chuyển tập các chọn lựa trả lời của mỗi
câu hỏi thành tập các số/nhãn phù hợp,
có ý nghĩa
- Câu hỏi đóng/mở
- Câu hỏi có lựa chọn khác
- Trường hợp “Khơng biết”


LÀM SẠCH VÀ MÃ HĨA SỐ LIỆU

LÀM SẠCH VÀ MÃ HÓA SỐ LIỆU


6


01/01/2023

Kiểm tra chất lượng số liệu
Bộ số liệu cần được kiểm tra tính đầy đủ và
thống nhất của số liệu.
 Một số biến khơng có thơng tin
 Sự khơng thống nhất về số liệu trong bộ câu
hỏi.
• Do người phỏng vấn
• Do người trả lời

Nếu khơng thể nào hiệu chỉnh, cần phải cân
nhắc đến việc loại bỏ một phần số liệu.
21

7


01/01/2023

Quyết định loại bỏ một phần số liệu:
 Ảnh hưởng đến chất lượng của nghiên
cứu.
 Chứng tỏ tính trung thực về mặt khoa học
của người nghiên cứu.
 Nên đưa vào bàn luận về điều này

trong báo cáo cuối cùng
22

Phân loại số liệu
Đối với các biến phân loại: định nghĩa ngay
từ khi thiết kế bộ câu hỏi.
Câu hỏi có dạng trả lời khác như “loại khác,
xin chỉ rõ.” phân loại sau khi đã điều tra, cần
được liệt kê vào một bảng các dạng trả lời
khác nhau hoặc “khác”, (<= 5% )
Đối với các biến dạng số: Khơng cần phân
loại trước

23

Mã hố số liệu
Mang lại hiệu quả trong việc xử lý,
nhập và phân tích.
 Có (hoặc dương tính)

mã là 1

 Khơng (âm tính)

mã là 2

 Khơng biết

mã là 8 hoặc (88)


 Khơng trả lời

mã là 9 (hoặc 99)

5/12/2011

24

8


01/01/2023

KIỂM TRA CHẤT LƯỢNG
 Thường tiến hành ngay trong quá trình thu thập
 Trong giai đoạn xử lý là kiểm tra lại
 kiểm tra tính thống nhất, đầy đủ của thông tin
=> Làm sạch Số liệu
 CÁC VIỆC CẦN LÀM:
- Nếu BCH thu được có tỷ lệ “missing” cao → bỏ
- Sự không thống nhất số liệu trao đổi lại  chỉnh sửa
 VD:
ĐT Không hút thuốc lá  các câu LQ HTL của cá
nhân sẽ được bỏ qua, sẽ không thống nhất nếu người PV
tiếp tục ghi nhận các câu trả lời LQ HTL của cá nhân

CÁC VIỆC CẦN LÀM:
- Nếu sự không thống nhất:
không do người PV mà do ghi chép
(Bộ câu hỏi tự điền)  hỏi lại người trả lời


- Nếu không thể hiệu chỉnh các sai sót
 cân nhắc loại bỏ 1 phần số liệu
 khơng gộp dữ liệu để phân tích
- Đối với các câu TL mơ hồ  loại bỏ

LÀM SẠCH VÀ MÃ HÓA SỐ LIỆU
- Việc làm sạch số liệu bao gồm việc xem xét và loại bỏ các
phiếu mà thông tin thu thập bị nghi ngờ là thiếu tính chính
xác hoặc thiếu logic.
- Các phiếu này có thể được phát hiện trong khi mã hóa số
liệu hoặc sau khi vào số liệu. Với các phiếu mà giá trị của
một vài biến nào đó quá nhỏ hoặc quá lớn so với các phiếu
khác thì phiếu đó cũng có thể bị loại bỏ.
- Nếu triển khai tốt quá trình giám sát trong khi thu thập số
liệu thì sẽ hạn chế đáng kể việc loại bỏ phiếu trong giai đoạn
làm sạch số liệu.
- Rõ ràng là nếu loại bỏ một số phiếu điều tra thì cỡ mẫu của
nghiên cứu sẽ nhỏ đi và mẫu có thể bị giảm tính ngẫu nhiên
và tính đại diện cho quần thể nghiên cứu  Hạn chế tối đa

9


01/01/2023

PHÂN TÍCH SỐ LIỆU

 Số liệu điều tra thực sự trở nên có ích
khi được tập hợp lại và phân tích hồn

chỉnh.
 Việc xử lý và phân tích số liệu nhất
thiết phải được tiến hành chuẩn bị một

cách cẩn thận

Khi phân tích số liệu:
 Loại thiết kết nghiên cứu
 Các phương pháp thu thập số liệu.

Số liệu định lượng: mô tả các số liệu của
từng biến trong toàn bộ các đơn vị nghiên cứu
Số liệu định tính: thường là các mô tả, tổng
hợp, và phiên giải các số liệu thu thập

30

10


01/01/2023

 Phân tích số liệu bằng máy tính: Chọn
chương trình máytính: EXCEL, R, SPSS,
STATA, EPI_INFO…

 Nhập số liệu: Lập một khn dạng (form)
cho việc nhập số liệu trên máy tính.
 Kiểm tra chất lượng số liệu sau khi nhập


 Phân tích và đưa ra các kết quả
31

Định nghĩa phân tích số liệu
Là sự tính tốn những chỉ số được qui
định trong những mục tiêu.

Kết quả phân tích dữ kiện trả lời mục
tiêu nghiên cứu.

32

Có 2 loại phân tích số liệu
 Thống kê mơ tả: Mơ tả bản chất và đặc

tính của hiện tượng nghiên cứu.
 Thống kê suy luận: Tính toán và so
sánh các chỉ số, kiểm định ý nghĩa, xác
định mức độ liên quan, tương quan, xây
dựng mơ hình hồi quy.
33

11


01/01/2023

Nguyên tắc phân tích số liệu
Nguyên tắc
 Mục tiêu và thiết kế nghiên cứu

 Thang đo lường/loại dữ kiện
 Tham khảo ý kiến của chuyên gia thống kê.

Những phương pháp phân tích dữ kiện phải
được xác định trong giai đoạn thiết kế đề cương
34

Các bước phân tích số liệu
 Xem lại mục tiêu tổng quát để có khái niệm
chung về những kết quả cuối cùng của nghiên
cứu.
 Xem những mục tiêu cụ thể: chú ý biến số được
khảo sát và tuỳ theo bản chất của biến số.
 Khi cần khảo sát mối liên quan: cần xác định
biến số nào là độc lập, và biến số nào là phụ
thuộc, biến số gây nhiễu.
35

THỐNG KÊ MƠ TẢ
Tính chất biến số
Biến định tính
Phân phối chuẩn
Biến định
lượng
Không phân phối
chuẩn

Chỉ tố
Tần số và tỷ lệ
Trung bình

độ lệch chuẩn
Trung Vị
khoảng tứ vị

Trung bình: cho dãy số: 1 2 3 4 5 số trung bình là 3
Trung vị: cho dãy số: 2 3 4 4 1 1 4 6 9
 1 1 2 3 4 4 4 6 9: trung vị là 4

12


01/01/2023

THỐNG KÊ PHÂN TÍCH
Phân tích sự khác biệt: thơng qua các
kiểm định để dựa vào các kiểm định
này xem xác suất của giả thuyết nào
là xảy ra
Phân tích mối liên quan: Xem yếu tố
nguyên nhân ảnh hưởng đến yếu tố
kết cục mới lượng giá là bao nhiêu

Phân tích biến định lượng
Thống kê mơ tả: Các chỉ số cần tính là số đo
lường khuynh hướng tập trung và phân tán.
 Trung bình, trung vị
 Độ lệch chuẩn, khoảng

Thống kê suy luận:






Test thống kê cho kiểm định trung bình
Test phương sai
Tương quan,
Hồi quy tuyến tính
38

Phân tích biến định tính
Mơ tả:
 Phân bố tấn số
 Tỷ lệ

Để so sánh,
 Test Chi bình phương,
 McNemar ...

Nếu biến số là nhị phân: số đo kết hợp.
 RR
 OR
39

13


01/01/2023

CHỌN TEST THỐNG KÊ/KIỂM ĐỊNH


TRONG PHÂN TÍCH SỐ LIỆU

Cơ sở của các test thống kê
Nghiên cứu phải dùng phép so sánh sự khác biệt
của các nhóm (giả thuyết: H0 ,H1)
Test thống kê xem xét là sự khác biệt có phải do:
 Yếu tố nghiên cứu
 Yếu tố may rủi
 Sai số

Cơ sở: Nếu lập lại 100 lần nc (cùng điều kiện) sẽ
cho khác biệt độ lớn như vậy bao nhiêu lần?
Nếu tính tốn: khác biệt chỉ 1 lần; 5 lần – Không
là yếu tố may rủi
41

Giả thuyết H0
Giả thuyết H0: Khơng có sự khác biệt
Giả thuyết H1: Có sự khác biệt (2 chiều); lớn
hơn hoặc nhỏ hơn (một chiều)

Ví dụ: Nghiên cứu Đoàn hệ về hút thuốc lá
và ung thư phổi:
 H0: Tỷ lệ ung thư phổi của nhóm có hút
thuốc và không hút thuốc là như nhau
 H1: Tỷ lệ ung thư phổi của nhóm khơng hút
thuốc lá thấp hơn nhóm có hút thuốc lá
5/12/2011


42

14


01/01/2023

Ngưỡng ý nghĩa
Khi bác bỏ giả thuyết H0 đều mắc sai
lầm nhất định

Đề xuất một “xác xuất sai lầm” chấp
nhận được: mức ý nghĩa
Tuỳ theo tính chất của nghiên cứu,
mức ý nghĩa: 5%, 1%...

43

Phân phối chuẩn

Phân phối chuẩn

15


01/01/2023

Phân phối chuẩn

Ý nghĩa của phân phối chuẩn


Phân phối chuẩn

16


01/01/2023

Chuyển dạng Phân phối không chuẩn

Nguyên tắc chọn test thống kê
Mục tiêu của nghiên cứu: Đo lường sự khác
biệt hay đo lường tương quan giữa các biến
Số nhóm nghiên cứu: 1 nhóm, 2 nhóm, hoặc
trên hai nhóm
Bản chất số liệu, loại biến số: Biến định tính,
biến định lượng
Phân bố mẫu: Chuẩn hay không chuẩn
Loại quan sát: Mẫu độc lập hay ghép cặp
51

17


01/01/2023

Ngun tắc chọn test thống kê
• Biến định tính:
Sự khác biệt so với 1 tỷ lệ giả thuyết
Sự khác biệt 2 tỷ lệ

Nhiều hơn hai tỷ lệ
Sự khác biệt tỷ lệ lặp lại

• Biến định lượng:
Sự khác biệt 1 trung bình
Sự khác biệt 2 trung bình
Sự khác biệt nhiều hơn 2 trung bình
Sự khác biệt trung bình lặp lại

Test phi tham số

18


01/01/2023

19


01/01/2023

20


01/01/2023

21


01/01/2023


Ví dụ phân tích số liệu định tính
Bệnh
Phơi nhiễm

Tổng



Khơng



a

b

e

Khơng

c

d

f

Tổng

g


h

n

66

22


01/01/2023

df: (hang - 1) x (cột -1)
O: Giá trị qua sát

(O  E) 2
 
E
2

E: Giá trị kỳ vọng
E = (tổng hàng x tổng
cột)/tổng chung
Điều kiện: <20% số ơ có kỳ
vọng < 5

Bảng 2 x 2

 2  n(ad  bc)


2

efgh

67

Ví dụ
Hút thuốc lá



Nhồi máu CT n(%)


Khơng

30 (33.3)

60 (66.7)

Tổng

90

Khơng

20 (18.2)

90 (81.8)


110

Tổng

50

150

200

OR=(30x90)/(60x20)=2,25;

p = 0,0138

69

23


01/01/2023

Biến nhị phân
Ngun
nhân

Khơng
Tổng

Hậu quả


Khơng

Tổng

a

b

a+b

c
a+c

d
b+d

c+d
a+b+c+d

Trong nghiên cứu bệnh-chứng

OR = ad / bc
70

Biến nhị phân
Ngun
nhân


Khơng

Tổng

Hậu quả

Khơng

Tổng

a

b

a+b

c
a+c

d
b+d

c+d
a+b+c+d

Trong nghiên thuần tập

RR = [a / (a + b)] : [c / (c + d)]
71

NC bệnh chứng về hút thuốc lá – K phổi
HTL


K phổi

Khơng



40

80

120

Khơng
Tổng

20
60

100
180

120
240

Tổng

chỉ số đo lường

OR = 2,5

72

24


01/01/2023

NC đoàn hệ về uống thuốc ngừa thai và
nhiễm trùng tiểu


NTT
Khơng

Tổng

UTNT


200

1800

2000

Khơng
Tổng

300
500


5700
750000

6000
8000

Chỉ số đo lường

RR = 0,1/0,05 =2
73

HỆ SỐ TƯƠNG QUAN

25


×