BÀI 5 - TRÌNH BÀY BIỂU ĐỒ THỐNG KÊ
BIỂU ĐỒ
DẠNG
PHẢN ÁNH
Rẽ quạt
Pie
tỷ lệ %, giá trị tuyệt đối
Cột/thanh
Column
phân phối các giá trị dữ liệu
Column/Error Bars
độ chính xác hệ thống
Trung bình
sai số chuẩn
mối tương quan 2 biến số XY
Phân tán
XY (Scatter)
Hồi quy
Pareto
liên quan tuyến tính giữa X,Y
Column kết hợp
XY (Scatter)
các trường hợp cần ưu tiên quan tâm
BÀI 6 - TRẮC NGHIỆM GIẢ THUYẾT
BIẾN SỐ
THỂ HIỆN
THÀNH PHẦN
Biến rời rạc
Định lượng
kết quả của sự đếm
(vd: 1, 2, 3…)
mức độ, số lượng, độ
lớn…
Biến liên tục
giá trị thực và liên tục
(vd: Khối lượng, hàm lượng…)
tên gọi, phân loại
(vd: Tình trạng hơn nhân
Biến danh mục
(độc thân, có gia đình, li dị, gố),
nhóm máu (O, A, B, AB)
…
Định tính
xếp thứ tự theo quy ước
tính chất
Biến thứ hạng
(vd: Tình trạng kinh tế xã hội (giàu, khá
trung bình, nghèo, rất nghèo)
…
chỉ nhận 1 trong 2 giá trị
Biến nhị phân
(vd: Giới tính (nam/nữ)
…
Biến định lượng
Biến định tính
1. Biểu diễn bằng số thực
Khơng thể hiện bằng số thực
2. Có thể đo hoặc đếm
Chỉ có thể đếm
3. Có thể rời rạc hoặc liên tục
Ln rời rạc
4. Có thể tính được giá trị trung bình
Khơng thể tính giá trị trung bình
Nghiên cứu định lượng trả lời câu hỏi:
Nghiên cứu định tính trả lời câu hỏi:
Như thế nào? Cái gì? Tại sao?
Bao nhiêu?
Độ tin cậy (P), mức ý nghĩa (α) và hệ số tin cậy (z)
Độ tin cậy (%) Mức ý nghĩa (α)
90
0.1
95
0.05
99
0.01
Hệ số tin cậy (z)
1,650
1,960
2,576
BÀI 7 – PHÂN TÍCH PHÂN PHỐI CHUẨN
Cách đánh giá
Điều kiện
Yêu cầu
Xem biểu đồ với đường cong chuẩn
(Histograms with normal curve)
tần số cao nhất ở giữa, tần số thấp dần ở 2 bên
Mean và Median
gần bằng nhau;
Skewness gần bằng
0
Vẽ biểu đồ xác suất chuẩn
(normal Q-Q plot)
đường thẳng
có quan hệ tuyến tính
Dùng phép kiểm định Kolmogorov - Smirnov
n > 50
Dùng phép kiểm định Shapiro - Wilk
n < 50
p > 0,05
BÀI 8 – LẤY MẪU NGẪU NHIÊN, ƯỚC TÍNH CỠ MẪU
Ước tính cỡ mẫu
① Cỡ mẫu ước tính số trung bình:
Dân số khơng xác định:
n
② Cỡ mẫu ước tính tỷ số:
Dân số không xác định:
z 2 2
d2
n
Dân số xác định n:
n
Nz 2 2
d 2 ( N 1) z 2 2
z 2 p (1 p )
d2
Dân số xác định n:
n
Nz 2 p (1 p )
d 2 ( N 1) z 2 p (1 p )
Lấy mẫu ngẫu nhiên (Sampling)
Chọn mẫu ngẫu nhiên
Chọn mẫu phi ngẫu nhiên
(chọn mẫu xác suất)
(chọn mẫu phi xác suất)
Chọn mẫu ngẫu nhiên đơn giản
(simple radom sampling)
• Lập danh sách, đánh stt, rút
thăm,
dùng
bảng
ngẫu
nhiên/máy tính chọn từng đơn vị
vào mẫu
Chọn mẫu thuận tiện
(convenience sampling)
• Dựa trên sự thuận lợi, tính
dễ tiếp cận
• Áp dụng xác định ý nghĩa,
ước lượng sơ bộ...
• Vận dụng khi các đơn vị đồng
đều, không phân bố quá rộng
Chọn mẫu phán đốn
(judgement sampling)
Chọn mẫu nhiên hệ thống
(systematic sampling)
• Lập danh sách theo trật tự quy
ước, đánh stt, chọn mầm ngẫu
nhiên Y cách đều k đơn vị
Chọn mẫu cả khối
(cluster sampling)
• Lập danh sách theo từng khối,
chọn ngẫu nhiên 1 khối để điều
tra
• Áp dụng khi khơng có sẵn danh
sách đầy đủ
Chọn mẫu phân tầng
(stratified random sampling)
• Phân chia tổng thể thành các
nhóm, dùng cách chọn mẫu ngẫu
nhiên chọn ra các đơn vị
Chọn mẫu nhiều giai đoạn
(multi-stage sampling)
• Phân chia tổng thể thành các
đơn vị cấp I --> chọn n cấp I, từ
n cấp I phân chia thành các đơn
vị cấp II --> chọn n cấp II...
• Áp dụng tổng thể quá lớn, địa
bàn quá rộng
• Tự đưa ra phán đốn
• Phụ thuộc kinh nghiệm, hiểu
biết...
Chọn mẫu định ngạch
(quota sampling)
• Phân nhóm theo tiêu chuẩn
được quan tâm, chọn mẫu
thuận tiện hoặc phán đoán để
chọn các đơn vị
BÀI 9 – PHÂN TÍCH THỐNG KÊ MƠ TẢ
Giá trị thống kê mơ tả
Cỡ
Giá trị trung bình
Độ lệch chuẩn
Tỷ số
Dân số
N
μ
σ
Π
Mẫu
n
X
S
P
Giá trị
Ý nghĩa
Hàm tính Excel
Mean
Trung bình
=AVERAGE(…)
Standard Error
Sai số chuẩn
=STDEV.S(…)/SQRT(COUNT(…))
(SE)
Median
Số trung vị
=MEDIAN(…)
Mode
Số yếu vị
=MODE(…)
Standard Deviation
Độ lệch chuẩn
=STDEV.S(…)
Sample Variance
Phương sai
=VAR.S(…)
Kurtosis
Độ nhô
=KURT(…)
Skewness
Độ lệch
=SKEW(…)
Range
Khoảng
=MAX(…) – MIN(…)
Minimum
Giá trị nhỏ nhất
=MIN(…)
Maximum
Giá trị lớn nhất
=MAX(…)
Sum
Tổng số
=SUM(…)
Count
Cỡ mẫu
=COUNT(…)
Confidence Level
Giới hạn tin cậy
=CONFIDENCE.T(α,STDEV.S(…),COUNT(…))
Hệ số phân tán
(CV)
=100*STDEV.S(…)/AVERAGE(…)
(95.0%)
Coefficient of
Variation
Bài tập áp dụng
Khối lượng (g) của 10 gói Dobixil trong lơ A010307 như sau:
2,80; 3,02; 2,85; 3,07; 3,30; 2,99; 3,03; 2,90; 2,99; 3,20
Hãy tính các giá trị thống kê mơ tả (với độ tin cậy là 95%), và cho biết:
-
Trung bình của mẫu ± sai số
-
Trung bình dân số ± sai số
-
Hệ số phân tán
-
Khoảng tin cậy (CI)
Nhập dữ liệu, tạo bảng.
Vào Data → Data analysis → Descriptive Statistics → OK.
Chọn Input là dữ liệu số cột Khối lượng (g), check vào ô “Labels in first row” nếu có
chọn ơ “Khối lượng (g)” (nếu khơng thì bỏ check), check vào ơ “Summary statistics”,
kiểm tra độ tin cậy ở ơ “Confidence Level for Mean” có khớp với đề bài chưa → OK.
(Nếu không check vào ơ “Confidence Level for Mean” thì ta phải tự tính giới hạn tin cậy CL
bằng hàm CONFIDENCE.T(alpha,độ lệch chuẩn,cỡ mẫu) như hình).
Tính tốn khoảng tin cậy CI (= số TB ± giới hạn tin cậy), hệ số phân tán CV (=100*độ
lệch chuẩn/số trung bình).
BÀI 10 – PHÂN TÍCH ANOVA MỘT YẾU TỐ
-
ANOVA (Analysis of Variance): phân tích phương sai.
-
single factor: một yếu tố (yếu tố có thể là biến độc lập hoặc giải thích).
-
Mức: là những “giá trị” của yếu tố.
Anova: single factor – Phân tích phương sai một yếu tố, là phương pháp phân tích dữ liệu dùng
để so sánh giá trị trung bình hoặc phương sai của dữ liệu, cho phép phân tích k mức độ (k > 2)
trên các giá trị yij:
Ví dụ: Thang điểm đánh giá với 3 liều lượng (0 mg, 50 mg, 100 mg)
Nhập dữ liệu, tạo bảng.
Vào Data → Data analysis → Anova: Single Factor → OK.
(Nếu khơng nói gì thêm, mặc định α = 0.05)
Biện luận kết quả:
Đặt giả thyết H0: các nhóm 0 mg, 50 mg, 100 mg không khác nhau.
F > Fα (F crit)
→ bác bỏ H0, chọn HA thay thế (và ngược lại).
p < α (p-value < α)
→ bác bỏ H0, chọn HA thay thế (và ngược lại).
BÀI 12 – PHÂN TÍCH TƯƠNG QUAN
-
Correlation – Phân tích tương quan.
-
Hệ số tương quan rxy (coefficient of correlation – cc): chỉ số thống kê đo lường mối liên
hệ giữa 2 dữ liệu khảo sát x, y.
-
rxy = ryx
-
rxy ∈ [−1; 1], rxy < 0: tương quan nghịch, rxy > 0: tương quan thuận
→ r = −1: x, y tương quan nghịch (x tăng y giảm và ngược lại)
→ r = 1: x, y tương quan thuận (x và y cùng tăng hoặc cùng giảm)
→ r = 0: x, y không tương quan (x, y độc lập với nhau)
-
Phương pháp phân tích tương quan:
Pearson: theo phân phối chuẩn
Spearman: không theo phân phối chuẩn
-
Ý nghĩa thống kê của hệ số tương quan r:
Theo Guilford:
|r|
Mô tả
< 0,20
Không đáng kể
0,20 – 0,40
Liên quan thấp
0,40 – 0,70
Liên quan khá
0,70 – 0,90
Liên quan cao
> 0,90
Liên quan rất cao
Theo Roundtree:
|r|
Mô tả
< 0,20
Rất lỏng lẻo
0,20 – 0,40
Lỏng lẻo
0,40 – 0,70
Trung bình
0,70 – 0,90
Chặt chẽ
> 0,90
Rất chặt chẽ
Bài tập áp dụng:
Dùng phương pháp phân tích tương quan đánh giá mức độ tương quan giữa liều lượng sử dụng
thuốc ngừa đột quỵ dùng cho 8 bệnh nhân lấy ngẫu nhiên từ các hồ sơ bệnh án trong khoảng thời
gian 6 tháng trở lại đây.
Ngày: [3; 2; 4; 3; 2; 4; 4; 3]
Thuốc A (mg/kg): [2,8; 4,0; 1,5; 3,0; 3,7; 2,0; 2,4; 3,5]
Thuốc B (mcg/kg): [275; 225; 250; 225; 300; 225; 275; 275]
Nhập dữ liệu, tạo bảng.
Vào Data → Data analysis → Correlation → OK.
BÀI 13 – PHÂN TÍCH HỒI QUY
-
Regression – Phân tích hồi quy.
-
Khảo sát ảnh hưởng giữa 2 hay nhiều biến số liên tục, các biến số có mối quan hệ phụ
thuộc lẫn nhau.
-
Thiết lập pt hồi quy: y a bx
a: tung độ góc (hằng số), được tính bằng hàm =INTERCEPT(…)
b: độ dốc (tham số hồi quy), được tính bằng hàm =SLOPE(…)
-
Giá trị R2 (R square) càng gần 1 → sự tuyến tính càng tốt
-
R2 = 0 → khơng có sự tương quan giữa x và y.
Bài tập áp dụng:
Hãy thiết lập phương trình hồi quy (với α = 0,05) dữ liệu liên quan giữa chiều cao và trọng lượng
cơ thể như sau:
Chiều cao (cm): [117; 181; 165; 178; 173; 184; 162; 168; 164; 170]
Trọng lượng (kg): [74; 75; 63; 64; 65; 75; 56; 55; 55; 68]
Nhập dữ liệu, tạo bảng.
Vào Data → Data analysis → Regression → OK.
Biện luận kết quả:
Đặt giả thyết H0:
“Chiều cao và trọng lượng khơng liên quan tuyến tính”.
Phân tích thống kê:
F > Fα (=FINV(α,γ1,γ2) → bác bỏ H0, chọn HA thay thế
(và ngược lại).
Đặt giả thuyết H0:
“Hệ số hồi quy khơng có ý nghĩa”.
Phân tích thống kê:
t > tα → bác bỏ H0, chọn HA thay thế (và ngược lại).