Ôn thi Tin học ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.27 MB, 10 trang )

BÀI 5 - TRÌNH BÀY BIỂU ĐỒ THỐNG KÊ
BIỂU ĐỒ

DẠNG

PHẢN ÁNH

Rẽ quạt

Pie

tỷ lệ %, giá trị tuyệt đối

Cột/thanh

Column

phân phối các giá trị dữ liệu

Column/Error Bars

độ chính xác hệ thống

Trung bình
sai số chuẩn

mối tương quan 2 biến số XY

Phân tán
XY (Scatter)
Hồi quy

Pareto

liên quan tuyến tính giữa X,Y
Column kết hợp
XY (Scatter)

các trường hợp cần ưu tiên quan tâm

BÀI 6 - TRẮC NGHIỆM GIẢ THUYẾT
BIẾN SỐ

THỂ HIỆN

THÀNH PHẦN

Biến rời rạc
Định lượng

kết quả của sự đếm
(vd: 1, 2, 3…)

mức độ, số lượng, độ
lớn…
Biến liên tục

giá trị thực và liên tục
(vd: Khối lượng, hàm lượng…)
tên gọi, phân loại
(vd: Tình trạng hơn nhân

Biến danh mục

(độc thân, có gia đình, li dị, gố),
nhóm máu (O, A, B, AB)
…

Định tính

xếp thứ tự theo quy ước

tính chất
Biến thứ hạng

(vd: Tình trạng kinh tế xã hội (giàu, khá
trung bình, nghèo, rất nghèo)
…
chỉ nhận 1 trong 2 giá trị

Biến nhị phân

(vd: Giới tính (nam/nữ)
…

Biến định lượng

Biến định tính

1. Biểu diễn bằng số thực

Khơng thể hiện bằng số thực

2. Có thể đo hoặc đếm

Chỉ có thể đếm

3. Có thể rời rạc hoặc liên tục

Ln rời rạc

4. Có thể tính được giá trị trung bình

Khơng thể tính giá trị trung bình

Nghiên cứu định lượng trả lời câu hỏi:

Nghiên cứu định tính trả lời câu hỏi:
Như thế nào? Cái gì? Tại sao?

Bao nhiêu?

Độ tin cậy (P), mức ý nghĩa (α) và hệ số tin cậy (z)
Độ tin cậy (%) Mức ý nghĩa (α)
90
0.1
95
0.05
99
0.01

Hệ số tin cậy (z)
1,650
1,960
2,576

BÀI 7 – PHÂN TÍCH PHÂN PHỐI CHUẨN
Cách đánh giá

Điều kiện

Yêu cầu

Xem biểu đồ với đường cong chuẩn
(Histograms with normal curve)

tần số cao nhất ở giữa, tần số thấp dần ở 2 bên

Mean và Median
gần bằng nhau;
Skewness gần bằng
0

Vẽ biểu đồ xác suất chuẩn
(normal Q-Q plot)

đường thẳng

có quan hệ tuyến tính

Dùng phép kiểm định Kolmogorov - Smirnov

n > 50

Dùng phép kiểm định Shapiro - Wilk

n < 50

p > 0,05

BÀI 8 – LẤY MẪU NGẪU NHIÊN, ƯỚC TÍNH CỠ MẪU
Ước tính cỡ mẫu
① Cỡ mẫu ước tính số trung bình:
Dân số khơng xác định:
n

② Cỡ mẫu ước tính tỷ số:
Dân số không xác định:

z 2 2
d2

n

Dân số xác định n:

n

Nz 2 2
d 2 ( N  1)  z 2 2

z 2 p (1  p )
d2

Dân số xác định n:

n

Nz 2 p (1  p )
d 2 ( N  1)  z 2 p (1  p )

Lấy mẫu ngẫu nhiên (Sampling)
Chọn mẫu ngẫu nhiên

Chọn mẫu phi ngẫu nhiên

(chọn mẫu xác suất)

(chọn mẫu phi xác suất)

Chọn mẫu ngẫu nhiên đơn giản

(simple radom sampling)
• Lập danh sách, đánh stt, rút
thăm,
dùng
bảng
ngẫu
nhiên/máy tính chọn từng đơn vị
vào mẫu

Chọn mẫu thuận tiện
(convenience sampling)
• Dựa trên sự thuận lợi, tính
dễ tiếp cận
• Áp dụng xác định ý nghĩa,
ước lượng sơ bộ...

• Vận dụng khi các đơn vị đồng
đều, không phân bố quá rộng
Chọn mẫu phán đốn
(judgement sampling)
Chọn mẫu nhiên hệ thống
(systematic sampling)
• Lập danh sách theo trật tự quy
ước, đánh stt, chọn mầm ngẫu
nhiên Y cách đều k đơn vị

Chọn mẫu cả khối
(cluster sampling)
• Lập danh sách theo từng khối,
chọn ngẫu nhiên 1 khối để điều
tra
• Áp dụng khi khơng có sẵn danh
sách đầy đủ

Chọn mẫu phân tầng
(stratified random sampling)
• Phân chia tổng thể thành các
nhóm, dùng cách chọn mẫu ngẫu

nhiên chọn ra các đơn vị

Chọn mẫu nhiều giai đoạn
(multi-stage sampling)
• Phân chia tổng thể thành các
đơn vị cấp I --> chọn n cấp I, từ
n cấp I phân chia thành các đơn
vị cấp II --> chọn n cấp II...
• Áp dụng tổng thể quá lớn, địa
bàn quá rộng

• Tự đưa ra phán đốn
• Phụ thuộc kinh nghiệm, hiểu
biết...

Chọn mẫu định ngạch
(quota sampling)
• Phân nhóm theo tiêu chuẩn
được quan tâm, chọn mẫu
thuận tiện hoặc phán đoán để
chọn các đơn vị

BÀI 9 – PHÂN TÍCH THỐNG KÊ MƠ TẢ
Giá trị thống kê mơ tả
Cỡ
Giá trị trung bình
Độ lệch chuẩn
Tỷ số

Dân số
N
μ
σ
Π

Mẫu
n
X
S
P

Giá trị

Ý nghĩa

Hàm tính Excel

Mean

Trung bình

=AVERAGE(…)

Standard Error

Sai số chuẩn

=STDEV.S(…)/SQRT(COUNT(…))

(SE)
Median

Số trung vị

=MEDIAN(…)

Mode

Số yếu vị

=MODE(…)

Standard Deviation

Độ lệch chuẩn

=STDEV.S(…)

Sample Variance

Phương sai

=VAR.S(…)

Kurtosis

Độ nhô

=KURT(…)

Skewness

Độ lệch

=SKEW(…)

Range

Khoảng

=MAX(…) – MIN(…)

Minimum

Giá trị nhỏ nhất

=MIN(…)

Maximum

Giá trị lớn nhất

=MAX(…)

Sum

Tổng số

=SUM(…)

Count

Cỡ mẫu

=COUNT(…)

Confidence Level

Giới hạn tin cậy

=CONFIDENCE.T(α,STDEV.S(…),COUNT(…))

Hệ số phân tán
(CV)

=100*STDEV.S(…)/AVERAGE(…)

(95.0%)
Coefficient of
Variation

Bài tập áp dụng
Khối lượng (g) của 10 gói Dobixil trong lơ A010307 như sau:
2,80; 3,02; 2,85; 3,07; 3,30; 2,99; 3,03; 2,90; 2,99; 3,20
Hãy tính các giá trị thống kê mơ tả (với độ tin cậy là 95%), và cho biết:
-

Trung bình của mẫu ± sai số

-

Trung bình dân số ± sai số

-

Hệ số phân tán

-

Khoảng tin cậy (CI)

 Nhập dữ liệu, tạo bảng.
 Vào Data → Data analysis → Descriptive Statistics → OK.
 Chọn Input là dữ liệu số cột Khối lượng (g), check vào ô “Labels in first row” nếu có
chọn ơ “Khối lượng (g)” (nếu khơng thì bỏ check), check vào ơ “Summary statistics”,
kiểm tra độ tin cậy ở ơ “Confidence Level for Mean” có khớp với đề bài chưa → OK.
(Nếu không check vào ơ “Confidence Level for Mean” thì ta phải tự tính giới hạn tin cậy CL
bằng hàm CONFIDENCE.T(alpha,độ lệch chuẩn,cỡ mẫu) như hình).

 Tính tốn khoảng tin cậy CI (= số TB ± giới hạn tin cậy), hệ số phân tán CV (=100*độ
lệch chuẩn/số trung bình).

BÀI 10 – PHÂN TÍCH ANOVA MỘT YẾU TỐ
-

ANOVA (Analysis of Variance): phân tích phương sai.

-

single factor: một yếu tố (yếu tố có thể là biến độc lập hoặc giải thích).

-

Mức: là những “giá trị” của yếu tố.

Anova: single factor – Phân tích phương sai một yếu tố, là phương pháp phân tích dữ liệu dùng
để so sánh giá trị trung bình hoặc phương sai của dữ liệu, cho phép phân tích k mức độ (k > 2)
trên các giá trị yij:
Ví dụ: Thang điểm đánh giá với 3 liều lượng (0 mg, 50 mg, 100 mg)

 Nhập dữ liệu, tạo bảng.
 Vào Data → Data analysis → Anova: Single Factor → OK.
(Nếu khơng nói gì thêm, mặc định α = 0.05)

 Biện luận kết quả:
Đặt giả thyết H0: các nhóm 0 mg, 50 mg, 100 mg không khác nhau.
F > Fα (F crit)

→ bác bỏ H0, chọn HA thay thế (và ngược lại).

p < α (p-value < α)

→ bác bỏ H0, chọn HA thay thế (và ngược lại).

BÀI 12 – PHÂN TÍCH TƯƠNG QUAN
-

Correlation – Phân tích tương quan.

-

Hệ số tương quan rxy (coefficient of correlation – cc): chỉ số thống kê đo lường mối liên
hệ giữa 2 dữ liệu khảo sát x, y.
-

rxy = ryx

-

rxy ∈ [−1; 1], rxy < 0: tương quan nghịch, rxy > 0: tương quan thuận
→ r = −1: x, y tương quan nghịch (x tăng y giảm và ngược lại)
→ r = 1: x, y tương quan thuận (x và y cùng tăng hoặc cùng giảm)
→ r = 0: x, y không tương quan (x, y độc lập với nhau)

-

Phương pháp phân tích tương quan:
 Pearson: theo phân phối chuẩn
 Spearman: không theo phân phối chuẩn

-

Ý nghĩa thống kê của hệ số tương quan r:
Theo Guilford:
|r|

Mô tả

< 0,20

Không đáng kể

0,20 – 0,40

Liên quan thấp

0,40 – 0,70

Liên quan khá

0,70 – 0,90

Liên quan cao

> 0,90

Liên quan rất cao

Theo Roundtree:
|r|

Mô tả

< 0,20

Rất lỏng lẻo

0,20 – 0,40

Lỏng lẻo

0,40 – 0,70

Trung bình

0,70 – 0,90

Chặt chẽ

> 0,90

Rất chặt chẽ

Bài tập áp dụng:
Dùng phương pháp phân tích tương quan đánh giá mức độ tương quan giữa liều lượng sử dụng
thuốc ngừa đột quỵ dùng cho 8 bệnh nhân lấy ngẫu nhiên từ các hồ sơ bệnh án trong khoảng thời
gian 6 tháng trở lại đây.
Ngày: [3; 2; 4; 3; 2; 4; 4; 3]
Thuốc A (mg/kg): [2,8; 4,0; 1,5; 3,0; 3,7; 2,0; 2,4; 3,5]
Thuốc B (mcg/kg): [275; 225; 250; 225; 300; 225; 275; 275]
 Nhập dữ liệu, tạo bảng.
 Vào Data → Data analysis → Correlation → OK.

BÀI 13 – PHÂN TÍCH HỒI QUY

-

Regression – Phân tích hồi quy.

-

Khảo sát ảnh hưởng giữa 2 hay nhiều biến số liên tục, các biến số có mối quan hệ phụ
thuộc lẫn nhau.

-

Thiết lập pt hồi quy: y  a  bx
a: tung độ góc (hằng số), được tính bằng hàm =INTERCEPT(…)
b: độ dốc (tham số hồi quy), được tính bằng hàm =SLOPE(…)

-

Giá trị R2 (R square) càng gần 1 → sự tuyến tính càng tốt

-

R2 = 0 → khơng có sự tương quan giữa x và y.

Bài tập áp dụng:
Hãy thiết lập phương trình hồi quy (với α = 0,05) dữ liệu liên quan giữa chiều cao và trọng lượng
cơ thể như sau:
Chiều cao (cm): [117; 181; 165; 178; 173; 184; 162; 168; 164; 170]
Trọng lượng (kg): [74; 75; 63; 64; 65; 75; 56; 55; 55; 68]
 Nhập dữ liệu, tạo bảng.
 Vào Data → Data analysis → Regression → OK.

 Biện luận kết quả:
Đặt giả thyết H0:

“Chiều cao và trọng lượng khơng liên quan tuyến tính”.

Phân tích thống kê:

F > Fα (=FINV(α,γ1,γ2) → bác bỏ H0, chọn HA thay thế

(và ngược lại).
Đặt giả thuyết H0:

“Hệ số hồi quy khơng có ý nghĩa”.

Phân tích thống kê:

t > tα → bác bỏ H0, chọn HA thay thế (và ngược lại).

Ôn thi Tin học ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về