Tải bản đầy đủ (.docx) (26 trang)

đề cương thống kê trong khoa học xã hội

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (226.06 KB, 26 trang )

MỘT SỐ CÔNG THỨC THỐNG KÊ
CHỦ ĐỀ 1: XẾP ĐẶT DỮ KIỆN
1. Làm quen với các khái niệm
a. Bảng phân bố tần số đơn
i. Theo chiều dọc
Điểm số Tần số
34 3
35 2
34 5
37 6
38 5
ii. Theo chiều ngang
Điểm số 34 35 34 37 38
Tần số 3 2 5 6 5
b. Bảng phân bố tần số đẳng loại
Đẳng loại Tần số
80 - 84 3
85 - 89 5
90 - 94 8
95 - 99 16
100 - 104 12
N = 44
Để lập bảng đẳng loại ta tiến hành theo các bước sau đây:
Bước 1: Xác định Min, Max của các điểm số
1
Bước 2: Tính hàng số = Max – Min
Bước 3: Xác định cỡ đẳng loại (đề bài thường cho sẵn)
Bước 4: Xác định số đẳng loại: Hàng số / cỡ đẳng loại
Bước 5: Ghi ra các đẳng loại, cần xác định ra đẳng loại đầu tiên
(dựa vào Min và cỡ đẳng loại)
Bước 6: Ghi tần số cho các đẳng loại vừa tìm được.


c. Biên giới rời và biên giới liên tục
Điểm số đó là một khoảng liên tục từ biên giới liên tục dưới đến
biên giới liên tục trên của điểm số.
- Thí dụ đối với điểm số: Đối với điểm số 7 ta xem đó là một
khoảng từ 6.5 đến 7.5. Ta thấy 6.5 là biên giới liên tục (BGLT)
dưới của 7 và 7.5 là BGLT trên của 7.
- Thí dụ đối với đẳng loại: 20 – 24 ta coi đó là khoảng điểm số
từ 19.5 đến 24.5.
+ 20 là biên giới rời dưới của đẳng loại
+ 24 là biên giới rời trên của đẳng loại
+ 19.5 là BGLT dưới của đẳng loại
+ 24.5 là BGLT trên của đẳng loại
d. Tần số tích lũy (Cmf): gồm có tần số tích lũy kém và tần số
tích lũy hơn. Tần số tích lũy kém được tính bằng cách cộng dồn
các tần số từ trên xuống. Tần số tích lũy hơn được tính bằng
cách ngược lại.
2
Điểm số Tần số Cmf kém Cmf hơn
1 3 3 20
2 4 7 17
3 5 12 13
4 7 19 8
5 1 20 1
e. Tần số tương đối
Ký hiệu là p còn gọi là tỉ lệ %. Tỉ lệ % tại một điểm số = f/N.
Ví dụ: Ta có tổng N = 40. Điểm số 7 có 10 học sinh tần số tương
đối của điểm số 7 là: 10/40 = 25%.
f. Tần số tích lũy (kí hiệu là Cmp)
Ta cần lập thêm cột p = , cột p%, Cmp kém và Cmp hơn. Cách
tính Cmp kém và Cmp hơn tương tự như Cmf kém và hơn.

CHỦ ĐỀ 2:CÁC SỐ ĐỊNH TÂM
a. Số yếu vị (Mo: Mode)
- Số yếu vị là số có tần số lớn nhất, kí hiệu là Mo
- Số yếu vị cho ta biết đỉnh cao của phân bố. Nó là biểu hiện của
số đông, của phong trào. Do đó, yếu vị cho biết khuynh hướng,
điểm nhạy cảm của dữ kiện.
* Để tính số yếu vị ta cần phải sắp xếp các điểm số thành bảng
phân bố tần số đơn hay đẳng loại. Ghi chú các trường hợp sau:
1) Nếu hai số liền kề nhau mà có tần số bằng nhau và cao nhất thì
Mo sẽ là trung bình cộng của hai số đó.
2) Nếu trong một phân bố có hai điểm số không liền kề nhau mà
có tần số bằng nhau và cao nhất thì cả hai số đó đều là số yếu
vị và ta gọi phân bố ấy có yếu vị đôi.
3
3) Đối với phân bố đẳng loại, ta xác định đẳng loại có tần số lớn
nhất, Mo sẽ là trung điểm đẳng loại đó.
b. Số trung vị Me (Median)
Số trung vị, kí hiệu là Me trong một phân bố chia phân bố ấy ra
thành hai nửa, mỗi nửa có số dữ kiện bằng nhau.
Công dụng của số trung vị:
Cần tính trị số trung điểm chính xác của phân số - điểm 50% -
lúc ấy ta có thể chia phân bố làm hai phần: trên trung vị và dưới
trung vị.
Khi có những điểm số quá “cực đoan” (giá trị quá bé so với
phần lớn các điểm số khác) làm ảnh hưởng tới số trung bình.
* Để tính số trung vị ta có các trường hợp sau:
i) Với dữ kiện rời có N điểm số sắp xếp thành một dãy là X
1
, X
2

,
X
3
,… X
n
ta làm như sau:
1) Sắp xếp các số này theo dãy tăng hay giảm dần
2) Tính
3) Trung vị nằm ở vị trí thứ của dãy số. Ta có hai trường hợp
 N là số lẻ, ví dụ có 5 điểm số (N=5) đã xếp theo thứ tự tăng: 3 4
5 6 7 , ta có vị trí của trung vị là (N + 1) : 2 = 3, suy ra vị trí thứ
3 của dãy là số 5, vậy Me=5
 N là số chẵn, ví dụ ta có dãy gồm 4 điểm số (N=4) sắp xếp theo
thứ tự tăng 2 3 4 5, vị trí của trung vị là (N + 1) : 2 = 2.5. Trung
vị bây giờ sẽ là trung bình cộng của số ở vị trí thứ 2 và 3 → Me
= (3 + 4) : 2 = 3.5
ii) Đối với phân bố tần số (đơn hay đẳng loại):
 Với phân bố tần số đơn, chẳng hạn:
X 16 18 22 25 26 29 30 34 38 41
F 3 5 9 11 15 20 18 14 11 6
Ta làm theo các bước sau:
4
1) Tính N bằng cách tính tích lũy kém hay hơn
2) Tính
3) Dò theo cột tần số tích lũy cho tới vị trí . Lấy ra số tại vị trí này
Đáp số là: 29 (Vị trí (N + 1) : 2 là số 29 có tần số tích lũy là 63)
 Với bảng phân bố đẳng loại ví dụ:
∆ Bước 1: Định các biên giới liên tục. Tính tần số tích lũy kém
hay hơn → ta biết được N
Điểm số

Tần số Biên giới liên
tục dưới/trên
Tần số tích lũy kém
(Cmf “kém”)
19.5
20 - 24 2 2
24.5
25 - 29 8 10
29.5
30 - 34 12 22
34.5
35 - 39 21 43
39.5
40 - 44 29 72
44.5
45 - 49 32 104
49.5
50 - 54 30 134
54.5
55 - 59 27 161
59.5
∆ Bước 2: Tính =
5
∆ Bước 3: Dựa theo Cmf kém ta xác định được vị trí N/2 là đẳng
loại 45 – 49
∆ Bước 4: Áp dụng công thức: Me = L+g
Với
L: là biên giới liên tục dưới của đẳng loại chứa trung vị
g: cỡ đẳng loại
F: Tần số tích lũy kém cho đến biên giới liên tục dưới (L)

f
m
: tần số ở đẳng loại chứa trung vị
Suy ra Me = =45.828
2. Số trung bình cộng
- Khái niệm: Số trung bình cộng của một nhóm N điểm số là kết
quả có được bằng cách cộng tất cả các giá trị của N điểm số rồi
lấy tổng số chia cho N (N gọi là số phần tử của nhóm)
- Công dụng:
+ Giúp ta tìm một số định tâm ổn định và tiêu biểu cho khối dữ
kiện.
+ Muốn so sánh đặc điểm của hai hay nhiều phân bố điểm số.
+ Số trung bình cộng được sử dụng khá phổ biến trong nghiên
cứu giáo dục. Nó giúp ta mô tả khá tốt khối dữ kiện và đặc biệt
thuận lợi khi cần so sánh khả năng, tính chất hay các biểu hiện
tâm lý giữa các nhóm người.
6
- Cách tính trung bình cộng:
* i. Với N điểm số rời có giá trị X
1
, X
2,
X
3
,…X
N

* ii. Với N điểm số đã xếp thành phân bố tần số
* Đối với bảng phân bố đẳng loại muốn tính trung bình cộng,
trước tiên ta tính trung điểm của đẳng loại trước đặt là X, sau đó

áp dụng công thức ii.
CHỦ ĐỀ 3: CÁC SỐ ĐO ĐỘ PHÂN TÁN
3.1. Khái niệm hàng số và cách tính
Hàng số là số đo khoảng cách giữa điểm số cao nhất và điểm số
thấp nhất.
Ví dụ cho dãy số 2, 3, 5, 6 thì hàng số bằng 6 – 2 = 4.
3.2. Các công thức tính độ lệch chuẩn cho dân số và mẫu
a. Cho dân số
i. Không có tần số
ii. Có tần số

b. Cho mẫu
i. Không có tần số
7
ii. Có tần số
2. Áp dụng giải bài tập
Tính điểm trung bình và độ lệch chuẩn của một học sinh với các
điểm số rời Toán: 9, Hóa: 10, Văn: 7, Sử: 9, Địa: 8, Anh văn: 9
X 9 8 10 7 9 8 9
X
2
81 64 100 49 81 64 81
Ta có: Mean =
SD = = 0.976
CHỦ ĐỀ 4: TƯƠNG QUAN
a. Mức độ tương quan có thể là:
- Quan hệ 1 – 1, R=1 (tương quan hàm số, giá trị của hệ số
tương quan = 1)
- Không tương quan (giá trị tương quan = 0 hay xấp xỉ 0)
- Hoặc thường thấy hơn: giá trị của hệ số tương quan ở mức giữa

0 và 1 (0<R<1)
8
* Tương quan nghịch thì R < 0, tương quan thuận thì R > 0. Độ
lớn của hệ số tương quan là một số thực nằm trong khoảng -1
đến 1.
b. Hệ số tương quan tuyến tính, ký hiệu r
- Công thức để tính r thường dùng:
- Kiểm nghiệm hệ số tương quan
* Giả thuyết:
H
0
: R
xy
= 0
H
1
: R
xy
≠ 0
α = 5% (giả sử)
* Tra bảng giá trị tới hạn của R:
Với df = N – 2 và α = 5% tra bảng trang 86 ta đọc được R
α
=?
* Lưu ý các quy tắc quyết định:
Nếu > : bác bỏ H
0
và chấp nhận H
1
Nếu ≤ : chấp nhận H

0
* Kết luận: Dựa vào các quy tắc quyết định đó ta khẳng định có
tương quan hay không với mức xác suất là bao nhiêu. Hệ số
tương quan là bao nhiêu chứng tỏ mức độ tương quan là như thế
nào?
Hệ số tương quan có các giới hạn sau:
9
♥ 0.9 trở lên là rất cao
♥ 0.8 - 0.9 cao
♥ 0.6 - 0.8 có tương quan vừa phải đến mức rõ rệt
♥ 0.7 – 0.8: khá cao
♥ 0.6 – 0.7: có tương quan vừa phải
c.
i. Hệ số tương quan thứ hạng (còn gọi là tương quan Spearman)
Ký hiệu là ρ (đọc là rho)
Công thức sử dụng
Trong đó: N là số cặp, d là hiệu hai thứ hạng trong một cặp.
ii. Ví dụ 1
Học sinh Môn 1 Môn 2 R
1
R
2
d = R
1
– R
2
d
2
A 35 29 1 5 4 16
B 29 25 4 7 3 9

C 12 9 10 10 0 0
D 21 19 8 8 0 0
E 30 36 3 1 2 4
F 23 26 7 6 1 1
G 19 16 9 9 0 0
H 27 30 5 4 1 1
I 32 24 2 2 0 0
J 24 31 6 3 3 9
=40
* Tính =
10
* Kiểm nghiệm ý nghĩa hệ số tương quan thứ hạng
Giả thuyết: H
0
: ρ = 0
ρ ≠ 0
Mức xác suất ý nghĩa:
α = 5% (ví dụ)
Tra bảng giá trị tới hạn của ρ (trang số 88): Với N = 10 và α =
5% ta đọc được ρ
α
= 0.649
Lưu ý các quy tắc quyết định:
ρ > ρ
α
: bác bỏ H
0
chấp nhận H
1
ρ ≤ ρ

α
: bác bỏ H
1
chấp nhận H
Quyết định vì ρ = 0.76 > ρ
α
= 0.649 nên ta bác bỏ H
0
nhận H
1

Kết luận: Có tương quan ở mức xác suất ý nghĩa 5% giữa điểm
số môn 1 và môn 2. Hệ số tương quan 0.76 cho thấy mức độ
tương quan là khá cao.
Chú ý: Đối với các trường hợp đồng điểm giữa các học sinh, ta
sắp xếp hạng A bình thường, hạng B bình thường (không được
xếp đồng hạng) lập cột R
A,
R
B
(nếu đồng hạng lấy trung bình
cộng các thứ hạng bình thường của thứ hạng đó, còn không giữ
nguyên), sau đó làm bình thường.
11
MSSV Test
A
Test
B
Hạn
g A

BT
Hạn
g B
BT
RA RB d = RA
- RB
d
2
1 32 20 1 6 2 6.5 4.5 20.25
2 30 20 4 7 4.5 6.5 2 4
3 32 26 2 1 2 2 0 0
4 26 26 6 2 6 2 4 16
5 30 23 5 4 4.5 4 0.5 0.25
6 25 21 7 5 7 5 2 4
7 32 26 3 3 2 2 0 0
8 22 19 8 8 8 8 0 0
9 21 17 9 9 9 9 0 0
10 20 15 10 10 10 10 0 0
Chú thích: RA của điểm số 32 (có đồng hạng). Theo bảng, số
32 có hạng bình thường là 1, 2, 3. Do đó RA là (1+2+3)/3=2
CHỦ ĐỀ 5: PHÂN BỐ BÌNH THƯỜNG
12
1. Phương trình tuyến bình thường:
2. Vùng dưới tuyến bình thường – phân bố bình thường tiêu
chuẩn
Công thức
Trong đó: μ: điểm trung bình
σ : độ lệch chuẩn
Bài tập ví dụ:
a. Tính diện tích (Z = 0.76 → Z = 1.96)

(Chú ý xem bảng trang 84)
Ta có diện tích này bằng: DT (Z=0 → Z=1.96) – DT (Z=0 →
Z=0.76) = 0.4750 – 0.2764 = 0.1986
b. Tính diện tích (Z = - 2.18 → Z = 1.36)
Diện tích này bằng DT (Z=0 → Z=1.36) + DT (Z=0 → Z=2.18)
= 0.4115 +0.4854 = 0.8969
c. Tính diện tích DT (Z = -2.18 → Z = -1.04)
Diện tích này bằng DT (Z = 0 → Z = 2.18) – DT (Z = 0 → Z =
1.04) = 0.4834 – 0.3508 = 0.1346.
CHỦ ĐỀ 6: CHỌN MẪU
a) Nguyên tắc chung của việc chọn mẫu:
13
- Tính khách quan: những chủ thể đưa vào mẫu hoàn toàn theo
lối vô tư, không theo ý muốn chủ quan của người nghiên cứu.
- Phải bảo đảm rằng mỗi phần tử trong dân số đều có cơ hội
đồng đều nhau (khả năng được chọn là như nhau).
b) Vấn đề sai số khi chọn mẫu:
- Sai số chọn mẫu là loại sai lầm xảy ra do ta chỉ chọn 1 mẫu để
nghiên cứu mà không tiến hành trên toàn dân số.
- “Sai số chọn mẫu” và “sai số không do chọn mẫu” hợp thành
sai số toàn thể. Mối liên hệ giữa chúng là ba cạnh của một tam
giác vuông, trong đó sai số toàn thể là cạnh huyền. Ta không thể
triệt tiêu một sai số nào nhưng có thể làm giảm tối đa tùy theo
các điều kiện, khả năng cho phép của một cuộc nghiên cứu.
- Giảm sai số chọn mẫu bằng cách:
♣ Tăng thêm đơn vị chọn mẫu (tức là tăng số n nhưng không
thể tăng lên vô hạn).
♣ Thay đổi phương pháp chọn mẫu hoặc phối hợp nhiều
phương pháp nhằm tăng hiệu quả chọn mẫu.
- Giảm sai số không do chọn mẫu bằng cách:

♣ Khảo sát nhiều lần trên đối tượng hơn là một lần.
♣ Tăng số phỏng vấn viên.
♣ Cải tiến các bảng điều tra, dụng cụ đo lường, cách xử lý dữ
kiện,…
c) Một số phương pháp chọn mẫu thông dụng
i) Chọn mẫu ngẫu nhiên đơn giản
14
(Áp dụng cho số phần tử trong dân số không lớn quá), có thể rút
thăm, dùng bảng số ngẫu nhiên, dùng hàm số ngẫu nhiên.
ii) Chọn mẫu theo hệ thống
Theo cách này, trước hết các phần tử được sắp xếp theo danh
sách có thứ tự theo vần A, B, C, D,… hoặc xếp theo bậc lương,
hay theo một thứ tự hợp lý nào đó xác định trước.
Giả sử trong dân số có N phần tử và ta muốn chọn 1 mẫu n. Tỉ lệ
chọn mẫu là f = , ta tìm số nguyên dương K sao cho ≈ sau đó
bắt đầu từ một phần tử bất kỳ trong danh sách, cứ K phần tử thì
chọn một để đưa vào mẫu. Tiếp tục chọn cho đến hết danh sách.
Ví dụ áp dụng: Dân số N = 3849 cần mẫu có n = 300?
Trước tiên, tính tỉ số 300/3849 = 1/12.83 ⇒ k = 12 (lấy phần
nguyên)
iii) Chọn mẫu tỉ lệ theo tầng lớp
Dân số N được chia ra nhiều tầng lớp,… mỗi tầng lớp, mỗi tầng
lớp có N
k
phần tử. Tỉ lệ = N
k
/N.
Cỡ của mẫu bằng n và ta muốn trong mẫu cũng cóa đủ các tầng
lớp nêu trên với tỉ lệ giống như trong dân số thì:
n

k
= n *
Ví dụ áp dụng: Trường A có số học sinh là 3356 học sinh có các
khoa là Công nghệ thông tin, Vật lý, Hóa học với số học sinh lần
lượt là 981, 1266, 1109. Cần lấy 300 sinh viên tham dự Hội
thảo. Hỏi phải làm thế nào.
15
Giải
Tóm tắt: N = 3356, N
1
= 981, N
2
= 1266, N
3
= 1109.
Lập tỉ lệ N
k
/N ta có tỉ lệ số học sinh từng khoa như sau:
- Khoa Công nghệ thông tin = 981/3356 = 29,2%.
- Khoa Vật lý = 1266/3356=37.7%
- Khoa Hóa học = 1109/3356=33.1%.
- Cần có mẫu n = 300, ta nhân n với tỉ lệ trên được:
n
1
= 29,2% * 300 = 88
n
2
= 37.7% * 300 = 113
n
3

= 33,1% * 300 = 99.
d) Bổ sung về phương pháp chọn mẫu
Với lối chọn mẫu ngẫu nhiên, ta sẽ gặp trở ngại khi dân số khá
lớn, ta sẽ mất nhiều thời gian. Dựa vào tính chất “nhóm” vốn có
trong tổ chức hành chính, trường học. Để đơn giản, ta chỉ xét
trường hợp nhóm đồng cỡ hoặc có thể xem là đồng cỡ.
Chẳng hạn: ở các lớp tiểu học hay trung học, số học sinh mỗi
lớp thường không bằng nhau nhưng số lượng này không chênh
nhau nhiều lắm ví dụ có lớp thường có số học sinh là 40, 39, 41,
… do đó có thể áp dụng nhóm đồng cỡ, đơn vị chọn là lớp học.
Thí dụ: Ta cần có một mẫu 500 người lấy từ một dân số 10,000
người. Ta chia dân số này thành 200 nhóm mỗi nhóm có 50
người. Dùng lối chọn mẫu ngẫu nhiên lấy 10 nhóm trong số 200
nhóm. Ta có 10 nhóm* 50 người = 500 người.
16
→ Thậm chí trong một số trường hợp ta cần phải phối hợp tất cả
các cách trên.
CHỦ ĐỀ 7: PHỎNG ĐỊNH TRỊ SỐ DÂN SỐ
a. Khái niệm
Khoảng phỏng định là một khoảng mà người ta đưa ra với một
mức độ tin tưởng định trước và hy vọng rằng trị số dân số rẽ rơi
vào trong khoảng này.
b. Công thức chung của khoảng phủ định
Điểm phỏng định - ε < Trị số dân số < Điểm phỏng định + ε
c. Phỏng định số trung bình dân số
i. Trường hợp chọn mẫu lớn (n

30)
Công thức tính khoảng phỏng định:
µ =

Trong đó:
: trung bình mẫu;
n: cỡ mẫu;
s: độ lệch tiêu chuẩn của mẫu;
Z: trị số đọc ở bảng Z với độ tin cậy cho trước
Lưu ý: khoảng phỏng định trên chỉ áp dụng trong điều kiện: Dân
số n rất lớn và mẫu n lớn (n ≥ 30)
Bài tập áp dụng: Một mẫu 144 người được chọn từ một dân số
rất lớn và thấy rằng chiều cao của nhóm này là = 155 cm với độ
17
lệch tiêu chuẩn s = 28. Hãy lập khoảng tin tưởng ở mức 95%
cho chiều cao trung bình của dân số.
Giải
- Theo đề bài, dân số rất lớn và cỡ mẫu là 144, áp dụng công
thức nêu trên với.
= 155; n = 144; s = 28; Z = 1.96 (vì mức tin tưởng là γ = 95% =
0.95 ⇒ DT = γ : 2 = 0.95: 2 = 0.475, tra bảng trang 84 theo hai
chiều ngang và dọc ta được Z = 1.9 + 0.06 = 1.96.
- Tính biên giới liên tục trên = 155 + 1.96. = 159.573
- Biên giới liên tục dưới = 155 – 1.96.
Kết luận: Khoảng phỏng định cho trung bình chiều cao dân số là
150.43 < µ < 159.57 với độ tin cậy là 95%.
ii. Trường hợp mẫu nhỏ (n < 30)
Áp dụng công thức sau:
µ = t .
Trong đó:
: trung bình mẫu; n: cỡ mẫu; s: độ lệch tiêu chuẩn của mẫu; t: trị
số đọc ở bảng t ứng với độ tự do df = n -1 và mức ý nghĩa α = 1
- γ ( bằng cách tra bảng trang 85).
Bài tập áp dụng: Một mẫu 16 người được chọn từ một dân số

lớn được phân bố bình thường. Điểm trung bình của họ về một
18
bài test là 101.3 và s = 18.8. Hãy lập khoảng tin tưởng 98% cho
trung bình của dân số.
Giải
Các dữ kiện của đề phù hợp với công thức tính khoảng phỏng
định trung bình, trường hợp mẫu nhỏ. Thay các trị số = 101.3; s
= 18.8, n = 16. Trị số t được đọc trong bảng t với α = 0.02, df =
15 là 2.602.
- Áp dụng công thức tính giới hạn trên = 101.3+2.602. =
113.529.
- Giới hạn dưới = 101.3 - 2.602. = 89.071.
- Vậy khoảng phỏng định cho trung bình của dân số là:
89.1 < μ < 113.5 với độ tin cậy là 98%.
d. Phỏng định trị số tỉ lệ dân số
Áp dụng công thức sau đây:
p = ± Z.
19
Với
n: cỡ mẫu
X/n: là tỉ lệ trên mẫu
Z: là trị số trong bảng Z với độ tin cậy γ.
Ví dụ áp dụng: Trước kỳ thi tốt nghiệp THCS, phòng giáo dục
quận Y chọn ngẫu nhiên 500 học sinh lớp 9 từ dân số học sinh
trong quận để tham gia thi cử môn Văn, đề thi gần giống với
những đề tốt nghiệp các năm trước. Kết quả có 435 học sinh đạt
yêu cầu. Hãy lập khoảng phỏng định tỉ lệ dân số học sinh quận
Y đạt yêu cầu ký thi nói trên với độ tin cậy là 95%.
Giải
Để kiểm tra điều kiện, ta lấy p = X/n = 435/500 = 87%

n * p = 500*0.87 = 435 > 15
n(1 – p) = 500*0.13 = 65 > 15
⇒ Điều kiện được thỏa. Ta có thể áp dụng công thức ở trên với
các số liệu trong đề bài.
Độ tin cậy = 95% ⇒ Z = 1.96 (tra bảng trang số 84)
Biên giới trên = 0.87 + 1.96. = 0.899
Biên giới dưới = 0.87 – 1.96
Vậy khoảng tin tưởng cho p:
84% < p < 90% với độ tin cậy 95%.
20
CHUYÊN ĐỀ: KIỂM NGHIỆM GIẢ THUYẾT
THỐNG KÊ
1. Giả thuyết thống kê: Ký hiệu là H
0
(còn gọi là giả thuyết bất
dị, giả thuyết vô hiệu = null hypothesis). Đây là giả thuyết mà
thường là người nghiên cứu hy vọng bác bỏ được để chứng
minh thuyết của mình là đúng.
2. Giả thuyết khả hoán: ký hiệu là H
1
còn gọi là giả thuyết thay
thế. Đây là giả thuyết đối nghịch lại với H
0
.
Ví dụ: H
0
: µ
1
= µ
2

thì H
1
: µ
1
≠ μ
2
3. Mức xác suất ý nghĩa: Là một trị số xác suất mà người nghiên
cứu đưa ra trước khi kiểm nghiệm để bác bỏ hay chấp nhận
H
0
.Giả sử chọn mức ý nghĩa 5%. Điều đó có ý nghĩa là người
nghiên cứu sẽ bác bỏ giả thuyết H
0
nếu trị số mẫu kiếm được với
xác suất may rủi là 5% (xảy ra 5 lần hay ít hơn trong 100 lần).
Xác suất này rất bé, không đủ tin rằng giả thuyết H
0
là đúng.
Nếu trị số mẫu kiếm được xảy ra với xác suất lớn hơn 5% thì
người nghiên cứu chấp nhận H
0
.
Giả thuyết H
0
:
ĐÚNG SAI
Chấp nhận Quyết định đúng Sai lầm loại II
Bác bỏ Sai lầm loại I Quyết định đúng
- Sai lầm loại 1: Là khi H
0

là đúng, mà sau khi kiểm nghiệm dẫn
tới H
0
và chấp nhận H
1
. (Trường hợp này H
1
là sai).
- Sai lầm loại 2: Là khi H
0
thực sự là sai, nhưng cuộc kiểm
nghiệm không đủ sức bỏ nó, do đó ta chấp nhận nó.
21
4. Vùng bác bỏ
i. Kiểm nghiệm hai đuôi và kiểm nghiệm một đuôi
- Kiểm nghiệm hai đuôi là kiểm nghiệm đặt giả thuyết H
1
hai
chiều (xem có khác biệt không).
Ví dụ 1:
H
0
: μ
1
= μ
2
H
1
: μ
1

≠ μ
2
- Kiểm nghiệm một đuôi là kiểm nghiệm trong đó giả thuyết H
1
chỉ có một chiều. Kiểm nghiệm một đuôi gồm đuôi dưới và đuôi
trên. Đuôi dưới: khi muốn chứng minh dân số bé hơn một trị số
nào đó. Đuôi trên khi muốn chứng minh trị số lớn hơn một trị số
nào đó.
Ví dụ
Đuôi dưới Đuôi trên
H
0
: μ ≥ 120 H
0
: μ ≤ 120
H
1
: μ < 120 H
1
: μ >120
Áp dụng để giải một số bài tập:
1. Có hai ứng cử viên được đề cử ra để bầu một người vào chức
Chủ tịch Hội đồng Quản trị của một công ty thương mại. Để dự
đoán xem người nào sẽ trúng cử, ban tổ chức đã chọn ngẫu
nhiên một mẫu 80 nhân viên của công ty, sau đó phát một phiếu
thăm dò với câu hỏi họ định bầu ai. Ban tổ chức sau khi thu
22
được phiếu về đã so sánh các tỉ lệ nhân viên bầu cho mỗi ứng cử
viên nói trên. Hãy lập giả thuyết H0 và H1.
Giải:

Thông số p: tỉ lệ dân số nhân viên bầu cho ứng cử viên A:
Giả thuyết:
H0: p =50 %.
H1: p ≠ 50%.
2. Một nhà quản lý giáo dục muốn xác định có sự khác biệt hay
không giữa học sinh học tại trường A (trường điểm) và tại
trường B (bình thường) về thành tích học tập. Người ấy chọn ra
2 mẫu ngẫu nhiên (mỗi mẫu đại diện cho một trường), sau đó
cho làm cùng một bài thi rồi so sánh điểm trung bình của hai
mẫu về bài thi nói trên. Hãy cho biết các giả thuyết H0 và H1
nào được đưa ra, nếu nhà quản lý cho rằng thành tích học tập
của học sinh hai trường là:
a. Không giống nhau?
b. Trường A học tốt hơn?
Giải
Gọi µ1, µ2 lần lượt là điểm trung bình về bài thi của DÂN SỐ
học sinh của hai trường A và B.
a. Giả thuyết đối với trường hợp đầu tiên
H0: µ1 = µ2
H1: µ1 ≠ µ2
b. Giả thuyết với trường hợp thứ hai
23
H0: µ1 ≤ µ2
H1: µ1 > µ2
3. Một giáo viên Anh văn thường dạy lớp 12 muốn kiểm chứng
lại kết quả mà nhà quản lý giáo dục công bố rằng điểm trung
bình của dân số học sinh lớp 12 tại khu vực M làm 100 câu test
(trình độ B) qua một đợt khảo sát là 72.8 với độ lệch tiêu chuẩn
= 6.99. Người giáo viên này đã chọn một mẫu gồm 300 học sinh
đại diện cho các loại học sinh Giỏi, Khá, Trung bình, Kém trong

khu vực và cũng khảo sát bằng một bài thi B tương tự như trên.
Hãy viết giả thuyết H
0
và H
1
, biết rằng người giáo viên không tin
tưởng thành tích học tập của học sinh trong khu vực là cao như
tuyên bố của nhà quản lý.
Giải:
Gọi µ là điểm trung bình của dân số học sinh lớp 12 tại khu vực
M làm bài test trình độ B.
Giả thuyết:
H
0
: µ ≥ 72.8 (đúng với đề bài)
H
1
: µ < 72.8
4. Kết quả thi tốt nghiệp vài năm gần đây của học sinh trường
Lê Văn Tám vào khoảng 85%. Năm nay, qua theo dõi học tập
các tháng và thi học kỳ I ông Hiệu trưởng cảm thấy e ngại,
không chắc tỉ lệ tốt nghiệp như các năm trước. Ông tiến hành
một cuộc thăm dò, quyết định cuối tháng 4 chọn ra một mẫu 250
học sinh (khoảng 5% dân số lớp 12) và cho làm bài thi tương tự
như các bài thi tốt nghiệp. Kết quả có 187 học sinh đạt yêu cầu.
24
Hỏi ông Hiệu trưởng trường Lê Văn Tám sẽ phải lập giả thuyết
H
0
và H

1
ra sao để kiểm chứng lại nhận định của mình.
Giải:
Gọi p là tỉ lệ dân số học sinh đậu trong kỳ thi tốt nghiệp năm
nay:
Giả thuyết:
H
0
: p ≥ 85%
H
1
: p < 85%
25

×