Giáo trình Thống kê ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (13.49 MB, 57 trang )

Chương 3. PHÂN TÍCH HỒI QUI VÀ TƯƠNG QUAN TUYẾN TÍNH
3.1 PHÂN TÍCH HỒI QUI (Regression analysis)
3.1.1 Mô hình hồi qui tuyến tính đơn
3.1.2 Kiểm định giả thuyết về mối quan hệ tuyến tính (kiểm định t)
3.1.3 Kiểm định mô hình
3.1.4 Thực hành sử dụng phần mềm Minitab để xác định phương trình
hồi qui
3.1.5 Thực hành sử dụng phần mềm Minitab để xác định phương trình
hồi qui đa biến
3.2 PHÂN TÍCH TƯƠNG QUAN (Correlation analysis)
3.2.1 Hệ số tương quan (correlation coefficient)
3.2.2 Kiểm định giả thuyết về mối tương quan
3.2.3 Hiệp phương sai (covariance)
3.2.4 Thực hành sử dụng phần mềm Minitab để xác định hệ số xác định
và tương quan
BÀI TẬP CỦNG CỐ

38
38
38
39
40

Chương 4. ỨNG DỤNG CÁC KIỂU BỐ TRÍ THÍ NGHIỆM
4.1 XÁC ĐỊNH CÁC THUẬT NGỮ THỐNG KÊ VÀ BỐ TRÍ THÍ NGHIỆM
4.1.1 Một số thuật ngữ thống kê cơ bản

4.1.2 Một số khái niệm về thống kê cơ bản
4.1.3 Nguyên tắc của bố trí thí nghiệm
4.1.4 Các bước cần tuân thủ
4.2 ỨNG DỤNG CÁC KIỂU BỐ TRÍ THÍ NGHIỆM
4.2.1 Thí nghiệm một nhân tố
4.2.2 Thí nghiệm nhiều nhân tố
BÀI TẬP CỦNG CỐ

52
52
52
52
53
54
56
56
73
81

TÀI LIỆU THAM KHẢO
PHỤ LỤC

85
86

ii

41
45
47

47
48
48
49
50

Phân tích mẫu có thể suy ra các đặc tính của tổng thể với một mức độ
tin cậy xác định nào đó.
Biến ngẫu nhiên (random variance)
Là đại lượng bằng số mà giá trị của nó tùy thuộc vào sự lấy mẫu ngẫu
nhiên. Biến ngẫu nhiên gồm 2 loại là biến ngẫu nhiên liên tục và biến ngẫu
nhiên rời rạc.
Biến ngẫu nhiên liên tục là biến ngẫu nhiên mà giá trị của nó có
được từ các số liên tục. Biến liên tục có thể nhận giá trị bất kỳ trong
khoảng số thực.
Biến ngẫu nhiên rời rạc là biến ngẫu nhiên mà giá trị của nó có được
từ số liệu rời rạc, thường nó là những số nguyên dương.
1.1.2 Các số đo mô tả
Là những số được dùng để mô tả số liệu, các thuật ngữ thường được
sử dụng cho các số đo mô tả là tham số (mô tả của tập hợp) và số thống kê
(mô tả của một mẫu).
Đo khoảng cách (range)
Là số đo khoảng cách giữa số lớn nhất và nhỏ nhất của mẫu.
Đại lượng này cho biết thông tin về khoảng cách của số liệu.
Ví dụ 2: Một vùng có nhiệt độ từ -20oC đến 50oC => Range = 50(-20) = 70oC
Trung bình số học của mẫu (mean)
Trung bình là một số mà các giá trị của mẫu có xu hướng quy tụ
1 n

quanh nó, trung bình của mẫu có n phần tử được tính như sau: x = ∑ xi ,
n i =1
trong đó: x là trung bình mẫu; i có giá trị từ 1 đến n; xi là giá trị của mẫu ở
phần tử thứ i.
Trung bình của mẫu được tính theo tần số và tần suất:
k
1 k
=
x =
n
x
∑ i i ∑ xi fi trong đó fi là tần suất của các cá thể có cùng đại
n i 1 =i 1
=
lượng đo.
Số trung vị (median)
Số trung vị là số nằm ở giữa dãy số khi dãy số được sắp xếp từ nhỏ
đến lớn. Số trung vị cho kết quả nhanh về ước lượng trung bình mẫu.

2

Trong đó: t là giá trị của tiêu chuẩn Student cho trong bảng phân phối
Student. Sai số được tính như sau: SE = s / n
Ví dụ 6: Đo chiều dài của heo (45 kg) với số lượng mẫu n = 30, độ tin
cậy 95% thì giá trị t cho trong bảng phân bố là: t (0,05; 30) = 2,045. Nếu giá trị
trung bình 70 cm và phương sai 2,5 cm của mẫu thí nghiệm thì giá trị trung
bình của tổng thể được đánh giá như sau:
µ = x ± 2,045 (SE) = 70 ± 2,045 (2,5/ 30 ) = 70 ± 0,93

= 69,07-70,93
Hay nói cách khác, thí nghiệm cho số trung bình 70 cm, ta đánh giá
được chiều dài thực của heo nằm trong khoảng 69,07 cm đến 70,93 cm với
độ tin cậy 95%.
Chú ý: Khi số lượng mẫu n > 30 thì ta thay t bằng Z (là giá trị xác suất
của phân phối chuẩn cho sẵn trong bảng).
Hệ số biến động (coefficient of variation)
Hệ số biến động dùng để đánh giá sự biến thiên của độ lệch chuẩn so
với số trung bình mẫu, nó giúp ta so sánh sự biến thiên giữa hai mẫu độc lập
với đơn vị đo lường.
Hệ số biến động được tính bằng công thức CV ( % )=

s
×100
x

Ví dụ 7: Có hai máy đóng gói A và B, chưa biết máy nào làm việc ổn
định hơn về trọng lượng tịnh của sản phẩm. Lấy máy A số lượng n1 gói, máy
B là n2 gói và đo trọng lượng. Kết quả máy A x A cho = 21 g với SA = 3,2 g
tương tự cho máy B là 15 g và 3 g.
Nếu nhìn vào độ lệch chuẩn thì ta nói máy A ít ổn định hơn máy B do
máy A có độ lệch chuẩn cao hơn.
Nếu tính hệ số biến động:
CVA = 100 x 3,2/21 = 15,24%; CVB = 100 x 3/15 = 20%
Vậy máy A đóng gói ổn định về trọng lượng hơn máy B.
1.1.3 Ước lượng cỡ mẫu
Để ước lượng các tham số của tập hợp ta dựa vào đặc trưng của mẫu,
mẫu càng nhỏ thì giá trị ước lượng của tập hợp càng bị sai lệch, ngược lại
mẫu càng lớn thì giá trị ước lượng các tham số của tập hợp càng chính xác.

4

1.1.5 Thực hành sử dụng phần mềm Minitab để tính đặc trưng của mẫu
Ví dụ 9: khối lượng sơ sinh của heo (kg) được cân 11 con như sau:
1,6; 1,7; 1,65; 1,67; 1,89; 1,79; 1,78; 1,75; 1,68; 1,84; 1,87. Tính đặc trưng
của mẫu?
Xác định các đặc trưng của mẫu bằng phần mềm Minitab, cần thực
hiện các bước sau:
Bước 1: Nhập các dữ liệu vào worksheet theo cột đứng hoặc theo
hàng ngang.
Bước 2: Dùng lệch stat\basic statistics\display descriptive statistics,
sau đó chuyển biến vào variables và chọn các đặc trưng của mẫu.

Bước 3: Đọc kết quả ở phần session mà Minitab vừa tính xong.

Có thể tính đặc trưng mẫu cùng lúc nhiều biến.
6

1.2.2 Đường cong chuẩn
Hàm mật độ của đường cong chuẩn
Cho tổng thể biết trung bình µ và độ lệch chuẩn σ, hàm mật độ xác
 x−µ 
 2


−

1
2σ
=
×e 
P f=
( x)
suất của đường cong chuẩn x là:
σ 2π

Hàm f(x) có giá trị từ - ∞ đến + ∞ trong đó có 2 tham số µ và σ.

∫

+∞

−∞

f ( x).dx = 1

Tính chất của phân phối chuẩn
- Tổng diện tích dưới đường cong chuẩn bằng 1.
- Đường cong chuẩn kéo dài vô hạn về hai phía và tiệm cận với
trục hoành.
- Đường cong chuẩn có tham số µ và σ đối xứng qua µ, nên µ vừa là
trung bình, vừa là trung vị và vừa là mode.

Hình 1.1 Đồ thị của phân phối chuẩn

- Độ lệch chuẩn của biến x bằng σ, đặc trưng cho độ rộng của
đường cong.

- Hơn 99% diện tích dưới đường cong chuẩn có tham số µ và σ nằm
giữa µ-3σ và µ+3σ.
- Điểm uốn tại µ-σ và µ+σ.
8

Định lý giới hạn trung tâm
Đối với cỡ mẫu tương đối lớn, biến ngẫu nhiên X gần bằng phân
phối, bất chấp phân phối của tập hợp như thế nào. Cỡ mẫu càng gia tăng thì
biến X càng tiến gần đến phân phối.
Từ tổng thể theo phần phối bất kỳ với trung bình µ và phương sai σ2,
ta lấy mẫu cỡ n. Trung bình mẫu sẽ tiếp cận với phần phối chuẩn với trung
bình µ và phương sai σ2/n. Khi mẫu càng lớn thì phương sai mẫu càng nhỏ,
phân phối trung bình mẫu càng gần phần phối chuẩn. Thông thường khi
n ≥ 30 ta sẽ được xem trung bình mẫu theo phân phối chuẩn.
1.2.3 Phân phối nhị thức (binomial distribution)
Một biến ngẫu nhiên được gọi là theo phân phối nhị thức nếu nó là
biến ngẫu nhiên rời rạc có hàm mật độ xác suất như sau:
f(x, n, p) = Cnx px.(1-p)n-x
nếu x = 0, 1,…n.
n!
; n và p là 2 thông số của biến ngẫu nhiên,
x !(n − x)!
với n là số lần xuất hiện của một sự kiện nào đó và p là xác suất xuất hiện
của một sự kiện.
Trong đó: Cnx =

Khi n > 30, phân phối nhị thức gần với phân phối chuẩn hoặc khi
q = p = 0,5 phân phối nhị thức trở thành phân phối chuẩn.

Trung bình: µx = E(x) = n.p
2
Phương sai: σ x2 = E ( X − µ x ) = np (1 − p )= npq



Độ lệch chuẩn: σ x = npq
Ví dụ 11: Theo dõi heo đẻ, tổng số heo đẻ được 9 con, xác suất để heo
đẻ được con đực là 0,5. Tìm số trung bình, phương sai và độ lệch chuẩn của
lần đẻ được heo đực.
Trung bình: µx = E(x) = n.p= 9 x 0,5 = 4,5
Phương sai:
2
σ x2 =E ( X − µ x )  =np (1 − p ) =npq =9 × 0,5 × 0,5 =2, 25





Độ lệch chuẩn: σ x = npq = 9 × 0,51× 4, 49 = 2, 25 =1,5
10

Định lý: Gọi x1, x2, …, xn là mẫu ngẫu nhiên từ tổng thể theo phân
phối chuẩn với trung bình µ và phương sai σ2 thì:
(1) t =
(2) t =

x−µ

~ tn-1
s

x−µ
~ tn-1
s
n

Nếu x theo phân phối t với n độ tự do thì E(x) = 0 nếu n > 1 và
n
var(x) =
nếu n > 2.
n−2
Diện tích α

Cách sử dụng bảng t
df
1
2
3
4

t0.10

t0.05

t0.025

t0.01

1.886
2.353

Tóm lại: Có biến ngẫu nhiên X ~ N (µ , σ2).
Nếu biết được phương sai tổng thể thì:

x−µ

σ

~ N (0, 1).

Nếu không biết được phương sai tổng thể mà chỉ biết phương sai của
x−µ
x−µ
mẫu thì t =
~ tn-1 và t =
~ tn-1, khi cở mẫu càng lớn thì s → σ;
s
s
n
tn-1 → N (0, 1).
12

So sánh hai phân phối F và t: nếu độ tự do tử số của phân phối F bằng
1 và độ tự do mẫu số bằng n thì phân phối này tương đương với phân phối t
2
x − µ)

(
độ tự do n:
~ F(1, n-1) ~ (tn).
2
( yi − y )
∑ n −1

1.2.6 Phân phối χ2 – phân phối của phương sai (chi-square distribution)
Phân phối χ2 là phân phối có giá trị từ 0 đến + ∞, lệ thuộc vào độ
tự do.
Hàm mật độ xác suất: f ( x ) = ∫

14

n
x
−1
2
2

e
, trong đó Γ( x ) = ∫ t x −1e − t dt
n
2 Γ 
2
x
n
2

BÀI TẬP CỦNG CỐ
1.

Xét nghiệm kiểm tra số hồng cầu của bò (triệu/mm3 máu) trên một mẫu
gồm 10 con tại tỉnh Trà Vinh ta có được bảng số sau:
Số lượng hồng cầu
6,01
5,97
5,98
5,89
6,02

Số lượng bò được điều tra
3
2
1
2
2

Tính các số đo mô tả của mẫu?
2.

Cân trọng lượng heo lúc 2 tháng tuổi được chọn ngẫu nhiên từ trại thu
được kết quả như sau: 21; 20; 19; 22; 21; 20; 19; 20; 22; 23; 20; 24; 19;
20; 21; 22. Tính trung bình, phương sai, độ lệch chuẩn và sai số chuẩn
của trọng lượng heo trên?

3.

Tính trung bình, phương sai, độ lệch chuẩn, sai số chuẩn và hệ số biến
động của các số liệu sau: 6,13; 7,05; 7,48; 7,53; 7,58; 7,9; 8,08; 8,09;
8,11; 8,4; 10,15; 10,88; 7,48; 8,79; 9,19; 9,21.

4.

Cho X là biến ngẫu nhiên có phân phối chuẩn với µ = 2000 và σ = 200.
Tính:
a. P(X>2300)
b. P(1600
5.

Chiều cao nam giới khi trưởng thành ở một vùng dân cư là đại lượng
ngẫu nhiên có phân phối chuẩn với µ = 161 và σ = 6. Thanh niên được
coi là cao nếu có chiều cao lớn hơn 166 cm. Tìm tỉ lệ thanh niên cao ở
vùng đó.

6.

Trong lượng heo cai sữa theo phân phối chuẩn với trung bình µ = 11 kg
và phương sai là 4 kg. Trong đàn có 60 heo cai sữa, xác suất để tìm
được heo trên 13 kg là bao nhiêu? Và có bao nhiêu con có trọng lượng
trên 13 kg?

16

tìm xác suất để Ho được bao nhiêu (chấp nhận Ho nếu đúng bao nhiêu;

ngược lại bác bỏ Ho).
Giả thiết lựa chọn
Là giả thiết ngược lại với Ho: nghĩa là khi bác bỏ Ho thì chấp nhận H1.
Sai lầm loại I (type I error): α, là sai lầm khi bác bỏ giả thiết đúng.
α là mức sai số cho phép khi bác bỏ giả thiết đúng α = 0,05 hoặc α = 0,01.
Xác suất để sai lầm khi bác bỏ giả thiết đúng < 0,05 hoặc < 0,01 với mức α
còn gọi là mức ý nghĩa (significant level).
Sai lầm loại II (type II error): β, khi bác bỏ giả thiết Ho thì ta chấp
nhận H1 (giả thiết lựa chọn). Tuy nhiên không hẳn H1 đúng 100%. Như vậy
khi chấp nhận H1, nếu H1 sai thì ta phạm sai lầm khi chấp nhận giả thiết sai.
Đây là sai lầm loại II: β.
Quyết định
Chấp nhận
Bác bỏ

Giả thuyết Ho
Thực sự đúng
Quyết định đúng
Sai lầm loại I

Thực sự sai
Sai lầm loại II
Quyết định đúng

2.1.4 Các bước thực hiện kiểm định giả thiết
Bước 1: Đặt Ho (giả thuyết không) hoặc Ho và H1 (giả thuyết lựa chọn).
Bước 2: Chọn α.
Bước 3: Tìm số thống kê mà giá trị của nó tương quan đến xác suất
đúng của Ho.
Bước 4: Thế các giá trị của mẫu (x1, x2, …, xn) vào công thức của

thống kê.
Bước 5: Dựa vào phân phối xác suất của số thống kê và giá trị của nó
tương ứng với mẫu vừa nêu ở bước 4 để tìm xác suất để Ho đúng.
Bước 6: Kết luận dựa vào xác suất tìm được ở bước 5 để kết luận theo
tiêu chuẩn:
+ Bác bỏ Ho nếu P (Ho đúng) < α.
+ Chấp nhận Ho nếu (Ho đúng) > α.
2.1.5 So sánh số trung bình (mean testing)
So sánh số trung bình và một số cho trước (µo)
Vấn đề là ta chỉ biết được Χ là trung bình mẫu; là ước lượng của µ,
trung bình của tổng thể ( Χ thay đổi tùy theo mẫu). Ta so sánh số trung bình
này và một số cho trước. Ta thấy có 3 trường hợp:
18

Giáo trình Thống kê ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về