Tải bản đầy đủ (.docx) (27 trang)

xử lý số liệu thực nghiệm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (352.71 KB, 27 trang )

MỤC LỤC
1
1. CÁC ĐẠI LƯỢNG THỐNG KÊ CƠ BẢN
1.1. Các giá trị sai số
1.1.1. Sai số cơ bản
Sai số là sự chênh lệch của giá trị thực tế đo đạt được với giá trị chuẩn. Sự chênh lệch này
được biểu diễn theo hai cấp độ:
_ Sai số tuyệt đối:
_ Để biết mức độ chính xác người ta dùng sai số tương đối:
1.1.2. Giá trị trung bình (mean, average)
Số trung bình số học đơn giản là giá trị chia tổng tất cả các lượng biến quan sát được cho số
quan sát.
1.2. Phương sai (dispersion, variance)
Phương sai là trung bình của các độ lệch giữa các lượng biến và số trung bình số học của
lượng biến đó đượ tính bằng bình phương những hiệu số các giá trị riêng lẻ và giá trị trung
bình:
n là số thí nghiệm (n < 20); n - 1 là bậc tự do.
n là số thí nghiệm (n > 10); μlà giá trị thực.
1.3. Độ lệch chuẩn (standard deviation)
Độ lệch chuẩn là căn bậc hai của phương sai, và đây cũng là chỉ tiêu hoàn thiện nhất của
thống kê để tính trung bình phương các độ lệch. Hay còn gọi là sai số bình phương trung
bình đặc trung cho độ phân tán dữ liệu thực nghiệm:
hoặc
2
1.4. Độ lệch chuẩn tương đối (RSD) hay hệ số biến thiêng (CV)
Là hệ số tương đối so sánh độ lệch tuyệt đối trung bình (hoặc độ lệch chuẩn với trung bình
số học hay độ phân tán của số liệu so với giá trị trung bình:
1.5. Giới hạn tin cậy
Giới hạn tin cậy sử dụng chuẩn t-Student để làm biên giới tin cậy thông qua hệ số e. Hệ số e
còn được gọi là biên độ tối đa và tối thiểu của giá trị trung bình:
Như vậy khoảng tin cậy là:


VD: Một phương pháp mới để định lượng nhanh lưu huỳnh trong dầu hỏa được kiểm tra trên
một mẫu có thành phần đã biết từ phương pháp chuẩn bị mẫu chứa 0,123% S. Kết quả phân
tích như sau: 0,112; 0,118; 0,115; 0,119 %S. Các số liệu này chứng tỏ phương pháp phân
tích có sai lệch không?
Bài giải:
Σx = 0,112 + 0,118 + 0,115 + 0,119 = 0,464


Σx
i
2
= 0,012544 + 0,013924 + 0,13225 + 0,014161 = 0,053854

Ở mức độ tin cậy 95%, t = 3,18 ứng với bậc tự do là 3, như vậy:


VD: Gây nhiễm bia bằng cách thêm OTA vào 5 ml bia lượng đã biết trước các hàm
lượng, cho qua cột IAC, mỗi lượng thực hiện 2 lần. Tiến hành định lượng bằng huỳnh quang
kế lượng OTA trước khi qua cột và sau khi thu hồi được cho trong bảng sau:
Lượng OTA nhiễm vào 5 ml bia
(ng)
n
Lượng OTA thu hồi trung bình
(ng)
SD
3
4,42
10,33
22,9
48,67

2
2
2
2
4,86
10,52
20,89
37
0,3
0,13
1,42
8,2
Ta có thể tính giá trị trung bình () và độ phân tán (CV) qua bảng thực nghiệm trên:
=>
=>
=>
=>
2.PHÂN BỐ THỰC NGHIỆM
2.1. Phân bố chuẩn
Định nghĩa: X là biến ngẫu nhiên liên tục, được gọi là phân bố chuẩn nếu hàm mật độ xác
suất có dạng:
Trong đó: e=2,71828 µ: Trung bình tổng thể.
π= 3,1415 σ: Độ lệch chuẩn.
Ký hiệu: N (µ, σ
2
)
Tính chất:
E(x) = µ; Var(x) = σ
2
Nếu biến ngẫu nhiên X có phân phối chuẩn với E(x)= µ, Var(x) = σ

2
Ký hiệu: X~N(µ,σ
2
)
4
Điều này được thể hiện ở phân phối chuẩn hóa.
2.2. Phân bố chuẩn hóa
Biến ngẫu nhiên Z có phân phối chuẩn với E(x)=0, Var(z)=1, tức là Z~N(µ,σ
2
), thì Z được
gọi là tuân theo quy luật chuẩn hóa
F
z
(z) đối xứng qua trục tung, được thể hiện qua:
P
z
(Z ≥ z
0
) = 1 – P
z
(Z ≤ z
o
) = 1 – F
z
(z
o
)
Giá trị Z
o
: P

x
(0 ≤ Z < Z
α
) = α được cho trong bảng phân phối, cho phép tính xác suất của
biến ngẫu nhiên phân bố chuẩn hóa, phân bố chuẩn một cách dễ dàng.
Quan hệ giữa phân phối N(µ,σ
2
) và N(0,1)
Nếu Z~ N (µ,σ
2
) => ~N(0,1)
2.3. Phân bố Student (t)
Phân phối student (t) là phân phối xác suất liên hệ gần với phân phối chuẩn. Trong trườngh
ợp phương sai của tổng thể chưa biết, ta có thể thay thế độ chuẩn của tổng thể (σ) bằng độ
lệch chuẩn của mẫu (s), lúc này ta tính biến ngẫu nhiên t thay cho biến chuẫn Z:
Biến ngẫu nhiên t không theo phân phối chuẩn mà theo phân phối khác, Phân phối student t
là phân phối đối xứng qua trung bình bằng 0 và có độ tự do bằng (n – 1). Độ tự do càng lớn
(nghĩa là n lớn) thì phân phối t sẽ tiếp cận phân phối chuẩn.Trường hợp tổng quát, một biến
ngẫu nhiên có phân phối (t) với độ tự do (df):
P (t
v
> t
v,
α
) = α
Bảng giá trị t ứng với độ tin cậy α và bậc tự do f = n - 1
f P = 0,90 P = 0,95 P = 0,99
5
1
2

3
4
5
6
7
8
9
10
15
20
6,31
2,92
2,35
2,13
2,01
1,94
1,89
1,86
1,83
1,81
1,75
1,73
12,7
4,3
3,18
2,78
2,57
2,45
2,36
2,31

2,26
2,23
2,13
2,06
63,7
9,92
5,84
4,6
4,03
3,71
3,50
3,36
3,25
3,17
2,95
2,79
2.4. Phân bố F (Fisher)
Trong thực tế, khi sử dụng phương pháp so sánh trung bình 2 tập hợp thì có thể có trường
hợp giả định 2 tập hợp có phương sai bằng nhau hoặc tương đương nhau, tuy nhiên cũng có
trường hợp giả định phương sai không bằng nhau, trong những trường hợp như thế, các
nghiệm thức có thể làm ảnh hưởng đến phương sai cũng như trung bình. Ta phải dựa vào tỉ
số chênh lệch 2 độ lệch chuẩn:
F = S
2
/S
1
< 1,5
_ Nếu tỉ số trên F = S
2
/S

1
< 1,5 cho thấy phương sai 2 tập hợp gần bằng nhau;
_ Nếu tỉ số trên F = S
2
/S
1
> 1,5 cho thấy phương sai 2 tập hợp không bằng nhau;
Giả sử có hai mẫu A và B có cỡ mẫu n
1
và n
2
và hai phương sai s
1
và s
2
, chúng ta muốn biết
phương sai của 2 mẫu thuộc cùng một tập hợp hay là hai tập hợp khác nhau. Chúng ta phải
thực hiện kiểm định sự khác biệt giữa hai phương sai và dựa vào tỉ số F, còn gọi là tỉ số của
phương sai.
F = S
1
2
/S
1
2
F (n
1
– 1), (n
2
– 1) là phân phối F (fisher’s) với độ tự do n

1
– 1 và n
2
– 1
Vậy: là phân phối Fisher’s
Để so sánh 2 phương sai ta dùng tỉ số:
6
, trong đó tử số có giá trị lớn hơn.
Bảng giá trị F tương ứng với xác suất 95%(P=0,95) với các bậc tự do k
1
= n-1 và k
2
=n
2
-2
Giá trị f ở v
1
V
2
2 3 4 5 6

2 19,00 19,16 19,25 19,30 19,33 19,50
3 9,55 9,28 9,12 9,01 8,94 8,53
4 6,94 6,59 6,39 6,26 6,16 5,63
5 5,79 5,41 5,19 5,05 4,95 4,36
6 5,14 4,76 4,53 4,39 4,28 3,67

3,00 2,60 2,37 2,29 2,10 1,00
2.5. Phân bố Poisson
Trong một số phương pháp phân tích hiện đại, kết quả phép đo là các đại lượng nguyên rời

rạc, như đếm xung vi phân trong hóa phóng xạ, đếm lượng tử trong phân tích phổ
Rơnghen… Số liệu thực nghiệm trong các phương pháp này có đặc điểm như sau:
_ Kết quả trong tập số liệu là những số đếm các xự kiện xảy ra trong một khoảng thời gian.
_ Xác suất sự kiện xảy ra trong một đơn vị thời gian là như nhau với các khoảng thời gian
khác nhau.
_ Số sự kiện xảy ra trong khoảng thời gian này độc lập với khoảng thời gian khác.
Nếu lặp lại nhiều lần cùng một thí nghiệm thì mối quan hệ giữa giá trị đo và tần suất được
biểu diễn bằng hàm phân bố xác suất như sau:
Với: x = 0, 1, 2, 3… và là trung bình của số các sự kiện trong khoảng thời gian xét.
� là trung bình số lần biến cố nào đó mà ta quan tâm.
7
3. KIỂM TRA CÁC GIÁ TRỊ THỰC NGHIỆM
3.1. Chuẩn Dixon
Chuẩn Dixon dùng để kiểm tra các giá trị thực nghiệm còn nghi ngờ, hoặc loại trừ sai số thô
bạo, khi số thí nghiệm nhỏ (n < 10).
x
n
là giá trị nghi ngờ,
nó là giá trị lớn nhất
x
max
hoặc nhỏ nhất x
min
. Giá trị x
n+1
là giá trị lân cận của
x
n
. Nếu Q
tn

>Q
lt
(bảng 3.1) cần bỏ giá trị x
n.
Bảng 3.1: Bảng kiểm định Dixon
N 90% 95% 99%
3 0,941 0,970 0,994
4 0,765 0,829 0,926
5 0,642 0,710 0,821
6 0,560 0,625 0,740
7 0,507 0,568 0,680
8 0,468 0,526 0,634
9 0,437 0,493 0,598
10 0,412 0,466 0,568
VD: Những kết quả xác định hàm lượng % Fe
2
O
3
trong một mẫu là: 2,25; 2,19; 2,11; 3,21;
2,38; 2,32. Có giá trị sai số thô bạo nào không?
Ta có: x
max
= 3,21; x
min
=2,11. Q
lt
= 0,625.
Vậy Q > Q
lt
, giá trị x

max
= 3,21 là sai số thô bạo bị loại bỏ.
Vậy Q
min
< Q
lt
, giá trị x
min
không phải là sai số thô bạo nên giữ lại.
8
3.2. Chuẩn Grubb:
Chuẩn Grubb dùng để kiểm tra các giá trị thực nghiệm còn nghi ngờ, hoặc loại trừ sai số thô
bạo, khi số thí nghiệm nhỏ (n < 10).
x
n
là giá trị nghi ngờ, nó là giá trị lớn nhất x
max
hoặc nhỏ nhất x
min
. Giá trị x
n+1
là giá trị lân cận
của x
n
. Nếu Q
tn
>Q
lt
(bảng) cần bỏ giá trị x
n

.
9
3.3. Chuẩn t-Test:
Các sai số thô bạo thường rơi vào các giá trị cực đại hay cực tiểu, dùng công thức sau để loại
trừ: T
tn
= (x
max
– x)/ SD hay T
tn
= (x – x
min
)/ SD.
Nếu T
tn
< T
lt
=> Số liệu được giữ lại và ngược lại.
Bảng 2.3: Bảng kiểm định t-Test
n n
3 1,414 1,412 12 2,633 2,387
4 1,723 1,689 13 2,714 2,426
5 1,955 1,869 14 2,759 2,426
6 2,130 1,996 15 2,800 2,493
7 2,625 2,093 16 2,837 2,523
8 2,374 2,172 17 2,871 2,551
9 2,464 2,237 18 2,903 2,577
10 2,540 2,292 19 2,932 2,600
11 2,606 2,343 20 2,959 2,623
VD1: Đề bài giống VD


trên
Ta có: n = 6; P = 0,95 => t
α
= 1,996
T
tn
= (x
max
- ) / SD = (3,21 – 2,41) / 0,4 = 2
T
tn
> t
lt
(2 > 1,996) => x
max
là sai số thô bạo cần loại bỏ.
T
tn
= ( - x
min
) / SD = (2,41 – 2,11) / 0,4 = 0,75
T
tn
< t
lt
(0,75 < 1,996) => x
min
không phải là sai số thô bạo nên giữ lại.
10

⇒ t
tn
> t
lt
: Phương pháp mắc sai số hệ thống.
11
4. KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
4.1. So sánh các giá trị thực nghiệm
4.1.1. Chuẩn Fischer
Chuẩn F dùng để so sánh độ lặp lại của 2 dãy thì nghiệm, bằng cách so sánh tỷ số hai
phương sai.
D
1

phương sai
lớn hơn ứng
với độ tự do
k
1
= n
1
– 1; D
2
là phương sai bé hơn ứng với bậc tự do k
2
= n
2
– 1; Do đó
giá trị F luôn lớn hơn 1.
Nếu F

tn
> F
α
(bảng 4.1.1) thì độ chính xác của 2 dãy số liệu là khác nhau
và ngược lại.
Bảng 4.1.1: Bảng phân bố Fisher F
1-p
với p = 0.05
12
k
2
k
1
1 2 3 4 5 6 12 24

1 164,4 199,5 215,7 224,6 230,2 234,0 224,9 249,0 254,3
2 18,5 19,2 19,2 19,3 19,3 19,3 19,4 19,5 19,5
3 10,1 9,6 9,3 9,1 9,0 8,9 8,7 8,6 8,5
4 7,7 9,6 6,6 6,4 6,3 6,2 5,9 5,8 5,6
5 6,6 5,8 5,4 5,2 5,2 5,0 4,7 4,5 4,4
6 6,0 5,1 4,8 4,5 4,4 4,3 4,0 3,8 3,7
7 5,6 4,7 4,4 4,1 4,0 3,9 3,6 3,4 3,2
8 5,3 4,5 4,1 3,8 3,6 3,6 3,3 3,1 2,9
9 5,1 4,3 3,9 3,6 3,5 3,4 3,1 2,9 2,7
10 5,0 4,1 3,7 3,5 3,3 3,2 2,9 2,7 2,5
11 4,8 4,0 3,6 3,4 3,2 3,1 2,8 2,6 3,4
12 4,8 3,9 3,5 3,3 3,1 3,0 2,6 2,5 2,3
13 4,6 3,8 3,4 3,2 3,0 2,9 2,6 2,4 2,2
14 4,6 3,7 3,3 3,1 3,0 2,9 2,5 2,3 2,1
15 4,5 3,6 3,3 3,1 2,9 2,8 2,5 2,3 2,1

16 4,5 3,6 3,2 3,0 2,9 2,7 2,4 2,2 2,0
17 4,5 3,6 3,2 3,0 2,8 2,6 2,4 2,2 2,0
18 4,4 3,6 3,2 2,9 2,8 2,6 2,3 2,1 1,9
19 4,4 3,5 3,1 2,9 2,6 2,6 2,3 2,1 1,8
20 4,4 3,5 3,1 2,9 2,6 2,6 2,3 2,1 1,8
VD1: Theo kết quả 6 lần phân tích CaCO
3
, bằng phương pháp A và phương pháp B, ta thu
được kết quả như sau:
_ Phương pháp A: n
1
= 9 và phương sai D
1
2
= 0,634; k
1
= n
1
– 1 = 8
_ Phương pháp B: n
2
= 12 và phương sai D
2
2
= 0,245; k
2
= n
2
– 1 =11
Hai phương pháp có khác nhau không?

Ta có: F
α
= 2,95
Vậy F < F
α
(2,59 < 2,95). Hai phương pháp cho kết quả giống nhau.
13
4.1.2. Chuẩn student
Chuẩn t-Tsudent thường được dùng:
_ So sánh giá trị trung bình thực nghiệm và giá trị thực:
Nếu t
tn
< t
α
(bảng 3.3) sự khác nhau là không có ý nghĩa.
Nếu t
tn
> t
α
(bảng 3.3) sự khác nhau là có ý nghĩa.
_ So sánh hai giá trị trung bình của hai dãy thí nghiệm:
Nếu t
tn
< t
α
(bảng 3.3) sự khác nhau là không có ý nghĩa.
Nếu t
tn
> t
α

(bảng 3.3) sự khác nhau là có ý nghĩa.
_ So sánh sự khác biệt khi sử dụng hai phương pháp khác nhau để xác định 1 mẫu:
d là sự khác biệt giữa hai phương pháp xác định cùng 1
mẫu. Với d
tb
là sự khác biệt trung bình giữa hai phương
pháp.
VD: Định lượng Cholesterol trong 6 mẫu máu, người ta sử dụng hai phương pháp A và B
cho kết quả:
TT
Phương pháp
A B
Sai biệt
(d
i
)
TT
Phương pháp
A B
Sai biệt
(d
i
)
1
2
3
1,46
2,22
2,84
1,42

2,38
2,67
0,04
0,16
0,17
4
5
6
1,97
1,13
2,35
1,80
1,09
2,25
0,17
0,04
0,10
Hai phương pháp có khác nhau không? T
α
= 1,2.
Ta có: d
tb
= (0,04 + 0,16 + 0,17 + 0,17 + 0,04 + 0,10) / 6 = 0,113
=> t > t
α
=> Phương pháp A khác phương pháp B.
14
• Tính giới hạn tin cậy :
Thí dụ : Phép xác định Ni trong thép cho kết quả :
• Tính P ứng với KTC cho trước và f cho trước :

15
4.2. Chênh lệch cho phép của hai lần xác định song song
4.2.1. Hai lần đo song song trong phép đo thông thường
R
max
= aSD
a là hệ số cho trong bảng 4.2.
R
max
là biên độ cực đại cho phép.
Yêu cầu:x
1
– x
2
< R
max
4.2.2. Trong thực tế làm ít lần xác định
R
max
= bR
b là hệ số cho trong bảng 4.2.
R là biên độ trung bình của nhiều lần phân tích.
16
Bảng 4.2: Hệ số dùng cho chênh lệch cho phép giữa hai lần xác định
n n
1 2,77 3,64 1 2,46 3,23
2 3,31 4,12 2 1,96 2,43
3 3,63 4,40 3 1,76 2,14
4 3,86 4,60 4 1,66 1,98
VD: Định lượng Nitơ hai lần ta có kết quả sau: 2,96% và 3,19%; cho biết R của hai phương

pháp qua nhiều lần phân tích là 0,057
Ta có: P = 0,95 và n = 2; ta có b = 1,96.
R
max
= 1,96 x 0,057 = 0,112%.
R’ = 3,19 – 0,23 = 0,23%.
Vậy: R’ > R
max
(0,23 > 0,112) => Một trong hai lần xác định sai.
4.2.3. Hai lần đo song song để thử độ đúng
Tiến hành đo song song trên cùng một mẫu đã được làm đồng nhất của cùng một lô mẫu và
được thực hiện bởi cùng một kiểm nghiệm viên bằng cùng phương pháp có độ lệch chuẩn là
SD, cho kết quả x
1
và x
2
, giá trị thực (lý thuyết) của hoạt chất trong mẫu là x
o
= 100%.
Yêu cầu:
+ R = x
1
– x
2
= R
max
= 3,31 SD (hệ số 3,31 tính cho n = 2; P = 0,95).
+ .
Trong đó: _ x
o

là giá trị thực.
_ 1,96 là giá trị giới hạn trên (up) của phân bố bình thường với P = 0,95.
_ SD là độ lệch chuẩn.
_ k là hệ số giới hạn tin cậy trên của SD cho trong bảng với P = 0,95 và bậc tự
do f = n-1.
Bảng hệ số k (giới hạn trên của độ lệch chuẩn SD)
f=n - 1 f=n - 1
1
2
3
4
5
15,947
4,415
2,920
2,372
2,089
79,786
9,975
5,111
3,669
3,033
6
7
8
9
10
1,915
1,797
1,711

1,645
1,593
2,623
2,377
2,204
2,076
1,977
VD: Một quy trình thử nghiệm có độ lệch là SD = 1,0% với n = 7 lần xác định. Hai lần xác
định song song cho kết quả là 97% và 98,8%. Giá trị lý thuyết là 100%. Kết quả trên có sai
số hệ thống trong phép đo hay không?
BG
Kiểm tra hai giá trị đo đạt:
R= 97 – 98,8 = 1,8%
R
max
= 3,31 SD = 3,31 x 0,01 = 3,31%
=> R
max
> R’ (3,31 > 1,8). Hai số liệu trên chấp nhận được.
X = (97 + 98,8)/ 2 = 97,9%
So sánh với giá trị lý thuyết 100%:
R’ = 97,9 – 100 = 2,1%
Ta có n = 7 => f = 7 – 1 = 6; P = 0,95 => k = 1,915.
R’
max
= (1,96 x 1,915 x 0,01)/ √2 = 2,65%
=> R’ < R’
max
(2,1 < 2,65). Hai số liệu chấp nhận được.
Vậy ta có độ đúng là 97,9% ± 2,65% tương đương 95 ~ 100%.

4.3. Phân tích phương sai
Phân tích phương sai, như tên gọi là một phương pháp phân tích thống kê mà trọng điểm là
phương sai (thay vì số trung bình). Phương pháp phân tích phương sai nhằm ước tính và so
sánh các giá trị phương sai hay là ước tính và so sánh các giá trị trung bình. Phân tích
phương sai nằm trong mô hình tuyến tính bao gồm cả hồi quy tuyến tính mà ta đã gặp.
Ngoài ra chúng ta sẽ làm quen cách sử dụng R trong phân tích phương sai để xét mức độ
tương thích của các giá trị.
4.3.1. Phân tích phương sai 1 yếu tố
Phương pháp phân tích phương sai khác với phương pháp trắc nghiệm t-student hay fischer
là có thể phân tích nhiều giá trị trung bình hay phương sai cùng một lúc trong khi đó 2
phương pháp trên phải xét theo từng cặp với số lượng có thể lên đến rất lớn.
X
1
X
2
… X
j
X
11
X
21
:
:
X
i1
X
12
X
22
:

:
X
i2

X
1j
X
2j
:
:
X
ij
Kiểm định giả thuyết thống kê: H
o
: µ
1
= µ
2
= µ
3

Để minh họa cho phương trình phân tích phương sai, chúng ta phát biểu theo biểu thức:
Y
ij
= µ + α
i
+ E
ij
Y
ij

– Giá trị quan sát (của phần tử thứ j thuộc dân số thứ i)
µ - Giá trị trung bình (của dân số thứ i)
α
I
- Ảnh hưởng của yếu tố khảo sát
E
ij
– Sai số ngẫu nhiên
Bảng phân tích phương sai
Nguồn sai số DF SS MS TR
Yếu tố
Sai số
k-1
N-k
SSA
SSE
MSA
MSE
F = MSA/MSE
Tổng cộng N-1 SST
4.3.2. Phân tích phương sai 2 yếu tố không lặp
4.3.3. Phân tích phương sai 2 yếu tố có lặp
Tương tự như bài toán phân tích phương sai 2 yếu tố không lặp, chỉ khác mỗi mức đều có sự
lặp lại r lần thí nghiệm và ta cần khảo sát thêm sự tương tác (interaction term) F
AB
giữa 2 yếu
tố A và B.
Mô hình thực nghiệm:
Yếu tố A
Yếu tố B

1 Y
111
Y
121
Y
131
… Y
1a1
… … … … …
Y
r11
Y
r21
Y
r31
… Y
ra1
2 … … … … …
Y
r12
Y
r22
Y
r32
… Y
ra2
… … … … … …
Y
11b
Y

12b
Y
13b
… Y
1ab
… … … … …
b Y
r1b
Y
r2b
Y
r3b
… Y
rab
Bảng phân tích phương sai:
Nguồn sai số DF SS MS TR
Yếu tố A
Yếu tố B
AxB
Sai số
a-1
b-1
(a-1)(b-1)
ab(r-1)
ASS
BSS
ABSS
ESS
AMS
BMS

ABMS
EMS
F
A
=AMS/EMS
F
B
=BMS/EMS
F
AB
=ABMS/EMS
Tổng cộng Rab - 1 TSS
4.4. Phân tích tương quan
Công cụ này có thể chỉ ra một tập số liệu có liên quan tới một tập số liệu khác hay không.
Công cụ correlation kiểm tra từng dữ liệu thực nghiệm với những điểm dữ liệu tương ứng
trong một tập dữ liệu khác.
Trong phân tích tương quan người ta đề cập đến cường độ của mối quan hệ giữa X và Y
dưới dạng phương trình toán học, từ đó ta có thể dự đoán được biến Y chỉ phụ thuộc vào 1
biến X và dạng phương trình hồi quy là phương trình đường thẳng (khác với các tương quan,
hồi quy bội và phi tuyến).
4.4.1. Tương quan tuyến tính
Đồ thị phân tán của biến Y đối với biến X là tập hợp các điểm M(x
i
, y
i
) trong hệ tọa độ
vuông góc:
Gọi X,Y là cặp giá trị các biến ngẫu nhiên với số trung bình là µ
x
, µ

y
và phương sai là σ
x
2
,
σ
y
2
. Để đo lường mức độ quan hệ giữa X và Y người ta dùng đại lượng hiệp tương quan
(covariance) và hệ số tương quan (correlation coefficent).
Hệ số tương quan đánh giá mức độ liên quan:
Tính chất: |R| thể hiện mức độ liên quan với
< 0,7 ít liên quan
0,7 – 0,8 khá liên quan
0,8 – 0,9 Liên quan chặt chẽ
> 0,9 Liên quan rất mạnh mẽ
Hệ số tương quan có thể là một số dương nếu cả 2 tập số liệu ảnh hưởng lẫn nhau cùng
hướng trong toàn bộ tập số liệu và ngược lại nếu một số âm. Tập hợp các giá trị di chuyển
càng gần nhau thì giá trị R càng lớn. -1 < R < 1, nếu R = 1 tức là các giá trị di chuyển chính
xác với nhau, nếu R = -1 tức là các giá trị di chuyển theo hai hướng đối lập nhau.
4.4.2. Hồi quy đa tham số
Phân tích hồi quy (regression analysis): giải thích sự liên quan tuyến tính giữa x và y, sau đó
dự đoán giá trị của y từ giá trị biết trước của x. Các mô hình hồi quy tuyến tính thường được
thành lập bằng phương pháp bình phương cực tiểu (least-squares method):
Y – biến phụ thuộc (dependent variable)
X – biến độc lập (independent variable)
Tổng bình phương các sai số trong phân tích hồi quy (TSS) bao gồm hai phần: giải thích
được (RSS) và không giải thích được (ESS):

VD: Để thực hiện một phản ứng tổng hợp hữu cơ Willgerodt Kindler, người ta tiến hành ở

các điều kiện sau:
Điều kiện - 0 +
Nhiệt độ phản ứng (
o
C), x
1
Tỷ lệ amin/ hợp chất ceton (mol/ mol), x
2
150
1,0
165
1,5
180
2,0
Kết quả phản ứng dược dẫn ra dưới bảng sau:
STT Nhiệt độ phản ứng (
o
C),x
1
Tỷ lệ amin/ hợp chất ceto
(mol/mol), x
2
Hiệu suất (%), Y
1
2
3
4
5
6
7

8
150
180
150
180
150
180
150
180
1,0
1,0
2,0
2,0
1,0
1,0
2,0
2,0
81
89
83
91
79
87
84
90
Hãy cho biết yếu tố thời gian có liên quan tuyến tính với hiệu suất của phản ứng tổng
hợp không? Nếu có thì ở điều kiện nhiệt độ 160
o
C và tỷ lệ mol amin/ hợp chất ceton là 1,5
thì hiệu suất phản ứng là bao nhiêu?

Biện luận:
T
o
= 5,726 > t
0,05
(tra bảng student) = 2,365 (hay P-value = 0,001 < α = 0,05) => Không
chấp nhận giả thuyết H
o
.
T
1
= 5,359 > t
0,05
(tra bảng student) = 2,365 (hay P-value = 0,002 < α = 0,05) => Không
chấp nhận giả thuyết H
o.
F = 28,723 > F 0,05 (tra bảng Fischer) = 5,590 (hay F
s
= 0,002 < α = 0,05) => Không
chấp nhận giả thuyết H
o
. =
Vậy cả hai hệ số B
o
và B
1
của phương trình Y = 44,25 + 0,25X
1
đều có ý nghĩa thống
kê. Hay phương trình hồi quy tương ứng vối thực nghiệm trên.

=> Yếu tố nhiệt độ tương quan tuyến tính với hiệu suất của phản ứng.
4.5. Điều kiện có nghĩa của chữ số
Một giá trị số học dùng biểu diễn kết quả phân tích sẽ không có nghĩa nếu không biết độ
chính xác của nó. Do vậy, khi biểu diễn cần phải ghi rõ độ tin cậy của số liệu và các số liệu
cần được làm tròn để chỉ mức độ không chắc chắn của nó (uncertanly). Nói cách khác, số
liệu chỉ được chứa các số có ý nghĩa. Số có ý nghĩa trong một dãy số là tất cả các số chắc
chắn đúng và số không chắc chắn đúng đầu tiên.
4.5.1. Số có nghĩa
Gồm các chữ số tự nhiên 1,2,…9. Số “không” có thể là số có nghĩa hoặc không phải là số có
nghĩa phụ thuộc vào vị trí của nó trong dãy số.
• Nếu số “không” nằm giữa các số khác là số có nghĩa.
• Nếu số “không” nằm ở cuối dãy số thì thì chỉ là số có nghĩa nếu đứng sau dấu
phẩy.
• Nếu số “không” nằm trước dấu thập phân thì không phải là số có nghĩa.
Làm tròn số: Là loại bỏ các số không có nghĩa trong kết quả.
• Nếu bỏ các số 6,7,8,9, thì tăng giá trị trước nó lên 1 đơn vị.
• Nếu loại bỏ các số 1,2,3,4, thì không thay đổi con số đứng trước nó.
• Nếu loại bỏ số 5 thì làm tròn số trước đó về số chẵn gần nhất.
4.5.2. Cách lấy giá trị gần đúng
Đại lượng đo trực tiếp: Đại lượng đo được phải đọc hoặc đo, đếm được. Số liệu thí nghiệm
được ghi theo nguyên tắc số cuối cùng là số gần đúng và số trước số cuối cùng là số chính
xác.
Đại lượng đo gián tiếp:
• Phép tính cộng vả trừ: làm tròn số thành số chính xác và ghi số có nghĩa theo giá
trị nào có ít số có nghĩa nhất.
• Phép nhân và chia: kết quả của phép nhân và phép chia được làm tròn số sao cho
nó chứa số có nghĩa như là giá trị có ít số có nghĩa nhất (khi tính độ bất ổn tuyệt
đối không tính đến dấu thập phân).
Phép tính logrit và ngược logrit:
• Logrit: lấy các chữ số sau dấu phẩy bằng tổng các số có nghĩa trong số ban đầu.

• Ngược logrit: lấy các số có nghĩa bằng số các chữ số sau dấu phẩy.
4.6. Sự lan truyền sai số
Tất cả các kết quả phân tích định lượng thu được từ thực nghiệm đều có chứa sai số ngẫu
nhiên. Vì vậy, các giá trị được báo cáo thường là giá trị trung bình viết đúng số có nghĩa
kèm theo sai số ngẫu nhiên của giá trị đó. Thông thường chúng được viết: (SD độ lệch
chuẩn).
Ngoài ra, khi số thí nghiệm lặp lại lớn, kết quả phân tích còn được trình bày dưới dạng: .
Tuy nhiên, kết quả định lượng thu được từ thực nghiệm trong rất nhiều phép đo không phải
là kết quả của phép đo trực tiếp mà có thể được tính toán từ một hay nhiều phép đo trực tiếp.
Mặt khác, mỗi số liệu thu được trong các phép tính đều có độ lệch chuẩn riêng, vì vậy phải
xét đến lan truyền sai số gây ra cho kết quả cuối cùng. Giả sử kết quả trực tiếp a,b,c,… là
các số liệu thu được từ các phép đo trực tiếp M
1
, M
2
, M
3
… Gọi x là giá trị cuối cùng tính
toán được từ các giá trị kết quả riêng rẽ a,b,c… Khi đó x là hàm phụ thuộc vào các tham số
a,b,c…
Gọi σ
a
, σ
b
, σ
c
… là độ lệch chuẩn của các phép đo trực tiếp xác định a,b,c… Và giả thuyết là
sai số trong các phép đo này độc lập lẫn nhau thì độ lệch chuẩn của đại lượng x là:
Theo định luật lan truyền sai số, biểu thức này đúng khi x là hàm tuyến tính của các phép đo
a,b,c…). Cách tính độ lệch chuẩn của đại lượng x này tùy thuộc vào dạng công thức tính

đem sử dụng.
Độ lệch chuẩn của tổng và hiệu:
X = a
1
.a (± SD
a
) + b
1
.b (± SD
b
) – c
1
.c (± SD
c
) với a
1
, b
1
, c
1
là các hằng số thì độ lệch chuẩn
của x là:
Độ lệch chuẩn của phép nhân và chia: thì:
Khi đó, kết quả sẽ đượci bểu diễn dưới dạng:
Độ lệch chuẩn của phép tính logarit:

×