Dr. V Hng Sn - HBK HN 1
1
Xử lý
số liệu thực nghiệm
(giảng cho sv cao học - Ngành CNTP-CNSH)
Bộ môn Quản lý chất lợng
2
Mục đích, yêu cầu
- Bổ sung và nâng cao kiến thức cho học viên để lựa
chọn các phơng pháp xử lý số liệu thích hợp trong điều
kiện thí nghiệm của mình.
- Học viên đ học qua các kiến thức thống kê ứng
dụng cơ bản, biết sử dụng máy tính và làm bài tập trên
những phần mềm thống kê ứng dụng: SAS, SPAD, SPSS,
STATISTICA
-
Đ tốt nghiệp Kỹ s Công nghệ CB Thực phẩm và
học các môn: Phân tích Cảm quan TP; Kiểm tra CLTP
Dr. V Hng Sn - HBK HN 2
3
Cấu trúc môn học
Lý thuyết
Chơng I. Một số kiến thức cơ bản về số liệu
Chơng II. Các chuẩn thống kê so sánh
Chơng III. Phân tích các thành phần chính
Chơng IV. Phân tích tơng quan đa biến
Chơng V. Kỹ thuật phân nhóm
Thực hành
- Các bài tập trên lớp
- Các bài tập tự làm
4
tài liệu tham khảo
EUGENE L.G., RICHARD S.L., 1988, Statistical Quality Control, 6th
édi., McGraw-Hill Publishing Company, Printed in the United States of
America.
MERTON R.H., 1990, Statistical Quality Control for the Food
Industry, Published by Van Nostrand Reinhold, New York, Printed in
the United States of America.
MICHAEL OMAHONY, 1985, Sensory Evaluation of Food: Statiscal
Methodes and Procedures, Marcel Dekker, Inc. New York and Basel.
GEORGE W. SNEDECOR, WILLIAM G. COCHRAN, 1967, Méthodes
Statistiques, 6ème édition, The Iowa state University Press Ames,
Iowa, USA.
ABDI H., 1987, Introduction au Statistique des données
expérimentales, Press universitaires de grenoble, france
Dr. V Hng Sn - HBK HN 3
5
tài liệu tham khảo
JEAN de LAGARDE, 1983, Initiation à lanalyse des données, Bordas,
Paris.
MAXIMA LAMOTTE, 1971, Initiation aux Méthodes Statistiques en
Biologie, 2e édi., MASSON & Cie éditeurs, Paris.
PIERRE DAGNELIE, 1992, Statistique Théorique et Appliquée, Tom 1,
Les presses Agronomique de Gembloux, Belgique.
PIERRE DAGNELIE, 1994, Théorie et Méthodes Statistiques, Vol. 2, les
presses Agronomique de Gembloux, Belgique.
Foucart t., 1997, lanalyse des données mode demploi, Press
universitaires de rennes, france
Hà duyên t, 2006, quản lý chất lựơng trong công nghiệp thực
phẩm, Nxb. Khoa học kỹ thuật, hà nội
Hà duyên t, 2006, phân tích cảm quan thực phẩm, Nxb. Khoa học kỹ
thuật, hà nội
6
Chơng 1
một số kiến thức cơ bản về số liệu
1.1. tập hợp số liệu
1.1.1. Tập hợp số liệu thí nghiệm và kiểm tra
- Phân tích, kiểm tra TP hóa học, hóa lý, năng xuất
- một hay nhiều đại lợng
1.1.2. phân loại các đại lợng
- danh nghĩa, thứ bậc, hứu tỷ
- đếm đợc và đo đợc, mô tả
1.1.3. mục đích của phép đo
- so sánh, kiểm tra, phân loại
- hiệu chỉnh
1.1.4. sự phân tán và sai số
- do mẫu, do dụng cụ và phơng pháp
- yêu cầu của dụng cụ: trung thực, đúng đắn, chính
xác, nhạy, tái lập
cần Xử lý ?
Dr. V Hng Sn - HBK HN 4
7
1.2. Một số phép đo độ phân tán của số liệu
1.2.1. Sự phân tán hay sự biến thiên
- xu hớng dao động xung quanh một trung tâm
1.2.2. Khoảng mở (Độ mở)
R= Xmax - Xmin
1.2.3. Độ lệch trung bình
Em =
1.2.4. Độ lệch toàn phơng
s =
1 2.5. Phơng sai
s
2
N
XX
n
j
j
=
1
( )
N
XX
n
j
=
1
2
8
99.7 %
68 %
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
à
àà
à -3
à
àà
à -2
à
àà
à -
à
àà
à à
àà
à +
à
àà
à +2
à
àà
à +3
normal(x)
95 %
Standard Deviation
Dr. Vũ Hồng Sơn - ðHBK HN 5
9
Median (trung vị)
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Median = 5 Median = 5
pnsi
xx
pnsixxmed
pp
p
2
2
12 )(
)1()(
)1(
=
+
=
+
=
=
+
+
Là con số ñứng giữa dãy phân phối
10
Mode
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Mode = 9
0 1 2 3 4 5 6
Without Mode
Là giá trị phổ biến nhất, có tần số lớn nhất trong dãy phân phối
Dr. Vũ Hồng Sơn - ðHBK HN 6
11
Skewness
Skewness
•
•
Measure of asymmetry of a frequency distribution
Measure of asymmetry of a frequency distribution
•
•
Skewed to left
Skewed to left
•
•
Symmetric or
Symmetric or
unskewed
unskewed
•
•
Skewed to right
Skewed to right
Kurtosis
Kurtosis
•
•
Measure of flatness or
Measure of flatness or
peakedness
peakedness
of a frequency
of a frequency
distribution
distribution
•
•
Platykurtic
Platykurtic
(relatively flat)
(relatively flat)
•
•
Mesokurtic
Mesokurtic
(normal)
(normal)
•
•
Leptokurtic
Leptokurtic
(relatively peaked)
(relatively peaked)
Hệ số bất ñối xứng (Skewness)
Hệ số nhọn (Kurtosis)
12
• ðộ lệch (skewness) ño lường ñộ lệch của phân phối về một
trong hai phía.
• Phân phối lệch trái (negative skew, left-skewed) khi ñuôi phía
trái dài hơn, và phần lớn số liệu tập trung ở phía phải của
phân phối.
• Phân phối lệch phải (positive sknew, right-skewed) khi ñuôi
phía phải dài hơn, và phần lớn số liệu tập trung ở phía trái
của phân phối.
• Khi lệch phải, giá trị sknewness dương; khi lệch trái, giá trị
skewness âm. ðộ lệch càng lớn thì giá trị sknewness càng
khác 0.
• Với phân phối chuẩn, ñộ lệch gần như nhận giá trị 0
Hệ số bất ñối xứng (Skewness)
Dr. Vũ Hồng Sơn - ðHBK HN 7
13
Skewed to left
Skewness
6 0 05 0 04 0 03 0 02 0 01 0 0
3 0
2 0
1 0
0
x
F re que ncy
Mean < median < mode
14
Skewness
Dr. Vũ Hồng Sơn - ðHBK HN 8
15
• ðộ nhọn (kurtosis) ño lường mức ñộ
nhọn hay bẹt của phân phối so với phân
phối bình thường (có ñộ nhọn bằng 0)
• Phân ph
ối có dạng nhọn khi giá trị
kurtosis dương
• Phân ph
ối có dạng bẹt khi giá trị
kurtosis âm
Hệ số nhọn (Kurtosis)
16
Kurtosis
3 .72 .92 . 11 . 30 . 5- 0 . 3- 1 . 1- 1 . 9- 2 . 7- 3 . 5
7 0 0
6 0 0
5 0 0
4 0 0
3 0 0
2 0 0
1 0 0
0
X
F re q ue nc
y
Platykurtic - flat distribution
Dr. Vũ Hồng Sơn - ðHBK HN 9
17
Kurtosis
43210- 1- 2- 3- 4
5 0 0
4 0 0
3 0 0
2 0 0
1 0 0
0
X
F re q ue nc
y
Mesokurtic - not too flat and not too peaked
18
• Với phân phối bình thường, giá trị của ñộ lệch và ñộ nhọn
bằng 0.
• Căn cứ trên tỷ số giữa giá trị skewness và kurtosis và sai số
chuẩn của nó, ta có thể ñánh giá phân phối có bình thường
hay không (
khi tỷ số này nhỏ hơn -2 và lớn hơn +2, phân phối
là không bình thường).
Skewness/SE Skewness (SE skewness=SQRT(6/N)
Kurtosis/SE Kurtosis (SE kurtosis=SQRT(24/N)
ðo lường dạng hình của phân phối
(Measures of Shape)
Dr. V Hng Sn - HBK HN 10
19
Chơng 2
một số chuẩn thống kê so sánh
2.1. So sánh các tần số quan sát
2.1.1. Giới thiệu
2 =
2.1.2. Một số ví dụ ứng dụng
- SO SáNH 2 LÔ SảN PHẩM Từ 2 DCSX
- mứC Độ ƯA THíCH CủA 2 SảN PHẩM
- Số KHUẩN LạC TRÊN CáC CANH TRờng khác nhau
(
)
k
j
jj
e
eO
1
2
Tn s lý thuyt =
Tng hng x Tng ct
Tng ln
20
2.2. So sánh hai trung bình - kiểm định
t-student
Trng hp 2 mu ủc lp
1. Kim ủnh phng sai
vi qui c phng sai1 >phng sai 2
Vi
F
b
tra bng mc =5%, bc t do f
1
=n
1
-1, f
2
=n
2
-1
Nu F<F
b
2 phng sai bng nhau
Nu FF
b
2 phng sai khỏc nhau
2
2
2
1
S
S
F =
( )
(
)
=
=
=
n
x
x
n
xx
n
S
i
i
n
i
i
2
2
1
2
2
1
1
1
1
Dr. Vũ Hồng Sơn - ðHBK HN 11
21
2. Hai mu ñc lp có phng sai bng nhau
Group 1 Group2
x
11
x
21
x
12
x
22
x
13
x
23
x
14
x
24
x
15
x
25
…
x
1n
x
2n
Sample size n
1
n
2
Mean x
1
x
2
SD s
1
s
2
Mean difference:
D = x
1
– x
2
Variance of D:
(
)
(
)
2
11
21
2
22
2
11
2
−+
−+−
=
nn
snsn
s
T-statistic:
+
−
=
21
2
21
11
nn
s
xx
t
22
Produc A Product B
106 110
98 134
108 122
104 104
120 118
124 131
108 114
96
100
N 9 7
Mean 107.1 119.0
SD 9.49 10.88
Mean difference:
D = 119.0 – 107.1 = 11.9
Variance of D:
(
)
(
)
2.102
2
7
9
88.10649.98
22
2
=
−
+
+
=s
T-statistic:
34.2
7
1
9
1
2.102
9.11
=
+
=t
t
b,5%,14
=2.15
Conclusion:
Significant difference
Dr. Vũ Hồng Sơn - ðHBK HN 12
23
3. Hai mu ñc lp có phng sai khác nhau
Group 1 Group2
x
11
x
21
x
12
x
22
x
13
x
23
x
14
x
24
x
15
x
25
…
x
1n
x
2n
Sample size n
1
n
2
Mean x
1
x
2
SD s
1
s
2
Mean difference:
D = x
1
– x
2
Variance of D:
2
2
2
1
2
1
2
n
S
n
S
s +=
T-statistic:
+
−
=
2
2
2
1
2
1
21
n
S
n
S
xx
t
11
2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1
−
+
−
+
=
n
n
S
n
n
S
n
S
n
S
f
24
Produc A Product B
28 12
17 7
36 11
23 10
27 11
N 5 5
Mean 26.2 10.2
SD 6.98 1.92
Mean difference:
D = 26.2 – 10.2 = 16
T-statistic:
t
b,5%,5
=2.57
Conclusion:
Significant difference
01.5
5
92.1
5
98.6
2.102.26
22
=
+
−
=t
(
)
(
)
(
)
56.4
4
5
92.1
4
5
98.6
5
92.1
5
98.6
2
2
2
2
2
22
≈=
+
+
=f
Dr. Vũ Hồng Sơn - ðHBK HN 13
25
Trường hợp 2 mẫu tương quan, so sánh cặp
Subject Before After Diff.
1 x
01
x
11
x
01
-x
11
2 x
02
x
12
x
02
-x
12
3 x
03
x
13
x
03
-x
13
4 x
04
x
14
x
04
-x
14
5 x
05
x
15
x
05
-x
15
…
n x
0n
x
1n
x
0n
-x
1n
Mean x
0
x
1
x
d
SD s
0
s
1
s
d
Mean difference:
D = x
1
– x
2
ns
x
t
d
d
/
=
26
Paired samples
• The problem: Viewing certain meats under red light might
enhance judges preferences for meat. 12 judges were asked to
score the redness of meat under red light and white light
Results:
Judge Red White
1 20 22
2 18 19
3 19 17
4 22 18
5 17 21
6 20 23
7 19 19
Judge Red White
8 16 20
9 21 22
10 17 20
11 23 27
12 18 24
• Question: Was there an effect of light?
Dr. V Hng Sn - HBK HN 14
27
Paired samples analysis
1.832119.2Mean
2.822.82.1SD
624 18 12
42723 11
32017 10
12221 9
42016 8
01919 7
32320 6
42117 5
-41822 4
-21719 3
11918 2
22220 1
DifferenceWhite lightRed lightJudge
Mean difference: 1.83, SD: 2.82
Standard error (SE):
SD/sqrt(n) = 2.82/sqrt(12) =
0.81
t-test = |1.83|/0.81 = 2.23
t
b,5%
= 2.201
Conclusion: there was a
significant effect of light colour.
28
2.3. So sánh nhiều trung bình
2.3.1. Phân tích phơng sai
Phơng pháp phân tích phơng sai do Ficher đa ra nhằm kiểm tra
sự khác nhau giữa một tập hợp mẫu. Phân tích phơng sai cho phép
chấp nhận hay loại bỏ giả thuyết không H
o
, đó là giả thuyết cho
rằng các mẫu có thể đợc coi là đ lấy ra từ trong một tập hợp. Có
nghĩa là các mẫu không khác nhau. Ngợc lại là các mẫu có khác
nhau tùy theo mức ý nghĩa lựa chọn.
2.3.2. MộT Số MÔ HìNH PHÂN TíCH PHƯƠNG SAI
- Mô hình 1 tác nhân tác động độc lập (cùng cỡ mẫu, khác cỡ mẫu)
- Mô hình 2 tác nhân tác động độc lập
- Mô hình 2 tác nhân tác động tổng hợp
Dr. Vũ Hồng Sơn - ðHBK HN 15
29
M« h×nh 1 t¸c nh©n t¸c ®éng ®éc lËp (cïng cì mÉu,
kh¸c cì mÉu)
30
M« h×nh 2 t¸c nh©n t¸c ®éng ®éc lËp
• Bố trí số liệu: hàng là các mức của nhân tố thứ
nhất, cột là các mức của nhân tố thứ hai.
Dr. Vũ Hồng Sơn - ðHBK HN 16
31
M« h×nh 2 t¸c nh©n t¸c ®éng tæng hîp
32
Dr. Vũ Hồng Sơn - ðHBK HN 17
33
Plan S(A)
1098111210910128129810913WithI
4435264643164435NoI
M151413121110987654321S
A
•NoI: Không uống bia
•WithI: Có uống bia
34
Plan S(A)
S(A)S(A)
S(A)
AS
Y
M
S
Y
MYYYY
a
a
A S
asa
S
s
as
.
1
;;; ====
∑∑∑
=
0
1
2
3
4
5
1 2 3 4 5 6 7 8 9 10 11 12 13
Y
1,6
M
1.
M
Dr. Vũ Hồng Sơn - ðHBK HN 18
35
Plan S(A)
S(A)S(A)
S(A)
• Y1,6 – M = (Y1,6 – M1.) + (M1. – M )
• Yas – M = (Yas – Ma.) + (Ma. – M )
(
)
( )
( ) ( )
[ ]
( ) ( )
∑ ∑∑∑
∑∑
∑∑
∑
−+−=
−+−=
−=
=
−
−
=
2
2
.
2
2
2
2
1
_
MMMYSS
MMMYSS
MYSS
df
SS
N
MY
SVariance
aaastotal
a s
aaastotal
a s
astotal
SS
total
= SS
bet
+ SS
with
36
Plan S(A)
S(A)S(A)
S(A)
( )
with
bet
cal
with
with
with
with
bet
bet
bet
bet
MS
MS
F
SA
SS
df
SS
MS
A
SS
df
SS
MS
=
−
==
−
==
1
;
1
ANOVA Table
29338Total
2.432868
Within S(A)
111.182701270
Between (
((
(A)
))
)
F
cal
MS
df
SSSource
F
0.05
(1, 28)
= 4.20
Dr. Vũ Hồng Sơn - ðHBK HN 19
37
Plan S(A)
S(A)S(A)
S(A)
∑
==
a
a
sYAasYI ;/;/
2
.
2
(
)
IA
as
Y
s
Y
as
Y
as
Y
s
Y
as
YY
as
Y
s
Y
as
YY
sa
Y
s
Y
s
MMMMSMMSS
a
a
a
a
a a
aa
a
aa
a s a
aaabet
−=−=
−+=
−+=
−+=
−+=−=
∑
∑
∑ ∑
∑
∑
∑
∑
2
2
.
2
2
2
.
2
2
.
2
22
2
2
2
.
2
2
.
2
2
2
)2(
)2(
38
Plan S(A)
S(A)S(A)
S(A)
∑∑∑
===
a s
as
a
a
YASsYAasYI
22
.
2
;/;/
( )
as
Y
YSS
s
Y
YMYSS
as
Y
s
Y
SS
a s
astotal
a a
a
a s
as
s
aaswith
a
a
bet
2
2
2
.
2
2
.
2
2
.
−=
−=−=
−=
∑∑
∑ ∑∑∑∑
∑
Dr. Vũ Hồng Sơn - ðHBK HN 20
39
Plan S(A)
S(A)S(A)
S(A)
• Summary
AS-Ias-1
Total
AS-A/
//
/a(s-1)
AS-Aa(s-1)
S(A)
S(A)S(A)
S(A)
MS
A
/MS
S(A)
A-I/
//
/a-1
A-Ia-1
A
AA
A
F
cal
MSSSdf
Source of
variance
∑ ∑∑
===
a a s
asa
YASsYAasYI
22
.
2
;/;/
40
Plan S*A
S*A S*A
S*A –
––
– Mod
ModMod
Modè
èè
èle
lele
le II
• Summary
MS
S
/MS
S*A
S-I/s-1S-Is-1
S
SS
S
AS-Ias-1
Total
AS-A-S+I/(a-1)(s-1)AS-A-S+I(a-1)(s-1)
S*A
S*AS*A
S*A
MS
A
/MS
S*A
A-I/a-1A-Ia-1
A
AA
A
F
cal
MSSSdf
Source of
variance
∑ ∑∑∑
====
a a s
asa
s
s
YASsYAaYSasYI
22
.
2
.
2
;/;/;/
Dr. Vũ Hồng Sơn - ðHBK HN 21
41
EXERCISES
Total
191245193
S
6
162247199
S
5
160219197
S
4
243199109
S
3
217219172
S
2
217231165
S
1
Totala
3
a
2
a
1
A
AA
A
S
SS
S
Memory-Beer:
A
AA
A
: Type of beer drunk
(a
1
: Tiger, a
2
: Placebo, a
3
: Laser)
S
SS
S
: Subject
How about the effect of
A, S
A, SA, S
A, S
and
interaction
S
SS
S
*
A
A A
A
?
42
EXERCISES
17
Total
TotalTotal
Total
1163.9011639.010
AS
ASAS
AS
271.841359.25
S
SS
S
3.7844404.158808.32
A
AA
A
PrFMSSSdf
Source of
variance
Dr. V Hng Sn - HBK HN 22
43
2.4. Khái niệm tơng quan và hồi quy
2.4.1. Biểu đồ phân bố
Sau đây chúng tôi giới thiệu một ví dụ và cách tính rất
tổng quát đối với các cặp giá trị x và y đo đợc bất kỳ, không theo
một trình tự nào.
8
9
10
11
12
13
14
15
10 15 20 25 30
Biểu đồ phân tán
44
2.4. Khái niệm tơng quan và hồi quy
2.4.2. Khái niệm về tơng quan và hệ số tơng quan
Điểm trung tâm M trong biểu đồ phân tán
Hệ số tơng quan
R =
9
10
11
12
13
14
15
18 20 22 24 26 28
I
IIIII
IV
M
x,y
9
10
11
12
13
14
15
18 20 22 24 26 28
I
IIIII
IV
M
x,y
x
y
(
)
(
)
2
2
2
2
ynyxnx
yxnxy
Dr. Vũ Hồng Sơn - ðHBK HN 23
45
2.4. Kh¸i niÖm t−¬ng quan vµ håi quy
2.4.3. Kh¸i niÖm vÒ ®−êng håi quy vµ hÖ sè håi quy
1
Biến phụ thuộc
Biến ñược g/thích
Biến ñược dự báo
Biến ñược hồi quy
Biến phản ứng
Biến nội sinh
2
Biến ñộc lập
Biến giải thích
Biến dự báo
Biến hồi quy
Biến tác nhân
Biến ngoại sinh
46
6. Ước lượng các tham số hồi quy
Dr. Vũ Hồng Sơn - ðHBK HN 24
47
iiiii
XYYYe
21
ˆ
ˆ
ˆ
ββ
−−=−=
Sai số
( )
min
ˆˆ
2
1
21
1
2
→−−=
∑∑
==
n
i
ii
n
i
i
XYe
ββ
Tìm
21
ˆ
,
ˆ
ββ
sao cho tổng bình phương sai số là
nhỏ nhất
Tức là
6. Ước lượng các tham số hồi quy
48
ðiều kiện ñể phương trình trên ñạt cực trị là:
0)(2
)(
0)(2
)(
21
1
2
1
2
21
1
1
1
2
=−−−=
∂
∂
=−−−=
∂
∂
∑
∑
∑
∑
=
=
=
=
i
n
i
ii
n
i
i
i
n
i
i
n
i
i
XYX
e
XY
e
ββ
β
ββ
β
))
)
))
)
∑ ∑∑
∑
∑
+=
+=
2
21
21
ˆˆ
ˆˆ
iiii
ii
XXYX
XnY
ββ
ββ
6. Ước lượng các tham số hồi quy
Dr. Vũ Hồng Sơn - ðHBK HN 25
49
Giải bài toán cực trị hàm hai biến, ta ñược
XY
XnX
YXnXY
XX
YYXX
n
i
i
n
i
ii
n
i
i
n
i
ii
21
1
22
1
1
2
1
2
ˆˆ
).(
)(
))((
ˆ
ββ
β
−=
−
−
=
−
−−
=
∑
∑
∑
∑
=
=
=
=
Với
n
X
X
i
∑
=
là giá trị trung bình của X
n
Y
Y
i
∑
=
là giá trị trung bình của Y
6. Ước lượng các tham số hồi quy
50
Ví dụ: Quan sát về thu nhập (X – triệu ñồng/năm) và chi
tiêu (Y – triệu ñồng/năm) của 10 người, ta ñược các số
liệu sau :
X
i
31 50 47 45 39 50 35 40 45 50
Y
i
29 42 38 30 29 41 23 36 42 48
ii
XY
21
ˆˆ
ˆ
ββ
+=
Xây dựng hàm hồi quy mẫu
ii
XY 9549,04517,5
ˆ
+−=
6. Ước lượng các tham số hồi quy