Tải bản đầy đủ (.doc) (71 trang)

BÁO CÁO THỰC TẬP-TIỂU LUẬN TIN HỌC ỨNG DỤNG CÔNG NGHỆ THỰC PHẨM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (557.76 KB, 71 trang )

Báo cáo thực hành tin ứng dụng
B ài 1:
> power.t.test(delta=0.1,sd=0.5,sig.level=0.05,power=0.8,type='one.sample')
One-sample t test power calculation
n = 198.1513
delta = 0.1
sd = 0.5
sig.level = 0.05
power = 0.8
alternative = two.sided
Kết luận: Như vậy, chúng ta cần phải có 198 thùng nước mắm để đạt các mục tiêu
trên.
B ài 2:
Ta có:
)
Trong ví dụ này,chúng ta có sai số m=0.05, =0.60,và số lượng cỡ mẫu cần thiết cho
nghiên cứu là:
=368.7936
Kết luận: Vây, chúng ta cần nghiên cứu ít nhất là 369 đối tượng.
Bài 3:
# sai số 5 phút, độ lệch chuẩn là căn bậc 2 của 20, a= 0.05, power=0.8
> power.t.test(delta=5, sd=sqrt(20), sig.level=.05,power=.90,type='one.sample')
One-sample t test power calculation
n = 10.51421
delta = 5
sd = 4.472136
sig.level = 0.05
power = 0.9
alternative = two.sided
Kết luận: Từ phân tích R cho thấy n= 10.51 vì vậy cỡ mẫu bằng 11 thì cô chủ hàng
có thể đạt khoảng tin cậy như mong muốn. Như vậy trong bài cô chủ sử dụng cỡ mẫu


là 15 người nên đạt khoảng tin cậy.
B ài 4:
Chúng ta có p1=0.60,p2=(0.1*0.6+0.6)=0.66, =0.05,power=0.80.
> power.prop.test(p1=0.60,p2=0.66,power=0.80,sig.level=0.05)
Two-sample comparison of proportions power calculation
1
Báo cáo thực hành tin ứng dụng
n = 1015.25
p1 = 0.6
p2 = 0.66
sig.level = 0.05
power = 0.8
alternative = two.sided
NOTE: n is number in *each* group
Kết luận : Kết quả cho thấy, nếu chỉ có 500 người thì không đủ để thực hiện khảo
sát.Vậy ta cần có khoảng 1015 đối tượng để đạt các mục tiêu trên.
B ài 5:
Chúng ta có sai số m=0.05, =4/25=0.16,và số lượng cỡ mẫu cần thiết cho nghiên cứu
là:
=206.524416
Kết luận: Vây, chúng ta cần nghiên cứu ít nhất là 207 đối tượng.
B ài 6:
>groupmeans<-c(8.2,6.6,7.3)
>power.anova.test(groups=length(groupmeans),between.var=var(groupmeans),with
in.var=15.6,power=0.9,sig.level=0.05)
Balanced one-way analysis of variance power calculation
groups = 3
n = 154.4241
between.var = 0.6433333
within.var = 15.6

sig.level = 0.05
power = 0.9 NOTE: n is number in each group
Kết luận: kết quả cho thấy các nhà nghiên cứu cần khoảng 155 đối tượng cho mỗi
miền (tức 462 đối tượng cho toàn bộ nghiên cứu). Vậy số người đưa ra là 600 đã đủ
để thực hiện nghiên cứu này.
Bài 7 :
Trong bài này ta có sai số m = 0.01, pˆ = 0.9.
Số lượng cỡ mẫu cần thiết cho nghiên cứu
n ≥ (1.96/0.1)² × 0.1 × 0.9 = 35
Kết luận: Vậy cần ít nhất là 35 mẫu để ước lượng tỉ lệ này.
Bài 8:
Ta có sai số là:250-244=6g, độ lệch chuẩn 5,α=0.05,power=0.95
> power.t.test(delta=6,sd=5,sig.level=0.05,power=0.95,type='one.sample')
One-sample t test power calculation
2
Báo cáo thực hành tin ứng dụng
n = 11.14375
delta = 6
sd = 5
sig.level = 0.05
power = 0.95
alternative = two.sided
Kết luận: Kết quả trên cho ta thấy chỉ cần có 11 thanh chocolate để kiểm tra là đã đạt
các mục tiêu trên.
Như vậy,ta costheer khẳng định máy tự động sản xuất ra các thanh chocolate có trọng
lượng nhỏ hơn quy định.
Bài 10:
> d.moi<-gl(2,5)
> d.moi
[1] 1 1 1 1 1 2 2 2 2 2

Levels: 1 2
> h.suat=c(68,63,74,66,69,52,84,58,84,62)
> data=data.frame(d.moi,h.suat)
> data

> shapiro.test(h.suat)
Shapiro-Wilk normality test
data: h.suat
W = 0.9466, p-value = 0.628
*P-value>0.05: số liệu h.suat tuân theo phân phối chuẩn.
> var.test(h.suat~d.moi)
F test to compare two variances
data: h.suat by d.moi
F = 0.073, num df = 4, denom df = 4, p-value = 0.02652
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.007601502 0.701215677
sample estimates:
ratio of variances
0.07300885
*p-value<0.05 nên hiệu suất của cồn va ete khác phương sai
> t.test(h.suat~d.moi)
Welch Two Sample t-test
data: h.suat by d.moi
t = 0, df = 4.581, p-value = 1
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
3
Báo cáo thực hành tin ứng dụng
-18.40595 18.40595

sample estimates:
mean in group 1 mean in group 2
68 68
*p-value>0.05 nen hieu suat trich ly polyphenol cua dung moi con va ete va su khac
biet khong co y nghia thong ke
Kết luận:
Dùng dung môi nào đều được vì hiệu suất trích ly giống nhau.
> xbar <- tapply(h.suat, d.moi, mean)
> s <- tapply(h.suat, d.moi, sd)
> n <- tapply(h.suat, d.moi, length)
> sem <- s/sqrt(n)
> stripchart(h.suat ~ d.moi,ylim=range(0:85),sub="hiệu suất trích ly polyphenol của 2
dung môi",xlab="dung môi", pch=F, vert=TRUE)
> arrows(1:2, xbar+sem, 1:2, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:2, xbar, pch=4, type="b", cex=2)
1 2
0 20 40 60 80
hiệu suất trích ly polyphenol của 2 dung môi
dung môi
h.suat
Bài 11:
> phugiax<-c(1.1,0.99,1.05,1.01,1.02,1.07,1.10,0.98,1.03,1.12)
> doichung<-c(1.25,1.31,1.28,1.2,1.18,1.22,1.22,1.17,1.19,1.21)
> data<-data.frame(phugiax,doichung)
> data
> shapiro.test(phugiax)
Shapiro-Wilk normality test
data: phugiax
W = 0.9428, p-value = 0.5849
4

Báo cáo thực hành tin ứng dụng
=>vì p-value=0.5849>0.05 nên phụ gia x là hàm phân phối chuẩn.
> shapiro.test(doichung)
Shapiro-Wilk normality test
data: doichung
W = 0.9231, p-value = 0.3831
=> vì p-value=0.3831>0.05 nên đối chứng là hàm phân phối chuẩn.
> t.test(doichung,phugiax,paired=TRUE)
Paired t-test
data: doichung and phugiax
t = 8.7467, df = 9, p-value = 1.078e-05
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
0.1304812 0.2215188
sample estimates:
mean of the differences
0.176
=>kết quả trên cho thấy p-value=1.078e-05<0.05 nên việc sử dụng phụ gia x là có ý
nghĩa thống kê.
> mean(phugiax)
[1] 1.047
> mean(doichung)
[1] 1.223
=> mean(doichung)>mean(phugiax) vì vậy ta không nên sử dụng phụ gia x trong
quá trình chế biến.
> par(mfrow=c(1,2))
> hist(phugiax)
> hist(doichung)
5
Báo cáo thực hành tin ứng dụng

Histogram of phugiax
phugiax
Frequency
0.95 1.05 1.15
0 1 2 3 4
Histogram of doichung
doichung
Frequency
1.15 1.25 1.35
0 1 2 3 4
Bài 12:
> enzyme<-rep(c(1,2,3,4),c(6,5,5,4))
> enzyme
[1] 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 4 4 4 4
Levels: 1 2 3 4
>enzyme<-as.factor(enzyme)
> thuyphan<-c(17,18,17,20,19,18,14,15,16,15,14,19,20,16,18,19,16,15,16,18)
> data12<-data.frame(enzyme,thuyphan)
> data12
> shapiro.test(thuyphan)
Shapiro-Wilk normality test
data: thuyphan
W = 0.9408, p-value = 0.2483
# p-value >0.05 nên thuy phan có số liệu phân phối chuẩn
#ta tiến hành phân tích phương sai
> pt<-lm(thuyphan~enzyme)
> anova(pt)
Analysis of Variance Table
Response: thuyphan
Df Sum Sq Mean Sq F value Pr(>F)

enzyme 3 44.417 14.806 10.045 0.000581 ***
Residuals 16 23.583 1.474

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
6
Báo cáo thực hành tin ứng dụng
# qua số liệu phân tích cho thấy p < 0.05 nên sự khác biệt của dữ liệu pt có ý nghĩa
thống kê ở mức ý nghĩa 5%, để biết rõ sự khác biệt như thế nào ta tiến hành phân tích
Tukey.
> res<-aov(thuyphan~enzyme)
> TukeyHSD(res)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = thuyphan ~ enzyme)
$enzyme
diff lwr upr p adj
2-1 -3.3666667 -5.469957 -1.2633765 0.0015805
3-1 0.2333333 -1.869957 2.3366235 0.9885102
4-1 -1.9166667 -4.158781 0.3254482 0.1080820
3-2 3.6000000 1.403185 5.7968149 0.0012695
4-2 1.4500000 -0.880074 3.7800741 0.3179286
4-3 -2.1500000 -4.480074 0.1800741 0.0758907

Bảng giá trị thống kê 1
Enzyme Acid amin tổng số (mg/kg)
A 18.17
a
± 1.17
B 14.80
b

± 0.84
C 18.40
a
± 1.52
D 16.25
ab
± 1.26
Chú thích
Loại a b
A X
B X
C X
D X X
Kết luận:Ta chọn loại enzyme A,C vì 2 loại này có khả năng thủy phân giống nhau
và khả năng thủy phân cao.

> xbar <- tapply(thuyphan, enzyme, mean)
> s <- tapply(thuyphan, enzyme, sd)
> n <- tapply(thuyphan, enzyme, length)
> sem <- s/sqrt(n)
>stripchart(thuyphan ~ enzyme,ylim=range(0:21),sub="khả năng thủy phân của 4
loại protein",xlab="enzyme", pch=F, vert=T)
> arrows(1:4, xbar+sem, 1:4, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:4, xbar, pch=4, type="b", cex=2)
7
Báo cáo thực hành tin ứng dụng
1 2 3 4
0 5 10 15 20
khả nang thủy phân của 4 loại protein
enzyme

thuyphan
Bài 13:
> n.do=rep(c(1,2,3),c(7,7,7))
> t.no=c(68,80,69,76,68,77,60,71,62,58,74,65,59,57,58,60,70,51,57,71,61)
> n.do=as.factor(n.do)
> data=data.frame(n.do,t.no)
>data
> shapiro.test(t.no)
Shapiro-Wilk normality test
data: t.no
W = 0.959, p-value = 0.4958
#P-value >0.05 nên t.no tuân theo phân phối chuẩn
> khanang=lm(t.no~n.do)
> anova(khanang)
Analysis of Variance Table
Response: t.no
Df Sum Sq Mean Sq F value Pr(>F)
n.do 2 377.52 188.762 3.9733 0.03722 *
Residuals 18 855.14 47.508

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#P= 0.03722 < 0.005 nên sự khác biệt về khả năng trương nở của 3 nồng độ phụ gia
có ý nghĩa thống kê
> res=aov(t.no~n.do)
> TukeyHSD(res)
Tukey multiple comparisons of means
95% family-wise confidence level
8
Báo cáo thực hành tin ứng dụng
Fit: aov(formula = t.no ~ n.do)

$n.do
diff lwr upr p adj
2-1 -7.428571 -16.83138 1.9742350 0.1369187
3-1 -10.000000 -19.40281 -0.5971936 0.0361071
3-2 -2.571429 -11.97423 6.8313778 0.7677005
Bảng giá trị thống kê 2
Nồng độ phụ gia (%) Khả năng trương nở (%)
0.5 71.14
a
±6.89
0.3 63.71
ab
±6.63
0.1 61.14
b
±7.15
Chú thích:
a b
0.5 X
0.3 X X
0.1 X
Kết luận:Ta thấy ở nồng độ 0.3 giống ở 0.1 và 0.5 nhưng khả năng trương nở lại cao
hơn ở 0.1 đồng thời nồng độ phụ gia nhiều sẽ không tốt nên hạn chế nồng độ do đó ta
chọn nồng độ 0.3% phụ gia để thêm vào trong quá trình sản xuất.
> xbar <- tapply(t.no, n.do, mean)
> s <- tapply(t.no, n.do, sd)
> n <- tapply(t.no, n.do, length)
> sem <- s/sqrt(n)
> stripchart(t.no ~ n.do,ylim=range(0:81),sub="khả năng trương nở của
bánh",xlab="nong do", pch=16, vert=TRUE)

> arrows(1:3, xbar+sem, 1:3, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:3, xbar, pch=4, type="b", cex=2)
9
Báo cáo thực hành tin ứng dụng

Bài 14:
> izozym<-
c(3.45,3.58,3.59,3.62,3.59,3.57,3.21,2.74,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.2
1,2.74,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.21,2.74,3.29,3.48,3.45,3.58,3.59,3.6
2,3.59,3.57,3.57,3.59,3.58,3.67,3.69,3.74,3.58,3.68,3.59,3.58,3.74,3.75,3.61,3.78,3.6
7,3.69,7.74,3.58,3.68,3.59,3.58,3.58,3.68,3.59,3.58,3.74,3.75,3.61,3.78,3.67,3.69,3.7
4,3.58,3.68)
> median(izozym)
[1] 3.59
> data<-izozym-3.59
> data
[1] -0.14 -0.01 0.00 0.03 0.00 -0.02 -0.38 -0.85 -0.30 -0.11 -0.14 -0.01
[13] 0.00 0.03 0.00 -0.02 -0.38 -0.85 -0.30 -0.11 -0.14 -0.01 0.00 0.03
[25] 0.00 -0.02 -0.38 -0.85 -0.30 -0.11 -0.14 -0.01 0.00 0.03 0.00 -0.02
[37] -0.02 0.00 -0.01 0.08 0.10 0.15 -0.01 0.09 0.00 -0.01 0.15 0.16
[49] 0.02 0.19 0.08 0.10 4.15 -0.01 0.09 0.00 -0.01 -0.01 0.09 0.00
[61] -0.01 0.15 0.16 0.02 0.19 0.08 0.10 0.15 -0.01 0.09
#Quan sát data ta thấy có 2 sự chênh lệch khá rõ, một là số liệu ban đầu thấp hơn
0.85 đơn vị so với median, hai là cao hơn 4.15 đơn vị so với median. Vì vậy ta cần
loại bỏ các sai số này ra khỏi số liệu ban đầu. Ta có số liệu mới như sau:
> loaimau<-rep(1:2,c(32,34))
> loaimau<-as.factor(loaimau)
> izozym<-
c(3.45,3.58,3.59,3.62,3.59,3.57,3.21,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.21,3.2
9,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.21,3.29,3.48,3.45,3.58,3.59,3.62,3.59,3.57,3.5

7,3.59,3.58,3.67,3.69,3.74,3.58,3.68,3.59,3.58,3.74,3.75,3.61,3.78,3.67,3.69,3.58,3.6
8,3.59,3.58,3.58,3.68,3.59,3.58,3.74,3.75,3.61,3.78,3.67,3.69,3.74,3.58,3.68)
10
Báo cáo thực hành tin ứng dụng
> data1<-data.frame(loaimau,izozym)
> data1
> shapiro.test(izozym)
Shapiro-Wilk normality test
data: izozym
W = 0.8533, p-value = 1.535e-06
#Kết quả trên cho ta thấy số liệu izozym không thuộc phân phối chuẩn vì trị số P nhỏ
hơn 0.05.
> wilcox.test(izozym~loaimau)
Wilcoxon rank sum test with continuity correction
data: izozym by loaimau
W = 187, p-value = 4.112e-06
alternative hypothesis: true location shift is not equal to 0
Warning message:
In wilcox.test.default(x = c(3.45, 3.58, 3.59, 3.62, 3.59, 3.57, :
cannot compute exact p-value with ties
Kết luận:p-value<0.05 nên sự khác biệt giữa hàm lượng izozym trong 2 nhóm có ý
nghĩa thống kê.
Giữa mẫu thí nghiệm và mẫu đối chứng có sự khác nhau về hàm lượng izozym EST
trong máu ngoại vi.
Bài 15:
> mdat <- matrix(c(15,132,93,32,145,62), nrow = 2, ncol=3, byrow=TRUE,dimnames =
list(c("hương chanh dây", "hương vani"),c("hơi thích", "thích", "rất thích")))
> mdat
hoi thích thích rất thích
huong chanh dây 15 132 93

huong vani 32 145 62
> chisq.test(mdat)
Pearson's Chi-squared test
data: mdat
X-squared = 12.957, df = 2, p-value = 0.001536
# vì trị số p-value = 0.001536 < 0.05 nên sự khác biệt giữa hai loại hương liệu có ý
nghĩa thống kê.
>barplot(mdat,sub="chế biến mứt rau câu",xlab="mức độ ưa thích")
11
Báo cáo thực hành tin ứng dụng
hoi thích thích rất thích
chế biến mứt rau câu
mức dộ ua thích
0 50 100 150 200 250
Bài 16:
>
saponin=c(7.53,6.87,7.12,7.53,6.84,6.67,7.81,5.87,5.64,6.14,6.07,5.79,6.13,6.35,6.50
,6.49,6.55,11.33)
> median(saponin)
[1] 6.525
> data<-saponin-6.525
> data
[1] 1.005 0.345 0.595 1.005 0.315 0.145 1.285 -0.655 -0.885 -0.385
[11] -0.455 -0.735 -0.395 -0.175 -0.025 -0.035 0.025 4.805
#Quan sát data ta thấy có sự chênh lệch khá rõ, một là số liệu ban đầu cao hơn 4.805
đơn vị so với median. Vì vậy ta cần loại bỏ các sai số này ra khỏi số liệu ban đầu. Ta
có số liệu mới như sau:
> loaimau <- c(1,1,1,1,1,1,1,2,2,2,2,2,3,3,3,3,3)
> loaimau<-as.factor(loaimau)
>

saponin=c(7.53,6.87,7.12,7.53,6.84,6.67,7.81,5.87,5.64,6.14,6.07,5.79,6.13,6.35,6.50
,6.49,6.55)
> nhansam=data.frame(loaimau,saponin)
> attach(nhansam)
The following object(s) are masked _by_ '.GlobalEnv':
loaimau, saponin
> shapiro.test(saponin)
Shapiro-Wilk normality test
data: saponin
12
Báo cáo thực hành tin ứng dụng
W = 0.9556, p-value = 0.5512
# vì p-value = 0.0001137< 0.05 nên saponin không thuộc phân phối chuẩn.
# giả sử saponin thuộc phân phối chuẩn.ta có
> analysis <- lm(saponin ~ loaimau)
> anova(analysis)
Analysis of Variance Table
Response: saponin
Df Sum Sq Mean Sq F value Pr(>F)
loaimau 2 5.1069 2.5535 25.561 2.122e-05 ***
Residuals 14 1.3986 0.0999

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> res <- aov(saponin ~ loaimau)
> TukeyHSD (res)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = saponin ~ loaimau)
$loaimau
diff lwr upr p adj

2-1 -1.2937143 -1.77809314 -0.8093354 0.0000178
3-1 -0.7917143 -1.27609314 -0.3073354 0.0020678
3-2 0.5020000 -0.02118896 1.0251890 0.0607643
Bảng giá trị thống kê 3
Vùng Hàm lượng saponin(%)
1.
2.
3.
7.20
a
± 0.43
5.90
a
± 0.20
7.23
a
± 2.02
Chú thích
Vùng a
1 X
2 X
3 x
Kết luận: Ta thấy p-value của hàm anova >0.05 nên sự khác biệt dữ liệu của hàm
lượng saponin không có ý nghĩa thống kê nên hàm lương saponin ở 3 vùng là như
nhau.Ta có thể trồng sâm ở cả 3 vùng đều đem tới hàm lượng saponin giống nhau.

> xbar <- tapply(saponin, group, mean)
> s <- tapply(saponin, group, sd)
> n <- tapply(saponin, group, length)
> sem <- s/sqrt(n)

> stripchart(saponin ~ group,ylim=range(0:8),sub="hàm lượng saponin trong nhân
sâm dược thu hái ở ba vùng",xlab="group", pch=F, vert=TRUE)
> arrows(1:3, xbar+sem, 1:3, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:3, xbar, pch=4, type="b", cex=2)
13
Báo cáo thực hành tin ứng dụng
Bài 17:
> tieuchi<-rep((1:4),c(20,20,20,20))
> tieuchi<-as.factor(tieuchi)
> yeuthich<-
c(7,6,7,8,9,7,8,9,7,8,6,5,5,6,4,5,6,7,5,6,8,7,8,9,9,8,6,7,8,7,5,6,5,7,5,4,6,5,6,5,8,7,8,7,6
,7,7,8,8,9,7,8,6,5,5,7,8,9,8,8,8,6,7,6,7,8,7,6,7,6,7,8,7,8,9,7,8,8,9,8)
> data<-data.frame(tieuchi,yeuthich)
> data
> shapiro.test(yeuthich)
Shapiro-Wilk normality test
data: yeuthich
W = 0.9262, p-value = 0.0001895
> analysis<-lm(yeuthich~tieuchi)
> anova(analysis)
Analysis of Variance Table
Response: yeuthich
Df Sum Sq Mean Sq F value Pr(>F)
tieuchi 3 12.038 4.0125 2.5702 0.06041 .
Residuals 76 118.650 1.5612

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Nhận xét:
+p-value<0.05 nên số liệu yeuthich không thuộc phân phối chuẩn. Giả sử số liệu
thuộc phân phối chuẩn ta tiếp tục tiến hành các bước tiếp theo.

+Pr>0.05 nên sự khác biệt giữa các tiêu chí không có ý nghĩa thống kê.
Kết luận:Chọn tiêu chí nào để đánh giá mức độ yêu thích của người tiêu dùng cũng
như nhau.
14
Báo cáo thực hành tin ứng dụng
> xbar <- tapply(yeuthich, tieuchi, mean)
> s <- tapply(yeuthich, tieuchi, sd)
> n <- tapply(yeuthich, tieuchi, length)
> sem <- s/sqrt(n)
> stripchart(yeuthich ~ tieuchi,ylim=range(0:10),sub="mức độ yêu thích của người
tiêu dùng với 2 dòng sản phẩm",xlab="tiêu chí", pch=F, vert=TRUE)
> arrows(1:4, xbar+sem, 1:4, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:4, xbar, pch=4, type="b", cex=2)
Bài 18:
> mdat <- matrix(c(124,107,26,43), nrow = 2, ncol=2, byrow=TRUE,dimnames =
list(c("hai long", "k hai long"),c("A", "B")))
> mdat
A B
hai long 124 107
k hai long 26 43
> chisq.test(mdat)
Pearson's Chi-squared test with Yates' continuity correction
data: mdat
X-squared = 4.8184, df = 1, p-value = 0.02816
Kết luận:p-value=0.02816<0.05 nên sự khác nhau về sự hài lòng của khách hàng về
2 sản phẩm A,B có ý nghĩa thống kê. Dựa vào dữ liệu ta chọn sản phẩm A.
> barplot(mdat,sub="so sánh sự hài lòng của khách hàng",xlab="sản phẩm",ylab="sự
hài lòng")
15
Báo cáo thực hành tin ứng dụng

A B
so sánh sự hài lòng của khách hàng
sản phẩm
sự hài lòng
0 20 40 60 80 100 120 140
Bài 19:
> sp<-gl(2,11)
> sp<-as.factor(sp)
> thihieu<-c(6,8,7,8,8,9,7,5,6,7,7,8,8,9,7,8,7,7,9,8,9,8)
> data19<-data.frame(sp,thihieu)
> data19
> shapiro.test(thihieu)
Shapiro-Wilk normality test
data: thihieu
W = 0.9029, p-value = 0.03405
# ta thấy p <0.05 số liệu thihieu không tuân theo quy luật phân phối chuẩn
#giả sử số liệu thihieu thuộc phân phối chuẩn ta làm tiếp.
> pt<-lm(thihieu~sp)
> anova(pt)
Analysis of Variance Table
Response: thihieu
Df Sum Sq Mean Sq F value Pr(>F)
sp 1 4.5455 4.5455 4.8077 0.04033 *
Residuals 20 18.9091 0.9455

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# qua số liệu phân tích ta thấy p < 0.05 nên sự khác nhau có ý nghĩa thống kê giữa
các nhóm sản phẩm, để biết sự khác biệt đó ta tiến hành phân tích Tukey.
> res<-aov(thihieu~sp)
> TukeyHSD(res)

Tukey multiple comparisons of means
95% family-wise confidence level
16
Báo cáo thực hành tin ứng dụng
Fit: aov(formula = thihieu ~ sp)
$sp
diff lwr upr p adj
2-1 0.9090909 0.04423122 1.773951 0.0403281
Bảng giá trị thống kê 4
Sản phầm Điểm
Sản phẩm đang bán 7.09
a
+ 1.14
Sản phẩm cải tiến 8.00
b
+ 0.77
Chú thích
Sản phẩm a b
Sản phẩm đang bán x
Sản phẩm cải tiến x
Kết luận:Vì sự khác biệt của 2 sản phẩm có ý nghĩa thống kê do dó điểm của sản
phẩm cải tiến lớn hơn nên sản phẩm cải tiến sẽ ngon hơn ta nên tung sản phẩm cải
tiến ra thị trường.
> xbar <- tapply(thihieu, sp, mean)
> s <- tapply(thihieu, sp, sd)
> n <- tapply(thihieu, sp, length)
> sem <- s/sqrt(n)
> stripchart(thihieu ~ sp,ylim=range(0:10),sub="tìm hiểu thị hiếu của khách hàng về 2
loại sản phẩm",xlab="sản phẩm", pch=F, vert=TRUE)
> arrows(1:2, xbar+sem, 1:2, xbar-sem, angle=90, code=3, length=0.1)

> lines(1:2, xbar, pch=4, type="b", cex=2)
17
Báo cáo thực hành tin ứng dụng
Bài 20:
> group=rep(1:5,each=3)
> group
[1] 1 1 1 2 2 2 3 3 3 4 4 4 5 5 5
> group=as.factor(group)
>
hs=c(16.77,18.56,17.83,21.51,20.42,21.27,22.16,24.73,23.01,24.92,24.27,23.96,24.7
3,24.41,25.82)
> data=data.frame(group,hs)
> data
> shapiro.test(hs)
Shapiro-Wilk normality test
data: hs
W = 0.9071, p-value = 0.1223
#p-value >0.05 nên hs tuân theo phân phối chuẩn
> kqua=lm(hs~group)
> anova(kqua)
Analysis of Variance Table
Response: hs
Df Sum Sq Mean Sq F value Pr(>F)
group 4 105.167 26.2917 36.126 6.447e-06 ***
Residuals 10 7.278 0.7278

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
#p-value <0.05 nên sự khác biệt dữ liệu kq có ý nghĩa thống kê
> res=aov(kqua)
> TukeyHSD(res)

Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = kqua)
$group
diff lwr upr p adj
2-1 3.3466667 1.05425211 5.639081 0.0050286
3-1 5.5800000 3.28758544 7.872415 0.0000884
4-1 6.6633333 4.37091878 8.955748 0.0000184
5-1 7.2666667 4.97425211 9.559081 0.0000083
3-2 2.2333333 -0.05908122 4.525748 0.0570307
4-2 3.3166667 1.02425211 5.609081 0.0053534
5-2 3.9200000 1.62758544 6.212415 0.0015862
4-3 1.0833333 -1.20908122 3.375748 0.5536133
5-3 1.6866667 -0.60574789 3.979081 0.1864817
5-4 0.6033333 -1.68908122 2.895748 0.9028933
18
Báo cáo thực hành tin ứng dụng
Bảng giá trị thống kê 5
Thời gian (phút) Hiệu suất trích ly (% theo trọng lượng khô)
55 17.72
a
±0.90
70 21.07
b
±0.57
85 23.30
bc
±1.31
100 24.38
c

±0.49
115 24.99
c
±0.74
Chú thích
Thời gian a b C
55 X
70 X
85 X X
100 X
115 X
Kết luận:Ta thấy ở thời gian 85 có hiệu suất trích ly giống ở 100,115 và cao hơn ở
55,70. Bên cạnh đó thì còn yêu cầu trong thời gian ngắn nên ở mốc thời gian 85 là
hợp lý và tốt nhất.
Ta chọn mốc thời gian 85 phút để trích ly các dưỡng chất từ nấm mèo.
> xbar <- tapply(hs, group, mean)
> s <- tapply(hs, group, sd)
> n <- tapply(hs, group, length)
> sem <- s/sqrt(n)
> stripchart(hs ~ group,ylim=range(0:26),sub="nghiên cứu sử dụng enzyme pectinase
",xlab="group", pch=F, vert=TRUE)
> arrows(1:5, xbar+sem, 1:5, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:5, xbar, pch=4, type="b", cex=2)
19
Báo cáo thực hành tin ứng dụng
Bài 21:
> giong<-gl(4,5)
> giong<-as.factor(giong)
> nangsuat<-c(8,7,6,6,8,9,10,7,9,8,5,5,4,3,6,5,4,5,5,6)
> data21<-data.frame(giong,nangsuat)

> data21
> shapiro.test(nangsuat)
Shapiro-Wilk normality test
data: nangsuat
W = 0.9567, p-value = 0.4809
# vì p > 0.05 nên dữ liệu nangsuat tuân theo phân phối chuẩn
# ta tiến hành phân tích phương sai
> pt<-lm(nangsuat~giong)
> anova(pt)
Analysis of Variance Table
Response: nangsuat
Df Sum Sq Mean Sq F value Pr(>F)
giong 3 51.8 17.267 16.846 3.309e-05 ***
Residuals 16 16.4 1.025

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> # qua số liệu phân tích ta thấy p < 0.05 nên sự khác nhau cua dữ liệu pt có ý nghĩa
thống kê ở mức a = 5% giữa các giống lúa. vì vậy ta tiếp tục phân tích Tukey
> res<-aov(nangsuat~giong)
> TukeyHSD(res)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = nangsuat ~ giong)
$giong
diff lwr upr p adj
2-1 1.6 -0.2319465 3.4319465 0.0982638
3-1 -2.4 -4.2319465 -0.5680535 0.0085532
4-1 -2.0 -3.8319465 -0.1680535 0.0300031
3-2 -4.0 -5.8319465 -2.1680535 0.0000627
4-2 -3.6 -5.4319465 -1.7680535 0.0002026

4-3 0.4 -1.4319465 2.2319465 0.9226305
Bảng giá trị thống kê 6
Giống Năng suất
G1 7.0
a
± 1.00
G2 8.6
a
± 1.14
G3 4.6
b
± 1.14
G4 5.0
b
±0.70
20
Báo cáo thực hành tin ứng dụng
Chú thích
Giống A b
G1 X
G2 X
G3 X
G4 X
Kết luận:Năng suất của mỗi giống lúa khác nhau là do phẩm giống của chúng.
Nhóm 1-2 sự khác nhau không có ý nghĩa thống kê nên tức là năng suất như nhau
nên ta chọn cả nhóm G1 và G2 và 1,2 -3,4 sự khác biệt có ý nghĩa thống kê mặc khác
năng suất nhóm 1,2 cao hơn nên giống G1 và G2 được phổ biến rộng rãi trong sản
xuất.

> xbar <- tapply(nangsuat, giong, mean)

> s <- tapply(nangsuat, giong, sd)
> n <- tapply(nangsuat, giong, length)
> sem <- s/sqrt(n)
> stripchart(nangsuat ~ giong,ylim=range(0:10),sub="so sánh nang suất của 4 giống
lúa",xlab="giống", pch=F, vert=TRUE)
> arrows(1:4, xbar+sem, 1:4, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:4, xbar, pch=4, type="b", cex=2)
21
Báo cáo thực hành tin ứng dụng
Bài 22:
> a.sang<-gl(2,6,12)
> n.do<-gl(6,1,12)
> k.luong<-c(12.5,12.7,8.3,8.5,3.8,4.0,15.5,15.7,11.5,12.0,6.0,6.2)
> data<-data.frame(a.sang,n.do,k.luong)
> a.sang<-as.factor(a.sang)
> n.do<-as.factor(n.do)
> shapiro.test(k.luong)
Shapiro-Wilk normality test
data: k.luong
W = 0.9292, p-value = 0.3716
> analysis<-lm(k.luong~a.sang+n.do)
> anova(analysis)
Analysis of Variance Table
Response: k.luong
Df Sum Sq Mean Sq F value Pr(>F)
a.sang 1 24.368 24.368 169.81 4.747e-05 ***
n.do 5 166.558 33.312 232.14 6.516e-06 ***
Residuals 5 0.718 0.144

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

> res<-aov(k.luong~a.sang+n.do)
> TukeyHSD(res)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = k.luong ~ a.sang + n.do)
$a.sang
diff lwr upr p adj
2-1 2.85 2.287792 3.412208 4.75e-05
$n.do
diff lwr upr p adj
2-1 0.20 -1.415985 1.815985 0.9921799
3-1 -4.10 -5.715985 -2.484015 0.0008271
4-1 -3.75 -5.365985 -2.134015 0.0012631
5-1 -9.10 -10.715985 -7.484015 0.0000206
6-1 -8.90 -10.515985 -7.284015 0.0000220
3-2 -4.30 -5.915985 -2.684015 0.0006590
4-2 -3.95 -5.565985 -2.334015 0.0009875
5-2 -9.30 -10.915985 -7.684015 0.0000193
6-2 -9.10 -10.715985 -7.484015 0.0000206
4-3 0.35 -1.265985 1.965985 0.9241470
5-3 -5.00 -6.615985 -3.384015 0.0003177
6-3 -4.80 -6.415985 -3.184015 0.0003879
5-4 -5.35 -6.965985 -3.734015 0.0002266
6-4 -5.15 -6.765985 -3.534015 0.0002744
6-5 0.20 -1.415985 1.815985 0.9921799
22
Báo cáo thực hành tin ứng dụng
Nhận xét:
+p-value=0.3716>0.05 nên dữ liệu k.luong tuân theo phân phối chuẩn.
+Pr<0.05 nên sự khác biệt giữa các chế độ ánh sáng và chế độ nhiệt có ý nghĩa thống

kê.
Ta có bảng giá trị trung bình khối lượng ảnh hưởng bởi chế độ ánh sáng và chế độ
nhiệt như sau:
Bảng giá trị thống kê 7
Chế độ ánh sáng Khối lượng (g)
A
1
8.30
a
±3.89
A
2
11.15
b
±4.28
Bảng giá trị thống kê 8
Chế độ nhiệt Khối lượng (g)
B
1
14.00
a
±2.12
B
2
14.20
a
±2.12
B
3
9.90

b
±2.26
B
4
10.25
b
±2.47
B
5
4.90
c
±1.56
B
6
5.10
c
±1.56
Chú thích:
A b c
B
1
X
B
2
X
B
3
X
B
4

X
B
5
X
B
6
X
Kết luận:
Dựa vào bảng thống kê trên,ta chọn chế độ ánh sáng A
2
và chế độ nhiêt B
1
,B
2
để tăng
khả năng phát triển của rau câu.
Bài 23:
> n.do<-rep(1:7,each=3)
> h.luong<-
c(49.02,48.33,52.14,76.43,78.64,79.31,88.65,90.52,87.94,90.75,92.51,91.96,93.56,9
4.42,94.99,95.23,97.12,97.91,96.41,97.56,98.73)
> n.do<-as.factor(n.do)
> data<-data.frame(n.do,h.luong)
> data
> shapiro.test(h.luong)
Shapiro-Wilk normality test
data: h.luong
W = 0.7333, p-value = 7.388e-05
> analysis<-lm(h.luong~n.do)
> anova(analysis)

Analysis of Variance Table
Response: h.luong
Df Sum Sq Mean Sq F value Pr(>F)
23
Báo cáo thực hành tin ứng dụng
n.do 6 5184.2 864.04 474.76 2.389e-15 ***
Residuals 14 25.5 1.82
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
> res<-aov(h.luong~n.do)
> TukeyHSD(res)
Tukey multiple comparisons of means
95% family-wise confidence level
Fit: aov(formula = h.luong ~ n.do)
$n.do
diff lwr upr p adj
2-1 28.2966667 24.5355155 32.057818 0.0000000
3-1 39.2066667 35.4455155 42.967818 0.0000000
4-1 41.9100000 38.1488488 45.671151 0.0000000
5-1 44.4933333 40.7321822 48.254484 0.0000000
6-1 46.9233333 43.1621822 50.684484 0.0000000
7-1 47.7366667 43.9755155 51.497818 0.0000000
3-2 10.9100000 7.1488488 14.671151 0.0000018
4-2 13.6133333 9.8521822 17.374484 0.0000001
5-2 16.1966667 12.4355155 19.957818 0.0000000
6-2 18.6266667 14.8655155 22.387818 0.0000000
7-2 19.4400000 15.6788488 23.201151 0.0000000
4-3 2.7033333 -1.0578178 6.464484 0.2468338
5-3 5.2866667 1.5255155 9.047818 0.0040668
6-3 7.7166667 3.9555155 11.477818 0.0000992
7-3 8.5300000 4.7688488 12.291151 0.0000325

5-4 2.5833333 -1.1778178 6.344484 0.2892414
6-4 5.0133333 1.2521822 8.774484 0.0063632
7-4 5.8266667 2.0655155 9.587818 0.0017029
6-5 2.4300000 -1.3311512 6.191151 0.3506392
7-5 3.2433333 -0.5178178 7.004484 0.1131016
7-6 0.8133333 -2.9478178 4.574484 0.9873690
Nhận xét:
+p-value<0.05 nên số liệu h.luong không thuộc phân phối chuẩn. Giả sử số liệu thuộc
phân phối chuẩn ta tiếp tục tiến hành các bước tiếp theo.
+Pr<0.05 nên sự khác biệt giữa các nồng độ có ý nghĩa thống kê.
Ta có bảng giá trị trung bình hàm lượng vitamin theo nồng độ chế phẩm như sau:
Bảng giá trị thống kê 9
Nồng độ chế phẩm
(%v/w)
Hàm lượng vitamin C(mg/g)
Tính theo chất khô
1. 0 49.83
a
±2.03
2. 0.05 78.13
b
±1.51
3. 0.1 89.04
c
±1.33
4. 0.15 91.74
cd
± 0.90
5. 0.2 94.32
d

±0.72
6. 0.25 96.75
d
±1.38
7. 0.3 97.57
d
±1.16
24
Báo cáo thực hành tin ứng dụng
Chú thích:
a b c d
1 x
2 x
3 x
4 x x
5 x
6 x
7 x
Kết luận:Chọn nồng độ chế phẩm là 0.15%v/w để tăng hàm lượng vitamin C.
> xbar <- tapply(h.luong, n.do, mean)
> s <- tapply(h.luong, n.do, sd)
> n <- tapply(h.luong, n.do, length)
> sem <- s/sqrt(n)
> stripchart(h.luong ~ n.do,ylim=range(0:100),sub="nồng đọ enzyme và sự thay đổi
hàm lượng vitamin C",xlab="n.do", pch=F, vert=TRUE)
> arrows(1:7, xbar+sem, 1:7, xbar-sem, angle=90, code=3, length=0.1)
> lines(1:7, xbar, pch=4, type="b", cex=2)
Bài 24:
> mdat <- matrix(c(245,145,367,170,270,48), nrow = 2, ncol=3,
byrow=TRUE,dimnames = list(c("tăng 6-8kg/tháng", "tăng 3-5kg/tháng"),c("thực đơn

1", "thực đơn 2", "thực đơn 3")))
> mdat
thực don 1 thực don 2 thực don 3
25

×