Tải bản đầy đủ (.pdf) (19 trang)

bt chương4 CNQLMT Sử dụng phần mềm R để phân tích dữ liệu môi trường

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (345.98 KB, 19 trang )

Công nghệ quản lý môi trường
Bộ môn: Kỹ thuật Môi trường
Họ và tên sinh viên:
Mã số sinh viên:

MẦU TIẾN LONG

Lớp học: CN QLMT LO4.

Giảng viên: TS. Nguyễn Hải Hòa
===========================================

Sử dụng phần mềm R để phân tích dữ liệu môi trường
(BT số 04)
Bảng dữ liệu gồm có:
1. Method (phương pháp xử lý rác thải sinh hoạt): 1. Xử lý bằng vật; 2. Xử lý
bằng chôn lấp hợp vệ sinh; 3. Xử lý bằng phương pháp phân hủy tự nhiên.
2. Condition (điều kiện xử lý): 1. Xử lý trong điều kiện tự nhiên (ngoài trờ); 2. Xử
lý trong phòng thí nghiệm (một yếu tố được tối ưu hóa).
3. Suitability (mức độ thích hợp): 1. Small scale (phạm vi nhỏ); 2. Large scale
(phạm vi lớn); 3. Testing scale (thử nghiệm phòng thí nghiệm).
4. Score (cho điểm mức độ ưa thích)
Yêu cầu:
- Sinh viên tính toán và phân tích phương sai môi trường một nhân tố và hai nhân
tố/nhiều nhân tố với nhau (Check file kèm).
1. Nhận xét và phân tích bảng Analysis of Variance Table
2. Đánh giá phân tích kết quả nghiên cứu:
Summary (oneway): Score với Method, Score với Condition, Score với Suitability
Summary (twoway): Score với Method + Condition + Suitability
Chú ý: So sánh và phân tích các biến số với nhau
3. Phân tích tương quan: Đánh giá và nhận xét.


4. Tính giá trị của mô hình tiên đoán + nhận xét:
fitted(tên_mô_hinh): tham khảo Rstudio phần tương quan

1
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


5. Tính giá trị sai số của mô hình (giá trị quan sát và mô hình tiên đoán) + nhận xét:
BÀI LÀM
EMGT2 <- read.table("D:/CNQLMT/BT_CHAPTER_4/BT_CHAPTER_4/THONGKEMOI
TRUONG.csv", header=TRUE,sep=",", row.names="TT")
EMGT2
# CHUNG TA CO THE TAO RA MOT DAY SO BANG CACH SU DUNG HAM GL - gen
erating levels #
condition <- gl(2, 9, 18)
condition
method <- gl(3, 3, 18)
method
suitability <- gl(3, 3, 18)
suitability
# TAO NEN 18 MA SO TU 1 DEN 18 #
ID <- 1:18
ID
# SAU CUNG LA SO LIEU CHO SCORE #
score <- c(4.1,3.9,4.3, 3.1,2.8,3.3, 3.5,3.2,3.6, 2.7,3.1,2.6, 1.9,2.2,2.3, 2.7,2.3,2.5)
score
# CHO TAT CA VAO MOT DATAFRAME, DAT TEN LA chapter_IV #
chapter_IVa <- data.frame(condition, method, suitability, ID, score)
attach <- (chapter_IVa)
# phan tich phuong si moi truong mot nhan to score ~ method -chúng ta dung lenh ham lm #

oneway1 <- lm(score ~ method)
oneway1
anova(oneway1)
#TOM LUOC CAC UOC SO PHAN TICH1 #
summary(oneway1)
# phan tich phuong si moi truong mot nhan to score ~ condition -chung ta dung lenh ham lm
#
oneway2 <- lm(score ~ condition)
oneway2
anova(oneway2)
#TOM LUOC CAC UOC SO PHAN TICH2 #
summary(oneway2)
# phan tich phuong si moi truong mot nhan to score ~ suitability -chung ta dung lenh ham lm
#
oneway3 <- lm(score ~ suitability)
oneway3
anova(oneway3)
#TOM LUOC CAC UOC SO PHAN TICH3 #
summary(oneway3)

2
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


Kết quả
EMGT2 <- read.table("D:/CNQLMT/BT_CHAPTER_4/BT_CHAPTER_4/THONGKEMOI
TRUONG.csv", header=TRUE,sep=",", row.names="TT")
> EMGT2
Condition Method Suitability Score
1

1
1
1
4.1
2
1
1
1
3.9
3
1 1
1 4.3
4
1 2
2 3.1
5
1 2
2 2.8
6
1 2
2 3.3
7
1 3
3 3.5
8
1 3
3 3.2
9
1 3
3 3.6

10
2 1
1 2.7
11
2 1
1 3.1
12
2 1
1 2.6
13
2 2
2 1.9
14
2 2
2 2.2
15
2 2
2 2.3
16
2 3
3 2.7
17
2 3
3 2.3
18
2 3
3 2.5
> # CHUNG TA CO THE TAO RA MOT DAY SO BANG CACH SU DUNG HAM GL - g
enerating levels #
> condition <- gl(2, 9, 18)

> condition
[1] 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2
Levels: 1 2
> method <- gl(3, 3, 18)
> method
[1] 1 1 1 2 2 2 3 3 3 1 1 1 2 2 2 3 3 3
Levels: 1 2 3
> suitability <- gl(3, 3, 18)
> suitability
[1] 1 1 1 2 2 2 3 3 3 1 1 1 2 2 2 3 3 3
Levels: 1 2 3
> # TAO NEN 18 MA SO TU 1 DEN 18 #
> ID <- 1:18
> ID
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
> # SAU CUNG LA SO LIEU CHO SCORE #
> score <- c(score<-c(4.1,3.9,4.3, 3.1,2.8,3.3, 3.5,3.2,3.6, 2.7,3.1,2.6, 1.9,2.2,2.3, 2.7,2.3,2.5)
> score
> # CHO TAT CA VAO MOT DATAFRAME, DAT TEN LA chapter_IV #
> chapter_IVa <- data.frame(condition, method, suitability, ID, score)
> # SAU CUNG LA SO LIEU CHO SCORE #
> score <- c(4.1,3.9,4.3, 3.1,2.8,3.3, 3.5,3.2,3.6, 2.7,3.1,2.6, 1.9,2.2,2.3, 2.7,2.3,2.5)
> score
[1] 4.1 3.9 4.3 3.1 2.8 3.3 3.5 3.2 3.6 2.7 3.1 2.6 1.9 2.2 2.3 2.7 2.3 2.5
3
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


> # CHO TAT CA VAO MOT DATAFRAME, DAT TEN LA chapter_IV #
> chapter_IVa <- data.frame(condition, method, suitability, ID, score)

> attach <- (chapter_IVa)
> # phan tich phuong si moi truong mot nhan to score ~ method -chúng ta dung lenh ham lm
#
> oneway1 <- lm(score ~ method)
> oneway1
Call:
lm(formula = score ~ method)
Coefficients:
(Intercept) method2 method3
3.4500
-0.8500 -0.4833
> anova(oneway1)
Analysis of Variance Table
Response: score
Df Sum Sq Mean Sq F value Pr(>F)
method 2 2.1811 1.09056 2.8458 0.08959 .
Residuals 15 5.7483 0.38322
--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
Nhận xét Bang Analysis of Variance Table
Phân tích phương sai: Mục đích để so sánh giá trị trung bình của nhiều nhóm dựa trên số
trung
bình của các mẫu quan sát từ nhóm này và thông qua kiểm đinh giả thuyết để kết luận về sự
bằng
nhau của các số trung bình
Phương pháp với bậc tự do là 2, số dư tự do 15
Giá trị F value càng lớn thì càng tốt trong phương pháp này giá trị F velua = 2.8458
Giá trị Pr(>F) bằng 0.08959
> #TOM LUOC CAC UOC SO PHAN TICH1 #
> summary(oneway1)
Call:

lm(formula = score ~ method)
Residuals:
Min
1Q Median
3Q Max
-0.85000 -0.45000 -0.03333 0.52500 0.85000
Coefficients:
Estimate Std. Error t value Pr(>|t|)
4
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


(Intercept) 3.4500 0.2527 13.651 7.28e-10 ***
method2 -0.8500 0.3574 -2.378 0.0311 *
method3 -0.4833 0.3574 -1.352 0.1963
--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
Residual standard error: 0.619 on 15 degrees of freedom
Multiple R-squared: 0.2751,
Adjusted R-squared: 0.1784
F-statistic: 2.846 on 2 and 15 DF, p-value: 0.08959
Nhận xét :
So sánh phương pháp 2, phương pháp 3 với phương pháp 1
Nếu Phương pháp 2 và 3 > phương pháp 1 thì phương pháp 1 được ưa thích nhất
Nếu Phương pháp 2 và 3 < phương pháp 1 (mang dấu -) thì phương pháp không được ưa
thích
nhất
Phương pháp 2 không được ưa thích vì co giá trị thấp hơn cả phương pháp 3
> # phan tich phuong si moi truong mot nhan to score ~ condition -chung ta dung lenh ham l
m#
> oneway2 <- lm(score ~ condition)

> oneway2
Call:
lm(formula = score ~ condition)
Coefficients:
(Intercept) condition2
3.533
-1.056
> anova(oneway2)
Analysis of Variance Table
Response: score
Df Sum Sq Mean Sq F value Pr(>F)
condition 1 5.0139 5.0139 27.515 8.004e-05 ***
Residuals 16 2.9156 0.1822
--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
> #TOM LUOC CAC UOC SO PHAN TICH2 #
> summary(oneway2)
Call:
lm(formula = score ~ condition)

Residuals:
5
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


Min
1Q Median
3Q Max
-0.73333 -0.26667 -0.00556 0.22222 0.76667
Nhận xét :
Các giá trị trong bảng Residuals có giá trị dao động -0.73333 ÷ 0.76667 giá trị Median = 0,00556 có giá trị sát tới 0. Các giá trị góc phần tư thứ nhất và góc phần tư thứ ba phân bố

tương đối cân bằng so với giá trị Median
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.5333 0.1423 24.832 3.33e-14 ***
condition2 -1.0556 0.2012 -5.245 8.00e-05 ***
--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
Residual standard error: 0.4269 on 16 degrees of freedom
Multiple R-squared: 0.6323,
Adjusted R-squared: 0.6093
F-statistic: 27.52 on 1 and 16 DF, p-value: 8.004e-05
> # phan tich phuong si moi truong mot nhan to score ~ suitability -chung ta dung lenh ham l
m#
> oneway3 <- lm(score ~ suitability)
> anova(oneway3)
Analysis of Variance Table
Response: score
Df Sum Sq Mean Sq F value Pr(>F)
suitability 2 2.1811 1.09056 2.8458 0.08959 .
Residuals 15 5.7483 0.38322
--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
> oneway3
Call:
lm(formula = score ~ suitability)
Coefficients:
(Intercept) suitability2 suitability3
3.4500
-0.8500
-0.4833
> #TOM LUOC CAC UOC SO PHAN TICH3 #
> summary(oneway3)

Call:
lm(formula = score ~ suitability)
Residuals:
Min
1Q Median
3Q Max
-0.85000 -0.45000 -0.03333 0.52500 0.85000
6
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.4500 0.2527 13.651 7.28e-10 ***
suitability2 -0.8500 0.3574 -2.378 0.0311 *
suitability3 -0.4833 0.3574 -1.352 0.1963
--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
Nhận xét bảng giá trị Coefficients:
Thấy phương pháp thứ 2 có sự phù hợp hơn so với phương pháp thứ 3 ( vì có giá trị Pr nhỏ
hơn). Nhưng các giá trị trương quan R thì tương đối thấp Multiple R-squared: 0.2751,
Adjusted R-squared: 0.1784.
Residual standard error: 0.619 on 15 degrees of freedom
Multiple R-squared: 0.2751,
Adjusted R-squared: 0.1784
F-statistic: 2.846 on 2 and 15 DF, p-value: 0.08959
Phương pháp phân tích phương sai môi trường 2 nhân tố
EMGT1UONG.csv", header=TRUE,sep=",", row.names="TT")
EMGT1
# CHUNG TA CO THE TAO RA MOT DAY SO BANG CACH SU DUNG HAM GL generating levels #

condition <- gl(2, 9, 18)
condition
method <- gl(3, 3, 18)
method
suitability <- gl(3, 3, 18)
suitability
# TAO NEN 18 MA SO TU 1 DEN 18 #
ID <- 1:18
ID
# SAU CUNG LA SO LIEU CHO SCORE #
score <- c(4.1,3.9,4.3, 3.1,2.8,3.3, 3.5,3.2,3.6,2.7,3.1,2.6, 1.9,2.2,2.3, 2.7,2.3,2.5)
7
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


score
# CHO TAT CA VAO MOT DATAFRAME, DAT TEN LA chapter_IV #
chapter_IV <- data.frame(condition, method, ID, score)
attach <- (chapter_IVa)
# DE PHAN TICH PHUONG SAI HAI CHIEU - CHUNG TA VAN DUNG LENH HAM lm
#
twoway <- lm(score ~ method +condition + suitability)
twoway
anova(twoway)
#TOM LUOC CAC UOC SO PHAN TICH #
summary(twoway)
Kết quả phân tích 2 nhân tố
> EMGT1 <- read.table("D:/CNQLMT/BT_CHAPTER_4/BT_CHAPTER_4/THONGKEM
OITRUONG.csv", header=TRUE,sep=",", row.names="TT")
> EMGT1

Condition Method Suitability Score
1
1 1
1 4.1
2
1 1
1 3.9
3
1 1
1 4.3
4
1 2
2 3.1
5
1 2
2 2.8
6
1 2
2 3.3
7
1 3
3 3.5
8
1 3
3 3.2
9
1 3
3 3.6
10
2 1

1 2.7
11
2 1
1 3.1
12
2 1
1 2.6
13
2 2
2 1.9
14
2 2
2 2.2
15
2 2
2 2.3
16
2 3
3 2.7
17
2 3
3 2.3
18
2 3
3 2.5
> # CHUNG TA CO THE TAO RA MOT DAY SO BANG CACH SU DUNG HAM GL - g
enerating levels #
> condition <- gl(2, 9, 18)
> condition
[1] 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2

Levels: 1 2
8
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


> method <- gl(3, 3, 18)
> method
[1] 1 1 1 2 2 2 3 3 3 1 1 1 2 2 2 3 3 3
Levels: 1 2 3
> suitability <- gl(3, 3, 18)
> suitability
[1] 1 1 1 2 2 2 3 3 3 1 1 1 2 2 2 3 3 3
Levels: 1 2 3
> # TAO NEN 18 MA SO TU 1 DEN 18 #
> ID <- 1:18
> ID
[1] 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
> # SAU CUNG LA SO LIEU CHO SCORE #
> score <- c(4.1,3.9,4.3, 3.1,2.8,3.3, 3.5,3.2,3.6,2.7,3.1,2.6, 1.9,2.2,2.3, 2.7,2.3,2.5)
> score
[1] 4.1 3.9 4.3 3.1 2.8 3.3 3.5 3.2 3.6 2.7 3.1 2.6 1.9 2.2 2.3 2.7 2.3 2.5
> # CHO TAT CA VAO MOT DATAFRAME, DAT TEN LA chapter_IV #
> chapter_IV <- data.frame(condition, method, ID, score)
> attach <- (chapter_IVa)
> # DE PHAN TICH PHUONG SAI HAI CHIEU - CHUNG TA VAN DUNG LENH HAM
lm #
> twoway <- lm(score ~ method +condition + suitability)
> twoway
Call:
lm(formula = score ~ method + condition + suitability)


Coefficients:
(Intercept)
method2
3.9778
-0.8500

method3 condition2 suitability2 suitability3
-0.4833
-1.0556
NA
NA

> anova(twoway)
Analysis of Variance Table
Response: score
Df Sum Sq Mean Sq F value Pr(>F)
method 2 2.1811 1.0906 20.788 6.437e-05 ***
condition 1 5.0139 5.0139 95.575 1.235e-07 ***
Residuals 14 0.7344 0.0525
--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
Nhận xét :
Ba nguồn dao động (variation) của score được phân tích:
- Trung bình bình phương (mean square): ảnh hưởng của điều kiện có vẻ quan trọng hơn là
ảnh hưởng của phương pháp thí nghiệm.
- Tuy nhiên, cả hai ảnh hưởng đều có ý nghĩa thống kê, vì trị số p rất thấp cho hai yếu tố.
- Yêu cầu R tóm lược các ước số phân tích bằng lệnh summary (twoway):
9
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT



> #TOM LUOC CAC UOC SO PHAN TICH #
> summary(twoway)
Call:
lm(formula = score ~ method + condition + suitability)
Residuals:
Min
1Q Median
3Q Max
-0.32778 -0.16389 0.03333 0.16111 0.32222
Coefficients: (2 not defined because of singularities)
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.9778 0.1080 36.841 2.43e-15 ***
method2
-0.8500 0.1322 -6.428 1.58e-05 ***
method3
-0.4833 0.1322 -3.655 0.0026 **
condition2 -1.0556 0.1080 -9.776 1.24e-07 ***
suitability2
NA
NA NA
NA
suitability3
NA
NA NA
NA
--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
Residual standard error: 0.229 on 14 degrees of freedom
Multiple R-squared: 0.9074,
Adjusted R-squared: 0.8875

F-statistic: 45.72 on 3 and 14 DF, p-value: 1.761e-07
Nhận xét
So với điều kiện 1, điều kiện 2 có score thấp hơn khoảng 1.055 & sai số chuẩn là 0.229, trị số
p = 1.761e-07, có ý nghĩa thống kê.
So với phương pháp 1, score cho phương pháp 2 & 3 thấp hơn đáng kể, độ thấp nhất ghi nhận
ở phương pháp 2, ảnh hưởng của phương pháp thí nghiệm cũng có ý nghĩa thống kê.

3. Phân tích tương quan: Đánh giá và nhận xét.
> TUONGQUAN2015 sv", header=TRUE,sep=",", row.names="TT")
> TUONGQUAN2015
10
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


Condition Method Suitability Score
1

1

1

1 4.1

2

1

1


1 3.9

3

1

1

1 4.3

4

1

2

2 3.1

5

1

2

2 2.8

6

1


2

2 3.3

7

1

3

3 3.5

8

1

3

3 3.2

9

1

3

3 3.6

10


2

1

1 2.7

11

2

1

1 3.1

12

2

1

1 2.6

13

2

2

2 1.9


14

2

2

2 2.2

15

2

2

2 2.3

16

2

3

3 2.7

17

2

3


3 2.3

18

2

3

3 2.5

> method<-(TUONGQUAN2015$Method)
> method
[1] 1 1 1 2 2 2 3 3 3 1 1 1 2 2 2 3 3 3
> condition<-(TUONGQUAN2015$Condition)
> condition
[1] 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2
> score<-(TUONGQUAN2015$Score)
> score
[1] 4.1 3.9 4.3 3.1 2.8 3.3 3.5 3.2 3.6 2.7 3.1 2.6 1.9 2.2 2.3 2.7 2.3 2.5
> data<-data.frame(score, method, condition)
> plot(score ~ method,pch=16)

> plot(score ~ condition,pch=16)

11
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


> #####he so tuong quan######
> ###########he sotuong quan pearson#####

> cor(score, method)
[1] -0.2972939
> cor(score, condition)
[1] -0.795181
> # CHUNG TA KIEM DINH GIA THIET HE SO TUONG QUAN BANG 0 - Tuc la score
và method khong co lien he - dua vao phep bien doi Fisher #
> cor.test(score, method)
Pearson's product-moment correlation
data: score and method
t = -1.2455, df = 16, p-value = 0.2309
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
-0.6710270 0.1969063
sample estimates: cor -0.2972939
Kết quả phân tích cho thấy kiểm định t = -1,25 với trị số p= 0.2309; do đó, chúng ta có bằng
chứng để kết luận rằng mối liên hệ giữa phương pháp và mức độ ưa thích có ý nghĩa thống
kê.
Kết luận này cũng chính là kết luận chúng ta đã đi đến trong phần phân tích hồi qui tuyến tính
12
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


trên
> cor.test(score, condition)
Pearson's product-moment correlation
data: score and condition
t = -5.2455, df = 16, p-value = 8.004e-05
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval: -0.9203679 -0.5221613
sample estimates: cor -0.795181

Kết quả phân tích cho thấy kiểm định t = -5,25 với trị số p=8,004e-05; do đó, chúng ta có thể
kết luận rằng mối liên hệ giữa điều kiện và mức độ ưa thích có ý nghĩa thống kê.
Kết luận này cũng chính là kết luận chúng ta đã đi đến trong phần phân tích hồi qui tuyến tính
trên

> ####### he so TUONG QUAN SPEARMAN ############# HE SO TUONG QUAN
PEARSON CHI HOP LY NEU X,Y PHAN BO THEO QUI LUAT PHAN PHOI CHUAN #
> cor.test(score, method, method="spearman"
Spearman's rank correlation rho
data: score and method
S = 1198.1, p-value = 0.3449
alternative hypothesis: true rho is not equal to 0
sample estimates: rho -0.2364331
Kết quả phân tích cho thấy giá trị rho=0.236, và trị số p=0.3449. Kết quả từ phân tích này
cũng không khác với phân tích hồi qui tuyến tính: mối liên hệ giữa phương pháp và mức độ
ưa thích rất cao và có ý nghĩa thống kê.
> cor.test(score, condition, method="spearman")
Spearman's rank correlation rho
data: score and condition
S = 1779.6, p-value = 1.514e-05
alternative hypothesis: true rho is not equal to 0
sample estimates: rho -0.8365363

13
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


Kết quả phân tích cho thấy giá trị rho=-0.836, và trị số p=1.514e-05. Kết quả từ phân tíchnày
cũngkhông khác với phân tích hồi qui tuyến tính: mối liên hệ giữa điều kiện và mức độ ưa
thích rất cao và có ý nghĩa thống kê.

> ####### he so TUONG QUAN KENDALL #############
> cor.test(score, method,method= "kendall")

Kendall's rank correlation tau
data: score and method
z = -0.85035, p-value = 0.3951
alternative hypothesis: true tau is not equal to 0
sample estimates: tau -0.1649916
Kết quả phân tích hệ số tương quan Kendall một lần nữa khẳng định mối liên hệ giữa phương
pháp và mức độ ưa thích có ý nghĩa thống kê, vì hệ số tau = -0.1649916 và trị số p = 0.3951
> cor.test(score, condition,method= "kendall")
Kendall's rank correlation tau
data: score and condition
z = -3.4491, p-value = 0.0005624
alternative hypothesis: true tau is not equal to 0
sample estimates: tau -0.7076304
Kết quả phân tích hệ số tương quan Kendall một lần nữa khẳng định mối liên hệ giữa điều
kiện và mức độ ưa thích có ý nghĩa thống kê, vì hệ số tau =0.7076304 và trị số p = 0.0005264
> ############## MO HINH HOI QUI TUYEN TINH BAC MOT ###############
> #######score ~ method#######
> lm(score ~ method)
Call:
lm(formula = score ~ method)
Coefficients:
(Intercept)
3.4889

method
-0.2417


14
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


Trong lệnh trên, “score ~ method” có nghĩa là mô tả score là một hàm số của method. Kết
quả tính toán của lm cho thấy

=3.4889 và

=-0.2417. Nói cách khác, với hai thông số

này, chúng ta có thể ước tính độ cholesterol cho bất cứ độ tuổi nào trong khoảng tuổi của mẫu
bằng phương trình tuyến tính:

= 3.4889 - 0.2417 x method

> reg <- lm(score ~ method)
> summary(reg)
Call:
lm(formula = score ~ method)
Residuals:
Min

1Q Median

3Q

Max

-1.1056 -0.5264 -0.1056 0.5986 1.0528

Chúng ta biết rằng trung bình phần dư phải là 0, và ở đây, số trung vị là -0.1 cho thấy phần
dư của phương trình này tương đối cân đối.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 3.4889

0.4192 8.324 3.3e-07 ***

method

0.1940 -1.245

-0.2417

0.231

--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1
kết quả cho chúng ta thông tin về phương sai của phần dư (residual mean square).
Ở đây, s2 = 0.6722. Trong kết quả này còn có kiểm định F, cũng chỉ là một kiểm định xem có
quả thật b bằng 0, tức có ý nghĩa tương tự như kiểm định t trong phần trên.
Nói chung, trong trường hợp phân tích hồi qui tuyến tính đơn giản (với một yếu tố) chúng ta
không cần phải quan tâm đến kiểm định F.
Residual standard error: 0.6722 on 16 degrees of freedom
Multiple R-squared: 0.08838,

Adjusted R-squared: 0.03141

15
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT



F-statistic: 1.551 on 1 and 16 DF, p-value: 0.2309
4. Tính giá trị của mô hình tiên đoán + nhận xét:
> #####mo hinh tien doan####
> fitted(reg)
1

2

3

4

5

6

7

8

9

10

11

12

3.247222 3.247222 3.247222 3.005556 3.005556 3.005556 2.763889 2.763889 2.763889

3.247222 3.247222 3.247222
13

14

15

16

17

18

3.005556 3.005556 3.005556 2.763889 2.763889 2.763889
> #####tinh toan phan du####
> resid(reg)
1

2

3

4

5

6

7


8

9

0.85277778 0.65277778 1.05277778 0.09444444 -0.20555556 0.29444444 0.73611111
0.43611111 0.83611111
10

11

12

13

14

15

16

17

18

-0.54722222 -0.14722222 -0.64722222 -1.10555556 -0.80555556 -0.70555556 -0.06388889
-0.46388889 -0.26388889
> op <- par(mfrow=c(2,2))
> plot(reg)

Biểu đồ . Phân tích phần dư để kiểm tra các giả định trong phân tích hồi qui tuyến tính.

16
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


> #######score ~ condition####
> lm(score ~ condition)
Call:
lm(formula = score ~ condition)
Coefficients:
(Intercept) condition
4.589

-1.056

Trong lệnh trên, “score ~ condition” có nghĩa là mô tả condition là một hàm số của score .Kết
quả tính toán của lm cho thấy

=4.589và

=- 1.056. Nói cách khác, với hai thông số này,

chúng ta có thể ước tính độ mức độ ưa thích của phương pháp nào trong khoảng tuổi của mẫu
bằng phương trình tuyến tính:

= 4.589-1.056 x condition
> reg1 <- lm(score ~ condition)
> summary(reg1)
Call:
lm(formula = score ~ condition)
Residuals:

Min

1Q Median

3Q

Max

-0.73333 -0.26667 -0.00556 0.22222 0.76667
Chúng ta biết rằng trung bình phần dư phải là 0, và ở đây, số trung vị là -0.00556 cho thấy
phần dư của phương trình này tương đối cân đối.
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 4.5889

0.3182 14.423 1.37e-10 ***

condition -1.0556

0.2012 -5.245 8.00e-05 ***

--Signif. codes: 0 „***‟ 0.001 „**‟ 0.01 „*‟ 0.05 „.‟ 0.1 „ ‟ 1

17
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


kết quả cho chúng ta thông tin về phương sai của phần dư (residual mean square). Ở đây, s2 =
0.4269. Trong kết quả này còn có kiểm định F, cũng chỉ là một kiểm định xem có quả
thật b bằng 0, tức có ý nghĩa tương tự như kiểm định t trong phần trên.

Nói chung, trong trường hợp phân tích hồi qui tuyến tính đơn giản (với một yếu tố) chúng ta
không cần phải quan tâm đến kiểm định F.
Residual standard error: 0.4269 on 16 degrees of freedom
Multiple R-squared: 0.6323,

Adjusted R-squared: 0.6093

F-statistic: 27.52 on 1 and 16 DF, p-value: 8.004e-05
>#####mo hinh tien doan####
> fitted(reg1)
1

2

3

4

5

6

7

8

9

10


11

12

3.533333 3.533333 3.533333 3.533333 3.533333 3.533333 3.533333 3.533333 3.533333
2.477778 2.477778 2.477778
13

14

15

16

17

18

2.477778 2.477778 2.477778 2.477778 2.477778 2.477778
5. Tính giá trị sai số của mô hình (giá trị quan sát và mô hình tiên đoán) + nhận xét:
> #####tinh toan phan du####
> resid(reg1)
1

2

3

4


5

6

7

8

9

0.56666667 0.36666667 0.76666667 -0.43333333 -0.73333333 -0.23333333 -0.03333333 0.33333333 0.06666667
10

11

12

13

14

15

16

17

18

0.22222222 0.62222222 0.12222222 -0.57777778 -0.27777778 -0.17777778 0.22222222 0.17777778 0.02222222

> op <- par(mfrow=c(2,2))
> plot(reg1

18
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT


)
Biểu đồ. Phân tích phần dư để kiểm tra các giả định trong phân tích hồi qui tuyến tính.
(a) Đồ thị bên trái dòng 1 vẽ phần dư

và giá trị tiên đoán score . Đồ thị này cho thấy các

giá trị phần dư tập chung quanh đường y = 0, cho nên giả định (c), hay ei có giá trị trung bình
0, là có thể chấp nhận được.
(b) Đồ thị bên phải dòng 1 vẽ giá trị phần dư và giá trị kì vọng dựa vào phân phối chuẩn.
Chúng ta thấy các số phần dư tập trung rất gần các giá trị trên đường chuẩn, và do đó, giả
định (b), tức ei phân phối theo luật phân phối chuẩn, cũng có thể đáp ứng.(c) Đồ thị bên trái
dòng 2 vẽ căn số phần dư chuẩn (standardized residual) và giá trị của

. Đồ thị này cho thấy

không có gì khác nhau giữa các số phần dư chuẩn cho các giá trị của

, và do đó, giả định

(d), tức ei có phương sai s2 cố định cho tất cả xi, cũng có thể đáp ứng.

19
SINH VIÊN THỰC HIỆN: MẦU TIẾN LONG LỚP K58B_KHMT




×