Tải bản đầy đủ (.pdf) (52 trang)

Xây dựng mô hình tiên lượng chất lượng nước

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.63 MB, 52 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
CAO HỌC QLTNMT K23

Tiểu luận cuối kì môn PPXLSL

PHÂN TÍCH CHẤT LƯỢNG NƯỚC TẠI TRẠM QUAN TRẮC 1069
CẦU CHENREN, SÔNG YANGANG, TP HSINCHU, ĐÀI LOAN
NHÓM 3
NGUYỄN THỊ QUỲNH GIAO

TPHCM, tháng 11 năm 2014

NGUYỄN THỊ

LAN

TRẦN TRỌNG

KHẢI

BÙI THỊ THU

NGA


MỤC LỤC
Mở đầu ......................................................................................................................................................................................................................... 1
0. Chuẩn bị số liệu ........................................................................................................................................................................................................ 3
1a. Tính toán WQI theo 879/QĐ-TCMT ..................................................................................................................................................................... 4
1b. So sánh WQI của Việt Nam và RPI của Đài Loan ................................................................................................................................................ 6


2. QC số liệu theo mục 1.4 Phụ lục III 21/2012/TT-BTNMT ..................................................................................................................................... 7
3. Thống kê mô tả cho từng thông số (n=118) bằng câu lệnh describe() trong gói psych......................................................................................... 12
4a. Biểu diễn số liệu từng thông số với biểu đồ hộp boxplot..................................................................................................................................... 14
4b. Biểu diễn số liệu từng thông số theo năm với boxplot ........................................................................................................................................ 15
4c. Biểu diễn số liệu từng thông số theo tháng với boxplot ....................................................................................................................................... 16
4d. Biểu diễn số liệu từng thông số theo thời gian quan trắc với boxplot ................................................................................................................. 17
4e. Biểu diễn số liệu từng thông số theo năm, tháng và giờ quan trắc với ggplot ..................................................................................................... 18
5. Kiểm định phân bố chuẩn bằng hàm shapiro.test() ................................................................................................................................................ 19
6. Phân tích ANOVA ................................................................................................................................................................................................. 20
7. So sánh với cột A2 QCVN 08:2008/BTNMT và ước lượng cho thông số có pbc ................................................................................................ 23
8. Phân tích tương quan .............................................................................................................................................................................................. 24
9a. Phân tích mô hình hồi qui tuyến tính đơn biến .................................................................................................................................................... 25
9b. Mô hình tiên đoán với cách làm thông thường .................................................................................................................................................... 28
10. Mô hình hồi qui đa thức (hồi qui phi tuyến đơn biến) và mô hình tiên đoán với ggplot ..................................................................................... 29
11a. Lý thuyết phân tích hồi qui tuyến tính đa biến (giới thiệu AIC) ........................................................................................................................ 32
11b. Phân tích thành phần chính PCA ....................................................................................................................................................................... 33
11c. Phân tích hồi qui đa biến cho WQI với cách làm thủ công ................................................................................................................................ 36
11d. Phân tích hồi qui đa biến cho WQI với step ...................................................................................................................................................... 38
ii


11e. Phân tích hồi qui đa biến cho WQI với BMA .................................................................................................................................................... 39
11f. So sánh kết quả và nhận định.............................................................................................................................................................................. 41
12. Đánh giá tầm quan trọng của từng biến trong hồi qui đa biến ............................................................................................................................. 41
13. Mô hình tương tác ................................................................................................................................................................................................ 43
14a. Dự đoán T, WQI cho năm 2014 và so sánh số liệu thực đo ............................................................................................................................... 45
14b. Nhận định về phương trình hồi qui .................................................................................................................................................................... 47
15. Hồi qui logistic đa biến với BMA ........................................................................................................................................................................ 48
16. Kết luận chung ..................................................................................................................................................................................................... 49


iii


Mở đầu
Nước là nhu cầu cần thiết cho sự tồn tại và phát triển của sinh vật nói chung và con người nói riêng. Con người sử dụng nước cho nhiều
mục đích, mà trước nhất và quan trọng nhất là cho nhu cầu sinh hoạt. Bởi vì vậy, việc đánh giá chất lượng nước là một đòi hỏi tất yếu và thường
xuyên. Hiện nay, để đánh giá chất lượng nước, ô nhiễm nước sông, kênh, rạch, ao đầm,… người ta thường dựa vào việc phân tích các thông số
chất lượng nước riêng biệt, sau đó so sánh từng thông số đó với giá trị giới hạn được quy định trong các quy chuẩn, tiêu chuẩn quốc gia hoặc tiêu
chuẩn quốc tế. Tuy nhiên cách làm truyền thống này có rất nhiều hạn chế như:
-

-

Khi đánh giá chất lượng nước qua nhiều thông số riêng biệt sẽ không nói lên diễn biến chất lượng nước tổng quát của một con sông (hay
đoạn sông) và do vậy khó so sánh chất lượng nước từng vùng của một con sông, so sánh chất lượng nước của con sông này với con sông
khác, thời gian này với thời gian khác, hiện tại so với tương lai, … Vì thế sẽ gây khó khăn cho công tác giám sát diễn biến chất lượng
nước, khó đánh giá hiệu quả đầu tư để bảo vệ nguồn nước và kiểm soát ô nhiễm nước;
Khi đánh giá qua các thông số chất lượng nước riêng biệt, chỉ các nhà khoa học hoặc nhà chuyên môn mới hiểu được, do đó, khó có thông
tin về chất lượng nước cho cộng đồng và các cơ quan quản lý nhà nước địa phương để ra các quyết định phù hợp trong việc bảo vệ và
khai thác nguồn nước.

Để khắc phục các khó khăn trên, cần phải có một hoặc hệ thống chỉ số cho phép lượng hóa được chất lượng nước (nghĩa là biểu biễn chất
lượng nước theo một thang điểm đồng nhất), có khả năng mô tả tác động tổng hợp của nồng độ nhiều thành phần lý – hóa – sinh trong nguồn
nước. Một trong những chỉ số đó là Chỉ số chất lượng nước WQI (Water Quality Index). Bộ chỉ số chuẩn chất lượng nước WQI về cơ bản là
phương tiện toán học để tính toán một giá trị riêng lẻ từ kết quả một số thí nghiệm, kết quả chỉ số biểu hiện chất lượng nước của một lưu vực
nhất định. WQI được đề xuất đầu tiên ở Mỹ vào những năm 70 và hiện vẫn đang được áp dụng rộng rãi ở nhiều bang. Hiện nay mô hình WQI đã
được triển khai nghiên cứu áp dụng ở nhiều quốc gia như Ấn Độ, Canada, Chile, Anh, Đài Loan, Úc, Malaysia, … Từ nhiều giá trị của các thông
số khác nhau, bằng các cánh tính toán phù hợp, ta thu đượcmột chỉ số duy nhất, giá trị của chỉ số này phản ánh một cách tổng quát nhất về
chấtlượng nước. Chỉ số chất lượng nước (WQI) với ưu điểm là đơn giản, dễ hiểu, có tính khái quát cao có thể được sử dụng cho mục đích đánh
giá diễn biến chất lượng nướctheo không gian và thời gian, là nguồn thông tin phù hợp cho cộng đồng, cho những nhà quản lý không phải

chuyên gia về môi trường nước.
Nằm trong khu vực châu Á, bên cạnh sự phát triển của công nghiệp và dịch vụ, Đài Loan là quốc gia có mật độ dân số cao, lượng nước
thải phát sinh tại Đài Loan gây những áp lực nhất định lên nguồn tài nguyên nước mặt. Hàng loạt các con sông tại Đài Loan bị ô nhiễm do tiếp
nhận nguồn nước thải chưa qua xử lý hoặc xử lý kém hiệu quả. Trong đó, sông Yangang là nơi tiếp nhận nước thải từ hoạt động sinh hoạt, chăn
nuôi, sản xuất giấy, và cả công nghiệp hóa chất, và được đánh giá là nơi có nguồn nước mặt đã bị ô nhiễm. Để góp phần đánh giá chất lượng
1


nước tại sông Yangang, số liệu quan trắc tại cầu Chenren (Hình 1a) được nhóm thu thập và xử lý bằng Excel và phần mềm R với quy trình được
trình bày trong Hình 1b.

Vị trí trạm quan trắc 1069 tại cầu Chenren, sông Yangang, Đài Loan
trên bản bồ và Quy trình phân tích số liệu

2


0. Chuẩn bị số liệu
Bộ dữ liệu mà nhóm sử dụng trong bài này không phải bộ dữ liệu do nhóm tự xây dựng, và được tải tại link
/>Do
đó, bước đầu tiên là cần biên tập lại theo hướng mà nhóm cần phân tích. Bộ dữ liệu được trình bày dạng bảng trong Excel và có 40 cột với 215
dòng. Trong đó có 31 thông số và 1 chỉ số, tuy nhiên chỉ có 8 thông số Water Temp., pH, DO(Electrode), BOD5, COD, NH3-N, SS và Coli_G là
đáp ứng được yêu cầu có dữ liệu liên tục với 120 giá trị. Ngoài việc giữ lại giá trị 8 thông số trên từ năm 2004 đến năm 2014, nhóm còn giữ lại
chỉ số RPI, cột Sampling Date để chiết tách ra giờ, ngày, tháng và năm quan trắc để phục vụ cho việc phân tích số liệu. Dữ liệu của năm 2014
cũng được giữ lại để phục vụ cho việc kiểm định mô hình. Riêng với cột giờ, nhóm phân làm 3 nhóm: buổi sáng từ 7:00 đến trước 11:00, buổi
trưa từ 11:00 đến trước 15:00, buổi chiều từ 15:00 đến trước 18:00.
Như vậy, các cột trong dữ liệu gốc của nhóm sẽ là:
Day

Month


Year

Time

RPI

T

pH

3

DO

BOD5

COD

N

TSS

Coli


1a. Tính toán WQI theo 879/QĐ-TCMT
Th.số

x đo

4
(4;6)
6
(6;15)

BOD5
(mg/l)

15
(15,25)
25
(25,50)
≥ 50
 10
(10;15)
15
(15;30)

COD
(mg/l)

30
(30,50)
50
(50,80)
≥ 80

WQI
Th.số
x đo

WQI
Th.số
x đo (k)
100
100
 0.1
 2.5
100 − 75
100 − 75
(0.1;0.2)
(2.5;5.0)
(6 − 𝑥) + 75
(0.2 − 𝑥) + 75
6−4
0.2 − 0.1
75
0.2
75
5.0
75 − 50
75 − 50
(0.2;0.5)
(5.0;7.5)
(15 − 𝑥) + 50
(0.5 − 𝑥) + 50
N15 − 6
0.5 − 0.2
Coliform
NH4
50

0.5
50
7.5
(MPN/100ml)
50 − 25
50 − 25
(mg/l)
(0.5,1.0)
(7.5,10.0)
(25 − 𝑥) + 25
(1.0 − 𝑥) + 25
25 − 15
1.0 − 0.5
25
1.0
25
10.0
25 − 1
25 − 1
(1.0,5.0)
(50 − 𝑥) + 1
(5.0 − 𝑥) + 1
 10.0
50 − 25
5.0 − 1.0
1
≥ 5.0
1
100
100

 20
100 − 75
100 − 75
(20;30)
(15 − 𝑥) + 75
(30 − 𝑥) + 75
15 − 10
30 − 20
75
30
75
75 − 50
75 − 50
(30;50)
(30 − 𝑥) + 50
(50 − 𝑥) + 50
30 − 15
50

30
TSS
50
50
50
(mg/l)
50 − 25
50 − 25
(50,100)
(100 − 𝑥) + 25
(50 − 𝑥) + 25

100 − 50
50 − 30
25
100
25
25 − 1
(80 − 𝑥) + 1
1
 100
80 − 50
1

4

WQI
100

100 − 75
(5.0 − 𝑥) + 75
5.0 − 2.5
75
75 − 50
(7.5 − 𝑥) + 50
7.5 − 5.0
50
50 − 25
(10.0 − 𝑥) + 25
10.0 − 7.5

25

1


Th.số

DO (%)
 20
20

WQI
1
25

Th.số

x đo
 5.5
5.5

WQI
1
50

50 − 25
100 − 50
(5.5,6.0)
(𝑥 − 20) + 25
(𝑥 − 5.5) + 50
50 − 20
6.0 − 5.5

50
50
[6.0,8.5]
100
pH
75 − 50
100 − 50
(50,75)
(8.5,9.0)
(𝑥 − 50) + 50
(9.0 − 𝑥) + 50
75 − 50
9.0 − 8.5
75
75
9.0
50
100 − 75
(75,88)
1
 9.0
(𝑥 − 75) + 75
88 − 75
100
DO% [88,112]
Công thức tính WQI đầy đủ:
100 − 75
1
(112,125)
(125 − 𝑥) + 75

3
WQIpH WQIDO% + WQIBOD5 + WQICOD + WQIN + WQIP WQITSS + WQIduc
125 − 112
WQI =
[
.
. WQIColi ]
100
5
2
125
75
75 − 50
(125,150)
(150 − 𝑥) + 50 Công thức tính trong bài:
150 − 125
150
50
𝟏
𝟑
𝐖𝐐𝐈𝐩𝐇 𝐖𝐐𝐈𝐃𝐎% + 𝐖𝐐𝐈𝐁𝐎𝐃𝟓 + 𝐖𝐐𝐈𝐂𝐎𝐃 + 𝐖𝐐𝐈𝐍
50 − 25
(150,200)
[
(200 − 𝑥) + 25
𝐖𝐐𝐈 =
. 𝐖𝐐𝐈𝐓𝐒𝐒 . 𝐖𝐐𝐈𝐂𝐨𝐥𝐢 ]
𝟏𝟎𝟎
𝟒
200 − 150

200
25
1
 200
Sau khi tính toán được WQI, sử dụng bảng xác định giá trị WQI tương ứng với mức đánh giá chất lượng nước để so sánh:
(20;50)

Giá trị WQI
91 - 100
76 - 90
51 - 75
26 - 50
0 - 25

Mức đánh giá chất lượng nước
Màu
Sử dụng tốt cho mục đích cấp nước sinh hoạt
Xanh nước biển
Sử dụng cho mục đích cấp nước sinh hoạt nhưng cần các biện pháp xử lý phù hợp
Xanh lá cây
Sử dụng cho mục đích tưới tiêu và các mục đích tương đương khác
Vàng
Sử dụng cho giao thông thủy và các mục đích tương đương khác
Da cam
Nước ô nhiễm nặng, cần các biện pháp xử lý trong tương lai
Đỏ

5



1b. So sánh WQI của Việt Nam và RPI của Đài Loan
A. Giống nhau: là chỉ số tổng hợp phản ánh chất lượng nước sông và được cơ quan nhà nước ban hành áp dụng, được tính từ nhiều chỉ số thành
phần không có thứ nguyên.
B. Khác nhau
WQI
WQIpH WQIDO% + WQIBOD5 + WQICOD + WQIN + WQIP WQITSS + WQIduc
[
=
.
. WQIColi ]
100
5
2
Công thức - cần 10 thông số (T và DO để tính %DO bão hòa)
- kết hợp trung bình cộng với trung bình nhân
 vai trò của các WQI khác nhau  thể hiện trọng số khác nhau
BOD5:
4, 6, 15, 25, 50
0.1, 0.2, 0.5, 1.0, 5.0
Khoảng N:
20, 30, 50, 100
chia th. số TSS:
 khoảng chia có khác nhau giữa các thông số, giới hạn đo ít nghiêm ngặt hơn.
Thang
5 khoảng
đánh giá
- theo mục đích sử dụng
Diễn giải
- WQI càng cao thì chất lượng nước càng tốt
- Sử dụng tốt cho cấp nước sinh hoạt:

0
- Cấp nước sinh hoạt nhưng cần xử lý:
0
Kết quả
- Sử dụng tưới và mục đích tương đương:
0
đánh giá
- Sử dụng cho giao thông và mục đích tương đương: 0
- Ô nhiễm nặng và cần xử lý:
120

6

1
3

RPI
RPIDO + RPIBOD5 + RPIN + RPISS
4
- cần 4 thông số
- áp dụng trung bình cộng
 vai trò của các RPI như nhau
BOD5:
3, 5, 15
N:
0.5, 1.0, 3.0
SS:
20, 50, 100
 khoảng chia thống nhất là 3
=


4 khoảng
- theo mức độ ô nhiễm
- RPI càng cao thì càng ô nhiễm
- Không ô nhiễm:
- Ô nhiễm nhẹ:
- Khá ô nhiễm:
- Ô nhiễm nặng:

0
20
93
7


2. QC số liệu theo mục 1.4 Phụ lục III 21/2012/TT-BTNMT
(Trích từ 21/2012/BTNMT)
Ngoài việc đánh giá kết quả phân tích của các mẫu kiểm soát theo tiêu chí nên trên, phòng thí nghiệm cần phải kiểm soát xu hướng, diễn
biến của kết quả phân tích dựa trên phương pháp thống kê theo biểu đồ kiểm soát chất lượng.
Ví dụ minh họa: biểu đồ kiểm soát chất lượng

Trong đó:
CL là đường trung tâm của biểu đồ kiểm soát, là giá trị trung bình của các giá trị kiểm soát hoặc giá trị được chứng nhận;
CL2s là giới hạn cảnh báo (nghĩa là 95% kết quả được phân bố trong khoảng giới hạn này);
CL3s là giới hạn kiểm soát (nghĩa là 99.7% kết quả được phân bố trong khoảng giới hạn này);
s là độ lệch chuẩn, được tính toán dựa trên bộ số liệu xác định giá trị đường trung tâm.

7



Giả thiết
- Giá trị kiểm soát nằm trong giới hạn cảnh báo, hoặc:
- Giá trị kiểm soát nằm trong khoảng giữa giới hạn cảnh
báo và giới hạn kiểm soát và hai giá trị kiểm soát trước đó
đều nằm trong giới hạn cảnh báo.
- Giá trị kiểm soát nằm ngoài giới hạn kiểm soát, hoặc:
- Giá trị kiểm soát nằm giữa giới hạn cảnh báo và giới hạn
kiểm soát và ít nhất một trong hai giá trị kiểm soát trước
đó cũng nằm giữa giới hạn kiểm soát và giới hạn cảnh báo.
- 7 giá trị kiểm soát theo trật tự từ từ tăng hoặc từ từ giảm
liên tục, hoặc:
- 10/11 giá trị kiểm soát liên tục nằm về cùng một phía của
đường trung tâm.
Cách vẽ biểu đồ QC trong R:

Kết luận
Phương pháp được kiểm soát.

Biện pháp
Kết quả phân tích được báo cáo.

Kết quả phân tích không được báo
cáo. Kể từ giá trị kiểm soát cuối
Phương pháp nằm ngoài phạm vi kiểm soát.
cùng được phát hiện, tất cả mẫu phải
phân tích lại.
Phương pháp vẫn được kiểm soát nhưng có Kết quả phân tích có thể được báo
thể có xu hướng ra ngoài kiểm soát thống kê cáo, nhưng cần phải xem xét để phát
nếu tất cả các giá trị kiểm soát nằm trong hiện sớm vấn đề đang phát sinh.
giới hạn cảnh báo.


plot(N,ylim=c(mean(N)-3.1*sd(N),mean(N)+3.1*sd(N)),type="b",xlab="ID",main="QC số liệu N")
abline(h=mean(N),lty=2,lwd=2)
abline(h=mean(N)-2*sd(N),col="blue",lwd=2)
abline(h=mean(N)+2*sd(N),col="blue",lwd=2)
abline(h=mean(N)-3*sd(N),col="red",lwd=2)
abline(h=mean(N)+3*sd(N),col="red",lwd=2)
Kết quả QC cho từng thông số được trình bày trong Bảng bên dưới.

8


Thông số
T

Biểu đồ QC

Kết luận
Phương pháp được kiểm soát.

pH

Loại bỏ ID9, lí do: ID9 nằm giữa giới hạn cảnh báo và giới hạn kiểm soát và
ID7 cũng vậy.

DO

Loại bỏ ID114, lí do: nằm ngoài giới hạn kiểm soát.
Loại bỏ ID116, lí do: ID116 nằm giữa giới hạn cảnh báo và giới hạn kiểm soát
và ID115 cũng vậy.


BOD5

Loại bỏ ID81 và ID118, lí do: 2 ID này nằm ngoài giới hạn kiểm soát.

COD

Loại bỏ ID81, lí do: nằm ngoài giới hạn kiểm soát.
Loại bỏ ID107, lí do: ID107 nằm giữa giới hạn cảnh báo và giới hạn kiểm soát
và ID106 cũng vậy.

N

Loại bỏ ID67 và ID118, lí do: 2 ID này nằm ngoài giới hạn kiểm soát.

TSS

Loại bỏ ID67 và ID81, lí do: 2 ID này nằm ngoài giới hạn kiểm soát.

Coli

Loại bỏ ID115, lí do: nằm ngoài giới hạn kiểm soát.

Các ID cần loại: 9, 67, 81, 107, 114, 115, 116, 118.

9


ID67 và ID81 ngoài lý do bị boại bỏ theo chuẩn thống kê, còn bị loại theo lý do thực tế vì ảnh hưởng của mưa to. Trận mưa 65.1mm vào
ngày 03/06/2008 và trận mưa 58.0mm vào ngày 10/04/2007 lần lượt làm TSS của ID 67 (513.0 mg/L) và ID81 (820.0 mg/L) cao bất thường.


Nguồn: />
Như vậy, có thể nhận định rằng giá trị TSS cao bất thường là một biểu hiện của ảnh hưởng bởi mưa. Xem xét lại số liệu TSS, nhóm còn
ghi nhận được 5 giá trị bất thường (TSS và lượng mưa trong ID đó cùng cao) như sau:
ID Time Day Month Year Rainfall (mm) TSS (mg/L)
20 15:00 4
5
2012
22.4
210.0
27 08:40 3
10
2011
29.8
61.3
63 09:25 7
10
2008
22.0
270.0
112 10:00 6
9
2004
No data
186.0
119 14:40 5
2
2004
No data
272.0

Tuy nhóm chưa tìm được số liệu quan trắc về lượng mưa của năm 2004 trong cơ sở dữ liệu trên web, nhưng theo xu hướng trên, nhóm
nhận thấy rất có khả năng hai ngày 05/02/2004 và 06/09/2004 có mưa (>20.0mm) và vì vậy cần loại bỏ thêm hai ID này.

10


Tóm lại, 13 ID cần loại và lý do bị loại được trình bày tóm tắt như sau:
ID
Thông số và lý do bị loại
9
Giá trị pH
không đạt chuẩn QC
20 Giá trị TSS
không đạt chuẩn QC, ảnh hưởng bởi mưa
27 Giá trị TSS
không đạt chuẩn QC, ảnh hưởng bởi mưa
63 Giá trị TSS
không đạt chuẩn QC, ảnh hưởng bởi mưa
67 Giá trị N, TSS, WQI
không đạt chuẩn QC, ảnh hưởng bởi mưa
81 Giá trị BOD5, COD, TSS không đạt chuẩn QC, ảnh hưởng bởi mưa
107 Giá trị COD
không đạt chuẩn QC
112 Giá trị TSS
không đạt chuẩn QC, có thể bị ảnh hưởng bởi mưa
114 Giá trị DO
không đạt chuẩn QC
115 Giá trị Coli
không đạt chuẩn QC
116 Giá trị DO

không đạt chuẩn QC
118 Giá trị BOD5, N
không đạt chuẩn QC
119 Giá trị TSS
không đạt chuẩn QC, có thể bị ảnh hưởng bởi mưa
Tuy vậy, nếu loại bỏ 13 ID này chỉ vì giá trị của 1 (ID9, 20, 27, 63, 107, 112, 114, 115, 116, 119) hoặc 2 (ID 118) hoặc 3 thông số (ID67,
81) không đạt chuẩn QC thì giá trị của các thông số còn lại sẽ bị mất. Và do đó, chúng ta chỉ còn 107/120 giá trị, tương đương 89.17% số giá trị
của bộ dữ liệu gốc. Để bảo toàn các giá trị cho phân tích, nhóm sẽ thay giá trị của thông số bằng trung vị của chuỗi số liệu của thông số đó. Sở dĩ
nhóm chọn trung vị thay cho việc chọn trung bình là vì các giá trị ngoại hạng ảnh hưởng đến giá trị trung bình rất nhiều so với ảnh hưởng đến
giá trị trung vị. Nhóm cũng không sử dụng mode vì có trường hợp không có mode hoặc có nhiều mode, lúc đó việc thay giá trị sẽ càng phức tạp
hơn. Sau cùng WQI sẽ được tính lại cho các ID đã chỉnh hóa và được QC như các thông số khác.
Biểu đồ QC cho WQI cho thấy ID77 và ID83 cần loại bỏ do
không đạt chuẩn QC. Cũng cần lưu ý rằng 2ID này bị loại là
để đảm bảo QC cho việc phân tích hồi qui cho phần dữ liệu
còn lại.
Như vậy, 118 giá trị được chọn cho các phân tích phía sau.

11


3. Thống kê mô tả cho từng thông số (n=118) bằng câu lệnh describe() trong gói psych

mean
sd
median trimmed
mad
min
max
range
skew kurtosis

se
CV
23.92
5.43
23.85
23.92
6.45
12.40
34.50
22.10 -0.07
-0.88
0.50 22.70
T
7.73
0.22
7.80
7.74
0.15
7.10
8.20
1.10 -0.61
-0.04
0.02
2.85
pH
7.17
1.14
7.20
7.16
1.04

4.60
10.40
5.80 0.15
0.07
0.10 15.90
DO
4.30
1.52
4.25
4.25
1.63
1.10
8.70
7.60 0.29
-0.15
0.14 35.35
BOD5
22.61
6.88
21.85
22.01
6.00
10.00
42.20
32.20 0.76
0.21
0.63 30.43
COD
2.99
1.41

3.02
2.92
1.53
0.39
7.07
6.68 0.44
-0.16
0.13 47.16
N
31.88
19.61
27.10
28.73
9.79
5.10
134.00
128.90 2.29
7.08
1.80 61.51
TSS
31.10 15804.11 120.64
Coli 142305.08 171676.57 78000.00 114208.33 54114.90 14000.00 1500000.00 1486000.00 4.57
16.90
2.39
17.00
17.22
1.48
4.00
20.00
16.00 -2.80

12.05
0.22 14.14
WQI
Nhận xét:
- Giá trị min và max: phần lớn giá trị min và max của các thông số nằm trong một khoảng giá trị không quá rộng. Chỉ có min và max của
2 thông số TSS và coliform chênh lệch rất nhiều. Điều này phản ánh dữ liệu của 2 thông số này có mức độ dao động lớn hoặc tồn tại các giá trị
outlier của 2 thông số này.
- Giá trị mean và median: ngoài giá trị của các thông số TSS và Coliform, giá trị trung bình và giá trị trung vị của các thông số tương
đương nhau hoặc chênh lệch rất ít  dữ liệu tập trung và có khả năng tuân theo phân bố chuẩn, đặc biệt là các thông số: T, DO, BOD5, COD, N.
- Hệ số biến thiên (CV): chính vì 2 thông số TSS và coliform tồn tại trong khoảng giá trị rất rộng, độ lệch chuẩn cũng rất lớn, dẫn đến giá
trị CV của 2 thông số này cũng rất lớn (lần lượt là 61 và 120%). Giá trị CV lớn cho thấy dữ liệu của 2 thông số này phân tán. Ngoài ra, các thông
số như N, BOD5, COD có giá trị CV lần lượt là 47, 35 và 30% cho thấy những dữ liệu này tương đối phân tán. Các thông số còn lại như pH,
nhiệt độ, DO có giá trị CV thấp hơn, chứng tỏ dữ liệu cho các thông số này có mức độ tập trung cao hơn.

12


- Độ nhọn: đặc trưng cho mức độ tập trung của dữ liệu. Khi hệ số nhọn càng nhỏ, thì mức độ phân tán càng lớn. Khi hệ số nhọn bằng 0,
dữ liệu là phân bố chuẩn. WQI có hệ số nhọn lớn, cho thấy phần lớn các giá trị WQI tập trung quanh đường trung tâm. Biểu đồ QC cũng cho
thấy điều đó. Đối với các thông số được quan trắc, hệ số nhọn của TSS cao (2.29) chứng tỏ phần lớn các số liệu quan trắc được của TSS tập
trung quanh đường trung tâm (giá trị trung bình). Tiếp đó là Coliform cũng có hệ số nhọn >1, cho thấy số liệu quan trắc của thông số này cũng
mang tính tập trung. Các thông số còn lại có hệ số nhọn thấp, chứng tỏ các dữ liệu dao động nhiều so với đường trung tâm. Hệ số nhọn của các
thông số nhiệt độ, DO, BOD5, COD và N gần bằng 0  có khả năng là phân bố chuẩn.
- Độ lệch: phản ánh tính đối xứng của dữ liệu. Trong đó, các thông số COD, TSS, coliform có hệ số lệch dương, lớn hơn 1 cho thấy dữ
liệu bị lệch trái. Trong khi đó, pH và WQI có hệ số lệch mang giá trị âm, thể hiện dữ liệu của các thông số này lệch phải. Các thông số còn lại
như DO, BOD5, COD, N có hệ số lệch thấp, cho thấy dữ liệu khá đối xứng  có khả năng là phân bố chuẩn.
Tóm lại, có thể rút ra một số kết luận sơ bộ:
- Các thông số: nhiệt độ, BOD5, DO, COD và N có khả năng tuân theo phân bố chuẩn.
- TSS và Coliform: giá trị max và min chênh lệch nhiều nhưng lại có hệ số nhọn lớn, chứng tỏ dữ liệu của 2 thông số này không dao động
quá nhiều so với đường trung tâm mà do dữ liệu này tồn tại các giá trị outlier lớn.

- WQI với min=4 và max=20 nên được thể hiện bằng màu đỏ, tức là nước ô nhiễm nặng, cần các biện pháp xử lý trong tương lai.

13


4a. Biểu diễn số liệu từng thông số với biểu đồ hộp boxplot
Trong R:
par(mfrow=c(1,8))
boxplot(T, main="Nhiet do")
boxplot(pH, main="pH")
boxplot(DO, main="DO")
boxplot(BOD5, main="BOD5")
boxplot(COD, main="COD")
boxplot(N, main="N")
boxplot(TSS, main="TSS")
boxplot(Coli, main="Coliform")

Nhận xét:
- Mặc dù đã loại bỏ các outlier bằng biểu đồ QC nhưng pH, DO, COD,
N, TSS và Coliform vẫn có các giá trị ngoại hạng.
- Số liệu của T, DO khá đối xứng.
- Số liệu của pH lệch về phía dưới.
- Số liệu của BOD5, COD, N, TSS, Coliform lệch về phía trên.

14


4b. Biểu diễn số liệu từng thông số theo năm với boxplot
Trong R:
par(mfrow=c(4,2))

boxplot(T~Year, main="Nhiet do")
boxplot(pH~Year, main="pH")
boxplot(DO~Year, main="DO")
boxplot(BOD5~Year, main="BOD5")
boxplot(COD~Year, main="COD")
boxplot(N~Year, main="N")
boxplot(TSS~Year, main="TSS")
boxplot(Coli~Year, main="Coliform")
Nhận xét:
-Giá trị về nhiệt độ, COD, BOD5, TSS,
Coliform qua các năm không có sự
khác biệt lớn.
-pH và DO có xu hướng thăng giáng.
-Giá trị N không có nhiều thay đổi,
ngoại trừ các năm 2012, 2013 có xu
hướng giảm.
 Để có kết luận định lượng hơn, cần
phải phân tích với ANOVA.

15


4c. Biểu diễn số liệu từng thông số theo tháng với boxplot
Trong R:
par(mfrow=c(4,2))
boxplot(T~Month, main="Nhiet do")
boxplot(pH~Month, main="pH")
boxplot(DO~Month, main="DO")
boxplot(BOD5~Month, main="BOD5")
boxplot(COD~Month, main="COD")

boxplot(N~Month, main="N")
boxplot(TSS~Month, main="TSS")
boxplot(Coli~Month, main="Coliform")

Nhận xét:
-BOD5, TSS, Coliform qua các tháng
không có sự khác biệt lớn.
-Nhiệt độ có xu hướng tăng dần đến
tháng 7 và giảm dần vào các tháng cuối
năm do sự thay đổi theo mùa.
-pH, DO, COD và N có sự khác biệt
giữa các tháng.
 Để có kết luận định lượng hơn, cần
phải phân tích với ANOVA.

16


4d. Biểu diễn số liệu từng thông số theo thời gian quan trắc với boxplot
Trong R:
par(mfrow=c(4,2))
boxplot(T~Time, main="Nhiet do")
boxplot(pH~Time, main="pH")
boxplot(DO~Time, main="DO")
boxplot(BOD5~Time, main="BOD5")
boxplot(COD~Time, main="COD")
boxplot(N~Time, main="N")
boxplot(TSS~Time, main="TSS")
boxplot(Coli~Time, main="Coliform")
Nhận xét:

Giá trị nhiệt độ buổi sáng và buổi chiều
có thể khác nhau.
Giá trị pH có khả năng khác nhau giữa
các buổi.
Giá trị giữa các buổi của các thông số
còn lại có khả năng không khác nhau
nhiều.
Để có câu trả lời chính xác cần phải
phân tích ANOVA.

17


4e. Biểu diễn số liệu từng thông số theo năm, tháng và giờ quan trắc với ggplot
Nhược điểm của boxplot là chỉ thể hiện được giá trị của thống số theo 1 yếu tố, hoặc giờ, hoặc tháng, hoặc năm và do đó nó có thể ẩn đi
một số thông tin. Để có một cái nhìn tổng quát các giá trị theo cả 3 yếu tố (giờ, tháng và năm) thì ta cần một loại biểu đồ khác. Trong R, lệnh
ggplot trong gói ggplot2 giúp ta thực hiện được yêu cầu đó.
Trong R:
library(ggplot2)
ggplot(cuoiki,
aes(x=Month,y=WQI,group=Year,colour=factor(Year)))+
geom_line(aes(group=Year))+
geom_point(aes(group=Time,colour=factor(Time)))+
scale_x_discrete()+ scale_color_discrete(name="Thời gian")+
ggtitle("Sự thay đổi theo thời gian quan trắc của WQI")+
labs(x="Tháng",y="WQI")+ theme_bw()+ theme_classic()
Các thông số khác có cách vẽ tương tự.

18



5. Kiểm định phân bố chuẩn bằng hàm shapiro.test()
p

Biểu đồ histogram và Q-Q

Nhận xét

T

0.08574

Dữ liệu T có pbc

pH

0.0001795

pH không có pbc

DO

0.68

Dữ liệu DO có pbc

BOD5

0.3268


COD

0.0003218

N

0.05371

TSS

9.321e-12

Hoán chuyển với logTSS=log(TSS) thì logTSS
có pbc với p= 0.0799 (hình bên phải)

Coli

< 2.2e-16

Coli không có pbc

WQI

3.724e-13

WQI không có pbc

Dữ liệu BOD5 có pbc
Hoán chuyển với logCOD=log(COD) thì
logCOD có pbc với p= 0.6856 (hình bên phải)

Dữ liệu N có pbc

Cách vẽ trong R: par(mfrow=c(1,2)); hist(WQI,prob=T,breaks=sqrt(120)); lines(density(WQI),col=2); qqnorm(WQI); qqline(WQI,col=2)
19


6. Phân tích ANOVA
Đối với các thông số tuân theo phân bố chuẩn, nhóm sử dụng:
- hàm summary(aov(T~Year)) để xem trị số p chung.
- hàm pairwise.t.test(T, Year): điều chỉnh trị số p bằng phương pháp Holm (mặc định trong R) và sử dụng sai số chuẩn chung cho các
nhóm để xem sự khác biệt giữa các nhóm có ý nghĩa thống kê hay không (sở dĩ nhóm dùng hàm này là vì nhóm dùng TukeyHSD bị lỗi).
Đối với các thông số chưa tuân theo phân bố chuẩn (tô màu đỏ), nhóm sử dụng pp Kruskal-Wallis để so sánh nhiều nhóm phi tham số
với lệnh kruskal.test(T~Year).
Th. số

ANOVA theo năm

ANOVA theo tháng

ANOVA theo giờ

T

không khác nhau

nhiều tháng khác nhau

sáng khác chiều

2007/2013 khác 2004


không khác nhau

không khác nhau

DO

20


Th. số

ANOVA theo năm

ANOVA theo tháng

ANOVA theo giờ

BOD5

không khác nhau

không khác nhau

sáng khác trưa

không khác nhau

không khác nhau


không khác nhau

2004/2006/2007/2010/2009/2010/2011 khác 2013

không khác nhau

không khác nhau

logCOD

N

2009 khác 2012

21


ANOVA theo năm

Th. số

ANOVA theo tháng

ANOVA theo giờ

logTS
S

không khác nhau


không khác nhau

không khác nhau

có khác nhau

có khác nhau

có khác nhau

có khác nhau

không khác nhau

có khác nhau

pH

Coli

22


×