SỬ DỤNG PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI
ĐỂ ĐÁNH GIÁ MỐI TƯƠNG QUAN GIỮA CÁC NHÂN TỐ
CÓ TRONG BỤI KHÍ Ở KHU VỰC HÀ NỘI
VÕ THỊ ANH, NGUYỄN THUÝ BÌNH
Viện Khoa học Và Kỹ thuật Hạt nhân, 179 Hoàng Quốc Việt, Cầu Giấy, Hà Nội
,
Tóm tắt: Khi tiến hành nghiên cứu về vấn đề ô nhiễm môi trường không khí ở Hà nội,
phương pháp phân tích phương sai là một trong những phương pháp thống kế phân tích
dữ liệu có tầm quan trọng trong việc đánh giá mối tương quan giữa các thông số sinh học,
hoá học và khí hậu nhằm tìm ra các yếu tố tương tác lẫn trong môi trường. Bài báo này
nhằm đưa ra tính ứng dụng của phương pháp phân tích phương sai trong phân tích môi
trường.
Từ khoá: Phân tích phương sai, không khí
I. Mở đầu
Hiện nay, vấn đề ô nhiễm không khí là vấn đề không chỉ của riêng mỗi quốc gia mà còn
mang tính toàn cầu. Việt Nam cũng không nằm ngoài mối quan tâm lớn đó. Bởi sự ô nhiễm
không khí ở các khu đô thị lớn đang diễn biến ngày càng phức tạp. Nguyên do chính của tình
trạng trên là do quá trình đô thị hoá quá nhanh, sự tăng nhanh chóng của các phương tiện giao
thông, sự phát triển của công nghiệp và tiểu thủ công nghiệp quá nhanh trong khi cơ sở hạ
tầng còn thấp
Hà Nội là thủ đô của cả nước với tốc độ phát triển kinh tế xã hội đứng đầu cả nước. Tuy
nhiên đạt được những thành tựu kinh tế xã hội như vậy nhưng cuộc sống của người dân nơi
đây phải đối mặt với những vấn đề như ô nhiễm môi trường sống do mật độ dân cư dầy đặc,
sự ô nhiễm nguồn nước sinh hoạt, và đặc biệt là vấn đề ô nhiễm không khí dẫn đến làm giảm
chất lượng sống ở thành thị.
Nhiều năm trở lại đây, các nhà khoa học trong nhiều lĩnh vực khác nhau đã tiến hành
nghiên cứu về vấn đề ô nhiễm không khí ở khu vực Hà Nội. Tuy nhiên những nghiên cứu này
còn rời rạc, chưa có mối liên kết phản biện về tương quan những tác nhân ảnh hưởng tới chất
lượng không khí ở Hà Nội với đời sống sức khoẻ, tinh thần của dân cư trong khu vực. Những
số liệu thu thập từ những nghiên cứu khoa học mới có tính chất thống kê để đưa ra khuyến
cáo nhằm đề xuất giảm thiểu tình trạng ô nhiễm không khí chứ chưa thể hiện được mối tương
quan tác động qua lại. Việc sử dụng các công cụ toán học cũng như mô hình toán được đưa
vào nghiên cứu mối liên hệ những yếu tố ảnh hưởng còn ít, chưa rõ ràng.
Trong bài báo này, chúng tôi đã áp dụng một phương pháp phân tích cổ điển, phương
pháp phân tích phương sai, một trong nhiều phương pháp thống kê toán học, để tìm hiểu mối
tương quan giữa các yếu tố môi trường tác động với sức khoẻ con người.
II. Sử dựng phương pháp phân tích phương sai (analysis of variance_ANOVA) trong
việc đánh giá số liệu ghi nhận được.
Phân tích phương sai thực chất là bài toán kiểm định về sự bằng nhau của nhiều trung
bình tổng thể.
1. Phân tích phương sai một chiều:
Phân tích phương sai một chiều là phân tích dựa trên ảnh hưởng của một nhân tố. Mục
đích của phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo
hay tự nhiêu) nào đó trên các giá trị quan sát. Với bài toán này chúng ta so sánh giá trị trung
bình của nhiều tập hợp chính với giả thiết các phương sai bằng nhau và kiểm định xem các
giá trị trung bình có bằng nhau không (tức là kiểm tra xem khi một nhân tố thay đổi thì điều
đó có ảnh hưởng đến hiệu quả trung bình không).
Để giải quyêt bài toán có hay không mối tương quan tác động qua lại giữa các yếu tố
trung bình vi khuẩn ghi nhận được với các yếu tố thời tiết như độ ẩm, nhiệt độ và lượng mưa
trong cùng một thời điểm tiến hành lấy mẫu, chúng ta xem xét bảng số liệu dưới đây.
Bảng 1: Số liệu khí tượng và vi khuẩn theo tháng
Tháng
Trung bình
vi khuẩn
Lượng mưa
trung bình
(mm)
Độ ẩm
Nhiệt độ
(
o
C)
Thg3-11
88568
18
78%
16
Thg4-11
12859
41
79%
24
Thg5-11
2566
149
80%
26
Thg6-11
3191
396
91%
28
Thg7-11
15091
295
79%
30
Thg8-11
6819
313
83%
29
Thg9-11
6348
247
87%
26
Thg10-11
1070
178
84%
25
Thg11-11
8448
32
88%
21
Thg12-11
1317
52
74%
15
Thg1-12
2465
20
78%
14
Thg2-12
22120
19
87%
15
Thg3-12
11484
17
92%
19
Từ bảng số liệu này, ta sẽ vẽ đồ thị để tìm xem giữa chúng có tính quy luật gì không.
Biểu đồ Trung bình vi khuẩn theo tháng
0
30000
60000
90000
120000
Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12
Tháng
T r u n g b ì n h v i k h u ẩ n
Hình 1: Trung bình vi khuẩn theo tháng Hình 2: Độ ẩm theo tháng
Biểu đồ độ ẩm theo tháng
0%
20%
40%
60%
80%
100%
Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12
Tháng
Đ ộ ẩ m
Hình 3: Nhiệt độ hàng tháng Hình 4: Lượng mưa hàng tháng
Nếu nhìn vào bốn đồ thị trên, chúng ta thật khó có thể nhìn thấy mối tương quan giữa
chúng cũng như tìm thấy quy luật của các yếu tố trên theo thời gian 12 tháng.
Bây giờ chúng ta sử dụng công cụ ANOVA để đánh giá các yếu tố ghi nhận được có
trong bảng số liệu trên và thu được bảng kết quả như sau:
Nguồn
biến thiên
Tổng độ lệch
bình phương
Bậc
tự do Phương sai
F P-value F crit
Giữa các
nhóm
1903853145
3
6,35E+08
4,697298306
0,0059053
2,7980606
Trong nội
bộ nhóm
6484929919
48
1,35E+08
Tổng số
8388783064
51
Xét bài toán với mức ý nghĩa =5%
Với giả thiết ban đầu Ho là yếu tố thời tiết với trung bình vi khuẩn không có mối tương
quan ảnh hưởng qua lại với nhau.
Dựa vào giá trị kiểm định ta thấy giá trị p=0,0059053 là rất bé, đồng thời F>Fcrit, nghĩa
là giả thiết Ho không được chấp nhận. Điều này cho thấy giữa yếu tố trung bình vi khuẩn và
các giá trị thời tiết là có ảnh hưởng tác động qua lại với nhau.
Từ việc giải quyết bài toán theo phương pháp vẽ đồ thị và tính toán phương sai, ta thấy
phương pháp tính đã đưa ra giá trị toán học có tính logic, tính nhanh và có tính thuyết phục
cao hơn việc vẽ đồ thị. Tuy nhiên, việc áp dụng phương pháp tính phương sai một chiều là áp
dụng cho bài toán đơn giản, với ít yếu tố ảnh hưởng đến hiện tượng phân tích. Với những bài
toán phức tạp, nhiều yếu tố thì chúng ta cần phải sử dụng công cụ toán học có tính thuyết
phục cao hơn, đó là phương pháp phân tích phương sai hai chiều.
2. Phân tích phương sai hai chiều:
Phân tích phương sai hai chiều là xét đến hai yếu tố ảnh hưởng đến hiện tượng phân tích.
Biểu đồ nhiệt độ theo tháng
0
5
10
15
20
25
30
35
Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12
Tháng
N h i ệ t đ ộ o C
Biểu đồ lượng mưa theo tháng
0
100
200
300
400
500
Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12
Tháng
L ư ợ n g m ư a m m
a) Trường hợp có một quan sát trong cùng một ô:
Trường hợp này tương ứng với sự tác động của yếu tố cột và yếu tố hàng, chúng ta chỉ
chọn một quan sát. Nghĩa là ta vừa kiểm định giả thuyết trung bình theo cột bằng nhau vừa
kiểm định trung bình theo hàng bằng nhau.
Dựa trên việc thu thập số liệu số lượng bệnh nhân nhiễm các bệnh về đường hô hấp ghi
nhận được ở bệnh viện E trong hai năm 2010 và 2011, chúng tôi tiến hành nghiên cứu xem có
sự thăng giáng về số bệnh nhân có tuân theo quy luật nào không từ số liệu này.
Tháng
S
ố bệnh nhân li
ên quan t
ới hô hấp
(người) BV E
Năm 2010 Năm 2011
1
113 144
2
82 149
3
140 243
4
104 197
5
107 151
6
123 122
7
129 125
8
194 106
9
124 107
10
140 132
11
179 123
12
153 136
Bảng 2: Số liệu bệnh nhân tại bệnh viện E Hình 5: Bệnh nhân liên quan tới đường hô hấp
Từ đồ thị trên, ta thấy rằng vào tháng 3 năm 2011 và tháng 8 năm 2010 cơ số bệnh nhân
cao nhất trong năm.
Bây giờ ta áp dụng bài toán phương sai cho nghiên cứu trên với giả thiết ban đầu là số
bệnh nhân nhiễm đường hô hấp ở bệnh viện E năm theo năm và theo tháng là không có mối
tương quan lẫn nhau, nghĩa là không có một quy luật nhất định nào.
Kết quả tính toán ANOVA:
Nguồn
biến thiên
Tổng độ lệch
bình phương Bậc tự do Phương sai F P-value F crit
Giữa các
hàng
9624,091
10
962,4091
0,534691
0,830965
2,978237
Giữa các
cột
611,6364
1
611,6364
0,33981
0,572849
4,964603
Sai số
17999,36
10
1799,936
Tổng cộng
28235,09
21
Với mức ý nghĩa là =5%
Từ kết quả tính toán trên, chúng tôi có một số nhận xét sau:
Số bệnh nhân liên quan tới hô hấp BV E
0
50
100
150
200
250
0 1 2 3 4 5 6 7 8 9 10 11 12Tháng
Người
Năm 201 0
Năm 201 1
- Ở đây cả yếu tố hàng p=0,830965 và yếu tố cột p=0,572849 là giá trị rất lớn, đồng thời
giá trị kiểm định của hàng và cột đều nhỏ hơn giá trị Fcrit, đều đó khẳng định giả thiết ban
đầu được chấp nhận. Nghĩa là số bệnh nhân ghi nhận được theo năm, theo tháng là ngẫu
nhiên, không có quy luật nào.
Như vậy, phương pháp tính này đã giúp chúng ta đánh giá số liệu một cách khách quan
khoa học thông qua những giá trị p, F bên cạnh phương pháp vẽ đồ thị thông thường và nhìn
cảm quan bên ngoài.
b) Trường hợp có hơn một tham số trong một ô:
Trong một nghiên cứu nhằm tìm kiếm số lượng vi khuẩn có trong môi trường theo một
ngày nhất định trong tuần (ngày thứ 3 hàng tuần) và theo tháng, được tiến hành nuôi cấy đồng
thời trên ba đĩa A, B, C, chúng tôi ghi nhận được bảng số liệu dưới đây. Như vậy, từ bảng số
liệu thu nhận được, chúng ta đặt ra câu hỏi, vậy việc lấy mẫu trên các đĩa khác nhau có gì đặc
biệt không, hay việc lấy mẫu có tính chu kỳ lặp lại như vậy có mối liên quan với nhau. Đây là
một bài toán hai yếu tố với nhiều quan sát ghi nhận được. Để giải quyết bài toán này, chúng
tôi đã áp dụng phương pháp phân tích phương sai hai chiều có hơn một tham số trong một ô.
Phương pháp này áp dụng trong trường hợp với mỗi yếu tố hàng và yếu tố cột có nhiều
quan sát thì ngoài việc chúng ta phải kiểm định vể trung bình theo hàng và theo cột bằng
nhau, chúng ta còn phải xem xét sự tương tác giữa yếu tố hàng và yếu tố cột có ảnh hưởng
đến hiện tượng nghiên cứu hay không.
Bảng 3: Số liệu vi khuẩn có trên các đĩa theo tháng
Số vi khuẩn có trên các đĩa Số vi khuẩn có trên các đĩa
A B C A B C
Tháng 3
1690
1750
1900
Tháng 6
6900
9200
7900
4130
3970
3480
3900
4200
3900
2600
2200
2400
1240
1300
1180
250000
220000
220000
980
910
890
Tháng 4
29000
25000
30000
Tháng 7
95
175
125
12300
11800
13100
17300
16900
16500
380
610
660
1450
1750
1750
30000
36000
29000
980
890
980
Tháng 5
300
350
340
Tháng 8
13000
14000
13200
550
610
560
1290
1330
1280
620
490
570
8000
8200
6300
120
100
140
4700
4500
4300
Kết quả tính toán phương sai ANOVA:
Source of Variation
SS df MS F P-value F crit
Sample
3,01E+10
5
6,01E+09
2,715771
0,029238
2,38607
Columns
22754686
2
11377343
0,005139
0,994875
3,168246
Interaction
1,35E+08
10
13540528
0,006116
1
2,011181
Within
1,2E+11
54
2,21E+09
Total
1,5E+11
71
Từ bảng tính toán trên ta có một số kết luận sau:
- Kiểm định theo cột:
+ Với giả thiết số vi khuẩn ghi nhận được không phụ thuộc vào đĩa.
+ Giá trị =5%, p=0,994875, F<Fcrit=3,168246, chấp nhận giả thiết đưa ra.
+ Kết luận: Số vi khuẩn ghi nhận không phụ thuộc vào việc cấy trên đĩa nào.
- Kiểm định theo hàng:
+ Với giả thiết số vi khuẩn ghi nhận được không phụ thuộc theo thời gian.
+ Giá trị =5%, p=0,029238, F
A
>Fcrit=2,3860, không chấp nhận giả thiết.
+ Kết luận: số vi khuẩn ghi nhận được phụ thuộc theo thời gian.
- Kiểm định mối tương tác
+ Với giả thiết không có mối tương tác giữa yếu tố thời gian, đĩa cấy mẫu với số vi
khuẩn ghi nhận được trên đĩa
+ Giá trị =5%, p=1, F< Fcrit=2,011181, chấp nhận giả thuyết.
Kết luận chung: Lượng vi khuẩn ghi nhận được trên các đĩa là có tính ngẫu nhiên, và
tuân theo quy luật thời gian, tức là có sự thay đổi theo mùa, phụ thuộc vào các thông số khí
tượng môi trường.
Bằng cách sử dụng phương pháp tính phương sai, chúng ta đã tìm ra có hay không mối
tương tác qua lại giữa số liệu ghi nhận được với yếu tố môi trường cũng như điều kiện nuôi
cấy vi khuẩn trên các đĩa khác nhau. Điều này thật khó nếu ta nhìn vào bảng số liệu thô ban
đầu. Đây là ưu điểm lớn của phương pháp tính này.
III. Kết luận
Bằng việc sử dụng phương pháp tính ANOVA, các số liệu mà ta thu thập được đã thể
hiện có hay không mối tương quan qua lại ảnh hưởng lẫn nhau, điều mà nếu ta nhìn vào số
liệu thống kê hay vẽ đồ thị thì không thể nhận biết được. Đây chính là ưu điểm mạnh của
phương pháp. Và đây cũng là phương pháp có tính phản biển mạnh mẽ cho những nghiên cứu
về ô nhiễm môi trường không khí mà chúng tôi đang nghiên cứu.
TÀI LIỆU THAM KHẢO
[1] J.S. Kaper and J.S. Prener, “The XYZ Method”, Acta Crystallogr., 7,246-48, 1954
[2] Trần Văn Công, Bahr Weiss, Sự cần thiết và ý nghĩa của việc sử dụng xác suất thống kê
trong nghiên cứu giáo dục và các khoa học xã hội.
[3] Burkhardt Seifert & Alois Tschopp, Biostatistics ANOVA - Analysis of Variance
[4] Thomas Scheike, Biostatistics Quantitative Data
APPLICATION ANALYSIS OF VARIANCE METHODE FOR
EVALUATED RALATION TO FACTORS IN AIRBORNE DUST
IN HANOI
Abstract: When study about air environmental pollution in Hanoi, the analysis of
variance method is one of statistical methodes for data analysis which is very importance
for evaluated relation about biology, chemistry and climate… to look for interactive
factors in environment. This paper aims to study the analysis of variance method for
enviromental analysis.