Tải bản đầy đủ (.pdf) (7 trang)

SỬ DỤNG PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI ĐỂ ĐÁNH GIÁ MỐI TƯƠNG QUAN GIỮA CÁC NHÂN TỐ CÓ TRONG BỤI KHÍ Ở KHU VỰC HÀ NỘI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (272.51 KB, 7 trang )

SỬ DỤNG PHƯƠNG PHÁP PHÂN TÍCH PHƯƠNG SAI
ĐỂ ĐÁNH GIÁ MỐI TƯƠNG QUAN GIỮA CÁC NHÂN TỐ
CÓ TRONG BỤI KHÍ Ở KHU VỰC HÀ NỘI

VÕ THỊ ANH, NGUYỄN THUÝ BÌNH

Viện Khoa học Và Kỹ thuật Hạt nhân, 179 Hoàng Quốc Việt, Cầu Giấy, Hà Nội
,

Tóm tắt: Khi tiến hành nghiên cứu về vấn đề ô nhiễm môi trường không khí ở Hà nội,
phương pháp phân tích phương sai là một trong những phương pháp thống kế phân tích
dữ liệu có tầm quan trọng trong việc đánh giá mối tương quan giữa các thông số sinh học,
hoá học và khí hậu nhằm tìm ra các yếu tố tương tác lẫn trong môi trường. Bài báo này
nhằm đưa ra tính ứng dụng của phương pháp phân tích phương sai trong phân tích môi
trường.
Từ khoá: Phân tích phương sai, không khí
I. Mở đầu
Hiện nay, vấn đề ô nhiễm không khí là vấn đề không chỉ của riêng mỗi quốc gia mà còn
mang tính toàn cầu. Việt Nam cũng không nằm ngoài mối quan tâm lớn đó. Bởi sự ô nhiễm
không khí ở các khu đô thị lớn đang diễn biến ngày càng phức tạp. Nguyên do chính của tình
trạng trên là do quá trình đô thị hoá quá nhanh, sự tăng nhanh chóng của các phương tiện giao
thông, sự phát triển của công nghiệp và tiểu thủ công nghiệp quá nhanh trong khi cơ sở hạ
tầng còn thấp
Hà Nội là thủ đô của cả nước với tốc độ phát triển kinh tế xã hội đứng đầu cả nước. Tuy
nhiên đạt được những thành tựu kinh tế xã hội như vậy nhưng cuộc sống của người dân nơi
đây phải đối mặt với những vấn đề như ô nhiễm môi trường sống do mật độ dân cư dầy đặc,
sự ô nhiễm nguồn nước sinh hoạt, và đặc biệt là vấn đề ô nhiễm không khí dẫn đến làm giảm
chất lượng sống ở thành thị.
Nhiều năm trở lại đây, các nhà khoa học trong nhiều lĩnh vực khác nhau đã tiến hành
nghiên cứu về vấn đề ô nhiễm không khí ở khu vực Hà Nội. Tuy nhiên những nghiên cứu này
còn rời rạc, chưa có mối liên kết phản biện về tương quan những tác nhân ảnh hưởng tới chất


lượng không khí ở Hà Nội với đời sống sức khoẻ, tinh thần của dân cư trong khu vực. Những
số liệu thu thập từ những nghiên cứu khoa học mới có tính chất thống kê để đưa ra khuyến
cáo nhằm đề xuất giảm thiểu tình trạng ô nhiễm không khí chứ chưa thể hiện được mối tương
quan tác động qua lại. Việc sử dụng các công cụ toán học cũng như mô hình toán được đưa
vào nghiên cứu mối liên hệ những yếu tố ảnh hưởng còn ít, chưa rõ ràng.
Trong bài báo này, chúng tôi đã áp dụng một phương pháp phân tích cổ điển, phương
pháp phân tích phương sai, một trong nhiều phương pháp thống kê toán học, để tìm hiểu mối
tương quan giữa các yếu tố môi trường tác động với sức khoẻ con người.
II. Sử dựng phương pháp phân tích phương sai (analysis of variance_ANOVA) trong
việc đánh giá số liệu ghi nhận được.
Phân tích phương sai thực chất là bài toán kiểm định về sự bằng nhau của nhiều trung
bình tổng thể.
1. Phân tích phương sai một chiều:
Phân tích phương sai một chiều là phân tích dựa trên ảnh hưởng của một nhân tố. Mục
đích của phân tích phương sai một yếu tố là đánh giá sự ảnh hưởng của một yếu tố (nhân tạo
hay tự nhiêu) nào đó trên các giá trị quan sát. Với bài toán này chúng ta so sánh giá trị trung
bình của nhiều tập hợp chính với giả thiết các phương sai bằng nhau và kiểm định xem các
giá trị trung bình có bằng nhau không (tức là kiểm tra xem khi một nhân tố thay đổi thì điều
đó có ảnh hưởng đến hiệu quả trung bình không).
Để giải quyêt bài toán có hay không mối tương quan tác động qua lại giữa các yếu tố
trung bình vi khuẩn ghi nhận được với các yếu tố thời tiết như độ ẩm, nhiệt độ và lượng mưa
trong cùng một thời điểm tiến hành lấy mẫu, chúng ta xem xét bảng số liệu dưới đây.

Bảng 1: Số liệu khí tượng và vi khuẩn theo tháng
Tháng
Trung bình
vi khuẩn
Lượng mưa
trung bình
(mm)

Độ ẩm
Nhiệt độ
(
o
C)
Thg3-11

88568

18

78%

16

Thg4-11

12859

41

79%

24

Thg5-11

2566

149


80%

26

Thg6-11

3191

396

91%

28

Thg7-11

15091

295

79%

30

Thg8-11

6819

313


83%

29

Thg9-11

6348

247

87%

26

Thg10-11

1070

178

84%

25

Thg11-11

8448

32


88%

21

Thg12-11

1317

52

74%

15

Thg1-12

2465

20

78%

14

Thg2-12

22120

19


87%

15

Thg3-12

11484

17

92%

19

Từ bảng số liệu này, ta sẽ vẽ đồ thị để tìm xem giữa chúng có tính quy luật gì không.
Biểu đồ Trung bình vi khuẩn theo tháng
0
30000
60000
90000
120000
Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12
Tháng
T r u n g b ì n h v i k h u ẩ n

Hình 1: Trung bình vi khuẩn theo tháng Hình 2: Độ ẩm theo tháng

Biểu đồ độ ẩm theo tháng
0%

20%
40%
60%
80%
100%
Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12
Tháng
Đ ộ ẩ m









Hình 3: Nhiệt độ hàng tháng Hình 4: Lượng mưa hàng tháng

Nếu nhìn vào bốn đồ thị trên, chúng ta thật khó có thể nhìn thấy mối tương quan giữa
chúng cũng như tìm thấy quy luật của các yếu tố trên theo thời gian 12 tháng.
Bây giờ chúng ta sử dụng công cụ ANOVA để đánh giá các yếu tố ghi nhận được có
trong bảng số liệu trên và thu được bảng kết quả như sau:

Nguồn
biến thiên
Tổng độ lệch
bình phương
Bậc
tự do Phương sai


F P-value F crit
Giữa các
nhóm
1903853145

3

6,35E+08

4,697298306

0,0059053

2,7980606

Trong nội
bộ nhóm
6484929919

48

1,35E+08


Tổng số
8388783064

51



Xét bài toán với mức ý nghĩa =5%
Với giả thiết ban đầu Ho là yếu tố thời tiết với trung bình vi khuẩn không có mối tương
quan ảnh hưởng qua lại với nhau.
Dựa vào giá trị kiểm định ta thấy giá trị p=0,0059053 là rất bé, đồng thời F>Fcrit, nghĩa
là giả thiết Ho không được chấp nhận. Điều này cho thấy giữa yếu tố trung bình vi khuẩn và
các giá trị thời tiết là có ảnh hưởng tác động qua lại với nhau.
Từ việc giải quyết bài toán theo phương pháp vẽ đồ thị và tính toán phương sai, ta thấy
phương pháp tính đã đưa ra giá trị toán học có tính logic, tính nhanh và có tính thuyết phục
cao hơn việc vẽ đồ thị. Tuy nhiên, việc áp dụng phương pháp tính phương sai một chiều là áp
dụng cho bài toán đơn giản, với ít yếu tố ảnh hưởng đến hiện tượng phân tích. Với những bài
toán phức tạp, nhiều yếu tố thì chúng ta cần phải sử dụng công cụ toán học có tính thuyết
phục cao hơn, đó là phương pháp phân tích phương sai hai chiều.
2. Phân tích phương sai hai chiều:
Phân tích phương sai hai chiều là xét đến hai yếu tố ảnh hưởng đến hiện tượng phân tích.


Biểu đồ nhiệt độ theo tháng
0
5
10
15
20
25
30
35
Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12
Tháng
N h i ệ t đ ộ o C
Biểu đồ lượng mưa theo tháng

0
100
200
300
400
500
Thg2-11 Thg3-11 Thg5-11 Thg7-11 Thg8-11 Thg10-11 Thg12-11 Thg1-12 Thg3-12 Thg5-12
Tháng
L ư ợ n g m ư a m m
a) Trường hợp có một quan sát trong cùng một ô:
Trường hợp này tương ứng với sự tác động của yếu tố cột và yếu tố hàng, chúng ta chỉ
chọn một quan sát. Nghĩa là ta vừa kiểm định giả thuyết trung bình theo cột bằng nhau vừa
kiểm định trung bình theo hàng bằng nhau.
Dựa trên việc thu thập số liệu số lượng bệnh nhân nhiễm các bệnh về đường hô hấp ghi
nhận được ở bệnh viện E trong hai năm 2010 và 2011, chúng tôi tiến hành nghiên cứu xem có
sự thăng giáng về số bệnh nhân có tuân theo quy luật nào không từ số liệu này.

Tháng

S
ố bệnh nhân li
ên quan t
ới hô hấp
(người) BV E
Năm 2010 Năm 2011
1

113 144
2


82 149
3

140 243
4

104 197
5

107 151
6

123 122
7

129 125
8

194 106
9

124 107
10

140 132
11

179 123
12


153 136

Bảng 2: Số liệu bệnh nhân tại bệnh viện E Hình 5: Bệnh nhân liên quan tới đường hô hấp
Từ đồ thị trên, ta thấy rằng vào tháng 3 năm 2011 và tháng 8 năm 2010 cơ số bệnh nhân
cao nhất trong năm.
Bây giờ ta áp dụng bài toán phương sai cho nghiên cứu trên với giả thiết ban đầu là số
bệnh nhân nhiễm đường hô hấp ở bệnh viện E năm theo năm và theo tháng là không có mối
tương quan lẫn nhau, nghĩa là không có một quy luật nhất định nào.
Kết quả tính toán ANOVA:
Nguồn
biến thiên
Tổng độ lệch
bình phương Bậc tự do Phương sai F P-value F crit
Giữa các
hàng
9624,091

10

962,4091

0,534691

0,830965

2,978237

Giữa các
cột
611,6364


1

611,6364

0,33981

0,572849

4,964603

Sai số
17999,36

10

1799,936


Tổng cộng
28235,09

21


Với mức ý nghĩa là =5%
Từ kết quả tính toán trên, chúng tôi có một số nhận xét sau:
Số bệnh nhân liên quan tới hô hấp BV E
0
50

100
150
200
250
0 1 2 3 4 5 6 7 8 9 10 11 12Tháng
Người
Năm 201 0
Năm 201 1
- Ở đây cả yếu tố hàng p=0,830965 và yếu tố cột p=0,572849 là giá trị rất lớn, đồng thời
giá trị kiểm định của hàng và cột đều nhỏ hơn giá trị Fcrit, đều đó khẳng định giả thiết ban
đầu được chấp nhận. Nghĩa là số bệnh nhân ghi nhận được theo năm, theo tháng là ngẫu
nhiên, không có quy luật nào.
Như vậy, phương pháp tính này đã giúp chúng ta đánh giá số liệu một cách khách quan
khoa học thông qua những giá trị p, F bên cạnh phương pháp vẽ đồ thị thông thường và nhìn
cảm quan bên ngoài.
b) Trường hợp có hơn một tham số trong một ô:
Trong một nghiên cứu nhằm tìm kiếm số lượng vi khuẩn có trong môi trường theo một
ngày nhất định trong tuần (ngày thứ 3 hàng tuần) và theo tháng, được tiến hành nuôi cấy đồng
thời trên ba đĩa A, B, C, chúng tôi ghi nhận được bảng số liệu dưới đây. Như vậy, từ bảng số
liệu thu nhận được, chúng ta đặt ra câu hỏi, vậy việc lấy mẫu trên các đĩa khác nhau có gì đặc
biệt không, hay việc lấy mẫu có tính chu kỳ lặp lại như vậy có mối liên quan với nhau. Đây là
một bài toán hai yếu tố với nhiều quan sát ghi nhận được. Để giải quyết bài toán này, chúng
tôi đã áp dụng phương pháp phân tích phương sai hai chiều có hơn một tham số trong một ô.
Phương pháp này áp dụng trong trường hợp với mỗi yếu tố hàng và yếu tố cột có nhiều
quan sát thì ngoài việc chúng ta phải kiểm định vể trung bình theo hàng và theo cột bằng
nhau, chúng ta còn phải xem xét sự tương tác giữa yếu tố hàng và yếu tố cột có ảnh hưởng
đến hiện tượng nghiên cứu hay không.
Bảng 3: Số liệu vi khuẩn có trên các đĩa theo tháng
Số vi khuẩn có trên các đĩa Số vi khuẩn có trên các đĩa


A B C A B C
Tháng 3




1690

1750

1900

Tháng 6



6900

9200

7900

4130

3970

3480

3900


4200

3900

2600

2200

2400

1240

1300

1180

250000

220000

220000

980

910

890


Tháng 4





29000

25000

30000

Tháng 7




95

175

125

12300

11800

13100

17300

16900


16500

380

610

660

1450

1750

1750

30000

36000

29000

980

890

980

Tháng 5





300

350

340

Tháng 8




13000

14000

13200

550

610

560

1290

1330

1280


620

490

570

8000

8200

6300

120

100

140

4700

4500

4300

Kết quả tính toán phương sai ANOVA:
Source of Variation

SS df MS F P-value F crit
Sample

3,01E+10

5

6,01E+09

2,715771

0,029238

2,38607

Columns
22754686

2

11377343

0,005139

0,994875

3,168246

Interaction
1,35E+08

10


13540528

0,006116

1

2,011181

Within
1,2E+11

54

2,21E+09


Total
1,5E+11

71


Từ bảng tính toán trên ta có một số kết luận sau:
- Kiểm định theo cột:
+ Với giả thiết số vi khuẩn ghi nhận được không phụ thuộc vào đĩa.
+ Giá trị =5%, p=0,994875, F<Fcrit=3,168246, chấp nhận giả thiết đưa ra.
+ Kết luận: Số vi khuẩn ghi nhận không phụ thuộc vào việc cấy trên đĩa nào.
- Kiểm định theo hàng:
+ Với giả thiết số vi khuẩn ghi nhận được không phụ thuộc theo thời gian.
+ Giá trị =5%, p=0,029238, F

A
>Fcrit=2,3860, không chấp nhận giả thiết.
+ Kết luận: số vi khuẩn ghi nhận được phụ thuộc theo thời gian.
- Kiểm định mối tương tác
+ Với giả thiết không có mối tương tác giữa yếu tố thời gian, đĩa cấy mẫu với số vi
khuẩn ghi nhận được trên đĩa
+ Giá trị =5%, p=1, F< Fcrit=2,011181, chấp nhận giả thuyết.
Kết luận chung: Lượng vi khuẩn ghi nhận được trên các đĩa là có tính ngẫu nhiên, và
tuân theo quy luật thời gian, tức là có sự thay đổi theo mùa, phụ thuộc vào các thông số khí
tượng môi trường.
Bằng cách sử dụng phương pháp tính phương sai, chúng ta đã tìm ra có hay không mối
tương tác qua lại giữa số liệu ghi nhận được với yếu tố môi trường cũng như điều kiện nuôi
cấy vi khuẩn trên các đĩa khác nhau. Điều này thật khó nếu ta nhìn vào bảng số liệu thô ban
đầu. Đây là ưu điểm lớn của phương pháp tính này.
III. Kết luận
Bằng việc sử dụng phương pháp tính ANOVA, các số liệu mà ta thu thập được đã thể
hiện có hay không mối tương quan qua lại ảnh hưởng lẫn nhau, điều mà nếu ta nhìn vào số
liệu thống kê hay vẽ đồ thị thì không thể nhận biết được. Đây chính là ưu điểm mạnh của
phương pháp. Và đây cũng là phương pháp có tính phản biển mạnh mẽ cho những nghiên cứu
về ô nhiễm môi trường không khí mà chúng tôi đang nghiên cứu.
TÀI LIỆU THAM KHẢO
[1] J.S. Kaper and J.S. Prener, “The XYZ Method”, Acta Crystallogr., 7,246-48, 1954
[2] Trần Văn Công, Bahr Weiss, Sự cần thiết và ý nghĩa của việc sử dụng xác suất thống kê
trong nghiên cứu giáo dục và các khoa học xã hội.
[3] Burkhardt Seifert & Alois Tschopp, Biostatistics ANOVA - Analysis of Variance
[4] Thomas Scheike, Biostatistics Quantitative Data


APPLICATION ANALYSIS OF VARIANCE METHODE FOR
EVALUATED RALATION TO FACTORS IN AIRBORNE DUST

IN HANOI

Abstract: When study about air environmental pollution in Hanoi, the analysis of
variance method is one of statistical methodes for data analysis which is very importance
for evaluated relation about biology, chemistry and climate… to look for interactive
factors in environment. This paper aims to study the analysis of variance method for
enviromental analysis.

×