Tải bản đầy đủ (.docx) (23 trang)

Nhóm 1 ứng dụng học máy dự đoán chất lượng không khí

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (815.5 KB, 23 trang )

KHOA CƠNG NGHỆ THƠNG TIN


HỌC PHẦN: TRÍ TUỆ NHÂN TẠO
ĐỀ TÀI: ỨNG DỤNG HỌC MÁY TRONG DỰ ĐỐN CHẤT LƯỢNG
KHƠNG KHÍ
Nhóm 10:
Lớp:
Giáo viên hướng dẫn:

Hà Nội - 2021


MỤC LỤC

2


DANH MỤC CHỮ VIẾT TẮT
Tiếng Anh

Tiếng Việt

AI

Artificial Intelligent

Trí tuệ nhân tạo

ANN


Artificial neural netwwork

Mạng nơron nhân tạo

AQI

Air quality index

Chỉ số chất lượng khơng khí

AR

Autoregressive

Mơ hình tự hồi quy

ARIMA

Autoregressive integrated moving
average

Mơ hình tự hồi quy tích hợp
trung bình trượt

CLKK

Chất lượng khơng khí

CNN


Convolution neural network

Mạng nơron tích chập

FFNN

Feed-forward neural network

Mạng nơron truyền thuận

FL

Fuzzy – logic

Logic mờ

FN

Fully connected network

Mạng nơron kết nối đầy đủ

GA

Genetic algorithm

Thuật giải di truyền

IQR


Inter quartile range

Khoảng phân vị

KF

Kalman filter

Bộ lọc Kalman

LR

Linear regression

Hồi quy tuyến tính

LSTM

Long – short term memory

Khối bộ nhớ dài – ngắn

MA

Moving average

MAE

Mean absolute error


Mơ hình trung bình trượt
Trị trung bình của các sai tuyệt
đối

MLP

Multi-layer perceptron

Mạng nơron đa lớp

Q1

Quartile 25th

Phân vị 25%

Q3

Quartile 75th

Phân vị 75%

RM

Regression model

Mơ hình hồi quy

RMSE


Root mean square error

Sai số quân phương

SVM

Support vector machine

Máy véc tơ hỗ trợ

LỜI MỞ ĐẦU
Cũng giống như thời tiết, chất lượng khơng khí ảnh hưởng trực tiếp đến sức
khỏe con người. Khi nồng độ các chất ô nhiễm vượt quá ngưỡng cho phép, tiếp xúc
3


với thời gian ngắn có thể gây ra các phản ứng cấp tính như giảm tầm nhìn, khó thở,
cay mắt…, tiếp xúc với thời gian dài có thể gây ra các bệnh mạn tính về hơ hấp, tim
mạch và có thể cả ung thư. Ngồi ra, ơ nhiễm khơng khí còn gây ra các ảnh hưởng xấu
đến các hệ sinh thái tự nhiên. Do đó, bên cạnh cơng tác quan trắc thì dự báo được nồng
độ các chất ơ nhiễm khơng khí, cũng như diễn biến của chúng có ý nghĩa vô cùng quan
trọng trong việc đánh giá các mối nguy cơ tiềm tàng của ơ nhiễm khơng khí. Chính vì
vậy, trong hơn một thập kỷ trở lại đây, các nghiên cứu ứng dụng các mơ hình dự báo
chất lượng khơng khí tại Việt Nam đã tăng lên đáng kể và đạt được nhiều thành tựu.
Trong thập kỷ vừa qua, các mơ hình dự báo thống kê CLKK sử dụng mạng
nơron nhân tạo đã được nghiên cứu và ứng dụng thành cơng tại nhiều quốc gia trên
Thế giới, có thể kể đến ở đây như dự báo nồng độ bụi PM 10, dự báo nồng độ ôzôn,
hoặc một số chất ô nhiễm khác như SO2, NOx, VOC… sử dụng các kiến trúc mạng
nơron kết nối đầy đủ - FN với cấu trúc truyền thuận (FFNN) đặc biệt như MLP hay
như một số mơ hình ứng dụng mạng nơron hồi quy thông thường (RNN) như mạng tự

hồi quy phi tuyến với biến ngoại sinh (NARX) và Vanilla RNN. Trong những năm gần
đây, các kỹ thuật học sâu phát triển mạnh giúp giảm thời gian huấn luyện, giảm tiêu
tốn tài nguyên máy và tăng độ chính xác đặc biệt có thể kể đến ở đây như mạng nơron
tích chập (CNN), mạng bộ nhớ dài – ngắn (LSTM)…
Tuy nhiên, cho đến nay dự báo thống kê CLKK tại Việt Nam nói chung và đặc
biệt là dự báo thống kê ứng dụng các kỹ thuật trí tuệ nhân tạo cịn khá mới mẻ và theo
hiểu biết của tác giả hiện có rất ít các nghiên cứu liên quan đến lĩnh vực này.
Xuất phát từ thực tế đó, đề tài “Ứng dụng kỹ thuật học máy trong dự báo các
chỉ số chất lượng khơng khí.” đã được lựa chọn nhằm khởi động và thúc đẩy hướng
nghiên cứu mới này tại Việt Nam, góp phần vào cơng tác quản lý và bảo vệ mơi trường
khơng khí ở nước ta.

4


CHƯƠNG 1: TỔNG QUAN
1.1. Chất lượng khơng khí
1.1.1. Chất lượng khơng khí và ảnh hưởng của nó đến sức khỏe
Chất lượng khơng khí đã và đang là một trong những vẫn đề được quan tâm của
các quốc gia trên thế giới, trong đó có Việt Nam, bởi mức độ rủi ro tiềm ẩn của nó đến
sức khỏe người dân và hệ sinh thái. Theo tổ chức Y tế Thế giới – WHO, ước tính trong
năm 2012, ơ nhiễm khơng khí là nguyên nhân gây ra gần 7 triệu ca tử vong, chiếm
10% trong số các ca tử vong do tất cả các ngun nhân. Trong đó, theo ước tính có
khoảng 9% do nguyên nhân ung thư phổi, 17% do các bệnh phổi mạn tính, 30% do các
nguyên nhân như bệnh tim, thiếu máu cục bộ và đột quỵ liên quan đến ơ nhiễm khơng
khí, và 9% do nhiễm trùng đường hơ hấp.
Chất lượng khơng khí, là một thuật ngữ liên quan đến thành phần hóa học của
khí quyển. Trong đó, bụi (PM), ôzôn (O 3), NO2, các hợp chất hữu cơ dễ bay hơi
(VOC), CO và SO2 là những thông số được quan tâm hơn cả do mức độ nguy hiểm của
chúng đến sức khỏe. Nhiều nghiên cứu dịch tễ học tại Hồng Kông và Đài Loan đã chỉ

ra rằng sự gia tăng nồng độ của O 3, NO2, SO2 và PM2.5 có liên quan đến sự gia tăng số
ca nhập viện do các nguyên nhân hen và viêm phổi. Một kết quả đáng lưu ý được báo
cáo bởi Di và cộng sự nghiên cứu trên hơn 60 triệu người thụ hưởng bảo hiểm y tế
(Medicare) tại Mỹ trong giai đoạn từ 2000 đến 2012 phát hiện rằng, cứ nồng độ của
PM2.5 tăng lên 10 μg/m3 , thì tỷ lệ tử vong do mọi nguyên nhân tăng lên 7,3%, còn khi
nồng độ O3 tăng lên 10 ppb thì tỷ lệ tử vong tăng lên 1,1%. Ngồi ra, một phân tích
tổng hợp được nghiên cứu tại nhiều thành phố của Trung Quốc, trong nhiều gian đoạn
khác nhau cũng đã quan sát được rằng khi nồng độ của PM 2.5 tăng lên 10 μg/m3 thì tỷ
lệ tử vong do các nguyên nhân tăng lên 0,38%; tăng 0,51% tỷ lệ tử vong do các bệnh
liên quan đến hô hấp và tăng 0,44% tỷ lệ tử vong do các bệnh tim mạch. Tương tự,
ứng với sự gia tăng của SO2, NO2 và O3 lên10 μg/m3 thì tỷ lệ gia tăng tỷ lệ tử vong
tương ứng gồm tỷ lệ tử vong tổng số là 0,81%; 1,30% và 0,48%; tỷ lệ tử vong do các
bệnh hô hấp 1,18%; 1,62% và 0,73%; và tỷ lệ tử vong do các bệnh tim mạch 0,85%,
1,46% và 0,45%. Còn với CO, nghiên cứu này cũng quan sát được rằng khi nồng độ
của CO tăng lên 1mg/m3 (1000 μg/m3 ) thì tỷ lệ tử vong do tất cả các nguyên nhân tăng
lên 3,7% và do các bệnh tim mạch tăng lên 4,77%.
Tại Việt Nam, nghiên cứu tại thành phố Hồ Chí Minh từ 2004 đến hết 2007
cũng cho thấy có mối liên quan chặt chẽ giữa diễn biến nồng độ chất ô nhiễm và số ca
nhập viện do các bệnh liên quan đến hô hấp, cụ thể: ứng với sự gia tăng nồng độ của
5


mỗi chất PM10, NO2 và SO2 lên 10 μg/m3 thì tỷ lệ gia tăng các ca nhập viện do hô hấp
tăng lên tương ứng là 0,7%, 8% và 2%, trong khi, O 3 không gây tác động đáng kể nào.
Trong báo cáo này, theo ghi nhận trong số các chất ô nhiễm được nghiên cứu gồm
PM10, NO2, SO2 và O3 thì nồng độ của PM10 có đến 1126 ngày vượt quy chuẩn theo
thang đo của WHO (chiếm 79% thời gian nghiên cứu). Đối tượng nhạy cảm hơn cả với
CLKK là nhóm người già và trẻ em, hơn 75 nghìn các bệnh nhi từ 0 – 5 tuổi nhập viện
do các bệnh liên quan đến hô hấp tại Hà Nội trong thời gian từ 2004 đến 2016 (trong
đó có 2462/3351 ngày có nồng độ PM10 vượt quá quy chuẩn của WHO) cho thấy khi

khoảng cách giữa các phân vị (IQR – interquartile range) của nồng độ của O 3 tăng lên
86 μg/m3 thì tỷ lệ ra viện của bệnh nhi mắc các bệnh hô hấp giảm 5%, tương ứng với
PM10 là 61,5 μg/m3 thì tỷ lệ ra viện giảm 6%.
Điều này cho thấy, nếu công tác dự báo CLKK được thực hiện tốt như đối với
dự báo khí tượng thì sẽ giúp người dân có thể chủ động hơn với các hoạt động giảm
thiểu mức độ ảnh hưởng tiêu cực của ô nhiễm không khí đến sức khỏe, nâng cao hiểu
biết và ý thức bảo vệ môi trường, đặc biệt là khơng khí. Ngồi ra, dựa vào đó, các cơ
quan có các chính sách và chiến lược quản lý CLKK kịp thời hơn.

1.2. Ứng dụng trí tuệ nhân tạo trong dự báo chất lượng khơng khí
1.2.1. Trên thế giới
Từ thập niên 90 của thế kỷ XX đến nay, cùng với sự phát triển vượt bậc của
công nghệ thông tin và những bước đột phá trong các nghiên cứu về ứng dụng AI
trong khoa học thống kê, cơng tác phân tích và dự báo thống kê theo chuỗi thời gian
mới thực sự phát triển mạnh và được ứng dụng trong nhiều ngành, trong đó có dự báo
CLKK. Do tính linh hoạt cũng như khả năng “học tập” từ dữ liệu một cách mạnh mẽ
mà các công cụ AI, đặc biệt là ANN đã được ứng dụng từ rất sớm trong công tác dự
báo CLKK. Ngay từ những năm 1990, một mơ hình dự báo nồng độ đỉnh của ôzôn
trong ngày ứng dụng ANN đã được Junsub Yi và cộng sự xây dựng và phát triển thành
công cho thành phố Dallas, bang Texas, Mỹ. Mặc dù thời điểm này tác giả sử dụng
một kiến trúc mạng nơron truyền thuận (FFNN) khá đơn giản gồm 01 lớp đầu vào, 01
lớp ẩn và 01 lớp đầu ra. Tuy nhiên, kết quả được báo cáo trong nghiên cứu này là rất
khả quan.
Trong những năm gần đây, các kỹ thuật AI thường được thiết kế và ứng dụng
cho mục đích khai thác các bộ dữ liệu lớn (bigdata), và dữ liệu CLKK cũng là một
trong số đó. Để làm việc với các bộ dữ liệu lớn hơn thì địi hỏi kiến trúc mạng ANN
phải nhiều lớp hơn (sâu hơn) – còn gọi là mạng nơron sâu (DNN). Tuy nhiên, kiến trúc
6



kết nối đầy đủ như ANN thơng thường khơng cịn phù hợp do lượng tham số sử dụng
trong mơ hình quá lớn, chúng tiêu tốn quá nhiều tài nguyên máy tính. Từ thực tế trên,
để giảm số lượng các tham số của mạng, cách tiếp cận khả thi đã được sử dụng thành
công là cố gắng giảm chiều dữ liệu qua các lớp của mạng. Một kiến trúc mạng nơron
đặc biệt được gọi là mạng nơron tích chập – CNN hoàn chỉnh lần đầu tiên được giới
thiệu và ứng dụng bởi Yann LeCunn và cộng sự năm 1998 dựa trên cách tiếp cận như
vậy để nhận diện ký tự.
Nhờ ưu điểm này, cho đến nay CNN trở thành một trong những ANN được ứng
dụng nhiều nhất cho các bài toán khai thác dữ liệu lớn, theo thống kê từ hệ thống
Google Scholar nghiên cứu này được trích dẫn 28.998 lần (truy cập lúc 16 giờ 15’
ngày 17 tháng 8 năm 2020). Trong lĩnh vực dự báo CLKK, CNN cũng đã được ứng
dụng thành công. Tuy nhiên, cũng giống như các ANN thông thường, hạn chế của
CNN trong khai thác dữ liệu theo chuỗi thời gian như dữ liệu CLKK, đó là đầu vào
của mơ hình là các mẫu dữ liệu rời rạc, trong quá trình huấn luyện các mẫu này được
đưa vào huấn luyện một cách ngẫu nhiên không theo trình tự thời gian. Điều này có
thể làm mất thơng tin về chu kỳ diễn biến của nồng độ chất ô nhiễm theo thời gian
(ngày, tuần, mùa, …). Mặt khác, các mơ hình lai kết hợp giữa CNN-LSTM cũng đã
được nghiên cứu ứng dụng trong các mơ hình dự báo CLKK đặc biệt là phát triển mơ
hình dự báo CLKK cho các đô thị thông minh cho kết quả rất khả quan. Điều này cho
thấy tiềm năng ứng dụng AI nói chung, ANN nói riêng và đặc biệt các mạng ANN học
sâu để xây dựng các mơ hình dự báo thống kê CLKK là rất lớn.
1.2.2. Ở Việt Nam
Trong 15 năm trở lại đây, do ý thức được tầm quan trọng của công tác quản lý
và bảo vệ CLKK đặc biệt là cơng tác dự báo. Chính vì vậy, các mơ hình dự báo CLKK
đã được nghiên cứu và ứng dụng như mơ hình phát thải giao thơng SMOKE, mơ hình
CMAQ để dự báo CLKK cho một số tỉnh phía Bắc và thành phố Hồ Chí Minh, mơ
hình DPSIR hoặc mơ hình TAPOM với kết quả rất khả quan. Tuy nhiên, tựu chung lại
các mơ hình đã được nghiên cứu và ứng dụng tại Việt Nam hầu hết là các mơ hình phát
thải (như SMOKE, MOBILE), mơ hình quang hóa (CMAQ, TAPOM) hoặc mơ hình
động lực học (DPSIR). Như đã phân tích ở phần trên, các loại mơ hình này có ưu điểm

là độ chính xác cao, đánh giá sâu sắc các vấn đề liên quan đến sự biến động nồng độ
các chất ơ nhiễm khơng khí như q trình khí tượng, các q trình biến đổi hóa học…
áp dụng được với quy mơ rộng lớn và có thể kết hợp với các mơ hình khí tượng đã
được ứng dụng tại Việt Nam như MM5, FVM… Tuy nhiên, nhược điểm chung của các
mơ hình này đó là khối lượng tính tốn lớn, phức tạp vì vậy địi hỏi một hệ thống cơ sở
7


hạ tầng về công nghệ thông tin đủ mạnh. Thêm nữa, việc vận hành các mơ hình loại
này địi hỏi có chun mơn tương đối cao, bởi nếu khơng những sai sót trong thiết lập
(setup) mơ hình cũng có thể gây ra sai số khơng mong muốn. Nhìn vào hiện trạng trên
có thể thấy rằng các mơ hình ứng dụng trí tuệ nhân tạo trong dự báo và khai thác dữ
liệu mơi trường khơng khí tại Việt Nam cịn rất hạn chế.
Cùng với sự phát triển chung của Thế giới, các kỹ thuật trí tuệ nhân tạo cũng đã
được nghiên cứu và áp dụng trong rất nhiều lĩnh vực tại Việt Nam. Theo dữ liệu học
liệu mở trên cổng thông tin quốc gia (www.vista.gov.vn) từ năm 1985 cho đến nay có
thể kể đến như đối với ứng dụng trong cơng nghệ thơng tin, trong điều khiển và kiểm
sốt các q trình cơng nghệ, trong lĩnh vực dự báo nhu cầu năng lượng, trong dự báo
lũ, trong xây dựng và đặc biệt là ứng dụng trong dự báo kinh tế… Trong lĩnh vực quản
lý và bảo vệ môi trường việc ứng dụng các kỹ thuật trí tuệ nhân tạo cũng đã bước đầu
có những kết quả tương đối khả quan. Điều này cho thấy, tiềm năng ứng dụng các kỹ
thuật của trí tuệ nhân tạo trong thực tế quản lý và sản xuất là rất lớn.
Đối với quản lý và dự báo CLKK việc ứng dụng trí tuệ nhân tạo mặc dù chưa
có nghiên cứu nào, tuy nhiên vấn đề này đã thử nghiệm sử dụng ANN để bổ khuyết số
liệu quan trắc CLKK trạm Láng, Hà Nội, mặc dù mới chỉ là thử nghiệm, nhưng kết
quả thu được là tương đối khả quan, cho thấy việc ứng dụng ANN nói riêng và các kỹ
thuật trí tuệ nhân tạo nói chung tại Việt Nam là rất có tiềm năng.

1.3. Mơ hình trí tuệ nhân tạo
1.3.1. Mơ hình ARIMA

Mơ hình ARIMA được Box và Jenkins đề xuất năm 1970, là một mô hình phân
tích dữ liệu theo chuỗi thời gian được kết hợp bởi hai thành phần (mơ hình con) gồm
mơ hình tự hồi quy (Autoregressive - AR) và mơ hình trung bình trượt (Moving
average – MA), được mơ tả tóm tắt dưới đây:
+ Mơ hình tự hồi quy (Autoregressive – AR):

+ Mơ hình trung bình trượt (Moving average – MA

Kết hợp hai mơ hình trên thành một mơ hình có tham số (p, q) được gọi là
ARMA, trong đó p là tham số của mơ hình AR và q là tham số của mơ hình MA, được
trình bày trong phương trình dưới đây:
8


1.3.2. Mạng nơron nhân tạo (ANN)
Mạng nơron nhân tạo (ANN) được giới thiệu lần đầu bởi McCulloch và Pitt
(1943), là một cấu trúc tốn học mơ tả lại hệ thần kinh sinh học. Chúng được tạo thành
từ các phần tử xử lý thông tin được gọi là nơron (tế bào thần kinh). Mỗi nơron nhận tín
hiệu từ các nơron khác hoặc từ bên ngồi thơng qua synape. Tại đây, thơng tin được xử
lý thông qua một hàm truyền (transfer function) để tạo thành tín hiệu truyền đến nơron
khác dựa trên kinh nghiệm đã được học tập trước đó. Mơ hình tốn của ANN được thể
hiện trong Hình 1.1.

Hình 1. 1 Mơ hình tốn của một nơron

Hình 1. 2. Kiến trúc cơ bản của một ANN
1.3.3. Máy hỗ trợ véc tơ (SVM)
Thuật toán SVMs được phát triển bởi Vapnik (1995) dựa trên lý thuyết thống
kê, ban đầu được sử dụng trong các bài toán phân lớp dữ liệu. Thuật toán SVMs sử
dụng các mơ hình tuyến tính để phân chia ranh giới giữa các lớp phi tuyến bằng cách

mô tả dữ liệu đầu vào bằng một ánh xạ phi tuyến, nói cách khác đó là sự biến đổi
9


không gian ban đầu thành một không gian mới. SVMs là thuật tốn cơ sở của mơ hình
tuyến tính đặc biệt: Lề tối đa siêu phẳng. Trong đó, các lề siêu phẳng này chính là ranh
giới phân chia các lớp dữ liệu. Mục tiêu chính của bài tốn chính là hồi quy gần đúng
một hàm g(x) từ một bộ mẫu
1.3.4. Mạng nơron tích chập (CNN)
Mạng nơron tích chập (convolutional neural network) là một loại mạng nơron
nhân tạo đã được chứng minh tính hiệu quả của nó trong nhiều lĩnh vực phức tạp như
xe tự hành, nhận dạng sinh trắc học, dự báo kinh tế, điều khiển rô bốt. Được giới thiệu
và phát triển trong thập niên 90 của thế kỷ XX, kiến trúc LeNet được đề xuất bởi Yann
LeCun được coi là một trong những mạng nơron tích chập đầu tiên và được thiết kế
trong mơ hình nhận dạng chữ in và viết tay được gọi là LeNet5 đã giúp thúc đẩy sự
phát triển mạnh mẽ của lĩnh vực học sâu (deeplearning). Một số kiến trúc mạng tích
chập mới được đề xuất trong những năm gần đây, tuy nhiên tất cả chúng đều sử dụng
các khái niệm và phương pháp tiếp cận chính từ LeNet.
1.3.5. Khối bộ nhớ dài – ngắn (LSTM)
Khối bộ nhớ dài – ngắn (long-short term memory – LSTM) được đề xuất bởi Sepp
Hochreiter và Jürgen Schmidhuber năm 1997, ban đầu LSTM chỉ bao gồm tế bào và
hai cổng đầu vào và đầu ra, sau đó cấu trúc LSTM được hoàn thiện hơn bởi Gers Felix
khi thêm cổng quên (foget gate) và các kết nối giám sát (peephole conections). LSTM
chứa một cổng vào (input gate), một cổng đầu ra (output gate) và một cổng quên
(foget gate), sự tương tác qua lại giữa ba cổng này giúp LSTM có đủ khả năng phân
tích sự phụ thuộc của dữ liệu trong thời gian dài, điều mà các RNN thông thường
khơng thể giải quyết được. Ngồi ra, một vấn đề gặp phải phổ biến trong các mạng
nơron sâu (nhiều lớp) được gọi là mất độ dốc (gradient descent), tức là, tốc độ học của
các lớp ẩn phía trước chậm hơn các lớp ẩn sâu hơn. Hiện tượng này thường làm giảm
độ chính xác khi số lớp ẩn tăng lên. Tuy nhiên, với cấu trúc ơ nhớ của LSTM có thể

giải quyết hiệu quả vấn đề suy giảm độ dốc trong q trình lan truyền ngược
(backpropagation) và có thể phân tích chuỗi dữ liệu đầu vào với bước thời gian dài
hơn. Do đó, LSTM thường được sử dụng để giải quyết các vấn đề phân tích dữ liệu
theo chuỗi thời gian.

CHƯƠNG 2. PHƯƠNG PHÁP NGHIÊN CỨU
2.1. Quy trình nghiên cứu
Để đạt được mục tiêu đã đề ra, nghiên cứu đã được thực hiện theo các bước
chính được tóm tắt dưới đây:
10


Bước 1. Thu thập dữ liệu từ trạm quan trắc CLKK.
Bước 2. Làm sạch và chuẩn bị dữ liệu:
- Xử lý dữ liệu ngoại vi.
- Bổ khuyết dữ liệu.
- Kiểm tra độ tin cậy của bộ dữ liệu đã được bổ khuyết.
Bước 3. Xây dựng và đánh giá mơ hình nghiên cứu.
- Xây dựng kiến trúc mơ hình.
- Huấn luyện mơ hình.
- Đánh giá độ tin cậy của mơ hình.
- Cải thiện hiệu suất mơ hình
Bước 4. Thực hiện mơ hình

2.2. Thu thập dữ liệu
2.2.1. Địa điểm và thời gian thu thập dữ liệu
a. Địa điểm thu thập dữ liệu
Bộ dữ liệu quan trắc CLKK sử dụng trong nghiên cứu này là nồng độ trung
bình giờ của các thơng số CLKK được đo tại trạm quan trắc CLKK tự động thuộc
quyền quản lý của Trung tâm quan trắc Môi trường Miền Bắc (CEM), Tổng cục Môi

trường đặt tại số 556, Nguyễn Văn Cừ, Gia Lâm, Hà Nội, tương ứng với tọa độ
21°02'55.6"N và 105°52'57.4"E.
b. Thời gian thu thập dữ liệu
Bộ dữ liệu được thu thập tại quan trắc đặt tại số 556, Nguyễn Văn Cừ, Gia Lâm,
Hà Nội từ tháng 3 năm 2018 đến tháng 2 năm 2019 (một năm) ghi lại các phản ứng
của thiết bị cảm biến hóa học chất lượng khơng khí được triển khai tại hiện trường.
2.2.2. Thông số kỹ thuật và phương pháp đo đạc tại trạm quan trắc
Chúng ta có thể sử dụng Bộ dữ liệu chất lượng khơng khí UCI ML để chứng
minh ảnh hưởng của hướng kime đối với việc phân tích dữ liệu theo chiều dọc. Các dữ
liệu chất lượng không khí bao gồm 9358 phản hồi trung bình hàng giờ từ một loạt 5
cảm biến được nhúng trong Thiết bị đa cảm biến hóa học chất lượng khơng khí. Các
phép đo này được thực hiện tại một khu vực ô nhiễm đáng kể trong khoảng thời gian
một năm (tháng 3 năm 2018 đến tháng 2 năm 2019). Các tính năng bao gồm Nồng độ
11


cho CO, Hydrocacbon không Metan, Benzen, Tổng Nitơ Oxit (NOx) và Nitrogen
Dioxit (NO2).
Các thuộc tính trong tệp CSV bao gồm:


Ngày (DD / MM / YYYY)



Thời gian (HH.MM.SS)



Nồng độ trung bình hàng giờ thực sự CO tính bằng mg/m 3 (máy phân tích tham

chiếu)



PT08.S1 (thiếc oxit) phản hồi cảm biến trung bình hàng giờ (nhắm mục tiêu CO
trên danh nghĩa)



Nồng độ tổng thể của Hydro-cacbon khơng Metan trung bình thực theo giờ tính
bằng microg/m3 (máy phân tích tham chiếu)



Nồng độ Benzen trung bình thực theo giờ tính bằng microg/m 3 (máy phân tích
tham chiếu)



PT08.S2 (Titania) phản hồi cảm biến trung bình hàng giờ (được nhắm mục tiêu
NMHC trên danh nghĩa)



Nồng độ NOx trung bình hàng giờ thực tính bằng ppb (máy phân tích tham
chiếu)



PT08.S3 (oxit vonfram) phản hồi cảm biến trung bình hàng giờ (nhắm mục tiêu

NOx trên danh nghĩa)



Nồng độ NO2 trung bình hàng giờ thực tính bằng microg/m 3 (máy phân tích
tham chiếu)



PT08.S4 (oxit vonfram) phản hồi cảm biến trung bình hàng giờ (nhắm mục tiêu
NO2 danh nghĩa)



PT08.S5 (indium oxide) phản hồi cảm biến trung bình hàng giờ (được nhắm
mục tiêu O3 trên danh nghĩa)

2.3. Ngôn ngữ, công cụ sử dụng
2.3.1. Ngơn ngữ lập trình R
R là một cơng cụ rất mạnh cho học máy, thống kê và phân tích dữ liệu. Nó là
một ngơn ngữ lập trình. Ngơn ngữ R là một platform-independent do đó chúng ta có

12


thể sử dụng nó cho bất kỳ hệ điều hành nào. Việc cài đặt R cũng miễn phì vì thế chúng
ta có thể sử dụng mà khơng cần phải mua bản quyền.
R có chứa nhiều loại kỹ thuật thống kê (mơ hình hóa tuyến tính và phi tuyến,
kiểm thử thống kê cổ điển, phân tích chuỗi thời gian, phân loại, phân nhóm...) và đồ
họa. R, giống như S, được thiết kế xoay quanh một ngôn ngữ máy thực thụ, và nó cho

phép người dùng thêm các tính năng bổ sung bằng cách định nghĩa các hàm mới. Cũng
có một số khác biệt quan trọng đối với S, nhưng nhiều mã viết bằng S vẫn chạy được
mà không cần thay đổi. Nhiều hệ thống trong R được viết bằng chính ngơn ngữ của
nó, giúp cho người dùng dễ theo dõi các giải thuật. Để thực hiện cơng việc chun về
tính tốn, R có thể liên kết được với ngơn ngữ C, C++ và Fortran để có thể được gọi
trong khi chạy. Người dùng thơng thạo có thể viết mã C để xử lý trực tiếp các đối
tượng của R.
R cũng có tính mở rộng cao bằng cách sử dụng các gói cho người dùng đưa lên
cho một số chức năng và lĩnh vực nghiên cứu cụ thể. Do được thừa hưởng từ S, R có
nền tảng lập trình hướng đối tượng mạnh hơn đa số các ngơn ngữ tính tốn thống kê
khác. Việc mở rộng R cũng dễ dàng nhờ các luật đóng khối từ vựng.
Một điểm mạnh khác của R là nền tảng đồ họa của nó, có thể tạo ra những đồ thị
chất lượng cao cùng các biểu tượng tốn học. R cũng có đinh dạng văn bản riêng
tương tự như LaTeX, dùng để cung cấp tài liệu hướng dẫn tồn diện, có trực tuyến ở
các định dạng khác nhau và cả bản in.
Dù R được dùng chủ yếu bởi những nhà thống kê và những người sử dụng khác
địi hỏi một mơi trường tính tốn thống kê và phát triển phần mềm, nó cũng có thể
dùng làm một cơng cụ tính tốn ma trận tổng qt với các kết quả đo đạc cạnh tranh so
với GNU Octave và đối thủ thương mại của nó, MATLAB. Giao diện RWeka đã được
thêm vào phần mềm khai phá dữ liệu phổ biến Weka, cho phép đọc/ghi định dạng arff
vì vậy cho phép sử dụng tính năng khai phá dữ liệu trong Weka và thống kê trong R.

2.3.2. Công cụ sử dụng
RStudio là một mơi trường phát triển tích hợp (IDE) cho R, một ngơn ngữ lập
trình cho tính tốn thống kê và đồ họa. Nó có sẵn ở hai định dạng: RStudio Desktop là
một ứng dụng máy tính để bàn thơng thường trong khi RStudio Server chạy trên một
máy chủ từ xa và cho phép truy cập RStudio bằng trình duyệt web.
13



RStudio IDE có sẵn với Giấy phép Cơng cộng GNU Affero phiên bản 3. AGPL
v3 là một giấy phép nguồn mở đảm bảo quyền tự do chia sẻ mã.
RStudio Desktop và RStudio Server đều có sẵn trong các phiên bản miễn phí và
tính phí (thương mại). Hỗ trợ hệ điều hành phụ thuộc vào định dạng / phiên bản của
IDE. Các bản phân phối đóng gói sẵn của RStudio Desktop có sẵn cho Windows,
macOS và Linux. RStudio Server và Server Pro chạy trên Debian, Ubuntu, Red Hat
Linux, CentOS, openSUSE và SLES.

14


CHƯƠNG 3. KẾT QUẢ VÀ THẢO LUẬN
3.1. Kết quả phân tích và xử lý dữ liệu đầu vào
3.1.1. Tình trạng của bộ dữ liệu thu thập được
Kết quả từ Hình 3.1 cho thấy, lượng dữ liệu trống (không đo đạc được) là rất
lớn (từ 6,7% đến 83,2%). Trong đó, có những thơng số có lượng dữ liệu trống lên đến
trên 50% tổng số giờ quan trắc tập trung vào nhóm các thông số hydrocarbon, cụ thể
CH4, NMHC, THC, benzene, toluen, ethyl-benzen, mp-xylen và o-xylen có tỷ lệ dữ
liệu trống tương ứng lần lượt là 81,9%; 82,1%; 83,2%; 49,2%; 56,8%; 49,1% và 53%
trên tổng số 78.888 giờ quan trắc.
Trong bước xử lý dữ liệu tiếp theo, các giá trị được xác định là ngoại vi sẽ được
coi là dữ liệu trống (dữ liệu trống – missing values), vì vậy, lượng dữ liệu trống sau
bước xử lý ngoại vi có thể sẽ cịn tăng lên đáng kể. Điều này có thể sẽ làm ảnh hưởng
lớn đến việc lựa chọn và độ tin cậy của các phương pháp bổ khuyết dữ liệu, ví dụ như
làm sai lệch bản chất của phân bố dữ liệu, tính chu kỳ của diễn biến nồng độ chất ơ
nhiễm…. Chính vì vậy, mặc dù khơng phải tồn bộ các thông số quan trắc nồng độ các
hydrocacbon của các tất cả đều vượt quá 50% như benzen (49,2%) và MP-xylen
(49,1%), tuy nhiên, qua quan sát bước đầu cho thấy, chất lượng dữ liệu cịn lại của các
thơng số này không cao, tồn tại nhiều lỗi do phần lớn các dữ liệu cịn lại có giá trị bằng
nhau. Do vậy, Báo cáo sẽ không nghiên cứu tiếp các thông số quan trắc nồng độ các

hydrocacbon gồm CH4, NMHC, THC, benzene, toluene, ethyl-benzen, mp-xylen và oxylen trong các bước tiếp theo.

Hình 3. 1 Tỷ lệ dữ liệu trống của các thông số quan trắc của bộ dữ liệu nguồn.

15


3.1.2. Kết quả xử lý dữ liệu hỏng và dữ liệu ngoại vi
Như đã trình bày ở trên, biểu đồ hộp đã được sử dụng để phát hiện các giá trị
ngoại vi (dị thường) trong bộ dữ liệu. Trong đó, trong đó, những điểm dữ liệu có giá trị
lớn hơn Q3 + 1,5*IQR và nhỏ hơn Q1 - 1,5*IQR (trong đó, Q1 và Q3 lần lượt là phân
vị 25% và phân vị 75%, IQR = Q3-Q1) tạm được nghi ngờ là dữ liệu ngoại vi, kết quả
phân tích được trình bày trong Hình 3.2.

Hình 3. 2 Biểu đồ hộp xác định các dữ liệu ngoại vi.
Hình 3.2 cho thấy, số lượng các điểm dữ liệu xác định là ngoại vi được phát
hiện là không nhỏ. Tuy nhiên, trong số các dữ liệu này có thể cịn chứa các dữ liệu đột
biến bất thường mà khơng phải lỗi. Do đó, dựa trên nguyên lý, khi xảy ra một sự kiện
nào đó làm nồng độ trong thời gian này cao bất thường dù thời gian ngắn hay dài thì
diễn biến nồng độ của bất kỳ một chất ô nhiễm nào phát sinh bởi một sự cố do ảnh
hưởng của cả yếu tố khí tượng và yếu tố hóa học sẽ có xu hướng giảm khi sự cố kết
thúc.
Xu thế này có thể diễn ra trong thời gian ngắn (vài phút) hay dài (nhiều giờ)
phụ thuộc vào thời gian xảy ra của sự cố và điều kiện khí tượng tại thời điểm đó.
Chính vì vậy, để chính xác hơn trong cơng tác làm sạch dữ liệu trong Báo cáo này tất
cả các dữ liệu được phát hiện là ngoại vi bằng biểu đồ hộp còn được đối chiếu với dữ
liệu gốc (dữ liệu trung bình 5 phút). Sau khi đối chiếu, trong số các dữ liệu được nghi
ngờ là dữ liệu ngoại vi được phát hiện bằng biểu đồ hộp, có một phần dữ liệu dị
thường do các nguyên nhân khác nhau mà không phải do lỗi đo đạc.
Điều này được thể hiện rõ trên biểu đồ hộp thống kê các thông số CLKK sau

khi đã loại bỏ dữ liệu ngoại vi Hình 3.3. Có thể thấy, vẫn cịn tồn tại một số lượng các
giá trị vẫn được phương pháp nghi ngờ là dữ liệu ngoại vi, đây là các giá trị nồng độ
16


“dị thường” của các chất ô nhiễm không phải do lỗi đo đạc. Các dữ liệu được xác định
là ngoại vi (bất thường do lỗi đo đạc hoặc do máy móc) sẽ được coi là dữ liệu trống.

Hình 3. 3 Biểu đồ hộp các thông số sau khi đã xử lý dữ liệu ngoại vi
Kết quả thống kê tỷ lệ dữ liệu trống trước và sau khi xử lý dữ liệu ngoại vi được
trình bày trong Bảng 3.2 cho thấy, tỷ lệ dữ liệu trống của các thông số quan trắc CLKK
tại trạm quan trắc Nguyễn Văn Cừ, Long Biên, Hà Nội tăng lên đáng kể sau bước xử
lý dữ liệu ngoại vi (trung bình tăng lên khoảng 3.94 % tổng lượng dữ liệu quan trắc).
Trong đó, cá biệt có những thơng số có tỷ lệ dữ liệu ngoại vi được phát hiện và xử lý
lên đến trên 5%, cụ thể là các thông số: O 3, SO2 và CO lần lượt là 6,49%; 6,95% và
5,12%, tương ứng với trên 4000 điểm dữ liệu bị loại bỏ.
3.2. Phản hồi trung bình hàng giờ
Năm cảm biến đã ghi lại nồng độ thực tế trên mặt đất của carbon monoxide
(CO), Hydrocacbon không metan (NMHC), Benzen (C 6H6), nitơ oxit (NOx) và nitơ
đioxit (NO2). Ngoài ra, năm cảm biến này cũng ghi lại các phép đo của một hạt bổ
sung; do đó, ta xem xét mối quan hệ giữa hạt chính và hạt thứ cấp được đo bởi mỗi
cảm biến.
Cảm biến 1, nhắm mục tiêu CO ghi lại các phép đo oxit thiếc S nO2. Cột trong
dữ liệu có nhãn PT08.S1. Khi vẽ biểu đồ CO so với S nO2, nhận thấy rằng có một mối
quan hệ tuyến tính cao giữa chúng, vì chúng có hệ số tương quan khoảng 0,94. Điều
này ngụ ý rằng việc biết một cái có thể dự đốn cái kia, và có cả hai làm yếu tố dự
đốn nhiệt độ là không cần thiết.

17



Tương tự, cảm biến 2 chủ yếu thực hiện phép đo NMHC nhưng cũng sử dụng
vật liệu mà các nhà nghiên cứu gọi là titania, chỉ là titan điơxít TiO 2. Mối quan hệ giữa
NMHC và TiO2 dường như theo cấp số nhân, xác nhận bằng cách vẽ biểu đồ (NMHC)
so với TiO2, cho mối tương quan khoảng 0,93. Một lần nữa, vì TiO2 hóa học thứ cấp có
liên quan nhiều đến NMHC hóa học chính, ta chỉ xem xét NMHC.

Cảm biến 3 thực hiện các phép đo chủ yếu về tổng số ơxít nitơ NOx, mà cịn của
ơxít vonfram WO3. Giống như NMHC, có một mối quan hệ theo cấp số nhân giữa NO x
và WO3, mà nhận thấy bằng cách vẽ biểu đồ (NOx) so với WO3, cho một hệ số tương
quan. trong khoảng -0,90. Vì vậy, ta chỉ xem xét NOx cho hồi quy.

18


Cảm biến 4 chủ yếu ghi nhận NO 2, nhưng cũng ghi nhận oxit vonfram thứ hai.
Mối tương quan rất tuyến tính, với một hệ số tương quan. trong khoảng 0,81. Không
thấy mối quan hệ theo cấp số nhân giữa cả hai, vì vậy cũng khơng lấy log (NO 2).

Cuối cùng, cảm biến 5 đã ghi lại các phép đo của oxit indium In 2O3, nhưng trên
danh nghĩa nó nhắm mục tiêu vào ozone, O 3. Nhưng vì dữ liệu không chứa cột cho O 3,
nên không cần phải xem xét mối quan hệ của nó với oxit indium.
Do đó, không xem xét các hạt thứ cấp khi tạo mô hình cho Nhiệt độ, vì hạt
chính sẽ là đủ nhằm tránh bất kỳ tác động chéo nào. Một yếu tố khác cần lưu ý là một
trong các cột của dữ liệu ghi lượng nitơ điơxít, NO 2, và một cột khác ghi lượng ơxít
nitơ tổng, NOx; vì NO2 là một dạng oxit nitơ, điều này ngụ ý rằng hai biến có thể liên
quan với nhau. Để kiểm tra điều này, tôi vẽ biểu đồ của chúng và nhận thấy hệ số
tương quan của chúng là khoảng 0,86. Vì có một mối quan hệ tuyến tính mạnh mẽ, tơi
quyết định loại bỏ NO2 để phân tích và chỉ xem xét NOx.


Tương tự, kiểm tra mối quan hệ giữa độ ẩm tương đối (RH) và độ ẩm tuyệt đối
(AH). Thấy rằng chúng tương quan tuyến tính yếu, với hệ số khoảng 0,48, vì vậy tơi
muốn loại trừ RH khỏi mơ hình hồi quy, vì sẽ có tác động chéo yếu giữa RH và AH.

19


3.3. Dự đốn với hồi quy tuyến tính
Đầu tiên, thử một mơ hình hồi quy tuyến tính, trong đó mọi hạt chính cùng với
Độ ẩm tuyệt đối được sử dụng làm yếu tố dự báo và tìm cách chỉ giữ lại những hạt có
ý nghĩa thống kê. Khi xem xét giá trị p được tính tốn của một hóa chất, coi giá trị p
nhỏ hơn 0,05 là có ý nghĩa. Nhận thấy rằng NMHC, In2O3 và AH đều có giá trị p =
lớn hơn, vì vậy loại bỏ chúng trong lần lặp tiếp theo. Đưa ra một mơ hình có 3 biến
giải thích CO, C6H6, NOx. Mơ hình này dường như là một cơng cụ dự đốn khá chính
xác về nhiệt độ trung bình, như hình dưới đây:

Tuy nhiên, nếu muốn kiểm tra tác động chéo giữa các hạt này và Độ ẩm Tuyệt
đối, AH ta thêm vào thuật ngữ cho mỗi biến từ mơ hình đa điểm với AH, cùng với
chính AH. Một lần nữa, kiểm tra mức ý nghĩa và nhận thấy rằng độ ẩm tuyệt đối và bất
kỳ số hạng chéo nào đều khơng có ý nghĩa trong hồi quy, như được hiển thị bên dưới,
vì tất cả các giá trị p của chúng đều lớn hơn 0,05.

20


Tiếp tục sử dụng phiên bản thứ hai của mô hình hồi quy, vì đây là mơ hình có
số lượng dự báo có ý nghĩa thống kê ít nhất. Sử dụng mơ hình này, đưa ra dự đốn
nhiệt độ và tính tốn phần trăm sai số cho giá trị thực. Sử dụng các hệ số được đưa ra
bởi hồi quy, ta có phương trình:
T = 15,31 - 3,37c + 1,33b - 0,04n

Trong đó: T là nhiệt độ tính bằng C.
c là lượng cacbon monoxit (CO).
b là lượng benzen (C6H6).
n là tổng lượng nitơ oxit (NO Muốn tính tốn phần trăm lỗi trung bình mà mơ hình đạt được khi ước tính
nhiệt độ. Sử dụng dữ liệu đã cho, ta tính tốn ước tính, sau đó là phần trăm chênh lệch
giữa giá trị thực và giá trị được tính tốn. Sau đó, lấy trung bình tất cả các giá trị này
để thấy rằng phần trăm chênh lệch trung bình giữa nhiệt độ thực tế và ước tính là
khoảng -6,57%. Điều này ngụ ý rằng mơ hình ln đánh giá thấp nhiệt độ chính xác.
Hơn nữa, nhìn vào độ lớn của sai số phần trăm cũng cho một câu chuyện tương tự: nó
xấp xỉ 21,2%, có nghĩa là trung bình mơ hình khơng dự đốn được nhiệt độ thực tế là
+/- 21,2%.
21


Để khắc phục sự cố này, một giải pháp có thể là bao gồm nhiều biến giải thích
hơn; giá trị của bình phương R đã điều chỉnh cho mơ hình này là khoảng 0,37 và giải
thích điều này theo ngữ cảnh, điều này có nghĩa là chỉ khoảng 37% phương sai của
nhiệt độ có thể được giải thích bằng các biến giải thích. Vì thêm nhiều biến sẽ làm
tăng hiệu quả của mơ hình.
Quay trở lại và xem xét phương pháp, ta thấy rằng bao gồm các yếu tố dự đốn
đã loại bỏ ban đầu, tức là, các hóa chất thứ cấp được đo bằng 4 trong số 5 cảm biến,
nhận thấy rằng bao gồm tất cả chúng và sau đó loại bỏ những chất khơng đáng kể. Đã
cải thiện giá trị bình phương R đã điều chỉnh của mơ hình lên hơn 95%. Điều này có
nghĩa là hồi quy hoạt động tốt hơn nhiều trong việc điều chỉnh các thơng số với nhiệt
độ. Tương tự như vậy, khi tính tốn sai số phần trăm trung bình, thấy rằng nó giảm
đáng kể xuống khoảng -0,03%, rất tốt.
Tóm lại, mặc dù có thể có mối quan hệ hoặc tương quan chặt chẽ giữa các biến
trong tập dữ liệu, nhưng việc bỏ qua chúng có thể gây bất lợi cho mơ hình hồi quy.


22


KẾT LUẬN
Báo cáo sử dụng ngơn ngữ lập trình R đã ứng dụng bộ dữ liệu chất lượng khơng
khí UCI ML để chứng minh ảnh hưởng của hướng kime đối với việc phân tích dữ liệu
theo chiều dọc
Thu được bộ dữ liệu CLKK tại trạm quan trắc số 556, Nguyễn Văn Cừ, Gia
Lâm, Hà Nội từ tháng 3 năm 2018 đến tháng 2 năm 2019 (một năm) hoàn chỉnh, liên
tục theo thời gian dài và có độ tin cậy nhất định góp phần giúp các nhà quản lý, các
nhà nghiên cứu dễ dàng hơn trong công tác quản lý và các hoạt động nghiên cứu.
Kết quả cho thấy, dữ liệu nồng độ trung bình giờ của các chất ơ nhiễm khơng
khí được quan trắc tại trạm quan trắc Nguyễn Văn Cừ, quận Long Biên, Hà Nội tuân
theo các luật phân bố Weibull, gamma và lognormal. Một mặt, luật phân bố xác suất
của một thông số được quan trắc tại cùng một địa điểm có thể khác nhau ở các năm
khác nhau. Mặt khác, luật phân phối đối với các thông số khác nhau cũng có thể khác
nhau mặc dù chúng được quan trắc tại cùng một thời gian và địa điểm.
Đã xác định được đặc trưng diễn biến nồng độ của các chất ô nhiễm SO2, NO,
NO2, O3 và CO theo thời gian trong ngày, và trong năm (theo mùa) tại khu vực quan
trắc ở Hà Nội. Đồng thời, cũng đã xác định được xu hướng diễn biến dài hạn nồng độ
các chất ô nhiễm này tại khu vực nghiên cứu trong giai đoạn từ tháng 3 năm 2018 đến
tháng 2 năm 2019 (một năm).

23



×