ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐOÀN THUỲ LINH
NGHIÊN CỨU GIẢI QUYẾT PHÂN LỚP ĐỊA HOÁ MÔI
TRƯỜNG BIỂN VÀ ÁP DỤNG VÀO BÀI TOÁN ĐÁNH
GIÁ ĐỊA HOÁ MÔI TRƯỜNG BIỂN VIỆT NAM
LUẬN VĂN THẠC SĨ
HÀ NỘI - 2011
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐOÀN THUỲ LINH
NGHIÊN CỨU GIẢI QUYẾT PHÂN LỚP ĐỊA HOÁ MÔI
TRƯỜNG BIỂN VÀ ÁP DỤNG VÀO BÀI TOÁN ĐÁNH
GIÁ ĐỊA HOÁ MÔI TRƯỜNG BIỂN VIỆT NAM
Ngành: Công nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05
LUẬN VĂN THẠC SĨ
CÁN BỘ HƯỚNG DẪN: TS. ĐOÀN SƠN
HÀ NỘI - 2011
Lời mở đầu
Bài toán phân lớp trong địa hóa môi trường biển là bài toán xác định xem các
dữ liệu đo các thông số từ trạm quan trắc sẽ nằm trong các mức nào theo qui định
về môi trường. Đây hiện là một trong những vấn đề đang được quan tâm vì thông
qua việc phân lớp địa hóa môi trường, ta có thể đưa ra các hướng xử lý nhanh cho
vùng môi trường vừa được thực hiện công tác đo đạc, khảo sát. Cũng từ đó có thể
đưa ra được các chiến lược nhằm khắc phục, hạn chế và bảo vệ các tác động do
thiên nhiên hoặc con người gây ảnh hưởng đến môi trường biển.
Dựa trên cơ sở những yêu cầu của bài toán, dựa trên các đặc trưng của dữ
liệu mà luận văn chọn hai hướng tiếp cận sử dụng máy hỗ trợ vector (SVM) và
Naive Bayes để giải quyết bài toán phân lớp địa hóa môi trường biển. Ý tưởng của
hướng tiếp cận là biểu diễn mỗi số liệu trong mỗi kết quả đo là một vectơ đặc
trưng. Sau đó được đưa vào bộ phân lớp SVM, Naive Bayes để xác định tính chất
tương đồng và đưa ra kết luận. Nguồn dữ liệu sử dụng là các file dữ liệu về kết quả
quan trắc môi trường biển thuộc các đơn vị có liên quan để xây dựng dữ liệu học
cho mô hình đề xuất.
Kết quả phần thực nghiệm bước đầu trên mô hình đề xuất đối với thuật toán
Naive Bayes và mô hình đề xuất đối với thuật toán SVM đạt độ chính xác là trên
80%. Tuy nhiên, dựa vào kết quả thu được có thể cho thấy việc sử dụng thuật toán
SVM cho kết quả cao hơn so với thuật toán Naive Bayes và dựa kết quả này cũng
có thể xem mô hình là khả thi và có khả năng ứng dụng thực tế.
Nội dung của khóa luận bao gồm có 3 chương:
Chương 1: Giới thiệu các khái niệm về môi trường biển, ô nhiễm môi trường
và tổng quan về địa hóa môi trường biển. Trình bày một số đặc trưng của địa hóa
môi trường biển (các thông số về trầm tích biển).
Chương 2: Trên cơ sở những phương pháp tiếp cận trình bày ở chương 1 và
thông qua khảo sát miền dữ liệu về quan trắc môi trường biển, luận văn đã tìm hiểu
các thuật toán liên quan đến hướng nghiên cứu về giải pháp phân lớp địa hóa môi
trường biển Việt Nam. Đây cũng là cơ sở lý thuyết, phương pháp luận quan trọng
để luận văn đưa ra mô hình đề xuất giải quyết bài toán phân lớp địa hóa môi trường
biển Việt Nam và đưa ra phương pháp giải quyết bài toán phân lớp địa hóa môi
trường biển Việt Nam dựa trên phương pháp máy hỗ trợ vector (SVM) và phương
pháp Naive Bayes.
3
Chương 3: Thực nghiệm, kết quả và đánh giá. Tiến hành thực nghiệm việc
xây dựng bộ dữ liệu học, xây dựng bộ phân lớp SVM và Naive Bayes.
Kết luận và định hướng phát triển: Tóm lược những kết quả đạt được của
luận văn. Đồng thời đưa ra những hạn chế, những điểm cần khắc phục và đưa ra
định hướng nghiên cứu trong thời gian tới.
4
Mục lục
Danh sách các hình vẽ .......................................................................................... 7
Danh sách các bảng .............................................................................................. 7
Bảng các kí hiệu viết tắt ....................................................................................... 8
Chương 1: Khái quát về địa hóa môi trường biển Việt Nam và giải pháp phân
lớp
............................................................................................................... 9
1.1 Địa hóa môi trường biển ......................................................................................... 9
1.1.1. Một số khái niệm cơ bản trong môi trường biển [3, 4, 5] ................................. 9
1.1.2. Khái quát về địa hóa môi trường biển ............................................................ 13
1.2 Tầm quan trọng của việc phân lớp địa hóa môi trường biển .................................. 14
1.3. Bài toán đánh giá địa hóa môi trường biển ........................................................... 15
1.3.1. Các đặc trưng của địa hóa môi trường biển .................................................... 15
1.3.2. Quan trắc địa hóa môi trường biển [4] ........................................................... 15
Chương 2: Mô hình giải quyết bài toán bài toán đánh giá địa hóa môi trường
biển Việt nam dựa trên các phương pháp phân lớp......................................... 20
2.1 Nghiên cứu giải pháp phân lớp địa hóa môi trường biển Việt nam ........................ 20
2.1.1. Giới thiệu bài toán phân lớp và một số phương pháp điển hình...................... 20
2.1.2. Thuật toán phân lớp Bayes ............................................................................ 21
2.1.3. Thuật toán phân lớp SVM ............................................................................. 26
2.2 Mô hình đánh giá địa hóa môi trường biển Việt nam dựa trên các phương pháp
phân lớp ...................................................................................................................... 31
2.2.1. Phát biểu bài toán đánh giá địa hóa môi trường biển ...................................... 31
2.2.2. Mô hình giải quyết bài toán đánh giá địa hóa môi trường biển Việt Nam ...... 32
Chương 3: Thực nghiệm và đánh giá................................................................ 37
3.1. Môi trường thực nghiệm ...................................................................................... 37
3.1.1. Cấu hình sử dụng........................................................................................... 37
3.1.2. Công cụ phần mềm ........................................................................................ 37
3.2. Dữ liệu thực nghiệm............................................................................................. 37
3.2.1. Mô tả cài đặt chương trình ............................................................................. 37
3.2.2. Xây dựng tập dữ liệu học............................................................................... 38
5
3.3 Thi hành thực nghiệm ........................................................................................... 40
3.3.1 Thực hành trên Weka đối với thuật toán phân lớp Naive Bayes ...................... 40
3.3.2 Thực hành trên Weka đối với thuật toán phân lớp SVM ................................. 42
3.4. Đánh giá, so sánh ................................................................................................. 45
3.4.1 Đánh giá hệ thống .......................................................................................... 45
3.4.2
Nhận xét...................................................................................................... 46
Kết luận ............................................................................................................. 47
Tài liệu tham khảo ............................................................................................. 48
6
Danh sách các hình vẽ
Hình 1. Mối liên quan hữu cơ giữa địa hóa với các ngành khoa học khác.......... 13
Hình 2. Mô hình bảo đảm phát triển bền vững................................................... 15
Hình 3. Biểu diễn của mặt phẳng siêu phẳng của SVM ..................................... 27
Hình 4. Mô hình phân lớp đề xuất ..................................................................... 32
Hình 5. Các lựa chọn tham số đối với thuật toán phân lớp Naive Bayes với kịch
bản 1
.............................................................................................................. 41
Hình 6. Các lựa chọn tham số đối với thuật toán phân lớp Naive Bayes với kịch
bản 1
.............................................................................................................. 42
Danh sách các bảng
Bảng 1.
Thông số quan trắc và đơn vị đo ..................................................................... 16
Bảng 2.
Bảng mẫu kết quả đo chất lượng trầm tích của một vùng biển miền Trung ..... 18
Bảng 3.
Thông số quan trắc trầm tích .......................................................................... 23
Bảng 4.
Đánh giá thông số quan trắc trầm tích qua tiêu chuẩn tham khảo Trung Quốc 25
Bảng 5.
Cấu hình phần cứng ........................................................................................ 37
Bảng 6.
Danh sách các phần mềm sử dụng .................................................................. 37
Bảng 7.
Kết quả thực nghiệm sử dụng phương pháp Naive Bayes với kịch bản 1 ........ 41
Bảng 8.
Kết quả thực nghiệm sử dụng phương pháp Naive Bayes với kịch bản 2 ........ 42
Bảng 9.
Kết quả thực nghiệm sử dụng phương pháp SVM với kịch bản 1 ................... 43
Bảng 10. Kết quả thực nghiệm sử dụng phương pháp SVM với kịch bản 2 ................... 44
7
Bảng các kí hiệu viết tắt
Từ hoặc cụm từ
Kí hiệu viết tắt
Support vector machine
SVM
A library for Support Vector Machines
LibSVM
Total Suspended Solid
TSS
Chemical Oxygen Demand
COD
Biochemical /Biological Oxygen Demand
BOD
Most Probable Number
MPN
miligam trên lít
mg/l
miligam
mg
mililit
ml
8
Chương 1: Khái quát về địa hóa môi trường biển Việt Nam và giải pháp
phân lớp
1.1 Địa hóa môi trường biển
1.1.1. Một số khái niệm cơ bản trong môi trường biển [3, 4, 5]
a) Khái niệm về môi trường biển
Môi trường tự nhiên có thể đươ ̣c định nghĩa như là tổ hợp của các yếu tố khí
hậu, sinh thái học, hoá học và thổ nhưỡng tác động lên con người và các cơ thể
sống khác và xác định các hình thức sinh tồn của chúng. Vì thế, môi trường bao
gồm tất cả các yếu tố mà có thể có ảnh hưởng trực tiếp đến sự trao đổi chất hay các
hành vi của con người và các cơ thể sống hay các loài, bao gồm ánh sáng, không
khí, nước, đất và các cơ thể sống khác.
Môi trường biển có thể đươ ̣c định nghĩa như là tổ hợp của các yếu tố vật lý,
hóa học và sinh học đặc trưng cho nước biển, đất ven biển, trầm tích dưới biển,
không khí trên mặt biển và các hệ sinh thái biển tồn tại một cách khách quan, ảnh
hưởng đến con người và sinh vật.
Hay nói một cách cụ thể hơn, môi trường biển bao gồm tất cả yếu tố mà có
thể có ảnh hưởng trực tiếp đến sự trao đổi chất hay các hành vi của con người và
các sinh vật sống trong biển, bao gồm ánh sáng, không khí trên biển, nước biển, đất
ven biển, đất tại đáy biển (trầm tích biển) và các cơ thể sống trong biển.
Thành phần môi trường biển là các yếu tố vật chất tạo thành môi trường
biể n như nước biển, đất ven biển, trầm tích dưới đáy biển, không khí, âm thanh,
ánh sáng, sinh vật biển, các hệ sinh thái biển và các hình thái vật chất khác.
b) Các yếu tố đặc trưng của nước biển ven bờ
Hàm lượng TSS trong nước (TSS - Total Suspended Solid) là tổng chất rắn
lơ lửng trong nước được tính bằng cách cân trọng lượng những chất còn lại trên
giấy lọc khi lọc nước phân tích chất rắn hoà tan. TSS biểu thị lượng vật chất không
hòa tan lơ lửng trong nước và được biểu thị (đo) bằ ng miligam trên lít (mg/l).
Nhu cầu ôxy hoá học (COD - Chemical Oxygen Demand) là lượng oxy có
trong Kali bicromat (K2Cr2O7) được sử dụng để oxy hoá chất hữu cơ trong nước.
Chỉ số COD được sử dụng rộng rãi để đo gián tiếp khối lượng các hợp chất hữu cơ
có trong nước. Phần lớn các ứng dụng của COD xác định khối lượng của các chất ô
9
nhiễm hữu cơ tìm thấy trong nước bề mặt (ví dụ trong các con sông hay hồ), làm
cho COD là một phép đo hữu ích về chất lượng nước. Nó được biểu diễn theo đơn
vị đo là mg/l, chỉ ra khối lượng ôxy cần tiêu hao trên một lít dung dịch.
Nhu cầu ôxy sinh học (BOD - Biochemical /Biological Oxygen Demand) là
lượng oxy cần cung cấp để oxy hoá các chất hữu cơ trong nước bởi vi sinh vật.
BOD là một chỉ số và đồng thời là một thủ tục được sử dụng để xác định xem các
sinh vật sử dụng hết ôxy trong nước nhanh hay chậm ra sao. BOD được sử dụng
trong quản lý và khảo sát chất lượng nước cũng như trong sinh thái học hay khoa
học môi trường.
Chỉ tiêu BOD phản ánh mức độ ô nhiễm hữu cơ của nước thải hoă ̣c nước
nguồ n, BOD càng lớn thì nước thải/nước nguồn bị ô nhiễm càng cao và ngược lại
Hàm lượng Amôni (N-NH4) là hàm lượng nitơ amoni, đơn vị tính là mg/l.
Tổng coliform (ngắ n go ̣n là Coliforms) là số lượng coliform được biểu diễn
bằng số khả hữu MPN (Most Probable Number).
Tổ ng c oliform là số vi khuẩn dạng coli trong 100ml nước thải có khả năng
lên men sinh hơi đường lactose ở nhiệt độ 370C/24-48 giờ ở điều kiện hiếu khí,
được tính bằng MPN/100ml. Coliforms gồm 4 giống E.coli, Citrobacter,
Enterobacter, Klebsiela. Coliforms được xem như một chỉ điểm vi sinh vật thích
hợp về chất lượng nước.
Hàm lượng Xyanua: là lượng số miligram (mg) xyanua có trong một mili
lít (ml) nước; xyanua là CN, ở đây chỉ tính các nhóm CN của các hợp chất có chứa
các ion xyanua hoặc axit hidroxyanic không tính đến các nitril đơn (R-CN), xyanat
(muối của CN) và các ion thioxyanat và xyan clorua.
Hàm lượng các kim loại nặng: số mg ion kim loại trong 1 ml nước.
c) Ô nhiễm môi trường biển
(1) Tổng quan về ô nhiễm môi trường biển
Ô nhiễm môi trường biển là quá trình biến đổi các thành phần môi trường
nước, trầm tích biển không phù hợp với Quy chuẩn kỹ thuật quốc gia về Môi
trường, gây ảnh hưởng xấu đến sức khỏe con người, các sinh vật [5].
Hội nghị của Liên hợp quốc về các vấn đề môi trường tại Stockholm, Thụy
Điển (năm 1972) thống nhất định nghĩa về ô nhiễm môi trường biển: ―Tất cả các
10
chất hoặc năng lượng do con người trực tiếp hay gián tiếp đưa vào môi trường biển
(kể cả các vùng cửa sông) kéo theo những hậu quả tai hại, như gây thiệt hại tài
nguyên sinh vật, nguy hiểm với sức khỏe con người, khó khăn cho hoạt động trên
biển (kể cả đánh bắt cá), làm suy thoái chất lượng và giảm các tính chất hữu ích của
nước biển‖.
(2) Các nguyên nhân chính dẫn đến ô nhiễm môi trường biển
Trong thực tế, môi trường biển có thể bị ô nhiễm do nhiều nguyên nhân khác
nhau. Nguyên nhân đầu tiên và phổ biến nhất là do sự gia tăng nồng độ chất dinh
dưỡng trong biển. Các chất dinh dưỡng này có thể có nguồn gốc từ lục địa, là chất
thải sinh hoạt và các hoạt động sản xuất công nghiệp, nông nghiệp được sông tải ra
biển, hoặc có thể có nguồn gốc trên biển, thải ra biển do các hoạt động của con
người. Đặc biệt, hầu hết nước thải sinh hoạt từ các khu dân cư và đô thị, các làng
nghề và các tàu du lịch hoạt động trên biển chưa qua xử lý .
Hiện nay, môi trường biển nước ta đang có dấu hiệu bị ô nhiễm và suy thoái.
Báo cáo hiện trạng môi trường năm 2003 (đã trình Quốc hội) và Báo cáo hiện trạng
môi trường năm 2010 do Bộ Tài nguyên và Môi trường xây dựng đã chỉ ra rằng:
Chất lượng môi trường biển và vùng ven bờ tiếp tục suy giảm theo chiều hướng
xấu. Môi trường vùng nước ven bờ đã bị ô nhiễm dầu, kẽm và chất thải sinh hoạt.
Còn chất rắn lơ lửng như Si, NO3, NH4 và PO4 cũng ở mức đáng lo ngại. Chất
lượng trầm tích đáy biển ven bờ - nơi cư trú của nhiều loài thủy hải sản - cũng bị ô
nhiễm. Dưới đây là mô ̣t số nguyên nhân chiń h dẫn tới tiǹ h tra ̣ng ô nhiễm môi
trường biể n ở nước ta .
- Các nguồn ô nhiễm từ lục địa theo sông mang ra biển như dầu thải, nước
thải chưa xử lý, hoá chất, thuốc trừ sâu, thuốc diệt cỏ, phân bón, chất thải công
nghiệp, nông nghiệp, làng nghề, thuốc súng, chất phóng xạ, các chất thải rắn như
đất cát, rác, phế thải vật liệu xây dựng, ... dẫn tới ô nhiễm môi trường biể n . Có
những loại không phân huỷ được đọng lại ở ven bờ, chìm xuống đáy biển, những
chất phân huỷ đươ ̣c thì hoà tan trong toàn khối nước biển.
- Trong thời gian ngắn, nước ta đã xây dựng thêm nhiều bến cảng, một số
cảng trong số đó được xây dựng ở những nơi có các hệ sinh thái nhạy cảm và có
giá trị. Sự tăng trưởng các cảng biển ẩn chứa nguy cơ ô nhiễm môi trường từ các
bến cảng. Các công trình cảng biển và hoạt động của cảng biển đều tác động tiêu
cực đến môi trường tự nhiên, như mất các nơi sinh cư do lấy đất xây dựng, ô nhiễm
11
nước, đất, không khí, tiếng ồn, ... trong khu vực cảng và phụ cận. Tương tự , các
công trình sản xuất, nhà máy đóng tàu biển, các công trình đảm bảo du lịch, và rất
nhiều các hoạt động khác đều tác động xấu đến môi trường tự nhiên của biển. Ô
nhiễm của hoạt động hàng hải và công nghiệp đóng tàu gây ra chủ yếu là ô nhiễm
nguồn nước do dầu và ô nhiễm trầm tích do lắng đọng các kim loại nặng. Chính ô
nhiễm môi trường đã tác động xấu cản trở sự phát triển kinh tế - xã hội.
- Ngoài ra, việc xây dựng hệ thống hạ tầng cơ sở giao thông, nạo vét luồng
lạch để phát triển ngành vận tải biển, dẫn đến phá hoại sinh thái vùng cửa sông, ven
biển ngập mặn, vùng đất chua phèn, tạo nên một sự đảo lộn, cùng với việc đổ phế
thải dầu, mỡ. Hệ thống đường thuỷ phát triển, phương tiện vận tải ngày càng nhiều,
lượng dầu mỡ gây ô nhiễm tới 50% nguồn gây ô nhiễm.
- Một nguyên nhân gây ô nhiễm môi trường nữa là tràn dầu. Sự rò rỉ dầu ra
môi trường biển do hoạt động của các tàu và do các sự cố hư hỏng hay đắm tàu chở
dầu, do sự cố tại lỗ khoan thăm dò và dàn khoan khai thác dầu đã khiến môi trường
biển bị ô nhiễm nặng nề. Tại khu vực ngoài khơi và ven biển nước ta, ô nhiễm dầu
đã và đang xảy ra ngày càng nhiều hơn với mức độ ảnh hưởng ngày càng gia tăng
và khu vực chịu ảnh hưởng ngày càng rộng lớn.
- Ngoài ra, môi trường biển còn bị ảnh hưởng về ô nhiễm không khí, nguyên
nhân là do các hoạt động bốc xếp hàng hoá, sữa chữa, phá dỡ tàu, xây dựng các
công trình và giao thông đã làm các cảng ô nhiễm bụi với hàm lượng rất cao.
Từ những phân tích trên cho thấy môi trường biển Việt Nam đang suy thoái,
ô nhiễm bởi bụi, tiếng ồn, dầu, chất hữu cơ ... kể cả trong nước, không khí, đất.
Thực tế đó đang đòi hỏi cần có một hệ thống có chức năng đánh giá nhanh và đánh
giá một cách tổng quát hiện trạng môi trường biển Việt nam.
Khi phân tích về hiện trạng môi trường biển, hai yếu tố được quan tâm:
(1) Các thông số về chất lượng nước.
(2) Các thông số về chất lượng trầm tích.
Dựa vào hai yếu tố này, các chuyên gia có thể đưa ra đánh giá về chất lượng
môi trường biển Việt nam.
Trong khuôn khổ luâ ̣n văn , chỉ đề cập đến các thông số về chất lượng trầm
tích. Dựa vào các thông số về chất lượng trầm tích có thể đưa ra các đánh giá nhanh
về địa hóa môi trường biển Việt nam, từ đó có các phương hướng, chiến lược nhằm
12
bảo vệ môi trường và phòng chống các nguy cơ gây ô nhiễm môi trường biển Việt
nam.
1.1.2. Khái quát về địa hóa môi trường biển
a) Khái niệm chung về địa hóa môi trường
Địa hoá học, theo định nghĩa đơn giản của thuật ngữ này là hoá học Trái
Đất, bao gồm việc ứng dụng những nguyên lý cơ bản của hoá học để giải quyết các
vấn đề địa chất. Địa hóa học là một ngành khoa học mới về Trái Đất. Địa hoá học
ra đời làm cầu nối giữa mô ̣t số ngành khoa học tự nhiên cơ bản như vật lý, hoá học
với các ngành khoa học về trái đấ t như khoáng vật học, thạch học, địa chất học.
Hình 1. Mối liên quan hữu cơ giữa địa hóa với các ngành khoa học khác
Địa hóa học môi trường (địa hóa môi trường) là việc áp dụng các nguyên lý
hóa học để dự đoán các thành phần của các chất ô nhiễm hữu cơ và vô cơ ở bề mặt
của trái đất và trong khí quyển.
Do mục đích của đề tài luâ ̣n văn liên quan đến các vấn đề về địa hóa môi
trường nên các số liệu và thông số chỉ liên quan đến trầm tích đáy biển ven bờ.
b) Chất lượng trầm tích đáy biển ven bờ [4]
Hiện tại Việt Nam chưa có quy chuẩn kỹ thuật quốc gia về chất lượng trầm
tích biển, cho nên các chuyên gia thường tham khảo tiêu chuẩn của Trung Quốc
cho kim loại nặng và hóa chất bảo vệ thực vật với 3 mức độ:
13
(1) Cho vùng nuôi trồng thuỷ sản; vùng đánh bắt cá trên biển; khu vực bảo
vệ môi trường tự nhiên, bảo tồn thiên nhiên; khu vực giữ gìn sinh vật tự nhiên, các
hoạt động tiếp xúc trực tiếp của con người với trầm tích.
(2) Cho khu công nghiệp, cảnh quan và khu du lịch ven biển.
(3) Cho vùng cảng, khu phát triển kinh tế, đặc biệt là vùng khai thác công
nghiệp trên biển được dùng để đánh giá chất trầm tích.
1.2 Tầm quan trọng của việc phân lớp địa hóa môi trường biển
Hiện nay, môi trường, đặc biệt là môi trường biển, là vấn đề nhận được sự
quan tâm rất lớn của cộng đồng. Các hoạt động của con người cũng như sự thay đổi
về mặt tự nhiên đã làm cho môi trường bị ảnh hưởng nghiêm trọng. Và cũng chính
từ sự ảnh hưởng nghiêm trọng này đã dẫn đến một loạt các khó khăn lớn mà con
người đang phải đối mặt. Sự nguy hại về mặt ô nhiễm của trầm tích biển nếu không
được đánh giá kịp thời sẽ là mối nguy hiểm lớn và lâu dài cho chất lượng môi
trường biển. Chính vì vậy việc đánh giá và phân loại chất lượng trầm tích biển là
một công việc quan trọng và thiết thực nhằm góp phần đưa ra các chiến lược, biện
pháp nhằm bảo vệ và giảm thiểu các tác hại gây ô nhiễm môi trường.
Chất lượng môi trường biển thay đổi, các nơi cư trú tự nhiên của loài bị phá
hủy cũng đã gây ra tổn thất lớn về đa dạng sinh học vùng bờ; giảm số lượng loài,
một số loài bị tiêu diệt, .. dẫn đến giảm năng suất khai thác tự nhiên ở vùng biển.
Ðã có khoảng 85 loài hải sản có mức độ nguy cấp khác nhau, trong đó có nhiều loại
vẫn đang là đối tượng bị tập trung khai thác và trên 70 loài đã được đưa vào sách
đỏ Việt Nam. Do đó việc đánh giá và phân loại chất lượng trầm tích biển còn góp
phần tạo ra các hoạch định chiến lược cho các tổ chức, cơ quan và người dân có
những định hướng phát triển kinh tế trên biển cho phù hợp, mang lại hiệu quả cao.
Bên cạnh đó, nó còn đảm bảo phát triển bền vững. Kể từ khi khái niệm phát
triển bền vững của Ủy ban môi trường và phát triển thế giới (WCED) ra đời năm
1987, đã có nhiều cách phát biểu khác nhau về phát triển bền vững. Tuy có nhiều
cách hiểu khác nhau nhưng hầu hết đều công nhận phát triển bền vững là sự phát
triển hài hòa giữa các mục tiêu tăng trưởng kinh tế với các mục tiêu xã hội và bảo
vệ môi trường; phát triển bền vững còn bao hàm cả khía cạnh phát triển hài hoà,
phát triển trong sự quản lý tốt các mâu thuẫn lợi ích nảy sinh trong quá trình phát
triển đó.
14
Hình 2.Mô hình bảo đảm phát triển bền vững
Việc phân loại địa hóa môi trường ko nằm ngoài mục tiêu bảo vệ môi trường
bằng cách đưa ra những đánh giá, dự báo và cảnh báo về chất lượng môi trường
biển để có những điều chỉnh hợp lý, kịp thời và đúng hướng trong phát triển kinh tế
- xã hội một cách hài hoà với bảo vệ môi trường nhằm phát triển bền vững.
1.3. Bài toán đánh giá địa hóa môi trường biển
1.3.1. Các đặc trưng của địa hóa môi trường biển
Để đánh giá địa hóa môi trường biển cần dựa trên các thông số liên quan đến
việc đánh giá các thông số về trầm tích biển hay nói cách khác là các đặc trưng của
địa hóa môi trường biển.
Trong khuôn khổ của đề tài luâ ̣n văn , chỉ quan tâm đến các đặc trưng sau:
hàm lượng dầu trong trầm tích, CN-, hàm lượng kim loại nặng trong trầm tích biển
ven bờ: Pb, Zn, As, Cd, Hg, …
Việc đánh giá các đặc trưng của địa hóa môi trường biển dựa trên tiêu chuẩn
tham khảo của Trung Quốc. Đối với từng thông số riêng, tiêu chuẩn tham khảo của
Trung Quốc có những qui định riêng về tiêu chuẩn chất lượng trầm tích biển do vậy
đối với từng thông số đặc trưng của địa hóa môi trường biển có thể phân ra từng
nhóm riêng.
1.3.2. Quan trắc địa hóa môi trường biển [4]
Việc xác định được các thông số liên quan đến chất lượng trầm tích biển như
hàm lượng dầu trong trầm tích; CN-; hàm lượng kim loại nặng trong trầm tích biển
15
ven bờ: Cu, Pb, Zn, As, … được lấy thông qua các kết quả đo được từ các trạm
quan trắc môi trường biển Việt Nam.
a) Hiện trạng hệ thống quan trắc môi trường Việt nam
Đến giữa năm 2010, có 42 địa phương trong cả nước đã thành lập Trung tâm
quan trắc môi trường.
Trung tâm thực hiện các chương trình quan trắc các thành phần môi trường
(nước mặt lục địa, nước mưa, nước biển, không khí và tiếng ồn, phóng xạ, đất, chất
thải rắn, ... ) với hàng nghìn điểm quan trắc, trong đó tập trung vào các điểm nóng
về môi trường và các khu vực, các vùng sinh thái đặc biệt nhạy cảm ở hầu hết các
địa phương trong cả nước.
b) Hệ thống quan trắc môi trường biển
Mạng lưới quan trắc môi trường biển do Tổng cục Bảo vệ Môi trường (Bộ
Tài nguyên và Môi trường) điều hành. Mạng lưới này đã thực hiện quan trắc chất
lượng nước và trầm tích ở ven bờ từ năm 1995 đến nay tại 7 điểm đo miền Bắc
(Trà Cổ, Cửa Lục, Đồ Sơn, Ba Lạt, Sầm Sơn, Cửa Lò và Bạch Long Vĩ), 8 điểm
miền Trung (Đèo Ngang, Cồn Cỏ, Đồng Hới, Thuận An, Đà Nẵng, Dung Quất, Sa
Huỳnh và Quy Nhơn), 7 điểm miền Nam (Nha Trang, Phan Thiết, Phú Quý, Vũng
Tàu, Định An, Cà Mau và Rạch Giá), 87 điểm biển khơi Đông Nam (khu vực khai
thác dầu khí, vùng dầu khí tiềm tàng (DK), đến tuyến dọc phía Tây quần đảo Trường
Sa) và 17 điểm biển khơi Tây Nam Bộ và Côn Sơn.
Các trạm ven bờ được quan trắc 4 lần/năm, ngoài khơi 2 lần/năm với các
thông số, phương pháp lấy và phân tích mẫu thống nhất (trong đó có thực hiện
chương trình đảm bảo và kiểm soát chất lượng).
Bảng 1. Thông số quan trắc và đơn vị đo
STT
Thông số quan trắc
Đơn vị đo
Khí tượng thủy văn
Đặc điểm thủy văn
1
Dòng chảy tầng mặt
Hướng
o
Tốc độ
Cm/s
Đặc điểm thời tiết
16
STT
Thông số quan trắc
Đơn vị đo
2
Nhiệt độ không khí
3
Hướng gió
O
4
Tốc độ gió
m/s
5
Trạng thái mặt biển
Cấp
6
Hướng sóng
7
Độ cao sóng
m
8
Độ ẩm
%
Nước biển
Thủy lý – Thủy hóa
9
Nhiệt độ
0
19
Độ muối
%o
11
Độ đục
mg/l
12
pH
13
DO
C
mg/l
Hàm lượng muối dinh dưỡng
14
NH4+-N
㎍/l
15
NO3—N
mg/l
16
NO2- -N
㎍/l
17
PO43- - N
㎍/l
18
SiO32- - Si
㎍/l
19
Dầu trong nước
mg/l
Kim loại nặng
20
Cu
µg/l
21
Pb
µg /l
22
Zn
µg /l
23
Cd
µg /l
24
Hg
µg /l
25
As
µg /l
17
STT
Thông số quan trắc
Đơn vị đo
Sinh vật biển
Thực vật phù du
26
Số lượng loài
loài
27
Chỉ số đa dạng H’
28
Mật độ cá thể
29
Khối lượng
tế bào/m3
mg/l
Động vật phù du
30
Số lượng loài
loài
31
Chỉ số đa dạng H
32
Mật độ cá thể
con/m3
33
Khối lượng
mg/m3
Trong khuôn khổ của luận văn, chỉ quan tâm đến các thông số sau: hàm
lượng dầu trong trầm tích, CN-, các thông số về kim loại nặng (Pb, Zn, As, Hg, …).
c) Dữ liệu địa hóa từ quan trắc môi trường biển
Dưới đây là một bảng đo kết quả trầm tích của một vùng biển miền Trung
Bảng 2. Bảng mẫu kết quả đo chất lượng trầm tích của một vùng biển miền Trung
BIỂU GHI KẾT QUẢ PHÂN TÍCH CHẤT LƯỢNG TRẦM TÍCH
Trạm QT&PTMT: vùng ven biển 2 - Miền Trung
Vị trí quan trắc
Kinh độ
Vĩ độ
Đặc điểm nơi quan trắc
10 - 20m
Độ sâu
18/2-27/2/2005
Ngày quan trắc
Nguyễn Quang Hưng
Người quan trắc
Trịnh Xuân
Giản
Người phân tích
Viện Hóa học
Nơi phân tích
14/3/2006
Ngày hoàn thành phân tích
Nguyễn Vũ Tưởng
Người kiểm tra
Biển ven bờ Miền Trung
Biển ven bờ Miền Trung
Mẫu
Thông số
Đơn
vị
1
2
3
18
4
5
6
7
8
BIỂU GHI KẾT QUẢ PHÂN TÍCH CHẤT LƯỢNG TRẦM TÍCH
Thời gian lấy mẫu
Mô tả trầm tích
Cấp hạt
Mầu sắc
Mùi
Vỏ sinh vật
Các tạp chất
0
C
Nhiệt độ
%
Độ ẩm
pH
mV
Eh
mg/kg
COD
mg/kg
Tổng N
mg/kg
Tổng P
mg/l
69 1128.33
Dầu trong trầm tích
mg/l
0.1
0.01
CNKim loại nặng
mg/l
40.67
111
Pb
mg/l
125.67
172
Zn
mg/l
0.8
0.17
Hg
mg/l
1.17
3.9
Cd
mg/l
70
21
As
Dư lượng thuốc BVTV trong trầm tích
Tổng dư lượng thuốc
mg/kg
BVTV
mg/kg
Lindane
mg/kg
Dieldrin
mg/kg
Aldrin
mg/kg
Endrin
mg/kg
4,4 DDT
mg/kg
4,4 DDE
mg/kg
4,4 DDD
mg/kg
Heptachlor
mg/kg
Endosunfan
Ghi chú
1: Đèo Ngang
3: Cồn Cỏ 5: Đà Nẵng
4: Thuận
6: Dung
2: Đồng Hới
An
Quất
522
0.06
458
0.09
1222
0.04
1195.67
0.08
266.67
0.02
74.67
0.02
34.67
244.67
0.5
1
31.67
91
139.67
0.4
1.93
177.67
140
217.67
0.43
0.38
35.67
117.33
349.33
0.18
0.13
125
129.67
341.67
0.7
2.17
41
222
538.33
0.72
3.57
97.67
7: Sa Huỳnh
8: Quy Nhơn
Trên đây là kết quả đo tại 8 điểm thuộc vùng biển ven bờ miền Trung. Các kết quả này
được đo thông qua các thiết bị dùng cho đo đạc tại hiện trường đã nêu ở phần trên.
19
Chương 2: Mô hình giải quyết bài toán bài toán đánh giá địa hóa
môi trường biển Việt nam dựa trên các phương pháp phân lớp
2.1 Nghiên cứu giải pháp phân lớp địa hóa môi trường biển Việt nam
2.1.1. Giới thiệu bài toán phân lớp và một số phương pháp điển hình
Phân lớp là một trong những mối quan tâm nhiều nhất của con người trong
quá trình làm việc với một tập hợp đối tượng. Điều này giúp con người có thể tiến
hành việc sắp xếp, tìm kiếm các đối tượng một cách thuận lợi. Khi biểu diễn đối
tượng vào các hệ thống thông tin, tính chất lớp vốn có của đối tượng trong thực tế
thường được biểu diễn tương ứng bằng một thuộc tính ―lớp‖ riêng biệt [1].
Phân lớp dữ liệu là kĩ thuật sử dụng tập huấn luyện bao gồ m dữ liê ̣u với
nhãn lớp trong một thuộc tính phân lớp trong việc phân lớp dữ liệu mới.
Một số thuật toán được sử dụng trong phân lớp như:
- K người láng giềng gần nhất (K – Nearst neighbours);
- Naive Bayes;
- Support Vector Machines (SVM);
- Cây quyết định (Decision Tree);
- Mạng Nơron;
- ...
Trong khuôn khổ đề tài, chỉ tập trung tìm hiểu và cài đặt 2 thuật toán dùng
trong phân lớp là: Naive Bayes và SVM.
Việc lựa chọn thuật toán phân lớp Naive Bayes là do thuật toán này được
đánh giá là cài đặt đơn giản, tốc độ thực hiện thuật toán nhanh, dễ dàng cập nhật dữ
liệu huấn luyện mới và có tính độc lập cao đối với tập huấn luyện. Ngoài ra, thuật
toán phân lớp Bayes cũng là một trong những thuật toán phân lớp điển hình nhất
trong học máy và khai phá dữ liệu. Trong học máy, Bayes thường được coi như
thuật toán học máy chuẩn để so sánh với các thuật toán khác.
Thuật toán SVM được lựa chọn là do thuật toán này có một nền tảng lý
thuyết vững chắc bên cạnh đó có nhiều nghiên cứu chứng minh thuật toán này có
hiệu suất cao.
20
Việc phân lớp địa hóa môi trường biển sẽ góp phần giúp cho công tác đánh
giá, bảo vệ và ngăn chặn các hoạt động nhằm gia tăng ô nhiễm môi trường biển.
Như đã trình bày ở phần trên, Việt Nam chưa có quy chuẩn kỹ thuật quốc gia về
chất lượng trầm tích biển nên việc đánh giá địa hóa môi trường biển. Hiện nay, việc
đánh giá chất lượng trầm tích biển thường được dựa trên các tiêu chuẩn tham khảo
của Trung Quốc và tiêu chuẩn của Canada. Trong khuôn khổ của luận văn, các dữ
liệu về quan trắc được thu về sau đợt đo đa ̣c sẽ được đánh giá dựa vào tiêu chuẩn
tham khảo của Trung Quốc cho kim loại nặng và hóa chất bảo vệ thực vật. Tiêu
chuẩn này chia ra 3 mức độ như được giới thiệu ở trên.
Việc phân lớp cho địa hóa môi trường cũng dựa trên ba mức độ của tiêu
chuẩn này. Qua đó, có thể phân lớp địa hóa môi trường thành ba lớp. Việc đưa một
điểm hoặc một vùng nào đó vào lớp nào là dựa vào các thông số liên quan như:
hàm lượng dầu, hàm lượng xyanua trong trầm tích biển, hàm lượng kim loại nặng
trong trầm tích biển ven bờ: Pb, Zn, As, …
2.1.2. Thuật toán phân lớp Bayes
Thuật toán phân lớp Bayes là một trong những thuật toán phân lớp điển
hình nhất trong học máy và khai phá dữ liệu, đây cũng là thuật toán được sử dụng
rộng rãi nhất trong phân lớp văn bản. Học máy Bayes thường được coi như thuật
toán học máy chuẩn để so sánh với các thuật toán khác.
a) Công thức xác suất có điều kiện
Xác suất điều kiện của biế n cố A với điều kiện biế n cố B đã xảy ra là một
số không âm.
Ký hiệu là P(A/B) biểu thị khả năng xảy ra biế n cố A trong tình huống biế n
cố B đã xảy ra. Ký hiệu là P(B/A) nó biểu thị khả năng xảy ra biế n cố B trong tình
huống biế n A đã xảy ra.
Công thức xác suấ t có điề u kiê ̣n Bayes :
P(A/B) = (P(AB))/(P(B))
Suy ra
P(A/B) . P(B) = P(B/A) . P(A) = P(AB)
b) Công thức xác suất đầy đủ
Giả sử B1, B2, … Bn là mô ̣t nhóm đầy đủ các biến cố. Khi đó:
21
P(A) = ∑ P(Bi)*P(A/Bi)
c) Công thức xác suất Bayes
Từ các công thức ở trên ta có công thức xác suất Bayes:
P(Bk/A) = (P(ABk))/(P(A)) = (P(Bk)*P(A/Bk) )/(ΣP(Bi)*P(A/Bii)
d) Phân lớp Naive Bayes
Phân lớp Naive Bayes là phương pháp phân loại sử dụng tri thức các xác suất
đã qua huấn luyện. Phương pháp này thích hợp với những lớp bài toán đòi hỏi phải
dự đoán chính xác lớp của mẫu cần kiểm tra dựa trên những thông tin từ tập huấn
luyện ban đầu.
Ý tưởng chính của thuật toán là tính xác suất hậu nghiệm của sự kiện c
xuất hiện khi sự kiện x đã có trong không gian ngữ cảnh 𝜏 thông qua tổng hợp
các xác suất tiên nghiệm của sự kiện c xuất hiện khi sự kiện x đã có trong tất cả
các điều kiện riêng T thuộc không gian 𝜏:
𝑝 𝑐 𝑥, 𝜏 =
𝑇 𝑖𝑛 𝜏 𝑝
𝑐 𝑥, 𝑇 𝑝(𝑇|𝑥 )
Cho một lớp c và một kết quả X đo chất lượng trầm tích gồm nhiều thông
số, nếu xác suất p(X|a) tính được lớn hơn hoặc bằng giá trị ngưỡng CTshc của lớp
c thì kết luận chất lượng trầm tích đó thuộc lớp c.
Kết quả X đo chất lượng trầm tích được biểu diễn như một vectơ có kích
thước bằng số thông số của trầm tích. Mỗi thành phần này chứa một thông số trong
kết quả đo X và tần suất xuất hiện của thông số đó trong kết quả đo X, tính toán
p(c|X) và quyết định xem kết quả X sẽ thuộc lớp nào.
Xác suất p(c|X) được tính theo công thức sau:
𝑝 𝑐𝑋 =
𝑇𝐹(𝐹𝑗 ,𝑋)
𝐹𝑗 ∈𝑉 (𝑝(𝐹𝑗 |𝑐))
𝑛
𝑇𝐹(𝐹1 ,𝑋)
𝑖=1 𝑝(𝑐𝑖 ) ∗ 𝐹1 ∈𝑉 (𝑝(𝐹1 |𝑐))
𝑝 𝑐 ∗
TF(Fi|c) sử dụng phép ước lượng Laplace:
𝑃 𝐹𝑗 𝑐 =
1 + 𝑇𝐹(𝐹𝑗 , 𝑐)
𝑉 + 𝑛𝑖=1 𝑇𝐹(𝐹𝑖 , 𝑐)
Trong đó:
|V|: số lượng tham số có trong tập tham số đưa vào;
22
Fj: tham số thứ j trong tập tham số V;
TF(Fj|X): tần suất xuất hiện của Fj trong kết quả đo X;
TF(Fj|c): tần suất xuất hiện của Fj trong lớp c;
p(Fj|c: xác suất có điều kiện để Fj xuất hiện trong kết quả đo X của lớp c.
Để giảm sự phức tạp và thời gian tính toán, công thức trên được viết lại như sau:
𝑝 𝑐𝑋 =
𝑇𝐹(𝐹𝑗 ,𝑋)
𝐹𝑗 ∈𝑋 (𝑝(𝐹𝑗 |𝑐))
𝑛
𝑇𝐹(𝐹1 ,𝑋)
𝑖=1 𝑝(𝑐𝑖 ) ∗ 𝐹1 ∈𝑋 (𝑝(𝐹1 |𝑐))
𝑝 𝑐 ∗
Như vậy, trong quá trình phân lớp không dựa vào toàn bộ tập tham số đưa
vào mà chỉ dựa vào các tham số xuất hiện trong kết quả đo X.
e) Ví dụ minh họa
Dữ liệu đầu vào:
Bảng 3. Thông số quan trắc trầm tích
STT
Hàm lượng dầu
CN-
Pb
Zn
Hg
Cd
As
Class
1
69
0.1
40.67
125.67
0.8
1.17
70
Loại 1
2
1128.33
0.01
111
172
0.17
3.9
21
Loại 1
3
522
0.06
34.67
244.67
0.5
1
31.67
Loại 2
4
458
0.09
91
139.67
0.4
1.93
177.67
Loại 3
5
1222
0.04
140
217.67
0.43
0.38
35.67
Loại 2
6
1195.67
0.08
117.33
349.33
0.18
0.13
125
Loại 3
7
266.67
0.02
129.67
341.67
0.7
2.17
41
Loại 2
8
74.67
0.02
222
538.33
0.72
3.57
97.67
Loại 3
9
1137.67
0.01
129.33
321
0.1
1.2
136.33
Loại 2
10
37
0.07
32.67
173
0.8
0.3
173
Loại 3
11
598.67
0.07
240.67
145.33
0.37
0.27
14
Loại 1
12
644.67
0.08
155
557
1
1.13
15.33
Loại 3
13
1226
0.01
155.67
276.67
0.18
2.67
165.67
Loại 3
14
575
0.03
112.33
132
0.53
2.93
87
Loại 2
15
1413
0.05
55.33
428
0.23
1.6
176.67
Loại 3
23
STT
Hàm lượng dầu
CN-
Pb
Zn
Hg
Cd
As
Class
16
442
0.05
57.33
452.67
0.47
0.17
112.67
Loại 1
17
329.33
0.03
240.33
389.33
0.27
0.46
36.33
Loại 2
18
517.67
0.03
213
131.67
0.83
2.97
108
Loại 3
19
1052.67
0.03
145.33
100.67
0.36
0.37
56.33
Loại 2
20
193.67
0.01
195.67
270.67
0.73
0.93
9.33
Loại 1
21
391
0.09
207
33.33
1
1.23
134.67
? (Loại 3)
Bảng Thông số quan trắc trầm tích dựa vào tiêu chuẩn tham khảo của Trung
Quốc được biểu diễn như sau:
STT
Hàm lượng dầu
CN-
Pb
Zn
Hg
Cd
As
Class
1
A
C
A
A
C
B
B
Loại 1
2
C
A
B
B
A
C
A
Loại 1
3
B
C
A
B
B
B
A
Loại 2
4
A
C
B
A
B
C
C
Loại 3
5
C
B
C
B
B
A
B
Loại 2
6
C
C
B
B
A
A
C
Loại 3
7
A
A
B
B
C
C
B
Loại 2
8
A
A
C
C
C
C
B
Loại 3
9
C
A
B
B
A
B
C
Loại 2
10
A
C
A
B
C
A
C
Loại 3
11
B
C
C
A
B
A
A
Loại 1
12
B
C
C
C
C
B
A
Loại 3
13
C
A
C
B
A
C
C
Loại 3
14
B
B
B
A
C
C
B
Loại 2
15
C
B
A
C
B
C
C
Loại 3
16
A
B
A
C
B
A
C
Loại 1
17
A
B
C
C
B
A
B
Loại 2
18
B
B
C
A
C
C
C
Loại 3
24
STT
Hàm lượng dầu
CN-
Pb
Zn
Hg
Cd
As
Class
19
C
B
C
A
B
A
B
Loại 2
20
A
A
C
B
C
B
A
Loại 1
21
A
C
C
A
C
B
C
? (Loại 3)
Bảng 4.Đánh giá thông số quan trắc trầm tích qua tiêu chuẩn tham khảo Trung Quốc
Phân lớp Naive Bayes:
Gọi tắt lớp Loại 1 là: x, Loại 2 là y, Loại 3 là z.
Như vậy ta có:
- Xác suất lớp x: P(x) = 5/20
- Xác suất lớp y: P(y) = 7/20
- Xác suất lớp z: P(z) = 8/20
Ta xét các mẫu chưa được tìm thấy sau:
X = <391, 0.09, 207, 33.33, 1, 1.23, 134.37>
X tính theo tiêu chuẩn tham khảo của Trung Quốc
X = <A, C, C, A, C, B, C>
Ta tính xác suất của các thuộc tính sau:
x
y
X
P(A | x) = 3/5
P(A | y) = 2/7
P(A | z) = 3/8
P(B | x) = 1/5
P(B | y) = 2/7
P(B | z) = 2/8
P(C | x) = 1/5
P(C | y) = 3/7
P(C | z) = 3/8
P(A | x) = 2/5
P(A | y) = 2/7
P(A | z) = 2/8
P(B | x) = 1/5
P(B | y) = 4/7
P(B | z) = 2/8
P(C | x) = 2/5
P(C | y) = 1/7
P(C | z) = 4/8
P(A | x) = 2/5
P(A | y) = 1/7
P(A | z) = 2/8
P(B | x) = 1/5
P(B | y) = 3/7
P(B | z) = 2/8
P(C | x) = 2/5
P(C | y) = 3/7
P(C | z) = 4/8
Hàm lượng dầu
CN-
Pb
25