Tải bản đầy đủ (.pdf) (11 trang)

Nghiên cứu phương pháp xử lý tín hiệu số hỗ trợ dự báo dữ liệu cho ngành tài nguyên môi trường

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (744.03 KB, 11 trang )

NGHIÊN CỨU PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU SỐ HỖ TRỢ
DỰ BÁO DỮ LIỆU CHO NGÀNH TÀI NGUYÊN MÔI TRƯỜNG
Trần Cảnh Dương
Trường Đại học Tài nguyên và Môi trường Hà Nội
Tóm tắt
Hiện nay, ngành tài ngun mơi trường có rất nhiều công cụ và phần mềm dự báo hiện đại,
tuy nhiên, dữ liệu tại một số lĩnh vực còn thiếu, đặc biệt trong thời gian trước. Nội dung bài báo đề
cập đến việc phân tích, lập trình trong phương pháp nội suy hai chiều, nội suy ba chiều và phương
pháp làm nhẵn tín hiệu. Khi sử dụng phương pháp bình phương sai phân bé nhất, ta xác định được
hàm số từ các điểm đo rời rạc. Nội dung bài báo bao gồm việc phân tích và đề xuất sử dụng mạng
nơron MLP. Các phương pháp xử lý tín hiệu số nêu trên sẽ hỗ trợ cho việc chỉnh biên dữ liệu trong
quá khứ và dự báo dữ liệu trong tương lai cho một số lĩnh vực của ngành tài nguyên mơi trường
với một sai số cho phép.
Từ khóa: Dự báo dữ liệu; Làm nhẵn tín hiệu; Mạng nơron; MLP; Ngoại suy; Nội suy; Trọng
số; Xử lý tín hiệu số; Sai số cho phép.
Abstract
Research for data signal processing methods supporting data forecast for resources and
enviromental field
Nowadays, the field of natural resources and environment has a lot of modern forecasting
tools and software. However, data in some areas is still lacking, especially in the previous
period. The content of the article deals with the analysis and programming in two-dimensional
interpolation, three-dimensional interpolation and signal smoothing method. When using the
method of least squares, we can determine the function from discrete measurement points.
The result includes the analysis and proposal of using the MLP neural network. The abovementioned digital signal processing methods will support the correction of past data and
forecast data in the future for some areas of the natural resources and environment field with
an allowed error.
Keywords: Forecast data; Smooth the signal; Neural network; MLP (Multiplayer
Perceptron); Extrapolaion; Interpolation; Weight; Process digital signal; Allowed error.
1. Đặt vấn đề
Ngày nay, các phương pháp dự báo đã được đưa ra dựa trên mơ hình vật lý và tốn học. Jason
Brownlee đã đề cập phương pháp thiết kế bộ thử nghiệm để đánh giá mơ hình MLP cho dự báo


chuỗi thời gian; các thiết kế thử nghiệm có hệ thống cho các tế bào thần kinh và cấu hình độ trễ
khác nhau; cách diễn giải kết quả và sử dụng chẩn đoán để tìm hiểu thêm về các mơ hình hoạt động
tốt [4]. Mạng nơron nhân tạo (ANN), cây quyết định (DT), rừng ngẫu nhiên (RF) và máy vectơ
hỗ trợ (SVM) là những phương pháp được sử dụng để nghiên cứu điển hình về upo đất ngập nước
ở Hàn Quốc [3]. Phương pháp ô vuông, phương pháp Rosenbrock, phương pháp Nelder-Mead,
phương pháp Hooke-Jeeves, giải thuật di truyền, phương pháp SCE để tìm thông số tối ưu, được
đề cập trong một đề tài cơ sở cấp Viện Cơ học - Viện Hàn lâm Khoa học và Công nghệ Việt Nam.
Tác giả đã xây dựng phần mềm dự báo lũ bằng mơ hình thủy văn, thơng số tập trung có sử dụng
phương pháp ước tính thơng số tối ưu [5]. Mạng MLP (Multiplayer perceptron) có nhiều ứng dụng
để dự báo. Trữ lượng gió, đỉnh và đáy đồ thị phụ tải có thể được ước lượng bằng mạng MLP [7].
Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên,
bảo vệ môi trường và phát triển bền vững

217


Ta có thể ước lượng thơng số tài ngun và môi trường theo thời gian đối với các địa điểm có dữ
liệu tương quan bằng cách ứng dụng mạng nơron để xử lý tín hiệu số [8].
Hiện nay, ngành tài ngun mơi trường có nhiều cơng cụ và phần mềm dự báo hiện đại, tuy
nhiên, dữ liệu của một số lĩnh vực còn thiếu, đặc biệt là trong khoảng thời gian trước. Để thực hiện
dự báo tốt cần có đầy đủ dữ liệu hiện tại và quá khứ. Bài báo này đề xuất phương pháp xử lý tín
hiệu số để xác định dữ liệu trong quá khứ và dự báo dữ liệu trong tương lai cho ngành tài nguyên
môi trường với một sai số cho phép.
2. Cơ sở lý thuyết và phương pháp nghiên cứu
2.1. Phương pháp nội suy
Các phép đo thông thường được thực hiện tại những thời điểm gián đoạn nhưng khi chúng ta
cần sử dụng chúng thì cần cả các giá trị nằm giữa các giá trị đo. Phương pháp nội suy (interpolation)
sẽ cung cấp các giá trị nằm giữa 02 thời điểm [6]. Trong MATLAB, lệnh interpi (x_value, y_value,
x_processing, method) với i = 1,2,3 tương ứng với phép nội suy một chiều, hai chiều hoặc ba
chiều. Khi tiến hành phép nội suy, số liệu cần được sắp xếp theo trình tự tọa độ tăng dần.

2.2. Làm nhẵn tín hiệu
Trong q trình đo đạc các tham số kỹ thuật dữ liệu, các lần đo có thể khác nhau do sự ảnh
hưởng của các yếu tố khách quan của mơi trường. Do đó, việc chuẩn hóa kết quả đo là điều cần thiết.
Ta cần loại bỏ các yếu tố khách quan, gây ảnh hưởng đến kết quả đo. Việc làm nhẵn tín hiệu sẽ đáp
ứng được yêu cầu thực tế. Giả sử tín hiệu S (n) bị ảnh hưởng bởi các yếu tố khách quan mà ta có thể
gọi nó là tạp âm ngẫu nhiên d (n). Như vậy, kết quả đo được sẽ là tín hiệu x (n) được xác định như sau:
x(n)=S(n)+d(n)
Ta cần tìm tín hiệu y (n) có dạng và giá trị gần nhất với tín hiệu ban đầu S (n). Ta xác định
một đầu ra có giá trị trung bình của một số mẫu đo xung quanh mẫu tại thời điểm n. Ví dụ, ta có
thể lấy trung bình 04 mẫu đầu vào để tạo một đầu ra y (n).
y(n)=[x(n-1)+x(n)+x(n+1)+x(n+2)]/4
2.3. Phương pháp bình phương sai phân bé nhất
Khái niệm bình phương sai phân bé nhất (Least squares - LQ) gồm nhiều phương pháp tìm
tối ưu khác nhau.
Ta cần tìm giá trị cực tiểu của tổng các giá trị sai số bình phương. Bằng cách sử dụng phương
pháp LQ tuyến tính, ta có thể tìm một đa thức xấp xỉ cho các giá trị đo. Các giá trị đầu vào được
đặt trong véc tơ u = [u1, u2... un], các giá trị đo được yi đặt trong véc tơ y = [y1, y2... yn]. Quan hệ y
= f (u) được gần đúng bằng đa thức bậc m (trong đó m < n) như sau:
y=a0+a1u1 +a2u2+...+amum
Mỗi cặp giá trị của điểm đo trên đồ thị cần nằm gần đường biểu diễn đa thức bậc m theo một
mức cho phép. Ma trận tổng quát như sau [6]:

1 u1 u12 ... u1m 


2
m
1
u
u

...
u

2 
=
C  2 2 =
;x

... ... ... ... ... 
1 un un2 ... unm 
218

 a0 
a 
1
=
;d
... 
 
 an 

 y0 
y 
 1
... 
 
 yn 

Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên,
bảo vệ môi trường và phát triển bền vững



2.4. Khái niệm về mạng MLP
Mạng MLP là một trong những mạng nơron kinh điển nhất, có một số ưu điểm và sử dụng
thuận tiện. Cấu trúc mạng MLP được sử dụng rộng rãi để tái tạo các ánh xạ đầu vào với đầu ra trên
cơ sở bộ số liệu mẫu. Các hàm số thể hiện quan hệ dữ liệu đầu vào với đầu ra của các tham số kỹ
thuật ngành tài nguyên môi trường, là các hàm phi tuyến bậc cao. Số liệu quan trắc không đầy đủ,
không thường xuyên và không liên tục lại chứa nhiều nhiễu. Do đó, để hạn chế các nhược điểm
nêu trên thì tác giả chọn mơ hình xấp xỉ bằng mạng nơron trở nên hữu hiệu, đặc biệt, sử dụng mơ
hình mạng MLP có hiệu quả cao với sai số cho phép.
Chúng ta cần chọn phương pháp thiết kế thích hợp để đánh giá mơ hình MLP cho dự báo
chuỗi thời gian được cấu hình với độ trễ khác nhau [4]. Sau khi có kết quả học máy của mạng MLP,
chuyên gia dự báo cần biết cách diễn giải kết quả và sử dụng chẩn đoán để điều chỉnh các tham số
nhằm đảm bảo các các mơ hình hoạt động tốt.
Mạng MLP là một mạng truyền thẳng với các khối cơ bản là các nơron McCulloch - Pits.
Các nơron được sắp xếp thành các lớp (layer) [7]. Một lớp nối đến các kênh tín hiệu đầu vào (Input
layer), một lớp nối đến các kênh tín hiệu đầu ra (Out layer) và có thể thêm một số lớp trung gian
(lớp ẩn - Hidden layer) [1]. Ta có thể mơ hình hóa một hàm phi tuyến với độ chính xác được chọn
trước bằng cách dùng nhiều nhất 02 lớp ẩn.
Đối với mạng MLP có một lớp ẩn, N đầu vào, M nơron trên lớp ẩn và K đầu ra, ta có hàm
truyền đạt là một hàm phi tuyến. Wjk là trọng số ghép giữa lớp đầu vào và lớp ẩn, Vij là trọng số
ghép giữa lớp ẩn và lớp đầu ra. Hàm truyền đạt được biểu diễn như sau [7]:
 M   N
  
y1 = f 2 ∑  f1  ∑ xkW jk  Vij  
=
  
 j 0=
 k 0


Quan hệ giữa dữ liệu vào và dữ liệu ra được xác định dựa theo số liệu mẫu được mạng MLP
xử lý. Tập hợp p cặp mẫu được biểu thị dưới dạng véc tơ đầu vào, véc tơ đầu ra tương ứng {xi, di}
với i = 1, 2,… p, xi ϵ RN, di ϵ RK. Trong đó, N là số đầu vào và K là số đầu ra của mạng nơron. Thành
phần di là véc tơ nhiều thành phần do mạng MLP có thể có nhiều đầu ra cùng thời điểm [7]. Sai số
tổng cộng được xác định theo biểu thức sau:
=
E

1 p
∑ MLP( xi ) − di
2 i =1

2

Giá trị E cần đạt cực tiểu. Hàm truyền đạt lớp ra của mạng MLP phụ thuộc nhiều vào dải tín
hiệu của giá trị đích. Tương tự, đối với một nơron, nếu đầu ra được giới hạn trong đoạn [0,1] hoặc
[- 1,1], ta nên dùng hàm Logsig hoặc Tansig một cách tương ứng. Nếu đầu ra có giá trị nằm ngồi
đoạn [- 1,1] thì ta có thể dùng hàm tuyến tính. Ta có thể chọn hàm Tansig để xác định hàm truyền
đạt cho lớp vào và các lớp ẩn bởi vì tín hiệu dương và âm có trong đoạn [- 1,1], theo yêu cầu thực
tế của ngành tài nguyên môi trường. Các thơng số tham gia vào q trình học máy (q trình điều
chỉnh thích nghi) của mạng MLP là các trọng số nối giữa các lớp. Khi mạng có một lớp ẩn ta có
hai ma trận trọng số, đó là: ma trận trọng số W ghép giữa lớp vào và lớp ẩn; ma trận trọng số V
ghép giữa lớp ẩn và lớp ra. Để điều chỉnh thích nghi các trọng số kết nối, ta có thể dùng thuật tốn
bước giảm cực đại. Các cơng trình nghiên cứu khoa học đã chứng minh rằng, với một tập số liệu
bất kỳ và một mức sai số bất kỳ cho trước, ta có thể xây dựng được một mạng nơron, sao cho có
thể đạt được sai số cho trước này [7]. Có nhiều thuật toán học cho mạng MLP, như: thuật toán học
theo bước giảm cực đại, thuật toán Levenberg - Marquardt, thuật toán học của Hebb,... Các thuật
Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên,
bảo vệ môi trường và phát triển bền vững


219


tốn thơng dụng nhất để điều chỉnh thích nghi trọng số của một mạng nơron là các thuật toán sử
dụng Gradien. Khởi tạo các giá trị trọng số bằng giá trị ngẫu nhiên, sau đó, ta xác lập cơng thức
lặp để điều chỉnh liên tục các giá trị này sao cho hàm sai số tiến dần đến giá trị cực tiểu. Ta có các
cơng thức thay đổi các trọng số trong 02 ma trận W và V để xác định điểm cực tiểu của hàm mục
tiêu sai số E:
∂E
 (t +l )
t
Wαβ= Wαβ − η ∂W
αβ


∂E
+l )
V (t=
Vαβt − η
αβ

∂Vαβ

3. Kết quả và thảo luận
3.1. Thực hiện dự báo theo phương pháp nội suy
Ngành tài ngun mơi trường có nhiều loại dữ liệu. Tuy nhiên, dữ liệu thu được bằng các
phép đo tại các thời điểm gián đoạn. Các thời điểm này có thể cách đều hoặc khơng cách đều. Nhu
cầu sử dụng thực tế có khi địi hỏi sử dụng các giá trị nằm giữa các thời điểm đo.
Ta thực hiện chùm lệnh sau để ví dụ.
>> x_rough = - 0.7 : 2.5; x_fine = - 1 : 0.1 : 3; data = exp (-x_rough.^3/2);

>> inter_linear = interp1(x_rough, data, x_fine, ‘linear’); inter_cubic = interp1(x_rough,
data, x_fine, ‘PCHIP’); inter_spline = interp1(x_rough, data, x_fine, ‘spline’); figure
>> plot(x_rough, data,’k*’); hold on; plot(x_fine, exp(-x_fine.^2/2), ‘k:’);
>> plot(x_fine, inter_linear, ‘g-’); plot(x_fine, inter_cubic, ‘b--’); plot(x_fine, inter_spline, ‘r.’);
>> grid on; legend(‘Test Points’,’ideal’,’linear’,’cubic’,’spline’);
>> title(‘interp1 (Đồ thị biểu diễn các dữ liệu nội suy)’,’FontSize’,11);
Bước nội suy được chọn theo lệnh x_fine = - 1 : 0.1 : 3; kết quả được đồ thị biểu diễn dữ liệu
theo phương pháp nội suy. Phương pháp Splines và Cubic cho phép ngoại suy (Extrapolaion) nằm
ngồi khoảng bị chặn bởi các bước thơ đã được chọn là [- 0.6, 2.5].

Hình 1: Đồ thị của tín hiệu nội suy
220

Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên,
bảo vệ môi trường và phát triển bền vững


Trên thực tế ngành tài ngun mơi trường có nhiều loại dữ liệu nhưng trong quá khứ không
được đo đạc, cập nhật một cách đầy đủ. Thiếu dữ liệu quá khứ nên khi đánh giá dữ liệu quá khứ và
hiện tại để thực hiện dự báo gặp rất nhiều khó khăn. Phương pháp nội suy sẽ hỗ trợ việc xác định
dữ liệu quá khứ với một sai số cho phép.
Ví dụ về nội suy 3 chiều:
>> x = rand (100,1)* 4 - 2; y = rand (100,1) * 4 - 2; z = 0.2 + x. * exp (-x.^2-y.^3);
>> [XI, YI] = meshgrid (- 2 : 0.25 : 2, - 2 : 0.25 : 2); ZI = griddata (x,y,z,XI,YI,’v4’);
>> mesh (XI,YI,ZI); hold on; plot3 (x,y,z,’o’); title (‘griddata(nội suy ba chiều))’,
‘FontSize’,12);
>> hold off;

Hình 2: Đồ thị biểu diễn tín hiệu nội suy 3 chiều
Nếu ta thay đổi tham số thì sẽ có kết quả khác được biểu diễn ở Hình 3.


Hình 3: Đồ thị biểu diễn tín hiệu nội suy 3 chiều nếu tham số được thay đổi
3.2. Thực hiện dự báo theo phương pháp làm nhẵn tín hiệu
Ta có thể lập trình bằng Matlab như sau:
>> clf; R = 55; d = 0.8 * (rand(R,1) - 0.5); m = 0 : R - 1; s = 3 * m * (0.9.^m); x = s + d’;
Figure (1) subplot (2,1,1); plot (m,d’,’r-’,m,s,’g--’,m,x,’b-’);
Xlabel (‘Chỉ số thời gian n’); ylabel (‘Giá trị của tham số đo’);
>> legend (‘d[n]’,’s[n]’, ‘x [n]’); x 1 = [0 0 x]; x2 = [0 x 0]; x 3 = [x 0 0]; y = (x1 + x2 + x 3)/3;
Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên,
bảo vệ môi trường và phát triển bền vững

221


>> subplot (2,1,2); plot (m,y (2:R + 1),’r-’,m,s,’g--’); legend (‘y[n]’,’s[n]’);
>> xlabel (‘Chỉ số thời gian n’); ylabel (‘Giá trị của tham số đo’); figure (2) subplot (2,1,1);
>> plot (m,d’,’r-’,m,s,’g--’,m,x,’b-.’); x label (‘Chỉ số thời gian n’); ylabel (‘Giá trị của tham
số đo’);
>> legend (‘d[n]’,’s[n]’,’x[n]’); y1 = [0 0 0 x]; y 2 = [0 0 x 0]; y 3 = [0 x 0 0]; y4 = [x 0 0 0];
>> y = (y1 + y2 + y3 + y4)/4; subplot (2,1,2); plot (m,y(2 : R + 1),’r-’,m,s,’g--’); legend
(‘y[n]’,’s[n]’);
>> xlabel (‘Chỉ số thời gian n’); ylabel (‘Giá trị của tham số đo’);
Sau khi chạy chương trình, ta có các đồ thị biểu diễn giá trị của tham số đo đối với trường
hợp trung bình 03 mẫu ở Hình 4 và 04 mẫu ở Hình 5.

Hình 4: Đồ thị biểu diễn giá trị của tham số đo đối với trường hợp trung bình 3 mẫu

Hình 5: Đồ thị biểu diễn giá trị của tham số đo đối với trường hợp trung bình 4 mẫu
3.3. Sử dụng phương pháp bình phương sai phân bé nhất để xác định hàm số từ các điểm
đo rời rạc

Căn cứ vào phương trình trên, tác giả lập trình để tìm đa thức tối ưu như sau:
>> u = [0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1]’;
222

Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên,
bảo vệ môi trường và phát triển bền vững


y = [80.1 90.2 100.3 154.2 172.1 170.6 155 140.3 132 116.2 100]’;
d = y; C = [ones(length(u),1) u u.^2 u.^3 u.^4];
x = C\d
Khi đó trên cửa sổ lệnh có kết quả của các hệ số như sau:
x = 33.2259, 381.5647, -205.7911, -199.0205, 111.6829
Tiếp tục lập trình:
>> plot (0.1, 80.1, ‘*r’, 0.2, 90.2, ‘*r’, 0.3’, 100.3, 0.4, 154.2, ‘*r’, 0.5, 172.1, ‘*r’, 0.6,
170.6, ‘*r’,0.7, 155, ‘*r’,0.8, 140.3,’*r’, 0.9, 132,’*r’, 1.0, 116.2, ‘*r’, 1.1, 100);
>> hold on
fplot(@(x)33.2259+381.5647.*x-205.7911.*x.^2 199.0205.*x.^3+111.6829.*x.^4, 0:1.5,
‘k-’); hold off
>> title (‘Giá trị đo Ls = Ls (Isd)’, ‘FontSize’, 12); xlabel (‘Isd[x IsN]’, ‘FontSize’, 12);
>> ylabel (‘Ls [mH]’, ‘FontSize’, 12); grid on
Sau khi chạy chương trình ta có đồ thị biểu diễn giá trị đo và đa thức tối ưu bậc m.

Hình 6: Đồ thị biểu diễn giá trị đo và đa thức tối ưu bậc m
Khi dùng phương pháp này, ta sẽ xác định được giá trị tối ưu sau khi tổng hợp các giá trị đo
được đối với các tham số tài nguyên môi trường.
3.4. Sử dụng mạng MLP để dự báo dữ liệu
Căn cứ các dữ liệu thống kê có sẵn, mạng MLP có thể dự báo tương đối chính xác cho các
tham số chính của ngành tài nguyên môi trường, chẳng hạn như: mực nước sông, mực nước hồ,
tốc độ gió, cấp độ rũi ro thiên tai do bão và áp thấp nhiệt đới gây ra,... cho các ngày tiếp theo. Để

dự báo bằng mạng nơron được chính xác, việc quan trọng nhất là tìm các dữ liệu thích hợp. Các
dữ liệu này cần được biểu diễn theo quy ước để mạng MLP có thể xử lý.
Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên,
bảo vệ môi trường và phát triển bền vững

223


Giả sử ta muốn sử dụng giá trị của một tham số tài ngun, mơi trường của k×m ngày đã qua
để dự đốn giá trị của k ngày tới thì tạo một hàng (row) gồm m+1 dữ liệu, trong đó m dữ liệu đầu
của hàng này là giá trị của m ngày liên tiếp, mà hai ngày gần nhau nhất cách nhau k ngày. Dữ liệu
thứ m + 1 (cuối cùng) là giá trị của ngày tiếp theo ngày thứ m. Như vậy, ta sẽ dùng mạng MLP có
m đầu vào và một đầu ra. Giá trị k có thể bằng 1,2,3,... tùy theo nhu cầu dự báo trên thực tế. Dữ
liệu được lập thành bảng như ví dụ sau:
Ngày
k(1 - m)
253.465
256.782
264.108
.............
389.241
356.378
379.413

Ngày
k(2 - m)
256.431
256.538
256.679
.............

3575.03
364.1099
372.2898

.........

Ngày (-2k)

Ngày (-k)

Ngày 0

Ngày k

Nhãn

.........
.........
.........
.............
.........
.........
.........

256.569
257.223
258.531
.............
372.2898
364.1099

370.8699

255.457
256.324
255.459
.............
370.8699
364.1099
372.2898

262.378
263.112
258.286
.............
372.2998
372.3999
372.2998

2531.505
2530.235
2523.73
.............
372.4099
384.4367
379.236

y-z-2021
t-x-2021
r-s-2021
.............

e-f-2021
c-d-2021
a-b-2021

Ta có thể chọn số đầu vào và số đầu ra tùy thuộc theo yêu cầu của thực tế, chẳng hạn, chọn
mạng MLP có 15 đầu vào, 01 đầu ra hoặc 20 đầu vào, 03 đầu ra. Ví dụ, số lượng tập dữ liệu
(Datasets) là 5.020. Trong đó, 80 % dữ liệu tương ứng 4.016 datasets được dùng để học, 20 % dữ
liệu tương ứng 1.004 datasets được dùng để kiểm tra. Số lần lặp khi học là 1.000.
Sau quá trình học máy bằng phần mềm Spice [2], mạng MLP sẽ đưa ra kết quả như được biểu
diễn ở Hình 6. Đây là đồ thị biểu diễn dữ liệu vào, dữ liệu ra đào tạo và dữ liệu mạng MLP đối với
một ví dụ. Các tham số kỹ thuật khác trong lĩnh vực tài ngun mơi trường có thể được chỉnh biên
hoặc dự báo một cách tương tự.

Hình 7: Đồ thị biểu diễn dữ liệu vào, dữ liệu ra đào tạo và dữ liệu mạng MLP đối với một
ví dụ học máy
Q trình điều khiển thích nghi của mạng MLP xác định các trọng số ghép nối giữa các lớp.
Hình 8 biểu diễn đồ thị trọng số cho một ví dụ học máy.
224

Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên,
bảo vệ môi trường và phát triển bền vững


Hình 8: Đồ thị biểu diễn trọng số cho một ví dụ học máy
Các thơng số liên quan đến học máy, ví dụ từ bước 01 đến bước 1.000 được thể hiện qua
Hình 9.

Hình 9: Mơ tả các thơng số liên quan đến học máy, ví dụ từ bước 1 đến bước 1.000
Ta có thể biểu diễn các dạng dữ liệu vào, dữ liệu ra và dữ liệu học máy theo dạng 3D. Hình
10 chỉ ra ví dụ về đồ thị dữ liệu 3D của mạng gồm 03 đầu vào, 01 đầu ra.

Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên,
bảo vệ môi trường và phát triển bền vững

225


Hình 10. Đồ thị dữ liệu 3D của mạng gồm 3 đầu vào, một đầu ra
Trong quá trình thực hiện dự báo ta cần tìm các thơng số thích hợp cho mạng nơron MLP.
Thơng số thích hợp thường phụ thuộc nhiều vào dữ liệu có sẵn, một thơng số có thể tốt cho dữ
liệu này nhưng không phù hợp khi sử dụng ở dữ liệu khác. Ta sử dụng phương pháp thay đổi một
thơng số để tìm giá trị tối ưu tương đối, với cùng dữ liệu học và kiểm tra. Mặt khác, trước khi đào
tạo mạng, dữ liệu vào và ra cần được chuẩn hóa. Ta có thể dùng các hàm để chuẩn hóa, chẳng hạn
như hàm Linear.
Đào tạo mạng được thực hiện vài lần để chọn lần đào tạo có lỗi đào tạo (training error) và
lỗi kiểm tra (testing error) nhỏ nhất. Thông tin về mạng học và đồ thị lỗi của bạn sẽ gồm thông tin
của lần học cuối cùng. Ta chọn hàm biến đổi cho lớp ẩn (ví dụ hàm HyperTanh), hàm biến đổi cho
lớp ra (ví dụ hàm Identity), tỷ lệ học cuối cùng (ví dụ 0.03309628), giá trị MSE của dữ liệu học
(ví dụ 4.137238E-05), giá trị MSE của dữ liệu kiểm tra (ví dụ 3.425868E-05), số lượng dữ liệu đã
học (ví dụ 4.016), số lượng dữ liệu đã kiểm tra (ví dụ 1.004), số lần lặp (1.000). Sau khi mạng học
xong, ta cần kiểm tra dữ liệu học được mơ hình hóa (modeling) trong phần “Xem dữ liệu”. Đầu ra
của dữ liệu học (training data) được mạng MLP đưa ra (NN Outputs).
Phương pháp PML được dùng để dự báo mực nước. Căn cứ tập dữ liệu, từ 13 - 6 - 2013 đến
30 - 12 - 2016, ta có mực nước dự báo của một dịng sơng ngày 12-01-2017 là 126,583 cm. Mực
nước theo thống kê ngày 12 - 01 - 2017 là 128,667 cm. Như vậy, sai số mực nước giữa trường hợp
dự báo so với thực tế chỉ khác nhau cỡ 2 cm.
4. Kết luận
Bài báo đề cập việc phân tích, lập trình trong phương pháp nội suy hai chiều, nội suy ba chiều.
Phương pháp này có thể được sử dụng để điều chỉnh biên dữ liệu đo đạc trong quá khứ. Phương pháp
làm nhẵn tín hiệu sẽ được dùng để xác định tập dữ liệu tối ưu trong điều kiện các phép đo bị nhiễu
do các yếu tố khách quan. Khi sử dụng phương pháp bình phương sai phân bé nhất, ta xác định được

hàm số từ các điểm đo rời rạc. Nội dung bài báo bao gồm việc phân tích và đề xuất sử dụng mạng
nơron MLP. Các phương pháp xử lý tín hiệu số nêu trên sẽ hỗ trợ cho việc chỉnh biên dữ liệu trong
quá khứ và dự báo dữ liệu trong tương lai. Căn cứ nhu cầu thực tế của các lĩnh vực trong ngành tài
nguyên mơi trường ta có thể xây dựng phần mềm để dự báo một cách hiệu quả và chủ động, đồng
thời, tự động hóa được nhiều bước thực hiện, đảm bảo kết quả với sai số cho phép.
226

Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên,
bảo vệ môi trường và phát triển bền vững


TÀI LIỆU THAM KHẢO
[1]. Boger B, Guyon I (1997). Knowledge extraction from artifi cial neural network models. IEEE Systems,
Man, and Cybernetics Conference.
[2]. Cao Thang (2007). Intructions for using Spice-MLP software. Soft Intelligence Laboratory, Ritsumeikan
University, Japan.
[3]. Changhyun Choi, Jungwook Kim, Heechan Han, Daegun Han, Hung Soo Kim (2019). Development
of water level prediction models using machine learning in wetlands: A case study of upo wetland in South
Korea.
[4]. Jason Brownlee (2017). How to configure multilayer perceptron network for time series forecasting.
Deep learning for time series.
[5]. Nguyễn Chính Kiên (2020). Nghiên cứu xây dựng mơ hình thủy văn thơng số tập trung trong dự báo
lũ cho các lưu vực sông ở Việt Nam. Đề tài cơ sở cấp Viện Cơ học - Viện Hàn lâm Khoa học và Công nghệ
Việt Nam.
[6]. Nguyễn Phùng Quang (2008). Matlab & Simulink dành cho kỹ sư điều khiển tự động. Nhà xuất bản
Khoa học và Kỹ thuật.
[7]. Trần Hoài Linh (2019). Mạng nơron và ứng dụng trong xử lý tín hiệu số. Nhà xuất bản Bách Khoa, Hà
Nội.
[8]. Trần Cảnh Dương (2020). Ước lượng thông số tài nguyên và môi trường theo thời gian đối với các địa
điểm có dữ liệu tương quan bằng cách ứng dụng mạng nơron để xử lý tín hiệu số. Tạp chí Khoa học Tài

nguyên và Môi trường, số 30.

Ngày chấp nhận đăng: 10/11/2021. Người phản biện: TS. Lê Phú Hưng

Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên,
bảo vệ môi trường và phát triển bền vững

227



×