Khai phá dữ liệu thời gian sử dụng thuật toán di truyền và mạng nơron – nghiên cứu dựa trên các dự báo tình hình ô nhiễm không khí

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (637.6 KB, 22 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
KHOA ĐÀO TẠO QUỐC TẾ & SAU ĐẠI HỌC
oo0oo
TIỂU LUẬN:
Khai phá dữ liệu thời gian sử dụng thuật toán di truyền và mạng nơron –
nghiên cứu dựa trên các dự báo tình hình ô nhiễm không khí
Môn học: Công cụ toán học nâng cao
Giáo viên: Nguyễn Văn Thỏa
Học viên: Nhóm 3

Hà nội, ngày 30/12/2011
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
1
Nhóm 3: danh sách các học viên
Nguyễn Thị Lan Anh
Đỗ Thị Liên
Mai Anh Chung
Nguyễn Văn Thắng
Nguyễn Văn Thanh
Nguyễn Thanh Thức
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
2
Mục lục
PHẦN 1: DỊCH NỘI DUNG BÀI BÁO
Tổng quan:
Công nghệ trí thông minh nhân tạo được biết đến như mạng nơron và thuật toán di truyền có thể dễ
dàng giải quyết những vấn đề kết hợp không gian và thời gian phi tuyến mang tính phức tạp cao. Chính
vì vậy bài báo này kết hợp các kĩ thuật của giải thuật di truyền và mạng nơron để xây dựng công cụ tiên
đoán thời gian mới cho “hệ thống thông tin địa lý” (GIS – Geographic Information System). Những

công cụ GIS này có thể áp dụng dễ dàng trong thực tiễn nghiên cứu không gian và thời gian để hoàn
thiện những lỗ hổng chức năng khai phá dữ liệu và khám phá tri thức GIS.
Kết quả đáng ghi nhận ở đây là sự tích hợp của các công nghệ thông minh nhân tạo với nhau trong
phần mềm GIS để thiết lập một framework phân tích không gian và thời gian. Thêm vào nữa, với việc
sử dụng framework để phát triển hệ thống “phân tích thông tin không gian và thời gian thông minh
nhân tạo ” – ASIA (Artifical intelligent Spatial and temporal Information Analyst) – đã trở thành công
cụ đầy đủ cho gói GIS đã tồn tại , vì vậy nó áp dụng thích hợp cho những công việc chuyên môn hóa.
Nghiên cứu dựa trên các dự báo tình hình ô nhiễm không khí đưa ra ở một khu vực địa lý thực tế
để chứng minh framework phân tích thời gian hợp lý hóa và có căn cứ.
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
3
1. Giới thiệu
Gần đây, khoa học đang tập trung vào việc nghiên cứu trí thông minh nhân tạo trong việc phát
triển mạng nơron, logic mờ và các giải thuật di truyền. Nghiên cứu mạng nơron chỉ ra con người đang
đối mặt với những vấn đề phức tạp của phương pháp học kết hợp. Ví dụ bằng việc tích hợp qua lại giữa
các nơron chúng ta có thể xử lý việc học theo những hành vi của con người và tìm ra các quan hệ giữa
những tác nhân ảnh hưởng phía đầu vào và kết quả liên quan tới môi trường phía đầu ra
(Muller,1995). Xuyên suốt việc mô phỏng quá trình sinh tồn của sinh vật, các giải thuật di truyền khiến
cho một chiếc máy tinh có thể thiết kế ra quá trình tiến hóa của chúng. Và, các giải thuật di truyền này
có thể tự điều chỉnh chế độ môi trường và tìm ra phương án tối ưu (Scott,1990). Với lý do này chúng ta
có để xử lý với số lượng lớn các tác nhân ảnh hưởng tới môi trường sống theo không gian và thời gian
thế giới thực bằng việc kết hợp các kỹ thuật của mạng nơron và giải thuật di truyền. Các công nghệ
thông minh này không sử dụng thứ tự tuyến tính để giải thích các xử lý của hệ thống mà có thể tích hợp
chúng thích hợp trong một GIS để tạo ra các mô hình phân tích không gian và thời gian mới. Những
mô hình này có thể minh họa cho việc xử lý một vấn đề lớn về thông tin không gian và thời gian, và
đưa ra các quan hệ phức tạp giữa các tác nhân. So sánh với mô hình thống kê tuyến tính truyền thống
thì những mô hình này thực tế hơn, phù hợp với xu hướng tương lai với những vấn đề không gian và
thời gian trong thế giới thực linh hoạt. Chúng ta không những có thể tự do tìm kiếm tất cả những tác
nhân có thể mà còn thu được từ những thiếu sót của việc phân tích không gian và thời gian GIS (Frank,

2000; Gahegan,2000; Openshaw and OpenShaw,1997).
Vì những nhà địa lý mong chờ giải quyết những vấn đề không gian và thời gian phức tạp và linh
động nên GIS đã bắt đầu tích hợp khoa học thông tin trong khai phá dữ liệu và khám phá tri thức
(Boots, 2000; Fischer,1997; Leung and Legung,1993; Marible,2000). Điều đó chính là lý do để sử
dụng máy tính xử lý với những vấn đề địa lý.
Mục tiêu dầu tiên của nghiên cứu này là chuẩn hóa sự tương tác giữa con người và môi trường của
họ, đồng thời để xây dựng tích hợp framework phân tích không gian và thời gian, làm lên sức mạnh
của GIS và khoa học thông tin.
Anselin(2000) đã tuyên bố có 3 yêu cầu cần thiết để thiết kế tốt 1 hệ thống thông tin tích hợp GIS,
bao gồm :
(1) Cung cấp một định dạng dữ liệu mà có thể chuyển đổi theo các kiểu GIS khác nhau.
(2) Thiết kế các thành phần có thể sử dụng lại trong môi trường lập trình windows.
(3) Có giao diện nền tảng trực quan.
Mục tiêu thứ hai trong nghiên cứu phát triển “gói phân tích thông tin không gian và thời gian thông
minh nhân tạo” – ASIA (Artificial intelligent Spatial and temporal Information Analyst), bao gồm việc
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
4
thiết kế một định dạng dữ liệu mới để chuyển đổi với các kiểu GIS khác nhau, sử dụng chương trình
C++ để xây dựng môđun đối tượng thông minh nhân tạo truy cập mở, và sử dụng phần mềm ArcView
GIS để trực quan hóa. Gói này tích hợp công nghệ thông minh nhân tạo và dữ liệu không gian và thời
gian theo cách phổ biến được sử dụng trong môi trường phần mềm GIS.
Mục tiêu thứ ba của nghiên cứu này là giải quyết với dự báo xu hướng thời gian của ô nhiễm
không khí như là một minh họa để chứng minh tính hợp lý và hữu ích của framework phân tích không
gian và thời gian và của hệ thống thông minh nhân tạo tích hợp.
2. Phân tích kiến trúc khái niệm không gian và thời gian GIS
Nghiên cứu này xây dựng kiến trúc không gian và thời gian GIS nhằm tích hợp GIS, trí thông
minh nhân tạo và công nghệ khai phá dữ liệu. Kiến trúc ở mức khái niệm này bao gồm các giai đoạn
phân tích không gian, thời gian và tích hợp nền tảng thông tin và quá trình hoạt động, được mô tả bằng
hình sau :

Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
5
Hình 1 : Kiến trúc mức khái niệm không gian và thời gian GIS
Mức đầu tiên của giai đoạn phát triển không gian và phân tích thời gian, chuẩn bị dữ liệu, tích hợp
ba loại phương pháp nghiên cứu cơ sở dữ liệu GIS, bao gồm cả việc lọc dữ liệu tiếng ồn, thu thập
thông tin ẩn, và xây dựng một định dạng dữ liệu chính thức. Mức kernelled thứ hai là khai thác dữ
liệu và khám phá tri thức, dựa trên công nghệ thông minh nhân tạo làm cho một mạng lưới tế bào thần
kinh kết nối hoặc quyết định mô hình kiến thức logic mờ với các thuật toán di truyền. Và, thứ ba
và mức cuối cùng là hệ thống mô phỏng và kiểm tra sử dụng ASIA, ArcView GIS mới mở rộng, áp
dụng mô hình kiến thức đã phát hiện cho phép các nhà địa lý làm chủ các vấn đề không gian và thời
gian phức tạp.
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
6
Có một số hệ thống thông tin độc lập nhưng đã được kết nối lẫn nhau trong một nền tảng thông tin
tích hợp. Hệ thống chuẩn bị dữ liệu tích hợp các khả năng GIS cơ bản cho việc hiển thị, chọn lọc, chiết
xuất, và chuyển đổi. Hệ thống dữ liệu mô tả không gian là một giao tiếp trích xuất thông tin giữa công
nghệ AI và dữ liệu GIS, có thể nhập mới một cách thích hợp các dữ liệu GIS chính thức vào mạng
nơron, logic mờ và các giải thuật di truyền, và xuất ra các tri thức liên quan đến môi trường.
Đối với hệ thống ASIA, GIS mở rộng của ArcView là một AI dựa trên phần gói khám phá tri thức
GIS, và có thể cho phép các nhà địa lý áp dụng kiến thức này một cách thực tế khi
phải đối mặt với nhiều vấn đề không gian và thời gian trong các nghiên cứu phân tích không gian. Các
bước nghiên cứu hoạt động là phần giai đoạn cuối cùng trong kiến trúc GIS phân tích khái niệm không
gian và thời gian. Nó có thể tái cấu trúc, điều chỉnh, hoặc cải thiện bản thân bằng một cách rất mềm
dẻo khi gặp phải các chủ đề nghiên cứu với nhiều đối tượng khác nhau.
3. Phân tích thông tin không gian và thời gian trí tuệ nhân tạo (ASIA)
ASIA là một phần mở rộng ArcView GIS, và một hệ thống hoạt động rất vững chắc, được sử dụng
trong kiến trúc GIS phân tích khái niệm không gian và thời gian trước đây. Người dùng tải bản
đồ GIS vào ASIA, và chọn các đặc tả không gian thích hợp để trích xuất các thông tin ẩn trong bản

đồ GIS. Điều này cho phép các thuật toán di truyền để lựa chọn các mô tả và biến đổi nó sang định
dạng dữ liệu mới GIS2. Cuối cùng, chọn các mô hình kết nối tri thức mạng Nơron để khai phá
những dữ liệu tri thức ma trận trọng số.
3.1. Dữ liệu trình diễn GIS và hệ thống mô tả không gian
Theo các nguồn dữ liệu GIS về không gian hoặc trình tự thời gian, ASIA có thể sử dụng các menu để
thực hiện chuẩn bị dữ liệu hệ thống, bao gồm cả tính năng khái quát hóa từ đa giác hoặc hình đa
cạnh, mô tả lưới, tạo lại mẫu lưới, cắt gọn lưới bằng việc sử dụng chủ đề đa giác, các dạng lưới, cấu
trúc lưới (chuyển đổi dạng lưới sang dạng lattice), tăng cường tương phản lưới tuyến tính, tính phương
sai lưới, và phân chia bảng ngẫu nhiên. Và hệ thống đặc tả không gian tạo ra các vector số liệu thống
kê đơn giản, tính năng chỉ mục quay vòng các bất biến địa lý, chỉ số xu hướng bề mặt Evans, và các
chỉ số biến đổi Furiê nhanh các tần số bề mặt. Xem hình 2.
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
7
Hình 2: hệ thống mô tả không gian và chuẩn bị dữ liệu ASIA
3.2. Chuẩn bị định dạng chuyển đổi GIS2
Các định dạng dữ liệu GIS2 là một cấu trúc dữ liệu cơ bản trong hệ thống ASIA và kết nối giữa các
mô hình AI phân tích không gian và thời gian. Nó bao gồm định dạng dữ liệu ASCII thuần tuý, như
là một định dạng tập tin trung chuyển, có thể dễ dàng giao tiếp với các phần mềm GIS dung lượng
lớn hơn. Tập tin dữ liệu đầu tiên là file ghi lại các thuộc tính mà trong dòng đầu tiên ghi các biến và
số thứ tự bản ghi của đối tượng; từ dòng thứ hai lần lượt ghi các giá trị của tất cả các ô GRID. Xem
bảng 1 dưới đây.
Bảng 1: Tệp lưu trữ thuộc tính GIS2.
19 1 739596
3313 54.6524 97.776 -0.219237 3.60014 -0.00351583 -0.0219008 … 0
3296 63.3855 65.9391 -0.534405 1.21776 -0.0102157 -0.00895094 … 0
…
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
8

Tệp thứ 2 là tệp lưu lại các chủ đề và toạ độ mà sau đó được ghi vào các bản ghi toạ độ hệ
thống, kích thước các ô lưới GRID, giá trị không có số liệu, và tất cả các biến hoặc các chủ đề tương
ứng với các đối tượng. Xem bảng số 2.
Bảng 2: Tệp ghi lại chủ đề và toạ độ GIS2
Number of columns or rows:
Số lượng cột hoặc hàng
Cols 862
Rows 848
Gốc của toạ độ
(Góc dưới bên trái)
Xllcorner 260440
Yllcorner 2.67E+06
Kích thước ô GRID: Cellsize 40
Giá trị khi không có dữ liệu: NODATA_value -9999
Số lượng biến: Input 19
Số lượng đối tượng: Output 1
Tương ứng với các biến trong file
chủ đề ghi lại các thuộc tính
Elevation
Slope
…
Observation
(Phần tiếng Anh bên phải của cột giữ nguyên vì là tên của các biến – bản gốc)
Tại ASIA, việc chuyển đổi khuôn dạng file GIS2 được thực hiện qua một hộp thoại bao gồm 3
bước: Bước 1, sử dụng chủ đề vector đa giác để xác định ranh giới của phép biến đổi. Bước 2, xác
định các nhân tố môi trường của nhóm chủ đề (từ các nguồn học được) và các đối tượng học được về
không gian và thời gian trí tuệ nhân tạo. Thứ 3, gán đường dẫn file chuyển đổi GIS2. Xem hình số 3.
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
9

Hình 3: 2 bước trong việc chuyển đổi khuôn dạng dữ liệu GIS2 tại ASIA

3.3. Mô hình phân tích không gian mạng Nơtron có giám sát và không giám sát.
Trong việc “Gọi lại từ bộ nhớ” – là thành phần của mô hình phân tích mạng nơron ASIA, người sử
dụng đầu tiên cần quyết định hoặc huấn luyện một phần tử mới hoặc nạp vào một ma trận trọng số
đã được huấn luyện. Nếu người dùng lựa chọn để huấn luyện một ma trận trọng số mới, thì cần
phải sau đó quyết định chu kỳ cần huấn luyện trong BPN (mạng lan truyền phía sau) hoặc phải
thêm việc ánh xạ đến các thông tin trong mô hình SOM (bản đồ tự tổ chức).
Trong việc ánh xạ thông tin trong mô hình SOM “3” có nghĩa là kiểu số 9 là 3*3. Sau khi lựa chọn
“mẫu huấn luyện đầu vào” từ file nguồn GIS2, ta có thể bấm “Train”, và bảng nghiên cứu kết quả
huấn luyện sẽ tương ứng với “các đường cong chỉ thị của các thông tin đã học”.
Trái ngược với việc đó, nếu người dùng chọn để nạp một ma trận trọng số, điều đó có nghĩa là hệ
thống đã được huấn luyện từ trước và có thể gọi lại bởi những file đã được xác định. Tên file mặc
định trong mạng lan truyền ngược (BPN) là “neurowgt.dat”, và trong bản đồ tự tổ chức (SOM) đó
là “somwgt.dat” và “sommap.dat”.
Thứ 3 là: người dùng nên xác định việc xác thực hoặc giả lập file GIS2 nhằm mục đích để đặt ma
trận trọng số của các kiến thức đã có về không gian và thời gian trong việc sử dụng trong đoạn “kết
quả học được”. Khi gặp phải khuôn dạng bảng thời gian, chuẩn ASIA có thể vẽ nên một đường đồ
thị thời gian đơn giản hoặc một bản đồ phân tán theo trục XY hoặc khi gặp với khuôn dạng chủ đề
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
10
lưới GRID về không gian, chuẩn ASIA có thể tạo ra kết quả một chủ đề mới dạng lưới GRID. Ta
xem hình 4.
Hình 4: Mô hình phân tích giám sát và không giám sát mạng thần kinh
3.4. Mô hình phân tích không gian tối ưu thuật toán di truyền
Các thuật toán di truyền có thể được phân biệt với mô tả thích hợp bởi tập phong phú dữ liệu số mà
biểu diễn dưới dạng chuỗi các bit 0,1. Giải thuật di truyền tối ưu ASIA tích hợp mô hình phân tích sự
hội tụ mạng nơ ron để đánh giá tính đúng đắn của mỗi thế hệ với những chức năng phát triển tối ưu.
Giải thuật ASIA này đưa ra các phương pháp đánh giá đúng đắn, đảm bảo hiệu suất và tính hợp lý của

việc lựu chọn các thế hệ trong mô hình tiên đoán mạng nơ ron. Sau khi quyết định các chu kỳ đào tạo
mạng nơ ron, các thế hệ tiến hóa, xác suất trao đổi và xác suất đột biến để tìm ra thế hệ tối
ưu. Sau khi tính toán và đánh giá kết quả các thuật toán di truyền, người sử dụng có thể quan sát biểu
đồ đánh giá sự hội tụ và đưa ra các tập tin mô tả sự lựa chọn tối ưu. Xem Hình 5.
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
11
Hình 5 : Mô hình phân tích tối ưu thuật toán di truyền
Tuy nhiên, bởi vì các biến của các thuật toán di truyền thế hệ đầu tiên được tạo ra ngẫu
nhiên, chúng dần dần điều chỉnh thông qua quá trình trao đổi và xác suất đột biến. Điều đó có nghĩa
thông qua nhiều thế hệ chúng ta sẽ thu được một giải pháp tối ưu nếu chúng ta đang phải đối mặt với
một số lượng lớn của các biến. Đồng thời, khi số lượng bản tin trở lên nhiều thì sẽ đòi hỏi một thời gian
tương đối dài để có được trạng thái hội tụ. Các biến có thể có giá trị tối thiểu cục bộ, nhưng không có
giá trị tối thiểu toàn cục bởi vì kỹ thuật được chọn không thể đảm bảo cùng một kết quả tối ưu trong tất
cả chu kỳ được chọn. Vì vậy, hệ thống ASIA trong các thuật toán di truyền cho phép điều chỉnh linh
hoạt sự phát triển trong phạm vi kiểm soát nhỏ với kiến thức lĩnh vực chuyên ngành của người dùng
để đảm bảo hiệu quả phù hợp với những giải pháp tối ưu.
4. Nghiên cứu ví dụ khai phá dữ liệu thời gian
Nghiên cứu này được đưa ra dựa trên tình hình ô nhiễm không khí hàng giờ ở thành phố Ban-
Chiao và sử dụng 1996 dữ liệu làm cơ sở khai phá dữ liệu mạng nơ ron ASIA để phát triển
mô hình dự báo nồng độ các chất ô nhiễm không khí
4.1. Nghiên cứu kiến trúc không gian và thời gian GIS mức khái niệm
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
12
Kiến trúc không gian và thời gian GIS mức khái niệm có thể xử lý các vấn đề địa lý phức tạp,
chủ yếu bao gồm sự phân tích giai đoạn phát triển không gian và thời gian, chuẩn bị dữ liệu của hệ
thống tích hợp, và các bước nghiên cứu quá trình hoạt động, có thể tùy biến linh hoạt trong các tình
huống và những hoàn cảnh khác nhau. Xem bảng 3.
Bảng 3: Mối quan hệ giữa các trường hợp nghiên cứu và kiến trúc phân tích không gian và thời

gian GIS mức khái niệm.
Bước phân tích
thời gian và không
gian
Nền tảng
thông tin
tích hợp
Bước nghiên cứu hệ thống
Chuẩn bị dữ liệu
(khai thác cơ sở dữ
liệu, thao tác, và
quản lý)
Chuẩn bị
dữ liệu
Bước 1: Tìm kiếm và thu thập dữ liệu về chất
gây ô nhiễm không khí.
Bước 2: Đưa ra dự báo các nhân tố chất gây ô
nhiễm không khí (SO2, CO, O3, PM10, NO2) và
thời gian (từ 1-3 giờ).
Hệ thống
mô tả dữ
liệu không
gian
Bước 3: lọc và xử lý nhiễu dữ liệu nếu cần thiết.
Khai thác dữ liệu
và khám phá tri
thức
Bước 4: chuyển đổi tất cả các biến, mục tiêu sang
định dạng tập tin GIS2 (thời điểm các chất gây ô
nhiễm được tổng kết trước 24 giờ, sự thay đổi về

thời gian dự báo, và tỷ lệ thay đổi).
Các thành
phần công
nghệ trí
thông minh
nhân tạo
Bước 5: Đưa ra mô hình dự báo ô nhiễm không
khí bằng việc sử dụng các thuật toán di truyền và
mạng nơ ron.
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
13
Phân tích
thông tin
không gian
và thời gian
trí tuê nhân
tạo (ASIA)
Bước 6: Điều chỉnh các thông số của các thuật
toán di truyền (đào tạo mạng nơ ron = 1400 chu
kỳ, phát triển = 140 thế hệ, khả năng trao đổi =
0,25, và xác suất đột biến = 0,04)
Bước 7: Đưa ra thế hệ tối ưu có định dạng tập tin
GIS2. Ví dụ: tương ứng với các biến số đầu vào
fso2: (1100011001000011010101111101001)
Hệ thống mô
phỏng và xác minh
Bước 8: Xây dựng mạng nơ ron (trước ngày 25
hàng tháng) và xác minh (sau ngày 26 hàng
tháng) tập hợp dữ liệu

Bước 9: Sử dụng phương sai để kiểm tra sự học
của mạng nơ ron và kiểm tra kết quả.
Cơ bản kiến
thức áp dụng
Bước 10: Sử dụng ma trận trọng lượng mạng nơ
ron để thiết lập mô hình dự báo chất gây ô nhiễm
không khí
4.2 Kết quả nghiên cứu
4.2.1 Lọc nhiễu dữ liệu và điều chỉnh dữ liệu trễ
Trong nghiên cứu khai thác dữ liệu và khám phá tri thức, chúng tôi luôn luôn phải đối mặt với
rất nhiều dữ liệu số ban đầu mà không có bất kỳ hiệu chuẩn hoặc kiểm tra.
Ví dụ, độ dày của các chất ô nhiễm không khí là quan trọng đối với các yếu tố vật lý trong chuyển động
của bầu khí quyển. Giả sử có một cơn bão hoặc một sự việc nào đó ảnh hưởng tới trạm, nó sẽ khiến
việc ghi âm rất thấp. Rõ ràng, việc loại bỏ các dữ liệu này quan trọng , nhưng có những hạn chế của
chính mô hình đó.
Trường hợp nghiên cứu các dữ liệu đột xuất sẽ đi lên hay đi xuống mạnh trong một số giai đoạn
đặc biệt vì sự bất ổn của công cụ tự động ghi âm. Ví dụ, dự báo SO2 kể từ ngày 3 / 31 và 7 / 27, các dữ
liệu quan sát được không ổn định ở giờ cao điểm vào cuối ngày. Và nghiêm trọng hơn sẽ ảnh hưởng
đến độ chính xác dự báo. Trong trường hợp này các hệ thống chuẩn bị dữ liệu tự động xóa bỏ các dữ
liệu không có giá trị và sử dụng các bản ghi liền kề, lọc dữ liệu sai. Xem Hình 6.
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
14
Hình 6: SO2 gây nhiễu dữ liệu
Bên cạnh nhiễu dữ liệu, nghiên cứu dự báo thời gian cũng có hiện tượng trễ thời gian. Điều này
là bởi vì các cơ sở dữ liệu không có dữ liệu liên quan trước khi các dữ liệu thời gian tiếp theo xuất hiện.
Hiện tượng thời gian trễ này có thể được cải thiện bằng cách tìm kiếm các chu kỳ thời gian trong cơ sở
dữ liệu. Trường hợp nghiên cứu này đã sử dụng sự tổng hợp từ 24 giờ trước đó như các biến đầu vào
của mạng nơ ron. Điều này rõ ràng làm giảm trễ dự báo từ 0,67 tới 0,88 (trong ví dụ của chất gây ô
nhiễm SO2). Xem Hình 7.

Hình 7: Quá trình cải thiện hiện tượng trễ thời gian
4.2.2 Quá trình tiến hóa các thuật toán di truyền
Trước khi đi sâu vào các thuật toán di truyền với 32 biến bao gồm các chất ít gây ô nhiễm và
tổng hợp các điều kiện thay đổi và tốc độ của sự thay đổi của bầu không khí. Xem bảng 4. Hình 8 là
một ví dụ của quá trình ước lượng mức độ hội tụ SO2.

Bảng 4: 32 thông số của các thuật toán di truyền
Thông số ID Nội dung thông số
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
15
1 Mục tiêu dự báo các chất ít gây ô nhiễm
2-16 (24 giờ tổng
hợp)
Sulfur dioxide, carbon monoxide, ozone, minute
particles, nitrogen oxide, nitrogen monoxide, nitrogen
dioxide, hydrocarbon, non-methane hydrocarbon, nhiệt
độ không khí, điểm sương, nhiệt độ bề mặt mặt đất, áp
suất khí quyển, tia cực tím xuyên tâm và mê-tan
17-31 (các biến thay
đổi số lượng trong
một khoảng thời gian
cụ thể)
32 Tốc độ thay đổi đối tượng gây ô nhiễm
Hình 8: Quá trình hội tụ hàm đánh giá SO2
Quá trình hội tụ hàm đánh giá có thể nhận giá trị tốt nhất và tìm ra sự kết hợp giữa các biến tốt
nhất. Trong các giải thuật di truyền “0” đồng nghĩa với việc không chọn và “1” đồng nghĩa với việc đó
là một trong các biến chọn tốt nhất. ASIA có thể trực tiếp chuyển các kết quả tối ưu sang thành một file
GIS2. Minh họa tại bảng 5.
Bảng 5: Sự chọn lựa các biến tối ưu trong giải thuật di truyền

Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
16
4.2.3. Kết quả dự báo mạng Nơron
4.2.3.1 Kết quả dự báo từ 1 đến 3 giờ
Nghiên cứu này sử dụng các chỉ số tương quan để kiểm tra các kết quả dự báo từ các mạnh
Nơron. Hai nhóm dữ liệu được quan sát và xác minh. Chúng tôi sử dụng dữ liệu quan sát để đưa vào
mạng Nơron và thu được một ma trận trọng số. Và chúng tôi sử dụng ma trận trọng số này trong việc
xác minh dữ liệu để so sánh giữa các giá trị ước lượng và giá trị thực.
Bảng 6 mô tả giá trị ước lượng dự báo trong khoảng từ 1 đến 3 giờ. Đối với các chất ô nhiễm thì
chỉ số tương quan dự báo trung bình giai đoạn 1-giờ là 0.94; 2-giờ là 0.77 và 3-giờ là 0.67. Trong một
giờ dự báo O3 mặc dù là thấp nhất cũng gần 0.9, PM10 là cao nhất với gần 0.97. Mô hình phi tuyến
tính có thể phải đối mặt với một sự đảo ngược, sự xoáy hay sự trùng lắp thời gian và nó sẽ làm thay đổi
các đường cong của mình. Tuy nhiên, nó chỉ thích hợp để phân tích và dự báo trong thời gian ngắn bởi
một đặc tính khó kiểm soát là phản hồi hành động lâu dài. Bởi vì chất lượng giống nhau của các dự báo
chắc chắn là được thực hiện trong khoảng thời gian ngắn và không được đảm bảo trong khoảng thời
gian dài. Mặc dù các trường hợp dự báo nghiên cứu đã có một độ chính xác cao trong dự báo ô nhiễm
không khí trong 1-giờ nhưng lại không thể dự báo cùng một độ chính xác trong khoảng thời gian dài
hơn. Rõ ràng, mô hình phi tuyến là phù hợp hơn cho các dự báo thời gian ngắn và khi thời gian càng
tăng thì độ chính xác càng giảm đi.
Bảng 6: Kết quả dự báo nhờ mạng Nơron thời gian từ 1 đến 3 giờ.
4.2.3.2. Kết quả dự báo 1-giờ hàng ngày
Đối với dự báo 1-giờ hàng ngày, mạng Nơron dự báo chỉ số tương quan, hầu hết tất cả các chất
ô nhiễm trong tất cả các ngày đều trên 0.9. Mỗi tháng, sau ngày thứ 26, dữ liệu được xác minh và do đó
có tổng cộng là 63 ngày. Đối với SO2, 50.8% của những ngày đã được trên 0.9 và 88.9% là trên 0.8.
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
17
Đối với CO thì 68.3% ngày đã được trên 0.9 và những ngày khác thì trên 0.8. Với O3, 47.6% của ngày
đã được trên 0.9 và 90.5% đã được trên 0.8. Đối với PM10, 60.3% của ngày đã được trên 0.9 và 92.1%

đã được trên 0.8. Đối với NO2, 65.1% của ngày đã được trên 0.9 và 96.8% đã được trên 0.8.
Xem bảng 7.
Bảng 7: Kết quả sự báo ô nhiễm không khí hàng ngày
5. KẾT LUẬN
Trong phân tích đa biến của thống kê học, không dễ dàng để tìm các biến đáng chú ý trong các
vấn đề địa lý phức tạp. Nghiên cứu này sử dụng thuật toán di truyền để đi trước tiến trình chọn các biến
một cách tự nhiên. Điều này là rất thuận tiện bởi vì sau đó tất cả các biến có khả năng có thể được sử
dụng và do đó không cần quan tâm đến các vấn đề nhân bản, biểu diễn hay phụ thuộc lẫn nhau. Trong
nghiên cứu này chúng tôi liệt kê tất các các biến được ghi nhận bởi trạm ô nhiễm không khí và vì vậy
các giải thuật di truyền có chọn các biến một cách hợp lý thông qua chọn lọc tự nhiên. Nếu cần thiết,
người sử dụng cũng có thể kết nối hoặc xóa các biến tùy thuộc vào từng lĩnh vực chuyên ngành.
Nghiên cứu này dự báo tình trạng ô nhiễm không khí cho khoảng thời gian tiếp theo. Tương ứng
với các nhu cầu của nhà nghiên cứu, nghiên cứu cũng có thể mở tộng để dự báo tỷ lệ thay đổi, mô hình
thay đổi… So với các công cụ phân tích không gian thì các công cụ phân tích xu hướng thời gian là
không đủ trong GIS. Nghiên cứu đã đưa vào các công cụ phân tích trí tuệ nhân tạo trong khai phá dữ
liệu và tri thức. Chúng không chỉ áp dụng trong các vấn đề phân tích không gian mà còn thích hợp tăng
cường cho những thiếu sót của GIS trong khả năng phân tích xu hướng thời gian.
Nghiên cứu không bắt đầu từ những cái nhìn truyền thống mà từ những nghiên cứu trong khai
phá dữ liệu và tri thức, vì vậy mục đích là để phân tích một số lượng lớn các dữ liệu số ngay lập tức
trong dự báo. Chắc chắn rằng, phương pháp nghiên cứu khai phá dữ liệu bị hạn chế bởi chất lượng dữ
liệu của chính nó. Do đó có thể không mở rộng đáng kể xung quang vùng đo lường ô nhiễm, bởi vì các
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
18
biến không gian. Nhìn chung, không có động cơ khí hóa lỏng, nó rẻ hơn nhiều để thu thập dữ liệu,
nhanh hơn trong quá trình tính toán và dễ dàng để nhận được tình trạng ô nhiễm trong khoảng thời gian
tiếp theo.
Tài liệu tham khảo
Anselin, L. (2000) “Computing Environments for Spatial Data Analysis”, Journal of
Geographical Systems, 2:201-220

Boots, B. (2000) “Using GIS to Promote Spatial Analysis”, Journal of Geographical
Systems, 2:17-21
Fischer, M. M. (1997) “Computational Neural Networks: A New Paradigm for Spatial
Analysis”, Environment and Planning A, 29:1873-1891
Frank, A. U. (2000) “Geographic Information Science: New methods and technology”,
Journal of Geographical Systems, 2:99-105
Gahegan, M. (2000) “On the Application of Inductive Machine Learning Tools to
Geographical Analysis”, Geographical Analysis, 32(1): 113-139
Leung, Y., Leung, K.S. (1993) “An Intelligent Expert System Shell for Knowledge-based
GIS: 1. The Tools”, International Journal of Geographical Information Systems, 7(3):
189-199
Marble, D. F. (2000) “Some thoughts on the integration of spatial analysis and geographic
Information Systems”, Journal of Geographical Systems, 2:31-35
Muller, B., Reinhardt, J. and Strickland, M. T. (1995) Neural Networks: An Introduction
Physics of Neural Networks Series, Berlin: Spring
Openshaw, S., Openshaw, C. (1997) Artificial intelligence in Geography, John Wiley and
Sons LTD
Scott, A. (1990) “An Introduction to Genetic Algorithms”, AI Expert, 4(3): 49-53
PHẦN 2: PHÂN TÍCH ĐÁNH GIÁ
1. Phân tích bài toán
Trong bài viết trên tác giả đã giới thiệu sự kết hợp giữa giải thuật di truyền và mạng nơron để
xây dựng công cụ đoán thời gian mới cho “hệ thống thông tin địa lý” (GIS – Geographic Information
System). Do đó mục đích là hoàn thiện những lỗ hổng của chức năng khai phá dữ liệu.
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
19
Mục tiêu đầu tiên của nghiên cứu này là chuẩn hóa sự tương tác giữa con người và môi trường
của họ, đồng thời để xây dựng tích hợp framework phân tích không gian và thời gian, làm lên sức
mạnh của GIS và khoa học thông tin.
Mục tiêu thứ hai trong nghiên cứu phát triển “gói phân tích thông tin không gian và thời gian

thông minh nhân tạo” – ASIA (Artificial intelligent Spatial and temporal Information Analyst).
2. Khái niệm thuật toán di truyền
Thuật giải di truyền (Genetic Algorithm_GA) là kỹ thuật chung giúp giải quyết vấn đề-bài toán
bằng cách mô phỏng sự tiến hóa của con người hay của sinh vật nói chung trong điều kiện qui định sẵn
của môi trường. GA là một thuật giải và mục tiêu của GA không nhằm đưa ra lời giải chính xác tối ưu
mà là đưa ra lời giải tương đối tối ưu.Trong bài báo này, việc tối ưu được áp dụng cho vấn đề thời gian
và không gian để tạo nên cấu trúc GIS.
3. Cơ sở lý thuyết của thuật toán di truyển
Thuật toán di truyền gồm có bốn quy luật cơ bản là lai ghép, đột biến, sinh sản và chọn lọc tự nhiên
như sau:
Quá trình lai ghép (phép lai)
- Quá trình này diễn ra bằng cách ghép một hay nhiều đoạn gen từ hai nhiễm sắc thể cha-mẹ để
hình thành nhiễm sắc thể mới mang đặc tính của cả cha lẫn mẹ. Phép lai này có thể mô tả như
sau:
- Chọn ngẫu nhiên hai hay nhiều cá thể trong quần thể. Giả sử chuỗi nhiễm sắc thể của cha và mẹ
đều có chiều dài là m.
- Tìm điểm lai bằng cách tạo ngẫu nhiên một con số từ 1 đến m-1. Như vậy, điểm lai này sẽ chia
hai chuỗi nhiễm sắc thể cha-mẹ thành hai nhóm nhiễm sắc thể con là m1 và m2. Hai chuỗi
nhiễm sắc thể con lúc này sẽ là m11+m22 và m21+m12.
- Đưa hai chuỗi nhiễm sắc thể con vào quần thể để tiếp tục tham gia quá trình tiến hóa
Quá trình đột biến (phép đột biến)
Quá trình tiến hóa được gọi là quá trình đột biến khi một hoặc một số tính trạng của con không được
thừa hưởng từ hai chuỗi nhiễm sắc thể cha-mẹ. Phép đột biến xảy ra với xác suất thấp hơn rất nhiều lần
so với xác suất xảy ra phép lai. Phép đột biến có thể mô tả như sau:
- Chọn ngẫu nhiên một số k từ khoảng 1 ≥ k ≥ m
- Thay đổi giá trị của gen thứ k.
- Đưa nhiễm sắc thể con vào quần thể để tham gia quá trình tiến hóa tiếp theo
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
20

Quá trình sinh sản và chọn lọc (phép tái sinh và phép chọn)
Phép tái sinh: là quá trình các cá thể được sao chép dựa trên độ thích nghi của nó. Độ thích nghi là một
hàm được gán các giá trị thực cho các cá thể trong quần thể của nó. Phép tái sinh có thể mô phỏng như
sau: Tính độ thích nghi của từng cá thể trong quần thể, lập bảng cộng dồn các giá trị thích nghi đó (theo
thứ tự gán cho từng cá thể) ta được tổng độ thích nghi. Giả sử quần thể có n cá thể. Gọi độ thích nghi
của cá thể thứ i là Fi, tổng dồn thứ i là Ft.Tổng độ thích nghi là Fm
- Tạo số ngẫu nhiên F có giá trị trong đoạn từ 0 đến Fm
- Chọn cá thể k đầu tiên thỏa mãn F ≥ Ft đưa vào quần thể của thế hệ mới.
Phép chọn: là quá trình loại bỏ các cá thể xấu và để lại những cá thể tốt. Phép chọn được mô tả như
sau: Sắp xếp quần thể theo thứ tự độ thích nghi giảm dần, loại bỏ các cá thể cuối dãy, chỉ để lại n cá thể
tốt nhất.
4. Ví dụ xây dựng cấu trúc dữ liệu thích hợp cho input và output của bài toán
Input: các biến môi trường tự nhiên, các thông số về không khí ( bầu khí quyển , độ dày không khí),
môi trường, các chất tự nhiên có trong nước, đất, không khí như: Sulfur dioxide, carbon monoxide,
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
21
ozone, nitrogen dioxide, hydrocarbon, non-methane hydrocarbon, nhiệt độ không khí, điểm sương,
nhiệt độ bề mặt mặt đất, áp suất khí quyển, tia cực tím xuyên tâm và mê-tan.
Output: dự đoán được chỉ số gây ô nhiễm, tỉ lệ tiếng ồn.
Quá trình thực hiện:
- Khởi tạo: thu thập dữ liệu môi trường
- Mã hóa các biến: Quyết định mục tiêu dự báo chất gây ô nhiễm không khí
- Chọn lọc: Để lọc tiếng ồn và xử lý dữ liệu với các dữ liệu nâng cao nếu cần thiết.
- Lai tạo: Để chuyển đổi tất cả các biến và các mục tiêu để GIS2 định dạng tập tin (các
chất ô nhiễm vào thời điểm thích hợp, tích lũy trước 24 giờ, sự thay đổi về thời gian dự
báo, và tỷ lệ thay đổi).
- Đột biến: Điều chỉnh các thông số của các thuật toán di truyền (đào tạo mạng lưới thần
kinh = 1400 chu kỳ, phát triển = 140 thế hệ, khả năng trao đổi = 0,25, và xác suất đột
biến = 0,04)

- Kiểm tra điều kiện: Đầu ra thế hệ tối ưu và đầu ra cho định dạng tập tin GIS2 .
- Xác mịnh lại: Sử dụng phương sai để kiểm tra mạng lưới thần kinh học tập và thẩm tra
kết quả. Sử dụng ma trận mạng lưới thần kinh để thiết lập mô hình dự báo chất gây ô
nhiễm không khí .
- Kết luận: Đưa ra kết quả chính xác
5. Ưu điểm:Thuật toán di truyền dưa trên quá trình chọn lọc tự nhiên, có tính thực tiễn cao.
6. Nhược điểm:Cần có các công cụ để xây dựng cấu trúc và thời gian dài để theo dõi quá trình chọn lọc,
đưa ra kết luận chính xác.
Tiểu Luận: Công Cụ Toán Học Nâng Cao
CN2011_TDLMMT_NHOM3
22

Khai phá dữ liệu thời gian sử dụng thuật toán di truyền và mạng nơron – nghiên cứu dựa trên các dự báo tình hình ô nhiễm không khí

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về