Tải bản đầy đủ (.docx) (22 trang)

Tiểu luận Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (906.67 KB, 22 trang )

Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
1. GIỚI THIỆU.
Vấn đề quản lý tài nguyên nước tại các nước phát triển luôn được quan tâm, vì
vậy việc phân tích, tổng hợp các dữ liệu thủy văn để đưa ra các mô hình dự báo cho
phép dự báo chính xác tình hình khí tượng thủy văn trên từng con sông theo mùa, đặc
biệt là cho phép dự báo và đánh giá tình hình lũ lụt và hạn hán tại các con sông để kịp
thời có những chính sách thích hợp để hạn chế thấp thất mức thiệt hại có thể.
Ngoài các phương pháp phân tích tổng hợp dựa rên phương pháp thống kê
truyền thống, T. Kojiri và các cộng sự đã đề xuất phương pháp phân tích, tổng hợp
dòng chảy dựa trên kỹ thuật gom cụm, cụ thể là dựa trên thuật toán gom cụm Kmeans. Do kỹ thuật gom cụm K-means sử dụng một hàm đánh giá để “hướng dẫn”
gom cụm. Hiệu quả của thuật toán này cũng bị ảnh hưởng bởi hàm đánh giá được
chọn. Vì vậy, T. Kojiri cùng các cộng sự đã đề xuất các hàm mục tiêu dùng để đo
khoảng cách giữa các vector mẫu dữ liệu thủy văn, mỗi một hàm mục tiêu tương ứng
với một đặc trưng quan trắc được, ngoài ra, các tác giả cũng đề xuất phương pháp xây
dựng các hàm mục tiêu tương tự để đánh giá các đặc trưng dữ liệu thủy văn một cách
thích hợp nhất. Trên cơ sở đề xuất các hàm mục tiêu, các tác giả đã đi sâu nghiên cứu,
thử nghiệm với dữ liệu thủy văn quan trắc được tại lưu vực sông Themes ở
Themesville, đồng thời, đã tập trung phân tích, so sánh phương pháp phân cụm dữ liệu
dựa trên kỹ thuật gom cụm K-means với các phương pháp phân tích thống kê truyền
thống.
Bài báo này được đăng trên tạp chí “Stochastic and Statistical Methods in
Hydrology and Environmental Engineering: Time Series Analysis in Hydrology and
Environmental Engineering. Vol 10/3, 1994”. Tức là cũng đã khá lâu. Ngoài ra, lĩnh
vực nghiên cứu của bài báo là kỹ thuật môi trường, vì vậy, trong khuôn khổ thời gian
có hạn, nhóm chỉ nghiên cứu, làm rõ ý tưởng giải pháp đề xuất của các tác giả, đặc biệt
là kỹ thuật gom gụm K-means – một nội dung quan trọng trong môn học Data mining
thuộc chuyên ngành Khoa học máy tính mà không đi sâu làm rõ các phương pháp
phân tích thống kê. Do bài báo đã được đăng khá lâu, nên về bố cục của bài báo có hơi
khác so với các bài báo khoa học được đăng trên các tạp chí hiện nay, các mục, phần
trình bày không được sáng sủa, rõ ràng, không có phần kiến thức nền, phần giải pháp
đề xuất không được trình bày trong 1 phần riêng mà trình bày dàn trải, phần kết quả


thử nghiệm và đánh giá cũng được trình bày dàn trải. Hơn nữa, bài báo ra đời khi sự
phát triển của ngành khoa học máy tính còn hạn chế, tốc độ xử lý cũng như khả năng
lưu trữ còn thấp nên số vector trong tập vector mẫu cần gom cụm nhỏ (15 mẫu), trong
khi hiện nay, giải thuật K-means làm việc trên tập mẫu có lực lượng rất lớn.
Để hiểu rõ về nội dung của bài báo, ngoài kiến thức được học về kỹ thuật gom
cụm trong lĩnh vực khoa học máy tính, đòi hỏi người đọc phải có kiến thức chuyên sâu
về các phương pháp phân tích thống kê. Việc nghiên cứu sâu về các phương pháp phân
tích thống kê đòi hỏi phải có thời gian. Trong khuôn khổ nội dung của môn học, do
thời lượng có hạn, nên nhóm đã không đi tìm hiểu về các phương pháp phân tích thống
kê, mà chỉ tập trung làm rõ nội dung của giải pháp mà các tác giả của bài báo đề xuất.
Vì vậy trong phần còn lại, nhóm sẽ đi sâu làm rõ các nội dung sau:
-

Kiến thức cơ bản về dữ liệu thủy văn, các phương pháp quan trắc, … phần
này do Trần Văn Triết đảm nhiệm.

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

1


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
-

-

Phần thứ 2 là phần giải pháp đề xuất, phần này sẽ tập trung trình bày các
hàm mục tiêu do các tác giả bài báo đề xuất, thủ tục gom cụm; mối quan hệ
về cấu trúc của dữ liệu đa biến; phát triển và mô phỏng các thuật toán dự
báo. Phần này do Cù Huy Hoàng Long đảm nhiệm.

Phần kết quả thử nghiệm và đánh giá giải pháp đề xuất cho dữ liệu thủy văn
cụ thể, phân tích, đánh giá giải pháp đề xuất so với các phương pháp phân
tích tổng hợp dữ liệu thủy văn theo phương pháp phân tích thống kê truyền
thống do Đặng Quốc Huỳnh đảm nhiệm.

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

2


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
2. KHÁI QUÁT CHUNG VỀ DỮ LIỆU THỦY VĂN.
2.1 Thủy văn (Hydrologic)
Là khoa học về đất, nước và giải quyết các vấn đề liên quan, để đáp ứng nhu
cầu tìm hiểu các hệ thống phức tạp của đất, nước và giúp giải quyết các vấn đề liên
quan. Cung cấp cho chúng ta thông tin về sự tham gia các và sử dụng nguồn nước trên
trái đất.
Nhiều loại dữ liệu khác nhau liên quan đến thủy văn như: sự kết tủa, tuyết rơi
và những dòng chảy được đo lường tại một số trạm dùng những thiết bị khác nhau với
việc theo dõi truy xuất và điều khiển hệ thống nguồn nước. Một số kỹ thuật tồn tại cho
việc phân ra để xử lý dữ liệu chuỗi thời gian và nhiều điểm. Tuy nhiên một cái có thể
mở rộng chẳng hạn như kỹ thuật dữ liệu chuỗi thời gian và đa điểm bằng cách xem xét
tất cả loại dữ liệu tại thời điểm đo để định hình vector dữ liệu chuỗi thời gian. Chẳng
hạn những vetor có thể sau đó dễ dàng hàng xử và phân tích như vector mẫu.
Dựa trên sự xem xét sự tương quan không gian và thời gian, người ta có thể
phân loại những vector mẫu không gian chuỗi thời gian tương ứng với kết tủa hay
dòng chảy cho trích xuất của những vector tham chiếu đại diện. Tương tự, sự khác
nhau giữa vector mẫu có thể được sử dụng để phân loại chúng bằng cách kết hợp các
thông tin liên quan đến kết tủa, khí tượng học, địa chất học, sinh học…
Sự xem xét nhóm dữ liệu làm cho quá trình ước lượng và dự báo dễ dàng hơn.

Phần chính này là: khả năng kỹ thuật nhận dạng mẫu trong xử lý dữ liệu đa điểm chuỗi
thời gian trở nên hữu dụng.
Hệ thống nhận dạng mẫu được sử dụng bởi Panu và cộng sự (1978), Unny và
cộng sự (1981) cho tổng hợp và phân tích dòng chảy dựa trên khái niệm tối thiều
khoản cách Euclidean.
Dữ liệu cho bài báo này được lấy từ các trạm quan trắc trên sông Thames tại
Thamesville, Toronto, Canada. Do bài báo này thực hiện năm 1994, nên có những cái
chỉ phù hợp và kỹ thuật là tốt cho thời điểm đó.
2.2 Phân bố lượng nước trên trái đất
Phần lớn diện tích trên trái đất là đại dương, chiếm đến ¾ diện tích trái đất. Do
đó nguồn nước chiếm nhiều nhất là nước biển (nước mặn) 96.5%, phần nước ngọt
dùng cho sinh hoạt của con người và thực vật chỉ chiếm tỷ lệ rất nhỏ 2.5%, trong số đó
có những nguồn không thể sử dụng như: băng, nguồn nước ô nhiễm... Do đó vấn đề
nguồn nước là mối quan tâm hàng đầu của các nước trên thế giới hiện nay, để đảm bảo
đủ để cung cấp sự sống trên trái đất.

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

3


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy

Hình 1:Phân bố lượng nước trên trái đất (nguồn: />2.3 Vòng đời của nguồn nước

Hình 2: Chu kỳ của nguồn nước (nguồn: />
Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

4



Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
2.4 Các thống kê dòng chảy trước đây
Phương pháp phân tích dòng chảy dựa vào các thông tin riêng lẻ mà bỏ qua các
thông tin trong và giữa các nhóm dữ liệu có liên quan với nhau.
2.5 Các khái niệm liên quan
2.5.1 Phân cụm (Clustering)
Là công việc nhóm tập các đối tượng sao cho các đối tượng trong cùng nhóm
thì có các thuộc tính giống nhau so với các đối tượng của nhóm khác.
 Khoảng cách nội cụm (intra-cluster distance)
Là khoảng cách xa nhất của hai đối tượng thuộc cùng một cụm.
 Khoảng cách liên cụm (inter-cluster distance)
Là khoảng cách gần nhất giữa hai đối tượng thuộc về hai cụm khác nhau.
2.5.2 Dòng chảy (Stremflows)
Là khối lượng nước chảy qua một điểm xác định trong một khoảng thời gian
xác định, thường tính bằng m3/s. Dòng chảy liên quan trực tiếp với lượng nước di
chuyển ra khỏi đầu nguồn vào kênh, suối. Nó ảnh hưởng bởi thời tiết, tăng mạnh vào
mùa mưa và giảm vào mùa khô. Dòng chảy là thành phần quan trọng trong chu kỳ của
nước được chỉ ở hình 2.

2.5.3 Nhận dạng mẫu (Pattern recognition)
Là ngành thuộc lĩnh vực máy học, là việc thực hiện tác động vào dữ liệu thô (dữ
liệu thu thập chưa qua xử lý), cụ thể tác động như thế nào tùy thuộc vào từng loại dữ
liệu. Nó là tập hợp phương pháp học có giám sát (supervised learning). Nhận dạng
mẫu nhẳm mục đích phân loại dữ liệu dựa trên: kiến thức tiên nghiệm (a priori) hoặc
dựa vào thông tin thống kê được rút trích từ mẫu có sẵn. Các mẫu cần phân loại
thường được biểu diễn thành các nhóm của các dữ liệu quan trắc được, mỗi nhóm là
một điểm trong không gian đa chiều phù hợp. Đó là không gian các đặc tính của đối
tượng để dựa vào đó ta có thể phân loại.
Một hệ thống nhận dạng mẫu gồm có:

- Các thiết bị cảm nhận (sensor): để thu thập dữ liệu cho phân loại.
- Cơ chế rút trích đặc trưng (feature extraction): tính toán các thông tin dưới
dạng số hay dạng đặc trưng (sysbolic) từ các dữ liệu quan trắc được.
- Bộ phân loại: thực hiện công việc phân loại dựa vào các đặc trưng đã rút trích
từ dữ liệu quan trắc được.
Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

5


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
 Vector mẫu (pattern vector):
Mẫu dữ liệu dùng để gom cụm, là vector chứa d phép đo: X=(x 1,x2,…,xd), ta có
vector mẫu thứ i: xi = (xi,1;xi,2;…xi,d)
 Vector tham chiếu (reference vector):
Mẫu dữ liệu của tâm cụm.
2.6 Thu thập dữ liệu
Để thu thập dữ liệu, phân tích và đưa ra các mô hình dự báo, người ta đặt các
trạm quan trắc trên các sông, một sông có thể có nhiều trạm quan trắc tùy thuộc vào vị
trí, địa hình thời tiết.. có khác nhau không. Tại mỗi trạm quan trắc, người ta đặt nhiều
thiết bị đo khác nhau cho nhiều thông số khác nhau, mỗi thông số quan trắc ứng với 1
đặc trưng của dữ liệu thủy văn, ví dụ như: dòng chảy, lượng mưa, độ ẩm, nồng độ PH,
sức gió…Các dữ liệu này thu thập theo thời gian: giờ, ngày, tháng, năm và truyền trực
tiếp về trung tâm xử lý số liệu thủy văn.
2.7 Giải thuật K-Means
 Các phương pháp gom cụm hiện có:

Hình 3: Các phương pháp gom cụm
 Thuật toán K-Means [2], [3], [4], [5]
Thuật toán K-Means dùng để phân hoạch 1 tập mẫu thành các cụm, trong đó

mỗi cụm có tâm cụm là giá trị trung bình của các đối tượng trong cụm đó.
Input:




K: số cụm.
X: Tập dữ liệu chứa n đối tượng
Output: 1 tập gồm k cụm.

Phương pháp:




Bước 1: Chọn tùy ý k đối tượng từ tập X làm các tâm cụm ban đầu;
Bước 2: Gán mỗi vector mẫu cho cụm mà vector đó và tâm của cụm tương
ứng có độ tương tự nhất. (“gần nhau nhất”).
Bước 3: Cập nhật lại tâm cụm (từ các đối tượng mới được gán cho cụm)

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

6


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy


Bước 4: Nếu tâm cụm không thay đổi thì xuất ra kết quả. Ngược lại, quay
lại bước 2.


Đặc điểm của thuật toán K-Means [5]
− Phương pháp K-Means không đảm bảo hội tụ về tối ưu toàn cục mà thường
chỉ đạt tới 1 tối ưu cục bộ.
− Kết quả phụ thuộc vào việc chọn k tâm cụm ban đầu.
− Để thu được các kết quả tốt thường phải chạy K-Means nhiều lần, mỗi lần
với k tâm cụm ban đầu khác nhau.
− Độ phức tạp thời gian của thuật toán K-Means là O(nkt). Trong đó:
o n: kích thước không gian mẫu
o k: số cụm.
o t: số lần lặp
Đây là giải thuật dùng trong bài báo này, giải thuật được MacQueen giới thiệu
trong tài liệu “J. Some Methods for Classification and Analysis of Multivariate
Observations” (1967.
Thuật toán K-mean để phân cụm dữ liệu được thực hiện dựa trên một hàm độ
đo để đánh giá khoảng cách (hay đánh giá độ tương tự) của các phần tử, các hàm độ đo
này thường là hàm khoảng cách Manhatan hay hàm khoảng cách Euclidean nhỏ nhất
giữa đối tượng đến phần tử tâm cụm.
 Khoảng cách Euclidean:
ai = (xí1,xi2,..xim): đối tượng thứ i cần phân loại.
cj=(xj1, xj2,...xjm) j=1..k: phần tử trung tâm của cụm j
Khoảng cách Euclidean từ đối tượng a i đến phần tử trung tâm cụm thứ j: cj
được xác định theo công thức:
Dji= (2)
Trong đó:
Dji: Khoảng cách Euclidean từ ai đến cj
xis: thuộc tính thứ s của đối tượng ai
xjs: thuộc tính thứ s của tâm cụm thứ j, cj
 Phần tử tâm cụm:
k phần tử trung tâm (k tâm cụm) ban đầu được chọn ngẫu nhiên, hoặc theo 1

tiêu chuẩn nào đó, sau mỗi lần phân hoạch các đối tượng vào các cụm, các phần tử tâm
cụm sẽ được cập nhật lại dựa trên các phần tử thuộc cụm tương ứng.
Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

7


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
Clusteri = (a1,a2,…at): nhóm thứ i
i=1…k: k số cụm
j=1…m: m số thuộc tính
t: số phần tử hiện có của cụm thứ i
xsj: thuộc tính thứ j của phần tử s: s=1…t
cij: tọa độ thứ j của phần tử trung tâm cụm i
(3)
 Mô hình tổng quát hàm mục tiêu giải thuật K-means dùng trong bài báo này (khoảng
cách Euclidean):

Hình 4: Khoảng cách Euclidean
 Mục tiêu của bài báo này là tìm hàm mục tiêu để tối ưu hóa việc chọn tâm cụm c j sao
cho tối ưu nhất.
3. GIẢI PHÁP ĐỀ XUẤT CHO BÀI TOÁN PHÂN CỤM DỮ LỆU DÒNG
CHẢY
3.1. Các hàm mục tiêu dùng cho bài toán gom cụm.
Các vector mẫu dòng chảy có một số đặc điểm cố hữu. Trong số đó, rõ ràng
nhất là lưu lượng đỉnh. Những đặc tính khác có thể là các khoảng thời gian dài của các
dòng thấp. Các hàm mục tiêu dưới đây được xây dựng dựa trên các đặc điểm này. Mỗi
một hàm xem xét một đặc điểm cụ thể của mô hình dòng chảy. Các hàm này về sau đã
cho thấy tính hiệu quả trong việc đối phó với các vấn đề cụ thể của bài toán phân tích
và tổng hợp dòng chảy ví dụ như trong các điều kiện lũ lụt và hạn hán.

a. Hàm mục tiêu thứ nhất - [OFl]
Hàm này sẽ kiểm tra các khía cạnh hình dạng của mô hình dòng chảy dưới dạng
các khoảng cách riêng lẻ như sau.
(1)
Trong đó, xi(t) giá trị dữ liệu thu được hoặc dữ liệu được biến đổi tại thời điểm t
của các vector mẫu thứ i; zj(t) là giá trị của các vector tham chiếu thứ j (hoặc tâm cụm
Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

8


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
thứ j) tại thời điểm t. Sai số tuyệt đối ở mỗi phần tử được chuẩn hóa. Mức độ tương tự
giữa hai vector mẫu quan trắc được và vector tham chiếu được đánh giá thông qua độ
lớn của hàm OF1, giá trị của OF1 càng nhỏ thì mức độ tương tự lớn giữa 2 vector này
càng lớn. Lưu ý rằng OF1 xác định mức độ tương tự dựa trên những thay đổi trong mỗi
phần tử hơn là toàn bộ hình dạng của vector mẫu.
b. Hàm mục tiêu thứ 2 - [OF2]
Lưu lượng đỉnh là đặc tính quan trọng nhất ảnh hưởng đến bất kỳ phân tích
dòng chảy lũ và bất kỳ việc kế hoạch của các công trình kiểm soát lũ. Hàm mục tiêu
này được định nghĩa dưới đây xem xét thành phần lưu lượng đỉnh của một vector mẫu
và do đó làm thuận tiện cho việc phân loại của tất cả các mô hình liên quan đến dòng
chảy lũ.
(2)
Chỉ số dưới p biểu thị vị trí của đỉnh.
c. Hàm mục tiêu thứ 3 - [OF3]
Các dòng chảy có xu hướng tăng mạnh và giảm mạnh (ví dụ, độ dốc quá cao)
để đáp ứng với điều kiện mưa hoặc tuyết tan. Sự tăng giảm như vậy trong ngày rõ nét
hơn là theo dòng chảy hàng tháng. Hơn nữa, sự tăng và giảm nhẹ hơn (tức là, độ dốc
nhẹ) trong suốt thời gian dòng chảy thấp. Độ dốc do đó có thể phân biệt được các

vector mẫu có những biến động mạnh so với các mẫu dòng chảy có biến động thấp,
trong khi các vector mẫu dòng chảy như vậy có thể có cùng giá trị của hàm OFl. Hàm
mục tiêu OF3 dựa trên độ dốc đã được chuẩn hóa được đưa ra dưới đây.
(3)
Trong đó, β biểu diễn cho thừa số chuẩn hóa để so sánh ba hàm trên (OFl, OF2
và OF3) theo cùng thứ tự về độ lớn.
Trong một số tình huống, người ta có thể cần tất cả các hàm mục tiêu trên để cải
tiến quá trình phân loại. Trong các trường hợp như vậy, người ta có thể xây dựng một
hàm mục tiêu tổng hợp (OFa) như sau.
OFa[Xi, Zj] = max[OF1(Xi, Zj), OF2(Xi, Zj), OF3(Xi, Zj)]
(4)
Hàm mục tiêu tổng hợp bao gồm chung cả ba hàm mục tiêu trên. Vì vậy, hàm
này có thể được sử dụng để đồng thời phân loại mẫu dòng chảy tương ứng với các sự
kiện khác nhau, các điểm quan trắc khác nhau và thay đổi theo mùa.
3.2. Thủ tục gom cụm mẫu dòng chảy
Các hàm mục tiêu OFl, OF2, OF3, và OFA được sử dụng trong thuật toán Kmean để phân loại các vector mẫu dòng chảy. Cách thức mà các thuật toán K-mean
được áp dụng cho việc phân loại được mô tả trong phần kết quả thử nghiệm và đánh
giá. Hơn nữa, xu hướng trong việc lựa chọn các tâm cụm ban đầu được tránh bằng
cách sử dụng phương pháp khởi tạo ngẫu nhiên của thuật toán K-mean do Ismail và
Kamel (1986) đề xuất.
3.3. Mối quan hệ có cấu trúc trong dữ liệu đa biến
Đối với quy trình tuân theo phép biến đổi tuyến tính giữa các dữ liệu quan trắc
được tại các thời điểm khác nhau, người ta có thể thu được cùng số cụm (hay các
vector tham chiếu) có chứa cùng một số vectơ mẫu trong một khoảng thời gian xác
định. Hầu hết các quá trình thủy văn vốn có tính chất phi tuyến và kết quả là một quá
trình thực tế, người ta có thể thu được số cụm khác nhau, hoặc các cụm có thể có sự
kết hợp khác nhau của các vector mẫu. Mối quan hệ về mặt cấu trúc giữa các cụm
khác nhau trong một quá trình hay giữa các quá trình được đánh giá thông qua các
Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long


9


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
khái niệm về tín hiệu tốt của sự phù hợp. Thứ hai, người ta định nghĩa xác suất có điều
kiện xảy ra, p(j/j') của một vector tham chiếu [Suzuki (1973)] như sau:
(5)
Trong đó, n(j/j’) là số vector mẫu kết hợp với các cụm thứ j khi đã biết cụm thứ j'. k(j)
là số cụm được xem xét để phân tích. Đó là lợi thế để phát triển các mối quan hệ về
mặt cấu trúc giữa các cụm biểu hiện mức độ tương quan cao hơn trong một quy trình
hay giữa các quy trình. Các mối quan hệ về mặt cấu trúc như vậy, lần lượt, sử dụng
trong dự báo hoặc mô phỏng các mô hình dòng chảy. Cấu trúc Markov giữa các cụm
thu được như sau:
u ngoại trừ j
(6)
nghĩa là,
[ n (j /j’) / > (7)
3.4. Phát triển mô phỏng và thuật toán dự báo
a. Mô phỏng thuật toán
Một quy trình không có cấu trúc tương quan giữa các điểm, các sự kiện, và /
hoặc các mùa quan trắc có thể được mô phỏng một cách độc lập. Tuy nhiên, các mẫu
chảy biểu hiện mối tương quan giữa chúng và do đó, có thể được tổng hợp bằng cách
làm theo một thủ tục được Panu và unny (1980a, 1980b) đề xuất, trong đó xác suất có
điều kiện của sự xuất hiện các vectơ mẫu và phân phối chuẩn của các khoảng cách nội
cụm được sử dụng. Theo các tác giả của bài báo, các vector mẫu dòng chảy được cho
là thuộc về hai mùa và được mô phỏng như sau:
Bước 1: Tạo ra một dãy các cụm theo xác suất xuất hiện Markov của nó.
Bước 2: Tổng hợp mỗi cụm với vector mẫu của nó bằng cách sử dụng phân
phối chuẩn đa biến.
Bước 3: Kiểm tra xem các phần tử của một vector mẫu được tổng hợp nằm

trong giới hạn quy định của chúng. Nếu không, tổng hợp vector mẫu
khác cho đến khi các phần tử của nó được tìm thấy trong giới hạn.
Bước 4: Quay trở lại bước 3, cho đến khi một vector mẫu chấp nhận được
tương ứng với mỗi cụm trong bước 1 được tìm thấy.
b. Thuật toán dự đoán
Giả sử các hàm thành viên có phân phối lũy thừavà sử dụng khái niệm về suy
diễn mờ, các vectơ mẫu được dự đoán [Kojiri và Ikebuchi (1988)]. Các mùa không
được quan trắc, các dãy nối tiếp được dự đoán bằng cách kết hợp suy diễn mờ với
phương pháp kỳ vọng.
Nói chung, dự báo thời gian thực của vector mẫu được sử dụng để dự báo lũ lụt
hoặc hạn hán. Một vector mẫu được dự báo dựa trên giá trị của OF l giữa các vector
mẫu quan sát thực tế và vector tham chiếu đại diện của nó như sau:
Xjpredicted = [1+ Djobserved ] [Xj]
(8)
Trong đó, Djobserved = (Xjp - Xj ) / Xj
(9)
Hơn nữa, giả sử rằng hàm thành viên mờ của mỗi cụm có cùng trọng số như tần
suất xuất hiện của một cụm, hàm thành viên đó được biểu diễn như sau:
Vj = exp {( -aj hj Djobserved) / }
(10)
Trong đó hj biểu thị tần suất đạt được trong thủ tục gom cụm và a j là một hằng
số phụ thuộc các tính huống khoảng cách luận lý đến D jobserved, nghĩa là lớn, vừa và nhỏ.
Sau đó người ta có thể dự đoán vector mẫu dựa trên kỹ thuật suy diễn mờ [Kojiri et al
Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

10


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
(1988)] như sau:

Predicted Pattern Vector =

(11)

4. KẾT QUẢ THỬ NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP ĐỀ XUẤT.
a. Ứng dụng của phương pháp đề xuất:
Các tác giả đã chọn dữ liệu quan trắc trên lưu vực sông Thames (Canada) để
kiểm tra khả năng áp dụng của giải pháp được đề xuất ở trên. Dữ liệu được thu thập
hàng tháng từ tháng 10 năm 1952 đến tháng 9 năm 1967 gồm dữ liệu về lượng mưa và
lưu lượng dòng chảy. Giá trị được dùng để phân tích là trị số lưu lượng dòng chảy
trung bình hàng tháng. Dựa trên biểu đồ thống kê và phép phân tích phổ, dữ liệu lưu
lượng dòng chảy được chia thành 2 mùa: Mùa mưa từ tháng 10 năm trước đến tháng 4
năm sau, mùa khô bắt đầu từ tháng 4 đến tháng 9 hằng năm. Nói chung, biểu hiện mỗi
phân mùa khác biệt hoàn toàn với phân mùa còn lại, và sự biến thiên của độ lệch
chuẩn đối với một số tháng trong năm rất lớn.

Hình 5: Dãy các giá trị của hàm mục tiêu OF1.

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

11


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy

Hinh 6: Số cụm tối ưu dưới dạng hàm của DK(K), EK(K) và AIC.
Các phân mùa ( hay là các vector mẫu) sau đó được phân cụm thành các nhóm
để lấy ra các mối quan hệ về mặt cấu trúc giữa chúng. Thuật toán K-mean được sử
dụng để phân nhóm các phân mùa. Kỹ thuật khởi tạo ngẫu nhiên [Ismail và Kamel
(1986) đề xuất] được sử dụng để đạt đến tối ưu toàn cục. Bởi vì, thuật toán K-mean

chịu ảnh hưởng bởi nhiều yếu tố như việc lựa chọn các tâm cụm ban đầu, số lượng các
cụm - k, thứ tự mà trong đó các phân mùa được xem xét trong quá trình phân cụm, và
các tính chất hình học của các phân mùa. Một số thử nghiệm chạy chỉ ra rằng bốn cụm
sẽ là đủ để nắm được các mối quan hệ giữa các phân mùa khác nhau và bên trong các
phân mùa khác nhau. Nói chung, có tổ hợp để nhóm 15 phân mùa thành bốn cụm
trong mỗi mùa. Để tìm ra số lần chạy tối thiểu có thể của thuật toán K-mean cho các
cấu hình cụm tối ưu, 200 lần chạy của thuật toán K-mean được thực hiện để phân cụm
15 phân mùa thành bốn cụm. Giá trị của hàm OF1 được đánh giá cho mỗi lần chạy
[Hình 5]. Từ hình vẽ này, rõ ràng là một giá trị nhỏ đáng kể của hàm OFl đã xuất hiện
Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

12


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
hai lần trong 200 lần chạy ban đầu của thuật toán K-mean. Những giá trị nhỏ đáng kể
có thể được quy cho tình huống khi bốn cụm đã đạt được cấu hình cụm tối ưu, nghĩa
là, khi khoảng cách nội cụm DK (K) đạt giá trị cực tiểu còn khoảng cách liên cụm EK
(K) đạt giá trị cực đại. Do đó, số lượng các điều kiện ban đầu có thể ít hơn đáng kể
[Bảng 1] đối với các tổ hợp khác nhau. Hơn nữa, bảng này cũng có chứa các giá trị
khoảng cách nội cụm DK (K), khoảng cách liên cụm EK (K) và Tiêu chuẩn Akaike
Information (AIC) [xem; Phụ lục] ứng với hàm OFl. Các giá trị của DK (K), EK (K)
và AIC tương ứng với số cụm cho trong hình 6. Việc xem xét đồ thị và bảng dữ liệu
chỉ ra rằng đối với trường hợp bốn nhóm và một số lượng hợp lý ứng với 100 lần khởi
chạy, giá trị của AIC là cực tiểu, khoảng cách nội cụm liên tục giảm và tỷ lệ giảm là
rất nhỏ từ 4 cụm đến 8 cụm, và khoảng cách liên cụm dao động nhưng đạt giá trị cực
đại ứng với trường hợp bốn cụm. Dựa trên những tính toán như vậy, giả định hợp lý
rằng bốn cụm đủ để mô tả sự biến thiên của các vectơ mẫu trong cả 2 mùa. Việc xem
xét các khoảng cách nội cụm, liên cụm và các giá trị của AIC cung cấp một phương
pháp hữu ích, nhưng hơi thiếu linh hoạt để thu được số lượng tối ưu các cụm ứng với

một tập hợp các vectơ đã cho.
Một phương pháp khác để thu được số cụm tối ưu thông qua kỹ thuật đa-tối ưu.
Theo kỹ thuật này, khoảng cách nội cụm (DK (K)) mục tiêu được định nghĩa là cực
tiểu và khoảng cách liên cụm (EK (K)) mục tiêu được xác định là cực đại trong các
khoảng cách nội cụm và liên cụm của tất cả các cụm có thể. Các giá trị của khoảng
cách nội cụm và liên cụm và các khoảng cách mục tiêu liên quan được vẽ ra [Hình 7]
xác định đường cong biến đổi (TC- Transformation Curve). Bởi vì, tất cả các điều kiện
cho các thừa số (γ) không thỏa được, đường bàng quan (IC) sẽ trở thành một đường
thẳng song song với đường đi qua các điểm được xác định bởi các cụm 1 và cụm15.
Thật tình cờ, những điểm này cũng nằm trên hai đầu mút của đường cong biến đổi.
Giải pháp tối ưu lại nằm ở trường hợp có bốn cụm.

Hình 7: Số cụm tối ưu dưới dạng hàm của tiêu chuẩn đa tối ưu
Dựa vào kết quả nghiên cứu trên, các ràng buộc đối với thuật toán K-mean thu
Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

13


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
được [Bảng 2]. Các giá trị của các ràng buộc được tìm thấy ít hơn bảy phần mười giá
trị tối đa của DK (K) và lớn hơn hai phần mười của khoảng cách liên cụm EK (K). Số
lượng tối ưu của các cụm thu được là số cụm tối thiểu thỏa các ràng buộc sao cho số
cụm không lớn hơn một nửa tổng số vector mẫu. Trong các trường hợp, khi không có
khoảng cách liên cụm cũng như không có khoảng cách nội cụm nào thỏa các ràng
buộc, khoảng cách liên cụm sẽ được ưu tiên hơn khoảng cách nội cụm.
Phương pháp gom
cụm
K-mean algorithm


Số cụm tối ưu

Các ràng buộc

4

½ tổng số vector mẫu < Ràng buộc nội cụm <
0.7xmax{khoảng cách nội cụm(1-15)}
Không có
Không có

Đa tối ưu
AIC

4
4

Bảng 2: Các ràng buộc được dùng trong các phương pháp AIC, khoảng cách
nội cụm và liên cụm để thu được số cụm tối ưu
Tập dữ liệu lưu
lượng dòng chảy
Mùa khô

Hàm
Số cụm
mục tiêu
OFa
4 (tối ưu)

Mùa mưa


OFa

4 (tối ưu)

Mùa khô

OF1

4 (tối ưu)

Mùa mưa

OF3

2 (tối ưu)
4

Mùa khô

OF2

2 (tối ưu)
4

Cấu hình cụm
C1: 13
C2: 3, 6, 8, 9
C3: 1, 2, 4, 5, 7, 11, 14
C4: 10, 12, 15

C1: 13, 14, 15
C2: 11
C3: 1, 2, 3, 5, 6, 8, 9, 10,12
C4: 4
C1: 13
C2: 10, 12, 15
C3: 3, 4, 6, 8, 11
C4: 1, 2, 5, 7, 9, 14
C1: 1, 3, 4, 6, 9, 10, 11, 12, 13, 14, 15
C2: 2, 5, 7, 8
C1: 1
C2: 2, 4, 6, 7, 9, 10, 11, 12, 14, 15
C3: 3, 5, 8
C4: 13
C1: 1, 2, 3,4,5,6,7,10,13,15
C2: 8, 9, 11, 12, 14
C1: 8, 9, 12, 14
C2: 11
C3: 1, 2, 5, 6, 10, 15
C4: 3, 4, 7, 13

Bảng 3: Cấu hình số cụm tối ưu ứng với các hàm mục tiêu khác nhau.
Số cụm tối ưu thu được bằng cách sử dụng thuật toán K-mean đều như nhau
cho các trường hợp khác nhau của các hàm mục tiêu [Bảng 3]. Các hàm mục tiêu quan
OFa và OFl đưa ra cấu trúc tương tự nhau đối với số cụm tối ưu vì các giá trị kết quả
của OFa bị tác động mạnh bởi hàm mục tiêu OFl. Tuy nhiên, hàm mục tiêu OF2 liên
quan đến dữ liệu đỉnh dòng và hàm mục tiêu OF3 liên quan đến độ dốc cho ta cấu trúc
Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

14



Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
khác nhau về số cụm tối ưu. Các hàm mục tiêu này đánh giá tính chất của các vectơ
mẫu như sự xuất hiện của các đỉnh dòng hay độ dốc giữa các sự kiện liên tiếp và kết
quả là, xem xét đánh giá các đặc tính có độ tương quan cao nhất. Nét đặc trưng ở đây
là các hàm mục tiêu này sẽ cung cấp cấu trúc cụm tối ưu trong các tình huống cụ thể
như phân tích lũ lụt hay hạn hán.
Phép biến đổi Markov từ cụm này đến cụm khác được tóm tắt trong Bảng 4.
Các tâm cụm trong mỗi mùa được thể hiện trong hình 8. Khi mỗi vector tham chiếu là
duy nhất, hàm mục tiêu OFa đã có hiệu quả trong việc phân loại dữ liệu dòng chảy, đặc
biệt là đối với những xem xét về đỉnh dòng. Cần lưu ý rằng nếu ta phải xem xét đặc
điểm hạn hán, ta sẽ thay thế các hàm mục tiêu OF2 để phản ánh các đặc tính dòng chảy
thấp.
Dựa trên cấu hình cụm ở trên và nội mình và mối quan hệ về cấu trúc nội cụm
và liên cụm, mô hình dòng chảy đã được tổng hợp cho sông Thames tại Thamesvilles.
Các xác suất biến đổi Markov quan sát và tổng hợp cho các cụm khác nhau được tóm
tắt trong Bảng 5. Trong bảng này, sự thay đổi giữa các cấu trúc Markovian quan sát và
tổng hợp nhỏ hơn 5%. Nói cách khác, cấu trúc Markov được bảo toàn trong các mô
hình dòng chảy tổng hợp. Một số hiện thực mẫu của mô hình dòng chảy tổng hợp
được thể hiện trong Hình 9. Những thay đổi trong những hiện thực này biểu thị tính
uyển chuyển của thủ tục được đề xuất trong tổng hợp các đặc tính dòng chảy cực đoan
cũng như các đặc tính dòng chảy bình thường.
Kết quả của mô hình dự báo được đưa ra trong hình 10. Trình tự dự báo ở ba
giai đoạn thời gian tuần tự từ tháng Tư, tháng Năm và tháng sáu năm 1966 được thực
hiện dựa trên giả định rằng, các điểm dữ liệu không được biết đến. Các mô hình dự
báo cần phải cải thiện hơn nữa.
Như vậy, một số hàm mục tiêu được đề xuất để cải tiến hệ thống nhận dạng
mẫu hiện có (PRS) để phân tích và tổng hợp mô hình dòng chảy. Cụ thể, ba hàm mục
tiêu xem xét các tính chất về hình dạng, đỉnh dòng, và độ dốc của các vectơ mô hình

dòng chảy được đề xuất. Các hàm mục tiêu tương tự có thể được xây dựng để xem xét
các tính chất cụ thể khác của mô hình dòng chảy. AIC, tiêu chuẩn khoảng cách nội
cụm và liên cụm hợp lý để đạt đến số cụm tối ưu đối với một tập các mẫu dòng chảy.
Kỹ thuật khởi tạo ngẫu nhiên cho các thuật toán K-mean xem ra tốt hơn, đặc biệt là khi
người ta có thể làm giảm 20 lần số điều kiện khởi chạy để đạt đến một cấu trúc cụm tối
ưu. Mô hình tổng hợp dòng chảy thích hợp trong bảo toàn các đặc tính cơ bản của các
dòng chảy lịch sử. Tuy nhiên, các thực nghiệm bổ sung cần được xem xét thêm các
tiện ích của mô hình tổng hợp được đề xuất.

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

15


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy

Hình 10: Các vector tham chiếu đại diện :
a. Mùa mưa (tháng10 đến tháng 3), b. Mùa khô(tháng 4 đến tháng 9)

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

16


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
b. Áp dụng giải pháp đề xuất để gom cụm dữ liệu thủy văn

Hình 11: Các vector mẫu ban đầu



Bước 1: Định nghĩa K tâm cụm khởi đầu, bằng cách chọn K vector bất kỳ.



Z(j,u) là vector tham chiếu thứ j tại bước lặp thứ u trong K cụm.
X(i) là vector mẫu chứa các điểm dữ liệu x(i,t), t=1, 2, … 6.

Hình 12: Chọn k tâm cụm ban đầu (ví dụ k=4)


Bước 2: Tại bước lặp thứ u, nếu:
OFa[X(i), Z(j,u)] ∀j’=1, 2, …, K ∧ j’≠j
thì vector mẫu X(i) thuộc về cụm j

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

17


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy

Hình 13: Đánh giá độ tương tự của từng vector mẫu với k tâm cụm để gom các
vector mẫu vào các cụm

Hình 14: Kết quả gom cụm ở bước thứ i


Bước 3: Tính khoảng cách cực đại của cụm j như sau:
DK(j,u)=

Tính toán lại tâm cụm mới cho cụm thứ j như sau:
Z(j, u+1) =
Trong đó N(j) là số vector mẫu trong cụm thứ j đã được sắp xếp lại.

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

18


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy

Hình 15: Đánh giá bán kính các cụm

Hình 16: Cập nhật lại k tâm cụm mới
Bước 4: Nếu Z(j, u+1) = Z(j,u), kết thúc quá trình lặp. Ngược lại, trở về bước 2.

Hình 17: Đánh giá độ tương tự của từng vector mẫu với k tâm cụm mới để gom
các vector mẫu vào các cụm mới


Bước 5: Tính khoảng cách lớn nhất giữa các vector trong cùng 1 cụm (khoảng

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

19


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
cách nội cụm) DK(K) và tính khoảng cách giữa các cụm (khoảng cách liên
cụm), EK(K) y như DK(K) tại K cụm.



EK(K)=



DK(K) =

Hình 18: Đánh giá bán kính các cụm

Hình 19: Đánh giá khoảng cách liên cụm.


Bước 6: quay trở về bước 1 với số cụm kế tiếp K+1. Ngược lại, quá trình lặp
kết thúc.



Sau khi kết thúc thủ tục trên, số cụm tối ưu sẽ được xác định sử dụng tiêu chuẩn
sau:



Tiêu chuẩn 1: Đưa ra các ngưỡng cho hàm mục tiêu và chọn số cụm nhỏ nhất.


1. Khoảng cách nội cụm DK(K) tương tự với hàm mục tiêu tại các tâm
cụm nhỏ hơn 3

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long


20


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy


2. Khoảng cách liên cụm EK(K) lớn hơn 1



3. Số cụm nhỏ hơn 1 nửa số vector mẫu



Khoảng cách liên cụm được tính là giá trị trung bình của khoảng cách cho cùng
các tổ hợp các vector tham chiếu, vì bất kỳ vector tham chiếu nào cũng có thể là
tâm của hàm mục tiêu



Tiêu chuẩn 2: Tiêu chuẩn thứ 2 xác định số cụm tối ưu thông qua các kỹ thuật
đa tối ưu. Hàm mục tiêu được xây dựng dưới dạng vector như sau:




Tiêu chuẩn 3:



Đánh giá sự phân phối của các vector mẫu sử dụng tiêu chuẩn Akaike
Information Criterion (AIC).



Giả sử thuật toán K-Means cho hàm mục tiêu 1 giá trị tối ưu đối với các
vector mẫu được phân bố bình thường quanh tâm cụm, gía trị logarith
cực đại có thể xảy ra của cụm j được biểu diễn như sau:




Thông tin đầy đủ được cho bởi hàm W(j) theo j, số cụm tối ưu được xác định là
giá trị nhỏ nhất của đẳng thức sau trong số tất cả các cụm



Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

21


Phân cụm dựa trên nhận dạng mẫu và phân tích dòng chảy
TÀI LIỆU THAM KHẢO
[1] T. Kojiri, T.E. Unny, U.S. Panu, Cluster based Pattern recognition and
analysis of streamflows, in Stochastic and Statistical Methods and
Environmental Engineering, Vol3, K.W Hipel et al (eds), p363-380.
[2] A.K. JAIN, M.N. MURTY, P.J. FLYNN, Data Clustering: A Review,
ACM Computing Surveys (CSUR), Volume 31 Issue 3, Sept. 1999, ISSN:
0360-0300 EISSN: 1557-7341 editors: Peter Wegner, Marvin Israel, p264323,

[3] Depa Pratima & Nivedita Nimmakanti, Pattern Recognition Algorithms for
Cluster
Identification
Problem
( />gnition.pdf)
[4] Ch. G.V.N. Prasad, K. Hanumantha Rao, Depa Pratima and B.N. Alekhya,
Unsupervised Learning Algorithms to Identify the Dense Cluster in Large
Datasets
[5] Jiawei Han, Micheline Kamber, Jian Pei. Data mining: concepts and
techniques, 3rd ed, Morgan Kaufmann, Elsevier, 2012, ISBN 978-0-12381479-1

Đặng Quốc Huỳnh – Trần Văn Triết – Cù Huy Hoàng Long

22



×