Tải bản đầy đủ (.doc) (54 trang)

GIỚI THIỆU MỘT SỐ THUẬT TOÁN GOM CỤM MỜ. ỨNG DỤNG THUẬT TOÁN GOM CỤM MỜ (FUZZY CLUSTERING), MÔ HÌNH XICH MARKOV ĐỂ PHÂN LOẠI, DỰ BÁO, GIẢI QUYẾT CÁC TÌNH TRẠNG KẸT XE

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (934.56 KB, 54 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTT
KHÔNG TẬP TRUNG KẾT HỢP MẠNG TH-VT
SEMINAR MÔN HỌC CÔNG NGHỆ TRI THỨC
TÊN ĐỀ TÀI : GIỚI THIỆU MỘT SỐ THUẬT TOÁN GOM CỤM MỜ. ỨNG
DỤNG THUẬT TOÁN GOM CỤM MỜ (FUZZY CLUSTERING), MÔ
HÌNH XICH MARKOV ĐỂ PHÂN LOẠI, DỰ BÁO, GIẢI QUYẾT CÁC
TÌNH TRẠNG KẸT XE

GIẢNG VIÊN: GS.TSKH. HOÀNG KIẾM
SINH VIÊN THỰC HIỆN: LÝ THÀNH

KHÓA: 3
Tp. Hồ Chí Minh – 09/2014
MỤC LỤC 1
1. ĐẶT VẤN ĐỀ CÁC BÀI TOÁN KHẢO SÁT 2
1.1 Bài toán phân loại kẹt xe 3
1.1.1 Vấn đề bài toán 4
1.1.2 Các đại lượng ảnh hưởng đến trạng thái của luồng giao thông 5
1.1.3 Lý thuyết về luồng giao thông 6
1.2 Bài toán dự báo kẹt xe 7
1.2.1 Vấn đề bài toán 8
1.2.2 Một số hướng giải quyết 9
2. CÁC KHÁI NIỆM, LÝ THUYẾT CƠ SỞ LIÊN QUAN, PHƯƠNG PHÁP
GIẢI QUYẾT CÁC BÀI TOÁN 10
2.1 Kỹ thuật gom cụm dữ liệu ( Clustering ) 11
2.1.1 Gom cụm là gì ? 12
2.1.2 Các thuật toán gom cụm 13
2.1.2.1 Thuật toán K-Means 14
2.1.2.2 Thuật toán K-Medoids 15


2.1.2.3 Thuật toán ISODATA 16
2.1.2.4 Thuật toán Phân cấp 17
2.1.2.5 Thuật toán dựa trên mô hình 18
2.1.2.6 Thuật toán dựa trên lưới 19
2.1.2.7 Thuật toán DBSCAN 20
2.1.2.8 Các thuật toán gom cụm mờ 21
2.2 Các mô hình gom cụm mờ (Fuzzy clustering models) 22
2.2.1 Mô hình Fuzzy C-Mean(FCM) 23
2.2.2 Mô hình Fuzzy C-Elliptotype (FCE) 24
2.2.3 Mô hình Fuzzy C-Mixed Prototype (FCMP) 25
2.2.4 Mô hình Fuzzy Clustering Fuzzy Merging (FCFM) 26
2.3 Các hệ thống mờ (Fuzzy system) 27
2.4 Cách tạo một hệ thống điều khiển mờ 28
2.5 Cơ sở lý thuyết của Xích Markov 29
3. ỨNG DỤNG CÁC KỸ THUẬT ĐỂ GIẢI QUYẾT BÀI TOÁN ĐẶT RA.30

Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
3.1 Ứng dụng mô hình Xích Markov để dự báo tình trạng giao thông 31
3.1.1 Bài toán 1 32
3.1.2 Bài toán 2 33
3.1.3 Bài toán 3 34
3.2 Ứng dụng mô hình gom cụm FCMP (Fuzzy C-Mixed Prototype) để
phân lớp giao thông 35
3.2.1 Vấn đề bài toán 36
3.2.2 Hướng giải quyết bài toán 37
4. KẾT LUẬN, HƯỚNG PHÁT TRIỂN 38
5. TÀI LIỆU THAM KHẢO 39
Lý Thành ( CH0601069 ) 3
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
1. ĐẶT VẤN ĐỀ CÁC BÀI TOÁN KHẢO SÁT

1.1 BÀI TOÁN PHÂN LOẠI KẸT XE
1.1.1 VẤN ĐỀ BÀI TOÁN
Mục tiêu của bài toán là phân lớp dữ liệu đặc trưng của luồng giao
thông trong một thời điểm tại một hệ thống đo đạt được thiết lập tại một số
vị trí nào đó trên đường như : tại các giao lộ. Thông thường người ta phân
loại trạng thái của luồng giao thông thành 4 loại :
• Trạng thái thưa và bình thường: giao thông ổn định, những người
điều khiển xe không bị ảnh hưởng bởi các xe khác.
• Trạng thái hơi đông: giao thông bình thường, nhưng việc lái xe bị
ảnh hưởng nặng bởi các phương tịên giao thông khác.
• Trạng thái đông: trạng thái không ổn định, có thể dẫn đến kẹt xe.
• Trạng thái kẹt xe: hệ thống giao thông bị quá tải, các xe không thể
lưu thông hoặc lưu thông chậm.
Dựa trên sự phân loại trạng thái của luồng giao thông chúng ta sẽ sử
dụng kỹ thuật gì để phân lớp dữ liệu giao thông ?
1.1.2 CÁC ĐẠI LƯỢNG ẢNH HƯỞNG ĐẾN TRẠNG THÁI CỦA
LUỒNG GIAO THÔNG
Lưu lượng xe (q): là số lượng xe đi qua một điểm nào đó (các giao lộ)
trong một khoảng thời gian t.
Mật độ (k): số lượng xe trên một đoạn đường có chiều dài xác định.
Vận tốc (v): vận tốc trung bình của xe khi đi qua điểm quan sát trong
một khoảng thời gian t.
Mục đích của ta là xác định trạng thái của luồng giao thông tại giao lộ
dựa trên các đại lượng q, k, v.
1.1.3 LÝ THUYẾT VỀ LUỒNG GIAO THÔNG
Các đại lượng liên quan đến luồng giao thông:
• Lưu lượng xe (q): là số lượng xe đi qua một điểm nào đó (các ngã
tư) trong một khoản thời gian t.
• Mật độ (k): số lượng xe trên một đoạn đường có chiều dài xác
Lý Thành ( CH0601069 ) 4

Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
định.
• Vận tốc (v): vận tốc trung bình của khi đi qua điểm quan sát
trong một khoảng thời gian t.
• Vận tốc v là đại lượng phụ thuộc vào k, v= v(k) bởi vì để đảm
bảo an toàn giao thông các phương tiện giao thông cần phải giảm
tốc độ trong trường hợp đường đang rơi vào trạng thái hơi đông,
phương trình q=v*k được sử dụng trong trường hợp trạng thái
thưa hoặc bình thường.
• Đồ thị liên hệ giữa q và k được gọi là biểu đồ cơ sở
(Fundamental diagram).
• Trong biểu đồ hình bên, những điểm nằm gần với các đường
thẳng cho biết trạng thái thưa tương ứng với mật độ giao thông là
thấp, trong trường hợp mật độ cao (k lớn ) thì chỉ có rải rác một
vài điểm trên biểu đồ chỉ ra rằng trạng thái giao thông là đông.
• Người ta định nghĩa 4 khoảng vận tốc để phân loại tương ứng cho
4 trạng thái giao thông : thưa, hơi đông, đông và kẹt xe.
• Mức độ hiệu quả của việc phân lớp phụ thuộc vào việc định
nghĩa các khoảng vận tốc hợp lý. Sở dĩ chọn đại lượng vận tốc để
phân loại là vì vận tốc của các phương tiện giao thông bị ảnh
hưởng trực tiếp từ trạng thái của luồng giao thông, nghĩa là vận
tốc của các phương tiện giao thông trong trạng thái đông sẽ nhỏ
hơn nhiều so với vận tốc của phương tiện này trong trạng thái
thưa.
• Vấn đề đặt ra là làm thế nào để phân loại được trạng thái của
luồng giao thông dựa vào đại lượng vận tốc trung bình của
phương tiện giao thông ? Sử dụng phương pháp gom cụm mờ
(Fuzzy clustering), cụ thể là thuật toán Fuzzy C-mixed để giải
quyết bài toán này. Thuật toán Fuzzy Clustering sẽ được trình
bày chi tiết trong phần phương pháp giải quyết các bài toán.

Lý Thành ( CH0601069 ) 5
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
1.2 BÀI TOÁN DỰ BÁO KẸT XE
1.2.1 VẤN ĐỀ BÀI TOÁN
• Dự báo lưu lượng xe xảy ra tại một địa điểm nào đó trong khoảng
thời gian t.
• Trên các đường phố hay xa lộ, người ta sẽ gắn các thiết bị đo đạt
để tính toán số lượng xe đi qua trong khoảng thời gian 15 phút.
Với qui định như vậy trong một ngày chúng ta sẽ có tổng cộng
24 x 4 = 96 thời điểm để xác định số lượng xe tại địa điểm X.
• Ví dụ: Số lượng xe tại ngã tư Đường Cách Mạng Tháng Tám và
Phạm Văn hai tại các thời điểm trong ngày thứ 6 được cho trong
bảng sau:
o 0h00 :
o 0h15’:
o 0h30’:
o 0h45’:
o 1h00 :
o 1h15 :
o … :
• Với các giá trị trong bảng này ta sẽ xây dựng được biểu đồ
biểu diễn số lượng xe.
• Vấn đề đặt ra là làm thế nào để hệ thống dự báo có thể tính
toán được giá trị của 96 thời điểm trong ngày dựa vào các nhân
tố ảnh hưởng đến nó.
1.2.2 MỘT SỐ HƯỚNG GIẢI QUYẾT
• Sử dụng một số phương pháp gom cụm mờ để giải quyết bài toán
này. Ví dụ như:
FCM - Fuzzy C-mean
FCE - Fuzzy C-Ellipse

FCMP - Fuzzy C-Mixed Prototype
• Sử dụng cơ sở lý thuyết Xích Markov.
Lý Thành ( CH0601069 ) 6
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
2. CÁC KHÁI NIỆM, LÝ THUYẾT CƠ SỞ LIÊN QUAN, PHƯƠNG PHÁP
GIẢI QUYẾT CÁC BÀI TOÁN
2.1 KỸ THUẬT GOM CỤM DỮ LIỆU (CLUSTERING)
• Gom cụm dữ liệu là phương pháp phân hoạch tập hợp dữ liệu
thành nhiều tập con C sao cho mỗi tập con c ⊂ C chứa các phần
tử có những tính chất giống nhau theo tiêu chuẩn nào đó, mỗi tập
con c được gọi là một cụm.
• Như vậy quá trình gom cụm là một quá trình phân các phần tử q
∈ Q vào trong các cụm c ⊂ C.
• Nguyên lý thường được dùng để gom cụm dữ liệu là nguyên tắc
cực tiểu khoảng cách (thường là khoảng cách Euclide).
• Các kỹ thuật gom cụm dữ liệu:
- Gom cụm cổ điển:
• Thuật toán K-Means.
• Thuật toán K-Medoids.
• Thuật toán ISODATA.
- Gom cụm mờ:
• Thuật toán Fuzzy C-Mean.
• Thuật toán Fuzzy C-Ellipse.
• Thuật toán Fuzzy C-Mixed.
2.1.1 GOM CỤM LÀ GÌ ?
• Gom cụm là một tiến trình gom nhóm các vector đặc trưng vào
trong các cụm.
• Gom các đối tượng dữ liệu tương tự với một đối tượng khác
trong cùng cụm.
• Gom các đối tượng dữ liệu không tương tự với các đối tượng

trong cụm khác.
• Mục tiêu của gom cụm : để gom tập các đối tượng thành các
Lý Thành ( CH0601069 ) 7
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
nhóm.
• Gom cụm dữ liệu là hình thức học không giám sát trong đó các
mẫu học chưa được gán nhãn.
• Các điểm dữ liệu trong các cụm khác nhau có độ tương tự thấp
hơn các điểm nằm trong cùng một cụm.
• Một số ứng dụng tiêu biểu của gom cụm như:
- Xem xét phân bố dữ liệu.
- Tiền xử lý cho các thuật toán khác.
- Khám phá thói quen và nhu cầu của khách hàng để có
phương pháp tiếp thị thích hợp.
- Phân loại đất theo công năng hoặc thực tế sử dụng đề có
chính sách quy hoạch phù hợp.
- Phân loại nhà theo vị trí, giá trị
- Phân loại khách hàng để có chính sách bảo hiểm hợp lý.
- Phân loại bệnh nhân.
• Một số phương pháp gom cụm tốt nếu đạt được tính chất sau:
- Có độ tương tự cao trong cùng cụm.
- Có độ tương tự thấp giữa các cụm.
- Có khả năng phát hiện các mẫu ẩn.
- Có khả năng làm việc hiệu quả với lượng dữ liệu lớn.
- Có khả năng làm việc với nhiều loại dữ liệu khác nhau.
- Có khả năng khám phá ra các cụm có phân bố theo các
dạng khác nhau.
- Yêu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham
biến nhập.
- Có khả năng làm việc với nhiễu và mẫu cá biệt.

- Không bị ảnh hưởng bởi thứ tự nhập của dữ liệu.
- Làm việc tốt trên cơ sở dữ liệu có số chiều cao.
- Chấp nhận các ràng buộc do người dùng chỉ định.
- Có thể hiểu và sử dụng được kết quả gom cụm.
Lý Thành ( CH0601069 ) 8
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
• Dựa trên cách tiếp cận và thuật toán sử dụng, người ta phân các
thuật toán gom cụm theo các phương pháp chính sau:
- Các phương pháp phân hoạch.
- Các phương pháp phân cấp.
- Các phương pháp dựa trên mật độ.
- Các phương pháp dựa trên mô hình.
- Các phương pháp dựa trên lưới.
• Có thể dùng ma trận dữ liệu để mô hình hoá bài toán gom cụm.
Ma trận biểu diễn không gian dữ liệu gồm n đối tượng theo p
thuộc tính. Ma trận này biểu diễn mối quan hệ đối tượng theo
thuộc tính.
2.1.2 CÁC THUẬT TOÁN GOM CỤM
2.1.2.1 THUẬT TOÁN K-MEANS
• Giới thiệu:
Một phương pháp tiếp cận phân hoạch là xác
định trước số cụm cần có, chẳng hạn là k, sau đó xếp
từng điểm dữ liệu vào một trong k cụm sao cho độ phân
biệt trong các cụm là thấp nhất. Vấn đề đặt ra là với một
không gian dữ liệu có số chiều và số phần tử lớn thì thời
gian thực hiện tăng rất nhanh theo luật bùng nổ tổ hợp.
Với k cho trước có thể có (kn-(k-1)n 1) khả năng phân
hoạch khác nhau. Đây là con số quá lớn nếu n là khá lớn
do đó hầu như không thể thực hiện được. Vì vậy gom
cụm phân hoạch phải là những thuật toán nhanh và có sử

dụng heuristic để đạt được giải pháp gom cụm đủ tốt
(nhưng không nhất thiết là tối ưu).
Trong thuật toán này, các đối tượng (mẫu huấn
luyện hay mẫu cần phân lớp) thường được ánh xạ vào
không gian n chiều Rn . Như vậy, một mẫu x bất kỳ được
Lý Thành ( CH0601069 ) 9
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
mô tả bằng 1 vector (a1(x), a2(x), … an(x)), trong đó,
ar(x) là giá trị của thuộc tính thứ r của đối tượng x.
Những đối tượng lân cận nhất của một đối tượng được
xác định dựa trên một độ đo khoảng cách được chọn nào
đó (thường là độ đo khoảng cách Euclide).
• Tư tưởng của thuật toán K-means:
Ý tưởng chính của thuật toán này là áp dụng nguyên lý
người láng giềng gần nhất hoặc khoảng cách ngắn nhất
theo định luật III Newton, nghĩa là phần tử nào gần điểm
tâm của cụm ci hơn so với các cụm cj sẽ được gom về
cụm ci.
Đầu vào của thuật toán K-Means: Số các cụm k, và
CSDL có n số điểm (đối tượng) trong không gian dữ liệu.
Thuật toán K-Means gồm 4 bước:
Bước 1: Phân hoạch đối tượng thành k tập con/cụm.
Bước 2: Tính các điểm hạt giống centroid (trung bình
của các đối tượng trong cụm) cho từng cụm trong phân
hoạch hiện hành.
Bước 3: Gán mỗi đối tượng cho cụm có centroid gần
nhất.
Bước 4: Quay về bước 2, chấm dứt khi không còn phép
gán mới.
• Ưu và nhược điểm của thuật toán K-Means:

Ưu điểm: Đây là một phương pháp:
- Đơn giản.
- Hiệu quả.
- Tự tổ chức.
- Được sử dụng trong tiến trình khởi tạo trong
nhiều thuật toán khác.
- Có thể scalable trong khi xử lý dữ liệu lớn.
Lý Thành ( CH0601069 ) 10
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
- Hiệu suất tương đối:O(tkn), với n là số đối
tượng , k là số cụm, t là số lần lặp. Thông thường
k,t << n.
- Thường kết thúc ở tối ưu cục bộ, có thể tìm
được tối ưu toàn cục, dùng kỹ thuật thuật giải di
truyền.
Nhược điểm: Các nhược điểm trong thuật toán này là:
- Số cụm k phải được xác định trước.
- Có thể áp dụng chỉ khi xác định được trị trung
bình.
- Không thể xử lý nhiễu và outliers.
- Không thích hợp nhằm khám phá các dạng
không lồi hay các cụm có kích thước khác nhau.
- Đây là thuật toán độc lập tuyến tính.
• Nhận xét :
Phương pháp 1-NN có ưu điểm là dễ cài đặt nhưng có
hạn chế là dễ chịu ảnh hưởng bởi nhiễu. Điều này dễ
Lý Thành ( CH0601069 ) 11
Ví dụ minh họa thuật toán K-Means
C
2

C
3
C
1
x
d2
d3
d1
C
1
, C
2
, C
3
là 3 cụm.
X là phần tử thuộc tập V
Phân X vào cụm ?
Tính d
1
, d
2
, d
3
lần lượt là khoảng
cách từ x đến trọng tâm của cụm C
1
,
C
2
, C

3
.
Ta có d
3
<d
2
và d
3
< d
1
, vì vậy X sẽ
được gom vào cụm C
3

Nếu d
1
=d
3
< d
2
thì ta sẽ gom X
vào cụm nào ?
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
dàng nhận thấy được vì bất kỳ mẫu nào trong tập huấn
luyện để kiểm soát một phần không gian dữ liệu (dù
rằng nhỏ). Nếu điểm truy vấn rơi vào vùng không gian
bị kiểm soát bởi mẫu huấn luyện có “nhiễu” thì sẽ cho
kết quả không chính xác.





Kết quả gom cụm bằng 1-NN (Hình 1)
Vì vậy, trên thực tế, chúng ta thường sử dụng phương
pháp k-NN với k ≥ 3 (thường chọn k lẻ).
Hàm mục tiêu có thể là hàm rời rạc hoặc liên tục. Trước
tiên, hãy xét những hàm mục tiêu có giá trị rời rạc:
f : Rn -> V
Trong đó, V là tập hữu hạn {v1, … vn}.
Giá trị fˆ (xq) nhận được bởi thuật toán là kết quả ước
lượng xấp xỉ của f(xq), là giá trị f phổ biến nhất trong số
k mẫu huấn luyện gần xq nhất. Nếu chúng ta chọn k = 1
thì thuật toán 1-láng giềng gần nhất sẽ gán cho fˆ (xq)
giá trị f(xi) với xi là đối tượng huấn luyện gần xq nhất.
Đối với những giá trị k lớn hơn, thuật toán sẽ gán giá trị
Lý Thành ( CH0601069 ) 12
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
phổ biến nhất trong số k mẫu dữ liệu huấn luyện gần
nhất.
Thông thường, ta chọn k lẻ (để giảm bớt khả năng nhiều
nhãn có cùng số phiếu) và có giá trị k >= 3.
Cần lưu ý rằng thuật toán k-láng giềng gần nhất không
bao giờ hình thành một giả thuyết fˆ tổng quát xấp xỉ
hàm mục tiêu f . Giải thuật này chỉ đơn giản tính toán
việc phân loại một đối tượng mới khi cần thiết.
Điểm truy vấn q
Láng giềng
gần nhất
Lược đồ Voronoi (Hình 2)
Hình 2 là lược đồ Voronoi của tập những đối tượng

mẫu. Lược đồ này thể hiện sự phân hoạch không gian
đối tượng khi sử dụng phương pháp 1-NN. Mỗi đối
tượng mẫu huấn luyện có một đa diện giới hạn phần
không gian dữ liệu chịu sự kiểm soát của mình. Nếu
điểm truy vấn xq rơi vào phần không gian kiểm soát bởi
mẫu uấn luyện xi nào thì sẽ được gán giá trị fˆ (xq) <-
f(xi).
Lý Thành ( CH0601069 ) 13
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
Thuật toán k-NN cũng cho phép xấp xỉ những hàm mục
tiêu có giá trị liên tục. Lúc này, chúng ta sẽ chọn giá trị
trung bình (có hoặc không có trọng số) của k đối tượng
mẫu huấn luyện gần nhất chứ không phải là giá trị phổ
biến nhất .
Ví dụ áp dụng:
Điểm truy vấn q
3 láng giềng
gần nhất
2x,1o

Sử dụng phương pháp 3 láng giềng gần nhất
(Hình 3)
Hình 3 thể hiện trường hợp dùng phương pháp k-láng
giềng gần nhất với k=3. Điểm truy vấn q có 3 láng giềng
gần nhất (gồm 2x và 1o). Vậy, q được xem thuộc về cùng
phân lớp với x .
Lý Thành ( CH0601069 ) 14
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
Điểm truy
vấn q

7 láng gi ềng
gần nhất 3x, 4o
Sử dụng phương pháp 7-láng giềng gần nhất (Hình 4)
Hình 4 thể hiện trường hợp dùng phương pháp k-láng giềng gần nhất
với k=7. Lúc này, điểm truy vấn q có 7 láng giềng gần nhất (gồm 3x
và 4o). Vậy, q lại được xem thuộc về cùng phân lớp với o .
Nhận xét:
Trong phương pháp k-láng giềng gần nhất, chúng ta thường
biểu diễn các mẫu trong Rn. Số lượng thuộc tính thường ≤ 20 và có số
lượng mẫu lớn.
Ưu điểm:
Phương pháp k-NN có ưu điểm huấn luyện rất nhanh, có thể
học các hàm mục tiêu phức tạp và không làm mất thông tin.
Như ợc điểm:
Truy vấn chậm và dễ bị ảnh hưởng bởi những thuộc tính không
liên quan.
Độ đo khoảng cách
Trong phương pháp k láng giềng gần nhất, vấn đề chọn lựa độ
đo khoảng cách phù hợp, phản ánh đúng bản chất của bài toán là điều
rất quan trọng.
Lý Thành ( CH0601069 ) 15
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
Hình 5 minh họa việc tỷ lệ tương đối của mỗi chiều trong độ
đo khoảng cách
sẽ ảnh hưởng đến hình dạng của vùng lân cận của mỗi
mẫu.Vùng không gian lân cận chịu ảnh hưởng bởi các mẫu
huấn luyện.
Một số độ đo thông dụng
• Một nhóm các độ đo khoảng cách phổ biến cho biết tỉ lệ theo
khoảng là khoảng cách Minkowski.

Với i = (xi1, xi2, …, xip) và j = (xj1, xj2, …, xjp) là các đối
tượng dữ liệu p-chiều và q là số nguyên dương.
• Nếu q = 1, độ đo khoảng cách là Manhattan
• Nếu q = 2, độ đo khoảng cách là khoảng cách Euclidean
Lý Thành ( CH0601069 ) 16
q
q
pp
qq
j
x
i
x
j
x
i
x
j
x
i
xjid )|| |||(|),(
2211
−++−+−=
|| ||||),(
2211 pp
j
x
i
x
j

x
i
x
j
x
i
xjid
−++−+−=
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
Vấn đề giảm số chiều và số mẫu trong phương pháp kNN
Đặt vấn đề:
Trong trường hợp tập dữ liệu huấn luyện có số lượng phần tử
lớn, hoặc mỗi vector dữ liệu huấn luyện có số chiều lớn thì chi phí để
chọn ra k láng giềng gần nhất sẽ rất lớn. Để nâng cao hiệu quả khi áp
dụng phương pháp kNN, chúng ta có thể thực hiện thao tác chọn lọc
mẫu huấn luyện hoặc chọn đặc trưng:
Chọn mẫu:
Thời gian xác định các láng giềng gần nhất phụ thuộc vào số
lượng mẫu huấn luyện. Trên thực tế, chúng ta không cần phải giữ lại
tất cả mẫu huấn luyện mà có thể loại bỏ một số mẫu huấn luyện dư
thừa sao cho vẫn đảm bảo phần không gian được kiểm soát bởi các
mẫu.
Chọn đặc trưng:
Trên thực tế, không phải tất cả mọi đặc trưng thu nhận được
đều được phải sử dụng, vì trong đó có các đặc trưng không liên quan,
hoặc các đặc trưng có mức độ nhiễu cao. Vì vậy, chúng ta giảm số
chiều của vector dữ liệu huấn luyện bằng cách loại bỏ bớt các đặc
trưng không liên quan, hoặc các đặc trưng có mức độ nhiễu cao để tối
ưu hóa thời gian tính khoảng cách giữa vector mẫu mới với mỗi
vector mẫu có sẵn trong dữ liệu huấn luyện.


Lý Thành ( CH0601069 ) 17
)|| |||(|),(
22
22
2
11 pp j
x
i
x
j
x
i
x
j
x
i
xjid
−++−+−=
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
Hình 6. Vấn đề giảm số chiều và số mẫu trong k-NN
Chọn lọc mẫu trong NN (Condensed NN)
Bài toán:
Cho D là tập các mẫu huấn luyện. Cần chọn tập con E ⊂ D sao
cho việc sử dụng E cho kết quả tốt giống như sử dụng D . Bảng 2.2
thể hiện thuật toán chọn lọc mẫu huấn luyện Condensed NN.
Bảng 2.2. Thuật toán Condensed NN
4 hình dưới đây thể hiện ví dụ về việc chọn lọc mẫu huấn luyện
(Condensed NN).
Hình (a) thể hiện việc phân hoạch không gian (thành 2 lớp) với 100 mẫu

huấn luyện.
Các hình (b), (c) và (d) mặt phân cách giữa 2 lớp vẫn không thay đổi (so với
trường hợp dùng 100 mẫu huấn luyện), nhưng số mẫu cần giữ lại được giảm
đi đáng kể.
Lý Thành ( CH0601069 ) 18
Chọn ngẫu nhiên x ∈ D,
D ← D \ {x}, E ← {x},
DO
learning? ← FALSE,
FOR EACH y ∈ D
Phân loại y bằng NN sử dụng E,
IF phân loại không chính xác
THEN E ← E ∪ {y},
D ← D \ {y},
learning? ← TRUE,
WHILE (learning? ≠ FALSE)
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
(a) 2 phân lớp với 100 mẫu (b) 2 phân lớp với 13 mẫu
(c) 2 phân lớp với 13 mẫu (d) 2 phân lớp với 8 mẫu
Thuật toán Láng giềng gần nhất có trọng số theo khoảng cách
Thuật toán Láng giềng gần nhất có trọng số theo khoảng cách
(distanceweighted nearest neighbor) là một cải tiến của thuật toán k-NN,
trong đó, mỗi mẫu trong số k đối tượng lân cận gần nhất với mẫu truy vấn sẽ
có trọng số nghịch biến với khoảng cách của chúng đối với điểm truy vấn xq.
Như vậy, mẫu càng gần thì trọng số càng lớn, mẫu càng xa thì trọng số càng
nhỏ.
Lý Thành ( CH0601069 ) 19
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
Cải tiến tốc độ xử lý của phương pháp kNN
Phương pháp Bucketing

Hình 7. Kỹ thuật Bucketing
Phương pháp Bucketing còn gọi là phương pháp Elias [Welch 1971].
Trong phương pháp này, không gian được chia thành các ô bằng nhau; trong
mỗi ô, các mẫu dữ liệu được lưu trữ dưới dạng danh sách. Hình 10 minh họa
kỹ thuật Bucketing Các ô được xét theo thứ tự khoảng cách đến điểm truy
vấn tăng dần. Mỗi điểm mẫu huấn luyện trong ô được xét sẽ được tính
khoảng cách với điểm cần truy vấn.
Quá trình tìm kiếm k-láng giềng gần nhất sẽ dừng khi khoảng cách từ
điểm truy vấn đến ô sẽ xét vượt quá khoảng cách từ điểm truy vấn đến mẫu
gần nhất thứ k.
Phương pháp Cây k-d
Cây k-d [Bentley 1975, Friedman et al 1977] là sự tổng quát hóa cây tìm
kiếm nhị phân trong không gian nhiều chiều. Mỗi nút trung gian trên cây tương
ứng với một khối hộp (hyper-rectangle) và một siêu phẳng vuông góc với một
trục tọa độ. Siêu phẳng này sẽ chia khối hộp thành hai phần, mỗi phần tương
ứng với một nút con. Quá trình phân hoạch không gian này sẽ dừng khi số lượng
điểm mẫu trong khối hộp dưới một ngưỡng cho trước.
Lý Thành ( CH0601069 ) 20
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
Cây k-d giúp phân hoạch không gian mẫu đa chiều theo phân bố mẫu trong
không gian. Vùng không gian càng nhiều mẫu sẽ được phân hoạch mịn hơn. Với
mỗi điểm truy vấn, trước tiên, chúng ta xác định khối hộp (tương ứng với nút lá
trên cây) chứa điểm truy vấn, sau đó, xét các điểm mẫu trong khối hộp này, tiếp
đến là các khối hộp lân cận đến khi có đủ k láng giềng gần nhất.
Hình 8 và Hình 9 lần lượt minh họa cây k-d trong trường hợp 2 chiều và 3
chiều.
nh 11.


Hình 8 minh họa cây k-d (trường hợp 2 chiều)

Lý Thành ( CH0601069 ) 21
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
Hình 9 minh họa cây k-d (trường hợp 3
chiều)
Ví dụ áp dụng
Các ví dụ được trình bày trong phần này được trích từ tài liệu giảng dạy môn
Applied Artificial Intelligence Course của GS. Pádraig Cunningham,
Department of Computer Science, The University of Dublin, Ireland .
( />Ví dụ 1:
Lý Thành ( CH0601069 ) 22
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
(a) (b) (c)
Hình 10. Ví dụ 1 áp dụng k-NN
Giả sử ta có 3 lớp phân tách không tuyến tính như trong Hình 10(a). Cho mẫu huấn
luyện như trong Hình 10(b). Khi sử dụng k-NN với k=5, ta có vùng quyết định được
thể hiện như trong Hình 10(c).
Ví dụ 2:
Giả sử có 3 lớp phân tách không tuyến tính như trong Hình 11(a). Cho các mẫu
huấn luyện như trong Hình 11(b).
Lý Thành ( CH0601069 ) 23
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
(a) (b)
Hình 11.Ví dụ 2 áp dụng k-NN
1-
NN
(a) (b)
Lý Thành ( CH0601069 ) 24
Ứng dụng các thuật toán gom cụm mờ, Xich MarKov để phân loại và dự báo kẹt xe
5-
NN

(c) (d)
20-
NN
(e) (f)
Hình 12. Vùng quyết định khi sử dụng k-NN với các giá trị k khác nhau
Lý Thành ( CH0601069 ) 25

×