20 P h â n l o ạ i
20.1 Giới thiệu
Trong nhiều ứng dụng xử lí ảnh, kích cỡ và hình dạng của
các phần tử như bong bong, trạng thái mù, giọt, chất màu,
nhân tế bào phải được phân tích. Trong những trường hợp
này, các tham số cần quan tâm được định nghĩa rõ ràng và
có thể được đo trực tiếp từ các ảnh chụp được. Chúng ta xác
định vùng và hình dạng của mỗi phân tử mà chúng được
phát hiện bằng các phương pháp trong phần 19.5.1 và 19.3.
Biết được các tham số này sẽ cho phép tất cả các câu hỏi
cần quan tâm có thể được trả lời. Từ dữ liệu thu thập được,
chúng ta có thể tính tốn ví dụ histogram của vùng phần tử
(hình 20.1.c). Ví dụ này là điển hình đối với một lớp rộng
các ứng dụng khoa học. Các tham số đối tượng có thể được
đánh giá một cách trực tiếp và rõ ràng từ dữ liệu hình ảnh
giúp trả lời các câu hỏi khoa học đưa đưa ra.
Các ứng dụng khác phức tạp hơn yêu cầu phân biệt các lớp
đối tượng khác nhau trong một ảnh. Trường hợp dễ nhất và
điển hình được đưa ra là nhiệm vụ kiểm tra cơng nghiệp.
Kích cỡ của một đối tượng được kiểm tra có trong phạm vi
dung sai cho phép khơng? Có phần nào bị bỏ sót? Có sai
hỏng nào ví dụ như các vết xước khơng? Dựa trên kết quả
phân tích kiểm tra, đối tượng này có thể là được xác nhận
đạt hoặc được coi là bị lỗi.
Việc gán các đối tượng trong ảnh tới một lớp nhất định
nào đó (giống như các khía cạnh khác trong phân tích và xử
lí ảnh) là một vấn đề học thuật thực sự mà nó khơng chun
biệt cho phân tích ảnh nhưng là một kĩ thuật rất thơng dụng.
Về điều này, viêc phân tích ảnh là một phần của lĩnh vực
nghiên cứu nhận dạng mẫu. Một ứng dụng cổ điển của nhận
dạng mẫu mà mọi người đều biết là nhận dạng tiếng nói.
Các từ được nói ra được chứa trong một tín hiệu ấm thanh
1D (một chiều) . Ở đây việc phân loại là để nhận ra âm vị,
từ và cấu của ngồn ngữ nói. Nhiệm vụ tương ứng trong xử lí
ảnh là nhận dạng văn bản (text recognition), nhận dạng chữ
cái và từ của một đoạn văn bản, việc nhận dạng chữ cái và
từ của một đoạn văn bản cũng được biết như nhận dạng kí
tự quang học (optical character recognition - OCR)
a
b
Hình 20.1: Các bước phân tích phân bố kích cỡ của phần tử
(hạt đậu): a- Ảnh gốc,b- ảnh nhị phân, và c- Phân bố vùng
Một khó khăn chung trong phân loại liên quan đến một thực
tế là mỗi quan hệ giữa các tham số quan tâm và dữ liệu ảnh
là không hiển nhiên, rõ ràng. Các đối tượng được phân loại
không liên quan trực tiếp đến một dải nhất định các giá trị
của một đặc điểm nhưng phải được xác định bởi đặc trưng
quang học của nó trong ảnh. Cho ví dụ chúng ta có thể phân
biệt hạt đậu, hạt tiêu khơ và các hạt hoa hướng dương trong
hình 20.2? Mối liên quan giữa các đặc trưng quang học và
các lớp đối tượng cần một nghiên cứu cẩn thận. Chúng ta
minh họa mối quan hệ phức tạp giữa các đặc điểm đối tượng
và đặc trưng quang học của nó với hai ví dụ.
Hình 20.2:Nhiệm vụ phân loại: Hạt nào là hạt tiêu, hạt đậu hạt
hướng dương hay không hạt nào trong ba loại hạt trên. A- ảnh
gốc và B ảnh nhị phân sau khi phân đoạn
Tình trạng cây cối bị tàn lụi bởi môi trường (Waldsterben Sự hủy hoại rừng trên diện rộng bởi mưa axit và các ô
nhiễm môi trường) là một trong nhiều vấn đề lớn mà các nhà
khoa học đang phải đối măt. Trong các hệ thống cảm ứng từ
xa, nhiệm vụ của chúng là sắp xếp và phân lớp các khu vực
bị phá hủy trong rừng từ hình ảnh của vệ tinh và khơng gian.
Trong ví dụ này, mối quan hệ giữa các lớp khác nhau của
đặc điểm và hủy hoại trong các ảnh là ít rõ ràng. Các nghiên
cứu chi tiết là cần thiết để khám phá các mối quan hệ phức
tạp này. Các ảnh không gian phải được so sánh với các
nghiên cứu trên mặt đất. Chúng ta có thể cần nhiều hơn một
đặc tính để nhận biết các lớp nhất định của việc hủy họai
rừng.
Có nhiều ứng dụng tương tự trong y tế và sinh học. Một
trong các câu hỏi tiêu chuẩn trong y học là phân biệt được
giữa khỏe mạnh và bệnh tật. Lại một lần nữa, rõ ràng chúng
ta không thể trông mong một quan hệ đơn giản giữa hai lớp
đối tượng và đặc tính của của đối tượng được theo dõi trong
các ảnh.
Một ví dụ nữa được chỉ ra trong hình 20.3. Chúng ta sẽ
khơng có vấn đề gì trong việc nhận ra trong các đối tượng
thì cái nào là đèn. Làm thế nào hệ thống máy móc hình ảnh
thực hiện được nhiệm vụ này. Các đặc tính nào chúng ta có
thể rút ra từ những bức ảnh này giúp chúng ta nhận ra chiếc
đèn. Trong khi chúng ta không gặp vấn đề gì trong việc nhận
ra chiếc đèn trong hình 20.3, chúng ta cảm thấy là không thể
với câu hỏi làm thế nào thực hiện điều này dùng một chiếc
máy tính. Rõ ràng nhiệm vụ này là rất phức tạp. Chúng ta
nhận ra đèn vì chúng ta đã nhìn thấy nhiều đèn khác trước
đây và ghi nhớ trải nghiệm này. Nhưng làm thế nào những
kinh nghiệm này được lưu lại và việc so sánh này được thực
hiên. Rõ ràng là khơng chỉ cơ sở sở dữ liệu về hình dạng
hình học của đèn mà chúng ta cịn biết hồn cảnh nào hay
mơi trường nào có đèn và chúng được sử dụng làm gì.
Nghiên cứu các vấn đề thuộc loại này là một phần trong lĩnh
vực nghiên cứu trí tuệ nhân tạo (viết tắt là AI- Artificial
intellidence).
Liên quan đến các ứng dụng khoa học, kĩ thuật hình ảnh
là một phần trong động lực phát triển của khoa học tự nhiên
thực nghiệm và đang ngày càng phát triển, nó thường xuyên
xảy ra trường hợp các đối tượng không biết xuất hiện mà
không có cơ chế phân lớp nào sẵn sàng cho những đối tượng
này. Mục tiêu của xử lí hình ảnh là tìm ra các lớp có thể cho
những đối tượng mới này. Vì vậy, chúng ta cần những kĩ
thuật phân loại mà chúng khơng u cầu bất kì kiến thức gì
trước đó.
Tổng kết lại, chúng ta kết luận rằng việc phân loại bao gồm
hai chức năng cơ bản như sau:
Mối liên hệ giữa các đặc điểm của ảnh (các đặc trưng quang
học) và các lớp đối tượng được tìm kiếm phải được nghiên
cứu chi tiết nhất có thể. Chủ đề này là một phần trong lĩnh
vực khoa học tương ứng và trong việc cấu thành ảnh ví dụ
quang học như đã được tranh luận trong chương 6-8
Từ vô số các đặc điểm ảnh, chúng ta phải lựa chọn một tập
tối ưu để cho phép các lớp đối tượng khác nhau được phân
biệt một cách rõ ràng với công việc phải làm là tối thiểu và
ít lỗi nhất có thể bởi một kĩ thuạt phân lớp hợp lí. Nhiệm vụ
này được gọi là phân loại này là chủ đề của chương này.
Chúng ta ở đây chỉ đề cập đến một vài vấn đề cơ bản như
lựa chọn loại chính xác, số lượng đặc tính (phần 20.2) và
một vài kĩ thuật phân loại đơn giản (phần 20.3)
H ì n h 20.3: Làm thế nào chúng ta nhận ra tất cả nhưng chỉ
một trong những đối tượng là đèn.
20.2 Khơng gian đặc tính
20.2.1 Phân loại dựa trên đối tượng ngược với dựa trên
pixel
Có thể phân biệt hai loại thủ tục phân lớp bao gồm phân lớp
dựa trên pixel và phân lớp dựa trên đối tượng. Trong một số
trường hợp phức tạp, sự phân đoạn các đối tượng khơng thể
dùng một đặc điểm . Khi đó nó u cầu sử dụng nhiều đặc
điểm và một tiến trình phân loại để quyết định pixel nào
thuộc về loại đối tượng nào.
Sự phân loại dựa trên đối tượng đơn giản hơn nhiều có thể
được sử dụng nếu các đối tượng khác nhau có thể tách ra từ
nền và khơng chạm hay đè lên nhau. Việc phân loại dựa trên
đối tượng nên được sử dụng nếu có thể vì số lượng dữ liệu
cần được xử lí ít hơn nhiều. Tồn bộ các đặc điểm dựa trên
pixel được tranh luận trong chương 11-15 như giá trị xám
trung bình, định hướng cục bộ, số sóng cục bộ, biến thể giá
trị xám, có thể được tính trung bình trên tồn bộ vùng của
đối tượng và được sử dụng như các đặc trưng miêu tả đặc
tính đối tượng. Thêm nữa, chúng ta có thể dùng tồn bộ các
tham số miêu tả hình dạng của đối tượng đã được nói đến
trong chương 19. Thỉnh thoảng, việc áp dụng cả hai quá
trình phân loại được yêu cầu. Đầu tiên, phân loại dựa trên
pixel để tách đối tượng ra khỏi các đối tượng khác và nền
sau đó sử dụng phân loại dựa trên đối tượng bằng cách ứng
dụng các đặc tính hình học của đối tượng
20.2.2 Cluster
Một tập P đặc điểm tạo ra một khơng gian M kích cỡ P
được kí hiệu như khơng gian đặc tính hay khơng gian đo
đạc. Mỗi pixel hay đối tượng được biểu diễn như một vector
đặc tính trong khơng gian này. Nếu các đặc tính biểu diễn
một lớp đối tượng tốt, tât cả các vector đặc tính của đối
tượng từ lớp này có thể nằm gần nhau trong khơng gian đặc
tính. Chúng ta coi việc phân lớp như một quá trình thống kê
và gán hàm mật độ xác suất kích cỡ P tới mỗi lớp đối tượng.
Chúng ta có thể ước lượng hàm xác suất bằng cách lấy mẫu
từ một lớp đối tượng đã cho, tính tốn vector đặc tính và gia
tăng điểm tương ứng trong khơng gian đặc tính rời rạc. Thủ
tục này là một histogram kích cỡ P được khái quát hóa.
(phần 3.2.1). Khi một lớp đối tượng biểu diễn một phân bố
xác suất hẹp trong khơng gian đặc tính, chúng ta nói đến
một cluster. Nó sẽ có thể phân tách các đối tượng vào các
lớp đối tượng đã cho nếu các cluster của các lớp đối tượng
được tách rời khỏi nhau. Với những đặc điểm ít thích hợp
hơn, các cluster chồng lên nhau hoặc thậm chí tệ hơn khơng
một cluster nào có thể tồn tại. Trong trường hợp này việc
phân loại mà khơng có lỗi nào là khơng thể
20.2.3. Lựa chọn đặc tính
Chúng ta bắt đầu bằng một ví dụ, phân loại các hạt khác
nhau (trong hình 20.2) thành 3 lớp: lớp hạt tiêu, lớp hạt đậu,
lớp hạt hướng dương. Hình 20.4a, b thể hiện biểu đồ của hai
đặc tính vùng và độ lệch tâm. Trong biểu đồ vùng thể hiện
hai đỉnh, trong đồ thị độ lệch tâm thì chỉ có một đỉnh được
quan sát. Trong bất kỳ trường hợp nào, khơng đặc tính nào
trong hai đặc tính có thể một mình phân biệt được 3 lớp hạt
trên. Nếu chúng ta lấy cả hai thông số cùng nhau, chúng ta
có thể phân biệt được ít nhất hai vùng (trong hình 20.4c).
Hai lớp này có thể được nhận diện là lớp hạt tiêu và lớp hạt
đậu. Cả hai loại hạt này đều hầu như là hình trịn và vì vậy
thể hiện sự lệch tâm thấp (từ 0 đến 0.2). Do vậy, cả hai loại
hạt trên kết hợp lại thành một đỉnh trong đồ thị độ lệch tâm
hình 20.4b. Hạt hướng dương khơng tạo nên vùng dày vì
chúng biến đổi lớn trong hình dạng và kích thước. Nhưng rõ
ràng là chúng có kích cỡ tương đương với hạt đậu, do đó
chúng không đủ dùng để nhận dạng nếu chỉ dùng đặc tính
vùng.
Trong hình 20.4c, chúng ta có thể nhận diện nhiều những
đối tượng rìa ngồi. Thứ nhất, có nhiều đối tượng nhỏ với độ
lệch tâm lớn. Đó là các đối tượng có thể thấy được phần nào
của các hạt ở mép bức ảnh 20.2. Ngồi ra cịn có 5 đối tượng
lớn trong ảnh khi mà các hạt đậu chạm vào nhau tạo thành
những đối tượng ảnh lớn. Độ lệch tâm của những đối tượng
lớn này cũng lớn và có thể khơng phân biệt được chúng với
các hạt hướng dương khi dùng hai tam số đơn giản và vùng
và độ lệch tâm.
Chất lượng của đặc tính rất là quan trọng cho một sự phân
loại tốt. Điều đó nghĩa là gì? Góc độ đầu tiên, chúng ta có
thể nghĩ rằng như rất nhiều đặc tính có thể lựa chọn tốt nhất.
Nói chung, đó khơng phải là một điều đáng kể. Trong hình
20.5a, thể hiện khơng gian đặc tính một chiều của 3 lớp. Đặc
tính thứ hai khơng cần thiết để cải thiện sự phân chia như
trong hình 20.5b. Vùng thứ 2 và thứ 3 vẫn chồng lấn. Một
khảo sát hơn nữa về sự phân bổ trong khơng gian đặc tính
kết luận giải thích điều này: Đặc tính thứ 2 khơng nói cho
chúng ta biết nhiều cái mới, nó biến đổi trong sự tương quan
mạnh với đặc tính 1. Do đó, hai đặc tính là tương quan
mạnh.
Hai sự việc cơ sở đáng được lưu tâm, người ta thường bỏ
qua là nhiều lớp có thể được phân biệt với một số ít tham số.
Chúng ta cho rằng, một đặc tính có thể tách biệt được hai
lớp. Vậy, 10 đặc tính có thể tách biệt được 2 10 = 1024 lớp
đối tượng. Ví dụ đơn giản này minh họa khả năng tách biệt
rất lớn với số ít các thơng số. Vấn đề cốt lõi là sự phân bố
ngang nhau của các vùng trong không gian đặc tính. Từ đó,
điều đó rất quan trọng để tìm ra đúng các đặc tính, ví dụ
nghiên cứu mối quan hệ giữa các đặc tính của đối tượng và
các đặc tính của hình ảnh một cách cẩn thận.
20.2.4. Sự khác biệt của các lớp trong khơng gian đặc
tính.
Ngay cả nếu chúng ta có những tính năng tốt nhất có thể có
thì vẫn có các lớp học không thể được tách ra. Trong trường
hợp như vậy, nó ln ln là giá trị nhắc nhở chúng ta rằng
tách các đối tượng trong các lớp học được xác định cũng chỉ
là một mơ hình thực tế
Thơng thường, việc chuyển từ lớp này sang lớp khác có thể
khơng phải là đột ngột mà phải dần dần. Ví dụ, bất thường
trong một phần tử có thể xuất hiện biến đổi với một mức độ
khác nhau, ở đó khơng là hai lớp riêng biệt, "bình thường"
và "khơng hợp lý", mà là một sự chuyển tiếp liên tục giữa
hai lớp trên. Vì vậy, chúng ta cũng khơng thể mong đợi để
có được sự phân tách các lớp tốt trong khơng gian đặc tính
trong mỗi trường hợp. Chúng ta có thể rút ra hai kết luận.
Đầu tiên, nó khơng được bảo đảm rằng chúng ta sẽ có được
sự phân tách tốt giữa các lớp trong khơng gian đặc tính,
ngay cả khi các đặc tính tối ưu đã được lựa chọn. Thứ hai,
tình trạng này có thể buộc chúng ta phải xem xét lại phân
loại đối tượng. Hai lớp đối tượng có thể hoặc trong thực tế
là trong một lớp hoặc trong kỹ thuật trực quan để phân biệt
chúng có thể là không đầy đủ.
Trong một ứng dụng quan trọng khác, nhận dạng ký tự
quang học hay OCR, chúng ta có các lớp riêng biệt. Mỗi ký
tự là một lớp được xác định tốt. Trong khi đó là dễ dàng để
phân biệt hầu hết các chữ cái, một số, ví dụ 'O' hoa và con
số "0", hoặc các chữ cái 'I' và 'l' và các con số '1 ', rất giống
nhau,nghĩa là, nằm gần nhau trong khơng gian đặc tính
(hình 20.6). Một phân lớp tốt vậy mà hầu như cũng khơng
phân biệt các tính đặc tính, đặt ra vấn đề nghiêm túc cho
nhiệm vụ phân loại lớp.
Làm thế nào chúng ta có thể phân biệt chữ lớn 'O' từ con số
"0" hoặc 'l' và 'I' hoa? Chúng ta có thể đưa ra hai câu trả lời
cho câu hỏi này. Đầu tiên, các phơng chữ có thể được thiết
kế lại để làm cho chữ cái phân biệt tốt hơn giữa chúng. Thật
ra, các bộ phông chữ đặc biệt đã được thiết kế cho nhận
dạng ký tự tự động.
Thứ hai, thông tin bổ sung có thể được đưa vào phân loại
quá trình. Tuy nhiên, điều này địi hỏi việc phân loại không
lại ở cấp độ cá nhân các chữ cái, mà nó phải được cải tiến ở
trong mức từ.
Sau đó, nó rất dễ dàng để thiết lập các quy tắc tốt hơn trong
nhận
dạng.
Một
quy
tắc
đơn
giản
giúp phân biệt chữ 'O' từ con số "0" là chữ cái và con số
không được trộn lẫn trong một từ. Như một ví dụ bộ đếm
cho quy tắc này, mã bưu điện Anh hay Canada có chứa một
sự pha trộn chữ cái và con số. Bất cứ ai là người không được
đào tạo để đọc sự hỗn hợp pha trộn khơng bình thường này
đều có thể có vấn đề nghiêm trọng trong việc đọc và ghi nhớ
chúng. Như một ví dụ khác, chữ cái viết hoa có thể được
phân biệt chữ thường 'l' của bằng quy tắc là chữ in hoa chỉ ở
đầu từ đầu tiên trong một từ hoặc trong một đoạn văn.
Chúng ta khép lại phần này với bình luận rằng yêu cầu xem
một phân loại có thể có vấn đề nhất định hoặc bởi bản chất
của nó hoặc bởi loại của đặc tính có thể là ít quan trọng
nhất, nếu khơng, tốt hơn là lựa chọn thích hợp của một
phương pháp phân loại.
20.2.5 Biến đổi trục cơ sở.
Các cuộc thảo luận trong phần trước đề xuất rằng chúng ta
phải chọn tính năng đối tượng rất cẩn thận. Mỗi tính năng
mang lại những thơng tin mới là trực giao với những gì
chúng ta đã biết về lớp đối tượng. Nghĩa là, các lớp đối
tượng với một phân bố tương tự trong một đặc tính nên
khơng có sự ltuowng quan với tính năng khác. Nói cách
khác, các đặc tính nên khơng có tương quan. Mối tương
quan của các đặc tính có thể được nghiên cứu với phương
pháp thống kê được thảo luận trong phần 3.3 và giả sử phân
phối của các đặc tính của các lớp khác nhau đã được biết (có
giám sát phân loại).
Một con số quan trọng là hiệp phương sai chéo (crosscovariance) của của hai tính năng mp và mq từ vector đặc tính
P-chiều cho một lớp đối tượng, được định nghĩa là:
Cpq =
Nếu Cpq = 0 thì khẳng định rằng khơng có hiệp phương sai
chéo, hay là trực quan.
Biến số: Cpp =
là một phương pháp biến số cửa đặc tính. Một đặc tính tốt
cho một số lớp đối tượng sẽ hiển thị một phương sai nhỏ cho
thấy một phần mở rộng nhỏ trong vùng phương hướng
tương ứng của khơng gian tính năng. Với đặc tính P, chúng
ta có thể hình thành một ma trận đối xứng với các hệ số Cpq,
ma trận hiệp phương sai.
Các phần tử trong đường chéo của ma trận hiệp phương sai
có chứa các hiệp phương sai của đặc tính P, trong khi các
yếu tố không thuộc đường chéo tạo thành hiệp phương sai
chéo. Giống như tất cả các ma trận đối xứng, có thể làm
chéo hóa ma trận hiệp phương sai. Thủ tục này được gọi là
biến đổi trục cơ sở. Các ma trận hiệp phương sai trong các
tọa độ trục cơ sở:
Chéo hóa cho thấy chúng ta có thể tìm thấy một hệ thống tọa
độ mới trong đó tất cả các tính năng khơng tương quan.
Những tính năng mới là sự kết hợp tuyến tính của các tính
năng cũ và các đặc tính trong ma trận hiệp phương sai các
đặc tính. Các giá trị riêng tương ứng là phương sai của
chuyển đổi tính năng. Các tính năng tốt nhất cho thấy gia trị
của phương sai thấp nhất; giá trị phương sai lớn khơng có
tác dụng nhiều vì chúng phân tán rộng khơng gian đặc tính,
do đó, khơng đóng góp nhiều để tách các lớp đối tượng khác
nhau. Vì vậy, chúng có thể được bỏ qua mà khơng làm cho
phân loại kém hơn.
Một ví dụ minh họa đơn giản là trường hợp hai tính năng
gần như giống hệt nhau, như minh họa trong hình. 20,7.
Trong ví dụ này, các tính năng m1 and m2 cho một lớp đối
tượng là gần như giống hệt nhau, vì tất cả các điểm trong
khơng gian đặc tính gần với đường chéo chính và cả hai tính
năng hiển thị một phương sai lớn. Trong hê trục chính m’ 2 =
m2 - m1 lại là một đặc tính tốt vì nó cho thấy một phân bố
hẹp, trong khi m’1 là như vô dụng như m1 và m2 khi riêng
một mình. Vì vậy chúng ta có thể làm giảm chiều của khơng
gian đặc tính hai chiều mà khơng có một bất lợi nào.
Bằng cách này, chúng ta có thể sử dụng biến đổi trục cơ sở
để giảm kích thước của khơng gian tính năng và tìm thấy
một tập hợp nhỏ các tính năng hiện tốt. Điều này địi hỏi
một phân tích ma trận hiệp phương sai của các lớp đối
tượng. Chỉ có những tính năng nào có thể được bỏ qua trong
phân tích cho tất cả các lớp và cho một kết qủa tương tự. Để
tránh hiểu lầm, biến đổi trục cơ sở không thể cải thiện chất
lượng trong phân biệt các lớp. Nếu một tập hợp các đặc tính
khơng thể tách rời hai lớp, thì các đặc tính thiết lập được do
chuyển đổi hệ trục cơ sở cũng sẽ không làm được . Vậy, với
một tập hợp các tính năng, chúng ta chuyển đổi để chỉ tìm ra
một tập hợp tối ưu, do đó làm giảm chi phí tính tốn phân
loại.
20.2.6 Phân loại ảnh có giám sát và khơng có giám sát
Chúng ta có thể coi vấn đề phân loại ảnh là phân tích cấu
trúc khơng gian đặc tính. Một đối tượng được xem như một
mẫu trong khơng gian đặc tính. Thơng thường chúng ta có
thể phân biệt giữa phương pháp phân loại có giám sát và
phân loại khơng có giám sát. Giám sát: Trong phương pháp
phân loại có giám sát nghĩa là xác định nhóm trong khơng
gian đặc tính với đối tượng đã biết trước sử dụng cách cho
học xác định các nhóm này. Sau đó chúng ta biết số loại và
vị trí của chúng và kích thước trong khơng gian đặc tính.
Với phân loại khơng giám sát thì coi như không biết về đối
tượng được phân loại. Chúng ta tính tốn mẫu trong khơng
gian đặc tính từ đối tượng chúng ta muốn phân loại và sau
đó thực hiện phân tích các cluster đó trong khơng gian đặc
tính. Trong trường hợp này chúng ta thậm chí khơng biết
trước về số lớp. Kết quả chúng ta có được số cluster được
tách biệt trong khơng gian đặc tính. Rõ ràng phương pháp
này có tính khách quan hơn nhưng kết quả của nó có thể
kém thuận lợi cho sự phân tách.
Cuối cùng chúng ta nói về phương pháp tự học nếu khơng
gian đặc tính được cập nhật bởi các đối tượng mới khác khi
phân loại. Phương pháp học có thể bù đắp dần vào tính
năng của đối tượng. Phải cập nhật đối tượng bởi vì các lý do
đơn giản như thay đổi trong chiếu sáng mà điều này thường
xuyên xẩy ra trong môi trường công nghiệp bởi ánh sáng
ban ngày, bám bẩn trong hệ thống chiếu sáng.
20.3 Kỹ thuật phân loại đơn giản
Trong phần này chúng ta sẽ thảo luận về các kỹ thuật phân
loại ảnh khác nhau. Chúng ta có thể sử dụng cả phân loại có
giám sát và khơng giám sát. Các kỹ thuật chỉ khác nhau về
phương pháp sử dụng để kết hợp các lớp với các cluster
trong không gian đặc tính (trong phần 20.2.6).
Một cluster thuộc tính được xác định bởi 1 trong 2 phương
pháp, việc xử lý phân loại thêm giống nhau với cả 2 phương
pháp. Một đối tượng mới mang đặc tính vector liên quan với
1 loại hoặc bị từ chối như loại không biết. Các kỹ thuật
phân loại ảnh khác nhau chỉ bởi cách thức các cluster được
làm mẫu trong khơng gian đặc tính.
Phổ biến cho tất cả các phân loại này là đều ánh xạ lên
khơng gian đặc tính M và không gian quyết định D. Không
gian quyết định D chứa phần tử Q tương ứng với mỗi loại nó
cũng bao gồm sự từ chối với loại cho các đối tượng không
được xác định. Trong trường hợp xác định một quyết định
trong không gian quyết định là các số nhị phân, lúc đó chỉ
một phần tử được chọn là một cịn tất cả cịn lại phải là
khơng. Nếu phân loại theo xác suất thì các tham số trong
khơng gian quyết định là các số thực sau đó tổng tất cả các
phần tử trong không gian quyết định phải là 1.
20.3.1 Phân loại theo tra cứu
Đây là kỹ thuật phân loại đơn giản nhất nhưng trong vài
trường hợp cũng tốt, vì nó khơng thực hiện mơ hình với các
cluster khi phân loại đối tượng, nên nó khơng được hồn
hảo. Phương pháp phân loại theo kiểu tra cứu rất đơn giản.
trong khơng gian đặc tính và đánh dấu các tế bào mà nằm
trong nhóm, thơng thường với số lượng tế bào đáng kể nếu
khơng thuộc bất kỳ nhóm nào thì được đánh bằng 0 .
Trong trường hợp có từ 2 cluster bị chồng lấn, chúng ta chọn
2 cluster. Đầu tiên chúng ta có thể đi vào phân loại theo xác
suât của các tế bào. Thứ 2 chúng ta chỉ rõ phân loại lỗi
không giống trong không gian vector và đánh dấu bằng 0.
Sau khi khởi tạo khơng gian đặc tính, hoạt động phân loại
đơn giản theo tra cứu (phần 10.2.2). Vector đặc tính M và
đối chiếu với bảng tra cứu xem nó thuộc lớp nào
Khơng nghi ngờ gì, đây là một kỹ thuật phân loại nhanh
chóng với u cầu một số lượng tính tốn nhỏ. Nhược điểm
của phương pháp này là đòi hỏi một dung lượng bộ nhớ lớn
cho các bảng tra cứu. Ví dụ : xác định không gian 3 chiều
với 64 điểm, yêu cầu 64x64x64 = ¼ MB của bộ nhớ, nếu
nhiều hơn 255 loại yêu cầu một byte để đủ lưu bảng tra cứu.
chúng ta có thể kết luận nhìn từ bảng kỹ thuật thì nó chỉ khả
thi cho các khơng gian ít chiều. Điều này cho thấy rằng nó
có giá trị để giảm số lượng tính năng. Ngồi ra các tính năng
với phân bố hẹp có các giá trị đặc tính cho tất cả các phân
loại sử dụng, từ đó nó phù hợp với phạm vi nhỏ, số đặc tính
nhỏ để giảm yêu cầu về bộ nhớ.
20.3.2 Phân loại theo các khung ô vuông
Phân loại kiểu khung ô vuông là mơ hình đơn giản với các
nhóm trong khơng gian thuộc tính. Một cluster của một lớp
được mơ hình bởi khung ô vuông xung quanh cluster (hình
20.8 ). Rõ ràng phương pháp khung ơ vng là mơ hình đơn
giản. Nếu chúng ta giả sử các nhóm được phân bố đa chiều
như bình thường khi ấy các nhóm có dạng hình elip. Khi đó
elip này sẽ nằm trong một ơ vng khi trục của các elip này
song song với trục của không gian thuộc tính. Trong 2 chiều
của khơng gian đặc tính ví dụ như một elip với 1 nửa trục a
và b có diện tích
cũng khơng tốt.
, chu vi ơ vng là 4ab . Điều này
Khi đặc tính tương quan với mỗi nhóm đối tượng trở nên dài
và hẹp dọc theo đường chéo trong khơng gian đặc tính, thì ơ
vng bao gồm nhiều khoảng trống và chúng dễ dàng chồng
lấn lên nhau, làm cho không thể phân loại vùng chồng lấn.
tuy nhiên tính tương quan đó có thể tránh được bằng biến
đổi trục chính ( phần 20.2.5).
Tính tốn u cầu phân loại theo các ơ vng yêu cầu vừa
phải. Với sự khác nhau về các nhóm và kích thước trong
khơng gian đặc tính. So sánh và đưa ra quyết định xem có
hay khơng vector đặc tính có thuộc nhóm đó khơng. Qua đó
tìm số nhỏ nhất của so sánh nhóm Q và kích thước P trong
khơng gian đặc tính 2PQ. Ngược lại với phân loại theo đối
chiếu chỉ tính tốn địa chỉ P, số thao tác khơng phụ thuộc
vào số nhóm.
Để kết thúc phần này ,chúng ta thảo luận vấn đề phân loại
thực tế. Hình 20.2 trình bày ảnh của 3 hạt khác nhau là hạt
hướng dương, hạt đậu lăng và hạt tiêu. Trong ví dụ đơn giản
này trình bày một số thuộc tính của chúng trong vấn đề phân
loại. Mặc dù 3 loại hạt này được xác định rõ, và cũng đảm
bảo xem xét các thuộc tính cần thiết cho q trình phân loại
,hiển nhiên nó là các tham số để có thể phân biệt thành cơng
giữa 3 loại hạt. Hơn nữa hình dạng của các hạt giống, đặc
biệt hạt hướng dương có khác biệt hình dạng đáng kể, việc
lựa chọn thuộc tính này đã được trình bày phần 20.2.3
Hình 20.8 minh họa phân loại theo ơ vng của các hạt giống
nhau từ hình 20.2 trong các hạt đậu và hướng dương sử dụng 2
vùng đặc tính khác nhau.
Diện tích
Độ lệch tâm
Số
Tổng
….
…
122
Hạt tiêu
100-300
0.0-0.22
21
Đậu lăng
320-700
0.0-0.18
67
0.25-0.65
15
Hạt dướng 530-850
dương
19
Từ chối
Bảng 20.1: Tham số và kết quả của ví dụ ơ phân loại với các hạt
trong hình 20.2 tương ứng với khơng gian đặc tính hình 20.8
Hình 20.8 minh họa phân loại theo ơ vng sử dụng diện
tích và độ lệch tâm . Hình chữ nhật đánh dấu cho sự khác
nhau của các loại. Điều kiện cho 3 ơ vng tóm tắt trong
bảng 20.1. kết quả phân loại cuối cùng hình 20.9 trình bày 4
ảnh. Trong mỗi hình ảnh chỉ có đối tượng thuộc một trong
tổng số phụ từ bảng 20.1 của mặt đánh dấu. Từ tổng của 122
đối tượng, 103 đối tượng được cơng nhận . Qua đó đối
tượng bị loại trừ chúng không thuộc một trong 3 loại bởi lý
do sau đây:
Hai hoặc nhiều hơn đối tượng nằm gần nhau khi đó xác
định được diện tích và độ lệch tâm cao .
Hình 20.9 : đánh dấu loại đối tượng từ hình 20.2 trình bày loại
hạt tiêu a, b hạt đậu lăng, c hạt hướng dương và d đối tượng
loại trừ.
Đối tượng ở bên rài của ảnh và qua đó chỉ một phần có
thể nhìn thấy.điều này dẫn đến các đối tượng sẽ có diện
tích nhỏ nhưng độ lệch tâm cao
Ba hạt hướng dương bị loại bởi vì chúng cùng diện tích
q lớn. nếu chúng ta tăng diện tích loại hạt hướng
dương thì hạt đậu lăng cũng được coi là hạt hướng
dương. Qua điều này cho thấy lỗi phân loại chỉ có thể
loại bỏ nếu chúng ta loại bỏ được sự tiếp xúc của đối
tượng với kỹ thuật phân tách cao hơn.
Hình 20.10: minh họa khoảng cách nhỏ nhất cho việc phân loại
các hạt từ hình 20.2 trong hạt tiêu , đâu lăng, và hướng dương sử
dụng 2 thuộc tính là diện tích và độ lệch tâm. Vector thuộc tính
thuộc nhóm mà nó có khoảng cách tối thiểu với tâm của nhóm
20.3.3 Phân loại theo khoảng cách tối thiểu
Phân loại theo khoảng cách tối thiểu là một cách đơn giản
khác để mơ hình cluster. Mỗi một cluster được biểu diễn bởi
tâm của chúng mq. Cơ bản trên mơ hình này chia đơn giản
khơng gian thuộc tính bằng cách tìm kiếm khoảng cách nhỏ
nhất từ vector thuộc tính tới cluster khác. Để thực hiện điều
này, chúng ta tính tốn đơn giản khoảng cách vector m tới
trung tâm của nhóm khác mq:
Thuộc tính được gán cho loại mà khoảng cách tính ngắn
nhất.
Về mặt hình học, cách phân chia khơng gian thuộc tính được
minh họa trong hình 20.10. Ranh giới giữa các mặt phẳng
trực giao từ vector kết nối với trung tâm các nhóm tại điểm
giữa khoảng cách giữa chúng.
Phân loại theo khoảng cách tối thiểu tốt hơn phân loại theo
khung vng đó là số lượng tính tốn tỉ lệ thuận với kích
thước của khơng gian thuộc tính và số nhóm. Nó là một kỹ
thuật linh hoạt có thế thay đổi theo những cách khác nhau.
Kích cỡ của nhóm có thể được thêm vào phương trình
(20.5), bằng cách này thuộc tính gần với nhóm mà kết nối
với nó. Thứ 2 là nếu chúng ta có thể xác định khoảng cách
lớn nhất giữ các nhóm. Nếu khoảng cách của thuộc tính hơn
khoảng cách lớn nhất với tất cả các nhóm cụm thì đối tượng
đó bị loại bỏ do không thuộc một loại nào được định nghĩa.
20.3.4 Phân loại theo độ hợp lệ lớn nhất
Mô hình phân loại theo mức độ hợp lệ nhất cho các nhóm
cụm là thống kê hàm mật độ. Trong trường hợp đơn giản.
thuộc tính chiều phân bố P được thực hiện. Với mơ hình này,
chúng ta tính tốn cho thuộc tính vector xác suất thuộc
nhóm P. chúng ta có thể kết hợp vector thuộc tính với các
lớp mà nó có tối đa tính hợp lệ. khía cạnh mới của kỹ thuật
này là sác xuất khả thi. Nó khơng u cầu mà chúng ta quyết
định đặt đối tượng vào trong loại nào đã biết. Chúng tôi đơn
giản cung cấp xác suất đối tượng của các nhóm khác nhau.
20.4 Bài tập
20.1 Phương pháp phân loại cơ bản
Chứng minh tính tương hỗ của các phương pháp phân loại
cơ bản.
20.2 Loại và các thuộc tính
Dưới đây là một vài nhiệm vụ phân loại. So sánh chúng và
trả lời câu hỏi sau:
1.
Làm thế nào để phân loại các loại khác nhau?
2.
Các loại có khả năng tách rời nhau hoặc
chúng chồng chéo ?
3.
Có phân cấp các loại theo cấu trúc?
4.
Các thuộc tính gì để phân biệt các nhóm khác
nhau ?
ở đây là phân loại theo nhiệm vụ:
A. Hình ảnh được lấy từ các bong bóng, ngập ở trong
nước bằng cách tạo sóng. Mục đích là đo phân bố kích
thước của bong bóng.
B. Nhiệm vụ là phân biệt các tế bào khôi u với các tế bào
khoe mạch từ ảnh thu được từ kính hiển vi.
C. Phân biệt các đối tượng điểm nhỏ trong các ngôi sao,
thiên hà, tiểu hành tinh bằng cách sử dụng ảnh chụp từ
các kính thiên văn. Các hình ảnh được thực hiện trong
10 đến 12 kênh quang phổ dải hồng ngoại nhìn thấy.
D. Nhận dạng ký tự (OCR): một hệ thống tự động đọc số
từ 0 đến 9, dấu thập phân, dấu cộng và dấu trừ.
E. Nhiệm vụ tạo dẫn hướng sử dụng bản đồ phân biệt
khu vực nhà, đường, rừng, …
Vấn đề 20.3 : yêu cầu lưu trữ và tính tốn
So sánh u cầu lưu trữ và tính tốn cho các nhiệm vụ phân
loại. giả sử bạn có 4 thuộc tính có độ phân giải 6 bít. Bốn
loại bạn biết. các kỹ thuật phân loại là:
1)
2)
3)
4)
Phương pháp tra cứu
Phương pháp khung ô vuông
Phương pháp khoảng cách tối thiểu
Phương pháp độ hợp lệ lớn nhất