Tải bản đầy đủ (.pdf) (68 trang)

NGHIÊN cứu các PHƯƠNG PHÁP PHÂN lớp đối TƯỢNG TRÊN ẢNH dựa TRÊN MULTIPLE INSTANCE LEARNING

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.11 MB, 68 trang )

ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


BÙI LÊ THUẬN

NGHIÊN CỨU CÁC PHƯƠNG PHÁP
PHÂN LỚP ĐỐI TƯỢNG TRÊN ẢNH DỰA TRÊN
MULTIPLE INSTANCE LEARNING

KHÓA LUẬN CAO HỌC
NGÀNH KHOA HỌC MÁY TÍNH
Mã số : 60480101

TP HỒ CHÍ MINH - 2016


ĐẠI HỌC QUỐC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN


BÙI LÊ THUẬN

NGHIÊN CỨU CÁC PHƯƠNG PHÁP
PHÂN LỚP ĐỐI TƯỢNG TRÊN ẢNH DỰA TRÊN
MULTIPLE INSTANCE LEARNING

KHÓA LUẬN CAO HỌC
NGÀNH KHOA HỌC MÁY TÍNH
Mã số : 60480101
NGƯỜI HƯỚNG DẪN KHOA HỌC:


TS. NGÔ ĐỨC THÀNH

TP HỒ CHÍ MINH - 2016


Lời cảm ơn

LỜI CẢM ƠN
Tôi xin chân thành cảm ơn TS. Ngô Đức Thành, thầy đã tận tình hƣớng dẫn,
giúp đỡ và đóng góp ý kiến cho tôi trong suốt quá trình thực hiện khóa luận.
Tôi xin chân thành cảm ơn các thầy, cô ở khoa Khoa học máy tính – Trƣờng
Đại học Công nghệ thông tin đã tận tình giảng dạy, truyền đạt cho tôi những kiến
thức quý báu trong quá trình học tập.
Tôi xin chân thành cảm ơn các thầy, cô và các bạn ở Phòng thí nghiệm
Truyền thông Đa phƣơng tiện – Trƣờng Đại học Công nghệ thông tin đã hỗ trợ, tạo
điều kiện thuận lợi cũng nhƣ đóng góp những ý kiến thiết thực giúp tôi hoàn thành
tốt khóa luận.
Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, những ngƣời thân yêu luôn
bên cạnh và động viên tôi trong suốt quá trình học tập và thực hiện khóa luận này.

Học viên
Bùi Lê Thuận

i


Lời cam đoan

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu độc lập của bản thân. Các số

liệu, kết quả trình bày trong luận văn này là trung thực. Những tƣ liệu đƣợc sử dụng
trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ.

Tác giả

Bùi Lê Thuận

ii


Mục lục

MỤC LỤC
LỜI CẢM ƠN ..............................................................................................................i
LỜI CAM ĐOAN ...................................................................................................... ii
MỤC LỤC ...................................................................................................................1
DANH MỤC CÁC CHỮ VIẾT TẮT .........................................................................3
DANH MỤC CÁC HÌNH VẼ ....................................................................................4
DANH MỤC CÁC BẢNG..........................................................................................6
MỞ ĐẦU .....................................................................................................................7
CHƢƠNG 1. TỔNG QUAN .......................................................................................9
1.1. Phân lớp đối tƣợng trên ảnh.............................................................................9
1.1.1. Khái niệm .................................................................................................9
1.1.2. Quá trình phân lớp..................................................................................10
1.1.3. Ứng dụng của hệ thống phân lớp ảnh ....................................................10
1.2. Mô hình máy học ...........................................................................................11
1.2.1. Phƣơng pháp học có giám sát đầy đủ .....................................................11
1.2.2. Phƣơng pháp học có giám sát yếu ..........................................................12
CHƢƠNG 2. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN ..........................14
2.1. Các phƣơng pháp biểu diễn ảnh trong mô hình phân lớp.............................. 14

2.1.1. Tình hình nghiên cứu .............................................................................14
2.1.2. Mô hình “Bag of Words” .......................................................................15
2.2. Các thuật toán phân lớp dựa trên MIL ...........................................................16
2.2.1. Tình hình nghiên cứu .............................................................................16
2.2.2. Lựa chọn hƣớng tiếp cận ........................................................................18
CHƢƠNG 3. MULTIPLE INSTANCE LEARNING ..............................................20
3.1. Giới thiệu .......................................................................................................20
3.2. Công thức tổng quát của MIL ........................................................................20
3.3. Support Vector Machine ................................................................................20
3.3.1. Định nghĩa .............................................................................................. 20
3.3.2. Các mô hình phân lớp SVM ...................................................................22
1


Mục lục

3.3.3. Kernel Trick ...........................................................................................25
3.3.4. Bài toán đối ngẫu....................................................................................26
3.3.5. Đánh giá .................................................................................................28
3.4. Các thuật toán tiêu biểu .................................................................................29
3.4.1. Thuật toán mi-SVM ...............................................................................29
3.4.2. Thuật toán MI-SVM ...............................................................................31
3.4.3. Thuật toán spatial-MI-SVM ...................................................................35
3.5. Các thuật toán đề xuất ...................................................................................40
3.5.1. Thuật toán top-MI-SVM ........................................................................40
3.5.2. Thuật toán top-spatial-MI-SVM ............................................................ 45
CHƢƠNG 4. THỰC NGHIỆM ................................................................................49
4.1. Môi trƣờng thực nghiệm ................................................................................49
4.1.1. Bộ dữ liệu ảnh Caltech 101 ....................................................................49
4.1.2. Công cụ ..................................................................................................49

4.2. Xây dựng bộ dữ liệu ......................................................................................49
4.2.1. Phân tách dữ liệu huấn luyện và kiểm thử .............................................49
4.2.2. Xây dựng các “bag” và “instance” .........................................................50
4.2.3. Biểu diễn ảnh ..........................................................................................52
4.2.4. Điều chỉnh bộ dữ liệu vector ..................................................................53
4.3. Xây dựng mô hình phân lớp ..........................................................................55
4.3.1. Tham số của thuật toán ..........................................................................55
4.3.2. Các bƣớc thực thi ...................................................................................55
4.4. Kết quả ...........................................................................................................56
4.4.1. Tổng quát................................................................................................ 56
4.4.2. Chi tiết ....................................................................................................58
4.4.3. Nhận xét .................................................................................................60
CHƢƠNG 5. KẾT LUẬN.........................................................................................61
TÀI LIỆU THAM KHẢO.........................................................................................62

2


Danh mục các chữ viết tắt

DANH MỤC CÁC CHỮ VIẾT TẮT
STT

Ký hiệu viết tắt

Cụm từ

1

DD


2

EM-DD

3

IS-MIL

4

MIL

5

MILES

6

MILL

7

MIPSIR

8

RBF

Multiple Instance Learning

Multiple-Instance Learning via Embedded
instance Selection
Multiple Instance Learning Library
Pairwise-Similarity-based Instance
Reduction for Multiple-Instance learning
Radial Basis Function

9

SVM

Support Vector Machine

10

SIFT

Scale Invariant Feature Transform

11

VLFeat

Diverse Density
Diverse Density with Expectation
Maximisation
Instance Selection for MIL

Vision Lab Features Library


3


Danh mục các hình vẽ

DANH MỤC CÁC HÌNH VẼ
Hình 1.1. Nhận diện sự xuất hiện của các đối tƣợng thuộc các phân lớp xác định
trong ảnh......................................................................................................................9
Hình 1.2. Mô hình tổng quan của một hệ thống phân lớp đối tƣợng ảnh ................10
Hình 1.3. Phân biệt giữa phƣơng pháp học có giám sát đầy đủ (A) và MIL (B) với
sự khác nhau trong việc gán nhãn cho dữ liệu huấn luyện. ......................................12
Hình 2.1. Quá trình xây dựng codebook trong mô hình Bag of Words. ..................15
Hình 2.2. Sơ đồ lựa chọn hƣớng tiếp cận để giải quyết bài toán phân lớp đối tƣợng
ảnh và các thuật toán sẽ trình bày trong khóa luận. ..................................................19
Hình 3.1. Siêu phẳng thực hiện phân chia tập dữ liệu thành 2 lớp trong không gian
2 chiều. ......................................................................................................................21
Hình 3.2. Tập dữ liệu bị nhiễu khi thực hiện phân lớp. ...........................................23
Hình 3.3. Ánh xạ tập dữ liệu bất khả phân tách tuyến tính từ không gian 2 chiều
sang không gian 3 chiều. ...........................................................................................24
Hình 3.4. Phân biệt 3 trƣờng hợp khi thực hiện duyệt qua tất cả các “bag” dƣơng
trong thuật toán mi-SVM. .........................................................................................30
Hình 3.5. Lựa chọn “instance” có giá trị hàm phân lớp lớn nhất làm đại diện cho
“bag” dƣơng. .............................................................................................................34
Hình 3.6. Phân vùng A và phân vùng B đƣợc xem là trùng lắp với nhau................37
Hình 3.7. Sự khác nhau trong việc lựa chọn các “instance” trong “bag” dƣơng của
cả 3 thuật toán mi-SVM, MI-SVM, spatial-MI-SVM. .............................................39
Hình 3.8. Phân biệt 3 trƣờng hợp khi thực hiện duyệt qua tất cả các “bag” dƣơng
trong thuật toán top-MI-SVM với M bằng 3. ...........................................................44
Hình 4.1. “Bag” là toàn bộ khung hình và “instance” thu thập ở lần 1 trong phần
màu xám, khung có nét chấm gạch là “instance” kế tiếp khi dịch chuyển ...............50

Hình 4.2. “Bag” là toàn bộ khung hình và “instance” thu thập ở lần 2 trong phần
màu xám, khung có nét chấm gạch là “instance” kế tiếp khi dịch chuyển ...............51
Hình 4.3. “Bag” là toàn bộ khung hình và “instance” thu thập ở lần 3 trong phần
màu xám, khung có nét chấm gạch là “instance” kế tiếp khi dịch chuyển ...............51
4


Danh mục các hình vẽ

Hình 4.4. Minh họa các tham số của thuật toán DSIFT trong vlfeat. ......................52
Hình 4.5. Tổng hợp kết quả của 5 thuật toán khi thực nghiệm trên 6 nhóm dữ liệu
có tham số “num words” là 100. ...............................................................................56
Hình 4.6. Kết quả trung bình của 6 nhóm dữ liệu có tham số “num words” là 100
trên từng thuật toán khi thực nghiệm. .......................................................................57
Hình 4.7. Tổng hợp kết quả của 5 thuật toán khi thực nghiệm trên 6 nhóm dữ liệu
có tham số “num words” là 500. ...............................................................................57
Hình 4.8. Kết quả trung bình của 6 nhóm dữ liệu có tham số “num words” là 500
trên từng thuật toán khi thực nghiệm. .......................................................................58

5


Danh mục các bảng

DANH MỤC CÁC BẢNG
Bảng 4.1. Tổng số bộ dữ liệu vector thực nghiệm....................................................54
Bảng 4.2. Tỉ lệ chính xác của các mô hình phân lớp trên dữ liệu vector nhóm 1 với
“seed” = 1 và “bin size” = 4 ......................................................................................58
Bảng 4.3. Tỉ lệ chính xác của các mô hình phân lớp trên dữ liệu vector nhóm 2 với
“seed” = 2 và “bin size” = 4 ......................................................................................58

Bảng 4.4. Tỉ lệ chính xác của các mô hình phân lớp trên dữ liệu vector nhóm 3 với
“seed” = 3 và “bin size” = 4 ......................................................................................59
Bảng 4.5. Tỉ lệ chính xác của các mô hình phân lớp trên dữ liệu vector nhóm 4 với
“seed” = 4 và “bin size” = 4. .....................................................................................59
Bảng 4.6. Tỉ lệ chính xác của các mô hình phân lớp trên dữ liệu vector nhóm 5 với
“seed” = 1 và “bin size” = 8 ......................................................................................59
Bảng 4.7. Tỉ lệ chính xác của các mô hình phân lớp trên dữ liệu vector nhóm 6 với
“seed” = 2 và “bin size” = 8 ......................................................................................59

6


Mở đầu

MỞ ĐẦU
Ảnh và video là các nguồn thông tin quan trọng nhất hiện nay đƣợc tiếp
nhận, xử lý và lƣu trữ. Khối lƣợng ảnh và video tăng nhanh, hiện đã vƣợt quá khả
năng xử lý thủ công của con ngƣời. Phân lớp đối tƣợng trên ảnh là vấn đề cốt lõi
cần phải giải quyết để xây dựng nhiều ứng dụng thực tế về quản lý, sử dụng, phân
tích tự động thông tin hình ảnh và video. Tuy đã đƣợc cộng đồng khoa học tập trung
nghiên cứu trong thời gian gần đây, kết quả của các phƣơng pháp tốt nhất hiện tại
vẫn chỉ giới hạn trong các tập dữ liệu thí nghiệm nhất định. Để đáp ứng đƣợc nhu
cầu thực tiễn, đạt đƣợc độ chính xác cao với dữ liệu ngoài thực tế thì vẫn còn một
khoảng cách khá xa, tồn tại nhiều vấn đề cần giải quyết.
Việc xây dựng các mô hình máy học hiệu quả đóng vai trò to lớn trong các
hệ thống phân lớp. Hiện nay, các hệ thống phân lớp đối tƣợng dựa trên phƣơng
pháp học có giám sát đầy đủ có độ chính xác tƣơng đối cao tuy nhiên rất khó khăn
trong việc xây dựng bộ dữ liệu huấn luyện vì yêu cầu chi phí cao. Bên cạnh thông
tin về sự xuất hiện của đối tƣợng cũng cần thực hiện chú thích một cách thủ công để
chỉ ra vị trí của đối tƣợng trong ảnh. Trong khi đó, các hệ thống phân lớp đối tƣợng

dựa trên phƣơng pháp học với giám sát yếu chỉ cần thông tin về sự xuất hiện của
các phân lớp đối tƣợng trong ảnh huấn luyện mà không cần biết vị trí chính xác.
Các phƣơng pháp này sau đó sẽ tự động học để xác định vị trí của đối tƣợng. Một
trong những phƣơng pháp học với giám sát yếu đƣợc sử dụng rộng rãi hiện nay là
Multiple Instance Learning (MIL).
Khóa luận này sẽ tập trung nghiên cứu, phân tích các phƣơng pháp máy học
dựa trên MIL để giải quyết bài toán phân lớp nhị phân cho đối tƣợng trên ảnh, với
ba thuật toán tiêu biểu là mi-SVM, MI-SVM [1] và spatial-MI-SVM [2]. Dựa trên
kết quả phân tích, khóa luận đề xuất hai thuật toán cải tiến là top-MI-SVM và topspatial-MI-SVM. Tất cả các thuật toán này đều sẽ đƣợc tiến hành thử nghiệm trên
bộ dữ liệu Caltech-101 [3] và kết quả thực nghiệm cho thấy các phƣơng pháp đề
xuất đã giúp nâng cao độ chính xác phân lớp.
Nội dung của khóa luận gồm 5 chƣơng sau :
7


Mở đầu

 Chƣơng 1 : Trình bày các kiến thức tổng quan về bài toán phân lớp đối
tƣợng trên ảnh với những ứng dụng quan trọng trong thực tiễn cũng nhƣ hai mô
hình máy học đƣợc sử dụng để giải quyết bài toán.
 Chƣơng 2 : Trình bày các công trình nghiên cứu nổi bật trong những năm
gần đây liên quan đến việc biểu diễn ảnh trong mô hình phân lớp và các thuật toán
phân lớp sử dụng MIL.
 Chƣơng 3 : Trình bày chi tiết về các thuật toán tiêu biểu theo hƣớng tiếp
cận MIL gồm mi-SVM, MI-SVM và spatial-MI-SVM, đồng thời đề xuất hai thuật
toán mới là top-MI-SVM và top-spatial-MI-SVM. Bên cạnh đó, các kiến thức nền
tảng về SVM cũng đƣợc trình bày trong chƣơng này.
 Chƣơng 4 : Trình bày quá trình thực nghiệm tất cả các thuật toán đã tìm
hiểu ở chƣơng 3 trên bộ dữ liệu Caltech-101 nhằm đánh giá và phân tích mức độ
chính xác của các thuật toán.

 Chƣơng 5 : Tổng kết lại những nội dung chính của khóa luận và đề xuất
những hƣớng nghiên cứu tiếp theo.

8


Chƣơng 1. Tổng quan

CHƢƠNG 1. TỔNG QUAN
1.1. Phân lớp đối tƣợng trên ảnh
1.1.1. Khái niệm
Bài toán phân lớp đối tƣợng trên ảnh đƣợc mô tả nhƣ sau: cho trƣớc một tập
ảnh huấn luyện chứa các đối tƣợng thuộc các phân lớp xác định, nhận diện sự xuất
hiện của các đối tƣợng thuộc các phân lớp cho những bức ảnh mới đƣa vào.

Hình 1.1. Nhận diện sự xuất hiện của các đối tƣợng
thuộc các phân lớp xác định trong ảnh

Nhƣ vậy, nhiệm vụ của bài toán phân lớp đối tƣợng trên ảnh là cần xây dựng
mô hình phân lớp để khi có một ảnh mới vào thì mô hình phân lớp sẽ cho biết ảnh
đó thuộc lớp đối tƣợng nào. Phân lớp đối tƣợng ảnh có các loại sau :
- Phân lớp nhị phân là quá trình tiến hành việc phân ảnh vào một trong hai
lớp khác nhau.
- Phân lớp đa lớp là quá trình phân lớp với số lƣợng lớp lớn hơn hai. Tập hợp
ảnh trong miền xem xét đƣợc phân chia thành nhiều lớp chứ không đơn thuần chỉ là
hai lớp nhƣ trong bài toán phân lớp nhị phân. Về bản chất, bài toán phân lớp nhị
phân là trƣờng hợp riêng của bài toán phân lớp đa lớp.
- Phân lớp đa trị là mỗi ảnh trong tập huấn luyện cũng nhƣ các ảnh mới sau
khi đƣợc phân lớp có thể thuộc vào từ hai lớp trở lên.
Có nhiều phƣơng pháp phân lớp đối tƣợng để giải quyết bài toán phân lớp

tùy thuộc vào cách thức xây dựng mô hình phân lớp.
9


Chƣơng 1. Tổng quan

Sau quá trình huấn luyện nếu độ chính xác của bộ phân lớp cao thì thuật toán
huấn luyện đƣợc đánh giá là tốt. Một mô hình phân lớp đƣợc xem là tốt phải có chi
phí thực thi thấp và độ chính xác cao.
1.1.2. Quá trình phân lớp
Các hệ thống phân lớp đối tƣợng ảnh hiện nay thƣờng gồm hai giai đoạn
chính là huấn luyện (training) và kiểm chứng (testing).

Hình 1.2. Mô hình tổng quan của một hệ thống phân lớp đối tƣợng ảnh

 Giai đoạn 1 : Huấn luyện (Training) :
- Đặc trƣng thị giác (visual features) đƣợc rút trích từ các ảnh huấn luyện.
Việc lựa chọn các đặc trƣng thích hợp sẽ giúp tăng tốc độ và mức độ chính xác của
hệ thống. Do đó, việc rút trích đặc trƣng cần đƣợc xem xét và chọn lựa các thuật
toán phù hợp.
- Các mô hình máy học (learning model) sẽ đƣợc huấn luyện dựa trên các
đặc trƣng thị giác đƣợc rút trích và nhãn của tập ảnh huấn luyện. Nhãn của mỗi ảnh
huấn luyện cho biết đối tƣợng thuộc phân lớp nào xuất hiện trong ảnh. Với một số
phƣơng pháp, nhãn còn cần bao gồm thông tin về vị trí chính xác của đối tƣợng.
 Giai đoạn 2 : Kiểm chứng (Testing)
- Đặc trƣng thị giác đƣợc rút trích từ ảnh mới do ngƣời dùng cung cấp. Đặc
trƣng này sau đó đƣợc đƣa vào các mô hình máy học đã đƣợc huấn luyện để nhận
biết sự xuất hiện của các phân lớp đối tƣợng dựa trên đặc trƣng toàn cục hoặc cục
bộ của ảnh.
1.1.3. Ứng dụng của hệ thống phân lớp ảnh

Các ứng dụng quan trọng của hệ thống phân lớp đối tƣợng ảnh trong thực tế
10


Chƣơng 1. Tổng quan

cuộc sống :
- Tìm kiếm ảnh và video theo phân lớp các đối tƣợng : ngƣời dùng cho hệ
thống truy vấn biết phân lớp đối tƣợng quan tâm, hệ thống sẽ tự động nhận diện sự
xuất hiện của các đối tƣợng thuộc phân lớp đó trong cơ sở dữ liệu ảnh hoặc video
và trả về kết quả tƣơng ứng.
- Phân tích video giám sát phục vụ an ninh quốc phòng : tự động phát hiện sự
xuất hiện của ngƣời, xe máy, xe hơi, phƣơng tiện quân sự, công trình quốc phòng
trong ảnh hoặc video do thám.
- Tự động phân tích và đánh chỉ mục cơ sở dữ liệu ảnh và video tài liệu có
kích thƣớc lớn theo phân lớp cho trƣớc.
- Phân tích ảnh y khoa : nhận biết sự hiện diện của các khối u, các dị tật.
Với các đóng góp quan trọng trên, phân lớp đối tƣợng ảnh đã trở thành một
công cụ không thể thiếu trong cuộc sống hiện tại phục vụ trong mọi lĩnh vực đời
sống, giúp con ngƣời có thể xử lý một khối lƣợng ảnh đang tăng lên một cách nhanh
chóng do sự phát triển mạnh mẽ của công nghệ ảnh số.
1.2. Mô hình máy học
Việc lựa chọn mô hình máy học hợp lý là yếu tố quan trọng quyết định độ
chính xác trong việc phân lớp đối tƣợng. Hai phƣơng pháp đƣợc sử dụng chủ yếu để
giải quyết bài toán phân lớp đối tƣợng ảnh là phƣơng pháp học có giám sát đầy đủ
(fully supervised learning) và phƣơng pháp học có giám sát yếu (weakly supervised
learning).
1.2.1. Phương pháp học có giám sát đầy đủ
Đây là phƣơng pháp phổ biến đƣợc sử dụng rộng rãi trong các thuật toán
phân lớp, trong đó mỗi đối tƣợng trong bộ dữ liệu huấn luyện đều đƣợc gán nhãn rõ

ràng và không có đối tƣợng nào không đƣợc gán nhãn.
Với phƣơng pháp học có giám sát đầy đủ, việc thực hiện phân lớp đối tƣợng
ảnh đồng thời chỉ rõ phân vùng chứa đối tƣợng đòi hỏi bộ dữ liệu huấn luyện phải
đƣợc gán nhãn chính xác trên phân vùng ảnh có chứa đối tƣợng. Điều này làm cho
quá trình chuẩn bị dữ liệu huấn luyện tốn rất nhiều tài nguyên và công sức do hiện
nay việc gán nhãn này vẫn đƣợc thực hiện một cách thủ công.

11


Chƣơng 1. Tổng quan

1.2.2. Phương pháp học có giám sát yếu
Để giảm bớt chi phí trong việc huấn luyện trên, phƣơng pháp học có giám sát
yếu đƣợc đề xuất. Phƣơng pháp này chỉ cần thông tin về sự xuất hiện của các phân
lớp đối tƣợng trong ảnh huấn luyện mà không cần biết vị trí chính xác, sau đó sẽ tự
động học để xác định vị trí của đối tƣợng. Một trong những phƣơng pháp học có
giám sát yếu đƣợc sử dụng rộng rãi hiện nay là Multiple Instance Learning (MIL).
MIL đƣợc xem là phƣơng pháp mang tính tổng quát hóa của quá trình học có
giám sát đầy đủ. Dữ liệu huấn luyện phân lớp trong phƣơng pháp MIL đƣợc chia
thành nhiều cụm và mỗi cụm dữ liệu nhƣ vậy sẽ gồm có nhiều “instance”, không có
sự dùng chung “instance” giữa các cụm dữ liệu. Hay nói cách khác, dữ liệu sẽ chia
thành nhiều “bag”, mỗi “bag” chứa các “instance” và nhãn đƣợc gán cho từng “bag”
một cách tƣờng minh. Bản thân “instance” cũng có nhãn nhƣng nhãn của các
“instance” đƣợc truy xuất gián tiếp thông qua nhãn của “bag”.
Trong phạm vi báo cáo khóa luận, ta chỉ xét đến bài toán phân lớp nhị phân
trong MIL và việc gán nhãn cho các “instance” đƣợc thực hiện theo quy tắc sau :
- “Bag” mang nhãn (-) thì tất cả các “instance” trong “bag” đó sẽ đều mang
nhãn (-).
- “Bag” mang nhãn (+) thì có ít nhất một “instance” trong “bag” đó mang

nhãn (+).

Hình 1.3. Phân biệt giữa phƣơng pháp học có giám sát đầy đủ (A) và MIL (B)
với sự khác nhau trong việc gán nhãn cho dữ liệu huấn luyện.

Trong quá trình huấn luyện, MIL sẽ thực hiện việc gán nhãn cho các
“instance” trong “bag” mang nhãn (+) đồng thời xây dựng mô hình phân lớp. Bộ dữ
liệu kiểm thử sẽ sử dụng mô hình phân lớp để gán nhãn cho các “bag” và các
“instance” chứa trong “bag”.
Quy tắc trên không mang tính đối xứng và dựa trên quy tắc này ta cũng thấy
đƣợc thách thức lớn nhất trong phƣơng pháp MIL nằm ở chỗ xác định các nhãn cho
12


Chƣơng 1. Tổng quan

các “instance” trong “bag” mang nhãn (+). Nhƣ hình 1.3, chúng ta chỉ biết có ít nhất
một “instance” mang nhãn (+) nhƣng không thể biết chính xác là có bao nhiêu
“instance” nhƣ vậy và bao nhiêu “instance” mang nhãn (-).
Trong trƣờng hợp mỗi “bag” chỉ có một “instance” duy nhất thì phƣơng pháp
MIL và phƣơng pháp học có giám sát đầy đủ là tƣơng đƣơng nhau.
 Phân lớp đối tƣợng ảnh trong MIL
Khi áp dụng phân lớp đối tƣợng ảnh trong MIL, mỗi tấm ảnh trong tập dữ
liệu sẽ đƣợc xem là một “bag” và các phân vùng đƣợc lựa chọn ngẫu nhiên tùy ý sẽ
là các “instance”. Việc gán nhãn cho các “bag” và “instance” đƣợc tuân theo quy
luật đã nêu ở phần trên. Điều đó có nghĩa là :
- Ảnh đƣợc gán nhãn dƣơng khi có chứa đối tƣợng trong ảnh và đối tƣợng đó
có thể nằm ở bất cứ phân vùng nào.
- Ảnh đƣợc gán nhãn âm khi không chứa bất kỳ đối tƣợng cần phân lớp nào
và do đó tất cả các phân vùng trong ảnh cũng đều không chứa đối tƣợng.

Cho tập dữ liệu ảnh huấn luyện, bài toán phân lớp đối tƣợng ảnh khi áp dụng
MIL sẽ thực hiện hai việc là gán nhãn phân vùng nào của ảnh huấn luyện có chứa
đối tƣợng và phân vùng nào không chứa đối tƣợng, đồng thời xây dựng mô hình
phân lớp trên dữ liệu huấn luyện đã đƣợc gán nhãn. Bộ dữ liệu kiểm thử sẽ sử dụng
mô hình phân lớp vừa xây dựng để phân loại ra ảnh có chứa đối tƣợng và ảnh không
chứa đối tƣợng. Với các ảnh có chứa đối tƣợng, mô hình phân lớp cũng sẽ chỉ ra
phân vùng ảnh nào có chứa đối tƣợng.
Việc áp dụng MIL vào bài toán phân lớp đối tƣợng ảnh đã làm giảm nhiều
chi phí trong việc chuẩn bị bộ dữ liệu huấn luyện do loại bỏ đƣợc phần đánh dấu vị
trí chứa đối tƣợng.

13


Chƣơng 2. Các công trình nghiên cứu liên quan

CHƢƠNG 2. CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Đối với bài toán Phân lớp đối tƣợng ảnh, hai yếu tố quan trọng nhất quyết
định độ chính xác của mô hình phân lớp là :
- Cách thức biểu diễn bộ dữ liệu ảnh vào mô hình phân lớp.
- Thuật toán thực hiện việc phân lớp đối tƣợng. Trong khóa luận này, các
thuật toán sẽ đƣợc giới hạn trong phạm vi áp dụng phƣơng pháp MIL.
Ứng với từng yếu tố đã có rất nhiều công trình nghiên cứu với các hƣớng
tiếp cận khác nhau. Chúng ta sẽ điểm qua một số các phƣơng pháp tiêu biểu trong
những năm gần đây để có cái nhìn toàn cảnh cũng nhƣ xác định những hƣớng tiếp
cận phù hợp cho bài toán phân lớp ảnh.
2.1. Các phƣơng pháp biểu diễn ảnh trong mô hình phân lớp
2.1.1. Tình hình nghiên cứu
Để so sánh các ảnh với nhau hoặc phân lớp các ảnh, cách tiếp cận phổ biến
nhất là biểu diễn ảnh dƣới dạng các đặc trƣng. Đã có nhiều nghiên cứu về các

phƣơng pháp rút trích và biểu diễn đặc trƣng (feature presentation) nhằm mô tả các
lớp đối tƣợng. Trong đó có thể phân làm 2 loại đặc trƣng chính: đặc trƣng cấp thấp
và đặc trƣng cấp cao.
- Đặc trƣng cấp thấp là đặc trƣng cơ bản đƣợc rút trích trực tiếp từ các điểm
ảnh nhƣ màu sắc, độ sáng. Các đặc trƣng cấp thấp tiêu biểu gồm có : Color
Histogram (OH), Edge Orientation Histogram (EOH), Scale Invariant Feature
Transform (SIFT), Local Binary Pattern, Histogram of Gradients (HOG). Hạn chế
của các đặc trƣng cấp thấp là không đủ tính tổng quát để mô tả các phân lớp trong
đó các đối tƣợng cùng phân lớp có khác biệt lớn về đặc trƣng thị giác.
- Đặc trƣng cấp cao là các đặc trƣng mang tính ngữ nghĩa cao. Ví dụ, đối với
các phân lớp đối tƣợng là “động vật”, các đặc trƣng cấp cao có thể là “đi bằng bốn
chân”, “có đuôi”, “biết bơi” hoặc “ăn cỏ”. Một số nghiên cứu sử dụng đặc trƣng cấp
cao nhƣ Ali Farhadi đã tiến hành nhận dạng đối tƣợng với kết quả trả về theo hƣớng
mô tả đối tƣợng [4], Parikh đề xuất mô hình xác định mức độ của các đặc trƣng cấp
cao giữa các bức ảnh [5],… Các thách thức đối với các nghiên cứu đặc trƣng cấp
14


Chƣơng 2. Các công trình nghiên cứu liên quan

cao bao gồm: làm sao tự động lựa chọn, định nghĩa các đặc trƣng phù hợp và làm
cách nào phát hiện các đặc trƣng này một cách hiệu quả, chính xác nhất.
Bên cạnh đó, việc tích hợp thông tin về ngữ cảnh, phân bố không gian vào
biểu diễn đối tƣợng cũng đƣợc chú ý. Mục đích của các nghiên cứu này nhằm tăng
cƣờng các thông tin mang tính riêng biệt, nổi trội của đối tƣợng, giảm nhập nhằng
trong biểu diễn đối tƣợng, và do đó giúp tăng độ chính xác phân lớp. Ví dụ, ngữ
cảnh (context) có thể là thông tin về môi trƣờng mà đối tƣợng thƣờng xuất hiện
(“chim” thƣờng ở trên “cây”, “máy bay” thƣờng bay trên “trời”, “xe hơi” chạy trên
“đƣờng”) hoặc các đối tƣợng khác luôn xuất hiện kèm theo (“màn hình” và “bàn
phím”, “bàn” và “ghế”). Và đặc tính phân bố không gian, ví dụ nhƣ biểu diễn khuôn

mặt ngƣời nhìn thẳng (frontal face): vùng “mắt” luôn ở 2 bên, phía trên “mũi” và
“miệng”. Điển hình nhƣ nghiên cứu của Carolina Galleguillos [6] về việc xem xét
đánh giá các cách tiếp cận khác nhau dựa trên những thông tin về ngữ cảnh, từ đó
đề xuất các định mức chung nhất trong việc rút trích ngữ cảnh và mức độ ảnh
hƣởng qua lại của chúng. Khó khăn lớn nhất trong việc tích hợp thông tin ngữ cảnh
là việc xác định ngữ cảnh mang tính tổng quát cho từng đối tƣợng do mỗi đối tƣợng
có rất nhiều ngữ cảnh riêng biệt.
2.1.2. Mô hình “Bag of Words”
Có nhiều phƣơng pháp để biểu diễn ảnh để xây dựng đầu vào cho bài toán
phân lớp nhƣng mô hình Bag of Words đƣợc sử dụng phổ biến do tính chính xác
cao, đơn giản và dễ cài đặt.
Tập các vector đặc trƣng

Tập ảnh

Rút trích đặc trƣng

Gom cụm

Xây dựng codebook

Hình 2.1. Quá trình xây dựng codebook trong mô hình Bag of Words.
Nguồn : Lý thuyết về mô hình “Bag of Words” [7].

Mô hình này đƣợc áp dụng thành công trong bài toán phân lớp văn bản.
15


Chƣơng 2. Các công trình nghiên cứu liên quan


Trong đó, văn bản sẽ đƣợc mô tả theo mô hình lƣợc đồ tần suất xuất hiện của các từ
trong văn bản đó.
Áp dụng mô hình Bag of Words vào phân lớp ảnh, đầu tiên chúng ta xem
ảnh trong tập huấn luyện là các văn bản. Sau đó cần định nghĩa các từ cho văn bản
đó dựa vào việc xây dựng và mô tả các đặc trƣng của ảnh. Các từ này đƣợc gọi là
“visual word” để phân biệt với các từ trong văn bản thông thƣờng.
 Biểu diễn ảnh theo mô hình này gồm 3 bƣớc :
Bƣớc 1: Xác định và mô tả đặc trƣng cho từng ảnh trong tập dữ liệu. Các
thuật toán rút trích đặc trƣng cấp thấp đƣợc sử dụng do mô hình này không khai
khai thác các ƣu điểm của đặc trƣng cấp cao. Hai hƣớng tiếp cận chính về biểu diễn
đặc trƣng ảnh cấp thấp là :
- Đặc trƣng toàn cục : Hƣớng tiếp cận này tuy đơn giản nhƣng lại không thật
sự hiệu quả vì cách biểu diễn này không thích hợp với những biến đổi về góc nhìn,
biến đổi tỉ lệ, phép quay, độ sáng, sự che khuất, sự biến dạng, sự xáo trộn của ảnh
nhƣ Color Histogram (OH), Edge Orientation Histogram (EOH).
- Đặc trƣng cục bộ : Hƣớng tiếp cận này khắc phục nhƣợc điểm đã nêu của
đặc trƣng toàn cục và đạt đƣợc kết quả cao trong các bài toán phân lớp ảnh. Ví dụ
nhƣ Scale Invariant Feature Transform (SIFT), Local Intensity Order Pattern
(LIOP). Trong đó thuật toán SIFT đƣợc đánh giá cao do tính hiệu quả mang lại cho
mô hình này.
Với việc sử dụng các đặc trƣng cục bộ trên, tƣơng ứng với mỗi ảnh sẽ rút
trích đƣợc một tập vector đặc trƣng.
Bƣớc 2: Xây dựng từ điển codebook bằng cách gom cụm các vector tổng hợp
đƣợc ở bƣớc 1 bằng các thuật toán gom nhóm trong đó phổ biến nhất là K-Means.
Trung tâm của mỗi cụm sẽ tƣơng ứng với một từ. Nhƣ vậy, số lƣợng n cụm sẽ cho
ta từ điển codebook với n từ.
Bƣớc 3: Biểu diễn ảnh dƣới dạng vector tần suất từ dựa vào codebook và đây
cũng chính là đầu vào của các bài toán phân lớp ảnh.
2.2. Các thuật toán phân lớp dựa trên MIL
2.2.1. Tình hình nghiên cứu

Tuy đƣợc đánh giá cao trong những thuật toán học có giám sát yếu nhƣng
16


Chƣơng 2. Các công trình nghiên cứu liên quan

việc thực hiện huấn luyện với MIL vẫn còn gặp nhiều thách thức :
- Sự khác biệt của đối tƣợng trong cùng một phân lớp (intra-class variation)
và giữa các phân lớp với nhau (inter-class variation) : các đối tƣợng trong cùng một
phân lớp có thể rất khác nhau, trong khi đó các đối tƣợng tuy khác phân lớp nhƣng
lại rất giống nhau.
- Các phƣơng pháp MIL có 2 khái niệm cơ bản là “bag” và “instance”. “Bag”
là một tập hợp nhiều “instance”. Nhãn huấn luyện chỉ cần gán cho “bag”. Các
phƣơng pháp MIL sẽ học để phân lớp các “bag” và các “instance” trong “bag”. Vì
thế muốn có độ chính xác cao khi phân lớp đòi hỏi phải xây dựng các ràng buộc
hiệu quả giữa “bag” với “instance”, giữa “instance” với “instance”.
- Tuy các phƣơng pháp học dựa trên MIL có chi phí chuẩn bị dữ liệu thấp
nhƣng đánh đổi lại là độ chính xác của phƣơng pháp này thƣờng thấp hơn các
phƣơng pháp học có giám sát đầy đủ.
Cho đến nay, các nhà nghiên cứu cố gắng tập trung xây dựng các phƣơng
pháp tiếp cận khác nhau dựa trên Multiple Instance Learning (MIL) để tăng tính
hiệu quả cho việc phân lớp đối tƣợng nhƣ chọn một số “instance” tiêu biểu trong
“bag”, dựa vào các “instance” đó để chuyển đổi MIL thành thuật toán học có giám
sát đầy đủ. Tuy nhiên, vấn đề gặp phải ở đây là “bag” bao gồm rất nhiều “instance”
sẽ làm tăng độ phức tạp trong việc lựa chọn các đối tƣợng để thực hiện việc chuyển
đổi. Để giải quyết vấn đề này một số phƣơng pháp đã đƣợc nghiên cứu và áp dụng.
Có thể kể đến nhƣ phƣơng pháp MIPSIR [8] của L. Yuan dựa trên các điểm tƣơng
đồng theo từng cặp “instance” trong “bag” để tăng tốc độ trong quá trình lựa chọn.
Một hƣớng tiếp cận nhằm xây dựng các mối liên hệ, ràng buộc giữa các “instance”
trong cùng “bag”, nhƣ nghiên cứu về tăng cƣờng độ chính xác phân lớp bằng cách

phát hiện vùng đặc trƣng và kết hợp thông tin toàn cục của ảnh đƣợc thực hiện bởi
T. D. Ngo [9].
Chúng ta có thể phân chia các thuật toán MIL thành 2 nhóm là “generative
MIL” và “discriminative MIL” [10] dựa trên mô hình dữ liệu huấn luyện :
- Generative MIL : Một trong những thuật toán đáng chú ý trong nhóm này
chính là Diverse Density (DD) [11]. Thuật toán này thực hiện tìm kiếm một
“concept instance” có hàm DD lớn nhất trong không gian đặc trƣng sao cho xung
17


Chƣơng 2. Các công trình nghiên cứu liên quan

quanh nó có ít nhất một “instance” của mỗi “bag” dƣơng và cách xa tất cả các
“instance” âm khác. Dựa vào “concept instance”, các “bag” sẽ đƣợc xác định nhãn
dựa vào khoảng cách giữa các “instance” trong “bag” đó đến “concept instance”.
Ngoài ra còn một số thuật toán khác nhƣ EM-DD [12], axis parallel hyperrectangles [13]. Mặc dù thu đƣợc những kết quả khả quan nhƣng các thuật toán này
dựa trên giả thuyết là tất cả các “instance” thực sự chứa đối tƣợng đều hội tụ lại
thành một nhóm và cách xa các “instance” không chứa đối tƣợng, điều này khó khả
thi trong thực tế khi các “instance” có xu hƣớng đa cụm.
- Discriminative MIL : Hƣớng tiếp cận này thực hiện việc chuyển hóa từ
phƣơng pháp học có giám sát yếu MIL sang phƣơng pháp học có giám sát đầy đủ,
phổ biến nhất là thuật toán SVM. Việc chuyển đổi này nhằm tận dụng lại khả năng
phân lớp với độ chính xác cao của các thuật toán học có giám sát đầy đủ đã đƣợc
kiểm chứng trong các thử nghiệm cũng nhƣ trong thực tế. Là một trong những
ngƣời tiên phong trong việc sử dụng thuật toán phân lớp SVM trên MIL, Stuart
Andrew trình bày hai phƣơng pháp là mi-SVM và MI-SVM [1]. Bên cạnh đó còn có
các thuật toán khác nhƣ spatial-MI-SVM [2], IS-MIL [14], MILES [15] và hai thuật
toán đã đƣợc giới thiệu ở phần trên là MIPSIR của L. Yuan và phát hiện vùng đặc
trƣng và kết hợp thông tin toàn cục của ảnh đƣợc thực hiện bởi Thanh Duc Ngo.
2.2.2. Lựa chọn hướng tiếp cận

Các kết quả thực nghiệm thu đƣợc [8-15] đã cho thấy rằng các thuật toán
thuộc nhóm “discriminative MIL” có độ chính xác phân lớp tốt hơn so với các thuật
toán trong nhóm “generative MIL”. Và với việc không phụ thuộc vào giả thuyết
phải có sự ràng buộc gom nhóm giữa các “instance” nên hƣớng tiếp cận
“discriminative MIL” thƣờng đƣợc lựa chọn để giải quyết các bài toán phân lớp đối
tƣợng ảnh.
Vì vậy khóa luận sẽ tập trung tìm hiểu các thuật toán “discriminative MIL”
dựa trên việc chuyển đổi từ phƣơng pháp học có giám sát yếu sang phƣơng pháp
học có giám sát đầy đủ SVM mà tiêu biểu là các thuật toán mi-SVM, MI-SVM và
spatial-MI-SVM. Dựa trên việc đánh giá, phân tích làm rõ những ƣu điểm và khuyết
điểm của các thuật toán này, khóa luận đề xuất hai hƣớng cải tiến mới ứng với thuật
toán top-MI-SVM và top-spatial-MI-SVM nhằm nâng cao độ chính xác khi phân
18


Chƣơng 2. Các công trình nghiên cứu liên quan

lớp cũng nhƣ khắc phục các hạn chế còn tồn đọng của các thuật toán tiêu biểu đó
trong việc giải quyết các bài toán phân lớp đối tƣợng ảnh.
Bài toán phân lớp đối tƣợng ảnh

Các phƣơng pháp học
có giám sát đầy đủ

Các phƣơng pháp học
có giám sát yếu
Multiple Instance Learning
(MIL)

Discriminative MIL


Các thuật toán tiêu biểu :
mi-SVM,
MI-SVM,
spatial-MI-SVM

Generative MIL

Các thuật toán đề xuất :
top-MI-SVM,
top-spatial-MI-SVM

Hình 2.2. Sơ đồ lựa chọn hƣớng tiếp cận để giải quyết bài toán phân lớp đối tƣợng ảnh và
các thuật toán sẽ trình bày trong khóa luận.

Sơ đồ ở hình 2.2 trình bày tổng quát hƣớng tiếp cận các thuật toán dựa trên
phƣơng pháp MIL trong việc giải quyết bài toán phân lớp đối tƣợng ảnh và 5 thuật
toán sẽ đƣợc tìm hiểu, đánh giá trong khóa luận này.

19


Chƣơng 3. Multiple Instance Learning

CHƢƠNG 3. MULTIPLE INSTANCE LEARNING
3.1. Giới thiệu
Trong chƣơng này, chúng ta sẽ tìm hiểu một cách chi tiết về các thuật toán
tiêu biểu áp dụng phƣơng pháp MIL theo hƣớng tiếp cận chuyển đổi từ phƣơng
pháp học có giám sát yếu MIL sang phƣơng pháp học có giám sát mạnh SVM gồm
mi-SVM, MI-SVM, spatial-MI-SVM và hƣớng cải tiến với 2 thuật toán top-MISVM và top-spatial-MI-SVM.

Trong cả 5 thuật toán trên, các mô hình phân lớp đều đƣợc quy về SVM vì
thế để chuẩn bị kiến thức nền tảng trƣớc khi tiếp cận các thuật toán trên, chƣơng
này cũng sẽ trình bày về thuật toán SVM từ các khái niệm chính cho đến các dạng
mở rộng dựa trên tính chất của bộ dữ liệu.
3.2. Công thức tổng quát của MIL
Xét bài toán phân lớp nhị phân với tập huấn luyện D cho trƣớc
D = {(BI, YI) | BI = {xi : i

I}, YI

{-1,1}} với I

{1,…,n}

Ứng với mỗi xi sẽ có một nhãn yi tƣơng ứng theo công thức sau
{


i I

yi +1
2

1, I : YI =1

(3.1)

yi = -1, I : YI = 1

Từ tập huấn luyện trên, ta có hàm phân lớp

f=X

(3.2)

xi
Khi đó “bag” BI sẽ đƣợc gán nhãn YI dựa trên hàm f
YI = sgn

f(xi)

(3.3)

3.3. Support Vector Machine
3.3.1. Định nghĩa
 Xét bài toán phân lớp nhị phân với tập huấn luyện D cho trƣớc
D = {(xi, yi) | xi

Rp , yi

{-1,1}} với i = 1,…,n.

Trong đó xi là một vector trong không gian p chiều biểu diễn cho một đối
tƣợng cần phân lớp và tƣơng ứng mỗi xi sẽ đƣợc gán nhãn yi.
20


Chƣơng 3. Multiple Instance Learning

Phƣơng trình tổng quát của một siêu phẳng phân chia đƣợc biểu diễn có dạng
wx + b = 0


(3.4)

Với w là vector pháp tuyến p chiều, b là độ dịch của siêu phẳng so với gốc
tọa độ. Khi thay đổi w và b thì hƣớng và khoảng cách từ gốc tọa độ đến mặt siêu
phẳng thay đổi.
Nhãn yi của vector xi tƣơng ứng đƣợc xác định theo theo phƣơng trình
yi = sign (wx + b)

(3.5)

Siêu phẳng phân chia có vai trò quan trọng trong việc phân lớp, nó quyết
định xem một bộ dữ liệu sẽ thuộc về lớp nào. Một siêu phẳng phân chia dữ liệu
đƣợc gọi là tối ƣu, nếu khoảng cách từ điểm dữ liệu gần nhất đến siêu phẳng là lớn
nhất.
H2

H1
b

w

wx + b = -1
wx + b = 0
wx + b = +1

Hình 3.1. Siêu phẳng thực hiện phân chia tập dữ liệu thành 2 lớp
trong không gian 2 chiều.
Nguồn : Mô hình phân lớp Support Vector Machine theo [16]


 Ví dụ : Cho bộ dữ liệu huấn luyện trong không gian hai chiều
D = {(xi, yi) | xi

R2, yi

{-1,1}} với i = 1,…,n

Thực hiện xây dựng siêu phẳng phân chia dữ liệu thành 2 phần riêng biệt nhƣ
hình 3.1, tƣơng ứng với hai màu khác nhau.
Mỗi điểm nằm ở bờ dƣơng siêu phẳng phân cách thỏa mãn bất đẳng thức :
wx + b > 0

(3.6)

Mỗi điểm nằm ở bờ âm siêu phẳng phân cách thỏa mãn bất đẳng thức sau:
wx + b < 0

(3.7)

Bằng cách điều chỉnh giá trị b thích hợp dựa trên các điểm trên mặt phẳng
21


×