TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA CÔNG NGHỆ THÔNG TIN
PHẠM TRỌNG NGHĨA
KẾT HỢP ĐA ĐẶC TRƯNG TRONG MÔ HÌNH
CRFs CHO BÀI TOÁN PHÂN ĐOẠN ẢNH
THEO ĐỐI TƯỢNG
NGÀNH: KHOA HỌC MÁY TÍNH
Mã số: 60.48.01
LUẬN VĂN THẠC SỸ
NGƢỜI HƢỚNG DẪN KHOA HỌC
PGS. T.S LÊ HOÀI BẮC
Thành phố Hồ Chí Minh - 2010
II
LỜI CÁM ƠN
Trƣớc tiên và hơn hết, tôi xin gởi lời cảm ơn chân thành đến ngƣời hƣớng
dẫn luận văn này, thầy Lê Hoài Bắc. Thầy là ngƣời trực tiếp hƣớng dẫn, gợi ý đề tài
và tận tình dẫn dắt cho tôi trong suốt thời gian thực hiện đề tài. Nếu không có sự chỉ
bảo nhiệt tình và sự theo dõi sát sao, chắc chắn tôi không thể hoàn thành luận văn
này.
Tôi cũng xin gởi lời cảm ơn sâu sắc đến anh Võ Đình Phong, ngƣời đã luôn
theo sát tôi trong quá trình làm luận văn. Những gợi ý, chỉ dẫn và phản biện của anh
vô cùng quý giá giúp tôi hoàn thành luận văn. Tôi cũng xin cảm ơn các anh chị và
bạn bè trong khoa công nghệ thông tin đã luôn giúp đỡ, trao đổi và thảo luận, cung
cấp cho tôi nhiều thông tin và kiến thức hữu ích.
Tôi cũng xin gởi lời cảm ơn quý thầy, cô trong khoa Công nghệ thông tin,
Trƣờng Đại Học Khoa Học Tự Nhiên TP.HCM, những ngƣời đã dày công dạy dỗ,
truyền cho tôi rất nhiều tri thức cùng với những kinh nghiệm quý báu suốt những
năm theo học tại trƣờng.
Và quan trọng nhất, con xin cảm ơn ba mẹ, những ngƣời vẫn luôn dành cho
con những tình cảm yêu thƣơng nhất, ba mẹ đã hỗ trợ con trong suốt thời gian học
tập, đã động viên con mỗi khi khó khăn, giúp con có thêm tự tin thực hiện tốt công
việc của mình.
Xin chân thành cảm ơn!
III
MỤC LỤC
LỜI CÁM ƠN II
MỤC LỤC III
DANH MỤC HÌNH ẢNH V
Danh sách các bảng VIII
TÓM TẮT LUẬN VĂN IX
Danh mục chữ viết tắt: XI
Chƣơng 1: MỞ ĐẦU 1
1.1. Giới thiệu lĩnh vực và ý nghĩa của đề tài 1
1.1.1. Dẫn nhập 1
1.1.2. Lĩnh vực nghiên cứu của đề tài 3
1.1.3. Ý nghĩa lý luận và thực tiễn: 4
1.2. Các kết quả nghiên cứu liên quan 6
1.3. Phƣơng pháp giải quyết đề xuất. 8
1.4. Cấu trúc luận văn 10
Chƣơng 2: TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN VÀ CỰC TIỂU HOÁ
NĂNG LƢỢNG BẰNG GRAPH-CUT 13
2.1. Trƣờng ngẫu nhiên có điều kiện 13
2.2. Cực tiểu hoá năng lƣợng 15
2.2.1. Tổng quan về cực tiểu hoá năng lƣợng 15
2.2.2. Cực tiểu hoá năng lƣợng bằng phƣơng pháp graph cut. 16
Chƣơng 3: Mô hình CRFs cho bài toán phân đoạn ảnh theo đối tƣợng. 24
3.1. Thế năng vân-bố cục 26
3.1.1. Texton hoá ảnh 27
IV
3.1.2. Bộ lọc vân-bố cục 30
3.1.3. Thuật toán Joint Boosting 33
3.2. Thế năng màu sắc 36
3.3. Thế năng vị trí: 38
3.4. Mô hình CRF mức cao: 39
3.4.1. Phân đoạn ảnh không giám sát 39
3.4.2. Thế năng mức cao: 41
Chƣơng 4: Kết quả thực nghiệm 43
4.1. Bộ dữ liệu 43
4.2. Độ đo 44
4.3. Bố trí thí nghiệm 44
4.4. Kết quả 45
4.4.1. Thí nghiệm với các kích thƣớc từ điển khác nhau 45
4.4.2. Thí nghiệm với các mức độ kết hợp đặc trƣng trong mô hình CRF đôi
46
4.4.3. Thí nghiệm kết hợp với kết quả phân đoạn ảnh không giám sát trong
mô hình CRFs mức cao 48
Chƣơng 5: Kết luận và hƣớng phát triển 52
5.1. Kết luận 52
5.2. Hƣớng phát triển 53
Tài liệu tham khảo 54
XI
Danh mục chữ viết tắt:
CRF Conditional Random Fields
GMM Gaussian Mixture Models
V
DANH MỤC HÌNH ẢNH
Hình 1-1. Ví dụ về phân đoạn ảnh không giám sát (sử dụng thuật toán mean-shift
[5]) 1
Hình 1-2 – Ví dụ về bài toán nhận dạng đối tƣợng. Sử dụng thuật toán trong [28] 2
Hình 1-3. Ví dụ về bài toán phân đoạn ảnh theo đối tƣợng. Hàng trên là ảnh đầu
vào. Hàng dƣới là các ảnh kết quả với các màu sắc biểu diễn các đối tƣợng khác
nhau. 3
Hình 1-4. Chƣơng trình cắt dán ảnh tự động [4] 4
Hình 1-5. Chƣơng trình tổng hợp thông tin ngữ nghĩa. 5
Hình 1-6. Chƣơng trình biên tập ảnh. Bên trái: sau khi có kết quả phân đoạn ảnh,
ngƣời dùng chọn ngƣời, thực đơn ngữ cảnh xuất hiện, xác định đây là vùng ngƣời.
Bên phải: kết quả khi ngƣời dùng nhấn nút xoá. Vùng ảnh chứa ngƣời bị xoá [15] 5
Hình 1-7. Mô hình chung của hệ thống phân đoạn ảnh theo đối tƣợng dùng trong
luận văn 10
Hình 2-1: Ví dụ về mô hình CRF đôi định nghĩa trên các biến ngẫu nhiên
, Mô hình bao gồm các thế năng đơn phân cho từng biến
và các thế năng liên kết giữa các biến kề nhau trong đó
. Đồ thị factor thể hiện các biến liên quan trong từng
thành phần. 14
Hình 2-2. Ví dụ về đồ thị (a) và đƣờng cắt (b). Các cạnh nối giữa hai đỉnh đầu cuối
với các pixel (màu đỏ và xanh) thể hiện thế năng đơn phân. Các cạnh nối giữa các
pixel (màu vàng) thể hiện thế năng liên kết. Một đƣờng cắt sẽ chia tập các pixel ra
làm 2 phần, tƣơng ứng với việc gán nhãn nhị phân. 17
Hình 2-3. Ví dụ đơn giản về phân đoạn ảnh 2D cho ảnh 3x3. Trọng số của các cạnh
thể hiện bằng độ dày của cạnh đó trong hình. Đầu tiên ảnh (a) sẽ đƣợc chuyển thành
đồ thị tƣơng ứng (b), việc tìm ra đƣờng cắt tối thiểu (c) tƣơng ứng với sự phân đoạn
ảnh tốt nhất (d). [38] 18
Hình 2-4. Ví dụ về bƣớc di chuyển. (a) Nhãn ban đầu. (b) “bƣớc di chuyển đơn” sẽ
thay đổi nhãn của một pixel (đánh dấu tròn). (c) “hoán đổi alpha-beta” thay đổi một
VI
số pixel có nhãn alpha thành beta và ngƣợc lại (d) “mở rộng alpha” thay đổi nhãn
của một số pixel thành alpha. 20
Hình 2-5. Ví dụ về đồ thị cho ảnh 1 chiều. Tập hợp các pixel trong ảnh là P =
{p,q,r,s}, trong đó {q,r}có cùng nhãn, p có nhãn khác {q,r}, còn s có nhãn là khác
cả 3 đỉnh trên. Hai đỉnh phụ trợ là và đƣợc thêm vào để
nối hai pixel láng giềng khác nhãn 22
Hình 3-1. Mô hình chung của hệ thống phân đoạn ảnh theo đối tƣợng dùng trong
luận văn 24
Hình 3-2. Quá trình texton hoá ảnh. Ảnh đầu vào đƣợc tích chập với một dãy các
filter. Kết quả trả về tại tất cảc pixel trong tất cả ảnh huấn luyện đƣợc gom nhóm để
xây dựng bộ từ điển texton. Cuối cùng từng pixel đƣợc gán một chỉ số texton tƣơng
ứng với nhóm gần nhất trong từ điển texton. 28
Hình 3-3. Minh hoạ filter bank 17 chiều 29
Hình 3-4. Hình minh hoạ 17 filter response khi áp filter bank lên ảnh. Ảnh trái trên
là ảnh gốc. 30
Hình 3-5. Phân tách bản đồ texton ra thành nhiều kênh. Bản đồ texton gồm K texton
đƣợc phân chia ra thành K kênh. Ảnh integral đƣợc xây dựng cho từng kênh cho
phép tính toán bộ lọc vân-bố cục với thời gian hằng số. 31
Hình 3-6. Tính toán kết quả trả về và nắm bắt thông tin ngữ cảnh [15] 31
Hình 3-7. Nắm bắt thông tin bố cục. 32
Hình 3-8. Minh hoạ các tính thế năng màu sắc 37
Hình 3-9. Minh họa về thế năng vị trí. Màu trắng biểu hiện tần số xuất hiện cao.
Hình trên cho biết một số thông tin nhƣ cây và bầu trời thƣờng nằm phía trên ảnh,
đƣờng nằm ở dƣới ảnh. Cỏ ít xuất hiện gần trung tâm mà xuất hiện nhiều ở phía
dƣới, ngƣợc lại, mặt thƣờng xuất hiện ở trung tâm ảnh. 38
Hình 3-10. So sánh kết quả của ba thuật toán phân đoạn ảnh. (b) thuật toán dựa trên
đồ thị [23] , (c) thuật toán superpixel [21] (d) thuật toán mean-shift [5] 40
Hình 3-11. Minh hoạ hai cách tính thế năng mức cao. Hình (a) ứng với công thức
4.26. Hình (b) ứng với công thức 4.27. 42
VII
Hình 4-1. Bộ dữ liệu MSRC. Cột a-d là một số ảnh trong bộ dữ liệu. Cột e là ảnh đã
gán nhãn sẵn của các ảnh trong cột d. 44
Hình 4-2. Kết quả thí nghiệm hiệu năng của đặc trƣng vân – bố cục với các kích
thƣớc từ điển texton khác nhau. 45
Hình 4-3. Một số kết quả trên tập dữ liệu MSRC. Các cột lần lƣợt từ trái qua phải:
ảnh đầu vào, ảnh kết quả dùng đặc trƣng vân-bố cục, kết quả dùng thế năng đơn
phân, ảnh kết quả dùng mô hình CRF đôi, ảnh groundtruth. 47
Hình 4-4. Một số kết quả trên tập dữ liệu MSRC. Các cột lần lƣợt từ trái qua phải:
ảnh đầu vào, ảnh kết quả dùng mô hình CRFs đôi, kết quả mô hình CRFs mức cao
với tiền phân đoạn ảnh dùng thuật toán superpixel, kết quả dùng mô hình CRF mức
cao với tiền phân đoạn ảnh dùng thuật toán mean-shift, ảnh groundtruth. 48
Hình 4-5. Minh họa kết quả phân đoạn ảnh khi áp dụng hai thuật toán superpixel và
meanshift lên ảnh đầu vào và ảnh kết quả của mô hình CRFs mức cao. Lần lƣợt từ
trái qua phải: ảnh đầu vào, kết quả phân đoạn ảnh đầu vào dùng superpixel, kết quả
phân đoạn ảnh kết quả dùng superpixel, kết quả phân đoạn ảnh đầu vào dùng mean-
shift, kết quả phân đoạn ảnh kết quả dùng mean-shift. 49
Hình 4-6. Confusion matrix thể hiện kết quả của mô hình CRFs mức cao (mean-
shift) 51
Hình 4-7. Một số hình ảnh trong tập MSRC về đối tƣợng “bird”. 51
VIII
Danh sách các bảng
Bảng 2-1.Trọng số các cạnh trong đồ thị mở rộng alpha. 23
Bảng 2-2. Trọng số các cạnh trong đồ thị mở rộng alpha. 23
Bảng 4-1. Hiệu năng chung của việc kết hợp các loại đặc trƣng khác nhau trong
trong mô hình CRFs đôi 46
Bảng 4-2. Hiệu năng cụ thể của từng lớp với các loại đặc trƣng khác nhau trong mô
hình CRFs đôi. 47
Bảng 4-3. So sánh hiệu năng của mô hình CRFs đôi với hai mô hình CRFs mức cao
sử dụng superpixel và meanshift 48
1
Chƣơng 1: MỞ ĐẦU
1.1. Giới thiệu lĩnh vực và ý nghĩa của đề tài
1.1.1. Dẫn nhập
Bài toán phân đoạn ảnh (image segmentation) và nhận dạng đối tượng (object
recognition) đều là những vấn đề kinh điển trong thị giác máy tính và nhận đƣợc sự
quan tâm của cộng đồng nghiên cứu ngay từ những ngày đầu. Tuy nhiên, nhiều tác
giả xem xét hai vấn đề này nhƣ hai vấn đề riêng biệt nhau. Mãi đến những năm gần
đây, các nhà nghiên cứu mới tập trung vào việc kết hợp hai bài toán này.
Các nghiên cứu thuần về phân đoạn ảnh tập trung vào việc phân chia một bức ảnh
thành các vùng không giao nhau. Các pixel thuộc cùng một vùng sẽ có một số tính
chất tƣơng tự nhau về diện mạo nhƣ: màu sắc, độ sáng, và vân. Việc phân đoạn ảnh
này chỉ thể hiện các vùng khác nhau có diện mạo khác nhau, không chứa thông tin
ngữ nghĩa gì về các vùng này. Dạng phân đoạn ảnh này còn đƣợc gọi là phân đoạn
ảnh không giám sát.
Hình 1-1. Ví dụ về phân đoạn ảnh không giám sát (sử dụng thuật toán mean-shift [5])
2
Các nghiên cứu thuần về nhận dạng đối tượng tập trung vào việc xác định xem
trong bức ảnh cho trƣớc có những đối tƣợng nào bằng cách đặt các ô hình chữ nhật
xung quanh đối tƣợng cần nhận dạng.
Hình 1-2 – Ví dụ về bài toán nhận dạng đối tƣợng. Sử dụng thuật toán trong [28]
Bài toán phân đoạn ảnh chỉ quan tâm đến việc phân chia ảnh thành các vùng khác
nhau mà không quan tâm đến ngữ nghĩa của từng vùng. Trong khi đó, bài toán nhận
dạng đối tƣợng chỉ ra đƣợc các đối tƣợng có trong hình, nhƣng lại không chính xác
đến từng pixel nhƣ trong bài toán phân đoạn ảnh mà chủ yếu xác định đối tƣợng
bằng một khung hình chữ nhật. Do đó, nhu cầu kết hợp hai bài toán này nhằm tận
dụng ƣu điểm của cả hai là rất cần thiết. Bài toán kết hợp hai vấn đề trên gọi là bài
toán phân đoạn ảnh theo đối tượng (object segmentation).
Cụ thể hơn, cho trƣớc một bức ảnh, thuật toán phân đoạn ảnh theo đối tƣợng sẽ tự
động phân tách nó ra thành các vùng khác nhau và xác định ngữ nghĩa của từng
vùng. Bài toán này còn đƣợc gọi là bài toán gán nhãn ảnh đa lớp (multi-class image
labeling) do việc phân đoạn ảnh tƣơng đƣơng với việc gán nhãn cho tất cả các pixel
trong ảnh. Giá trị nhãn của các pixel sẽ xác định lớp đối tƣợng mà pixel đó thuộc về
(xem hình 1-3). Sự phân đoạn ảnh đƣợc thể hiện bằng các đƣờng biên giữa các
vùng có nhãn khác nhau. Ví dụ, xem xét một bức ảnh chụp tại một thảo nguyên,
thuật toán sẽ gán cho các pixel một số nhãn nhƣ: cỏ, thú, nƣớc, bầu trời.
Lƣu ý rằng, khác với thuật toán phân đoạn ảnh thông thƣờng, các thuật toán phân
đoạn ảnh theo đối tƣợng đòi hỏi quá trình huấn luyện để rút ra mô hình cho các lớp
cần gán nhãn. Khái niệm “đối tƣợng” ở đây đƣợc hiểu nhƣ một tập hợp các pixel
3
gần nhau diễn tả một sự vật trong thế giới thực. Các đối tƣợng này phải đƣợc định
nghĩa trƣớc, việc huấn luyện và thử nghiệm chỉ đƣợc tiến hành trên các đối tƣợng
đã định nghĩa này.
Hình 1-3. Ví dụ về bài toán phân đoạn ảnh theo đối tƣợng. Hàng trên là ảnh đầu vào.
Hàng dƣới là các ảnh kết quả với các màu sắc biểu diễn các đối tƣợng khác nhau.
1.1.2. Lĩnh vực nghiên cứu của đề tài
Lĩnh vực nghiên cứu của đề tài là gán nhãn ảnh (image labeling): từ một ảnh đầu
vào, áp dụng các thuật toán phù hợp để từ đó gán cho mỗi pixel trong ảnh một giá
trị tƣơng ứng gọi là nhãn.
Nói hẹp hơn, trong bài toán phân đoạn ảnh đối tƣợng. Ảnh đầu vào sẽ là một ảnh
tĩnh. Sau quá trình xử lý các pixel sẽ đƣợc gán nhãn tƣơng ứng với đối tƣợng mà nó
thuộc về. Các nhãn này sẽ có giá trị nguyên và tƣơng ứng với đối tƣợng đƣợc quy
định trƣớc. Chẳng hạn, quy định nhãn 1 tƣơng ứng với đối tƣợng, nhãn 0 tƣơng ứng
với phông nền. Sau quá trình gán nhãn, pixel nào đƣợc gán nhãn 1 sẽ là pixel của
đối tƣợng, pixel nào có nhãn 0 sẽ là pixel thuộc vùng nền.
4
1.1.3. Ý nghĩa lý luận và thực tiễn:
Bài toán phân đoạn ảnh theo đối tƣợng là một bƣớc phát triển tiếp theo của bài toán
phân đoạn ảnh và bài toán nhận dạng đối tƣợng. Mặt khác bài toán này còn là một
thành phần quan trọng của một bài toán lớn hơn: hiểu nội dung ảnh. Vấn đề truy
vấn ảnh theo nội dung cũng đƣợc hƣởng lợi từ kết quả này. Ví dụ: ngƣời dùng có
thể truy vấn nhƣ sau: “Tìm tất cả các bức ảnh có con ngựa đang uống nƣớc”.
Một số ứng dụng thực tiễn:
Tự động cắt dán ảnh: nhận vào một tập hợp các ảnh, chƣơng trình sẽ tự động cắt
dán ảnh để tạo thành một bức ảnh tổng hợp lạ mắt [4].
Hình 1-4. Chƣơng trình cắt dán ảnh tự động [4]
Tổng hợp ảnh ngữ nghĩa: Trong [19] ngƣời dùng sẽ cung cấp một số nhãn (cây,
đƣờng, bầu trời) và vị trí của nó. Chƣơng trình sẽ tự động tìm trong cơ sở dữ liệu
các bức ảnh phù hợp với yêu cầu. Sau đó một bức ảnh mới sẽ đƣợc tạo thành từ các
ảnh này với thành phần ảnh đã cung cấp.
5
Hình 1-5. Chƣơng trình tổng hợp thông tin ngữ nghĩa.
Biên tập hình ảnh: kết quả của quá trình phân đoạn ảnh theo đối tƣợng cho phép
phần mềm biên tập ảnh xử lý tiếp [15]. Chẳng hạn nhƣ tăng độ sáng của bầu trời.
Hay xóa vùng chứa ngƣời nhƣ trong hình 1-6.
Hình 1-6. Chƣơng trình biên tập ảnh. Bên trái: sau khi có kết quả phân đoạn ảnh,
ngƣời dùng chọn ngƣời, thực đơn ngữ cảnh xuất hiện, xác định đây là vùng ngƣời.
Bên phải: kết quả khi ngƣời dùng nhấn nút xoá. Vùng ảnh chứa ngƣời bị xoá [15]
6
1.2. Các kết quả nghiên cứu liên quan
Nhƣ vậy, trong phần đầu của chƣơng, luận văn đã giới thiệu sơ lƣợc về bài toán
phân đoạn ảnh theo đối tƣợng. Phần tiếp theo của luận văn sẽ trình bày một số kế
quả nghiên cứu có liên quan đến bài toán mà luận văn đang giải quyết.
Cả hai bài toán nhận dạng đối tƣợng và phân đoạn ảnh đều là bài toán kinh điển
trong lĩnh vực thị giác máy tính. Tuy nhiên, nhiều tác giả lại xem xét nhƣ hai vấn đề
riêng biệt. Nhiều mô hình đã đƣợc đề xuất để giải quyết vấn đề nhận dạng đối tƣợng
chẳng hạn nhƣ mô hình constellation của Fergus [25], mô hình deformable shape
của Berg [2], và mô hình vân ảnh của Winn [13]. Các mô hình này đều không phân
đoạn chính xác đến từng pixel. Ngƣợc lại một số tác giả khác chỉ quan tâm đến tác
vụ phân đoạn ảnh [8][27]
Những công trình đầu tiên liên quan đến việc kết hợp phân đoạn ảnh và nhận dạng
đối tƣợng có thể kể đến [3][12]. Các công trình này chủ yếu nhằm xây dựng một mô
hình hình dạng chung. Tuy những phƣơng pháp này đã có những kết quả khá tốt,
nhƣng chúng lại chỉ có thể xử lý một đối tƣợng trong một bức ảnh.
Trong [27], tác giả xây dựng một bộ phân lớp có khả năng gán nhãn các vùng đã
phân đoạn trƣớc. Tuy nhiên, do việc phân đoạn và gán nhãn bị tách làm 2 bƣớc
riêng biệt nên, kết quả phân đoạn không phù hợp với nhãn đối tƣợng. [39] thực hiện
hai bƣớc trên cùng một lúc, tuy nhiên chỉ xử lý trên đối tƣợng là mặt ngƣời và chữ
viết. Konoshi và Yullie [10] chỉ sử dụng đặc trƣng cục bộ nên không đạt đƣợc sự
phù hợp về không gian.
Mục đích của bài toán là phải phân đoạn ảnh theo rất nhiều đối tƣợng khác nhau.
Do đó không thể xây dựng một mô hình riêng cho bất kỳ đối tƣợng nào mà phải xây
dựng một mô hình chung cho rất nhiều đối tƣợng. Điều này vô cùng khó khăn và
nếu xây dựng đƣợc thì kết quả cũng không tốt. Nhƣ đã biết, các đối tƣợng khác
nhau trong thế giới thực có hình dạng rất khác nhau. Mặt khác vẻ ngoài của đối
tƣợng cũng khác nhau. Có đối tƣợng nặng về vân ảnh (bò, cỏ), cũng có loại nặng về
7
cấu trúc (xe hơi, nhà). Ngay cả cùng loại đối tƣợng thì vẻ ngoài cũng có thể rất khác
nhau (cùng là áo nhƣng có thể có rất nhiều hoa văn khác nhau). Do đó cần phải tìm
đƣợc loại đặc trƣng phù hợp có thể áp dụng cho nhiều đối tƣợng khác nhau. Đồng
thời phải kết hợp thêm những thông tin khác bên cạnh thông tin thị giác thông
thƣờng để tăng độ chính xác.
Đặc trưng cục bộ là phần hầu nhƣ không thể thiếu đối với bất kỳ bài toán phân đoạn
ảnh nào. Đặc trƣng cục bộ sẽ mô tả các thông tin về màu sắc, độ sáng, hƣớng,… của
một pixel hay một vùng pixel. Hai loại đặc trƣng thƣờng đƣợc dùng phổ biến là
SIFT [7] và Texton [13]
Tuy nhiên nhƣ đã nói bên trên, trong bài toán phân đoạn ảnh theo đối tƣợng đặc
trƣng cục bộ không đủ để đƣa ra một kết quả tốt. Điều này là do nhiều đối tƣợng
đƣợc tạo thành từ những bộ phận có vẻ ngoài không giống nhau (chẳng hạn nhƣ đối
với đối tƣợng xe hơi thì kính và bánh xe sẽ có màu khác với màu sơn). Do đó, ngoài
đặc trƣng cục bộ, cần phải thêm thông tin ngữ cảnh để có thể phân đoạn theo đối
tƣợng đƣợc tốt.
Một trong những thông tin ngữ cảnh đáng lƣu ý là mối quan hệ không gian giữa các
đối tƣợng [10] [26] [34]. Ví dụ nhƣ khi một vùng đƣợc xác định là “tree”, thì nhiều
khả năng vùng đó sẽ nằm dƣới vùng “sky” và nằm trên vùng “grass”.
Thông tin về hình dạng đối tƣợng, hay thông tin về vị trí tƣơng đối giữa các thành
phần của một đối tƣợng cũng là một loại thông tin ngữ cảnh đáng quan tâm. Đã
đƣợc chứng minh tính hiệu quả trong [11][17]
Mô hình
Có nhiều cách để kết hợp các loại đặc trƣng với nhau. Trong số đó, một trong
những mô hình hiệu quả nhất cho bài toán này là mô hình trường ngẫu nhiên có
điều kiện (Conditonal Random Fields - CRFs) [18] đã đƣợc sử dụng trong rất nhiều
công trình nhƣ [10] [11] [26] [27][28]. Mô hình CRFs là hƣớng tiếp cận phổ biến vì
nó có nhiều ƣu điểm nhƣ:
8
Có khả năng mô hình hóa xác suất có điều kiện
Có khả năng kết hợp nhiều loại đặc trƣng khác nhau.
Đƣợc giải quyết bằng các phƣơng pháp dựa trên graph-cut vô cùng
mạnh mẽ.
Các mô hình CRFs có thể chia làm 2 loại, dựa vào mức độ phân chia ảnh:
Mức độ pixel là mức độ cơ bản nhất, hiển nhiên nhất. Tuy nhiên, từng pixel lại chứa
rất ít thông tin về ngữ nghĩa. Màu sắc và độ sáng của từng pixel không đủ để xác
định nhãn đối tƣợng chính xác. Tuy vậy cũng có nhiều giải pháp phân đoạn ảnh dựa
trên pixel rất thành công nhờ tích hợp đƣợc nhiều loại thông tin nhƣ [10]
Mức độ superpixel hay segment: đây là mức độ đƣợc sử dụng tƣơng đối phổ biến do
từng superpixel chứa lƣợng thông tin tƣơng đối dồi dào. Superpixel là một tập hợp
gồm nhiều pixel đƣợc tạo ra từ quá trình phân đoạn ảnh ban đầu (over
segmentation). Với giả thuyết rằng mỗi đối tƣợng gồm nhiều superpixel và mỗi
superpixel chỉ thuộc về một đối tƣợng. Một số công trình có thể kể đến nhƣ [11]
[26]
Do hai mức độ trên đều có những điểm mạnh yếu riêng, nên nảy sinh nhu cầu kết
hợp lại tiêu biểu nhƣ [24]
1.3. Phƣơng pháp giải quyết đề xuất.
Hầu hết các phƣơng pháp phân đoạn ảnh theo đối tƣợng thực hiện bằng cách sử
dụng thông tin diện mạo cục bộ (của pixel hay superpixel) cùng với độ trơn
(smoothness) giữa các pixel hay superpixel láng giềng.
Luận văn sẽ kết hợp cả hai mức, pixel và superpixel. Trƣớc hết xây dựng mô hình
CRF dựa trên các pixel của ảnh (mô hình CRF truyền thống). Các đặc trƣng dựa
trên từng pixel đƣợc rút trích gồm:
9
- Đặc trưng vân-bố cục: tuy đặc trƣng này chỉ đƣợc tính trên từng pixel nhƣng
nó có thể chứa một lƣợng lớn thông tin gồm: vân ảnh, ngữ cảnh xung quanh
đối tƣợng và bố cục của đối tƣợng. Đặc trƣng này dựa trên texton [16] và
JoinBoost [29]
- Đặc trưng màu sắc: mô hình hoá phân bố màu sắc của các đối tƣợng. Đặc
trƣng này đƣợc tính bằng mô hình hỗn hợp Gaussian (Gaussian Mixture model
– GMM)
- Đặc trưng vị trí: mô hình hoá vị trí tƣơng đối của các đối tƣợng trong ảnh.
Tuy nhiên, phƣơng pháp trên chỉ tập trung vào rút trích đặc trƣng trên từng pixel mà
bỏ qua nguồn thông tin dồi dào từng các thuật toán phân đoạn ảnh không giám sát
vốn có thông tin về đƣờng biên giữa các đối tƣợng khá chính xác. Do đó, luận văn
sẽ đƣa thêm thông tin này vào mô hình theo cách tƣơng tự nhƣ trong [24].
Đóng góp của luận văn do đó gồm:
Xây dựng đặc trƣng vân – bố cục: đặc trƣng có khả năng nắm bắt thông tin
về vân ảnh, thông tin ngữ cảnh xung quanh đối tƣợng, thông tin bố cục của
các thành phần trong ảnh.
Áp dụng thông tin tiền phân đoạn ảnh vào mô hình CRFs truyền thống để
nâng cao hiệu năng phân đoạn.
Mô hình chung của hệ thống đƣợc tóm tắt qua hình 1-7. Các chƣơng còn lại, đặc
biệt là chƣơng 3, sẽ giải thích rõ hơn các thành phần trong mô hình này.
10
Hình 1-7. Mô hình chung của hệ thống phân đoạn ảnh theo đối tƣợng dùng trong
luận văn
1.4. Cấu trúc luận văn
Luận văn gồm 5 chƣơng:
Chƣơng 1 MỞ ĐẦU: Trong chƣơng mở đầu này, luận văn đã giới thiệu tổng
quan về bài toán phân đoạn ảnh theo đối tƣợng cùng với sự liên quan với hai bài
toán truyền thống: phân đoạn ảnh và nhận dạng đối tƣợng. Tiếp theo luận văn đã
trình bày những thách thức, khó khăn trong bài toán phân đoạn ảnh theo đối tƣợng,
những thách thức này chủ yếu là do sự đa dạng về màu sắc, hình dạng, và ngoại
cảnh của các đối tƣợng. Luận văn cũng giới thiệu đƣợc các hƣớng nguyên cứu có
liên quan. Từ đó đề xuất một mô hình phù hợp để giải quyết bài toán. Mặt khác
trong chƣơng này, luận văn cũng trình bày đƣợc lí do, mục đích chọn đề tài, đối
tƣợng và phạm vi nghiên cứu.
11
Chƣơng 2 KIẾN THỨC NỀN TẢNG: Trong chƣơng này, luận văn sẽ trình
bày về mô hình trường ngẫu nhiên có điều kiện. Đây là một mô hình xác suất vô
cùng mạnh mẽ và có thể đƣợc xem là “state of the art” trong các bài toán gán nhãn.
Việc giải mô hình này dẫn đến nhu cầu phải cực tiểu một hàm năng lượng. Vấn đề
tìm cực tiểu của một hàm số là một vấn đề kinh điển trong toán học và gần nhƣ
không thể giải quyết trong trƣờng hợp tổng quát. Do đó, chỉ có thể giải bài toán này
bằng phƣơng pháp xấp xỉ bằng việc tìm ra một tối ƣu cục bộ. Các dạng hàm năng
lƣợng thƣờng dùng trong lĩnh vực thị giác máy tính có thể cực tiểu hoá bằng một
phƣơng pháp dựa trên đồ thị gọi là graph-cut. Phƣơng pháp này có ƣu điểm là thời
gian xử lý nhanh và cho ra kết quả gần với tối ƣu toàn cục. Một số cơ sở lý thuyết
của việc cực tiểu hoá năng lƣợng dùng graph-cut sẽ đƣợc trình bày trong phần còn
lại của chƣơng.
Chƣơng 3 PHƢƠNG PHÁP TIẾN HÀNH: Chƣơng này sẽ trình bày cụ thể
các đặc trƣng và mô hình sử dụng trong luận văn. Cụ thể hơn luận văn sẽ sử dụng
hai mô hình: CRFs đôi (CRF truyền thống) và CRFs mức cao. Mô hình CRFs đôi sẽ
dựa vào các đặc trưng tính trên từng pixel và đặc trưng giữa các pixel láng giềng.
Đặc trƣng tính trên từng pixel là phần đóng góp chính trong việc gán nhãn cho từng
pixel. Đặc trƣng giữa các pixel láng giềng sẽ bổ sung và làm chính xác hơn kết quả
đạt đƣợc từ các đặc trƣng tính trên từng pixel dựa trên nguyên lý: các pixel gần
nhau nên mang nhãn giống nhau. Mô hình CRFs mức cao phát triển từ mô hình
CRFs đôi với việc thêm vào đặc trưng rút ra từ các kết quả tiền phân đoạn ảnh.
Việc thêm vào đặc trƣng này dựa trên nhận xét rằng mô hình CRFs đôi cho ra kết
quả với đƣờng biên giữa các đối tƣợng không đƣợc tốt. Trong khi đó, các thuật toán
phân đoạn ảnh không giám sát dù không xác định đƣợc ngữ nghĩa của từng vùng,
nhƣng lại cho ra các phân đoạn ảnh có đƣờng biên khá chính xác.
Chƣơng 4 KẾT QUẢ THỰC NGHIỆM: Trong chƣơng này, luận văn thử
nghiệm hai mô hình đã trình bày ở chƣơng 3 với các loại đặc trƣng khác nhau. Qua
các thử nghiệm, luận văn đã chứng tỏ rằng dù kết quả ban đầu chƣa bằng một thuật
12
toán kinh điển đƣợc chọn làm baseline, nhƣng với việc kết hợp các đặc trƣng một
các hợp lý trong mô hình CRFs đôi cho ra kết quả tốt hơn hẳn. Ngoài ra, các thử
nghiệm cũng chứng minh đƣợc ƣu điểm của mô hình CRFs mức cao với việc hiệu
năng và cảm nhận thị giác đƣợc cải thiện rõ rệt. Đặc biệt, mô hình CRFs mức cao
đã đạt đƣợc hiệu năng tƣơng đƣơng với kết quả “state of the art” hiện nay.
Chƣơng 5 KẾT LUẬN: Trong chƣơng cuối cùng này, luận văn sẽ tóm tắt lại
những luận điểm đã nêu ở các chƣơng trƣớc, các kết quả đã đạt đƣợc, cũng nhƣ
những đóng góp của luận văn. Mặt khác, những định hƣớng nhằm phát triển, hoàn
thiện mô hình trong luận văn cũng đƣợc thảo luận và đề xuất trong chƣơng này.
13
Chƣơng 2: TRƢỜNG NGẪU NHIÊN CÓ ĐIỀU KIỆN
VÀ CỰC TIỂU HOÁ NĂNG LƢỢNG BẰNG
GRAPH-CUT
2.1. Trƣờng ngẫu nhiên có điều kiện
Trường ngẫu nhiên có điều kiện (Conditional random fields - CRFs) là một mô hình
xác suất đƣợc đƣa ra bởi Lafferty [18] vào năm 2001, trong ngữ cảnh bài toán xử lý
ngôn ngữ tự nhiên. Tuy nhiên, hiện nay mô hình này đã đƣợc ứng dụng trong nhiều
lĩnh vực khác trong đó có thị giác máy tính.
Cụ thể hơn, CRF định nghĩa một mô hình trên tập các biến ngẫu nhiên
và các biến quan sát đƣợc X. Trong ngữ cảnh phân đoạn ảnh theo đối
tƣợng, các biến quan sát đƣợc X thể hiện các đặc trƣng rút trích đƣợc từ ảnh đầu
vào, còn Y thể hiện nhãn của các pixel. Từng biến ngẫu nhiên
có thể đƣợc gán
một giá trị từ tập giá trị rời rạc
, tƣơng ứng với các nhãn ngữ nghĩa chẳng hạn
nhƣ: bầu trời, đƣờng, cỏ, biển. Một sự gán nhãn hay một sự phân đoạn ảnh đƣợc thể
hiện bằng trong đó
là không gian tất cả các sự gán
nhãn có thể. Dạng tổng quát của mô hình CRF là:
(2.1)
Trong đó, từng thành phần
, đƣợc định nghĩa trên một tập con các biến
ngẫu nhiên
, và
, thể hiện sự gán nhãn tƣơng ứng với những biến
này. Thành phần này còn đƣợc gọi là hàm thế năng (clique potential). Một cách
hình thức, thế năng
, thể hiện sự ƣu tiên cho việc gán nhãn
khi quan
sát đƣợc .
Tổng của các thế năng đƣợc gọi là hàm năng lƣợng và ký hiệu là:
14
(2.2)
Thành phần
là một hằng số dùng để chuẩn hoá kết quả, bảo đảm rằng tổng của
các phân bố xác suất là 1. Do đó:
(2.3)
Một ví dụ của mô hình CRF đôi (pairwise CRF) gồm 4 biến ngẫu nhiên thể hiện
trong hình 2-1:
Hình 2-1: Ví dụ về mô hình CRF đôi định nghĩa trên các biến ngẫu nhiên
, Mô hình bao gồm các thế năng đơn phân cho từng biến
và
các thế năng liên kết giữa các biến kề nhau
trong đó
. Đồ thị factor thể hiện các biến liên quan trong
từng thành phần.
Hàm năng lƣợng của ví dụ này là:
(2.4)
Trong đó
là tập các cạnh.
15
Để xác định cách gán nhãn tốt nhất, cần phải tìm ra xác suất hậu nghiệm tối đa
(maximum a posteriori - MAP) của việc gán biến ngẫu nhiên Y. Điều này tƣơng
đƣơng với tối thiểu hoá hàm năng lƣợng:
(2.5)
2.2. Cực tiểu hoá năng lƣợng
2.2.1. Tổng quan về cực tiểu hoá năng lƣợng
Nhiều vấn đề trong lĩnh vực thị giác máy tính có thể đƣợc phát biểu dƣới dạng cực
tiểu hoá năng lượng (energy minimization), trong đó hàm năng lƣợng có dạng sau:
(3.1)
Trong đó, tập tƣơng ứng với tập các pixel,
là nhãn của pixel , là tập
hợp gồm tất cả các pixel láng giềng.
là hàm thế năng đơn phân (unary
potential) và
là hàm thế năng liên kết (pairwise potential). Hàm năng lƣợng
này thƣờng đƣợc rút ra trong ngữ cảnh của trƣờng ngẫu nhiên có điều kiện. Giá trị
cực tiểu của hàm năng lƣợng tƣơng ứng với xác suất hậu nghiệm tối đa của việc
gán nhãn x, tƣơng ứng với phân đoạn ảnh tốt nhất.
Hàm năng lƣợng thƣờng mô hình hoá tính chất toàn cục nào đó của bức ảnh mà tính
chất này không thể mô tả đƣợc bằng các tƣơng quan cục bộ. Vấn đề là trong trƣờng
hợp tổng quát việc cực tiểu hoá hàm năng lƣợng E có độ phức tạp ngoài đa thức
(NP-hard problem). Do sự phức tạp của việc tìm ra lời giải tối ƣu toàn cục, các nhà
nghiên cứu tập trung vào các thuật toán xấp xỉ để tìm ra một lời giải “gần tối ƣu”.
Hai hƣớng tiếp cận chính là graph-cut và message passing.
Một số công trình tiêu biểu theo hƣớng message passing có thể kể đến [14]
[20][31]. Hƣớng tiếp cận này có ƣu điểm là mang tính tổng quát cao, tuy nhiên nó
16
có một số khuyết điểm. Thứ nhất, nó thƣờng tìm ra lời giải có năng lƣợng cao hơn
phƣơng pháp graph-cut (trong trƣờng hợp có thể áp dụng graph-cut). Thứ hai nó
không phải lúc nào cũng hội tụ mà có thể bị lặp. Thứ ba là độ phức tạp của nó tăng
lên nhanh chóng khi hàm thế năng định nghĩa trên những nhóm lớn.
Dù cho graph-cut đã đƣợc giới thiệu từ những năm 1980 [6], chúng không đƣợc sử
dụng rộng rãi trong một thời gian dài. Sự thay đổi bắt đầu từ những năm 2000, khi
một số bài báo chỉ ra rằng có thể sử dụng graph-cut cho bài toán cực tiểu hoá năng
lƣợng [35][38]. Những phƣơng pháp này tƣơng đối hiệu quả và dễ cài đặt, khiến
chúng ngày càng trở nên phổ biến và đƣợc áp dụng thành công trong nhiều bài toán
thị giác máy tính bao gồm phục hồi ảnh [37][38] , tổng hợp ảnh [32] và phân đoạn
ảnh [35]. Graph-cut trở thành một công cụ vô cùng mạnh mẽ cho các vấn đề cực
tiểu hoá hàm năng lƣợng trong bài toán gán nhãn. Các thuật toán graph-cut có ƣu
điểm là tìm ra các lời giải tối ƣu toàn cục cho nhiều họ bài toán cực tiểu hoá năng
lƣợng thƣờng dùng trong thị giác máy tính [30]. Hay thậm chí trong trƣờng hợp
không bảo đảm đó là lời giải tối ƣu toàn cục, đó vẫn là lời giải rất tốt, cho ra năng
lƣợng rất thấp [38]
2.2.2. Cực tiểu hoá năng lƣợng bằng phƣơng pháp graph cut.
Nguyên tắc cơ bản của phƣơng pháp graph-cut là xây dựng một đồ thị đặc biệt dựa
trên hàm năng lƣợng cần cực tiểu hoá để cho đường cắt tối thiểu (minimum cut hay
min-cut) trên đồ thị cũng làm cực tiểu hoá năng lƣợng [6]. Việc tìm ra min-cut lại
một lần nữa có thể giải một cách hiệu quả bằng thuật toán dòng cực đại (max-flow).
Các thuật toán này có độ phức tạp thấp, và do đó cho phép tính toán nhanh chi phí
tối thiểu trong bài toán min-cut.
2.2.2.1. Đƣờng cắt tối thiểu
Gọi
là một đồ thị có trọng số chứa một tập hợp các đỉnh V, và một tập
hợp các cạnh có hƣớng E kết nối giữa các đỉnh. Có hai đỉnh đặc biệt gọi là đỉnh đầu
cuối (terminal). Trong ngữ cảnh các bài toán thị giác máy tính, thông thƣờng các