Phương pháp học máy đa nhãn đa thể hiện và ứng dụng trong gán nhẵn vùng ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.48 MB, 12 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN DUY LINH

PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN
VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà nội – 2015

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN DUY LINH

PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN
VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Cẩm Tú
TS. Đặng Thanh Hải

Hà nội – 2015

i
Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất đến TS.
Nguyễn Cẩm Tú, TS. Đặng Thanh Hải đã tận tình chỉ bảo và hướng dẫn tôi trong
suốt quá trình nghiên cứu khoa học và thực hiện luận văn này.
Tôi xin chân thành cảm ơn các thầy, cô đã tạo mọi điều kiện thuận lợi cho
tôi trong suốt quá trình học tập và nghiên cứu tại trường.
Tôi cũng xin gửi lời cảm ơn đến các anh, chị và các bạn trong phòng thí
nghiệm KT-Lab đã hỗ trợ tôi rất nhiều trong quá trình thực hiện luận văn.
Cuối cùng, tôi xin gửi lời cảm ơn vô hạn đến gia đình và bạn bè, những
người luôn bên cạnh giúp đỡ và động viên tôi trong suốt quá trình học tập, cũng
như thực hiện luận văn.
Tôi xin chân thành cảm ơn!
Hà nội, ngày 18 tháng 12 năm 2015
Học viên

Nguyễn Duy Linh

ii
Lời cam đoan
Tôi xin cam đoan nội dung được trình bày trong luận văn này là do tôi thực
hiện dưới sự hướng dẫn của TS. Nguyễn Cẩm Tú, TS. Đặng Thanh Hải.
Tất cả những tài liệu tham khảo từ các nghiên cứu liên quan đều được trích
dẫn rõ ràng từ danh mục tài liệu tham khảo trong luận văn. Nội dung luận văn
không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không
chỉ rõ về tài liệu tham khảo.
Hà nội, ngày 18 tháng 12 năm 2015

Học viên

Nguyễn Duy Linh

iii
MỤC LỤC
Lời cam đoan ......................................................................................................... ii
Danh mục các từ viết tắt ........................................................................................ v
Danh mục các bảng .............................................................................................. vi
Danh mục các hình vẽ, đồ thị .............................................................................. vii
MỞ ĐẦU ............................................................................................................... 1
CHƯƠNG 1. TỔNG QUAN PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA
THỂ HIỆN VÀ BÀI TOÁN GÁN NHÃN VÙNG ẢNH ..................................... 4
1.1. Phương pháp học máy đa nhãn - đa thể hiện ............................................. 4
1.2. Bài toán gán nhãn vùng ảnh ....................................................................... 9
1.3. Kết luận .................................................................................................... 11
CHƯƠNG 2. CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN HỌC MÁY ĐA
NHÃN – ĐA THỂ HIỆN .................................................................................... 12
2.1. Hướng giải pháp phân rã bài toán ............................................................ 12
2.1.1. Lấy học máy đa nhãn làm cầu nối..................................................... 13
2.1.2. Lấy học máy đa thể hiện làm cầu nối................................................ 14
2.2. Hướng giải pháp giải quyết trực tiếp ....................................................... 14
2.3. Một số phương pháp học máy đa thể hiện ............................................... 16
2.3.1. Phương pháp DD ............................................................................... 16
2.3.2. Phương pháp EM-DD ....................................................................... 19
2.3.3. Phương pháp MISVM ....................................................................... 22
2.4. Một số độ đo đánh giá của học máy đa nhãn – đa thể hiện ..................... 25
2.5. Kết luận .................................................................................................... 28
CHƯƠNG 3. ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN - ĐA THỂ

HIỆN CHO BÀI TOÁN GÁN NHÃN VÙNG ẢNH ......................................... 29
3.1. Phương pháp đề xuất ................................................................................ 29
3.1.1. Giới thiệu........................................................................................... 29
3.1.2. Nội dung phương pháp đề xuất ......................................................... 29
3.2. Thực nghiệm và đánh giá ......................................................................... 32

iv
3.2.1. Mô tả thực nghiệm ............................................................................ 32
3.2.2. Môi trường và các công cụ................................................................ 32
3.2.3. Dữ liệu thực nghiệm.......................................................................... 33
3.2.4. Thực nghiệm ..................................................................................... 33
3.2.5. Đánh giá kết quả................................................................................ 37
3.3. Kết luận .................................................................................................... 38
KẾT LUẬN ......................................................................................................... 39
TÀI LIỆU THAM KHẢO ................................................................................... 40

v
Danh mục các từ viết tắt
STT
1
2
3

Từ viết tắt
Bp-Mll
EM-DD
DD

4

D-MIMLSVM

5
6

MI
MIL

7

MISVM

8
9

MISL
MIML

10

MIMLRBF

11

MIMLSVM

12

MIML-DD

13

MIML-EMDD

14

MIML-MISVM

15
16
17
18
19
20
21
22

ML-kNN
MLL
MLSVM
MSRCv2
SISL
SIML
SVM
NLDD

Cụm từ tiếng anh
Back-propagation Multi-label learning

Expectation-Maximization Diversity Density
Diversity Density
Directly Multi-Instance Lulti-Label Learning
Support Vector Machine
Multi-Instance
Multi-Instance Learning
Multi-Instance Support Vector Machine
(Maximum Pattern Margin Formulation)
Multi-Instance Single-Label Learning
Multi-Instance Multi-Label Learning
Multi-Instance Multi-Label Learning Radial
Basis Function
Multi-Instance Multi-Label Learning Support
Vector Machine
Multi-Instance Multi-Label Learning Diversity
Density
Multi-Instance Multi-Label Learning
Expectation-Maximization Diversity Density
Multi-Instance Multi-Label Learning MultiInstance Support Vector Machine
Multi-Label k-Nearest Neighbor
Multi-Label Learning
Multi-Label Learning Support Vector Machine
Microsoft Research Cambridge version 2
Single-Instance Single-Label Learning
Single-Instance Multi-Label Learning
Support Vector Machines
Negative Logarithm of Diversity Density

vi

Danh mục các bảng
Bảng 3.1: Cấu hình phần cứng ............................................................................ 32
Bảng 3.2: Công cụ và các thư viện phần mềm.................................................... 33
Bảng 3.3: Kết quả của MIML-DD ở cấp độ vùng ảnh........................................ 33
Bảng 3.4: Kết quả của MIML-EMDD ở cấp độ vùng ảnh ................................. 34
Bảng 3.5: Kết quả của MIML-DD ở cấp độ hình ảnh ........................................ 35
Bảng 3.6: Kết quả của MIML-EMDD ở cấp độ hình ảnh .................................. 36

vii
Danh mục các hình vẽ, đồ thị
Hình 1.1: Bốn khung học máy phân lớp hiện nay ................................................ 4
Hình 1.2: Một bài viết có nhiều nhãn.................................................................... 5
Hình 1.3: Một hình ảnh chứa nhiều vùng ảnh....................................................... 7
Hình 1.4: Ví dụ về học máy đa nhãn - đa thể hiện ............................................... 8
Hình 1.5: Hình ảnh được gán nhãn yếu trên Instagram ........................................ 9
Hình 2.1: Hai giải pháp phân rã bài toán học máy MIML ................................. 12
Hình 2.2: Thuật toán MIML Bayes dựa trên quá trình Gaussian tiền nghiệm .. 15
Hỉnh 2.3: Cấu trúc của mạng nơ ron MIMLRBF ............................................... 16
Hình 2.4: Ví dụ một điểm có Diverse Density ................................................... 17
Hình 2.5: Mã giả của phương pháp EM-DD ...................................................... 21
Hình 2.6: Ví dụ phân lớp với MISVM ............................................................... 23
Hình 2.7: Mã giả giải thuật tối ưu heuristic của phương pháp MISVM ............ 24
Hình 3.1: Mô hình phương pháp đề xuất ............................................................ 30
Hình 3.2: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng
ảnh với tỉ lệ giả túi 0% ........................................................................................ 34
Hình 3.3: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng
ảnh với tỉ lệ giả túi 60% ...................................................................................... 35
Hình 3.4: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình
ảnh với tỉ lệ giả túi 0% ........................................................................................ 36

Hình 3.5: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình
ảnh với tỉ lệ giả túi 60% ...................................................................................... 37

1
MỞ ĐẦU
Hiện nay, với sự phát triển mạnh mẽ của các ứng dụng chia sẻ hình ảnh,
mạng xã hội đã sản sinh ra lượng dữ liệu hình ảnh vô cùng lớn. Cùng với đó là sự
gia tăng của nhu cầu tổ chức, tìm kiếm, trích xuất thông tin từ nguồn dữ liệu hình
ảnh này. Mỗi hình ảnh thường chứa một số vùng ảnh nhất định, ứng với mỗi vùng
ảnh có nội dung và mang ý nghĩa khác nhau. Gán nhãn vùng ảnh nhằm hỗ trợ cho
việc phân loại, tìm kiếm, trích xuất thông tin từ ảnh dựa trên các từ khóa. Do khối
lượng dữ liệu hình ảnh rất lớn nên việc gán nhãn vùng ảnh thủ công tốn nhiều thời
gian và công sức. Vì vậy, nhu cầu gán nhãn vùng ảnh tự động càng trở nên cấp
thiết.
Học máy đa nhãn – đa thể hiện là một trong bốn khung học máy phân lớp
phổ biến hiện nay [17, 18], bao gồm học máy đơn nhãn - đơn thể hiện (hay còn
được gọi là học máy giám sát truyền thống), học máy đơn nhãn - đa thể hiện (hay
học máy đa thể hiện), học máy đa nhãn – đơn thể hiện (hay học máy đa nhãn) và
học máy đa nhãn - đa thể hiện. Với học máy phân lớp đơn nhãn – đơn thể hiện
(single-instance, single-label learning: SISL) hay còn được gọi là học máy phân
lớp truyền thống, mỗi đối tượng được phân lớp chỉ thuộc vào một lớp (nhãn lớp)
và chỉ có một thể hiện duy nhất trong miền ứng dụng. Trong học máy phân lớp
đơn nhãn - đa thể hiện (multi-instance, single-label learning: MISL) [5], mỗi đối
tượng chỉ thuộc vào một lớp nhưng có thể có nhiều thể hiện khác nhau. Với học
máy đa nhãn – đơn thể hiện (single-instance, multi-label learning: SIML) [7], mỗi
đối tượng được phân vào nhiều lớp và chỉ có một thể hiện trong miền ứng dụng.
Học máy đa nhãn – đa thể hiện (multi-instance, multi-label learning: MIML) [17,
18] là khung học máy phân lớp mới nhất hiện nay, được nhóm tác giả Zhi-Hua
Zhou và Min-Ling Zhang công bố lần đầu tiên vào năm 2006. Trong khung học

máy MIML, mỗi đối tượng không chỉ thuộc vào nhiều lớp, mà còn có nhiều thể
hiện. So với học máy phân lớp truyền thống, khung học máy đa nhãn – đa thể hiện
biểu diễn tự nhiên và thuận tiện hơn [17, 18] các đối tượng có nhiều thể hiện, đồng
thời thuộc về nhiều lớp. Trong thực tế, có không ít đối tượng có nhiều thể hiện và
thuộc về nhiều lớp khác nhau. Ví dụ, một hình ảnh còn được xem là một túi thường
bao gồm một số vùng ảnh (mỗi vùng ảnh được coi như một thể hiện), đồng thời
hình ảnh còn thuộc về nhiều lớp khác nhau.
Việc áp dụng các phương pháp học máy có giám sát cho bài toán gán nhãn
vùng ảnh yêu cầu bộ dữ liệu học đã được gán nhãn cho từng vùng ảnh phải đủ

40
TÀI LIỆU THAM KHẢO
Tiếng Việt:
[1] Nguyễn Nhật Tân (2014), Các phương pháp học máy đa thể hiện cho bài toán
gán nhãn vùng ảnh, Khóa luận tốt nghiệp, Trường Đại học Công nghệ - Đại
học Quốc gia Hà nội.
Tiếng Anh:
[2] Amar R.A., Dooly D.R., Goldman S.A., Zhang Q. (2001), “Multiple-Instance
Learning of Real-Valued Data”, Proceedings 18th International Conference
on Machine Learning, pp.3.
[3] Andrews, Stuart, Ioannis Tsochantaridis, Thomas Hofmann (2002),
"Support vector machines for multiple-instance learning", Advances in neural
information processing systems, pp. 561-568.
[4] Boutell, M.R., Luo J., Shen X., Brown C.M. (2004), "Learning multi-label
scene classification", Pattern recognition 37 (9), pp. 1757-1771.
[5] Dietterich, Thomas G., Richard H. Lathrop, Tomás Lozano-Pérez (1997),
"Solving the multiple instance problem with axis-parallel rectangles",
Artificial intelligence 89 (1), pp. 31-71.
[6] Godbole, Shantanu, Sunita Sarawagi (2004), "Discriminative methods for

multi-labeled classification", Advances in Knowledge Discovery and Data
Mining, Springer Berlin Heidelberg, pp. 22-30.
[7] Grigorios Tsoumakas, Ioannis Katakis (2007), “Multi-label Classification : An
Overview”, International Journal of Data Warehousing & Mining, 3 (3), pp.
1-13.
[8] Jianjun He, Hong Gu, Zhelong Wang (2012), "Bayesian multi-instance multilabel learning using Gaussian process prior", Machine learning 88 (1-2), pp.
273-295.
[9] Maron, Oded, Tomás Lozano-Pérez (1998), "A framework for multipleinstance learning", Advances in neural information processing systems, pp.
570-576.
[10] Maron, O. (1998), Learning from ambiguity, Ph.D. Thesis, Massachusetts
Institute of Technology, United States, AI Technical Report 1639.
[11] Qi Zhang, Sally A. Goldman (2001), “EM-DD: An Improved MultipleInstance Learning Technique”, Advances in Neural Information Processing
Systems 14, pp. 1073–1080.

41
[12] Settles, B., Craven, M., Ray, S. (2008). “Multiple-instance active learning”.
Advances in neural information processing systems, pp. 1289-1296.
[13] Xia, Z., Shen, Y., Feng, X., Peng, J., Fan, J. (2015) “Automatic tag-toregion assignment via multiple instance learning”, Multimedia Tools and
Applicationsss 74 (3), pp. 979-1002.
[14] Zhang, Min-Ling, Zhi-Hua Zhou. (2006), "Multilabel neural networks with
applications to functional genomics and text categorization", Knowledge and
Data Engineering, IEEE Transactions on 18.10, pp. 1338-1351.
[15] Zhang, Min-Ling, Zhi-Hua Zhou (2007), "ML-KNN: A lazy learning
approach to multi-label learning", Pattern recognition 40.7, pp. 2038-2048.
[16] Zhang, Min-Ling, Zhi-Jian Wang (2009), "MIMLRBF: RBF neural
networks for multi-instance multi-label learning", Neurocomputing 72.16, pp.
3951-3956.
[17] Zhi-Hua Zhou, Min-Ling Zhang (2006), “Multi-Instance Multi-Label
Learning with Application to Scene Classification”, NIPS 2006, pp. 16091616.

[18] Zhi-Hua Zhou, Min-Ling Zhang, Sheng-Jun Huang, Yu-Feng Li (2012),
“Multi-instance multi-label learning”, Artif. Intell. 176 (1), pp. 2291-2320.
[19] />[20] />

Phương pháp học máy đa nhãn đa thể hiện và ứng dụng trong gán nhẵn vùng ảnh

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về