Tải bản đầy đủ (.pdf) (50 trang)

(Luận văn thạc sĩ) phương pháp học máy đa nhãn đa thể hiện và ứng dụng trong gán nhẵn vùng ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.62 MB, 50 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN DUY LINH

PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN
VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà nội – 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN DUY LINH

PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA THỂ HIỆN
VÀ ỨNG DỤNG TRONG GÁN NHÃN VÙNG ẢNH

Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Cẩm Tú
TS. Đặng Thanh Hải

Hà nội – 2015




i
Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất đến TS.
Nguyễn Cẩm Tú, TS. Đặng Thanh Hải đã tận tình chỉ bảo và hướng dẫn tơi trong
suốt q trình nghiên cứu khoa học và thực hiện luận văn này.
Tôi xin chân thành cảm ơn các thầy, cô đã tạo mọi điều kiện thuận lợi cho
tơi trong suốt q trình học tập và nghiên cứu tại trường.
Tôi cũng xin gửi lời cảm ơn đến các anh, chị và các bạn trong phòng thí
nghiệm KT-Lab đã hỗ trợ tơi rất nhiều trong q trình thực hiện luận văn.
Cuối cùng, tơi xin gửi lời cảm ơn vơ hạn đến gia đình và bạn bè, những
người luôn bên cạnh giúp đỡ và động viên tôi trong suốt quá trình học tập, cũng
như thực hiện luận văn.
Tôi xin chân thành cảm ơn!
Hà nội, ngày 18 tháng 12 năm 2015
Học viên

Nguyễn Duy Linh


ii
Lời cam đoan
Tơi xin cam đoan nội dung được trình bày trong luận văn này là do tôi thực
hiện dưới sự hướng dẫn của TS. Nguyễn Cẩm Tú, TS. Đặng Thanh Hải.
Tất cả những tài liệu tham khảo từ các nghiên cứu liên quan đều được trích
dẫn rõ ràng từ danh mục tài liệu tham khảo trong luận văn. Nội dung luận văn
khơng có việc sao chép tài liệu, cơng trình nghiên cứu của người khác mà khơng
chỉ rõ về tài liệu tham khảo.
Hà nội, ngày 18 tháng 12 năm 2015

Học viên

Nguyễn Duy Linh


iii
MỤC LỤC
Lời cam đoan ......................................................................................................... ii
Danh mục các từ viết tắt ........................................................................................ v
Danh mục các bảng .............................................................................................. vi
Danh mục các hình vẽ, đồ thị .............................................................................. vii
MỞ ĐẦU ............................................................................................................... 1
CHƯƠNG 1. TỔNG QUAN PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA
THỂ HIỆN VÀ BÀI TOÁN GÁN NHÃN VÙNG ẢNH ..................................... 4
1.1. Phương pháp học máy đa nhãn - đa thể hiện ............................................. 4
1.2. Bài toán gán nhãn vùng ảnh ....................................................................... 9
1.3. Kết luận .................................................................................................... 11
CHƯƠNG 2. CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN HỌC MÁY ĐA
NHÃN – ĐA THỂ HIỆN .................................................................................... 12
2.1. Hướng giải pháp phân rã bài toán ............................................................ 12
2.1.1. Lấy học máy đa nhãn làm cầu nối..................................................... 13
2.1.2. Lấy học máy đa thể hiện làm cầu nối................................................ 14
2.2. Hướng giải pháp giải quyết trực tiếp ....................................................... 14
2.3. Một số phương pháp học máy đa thể hiện ............................................... 16
2.3.1. Phương pháp DD ............................................................................... 16
2.3.2. Phương pháp EM-DD ....................................................................... 19
2.3.3. Phương pháp MISVM ....................................................................... 22
2.4. Một số độ đo đánh giá của học máy đa nhãn – đa thể hiện ..................... 25
2.5. Kết luận .................................................................................................... 28
CHƯƠNG 3. ỨNG DỤNG PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN - ĐA THỂ

HIỆN CHO BÀI TOÁN GÁN NHÃN VÙNG ẢNH ......................................... 29
3.1. Phương pháp đề xuất ................................................................................ 29
3.1.1. Giới thiệu........................................................................................... 29
3.1.2. Nội dung phương pháp đề xuất ......................................................... 29
3.2. Thực nghiệm và đánh giá ......................................................................... 32


iv
3.2.1. Mô tả thực nghiệm ............................................................................ 32
3.2.2. Môi trường và các công cụ................................................................ 32
3.2.3. Dữ liệu thực nghiệm.......................................................................... 33
3.2.4. Thực nghiệm ..................................................................................... 33
3.2.5. Đánh giá kết quả................................................................................ 37
3.3. Kết luận .................................................................................................... 38
KẾT LUẬN ......................................................................................................... 39
TÀI LIỆU THAM KHẢO ................................................................................... 40


v
Danh mục các từ viết tắt
STT
1
2
3

Từ viết tắt
Bp-Mll
EM-DD
DD


4

D-MIMLSVM

5
6

MI
MIL

7

MISVM

8
9

MISL
MIML

10

MIMLRBF

11

MIMLSVM

12


MIML-DD

13

MIML-EMDD

14

MIML-MISVM

15
16
17
18
19
20
21
22

ML-kNN
MLL
MLSVM
MSRCv2
SISL
SIML
SVM
NLDD

Cụm từ tiếng anh
Back-propagation Multi-label learning

Expectation-Maximization Diversity Density
Diversity Density
Directly Multi-Instance Lulti-Label Learning
Support Vector Machine
Multi-Instance
Multi-Instance Learning
Multi-Instance Support Vector Machine
(Maximum Pattern Margin Formulation)
Multi-Instance Single-Label Learning
Multi-Instance Multi-Label Learning
Multi-Instance Multi-Label Learning Radial
Basis Function
Multi-Instance Multi-Label Learning Support
Vector Machine
Multi-Instance Multi-Label Learning Diversity
Density
Multi-Instance Multi-Label Learning
Expectation-Maximization Diversity Density
Multi-Instance Multi-Label Learning MultiInstance Support Vector Machine
Multi-Label k-Nearest Neighbor
Multi-Label Learning
Multi-Label Learning Support Vector Machine
Microsoft Research Cambridge version 2
Single-Instance Single-Label Learning
Single-Instance Multi-Label Learning
Support Vector Machines
Negative Logarithm of Diversity Density


vi

Danh mục các bảng
Bảng 3.1: Cấu hình phần cứng ............................................................................ 32
Bảng 3.2: Công cụ và các thư viện phần mềm.................................................... 33
Bảng 3.3: Kết quả của MIML-DD ở cấp độ vùng ảnh........................................ 33
Bảng 3.4: Kết quả của MIML-EMDD ở cấp độ vùng ảnh ................................. 34
Bảng 3.5: Kết quả của MIML-DD ở cấp độ hình ảnh ........................................ 35
Bảng 3.6: Kết quả của MIML-EMDD ở cấp độ hình ảnh .................................. 36


vii
Danh mục các hình vẽ, đồ thị
Hình 1.1: Bốn khung học máy phân lớp hiện nay ................................................ 4
Hình 1.2: Một bài viết có nhiều nhãn.................................................................... 5
Hình 1.3: Một hình ảnh chứa nhiều vùng ảnh....................................................... 7
Hình 1.4: Ví dụ về học máy đa nhãn - đa thể hiện ............................................... 8
Hình 1.5: Hình ảnh được gán nhãn yếu trên Instagram ........................................ 9
Hình 2.1: Hai giải pháp phân rã bài toán học máy MIML ................................. 12
Hình 2.2: Thuật tốn MIML Bayes dựa trên quá trình Gaussian tiền nghiệm .. 15
Hỉnh 2.3: Cấu trúc của mạng nơ ron MIMLRBF ............................................... 16
Hình 2.4: Ví dụ một điểm có Diverse Density ................................................... 17
Hình 2.5: Mã giả của phương pháp EM-DD ...................................................... 21
Hình 2.6: Ví dụ phân lớp với MISVM ............................................................... 23
Hình 2.7: Mã giả giải thuật tối ưu heuristic của phương pháp MISVM ............ 24
Hình 3.1: Mơ hình phương pháp đề xuất ............................................................ 30
Hình 3.2: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng
ảnh với tỉ lệ giả túi 0% ........................................................................................ 34
Hình 3.3: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ vùng
ảnh với tỉ lệ giả túi 60% ...................................................................................... 35
Hình 3.4: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình
ảnh với tỉ lệ giả túi 0% ........................................................................................ 36

Hình 3.5: Biểu đồ thể hiện kết quả trung bình của các phương pháp ở cấp độ hình
ảnh với tỉ lệ giả túi 60% ...................................................................................... 37


1
MỞ ĐẦU
Hiện nay, với sự phát triển mạnh mẽ của các ứng dụng chia sẻ hình ảnh,
mạng xã hội đã sản sinh ra lượng dữ liệu hình ảnh vơ cùng lớn. Cùng với đó là sự
gia tăng của nhu cầu tổ chức, tìm kiếm, trích xuất thơng tin từ nguồn dữ liệu hình
ảnh này. Mỗi hình ảnh thường chứa một số vùng ảnh nhất định, ứng với mỗi vùng
ảnh có nội dung và mang ý nghĩa khác nhau. Gán nhãn vùng ảnh nhằm hỗ trợ cho
việc phân loại, tìm kiếm, trích xuất thơng tin từ ảnh dựa trên các từ khóa. Do khối
lượng dữ liệu hình ảnh rất lớn nên việc gán nhãn vùng ảnh thủ công tốn nhiều thời
gian và cơng sức. Vì vậy, nhu cầu gán nhãn vùng ảnh tự động càng trở nên cấp
thiết.
Học máy đa nhãn – đa thể hiện là một trong bốn khung học máy phân lớp
phổ biến hiện nay [17, 18], bao gồm học máy đơn nhãn - đơn thể hiện (hay còn
được gọi là học máy giám sát truyền thống), học máy đơn nhãn - đa thể hiện (hay
học máy đa thể hiện), học máy đa nhãn – đơn thể hiện (hay học máy đa nhãn) và
học máy đa nhãn - đa thể hiện. Với học máy phân lớp đơn nhãn – đơn thể hiện
(single-instance, single-label learning: SISL) hay còn được gọi là học máy phân
lớp truyền thống, mỗi đối tượng được phân lớp chỉ thuộc vào một lớp (nhãn lớp)
và chỉ có một thể hiện duy nhất trong miền ứng dụng. Trong học máy phân lớp
đơn nhãn - đa thể hiện (multi-instance, single-label learning: MISL) [5], mỗi đối
tượng chỉ thuộc vào một lớp nhưng có thể có nhiều thể hiện khác nhau. Với học
máy đa nhãn – đơn thể hiện (single-instance, multi-label learning: SIML) [7], mỗi
đối tượng được phân vào nhiều lớp và chỉ có một thể hiện trong miền ứng dụng.
Học máy đa nhãn – đa thể hiện (multi-instance, multi-label learning: MIML) [17,
18] là khung học máy phân lớp mới nhất hiện nay, được nhóm tác giả Zhi-Hua
Zhou và Min-Ling Zhang công bố lần đầu tiên vào năm 2006. Trong khung học

máy MIML, mỗi đối tượng không chỉ thuộc vào nhiều lớp, mà cịn có nhiều thể
hiện. So với học máy phân lớp truyền thống, khung học máy đa nhãn – đa thể hiện
biểu diễn tự nhiên và thuận tiện hơn [17, 18] các đối tượng có nhiều thể hiện, đồng
thời thuộc về nhiều lớp. Trong thực tế, có khơng ít đối tượng có nhiều thể hiện và
thuộc về nhiều lớp khác nhau. Ví dụ, một hình ảnh cịn được xem là một túi thường
bao gồm một số vùng ảnh (mỗi vùng ảnh được coi như một thể hiện), đồng thời
hình ảnh cịn thuộc về nhiều lớp khác nhau.
Việc áp dụng các phương pháp học máy có giám sát cho bài toán gán nhãn
vùng ảnh yêu cầu bộ dữ liệu học đã được gán nhãn cho từng vùng ảnh phải đủ


2
lớn. Để xây dựng bộ dữ liệu được gán nhãn chuẩn, địi hỏi mất nhiều thời gian và
chi phí để thuê các chuyên gia gán nhãn cho khối lượng lớn tập dữ liệu huấn luyện.
Việc xây dựng bộ dữ liệu hình ảnh được gán nhãn yếu thường dễ hơn so với việc
xây dựng bộ dữ liệu hình ảnh được gán nhãn chi tiết cho từng vùng ảnh. Ta có thể
tận dụng lượng dữ liệu hình ảnh được gán nhãn yếu khá phổ biến hiện nay từ các
ứng dụng chia sẻ hình ảnh, mạng xã hội. Hình ảnh được gán nhãn yếu [13] là các
hình ảnh được gán nhãn ở cấp độ hình ảnh thay vì gán nhãn chi tiết cho từng vùng
(đối tượng) của ảnh, nhãn của mỗi hình ảnh là tập các nhãn ứng với các vùng bên
trong của hình ảnh đó. Nhờ đó, ta có thể xây dựng được bộ dữ liệu huấn luyện
được gán nhãn yếu với số lượng lớn cho việc huấn luyện phân lớp học máy đa
nhãn - đa thể hiện. Trong đó, mỗi ảnh được gán nhãn yếu được coi như một túi,
mỗi vùng của ảnh được xem như một thể hiện, với tập các nhãn là nhãn của ảnh.
Trên cơ sở như vậy, luận văn tập trung nghiên cứu phương pháp học máy
đa nhãn – đa thể hiện và các hướng giải pháp để giải quyết vấn đề đa nhãn – đa
thể hiện. Có hai hướng giải pháp chính giải quyết vấn đề học máy đa nhãn – đa
thể hiện. Hướng giải pháp đầu tiên là phân rã bài toán học máy đa nhãn – đa thể
hiện thành bài tốn có độ phức tạp ít hơn (lấy học máy đa thể hiện hoặc học máy
đa nhãn làm cầu nối), nổi bật là nghiên cứu của Zin-Hua Zhou và cộng sự [17,

18]. Từ đó xây dựng thuật toán học máy MIML dựa trên việc tích hợp các thuật
tốn học máy tương ứng với học máy đa thể hiện hay học máy đa nhãn. Hướng
giải pháp thứ hai là giải quyết trực tiếp bài toán học máy MIML một cách toàn
vẹn, tiêu biểu là nghiên cứu của Jianjun He và cộng sự [8]. Để giải quyết bài toán
gán nhãn vùng ảnh, luận văn tiến hành nghiên cứu sâu hơn hướng giải pháp phân
rã vấn đề học máy đa nhãn – đa thể hiện lấy học máy đa thể hiện làm cầu nối.
Ngoài ra, luận văn cũng nghiên cứu các thuật toán học máy đa thể hiện như: DD
[9], EM-DD [11], MISVM [3]. Qua đó, luận văn đưa ra đề xuất xây dựng thuật
toán học máy MIML mới dựa trên việc tích hợp các thuật tốn học máy đa thể
hiện DD [9], EM-DD [11], MISVM [3] đã nghiên cứu để giải quyết bài toán gán
nhãn vùng ảnh. Đồng thời, luận văn đưa ra đề xuất bổ sung thông tin vùng ảnh
nhằm nâng cao chất lượng gán nhãn.
Luận văn được chia thành ba chương với nội dung như sau:
Chương 1: Tổng quan phương pháp học máy đa nhãn – đa thể hiện và bài
toán gán nhãn vùng ảnh. Giới thiệu chung về phương pháp học máy đa nhãn – đa
thể hiện và bài toán gán nhãn vùng ảnh.


3
Chương 2: Các phương pháp giải quyết bài toán học máy đa nhãn – đa thể
hiện. Luận văn trình bày về các hướng giải pháp để giải quyết vấn đề đa nhãn –
đa thể hiện, như tiếp cận giải quyết trực tiếp, hướng giải pháp phân rã bài toán
học máy đa nhãn – đa thể hiện thành các bài toán có độ phức tạp ít hơn. Tiếp theo,
luận văn sẽ trình bày các phương pháp học máy đa thể hiện như DD, EM-DD,
MISVM được sử dụng để giải quyết bài tốn học máy đa nhãn – đa thể hiện. Ngồi
ra, luận văn cịn trình bày một số độ đo đánh giá cho phương pháp học máy đa
nhãn – đa thể hiện.
Chương 3: Ứng dụng phương pháp học máy đa nhãn - đa thể hiện cho bài
toán gán nhãn vùng ảnh. Luận văn đưa ra đề xuất xây dựng thuật toán học máy
MIML mới dựa trên việc tích hợp các thuật toán học máy đa thể hiện DD, EMDD, MISVM đã nghiên cứu ở Chương 2 cho bài toán gán nhãn vùng ảnh. Đồng

thời, luận văn còn đề xuất bổ sung thông tin vùng ảnh nhằm nâng cao chất lượng
gán nhãn. Luận văn trình bày quá trình thực nghiệm dựa trên phương pháp được
đề xuất với tập dữ liệu thực nghiệm MSRCv2. Cuối cùng, luận văn đưa ra đánh
giá kết quả thực nghiệm thu được.
Phần kết luận: Tóm lược những kết quả đã đạt được của luận văn và đưa
ra định hướng nghiên cứu tiếp theo trong tương lai.


4
CHƯƠNG 1. TỔNG QUAN PHƯƠNG PHÁP HỌC MÁY ĐA NHÃN – ĐA
THỂ HIỆN VÀ BÀI TOÁN GÁN NHÃN VÙNG ẢNH
1.1. Phương pháp học máy đa nhãn - đa thể hiện
Học máy đa nhãn – đa thể hiện là một trong bốn khung học máy giám sát
phổ biến hiện nay [17, 18], bao gồm học máy đơn nhãn - đơn thể hiện (hay còn
được gọi là học máy giám sát truyền thống), học máy đơn nhãn - đa thể hiện, học
máy đa nhãn - đơn thể hiện và học máy đa nhãn - đa thể hiện. Hình 1.1 cho ta thấy
sự khác nhau của bốn khung học máy phân lớp hiện nay.

Hình 1.1: Bốn khung học máy phân lớp hiện nay [18]
Với học máy giám sát truyền thống hay còn gọi là học máy đơn nhãn - đơn
thể hiện, một đối tượng được biểu diễn dưới dạng một thể hiện (hay véc tơ đặc
trưng) và được gán một nhãn tương ứng. Khung học máy đơn nhãn – đơn thể hiện
được mô tả trong Hình 1.1(a). Theo định nghĩa hình thức của học máy giám sát
truyền thống [17, 18]:
Ta ký hiệu 𝑋 là không gian thể hiện (hay không gian đặc trưng), 𝑌 là tập
các nhãn. Để học hàm 𝑓: 𝑋 → 𝑌 từ tập dữ liệu cho trước {(x1, y1), (x2, y2),…,(xm,
ym)} trong đó 𝑥𝑖 ∈ 𝑋 là một thể hiện và 𝑦𝑖 ∈ 𝑌 là nhãn xác định của thể hiện xi.
Tức là từ một tập dữ liệu ví dụ đã được xây dựng từ trước {(x1, y1), (x2, y2),…,(xm,
ym)}, yêu cầu của bài toán học máy giám sát truyền thống là học một ánh xạ f sao
cho có thể gán nhãn cho từng thể hiện trong tập thể hiện 𝑋 với một nhãn trong tập



5
𝑌. Tuy học máy giám sát truyền thống đã được ứng dụng khá phổ biến và thu
được nhiều kết quả tích cực, nhưng có nhiều đối tượng trong thế giới thực lại
khơng hồn tồn phù hợp với khung học máy này. Trong học máy đơn nhãn – đơn
thể hiện, mỗi đối tượng chỉ thuộc về duy nhất một khái niệm, cùng với đó là thể
hiện chỉ ứng với một nhãn đơn xác định. Tuy nhiên, có rất nhiều đối tượng phức
tạp trong thực tế, các đối tượng này có thể thuộc về đồng thời nhiều nhãn lớp. Ví
dụ, một hình ảnh có thể có đồng thời nhiều nhãn như bầu trời, tịa nhà, cây cối
v.v. Một trang web có thể thuộc về nhiều thể loại như trang tin tức, tin thể thao
hay tin bóng đá. Các khung học máy đa nhãn, học máy đa thể hiện, học máy đa
nhãn – đa thể hiện là giải pháp cho vấn đề này.
Trong học máy đa nhãn (còn được gọi là học máy đa nhãn – đơn thể hiện)
[17, 18], một đối tượng được biểu diễn dưới dạng một thể hiện và được gán với
nhiều nhãn lớp. Theo Zhi-Hua Zhou [17, 18] học máy đa nhãn được định nghĩa
như sau:
Giả sử 𝑋 là không gian thể hiện (hay không gian đặc trưng), 𝑌 là tập các
nhãn. Mục tiêu là học hàm ánh xạ 𝑓: 𝑋 → 2𝑌 từ tập dữ liệu cho trước {(x1, Y1), (x2,
Y2),…,(xm, Ym)} trong đó 𝑥𝑖 ∈ 𝑋 là một thể hiện và 𝑌𝑖 ⊆ 𝑌 là tập các nhãn {𝑦𝑖1 ,
𝑦𝑖2 , … , 𝑦𝑖𝑙𝑖 }, 𝑦𝑖𝑘 ∈ 𝑌 (𝑘 = 1,2, … , 𝑙𝑖 ). Ký hiệu li là số nhãn có trong tập 𝑌𝑖 .

Hình 1.2: Một bài viết có nhiều nhãn


6
Trong thực tế, học máy đa nhãn được ứng dụng trong nhiều lĩnh vực như
phân lớp văn bản, ảnh, các dữ liệu đa phương tiện khác, trong tin sinh học v.v.
Các văn bản có thể thuộc về nhiều thể loại khác nhau như: một bài báo có thể
được phân lớp thành tin thể thao, tin xã hội hay tin giải trí. Một bức ảnh có thể

thuộc nhiều lớp như bãi biển, mặt trời lặn. Tương tự như vậy, một bài hát có thể
thuộc về nhiều thể loại như nhạc rock, nhạc ballad. Hình 1.2 là ví dụ cho dữ liệu
của học máy đa nhãn, trong đó bài viết có nhiều nhãn như: Phú Yên, Du lịch,
Khám phá, Trải nghiệm, Tôi thấy hoa vàng trên cỏ xanh v.v.
Đã có rất nhiều thuật toán học máy đa nhãn được đề xuất trong thời gian
qua như các tác giả Zhang, Min-Ling và Zhi-Hua Zhou [14] đã đề xuất thuật toán
mạng nơ ron đa nhãn Bp-Mll trên cơ sở thuật toán Backpropagation cho việc phân
loại văn bản và phân loại chức năng gen. Thuật toán k láng giềng gần nhất cho
bài toán đa nhãn ML-kNN [15] cũng của Zhang, Min-Ling và Zhi-Hua Zhou. Các
thuật toán đa nhãn MLSVM trên cơ sở thuật toán SVM của nhóm tác giả Boutell
[4], của tác giả Godbole và Sarawagi [6] v.v.
Với học máy đa thể hiện, các đối tượng được biểu diễn bởi nhiều thể hiện
khác nhau và được gắn với một nhãn đơn duy nhất [17, 18]. Các đối tượng trong
học máy đa thể hiện có thể được coi là các túi, ứng với mỗi túi là tập các thể hiện
(hay tập các véc tơ đặc trưng). Một túi được gán nhãn “dương” nếu túi đó chứa ít
nhất một thể hiện “dương”, túi được gán nhãn “âm” nếu tất cả thể hiện trong túi
là “âm”. Trong học máy đa thể hiện, một đối tượng được biểu diễn bằng một tập
các thể hiện khác nhau. Ví dụ, nhiều vùng ảnh có thể được trích xuất từ một hình
ảnh (mỗi vùng ảnh tương ứng với một thể hiện), một tài liệu văn bản có thể chứa
nhiều phần khác nhau (mỗi phần ứng với một thể hiện). Do vậy, các hình ảnh hay
tài liệu văn bản có thể được biểu diễn bởi một tập các thể hiện. Có một chú ý trong
học máy đa thể hiện đó là trong dữ liệu huấn luyện, mặc dù các túi được gán nhãn
nhưng ta lại không biết được nhãn của các thể hiện trong túi đó [18]. Định nghĩa
hình thức của học máy đa thể hiện [17, 18] như sau:
Ký hiệu 𝑋 là không gian thể hiện (hay không gian đặc trưng), 𝑌 là tập các
nhãn. Học hàm ánh xạ 𝑓: 2𝑋 → 𝑌 từ tập dữ liệu cho trước {(X1, y1), (X2, y2), …
(Xm, ym)} trong đó 𝑋𝑖 ⊆ 𝑋 là tập các thể hiện {𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑛𝑖 }, 𝑥𝑖𝑗 ∈ 𝑋 (𝑗 =
1,2, … , 𝑛𝑖 ) và 𝑦𝑖 ∈ 𝑌 là nhãn của Xi. Ký hiệu ni là số thể hiện của tập 𝑋𝑖 .
Học máy đa thể hiện được đề xuất lần đầu tiên bởi các tác giả Dietterich,
Thomas G., Richard H. Lathrop, Tomás Lozano-Pérez [4] trong nghiên cứu dự



7
báo hoạt tính thuốc. Thời gian qua đã có nhiều thuật toán học máy đa thể hiện
được đề xuất, một vài trong số đó là thuật tốn DD [9] được đề xuất bởi Oded
Maron và Tomás Lozano-Pérez, thuật toán EM-DD [11] của Qi Zhang và
Goldma, thuật toán MISVM [3] do Stuart Andrews và cộng sự đề xuất v.v. Luận
văn sẽ trình bày chi tiết các thuật tốn DD [9], EM-DD [11] và MISVM [3] ở
Chương 2. Các phương pháp học máy đa thể hiện được ứng dụng khá rộng rãi
trong nhiều lĩnh vực [18] như phân loại và trích xuất ảnh, phân loại văn bản, khai
phá web, phát hiện thư rác, nhận dạng khn mặt v.v. Hình 1.3 là một ví dụ cho
dữ liệu của học máy đa thể hiện, từ một hình ảnh có thể trích xuất ra nhiều vùng
ảnh (mỗi vùng ảnh tương ứng với một thể hiện) như: vùng ảnh rừng cây, vùng
ảnh bầu trời và vùng ảnh vườn hoa.

Hình 1.3: Một hình ảnh chứa nhiều vùng ảnh
Học máy đa nhãn – đa thể hiện được đề xuất bởi Zhi-Hua Zhou và cộng sự
[17, 18] là khung học máy mới nhất trong số bốn khung học máy hiện nay. Trong
khung học máy MIML, mỗi đối tượng không chỉ thuộc vào nhiều lớp, mà cịn có
nhiều thể hiện khác nhau, hay mỗi đối tượng được biểu diễn bởi tập các véc tơ
đặc trưng (tập các thể hiện) và được gán với nhiều nhãn lớp. Ví dụ, một hình ảnh
có thể bao gồm nhiều vùng khác nhau ứng với các thể hiện, và được gán nhiều
nhãn khác nhau. Hình 1.4 là một ví dụ về học máy đa nhãn - đa thể hiện. Trong


8
đó, hình ảnh bao gồm nhiều vùng ảnh ứng với các thể hiện khác nhau như thể hiện
instance1 ứng với vùng ảnh cây cối (tree), thể hiện instance2 ứng với vùng ảnh
chứa con voi (elephant), v.v. hình ảnh cịn được gán các nhãn lớp tree, elephant
và lion. Khung học máy MIML được định nghĩa một cách hình thức [17, 18] như

sau:
Ký hiệu 𝑋 là không gian thể hiện, 𝑌 là tập các nhãn. Học hàm ánh xạ
𝑓: 2𝑋 → 2𝑌 từ tập dữ liệu cho trước {(X1, Y1), (X2, Y2), … (Xm, Ym)} trong đó 𝑋𝑖 ⊆
𝑋 là tập các thể hiện {𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑛𝑖 }, 𝑥𝑖𝑗 ∈ 𝑋 (𝑗 = 1,2, … , 𝑛𝑖 ) và 𝑌𝑖 ⊆ 𝑌 là tập
các nhãn {𝑦𝑖1 , 𝑦𝑖2 , … , 𝑦𝑖𝑙𝑖 }, 𝑦𝑖𝑘 ∈ 𝑌 (𝑘 = 1,2, … , 𝑙𝑖 ). Ký hiệu ni là số thể hiện của
tập 𝑋𝑖 , li là số nhãn trong tập 𝑌𝑖 .

Hình 1.4: Ví dụ về học máy đa nhãn - đa thể hiện [7]
Có thể thấy rằng, các khung học máy đa nhãn, học máy đa thể hiện và học
máy đa nhãn – đa thể hiện là kết quả từ sự nhập nhằng trong việc biểu diễn các
đối tượng của thế giới thực [17, 18]. Học máy đa thể hiện nghiên cứu sự nhập
nhằng của không gian dữ liệu đầu vào (hay không gian thể hiện), một đối tượng
có nhiều cách biểu diễn đầu vào (các thể hiện) khác nhau. Học máy đa nhãn xem
xét sự nhập nhằng của không gian đầu ra (hay không gian nhãn lớp), mỗi đối
tượng có nhiều biểu diễn đầu ra (các nhãn lớp). Trong khi đó, học máy đa nhãn –
đa thể hiện xem xét sự nhập nhằng đồng thời của cả không gian đầu vào và đầu
ra. Khi giải quyết các vấn đề của thế giới thực, việc biểu diễn tốt các vấn đề thường
quan trọng hơn có thuật tốn học máy tốt. Do việc biểu diễn tốt vấn đề có thể thu
được nhiều thơng tin có ý nghĩa và làm cho việc học để giải quyết vấn đề được dễ
dàng hơn. Học máy đa nhãn – đa thể hiện biểu diễn các đối tượng có sự nhập
nhằng cả về đầu vào và đầu ra, thuận tiện và tự nhiên hơn các khung học máy
khác.


9
1.2. Bài toán gán nhãn vùng ảnh
Hiện nay, sự phát triển mạnh mẽ của các ứng dụng chia sẻ hình ảnh, mạng
xã hội như Instagram, Flickr, Facebook v.v. đã sản sinh ra một lượng dữ liệu hình
ảnh khổng lồ. Theo một báo cáo của Instagram [19], trung bình mỗi ngày có hơn
80 triệu bức ảnh được chia sẻ qua ứng dụng Instagram. Nội dung và chủ đề của

các hình ảnh được chia sẻ rất phong phú như thể thao, giải trí, phong cảnh, con
người, khoa học - cơng nghệ, thiên văn v.v. Đây là nguồn dữ liệu rất tốt, có thể sử
dụng cho nhiều mục đích khác nhau. Cùng với sự gia tăng của lượng dữ liệu ảnh
là gia tăng của nhu cầu tổ chức, tìm kiếm, trích xuất thơng tin từ nguồn dữ liệu
hình ảnh này. Mỗi hình ảnh thường chứa một số vùng ảnh nhất định, ứng với mỗi
vùng ảnh có nội dung và mang ý nghĩa khác nhau. Gán nhãn vùng ảnh nhằm hỗ
trợ cho việc phân loại, tìm kiếm, nhận dạng, trích xuất thơng tin từ ảnh dựa trên
các từ khóa. Do khối lượng dữ liệu hình ảnh rất lớn nên việc gán nhãn vùng ảnh
thủ cơng tốn nhiều thời gian và cơng sức. Vì vậy, nhu cầu gán nhãn vùng ảnh tự
động càng trở nên cấp thiết.
Việc áp dụng các phương pháp học máy có giám sát cho bài tốn gán nhãn
hình ảnh nói chung và bài tốn gán nhãn vùng ảnh nói riêng, u cầu bộ dữ liệu
học đã được gán nhãn cho từng ảnh, vùng ảnh phải đủ lớn. Để xây dựng bộ dữ
liệu được gán nhãn chuẩn, đòi hỏi mất nhiều thời gian và chi phí để thuê các
chuyên gia gán nhãn cho khối lượng lớn tập dữ liệu huấn luyện. Việc xây dựng
bộ dữ liệu hình ảnh được gán nhãn yếu thường dễ hơn so với việc xây dựng bộ dữ
liệu hình ảnh được gán nhãn chi tiết cho từng vùng ảnh.

Hình 1.5: Hình ảnh được gán nhãn yếu trên Instagram


10
Hình ảnh được gán nhãn yếu [1, 13] (weak-labeling image hoặc looselylabeled image) là các hình ảnh được gán nhãn ở cấp độ hình ảnh (túi thể hiện)
thay vì gán nhãn chi tiết cho từng vùng (thể hiện) của ảnh, nhãn của mỗi hình ảnh
là tập các nhãn ứng với các vùng có trong hình ảnh đó. Ta có thể tận dụng lượng
dữ liệu hình ảnh được gán nhãn yếu khá phổ biến hiện nay từ các ứng dụng chia
sẻ hình ảnh, mạng xã hội. Hình 1.5 là một ví dụ về hình ảnh được gán nhãn yếu
trên ứng dụng chia sẻ hình ảnh Instagram. Nhãn của ảnh gồm một số nhãn như
saturn, rings, space v.v. đây là các nhãn tương ứng của các đối tượng có trong
ảnh.

Dữ liệu hình ảnh được gán nhãn yếu có một số ưu điểm [13]: (1) chúng có
thể biểu diễn các đặc trưng trực quan khác nhau của các lớp đối tượng hiệu quả
hơn; (2) có thể được thu thập dễ dàng hơn bằng cách cung cấp các nhãn của đối
tượng được gán yếu ở cấp độ hình ảnh so với việc thu thập ở cấp độ đối tượng
(hay vùng ảnh); và (3) đây là nguồn dữ liệu khởi đầu của việc nhận dạng cảnh và
đối tượng trong thế giới thực do sự đa dạng của các nhãn và các đặc trưng của
mình.
Với những ưu điểm như vậy, ta có thể xây dựng được bộ dữ liệu huấn luyện
được gán nhãn yếu với số lượng lớn cho việc huấn luyện phân lớp học máy đa
nhãn - đa thể hiện. Trong đó, mỗi ảnh được gán nhãn yếu được coi như một túi,
mỗi vùng của ảnh được xem như một thể hiện, nhãn của ảnh là tập các nhãn của
các thể hiện. Bài toán gán nhãn vùng ảnh trở thành bài toán gán nhãn cho từng thể
hiện trong túi.


11
1.3. Kết luận
Trong chương này, luận văn đã giới thiệu khái quát một số khái niệm, nội
dung của các phương pháp học máy như học máy giám sát truyền thống, học máy
đa nhãn, học máy đa thể hiện và học máy đa nhãn – đa thể hiện. Ngoài ra, luận
văn cũng giới thiệu về bài toán gán nhãn vùng ảnh và việc áp dụng phương pháp
học máy đa nhãn – đa thể hiện cho bài toán gán nhãn vùng ảnh.
Chương tiếp theo, luận văn sẽ giới thiệu các phương pháp giải quyết bài
toán học máy đa nhãn – đa thể hiện và một số phương pháp học máy đa thể hiện.


12
CHƯƠNG 2. CÁC PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN HỌC MÁY
ĐA NHÃN – ĐA THỂ HIỆN
2.1. Hướng giải pháp phân rã bài tốn

Từ Hình 1.1, ta có thể thấy học máy giám sát truyền thống là kết quả của
sự phân rã bài toán học máy đa nhãn hay học máy đa thể hiện. Trong khi đó, học
máy đa nhãn và học máy đa thể hiện là kết quả của việc phân rã bài toán học máy
đa nhãn – đa thể hiện thành các bài tốn có độ phức tạp ít hơn. Vì vậy, ý tưởng cơ
bản để giải quyết bài toán học máy đa nhãn – đa thể hiện là phân rã bài toán sử
dụng học máy đa nhãn, học máy đa thể hiện làm cầu nối [17, 18] (Hình 2.1).

Hình 2.1: Hai giải pháp phân rã bài tốn học máy MIML [18]
Nhóm tác giả Zin-Hua Zhou và cộng sự [17, 18] đã đưa ra hai cách để phân
rã bài tốn học máy đã nhãn – đa thể hiện (Hình 2.1).
Cách thứ nhất (Hình 2.1 Solution A) theo hướng lấy học máy đa thể hiện
như một nhịp cầu để giảm số nhãn trước, chuyển đổi bài toán MIML thành bài
toán đa thể hiện (MISL), sau đó chuyển thành bài tốn học máy giám sát truyền
thống (SISL).
Cách thứ hai (Hình 2.2 Solution B) theo hướng lấy học máy đa nhãn như
một nhịp cầu để giảm số thể hiện trước, chuyển bài toán MIML thành bài toán
học máy đa nhãn (SIML), sau đó chuyển thành bài tốn học máy giám sát truyền
thống (SISL).
Luận văn sẽ nghiên cứu một số thuật toán học đa thể hiện như DD [9], EMDD [11], MISVM [3]. Từ đó đề xuất xây dựng thuật tốn học máy MIML theo
hướng phân rã sử dụng học máy đa thể hiện làm cầu nối, tích hợp các thuật tốn


13
học máy đa thể hiện DD [9], EM-DD [11] và MISVM [3] vào ứng dụng giải quyết
bài toán gán nhãn vùng ảnh.
2.1.1. Lấy học máy đa nhãn làm cầu nối
Nhắc lại định nghĩa học máy MIML [17, 18]: Ký hiệu 𝑋 là không gian thể
hiện, 𝑌 là tập các nhãn. Học hàm ánh xạ 𝑓: 2𝑋 → 2𝑌 từ tập dữ liệu cho trước {(X1,
Y1), (X2, Y2), … (Xm, Ym)} trong đó 𝑋𝑖 ⊆ 𝑋 là tập các thể hiện {𝑥𝑖1 , 𝑥𝑖2 , … , 𝑥𝑖𝑛𝑖 }
𝑥𝑖𝑗 ∈ 𝑋 (𝑗 = 1,2, … , 𝑛𝑖 ) và 𝑌𝑖 ⊆ 𝑌 là tập các nhãn {𝑦𝑖1 , 𝑦𝑖2 , … , 𝑦𝑖𝑙𝑖 }, 𝑦𝑖𝑘 ∈ 𝑌 (𝑘 =

1,2, … , 𝑙𝑖 ). Ký hiệu ni là số thể hiện của tập 𝑋𝑖 , li là số nhãn trong tập 𝑌𝑖 .
Ta phân rã học máy MIML thành bài toán học máy đa nhãn bằng cách học
hàm ánh xạ: 𝑓𝑀𝐿𝐿 : 𝑍 → 2𝑌 [17, 18]. Với mọi 𝑧𝑖 ∈ 𝑍, 𝑓𝑀𝐿𝐿 (𝑧𝑖 ) = 𝑓𝑀𝐼𝑀𝐿 (𝑋𝑖 ) nếu
𝑧𝑖 = 𝜙(𝑋𝑖 ), 𝜙: 2𝑋 → 𝑍. Các nhãn thích hợp cho bộ dữ liệu mới 𝑋 ∗ được xác định
theo 𝑌 ∗ = 𝑓𝑀𝐿𝐿 (𝜙(𝑋 ∗ )). Ta có thể chuyển bài toán học máy đa nhãn này thành
học máy giám sát truyền thống (SISL) bằng cách học hàm ánh xạ: 𝑓𝑆𝐼𝑆𝐿 : 𝑍 × 𝑌 →
{−1, +1}. Với mỗi 𝑦 ∈ 𝑌, 𝑓𝑆𝐼𝑆𝐿 (𝑧𝑖 , 𝑦) = +1 nếu 𝑦 ∈ 𝑌𝑖 và ngược lại cho giá trị
−1. Hay, hàm 𝑓𝑀𝐿𝐿 (𝑧𝑖 ) = {𝑦|𝑓𝑆𝐼𝑆𝐿 (𝑧𝑖 , 𝑦) = +1}. Trong đó hàm ánh xạ 𝜙 có thể
được xây dựng bằng nhiều phương pháp, một trong số đó là thuật tốn phân cụm.
Nhóm tác giả Zin-Hua Zhou và cộng sự đã đề xuất thuật toán MIMLSVM
[17, 18] dựa trên ý tưởng phân rã bài toán MIML thành bài toán học máy MLL.
Bước đầu tiên của MIMLSVM, với mỗi mẫu MIML (𝑋𝑢 , 𝑌𝑢 ) (𝑢 = 1,2, … , 𝑚), ta
đưa 𝑋𝑢 vào một tập dữ liệu Γ. Sau đó, ta áp dụng thuật toán phân cụm k-medoids
chia thành k cụm trên miền dữ liệu Γ. Do dữ liệu trong tập Γ (tập 𝑋𝑢 ) là các túi thể
hiện chưa được gán nhãn, nên ta sử dụng hàm khoảng cách Hausdorff để tính
khoảng cách giữa các túi thể hiện. Giả sử có hai túi thể hiện 𝐴 = {𝑎1 , 𝑎2 , … , 𝑎𝑛𝐴 }
và B= {𝑏1 , 𝑏2 , … , 𝑏𝑛𝐵 }, khoảng cách Hausdorff [18] giữa A và B được định nghĩa:
𝑑𝐻 (𝐴, 𝐵) = 𝑚𝑎𝑥 {max min‖𝑎 − 𝑏‖ , max min‖𝑏 − 𝑎‖}
𝑎∈𝐴 𝑏∈𝐵

𝑏∈𝐵 𝑎∈𝐴

(2.1)

Trong đó ‖𝑎 − 𝑏‖ là khoảng cách Euclidean giữa hai thể hiện a và b.
Sau khi tiến hành phân cụm, tập dữ liệu Γ được chia thành k cụm, các tâm
cụm 𝑀𝑡 (𝑡 = 1,2, … , 𝑘). Với các tâm cụm Mt thu được, ta chuyển ví dụ đa thể
hiện Xu ban đầu thành vec tơ số k chiều 𝑧𝑢 , với thành phần thứ 𝑖 (𝑖 = 1,2, … , 𝑘)
của vec tơ 𝑧𝑢 là khoảng cách 𝑑𝐻 (𝑋𝑢 , 𝑀𝑖 ) giữa 𝑋𝑢 và 𝑀𝑖 . Nói cách khác, 𝑧𝑢𝑖 mã
hóa một số thơng tin cấu trúc của dữ liệu, ở đây là mối quan hệ giữa 𝑋𝑢 và cụm

thứ i của tập dữ liệu Γ. Vây là, từ dữ liệu MIML ban đầu (𝑋𝑢 , 𝑌𝑢 ) (𝑢 = 1,2, … , 𝑚)


14
ta đã chuyển thành dữ liệu đa nhãn đơn thể hiện (𝑧𝑢 , 𝑌𝑢 ) (𝑢 = 1,2, … , 𝑚). Sau đó,
ta sẽ thực hiện phân lớp đa nhãn MLSVM [4] cho bộ dữ liệu mới.
2.1.2. Lấy học máy đa thể hiện làm cầu nối
Ta có thể chuyển đổi bài toán học máy đa nhãn – đa thể hiện (học hàm ánh
xạ 𝑓: 2𝑋 → 2𝑌 ) sang bài toán học máy đa thể hiện bằng cách học hàm ánh xạ
𝑓𝑀𝐼𝐿 : 2𝑋 × 𝑌 → {−1, +1} [17, 18]. Với mọi 𝑦 ∈ 𝑌, 𝑓𝑀𝐼𝐿 (𝑋𝑖 , 𝑦) = +1 nếu 𝑦 ∈ 𝑌𝑖
và ngược lại cho giá trị −1. Các nhãn thích hợp cho bộ dữ liệu mới được xác định
theo 𝑌 ∗ = {𝑦 | 𝑠𝑖𝑔𝑛[𝑓𝑀𝐼𝐿 (𝑋 ∗ , 𝑦)] = +1}. Ta có thể chuyển bài toán học máy đa
thể hiện này thành học máy giám sát truyền thống (SISL) bằng cách học hàm ánh
xạ 𝑓𝑆𝐼𝑆𝐿 : 𝑋 × 𝑌 → {−1, +1}, với ràng buộc để thu được hàm 𝑓𝑀𝐼𝐿 (𝑋𝑖 , 𝑦) từ
𝑓𝑆𝐼𝑆𝐿 (𝑥𝑖𝑗 , 𝑦) (𝑗 = 1,2, … , 𝑛𝑖 ). Với mọi 𝑦 ∈ 𝑌, 𝑓𝑆𝐼𝑆𝐿 (𝑥𝑖𝑗 , 𝑦) = +1 nếu 𝑦 ∈ 𝑌𝑖 và
ngược lại cho giá trị −1. Có nhiều ràng buộc có thể được sử dụng, một trong số
𝑛

𝑖
đó là 𝑓𝑀𝐼𝐿 (𝑋𝑖 , 𝑦) = 𝑠𝑖𝑔𝑛[∑𝑗=1
𝑓𝑆𝐼𝑆𝐿 (𝑥𝑖𝑗 , 𝑦)].

Luận văn sẽ trình bày chi tiết các bước chuyển đổi bài toán học máy đa
nhãn – đa thể hiện sang bài toán học máy đa thể hiện, trong đó sử dụng các thuật
tốn học máy đa thể hiện DD [9], EM-DD [11], MISVM [3] ở Chương 3.
2.2. Hướng giải pháp giải quyết trực tiếp
Hướng giải pháp phân rã bài toán học máy đa nhãn – đa thể hiện thành các
bài tốn học máy có độ phức tạp ít hơn đôi khi làm mất thông tin trong quá trình
phân rã, như khơng tận dụng được mối quan hệ giữa các nhãn, giữa các thể hiện
và các nhãn v.v. Do vậy, một số nghiên cứu đã đưa ra giải pháp giải quyết bài

toán học máy đa nhãn – đa thể hiện một cách toàn vẹn như D-MIMLSVM của
Zhi-Hua Zhou và cộng sự [17, 18], MIML Bayes dựa trên quá trình Gaussian tiền
nghiệm của Jianjun He và nhóm nghiên cứu [8], MIMLRBF của Min-Ling Zhang
và Zhi-Jian Wang [16] v.v.
Thuật toán D-MIMLSVM của Zhi-Hua Zhou và cộng sự [17, 18] định
nghĩa hàm mục tiêu cân bằng hàm loss giữa các nhãn đúng và các nhãn được dự
đoán đối với các túi cũng như tập các thể hiện thành phần của túi. Thuật toán dựa
trên giả thiết các nhãn lớp của cùng một túi có quan hệ với nhau. Tuy nhiên, trong
thực tế khơng nhiều nhãn lớp có cùng tính chất [8]. Ví dụ, nhãn ‘surfing’ có cùng
tính chất với nhãn ‘water’ và nhãn ‘beach’, nhãn ‘elephant’ có cùng tính chất với
nhãn ‘animal’ và nhãn ‘lion’. Tuy nhiên, các nhãn ‘surfing’, ‘beach’, ‘elephant’
và ‘lion’ thì khơng có cùng tính chất.


15
Nhóm nghiên cứu Jianjun He [8] để xuất phương pháp học máy MIML
Bayesian dựa trên quá trình Gaussian tiền nghiệm.

Hình 2.2: Thuật tốn MIML Bayes dựa trên q trình Gaussian tiền nghiệm [7]
Ý tưởng cơ bản của thuật toán là giả sử tồn tại một hàm ẩn với quá trình
Gaussian tiền nghiệm trong không gian thể hiện của mỗi nhãn, suy ra xác suất dự
đoán của các nhãn bằng cách tích hợp khơng chắc chắn vào các hàm ẩn sử dụng
cách tiếp cận Bayesian, mối liên kết giữa các thể hiện với các nhãn có thể được
sử dụng bằng cách xác định một hàm khả năng, tương quan giữa các nhãn được
xác định bởi ma trận hiệp phương sai của các hàm ẩn. Ngoài ra, sự khác nhau của
các quan hệ giữa các thể hiện và các nhãn có thể biểu diễn bằng cách định nghĩa
các hàm khả năng khác nhau.
Thuật toán MIMLRBF của Min-Ling Zhang và Zhi-Jian Wang [16] đề xuất
sử dụng mạng nơ ron hàm cơ sở bán kính RBF để học từ các ví dụ MIML. Lớp
đầu tiên của của mạng nơ ron MIMLRBF gồm tập các tâm cụm (các túi thể hiện),

được chuẩn hóa bằng thuật toán phân cụm k-Medoids sử dụng độ đo khoảng cách
Hausdorff trung bình giữa các túi trên ví dụ MIML cho mỗi lớp dương. Trọng số
của mạng nơ ron MIMLRBF ở lớp thứ hai được tối ưu hóa bằng cực tiểu hóa hàm
sai số tổng bình phương. Hình 2.3 là mơ tả cho cấu trúc mạng nơ ron MIMLRBF.


16

Hỉnh 2.3: Cấu trúc của mạng nơ ron MIMLRBF
Với mạng nơ ron MIMLRBF, các mối liên kết giữa các thể hiện và các nhãn
được sử dụng trực tiếp trong quá trình phân cụm ở lớp đầu tiên và quá trình tối ưu
hóa ở lớp thứ hai.
2.3. Một số phương pháp học máy đa thể hiện
2.3.1. Phương pháp DD
Phương pháp Diverse Density (mật độ đa dạng - DD) được Maron và
Lozano-Perez [9] đề xuất năm 1998 để ứng dụng vào nhận dạng một người từ một
tập các ảnh (trong đó, các ảnh được gán nhãn dương khi có người đó trong bức
ảnh, ngược lại thì được gán nhãn âm) và cho vấn đề lựa chọn cổ phiếu.
Maron và Lozano-Perez [9] đề xuất phương pháp DD với ví dụ về một phân
tử thuốc trong dự báo hoạt tính của thuốc. Giả sử rằng, hình dạng của một phân
tử ứng cử viên được biểu diễn bởi một vec tơ đặc trưng. Do đó, một thể hiện của
phân tử thuốc được biểu diễn bằng một điểm trong không gian đặc trưng n chiều.
Khi phân tử thuốc thay đổi hình dạng, chúng sẽ sinh ra một đa tạp trong khơng
gian đặc trưng n chiều. Hình 2.4 (a) mô tả đường đi của bốn phân tử trong không
gian đặc trưng hai chiều. Nếu phân tử ứng cử viên được gán nhãn dương, thì ta có
thể biết rằng ít nhất có một điểm của đa tạp, mà ở đó hình dạng của phân tử phù
hợp với protein đích (đa tạp dương). Ngược lại, phân tử dược gán nhãn âm khi



×