Tải bản đầy đủ (.pdf) (38 trang)

Phân lớp đa nhãn, đa thể hiện và áp dụng trong quản lý danh tiếng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.54 MB, 38 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Thị Thơm

PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG

LUẬN VĂN THẠC SỸ

HÀ NỘI - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Thị Thơm

PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60.48.01.04

LUẬN VĂN THẠC SỸ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. Hà Quang Thụy

HÀ NỘI – 2015


Lời cảm ơn


Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo,
PGS.TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn, động viên và giúp đỡ em
trong suốt quá trình thực hiện đề tài luận văn.
Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin
đã truyền đạt kiến thức quý báu cho em trong sáu năm học vừa qua.
Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn, các em sinh
viên trong nhóm “Khai phá dữ liệu” phòng thí nghiệm KT-Sislab và đề tài cấp
ĐHQGHN GQ.14.13 đã giúp em rất nhiều trong việc hỗ trợ kiến thức chuyên môn để
hoàn thành tốt luận văn.
Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn động viên,
chăm sóc và khích lệ con trên mỗi bước đường học vấn.
Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp
K53CB, K53CLC và K19HTTT đã ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập
trên giảng đường và thực hiện đề tài luận văn này.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 09 tháng 04 năm 2015
Học viên

Phan Thị Thơm


PHÂN LỚP ĐA NHÃN, ĐA THỂ HIỆN VÀ ÁP DỤNG TRONG
QUẢN LÝ DANH TIẾNG
Phan Thị Thơm
Khóa K19HTTT, ngành công nghệ thông tin.

Tóm tắt Luận văn:

Hệ thống quản lý danh tiếng là một hệ thống quan trọng trong việc quản lý
thương hiệu, đã được sử dụng rộng rãi trong nhiều công ty và tổ chức khác nhau. Đối

với mỗi công ty hay sản phẩm, hệ thống quản lý danh tiếng tiến hành thu thập các
nhận xét của người dùng, phân tích quan điểm trong những nhận xét đấy, và tạo ra một
bản tổng kết quan điểm của người dùng về từng lớp đặc trưng của sản phẩm hay công
ty. Tuy nhiên, trong một số nhận xét của người dùng thường có chứa nhiều nội dung,
và đa phần là dữ liệu đa nhãn đa thể hiện. Vì vậy, vấn đề trọng tâm của hệ thống quản
lý danh tiếng là việc xử lý dữ liệu đa nhãn đa thể hiện.
Theo Zhou và cộng sự, 2012 [2], hướng tiếp cận để giải quyết bài toán phân lớp
dữ liệu đa nhãn, đa thể hiện (MIML) là sử dụng phương pháp phân rã bài toán MIML
thành những bài toán đơn giản. Trong đó các thuật toán học máy MIML được phát
triển dựa trên các thuật toán học máy nền (SVM, Bayes, Boost,..) như MIMLSVM,
MIML Bayes, MIMLBoost. Từ đây luận văn đề xuất một mô hình phân lớp quan điểm
người dùng trong bài toán quản lý danh tiếng bằng cách áp dụng MIMLSVM.
Thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về 1000 khách sạn
ở Việt Nam ở website ( ). Kết quả phân lớp khi áp dụng phương
pháp phân lớp thông thường SVM là 84.84% và kết quả khi áp dụng mô hình phân lớp
quan điểm luận văn đề xuất là 85.76%. Kết quả trên cho thấy phương pháp xây dựng
mô hình phân lớp quan điểm áp dụng MIMLSVM là có tính hiệu quả cao.


Lời cam đoan
Tôi xin cam đoan mô hình phân lớp quan điểm người dùng trong bài toán quản lý
danh tiếng bằng cách áp dụng MIMLSVM được trình bày trong luận văn này là do tôi
thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy.
Tất cả những tham khảo từ các nghiên cứu liên quan đề được nêu nguồn gốc một
các rõ ràng từ danh mục tài liệu tham khảo trong luận văn. Trong luận văn, không có
việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài
liệu tham khảo.

Hà Nội, ngày 09 tháng 04 năm 2015
Tác giả


Phan Thị Thơm


Mục lục
Mở đầu .............................................................................................................................1
Chương 1: Giới thiệu chung về quản lý danh tiếng.........................................................2
1.1.

Tổng quan về hệ thống quản lý danh tiếng .......................................................2

1.1.1.

Hệ thống quản lý danh tiếng .......................................................................2

1.1.2.

Tầm quan trọng của hệ thống quản lý danh tiếng ......................................4

1.2.

Bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong quản lý danh tiếng ..........5

Tổng kết chương một ...................................................................................................7
Chương 2 : Tổng quan về phân lớp đa nhãn đa thể hiện MIML .....................................8
2.1.

Phân lớp đa nhãn đa thể hiện .............................................................................8

2.2.


Phương pháp chuyển đổi bài toán học máy MIML .........................................10

2.2.1.

MIMLSVM ....................................................................................................10

2.2.2.

MIMLBOOST................................................................................................ 13

Tổng kết chương hai ..................................................................................................16
Chương 3: Áp dụng phương pháp MIMLSVM trong bài toán quản lý danh tiếng ......17
3.1.

Mô tả phương pháp ..........................................................................................17

3.2.

Mô hình đề xuất ...............................................................................................17

3.3.

Pha 1: Huấn luyện mô hình ..............................................................................18

3.3.1. Tiền xử lý và xây dựng vector đặc trưng ......................................................18
3.3.2. Chuyển đổi từ MIML thành SIML ................................................................ 19
3.3.3. Chuyển đổi từ SIML thành SISL ...................................................................19
3.4.


Pha 2: Phân lớp sử dụng mô hình huấn luyện .................................................21

Tổng kết chương ba ....................................................................................................22
Chương 4. Thực nghiệm và đánh giá ............................................................................23
4.1.

Môi trường và các công cụ sử dụng thực nghiệm............................................23

4.1.1.

Cấu hình phần cứng ..................................................................................23

4.1.2.

Các phần mềm sử dụng .............................................................................23

4.2.

Xây dựng tập dữ liệu thử nghiệm ....................................................................24

4.3.

Thử nghiệm ......................................................................................................25

4.4.

Kết quả thực nghiệm ........................................................................................25


4.5.


Đánh giá hệ thống ............................................................................................26

Kết luận ......................................................................................................................27
Tài liệu tham khảo .........................................................................................................28


Danh sách hình vẽ
Hình 1.1 : Sơ đồ phân loại danh tiếng .............................................................................2
Hình 1.2: Hai mô hình hệ thống ......................................................................................3
Hình 1.2: Mô hình 3(a) và 3(b) trong thực tế ..................................................................4
Hình 2.1: Dữ liệu đa nhãn đa thể hiện .............................................................................8
Hình 3.1: Mô hình đề xuất .............................................................................................18
Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân ...............20
Hình 4.1: So sánh 2 thực nghiệm ..................................................................................26


Danh sách bảng biểu
Bảng 4.1. Cấu hình hệ thống thử nghiệm ......................................................................23
Bảng 4.2: Công cụ phần mềm sử dụng..........................................................................23
Bảng 4.3 : Tập dữ liệu thực nghiệm ..............................................................................24
Bảng 4.4: Tập dữ liệu huấn luyện..................................................................................24
Bảng 4.5: Kết quả của thực nghiệm 1 ...........................................................................25
Bảng 4.6: Kết quả thực nghiệm 2 ..................................................................................25


Danh sách các từ viết tắt
MIML

Multi instance multi label


SVM

Support Vector Machine

MISL

Multi-instance, single-label learning

SISL

Single-instance single-label learning

SIML

Single-instance, multi-label learning

MIMLSVM

Multi instance multi label Support Vector
Machine

MIMLBOOST

Multi instance multi label boost


Mở đầu
Danh tiếng của tổ chức là một tài sản có giá trị ngày càng cao. Ngày nay, Internet
là kênh thông tin quan trọng chuyển tải danh tiếng của tổ chức tới cộng đồng xã hội.

Theo như First World Internet Report (Pierce, 2008) [1], chỉ ra rằng hơn hai phần ba
người dùng Internet coi đây là nguồn thông tin quan trọng. Tuy nhiên, lượng thông tin
trên Internet đang ngày một lớn và gây khó khăn cho người sử dụng khi tìm các thông
tin để đánh giá một công ty hay một sản phẩm. Vì thế, hệ thống quản lý danh tiếng là
một trong những cách tốt nhất để giải quyết vấn đề này.
Hệ thống quản lý danh tiếng chủ yếu là tổng hợp dựa trên ý kiến của người dung,
trong khi đó, ý kiến của người dùng thường nói đến nhiều khía cạnh của sản phẩm. Vì
thế, vấn đề mấu chốt của bài toán quản lý danh tiếng là việc phân loại dữ liệu đa nhãn
đa thể hiện. Luận văn đề xuất một mô hình phân lớp câu quan điểm trong bài toán
quản lý danh tiếng sử dụng MIMLSVM và tiến hành thực nghiệm mô hình phân lớp
với tập các nhận xét của người dùng về 1000 khách sạn ở Việt Nam và cho kết quả khả
quan 85.76%.
Nội dung của luận văn được chia thành các chương như sau:
Chương 1: Luận văn giới thiệu khái quát về hệ thống quản lý danh tiếng và tầm
quan trọng của hệ thống này trong thực tế. Sau đó, luận văn còn trình bày về tầm quan
trọng của việc phân lớp dữ liệu đa nhãn, đa thể hiện trong hệ thống quản lý danh tiếng.
Chương 2: Luận văn trình bày một cách tổng quan về học máy phân lớp MIML,
các mô hình giải quyết như: MIMLSVM, MIMLBoost.
Chương 3: Luận văn đề xuất mô hình phân lớp dữ liệu trong bài toán quản lý
danh tiếng bằng cách áp dụng MIMLSVM. Đồng thời, luận văn cũng trình bày chi tiết
các pha cũng như các bước trong mô hình.
Chương 4 : Luận văn trình bày thực nghiệm trong việc áp dụng mô hình mà đề
xuất, từ đó đưa ra kết quả đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam.
Phần kết luận : Tóm lược kết quả đạt được của luận văn và định hướng phát
triển tương lai.

1


Chương 1: Giới thiệu chung về quản lý danh tiếng

1.1.

Tổng quan về hệ thống quản lý danh tiếng
1.1.1. Hệ thống quản lý danh tiếng
Theo như Từ điển Oxford (1992) thì danh tiếng được định nghĩa “là các ước

lượng chung của con người về các phương diện đặc tính hoặc phẩm chất ; nó gần như
là sự yêu quý hay tin tưởng vào một người hay một tổ chức”.
Danh tiếng được coi như là một đặc tính hoặc một thuộc tính của con người hay
một tổ chức được hình thành nhờ hành vi trong quá khứ, danh tiếng được phân loại
dựa vào nguồn gốc xây dựng như sơ đồ sau:

Hình 1.1 : Sơ đồ phân loại danh tiếng
Trong sơ đồ trên, một số loại danh tiếng có trong các hộp bóng mờ là (i) danh
tiếng của nhóm (group reputation), (ii) danh tiếng quan sát được (observed
reputation), (iii) danh tiếng từ nguồn nhóm (group-derived) có tính “xã hội hóa” đối
với chủ thể và khách thể (nơi nhận danh tiếng hoặc nguồn tạo ra danh tiếng) là đối
ngẫu với tính “cá nhân hóa” trong các loại danh tiếng còn lại. Trong sơ đồ phân
loại danh tiếng trên đây, ở mức cao nhất cho thấy danh tiếng gồm danh tiếng cá
nhân và danh tiếng nhóm cá nhân. Danh tiếng nhóm cá nhân (công ty) được xác
định theo một mô hình tích hợp danh tiếng cá nhân của tập thành viên trong nhóm
(mô hình trung bình, mô hình phân cấp, các mô hình tích hợp khác [5]). Danh tiếng
cá nhân có thể phân chia theo hai loại là:

2


 Danh tiếng thu được từ những thông tin trực tiếp như : sự đánh giá của
những người là đồng nghiệp của nhau, …
 Danh tiếng thu được từ những thông tin gián tiếp như : sự uy tín của

nhóm mà cá nhân đó tham gia, các thông tin thu thập từ lời truyền
miệng, …
Một trong những lợi thế lớn nhất mà Internet mang lại cho người dùng là làm
giảm chi phí thời gian công sức trong việc tìm kiếm, thu thập thông tin. Hàng ngày,
hàng giờ, Internet luôn có hàng triệu người giao tiếp và chia sẻ các ý kiến cũng như
kinh nghiệm với nhau. Tận dụng lợi thế này, hệ thống quản lý danh tiếng làm nhiệm
vụ thu thập ý kiến của người dùng về sản phẩm và các sự kiện, thông tin về uy tín của
sản phẩm, … Sau đó tổng hợp thông tin này và công bố với mọi người. Mọi người
dùng khác có thể sử dụng thông tin mà hệ thống quản lý danh tiếng mang lại như một
tài liệu tham khảo để đưa ra quyết định.
Theo như các nhiên cứu gần đây, có hai cách tiếp cận để xây dựng hệ thống quản
lý danh tiếng. Theo (Laudon, 2007) [7], (Stair và cộng sự, 2010) [8], hệ thống được
xây dựng gồm bốn phần: Dữ liệu đầu vào, phần xử lý, đầu ra và phần phản hồi của
người dùng như hình 3(a). Trong khi đó theo (Hoffman và cộng sự, 2009) [9], (Zheng
và Jin, 2009) [10], (Swamynathan và cộng sự, 2010) thì hệ thống chỉ được chia làm ba
phần : phần thu thập thông tin, phần xử lý thông tin và phần hiển thị kết quả người
dùng như hình 3(b).

Hình 1.2: Hai mô hình hệ thống

3


Hình 1.2: Mô hình 3(a) và 3(b) trong thực tế
So sánh hai cách tiếp cận trên thì mô hình thứ hai sử dụng thông tin được thu
thập từ nguồn có uy tín sẽ cho độ chính xác cao hơn. Không những thế cách tiếp cận
này còn tránh được sự gian lận của người dùng hay tổ chức, vì cách tiếp cận này
không sử dụng thông tin phản hồi như là nguồn dữ liệu. Chính vì sự chính xác mà cách
tiếp cận thứ hai mang lại nên luận văn quyết định xây dựng mô hình đánh giá danh
tiếng cho 1000 khách sạn ở chương ba theo cách tiếp cận thứ hai.

1.1.2. Tầm quan trọng của hệ thống quản lý danh tiếng
Trong cuộc sống, danh tiếng đóng một vai trò vô cùng quan trọng. Đối với
người tiêu dùng, danh tiếng giúp họ có được những lựa chọn hợp lý trong cuộc sống.
Ví dụ như: trong trường hợp một người cần tìm gia sư tốt để dạy con cái họ, họ sẽ nhờ
bạn bè và người thân giới thiệu hay cho kinh nghiệm. Và kinh nghiệm trên chính là
danh tiếng về gia sư.
Đối với doanh nghiệp thì danh tiếng càng có tầm quan trọng lớn hơn. Việc quản
lý danh tiếng là quá trình theo dõi thương hiệu và phản ứng khi có những phản hồi tiêu
cực về công ty đang quản lý. Từ đó, công ty có thể tránh đươc những thảm họa tiềm ẩn
như: ai đó nêu tên công ty trong một bài viết có tính chất xuyên tạc. Ngoài khả năng
phòng vệ, việc làm này còn giúp công ty có thể tham gia và những cuộc thảo luận
xoay quanh các vấn đề của doanh nghiệp, từ đó giúp quảng bá hình ảnh công ty ra bên
ngoài hiều hơn.

4


Trong xã hội hiện nay, khi mà tin học ngày càng đóng vai trò quan trọng trong
cuộc sống cũng như trong kinh doanh thì sự cạnh tranh về danh tiếng đóng một vai trò
vô cùng quan trọng. Dù muốn hay không thì bất kỳ cá nhân, công ty hay tổ chức nào
cũng phải xây dựng và phát triển danh tiếng dựa trên nhận thức của công chúng về
danh tiếng đó. Người ta phải mất nhiều năm tháng để xây dựng danh tiếng, nhưng có
thể hủy hoại nó chỉ trong chốc nát. Với danh tiếng tốt của doanh nghiệp sẽ thu hút
khách hàng, nhà đầu tư và các nhân viên tài năng, dẫn đến lợi nhuận cao và giá cổ
phiểu cao. Và với thời gian, những công ty biết nuôi dưỡng danh tiếng của mình sẽ
khiến mọi người tin tưởng và không chê bai hoặc quay lưng với họ trong những thời
điểm khó khăn hay khủng hoảng.
Sự thành công của eBay [4], một trang web bán hàng rất phổ biến đã là ví dụ
điển hình cho thấy tầm quan trọng to lớn của danh tiếng, nơi mà các giá trị uy tín của
người bán và người mua được đo và xếp hạng theo điểm số (tích cực, tiêu cực và trung

lập). Theo nghiên cứu của Resnich và Zeckhauser [5] đã chỉ ra rằng trên eBay 89%
trong số 168.680 giao dịch xảy ra giữa người bán và người mua gặp nhau lần đầu tiên.
Và hầu như tất cả (98.9%) xảy ra giữa những người đã tiến hành giao dịch không quá
bốn lần. Các thống kê trên chỉ ra rằng, hầu hết giao dịch trên eBay là giao dịch giữa
những người không quen biết và danh tiếng là yếu tố quyết định của những giao dịch
này.
1.2.
Bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong quản lý
danh tiếng
Theo BingLiu và cộng sự, 2010 [6] quan niệm rằng quan điểm là những thể hiện
chủ quan, miêu tả tình cảm, ý kiến hay những cảm xúc của con người hướng đến thực
thể, sự kiện hay thuộc tính. Khai phá quan điểm là lĩnh vực thu hút sự quan tâm của rất
nhiều nhà khoa học, nhà sản xuất và các công ty. Theo [6], khai phá quan điểm hay
còn gọi là phân lớp nhận định có ba bài toán điển hình là:
 Phân lớp quan điểm
 Khái phá và tổng hợp quan điểm dựa trên đặc trưng
 Khai phá quan hệ (so sánh)
Trong khi đó, quản lý danh tiếng là làm nhiệm vụ thu thập ý kiến của người dùng
về sản phẩm và các sự kiện, thông tin về uy tín của sản phẩm, … sau đó tổng hợp
thông tin này và công bố với mọi người. Như vậy, quản lý danh tiếng được coi là tầng

5


trên của khai phá quan điểm và bài toán phân lớp quan điểm được coi là bài toán trọng
tâm của quản lý danh tiếng.
Hầu hết các ứng dụng của phân lớp phân cấp văn bản là bài toán đa nhãn đa thể
hiện, có nghĩa là một văn bản hay câu có thể được gán vào nhiều hơn một lớp với
nhiều thể hiện khác nhau. Ví dụ, một câu quan điểm của khách hàng nhận xét về khách
sạn như “Khách sạn rất đẹp, thoáng và có nhiều đồ ăn ngon” có thể thuộc lớp “Chất

lượng phòng, khách sạn” hoặc “Chất lượng đồ ăn” và khi đó “đẹp” hay “thoáng”
chính là một thể hiện cho “Chất lượng phòng, khách sạn” là tốt.
Vì thế, vấn đề xử lý dữ liệu đa nhãn đa thể hiện là vấn đề mấu chốt của bài toán
quản lý danh tiếng và luận văn đã sử dụng phương pháp phân lớp MIMLSVM để giải
quyết vấn đề trên.
Phân lớp dữ liệu đa nhãn đa thể hiện là nhiệm vụ phân loại tài liệu trong đó mỗi
tài liệu có thể đồng thời thuộc vào nhiều nhãn khác nhau và mỗi nhãn có nhiều thể
hiện khác nhau. Dữ liệu đa nhãn đa thể hiện thường được gặp trong thực tế hơn dữ liệu
đơn nhãn vì dữ liệu đơn nhãn được quy định chỉ thuộc vào một nhãn cố định. Xét một
ví dụ về dữ liệu đa nhãn đa thể hiện như : một bức ảnh có chứa “sóng biển”, “thuyền”,
“núi”, “bờ biển” có thể thuộc về nhiều nhãn khác nhau như bãi biển, núi, du lịch,.. và
trong đó các thể hiện như “sóng biển”, “bờ biển” đều là thể hiện cho lớp bãi biển. Do
tầm quan trọng của dữ liệu đa nhãn đa thể hiện, bài toán phân lớp dữ liệu đa nhãn đa
thể hiện đã được nghiên cứu khá rộng rãi từ vài năm gần đây và dẫn tới sự phát triển
của rất nhiều thuật toán phân lớp. Một trong số những phương pháp mở rộng để phân
loại dữ liệu đa nhãn đa thể hiện điển hình như MIMLSVM, MIMLBoost, MIML
Bayes…
Theo những nghiên cứu gần đây có hai hướng tiếp cận để giải quyết bài toán
phân lớp MIML. Hướng thứ nhất là chuyển đổi bài toán học máy MIML thành các bài
toán ít phức tạp hơn và xây dựng các thuật toán dựa trên việc tích hợp các thuật toán
học máy cơ bản với các bài toán thành phần như Zhou và cộng sự, 2012 [2]. Hướng
thứ hai là thiết lập các đặc trưng liên quan đến mô hình phân lớp MIML toàn vẹn và
xây dựng thuật toán MIML dựa trên các đặc trưng đã thiết lập (Jiajun He và cộng sự
[3]). Luận văn lựa chọn hướng thứ nhất để giải quyết bài toán phân lớp trong quản lý
danh tiếng.

6


Tổng kết chương một

Trong chương này, luận văn giới thiệu bài toán quản lý danh tiếng, các định
nghĩa liên quan đến hệ thống quản lý danh tiếng. Ngoài ra, luận văn còn nêu lên được
tầm quan trọng của bài toán phân lớp dữ liệu đa nhãn đa thể hiện trong hệ thống quản
lý danh tiếng
Chương tiếp theo, luận văn sẽ trình bày tổng quan về phân lớp MIML, các mô
hình giải quyết như: MIMLSVM, MIMLBoost,... Từ những tìm hiểu đó, luận văn đề
xuất mô hình phân lớp dữ liệu đa nhãn đa thể hiện hiệu quả cho hệ thống quản lý danh
tiếng.

7


Chương 2 : Tổng quan về phân lớp đa nhãn đa thể hiện MIML
2.1.

Phân lớp đa nhãn đa thể hiện

Trong học máy giám sát truyền thống, một đối tượng được biểu diễn bởi một
thể hiện, một vector đặc trưng và chỉ liên quan đến duy nhất một nhãn. Mặc dù
phương pháp này rất thành công và phổ biến, song trong thế giới thực thì có rất nhiều
ngữ cảnh không phù hợp với phương pháp này. Thêm vào nữa, mỗi đối tượng trong
mô hình này chỉ được thuộc về một nội dung và theo đó nó cũng chỉ có một thể hiện
liên quan đến một nhãn. Tuy nhiên, chúng ta có thể dễ dàng bắt gặp trong thực tế các
đối tượng rất phức tạp, chúng có chứa nhiều nội dung như hình 2.1 sau:

Hình 2.1: Dữ liệu đa nhãn đa thể hiện
Hình ảnh trên là một ví dụ tập hợp các ảnh thể hiện một khái niệm “châu Phi”.
Tuy nhiên trong một số trường hợp người dùng chỉ quan tâm đến một trong những thể
hiện, ví dụ: sư tử, trong tập các thể hiện trên. Ngoài ra trong một số trường hợp tập ảnh
thể hiện trên còn có thể đại diện cho khái niệm “thiên nhiên” hay “châu Phi” hay “du

lịch”, … Chính vì sự phức tạp trong khái niệm cũng như trong thể hiện mà Zhi-Hua
Zhou và cộng sự [2] đã đưa ra mô hình bốn khung học máy phân lớp phổ biến:

8


Hình 2.2. Bốn khung học máy phân lớp phổ biến [2]
Trong hình (a) là học máy phân lớp đơn nhãn – đơn thể hiện (single-instance,
single-label learning: SISL) là khung học máy phân lớp sớm nhất, vì vậy được gọi là
học máy lớp truyền thống, trong đó mỗi đối tượng được phân lớp chỉ thuộc một lớp và
nó chỉ có một thể hiện trong miền ứng dụng. Tiếp đó, trong hình (b) là học máy phân
lớp đơn nhãn - đa thể hiện (multi-instance, single-label learning: MISL) hình thức hóa
đầu tiên vào năm 1997 [2]. Trong bài toán học máy này, mỗi đối tượng chỉ thuộc vào
một lớp nhưng nó có thể có nhiều thể hiện, ví dụ như lớp “châu Phi” như hình 2.1 trên
có thể được thể hiện qua hình ảnh “sư tử”, “đồng cỏ”, …. Hình (c) là mô tả cho học
máy đa nhãn – đơn thể hiện (single-instance, multi-label learning: SIML) trong đó mỗi
đối tượng được phân lớp vào nhiều lớp và nó chỉ có một thể hiện trong miền ứng dụng.
Cuối cùng, hình (d) là học máy đa nhãn – đa thể hiện (multi-instance, multi-label
learning: MIML) được Zhi-Hua Zhou và Min-Ling Zhang [2] công bố chính thức vào
năm 2006 và đây là khung học máy phân lớp mới nhất trong bốn khung học máy phân
lớp được đề cập. Trong học máy MIML, mỗi đối tượng thuộc vào nhiều lớp và nó
cũng có nhiều thể hiện trong miền dữ liệu.
So với các phương pháp phân lớp truyền thống, MIML là phương pháp phù hợp
với các đối tượng phức tạp và vì thế gần với đời sống tự nhiên hơn. Zin-Hua Zhou và
cộng sự [2] đưa ra hai giải pháp chung theo hướng giảm cấp phức tạp cho bài toán
MIML (Hình 2.3). Giải pháp thứ nhất (A) theo hướng lấy học máy đa thể hiện như
một bước trung gian để giảm nhãn trước, chuyển bài toán MIML thành bài toán MISL
và sau đó chuyển thành bài toán SISL. Giải pháp thứ hai (B) theo hướng lấy học máy

9



đa nhãn như một nhịp cầu để giảm thể hiện trước, chuyển bài toán MIML thành bài
toán SIML và sau đó chuyển thành SISL.

Hình 2.3. Hai giải pháp giải quyết bài toán MIML
Tương ứng với mỗi giải pháp, một thuật toán học máy MIML được đề xuất,
thuật toán MIMLBoost tương ứng với giải pháp A và thuật toán MIMLSVM tương
ứng với giải pháp B. Vì thế trong phần 2.2, luận văn sẽ giới thiệu cụ thể hơn về hai
thuật toán này.
2.2.
2.2.1.

Phương pháp chuyển đổi bài toán học máy MIML
MIMLSVM

Phương pháp MIMLSVM dựa theo giải pháp B mà phần 2.1 luận văn đã giới
thiệu, giải pháp này sử dụng học máy đa nhãn làm cầu nối, đây chính là phương pháp
có nguồn gốc từ một thuật toán MIML khác. Với một tập Ω bất kỳ, kí hiệu |Ω| là số
phần tử của tập; đưa ra (Xi, Yi) và zi   ( X i ) trong đó ∅ ∶ 2𝑥 → 𝑍, với mỗi y  У , cho
  zi , y   1 nếu y  Yi và   zi , y   1 ngược lại, trong đó  là hàm  :Z× 𝑌 →

{−1, +1}. Giả thiết của MIMLSVM là phân bố của các tập mang thông tin liên quan
và hữu ích cho việc phân biệt nhãn có thể được tính bằng cách đo khoảng cách giữ mỗi
tập với các tập đại diện được xác định qua phân cụm. Mã giả của thuật toán được tóm
tắt như sau:

10



Bước 1: Trong bước đầu tiên của MIMLSVM, Xu của mỗi mẫu (Xu, Yu) (u=1,2,..,m)
được thu thập và đưa vào bộ dữ liệu  ,    X u | u  1, 2,..., m
Bước 2: Phân cụm k đại diện được thực hiện trên  bằng cách chọn ngẫu nhiên k
phần tử trong  để khởi tạo các thành phần đại diện M t  t  1, 2,..., k  . Lặp lại các bước
sau cho đến khi tập đại diện Mt không thay đổi.
Do mỗi đơn vị dữ liệu trong  , ví dụ Xu, là một đa thể hiện chưa gán nhãn của
một đơn thể hiện, nên có thể sử dụng khoảng cách Hausdorff. Cụ thể là, cho 2 tập









A  a1 , a2 ,.., anA và B  b1 , b2 ,..., bnB , khoảng cách Hausdorff giữa A và B được định

nghĩa như sau:





d H  A, B   max max min || a  b ||, max min || b  a ||
aA

bB

bB


aA

trong đó ||a-b|| là khoảng cách giữa thể hiện a và b, được tính theo khoảng cách
Euclidean.
-

Bước 2.a: Gán tập t  M t  t  1, 2,..., k 

11


-

Bước 2.b: Lặp lại việc tính với mỗi X u     M t | t  1, 2,..., k
index  arg min d H  X u , M t  , index  index   X u 
t1,.., k

-

Bước 2.c: Tính lại M t  arg min  d H  A, B  t  1, 2,..., k 
At

Bt

Bước 3: Sau quá trình phân cụm, tập dữ liệu  được chia thành k phần và các đại diện
lần lượt là Mt (t=1,2,…,k). Từ những đại diện này, mẫu đa thể hiện ban đầu Xu được
chuyển thành vector số k chiều zu, trong đó thành phần thứ i (i=1,2,…,k) của zu là
khoảng cách giữa Xu và Mi kí hiệu là dH(Xu,Mi).
Mẫu (Xu,Yu) chuyển thành mẫu đa nhãn (zu, Yu) (u=1,2,…,m) trong đó

zu   zu1 , zu 2 ,..., zuk    d H  X u , M1  , d H  X u , M 2  ,..., d H  X u , M k  

Nói các khác zui mã hóa một số thông tin cấu trúc của dữ liệu; đây là mối quan
hệ giữa Xu và phần thứ i của  . Quá trình phân lớp cấu trúc được Zhou và Zhang [2]
sử dụng chuyển các mẫu đa thể hiện thành mẫu đơn thể hiện. Và vì thế mẫu nguyên
thủy MIML (Xu,Yu) (u=1,2,…,m) được chuyển thành những mẫu đa nhãn (zu, Yu)
(u=1,2,..,m).
Bước 4: Từ tập dữ liệu có thể học một hàm học đa nhãn fMLL có thể thực hiện được
hàm MIML vì f MIML ( X *)  f MIML ( z*) . Ở đây, thuật toán MLSVM [2] được sử dụng để
thực thi fMLL. Cụ thể là MLSVM phân rã học đa nhãn thành các phân lớp nhị phân độc
lập, trong đó mỗi mẫu kết hợp với bộ nhãn Y được coi là mẫu dương khi xây dựng
SVM với lớp y  Y , ngược lại được coi là mẫu âm khi xây dựng SVM với lớp y  Y .
Với mỗi y  У , thu được một tập dữ liệu Dy   zu ,   zu , y   | u  1, 2,..., m , sau đó huấn
luyện một SVM hy  SVMTrain  Dy 
Bước 5: Sử dụng T-Criterion để đưa ra dự đoán


Y *  arg max hy  z *   y | hy ( z*)  0, y  У
 yУ


trong đó z*   d H  X *, M1  , d H ( X *, M 2 ),..., d H ( X *, M k ) 
Mẫu kiểm tra được gán nhãn bằng tất cả các nhãn lớp với SVM scores, trừ khi
tất cả SVM scores là âm, mẫu kiểm tra được gán nhãn của lớp với score cao nhất.

12


2.2.2.


MIMLBOOST

Phương pháp MIMLBOOST được đưa ra dựa trên giải pháp A trong phần 2.1
của luận văn. Phương pháp này sử dụng phương pháp học máy đa thể hiện làm cầu
nối; MIMLBOOST tiến hành chuyển đổi MIML thành MISL và sau cùng là thành
SISL. Mã giả của thuật toán được tóm tắt như sau:

Cho một tập Ω bất kỳ, kí hiệu |Ω| là kích thước của tập (ví dụ là số phần tử
trong tập); cho một khẳng định π, 𝜋 = 1 nếu π đúng, ngược lại thì 𝜋 = 0; cho
𝑋𝑖 , 𝑌𝑖 , với mỗi y ∈ У, Ψ(Xi,y) = +1 nếu y ∈ Yi và Ψ(Xi,y) = -1 nếu ngược lại, trong
đó Ψ là ánh xạ Ψ : 2χ  У  1, 1 kiểm tra một nhãn y có là nhãn phù hợp của Xi
hay không. Giả thiết cơ bản của MIMLBoost là các nhãn là độc lập do đó tác vụ
MIML có thể được giảm cấp thành chuỗi các tác vụ học đa thể hiện bằng cách coi mỗi
nhãn là một tác vụ.

13


Bước 1: Mỗi mẫu MIML (Xu, Yu) (u=1,2,…,m) được chuyển thành một bộ |Ƴ| túi đa
thể hiện, ví dụ {[(Xu,y1),Ψ(Xu,y1)], [(Xu,y2),Ψ(Xu,y2)],.., [(Xu,y|Ƴ|),Ψ(Xu,y|Ƴ|)]} với
[(Xu,yv),Ψ(Xu,yv)] (v=1,2,..,|Ƴ|) là một túi đa thể hiện đã được gán nhãn trong đó (Xu,yv)





là túi chứa nu số thể hiện, ví dụ {(xu1,yv), (xu2,yv),.., xu , , yv } và   X u , yv  1, 1 là
nu

nhãn của túi này.

Do đó, bộ dữ liệu nguyên thủy MIML được chuyển thành bộ dữ liệu đa thể hiện
chứa m | Ƴ| túi thứ tự là {[(X1,y1),Ψ(X1,y1)],.., [(X1,y|Ƴ|),Ψ(X1,y|Ƴ|)], [(X2,y1),Ψ(X2,y1)],..,
[(Xm,y|Ƴ|),Ψ(Xm,y|Ƴ|)]} trong đó [(X(i),y(i)),Ψ(X(i),y(i))] là túi thứ i trong m | Ƴ| túi chứa ni
thể hiện.
Bước 2: Khởi tạo trọng số của mỗi túi là Wi  

1
i  1, 2,.., m  У 
m У

Bước 3: Chạy T vòng lặp với biến chạy t = 1,2,.., T
Từ tập dữ liệu học một hàm học đa thể hiện fMIL có thể thực hiện được hàm MIML
mong muốn vì fMIL(X*) = {y|sign[fMIL(X*,y)] = +1}. Để thực hiện hàm fMIL tác giả sử
dụng thuật toán MIBoosting.
Để thuận tiện, kí hiệu (B,g) là túi [(X,y),Ψ(X,y)], B  ẞ, g  G và E là kỳ vọng. Sau
đó, mục tiêu là học một hàm F(B) cực tiểu hóa độ suy giảm theo hàm mũ bậc của túi
EẞEG[exp(-gF(B))], sau đó ước lượng hàm log lẻ bậc của túi

1
Pr( g  1| B)
log
trên tập
2
Pr( g  1| B)

huấn luyện. Trong mỗi vòng khuếch đại, mục tiêu là tăng F(B) thành F(B)+cf(B), ví
dụ như thêm một phân lớp yều mới, để độ suy giảm theo mũ là nhỏ nhất. Giả sử rằng,
tất cả các thể hiện trong 1 túi là độc lập và có đóng góp như nhau vào nhãn của túi, từ
đó thu được f ( B) 


1
nB



j

h(b j ) trong đó h(b j ) 1, 1 là dự báo của phân lớp bậc thể

hiện h(.) cho thể hiện thứ j trong túi B và nB là số thể hiện trong B [2] cho thấy hàm
f(B) tốt nhất được thêm vào có thể thu được bằng tìm kiếm hàm h(.) làm cực đại hóa


i

-

ni
j 1

 1 i  i  i  
 W g h(b j )  , cho trước các trọng số bậc túi W = exp(-gF(B)).
 ni


Bước 3.a: Bằng việc gán cho mỗi thể hiện nhãn túi của nó và trọng số tương
ứng Wi  / ni , h . có thể được học bằng cách cực tiểu hóa lỗi phân lớp bậc thể
hiện.

-


Bước 3.b: Với túi thứ i, tính tỷ lễ lỗi ei   0,1 bằng cách đếm số thể hiện bị
phân lớp nhầm trong túi. Ví dụ:

14


i 

e 



ni
j 1

 ht ( xji  , y i  )    ( X i  , y i  ) 

 

ni

-

Bước 3.c: Nếu e(i) < 0.5 với mọi i 1, 2,..., m  У  chuyển sang bước 4

-

Bước 3.d: Khi tìm được f(B), hệ số nhân c tốt nhất > 0 có thể tìm được bằng
cách tối ưu hóa trực tiếp độ suy giảm theo hàm mũ:

  g  i   h(bji  )  
j

  i W exp c  
 
ni


 
i 

EẞEG[exp(-gF(B)+c(-gf(B)))]

i
i
  i W   exp (2e   1)c 

trong đó ei  

1
ni



j

h(bji  )  g i  ) (được tính ở bước 3b).

Để tính cực tiểu của kỳ vọng này, kỹ thuật tối ưu số như phương pháp tựa Newton có
thể được sử dụng.

- Bước 3.e: Nếu c <=0 chuyển sang bước 4
- Bước 3.f: Cuối cùng, các trọng số bậc túi sẽ được cập nhật tại bước 3f theo hàm
cộng tính của F(B).





i
i
i
i
W   W  exp  2e   1 c   i  1, 2,.., m  У  và chuẩn hóa lại 0  W   1







m У
i 1

W i   1



Bước 4: Trả về giá trị Y *  y | sign

   c h  x , y    1 với

j

t t t

của X*

15

*
j

x*j là thể hiện thứ j


×