Tải bản đầy đủ (.doc) (49 trang)

PHƯƠNG PHÁP xếp HẠNG đa NHÃN TRONG QUẢN lý DANH TIẾNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (614.61 KB, 49 trang )

Danh sách hình vẽ
Hình 1: Phân loại hệ thống quản lý danh tiếng 4
Hình 2 : Hai mô hình hệ thống 5
Hình 3 : Hệ thống quản lý danh tiếng tích hợp trong các trang web bán hàng
6
Hình 4 : Sử dụng hệ thống quản lý danh tiếng cho công ty BKAV 6
Hình 5 : Bốn tập dữ liệu được phân lớp theo phương pháp Pairwise
Classification 14
Hình 6 : Ví dụ số lớp trên Swotti 21
Hình 7 : Mô hình thực nghiệm bài toán 23
Danh sách bảng biểu
Bảng 1 : Dữ liệu để phân lớp đa nhãn 11
Bảng 2 : Phân lớp đa nhãn sử dụng PT2 11
Bảng 3 : Phân lớp đa nhãn sử dụng PT1 12
Bảng 4 : Phân lớp sử dụng PT3 12
Bảng 5 : Bốn tập dữ liệu được tổ chức phân lớp theo PT4 13
Bảng 6 : Bảng ký hiệu 26
Bảng 7 : Cấu hình phần cứng sử dụng trong thực nghiệm 28
Bảng 8 : Một số phần mềm sử dụng 28
Bảng 9 : Tập dữ liệu thực nghiệm 29
Bảng 10 : Tập dữ liệu huấn luyện 29
Bảng 11 : Kết quả đánh giá bộ phân lớp đa lớp sử dụng phương pháp
Entropy 30
Danh sách các từ viết tắt
ORM Online reputation management
BR Binary relevance learning
MLC Multilabel classification
LR Label ranking
MLR Multilabel ranking
SVM Support vector machine
Mở đầu


Danh tiếng của một công ty là một yếu tố vô cùng quan trọng quyết
định đến doanh thu cũng như sự tồn vong của công ty đó. Những yếu tố tiêu
cực về một công ty hay sản phẩm ảnh hưởng rất nhiều đến việc lựa chọn
của khách hàng, từ đó ảnh hưởng đến hoạt động kinh doanh của công ty. Do
vậy, ngày nay những ý kiến, đánh giá của khách hàng mang một vai trò rất
quan trọng đối với quá trình kinh doanh của mỗi công ty. Nhưng một vấn đề
gặp phải là lượng thông tin đánh giá về công ty trên mạng internet, cũng như
mạng xã hội là rất lớn, nên việc tìm các thông tin để đánh giá một công ty là
rất khó khăn. Vì thế, việc xây dựng hệ thống quản lý danh tiếng là một trong
những cách tốt nhất để giải quyết vấn đề này.
Đối với mỗi công ty hay sản phẩm, có rất nhiều đặc trưng để đánh giá
công ty đó. Nhưng không phải bất kì người dùng nào cũng quan tâm đến tất
cả các đặc trưng đó. Mà họ chỉ quan tâm đến những đặc trưng mà họ yêu
thích và đặc trưng đó thực sự nổi bật trong công ty đó. Vì thế, mấu chốt của
bài toán quản lý danh tiếng trong khuôn khổ của khóa luận, đưa ra một giải
pháp xếp hạng tập các nhãn đối với đánh giá của người dùng.
Trong khóa luận này, chúng tôi sử dụng phương pháp xếp hạng
đa nhãn bằng so sánh theo cặp của “Brinker và cộng sự” [3]. Chúng tôi đề
xuất phương pháp xếp hạng đa nhãn kết hợp với việc lựa chọn đặc trưng về
tần suất và độ liên quan MI để xây dựng hệ thống. Chúng tôi lựa chọn
phương pháp Maximum Entropy để dùng làm bộ phân lớp nhị phân cho bài
toán xếp hạng vì phương pháp này phù hợp với việc phân lớp dữ liệu có
nhiều đặc trưng. Khóa luận tiến hành thực nghiệm mô hình phân lớp với tập
các đặc trưng thu được và cho kết quả khả quan. Từ đó, khóa luận tiếp tục áp
dụng bộ phân lớp này để đánh giá danh tiếng cho 1000 khách sạn ở Việt
Nam.
Nội dung của khóa luận được chia thành các chương như sau :
Chương 1: Khóa luận giới thiệu khái quát về quản lý danh tiếng, hệ
thống quản lý danh tiếng và tầm quan trọng của hệ thống này trong thực tế.
Sau đó, khóa luận còn trình bày về tầm quan trọng của việc xử lý dữ liệu đa

nhãn,bài toán phân lớp đa nhãn và bài toán xếp hạng nhãn trong hệ thống
quản lý danh tiếng.
Chương 2: Khóa luận trình bày về các giải pháp phân lớp đa nhãn,
xếp hạng đa nhãn. Ngoài ra khóa luận còn trình bày áp dụng phương pháp
xếp hạng đa nhãn bằng so sánh theo cặp vào bài toán quản lý danh tiếng.
Chương 3: Khóa luận đề xuất mô hình xếp hạng đa nhãn và giải pháp
phát hiện quan điểm trong bài toán quản lý danh tiếng. Đồng thời khóa luận
cũng trình bày chi tiết các pha cũng như các bước trong mô hình
Chương 4: Khóa luận trình bày thực nghiệm cho việc áp dụng
phương pháp xếp hạng đa nhãn đã được đề xuất. Từ đó, khóa luận sử dụng
để đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam.
Phần kết luận : Tóm lược kết quả đạt được của khóa luận và định
hướng phát triển tương lai.
Chương 1. Tổng quan về bài toán xếp hạng nhãn trong quản lý danh
tiếng
• Hệ thống quản lý danh tiếng
Theo Liu,Ling [3], 2011 hệ thống quản lý danh tiếng là hệ thống làm
nhiệm vụ thu thập ý kiến của người dùng về sản phẩm và các sự kiện, thông
tin về uy tín của sản phẩm,… Sau đó tổng hợp thông tin này và công bố với
mọi người. Mọi người dùng khác có thể sử dụng thông tin mà hệ thống quản
lý danh tiếng mang lại như một tài liệu tham khảo để đưa ra quyết định. Với
sự phát triển ngày càng lớn của Internet thì hệ thống quản lý danh tiếng ngày
càng đóng một vai trò quan trọng.
Đối với doanh nghiệp thì danh tiếng càng có tầm quan trọng lớn hơn.
Việc quản lý danh tiếng là quá trình theo dõi thương hiệu và phản ứng khi có
những phản hồi tiêu cực về công ty đang quản lý. Từ đó, công ty có thể
tránh đươc những thảm họa tiềm ẩn như: ai đó nêu tên công ty trong một bài
viết có tính chất xuyên tạc. Ngoài khả năng phòng vệ, việc làm này còn giúp
công ty có thể tham gia vào những cuộc thảo luận xoay quanh các vấn đề
của doanh nghiệp, từ đó giúp quảng bá hình ảnh công ty ra bên ngoài hiều

hơn.
Đối với người tiêu dùng, hệ thống quản lý danh tiếng mang lại cho
người dùng một cái nhìn tổng quan về sản phẩm, uy tín của công ty và tổ
chức mà người tiêu dùng đó quan tâm, giúp người tiêu dùng có thể dễ dàng
có được những lựa chọn hợp lý. Sự thành công của eBay [5], một trang web
bán hàng phổ biến đã là ví dụ điển hình cho thấy tầm quan trọng của quản lý
danh tiếng. Với eBay, người mua hàng có thể dựa vào danh tiếng đánh giá
cho sản phẩm, người bán để lựa chọn sản phẩm hợp lý. Với doanh nghiệp
hay người bán hàng trên eBay, họ có thể xây dựng thương hiệu của mình để
người mua tin tưởng và mua hàng của họ.
• Phân loại hệ thống quản lý danh tiếng
Hệ thống quản lý danh tiếng có thể được phân loại theo nhiều cách
khác nhau. Dựa vào kiến trúc mạng có thể chia hệ thống thành hai loại là :
hệ thống tập trung và hệ thống phân tán (Gutowska, 2009) [11] ; (Josang và
cộng sự., 2007) [12]. Dựa vào nguồn gốc thông tin chúng ta có thể chia
thành hệ thống explicit mechanisms và hệ thống im-plicit mechanisms. Với
hệ thống explicit mechanisms thì thông tin chủ yếu lấy từ phần nhận xét của
người sử dụng để đánh giá danh tiếng, ví dụ như đánh giá sự tiêu thụ của
một quyển sách qua doanh số bán hàng hàng ngày. Ngoài ra, hệ thống quản
lý danh tiếng còn được phân loại tùy thuộc vào mô hình : mô hình một chiều
hay mô hình hai chiều. Với mô hình một chiều thì người dùng chỉ được hệ
thống cung cấp các xếp hạng và đánh giá về công ty hay sản phẩm người
dùng quan tâm. Với mô hình hai chiều thì ngoài việc được cung cấp các
thông tin cần thiết, người dùng còn được phép tham gia đánh giá sản phẩm
hay công ty.
Hình 1: Phân loại hệ thống quản lý danh tiếng
Theo như các nhiên cứu gần đây, có hai cách tiếp cận để xây dựng hệ
thống quản lý danh tiếng. Theo (Laudon, 2007) [13], (Stair và cộng sự.,
2010) [14], hệ thống được xây dựng gồm bốn phần : Dữ liệu đầu vào, phần
xử lý, đầu ra và phần phản hồi của người dùng như hình 3(a). Trong khi đó

theo (Hoffman và cộng sự., 2009) [15], (Zheng và Jin, 2009) [16],
(Swamynathan và cộng sự., 2010) thì hệ thống chỉ được chia làm ba phần :
phần thu thập thông tin, phần xử lý thông tin và phần hiển thị kết quả người
dùng như hình 3(b).
Hình 2 : Hai mô hình hệ thống
So sánh hai cách tiếp cận trên thì mô hình thứ hai sử dụng thông tin
được thu thập từ nguồn có uy tín sẽ cho độ chính xác cao hơn. Không những
thế cách tiếp cận này còn tránh được sự gian lận của người dùng hay tổ
chức, vì cách tiếp cận này không sử dụng thông tin phản hồi như là nguồn
dữ liệu. Chính vì sự chính xác mà cách tiếp cận thứ hai mang lại nên chúng
tôi quyết định xây dựng mô hình thực nghiệm ở chương ba theo cách tiếp
cận thứ hai.
• Các ứng dụng của hệ thống quản lý danh tiếng trong thực tế
Hiện nay, ở Việt Nam có hai loại ứng dụng nổi bật của hệ thống quản
lý danh tiếng là :
• Tích hợp trong các trang web bán hàng : Việc đánh giá danh tiếng
trong các trang web bán hàng giúp người dùng có thể lựa chọn được
những sản phẩm phù hợp với túi tiền và yêu cầu của họ. Hiện nay, có
một số trang web ở Việt Nam đã tích hợp hệ thống quản lý danh tiếng
như : vatgia.com, chudu24.com,
Hình 3 : Hệ thống quản lý danh tiếng tích hợp trong các trang web bán hàng
• Là hệ thống theo dõi danh tiếng riêng biệt cho từng công ty, tổ chức :
Việc theo dõi và bảo vệ danh tiếng cho từng công ty đã được ứng
dụng trên thế giới từ lâu, xong hiện tại ở Việt Nam, hệ thống theo dõi
danh tiếng cho từng công ty vẫn còn là vấn đề mới. Theo tìm hiểu của
chúng tôi, hệ thống ORM là hệ thống thương mại về quản lý danh
tiếng đầu tiên ở Việt Nam.

Hình 4 : Sử dụng hệ thống quản lý danh tiếng cho công ty BKAV
• Bài toán xếp hạng nhãn trong hệ thống quản lý danh tiếng

Như trình bày trong 1.1, hệ thống quản lý danh tiếng là làm nhiệm vụ
thu thập ý kiến của người dùng về sản phẩm và các sự kiện, thông tin về uy
tín của sản phẩm,… sau đó tổng hợp thông tin này và công bố với mọi
người. Trong khi đó, theo BingLiu và cộng sự, 2010 [7] quan niệm rằng
quan điểm là những thể hiện về tình cảm, ý kiến hay những cảm xúc của con
người hướng đến thực thể, sự kiện hay thuộc tính và việc khai phá quan
điểm chính là việc phân lớp nhận định. Như vậy, quản lý danh tiếng được
coi là tầng trên của khai phá quan điểm.
Hệ thống quản lý danh tiếng thường thao tác trên miền dữ liệu là
những nhận xét của người dùng hay là các bài báo về sản phẩm, công ty.
Trong khi đó, các câu quan điểm, nhận xét của người dùng thường nói đến
nhiều khía cạnh của sản phẩm, công ty. Chính vì thế, mà vấn đề xử lý dữ
liệu đa nhãn là vấn đề quan trọng nhất trong bài toán quản lý danh tiếng,
trong đó trọng tâm là bài toán phân lớp dữ liệu đa nhãn.
• Bài toán phân lớp dữ liệu đa nhãn
Phân lớp dữ liệu đa nhãn là nhiệm vụ phân loại tài liệu trong đó mỗi
tài liệu có thể đồng thời thuộc vào nhiều lớp khác nhau. Hầu hết các ứng
dụng của phân lớp phân cấp văn bản là bài toán phân lớp dữ liệu đa nhãn, có
nghĩa là một tài liệu có thể thuộc vào nhiều hơn một lớp. Xét ví dụ như : một
bộ phim tình cảm Hàn Quốc có thể được gán nhãn là phim tình cảm hoặc là
phim Hàn Quốc, một bài báo về Olimpic 2012 có thể được gán nhãn là thể
thao hoặc là sự kiện,…
Hiện nay, bài toán phân lớp dữ liệu đa nhãn đã được nghiên cứu khá
rộng rãi và dẫn tới sự phát triển của rất nhiều thuật toán phân lớp. Một trong
những các tiếp cận phổ biến của phân lớp dữ liệu đa nhãn là thực hiện các
chuyển đổi về phân lớp dữ liệu đơn nhãn. Theo [11], phương pháp chuyển
đổi đơn giản nhất là phương pháp chuyển đổi nhị phân (BR), tức là mỗi
nhãn khác nhau sẽ được xây dựng một bộ phân lớp khác nhau. Tuy nhiên,
phương pháp này thực hiện việc phân lớp độc lập trên mỗi nhãn, nên không
xem xét được đầy đủ sự ảnh hưởng lẫn nhau giữa các nhãn lớp. Vì thế chất

lượng bộ phân lớp giảm đi đáng kể. Khắc phục nhược điểm trên của phương
pháp chuyển đổi nhị phân (BR), phương pháp xếp hạng nhãn do AAAA []
đề xuất đã giải quyết được sự ảnh hưởng lẫn nhau giữa các nhãn lớp và cho
kết quả phân lớp rất khả quan (điền kết quả ra)
• Bài toán xếp hạng nhãn để phân lớp dữ liệu đa nhãn
Bài toán xếp hạng nhãn là một bài toán đang rất được quan tâm hiện
nay như Brinker và cộng sự [3], 20, Tsoumakas và cộng sự [], 20. Tuy
nhiên, phương pháp xếp hạng nhãn theo cặp do Klaus Brinker và cộng sự [],
20 đề xuất là phương pháp đơn giản và hiệu quả trong việc xếp hạng dữ liệu
đa nhãn.
Ý tưởng của bài toán xếp hạng nhãn so sánh theo cặp là với mỗi cặp
nhãn (λi, λj) chúng tôi đưa ra một mô hình nhị phân M
ij
(x). Bằng mô hình
đó, chúng tôi có thể dự đoán nhãn λi được ưu tiên hơn nhãn λj hoặc ngược
lại với mỗi tài liệu đầu vào x. Từ tập các bộ phân lớp như trên, sẽ đưa ra
được kết quả của việc gán nhãn cho tài liệu dựa trên độ ưu tiên của nhãn.
Với những ưu điểm trên của phương pháp xếp hạng nhãn so sánh theo
cặp trong miền dữ liệu đa nhãn trong [Klaus Brinker], chúng tôi quyết định
sử dụng phương pháp này trong việc xây dựng bộ phân lớp dữ liệu đa nhãn
và ứng dụng để đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam.
Tổng kết chương một
Trong chương một, chúng tôi đã giới thiệu về hệ thống quản lý danh
tiếng, phân loại hệ thống và nêu lên các ứng dụng phổ biến của hệ thống
quản lý danh tiếng. Ngoài ra, chúng tôi còn nêu lên được tầm quan trọng của
bài toán xếp hạng nhãn trong phân lớp dữ liệu đa nhãn.
Chương tiếp theo, chúng tôi sẽ đi sâu vào phân tích bài toán phân lớp
dữ liệu đa nhãn, giới thiệu các phương pháp chuyển đổi phổ biến và ưu điểm
của bài toán xếp hạng nhãn trong phân lớp dữ liệu đa nhãn.
Chương 2 : Phân lớp đa nhãn và xếp hạng nhãn

Trong chương trước của khóa luận, khóa luận đã trình bày các phương
pháp phân lớp đa nhãn và ứng dụng của phương pháp đó trong việc học
máy.Tiếp theo trong chương này, khóa luận sẽ trình bày bài toán xếp hạng
đa nhãn, ứng dụng của thuật toán phân lớp trong phương pháp xếp hạng đa
nhãn và ứng dụng của phương pháp xếp hạng đa nhãn trong bài toán quản
lý danh tiếng.
Có 2 chuyên đề về học giám sát được quan tâm hiện nay là : Phân lớp
đa nhãn (MLC) và xếp hạng nhãn (LR) . Theo như khóa luận đã trình bày
trong chương trước thì MLC có liên quan đến việc học mô hình với đầu ra là
sự phân đôi của tập nhãn thích hợp và không thích hợp với truy vấn đầu vào.
LR là một vấn đề khác, có liên quan đến việc học mô hình mà đầu ra là sự
sắp xếp các nhãn lớp một cách hợp lý đối với truy vấn đầu vào.Theo
Shankar Vembu [29] mô hình LR có thể được học từ tập dữ liệu huấn luyện
thích hợp đa nhãn, đưa ra xếp hạng tổng thể của tập các nhãn, giống như
việc phân chia bộ nhãn một cách hợp lý.
Cả MLC và LR đều có tầm quan trọng rất lớn trong việc khai thác dữ
liệu đa nhãn. Trong một ứng dụng lọc tin tức cho một ví dụ, người dùng
phải trình bày với những bài viết thú vị khác nhau, nhưng tầm quan trọng
của nó ở đây là có thể nhìn thấy bài viết thú vị nhất được xếp đầu tiên trong
danh sách các tin tức đó. Theo tư tưởng đó khóa luận muốn phát triển các
phương pháp bao gồm cả hai nội dung là sắp xếp thứ tự và phân đôi tập các
nhãn từ phân lớp đa nhãn. Vì vậy đã hình thành lên một nhiệm vụ mới được
gọi là xếp hạng đa nhãn (MLR) [30] và đưa ra những khái quát chung rất thú
vị và hữu ích của MLC và LR.
• Phân lớp đa nhãn
• Các định nghĩa
Định nghĩa phân lớp văn bản /câu quan điểm : Phân lớp văn bản là
nhiệm vụ đặt một giá trị Boolean cho mỗi cặp , trong đó D là tập các văn bản
và là tập các lớp cho trước.
Giá trị T(True) được gán cho cặp (d

j
,c
i
) có nghĩa là tài liệu d
j
thuộc lớp
c
i
. Giá trị F(False) tức là tài liệu d
j
không thuộc lớp c
i
.
Hoặc, phân lớp văn bản là bài toán tìm một hàm trong đó D là tập
các văn bản và là tập các lớp cho trước, hàm được gọi là bộ phân lớp.
Tùy vào bài toán khác nhau, ta có các ràng buộc khác nhau. Nhìn
chung có thể phân biệt bài toán phân lớp theo hai cách sau :
• Phân lớp văn bản nhị phân / đa lớp : Bài toán phân lớp văn bản được
gọi là nhị phân nếu , gọi là đa lớp nếu .
• Phân lớp văn bản đơn nhãn / đa nhãn : Bài toán phân lớp văn bản
được gọi là đơn nhãn nếu mỗi tài liệu hay câu được gán vào chính xác
một lớp. Một bài toán phân lớp văn bản được gọi là đa nhãn nếu một
tài liệu hay câu có thể được gán nhiều hơn một nhãn.
• Bài toán phân lớp đa nhãn
Với mỗi thuật toán phân lớp sẽ có những chiến lược khác nhau cho
bài toán phân lớp đa nhãn. Ví dụ, thuật toán Naïve Bayes có thể gán một văn
bản hay câu không chỉ vào lớp có xác suất dự đoán cao nhất mà sẽ gán vào
tất cả các lớp có xác suất cao hơn một ngưỡng nào đó. Với các thuật toán
khác, giải pháp phổ biến là chuyển bài toán n lớp thành tập các bài toán nhị
phân. Trong phạm vi khóa luận này, khóa luận sẽ trình bày một số giải pháp

phân lớp đa nhãn. Theo Grigorios Tsoumakas và Ioannis Katakis [17] thì các
giải thuật phân lớp đa nhãn thường bao gồm 2 phần :
• Phần 1 : Chuyển đổi từ phân lớp đa nhãn về phân lớp đơn nhãn
• Phần 2 : Sử dụng các thuật toán học máy để tiến hành phân lớp
• Các giải thuật chuyển đổi từ phân lớp đa nhãn về phân lớp đơn nhãn
Trong phần này, khóa luận sẽ trình bày các phương pháp cơ bản để
chuyển đổi từ phân lớp đa nhãn về phân lớp đơn nhãn. Theo [17], có hai
phương pháp cơ bản để chuyển đổi từ phân lớp đa nhãn về phân lớp đơn
nhãn. Phương pháp thứ nhất (PT1) chỉ đơn giản là loại bỏ tất cả các dữ liệu
đa nhãn, chỉ giữ lại dữ liệu đơn nhãn và tiến hành phân lớp trên những dữ
liệu này. Phương pháp này sẽ dẫn đến việc mất mát dữ liệu, vì thế phương
pháp này ít được sử dụng trong phân lớp đa nhãn.
Phương pháp thứ hai là sử dụng các chuyển đổi để đưa về phân lớp
nhị phân truyền thống mà không làm mất dữ liệu đa nhãn. Theo tư tưởng của
phương pháp thứ hai, thì phương pháp đầu tiên (PT2) được sử dụng là chọn
ngẫu nhiên một nhãn làm nhãn chính, các nhãn còn lại được gộp chung vào
một nhãn. Xét một tập tài liệu có thể thuộc các lớp sau : Sports, religion,
science, politics. Phục vụ(λ
1
), ăn uống(λ
2
), vị trí (λ
3
), giá cả(λ
4
)
Ex. Phục vụ(λ
1
) Ăn uống(λ
2

) Vị trí(λ
3
) Giá cả(λ
4
)
1 X X
2 X X
3 X
4 X X
Bảng 1 : Dữ liệu để phân lớp đa nhãn
Khi đó có hình 2 và hình 3 biểu diễn việc chuyển đổi từ phân lớp đa
nhãn về phân lớp đơn nhãn sử dụng hai phương pháp trên.
Ex. Phục vụ Ăn uống Vị trí Giá cả
1 X X
2 X
3 X
4 X
Bảng 2 : Phân lớp đa nhãn sử dụng PT2
Ex. Phục vụ Ăn uống Vị trí Giá cả
3 X
Bảng 3 : Phân lớp đa nhãn sử dụng PT1
Phương pháp tiếp theo (PT3) là phương pháp nhóm một tập nhãn vào
thành một nhãn. Hình 4 biểu diễn kết quả chuyển đổi từ dữ liệu ở hình một
áp dụng PT3. Tuy nhiên, phương pháp này có hạn chế là số lượng các lớp
học lớn. Theo [17], phương pháp này đã được sử dụng trong Boutell và cộng
sự (2004) và Diplaris, Tsoumakas, Mitkas, và Vlahavas (2005).
Ex. Phục vụ

Phục vụ ^ Giá cả Vị trí ^ Giá
cả

Vị trí ^ Ăn
uống
1 X
2 X
3 X
4 X
Bảng 4 : Phân lớp sử dụng PT3
Phương pháp tiếp theo cũng được chú ý nhiều đến (PT4), phương
pháp này xây dựng |L| bộ phân lớp nhị phân : cho L nhãn khác nhau. Dữ
liệu trong mỗi bộ phân lớp được gán nhãn l
1
nếu nó thuộc lớp L
1
, các dữ liệu
khác được gán nhãn . Hình 5 biểu diễn bốn tập dữ liệu kết quả thu được khi
sử dụng phương pháp phân lớp PT4. Theo [17], phương pháp này đã được
sử dụng bởi Boutell (2004) , Goncalves và Quaresma (2003) , Lauser và
Hotho (2003) , Li và Ogihara (2003) .
Bảng 5 : Bốn tập dữ liệu được tổ chức phân lớp theo PT4
Phương pháp cuối cùng được nhắc đến, cũng là phương pháp rất phổ
biến và được dùng rộng rãi hiện nay là phương pháp phân loại theo cặp
(Pairwise Classification) hay còn được gọi bằng một tên khác là round robin
classification [] . Ý tưởng cơ bản của nó là để biến đổi bài toán C lớp thành
C(C-1)/2 bài toán nhị phân và mỗi bài toán nhị phân được dùng cho mỗi cặp
các lớp. Cách tiếp cận này đã được áp dụng và đưa ra một kết quả chính xác
hơn so với các phương pháp tiếp cận trên đối với nhiều thuật toán học máy
như support vector machines [7] hoặc rule learning algorithms [3]. Hơn nữa
F¨urnkranz [3] cũng chứng minh được rằng dù trong thực tế, độ phức tạp của
nó là bậc 2 với các lớp, nhưng thuật toán vẫn có thể được sử dụng để huấn
luyện nhanh hơn so với các kỹ thuật thông thường. Tuy nhiên, để có được

một kết quả phân lớp cuối cùng, vẫn phải kết hợp kết quả dự báo của tất cả
c(c-1)/2 bộ phân lớp nhị phân đó.
Phương pháp Pairwise Classification xây dựng c(c-1)/2 bộ phân lớp
nhị phân cho tập nhãn L = {λ
i
| i = 1 . . . c}. Một giả thuyết mạnh được sử
dụng trong phương pháp này là với mỗi dữ liệu học x
k
⊆ X, thì mọi nhãn
được gán cho x
k
thuộc tập P
k
⊆ L sẽ mạnh hơn so với tất cả các nhãn không
được gán thuộc tập N
k
= {L\P
k
} với một hàm ưu tiên về độ liên quan giữa
nhãn và dữ liệu. Nên việc phân lớp cho cặp là việc huấn luyện giữa lớp
nhãn và . Hình 5 biểu diễn sáu bộ phân lớp nhị phân đối với mỗi cặp nhãn.
Hình 5 : Bốn tập dữ liệu được phân lớp theo phương pháp Pairwise
Classification
• Áp dụng các thuật toán học máy để phân lớp đa nhãn
Adaboost.MH và Adaboost.MR Schapire và Singer, 2000 [19] là
phương pháp mở rộng của phương pháp AdaBoost Freund và Schapire, 1997
[18] để phân lớp đa nhãn. Cả hai phương pháp này đều sử dụng kỹ thuật
phân lớp kết hợp các luật “yếu” (weak rule) có độ chính xác dự đoán thấp để
cho ra một luật có độ chính xác dự đoán cao. Cốt lõi của hai thuật toán này
là thực hiện phép chuyển đổi (PT6) : Xét bài toán phân loại văn bản nhiều

lớp (nhãn), X biểu thị tập các văn bản và Y là tập các giới hạn các nhãn hoặc
lớp. Định nghĩa kích thước của Y là k = |Y|. Trong trường hợp phân loại
nhiều lớp, mỗi văn bản được gán nhiều nhãn trong Y. Một ví dụ dễ thấy là
phân loại tin tức là một dạng phân loại văn bản nhiều lớp, nhiều nhãn, chẳng
hạn một tin có thể thuộc về nhiều loại như tin xã hội, kinh tế, văn hóa …
Như vậy mỗi mẫu sẽ được gán nhãn là một cặp (x,Y1) với là một tập các
nhãn được gán cho x.
Với Y1 , định nghĩa Y[l] cho là
Y[l] = +1 nếu và Y[l] = -1 nếu
Phân loại nhiều lớp ở đây là tìm cách xếp hạng các nhãn mà x có thể
có. Mục đích của việc huấn luyện là thu được một hàm sao cho với mỗi văn
bản x, những nhãn trong Y sẽ được sắp xếp theo thứ tự f(x, ). Như vậy, nếu
f(x, l
1
) > f(x, l
2
) thì l
1
được xem là có thứ hạng ưu tiên xếp loại cao hơn l
2
.
Thuật toán huấn luyện được xem là thành công nếu với mỗi x có tập nhãn
tương ứng là Y thì thuật toán sẽ xếp hạng các nhãn trong Y cao hơn các
nhãn không có trong Y.
Godbole và Sarawagi, 2004 [22] trình bày hai cách cải tiến phương
pháp phân lớp Support Vector Machine (SVM) để phân lớp dữ liệu đa nhãn.
Cải tiến đầu tiên có thể dễ dàng sử dụng trong bất kỳ thuật toán phân lớp lớp
nào, nên đây chính là phần mở rộng của thuật toán Pairwise Classification.
Ý tưởng chính là việc mở rộng tập dữ liệu với tập |L| các đặc trưng chứa các
dự đoán mà có thể sử dụng trong các bộ phân lớp nhị phân. Sau đó, trong

vòng phân lớp nhị phân thứ hai lại sử dụng chính dữ liệu mở rộng để phân
lớp và lại tiếp tục làm giàu thêm tập đặc trưng. Ví dụ : cần phân lớp cho tài
liệu x, bộ phân lớp khi đó không chỉ sử dụng tập đặc trưng của tài liệu x mà
còn sử dụng thêm các đặc trưng kết hợp nhãn thu được trong quá trình học
mô hình. Từ cách tiếp cận này, có thể thu được đặc trưng phụ thuộc giữa các
nhãn để phục vụ quá trình phân lớp.
Cách cải tiến thứ hai là những cải tiến liên quan trực tiếp đến hiệu quả
của thuật toán phân lớp SVM trong phân lớp dữ liệu đa nhãn. Dữ liệu đa
nhãn thường là kiểu dữ liệu không có sự phân chia rõ ràng giữa các nhãn.
Chính vì thế, để cải tiến hiệu quả của thuật toán thì cần loại bỏ các dữ liệu
thuộc lớp tiêu cực nhưng lại rất gần với lớp tích cực. Phương pháp này được
thực hiện ở hai cấp là : cấp tài liệu và cấp lớp học. Đối với cấp tài liệu thuật
toán thực hiện qua hai bước :
• Đầu tiên, thực hiện huấn luyện từ tập dữ liệu học.
• Trong quá trình huấn luyện, loại bỏ các dữ liệu thuộc lớp âm mà thỏa
mãn một ngưỡng cho trước.
Đối với cấp lớp học, thuật toán thực hiện loại bỏ các trường hợp huấn luyện
tiêu cực của một lớp nếu nó tương tự như các lớp học tích cực, dựa trên một
ma trận “tương đồng”.
• Xếp hạng đa nhãn
• Bài toán xếp hạng nhãn
Xếp hạng nhãn là việc tìm một ánh xạ từ tập dữ liệu đầu vào đến việc
xếp hạng tập các nhãn trên một tập nhãn có sẵn. Xét tập X ⊆ R
m
là tập dữ
liệu đầu vào, tập nhãn cho trước L = {λ
i
| i = 1 . . . c} , và tập Y kết quả đầu
ra của việc xếp hạng trên tập nhãn L. Với T = {x
i

, y
i
}
i=[n]
⊆ X × Y là tập các
bộ dữ liệu dùng để huấn luyện. Mục tiêu của thuật toán xếp hạng nhãn là học
ánh xạ f : X → Y sao cho Y gồm các nhãn được sắp xếp theo độ ưu tiên đối
với X.
Xếp hạng đa nhãn được hiểu như là việc học một mô hình mà trong
đó có sự liên kết giữa truy vấn dữ liệu đầu vào x với việc xếp hạng và phân
lớp của tập nhãn L={λ
i
| i = 1 . . . c} thành hai lớp nhãn tích cực P
x
và lớp
nhãn tiêu cực N
x
với N
x
= {L / P
x
} đối với dữ liệu đầu vào đó
[Brinker et al., 2006].
Vì vậy, yêu cầu đặt ra cho việc giải quyết bài toán xếp hạng đa nhãn
gồm hai yêu cầu chính:
• Giải quyết bài toán xếp hạng, có nghĩa là việc đưa ra mô hình
để có được sự sắp xếp theo độ ưu tiên của tập nhãn đối với dữ
liệu đầu vào.
• Tách tập nhãn từ bài toán xếp hạng trên thành hai tập nhãn tích
cực P

x
và tập nhãn tiêu cực N
x
, và tập nhãn P
x
sẽ được gán cho
dữ liệu đầu vào x.
Thời gian gần đây, bài toán xếp hạng nhãn đang được rất nhiều nghiên
cứu quan tâm vì tầm quan trọng và độ liên quan của nó đến những bài toán
khác là vô cùng lớn. Sau đây là một số bài toán liên quan đến vấn đề xếp
hạng đang được quan tâm :
• Phân lớp đa nhãn : Như đã được nhắc đến trong phần trên của
khóa luận thì bài toán xếp hạng đa nhãn với việc phân chia tập
nhãn thành hai tập tích cực và tiêu cực cũng được ngầm hiểu

×