Tải bản đầy đủ (.pdf) (50 trang)

Làm giàu và lựa chọn đặc trưng trong phân lớp đa nhãn và áp dụng trong quản lý danh tiếng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.58 MB, 50 trang )



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phan Thị Thơm



LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG
TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG





KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:Công nghệ thông tin






HÀ NỘI - 2012



ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ




Phan Thị Thơm


LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG
TRONG PHÂN LỚP ĐA NHÃN VÀ ÁP DỤNG
TRONG QUẢN LÝ DANH TIẾNG




KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:Công Nghệ Thông Tin



Cán bộ hướng dẫn: PGS.TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ




HÀ NỘI - 2012



VIETNAMNATIONALUNIVERSITY, HANOI
UNIVERSITY OF ENGINEERING AND TECHNOLOGY



Thom Phan Thi


FEATURES ENRICHING AND SELECTING
IN MULTI-LABEL CLASSIFICATION
IN REPUTATION MANAGEMENT

Major: Information of Technology


Supervisor:Assoc. Prof. Thuy Ha Quang

Co-Supervisor:MSC. Vu Tran Mai





HA NOI, 2012


Lời cảm ơn
Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc tới Thầy giáo,
PGS.TS Hà Quang Thụy và Thạc sỹ Trần Mai Vũ đã tận tình chỉ bảo, hướng dẫn,
động viên và giúp đỡ em trong suốt quá trình thực hiện đề tài khóa luận.
Em xin gửi lời cảm ơn sâu sắc tới các Thầy Cô trong Khoa Công nghệ thông tin
đã truyền đạt kiến thức quý báu cho em trong bốn năm học vừa qua.
Em cũng xin gửi lời cảm ơn tới các thầy cô, các anh chị, các bạn và các em sinh
viên trong phòng thí nghiệm KT-Sislab đã giúp em rất nhiều trong việc hỗ trợ kiến

thức chuyên môn để hoàn thành tốt khóa luận.
Con xin nói lên lòng biết ơn vô hạn đối với Cha Mẹ luôn là nguồn động viên,
chăm sóc và khích lệ con trên mỗi bước đường học vấn.
Cuối cùng, xin chân thành cảm ơn các Anh Chị và Bạn Bè, các thành viên lớp
K53CB, K53CLC và đặc biệt là các thành viên của phòng 420C-KTX Ngoại Ngữ đã
ủng hộ, giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực
hiện đề tài khóa luận này.
Tôi xin chân thành cảm ơn!



Hà Nội, ngày 15 tháng 05 năm 2012
Sinh viên


Phan Thị Thơm




LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA NHÃN VÀ
ÁP DỤNG TRONG QUẢN LÝ DANH TIẾNG
Phan Thị Thơm
Khóa QH-2008-I/CQ, ngành công nghệ thông tin.

Tóm tắt Khóa luận tốt nghiệp:
Hệ thống quản lý danh tiếng là một chủ đề khoa học công nghệ thu hút sự quan tâm trên
thế giới. Hệ thống quản lý danh tiếng tiến hành thu thập ý kiến nhận xét của người dùng, phân
tích quan điểm trong những nhận xét đấy, và tạo ra một bản tổng kết quan điểm cung cấp cho
người dùng và công ty. Nhận xét của người dùng thường đề cập tới nhiều khía cạnh của công

ty sản phNm nên chúng là những dữ liệu đa nhãn. Vì vậy, một trong các vấn đề trọng tâm của
hệ thống quản lý danh tiếng là việc xử lý dữ liệu đa nhãn.
Bài toán phân lớp dữ liệu đa nhãn có đặc điểm là số lượng đặc trưng lớn [2]. Việc tạo
lập và lựa chọn tập đặc trưng dữ liệu có ý nghĩa rất quan trọng trong việc nâng cao hiệu quả
của thuật toán phân lớp đa nhãn. Khóa luận đề xuất một mô hình kết hợp việc tạo lập đặc
trưng dựa theo mô hình chủ đề Nn với giải pháp lựa chọn đặc trưng của Gomez-Verdejo và
Michel Verleysen, 2007 [3].
Khóa luận thi hành thực nghiệm trên miền dữ liệu là tập nhận xét của người dùng về
1000 khách sạn ở Việt Nam ở website ( ). Kết quả thu được cho thấy giải
pháp kết hợp đặc trưng đã cải thiện kết quả phân lớp đa nhãn.

Từ khóa : reputation management, multi-label, classification, feature selection.


FEATURES ENRICHING AND SELECTINGIN MULTI-LABEL
CLASSIFICATION IN REPUTATION MANAGEMENT
Thom Phan Thi
QH-2008-I/CQ course, information technology faculty
Abtract thesis:
From the late 20
th
century, the reputation systems have been commonly adopted by
Internet companies. For each companies or products, the reputation management crawled
customer’s reviews. Then they found the opinion customers in there and constructed the
report about opinion customers in features products or features companies. However, some
customer review may belong to more than one class, almost them is multi-label data. So the
importation problem in reputation management is classification multi-label.
According to Guyon and Elisseeff, 2003 [2], feature selection is an important task in
classification multi-label, as it can improve the interpretability of the problems, together with
performances and learning time of prediction algorithms. Based on the methodology of

Vanessa Gomez-Verdejo and Michel Verleysen, 2007 [3], we are given a methodology,
which used features in hidden topic model and used mutual information to achieve feature
selection in multi-label classification problems.
We used the customer’s reviews about 1000 hotels in Viet Nam in website
( ). Result on this database clearly demonstrate the interest of the approach
which allows one to sharply reduce the dimension of the problem and to enhance the
performance of classifiers.
Keywords:
reputation management, multi-label, classification, feature selection.




Lời cam đoan
Tôi xin cam đoan giải pháp làm giàu đặc trưng chủ đề Nn LDA và phương pháp
lựa chọn đặc trưng dựa trên độ tương hỗ MI được trình bày trong khóa luận này là do
tôi thực hiện dưới sự hướng dẫn của PGS.TS Hà Quang Thụy và Thạc sỹ Trần Mai
Vũ.
Tất cả những tham khảo từ các nghiên cứu liên quan đề được nêu nguồn gốc một
các rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không
có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài
liệu tham khảo.


Hà Nội, ngày 15 tháng 05 năm 2012
Tác giả


Phan Thị Thơm



Mục lục
MỞ ĐẦU 1
CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ QUẢN LÝ DANH TIẾNG 3
1.1. Danh tiếng và các khái niệm liên quan 3
1.2. Giới thiệu chung về hệ thống quản lý danh tiếng 4
1.2.1. Sơ bộ về hệ thống quản lý danh tiếng 4
1.2.3. Tầm quan trọng của hệ thống quản lý danh tiếng 6
1.3. Phân lớp dữ liệu đa nhãn và bài toán lựa chọn đặc trưng 7
Kết luận chương một 9
CHƯƠNG 2. PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP ĐA
NHÃN VÀ MÔ HÌNH CHỦ ĐỀ ẨN LDA 10
2.1. Phương pháp lựa chọn đặc trưng sử dụng độ tương hỗ (MI) 10
2.1.1. Bài toán lựa chọn đặc trưng 10
2.1.2. Phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ (MI) 11
2.1.2.1. Độ tương hỗ MI 11
2.1.2.2. Phương pháp thực hiện 11
2.1.2.3. Cách đánh giá 12
2.2. Mô hình chủ đề Nn 12
2.2.1. Mô hình sinh trong LDA 14
2.2.2. Ước lượng tham số và suy luận 15
Kết luận chương hai 16
CHƯƠNG 3. PHƯƠNG PHÁP LÀM GIÀU VÀ LỰA CHỌN ĐẶC TRƯNG TRONG
PHÂN LỚP ĐA NHÃN 17
3.1. Mô tả phương pháp 17
3.2. Mô hình đề xuất 18
3.3. Pha 1. Huấn luyện mô hình 19
3.3.1. Xây dựng tập đặc trưng bổ xung từ mô hình chủ đề n LDA 19
3.3.2. Xây dựng vector đặc trưng 20
3.3.3. Lựa chọn đặc trưng 21

3.3.4. Phân lớp đa nhãn 22
3.4. Pha 2. Phân lớp sử dụng mô hình huấn luyện 23


3.4.1. Tiền xử lý dữ liệu 23
3.4.2. Lựa chọn đặc trưng 24
3.4.3. Đánh giá độ chính xác của hệ thống 24
Kết luận chương ba 26
CHƯƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ 27
4.1. Môi trường và các cộng cụ sử dụng thực nghiệm 27
4.1.1. Cấu hình phần cứng 27
4.1.2. Các phần mềm sử dụng 28
4.2. Xây dựng tập dữ liệu thử nghiệm 28
4.3. Thử nghiệm 30
4.4. Kết quả thực nghiệm 31
4.5. Đánh giá hệ thống 35
Kết luận 36
Tài liệu tham khảo 37



Danh sách hình vẽ

Hình 1.1 : Sơ đồ phân loại danh tiếng 3
Hình 1.2: (a) Hệ thống Vật giá, (b) Hệ thống Swooti; 5
(c,d) Hệ thống zoominfo: Giao diện (c); kiến trúc thành phần hệ thống (d) 5
Hình 1.3 : Hai kiểu mô hình hệ thống quản lý danh tiếng [4, 25] 6
Hình 2.1: Mô hình biểu diễn của LDA 14
Hình 3.1: Mô hình đề xuất 18
Hình 3.2 : Bốn tập dữ liệu được tổ chức phân lớp theo chuyển đổi nhị phân 22

Hình 4.1: So sánh kết quả thực nghiệm 1 và thực nghiệm 2 33
Hình 4.2: So sánh 4 thực nghiệm 34



Danh sách bảng biểu

Bảng 3.1: Ví dụ về kết quả của mô hình chủ đề Nn cho tài liệu t 19
Bảng 3.2: Bảng ký hiệu 25
Bảng 4.1. Cấu hình hệ thống thử nghiệm 27
Bảng 4.2: Công cụ phần mềm sử dụng 28
Bảng 4.3 : Tập dữ liệu thực nghiệm 29
Bảng 4.4: Tập dữ liệu huấn luyện 29
Bảng 4.5: Tập dữ liệu cho mô hình chủ đề Nn 30
Bảng 4.6: Kết quả của thực nghiệm 1 31
Bảng 4.7: Kết quả thực nghiệm 2 với số chủ đề là 15 32
Bảng 4.8: Kết quả thực nghiệm 2 với số chủ đề là 20 32
Bảng 4.9: Kết quả thực nghiệm 2 với số chủ đề là 25 32
Bảng 4.10: Kết quả thực nghiệm 3 33
Bảng 4.11: Kết quả thực nghiệm 4 34



Danh sách các từ viết tắt

BR Binary Relevance
IDF Inverse Document Frequency
MI Mutual Information
LDA Latent Dirichlet Allocation
LP Label Powerset

PLSA Probabilistic Latent Semantic Analysis
PPT Pruned Problem Transformation
TF Term Frequencies
SVM Support Vector Machine


1

MỞ ĐẦU

Danh tiếng của tổ chức là một tài sản có giá trị ngày càng cao. Ngày nay, Internet
là kênh thông tin quan trọng chuyển tải danh tiếng của tổ chức tới cộng đồng xã hội.
Theo như First World Internet Report (Pierce, 2008) [1], chỉ ra rằng hơn hai phần ba
người dùng Internet coi đây là nguồn thông tin quan trọng. Tuy nhiên, lượng thông tin
trên Internet đang ngày một lớn hơn và gây khó khăn cho người sử dụng khi tìm các
thông tin đánh giá một công ty hay một sản phNm. Vì thế, hệ thống quản lý danh tiếng
là một trong những cách tốt nhất để giải quyết vấn đề này.
Hệ thống quản lý danh tiếng chủ yếu là tổng hợp dựa trên ý kiến của người dùng.
Vì thế, vấn đề mấu chốt của bài toán quản lý danh tiếng là việc phân loại dữ liệu đa
nhãn. Theo nghiên cứu của Guyon và Elisseeff, 2003 [2], việc lựa chọn đặc trưng hiệu
quả có thể cải tiến đáng kể chất lượng của bộ phân lớp.
Trong khóa luận này, chúng tôi sử dụng phương pháp lựa chọn đặc trưng của
Vanessa Gomez-Verdejo và Michel Verleysen, 2007 [3]. Chúng tôi đề xuất một
phương pháp xây dựng tập đặc trưng cho việc phân lớp câu quan điểm trong bài toán
quản lý danh tiếng. Theo đó, chúng tôi áp dụng đặc trưng mô hình chủ đề Nn LDA kết
hợp với lựa chọn đặc trưng dựa vào độ tương hỗ (MI). Phương pháp phân lớp
Maximum Entropy được lựa chọn vì phương pháp này phù hợp với việc phân lớp dữ
liệu có nhiều đặc trưng.
Nội dung của khóa luận được chia thành các chương như sau :
Chương 1: Giới thiệu khái quát về quản lý danh tiếng, hệ thống quản lý danh

tiếng và tầm quan trọng của hệ thống này trong thực tế. Sau đó, khóa luận còn trình
bày về tầm quan trọng của việc xử lý dữ liệu đa nhãn trong hệ thống quản lý danh
tiếng, tầm quan trọng của việc lựa chọn đặc trưng.
Chương 2 : Trình bày về bài toán lựa chọn đặc trưng trong việc phân lớp dữ liệu
đa nhãn cùng một số nghiên cứu liên quan. Ngoài ra, khóa luận còn trình bày về
phương pháp mô hình chủ đề Nn LDA và giải pháp do khóa luận đề xuất.
Chương 3 : Khóa luận đề xuất phương pháp xây dựng tập đặc trưng dựa vào việc
bổ xung đặc trưng thu được từ mô hình chủ đề Nn LDA kết hợp với phương pháp
lựachọn đặc trưng dựa vào độ tưng hỗ(MI) trên miền dữ liệu Tiếng Việt. Đồng thời,
khóa luận cũng trình bày chi tiết các pha cũng như các bước trong mô hình.
2

Chương 4 : Khóa luận trình bày một số thực nghiệm trong việc áp dụng phương
pháp xây dựng tập đặc trưng mà khóa luận đề xuất. Từ đó, khóa luận sử dụng để đánh
giá danh tiếng cho 1000 khách sạn ở Việt Nam.
Phần kết luận : Tóm lược kết quả đạt được của khóa luận và định hướng phát
triển tương lai.
3

CHƯƠNG 1. GIỚI THIỆU CHUNG VỀ QUẢN LÝ DANH TIẾNG

1.1. Danh tiếng và các khái niệm liên quan
Theo như Từ điển Oxford(1992) thì danh tiếng được định nghĩa “là các ước
lượng chung của con người về các phương diện đặc tính hoặc phm chất ; nó gần như
là sự yêu quý hay tin tưởng vào một người hay một tổ chức”.
Danh tiếng được coi như là một đặc tính hoặc một thuộc tính của con người hay
một tổ chức được hình thành nhờ hành vi trong quá khứ. Theo Lik Mui, 2002 [5], danh
tiếng được phân loại dựa vào nguồn gốc xây dựng như sơ đồ sau:

Hình 1.1 : Sơ đồ phân loại danh tiếng

Trong sơ đồ trên, một số loại danh tiếng có trong các hộp bóng mờ là (i) danh
tiếng của nhóm (group reputation), (ii) danh tiếng quan sát được (observed reputation),
(iii) danh tiếng từ nguồn nhóm (group-derived) có tính “xã hội hóa” đối với chủ thể và
khách thể (nơi nhận danh tiếng hoặc nguồn tạo ra danh tiếng) là đối ngẫu với tính “cá
nhân hóa” trong các loại danh tiếng còn lại. Trong sơ đồ phân loại danh tiếng trên đây,
ở mức cao nhất cho thấy danh tiếng gồm danh tiếng cá nhân và danh tiếng nhóm cá
nhân.Danh tiếng nhóm cá nhân (công ty) được xác định theo một mô hình tích hợp
danh tiếng cá nhân của tập thành viên trong nhóm (mô hình trung bình, mô hình phân
cấp, các mô hình tích hợp khác [5]).Danh tiếng cá nhân có thể phân chia theo hai loại
là:
• Danh tiếng thu được từ những thông tin trực tiếp như : sự đánh giá của
những người là đồng nghiệp của nhau, …
• Danh tiế
ng thu
nhóm mà cá nhân
miệng, …
1.2. Giới thiệ
u chung
1.2.1. Sơ bộ về hệ
th
Một trong những lợ
i th
giảm chi phí thờ
i gian công s
hàng giờ
, Internet luôn có hàng tri
kinh nghiệm với nhau. Tậ
n d
vụ thu thập ý kiến của ngư


sản phNm, … Sau đó tổ
ng h
dùng khác có thể sử dụ
ng thông tin mà h
tài liệu tham khảo để
đưa ra quy

(a)

4

ng thu đư
ợc từ những thông tin gián tiế
p như : s
nhóm mà cá nhân đó tham gia, các thông tin thu th

p t
u chung
về hệ thống quản lý danh tiếng
th
ống quản lý danh tiếng
i th
ế lớn nhất mà Internet mang lạ
i cho ngư
i gian công s
ức trong việc tìm kiếm, thu thậ
p thông tin. Hàng ngày,
, Internet luôn có hàng tri
ệu người giao tiếp và chia sẻ
các ý ki

n d
ụng lợi thế này, hệ thống quả
n lý danh ti

i dùng về sản phNm và các sự kiệ
n, thông tin v
ng h
ợp thông tin này và công bố với mọ
i ngư
ng thông tin mà h
ệ thống quản lý danh tiế
ng mang l
đưa ra quy
ết định.
(b)

ư : s
ự uy tín của
p t
ừ lời truyền
i cho ngư
ời dùng là làm
p thông tin. Hàng ngày,
các ý ki
ến cũng như
n lý danh ti
ếng làm nhiệm
n, thông tin v
ề uy tín của
i ngư

ời. Mọi người
ng mang l
ại như một


5

(c) (d)

Hình 1.2: (a) Hệ thống Vật giá, (b) Hệ thống Swooti;
(c,d) Hệ thống zoominfo: Giao diện (c); kiến trúc thành phần hệ thống (d)
1.2.2. Mô hình của hệ thống quản lý danh tiếng
Theo Liu Ling (2011, [4]), mô hình hệ thống quản lý danh tiếng được xây dựng
từ mô hình hệ thống thông tin song đi theo hai hướng tiếp cận có hoặc không có thành
phần phản hồi J. Laudon và K. Laudon (2007, [13]), Stair và cộng sự (2010, [14]) đề
nghị hệ thống quản lý danh tiếng được xây dựng như một hệ thống thông tin bao gồm
bốn thành phần: Đầu vào, Xử lý, Đầu ra và Phản hồi người dùng như hình 3(a). Trong
khi đó, Hoffman và cộng sự (2009, [15]), Zheng và Jin (2009, [16]), Swamynathan và
cộng sự (2010, [24]) coi rằng hệ thống danh tiếng bao gồm ba thành phần: Thu thập
thông tin, Xử lý thông tin và Hiển thị kết quả người dùng như hình 3(b).

(a) Mô hình kiểu Hệ thống thông tin [4]

(b) Mô hình kiểu ba thành phần [4]
6

(c) Một mô hình năm thành phần [25]
Hình 1.3 : Hai kiểu mô hình hệ thống quản lý danh tiếng [4, 25]

Thành phần Phản hồi người dùng là rất quan trọng trong hệ thống danh tiếng,

và vì vậy, mô hình ba thành phần có một khiếm khuyết là thiếu vắng thành phần này.
Tuy nhiên, trong nhiều trường hợp, mô hình ba thành phần cho một thiết kế đơn giản,
dễ thi hành.
Liu Ling [4] nhận định rằng cả hai mô hình nói trên còn thiếu một thành phần
quan trọng là Thành phần lưu trữ và tác giả cho rằng đây cũng là một thiếu sót lớn
theo phương diện thiết kế hệ thống. Liu Ling đề nghị mô hình thiết kế hệ thống quản
lý danh tiếng gồm năm thành phần như thể hiện ở Hình 2(c).
Khóa luận này cũng tiếp cận theo mô hình ba, trong đó tập trung chủ yếu vào
phần xử thông tin, đặc biệt là phần xử lý thông tin đa nhãn. Khóa luận đề xuất giải
pháp xây dựng tập đặc trưng bằng cách kết hợp đặc trưng mô hình chủ đề Nn và
phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ.
1.2.3. Tầm quan trọng của hệ thống quản lý danh tiếng
Trong cuộc sống, danh tiếng công ty, sản phNm đóng một vai trò vô cùng quan
trọng. Đối với người tiêu dùng, danh tiếng giúp họ có được những lựa chọn hợp lý
trong cuộc sống. Ví dụ như: trong trường hợp một người cần tìm gia sư tốt để dạy con
7

cái họ, họ sẽ nhờ bạn bè và người thân giới thiệu hay cho kinh nghiệm. Và kinh
nghiệm trên chính là danh tiếng về gia sư.
Đối với bản thân doanh nghiệp, danh tiếng càng có tầm quan trọng lớn hơn. Việc
quản lý danh tiếng là quá trình theo dõi thương hiệu và phản ứng khi có những phản
hồi tiêu cực về công ty đang quản lý. Từ đó, công ty có thể tránh đươc những thảm họa
tiềm Nn như: ai đó nêu tên công ty trong một bài viết có tính chất xuyên tạc. Ngoài khả
năng phòng vệ, việc làm này còn giúp công ty có thể tham gia và những cuộc thảo
luận xoay quanh các vấn đề của doanh nghiệp, từ đó giúp quảng bá hình ảnh công ty ra
bên ngoài hiều hơn.
Trong xã hội hiện nay, sự cạnh tranh về danh tiếng đóng một vai trò vô cùng
quan trọng. Dù muốn hay không thì bất kỳ cá nhân, công ty hay tổ chức nào cũng phải
xây dựng và phát triển danh tiếng dựa trên nhận thức của công chúng về danh tiếng đó.
Người ta phải mất nhiều năm tháng để xây dựng danh tiếng, nhưng có thể hủy hoại nó

chỉ trong chốc nát. Công ty Enron, ngành công nghiệp kế toán kiểm toán sau vụ
Andersen, Wall Street,… là những ví dụ nổi bật. Với danh tiếng tốt của doanh nghiệp
sẽ thu hút khách hàng, nhà đầu tư và các nhân viên tài năng, dẫn đến lợi nhuận cao.
Sự thành công của eBay [5], một trang web bán hàng rất phổ biến đã là ví dụ
điển hình cho thấy tầm quan trọng to lớn của danh tiếng, các giá trị uy tín của người
bán và người mua được đo và xếp hạng theo điểm số (tích cực, tiêu cực và trung lập).
Nghiên cứu của Resnich và Zeckhauser [6] đã chỉ ra rằng trên eBay 89% trong số
168.680 giao dịch xảy ra giữa người bán và người mua gặp nhau lần đầu tiên. Và hầu
như tất cả (98.9%) xảy ra giữa những người đã tiến hành giao dịch không quá bốn lần.
Các thống kê trên chỉ ra rằng, hầu hết giao dịch trên eBay là giao dịch giữa những
người không quen biết và danh tiếng là yếu tố quyết định của những giao dịch này.
Như đã nói ở trên, quản lý danh tiếng là làm nhiệm vụ thu thập ý kiến của người
dùng về sản phNm và các sự kiện, thông tin về uy tín của sản phNm, … sau đó tổng hợp
thông tin này và công bố với mọi người. Như vậy, quản lý danh tiếng được coi là tầng
trên của khai phá quan điểm và bài toán phân lớp quan điểm được coi là bài toán trọng
tâm của quản lý danh tiếng.
1.3. Phân lớp dữ liệu đa nhãn và bài toán lựa chọn đặc trưng
Hầu hết các ứng dụng của phân lớp phân cấp văn bản là bài toán đa nhãn, có
nghĩa là một văn bản hay câu có thể được gán vào nhiều hơn một lớp. Ví dụ, một câu
8

quan điểm của khách hàng nhận xét về khách sạn như “Khách sạn rất đẹp, thoáng và
có nhiều đồ ăn ngon” có thể thuộc lớp “Chất lượng phòng, khách sạn” hoặc “Chất
lượng đồ ăn”. Phân lớp dữ liệu đa nhãn là nhiệm vụ phân loại tài liệu trong đó mỗi tài
liệu có thể đồng thời thuộc vào nhiều nhãn khác nhau. Dữ liệu đa nhãn thường được
gặp trong thực tế hơn dữ liệu đơn nhãn vì dữ liệu đơn nhãn được quy định chỉ thuộc
vào một nhãn cố định. Xét một ví dụ về phân lớp dữ liệu văn bản như : một bài báo về
nghị định Kyoto, bài báo này có thể được gán nhãn là chính trị hoặc môi trường. Một
ví dụ khác như, một bức ảnh có thể thuộc về nhiều nhãn khác nhau như bãi biển, núi,
du lịch, Do tầm quan trọng của dữ liệu đa nhãn, bài toán phân lớp dữ liệu đa nhãn đã

được nghiên cứu khá rộng rãi từ vài năm gần đây và dẫn tới sự phát triển của rất nhiều
thuật toán phân lớp. Một trong số những phương pháp mở rộng để phân loại dữ liệu đa
nhãn điển hình như AdaBoost [8], học máy hỗ trợ (SVM) [9] hoặc K-láng giềng gần
nhất [10], …
Một trong những cách tiếp cận phổ biến của phân lớp dữ liệu đa nhãn là thực
hiện các chuyển đổi về phân lớp dữ liệu đơn nhãn. Sau đó, có thể sử dụng trực tiếp các
thuật toán học máy để phân loại dữ liệu đơn nhãn. Theo [11], phương pháp chuyển đổi
đơn giản nhất là phương pháp chuyển đổi nhị phân (BR), tức là với mỗi nhãn khác
nhau sẽ được xây dựng một bộ phân lớp khác nhau. Nói cách khác, tức là việc chuyển
đổi phân lớp dữ liệu C nhãn thành C bộ phân lớp cho mỗi nhãn.
Phương pháp Label Powerset (LP) là một phương pháp chuyển đổi của phân lớp
dữ liệu đa nhãn mà có xem xét đến sự phụ thuộc của các nhãn lớp. Ý tưởng của
phương pháp này là coi một tập con các nhãn như là một nhãn và tiến hành phân lớp
như việc phân lớp dữ liệu đơn nhãn. Theo phương pháp này thì số lượng các tập con
nhãn được tạo ra là rất lớn, nên Read và công sự [12] đã đề xuất một phương pháp tỉa
để giảm bớt số lượng các tập nhãn, phương pháp này gọi là tiếp cNn chuyển đổi bằng
phương pháp tỉa (PPT). Phương pháp PPT quy định mỗi tập nhãn phải có một số
lượng tối thiểu dữ liệu, đối với dữ liệu quá hiếm có thể loại bỏ khỏi tập dữ liệu và đưa
vào nhãn mới.
Tuy nhiên, việc phân loại dữ liệu văn bản đa nhãn với nhiều nhãn lớp có thể dẫn
tới số lượng đặc trưng quá lớn và đôi khi làm giảm kết quả của bộ phân lớp. Có nhiều
phương pháp được đề xuất [2], tuy nhiên, phương pháp lựa chọn đặc trưng dựa trên độ
tương hỗ (MI) được coi là phương pháp hiệu quả[3].
9

Kết luận chương một
Trong chương này, khóa luận giới thiệu bài toán quản lý danh tiếng, các định
nghĩa liên quan đến danh tiếng và hệ thống quản lý danh tiếng. Ngoài ra, khóa luận
còn nêu lên được tầm quan trọng của bài toán phân lớp dữ liệu đa nhãn và lựa chọn
đặc trưng trong hệ thống quản lý danh tiếng

Chương tiếp theo, khóa luận sẽ đi sâu vào phân tích bài toán lựa chọn đặc trưng
trong miền dữ liệu đa nhãn, giới thiệu các nghiên cứu liên quan, phương pháp bổ xung
đặc trưng bằng mô hình chủ đề Nn LDA. Từ những tìm hiểu đó, khóa luận đề xuất giải
pháp xây dựng tập đặc trưng hiệu quả cho hệ thống quản lý danh tiếng.

10

CHƯƠNG 2. PHƯƠNG PHÁP LỰA CHỌN ĐẶC TRƯNG TRONG PHÂN LỚP
ĐA NHÃN VÀ MÔ HÌNH CHỦ ĐỀ ẨN LDA

2.1. Phương pháp lựa chọn đặc trưng sử dụng độ tương hỗ (MI)
2.1.1. Bài toán lựa chọn đặc trưng
Lựa chọn đặc trưng là việc lựa chọn từ một tập hợp các đặc trưng đầu vào để đưa
ra một tập nhỏ các đặc trưng có giá trị nhất. Xét với một vector đặc trưng đầu vào ngẫu
nhiên X={X
1
,…, X
d
} và Y là giá trị đầu ra có thể dự đoán từ vector đặc trưng X.
Nhiệm vụ lựa chọn đặc trưng chính là việc tìm ra các đặc trưng X
i
có liên quan nhất
đến dự đoán giá trị Y.
Lựa chọn đặc trưng có tầm quan rất lớn trong thực tế, đặc biệt là trong các
phương pháp K-láng giềng gần nhất, học máy vector hỗ trợ (SVM). Những phương
pháp này bị ảnh hưởng rất lớn vào yếu tố đầu vào, khả năng phân lớp của thuật toán có
xu hướng giảm khi các biến không có giá trị được thêm vào.
Khi dữ liệu có số lượng đặc trưng lớn, việc tìm kiếm tập các đặc trưng tối ưu là
rất khó. Theo các nghiên cứu trước đây, có một số phương pháp tìm kiếm tập đặc
trưng tối ưu bằng cách làm ngược lại với thông thường, tức là loại bỏ các đặc trưng

xấu, ví dụ như, phương pháp tỉa MultiLayer Perceptron, phương pháp Generalized
Relevance Learning Vector Quantization, các phương pháp này đều phải xây dựng mô
hình và khởi tạo là toàn bộ các đặc trưng. Khi số lượng các đặc trưng quá lớn, thì việc
tính toán lớn, vấn đề hội tụ,…sẽ gây khó khăn cho thuật toán và những cách tiếp cận
trên đây đều bị ràng buộc bởi một mô hình cụ thể.
Trong khi đó, phương pháp lựa chọn đặc trưng Forward-Backward có thể được
áp dụng bởi bất kỳ mô hình nào và được bắt đầu bằng một tập hợp nhỏ các đặc trưng.
Tuy nhiên, phương pháp này cũng gặp khó khăn khi tập đặc trưng là quá lớn, vì
phương pháp này phải thực hiện việc tìm kiếm về phía trước bằng mô hình dự đoán
trực tiếp. Để giải quyết vấn đề này, phương pháp ước tính dự đoán bằng phương pháp
thống kê hoặc thông tin lý thuyết ra đời. Phương pháp này không sử dụng mô hình dự
đoán nên có hiệu quả cao khi thực nghiệm trên dữ liệu nhiều đặc trưng.
Việc sử dụng kết hợp giải pháp tìm kiếm Forward-Backward và tiêu chí về thông
tin lý thuyết được coi là một lựa chọn tối ưu, đặc biệt là khi sử dụng độ đo tương hỗ để
phát hiện mối quan hệ tuyến tính giữa các đặc trưng. Chính vì thế, trong phạm vi khóa
11

luận này, khóa luận sẽ sử dụng giải pháp tìm kiếm Forward-Backward kết hợp với độ
đo tương hỗ cho việc lựa chọn đặc trưng của dữ liệu đa nhãn.
2.1.2. Phương pháp lựa chọn đặc trưng dựa vào độ tương hỗ (MI)
2.1.2.1. Độ tương hỗ MI
MI là một độ đo về khoảng cách lượng thông tin giữa hai biến. Độ đo này được
sử dụng rộng rãi trong việc lựa chọn đặc trưng vì nó có khả năng phát hiện ra các mối
quan hệ phi tuyến tính giữa các biến. Hơn nữa, MI được định nghĩa cho các nhóm của
các biến, cho phép đo sự phụ thuộc của một nhóm đặc trưng với một lớp trong quá
trình lựa chọn đặc trưng.
Ký hiệu các giá trị xác suất cận biên cho X và Y lần lượt là p
x
(x) và p
y

(y) và xác
suất cận biên của X, Y là p
x,y
(x,y) thì MI được định nghĩa là :
ܫ

ܺ,ܻ

=
නන
݌
௫,௬
ሺݔ,ݕሻ݈݋݃
݌
௫,௬
ሺݔ,ݕሻ
݌


ݔ

݌

ሺݕሻ


2.1.2.2. Phương pháp thực hiện
Có rất nhiều cách thức để lựa chọn ra một tập nhỏ đặc trưng từ tập lớn ban đầu.
Theo Vanessa Gomez-Verdejo và cộng sự [3], thì phương pháp Forward-Backward là
phương pháp hiệu quả trong việc lựa chọn đặc trưng cho phân lớp dữ liệu. Phương

pháp được biểu diễn qua 4 bước sau :
Bước 1 : Lựa chọn đặc trưng đầu tiên trong tập đặc trưng {X
1
,…, X
n
} trong đó
giá trị MI của đặc trưng lựa chọn với lớp Y là cao nhất
ܺ

௦௘௟
= ܽݎ݃݉ܽݔ


ܫ

൫ܺ

,ܻ൯ 1 ≤ ݆ ≤ ܰ

Bước 2 : Các đặc trưng tiếp theo được lựa chọn sao cho giá trị MI của tập đặc
trưng lựa chọn với lớp Y đạt giá trị cao nhất. Trong đó, nếu thuật toán thực hiện được
tới vòng thứ t, tập đặc trưng lúc đó là

ܺ

௦௘௟
,…,ܺ
௧ିଵ
௦௘௟


, đặc trưng tiếp theo được lựa
chọn ܺ

௦௘௟
phải thỏa mãn điều kiện sau :
ܺ

௦௘௟
= ܽݎ݃݉ܽݔ


ܫ



ܺ

௦௘௟
,…,ܺ
௧ିଵ
௦௘௟



,ܻሻ
1 ≤ ݆ ≤ ܰ
12

ܺ


∉ ሼܺ

௦௘௟
,…,ܺ

௦௘௟

Bước 3: Sau khi thêm một đặc trưng ܺ

௦௘௟
, thuật toán tiến hành kiểm tra bằng
cách loại bỏ lần lượt các đặc trưng ứng viên, khi đó giá trị MI có thể tăng lên. Nếu việc
loại bỏ đặc trưng có thể làm tăng giá trị MI, thì tập đặc trưng mới được thay thế tập
đặc trưng cũ
ܺ

௥௘௠
= ܽݎ݃݉ܽݔ


ೞ೐೗
ܫ



ܺ

௦௘௟
,…,ܺ
௝ିଵ

௦௘௟

௝ାଵ
௦௘௟
,…,ܺ

௦௘௟

,ܻሻ1 ≤ ݆ ≤ ݐ
Nếu : ܫ



ܺ

௦௘௟
,…,ܺ
௝ିଵ
௦௘௟

௝ାଵ
௦௘௟
,…,ܺ

௦௘௟

,ܻ൯ > ܫ




ܺ

௦௘௟
,…,ܺ

௦௘௟

,ܻሻ
Bước 4: Thuật toán dừng lại khi giá trị MI không tăng lên nữa hoặc số lượng đặc
trưng tối đa đã tìm được.
2.1.2.3. Cách đánh giá
Có hai tiêu chí phổ biến được dùng để đánh giá trong trường hợp này là : độ mất
mát dữ liệu Hamming và độ chính xác. Với |M| là số lượng điểm dữ liệu có trong tập
kiểm tra M, Y
i
, i=1…|M|, tập các nhãn đúng và ܻ


là tập các nhãn chính xác trong phân
lớp đa nhãn h.
Độ đo Hamming được định nghĩa như sau:
ܪܮ

ℎ,ܯ

=
1
|
ܯ
|


1
|
ܥ
|
|

|
௜ୀଵ
หܻ

∆ܻ



Trong đó ∆ là biểu thị của phép lấy giá trị khác nhau giữa hai tập, |C| là số lượng
các nhãn dương.
Độ chính xác được định nghĩa như sau :
ܣܿܿݑݎܽܿݕ

ℎ,ܯ

=
1
|
ܯ
|

หܻ


∩ ܻ



หܻ

∪ ܻ



|

|
௜ୀଵ

Dĩ nhiên, độ đo Hamming càng nhỏ và độ chính xác càng cao thì bộ phân lớp đấy
càng tốt. Điều quan trọng là tất cả các điểm dữ liệu phải thuộc ít nhất một lớp. Nếu có
trường hợp ngoại lệ xảy ra thì độ chính xác ở trên sẽ bằng vô hạn.
2.2. Mô hình chủ đề n
13

Hiện nay, có nhiều nhiên cứu để khai thác một cách hiệu quả mối quan hệ giữa
các dữ liệu. Trong đó, mô hình chủ đề Nn [17] là một bước tiến quan trọng trong việc
mô hình hóa dữ liệu văn bản. Chúng được xây dựng dựa trên ý tưởng rằng mỗi tài liệu
có một xác suất phân phối vào các chủ đề, và mỗi chủ đề là sự phân phối kết hợp giữa
các từ khóa. Biểu diễn các từ và tài liệu dưới dạng phân phối xác suất có lợi ích rất lớn
so với không gian vector thông thường.
Ý tưởng của các mô hình chủ đề Nn là xây dựng những tài liệu mới dựa theo phân
phối xác suất. Trước hết, để tạo ra một tài liệu mới, cần chọn ra một phân phối những
chủ đề cho tài liệu đó, điều này có nghĩa tài liệu được tạo nên từ những chủ đề khác

nhau, với những phân phối khác nhau. Tiếp đó, để sinh các từ cho tài liệu ta có thể lựa
chọn ngẫu nhiên các từ dựa vào phân phối xác suất của các từ trên các chủ đề.
Một cách hoàn toàn ngược lại, cho một tập các tài liệu, có thể xác định một tập
các chủ đề Nn cho mỗi tài liệu và phân phối xác suất của các từ trên từng chủ đề. Hai ví
dụ về phân tích chủ đề sử dụng mô hình Nn là Probabilistic Latent Semantic Analysis
(pLSA) và Latent Dirichlet Allocation (LDA)
PLSA là một kỹ thuật thống kê nhằm phân tích những dữ liệu xuất hiện đồng thời
[18]. Phương pháp này được phát triển dựa trên LSA và các cộng sự (2003) [17], mặc
dù LPSA là một bước quan trọng trong việc mô hình hóa dữ liệu văn bản, tuy nhiên nó
vẫn còn chưa hoàn thiện ở chỗ chưa xây dựng được một mô hình xác suất tốt ở mức độ
tài liệu. Điều đó dẫn đến vấn đề gặp phải khi phân phối xác suất cho một tài liệu nằm
ngoài tập dữ liệu học, ngoài ra số lượng các tham số có thể tăng lên một cách tuyến
tính khi kích thước của tập dữ liệu tăng.
LDA là một mô hình hoàn thiện hơn so với PLSA và có thể khắc phục được
những nhược điểm ở trên. Mô hình chủ đề Nn này sẽ được sử dụng trong việc xây dựng
hệ thống của khóa luận.
LDA là một mô hình sinh xác suất cho tập dữ liệu rời rạc. LDA được xây dựng
dựa trên ý tưởng : mỗi tài liệu là sự trộn lẫn của nhiều chủ đề (topic). Về bản chất,
LDA là một mô hình Bayes phân cấp 3 mức (mức kho ngữ liệu, mức tài liệu và mức từ
ngữ). Mỗi tài liệu trong tập hợp được coi là một hỗn hợp xác định trên tập cơ bản các
chủ đề. Mỗi chủ đề là một hỗn hợp không xác định trên tập cơ bản các xác suất chủ đề.
Về khía cạnh mô hình hóa văn bản, các xác suất chủ đề là một biểu diễn cụ thể, rõ ràng
cho một tài liệu.

×