Tải bản đầy đủ (.pdf) (38 trang)

Nghiên cứu giải thuật học cộng tác co training và ứng dụng vào bài toán khai phá quan điểm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.12 MB, 38 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

VÕ VĂN THƯỞNG

NGHIÊN CỨU GIẢI THUẬT HỌC CỘNG TÁC (COTRAINING) VÀ ỨNG DỤNG VÀO BÀI TOÁN KHAI
PHÁ QUAN ĐIỂM.

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2012


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

VÕ VĂN THƯỞNG

NGHIÊN CỨU GIẢI THUẬT HỌC CỘNG TÁC (COTRAINING) VÀ ỨNG DỤNG VÀO BÀI TỐN KHAI
PHÁ QUAN ĐIỂM.

Ngành: Cơng nghệ Thông tin
Chuyên ngành: Hệ thống Thông tin
Mã số: 60 48 05

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS.Nguyễn Trí Thành

Hà Nội - 2012



Trang 2

MỤC LỤC
LỜI CAM ĐOAN.................................................................................................. 1
MỤC LỤC ............................................................................................................. 2
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ........................................... 4
DANH MỤC CÁC BẢNG.................................................................................... 5
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ............................................................... 6
MỞ ĐẦU ............................................................................................................... 7
CHƢƠNG 1 – GIỚI THIỆU ................................................................................. 8
1.1. Lý do chọn đề tài ................................................................................... 8
1.2.

Mục tiêu, phạm vi nghiên cứu của đề tài ............................................ 10

CHƢƠNG 2 – KHAI PHÁ QUAN ĐIỂM VÀ ỨNG DỤNG ............................ 11
2.1. Khai phá quan điểm (Opinion mining) ............................................... 11
2.1.1.

Các khái niệm liên quan................................................................ 11

2.1.2.

Khai phá quan điểm ...................................................................... 12

2.1.3.
2.1.4.

Động lực và Ứng dụng của Khai phá quan điểm.......................... 13

Thách thức của Khai phá quan điểm ............................................ 14

2.1.5.

Các mức văn bản trong bài toán khai phá quan điểm ................... 15

2.2.

Các thuật tốn học có giám sát ............................................................ 15

2.2.1.

Học máy - Machine Learning ....................................................... 16

2.2.2.
2.2.3.

Học có giám sát - Supervised Learning ........................................ 18
Thuật tốn học có giám sát Support Vector Machines (SVM) .... 19

2.2.4.

Các thuật tốn học có giám sát khác............................................. 24

2.3.

Các thuật tốn học bán giám sát .......................................................... 25

2.3.1.


Thuật toán Co-training .................................................................. 26

2.3.2.

Thuật toán bán giám sát cực đại EM đại phƣơng ......................... 28

2.3.3. Thuật toán Self-training ................................................................ 29
2.4. Phƣơng pháp đánh giá bộ phân lớp ..................................................... 30
2.5.

Kết luận................................................................................................ 31

CHƢƠNG 3 – ỨNG DỤNG HỌC BÁN GIÁM SÁT VÀO BÀI TOÁN KHAI
PHÁ QUAN ĐIỂM ............................................................................................. 33
3.1. Tổng quát về hƣớng tiếp cận và giải quyết bài toán ........................... 33
3.2.

Lựa chọn dữ liệu .................................................................................. 34

3.2.1.
3.2.2.

Kho tài liệu MPQA2.0(Multi-Perspective Question Answering) 35
SentiWordNet ............................................................................... 39


Trang 3

3.3. Trích chọn đặc trƣng và xác định nhãn ............................................... 40
3.3.1. Đặc trƣng SentiWordNet Score (SS) ............................................ 40

3.3.2.

Đặc trƣng POS Statistics (PS) ...................................................... 41

3.3.3.

Đặc trƣng Word Count (WC) ....................................................... 44

3.3.4.

Đặc trƣng TFIDF .......................................................................... 45

3.3.5.
3.3.6.

Xác định nhãn về tính chủ quan (sự tồn tại cảm nghĩ) ................. 47
Xác định nhãn về tính phân cực cảm nghĩ .................................... 47

3.4.

Tiền xử lý dữ liệu ................................................................................ 48

3.5.

Chuẩn bị dữ liệu .................................................................................. 48

3.5.1.

Thống kê dữ liệu sau tiền xử lý .................................................... 49


3.5.2.

Các tiêu chí chuẩn bị dữ liệu ........................................................ 50

3.5.3. Các cách chọn dữ liệu ................................................................... 50
3.6. Huấn luyện, đánh giá ........................................................................... 53
3.6.1.

Thƣ viện LibSVM ......................................................................... 54

3.6.2.

Học có giám sát ............................................................................. 55

3.6.3.

Học bán giám sát Co-training ....................................................... 55

3.7.

Kết luận................................................................................................ 55

CHƢƠNG 4 – THỰC NGHIỆM ........................................................................ 56
4.1. Thực nghiệm 1 ..................................................................................... 56
4.2. Thực nghiệm 2 ..................................................................................... 57
4.3.

Thực nghiệm 3 ..................................................................................... 60

KẾT LUẬN ......................................................................................................... 62

5.1. Kết luận................................................................................................ 62
5.1.1.

Những kết quả chính đạt đƣợc ...................................................... 62

5.1.2. Nhƣợc điểm................................................................................... 62
5.2. Hƣớng phát triển .................................................................................. 62
5.2.1.

Khắc phục nhƣợc điểm ................................................................. 62

5.2.2.

Mở rộng, ứng dụng cho tiếng Việt................................................ 63

TÀI LIỆU THAM KHẢO ................................................................................... 64
PHỤ LỤC 1 ......................................................................................................... 65


TÓM TẮT LUẬN VĂN
MỞ ĐẦU
Ý kiến đánh giá của khách hàng, người dùng, cá nhân về
một sản phẩm, dịch vụ, chính sách hay một vấn đề nào đó tồn
tại với số lượng lớn trong kho lưu trữ của các công ty, trên
mạng internet. Đối với các công ty, việc khai thác lượng
thông tin này giúp họ hiểu rõ hơn về khách hàng, sản phẩm,
dịch vụ của mình. Với các tổ chức, chính phủ thì đây cũng là
một nguồn cung cấp thơng tin hữu ích hỗ trợ cho việc ra
quyết định, điều chỉnh chính sách.
Bên cạnh các thuật tốn học có giám sát, thì các thuật tốn

học bán giám sát cũng là một hướng nghiên cứu có nhiều ứng
dụng trong thực tế. Đề tài này hướng tới tìm hiểu một thuật
tốn học cộng tác - một trong các thuật toán học bán giám sát
- và ứng dụng vào bài toán khai phá quan điểm. Do đặc điểm
chỉ cần lượng nhỏ dữ liệu đã được gắn nhãn cùng với lượng
lớn dữ liệu chưa được gắn nhãn làm dữ liệu huấn luyện. Điều
này giúp cho việc thu thập, gắn nhãn cho tập dữ liệu huấn
luyện ít tốn kém hơn.
Những nghiên cứu, luận văn liên quan đến phân tích tính
chủ quan và phân tích cảm nghĩ ở nhiều các mức khác nhau
cũng như liên quan đến kỹ thuật Co-training cũng đã xuất
hiện nhiều. Tuy nhiên việc kết hợp chúng lại với nhau, dùng
kỹ thuật Co-training vào phân tích tính chủ quan và phân tích
cảm nghĩ, thì chưa được phổ biến nhiều qua các bài báo, bằng
cả tiếng Việt và tiếng Anh, được công khai trên mạng. Ngồi
ra việc phân tích ở mức câu cũng là một trở ngại so với ở mức
tài liệu [5].
Đề tài luận văn này định hướng giải quyết bài toán phân
lớp các câu cảm nghĩ như sau: Cho một tập văn bản gồm
nhiều câu văn tiếng Anh. Phân lớp xem câu nào là câu mô tả


cảm nghĩ, câu nào không. Đối với những câu mô tả cảm nghĩ,
dùng bộ phân lớp phân cực để xác định đó là câu mơ tả cảm
nghĩ tích cực, tiêu cực hay trung lập. Trong đó, các bộ phân
lớp được xây dựng dựa trên kỹ thuật Co-training.
Trên cơ sở định hướng đó, nội dung trình bày báo cáo
luận văn bao gồm: (1) lý do, mục tiêu của đề tài và các đề tài
nghiên cứu liên quan – Chương 1; (2) trình bày các kiến thức
cơ sở liên quan – Chương 2; (3) cách tiếp cận và giải quyết

bài toán – Chương 3; (4) thực nghiệm và các kết quả Chương 4; (5) kết luận và hướng phát triển của đề tài.


CHƢƠNG 1 – GIỚI THIỆU
1.1. Lý do chọn đề tài
Khai phá dữ liệu (KPDL) là một chuyên ngành mới, thu
hút được nhiều nghiên cứu trong thời gian gần đây. Hướng
tiếp cận và giải quyết vấn đề dựa trên KPDL là hoàn toàn
khác so với cách xử lý Cơ sở dữ liệu (CSDL) truyền thống.
KPDL có thể đưa ra kết quả là những tri thức tiềm ẩn trong
tập dữ liệu mà các xử lý truyền thống như trước đây không
thể truy vấn được.
Dữ liệu dạng text là dạng dữ liệu tự nhiên và chiếm tỉ lệ
nhiều nhất trong các dạng dữ liệu mà con người tạo ra. Dữ
liệu text thường ẩn chứa rất nhiều tri thức có giá trị mà con
người tạo ra nhằm chia sẻ với mọi người về các kinh nghiệm
đã trãi qua. Do đó, mỗi khi cần đưa ra một quyết định gì,
chúng ta thường tham khảo đến những kinh nghiệm của
người đi trước bằng cách tìm kiếm trên Internet. Với các cơng
cụ Khai phá quan điểm, thì việc trích xuất những tri thức này
sẽ được thực hiện một cách tự động và có hệ thống. Giúp
chúng ta nắm bắt được các khía cạnh liên quan đến quan điểm
của cơng chúng về một vấn đề nào đó cần quan tâm. Từ đó
giúp cho việc ra quyết định có cơ sở vững chắc.
1.2. Mục tiêu, phạm vi nghiên cứu của đề tài
Đề tài luận văn thạc sỹ này được định hướng giải bài toán
khai phá quan điểm mức câu (tiếng Anh) bằng một thuật toán
học bán giám sát (Co-training). Bài toán khai phá quan điểm
trong phạm vi luận văn này gồm hai bài toán phân lớp con:
(1) phân lớp sự tồn tại của cảm nghĩ trong câu; (2) phân lớp

tính phân cực của cảm nghĩ trong câu. Dữ liệu được sử dụng
làm dữ liệu huấn luyện, đánh giá được trích chọn từ kho dữ
liệu MPQA2.0. Thuật tốn phân lớp cơ sở được chọn là thuật
toán SVM.


Để đạt được mục tiêu trên, nghiên cứu sẽ được tiến hành
qua các bước: tìm hiểu về kho dữ liệu MPQA2.0; nghiên cứu
các đặc trưng câu và cách trích xuất; các bước tiền xử lý và
chuẩn bị dữ liệu cho phân lớp, cài đặc hai bộ phân lớp con
riêng lẻ, hai bộ phân lớp con dựa trên Co-training với các
nhãn phân lớp tương ứng là nhãn về sự tồn tại cảm nghĩ và
nhãn về tính phân cực cảm nghĩ ở mức câu; cuối cùng thực
hiện huấn luyện và đánh giá trên cùng các tập huấn luyện và
đánh giá; tổng hợp các kết quả và đánh giá. Những nội dung
này được cấu trúc trong các chương kế tiếp như sau: (1)
Chương 2 trình bày các kiến thức cơ sở liên quan đến khai
phá quan điểm; (2) cách tiếp cận và giải quyết bài toán –
Chương 3; (4) thực nghiệm và các kết quả - Chương 4; (5) kết
luận và hướng phát triển của đề tài được nêu trong Chương 5.


CHƢƠNG 2 – KHAI PHÁ QUAN ĐIỂM VÀ ỨNG
DỤNG
2.1. Khai phá quan điểm – Opinion mining
2.1.1. Các khái niệm liên quan
“Quan điểm” có nhiều định nghĩa trong các từ điển khác
nhau. Tuy nhiên, chung lại có thể hiểu là cảm nhận/suy nghĩ
của con người về một đối tượng/sự vật nào đó nào đó. Và cần
phân biệt quan điểm với sự thật vì hai khái niệm này trái

ngược nhau.
Trong lĩnh vực Khai phá quan điểm, quan điểm có thể
được định nghĩa là: một cách nhìn nhận, thái độ, sự đánh giá
về một đối tượng từ một chủ thể giữ quan điểm. Trong đó:
chủ thể giữ quan điểm (Opinion Holder) có thể là người hoặc
tổ chức đưa ra quan điểm; đối tượng (Object/Target) hay mục
tiêu của quan điểm là đối tượng mà quan điểm nhắm tới có
thể là một sản phẩm, chủ đề, người, sự kiện hoặc tổ chức.
Dựa trên sự tồn tại cảm nghĩ mà một quan điểm có thể
được chia làm 2 loại là khách quan và chủ quan. Nếu dựa trên
tính phân cực thì có 3 loại chính là tích cực, tiêu cực hay
trung lập. Trên thực tế thì tùy theo từng trường hợp cụ thể mà
có thể chia làm nhiều mức hơn.
2.1.2. Khai phá quan điểm
Khai phá quan điểm, một dạng của xử lý ngôn ngữ tự
nhiên, là một lĩnh vực nghiên cứu mới nhằm trích rút thơng
tin về cảm nghĩ từ các nguồn dữ liệu text. Cụ thể, Khai phá
quan điểm bao gồm phân tích tính chủ quan và tính cảm nghĩ
trong văn bản (Subjectivity and Sentiment Analysis). Trong
đó, phân tích tính chủ quan hướng đến việc tự động nhận ra
nội dung nào là chủ quan, nội dung nào là khách quan. Phân
tích cảm nghĩ liên quan đến một số xử lý chính như: (1) xác
định tính phân cực (polarity) của nội dung cảm nghĩ, (2) xác


định đối tượng của cảm nghĩ, (3) xác định chủ thể đưa ra cảm
nghĩ. [3]
2.1.3. Động lực và Ứng dụng của Khai phá quan điểm
Quan điểm đóng một vai trị rất quan trọng trong các tiến
trình ra quyết định. Khi cần đưa ra một lựa chọn, con người

thường có xu hướng lắng nghe các ý kiến của người khác
trước tiên. Đặc biệt hơn, khi các quyết định có liên quan đến
những tài nguyên có giá trị, như là thời gian hay tiền của,
chúng ta rất coi trọng việc dựa vào những kinh nghiệm của
người khác. Những năm trước đây, nguồn tham khảo kinh
nghiệm chủ yếu của chúng ta là từ bạn bè, người thân và,
trong một số trường hợp, là các tạp chí hay website chuyên
ngành.
2.1.4. Thách thức của Khai phá quan điểm
Mặc dù việc nghiên lĩnh vực này là cần thiết, nhưng do là
lĩnh vực mới nên nó có nhiều thách thức. Hầu hết những khó
khăn này bắt nguồn từ sự giàu đẹp của ngôn ngữ mà con
người sử dụng. Hơn nữa, tùy thuộc vào trình độ kiến thức,
nghề nghiệp, tuổi tác… mà con người có cách hành văn khác
nhau.
Một từ có thể được xem là mang cảm nghĩ tích cực trong
một tình huống này có thể được xem là tiêu cực trong một
tình huống khác. Lấy ví dụ như từ "long" trong tiếng Anh, có
nghĩa là “dài” hoặc “lâu”. Nếu một khác hàng nhận xét rằng
thời gian sử dụng pin là “long”, thì đây là một ý kiến tích cực.
Ngược lại, nếu khách hàng cho rằng thời gian khởi động của
máy là “long”, thì ý kiến này là tiêu cực. Sự khác biệt trong
ngữ cảnh này dẫn đến hệ thống khai phá quan điểm cần phải
được chuyên biệt hóa.
Một khó khăn nữa là, trong khai phá quan điểm sự khác
biệt nhỏ nhất về từ ngữ giữa hai mẫu văn bản cũng có thể dẫn
đến khác biệt lớn về ngữ nghĩa. Ví dụ, giữa hai câu khác nhau


ở một từ “not”, nghĩa là “khơng”, sẽ có ý nghĩa hoàn toàn trái

ngược nhau.
Cuối cùng, trong một bài viết thường tồn tại các phát biểu
mâu thuẫn nhau. Hầu hết các đánh giá bao gồm cả ý kiến tích
cực lẫn ý kiến tiêu cực, điều này có thể xử lý được bằng cách
phân tích từng câu một. Tuy nhiên, đối với những câu dạng
văn nói ngắn gọn hoặc khơng theo quy phạm, thì người nói
thường lồng nhiều ý kiến vào trong một câu.
2.1.5. Các mức văn bản trong bài toán khai phá quan
điểm
Khai phá quan điểm liên quan đến thái độ, ý kiến và trạng
thái cảm xúc của người nói hoặc người viết nên các phương
thức phân tích cũng khá phứt tạp. Định lượng cảm nghĩ là
một việc khó.
Nội dung ở tất cả các mức text đều có thể chứa một mức
độ cảm xúc nào đó. Nên Khai phá quan điểm cũng có thể
thực hiện ở các mức nội dung khác nhau. Có thể thực hiện
phân tích cảm nghĩ ở mức tài liệu, mức đoạn văn, mức câu,
mức cụm từ hoặc kết hợp những mức này với nhau.
2.2. Các thuật tốn học có giám sát
2.2.1. Học máy - Machine Learning
Trong [6], Tom Mitchell có định nghĩa về “Learning” và
“Machine Learning” như sau:


Machine Learning – Học máy: “Machine Learning =
Study of algorithms that improve their performance P at some
task T with experience E”. Nghĩa là, “Học máy = Nghiên cứu
các thuật toán nâng cao hiệu năng P của chúng khi thực hiện
nhiệm vụ T bằng kinh nghiệm E”. Hay nói cách khác là,


“Một chương trình máy tính được cho là học từ kinh nghiệm
E đối với một lớp các tác vụ T và phép đo hiệu năng P, nếu
hiệu năng của nó trên các tác vụ trong T, khi đo bằng P,
được nâng cao nhờ vào kinh nghiệm E”.
Hình 2.1. Minh họa về “Máy học”


Đến nay, học máy đã được nghiên cứu theo các hướng:
học khơng giám sát (unsupervised learning), ví dụ như gom
cụm, phát hiện biên, trong đó tất cả mẫu huấn luyện khơng
được gắn nhãn; học có giám sát (supervised learning), như là

phân lớp, hồi quy, trong đó tất cả dữ liệu đều có nhãn. Học
bán giám sát (Semi-supervised learning - SSL) nằm giữa hai
loại trên.
Hình 2.2. Minh họa các hướng nghiên cứu học máy.
2.2.2. Học có giám sát - Supervised Learning
Học có giám sát hay cịn được gọi là Phân lớp, như đã nêu
trong phần 2.1.4, là tiến trình khám phá các luật phân loại hay
đặc trưng cho các tập dữ liệu đã được xếp lớp. Mục tiêu là
xây dựng được mơ hình trong đó giá trị của một biến có thể
dự đoán từ các giá trị của các biến khác từ một tập dữ liệu đã
biết tất cả biến.
2.2.3. Thuật tốn học có giám sát Support Vector
Machines (SVM)
Thuật tốn Support Vector Machines (máy vector hỗ trợ)
được Corters và Vapnik giới thiệu vào năm 1995. SVM rất
hiệu quả để giải quyết các bài tốn với dữ liệu có số chiều lớn



như dữ liệu vector biểu diễn văn bản. Thuật toán SVM ban
đầu chỉ được thiết kế để giải quyết bài toán phân lớp nhị phân
tức là số lớp hạn chế ở mức hai lớp. SVM được đánh giá là bộ
phân lớp chính xác nhất cho bài tốn phân lớp văn bản [7].
Ngoài ra SVM giải quyết vấn đề overfitting (dữ liệu có nhiễu
và tách rời nhóm hoặc dữ liệu huấn luyện q ít) rất tốt.
2.2.4. Các thuật tốn học có giám sát khác
Bên cạnh SVM, còn một số phương pháp khác như: Thuật
tốn Nạve Bayes, thuật tốn cây quyết định, thuật toán K
người láng giềng gần nhất.
2.3. Các thuật toán học bán giám sát
Thuật toán học bán giám sát đầu tiên, Co-training, được
Tom Mitchell đưa ra vào năm 1998 trong [4]. Trong đó, tác
giả đã chứng minh tính hiệu quả của nó bằng thực nghiệm
trên bài tốn phân lớp trang Web của trường đại học dựa trên
hai khung nhìn là từ vựng trên bản thân trang và từ vựng trên
các trang có liên kết chỉ đến nó. Trong [4], ở mỗi lần lặp huấn
luyện - dự đoán – điều chỉnh tập huấn luyện, thì những mẫu
được dự đốn tốt nhất của cả hai bộ phân lớp cơ sở đều được
loại khỏi tập khơng nhãn và thêm vào tập có nhãn rồi quay lại
bước lặp tiếp theo cho đến khi tập khơng nhãn rỗng.
Từ đó đến nay, đã có nhiều thuật toán dẫn xuất từ thuật
toán của Tom Mitchell. Nếu phân loại dựa trên số lượng
khung nhìn và số lượng thuật tốn cơ sở cộng tác với nhau
trong Co-training thì có các tên gọi như: thuật toán học cộng
tác dựa trên sự phân chi khung nhìn [1]; thuật tốn học cộng
tác dựa trên sự cộng tác của các giải thuật phân lớp khác nhau
[1]. Khi căn cứ vào sự cộng tác giữa hai thuật tốn cơ sở để
phân biệt thì ta có các tên gọi như: học bán giám sát dựa trên
sự đồng thuận (agreement-based semi-supervised learning);

học bán giám sát dựa trên sự không đồng thuận
(disagreement-based semi-supervised learning).


2.3.1. Thuật toán Co-training
Một trong những kỹ thuật học bán giám sát tiêu biểu là
Co-training, trong đó hai (hoặc nhiều hơn) bộ học được huấn
luyện trên một tập dữ liệu mẫu, nhưng các bộ học được huấn
luyện trên các tập thuộc tính độc lập nhau.
Cho 𝑋 1 và 𝑋 2 là hai “khung nhìn” trên mỗi mẫu. Gọi 𝐷 là
phân bố trên 𝑋, 𝐶 1 và 𝐶 2 là các lớp khái niệm được định
nghĩa trên 𝑋 1 và 𝑋 2 tương ứng. Giả sử tất cả nhãn của tập
mẫu có xác suất khác khơng trên 𝐷 đều tn theo hàm mục
tiêu 𝑓 1 ∈ 𝐶 1 , và cũng đúng với hàm 𝑓 2 ∈ 𝐶 2 .
Gọi 𝑌 là khơng gian nhãn.
Có tập dữ liệu mẫu huấn luyện là 𝐿 ∪ 𝑈, với 𝐿 =
𝑥11 , 𝑥12 , 𝑦1 … 𝑥𝑙1 , 𝑥𝑙2 , 𝑦𝑙 ⊂ X × Y là tập mẫu có nhãn
1
2
1
2
và 𝑈 = 𝑥𝑙+1
, 𝑥𝑙+1
… 𝑥𝑙+𝑢
, 𝑥𝑙+𝑢
⊂ X là tập khơng nhãn.
Thơng thường thì 𝑙 ≪ 𝑢.
Mục tiêu của Co-training là từ tập có nhãn 𝐿 ban đầu,
từng bước học và gán nhãn cho các mẫu trong 𝑈, cuối cùng
Cho trước:

* tham số p, n
* tập L gồm lượng nhỏ các mẫu huấn luyện có nhãn
* tập U gồm lượng lớn các mẫu huấn luyện chưa có nhãn
Thuật tốn:
1. while U is not empty do
2.
Dùng L để huấn luyện bộ phân lớp C1 theo đặc trưng X1
3.
Dùng L để huấn luyện bộ phân lớp C2 theo đặc trưng X2
4.
for each Ci do
5.
Ci dự đoán nhãn cho tập U dựa trên Xi
6.
Chọn (p,n) mẫu được dự đoán tin cậy nhất từ U cho vào E
7.
E được loại khỏi U và bổ sung vào L
8.
end for
9. end while


thu được các hàm mục tiêu 𝑓 1 trên 𝑋 1 và 𝑓 2 trên 𝑋 2 . Chi tiết
thuật toán với phân lớp nhị phân như sau:
2.3.2. Thuật toán bán giám sát cực đại EM đại phương
Thuật toán học bán giám sát cực đại kỳ vọng địa phương
thuộc loại thuật tốn trong mơ hình sinh. Mơ hình hoạt động
dựa trên giả thiết Bayes P(x, y) = P(y) * P(x|y). Với số lượng
nhiều dữ liệu chưa nhãn cho P(x|y) mô hình đồng nhất, tài
liệu được phân thành các thành phần mà trong trường hợp lý

tưởng (trong mơ hình “đồng nhất”) mọi đối tượng trong một
thành phần có cùng nhãn, vì vậy, chỉ cần biết nhãn của một
đối tượng nào đó trong thành phần là kết luận được nhãn cho
toàn bộ các đối tượng khác trong thành phần đó.
2.3.3. Thuật tốn Self-training
Là kỹ thuật phổ biến trong học bán giám sát và thường
được áp dụng cho các bài toán xử lý ngôn ngữ tự nhiên.
2.4. Phƣơng pháp đánh giá bộ phân lớp
Hai độ đo được dùng phổ biến để đánh giá bộ phân lớp là
độ hồi tưởng (recall) ρ và độ chính xác (precision) π.
Ngồi ra, có một phương pháp đánh giá đơn giản hơn
thơng qua hai thơng số độ chính xác (Accuracy) và tỉ lệ lỗi
(Error rate) như sau:
𝑆ố𝑚ẫ
𝑢 đư
𝑐 𝑑ựđ𝑜á𝑛 đú𝑛𝑔

Độ𝑐𝑕í𝑛𝑕 𝑥á𝑐 =
𝑇ổ
𝑛𝑔 𝑠ố𝑚ẫ
𝑢 𝑘𝑖ể
𝑚 𝑡𝑟𝑎
𝑇ỉ𝑙ệ𝑙ỗ
𝑖=

𝑆ố𝑚ẫ
𝑢 đư
𝑐 𝑑ựđ𝑜á𝑛 𝑠𝑎𝑖

𝑇ổ

𝑛𝑔 𝑠ố𝑚ẫ
𝑢 𝑘𝑖ể
𝑚 𝑡𝑟𝑎

2.5. Kết luận
Chương 2 đã trình bày các kiến thức liên quan đến khai
phá quan điểm, làm nền tảng cho việc xây dựng hệ thống khai
phá quan điểm sẽ được trình bày trong Chương 3.


Mơ hình hệ thống và bước xử lý trong hệ thống khai phá
quan điểm sẽ được xây dựng tuân thủ theo quy trình Phát hiện
tri thức trong CSDL tổng quát.
Về thuật tốn phân lớp, mục 2.2. đã trình bày chi tiết các
thuật tốn. Trong đó nổi lên là thuật tốn SVM có những ưu
điểm vượt trội khi áp dụng vào khai phá quan điểm. Do đó
thuật tốn SVM sẽ được chọn để cài đặt cho các bộ phân lớp
dựa trên học có giám sát cũng như bán giám sát.
Ngồi ra, có hai hướng tiếp cận Co-training như trình bày
trong mục 2.3.1. Việc lựa chọn hướng tiếp cận nào là tùy
thuộc vào việc phân chia tập thuộc tính. Sau khi lựa chọn và
phân tích các thuộc tính (sẽ nêu trong mục 3.4), hướng tiếp
cận cụ thể sẽ được lựa chọn.


CHƢƠNG 3 – ỨNG DỤNG HỌC BÁN GIÁM SÁT VÀO
BÀI TOÁN KHAI PHÁ QUAN ĐIỂM
3.1. Tổng quát về hƣớng tiếp cận và giải quyết bài toán
Mục tiêu của đề tài là xây dựng được hai bộ phân lớp Cotraining trên nhãn về tính chủ quan (bộ phân lớp nhị phân) và
nhãn về tính phân cực cảm nghĩ (bộ phân lớp đa lớp) sao cho

chất lượng của chúng tốt hơn so với cách tiếp cận học có
giám sát.
Mơ hình tổng qt để giải quyết bài tốn như Hình 3.1.

Hình 3.1. Mơ hình minh họa các bước giải quyết bài tốn
3.2. Lựa chọn dữ liệu
Kập MPQA2.0 được chọn làm nguồn cho các tập DTrain và
DTest. Việc chọn MPQA2.0 là căn cứ trên lượng dữ liệu lớn
(gồm 692 tài liệu, 15.802 câu, 21 chủ đề được bố trí vào 5 tập
con khác nhau) và sơ đồ đánh dấu (Annotation Scheme, như
là agent, expressive-subjectivity, direct-subjective, objectivespeech-event, attitude, target, inside) cho phép xác định nhãn
chủ quan và nhãn phân cực cảm nghĩ ở mức câu một cách dễ
dàng.


3.2.1. Kho tài liệu MPQA2.0(Multi-Perspective Question
Answering)
Kho tài liệu MPQA2.0 gồm 692 tài liệu, 15.802 câu, 21
chủ đề được bố trí vào 5 tập con khác nhau. Chúng được thu
thập từ các bài báo và các tài liệu text khác nhau, được đánh
dấu thủ công ở mức câu và thành phần của câu về các ý kiến
và trạng thái cá nhân (như niềm tin, cảm xúc, cảm nghĩ, …).
Wiebe và các cộng sự có mơ tả một chiến lược đánh dấu tổng
qt; Wilson và các cộng sự có mơ tả các đánh dấu hướng
cảm nghĩ theo ngữ cảnh trong các nghiên cứu [8] và [9].
3.2.2. SentiWordNet
SentiWordNet là nguồn từ vựng được sử dụng nhiều trong
khai phá quan điểm. Trong đó, mỗi tập đồng nghĩa (synset)
trong WordNet được gán ba số đo cảm nghĩ, có giá trị từ 0
đến 1: số đo tích cực (Positive Score – Pos.Score), số đo tiêu

cực (Negative Score – Neg.Score), số đo khách quan
(Objective Score – Obj.Score). Các chỉ số này phản ảnh mức
độ đồng ý giữa các bộ phân lớp thành viên về nhãn phân cực

cảm nghĩ (tích cực, tiêu cực) đối với một từ (term), vì vậy
một từ (term) có thể có Pos.Score và Neg.Score khác không,
miễn là phù hợp với công thức: Pos.Score(term) +
Neg.Score(term) + Obj.Score(term) = 1.


Hình 3.3. Minh họa vị trí của một từ có tính cảm nghĩ tiêu
cực trong SentiWordNet.
3.3. Trích chọn đặc trƣng và xác định nhãn
3.3.1. Đặc trưng SentiWordNet Score (SS)
Trong cách biểu diễn câu dưới dạng vector đặc trưng SS,
mỗi câu sẽ được biểu diễn dưới dạng 1 vector có các thành
phần là các bộ 3 giá trị SentiWordNet của từng từ có độ dài
lớn hơn 1 ký tự trong câu.
Tùy thuộc vào việc sắp xếp thứ tự các bộ 3 (hay thứ tự các
từ trong câu) này trong vector mà ta có 2 vector SS như sau:
- Cách 1 (SS2): sắp xếp theo thứ tự xuất hiện của các
từ trong câu.
- Cách 2 (SS3): sắp xếp các từ trong câu theo thứ tự từ
điển.
3.3.2. Đặc trưng POS Statistics (PS)
Thống kê từ loại xuất hiện trong câu, mỗi câu sẽ được
biểu diễn dưới dạng 1 vector gồm các thành phần là tần số
xuất hiện của từng từ loại theo thứ tự liệt kê trong Vector_PS.
Vector_PS = ('NN', 'DT‟, „NNP‟, „IN‟, „JJ‟, „NNS‟, „,‟,
„.‟, „VB‟, „VBD‟, „VBN‟, „RB‟, „CC‟, „TO‟, „PRP‟, „VBZ‟,

„VBG‟, „CD‟, „VBP‟, „MD‟, „PRP$‟, „WDT‟, „:‟, „NNPS‟, „(„,
„)‟, „WP‟, „WRB‟, „JJR‟, „EX‟, „JJS‟, „RBR‟, „RBS‟, „FW‟,
„WP$‟, „UH')
3.3.3. Đặc trưng Word Count (WC)
Vector đặc trưng WC được tạo thành bằng cách thống kê
số lần xuất hiện của từng từ trong câu sau khi loại bỏ từ dừng.
Thứ tự sắp xếp các thành phần của vector theo thứ tự từ điển
– gọi là vector WC2.
Cách trích xuất vector đặc trưng WC2 của câu s như sau:
Bước 1- Loại bỏ tất cả các từ dừng khỏi s; Bước 2 - Sắp xếp
các từ trong s theo thứ tự từ điển; Bước 3 - Các thành phần


của vector cần xác định là thống kê số lần xuất hiện của từng
từ trong s theo thứ tự đã được sắp xếp.
3.3.4. Đặc trưng TFIDF
Đặc trưng TFIDF liên quan đến việc đếm số từ trong một
câu cũng như trong tất cả các câu trong tập câu đang xét (tập
huấn luyện hoặc tập đánh giá) và thống kê số lần xuất hiện
của một từ trong một câu cũng như trong tất cả các câu.
Cơng thức tính TFIDF của một từ term trong câu
sentence như sau:
TFIDF(term, sentence) = TF(term, sentence) * IDF(term)
TF = Số lần xuất hiện của một từ trong một câu / Tổng số
từ của một câu.
IDF = Tổng số câu / Số câu chứa một từ.
3.3.5. Xác định nhãn về tính chủ quan (sự tồn tại cảm
nghĩ)
Để xác định tính chủ quan của một câu, ta xác định tất cả
các đánh dấu nằm trong phạm vi câu đó. Các đánh dấu trong

phạm vi một câu có thể khác nhau về tính chủ quan giữa các
cụm từ. Số lượng cụm từ được đánh dấu chủ quan có thể khác
nhau giữa các câu. Tuy nhiên, theo Wiebe, Wilson, Cardie
(2005) thì việc xác định tính chủ quan của câu dựa trên sơ đồ
đánh dấu này được thực hiện khá chính xác nếu theo định
nghĩa sau.
Một câu được gọi là chủ quan (câu có chứa cảm nghĩ)
nếu thỏa mãn i HOẶC ii:
i. Câu chứa một đánh dấu "GATE_directsubjective" CĨ thuộc tính intensity KHƠNG
THUỘC ['low', 'neutral'] VÀ KHƠNG CĨ thuộc
tính insubstantial.
ii. Câu chứa một đánh dấu "GATE_expressivesubjectivity" CĨ thuộc tính intensity KHƠNG
THUỘC ['low'].


Ngược lại, câu được xem là câu khách quan.

3.3.6. Xác định nhãn về tính phân cực cảm nghĩ
Việc xác định tính phân cực cảm nghĩ của một câu là phân
loại câu thuộc 1 trong 3 loại: Tích cực (POS), Tiêu cực
(NEG) và Trung lập (NEU).
Tính phân cực cảm nghĩ của một câu được xác định dựa
trên tập đánh dấu của câu theo luật sau [3]:
𝑃𝑂𝑆, 𝑚 𝑌𝑠 > 0
𝐻(𝑌𝑠 ) = 𝑁𝐸𝐺, 𝑚 𝑌𝑠 < 0
𝑁𝐸𝑈, 𝑚 𝑌𝑠 = 0
𝑚 𝑌𝑠 = λ𝑐𝑜𝑢𝑛𝑡 𝑃𝑂𝑆, 𝑌𝑠 − 1 − λ 𝑐𝑜𝑢𝑛𝑡 𝑁𝐸𝐺, 𝑌𝑠
𝑌𝑠 là tập đánh dấu của tất cả các cụm từ trong phạm vi câu
s.
Hàm 𝑐𝑜𝑢𝑛𝑡 𝑙, 𝐿 đếm số lần xuất hiện của nhãn l trong

tập nhãn L.
Tham số λ được thiết lập giá trị 0,5 vì giả định rằng tất cả
các câu được đưa vào bộ phân lớp phân cực cảm nghĩ đều là
câu chứa cảm nghĩ (chủ quan).
3.4. Tiền xử lý dữ liệu
Tiền xử lý là bước xử lý đầu tiên làm tiền đề cho các bước
xử lý kế tiếp. Ở bước này, dữ liệu từ kho MPQA2.0 được truy
xuất và xử lý theo từng tập con tương ứng. Kết quả của bước
này là các file câu/đặc trưng/nhãn theo từng tập con. Mơ hình
xử lý của bước tiền xử lý được mơ tả trong Hình 3.4.


Hình 3.4. Tiền xử lý dữ liệu
3.5. Chuẩn bị dữ liệu
Chuẩn bị dữ liệu là tổ chức dữ liệu dùng cho từng thực
nghiệm theo định dạng của thư viện LibSVM (nêu trong mục
3.6.1).

Hình 3.5. Chuẩn bị dữ liệu
3.5.1. Các tiêu chí chuẩn bị dữ liệu
Tùy vào từng mục tiêu con của bài toán mà cần đưa ra các
kịch bản thực nghiệm cụ thể. Các tiêu chí khi chuẩn bị dữ liệu
cho thực nghiệm bao gồm: tương quan số lượng câu của tập
huấn luyện và tập đánh giá; sự độc lập về chủ đề và độc lập
về tài liệu giữa tập huấn luyện và tập đánh giá; ảnh hưởng của
số lượng từ khóa trong câu thuộc tập huấn luyện có nhãn lên
chất lượng phân lớp; ảnh hưởng của tỉ lệ tập huấn luyện có
nhãn/khơng nhãn lên chất lượng phân lớp.



3.5.2. Các cách chọn dữ liệu
i. Thực nghiệm 1 (chỉ học có giám sát): đánh giá đặc
trưng, tham số phân lớp SVM
Cố định tập dữ liệu huấn luyện/đánh giá, thay đổi các
tham số phân lớp SVM. Thực nghiệm trên từng đặc trưng nêu
trong các mục 3.3.1 đến 3.3.3. Đặc trưng TFIDF khơng được
chọn vì với lượng câu huấn luyện/đánh giá lớn, thì vector đặc
trưng có số chiều lớn, làm cho kích thước file huấn
luyện/đánh giá rất lớn.
Tập ORI được chọn làm dữ liệu huấn luyện do kích thước
lớn (11.111 câu), tập ULA có kích thước nhỏ hơn (2.292 câu)
nên được chọn làm tập đánh giá. Hơn nữa 2 tập này hoàn toàn
độc lập nhau về chủ đề cũng như tài liệu.
Mục đích của thực nghiệm này là nhằm tìm ra 2 đặc trưng
và các tham số phân lớp SVM tốt nhất cho phân lớp tính chủ
quan/tính phân cực cảm nghĩ. Hai đặc trưng cho độ chính xác
cao nhất sẽ được chọn làm 2 khung nhìn cố định, các tham số
phân lớp SVM cho độ chính xác cao nhất cũng sẽ được thiết
lập cho các bộ phân lớp sau này.
ii. Thực nghiệm 2 (học có giám sát/bán giám sát): xem
xét ảnh hưởng của số lượng từ khóa tối thiểu của
câu trong tập huấn luyện có nhãn đến chất lượng
học bán giám sát.
Cố định các tham số phân lớp SVM, tham số Co-training,
hai khung nhìn và tập đánh giá, thay đổi số lượng từ khóa câu
được chọn vào tập huấn luyện có nhãn.
iii. Thực nghiệm 3 (học có giám sát/bán giám sát):
xem xét ảnh hưởng của tỉ lệ chọn tập huấn luyện có
nhãn/khơng nhãn đến chất lượng học bán giám sát.
Cố định các tham số phân lớp SVM, tham số Co-training,

hai khung nhìn. thay đổi tỉ lệ chọn tập huấn luyện có
nhãn/khơng nhãn.


Để thực nghiệm cho kết quả khách quan nhất, với mỗi tỉ lệ
như trong Bảng 3.12, sẽ được tiến hành thực nghiệm 5 lần.
Kết quả cuối cùng cho một tỉ lệ là kết quả trung bình của 5
lần chạy đó.
3.6. Huấn luyện, đánh giá
Tùy theo thực nghiệm mà việc huấn luyện/đánh giá dựa
trên học có giám sát và học bán giám sát được thực hiện đơn
lẻ (chỉ học có giám sát trong Thực nghiệm 1) hoặc song song
(cả học có giám sát lẫn học bán giám sát trong Thực nghiệm 2
và 3). Hình 3.6 sẽ cho cài nhìn tổng quan về bước huấn luyện,
đánh giá.

Hình 3.6. Huấn luyện, đánh giá

3.7. Kết luận
Chương 3 đã trình bày từ mơ hình tổng qt giải quyết bài
tốn. Trong đó, mỗi bước có mục tiêu riêng, nên cũng cần các
thực nghiệm riêng. Các mục từ 3.2 đến 3.6 trình bày chi tiết
các bước khai phá dữ liệu đối với mỗi mục tiêu (thực nghiệm)


×