Tải bản đầy đủ (.pdf) (12 trang)

Phát hiện văn bản chủ quan trong khai phá quan điểm

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.97 MB, 12 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----*-----

NGUYỄN NGỌC TRƯỜNG

PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG
KHAI PHÁ QUAN ĐIỂM

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----*-----

NGUYỄN NGỌC TRƯỜNG

PHÁT HIỆN VĂN BẢN CHỦ QUAN TRONG
KHAI PHÁ QUAN ĐIỂM
Ngành: Công Nghệ Thông Tin
Chuyên ngành: Kỹ Thuật Phần Mềm
Mã số: 60.48.10
LUẬN VĂN THẠC SĨ
CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS LÊ ANH CƯỜNG

Hà Nội - 2015




NHẬN XÉT CỦA CÁN BỘ HƯỚNG DẪN
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
…………………………………………………………………………
………………………………………………………………………….


LỜI CÁM ƠN
Để hoàn thành luận văn “Phát hiện văn bản chủ quan trong khai phá quan
điểm” này, tôi đã nhận được sự hướng dẫn và giúp đỡ nhiệt tình của các Thầy Cô, các
Anh Chị và các Bạn.
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành đến Ban lãnh đạo cùng quý
Thầy Cô trong khoa Công nghệ thông tin - Trường Đại Học Công Nghệ, Đại Học
Quốc Gia Hà Nội đã tận tình dạy dỗ, truyền đạt kiến thức, kinh nghiệm quý báu và tạo

điều kiện thuận lợi cho tôi trong suốt thời gian học tập tại trường và thực hiện đề tài.
Đặc biệt, tôi xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo hướng dẫn, PGS TS.
Lê Anh Cường, người đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình thực
hiện đề tài.
Tôi cũng xin gửi lời cảm ơn tới nghiên cứu sinh Nguyễn Thị Xuân Hương và
các Anh Chị, các Bạn sinh viên trong nhóm nghiên cứu đã hỗ trợ tôi rất nhiều trong
quá trình thực hiện luận văn này. Tôi xin gửi lời cảm ơn tới các Bạn trong khóa K19
đã ủng hộ và khích lệ tôi trong suốt thời gian học tập tại trường.
Tôi xin trân trọng gửi đến Gia đình, Bạn bè và Người thân những tình cảm tốt
đẹp nhất đã giúp đỡ động viên tôi trong suốt quá trình học tập cũng như thực hiện và
hoàn thành luận văn.
Mặc dù tôi đã cố gắng để hoàn thành luận văn một cách tốt nhất nhưng có thể
sẽ không tránh khỏi thiếu sót. Kính mong nhận được sự cảm thông và chỉ bảo của quý
Thầy Cô, các Anh Chị và các Bạn.

Hà Nội, ngày 01/11/2015
Học viên

Nguyễn Ngọc Trường


TÓM TẮT NỘI DUNG
Trong những năm gần đây, nghiên cứu về khai phá quản điểm đã nhận được sự
quan tâm rộng rãi của các nhà nghiên cứu, các công ty hàng đầu về lĩnh vực công nghệ
thông tin như: Yahoo, Google, Microsoft, IBM…, các hội nghị lớn về trích chọn thông
tin, xử lý ngôn ngữ tự nhiên (TREC, CLEF, ACL,..) và đã đạt được những kết quả hữu
ích và mang lại lợi ích to lớn về cả mặt khoa học lẫn công nghiệp. Tuy nhiên, đối với
ngôn ngữ Tiếng Việt, các nghiên cứu về vấn đề này còn khá khiêm tốn và có rất nhiều
các bài toán đặt ra cần được tiếp tục nghiên cứu và phát triển.
Luận văn “Phát hiện văn bản chủ quan trong khai phá quan điểm” tập trung

vào khảo sát các phương pháp đã được áp dụng cho các ngôn ngữ khác trên thế giới,
đặc biệt tập trung nghiên cứu để áp dụng cho ngôn ngữ tiếng Việt. Trên cơ sở áp dụng
các nghiên cứu đó và các công cụ xử lý ngôn ngữ tiếng Việt, luận văn tiến hành thực
nghiệm việc phân lớp văn bản chủ quan - khách quan cho các bình luận từ các trang
bằng tiếng Việt. Chúng tôi đã sử dụng một số đặc trưng để phân loại văn bản chủ quan
như bag of word, trích chọn các động từ và tính từ và áp dụng các phương pháp học
máy thống kê cho bài toán này. Các kết quả ban đầu đạt được khá khả quan.
Nội dung luận văn được trình bày trong 4 chương như sau:
Chương 1 – Giới thiệu chung về khai phá quan điểm. Chương này giới thiệu
những nội dung cơ bản nhất, cung cấp một cái nhìn khái quát về khai phá quan điểm,
đồng thời cũng mô tả một số khái niệm cơ bản, cách tiếp cận, ý nghĩa và một số bài
toán điển hình đặt ra trong khai phá quan điểm.
Chương 2 – Các nghiên cứu và phương pháp giải quyết. Chương này giới
thiệu chung về một số tiếp cận phân lớp văn bản đã được đề xuất áp dụng cho bài toán
khai phá quan điểm.
Chương 3 - Bài toán phát hiện văn bản chủ quan trong khai phá quan
điểm. Chương này mô tả chi tiết bài toán phát hiện văn bản chủ quan, một số nghiên
cứu hiện tại bao gồm cả các nghiên cứu trong tiếng Việt được áp dụng để giải quyết
bài toán.
Chương 4 - Thực nghiệm phân lớp trên hai miền dữ liệu sản phẩm và giá
xăng. Chương này môt tả thực nghiệm từ việc tiến hành thu thập dữ liệu, thực hiện
tiền xử lý dữ liệu; sau đó tiến hành trích chọn một số đặc trưng và phân lớp chủ quan
theo hai phương pháp Naive Bayes, SVM. Cuối cùng, tổng hợp và đánh giá kết quả
cho từng phương pháp.


Lời cam đoan
Tôi xin cam đoan luận văn với đề tài “Phát hiện văn bản chủ quan trong khai
phá quan điểm” là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả được trình
bày trong luận văn là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ

một công trình nào khác.
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan
ở trong nước và quốc tế.
Trong các nội dung được trình bày trong luận văn, tôi đã thể hiện rõ ràng và
chính xác những gì do tôi đóng góp.
Luận văn này được hoàn thành trong thời gian tôi làm Học viên tại Khoa Công
Nghệ Thông tin, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội.

Học viên

Nguyễn Ngọc Trường


MỤC LỤC
Chương 1: Giới thiệu chung về khai phá quan điểm ............................................................ 6
1.1. Tổng quan................................................................................................................... 6
1. .

kiện

act v quan điểm (Opinions) .................................................................. 9

1.3. Định nghĩa quan điểm ................................................................................................ 9
1.4. Một ố b i toán điển hình trong phân tích quan điểm.............................................. 11
1.5. Vai trò v các ứng dụng ........................................................................................... 15
1.6. Những khó khăn v thách thức trong khai phá quan điểm tiếng Việt ..................... 18
Chương : Bài toán phân lớp v phân tích quan điểm ....................................................... 20
.1. Các b i toán phân lớp ............................................................................................... 20
2.2. Phân lớp quan điểm .................................................................................................. 21
.3. Quá trình phân lớp ................................................................................................... 21

.4. Khái quát một ố phương pháp phân lớp văn bản ................................................... 22
.4.1. Phân lớp d a trên luật ........................................................................................ 22
.4. . Phân lớp

dụng các phương pháp học máy có giám át ................................. 23

.4.3. Phân lớp

dụng học máy không giám sát ....................................................... 34

.4.4. Phân lớp

dụng học máy bán giám át ........................................................... 35

2.5. Kết luận chung ......................................................................................................... 36
Chương 3: Phát hiện văn bản chủ quan trong khai phá quan điểm .................................... 37
3.1. Phân biệt chủ quan v khách quan ........................................................................... 37
3.1.1. Thông tin chủ quan ............................................................................................ 37
3.1.2. Thông tin khách quan ........................................................................................ 37
3. . B i toán «Xây d ng bộ phân lớp để phân lớp các văn bản v o một trong hai lớp chủ
quan hoặc khách quan» ................................................................................................... 39
3. .1. Phát biểu b i toán .............................................................................................. 39
3. . . Mô tả b i toán .................................................................................................... 39
3.3. Trích chọn đặc trưng ................................................................................................ 39
3.3.1. Đặc trưng v cách biểu diễn .............................................................................. 39
3.3. . Vấn đề trích chọn đặc trưng .............................................................................. 46
3.3.3. Phương pháp trích chọn đặc trưng .................................................................... 47
3.4. Áp dụng một ố phương pháp phân lớp ................................................................... 53
Chương 4: Th c nghiệm phân lớp cho hai miền dữ liệu .................................................... 54
4.1. Môi trường th c nghiệm .......................................................................................... 54

4.1.1. Phần cứng .......................................................................................................... 54
1


4.1. . Phần mềm v các công cụ ................................................................................. 54
4. . Quá trình th c nghiệm ............................................................................................. 55
4. .1. Dữ liệu ử dụng cho th c nghiệm ..................................................................... 55
4. . . Th c hiện gán nhãn dữ liệu ............................................................................... 57
4. .3. Trích chọn đặc trưng trong hệ thống của chúng tôi .......................................... 58
4. .4. Bộ phân lớp Naive Baye .................................................................................. 60
4. .5. Bộ phân lớp VM .............................................................................................. 63
4.3. Đánh giá kết quả ...................................................................................................... 66
4.3.1. Phương pháp đánh giá ....................................................................................... 66
4.3. . Nhận xét............................................................................................................. 67
Kết Luận ............................................................................................................................. 68
T i liệu tham khảo .............................................................................................................. 70

2


Danh sách hình vẽ
ình 1.1: Tốc độ tăng trưởng tên miền Tiếng Việt .............................................................. 7
ình 1. : Độ tuổi người ử dụng Internet o với tổng dân ố ở Việt Nam .......................... 8
ình 1.3: Tổng hợp quan điểm về một chiếc điện thoại .................................................... 14
ình 1.4: Tổng hợp các kiến o ánh giữa hai chiếc điện thoại với nhau ....................... 14
ình 1.5: Khai phá quan điểm người dùng ........................................................................ 16
ình 1.6: Trang web entiment140 với từ khóa tìm kiếm l iphone 6 .............................. 17
ình 1.7: Kết quả phân lớp quan điểm của entiment140 .................................................. 18
ình .1: Ví dụ về bộ phân lớp nhị phân VM .................................................................. 20
ình . : Ví dụ mô hình phân lớp ử dụng học máy có giám át ...................................... 22

ình .3: Ví dụ về cây quyết định ...................................................................................... 25
ình .4: Mô hình phân lớp ử dụng bộ phân lớp Naive Baye ........................................ 26
ình .5: iêu phẳng với lề c c đại cho một VM phân tách dữ liệu thuộc hai lớp ......... 32
ình .6: phân lớp VM ử dụng một ố các h m nhân .................................................... 34
ình 3.1: Mô hình biểu diễn chủ quan v khách quan ....................................................... 37
ình 3. : Mô hình không gian vector của Chri tian . Perone .......................................... 41
ình 3.3: Biểu diễn văn bản dưới dạng vector ................................................................... 42
ình 3.4: Biểu diễn văn bản dưới dạng vector term frequency.......................................... 42
ình 3.5: Tạo dữ liệu huấn luyện ử dụng bộ phân lớp d a trên luật ................................ 48
ình 4.1: Minh họa chương trình thu thập các bình luận trên báo điện tử ........................ 56
ình 4. : Minh họa chương trình thu thập các bình luận trên trên mạng xã hội ............... 56
ình 4.3: Giao diện giới thiệu chương trình thu thập các bình luận .................................. 57
ình 4.4: Minh họa xây d ng từ điển đặc trưng ................................................................ 59
ình 4.5: Giao diện form học từ dữ liệu huấn luyện Training ........................................ 61
ình 4.6: Giao diện form th c hiện phân lớp NB Cla ify ........................................... 62
ình 4.7: Giao diện form giới thiệu chương trình About ................................................ 62
ình 4.8: Minh họa biểu diễn dữ liệu huấn luyện .............................................................. 63
ình 4.9: Minh họa mảng các vector huấn luyện ............................................................... 63
ình 4.10: Giao diện form th c hiện phân lớp VM Cla ify ........................................ 64
ình 4.11: Giao diện form chuyển đổi văn bản text ang vector ....................................... 65
ình 4.1 : Giao diện giới thiệu chương trình phân lớp ử dụng VM .............................. 65

3


Danh sách bảng
Bảng .1: Các mẫu cú pháp v ví dụ trong tiếng Anh ........................................................ 24
Bảng . : Dữ liệu huấn luyện ử dụng cho cây quyết định ................................................ 25
Bảng .3: Phương pháp học bán giám át elf-training ..................................................... 35
Bảng .4: Phương pháp học bán giám át Co-training ....................................................... 36

Bảng 3.1: o ánh thông tin chủ quan v khách quan ........................................................ 38
Bảng 3. : Trích chọn mẫu loại một .................................................................................... 51
Bảng 3.3: Một ố mẫu trong tập tốt nhất của các mẫu v trích chọn cụm từ kiểu 1 .......... 51
Bảng 3.4: Trích chọn mẫu loại hai...................................................................................... 52
Bảng 3.5: Một ố mẫu trong tập tốt nhất của các mẫu v trích chọn cụm từ kiểu .......... 52
Bảng 4.1: Cấu hình phần cứng hệ thống thử nghiệm ......................................................... 54
Bảng 4. : Danh ách một ố phần mềm v công cụ th c nghiệm ...................................... 54
Bảng 4.3: ố lượng mẫu bình luận dùng trong th c nghiệm .............................................. 55
Bảng 4.4: Minh họa quá trình gán nhãn dữ liệu ................................................................. 58
Bảng 4.5: Kết quả th c nghiệm với bộ phân lớp Naïve Baye ........................................... 61
Bảng 4.6: Kết quả th c nghiệm với bộ phân lớp VM ...................................................... 64
Bảng 4.7: Kết quả tổng hợp ................................................................................................ 67

Danh mục từ viết tắt
Ký hiệu viết tắt

Viết đầy đủ

Ý nghĩa

SVM

support vector machine

Máy hỗ trợ vector

MEM

maximum entropy model


Mô hình entropy c c đại

POS

Part of Speech

Nhãn từ loại

NLP

Natural Language Processing

Xử l ngôn ngữ t nhiên

IR

Information Retrieval

KDD

Knowledge Discovery in
Databases

Phát hiện tri thức trong cơ ở dữ
liệu

HMM

Hidden Markov Model


Mô hình Markov ẩn

TSVM

Transductive Support Vector
Machine

Máy hỗ trợ vector truyền dẫn

SGT

Spectral Graph Transductive

Đồ thị quang phổ truyền dẫn

TF*IDF

Term Frequency–Inverse
Document Frequency

Phương pháp tính trọng ố nghịch
đảo văn bản

LibSVMsharp

A Library for Support Vector
Machines LibSVM

Thư viện chạy VM


ệ thu thập thông tin

4


T i liệu tham khảo
T i liệu tiếng Việt
[1] ồ Tú Bảo, Lương Chi Mai. Về xử lý tiếng Việt trong công nghệ thông tin. Viện Công
nghệ Thông tin, Viện Khoa học v Công nghệ Tiên tiến Nhật bản.
[2]
Quang Thụy & nhóm khai phá dữ liệu v ứng dụng. Bài giảng về khai phá dữ liệu.
2007.
[3] Nguyễn Trần Thiên Thanh, Trần Khải o ng, Tìm hiểu các hướng tiếp cận bài toán
phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử, Khóa luận cử
nhân tin học 005.
[4] Trần Thị Oanh, Thuật toán self-training và co-training ứng dụng trong phân lớp văn
bản, Khóa luận cử nhân Công nghệ thông tin 2006.
[5] Nguyễn Thị Thùy Linh, Nghiên cứu các thuật toán phân lớp dữ liệu dựa trên cây
quyết định, Khóa luận cử nhân Công nghệ thông tin 2005.
[6] Trần Cao Đệ v Phạm Nguyên Khang, Phân loại văn bản với máy học vector hỗ trợ và
cây quyết định, Tạp chí Khoa học 01 : 1a 5 -63.

T i liệu tiếng Anh
[20] Bing Liu. Sentiment Analysis and Opinion Mining. Morgan &Claypool Publishers,
May 2012.
[21] Thorsten Joachims. SVM multiclass Multi-Class Support Vector Machine. Cornell
University Department of Computer Science.
[22] Janyce Wiebe and Ellen Rilo. Creating Subjective and Objective Sentence Classiers
from Unannotated Texts. In Proceedings of the 6th International Conference on
Computational Linguistics and Intelligent Text Processing (CICLing-05).

[23] Tran-Thai Dang, Anh-Cuong Le. Automatically Learning Patterns in Subjectivity
Classification for Vietnamese. University of Engineering and Technology Vietnam
National University, Ha Noi (springer-2014).
[24] Nguyen Cam Tu. JVnTextpro: A Java-based Vietnamese Text Processing Toolkit.
SISLab Software Utility. College of Technology, Vietnam National University, Hanoi.
[25] Nguyen Hung Son. Rule based classifiers. Faculty of Mathematics, Informatics and
Mechanics, Poland Warsaw University.
[26] Christopher D.Manning, Hinrich Schutze, Foundations Of Statistical Natural
Language Processing.
[27] Christopher D. Manning, Prabhakar Raghavan & Hinrich Schütze, Introduction to
Information Retrieval, 2008.
[28] Christian S. Perone, Machine Learning Text feature extraction (tf-idf) – Part I, 2011.
70


[29] Xiaojin Zhu. Semi-Supervised Learning with Graphs. PhD thesis, Carnegie Mellon
University, CMU-LTI-05-192, May 2005.
[30] Xiaojin Zhu. Semi-Supervised Learning Literature Survey. Computer Sciences TR
1530, University of Wisconsin – Madison, February 22, 2006.
[31] Lê ồng Phương, vnTokenizer 4.1.1 Userguide, Department of Mathematics,
Mechanics and Informatics, Vietnam National University, Hanoi, Vietnam (December
2009).
[32]. Ellen Rillof, Janyce Wiebe, Theresa Wilson, Learning Subjective Nouns using
Extraction Pattern Bootstrapping. 2003 Conference on Natural Language Learning
(CoNLL-03), ACL SIGNLL, 2003.
[33]. T. Joachims. Transductive Inference for Text Classification using Support Vector
Machines. International Conference on Machine Learning (ICML), 1999.
[34]. T. Joachims. Transductive learning via spectral graph partitioning. Proceeding of
The Twentieth International Conference on Machine Learning (ICML2003): 290-297.
[35]. Kevin P. Murphy. Machine Learning A Probabilistic Perspective. The MIT Press

Cambridge, Massachusetts London, England.
[36]. Chih-Wei Hsu, Chih-Chung Chang, and Chih-Jen Lin. A Practical Guide to Support
Vector Classification. Department of Computer Science National Taiwan University,
Taipei 106, Taiwan, 2010.

Websites tham khảo
[40] nhận_dạng_mẫu
[41] />[42] />[43] />[44] />[45] />[46]
[47] />[48] />
71



×