Tải bản đầy đủ (.pdf) (13 trang)

Phân loại quan điểm cộng đồng được phát hiện trên mạng xã hội sử dụng thuật toán conga và VSM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (309.71 KB, 13 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN QUANG THỊNH

PHÂN LOẠI QUAN ĐIỂM CỘNG ĐỒNG ĐƯỢC PHÁT
HIỆN TRÊN MẠNG XÃ HỘI SỬ DỤNG THUẬT TOÁN
CONGA VÀ SVM

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội – 2015

i


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN QUANG THỊNH

PHÂN LOẠI QUAN ĐIỂM CỘNG ĐỒNG ĐƯỢC PHÁT
HIỆN TRÊN MẠNG XÃ HỘI SỬ DỤNG THUẬT TOÁN
CONGA VÀ SVM
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS.ĐẶNG THANH HẢI



Hà Nội – 2015

ii


LỜI CẢM ƠN
Đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc nhất tới thầy
Đặng Thanh Hải, ngƣời đã trực tiếp hƣớng dẫn em hoàn thành tốt luận văn
tốt nghiệp này.
Em cũng xin cảm ơn thầy Hà Quang Thụy, là ngƣời đã tạo điều kiện cho
em thực hiện tốt luận văn và trình bày các seminar tại Phòng Thí nghiệm KTLab, cũng nhƣ tận tình đóng góp những ý kiến quý báu trong suốt quá trình
em làm luận văn.
Tiếp theo em xin gửi lời cảm ơn đến đến các thầy cô giáo trƣờng Đại
Học Công Nghệ - Đại Học Quốc Gia Hà Nội, đã tận tâm truyền đạt những
kiến thức, kinh nghiệm trong quá trình em học tập cao học tại đây.
Sau cùng, em xin đƣợc cảm ơn vợ, cha mẹ, bạn bè và ngƣời thân, những
ngƣời đã ở bên em, khuyến khích và động viên em trong quá trình viết và
hoàn thiện luận văn này.

Học viên

Trần Quang Thịnh

iii


LỜI CAM ĐOAN
Tôi xin cam đoan mô hình phát hiện cộng đồng và quan điểm cộng
đồng trong mạng xã hội thực nghiệm dựa trên thuật toán Conga (thuộc họ

thuật toán Girvan-Newman), bao gồm các thuật toán CONGA, CONGO,
Peacock, COPRA, và thuật toán học máy SVM đƣợc trình bày trong luận văn
này là do tôi thực hiện dƣới sự hƣớng dẫn của TS. Đặng Thanh Hải và
PGS. TS. Hà Quang Thụy.
Tất cả những tham khảo từ các nghiên cứu liên quan đều đƣợc nêu
nguồn gốc một cách rõ ràng, tƣờng minh từ danh mục tài liệu tham khảo trong
luận văn. Trong luận văn, không có việc sao chép tài liệu, công trình nghiên
cứu của ngƣời khác mà không chỉ rõ về nguồn tài liệu tham khảo.
Hà Nội, ngày … tháng … năm 2015
Học viên

Trần Quang Thịnh

iv


DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Ký hiệu,
từ viết tắt

Diễn giải

GN

Girvan-Newman

CONGA

Cluster Overlap Newman-Girvan Algorithm


CONGO

CONGA Optimized

PEACOCK Transformation algorithm
COPRA

Community Overlap PRopagation Algorithm

SVM

Support vector machine

MXH

Mạng xã hội

LPA

Label Propagation Algorithm

FNCA

Fast Complex Network Clustering Algorithm Using Local Detection

RAK

Thuật toán của Raghavan và cộng sự (The algorithm is based on the
label propagation technique of Raghavan, Albert and Kumara, but is
able to detect communities that overlap)


v


DANH SÁCH BẢNG BIỂU
Bảng 2.1 Ví dụ về bảng đặc trƣng 56
Bảng 3.1 Ví dụ về lựa chọn đặc trƣng 72
Bảng 3.2 Bảng phân tích độ đo 74
Bảng 4.1 Kết quả tìm kiếm cộng đồng 82
Bảng 4.2. Phân tích kết quả 82
Bảng 4.3 Kết quả Copra 83
Bảng 4.4 Kết quả chung 83

vi


DANH SÁCH HÌNH VẼ
Hình 1.1 Mạng trao đổi email giữa 436 nhân viên HP Research Lab 8
Hình 1.2 Cộng đồng mạng xã hội đơn giản với 3 cộng đồng 11
Hình 1.3 Phƣơng pháp phân vùng đồ thị 12
Hình 1.4 Ví dụ cho thấy các cộng đồng trải ra bởi 4 phe nhóm liền kề. Các đỉnh
chồng chéo đƣợc chỉ ra bằng các chấm lớn hơn. 14
Hình 1.5 là mạng lƣới của các thành viên trong câu lạc bộ Karate (Zachary, 1977)
15
Hình 1.6: Mô hình mạng lƣới cộng tác của các nhà khoa học làm việc tại SFI 15
Hình 1.7: Mạng biểu diễn loài cá heo sống ở Doubtful Sound, New Zealand 16
Hình 1.8: Lƣợc đồ chung xây dựng bộ phân lớp văn bản 21
Hình 1.9 Siêu phẳng h phân chia dữ liệu huấn luyện thành 2 lớp 23
Hình 2.1: Ví dụ về phép phân chia một đỉnh trong đồ thị 28
Hình 2.2: Tìm phép phân chia tối ƣu 29

Hình 2.3 Mô hình thuật toán Peacock 31
Hình 2.4 Ví dụ về phân chia đỉnh 32
Hình 2.5 Ví dụ về cập nhật nhãn đỉnh 35
Hình 2.6a. Thuật toán COPRA 37
Hình 2.6b. Thuật toán COPRA 39
Hình 2.7 Siêu phẳng phân tách hai lớp với lề cực đại và một số trƣờng hợp khác 45
Hình 2.8: Quy chiếu (mapping) không tuyến tính từ không gian mẫu tới không gian
đặc trƣng 47
Hình 2.9 SVM nhị phân mềm 48
Hình 2.10 Phân nhãn đa lớp 50
Hình 2.11 Ví dụ Transductive SVM 55
Hình 2.12: Thuật toán cho đào tạo Transductive Support Vector Machines 57
Hình 3.1. Ví dụ về trao đổi thông tin trên một đề tài (topic) trên diễn đàn 66
Hình 3.2 Các bƣớc xử lý dữ liệu bình luận để đƣa ra tập kết quả 67
vii


Hình 3.3. Hai ngƣời sử dụng cùng comment vào một chủ đề (topic) 69

viii


MỞ ĐẦU ..................................................................................................... Error! Bookmark not defined.
Chƣơng 1. GIỚI THIỆU TỔNG QUAN MẠNG XÃ HỘI, PHÁT HIỆN VÀ ĐÁNH GIÁ QUAN
ĐIỂM CỘNG ĐỒNG TRÊN MẠNG XÃ HỘI........................... Error! Bookmark not defined.
1.1. Giới thiệu khái quát về mạng xã hội ........................ Error! Bookmark not defined.
1.2. Bài toán phát hiện cộng đồng trên mạng xã hội...... Error! Bookmark not defined.
1.2.1.Cộng đồng mạng xã hội ...................................... Error! Bookmark not defined.
1.2.2.Phát hiện cộng đồng trong mạng xã hội .............. Error! Bookmark not defined.


1.3. Bài toán khai phá quan điểm ngƣời sử dụng mạng xã hội.Error! Bookmark not defined.
1.3.1. Giới thiệu bài toán ............................................. Error! Bookmark not defined.
1.3.2 Phân loại quan điểm ........................................... Error! Bookmark not defined.

CHƢƠNG 2. THUẬT TOÁN TÌM KIẾM CỘNG ĐỒNG VÀ KHAI PHÁ QUAN ĐIỂM CỘNG
ĐỒNG........................................................................................................... Error! Bookmark not defined.
2.1 Họ thuật toán Girvan-Newman ................................... Error! Bookmark not defined.
2.1.1 Thuật toán Girvan-Newman nguyên thủy ......... Error! Bookmark not defined.
2.1.2 Họ thuật toán Girvan-Newman .......................... Error! Bookmark not defined.
2.1.3 Thuật toán CONGA ........................................... Error! Bookmark not defined.
2.1.4 Thuật toán Peacock ............................................. Error! Bookmark not defined.
2.1.5 Thuật toán COPRA ............................................ Error! Bookmark not defined.

2.2 Thuật toán phân lớp SVM ............................................. Error! Bookmark not defined.
2.2.1 Một số thuật toán phân lớp phổ biến.................. Error! Bookmark not defined.
2.2.2. Thuật toán học máy phân lớp SVM – Support Vector MachineError! Bookmark not
defined.
SVM tuyến tính (cơ bản) .............................................. Error! Bookmark not defined.
Huấn luyện SVM .......................................................... Error! Bookmark not defined.
2.2.4. Các ƣu thế của SVM trong phân lớp văn bản .... Error! Bookmark not defined.
2.2.5 Một số thuật toán SVM tiên tiến ........................ Error! Bookmark not defined.

CHƢƠNG 3. TRIỂN KHAI MÔ HÌNH ĐÁNH GIÁ QUAN ĐIỂM CỘNG ĐỒNG TRÊN MẠNG
XÃ HỘI LAMCHAME .......................................................................... Error! Bookmark not defined.
3.1. Mô hình đánh giá quan điểm cộng đồng trên Diễn đàn LamchameError! Bookmark
not defined.
3.2. Phát hiên cộng đồng trên mạng xã hội làm cha mẹError! Bookmark not defined.
ix



3.3. Khai phá quan điểm cộng đồng trên mạng xã hội làm cha mẹError! Bookmark not
defined.
3.3.1 Biểu diễn quan điểm ........................................... Error! Bookmark not defined.
3.3.2 Triển khai trên mạng xã hội làm cha mẹ............ Error! Bookmark not defined.

CHƢƠNG 4. THỰC NGHIỆM VÀ ĐÁNH GIÁ........................... Error! Bookmark not defined.
4.1. Mô tả thực nghiệm..................................................... Error! Bookmark not defined.
4.1.1. Mô tả dữ liệu..................................................... Error! Bookmark not defined.
4.1.2. Môi trƣờng thực nghiệm ................................... Error! Bookmark not defined.
4.1.3. Các công cụ và phầm mềm sử dụng ................. Error! Bookmark not defined.

4.2. Thực nghiệm và đánh giá.......................................... Error! Bookmark not defined.
4.2.1. Thực nghiệm ..................................................... Error! Bookmark not defined.
4.2.2. Đánh giá............................................................ Error! Bookmark not defined.

KẾT LUẬN................................................................................................. Error! Bookmark not defined.

x


TÀI LIỆU THAM KHẢO
Tài liệu tiếng Việt:
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn
Thu Trang, Nguyễn Cẩm Tú (2009). Giáo trình khai phá dữ liệu, NXBGD, 2009
Tài liệu tiếng Anh:
[2] M. Girvan, M. E. J. Newman (2002). Community structure in social and
biological networks, Proc. Natl. Acad. Sci., 99(12), 7821 (2002)
[3] Steve Gregory: An Algorithm to Find Overlapping Community Structure in
Networks. PKDD 2007
[4] Santo Fortunato (2010), Community detection in graphs, Technical

Report, Complex Networks and Systems Lagrange Laboratory, ISI Foundation, Torino,
ITALY, arXiv:0906.0612v2 (2010).
[5] T. Joachims (1999). Transductive Inference for Text Classification using Support
Vector Machines. International Conference on Machine Learning (ICML), 1999.
[6] T. Joachims (2003). Transductive learning via spectral graph partitioning.
Proceeding of The Twentieth International Conference on Machine Learning
(ICML2003): 290-297.
[7] V. Sindhwani, S. S. Keerthi (2006). Large Scale Semi-supervised Linear SVMs.
SIGIR 2006.
[8] V. Sindhwani, S.S. Keerthi (2007). Newton Methods for Fast Solution of
Semisupervised Linear SVMs. Large Scale Kernel Machines, MIT Press, 2005
[9] Hu, M. and Liu, B. (2006). Opinion extraction and summarization on the
Web, Proceedings of the 21th National Conference on Artificial Intelligence (AAAI),
2006.
[10] Bermingham, Adam and Smeaton, Alan F. (2010) Classifying sentiment in
microblogs: is brevity an advantage? International Conference on Information and
Knowledge Management. (CIKM 2010 - 19th)
[11] M.E.J. Newman and M. Girvan (2003) Finding and evaluating community
structure in networks. Preprint cond-mat/0308217.
[12] Jiyang Chen (2010) Community Mining - Discovering Communities in
Social Networks. Thesis, University of Alberta.
[13] David Easley and Jon Kleinberg (2010) Networks, Crowds, and
Markets: Reasoning about a Highly. Book of Cambridge University Press.
[14] What Types of Social Networks Exist? (Lovetoknow.com, by Mary Gormandy
White, M.A., SPHR - Social Media Trainer & Consultant)

11


[15] Li-ping Jing, Hou-Kuan Huang, Hong-Bo Shi (2002) Improved feature selection

approach TFTDF in text mining, Proceedings of the First International Conference on
Machine Learning and Cybernetics, Beijing, 4-5 November 2002.
[16] J. Leskovec, D. Huttenlocher, J. Kleinberg, “Predicting Positive and Negative
Links in Online Social Networks”, In Proceedings of WWW’2010, ACM Press, New
York, 2010.
[17] Matthew A. Russell (2011) Mining the social web.
[18] Kristin P. Bennett, Ayhan Demiriz (1998). Semi-Supervised Support Vector
Machines. NIPS 1998: 368-374.
[19] Xiaojin Zhu (2005). Semi-Supervised Learning with Graphs. PhD thesis, Carnegie
Mellon University, CMU-LTI-05-192, May 2005.
[20] Xiaojin Zhu (2006). Semi-Supervised Learning Literature Survey. Computer
Sciences TR 1530, University of Wisconsin – Madison, February 22, 2006.
[21] Hu X.H. and Cercone N. (1995), “Learning in relational databases: a rough set
approach”, International Journal of computational intelligence, pp. 323-338.
[22] Alan E. Mislove (2009), Online Social Networks: Measurement, Analysis, and
Applications to Distributed Information Systems, Thesis, RICE university.
[23] Chun Nam Yu (2011), Improved learning of structural support vector machines:
training with latent variables and nonlinear kernels, Ph.D., Cornell University.
[24] Corinna Cortes, Vladimir Vapnik, “Support-Vector Networks, Machine Learning”,
AT&T Bell Labs,Holmdel, NJ 07733, USA, 1995.
[25] L. H. Phuong, N. T.M. Huyen, R. Azim, H. T. Vinh. A hybrid approach to word
segmentation of Vietnamese texts. Proceedings of the 2nd International Conference on
Language and Automata Theory and Applications, LATA 2008, Springer LNCS 5196,
Tarragona, Spain, 2008.
[26] Steve Gregory: Finding Overlapping Communities Using Disjoint Community
Detection Algorithms. PKDD 2009
[27] Steve Gregory: A fast algorithm to find overlapping communities in networks.
PKDD 2008
[28] Pierre Baldi, Paolo Fransconi, Padhraic Smyth. Modeling the Internet and the
Web, Probabilistic Methods and Algorithms 2003

[29 ] G. Fung and O. L. Mangasarian, Proximal support vector machine classifiers. In
Proceedings of the Seventh ACM SIGKDD International Conference on Knowledge
Discovery and Data Mining, pages 77–86, 2001.
[30] Raghavan U N, Albert R and Kumara S, Near linear time algorithm to detect
community structures in large-scale networks, Physical Review E, page 76, 2007

12


[31] Leung I X Y, Hui P, Liò P and Crowcroft J, Towards real-time community
detection in large networks, Physical Review E, page 79, 2009
Tham khảo web
[32] />[33] Website:

13



×