Tải bản đầy đủ (.pdf) (12 trang)

nhóm người từ phương tiện xã hội dựa theo mô hình chủ đề xác suất

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (550.16 KB, 12 trang )

1 of 128.

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Uông Huy Long

PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/
NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI
DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT

LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN

HÀ NỘI - 2015

kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag


2 of 128.

Lời cảm ơn

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ
Uông Huy Long
Hà Quang Thụy và Thạc sĩ Trần Mai Vũ, người đã tận tình chỉ bảo và hướng dẫn tôi
trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và
nghiên cứu tại trường Đại Học Công Nghệ.


Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá
PHÁT HIỆN THÓI QUEN CỦA CON NGƢỜI/
dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt

NHÓM NGƢỜI TỪ PHƢƠNG TIỆN XÃ HỘI
DỰA THEO MÔ HÌNH CHỦ ĐỀ XÁC SUẤT

khoá luận.

Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu
luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Côngcảm
nghệ
Tôi xinNgành:
chân thành
ơn!thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104

LUẬN VĂN THẠC SỸ HỆ THỐNG THÔNG TIN
Sinh viên
Uông Huy Long

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. Nguyễn Việt Cƣờng

HÀ NỘI - 2015

kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag



3 of 128.

Lời cam đoan
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi, được thực hiện dưới sự
hướng dẫn khoa học của Tiến sĩ Nguyễn Việt Cường.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được công bố
trong bất kỳ công trình nào khác.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.
Học viên
Uông Huy Long

1

kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag


4 of 128.

Mở đầu
Thuật ngữ Web 2.0 lần đầu xuất hiện vào tháng 10/2004 khi Tim OReily – Chủ tịch
và Dale Dougherty – Phó Chủ tịch của OReily Media đưa ra tại một cuộc hội thảo về sự
phát triển tiếp theo của Web. Có rất nhiều quan điểm khác nhau về Web 2.0, tuy nhiên đa
số vẫn mô tả Web 2.0 ở một số tính năng như khả năng giao tiếp, tính tương tác giữa các
người dùng với nhau hay là những yếu tố cho phép người dùng có thể tạo ra thông tin.
Các trang Web truyền thông xã hội (social media websites) dựa trên Web 2.0 như các
trang báo điện tử xã hội, mạng xã hội, blog, các từ điển mở wiki,… đang có một sự phát
triển như vũ bão và thực sự đang làm biến đổi thế giới Internet từng ngày, từng giờ. Cùng
nhìn vào một đại diện tiêu biểu của Web truyền thông xã hội, các trang báo điện tử xã hội
(social news sites), khái niệm “báo điện tử” cũng như việc đọc tin tức điện tử đã không
còn xa lạ với đa số người dân Việt Nam. Những thống kê gần đây trên alexa1 về số lượng

các trang báo điện tử nằm trong top các trang Web phổ biến nhất tại Việt Nam hiện nay
đang cho thấy nhu cầu cao của xã hội trong lĩnh vực truyền thông này. Tuy nhiên, một
vấn đề còn tồn tại hiện nay đó là trong khi có quá nhiều tin tức mỗi ngày được cập nhật,
người dùng dường như bị chìm ngập trong biển thông tin mà vẫn không tìm ra được các
thông tin phù hợp. Web 2.0 có thể là lời giải cho vấn đề này, những trang báo điện tử xã
hội cho phép người dùng tạo ra nội dung như những bình luận, chia sẻ,…Đây có thể là
một nguồn dữ liệu quan trọng cho lĩnh vực nghiên cứu liên quan tới mô hình hóa người
dùng. Từ nắm bắt thói quen đọc, bình luận tin tức của người dùng theo lĩnh vực gì (như
thể thao, giải trí, công nghệ,…), nhiều dịch vụ tiềm năng (như tin tức mới, quảng cáo,
game,…) có thể được suy diễn và tư vấn chính xác, kịp thời. Luận văn đề xuất một
phương pháp dựa trên mô hình chủ đề xác suất có thể giúp các trang báo điện tử xã hội
nhận diện thói quen, mối quan tâm của người dùng một cách tự động trên lịch sử các hoạt
động bình luận của họ (Người dùng xây dựng thói quen đọc, bình luận tin tức trên cơ sở
các mối quan tâm, vì vậy, trong luận văn, các khái niệm mô hình hóa người dùng, phân
tích mối quan tâm người dùng hay phân tích thói quen đọc, bình luận của người dùng có
thể được sử dụng thay thế cho nhau). Tính chính xác và khả năng ứng dụng thực tế của
mô hình này đã được chứng minh bằng một số kết quả thực nghiệm ban đầu.

1 />
2

kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag


5 of 128.

Chƣơng 1. Giới thiệu
1.1.

Những thách thức của các trang báo điện tử

Ngày nay, thông tin trên những trang báo điện tử (như VNExpress1) hầu như bao

phủ mọi khía cạnh của đời sống xã hội, từ những tin tức về kinh tế, chính trị tới những sự
kiện thể thao, giải trí của cả trong nước và quốc tế. Cùng với thực tế đó là hiện tượng có
một lượng lớn các tin tức phát sinh thêm mỗi ngày (như trên trang VNExpress, tại thời
điểm khảo sát có hơn 135 tin tức mới trong ngày), người đọc cũng có thể quan tâm tới các
tin tức về một sự kiện/ chuỗi các sự kiện diễn ra trong nhiều ngày hoặc muốn xem lại các
thông tin từ những ngày trước, vì vậy mà lượng tin tức cần đọc có thể lên tới hàng nghìn
bài. Vấn đề đặt ra là làm cách nào những người đọc có thể vừa tiết kiệm được thời gian
truy cập vừa không bỏ sót những nội dung mà họ quan tâm. Những nghiên cứu trước đây
gọi đó là vấn đề của sự tràn ngập thông tin. Một giải pháp phổ biến đó là cung cấp cho
người dùng công cụ tìm kiếm. Tuy nhiên, những công cụ tìm kiếm đôi khi vẫn không đem
lại hiệu quả, điều này thường do nghĩa của từ khoá không rõ ràng hoặc ý nghĩa chính xác
của chúng phụ thuộc vào ngữ cảnh của người dùng. Ví dụ như khi một lập trình viên tìm
kiếm với từ khóa “apache”, có thể người đó không muốn nhìn thấy hình ảnh của một loại
máy bay trực thăng. Hay nếu người dùng muốn tìm kiếm về lịch sử của tộc người da đỏ
(cũng có tên là apache), nội dung người đó quan tâm không phải là máy bay trực thăng
hay máy chủ web. Một hướng tiếp cận khác được nghiên cứu là tìm cách xây dựng các hệ
thống cá nhân hóa, những hệ thống này cung cấp các kết quả tư vấn hoặc tìm kiếm khác
nhau và được cho là phù hợp với những người dùng khác nhau.

Hình 1. Chức năng tìm kiếm trên trang vnexpress.net.
1 />
3

kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag


6 of 128.


Một hệ thống được cá nhân hóa giải quyết vấn đề có quá nhiều lựa chọn bằng cách
xây dựng và quản lý các thông tin về người dùng, đặt trong hồ sơ người dùng. Toàn bộ
quá trình này gọi là mô hình hóa người dùng sẽ được trình bày chi tiết hơn trong chương
2. Hệ thống này thực thi các hình thức như là lọc ra những thông tin không liên quan hoặc
xác định thêm thông tin có thể hấp dẫn người dùng. Hồ sơ người dùng có thể bao gồm
thông tin cá nhân, ví dụ như tên, tuổi, quốc gia, mức độ giáo dục,…và cũng có thể đại
diện cho các sở thích, mối quan tâm của một cá nhân hoặc một nhóm người dùng như là
sự ưa thích với các chủ đề thể thao hay du lịch. Các thông tin này có thể được phân tích
dựa vào dữ liệu do người dùng cung cấp, suy diễn từ dữ liệu log trên hệ thống hoặc một
nguồn dữ liệu mới là từ các phương tiện xã hội, nội dung này sẽ được luận văn trình bày
chi tiết hơn trong chương 2.
1.2.

Bài toán tƣ vấn trên các trang báo điện tử xã hội.

Tư vấn tin tức là một lĩnh vực giàu tiềm năng bởi số lượng các sản phẩm tư vấn, số
lượng người dùng và số lượt sử dụng cao hơn nhiều so với các đối tượng tư vấn khác, vì
vậy luận văn đề xuất một mô hình người dùng và ứng dụng vào hệ thống tư vấn tin tức
trong chương 3. Một vài đặc trưng riêng có của miền đối tượng tin tức cũng như các đặc
trưng chung của người sử dụng tư vấn, có thể được mô tả như sau:
Đầu tiên, tin tức là một đối tượng tư vấn đặc biệt, các đặc trưng sau của tin tức giúp
đưa ra các giải pháp hữu hiệu hơn trong xây dựng giải pháp tư vấn:
 Tính không đồng nhất giá trị: Giá trị của tin tức chỉ có thể được xác định bằng
cách kết hợp các yếu tố: nội dung thông tin, nguồn tin, thời điểm xuất bản, nhà
xuất bản, tác giả,…
 Tính dễ sinh ra: một số lượng lớn tin tức có thể nảy sinh xung quanh một sự
kiện, hiện tượng.
 Tính dễ tàn lụi: hiện tượng tin tức đánh mất giá trị khi vấn đề nó đề cập không
còn tính thời sự.


4

kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag


7 of 128.

Hình 2. Ví dụ về các tin tức nảy sinh xung quanh một sự kiện.
Khi xem xét đến yếu tố phù hợp giữa đối tượng tư vấn và mối quan tâm người dùng,
một đặc trưng về mối quan tâm của người dùng cần được xem xét, đó là tính đa quan tâm:
Tại một thời điểm, người dùng có thể có nhiều mối quan tâm khác nhau, ví dụ: người
dùng có thể quan tâm đến các thông tin về cả thể thao và chính trị.
Qua phân tích, luận văn lựa chọn cách tiếp cận lọc dựa trên nội dung, trong đó thói
quen/ mối quan tâm người dùng được nhận diện qua các chủ đề ẩn của các tin tức mà
người dùng đã từng bình luận. Các lý do có thể được nêu ra là:
 Thứ nhất: Biểu diễn mức chủ đề cho phép mô tả những mối quan tâm của người
dùng ở mức trừu tượng cao hơn mà không bị ảnh hưởng bởi thói quen dùng từ
của các tác giả hoặc của những từ khóa nổi lên chỉ trong một giai đoạn nhất
định. Sử dụng phương pháp này cũng khắc phục được vấn đề tư vấn trùng lặp
do mô hình dựa trên các từ khóa thường tìm ra các tin tức có cùng nội dung với
các tin tức người dùng đã đọc.
 Thứ hai: Tính đa quan tâm của người dùng có thể được thể hiện thông qua tập
hợp các cặp chủ đề và xác suất liên quan.
 Thứ ba: Những tin tức người dùng đã từng bình luận đem tới thông tin tốt hơn
do có thể nhận xét rằng người dùng quan tâm thực sự tới nội dung các tin tức đã
bình luận chứ không phải là do chọn nhầm.
Theo đó, luận văn đề xuất giải quyết hai vấn đề cơ bản của tiến trình tư vấn:

5


kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag


8 of 128.

 Đầu tiên là dựa trên khảo sát về các phương pháp xây dựng mô hình hóa người
dùng, đề xuất giải pháp mô hình người dùng dựa trên phân tích chủ đề các tin
tức người dùng đã từng bình luận.
 Sau đó, những tin tức liên quan được phát hiện thông qua đối chiếu chủ đề của
chúng với những chủ đề trong mô hình người dùng vừa được xây dựng.
Cấu trúc của luận văn

1.3.

Nội dung chính của luận văn được chia làm 4 chương:


Chương 1. Giới thiệu.



Chương 2. Một số nghiên cứu liên quan về mô hình hóa người dùng.



Chương 3. Mô hình đề xuất.



Chương 4: Thực nghiệm và đánh giá.


6

kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag


9 of 128.

Tài liệu tham khảo
Tiếng Việt
Tiếng Anh
[1] Ahlqvist, T., Bäck, A., Halonen, M., & Heinonen, S. (2008). Social Media
Roadmaps. Helsinki: Edita Prima Oy.
[2] Ahmed, A., Low, Y., Aly, M., Josifovski, V., & Smola, A. J. (2011). Scalable
distributed inference of dynamic user interests for behavioral targeting. Paper
presented at the ACM Conference on Knowledeg Discovery and Data Mining (KDD)
(pp. 373-382).
[3] Bamshad Mobasher: Data Mining for Web Personalization. The Adaptive
Web 2007:90-135.
[4] Bo Hu, Zhao Song, and Martin Ester. 2012. User Features and Social Networks
for Topic Modeling in Online Social Media. In Proceedings of the 2012 International
Conference on Advances in Social Networks Analysis and Mining (ASONAM 2012)
(ASONAM '12). IEEE Computer Society, Washington, DC, USA, 202-209.
[5] Chen, L., Sycara, K.: A Personal Agent for Browsing and Searching. In:
Proceedings of the 2nd International Conference on Autonomous Agents,
Minneapolis/St. Paul, May 9-13, (1998) 132-139.
[6] David M. Blei, Andrew Y. Ng, Michael I. Jordan: Latent Dirichlet Allocation.
Journal of Machine Learning Research (JMLR) 3:993-1022 (2003).
[7] X. Ding, B. Liu, and P. S. Yu. A holistic lexiconbased approach to opinion
mining. In Proceedings of the Conference on Web Search and Web Data Mining

(WSDM), 2008.
[8] Gauch, S., Speretta, M., Chandramouli, A., Micarelli, A. User profiles for
personalized information access, In: Brusilovsky, P., Kobsa, A., and Neidl, W., Eds.
The Adaptive Web: Methods and Strategies of Web Personalization. Springer- Verlag,
7

kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag


10 of 128.

Berlin Heidelberg New York, 2007, 54-89.
[9] Gentili, G., Micarelli, A., Sciarrone, F.: Infoweb: An Adaptive Information
Filtering System for the Cultural Heritage Domain. Applied Artificial Intelligence
17(8-9) (2003) 715-744.
[10] Gueye, M., Abdessalem, T., & Naacke, H. (2012). Dynamic recommender
system: using cluster-based biases to improve the accuracy of the predictions.
[11] Heinrich, G., “Parameter Estimation for Text Analysis”, Technical Report.
[12] Herlocker, .L., Konstan, J.A., Terveen, L.G., Riedl, J.T.: Evaluating
Collaborative Filtering Recommender Systems. ACM Transactionson Information
Systems 22(1), 5–53(2004).
[13] T. Hoffman. Online reputation management is hot – but is it ethical?
ComputerWorld, 2 2008.
[14] L. Hong and B. D. Davison. Empirical study of topic modeling in twitter. In
Proceedings of the First Workshop on Social Media Analytics, SOMA ’10, pages 80–
88, New York, NY, USA, 2010. ACM.
[15] Mai-Vu Tran, Xuan-Tu Tran, Huy-Long Uong (2010). User Interest Analysis
with Hidden Topic in News Recommendation System. IALP 2010: 211-214.
[16] M. Joshi and N. Belsare. Blogharvest: Blog mining and search framework. In
International Conference on Management of Data, Delhi, India, 2006, December 1416 2006. Computer Society of India.

[17] Kaplan, A. M., & Haenlein, M. (2010). Users of the world, unite! The
challenges and opportunities of Social Media. Business horizons, 53(1), 59-68.
[18] Kelly, D., Teevan, J.: Implicit feedback for inferring user preference: a
bibliography. ACM SIGIR Forum 37(2) (2003) 18-28.

8

kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag


11 of 128.

[19] Kietzmann, J. H., Hermkens, K., Mccarthy, I. P., & Silvestre, B. S. (2011).
Social media? Get serious! Understanding the functional building blocks of social
media. Business horizons, 54(3), 241-251.
[20] Milstein, S., Lorica, B., Magoulas, R., Hochmuth, G., Chowdhury, A., &
O'Reilly, T. (2008). Twitter and the micro-messaging revolution: Communication,
connections, and immediacy--140 characters at a time. O'Reilly Media, Incorporated.
[21] M. Naaman, H. Becker, and L. Gravano. Hip and trendy: Characterizing
emerging trends on twitter. Journal of the American Society for Information Science
and Technology, 2011.
[22] Pazzani, M., Muramatsu, J., Billsus, D.: Syskill & Webert: Identifying
Interesting Web Sites. In: Proceedings of the 13th National Conference On Artificial
Intelligence Portland, Oregon, August 4–8 (1996) 54-61.
[23] A. M. Popescu and O. Etzioni. Extracting product features and opinions from
reviews. In HLT ’05: Proceedings of the conference on Human Language Technology
and Empirical Methods in Natural Language Processing, pages 339–346, Morristown,
NJ, USA, 2005. Association for Computational Linguistics.
[24] Pretschner, A.: Ontology Based Personalized Search. Master’s thesis. University
of Kan- sas, June (1999).

[25] S. Sen, J. Vig, and J. Riedl. Tagommenders: Connecting users to items through
tags. In Proc. of WWW’ 09, pages 671–680, 2009.
[26] J. Tatemura. Virtual reviewers for collaborative exploration of movie reviews.
In Proceedings of Intelligent User Interfaces (IUI), pages 272–275, 2000.
[27] Thomas Hofmann. Probabilistic latent semantic indexing. In Proceedings of
SIGIR-99, (1999) 35–44.
[28] Le Dieu Thu. On the analysis of large-scale datasets towards online contextual,
Undergraduate Thesis, College of Technology, Vietnam National University, Hanoi,

9

kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag


12 of 128.

2008.
[29] Nguyen Cam Tu. Hidden Topic Discovery toward Classification and Clustering
in Vietnamese Web Documents, Master Thesis, College of Technology, Vietnam
National University, Hanoi, 2008.
[30] Tso-Sutter, K.H.L., L. Marinho, and L. Schmidt-Thieme. Tag-aware
recommender systems by fusion of collaborative filtering algorithms. In Proc. of
Applied Computing, pages 1995–1999, 2008.
[31] J. Weng, E. Lim, J. Jiang, and Q. He. Twitterrank: finding topic-sensitive
influential twitterers. In Proceedings of the third ACM international conference on
Web search and data mining, pages 261–270. ACM, 2010.
[32] Widyantoro, D.H., Yin, J., El Nasr, M., Yang, L., Zacchi, A., Yen, J.: Alipes:
A Swift Messenger In Cyberspace. In: Proc. 1999 AAAI Spring Symposium Workshop
on Intelli- gent Agents in Cyberspace, Stanford, March 22-24 (1999) 62-67.
[33] D. T. Wijaya and S. Bressan. A random walk on the red carpet: rating movies

with user reviews and pagerank. In CIKM ’08: Proceeding of the 17th ACM
conference on Information and knowledge management, pages 951–960. ACM, 2008.
[34] W. Zhang, C. Yu, and W. Meng. Opinion retrieval from blogs. In Proceedings
of the sixteenth ACM conference on Conference on information and knowledge
management, CIKM ’07, pages 831–840. ACM, 2007.
[35] L. Zhuang, F. Jing, X. Zhu, and L. Zhang. Movie review mining and
summarization. In Proceedings of the ACM SIGIR Conference on Information and
Knowledge Management (CIKM), 2006.

10

kho tai lieu -123doc-doc-luan an - luan an tien si -luan van thac si - luan van kinh te - khoa luan - tai lieu -Footer Pag



×