Tải bản đầy đủ (.pdf) (15 trang)

Khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.75 MB, 15 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ
HỘI ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

Hà Nội - 2016


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN VĂN THÀNH

KHAI PHÁ DỮ LIỆU PHƯƠNG TIỆN TRUYỀN THÔNG XÃ HỘI
ĐỂ HIỂU KINH NGHIỆM HỌC TẬP CỦA SINH VIÊN
Ngành: Hệ thống Thông Tin
Chuyên ngành: Hệ thống Thông Tin
Mã số chuyên ngành: 60480104

LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Trần Thị Oanh

Hà Nội – 2016



i
LỜI CAM ĐOAN
Tôi xin cam đoan:
1. Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn của
TS. Trần Thị Oanh.
2. Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, thời
gian, địa điểm công bố.
3. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn toàn
trách nhiệm.
Hà Nội, ngày

tháng

năm 2016

HỌC VIÊN

Nguyễn Văn Thành


ii
LỜI CẢM ƠN
Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc và chân thành đến giáo viên hướng
dẫn TS. Trần Thị Oanh, người đã tận tình chỉ bảo tôi trong định hướng nghiên cứu, đề
xuất các ý tưởng và giúp đỡ về mặt phương pháp luận cũng như việc kiểm tra cuối cùng
đối với luận văn này.
Tôi xin chân thành cảm ơn các thày cô trong khoa Công nghệ Thông tin – Đại học
Công nghệ - Đại học Quốc gia Hà Nội, khoa Công nghệ Thông tin - Viện Đại học Mở Hà
Nội đã giúp đỡ tôi rất nhiều trong quá trình học tập, nghiên cứu và tạo điều kiện giúp tôi
trong công tác để tôi có thời gian thực hiện việc học tập và hoàn thành luận văn.

Cuối cùng, tôi xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới bố mẹ những người
động viên tôi về mặt tinh thần và hỗ trợ nhiều về mọi mặt.
HỌC VIÊN

Nguyễn Văn Thành


iii
MỤC LỤC

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT ...................................................................vi
DANH MỤC CÁC BẢNG............................................................................................... vii
DANH MỤC HÌNH VẼ, ĐỒ THỊ ................................................................................. viii
MỞ ĐẦU .............................................................................................................................. 1
Chương 1: Tổng quan về vấn đề nghiên cứu ................................................................... 3
Khai phá dữ liệu ...................................................................................................... 3
1.1.1 Khái niệm ......................................................................................................... 3
1.1.2 Quy trình khai phá dữ liệu................................................................................ 4
Bài toán khai phá quan điểm trên mạng truyền thông ............................................ 5
1.2.1 Khái quát khai phá quan điểm .......................................................................... 6
1.2.2 Khai phá quan điểm với mạng truyền thông .................................................... 7
Khai phá quan điểm sinh viên trên phương tiện truyền thông xã hội ..................... 8
1.3.1 Giới thiệu bài toán ............................................................................................ 8
1.3.2 Tình hình nghiên cứu trên thế giới ................................................................... 9
1.3.3 Tình hình nghiên cứu tại Việt Nam................................................................ 10
1.3.4 Ý nghĩa và mục tiêu của bài toán ................................................................... 11
Kết luận chương 1 ................................................................................................. 12
Chương 2: Các kiến thức nền tảng ................................................................................. 13
Giới thiệu .............................................................................................................. 13
2.1.1 Tổng quan về bài toán phân loại .................................................................... 13

2.1.2 Các bước giải quyết bài toán phân loại .......................................................... 13
2.1.3 Bài toán phân lớp văn bản .............................................................................. 14
Bài toán phân lớp đa nhãn..................................................................................... 14
Một số phương pháp phân lớp đa nhãn ................................................................. 15
2.3.1 Phương pháp chuyển đổi bài toán .................................................................. 16
2.3.2 Phương pháp thích nghi thuật toán ................................................................ 18
Một số mô hình học máy được sử dụng cho bài toán ........................................... 20


iv
2.4.1 Phân lớp Bayes ............................................................................................... 20
2.4.2 Cây quyết định ............................................................................................... 22
Kết luận chương 2 ................................................................................................. 26
Chương 3: Một mô hình giải quyết bài toán khai phá dữ liệu mạng truyền thông để
hiểu kinh nghiệm học tập sinh viên................................................................................. 27
Mô hình hoá bài toán ............................................................................................ 27
3.1.1 Xác định vấn đề và không gian dữ liệu .......................................................... 27
3.1.2 Phát biểu bài toán theo góc độ toán học ......................................................... 27
Một mô hình giải quyết bài toán ........................................................................... 28
3.2.1 Mô hình tổng thể ............................................................................................ 28
3.2.2 Môi trường thực nghiệm ................................................................................ 31
Kết luận chương 3 ................................................................................................. 32
Chương 4: Kết quả thực nghiệm ..................................................................................... 33
Thu thập và tiền xử lý dữ liệu ............................................................................... 33
4.1.1 Thu thập dữ liệu ............................................................................................. 33
4.1.2 Tiền xử lý dữ liệu ........................................................................................... 34
4.1.3 Lựa chọn tập nhãn và gán nhãn dữ liệu ......................................................... 36
4.1.4 Một số thống kê về bộ dữ liệu ........................................................................ 38
Các công cụ phân tích được sử dụng trong luận văn ............................................ 42
4.2.1 MEKA ............................................................................................................ 42

4.2.2 vnTokenizer .................................................................................................... 42
Thiết lập thực nghiệm ........................................................................................... 43
4.3.1 Chuyển đổi dữ liệu ......................................................................................... 43
4.3.2 Chia tách dữ liệu cho mục đích tập huấn và thử nghiệm ............................... 44
4.3.3 Các độ đo đánh giá thực nghiệm .................................................................... 45
Huấn luyện mô hình và kiểm tra ........................................................................... 46
4.4.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp ........................... 46
4.4.2 Thực nghiệm với Binary Relevance ............................................................... 46
4.4.3 Thực nghiệm với Label Combination ............................................................ 47


v
Kết quả thực nghiệm ............................................................................................. 47
4.5.1 Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp ........................... 47
4.5.2 Thực nghiệm với Binary Relevance ............................................................... 48
4.5.3 Thực nghiệm với Label Combination ............................................................ 50
Phân tích lỗi .......................................................................................................... 52
Kết luận chương 4 ................................................................................................. 53
Chương 5: Kết luận và hướng phát triển tiếp theo ....................................................... 54
TÀI LIỆU THAM KHẢO................................................................................................ 56


vi

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT
Chữ viết tắt

Ý nghĩa

1. Tiếng Việt


2. Tiếng Anh
MLC

Multi Label Classification

BR

Binary Relevance

LP

Label Power-Set

LC

Label Combination

BP-MLL

Backpropagation for Multi-Label Learning


vii

DANH MỤC CÁC BẢNG
Bảng 1.1. So sánh phân lớp đa lớp và phân lớp đa nhãn ...................................................... 9
Bảng 2.1. Mẫu bộ dữ liệu đa nhãn ...................................................................................... 16
Bảng 2.2. Dữ liệu được chuyển đổi bẳng phương pháp Select Transformation ................ 16
Bảng 2.3. Dữ liệu được chuyển đổi bẳng phương pháp Ignore Transformation................ 17

Bảng 2.4. So sánh kết quả đầu ra của AdaBoost.MH và AdaBoost.MR ........................... 19
Bảng 3.1 Thông số phần cứng môi trường thực nghiệm .................................................... 32


viii

DANH MỤC HÌNH VẼ, ĐỒ THỊ
Hình 1.1: Quá trình khám phá tri thức.................................................................................. 4
Hình 1.2: Quy trình khai phá dữ liệu .................................................................................... 4
Hình 2.1: Phương pháp chuyển đổi với Binary Relevance ................................................ 17
Hình 2.2: Phân phối xác suất bởi LP .................................................................................. 18
Hình 3.1: Mô hình khai phá dữ liệu trao đổi, thảo luận của sinh viên trên diễn đàn ......... 28
Hình 3.2 Mô hình xử lý của chương trình Crawler ............................................................ 29
Hình 3.3 Mô tả quá trình chuyển đổi dữ liệu sang định dạng ARFF ................................. 30
Hình 4.1: Dữ liệu sau khi tách từ........................................................................................ 35
Hình 4.2: Cấu trúc tệp tin CSV chứa dữ liệu đã gán nhãn ................................................. 37
Hình 4.3: Biểu đồ thống kê các nhãn trong bộ dữ liệu ....................................................... 39
Hình 4.4: Giao diện công cụ MEKA .................................................................................. 42
Hình 4.5: Cấu trúc tệp tin ARFF của bộ dữ liệu ................................................................ 43
Hình 4.6: Cấu trúc tệp tin ARFF đã được chuyển sang dạng vector .................................. 44
Hình 4.7: Minh hoạ cross-validation với k=5 .................................................................... 45
Hình 4.8: Giao diện chức năng phân lớp văn bản của công cụ MEKA với phương pháp kfold và Zero Rule ................................................................................................................ 46
Hình 4.9: Giao diện chức năng phân lớp văn bản của công cụ MEKA với phương pháp kfold ...................................................................................................................................... 47
Hình 4.10: Giao diện chức năng phân lớp văn bản của công cụ MEKA với phương pháp
k-fold .................................................................................................................................. 47
Hình 4.11: Thống kê kết quả phương pháp k-fold với Label Combination và Zero Rule . 48
Hình 4.12: Thống kê kết quả phương pháp k-fold với Binary Relevance và Multinomial
Naïve Bayes ........................................................................................................................ 48
Hình 4.13 Thống kê độ đo của từng nhãn (Threshold=0.9) với Binary Relevance và
Multinomial Naïve Bayes ................................................................................................... 49

Hình 4.14: Thống kê kết quả phương pháp k-fold với Binary Relevance và J48 .............. 49
Hình 4.15 Thống kê độ đo của từng nhãn (Threshold=0.1) với Binary Relevance và J48 50
Hình 4.16: Thống kê kết quả phương pháp k-fold với Label Combination và Multinomial
Naïve Bayes ........................................................................................................................ 50
Hình 4.17 Thống kê độ đo từng nhãn với Label Combination và Multinomial Naïve Bayes
............................................................................................................................................ 51
Hình 4.18: Thống kê kết quả phương pháp k-fold với Label Combination và J48............ 51
Hình 4.19 Thống kê độ đo từng nhãn với Label Combination và J48 ............................... 52


1

MỞ ĐẦU
Trong việc ứng dụng khai phá dữ liệu vào nhiều lĩnh vực khác nhau của đời sống,
khai phá dữ liệu trong lĩnh vực giáo dục đang dần có được sự quan tâm đúng mức. Cần
phải nhìn nhận thẳng rằng giáo dục là nhân tố quyết định sự phát triển của đất nước về
nhiều mặt. Mục tiêu phát triển xã hội một cách bền vững đang đặt ra cho giáo dục những
yêu cầu mới. Giáo dục đào tạo có nhiệm vụ định hướng và hoạch định chính sách cho đối
tượng chính của giáo dục là thế hệ trẻ, là lực lượng kế thừa của việc xây dựng, bảo vệ và
phát triển đất nước trong tương lai một cách đúng đắn và kịp thời.
Sự phát triển bùng nổ của Internet trong thế kỷ 21 mang tới sự đa dạng về các
phương tiện trao đổi, thảo luận và chia sẻ các hoạt động xã hội trên toàn thế giới. Các
trang web truyền thông xã hội như Twitter, Facebook, YouTube và các diễn đàn cung cấp
địa điểm tuyệt vời cho sinh viên để chia sẻ niềm vui, nỗi buồn cũng như giải toả cảm xúc
và tìm kiếm sự trợ giúp từ mọi người. Trên nhiều trang web truyền thông xã hội, sinh viên
thảo luận và chia sẻ các vấn đề học tập hàng ngày của họ một cách không gò bó và rất
chân thực. Các dấu chân kỹ thuật số của sinh viên cung cấp một số lượng lớn các kiến
thức tiềm ẩn và một quan điểm hoàn toàn mới cho các nhà nghiên cứu giáo dục để hiểu
được kinh nghiệm của sinh viên bên ngoài môi trường lớp học có kiểm soát. Sự phong
phú của dữ liệu truyền thông xã hội cung cấp cơ hội để hiểu kinh nghiệm của sinh viên,

nhưng cũng đặt ra những khó khăn về phương pháp luận trong việc đưa ra ý nghĩa của dữ
liệu truyền thông xã hội cho mục đích giáo dục. Việc phân tích bằng tay thuần tuý không
thể đối phó với quy mô ngày càng tăng của dữ liệu, trong khi các thuật toán tự động thuần
tuý thường không thể nắm bắt được ý nghĩa sâu sắc trong dữ liệu. Qua việc quan sát và
đánh giá dữ liệu từ các trang diễn đàn của sinh viên, chúng tôi nhận thấy các vấn đề mà
sinh viên gặp phải trong học tập rơi vào một số loại nhất định như các vấn đề về áp lực thi
cử học hành, thiếu nguồn tài liệu tham khảo, lo lắng về định hướng nghề nghiệp, các cảm
xúc tiêu cực và tâm lý đời sống. Căn cứ vào điều này để thấy được sự cần thiết của việc
áp dụng một thuật toán phân lớp đa nhãn đối với miền dữ liệu đa dạng về ngữ nghĩa trên
các phương tiện truyền thông xã hội.
Việc phân lớp dữ liệu có 3 hướng tiếp cận chính là thông qua quy luật, mô hình
hóa và học máy. Trong phương pháp tiếp cận thì học máy có nhiều ưu điểm như không
mất thời gian đưa ra các luật, học từ dữ liệu huấn luyện, dễ dàng mở rộng và tái cấu trúc.
Các bộ phân loại thường sử dụng trong phương pháp học máy là Support Vector
Machine(SVM), Naive Bayes, Maximum Entropy, Decision Tree, Nearest-Neighbors,
Sparse Network of Winnows(SNoW).
Dựa trên sự hiểu biết về các vấn đề, khó khăn trong cuộc sống và kinh nghiệm học
tập của sinh viên, các nhà hoạch định chính sách và các nhà giáo dục có thể đưa ra quyết
định chính xác hơn về sự can thiệp kịp thời và các dịch vụ thích hợp giúp sinh viên vượt
qua rào cản trong học tập. Do đó, chúng tôi tiến hành nghiên cứu đề tài “Khai phá dữ liệu
phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên”, với mục đích
đề xuất một mô hình khai phá dữ liệu hiệu quả cho phân tích các quan điểm, kinh nghiệm
và vấn đề gặp phải trong học tập, đời sống của sinh viên. Dữ liệu cho bài toán này được


2
lấy từ diễn đàn sinh viên của trường Đại học Bách khoa Hà Nội. Bố cục luận văn gồm 4
chương:
Chương 1: Tổng quan về vấn đề nghiên cứu
Giới thiệu khái quát bài toán khai phá quan điểm và bài toán cụ thể với miền tin

tức từ các phương tiện truyền thông xã hội.
Chương 2: Các kiến thức nền tảng
Giới thiệu về các kiến thức nền tảng của bài toán khai phá quan điểm trên thế giới
và phương pháp phân lớp văn bản dựa trên mô hình học máy.
Chương 3: Một mô hình giải quyết bài toán khai phá dữ liệu mạng truyền
thông để hiểu kinh nghiệm học tập sinh viên
Trên các kiến thức cơ sở đã trình bày ở chương 2, đưa ra mô hình áp dụng cho bài
toán khai phá kinh nghiệm học tập của sinh viên trên phương tiện truyền thông xã hội.
Chương 4: Kết quả thực nghiệm
Trình bày quá trình thực nghiệm với công cụ Meka trong gán nhãn dữ liệu và các
kết quả thực nghiệm thu được. Bên cạnh đó, đưa ra các nhận định về nghiên cứu và các
phân tích ưu nhược cũng như các trường hợp lỗi của kết quả thực nghiệm.
Chương 5: Kết luận và hướng phát triển tiếp theo
Tóm lược những nội dung chính đã đạt được của luận văn , đồng thời chỉ ra những
hướng cần khắc phục và đưa ra định hướng nghiên cứu tiếp theo.


56

TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Hà Quang Thuỵ, Đặng Thanh Hải, Nguyễn Cẩm Tú, Nguyễn Việt Cường, Nguyễn
Thu Trang, Nguyễn Thị Thuỳ Linh, Nguyễn Thị Hương Thảo, Trần Thị Oanh
(2006), Nghiên cứu, phân tích và đánh giá các thuật toán lọc văn bản theo nội
dung.
2. Hà Quang Thuỵ, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu
Trang, Nguyễn Cẩm Tú (2009), Giáo trình khai phá dữ liệu Web, Nhà xuất bản
Giáo dục Việt Nam.
Tiếng Anh
3. Amanda Clare, Ross D. King (2003), "Knowledge Discovery in Multi-Label

Phenotype Data," Principles of Data Mining and Knowledge Discovery, vol. 19,
no. 2, pp. 42-49.
4. Ashraf M. Kibriya, Eibe Frank, Bernhard Pfahringer, Geoffrey Holmes (2005), AI
2004: Advances in Artificial Intelligence, Springer Berlin Heidelberg, Berlin,
Germany.
5. Bing Liu (2012), Sentiment Analysis and Opinion Mining, Morgan & Claypool
Publishers, Chicago, United States of America.
6. C. Shearer, (2000), "The CRISP-DM model: the new blueprint for data mining,"
Journal of Data Warehousing, vol. 5, no. 4, pp. 13-22.
7. David M. W. Powers (2011), "Evaluation: From Precision, Recall and F-Factor to
ROC, Informedness, Markedness & Correlation," Journal of Machine Learning
Technologies, vol. 2, no. 1, pp. 37-63.
8. David Taniar, Frank Dehne, Ada Wai Chee Fu, Feng Ling, Graeme Shanks,
Chengqi Zhang (2005), International Journal of Data Warehousing and Mining,
vol. 1, no. 3, pp. 1-14 .
9. Ed Greengrass (2000), Information Retrieval: A Survey, University of Maryland,
United States of America.
10. F¨urnkranz, Johannes (1998), A Study Using n-gram Features for Text
Categorization, Austrian Institute for Artificial Intelligence, Austria.
11. Grigorios Tsoumakas, Ioannis Katakis, Ioannis (2005), Data Mining and
Knowledge Discovery Handbook, Springer, New York.
12. Hiteshri Modi, Mahesh Panchal (2012), "Experimental Comparison of Different
Problem Transformation Methods for Multi-Label Classification using MEKA,"


57
International Journal of Computer Applications (0975 – 8887), vol. 59, no. 15, pp.
10-15 .
13. James Petterson, Tiberio Caetano (2010), "Reverse Multi-Label Learning,” Neural
Information Processing Systems Conference, vol. 23, no. 1, pp. 1912-1920.

14. Jesse ReadEmail, Bernhard Pfahringer, Geoff Holmes, Eibe Frank (2009),
"Classifier chains for multi-label classification," Journal Machine Learning, vol.
85, no. 3, pp. 333-359.
15. Ji Zhu, Hui Zou, Saharon Rosset, Trevor Hastie (2009), "Multi-class AdaBoost,"
Statistics and Its Interface, vol. 2, no. 3, pp. 349-360.
16. Karina Gibert, Miquel Sànchez-Marrè, Víctor Codina (2010), "Choosing the Right
Data Mining Technique: Classification of Methods and Intelligent
Recommendation," International Environmental Modelling and Software Society
(iEMSs), vol. 2, no. 3, pp. 1933-1940.
17. Klaus Krippendorff (2004), "Realiability in content
Communication Research, vol. 30, no. 3, pp. 411-433.

analysis,"

Human

18. Krzysztof Dembczy´nski, Weiwei Cheng, Eyke H¨ullermeier (2010), "Bayes
Optimal Multilabel Classification via Probabilistic Classifier Chains," Proceedings
of the 27th International Conference on Machine Learning (ICML-10), vol. 27, pp.
279-286.
19. Matthew Lombard, Jenifer Snyder-Duch, Cheryl Campanella Bracken (2006),
"Content analysis in mass communication: Assesment and reporting of intercoder
reliability," Human Communication Research, vol. 28, no. 4, pp. 587-604.
20. Marco L. Better (2007), Data Mining Techniques for Prediction and Classification
in Discrete Data Application, ProQuest, United States of America.
21. Mohamed J. Zaki, Wagner Meira JR (2014), Data Mining and Analysis:
Fundamental Concepts and Algorithms, Cambridge University Press, New York,
United States of America.
22. Mohammad S. Sorower (2010), A literature survey on algorithms for multi-label
learning, Oregon State University, Corvallis, United States of America.

23. Rodrigo C. Barros, Márcio P. Basgalupp, Alex A. Freitas (2014), "Evolutionary
Design of Decision-Tree Algorithms Tailored to Microarray Gene Expression Data
Sets," IEEE Transactions on Evolutionary Computation, vol. 18, no. 6, pp. 873892.
24. Ronald E. Walpole, Raymond H. Myers, Sharon L. Myers, Keying Ye (2012),
Probability & Statistics for Engineering and the Sciences Eighth Edition, Duxbury
Press, United States of America.


58
25. Vidhya.K.A, G.Aghila (2010), "A Survey of Naïve Bayes Machine Learning
approach in Text Document Classification," (IJCSIS) International Journal of
Computer Science and Information Security, vol. 7, no. 2, pp. 85-99.
26. Xin Chen, Mihaela Vororeanu, Krisna Madhavan (2014), "Mining Social Media
Data for Understanding Student's Learning Experiences," IEEE Transactions on
Learning Technologies, vol. 7, no. 3, pp. 246-259.



×