Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (905.59 KB, 15 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
THÁI KIM PHỤNG <small>a,*</small>, NGUYỄN AN TẾ <small>a</small>, TRẦN THỊ THU HÀ <small>b</small>
<i><small>a Trường Đại học Kinh tế TP. Hồ Chí Minh b Trường Đại học Kinh tế Quốc dân </small></i> <small>Phân loại ý kiến; Phân loại bằng máy học. </small>
<b><small>Keywords: </small></b>
<small>Opinion mining; Opinion classification; Opinion classification using machine learning. </small>
<small>Nghiên cứu này được tiến hành nhằm ứng dụng phương pháp máy học trong khai thác ý kiến khách hàng trực tuyến. Trước tiên, nghiên cứu này tiến hành thu thập tự động 15.480 ý kiến bình luận của khách du lịch về các khách sạn tại Việt Nam trên trang Agoda.com, sau đó thực hiện huấn luyện các mơ hình máy học để tìm ra mơ hình phù hợp nhất với bộ dữ liệu huấn luyện và áp dụng mơ hình này để dự báo ý kiến cho toàn bộ tập dữ liệu. Kết quả cho thấy các phương pháp Logistic Regression (LR) và Support Vector Machines (SVM) có hiệu suất tốt nhất đối với khai thác ý kiến bằng ngôn ngữ tiếng Việt. Nghiên cứu này có giá trị tham khảo cho các ứng dụng khai thác ý kiến trong lĩnh vực kinh doanh. </small>
<b><small>Abstract </small></b>
<small>The study was conducted to apply supervised machine learning methods in mining online customer reviews. First, the study automatically collects 15,480 traveler reviews on hotels in Vietnam on Agoda.com website. Then, this study conducts the training process with machine learning models in order to find out the best model which is compatible with the training dataset and apply this model to forecast opinions for entire collected data. The results show that Logistic Regression (LR) and Support Vector Machines (SVM) methods have the best performance in Vietnamese language. This study is </small>
<small>* Tác giả liên hệ. </small>
<small>Email: (Thái Kim Phụng), (Nguyễn An Tế), (Trần Thị Thu Hà). </small>
<b><small>Trích dẫn bài viết: Thái Kim Phụng, Nguyễn An Tế, & Trần Thị Thu Hà. (2019). Tiếp cận phương pháp máy học trong khai thác ý kiến </small></b>
<i><small>khách hàng trực tuyến. Tạp chí Nghiên cứu Kinh tế và Kinh doanh Châu Á, 30(10), 27–41. </small></i>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><small>valuable as a reference for applications of opinion mining in the field of business. </small>
<b>1. Giới thiệu </b>
Ngày nay, những tiến bộ của công nghệ thông tin đã làm thay đổi cách thức truyền thông giúp cho khách hàng dễ dàng truy cập thông tin và trao đổi ý kiến về sản phẩm và dịch vụ trên một quy mô lớn trong thời gian thực. Sự ra đời của mạng xã hội và các website đánh giá trực tuyến (như: Agoda, TripAdvisor, Yelp, Amazon...) cho phép khách hàng có cơ hội đưa ra ý kiến của mình thơng qua các bài bình luận về sản phẩm, dịch vụ (Mudambi & Shuff, 2010). Với sự bùng nổ của dữ liệu lớn (Big Data), các ý kiến bình luận của cộng đồng trực tuyến cần được thu thập và khai thác một cách tự động, cho phép các nhà kinh doanh theo dõi hành vi mua sắm, phát hiện sở thích và đánh giá sự hài lòng của khách hàng về chất lượng sản phẩm, dịch vụ. Vì thế, khai thác ý kiến (Opinion Mining) đã trở thành tiêu điểm của rất nhiều nghiên cứu trong các lĩnh vực: Nghiên cứu thị trường (Market Research), kinh doanh điện tử (E-Business), thăm dị chính sách (Political Polls)... (Yadav, 2015). Hiện nay, cộng đồng các nhà khoa học đã có nhiều nghiên cứu về phương pháp khai thác ý kiến cũng như các ứng dụng của khai thác ý kiến ở nhiều mức độ khác nhau. Từ kết quả lược khảo những cơng trình nghiên cứu trong và ngồi nước, tác giả nhận thấy có hai cách tiếp cận phổ biến trong khai thác ý kiến: (1) Dựa vào máy học (Machine Learning), và (2) dựa vào từ vựng (Lexicon) (Medhat và cộng sự, 2014; Dhokrat và cộng sự, 2015; Yadav, 2015; Sun và cộng sự, 2017). Ngoài ra, để gia tăng hiệu suất của việc khai thác ý kiến, các nghiên cứu đã dùng phương pháp lai kết hợp phương pháp máy học và từ vựng (Sun và cộng sự, 2017). Hướng nghiên cứu, phương pháp khai thác ý kiến không phải mới, tuy nhiên, mỗi phương pháp có những ưu và nhược điểm riêng, khơng có phương pháp nào được xem là chính xác tuyệt đối. Đặc biệt, việc áp dụng phương pháp từ vựng trong khai thác ý kiến đối với tiếng Việt là một thách thức lớn đối với các nhà nghiên cứu vì sự phức tạp trong cấu trúc ngôn ngữ, và hiện tại không có nhiều tập từ vựng cảm xúc và cơng cụ xử lý tốt trên ngôn ngữ tiếng Việt. Do vậy, việc áp dụng phương pháp máy học và đánh giá độ chính xác của phương pháp là cần thiết nhằm chọn ra phương pháp phù hợp nhất trong lĩnh vực nghiên cứu thông qua bộ dữ liệu thu thập được.
Mục tiêu của nghiên cứu này nhằm lược khảo các nghiên cứu về khai thác ý kiến và đề xuất ứng dụng phương pháp máy học trong khai thác ý kiến bình luận của khách hàng bằng ngôn ngữ tiếng Việt. Nghiên cứu này áp dụng phương pháp nghiên cứu khai phá tri thức từ dữ liệu, với nguồn dữ liệu được thu thập bằng chương trình tự động, trong đó với 15.480 ý kiến bình luận của khách du lịch về các khách sạn tại Việt Nam trên trang Agoda.com, sau đó, nghiên cứu tiến hành tiền xử lý dữ liệu và huấn luyện bằng các phương pháp máy học để tìm ra mơ hình phù hợp nhất với bộ dữ liệu huấn luyện và áp dụng mơ hình này để dự báo phân loại ý kiến cho toàn bộ tập dữ liệu.
Cấu trúc bài báo này được chia làm 5 phần: Phần 1 trình bày về sự cần thiết của nghiên cứu. Các cơ sở lý luận liên quan đến nghiên cứu được trình bày trong phần 2. Trong phần 3, tác giả tập trung mô tả phương pháp nghiên cứu và các thiết kế thực nghiệm. Kết quả nghiên cứu được trình bày chi
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">tiết trong phần 4. Cuối cùng, kết luận và định hình những nghiên cứu tiếp theo được trình bày trong phần 5.
<b>2. Cơ sở lý thuyết </b>
<i>2.1. Phương pháp khai thác ý kiến </i>
Khai thác ý kiến, hay còn gọi là phân tích cảm xúc (Sentiment Analysis) là lĩnh vực nghiên cứu nhằm phân tích, đánh giá nhận định của con người về các đối tượng như: Sản phẩm, dịch vụ, tổ chức, cá nhân, sự kiện, chủ đề và các thuộc tính của chúng (Pang & Lee, 2008; Liu, 2012). Một quy trình khai thác ý kiến thường gồm ba bước chính: (1) Thu thập ý kiến (Opinion Retrieval), (2) Phân loại ý kiến (Opinion Classification), và (3) Tổng hợp ý kiến (Opinion Summarization) (Ali, 2015; Kumar & Reddy, 2016). Trong đó, phân loại ý kiến được xem là bước quan trọng nhất nhằm mục đích phân lớp ý kiến theo các quan điểm: Lạc quan, tích cực (Positive); bi quan, tiêu cực (Negative); và trung lập (Neutral). Theo Liu (2012), khai thác ý kiến được chia thành ba mức độ: (1) Mức tài liệu (Document Level), ở mức khai thác này, giả định mỗi tài liệu thể hiện ý kiến về một thực thể đơn. Vì vậy, các phân tích sẽ khơng thể áp dụng được cho những tài liệu đề cập đến nhiều đối tượng; (2) mức câu (Sentence Level), ở mức khai thác này, giả định mỗi câu thể hiện ý kiến về một đối tượng, tuy nhiên, các phân tích sẽ bỏ qua những câu có nhiều mệnh đề, mỗi mệnh đề thể hiện ý kiến về các đối tượng khác nhau; và (3) mức thực thể, khía cạnh (Entity/Aspect Level), thay vì khai thác ý kiến theo cấu trúc ngôn ngữ (tài liệu, câu, mệnh đề...), mức phân tích này xem xét ý kiến theo mục tiêu (Target), mục tiêu của ý kiến có thể là đối tượng hoặc khía cạnh (thuộc tính) của đối tượng. Ngày nay, với sự bùng nổ của dữ liệu lớn, phương pháp khai thác ý kiến tự động dựa trên cơng cụ máy tính trở nên quan trọng trong nhiều lĩnh vực kinh tế - xã hội. Trong lĩnh vực kinh doanh, khai thác ý kiến cho phép các nhà quản trị có thể xác định điểm mạnh và điểm yếu của sản phẩm và dịch vụ, phân tích các mối đe dọa từ đối thủ cạnh tranh, hỗ trợ ra quyết định và quản lý rủi ro. Ngược lại, khách hàng cũng cần khai thác ý kiến đánh giá trực tuyến để đưa ra quyết định về việc mua sản phẩm, dịch vụ (Lee và cộng sự, 2011). Một ứng dụng khác của khai thác ý kiến là trong lĩnh vực chính quyền thơng minh (Government Intelligence) (Pang & Lee, 2008), ở đó cho phép chính phủ có thể theo dõi ý kiến của người dân về các chính sách cơng vì các ý kiến cơng chúng rất quan trọng trong việc ra quyết định của chính phủ. Bên cạnh đó, chính phủ có thể dự đốn những gì cơng chúng đang nghĩ đến về các đề xuất liên quan đến chính sách và luật pháp (Stylios và cộng sự, 2010). Khai thác ý kiến cũng có ứng dụng tiềm năng trong phân tích tin tức. Phương pháp này giúp phân tích nội dung chứa cảm xúc trong tin tức và làm nổi bật những tin tức tương tự hoặc bị trùng lặp (Wanner và cộng sự, 2009), hoặc xác định xu hướng trong nội dung tin tức. Mặt khác, người đọc có thể tìm thấy các bài viết phổ biến nhất, được thảo luận nhiều nhất, hoặc được trích dẫn nhiều nhất. Khai thác ý kiến cũng có thể được bổ sung cho các hệ tư vấn thông tin (Recommender Systems) để đề xuất các sản phẩm được phản hồi tích cực và không nên giới thiệu các danh mục nhận được nhiều phản hồi tiêu cực (Pang & Lee, 2008). Khai thác ý kiến cũng được ứng dụng nhằm cải thiện hệ thống giáo dục dựa trên sự phân tích cảm xúc của người học về các khóa học, cơ sở đào tạo và giáo viên (Binali và cộng sự, 2009).
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><i>2.2. Kỹ thuật phân loại ý kiến </i>
Phân loại ý kiến là một kỹ thuật khai thác dữ liệu dạng văn bản (Text Mining) trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing). Có hai cách tiếp cận phổ biến trong phân loại ý kiến: Dựa vào phương pháp máy học (Machine Learning), dựa vào từ vựng (Lexicon Based) (Medhat và cộng sự, 2014; Dhokrat và cộng sự, 2015; Yadav, 2015; Sun và cộng sự, 2017). Ngoài ra, để gia tăng hiệu suất của việc phân loại ý kiến, các nghiên cứu đã dùng phương pháp lai kết hợp hai phương pháp máy học và từ vựng.
Phương pháp tiếp cận máy học đóng một vai trò quan trọng trong việc khai thác ý kiến. Naive Bayes (NB), Support Vector Machine (SVM) là các mô hình máy học có giám sát (Supervised Learning) được sử dụng phổ biến nhất (Shawe-Taylor & Sun, 2011). Tuy nhiên, với những tình huống đa lĩnh vực (Cross-Domain) hoặc đa ngơn ngữ (Cross-Lingual), kết quả huấn luyện không thể đem áp dụng cho lĩnh vực khác hoặc ngôn ngữ khác. Latent Dirichlet Allocation (LDA) (Blei và cộng sự, 2003) là một mơ hình học bán giám sát (Semi-Supervised Learning) được đề xuất sử dụng để giải phóng sự phụ thuộc vào ngôn ngữ.
Phương pháp tiếp cận từ vựng xác định loại của một văn bản dựa trên tập từ vựng cảm xúc. Tập từ vựng là một từ điển bao gồm các từ và cụm từ cảm xúc cùng với phân loại của chúng (tích cực, tiêu cực, hoặc trung lập). Phân loại cho toàn bộ câu hoặc văn bản được xác định bằng cách tính tốn tổng hợp dựa trên phân loại của các từ hoặc cụm từ trong câu hoặc văn bản đó.
<b>Hình 1. Kỹ thuật phân loại ý kiến (Medhat và cộng sự, 2014) </b>
<i>2.3. Các công cụ và kho ngữ liệu hỗ trợ khai thác ý kiến </i>
Phân loại ý kiến là một kỹ thuật xử lý ngơn ngữ tự nhiên. Hiện tại, có rất nhiều công cụ hỗ trợ khai thác ý kiến. Dựa trên các nghiên cứu tổng hợp của các tác giả (Dhokrat và cộng sự, 2015; Yadav, 2015; Sun và cộng sự, 2017), các công cụ được liệt kê trong Bảng 1 sau.
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><b>Bảng 1. </b>
Các công cụ khai thác ý kiến
<small>STT Tên công cụ Mục đích sử dụng Website tham khảo 1 Natural </small>
<small>Language Toolkit (NLTK) </small>
<small>Để xử lý văn bản, phân loại (Classification), mã hóa (Tokenization), đưa về từ gốc (Stemming), gán nhãn từ loại (Tagging), phân tích cú pháp (Parsing), cung cấp giao diện dễ sử dụng với hơn 50 tài nguyên nội dung và từ vựng. </small>
<small> </small>
<small>2 GATE Hữu ích trong việc phát triển một đường ống (Pipeline). Các module phân tích ngơn ngữ cho các ngơn ngữ khác nhau được đóng góp bởi các nhà phát triển. Chúng có sẵn để được sử dụng tích hợp vào đường ống. </small>
<small> </small>
<small>3 CoreNLP Thực hiện các tác vụ xử lý ngôn ngữ tự nhiên phổ biến nhất, chẳng hạn như: Gán nhãn loại từ (Part-of-Speech Tagging), trích xuất thực thể đã gán tên (Named Entity Extraction), xác định cụm từ (Chunking) và đồng tham chiếu (Co-Reference). </small>
<small> corenlp.html </small>
<small>4 OpenNLP Là một thư viện JAVA dùng để xử lý ngôn ngữ tự nhiên, hỗ trợ các tác vụ phổ biến, bao gồm: Mã hóa, phân tách câu, gán nhãn loại từ, nhận dạng đối tượng, phân tích cú pháp. </small>
<small> </small>
<small>5 LINGPIPE Được sử dụng để xử lý ngôn ngữ văn bản, bao gồm: Phân cụm (Clustering), phân loại (Classification), và trích xuất thực thể (Entity Extraction). </small>
<small> </small>
<small>6 GENSIM Là một thư viện mã nguồn mở cho mơ hình chủ đề (Topic Models), bao gồm: Latent Semantic Analysis (LSA), Latent Dirichlet Allocation (LDA), Random Projection, Hierarchical Dirichlet Process. </small>
<small> </small>
<small>7 OPINIONFINDER </small>
<small>Nhằm mục đích xác định các câu chủ quan và đánh dấu các khía cạnh khác nhau của tính chủ quan trong các câu này, bao gồm: Người đưa ra ý kiến chủ quan, và các từ nằm trong cụm từ thể hiện cảm xúc tích cực hoặc tiêu cực. </small>
<small> opinionfinder/ </small>
<small>8 WEKA Các thuật toán khai thác dữ liệu, tiền xử lý dữ liệu, phân loại, phân cụm, hồi quy, luật kết hợp, trực quan hóa. </small>
<small> weka/ </small>
<small>9 PATTERN Khai thác dữ liệu, gán nhãn từ loại, phân tích cảm xúc, WordNet, máy học, phân tích mạng, trực quan hóa. </small>
<small> </small>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><small>STT Tên cơng cụ Mục đích sử dụng Website tham khảo 10 VnTokenizer Là công cụ chuyên dùng tách từ, gán nhãn từ </small>
<small>loại cho tiếng Việt, được phát triển bởi Le và cộng sự (2008). VnTokenizer được viết bằng JAVA, có thể sử dụng như Tools Command Line hoặc Programming. </small>
<small> phuonglh/softwares/vnTokenizer </small>
<small>11 JVnTextPro Là cơng cụ tách từ có thể nhận biết được các danh từ riêng, các từ đơn và từ ghép với độ chính xác trung bình khá cao. </small>
<small> jvntextpro/ </small>
<small>12 VNLP Là một khung phân tích, xử lý ngơn ngữ tiếng Việt, bao gồm: Các cơng cụ dịng lệnh, plugin cho các ứng dụng GATE. VNLP có thể thực hiện: Phân loại từ, gán nhãn, phân tích cú pháp, nhận dạng thực thể có tên, được phát triển bởi Le và cộng sự (2013). </small>
<small> </small>
<small>13 VnCoreNLP Hỗ trợ các tác vụ xử lý ngơn ngữ tự nhiên chính, bao gồm: Phân đoạn từ, gán nhãn loại từ (POS), nhận dạng thực thể có tên (NER), và phân tích cú pháp tiếng Việt. </small>
<small>Là bộ các module Python, tập dữ liệu và hướng dẫn mã nguồn mở hỗ trợ nghiên cứu và phát triển trong Xử lý ngôn ngữ tự nhiên tiếng Việt. </small>
<small> </small>
Kho ngữ liệu (Lexicons) rất quan trọng cho cả phương pháp dựa trên từ vựng và phương pháp máy học. Sun và cộng sự (2017) đã tổng hợp một số kho ngữ liệu thường dùng phổ biến trong các nghiên cứu về khai thác ý kiến (xem Bảng 2). Các nhà nghiên cứu, xử lý ngôn ngữ tiếng Việt trong nước thường sử dụng bộ từ điển VietSentiWordNet với hơn 1.000 từ vựng cảm xúc.
<b>Bảng 2. </b>
Kho ngữ liệu hỗ trợ khai thác ý kiến
<small>STT Kho ngữ liệu Ngôn ngữ Mô tả </small>
<small>1 Bing Liu’s Opinion Lexicon Tiếng Anh Phiên bản mới nhất bao gồm 4.783 từ tiêu cực (Negative) và 2.006 từ tích cực (Positive). 2 MPQA Subjectivity Lexicon Tiếng Anh Từ điển này bao gồm 8.222 từ thể hiện quan </small>
<small>điểm (mạnh hoặc yếu), được gán nhãn loại từ và phân cực (tích cực hoặc tiêu cực). </small>
<small>3 SentiWordNet Tiếng Anh SentiWordNet kết hợp các từ với các điểm số, trong khoảng [0, 1] thể hiện tính tích cực, tiêu cực và trung tính. </small>
<small>4 Harvard General Inquirer </small>
<small>Tiếng Anh Harvard General Inquirer có 182 loại bao gồm các chỉ số thể hiện tích cực và tiêu cực. Trong đó: 1.915 từ tích cực, và 2.291 từ tiêu cực được đánh dấu. </small>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><small>STT Kho ngữ liệu Ngôn ngữ Mô tả </small>
<small>5 LIWC Tiếng Anh Linguistic Inquiry Word Counts (LIWC) cung cấp nhiều cụm từ thông dụng được phân loại liên quan đến cảm xúc. </small>
<small>6 HowNet Tiếng Trung/Anh HowNet cung cấp từ vựng tiếng Trung/Anh cho phân tích cảm xúc, bao gồm 8.942 từ tiếng Trung và 8.945 từ tiếng Anh. </small>
<small>7 NTUSD Tiếng Trung Cung cấp 2.812 từ tích cực và 8.276 từ tiêu cực trong tiếng Trung giản thể và tiếng Trung truyền thống. </small>
<small>8 VietSentiWordNet Tiếng Việt Bộ từ điển cảm xúc tiếng Việt với hơn 1.000 từ. </small>
<b>3. Phương pháp nghiên cứu </b>
Nghiên cứu này được tiến hành theo phương pháp khai phá tri thức từ dữ liệu KDD (Knowledge Discovery in Databases). Các bước trong quy trình nghiên cứu được thực hiện như trong Hình 2. Môi trường thực nghiệm được cài đặt bằng ngơn ngữ lập trình Python với sự hỗ trợ của công cụ tách từ Python Vietnamese Toolkit (dành cho ngơn ngữ tiếng Việt) và các thư viện có sẵn.
<b>Thu thập và tiền xử lý dữ liệu </b>
Nghiên cứu này đã tiến hành thu thập dữ liệu bằng chương trình tự động, dữ liệu lấy từ trang Agoda.com. Đây là phương pháp thu thập nội dung tự động từ các trang HTML của bất kỳ tài nguyên Internet bằng các chương trình hoặc mã lệnh đặc biệt. Với đối tượng và phạm vi nghiên cứu hướng đến là ngơn ngữ tiếng Việt, do đó, dữ liệu chỉ sử dụng những bình luận của khách hàng bằng tiếng Việt. Tiếp đến, nghiên cứu đã tiến hành tiền xử lý dữ liệu bằng cách loại bỏ những dữ liệu khuyết, những bình luận khơng chứa đựng thông tin cần thiết để tiến hành bước xử lý tiếp theo.
<b>Bước 1. Gán nhãn dữ liệu (Data Labeling) </b>
Bước này nhằm chuẩn bị tập dữ liệu đã được gán nhãn (hay đã được phân loại) đủ lớn để đưa vào làm tập dữ liệu huấn luyện. Thông thường đối với các nghiên cứu ứng dụng phương pháp máy học, tập dữ liệu này sẽ được xây dựng bằng thủ công. Tuy nhiên, trong nghiên cứu này, sau khi xem xét ngẫu nhiên nội dung của tập dữ liệu bình luận đã thu thập được và dựa vào kết quả điểm đánh giá (trường rating trong tập dữ liệu), nghiên cứu này nhận thấy các bình luận có điểm đánh giá nhỏ hơn 7,0 mang ý nghĩa tiêu cực (Negative), và ngược lại, các bình luận có điểm đánh giá lớn hơn 7,0 mang ý nghĩa tích cực (Positive). Do đó, tập dữ liệu huấn luyện được xác định có 15.480 bình luận, trong đó có 4.772 bình luận là tiêu cực (được gán nhãn 0) và 10.708 bình luận là tích cực (được gán nhãn 1).
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><b>Hình 2. Quy trình nghiên cứu Bước 2. Làm sạch dữ liệu (Data Cleaning) </b>
Bước này tiến hành làm sạch dữ liệu trước khi bắt đầu xử lý trên tập dữ liệu, bao gồm một số công đoạn xử lý ngôn ngữ tự nhiên như loại bỏ hư từ (Stop Words), hoặc kiểm tra chính tả…
<b>Bước 3. Tách từ (Words Segmentation) </b>
Bước này rất quan trọng trong việc xử lý ngôn ngữ tự nhiên, và đặc biệt đối với ngơn ngữ Tiếng Việt vì có nhiều từ ghép, tách từ theo nhiều cách khác nhau có thể sẽ gây ra sự nhập nhằng về mặt ngữ nghĩa. Nghiên cứu này kế thừa bộ thư viện tách từ Python Vietnamese Toolkit.
<b>Bước 4. Trích xuất đặc trưng (Feature Extraction) </b>
Bước này sẽ chọn ra các đặc trưng tiêu biểu (chính là các từ khóa - Keywords) có tính đại diện cho tập dữ liệu để làm đầu vào (Input) cho thuật toán phân loại. Nghiên cứu này lựa chọn từ khóa theo phương pháp TF-IDF (Term Frequency/Inverse Document Frequency), giá trị TF-IDF của một
mơ hình <sup>Dự báo phân loại </sup>
Dữ liệu được phân loại Từ điển Stopwords
Từ điển tiếng Việt Thu thập và tiền xử lý dữ liệu
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">từ khóa là một con số thu được qua thống kê thể hiện mức độ quan trọng của từ khóa này trong một
<i>bình luận. TF-IDF của từ khóa w<small>i</small> trong bình luận d được tính bằng cơng thức sau: </i>
𝑡𝑓_𝑖𝑑𝑓<sub>!"</sub>= 𝑓<sub>!"</sub>× log<sup>𝑁</sup> 𝑛<sub>!</sub>
<i>Trong đó: f<small>id</small> : Tần suất xuất hiện của từ khóa w<small>i</small> trong bình luận d, </i>
<i>N: Tổng số bình luận </i>
<i>n<small>i</small> : Số bình luận mà có từ khóa w<small>i</small></i> xuất hiện.
<b>Bước 5. Huấn luyện mơ hình phân loại ý kiến </b>
Đây là giai đoạn quan trọng nhất của một nghiên cứu khai thác ý kiến, nhằm mục đích xác định một bình luận của khách hàng là “tích cực” hay “tiêu cực”. Nghiên cứu này ứng dụng một số thuật tốn phân loại thuộc nhóm máy học giám sát (Supervised Machine Learning) được cho là tốt nhất, dựa trên kết quả tổng hợp từ các nghiên cứu trước có liên quan đến đề tài để tìm ra mơ hình phù hợp nhất đối với tập dữ liệu là các bình luận đã được phân loại, từ đó, tiến hành dự báo cho các dữ liệu bình luận chưa được phân loại hoặc các dữ liệu bình luận mới phát sinh mà khơng cần phải huấn luyện lại. Quá trình huấn luyện được tiến hành theo 2 cách:
- Cách 1: Dùng phương pháp Hold-Out, chia ngẫu nhiên dữ liệu thành 2 tập con theo quy tắc thông thường: 70% dữ liệu huấn luyện, và 30% dữ liệu dùng để kiểm thử.
- Cách 2: Dùng phương pháp K-Fold, chia ngẫu nhiên dữ liệu thành K tập con không giao nhau. Mỗi thực nghiệm (trong số K lần), một tập con được sử dụng làm tập kiểm thử, và (K-1) tập con còn lại được dùng làm tập huấn luyện. Nghiên cứu này sử dụng K=5.
<b>Hình 3. Phương pháp K-Fold </b>
<small>Ghi chú: Performance1, Performance2, Performance3, Performance4 , Performance5: Là hiệu suất của mỗi lần thực nghiệm. Performance: Là hiệu suất trung bình của 5 lần thực nghiệm. </small>
<small>K Iterations: Lặp lại K lần. </small>
<small>Validation Fold: Tập dữ liệu dùng để kiểm thử. Training Fold: Tập dữ liệu dùng để huấn luyện. </small>
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><b>Bước 6. Đánh giá mơ hình phân loại </b>
Nghiên cứu này dùng cách đánh giá phổ biến là dựa trên các chỉ số tính tốn trong ma trận sai lầm
<b>(Confusion Matrix) như Bảng 3. </b>
<b>Bảng 3. </b>
Ma trận sai lầm (Confusion Matrix)
Thơng thường, hiệu quả của mơ hình phân loại ý kiến được đánh giá dựa trên 4 chỉ số: Độ chính xác (Accuracy), Độ hội tụ (Precision), Độ bao phủ (Recall), và Giá trị trung bình điều hịa (F1). Ngoài ra, nghiên cứu này cũng xét đến yếu tố thời gian huấn luyện (Time) của từng mơ hình.
<b>4. Kết quả nghiên cứu </b>
<i>4.1. Kết quả thu thập và tiền xử lý dữ liệu </i>
Kết quả thu thập dữ liệu được 15.480 bình luận bằng tiếng Việt của 551 khách sạn ở 41 tỉnh thành. Dữ liệu được phân bố như trong Bảng 4 sau:
</div>