Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.54 MB, 20 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<small>HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG</small>
<small>Chun ngành: Hệ thống thơng tinMã số: 60.48.01.04</small>
<small>TOM TAT LUẬN VĂN THẠC SĨ</small>
<small>HÀ NỘI - 2015</small>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><small>Luận văn được hồn thành tại:</small>
<small>văn thạc sĩ tại Học viện Cơng nghệ Bưu chính Viễnthơng</small>
<small>Vào lúc: ... gid</small>
<small>Có thê tìm hiéu luận van tại:</small>
<small>- Thu viện cua Học viện Công nghệ Bưu chính</small>
<small>Viễn Thơng</small>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">MỞ ĐẦU
Ngày nay với sự bùng nỗ của Internet và đặc biệt là các
trang mạng xã hội đã khiến việc bày tỏ quan điểm cá nhân
một cách công khai trở nên rất dễ dàng. Bài toán phân loại
ý kiến khách hàng về sản phẩm hay dịch vụ dựa trên khai
phá dữ liệu đã nhận được sự quan tâm của nhiều nhà nghiên cứu gần đây cả trong nước là quốc tế. Nhiều kỹ thuật đã được đề xuất, trong đó SVM đã được áp dụng
trên nhiều cơng trình nghiên cứu, ứng dụng và thu được
những kết quả khả quan
Ở Việt Nam, mạng xã hội Facebook đang ngày càng được
<small>sử dụng rộng rãi, Theo báo cáo cua We are social, tính</small>
đến tháng 1 năm 2014, Việt Nam có khoảng 20 triệu
người dùng Facebbook.. Ý kiến của người dùng Facebook ngày càng có sức ảnh hưởng lớn đến cộng đồng. Vì vậy dé tài thực hiện khảo sát ý kiến đánh giá điểm du lịch Hạ
Long từ trang mạng xã hội Facebook nhằm thu thập những ý kiến khách quan về dịch vụ du lịch tại đây.
Với những lý do trên, dé tài “Khảo sát ý kiến đánh giá địa điểm du lịch Ha Long từ các mạng xã hột” tiễn hành
tìm hiểu các kỹ thuật phân loại ý kiến, thu thập dữ liệu từ
Facebook va sử dung kỹ thuật SVm dé thực nghiệm.
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><small>Luận văn gơm 3 chương chính với nội dung như sau:</small>
văn bản. Trình bày khái quát về khai phá dữ liệu; tập
trung vào khái niệm và các phương pháp tiếp cận cho bài
toán phân loại ý kiến; đưa ra một số đặc trưng cơ bản của
<small>tiêng Việt và so sánh với tiêng Anh.</small>
ý kiến. Trình bày một số kỹ thuật máy học sử dụng trong
phân loại ý kiến; so sánh các kỹ thuật và tập trung vào
<small>nghiên cứu phương pháp máy vectơ hỗ trợ (SupportVector Machine).</small>
<small>Chương 3: Thử nghiệm và đánh giá. Xây dựng các pha</small>
tiến hành phân lớp ý kiến; thử nghiệm nhiều lần với kích
kết quả nhận được.
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><small>1.1 Khai phá dữ liệu và khai phá dữ liệu văn bản</small>
<small>1.1.1 Khai phá dit liệu (Data Mining)</small>
<small>Khai pha dữ liệu còn được gọi là khám pha tri thứctrong cơ sở dữ liệu (KDD). Nó thường được định nghĩa là</small>
<small>q trình khám phá các mẫu (pattern) hữu ích hay tri thức</small>
(knowledge) tiềm An từ các nguồn dữ liệu lớn, như cơ sở
<small>dữ liệu, các văn bản, hình ảnh, Web, vv Các thơng tin phảicó giá tri, hữu ích và dé hiêu.</small>
Q trình khai phá dữ liệu bao gồm 3 bước: Tiền xử
<small>lý, khai phá đữ liệu và hậu xử lý.</small>
<small>1.1.2 Khai phá dit liệu van ban (Text Mining)</small>
<small>Khai pha dữ liệu van ban hay phát hiện tri thức từ</small>
các cơ sở dit liệu văn bản (textual databases) đề cập đến tiễn trình tự động trích lọc các mẫu thơng tin hay tri thức
<small>mà người dùng quan tâm hoặc có giá tri từ các tài liệu văn</small>
bản phi cấu trúc. Quá trình này có thể được coi là q trình mở rộng của khai phá dữ liệu truyền thống. Quy
<small>trình khai phá dữ liệu dạng văn bản cũng tuân theo quy</small>
<small>trình chung của khai phá dữ liệu.</small>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">1.2 Khai phá quan điểm và bài toán phân loại ý kiến
1.2.1 Khai phá quan điểm
Theo Dave và cộng sự, khai phá quan điểm là quá
trình tự động xử lý các kết quả tìm kiếm về một đối tượng
cụ thé, đưa ra danh sách các thuộc tính của đơi tượng (chất lượng, thuộc tính...) và các ý kiến tổng hợp liên quan (tốt,
1.2.2 Bài tốn phân loại ý kién
Phân loại ý kiến chính là việc phân tích tâm lý hoặc
khai phá quan điểm đề cập đến ứng dụng xử lý ngôn ngữ tự nhiên và phân tích văn bản nhằm mục đích xác định thái độ và quan điểm của một người đối với một chủ đề
nhất định (là Tích cực hay Tiêu cực).
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">1.2.3 Các hướng tiếp cận cho bài toán phân loại ý kiến
<small>1.2.3.1 Phân loại dựa trên các cụm từ chỉ cảm xúc</small>
<small>1.2.3.2 Phân loại sử dụng các phương pháp phân loại văn</small>
1.2.3.3 Phân loại sử dụng hàm tính điểm
1.3.1 Một số đặc trưng của văn bản tiếng Việt
Tiếng Việt thuộc ngôn ngữ đơn lập (isolate), tức là
mỗi một tiếng (âm tiết) được phát âm tách rời nhau và
<small>được thê hiện băng một chữ việt, có một sơ đặc diém:</small>
e Đặc điểm ngữ âm: Don vị nhỏ nhất tong tiếng Việt là “tiếng”, các âm tiếng Việt đều mang | trong 6
e Đặc điểm từ vựng: Mỗi tiéng, nói chung, là một u tố có nghĩa. “từ” trong tiếng Việt khơng chỉ giới hạn bởi các tiếng, ranh giới từ không xác định mặc
nhiên bằng khoảng trăng.
e Đặc điển ngữ pháp: Từ của tiéng Việt khơng biến
đối hình thái. Khi kết hợp từ thành các kết cấu như
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">ngữ, câu, phương thức ngữ pháp chủ yếu trong tiếng Việt là trật tự từ và hư từ. Ngoài ra tiếng Việt
<small>còn sử dụng phương thức ngữ điệu.</small>
Tiếng Việt và tiếng Anh có nhiều điểm khác biệt:
<small>1.3.3 Thuật toán tách từ Maximum Matching</small>
<small>Phương pháp so khớp cực đại (Maximum matching)</small>
<small>có ý tưởng chính là duyệt một câu từ trái sang phải và</small>
chọn từ có nhiều âm tiết nhất trong từ điển và cứ thực hiện lặp lại như vậy cho đến hết câu.
1.4 Kết luận chương
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">2.1 Một số phương pháp phân loại văn bản
2.1.1 Máy học vectơ hỗ trợ (Support Vector Machine)
<small>SVM là một phương pháp học có giám sat dựa trên</small>
lý thuyết học thống kê. Mục đích của SVM là sử dụng thuật toán học nhằm xây dựng một siêu phang làm cực tiêu hóa độ phân lớp sai của một đối tượng dit liệu mới.
2.1.2 K láng giéng gan nhất (K-Nearest Neighbor)
<small>Phương châm của phương pháp này là “làm như lang</small>
giềng làm”. Tức là, khi cần phân loại một văn bản mới, thuật tốn sẽ tính khoảng cách của tất cả các văn bản trong
có trọng số cao nhất.
<small>2.1.3 Bayes đơn giản (Naive Bayes)</small>
<small>Naive Bayes là một phương pháp phân loại có giám</small>
tưởng của phương pháp là sử dụng xác suất có điều kiện
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><small>giữa từ va chu đê dé dự đoán xác suât chủ dé của một văn</small>
bản cân phân loại.
<small>2.1.4 Mạng noron (Neural Network)</small>
<small>Neural Network được nghiên cứu mạnh trong hướng</small>
trí tuệ nhân tạo. NNet học cách ánh xạ phi tuyến tính những yếu tố đầu vào như từ, hay mơ hình vectơ của một
văn bản vào một chủ đề cụ thể.
<small>2.2 So sánh, đánh giá các phương pháp</small>
Các thuật toán phân loại trên đều có điểm chung là yêu cau văn bản phải được biéu diễn dưới dang vector đặc
<small>trưng. Sau khi học hỏi từ các cơng trình nghiên cứu sẵn có</small>
Anh và tiếng Việt, nhận thấy SVM là kỹ thuật có nhiều ưu điểm và nhận được nhiều quan tâm nghiên cứu nên đã tập trung và lựa chọn SVM làm hướng tiếp cận cho bài toán
phân loại ý kiến của mình.
2.3.1 Biểu diễn các comment dưới dang vector đặc trưng
<small>Trong khai phá văn bản môi tài liệu được biêu diễn</small>
<small>dưới dạng vector, gọi là vector đặc trưng. Luận văn biêu</small>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><small>diễn mỗi comment dưới dạng vector đặc trưng, trong đó,</small>
mỗi thành phan của vector là các từ đặc trưng có trọng số
được tính băng công thức TFxIDE:
<small>2.3.2 Thuật toán SVM</small>
Thuật toán SVM cơ bản được thiết kế cho bài toán
<small>phân lớp nhị phần</small>
<small>{(x, yi) |i= 1, ..., n} với x; € RTM và y; € {-1, 1}. Trong đó</small>
giá tri cua y; xác định lớp ma điểm x; thuộc về. Một siêu phang phân tách dữ liệu huấn luyện thành hai lớp phân
<small>biệt như sau:</small>
<small>fx)=w.x+b=0 (2.3)Việc phân loại nhãn cho mot điêm dữ liệu mới chi làviệc kiêm tra hàm dâu:</small>
<small>h(x) = s¡ign(w. x + b) (2.7)</small>
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">2.3.3 SVM với bài toán phân loại ý kién
<small>Mỗi ý kiến được biểu diễn dưới dạng vectơ đặc</small>
<small>trưng mà các thành phân của vectơ có trọng sơ được tính</small>
băng cơng thức (2.2). Tiến hành 2 lần phân lớp: Lần 1: Phân lớp cho lớp Tích cực
Lần 2: Phân lớp cho lớp Tiêu cực
Luận văn sử dụng hàm nhân RBEF dé hỗ trợ phân lớp. 2.5 Kết luận chương
<small>3.1 Các pha xử lý của ứng dụng</small>
Bài toán phân loại ý kiến đánh giá địa điểm du lịch vịnh Hạ Long mà luận văn đề cập được phát biéu như sau:
e Input: Tập dữ liệu đánh giá về địa điểm du lịch vịnh Hạ Long dưới dạng văn bản, được lay tu mang
<small>xã hội Facebook</small>
e Output: Xác định nhãn lớp cho từng ý kiến là Tích
<small>cực, Tiêu cực hay Khơng xác định</small>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13"><small>Hình 3.1: Các pha tiến hành phân lớp ý kiến</small>
3.2 Chỉ tiết các pha thực hiện
<small>3.2.1 Thu thập dữ liệu</small>
Bước 1: Hỏi ý kiến du khách. Bước 2: Lay di liệu về máy.
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">3.2.2 Tiên xứ lý dữ liệu
<small>Tiên xử lý dữ liệu bao gôm các phân: Loại bỏ các ký</small>
<small>tự đặc biệt và các chữ sô, tách từ, loại bỏ từ dừng, từ</small>
<small>khơng có ý nghĩa trong phân loại.</small>
Bước 1: Thay thể các icon bằng các cụm từ có ý
<small>nghĩa tưong đương.Bước 2: Tách từ.</small>
Bước 3: Xử lý một số trường hợp từ gây ngược
<small>Bước 4: Loại bỏ từ dừng và kỹ tự đặc biỆt.</small>
3.2.3 Biểu diễn TFxIDF
Ứng dụng tiến hành tính trong số từ khóa TFxIDE.
<small>Mơi ý kiên được biêu dién trên một dòng và dưới dạng</small>
<small>vectơ như sau:</small>
<small><lable> <index1>:<valuel> <index2>:<value2>... <indexn>:<value n></small>
Các vecto nay được lưu vào file txt dé làm đầu vào
3.2.4 Huấn luyện bộ phân lop SVM
Sau hai lần phân lớp, một ý kiến Ci sẽ được xác định
<small>e Các trường hợp còn lại, tức là C; không thuộc lớpnào trong hai lớp hoặc C; thuộc cả 2 lớp => nhãnKhông xác định</small>
<small>3.3 Cài dat thử nghiệm</small>
3.3.1 Cấu hình máy và cơng cụ sử dụng
e Cấu hình máy: hệ điều hành Microsoft Windows 7;
<small>Bộ xử lý: Intel(R) Core(TM) 15 — CPU M2450 @2.50GHz, RAM 4.0GB.</small>
e Luận văn xây dựng ứng dụng bằng ngôn ngữ C#
<small>e Gói Facebook SDK cho .NET (facebooksdk.net),</small>
được cung cấp trực tiếp qua nuget.org
<small>e Thư viện JiBSVM.</small>
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16"><small>3.3.2 Phương pháp đánh giá hiệu quả phân lớp</small>
Hiệu quả (hay độ chính xác) của hệ thống phân lớp,
<small>được đánh giá bởi các công thức sau:</small>
<small>e FP (False Positive): Tỷ lệ tích cực sai.</small>
<small>e FN (False Negative) : Ty lệ tiêu cực sai.</small>
Tiến hành thực nghiệm với 1213 ý kiến đánh giá về địa điểm du lịch vịnh Hạ Long. Chạy thử nghiệm 7 lần với kích thước tập huấn luyện và tập kiêm thử có ty lệ lần
<small>lượt là: 90% - 10%, 80% - 20%, 65% - 35%, 50% - 50%,</small>
<small>như sau:</small>
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">3.3.4 Đánh giá kết quả thực nghiệm
Sau 7 lần thực nghiệm với kích thước tập huấn luyện
và tập kiểm thử khác nhau, luận văn nhận được kết quả tốt
nhất là 76.88% tại lần thử nghiệm thứ 2, tập huấn luyện chiếm 80% dữ liệu và tập kiểm thử chiếm 20% dữ liệu.
Trường hợp thấp nhất là lần thử nghiệm thứ 7, trong đó
tập huấn luyện chỉ chiếm 10% tổng dữ liệu. Độ phủ trung bình tốt nhất đạt được là 79.14% ở lần thử nghiệm thứ 4.
Độ chính xác trung bình cao nhất là 77.41%, nhận được ở
lần thử nghiệm thứ 2.
<small>So sánh giữa ba nhãn lớp, tỷ lệ phân loại đúng cholớp Tích cực khá cao: >84%. Ty lệ phân loại đúng cho lớp</small>
Tiêu cực chấp nhận được: >73%. Ty lệ phân loại ý kiến
<small>Nhìn chung, tập dữ liệu càng lớn thì hiệu quả đạt</small>
giảm, độ chính xác và hiệu suất F-score cũng giảm ro tỆt.
4 lần thực nghiệm đầu (F-score trung bình đạt >75%) và 3 lần thử nghiệm cuối (F-score trung bình đạt <70%).
3.4 Kết luận chương
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">KET LUẬN
Luận văn tiến hành khảo sát và phân tích các kỹ thuật thường dùng cho phân loại ý kiến như SVM, k-NN, NB,
nghiệm với tập dữ liệu đầu vào là các ý kiến đánh giá về
<small>phong cảnh và dịch vụ du lịch của vịnh Hạ Long thu thậptừ mạng xã hội Facebook. Luận văn đã đạt được những</small>
<small>kêt quả sau:</small>
<small>e Khảo sát các kỹ thuật phân loại văn bản nói chung</small>
và phân loại ý kiến nói riêng. So sánh một số
<small>phương pháp học máy thường dùng trong phân loại</small>
ý kiến như SVM, k-NN, NB và NNet, luận văn nhận thấy SVM là kỹ thuật có nhiều ưu điểm và nhận được nhiều quan tâm nghiên cứu nên đã tập
<small>trung vào kỹ thuật này.</small>
e Thu thập các ý kiến đánh giá từ Facebook bằng
<small>cách đăng các câu hỏi khảo sát trên các diễn đàn và</small>
kiến đánh giá.
e Phát biểu bài toán thực tế, đưa ra các pha xử lý bài toán và thực hiện theo từng pha rất cụ thé.
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"><small>e Tu xây dựng modul tách từ theo thuật toán So khớp</small>
<small>cực đại.</small>
thử với tỷ lệ khác nhau. Tiến hành thực nghiệm 7
lần. Độ chính xác phân loại tốt nhất thu được là
76.88% trong trường hợp tập huấn luyện chiếm
<small>S0% dữ liệu, còn lại là tập thử nghiệm.</small>
<small>e Xử lý các trường hợp phức tạp của ngôn ngữ.</small>
e Việc phân loại ý kiến theo lớp Tích cực, Tiêu cực
<small>và Khơng xác định một cách chung chung ở mức</small>
tài liệu, chưa cụ thé được từng khía cạnh.
e Mở rộng tập từ huấn luyện cho các phân lớp.
<small>e Xu lý những trường hợp phức tạp của ngơn ngữ,</small>
huấn luyện thêm nhiều tình huống khó.
e Tiếp tục nghiên cứu các phương pháp máy học
khác trong khai phá quan điểm để ứng dụng hiệu
<small>quả hơn.</small>
</div>