Tải bản đầy đủ (.pdf) (14 trang)

Phân loại quan điểm trên phương tiện xã hội đối với dự thảo đề án quốc gia

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (352.82 KB, 14 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
-------------------------------------------

NGÔ THỊ HOA

PHÂN LOẠI QUAN ĐIỂM TRÊN PHƢƠNG TIỆN XÃ HỘI
ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ
-------------------------------------------

NGÔ THỊ HOA

PHÂN LOẠI QUAN ĐIỂM TRÊN PHƢƠNG TIỆN XÃ HỘI
ĐỐI VỚI DỰ THẢO ĐỀ ÁN QUỐC GIA

Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103

LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: TS. ĐẶNG THANH HẢI
TS. NGUYỄN CẨM TÚ



Hà Nội - 2015


1
LỜI CẢM ƠN
Lời cảm ơn đầu tiên tôi xin gửi đến TS. Đặng Thanh Hải và TS. Nguyễn
Cẩm Tú. Thầy cô là ngƣời đƣa ra ý tƣởng chọn đề tài và cung cấp cho tôi tài
liệu, phƣơng pháp nghiên cứu và theo sát tôi trong suốt quá trình tôi làm luận
văn. Tôi xin chân thành cảm ơn các bạn, các em trong phòng KT-Lab đã chỉ dẫn
và động viên mỗi khi tôi gặp vƣớng mắc trong lý thuyết và thực nghiệm.
Tôi xin chân thành cảm ơn các thầy trong Khoa Công nghệ thông tin Phòng Đào tạo sau đại học, Trƣờng Đại học Công nghệ - Đại học Quốc gia Hà
Nội đã tạo mọi điều kiện tốt nhất để tôi hoàn thành khóa học này. Đồng thời, tôi
cũng xin cảm ơn gia đình, bạn bè, những ngƣời luôn khuyến khích và giúp đỡ
tôi trong mọi hoàn cảnh khó khăn.
Tác giả luận văn

Ngô Thị Hoa


2
LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu độc lập của riêng tôi thực
hiện dƣới sự hƣớng dẫn của TS. Đặng Thanh Hải và TS. Nguyễn Cẩm Tú,
không sao chép ở bất kỳ một luận văn, luận án của các tác giả khác. Nếu có vấn
đề gì tôi xin hoàn toàn chịu trách nhiệm.
Tác giả luận văn

Ngô Thị Hoa



3
MỤC LỤC
LỜI CẢM ƠN ....................................................................................................... 1
LỜI CAM ĐOAN.................................................................................................. 2
MỤC LỤC ............................................................................................................. 3
DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT ............................................................. 5
DANH SÁCH CÁC BẢNG .................................................................................. 6
DANH SÁCH CÁC HÌNH ................................................................................... 7
MỞ ĐẦU ............................................................................................................. 8
CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DƢ̃ LIỆU, KHAI PHÁ QUAN
ĐIỂM ................................................................................................................... 10
1.1 Khai phá dữ liệu ......................................................................................... 10
1.2 Các phƣơng pháp khai phá dữ liệu ............ Error! Bookmark not defined.
1.3 Các kỹ thuật khai phá dữ liệu..................... Error! Bookmark not defined.
1.4 Các thách thức trong khai phá dữ liệu ....... Error! Bookmark not defined.
1.5 Ứng dụng khai phá dữ liệu......................... Error! Bookmark not defined.
1.6 Phân tích và khai phá quan điểm ............... Error! Bookmark not defined.
1.6.1 Phân tích quan điểm qua các cấp độ dữ liệu ....... Error! Bookmark not
defined.
1.6.2 Các thách thức của khai phá quan điểm ............. Error! Bookmark not
defined.
CHƢƠNG 2: CÁC PHƢƠNG PHÁP PHÂN LỚP QUAN ĐIỂM ............. Error!
Bookmark not defined.
2.1 Kỹ thuật học có giám sát ............................ Error! Bookmark not defined.
2.2 Lựa chọn đặc trƣng .................................... Error! Bookmark not defined.
2.3 Các phƣơng pháp phân lớp quan điểm ...... Error! Bookmark not defined.
2.3.1 Mô hình học máy SVM ....................... Error! Bookmark not defined.
2.3.2 Mô hình cây quyết định ....................... Error! Bookmark not defined.

2.3.3 Mô hình xác suất Bayes ....................... Error! Bookmark not defined.
2.3.4 Thuật toán KNN ................................... Error! Bookmark not defined.
2.4 Đánh giá mô hình phân lớp ........................ Error! Bookmark not defined.


4
CHƢƠNG 3: PHÂN LỚP QUAN ĐIỂM TRÊN MÔ HÌNH QUI HỒI
LOGISTIC ........................................................... Error! Bookmark not defined.
3.1 Cơ sở lý thuyết ........................................... Error! Bookmark not defined.
3.1.1 Các khái niệm ...................................... Error! Bookmark not defined.
3.1.2 Mô hình qui hồi Logistic ..................... Error! Bookmark not defined.
3.1.3 Phƣơng pháp tìm tham số và tối ƣu mô hình qui hồi Logistic ..... Error!
Bookmark not defined.
3.2 Mô hình qui hồi Logistic áp dụng bài toán phân lớp quan điểm ........ Error!
Bookmark not defined.
CHƢƠNG 4: THỰC NGHIỆM .......................... Error! Bookmark not defined.
4.1 Môi trƣờng và mô hình thực nghiệm ......... Error! Bookmark not defined.
4.2. Thu thập và xử lý dữ liệu .......................... Error! Bookmark not defined.
4.2.1. Dữ liệu về các dự thảo đề án quốc gia Error! Bookmark not defined.
4.2.2 Xử lý dữ liệu ........................................ Error! Bookmark not defined.
4.3 Thƣ̣c nghiê ̣m phân lớp và đánh giá ............ Error! Bookmark not defined.
4.4 Đánh giá kết quả thực nghiệm ................... Error! Bookmark not defined.
CHƢƠNG 5: KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN TIẾP THEO ....... Error!
Bookmark not defined.
TÀI LIỆU THAM KHẢO................................................................................ 11


5

DANH MỤC KÝ HIỆU, TỪ VIẾT TẮT

Từ viết tắt

Từ tiếng Anh

TF

Term Frequency

IDF

Inverse Document Frequency

TFIDF

Term Frequency - Inverse Document Frequency

SVM

Support Vector Machine

KNN

K Nearest Neighbors

Stopword

Những từ phổ biến hoặc hiếm gặp, không có giá trị trong
phân lớp



6

DANH SÁCH CÁC BẢNG
Bảng 1: Môi trƣờng thực nghiệm
Bảng 2: Các phần mềm sử dụng
Bảng 3: Tổng hợp dữ liệu thực nghiệm
Bảng 4: Tổng hợp kết quả với các kích thƣớc tập huấn luyện
Bảng 5: Độ đo phân lớp mô hình qui hồi Logistic và thuật toán KNN


7

DANH SÁCH CÁC HÌNH
Hình 1: Quá trình khai phá dữ tri thức
Hình 2: Các kỹ thuật Khai phá dữ liệu
Hình 3: Thuật toán KNN phân lớp quan điểm
Hình 4: Mô hình thực nghiệm
Hình 5: Quy trình xử lý dữ liệu
Hình 6: Mô tả dữ liệu thực nghiệm
Hình 7: Kết quả thực nghiệm với L1, L2
Hình 8: Kết quả phân lớp
Hình 9: Biểu diễn đánh giá mô hình qui hồi Logistic và KNN


8
MỞ ĐẦU
Khai phá tri thức là lĩnh vực rất phát triển trong những năm gần đây và
đƣợc ứng dụng trong nhiều lĩnh vực. Khi quyền tự do ngôn luận ngày càng đƣợc
Nhà nƣớc ta chú trọng, công dân có quyền đƣợc tham gia bàn bạc, thảo luận và
đóng góp ý kiến vào những vấ n đề chung của đất nƣớc đã đặt ra Bài toán cho

khai phá tri thức, cụ thể là khai phá quan điểm: “Làm thế nào để phân tích các
quan điểm đƣợc trao đổi trên các phƣơng tiện thông tin đại chúng, để từ đó đƣa
ra dự đoán cho vấn đề đƣơ ̣c thảo luận?”.
Nhận thấy các dự thảo đề án quốc gia luôn có tác động lớn đến nền kinh
tế, đời sống xã hội, luôn nhận đƣợc nhiều ý kiến đóng góp của các chuyên gia và
nhân dân. Các ý kiến đóng góp cũng có tác động ngƣợc lại đến đề án trong suốt
quá trình khởi tạo và diễn ra dự án.
Luận văn “Phân loại quan điểm trên phƣơng tiện xã hội đối với dự
thảo đề án quốc gia” đƣa ra một giải pháp giải quyết vấn đề Bài toán phân tích
quan điểm trên phƣơng tiện thông tin đại chúng, cụ thể là môi trƣờng mạng. Để
làm đƣợc việc này, luận văn tiến hành nghiên cứu các cơ sở lý thuyết, đề xuất
giải pháp thực hiện và áp dụng thực nghiệm trên miền dữ liệu về các dự thảo đề
án quốc gia.
Cấ u trúc l uận văn gồm bốn chƣơng đi tƣ̀ tổ ng quan đế n chi tiế t vấ n đề ,
giải pháp và thực nghiệm:
Chương 1: Trình bày tổng quan về khai phá dữ liệu, khai phá quan điểm
Xuấ t phát điể m từ nhƣ̃ng kiế n thƣ́c nề n tảng cầ n nắ m đƣơ ̣c trong liñ h vƣ̣c
khai phá tri thƣ́c, khai phá quan điể m, luận văn trình bày các cơ sở lý thuyết theo
logic giải quyết Bài toán. Từ đó, ta cho ̣n ra mô ̣t phƣơng pháp phù hơ ̣p với Bài
toán đƣợc trình bày trong chƣơng 2.
Chương 2: Nghiên cứu các phương pháp phân lớp quan điểm
Có nhiều phƣơng pháp để phân lớp quan điểm , mỗi phƣơng pháp có một
lịch sử, tƣ tƣởng và đă ̣c trƣng riêng phù hơ ̣p giải quyết từng vấn đề.
Chương 3: Phân lớp quan điểm với qui hồi Logistic
Mô hình qui hồi Logistic là phƣơng pháp mà luâ ̣n văn lƣ̣a cho ̣n để phân
lớp quan điể m và dƣ̣ báo , qua đó phân tić h kế t quả thƣ̣ c nghiê ̣m. Mô hiǹ h phân


9
tích mối tƣơng quan biến dự đoán phân loại và biến kết quả dự đoán, mô hiǹ h

phù hợp dữ liệu bài toán phân tić h quan điể m tiêu cƣ̣c hay tić h cƣ̣c.
Chương 4: Thực nghiệm phân lớp quan điểm với dự thảo đề án quốc gia
và đánh giá trên kết quả thực nghiệm
- Thu thâ ̣p và xƣ̉ lý dƣ̃ liê ̣u là các biǹ h luâ ̣n và bài báo nêu ra các quan
điể m thảo luâ ̣n về các dƣ̣ thảo đề án quố c gia.
- Thƣ̣c nghiê ̣m và đánh giá mô hiǹ h phân lớp quan điể m tiêu cƣ̣c và tí ch
cƣ̣c đố i với các dƣ̣ thảo đề án trên mô hiǹ h qui hồ i Logistis.


10
CHƢƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DƢ̃ LIỆU, KHAI PHÁ QUAN
ĐIỂM
1.1 Khai phá dữ liệu
Công nghệ thông tin ngày càng phát triển thì các hệ thống thông tin ngày
càng mở rộng để lƣu trữ một lƣợng lớn các dữ liệu đã có và đang tích tụ thêm,
thêm vào đó là việc lƣu trữ dữ liệu trực tuyến với dung lƣợng lớn nhiều khi đã
làm cho ta choáng ngợp và không biết làm thế nào để có những thông tin hữu
ích đang cần. Quá trình lấy ra đƣợc những dữ liệu hữu ích đƣợc gọi quá trình
khai phá tri thức. Những dữ liệu đó là các tri thức học đƣợc.
Có nhiều khái niệm về khai phá dữ liệu, trong đó có khái niệm sau đây dễ
nhớ, dễ hiểu:
“Khai phá tri thức là tìm ra tri thức trong dữ liệu”. [E1]
Quá trình khai phá tri thức:

Hình 1: Quá trình khai phá dữ tri thức


11

TÀI LIỆU THAM KHẢO

Tiếng Việt
[V1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn
Thu Trang, Nguyễn Cẩm Tú,“Giáo trình khai phá dữ liệu Web”, Nhà xuất bản
giáo dục Việt Nam, 2009.
Tiếng Anh
[E0] Pantelis Agathangelou, Ioannis Katakis, Fotios Kokkoras, Konstantinos
Ntonas,“Mining Domain-Specific Dictionaries of Opinion Words”.
[E1] S. Vasantharaj, A. Martin, A. Meiappane, J. Madhusudnan, “A Survey on
Sentiment Analysis Applied in Opinion Mining”, Journal of Network
Communications and Emerging Technologies (JNCET), www.jncet.org Volume
1, Issue 1, March (2015).
[E2] Qiang Yang, Xindong Wu, “10 Challenging Problems In Data Mining
Research”, International Journal of Information Technology & Decision Making
Vol.5,No.4(2006)597-604, World Scientific Publishing Company, p. 597 - 604.
[E3] Lun-Wei Ku, Yu-Ting Liang and Hsin-Hsi Chen, “Opinion Extraction,
Summarization andTrackingin News and Blog Corpora”, American
AssociationforArtificialIntelligence(www.aaai.org),2006.
[E4] Michael D. Lee and Eric - Jan Wagenmakers, “Bayesian Cognitive
Modeling:A Practical Course”, P. 3 – 6.
[E5] Chao-Ying Joanne Peng, Kuk Lida Lee, Gary M. Ingersoll, “An
Introduction to Logistic RegressionAnalysis and Reporting”, Indiana UniversityBloomington.
[E6] Chapter12, Logistic Regression.
[E7] Xiaojin Zhu, “Text Categorization with Logistic Regression”, Advanced
NLP, CS838-1, 2007.
[E8] G.Angulakshmi, Dr.R.ManickaChezian, “An Analysis on Opinion Mining:
TechniquesandTools”, International Journal of Advanced Research in Computer
andCommunicationEngineering, Vol. 3, Issue 7, July 2014.


12

[E9] Ayesha Rashid1, Naveed Anwer2, Dr. Muddaser Iqbal3, Dr. Muhammad
Sher, “A Survey Paper: Areas, Techniques and Challenges of
Opinion Mining”, IJCSI International Journal of Computer Science Issues, Vol.
10, Issue 6, No 2, November 2013.
[E10] Arti Buche, Dr. M. B. Chandak, Akshay Zadgaonkar, “Opinion Mining
and Analysis: A Survey”, International Journal on Natural Language Computing
(IJNLC) Vol. 2, No.3, June 2013.
[E11] Reza Entezari-Maleki, Arash Rezaei, Behrouz Minaei-Bidgoli,
“Comparison of Classification Methods Based on the Type of Attributes and
Sample Size”, Department of Computer Engineering, Iran University of Science
& Technology (IUST), Tehran, Iran.
[E12] James Wilson, Edited by Andrew Nobel, “Logistic Regression and k
Nearest Neighbors”
Các website
[W] Website: />[W1] Website: />


×