TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ
BÁO CÁO KHOA HỌC TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG
••
NGHIÊN CỨU RÚT TRÍCH THƠNG TIN DỰA TRÊN
CƠ SỞ PHÂN TÍCH CẢM XÚC
Mã số:
Chủ nhiệm đề tài: ThS.Nguyễn Tấn Lộc
Bình Dương, 08/01/2018
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
KHOA KỸ THUẬT CÔNG NGHỆ
BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG
••
NGHIÊN CỨU RÚT TRÍCH THƠNG TIN TRÊN CƠ SỞ
PHÂN TÍCH CẢM XÚC
Mã số:
Xác nhận của đơn vị chủ trì đề tài
(chữ ký, họ và tên)
••
Chủ nhiệm đề tài
(chữ ký, họ và tên)
Bình Dương, 08/01/2018
Danh sách thành viên
Chủ nhiệm: ThS.Nguyễn Tấn Lộc
Email:
ĐTDD: 0914290456
Đơn vị chủ trì: Khoa Kỹ thuật Cơng nghệ
Địa chỉ: 06 Trần văn Ơn, P.Phú Hịa, tp.Thủ Dầu Một, Bình Dương.
Mục lục
Danh mục hình
5
Danh mục bảng
Danh mục chữ viết tắt
TF: term frequency
IDF: inverse document frequency
TF.IDF: term frequency. inverse document frequency DTM: document term matrix
Logistic: hồi quy logistic.
P(A): Xác xuất sự kiện A
NER: Named Entity Recognition
SoA: Sentiment analysis - Phân tích cảm xúc
TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT
Đơn vị: Khoa Kỹ thuật Cơng nghệ
THƠNG TIN KẾT QUẢ NGHIÊN CỨU
1. Thơng tin chung:
-
Tên đề tài: Nghiên cứu rút trích thơng tin trên cơ sở phân tích cảm xúc
-
Mã số:
-
Chủ nhiệm: Ths.Nguyễn Tấn Lộc
-
Đơn vị chủ trì: Khoa Kỹ thuật Cơng nghệ
-
Thời gian thực hiện: 11/2016-11/2017
2. Mục tiêu:
- Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của lĩnh vực
trong đời sống và thực nghiện phân tích cảm xúc với các mơ hình học máy.
- Trích xuất nhóm cụm từ quan trọng để hỗ trợ ra quyết định dựa trên cơ sở cảm xúc
của công chúng về một vấn đề nào đó cần quan tâm.
3. Tính mới và sáng tạo:
- Đề xuất xây dựng mơ hình học máy tự động phân loại cảm xúc dựa vào nội dung
bình luận phi cấu trúc nhằm tăng tốc sự hiểu biết về dữ liệu.
- Tiếp cận các phương pháp rút trích thơng tin nhằm trích xuất nhóm bình luận tích
cực, tiêu cực nhất và nắm bắt quan điểm, cảm xúc dựa trên kết quả phân loại cảm
xúc nhằm ra quyết định chiến lược kinh doanh phù hợp cho doanh nghiệp.
4. Kết quả nghiên cứu:
- Kết quả thực nghiệm dữ liệu với mơ hình logistic cho độ chính xác 90%,
recall=89.8%, precision=96.9% và hệ số tối ưu chuẩn hóa cho mơ hình C=0.2154.
- Trích xuất các cụm tử quan trọng cho các doanh nghiệp nhà hàng Việt Nam, Trung
Quốc, Nhật Bản...
- Trích xuất các doanh nghiệp nhà hàng được bình luận tốt nhất và tiêu cực nhất.
5. Sản phẩm: bài báo khoa học
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng:
Ứng dụng kết quả nghiên cứu để phát triển mơ hình phân tích dữ liệu và nắm bắt
các quan điểm, cảm xúc cho các trang website Việt Nam: Tripadvisor, Lazada.
Ngày tháng 11 năm 2017
Chủ nhiệm đề tài
Đơn vị chủ trì
hữ ký, họ và tên)
(chữ ký, họ và tên)
XÁC NHẬN CỦA CƠ QUAN
Mở đầu
1. Tính cấp thiết
-
Ngơn ngữ của con người rất phức tạp. Vì vậy, diễn giải ngơn ngữ cho máy tính
hiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng và
lỗi chính là một q trình khó khăn.
-
Nghiên cứu phân tích cảm xúc khơng chỉ tác động quan trọng trong lĩnh vực xử lý
ngôn ngữ tự nhiên, mà còn tác động sâu sắc về khoa học quản lý, khoa học chính
trị, kinh tế và khoa học xã hội bởi tất cả các lĩnh vực đều bị ảnh hưởng bởi ý kiến
các chủ thể.
2. Mục tiêu
Nghiên cứu phân loại cảm xúc và rút trích thơng tin hữu ích nắm bắt các quan
điểm, nâng ao sự hiểu biết cho các doanh nghiệp nhà hàng Yelp từ đó hỗ trợ ra
quyết định.
3. Cách tiếp cận
-
Thu thập dữ liệu từ trang website Yelp.
-
Xử lý và lưu trữ vào kho dữ liệu.
-
Xây dựng mơ hình dựa trên các thuật toán học máy và đánh giá hiệu suất
-
Thu thập các bài báo khoa học thuộc lĩnh vực nghiên cứu.
4. Phương pháp nghiên cứu
-
Thu thập tài liệu của các tác giả trong, ngồi nước có liên quan đến đề tài.
-
Nghiên cứu và phát triển lý thuyết phục vụ đề tài.
-
Nghiên cứu thực nghiệm và đánh giá kết quả dựa vào phương pháp thống kê
5. Đối tượng và phạm vi nghiên cứu
-
Trích xuất nội dung phi cấu trúc của trang web và lưu trữ kho dữ liệu tập trung.
-
Các bộ từ điển cảm xúc.
-
Tài liệu văn bản, câu, từ, cụm từ tiếng Anh.
- Đánh giá cảm xúc các về dịch vụ nhà hàng, các sản phẩm.
- Ngôn ngữ tiếng Anh
6. Nội dung nghiên cứu
Chương 1: Tổng quan về phân tích cảm xúc
1.1 Phân tích cảm xúc là gì?
1.2 Ứng dụng
1.3 Mục tiêu nghiên cứu
Chương 2 : Lược sử nghiên cứu và các phương pháp rút trích thơng tin
2.1 Rút trích thơng tin là gì?
2.2 Một số phương pháp phân tích cảm xúc
2.3 Mơt số phương pháp rút trích ý kiến
Chương 3: Xây dựng các mơ hình phân loại cảm xúc, rút trích thông tin
3.1 Thu thập dữ liệu
3.2 Tiền xử lý dữ liệu
3.3 Phân loại cảm xúc
3.4 Thực hiện rút trích thơng tin
Chương 4: Thực nghiệm và đánh giá
4.1 Kết quả thực nghiệm phân loại cảm xúc
4.2 Kết quả thực nghiệm rút trích thơng tin
_____ *?
A
Chương 1: Tổng quan về phân tích cảm xúc
1.1 Phân tích cảm xúc là gì?
Phân tích cảm xúc được ứng dụng trong nhiều ngành để trích xuất tri thức,
cảm xúc và quan điểm của khách hàng. Rút trích cảm xúc khách hàng có vai trị
quan trọng trong q trình ra quyết, đưa ra chiến lược kinh doanh hợp lý.. Những
quyết định này có thể từ việc mua sản phẩm trực tuyến hoặc dịch vụ ăn uống, tất
cả các cảm xúc, quan điểm ảnh hưởng rất lớn đến cuộc sống hàng ngày. Rút trích
thơng tin quan điểm và cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ tự
nhiên. Nhiệm vụ trích xuất thơng tin từ các dịng tin bình luận, trích dẫn để xác
định ý kiến, cảm xúc của người dùng về một một chủ đề cụ thể, thường cố gắng
trích cảm xúc có trong tồn bộ tài liệu là tích cực hay tiêu cực. Do đó, nghiên cứu
phân tích cảm xúc khơng chỉ tác động quan trọng trong lĩnh vực xử lý ngôn ngữ tự
nhiên, mà còn tác động sâu sắc về khoa học quản lý, khoa học chính trị, kinh tế và
khoa học xã hội bởi tất cả các lĩnh vực đều bị ảnh hưởng bởi ý kiến các chủ thể.
Ngôn ngữ của con người rất phức tạp. Vì vậy, diễn giải ngơn ngữ cho máy tính
hiểu và phân tích các ngữ pháp, vùng miền ứng dụng hay ngữ cảnh, tiếng lóng và
lỗi chính là một q trình khó khăn.
Ngữ điệu ngơn ngữ kết hợp với ngữ cảnh có thể ảnh hưởng đến ngữ cảnh thậm chí
mơ tả nó cịn khó khăn hơn.
Hình 1.các
trạng thái cảm xúc
Ví dụ: “My flight was delayed. Brilliant!”
Con người khá trực quan khi giải thích giai điệu của một bài viết. Hầu hết mọi
người giải thích rằng người bình luận cảm xúc mỉa mai, châm biếm. Chúng ta biết
rằng đối với hầu hết những người có chuyến bay trễ không phải là một trải nghiệm
tốt . Bằng cách áp dụng ngữ cảnh này cho câu này, có thể dễ dàng xác định cảm
xúc là tiêu cực.
Nếu không áp dụng ngữ cảnh, máy tính phân tích câu trên có thể thấy từ "Brilliant"
và nó phân loại là tích cực.
Giả sử bạn muốn biết mọi người trên Yelp nghĩ rằng thực phẩm nhà hàng Việt
Nam là tốt hay xấu, món ăn nào là phổ biến nhất.
Phân tích cảm xúc bộ dữ liệu nhà hàng Yelp sẽ giúp chúng ta trả lời câu hỏi này.
Doanh nghiệp thậm chí có thể tìm hiểu lý do tại sao mọi người nghĩ rằng thực
phẩm là tốt hay xấu, bằng cách trích xuất các từ chính xác cho thấy lý do tại sao
người ta hoặc khơng thích thức ăn. Trích xuất món ăn phổ biến và các chủ đề xuất
hiện nhiều nhất. Doanh nghiệp ngay lập tức có một ý tưởng tốt hơn về lý do tại sao
người tiêu dùng khơng hài lịng.
Doanh nghiệp muốn đạt được tầm nhìn sâu sắc về khảo sát và tìm kiếm thơng qua
nghiên cứu thị trường, thay vì phải dành rất nhiều ngân sách và thời gian để tiến
hành các cuộc điều tra và gọi điện thoại khách hàng? Thông qua các công cụ khai
thác văn bản, bạn sẽ nhận được câu trả lời trong vài giây và kết quả rất khách
quan từ mạng xã hội.
Phân tích cảm xúc có thể được xác định trên nhiều cấp độ. Cấp mức tài liệu (Một
cách nhìn tổng thể tiêu cực hoặc tích cực chung) và cảm xúc của từng từ hoặc
cụm từ trong tài liệu.
Weighted
Sentimen
t
Phrases
Hình 2. Mơ hình
tính tốn trọng số từ, cụm từ
1.2 Mục tiêu nghiên cứu
-
Nghiên cứu tổng quát về lĩnh vực phân tích cảm xúc và các ứng dụng của lĩnh vực
trong đời sống.
-
Thực nghiện phân tích cảm xúc dựa trên các mơ hình học máy.
-
Trích xuất các bình luận tích cực và tiêu cực nhất.
-
Trên cơ sở phân tích cảm xúc, chúng tơi tiến hành rút trích tri thức các đặc trừng và
các khía cạnh của các thực thể đang được quan tâm nhằm nắm bắt khuynh hướng
cảm xúc khách hàng nhà hàng Yelps về chất lượng thái độ dịch vụ, tóm tắt ẩm thực
từng quốc gia, các món ăn phổ biến.
- Hỗ trợ ra quyết định dựa trên cơ sở phân tích quan điểm, cảm xúc của cơng
chúng về một vấn đề nào đó cần quan tâm.
1.3 Các mức độ phân tích cảm xúc
Phân tích cảm xúc là một lĩnh vực nghiên cứu của xử lý ngôn ngữ tự nhiện và
được nghiên cứu ở 3 mức độ:
Mức tài liệu (Document level): Nhiệm vụ phân tích ở mức độ này là phân loại
xem nội dung chính của một tài liệu văn bản thể hiện ý kiến tích cực hay tiêu
cực. Ví dụ, đưa ra đánh giá tổng thể một sản phẩm hay hệ thống là tích cực hay
tiêu cực. Nhiệm vụ này thường được gọi là phân loại cảm xúc cấp tài liệu. Mức
độ phân tích giả định rằng mỗi tài liệu thể hiện ý kiến về một thực thể duy nhất
(một sản phẩm). Do đó, khơng thể áp dụng với các tài liệu so sánh và đánh giá
nhiều thực thể.
Phân loại cảm xúc ở mức tài liệu cung cấp một ý kiến tổng thể về một thực thể,
chủ đề hoặc sự kiện. Tuy nhiên, mức độ phân loại này có một số hạn chế thiếu
sót đối với các miền ứng dụng:
•
Trong nhiều ứng dụng, người dùng cần biết thêm nhiều chi tiết bổ sung, chẳng
hạn : khía cạnh của các thực thể được u thích và khơng thích bởi người tiêu
dùng. Khám phá các chi tiết rất thú vị, tuy nhiên phân tích ở mức tài liệu khơng
trích xuất các thơng tin hữu ích này.
•
Việc phân loại tình cảm mức tài liệu khơng dễ áp dụng chẳng hạn như các cuộc
thảo luận trên diễn đàn, blog và các bài báo. Các bài đăng có thể chứa nhiều cảm
xúc của nhiều thực thể .
Mức câu (Sentence level): Nhiệm vụ ở cấp độ này đi vào các câu và xác định xem
mỗi câu thể hiện một ý kiến tích cực, tiêu cực hoặc trung tính. Trung tính nghĩa là
khơng có ý kiến. Mức độ phân tích có liên quan chặt chẽ với phân loại tính chủ
quan.
Mức thực thể và khía cạnh (Entity and Aspect level): Cả 2 mức tài liệu và mức
câu khơng phát hiện chính xác những gì mọi người thích và khơng thích. Mức độ
khía cạnh ban đầu cịn có tên gọi là mức đặc trưng (feature level) [5] thực hiện
phân tích chi tiết hơn. Thay vì nhìn vào cấu trúc ngơn ngữ (câu, mệnh đề hoặc cụm
từ), Mức khía cạnh trực tiếp xem xét bản chất ý kiến. Dựa trên ý tưởng một ý kiến
bao gồm một mục tiêu nhất định và một cảm xúc (tích cực hoặc tiêu cực).
Phân tích mức thực thể và khía cạnh đầu vào là một tập hợp các mơ tả đặc trưng
khía cạnh và nội dung thảo luận về một chủ thể cụ thể (ví dụ, một mẫu điện thoại di
động mới, dịch vụ ăn uống). Các hệ thống khám phá các khía cạnh chính của thực
thể (món ăn tươi ngon, sạch, giá cả, phục vụ tốt hay thơ lỗ hoặc sản phẩm điện
thoại 'pin', 'màn hình', giá cả...) và để ước tính chỉ số cảm xúc tổng thể của bình
luận trên các khía cạnh (ví dụ, tính tích cực hay tiêu cực là những ý kiến có chỉ số
trên hoặc dưới trung bình cho mỗi khía cạnh). Có 04 hướng tiếp cận chính:
-
Rút trích dựa trên danh từ và cụm danh từ thường xuyên.
-
Rút trích bằng cách khai thác ý kiến và quan hệ mục tiêu.
-
Rút trích sử dụng phương pháp học có giám sát.
-
Rút trích sử dụng chủ đề mơ hình.
Các phương pháp phân tích cảm xúc dựa trên khía cạnh xuất hiện thì chủ yếu được
dùm cho mục đích là đánh giá các sản phẩm trực tuyến.
1.4 Các vấn đề thách thức khó khăn
Vấn đề
Đảo ngược cảm
xúc
Phân loại
tích cực và tiêu
cực
Dữ liệu thưa
Hình 3. các vấn đề thách thức
-
Đảo ngược cảm xúc: à một vấn đề quan trọng nhất cần được giải quyết trong phân
tích cảm xúc. Vấn đề này phát sinh do sự dịch chuyển trạng thái phân cực như phủ
định (ví dụ: "Tơi khơng thích phở") và tương phản (ví dụ "phở thì ngon, nhưng
khơng phải sở thích của tơi"). Câu “Tơi khơng thích phở” rất giống với
câu “Tơi thích phở”. Vì vậy phát hiện đảo ngược phân cực có ý nghĩa rất quan trọng
cho trích xuất quan điểm và cảm xúc.
-
Phân loại cảm xúc: các thuật toán học máy chưa phân loại được độ mạnh cảm
xúc, chỉ dừng lại tích cực hay tiêu cực. Trong khi đó, cảm xúc từ các bình luận
phản ánh đa dạng và mức độ ảnh hưởng cảm xúc là khác nhau. "Tích cực", "tích
cực hơn", "Tiêu cực", “ rất tiêu cực " và "trung tính". Bằng cách tăng hạng phân
loại chính xác cải thiện độ chính xác làm cơ sở cho trích xuất cảm xúc.
-
Dữ liệu thưa: dữ liệu phát sinh từ một số nguồn giới hạn ký tự giới hạn trong vi
blog / các trang web truyền thơng xã hội. Chẳn hạn, giới hạn bình luận trong twitter
là 140 ký tự. Chủ thể sẽ không diễn đạt ý kiến của họ một cách rõ ràng.
-
Tóm lại, Tất cả ba các vấn đề liên quan chặt chẽ đến tính chính xác cảm xúc và
trong một bài viết thường tồn tại các phát biểu mâu thuẫn nhau, đối với những câu
văn nói ngắn gọn hoặc khơng theo quy tắc, thì người nói thường lồng nhiều ý kiến
vào trong một câu.
Chương 2 : Lược sử nghiên cứu
2.1Các phương pháp phân tích cảm xúc
Trong phần này, chúng tơi khảo sát các phương pháp và các hướng tiếp cận phân tích
cảm xúc. Dữ liệu văn bản tiềm ẩn rất nhiều tri thức có giá trị do con người tạo ra nhằm chia
sẻ với cộng đồng chẳn hạn như kinh nghiệm,ý kiến và cảm xúc trải qua. Mỗi khi cần đưa ra
một quyết định gì, chúng ta thường tham khảo đến ý kiến của cộng đồng bằng cách tìm
kiếm trên Internet. Các cơng cụ khai phá quan điểm thực hiện một cách tự động và hệ thống
trích xuất các khía cạnh liên quan cho một vấn đề cụ thể, trên cơ sở phân tích ý kiến, chúng
ta đưa ra các quyết định hành động hợp lý.
Phân tích cảm xúc
Hình 4.
Các hướng tiếp cận phân tích cảm xúc
Nhiệm vụ phân tích cảm xúc là xác định các quan điểm, các đặc trưng khía cạnh, các thực
thể và xác định chủ thể. Công việc khai thác tri thức giúp họ hiểu rõ hơn về khách hàng, sản
phẩm, dịch vụ đề (B. Agarwal et al.,2013)[1]. Mục tiêu tự động hóa trích xuất đặc trưng đối
tượng và phân loại cảm xúc (Basant et al., 2015)[2] dựa trên xử lý ngơn ngữ tự nhiên từ nguồn
các bình luận.
Mục tiêu chính thực hiện phân loại cảm xúc là xếp hạng các chỉ số đánh giá cảm xúc diễn giải
trong văn bản. Nó được xem xét ở 03 mức độ : Tài liệu (RuiXia et.al.,2016)[3].(Ainur et
al.,2010)[4], câu từ (Noura et al., 2010)[5], và mức khía cạnh đặc trưng đối tượng (Haochen
et.al.,2015)[6].
Trong nghiên cứu này, chúng tơi phân tích cảm xúc dựa vào nguồn dữ liệu thu thập từ
dịch vụ Yelp. Yelp là một tập đoàn đa quốc gia của Hoa Kỳ được thành lập vào 2004 nhằm
giúp mọi người định vị doanh nghiệp dựa trên rên mạng xã hội chức năng và đánh giá xếp
hạng dịch vụ. Hàng triệu người sử dụng dịch vụ Yelp cung cấp một khối dữ liệu khổng lồ và
ảnh hưởng đến quyết định lựa chọn thực phẩm của người tiêu dùng. Do đó, các bình luận từ
Yelp trở thành chỉ số đánh giá cho chất lượng ngành dịch vụ ẩm thực. Những năm gần đây,
nhiều cơng trình nghiên cứu tiếp cận khai thác dữ liệu nhằm rút trích cảm xúc và diễn giải ý
nghĩa.
Hướng tiếp cận phương pháp học máy được sử dụng rộng rãi cho lĩnh vực xử lý ngôn ngữ tự
nhiên chẳn hạn như: (RuiXia et al.,2016) đề xuất mô hình PSDEE để phát hiện cảm xúc
khơng nhất qn trong văn bản. Nghiên cứu này trình bày mơ hình ba giai đoạn để phân loại
cảm xúc:(1) phát hiện chuyển đổi phân cực, (2) loại bỏ phân cực trong các phủ định, và (3)
chuyển đổi phân cực theo mơ hình tổ hợp. (Haochen Zhou et al.,2015)[6] xây dựng mơ hình
POSLDA lựa chọn các đặc trưng văn bản. Nó thực hiện tách các lớp ngữ nghĩa (danh từ, động
từ, tính từ và trạng từ) và các lớp cú pháp ( giới từ, và từ liên kết), xác định các từ có ý nghĩa
và bổ sung thông tin các thực thể cụ thể. (James Huang et al,.2014.) Nhóm tác giả áp dụng
Latent Dirichlet Allocation (LDA) khám phá các chủ đề ẩn , dự đoán xếp hạng sao mỗi chủ đề
ẩn đồng thời liên hệ thông tin thời gian cao điểm của nhà hàng, rút trích thơng tin chi tiết thú
vị và chắc chắn hữu ích cho chủ nhà hàng.
(Ruhui Shen, et al,2016) xây dựng các mơ hình hồi quy tuyến tính, hồi quy LASSO , hồi quy
học máy vector (SVM) và thước đo RMSLE để tiên lượng và trích lọc các bình luận hữu ích
dựa trên cơ sở túi từ BOW (Bag of word), ngôn ngữ, địa lý, thống kê, phổ biến và khác các
tính năng định tính được trích từ người dùng, doanh nghiệp.
Trong nghiên cứu này, chúng tôi tiến hành thực nghiệm gồm 02 gai đoạn: (1) xây dựng mơ
hình hồi quy logistic phân loại cảm xúc.(2) trích xuất thơng tin các bình luận quan trọng chứa
cảm xúc tốt nhất và tệ nhất ẩm thực theo quốc gia.
TT
Tiêu đề
Giải quyết vấn
Phương pháp
Bộ dữ liệu
RuiXia,
Dịch chuyển
Các quy tắc
FengXu et phân cực cảm
PSDEE và
al (2016)
phương pháp
xúc
Hạn chế
xác
đề
1
Độ chính
Movie Reivew
87.1%
Độ chính xác
chưa cao
thống kê
2
V.K
Dịch chuyển
Từ điển cảm
Singh,
phân cực cảm
xúc
R.Piryani
et al
Movie Reivew
SWN(AC
Khó mở rộng
từ điển,
xúc và độ
C)
=77.6%
chính xác
SWN(AA
định được
AVC)-
ngữ cảnh.
khơng xác
78.7%
Alchemy=
77.4%
3
Y. Ainur,
Kết hợp trích
SVM
Movie Reviews
92.2%
Y. Yisong
xuất các câu
ánh mức độ
et al (2010)
hữu ích làm cơ
cảm xúc chỉ
sở phân loại
có tích cực
cảm xúc ở
và tiêu cực
Khơng phản
mức tài liệu
4
A. Basant,
dựa trên các
Ontology,
restaurant
M. Namita
thơng tin phổ
ConcepNet
review
biến và ngữ
80.1%
Khó mở rộng
ontology cho
các domain
cảnh
5
Hao chen
Topic
POSLDA,
TripAdvisor
Zhou and
modelling,
Maximum
hiện cho
Fei Song
Lựa chọn các
Entropy
unigram
95%
Chỉ mới thực
đặc trưng, chia classifier
tách ngữ nghĩa
và cú pháp câu
6
Huang, J.,
Phát hiện chủ
Latent
Rogers, S.,
đề phụ - Topic
Dirichlet
& Joo
modelling
Allocation
Yelp
Không đề
Chỉ thực
cập
hiện unigram
RMSLE of
Không phát
0.47769
hiện ngữ
(LDA)
7
Ruhui
Dự đốn và
Mơ hình
Shen,
trích lọc các
tuyến tính
Jialiang
bình luận hữu
Locally
cảnh bình
Shen,
ích cho các
Weighted
luận
nhà hàng địa
Regression
phương
(LOESS)
Yan
Các vấn đề
Kỹ thuật
Zhao,Hong
chuyển đổi cú
lei, et al
pháp câu
Yuhong Li
(2016)
8
(2015)
Yelp
Chinese blog
No_comp
Kỹ thuật
cộng hưởng
_ssc=
cộng hưởng
cảm xúc
88.78%
cảm xúc
trước khi
Manual_c
chưa đạt độ
thực hiện
omp_ssc=
chính xác
phân tích
88.5%
cao
cảm xúc
Bảng 1. So sánh các hướng tiếp cận phân tích cảm xúc
Trong nước, Nhóm tác giả Huong Nguyen Thi Xuan, Anh Cuong Le, (2012) [15] thực
hiện phân loại câu văn chứa xúc cảm hay không chứa cảm xúc dựa trên 22 mẫu phân tích
trên mẫu cơ sở cú pháp (syntax-based patterns). Phương pháp phân tích của các tác giả
[15] dựa vào phân tích từ vựng để xác định từ loại từ trong câu văn bản và sử dụng mẫu
cú pháp để nhận dạng tính từ, cụm tính từ tương ứng; trợ động từ, động từ và cụm động
từ; danh từ và cụm danh trên cơ sở cú pháp mà các tác giả đề xuất để thực hiện trích xuất.
2.2Phương pháp rút trích thơng tin
Trích xuất thơng tin là tìm ra các thơng tin cấu trúc, thơng tin cần thiết từ một tài
liệu, trong khi truy vấn thông tin là tìm ra các tài liệu liên quan, hoặc một phần tài liệu
liên quan từ kho dữ liệu như thư viện số hoặc nguồn tài liệu online để phản hồi cho người
dùng tùy vào một truy vấn cụ thể.
Các công trình nghiên cứu truy vấn và rút trích thơng tin hiện nay hướng tới các phương
pháp tối ưu nhằm cho kết quả phản hồi tốt hơn, gần đúng hoặc đúng với nhu cầu người
dùng và tập trung vào các hướng sau.
Rút trích các thuật ngữ (Terminology extraction): tìm kiếm các thuật ngữ chính
có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một tập các tài liệu.
Rút trích các thực thể (named entity recognition): việc rút trích ra các thực thể
tập trung vào các phương pháp nhận diện các đối tượng, thực thể như: tên người, tên công
ty, tên tổ chức, một địa danh, nơi chốn.
Rút trích quan hệ (Relationship Extraction): cần xác định mối quan hệ giữa các
thực thể đã nhận biết từ tài liệu.
2.2.1
Trích rút cụm từ
Turney (2000) được xem là người đầu tiên giải quyết bài tốn rút trích các
keyphrase dựa trên phương pháp học giám sát [13], trong khi các nghiên cứu khác dùng
heuristic, kỹ thuật phân tích n-gram, phương pháp như mạng Neural. KEA [14] là một
thuật tốn trích xuất các cụm từ khóa (keyphrases) từ dữ liệu văn bản. KEA xác định
danh sách các cụm ứng viên dùng các phương pháp từ vựng học, sau đó tiến hành tính
tốn giá trị đặc trưng cho mỗi ứng viên, tiếp đến dùng thuật toán học máy để tiên đoán
xem các cụm ứng viên nào là các cụm từ khóa. Hiện nay KEA được xem là một thuật
toán đơn giản và hiệu quả nhất để rút các keyphrases. KEA dùng phương pháp học máy
Naive Bayes để huấn luyện và rút trích các keyphrase.
2.2.2
Rút trích dựa trên nhận dạng thực thể
Nhận diện thực thể có tên (NER-Named Entity Recognition) là một cơng việc thuộc
lĩnh vực trích xuất thơng tin nhằm tìm kiếm, xác định và phân lớp các thành tố trong văn
bản không cấu trúc thuộc vào các nhóm thực thể được xác định trước như tên người, tổ
chức, vị trí, biểu thức thời gian, con số, giá trị tiền tệ, tỉ lệ phần trăm, v.v. Thực thể có
tên (Named Entity) có rất nhiều ứng dụng, đặc biệt trong các lĩnh vực như hiểu văn bản,
dịch máy, truy vấn thông tin, và hỏi đáp tự động.
Nhận diện thực thể có tên gồm 2 tác vụ con sau đây.
•
Nhận diện thực thể có tên trong văn bản đầu vào.
•
Gán nhãn cho các thực thể có tên đã nhận diện được .
Nhận diện thực thể đơn ngữ
•
•
•
o
Nhận diện thực thể có tên trên đơn ngữ là hướng tiếp cận đầu tiên và đa dạng nhất
tính đến hiện nay. Sự đa dạng của nó nằm ở việc phát triển trên nhiều ngôn ngữ đặc biệt là
các ngôn ngữ khan hiếm tài nguyên như tiếng Việt, Hoa... Trong khi đó, với các ngơn ngữ
như tiếng Anh, việc nhận diện thực thể có tên đã đạt được độ chính xác rất cao. Một số ứng
dụng nhận diện thực thể được công bố như: Standford NER, OpenNLP, NETTagger,
GATE..
Gán nhãn thực thể
Sau khi nhận dạng ra được các thực thể có tên, ta sẽ tiến hành gán nhãn cho thực
thể. loại nhãn, số lượng nhãn rất đa dạng, phụ thuộc vào mục đích ứng dụng.
Nhãn thực thể gồm các loại :
•
Con người : tên người và họ, bí danh, nghệ danh, ...
•
Tổ chức: tên tổ chức, cơ quan, chính phủ, cơng ty, các thực thể mang tính tổ chức ...
•
Địa điểm: tỉnh, thành phố, vùng lãnh thổ, vùng nước, núi, quỹ đạo, cấu trúc địa điểm, các
loại cơng trình ...
•
Thời gian: biểu thức về thời gian trong ngày
■
Tiền tệ: biểu thức tiền tệ
■
Phần trăm: phần trăm
Tuy nhiên, một số cơng trình nghiên cứu chỉ tập trung vào việc xác định và gán
nhãn 3 loại nhãn: con người, tổ chức, địa điểm bởi vì các nhãn cịn lại tương đối dễ nhận
dạng dựa vào từ điển, đặc trưng ngôn ngữ.
2.3 Phương pháp phân loại cảm xúc dựa trên học máy
2.3.1
Học có giám sát (Supervised Learning)
Phương pháp học có giám sát là một kỹ thuật của ngành Khoa học máy tính
để xây dựng một hàm từ dữ liệu huấn luyện. Dữ liệu huấn luyện bao gồm các cặp
gồm đối tượng đầu vào (thường dạng vec-tơ), và đầu ra mong muốn. Đầu ra của
một hàm là dự đoán một nhãn cho một đối tượng.
Các bước thực hiện một bài toán:
- Để thực hiện phân lớp, phải chuẩn bị một tập dữ liệu huấn luyện, để có tập dữ liệu
huấn luyện được gán nhãn cho dữ liệu ban đầu, đây được gọi là bước thu thập tập
dữ liệu huấn luyện.
-
Lựa chọn một thuật toán phân lớp, xây dựng mơ hình để học tập dữ liệu huấn luyện. Hay
nói cách khác, dùng tập dữ liệu huấn luyện để huấn luyện chương trình phân lớp. Thuật
ngữ học có giám sát được hiểu là học với dữ liệu đã được gán nhãn trước (các dữ liệu
kèm theo nhãn tương ứng này coi như đã được giám sát).
-
Sử dụng một tập dữ liệu kiểm tra đã được gán nhãn trước, để kiểm tra tính đúng đắn mơ
hình. Sau đó, có thể dùng mơ hình để phân lớp cho dữ liệu mới.
Một vài thuật tốn học giám sát:
•
Thuật tốn hồi quy logistic, Naive Bayes.
•
Thuật tốn Máy vector hỗ trợ (Support Vector Machine).
•
Phương pháp K láng giềng gần nhất (K Nearest Neighbours - KNN).
2.3.2
Học khơng giám sát
Học khơng có giám sát là một phương pháp của ngành học máy tìm ra một mơ
hình phù hợp với các quan sát. Trong học khơng có giám sát, một tập dữ liệu đầu
vào được thu thập. Học khơng có giám sát thường xử lý với các đối tượng đầu vào
như là một tập các biến ngẫu nhiên. Sau đó, một mơ hình kết hợp sẽ được xây
dựng cho tập dữ liệu đó. Có thể hiểu đơn giản như sau Học không giám sát là học
với tập dữ liệu huấn luyện ban đầu hoàn toàn chưa được gán nhãn thường sử dụng
cho lớp bài toán gom cụm, phân cụm (Clustering).
Các bước để giải quyết một bài tốn học khơng giám sát:
-
Để thực hiện phân cụm, trước tiên cần một tập dữ liệu huấn luyện (training dataset) - là
một tập các ví dụ học (training examples/instances). Trong đó, mỗi ví dụ học chỉ chứa
thơng tin biểu diễn (ví dụ: một vector các giá trị thuộc tính), mà khơng có bất kỳ thơng tin
gì về nhãn lớp hoặc giá trị đầu ra mong muốn (expected output).
- Áp dụng một thuật toán học khơng có giám sát (ví dụ k-Means) để học hàm/mơ hình
mục tiêu (trong trường hợp này là hàm phân cụm ứng với thuật toán được chọn).
- Sử dụng một phương pháp thử nghiệm (có thể kết hợp với một tập dữ liệu có gán
nhãn) để đánh giá hiệu năng, chất lượng của hàm mục tiêu học được.
Một số thuật toán học khơng giám sát:
Có rất nhiều thuật tốn học khơng giám sát được ra đời và phát triển nhằm khai
thác hiệu quả nguồn dữ liệu chưa gán nhãn nhiều và rất đa dạng. Việc lựa chọn sử dụng
thuật toán nào mục đích của từng bài tốn. K-means, HAC (Hierarchical Agglomerative
Clustering), SOM (Self-Organizing Map)...