Tải bản đầy đủ (.pdf) (25 trang)

Phân loại quan điểm của du khách với du lịch phong nha kẻ bàng tỉnh quảng bình

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (432.56 KB, 25 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN VĂN HƯỚNG

PHÂN LOẠI QUAN ĐIỂM CỦA DU KHÁCH
VỚI DU LỊCH PHONG NHA - KẺ BÀNG
TỈNH QUẢNG BÌNH

Chuyên ngành: Khoa học máy tính
Mã số: 8480101

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2018


Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC BÁCH KHOA

Người hướng dẫn khoa học: TS. ĐẬU MẠNH HOÀN

Phản biện 1: TS. LÊ THỊ MỸ HẠNH

Phản biện 2: TS. TRẦN THẾ VŨ

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp
thạc sĩ kỹ thuật họp tại Trường Đại học Bách khoa Đà Nẵng vào
ngày 05 tháng 01 năm 2019

Có thể tìm hiểu luận văn tại:


- Trung tâm Học liệu và Truyền thông Trường Đại học Bách khoa
Đại học Đà Nẵng
- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa
Đại học Đà Nẵng


1
MỞ ĐẦU
1. LÝ DO CHỌN ĐỀ TÀI
Du lịch là một trong những ngành kinh tế quan trọng, là một
ngành kinh tế tổng hợp có tính liên ngành, liên vùng và xã hội hóa cao.
Du lịch không những có khả năng tạo ra nguồn thu nhập rất lớn cho xã
hội mà còn góp phần thực hiện chính sách mở cửa, giao lưu văn hoá,
thúc đẩy sự đổi mới và phát triển của nhiều ngành kinh tế khác, đồng
thời giúp giải quyết nhiều vấn đề mang tính chất xã hội. Việt Nam, với
tiềm năng đa dạng phong phú, vừa mang bản sắc văn hóa dân tộc vừa
mang tính hiện đại. Đảng - Nhà nước ta đã xác định: "Phát triển du lịch
thật sự trở thành một ngành kinh tế mũi nhọn" trên cơ sở khai thác triệt
để tiềm năng sẵn có để hội nhập. Quảng Bình, vùng đất được thiên
nhiên ưu ái ban tặng nhiều tài nguyên quý, độc đáo có thể phục vụ cho
việc phát triển một ngành du lịch với nhiều loại sản phẩm du lịch, hình
thức du lịch phong phú và đa dạng. Quảng Bình cũng đã xác định “Du
lịch là một ngành kinh tế mũi nhọn của tỉnh”. Quảng Bình là vùng đất
giàu tiềm năng, lợi thế để phát triển du lịch, tuy nhiên cho đến nay thì
du lịch Quảng Bình còn rất nhỏ bé, mức độ phát triển còn chưa tương
xứng với tiềm năng to lớn được thiên nhiên ban tặng. Vị thế của Quảng
Bình nói chung và du lịch Quảng Bình nói riêng còn rất thấp so với các
tỉnh, thành phố trong cả nước. Vì vậy, làm sao để du lịch Quảng Bình
nói chung và Du lịch Phong Nha - Kẻ Bàng nói riêng phát triển đi lên
ngày một nhanh và mạnh mẽ hơn, thu hút được lượng khách du lịch đến

thăm quan nhiều hơn, nâng cao sức cạnh tranh, nâng cao vị thế của du
lịch Quảng Bình là một vấn đề quan trọng và cấp thiết cần được đưa ra.
Phong Nha - Kẻ Bàng là một điểm đến lý tưởng và có nhiều tiềm
năng trong thu hút khách du lịch, trong thời gian gần đây thực sự đã trở
thành điểm du lịch hấp dẫn của du khách trong và ngoài nước. Tuy
nhiên, việc nghiên cứu đánh giá quan điểm của du khách, cũng như các
yếu tố ảnh hưởng đến sự hài lòng của du khách để có những giải pháp


2
phù hợp nhằm nâng cao khả năng thu hút du khách hơn nữa để từ đó
mang lại hiệu quả kinh tế cao hơn. Chính vì lý do đó nên tôi đã chọn đề
tài “Phân loại quan điểm của du khách với du lịch Phong Nha – Kẻ
Bàng tỉnh Quảng Bình” để nghiên cứu, qua đó mong muốn đóng góp
một phần ý nghĩa cho hoạt động du lịch của tỉnh nhà.
2. MỤC ĐÍCH VÀ Ý NGHĨA CỦA ĐỀ TÀI
2.1. Mục đích
Trên cơ sở lý thuyết về xử lý ngôn ngữ tự nhiên, phân tích từ
vựng trong đoạn văn bản tiếng Việt, xây dựng ứng dụng Demo phân
tích quan điểm đánh giá từ một cụm từ hay một đoạn văn bản. Dữ liệu
đầu vào của chương trình được khai thác từ các trang Web.
+ Nghiên cứu các phương pháp, các kỹ thuật khai phá dữ liệu,
khai phá văn bản.
+ Nghiên cứu kỹ thuật phân loại quan điểm đối với tiếng Việt.
+ Phân loại quan điểm của du khách đối với điểm du lịch Phong
Nha – Kẻ Bàng tỉnh Quảng Bình.
2.2. Ý nghĩa khoa học
+ Nghiên cứu và năm bắt được các kỹ thuật khai phá dữ liệu,
khai phá văn bản. Qua đó vận dụng để khai thác dữ liệu từ các trang
Web thông qua dữ liệu để đánh giá ý kiến của người dùng đối với điểm

du lịch Phong Nha – Kẻ Bàng tỉnh Quảng Bình từ đó có thể sử dụng
các thông tin đó để phục vụ cho công việc, kinh tế, xã hội hay các mục
đích chính trị khác của tỉnh Quảng Bình.
+ Từ dữ liệu lớn thu thập được từ các trang mạng có thể rút ra
được các thông tin hữu ích.
+ Giải quyết được bài toán phân loại quan điểm từ các trang
Web.
+ Rút ra được các nhận xét có ý nghĩa đối với bài toán nghiên
cứu.
2.3. Ý nghĩa thực tiễn


3
+ Thu thập được dữ liệu của người dùng về điểm du lịch Phong
Nha - Kẻ Bàng tỉnh Quảng Bình. Bước đầu xây dựng được công cụ
Demo để đánh giá các quan điểm từ dữ liệu đã rút trích được từ đó.
+ Nắm bắt được ý kiến người dùng về điểm du lịch Phong Nha Kẻ Bàng tỉnh Quảng Bình từ các trang Web. Cho ra các đề xuất, giải
pháp mang tính thực tiễn hỗ trợ du lịch tỉnh Quảng Bình.
+ Có thể mở rộng nghiên cứu để xây dựng hệ thống đánh giá các
ý kiến về các chủ đề khác từ các trang mạng xã hội.
3. MỤC TIÊU VÀ NHIỆM VỤ ĐỀ TÀI
3.1. Mục tiêu
Mục tiêu chính của đề tài là đánh giá các quan điểm từ trang
Web đối với điểm du lịch Phong Nha – Kẻ Bàng. Để thực hiện được
mục tiêu này thì cần đạt được những mục tiêu cụ thể sau:
+ Nghiên cứu và vận dụng tốt kỹ thuật xử lý ngôn ngữ tự nhiên.
+ Nghiên cứu kỹ thuật khai phá dữ liệu, khai phá văn bản.
+ Nghiên cứu kỹ thuật phân loại quan điểm đối với tiếng Việt.
+ Xây dựng Demo ứng dụng phân loại quan điểm đối với điểm
du lịch Phong Nha – Kẻ Bàng.

3.2. Nhiệm vụ
Để đạt được những mục tiêu trên thì nhiệm vụ đặt ra của đề tài
là:
+ Nghiên cứu lý thuyết, nghiên cứu tài liệu về khai phá văn bản,
phân loại quan điểm và các vấn đề liên quan. Tổng hợp thông tin các
thông tin dữ liệu đã nghiên cứu.
+ Nghiên cứu thực tiễn: nghiên cứu các kỹ thuật liên quan đến
bài toán.
+ Xử lý dữ liệu từ các trang Web.
+ Xây dựng bài toán, xử lý và xây dựng ứng dụng Demo.
4. ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU
4.1. Đối tượng nghiên cứu


4
+ Tìm hiểu nghiên cứu, khảo sát ngôn ngữ tự nhiên tiếng Việt.
Cơ sở lý thuyết về xử lý dữ liệu văn bản, xử lý ngôn ngữ tự nhiên, phân
loại quan điểm người dùng.
+ Các kỹ thuật dùng để xử lý văn bản, các kỹ thuật phân loại.
+ Các công cụ và phần mềm mã nguồn mở hỗ trợ nghiên cứu,
thiết kế quy trình thực hiện.
+ Du khách đến du lịch và quan điểm của họ được lấy từ dữ liệu
trên các trang Web đối với điểm du lịch Phong Nha – Kẻ Bàng.
4.2. Phạm vi nghiên cứu
Trong nghiên cứu này tôi chỉ giới hạn nghiên cứu các vấn đề sau:
+ Các phương pháp, kỹ thuật khai phá dữ liệu, khai phá văn bản
cơ bản.
+ Phân loại quan điểm người dùng theo hai hướng tích cực và
tiêu cực.
+ Dữ liệu từ các trang Web về điểm du lịch Phong Nha – Kẻ

Bàng.
+ Xây dựng Demo phân loại quan điểm người dùng từ dữ liệu
được khai thác từ các trang Web đối với du lịch Phong Nha – Kẻ Bàng.
5. PHƯƠNG PHÁP NGHIÊN CỨU
Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề
tài. Tổng hợp các thông tin dữ liệu đã nghiên cứu. Nghiên cứu các kỹ
thuật có liên quan đến bài toán. Nghiên cứu công cụ xử lý và việc ứng
dụng công cụ cho bài toán.
5.1. Phương pháp lý thuyết
Phương pháp phân tích tổng hợp từ tài liệu: Từ các nghiên cứu
về xử lý văn bản, xử lý ngôn ngữ tự nhiên tiếng Anh, tiếng Trung, tiếng
Việt, các kỹ thuật đánh giá được tìm thấy từ các bài báo, các kết quả
nghiên cứu, qua mạng internet,...
Phương pháp thống kê: Tìm hiểu hiện trạng các kỹ thuật sử dụng
trong lựa chọn đặc trưng của văn bản phục vụ quá trình phân loại.


5
Nghiên cứu hiệu quả của các kỹ thuật đó qua kết quả tìm được. Đánh
giá hiệu quả thông qua số liệu và kết quả nghiên cứu có được.
Phương pháp phân tích và thiết kế: Phân tích các đối tượng cần
nghiên cứu để giải quyết các vấn đề liên quan và thiết kế dữ liệu, thiết
kế quy trình xử lý dữ liệu.
Phương pháp mô hình hóa: Mô hình hóa dữ liệu, mô hình hóa
quy trình xử lý để thực hiện phân tích tâm lý người sử dụng qua văn
bản thu được.
Phương pháp so sánh: So sánh các dữ liệu tìm được, so sánh kết
quả nghiên cứu từ các kỹ thuật khác nhau.
5.2. Phương pháp thực nghiệm
+ Nghiên cứu và khai thác các công cụ, các phần mềm hỗ trợ quá

trình biên tập dữ liệu và đánh giá.
+ Xây dựng ứng dụng Demo phân loại quan điểm từ các trang
Web đối với điểm du lịch Phong Nha – Kẻ Bàng.
+ Kiểm tra, thử nghiệm, nhận xét và đánh giá kết quả.
CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1. KHAI PHÁ DỮ LIỆU VÀ MỘT SỐ PHƯƠNG PHÁP
KHAI PHÁ DỮ LIỆU
1.1.1. Khai phá dữ liệu
Khai phá dữ liệu là một tiến trình sử dụng các công cụ phân tích
dữ liệu khác nhau để khám phá ra các mẫu dưới nhiều góc độ khác
nhau nhằm phát hiện ra các mối quan hệ giữa các dữ kiện, đối tượng
bên trong cơ sở dữ liệu, kết quả của việc khai phá là xác định các mẫu
hay các mô hình đang tồn tại bên trong, nhưng chúng nằm ẩn khuất ở
các cơ sở dữ liệu. Để từ đó rút trích ra được các mẫu, các mô hình hay
các thông tin và tri thức từ các cơ sở dữ liệu. Khai phá dữ liệu là bước
chính của quy trình khai phá tri thức trong cơ sở dữ liệu (Knowledge
Discovery in Database - KDD).


6
1.1.2. Một số phương pháp và kỹ thuật khai phá dữ liệu
a. Khai thác tập phổ biến và luật kết hợp: Đây là tiến trình khám
phá các tập giá trị thuộc tính xuất hiện phổ biến trong các đối tượng dữ
liệu.
b. Phân lớp dữ liệu (Classification): là tiến trình khám phá các
luật phân loại hay đặc trưng cho các tập dữ liệu đã được xếp lớp.
Một số kỹ thuật thường được sử dụng trong phân lớp:
+ Cây quyết định (Decision tree): cấu trúc dạng hình cây là biểu
thị cho các quyết định. Các quyết định này sinh ra các quy tắc để phân
lớp và dự đoán (dự báo) tập dữ liệu mới chưa được phân lớp.

+ Mạng Nơron (Neural Network - Nnet): Đây là một trong những
kỹ thuật được ứng dụng rất phổ biến hiện nay vì kỹ thuật này bắt chước
khả năng tìm kiếm mẫu của bộ não con người.
c. Gom cụm (Clustering): là tiến trình nhận diện các cụm tiềm ẩn
trong tập các đối tượng chưa được xếp lớp.
1.2. KHAI PHÁ QUAN ĐIỂM
1.2.1. Khai phá quan điểm
Khai phá quan điểm là lĩnh vực nghiên cứu chuyên sâu trong các
lĩnh vực nghiên cứu khai phá dữ liệu văn bản, xử lý ngôn ngữ tự nhiên
với mục đích thu thập được những thông tin mong muốn về quan điểm
của người dùng.
Khai phá quan điểm là nghiên cứu tính toán các ý kiến của con
người, thái độ, cảm xúc và quan điểm của người đó đối với một thực
thể.
Khai phá quan điểm là kỹ thuật để phát hiện và trích xuất thông
tin về quan điểm của con người được lưu trong cơ sở dữ liệu, để làm
được việc này vấn đề quan trọng là phân cực được quan điểm, quan
điểm đối với vấn đề, hay nói cách khác đó là gán nhãn cho tài liệu,
đánh giá đó là tích cực hay tiêu cực với đối tượng mục tiêu (chủ đề).
Các ý kiến quan điểm có thể thể hiện theo hai hướng:


7
+ Quan điểm trực tiếp: cho ý kiến hoặc là tích cực, hoặc là tiêu
cực trực tiếp về các đối tượng quan tâm.
+ Quan điểm gián tiếp: so sánh các đối tượng quan tâm với đối
tượng tương tự khác để đưa ra ý kiến cá nhân.
1.2.2. Bài toán phân loại quan điểm
Bài toán phân loại quan điểm là một trường hợp đặc biệt của bài
toán phân loại văn bản mà giá trị phân loại nhận được theo tính phân

cực (tích cực hoặc tiêu cực hoặc trung tính), nó được sử dụng trong các
lĩnh vực khác nhau như kinh doanh, chính trị và tâm lý học, dự báo,
kinh tế, du lịch,…. Mục đích chính của phân loại quan điểm người sử
dụng là xác định sự phân cực của văn bản trong xử lý ngôn ngữ tự
nhiên.
1.2.3. Cấp độ phân loại quan điểm
a. Cấp độ từ
b. Cấp độ cụm từ
c. Cấp độ câu
d. Cấp độ văn bản
1.2.4. Kỹ thuật phân loại quan điểm
a. Phương pháp dựa vào từ vựng:
Phương pháp dựa vào từ vựng sử dụng một tập các từ biểu thị ý
kiến và nó phụ thuộc vào tập các từ vựng thể hiện quan điểm này.
Trong đó tập các từ được biên tập và biên dịch sẵn, chúng được sử
dụng để phân tích văn bản.
b. Phương pháp học máy
Phương pháp dựa vào học máy sử dụng các giải thuật học máy
nổi tiếng bằng việc sử dụng cú pháp và các đặc trưng trong ngôn ngữ.
+ Học có giám sát:
+ Học không có giám sát:
+ Học bán giám sát:


8
CHƯƠNG 2: PHƯƠNG PHÁP TÁCH TỪ VÀ PHÂN LOẠI
VĂN BẢN
2.1. MỘT SỐ PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT
2.1.1. Tổng quan
Trong tiếng Việt, dấu cách (khoảng trắng) không mang ý nghĩa

phân tách các từ mà chỉ mang ý nghĩa phân tách các âm tiết với nhau,
việc phân tách các từ còn phải dựa vào các yếu tố khác. Do đó, muốn
phân loại văn bản thì công việc đầu tiên đó là phải tách từ trong câu, và
khi đó bài toán tách từ trở thành một bài toán tiền đề cho các ứng dụng
xử lý ngôn ngữ tự nhiên khác như phân loại văn bản. Tách từ (Word
Segmentation) là một quá trình xử lý văn bản để xác định ranh giới của
các từ trong câu. Hai phương pháp nổi bật của hướng tiếp cận dựa vào
từ điển là Longest Matching và Maximal Matching.
2.1.2. Phương pháp Maximum Matching
Phương pháp so khớp dài nhất (Longest Matching - LM) và so
khớp cực đại (Maximum Matching - MM) là hai phương pháp tách từ
kinh điển của hướng tiếp cận dựa trên từ điển.
Phương pháp so khớp cực đại Maximum Matching được xem
như là phương pháp tách từ dựa trên từ điển đơn giản nhất. Cách thực
hiện của phương pháp so khớp cực đại là cố gắng so khớp với từ dài
nhất có thể có trong từ điển.
2.1.3. Phương pháp Weighted Finite State Transducer và mạng
Neural
Ý tưởng cơ bản của mô hình Weighted Finite State Transducer là
áp dụng WFST kết hợp với trọng số là xác suất xuất hiện của mỗi từ
trong ngữ liệu.
Hoạt động của mô hình: Đầu tiên cho câu đi văn bản qua phần
tiền xử lý, ở bước này loại bỏ các lỗi về cách trình bày một câu. Sau đó
câu được đưa vào mô hình WFST. Ở bước này sẽ xử lý tất cả các vấn


9
đề về tách từ, tuy nhiên nếu câu cần tách vẫn còn nhập nhằng (điều này
được xác định thông qua một giá trị ngưỡng nào đó) mô hình sẽ tự
động gọi mô hình mạng Neural để khử các nhập nhằng đó và chọn ra

trường hợp tách từ phù hợp.
2.1.4. Phương pháp MMSeg
Mô hình này thực hiện bằng cách bổ sung cho mô hình tách từ
cực đại Maximum Matching nói trên thông qua một số luật Heuristic
trên ngôn ngữ để đánh giá dựa trên 2 mô hình của Maximum Matching.
Các hình thức giải quyết của Maximum Matching như sau:
+ Đối với dạng đơn giản: Từ hợp lý nhất sẽ là từ được so khớp
dài nhất. Chúng ta lấy từ này, sau đó tiếp tục tiến trình cho đến khi từ
cuối cùng của chuỗi được nhận ra.
+ Đối với dạng phức tạp: Quy tắc của dạng này là phân đoạn hợp
lý nhất là đoạn ba từ với chiều dài tối đa. Thuật toán bắt đầu như dạng
đơn giản.
Các luật khử nhập nhằng:
Dựa vào đặc điểm riêng của tiếng Việt các luật sau đây sẽ được
áp dụng:
Luật 1: Sử dụng trường hợp đơn giản lấy từ với chiều dài dài
nhất, trường hợp phức tạp lấy từ đầu tiên từ dãy với chiều dài dài nhất.
Nếu có nhiều dãy với chiều dài dài nhất, áp dụng luật kế tiếp.
Luật 2: Hai từ hai tiếng không đi liền nhau.
Luật 3: Chiều dài biến động nhỏ nhất: Có 1 số ít điều kiện nhập
nhằng mà trong luật 1 và luật 2 không thể giải quyết được.
Luật 4: Tần số tiếng cao nhất hay log thấp nhất.
2.1.5. Phương pháp Maximum Entropy
Phương pháp Maximum Entropy cực đại là phương pháp dựa
trên xác suất có điều kiện cho phép tích hợp các thuộc tính đa dạng từ
dữ liệu mẫu nhằm hỗ trợ quá trình phân lớp. Ý tưởng chủ đạo của
nguyên lý entropy cực đại đó là ta phải xác định một phân phối mô hình
sao cho phân phối đó tuân theo mọi giả thiết đã quan sát từ thực



10
nghiệm, ngoài ra không cho thêm bất kì giả thiết nào khác. Entropy là
độ đo về tính đồng đều hay tính ko chắc chắn của một phân phối xác
suất.
2.1.6. Phương pháp Pointwise
Mô hình tách từ bằng phương pháp Pointwise là phương pháp
mới được tác giả Lưu Tuấn Anh nghiên cứu gần đây. Phương pháp này
tỏ ra khá hiệu quả, đặc biệt nó được sử dụng rộng rãi trong tiếng Nhật
và tiếng Trung và mang lại hiệu quả thực nghiêm cao. Đối với tiếng
Việt, phương pháp này được ứng dụng trong bài toán thêm dấu cho
tiếng Việt không dấu và thu được kết quả khá tốt (gần 95%) [13].
Phương pháp tiếp cận dạng pointwise sử dụng 3 dạng thông tin
đánh giá đặc trưng cơ bản trong phương pháp đó là: n-gram âm tiết, ngram chủng loại của âm tiết, và đặc trưng từ điển, và thực hiện một
cách độc lập với nhau. Kỹ thuật tách từ bằng phương pháp Pointwise
với phương pháp dữ liệu không đầy đủ thì chỉ những vị trí chắc chắn
chính xác mới được tách từ.
2.2. MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN
2.2.1. Phương pháp Naive Bayes
Một trong các phương pháp phân loại văn bản phổ biến là
phương pháp Naive Bayes, phương pháp phân loại này dựa trên xác
suất, quá trình thực hiện nhanh và dễ dàng, nó được sử dụng rộng rãi
trong lĩnh vực máy học, được sử dụng lần đầu tiên trong lĩnh vực phân
loại bởi Maron năm 1961 và ngày càng trở nên phổ biến [26].
Ý tưởng cơ bản của phương pháp này là sử dụng xác suất có điều
kiện của từ hay đặc trưng xuất hiện trong văn bản với chủ đề để dự
đoán chủ đề của văn bản đang xét.
2.2.2. Phương pháp Linear Least-Squares Fit
Linear Least-Squares Fit - LLSF là một trong những phương
pháp phân loại văn bản bằng phương pháp hồi quy. Linear Least Square
Fit là cách tiếp cận ánh xạ được phát triển bởi Yang và Chute năm

1992.


11
Linear Least - Squares Fit sử dụng phương pháp hồi quy để học
từ tập huấn luyện và các chủ đề có sẵn, mỗi văn bản trong tập huấn
luyện sẽ được biểu diễn dưới dạng một cặp vectơ đầu vào và đầu ra.
2.2.3. Phương pháp k–Nearest Neighbor
Phương pháp phân loại k–Nearest Neighbor - kNN là phương
pháp tiếp cận dựa trên thống kê, đây là phương pháp sử dụng truyền
thống trong những thời gian đầu.
Quá trình phân loại một văn bản mới, thuật toán sẽ tính khoảng
cách (khoảng cách Euclide, Cosine ...) của tất cả các văn bản trong tập
huấn luyện đến văn bản này để hệ thống tìm k văn bản trong tập huấn
luyện thỏa mãn điều kiện có độ tương đồng với văn bản cần kiểm
nghiệm là cao nhất (gọi là “k láng giềng”).
2.2.4. Phương pháp cây quyết định
Phương pháp phân loại văn bản bằng cây quyết định là phương
pháp không sử dụng xác suất hay không sử dụng số học mà sử dụng các
mô hình thể hiện để tính toán và phân loại. Phương pháp này có thể áp
dụng vào bài toán phân loại văn bản. Cách thức thực hiện của phương
pháp đó là dựa vào tập các văn bản huấn luyện (tập huấn luyện), để xây
dựng một cây quyết định.
2.2.5. Phương pháp Mạng Nơron nhân tạo
Mạng Nơron nhân tạo (Artificial Neural Network - ANN) là
phương pháp máy học được nghiên cứu nhiều trong lĩnh vực trí tuệ
nhân tạo. ANN được sử dụng để phân loại văn bản trong nghiên cứu
của Wiener, Wiener sử dụng 2 hướng tiếp cận, thứ nhất là kiến trúc
phẳng (không sử dụng lớp ẩn) và hướng thứ 2 là mạng Nơron 3 lớp
(bao gồm một lớp ẩn) [31].

a. Mô hình mạng Neural
Mô hình mạng Neural gồm có ba thành phần chính:
+ Kiến trúc
+ Hàm chi phí
+ Thuật toán tìm kiếm


12
Trong đó kiến trúc định nghĩa dạng chức năng liên quan giá trị
nhập đến giá trị xuất. Kiến trúc bao gồm:
+ Kiến trúc phẳng:
+ Kiến trúc Modun:
b. Thuật toán lan truyền ngược
Cho không gian chứa các mẫu học (x,t), trong đó x là giá trị cần
huấn luyện, t là giá trị kết quả đích của quá trình huấn luyện, là hệ số
học. Chúng ta qui ước chỉ số của lớp là lớn dần từ lớp đầu vào đến lớp
đầu ra. Khi đó thuật toán lan truyền ngược sẽ thực hiện như sau:
B1: Tạo mạng truyền thẳng có nin Nơron đầu vào, nHidden Nơron
trên mỗi lớp ẩn và h lớp ẩn trong mạng, với nout Nơron đầu ra.
B2: Khởi tạo bộ trọng cho mạng với giá trị nhỏ.
B3: Trong khi <Điều kiện kết thúc chưa thỏa> thì thực hiện:
+ Với mỗi cặp (x,t) trong không gian mẫu huấn luyện thực hiện:
+ Trường hợp lớp nhập: chuyển x qua mạng, tại mỗi lớp xác định
đầu ra của mỗi Nơron, quá trình này được thực hiện cho đến lớp xuất
tuỳ theo cấu trúc mạng cụ thể.
+ Trường hợp lớp xuất:Đối với đầu ra ok của Nơron k trong lớp
xuất K, chúng ta cần xác định sai số k của nó:

ok (1 ok )(tk ok )


k

số

l

Sau đó tiến hành chuyển sang lớp ẩn L kế nó và đặt L = K-1
+ Trường hợp lớp ẩn:Với mỗi Nơron l trên lớp ẩn L, xác định sai
của nó:
l

ol (1 ol )

w il

i

i L 1

Sau đó cập nhật lại trọng số có trong mạng wil

w ji w ji

w ji với w ji

j

o ji



13
+Nếu L > 1 thì chuyển sang lớp ẩn kế tiếp: L = L - 1 và quay lại
bước 3. Ngược lại thì chọn cặp (x,t) mới trong không gian học và quay
lại bước 3.
2.2.6. Phương pháp Support Vector Machines
Thuật toán máy vector hỗ trợ (Support Vector Machines - SVM)
là phương pháp tiếp cận phân loại rất hiệu quả được được Corters và
Vapnik giới thiệu năm 1995 [34, 35] để giải quyết vấn đề nhận dạng
mẫu hai lớp sử dụng nguyên lý cực tiểu hóa rủi ro có cấu trúc. Thuật
toán SVM ban đầu chỉ được thiết kế để giải quyết bài toán phân lớp nhị
phân tức là số lớp hạn chế là hai lớp.
Quá trình huấn luyện SVM là quá trình giải bài toán quy hoạch
toàn phương SVM. Các phương pháp số giải bài toán quy hoạch này
yêu cầu phải lưu trữ một ma trận có kích thước bằng bình phương của
số lượng mẫu huấn luyện.
2.2.7. Lựa chọn phương pháp
Trong nghiên cứu của chúng tôi, đối với phương pháp tách từ,
như đã phân tích ở các phần trước, hiện tại có nhiều phương pháp tách
từ cho tiếng Việt đã được thực nghiệm và cho các kết quả khác nhau,
với mỗi phương pháp đều có những ưu điểm và nhược điểm riêng.
Trong các phương pháp kể đến chúng tôi thấy phương pháp MMSEG
được ứng dụng khá phổ biến để tách từ tiếng Việt, vì phương pháp này
có một số cải tiến và trong thực tế việc tách từ đơn giản hơn, nhanh hơn
do sử dụng thuật toán so khớp tối đa, độ chính xác của phương pháp
này phụ thuộc vào từ điển. Do đó trong thực nghiệm cứu của mình
chúng tôi chọn phương pháp MMSEG này để giải quyết bài toán tách
từ tiếng Việt.
Đối với kỹ thuật phân loại quan điểm, chúng tôi sử dụng kỹ thuật
học máy Mạng Nơron nhân tạo (ANN: Artificial Neural Network) để
giải quyết bài toán phân loại quan điểm của du khách đối với điểm du

lịch Phong Nha –Kẻ Bàng tỉnh Quảng Bình, ở đây chúng tôi sử dụng


14
mạng neuron nhận tạo được ứng dụng trong phân loại, cấu trúc mạng
neuron có cấu trúc 03 lớp (01 lớp ẩn).
CHƯƠNG 3: XÂY DỰNG BÀI TOÁN PHÂN LOẠI QUAN
ĐIỂM CỦA DU KHÁCH ĐỐI VỚI ĐIỂM DU LỊCH PHONG
NHA – KẺ BÀNG
3.1. YÊU CẦU CỦA BÀI TOÁN PHÂN LOẠI QUAN ĐIỂM
Phân loại quan điểm là một trường hợp đặc biệt của phân loại
văn bản, quá trình phân loại đó là ánh xạ một văn bản vào một chủ đề
đã biết (tích cực, hay tiêu cực) dựa trên ngữ nghĩa của văn bản. Yêu cầu
chính của việc phân loại quan điểm đó là việc xác định một văn bản sau
khi xử lý sẽ xác định được văn bản đó thuộc nhóm văn bản tích cực hay
tiêu cực trong các văn bản đã được xác định trước. Trong trường hợp
các văn bản không thể xác định được hoặc văn bản có tính “nhập
nhằng” (chưa rõ thuộc loại nào) thì phải xử lý hoặc thông báo thuộc
loại trung tính.
3.2. BÀI TOÁN VÀ MÔ HÌNH CHO BÀI TOÁN
3.2.1. Mô tả bài toán
Dữ liệu thu thập được từ Web sẽ được tiến hành tiền xử lý tự
động trên máy tính một cách sạch sẽ để phục vụ cho các xử lý của các
bước sau có hiệu quả hơn. Bài toán phân loại quan điểm ở đây sẽ xác
định thuộc một trong hai trạng thái tích cực (positive) và tiêu cực
(negative) dựa trên việc phân tích và đoán nhận ngữ nghĩa câu văn,
đoạn văn. Giải pháp đoán nhận ngữ nghĩa văn bản cho bài toán này là
sử dụng kỹ thuật học máy, hệ thống được huấn luyện có giám sát với bộ
dữ liệu mẫu, văn bản được phân loại thành 2 mức tích cực và tiêu cực.
Trong phạm vi nghiên cứu của bài toán đặt ra, việc đoán nhận cảm xúc

được giới hạn phạm vi với các ngữ cảnh thuộc về du lịch, danh lam
thắng cảnh.


15

Tiêu cực
Văn bản
cần phân
loại

Học
máy

Tích cực
Dữ liệu luyện học

Hình 3.1: Sơ đồ tổng quát bài toán phân loại quan điểm.
3.2.2. Mô hình xử lý bài toán
Mô hình tổng quát được trình bày như trong hình dưới đây:
Văn bản cần phân loại

Tiền xử lý dữ liệu
Tách từ

Loại bỏ từ dừng

Vectơ hóa đặc trưng

Chuyển đổi sang câu cơ bản


Học
máy

Đoán nhận cảm xúc câu văn
cơ bản

Đánh giá cảm xúc đoạn văn
bản

Thống
kê ra
quyết
định

Dữ liệu đã phân loại

Lớp tiêu cực
Lớp tích cực

Dữ liệu không xác định


16

3.3. XỬ LÝ BÀI TOÁN
3.3.1. Chuẩn bị dữ liệu
Dữ liệu thực nghiệm có 828 file văn bản được tập hợp để xây
dựng máy học và kiểm thử. Sau khi tách từ và loại bỏ từ dừng số từ có
được là 62745 từ. Như vậy tập ngữ liệu cần mô hình hóa là một ma trận

chứa TF*IDF của các từ có kích thước là 828×62745 phần tử. Chúng
tôi sử dụng 70% dữ liệu có được để làm dữ liệu huấn luyện và dùng
30% dữ liệu còn lại làm dữ liệu kiểm thử.
Trong đó có:
Loại
Số file
Tích cực
390
Câu văn
Tiêu cực
208
Tích cực
150
Đoạn văn, file văn bản
Tiêu cực
80
Tổng cộng
828
Ngoài ra chúng tôi cũng thu thập dữ liệu luyện học trong phạm vi
câu văn mô tả về du lịch, danh lam thắng cảnh có 6700 từ bao gồm:
- Danh từ:
2500 từ
- Động từ:
900 từ
- Tính từ:
1200 từ
- Trạng từ:
600 từ
- Từ khác:
1500 từ

Các loại dữ liệu này cũng sẽ được bổ sung trong quá trình vận
hành thuật toán, quá trình vận hành và bổ sung dữ liệu luyện học sẽ làm
cho hệ thống ngày càng thông minh hơn.
3.3.2. Tiền xử lý dữ liệu
Dữ liệu được tiến hành tách đoạn, tách câu, chuẩn hóa chính tả
và xác nhận các câu văn có liên quan đến lĩnh vực cũng như mục đích
đoán nhận ngữ cảnh cần thực hiện (ở đây là bài toán về đoán nhận tính


17
tích cực, tiêu cực) nên câu văn thường được xác định là có liên quan
đến nhận định, bình luận. Quá trình tiền xử lý dữ liệu sẽ tiến hành xử lý
các trường hợp chuẩn hóa chính tả luật trên tiếng và sai khác mẫu tự;
tiến hành chuẩn hóa dấu chấm câu bao gồm xử lý dấu chấm cuối câu,
dấu chấm giữa câu, các chuỗi có chứa nhiều dấu chấm liên tục và xử lý
các trường hợp viết tắt.
3.3.3. Tách từ
Tách từ là vấn đề quan trọng nhất của chương trình, nó quyết
định chương trình có thể thực hiện đúng và chính xác việc phân loại
hay không là nhờ kết quả của việc tách từ đúng hay sai. Tất cả các tài
liệu qua bước này đều được xử lý thành các từ là đầu vào cho bước xử
lý tiếp theo.
3.3.4. Loại bỏ từ Stopwords
Trong giai đoạn này, các đặc trưng liên quan sẽ được rút trích từ
các văn bản. Tất cả từ lấy từ văn bản đều được xem như là đặc trưng
khả thi. Sau đó, tập các từ này sẽ được qua bước lọc bỏ các đặc trưng
mà không mang thông tin hữu ích. Chúng là các từ chức năng hay các
phụ từ, hư từ, các từ như từ nối, từ chỉ số lượng... những từ không mang
tính phân biệt trong khi phân loại.
3.3.5. Chuyển đổi thành câu văn cơ bản

Đối với một câu văn tự nhiên, sau khi được sửa lỗi chính tả,
chuẩn hóa thì việc lột tả ý tứ câu văn theo mục tiêu cần nhận dạng là
một công việc quan trọng. Tại đó, kỹ thuật học máy được sử dụng để
nhận dạng và biến đổi từ một câu văn phức tạp thành câu văn cơ bản
gồm các thành phần chính như chủ ngữ, vị ngữ, tính từ, trạng từ. Các
thành phần này sẽ cấu thành một câu văn mới mà việc nhận biết cảm
xúc sẽ dễ dàng và sáng sủa hơn.
3.3.6. Trích xuất tập đặc trưng và biểu diễn văn bản
Văn bản tiến hành phân loại được xem như là một tập hợp các
đặc trưng, do đó trước khi sử dụng phương pháp học máy trong việc
phân loại văn bản sẽ dựa vào các đặc trưng này. Trọng số của đặc trưng


18
(trọng số từ) có thể tính được dựa trên tần số xuất hiện của từ khóa
trong văn bản, giá trị này thường là số thực. Ma trận biểu diễn trọng số
(ma trận tần suất) W ={wij} được xác định dựa trên tần số xuất hiện của
từ khóa ti trong văn bản dj. Có nhiều phương pháp để xác định wij như:
- Phương pháp Boolean weighting: giá trị là 1 nếu số lần xuất
hiện của từ khóa lớn hơn một ngưỡng nào đó, ngược lại 0.
- Phương pháp dựa trên tần số từ khóa (Term Frequency
Weighting).
- Phương pháp dựa trên nghịch đảo tần số văn bản (Inverse
Document Frequency).
- Phương pháp TFxIDF là phương pháp kết hợp của phương
pháp dựa trên tần số từ khóa và phương pháp dựa trên nghịch đảo tần
số văn bản.
Trọng số wij được tính bằng tần số xuất hiện của từ khóa ti trong
văn bản dj và độ hiếm của từ khóa ti trong tập văn bản.
Công thức tính wij:


Trong đó:
- weigh(i,j): trọng số của từ thứ i trong văn bản thứ j.
- fij (term frequency): số lần xuất hiện của từ thứ i trong văn bản
thứ j, fij càng cao thì từ đó càng miêu tả tốt nội dung văn bản.
- dfi (document frequency): số văn bản có chứa từ thứ i.
3.3.7. Đoán nhận cảm xúc câu văn cơ bản
Trong bài toán này chúng tôi chỉ nghiên cứu trong phạm vi đoạn
văn mô tả một chủ đề đơn giản, có dụng lượng ngắn về đánh giá du lịch
Phong Nha – Kẻ Bàng của tỉnh Quảng Bình. Chúng tôi sử dụng kỹ
thuật học máy Mạng Nơron nhân tạo (ANN: Aritificial Neural
Network) để cho hệ thống được luyện học cho phân tích, đoán nhận
cảm xúc, ở đây mạng Neuron nhận tạo được ứng dụng trong phân loại,
cấu trúc mạng Neuron có cấu trúc 03 lớp (01 lớp ẩn), gồm 02 mạng


19
Nơron có các chức năng: ANN1- Nhận dạng danh từ, tính từ, trạng từ
tham gia cấu trúc câu cơ bản, ANN2- Đoán nhận quan điểm, cấu trúc
như sau:
Mạng Nơron ANN1: Gồm 3 lớp, lớp đầu vào (input) gồm 30 nút
(bảo đảm tối đa số từ có trong câu), lớp ẩn (hidden) gồm 12 nút, lớp
đầu ra (output) gồm 5 nút (vector danh từ, động từ, tính từ, trạng từ và
từ khác).

Mạng Nơron ANN2: Gồm 3 lớp, lớp đầu vào (input) gồm 5 nút
(vector danh từ, động từ, tính từ, trạng từ và từ khác), lớp ẩn (hidden)
gồm 7 nút, lớp đầu ra (output) gồm 3 nút (tích cực, không xác định và

tiêu cực).

Dữ liệu luyện học được thu thập từ các câu văn, văn bản tự nhiên
về du lịch, danh lam thắng cảnh gồm các thành phần: danh từ, động từ,
tính từ, trạng từ. Trong đó, các từ mô tả mức độ về tích cực và tiêu cực
được gán nhãn phục vụ quá trình luyện học.
Kết quả đoán nhận được phân thành 03 lớp tích cực, tiêu cực và
chưa rõ, kết quả này được sử dụng thống kê và làm cơ sở đánh giá cảm
xúc của đoạn văn.


20
3.3.8. Đánh giá quan điểm đoạn văn
Sau khi đánh giá câu văn và cho kết quả, chúng tôi dựa trên kết
quả đoán nhận cảm xúc câu văn, sử dụng phương pháp thống kê đánh
giá cảm xúc của đoạn văn. Xem xét các câu văn có quan điểm ngược
nhau nhưng cùng mô tả một vấn đề cụ thể, phân loại và xác định câu
văn thể hiện quan điểm mạnh để dẫn dắt xác định.
3.4. KẾT QUẢ THỰC NGHIỆM
3.4.1. Công cụ và môi trường
Môi trường thực nghiệm: Hệ điều hành Microsoft Windows 7, bộ
vi xử lý Intel 2.53 GHz, Ram 2.0 GB.
Chương trình viết bằng ngôn ngữ C#, trên môi trường Visual Studio
Express 2013. Sử dụng hệ quản trị cơ sở dữ liệu SQL Server 2008.
3.4.2. Một số kết quả
a. Chức năng hệ thống:
Một số hình ảnh về chức năng trong hệ thống.
+ Màn hình giao diện chính:
+ Chức năng phân loại dữ liệu từ file:
- Chọn tab phân loại file văn bản
- Nhấn nút “Chọn tập tin” để chọn file văn bản (*.txt)
- Nhất nút “Phân loại” để phân loại dữ liệu

- Kết quả thể hiện bằng hình ảnh và thông báo.
+ Chức năng phân loại đoạn văn bản:
- Chọn tab Phân loại đoạn văn bản
- Nhập đoạn văn cần phân loại
- Nhấn “Phân loại” để phân loại nội dung
- Kết quả được thể hiện bằng hình ảnh và thông báo
- Kết quả phân tích được tổng hợp trên tab Kết quả phân tích
+ Chức năng phân loại câu văn bản:
- Chọn tab Phân loại câu văn bản
- Nhập câu văn cần phân loại.
- Nhấn nút “Phân loại” để thực hiện.


21
- Nhấn nút “Phân tích” để phân tích câu văn.
Kết quả được thể hiện bằng văn bản và hình ảnh.
b. Kết quả thực nghiệm
Trong thực nghiệm có 828 văn bản được sử dụng, chia làm hai
loại
Đánh giá độ chính xác được thực hiện theo các tiêu chí: Độ chính
xác (precision), độ bao phủ (Recall) và F1.
Trong đó:
- TP: Tỷ lệ tích cực đúng (True Positive)
- FP: Tỷ lệ tích cực sai (False Positive)
- FN: Tỷ lệ tiêu cực sai (False Negative)
3.4.3. Đánh giá kết quả
- Theo kết quả thực nghiệm chúng tôi nhận thấy độ chính xác
của phân loại Câu văn là 74% trên dữ liệu thực nghiệm, các trường hợp
phân loại theo câu được đánh giá chính xác.
Kết quả phân loại đối với đoạn văn, file văn bản đạt độ chính xác

65% trên dữ liệu thực hiện. Như vậy kết quả phân loại trung bình trên
dữ liệu thực nghiệm đạt độ chính xác 70%, kết quả này chưa cao so với
các phương pháp và dữ liệu cũng như ngôn ngữ khác nhưng cũng chấp
nhận được. Nguyên nhân này có thể được lý giải theo cảm tính như sau:
- Thứ nhất bộ dữ liệu chúng tôi thử nghiệm khác so với các
nghiên cứu của các tác giả trong nghiên cứu khác.
- Thứ hai bộ dữ liệu thực nghiệm của chúng tôi chưa đủ lớn dẫn
đến số dữ liệu học cũng chưa nhiều (mặc dù tỷ lệ huấn luyện là 70%
khá cao) nên chưa xử lý hết được các tình huống.
- Thứ ba, như đã phân tích ở trên đó là sự khó khăn của vấn đề
phân loại quan điểm trên tiếng Việt, một ngôn ngữ giàu cảm xúc và
nhiều từ đa nghĩa. Nguyên nhân này cũng chính là thách thức đối với
bài toán phân loại quan điểm trên tiếng Việt.


22
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
1. KẾT LUẬN
Trong nghiên cứu này, chúng tôi đã đề cập đến bài toán phân loại
quan điểm của du khách về một địa danh du lịch trong tỉnh Quảng
Bình. Để giải quyết được bài toán này chúng tôi đã nghiên cứu các vấn
đề khác nhau trong khai phá dữ liệu nói chung, khai phá dữ liệu văn
bản nói riêng, và đặc biệt kỹ thuật phân loại quan điểm người dùng,
một trường hợp đặc biệt của phân loại văn bản, trong đó một tài liệu
được phân loại để dự đoán quan điểm tự động phân cực (tích cực hay
tiêu cực).
Qua nghiên cứu, khảo sát các phương pháp đánh giá với ngôn
ngữ tự nhiên tiếng Việt, trong nghiên cứu này sử dụng kỹ thuật máy
học để xử lý và đoán nhận cảm xúc của du khách đối với điểm du lịch
Phong Nha - Kẻ Bàng bước đầu đã cho kết quả tốt, khẳng định tính

đúng đắn về hướng nghiên cứu. Chúng tôi tiến hành nghiên cứu các cơ
sở tri thức, nghiên cứu các phương pháp cũng như các kỹ thuật tác động
trên ngôn ngữ tự nhiên để phục vụ cho vấn đề phân loại quan điểm. Xác
định được vấn đề cơ bản và quan trọng quyết định đến quá trình phân
loại văn bản trên tiếng Việt là quá trình tách từ, do đó chúng tôi đã giải
quyết tốt vấn đề này và mang lại hiệu quả cao trong quá trình phân loại.
Trên cơ sở đó chúng tôi đã tiến hành nghiên cứu trên tiếng Việt
với mục đích phân loại quan điểm của du khách đối với điểm du lịch
Phong Nha - Kẻ Bàng tỉnh Quảng Bình. Từ kết quả thực nghiệm ban
đầu cho thấy hệ thống phân loại bước đầu đã hoạt động hiệu quả góp
phần trợ giúp trong hoạt động du lịch và tiết kiệm được công sức lao
động, nâng cao hiệu quả cho hoạt động du lịch tại tỉnh Quảng Bình.
Qua kết quả thực nghiệm trên 828 văn bản cho kết quả cao nhất
là 74% đối với câu văn bản sử dụng khi phương pháp học máy. Kết quả
này cũng là một cơ sở được chúng tôi minh chứng là thành công trên
ngôn ngữ tiếng Việt. Tuy nhiên, kết quả còn có khả năng cải thiện tốt
hơn nữa khi giải quyết được các nguyên nhân đã chỉ ra trong phần đánh


23
giá nên cần tiếp tục thử nghiệm và điều chỉnh để nâng cao tỷ lệ chính
xác. Quá trình nghiên cứu chúng tôi nhận thấy kết quả nghiên cứu và
ứng dụng vẫn còn hạn chế là do các đặc điểm đặc trưng của ngôn ngữ
tiếng Việt trong cấu trúc từ, câu và có nhiều từ đa nghĩa trong nhiều bối
cảnh khác nhau. Một khó khăn khác nữa là hiện nay tiếng Việt chưa có
một kho ngữ liệu chuẩn để hỗ trợ cho quá trình thực hiện nghiên cứu và
thực nghiệm. Ngoài ra quá trình thực hiện liên quan đến số đặc trưng
được lựa chọn sao cho đảm bảo kỹ thuật mà không mất đi ý nghĩa của
văn bản, số đặc trưng không ít quá, nếu ít quá sẽ không phản ảnh hết
nội dung mà văn bản thể hiện, ngược lại số đặc trưng nhiều quá sẽ tạo

ra không gian đặc trưng lớn, khó xử lý và kiểm soát.
Bài toán phân loại quan điểm vẫn là bài toán phức tạp và cũng rất
đa dạng theo nghĩa đặc trưng của ngôn ngữ tự nhiên, nâng cao hiệu quả
phân loại văn bản là mục đích mà nhiều nhà nghiên cứu hướng đến.
Trong tương lai chúng tôi sẽ tiếp tục nghiên cứu để xây dựng các ứng
dụng cụ thể tốt hơn cho quá trình phân loại này nhằm khai thác vào mọi
lĩnh vực của đời sống xã hội.
2. HƯỚNG PHÁT TRIỂN
Trong luận văn này, chúng tôi chỉ mới thực nghiệm phân loại
đánh giá bằng kỹ thuật học máy Mạng Nơron nhân tạo ANN để giải
quyết bài toán phân loại quan điểm của du khách với du lịch Phong Nha
– Kẻ Bàng tỉnh Quảng Bình mà chưa thử nghiệm trên các phương pháp
khác điều này do một phần khách quan của quá trình nghiên cứu. Trên
cơ sở nghiên cứu này chúng tôi hướng đến các giải pháp để tiếp tục
nghiên cứu nhằm nâng cao hiệu quả cho bài toán phân loại quan điểm
đó là lựa chọn, xây dựng các công cụ chuyên nghiệp hỗ trợ cho quá
trình phân loại, nghiên cứu các kỹ thuật phân loại mới, tốt hơn. Ngoài
ra cần xây dựng được bộ dữ liệu lớn hơn và đặc biệt là vấn đề xử lý các
từ đa nghĩa, xử lý các từ viết tắt để phân tích ý nghĩa văn bản rõ ràng
hơn trong tiếng Việt./.


×