MỞ RỘNG VIETSENTIWORDNET DỰA TRÊN MÔ HÌNH HỌC BÁN GIÁM SÁT SVMlight VÀ ÁP DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.2 MB, 45 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lưu Công Tố

MỞ RỘNG VIETSENTIWORDNET DỰA TRÊN
MÔ HÌNH HỌC BÁN GIÁM SÁT SVMlight VÀ ÁP DỤNG
VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ thông tin

Hà Nội – 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Lưu Công Tố

MỞ RỘNG VIETSENTIWORDNET DỰA TRÊN
MÔ HÌNH HỌC BÁN GIÁM SÁT SVMlight VÀ ÁP DỤNG
VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM

KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC CHÍNH QUY
Ngành: Công nghệ thông tin

Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Mai Vũ

Hà Nội – 2011

Lời cảm ơn
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo
sƣ, Tiến sĩ Hà Quang Thụy, Thạc sĩ Trần Mai Vũ đã tận tình chỉ bảo và hƣớng dẫn tôi
trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi cũng xin chân thành cảm ơn các thầy, cô đã tạo điều kiện thuật lợi nhất cho
tôi trong thời gian tôi học tập và nghiên cứu tại trƣờng Đại học Công nghệ.
Tôi xin gửi lời cảm ơn tới các anh chị, các bạn và các em sinh viên trong nhóm
“Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn cũng
nhƣ thu thập và xử lý dữ liệu để hoàn thành tốt khóa luận. Xin cảm ơn sự hỗ trợ từ đề
tài QG 10.38 trong suốt quá trình tôi làm khóa luận.
Tôi cũng xin gửi lời cảm ơn tới các bạn trong lớp K52CA và K52CHTTT đã
ủng hộ, khuyến khích tôi trong suốt quá trình học tập tại trƣờng.
Con xin gửi lời cảm ơn tới ông bà, cha mẹ, những ngƣời thân yêu luôn động
viên, khuyến khích và tạo điều kiện tốt nhất cho con trong suốt cuộc đời.
Cuối cùng, tôi muốn gửi lời cảm ơn bạn bè luôn bên cạnh và động viên tôi
trong suốt quá trình học tập và thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn!

Sinh viên
Lưu Công Tố

Tóm tắt
Ngày nay, thƣơng mại điện tử đã trở nên phổ biến đối với mọi ngƣời. Cùng với
nó là sự ra đời của các trang web bán hàng trực tuyến, cho phép khách hàng đánh giá
sản phẩm. Số lƣợng đánh giá về một sản phẩm mà chúng ta nhận đƣợc ngày càng tăng.
Điều này gây khó khăn cho khách hàng tiềm năng trong việc quyết định có nên mua
sản phẩm hay không, và cản trở nhà sản xuất trong việc theo dõi các ý kiến của khách

hàng. Mặc dù một số chƣơng trình đã đáp ứng một phần nhu cầu khai phá quan điểm
của khách hàng thông qua các đánh giá, song nâng cao chất lƣợng tổng kết đánh giá
luôn là vấn đề cần đƣợc quan tâm. Kho ngữ liệu có trọng số SentiWordNet là nguồn
tài nguyên quan trọng góp phần vào việc giải quyết bài toán khai phá quan điểm này.
Khóa luận khảo sát các phƣơng pháp xây dựng SentiWordNet, đặc biệt là
phƣơng pháp xây dựng SentiWordNet 3.0 [6]. Từ đó, khóa luận đề xuất một mô hình
mở rộng VietSentiWordNet cho miền dữ liệu tiếng Việt [1], và áp dụng kho ngữ liệu
VietSentiWordNet mới vào bài toán khai phá quan điểm khách hàng dựa trên đánh giá
sản phẩm.
Thực nghiệm do khóa luận tiến hành bƣớc đầu đã thu đƣợc kết quả tƣơng đối
khả quan, mở rộng kho ngữ liệu VietSentiWordNet từ gần 1,000 synset lên 9,000
synset, độ chính xác khi áp dụng kho ngữ liệu vào bài toán khai phá quan điểm đạt
66.60%, cao hơn mức trung bình 44.45% khi áp dụng VietSentiWordNet ban đầu.

Lời cam đoan
Tôi xin cam đoan khóa luận “Mở rộng VietSentiWordNet dựa trên mô hình học
bán giám sát SVMlight và áp dụng vào bài toán khai phá quan điểm” là công trình
nghiên cứu do tôi thực hiện dƣới sự hƣớng dẫn của PGS. TS. Hà Quang Thụy và ThS
Trần Mai Vũ.
Các số liệu, kết quả đƣợc trình bày trong khóa luận là hoàn toàn trung thực và
chƣa từng đƣợc công bố trong bất kỳ một công trình nào khác. Tất cả những tham
khảo từ các nghiên cứu liên quan đều đƣợc nêu nguồn gốc một cách rõ ràng từ danh
mục tài liệu tham khảo trong khóa luận. Trong khóa luận, không có việc sao chép tài
liệu, công trình nghiên cứu của ngƣời khác mà không chỉ rõ về tài liệu tham khảo.

Mục lục
Mục lục ............................................................................................................................ i
Danh sách các bảng ....................................................................................................... iii

Danh sách các hình vẽ ................................................................................................... iv
Mở đầu .............................................................................................................................1
Chương 1:

Khái quát về khai phá quan điểm ........................................................3

1.1

Giới thiệu ...........................................................................................................3

1.2

Các khái niệm dùng trong khai phá quan điểm: ................................................3

1.3

Các bài toán trong khai phá quan điểm..............................................................4

1.4 Bài toán khai phá quan điểm khách hàng từ các đánh giá tiếng Việt trên miền
sản phẩm “điện thoại di động”. ...................................................................................5
1.5

Tóm tắt chƣơng 1. ..............................................................................................5

Chương 2:

Các phương pháp xây dựng SentiWordNet. .......................................6

2.1

Giới thiệu về kho ngữ liệu WordNet. ................................................................6

2.2

Giới thiệu về kho ngữ liệu Sentiwordnet. ..........................................................6

2.2.1

Các khái niệm sử dụng trong SentiWordNet ..............................................6

2.2.2

Các phiên bản SentiWordNet ......................................................................7

2.3

Phƣơng pháp xây dựng SentiWordNet 3.0 ........................................................8

2.3.1

Bƣớc 1: Học bán giám sát ...........................................................................8

2.3.2

Bƣớc 2: Bƣớc biến đổi ngẫu nhiên............................................................11

2.4

Xây dựng SentiWordNet cho tiếng Ấn Độ. .....................................................12

2.4.1

Xây dựng tập từ điển nguồn. .....................................................................13

2.4.2

Tiếp cận theo hƣớng từ điển song ngữ ......................................................14

2.4.3

Tiếp cận trên cơ sở WordNet ....................................................................14

2.4.4

Tiếp cận dựa trên tập văn bản ...................................................................14

2.4.5

Đánh giá từ điển ........................................................................................15

2.5

Các nghiên cứu liên quan .................................................................................15

2.6

Tóm tắt chƣơng 2. ............................................................................................15

i

Chương 3:
điểm.
3.1

Mở rộng VietSentiWordNet và áp dụng vào bài toán khai phá quan
................................................................................................................16

Mở rộng VietSentiWordNet sử dụng học máy bán giám sát SVMlight. ...........16

3.1.1

Phƣơng pháp..............................................................................................16

3.1.2

Bƣớc 1: Khởi tạo và mở rộng tập nguồn ...................................................18

3.1.3

Bƣớc 2: Đào tạo bộ phân lớp ....................................................................20

3.1.4

Bƣớc 3: phân lớp tập từ quan điểm và tính trọng số .................................21

3.2 Sử dụng VietSentiWordNet cho bài toán khai phá quan điểm khách hàng dựa
trên đánh giá sản phẩm. .............................................................................................23
3.2.1

Bƣớc 1: Thu thập, tiền xử lý dữ liệu. ........................................................25

3.2.2

Bƣớc 2: Trích xuất từ quan điểm. .............................................................25

3.2.3 Bƣớc 3: Xác định hƣớng quan điểm của khác hàng trên từng sản phẩm
dựa vào từ điển VietSentiWordNet .......................................................................26
3.2.4
3.3

Tóm tắt chƣơng 3 .............................................................................................27

Chương 4:
4.1

Thực nghiệm .........................................................................................28

Môi trƣờng và công cụ sử dụng cho thực nghiệm ...........................................28

4.1.1
4.2

Bƣớc 4: Tổng hợp kết quả. ........................................................................27

Cấu hình máy thực nghiệm .......................................................................28

Thực nghiệm xây dựng VietSentiWordNet .....................................................28

4.2.1

Công cụ và phần mềm sử dụng: ................................................................28

4.2.2

Xây dựng tập đào tạo và phân lớp .............................................................28

4.2.3

Kết quả ......................................................................................................29

4.3

Thực nghiệm áp dụng VietSentiWordNet trong bài toán khai phá quan điểm29

4.3.1

Thu thập dữ liệu và tiền xử lý ...................................................................29

4.3.2

Tách từ và gán nhãn từ loại .......................................................................30

4.3.3

Tính trọng số câu và đoạn. ........................................................................30

Kết luận..........................................................................................................................33
Tài liệu tham khảo .........................................................................................................35

ii

Danh sách các bảng
Bảng 1.
Bảng 2.
Bảng 3.
Bảng 4.
Bảng 5.
Bảng 6.
Bảng 8.
Bảng 9.
Bảng 10.
Bảng 11.
Bảng 12.

Ví dụ về thành phần trong SentiWordNet 3.0 ................................................7
Top 10 synset tích cực và 10 synset tiêu cực trong SentiWordNet 3.0 ........12
SentiWordNet tiếng Anh và danh sách các từ chủ quan ..............................14
Phân loại chủ đề sử dụng Bengali SentiWordNet ........................................15
Kết quả phân lớp của bộ từ HM ...................................................................17
Một số phần mềm sử dụng ...........................................................................28
Tổng số dữ liệu thực nghiệm ........................................................................30
Kết quả bƣớc tính trọng số bộ từ quan điểm ................................................31
Kết quả trọng số tích cực/tiêu cực của từng sản phẩm..............................31
Độ chính xác bƣớc đánh giá tổng hợp ......................................................32
Độ chính xác bƣớc tổng hợp với VietSentiWordNet ban đầu ..................33

iii

Danh sách các hình vẽ
Hình 1.
Hình 2.
Hình 3.
Hình 4.
Hình 5.
Hình 6.
Hình 7.
Hình 8.
Hình 9.
Hình 10.

Cấu trúc trong file SentiWordNet 3.0.txt ............................................................ 7
Mô hình phƣơng pháp xây dựng SentiWordNet 3.0 ........................................... 8
Mô hình bƣớc 1: học bán giám sát ...................................................................... 8
Mô hình xây dựng tập từ điển nguồn ................................................................ 13
Mô hình phƣơng pháp mở rộng VietSentiWordNet .......................................... 18
Mô hình bƣớc 1: khởi tạo và mở rộng tập mồi .................................................. 19
Mô hình bƣớc 2: đào tạo các bộ phân lớp ......................................................... 20
Mô hình bƣớc 3: phân lớp tập từ quan điểm ..................................................... 22
Mô hình đề xuất khai phá quan điểm khách hàng ............................................. 24
Biểu diễn trực quan kết quả tổng hợp với từng sản phẩm ............................. 32

iv

Mở đầu
Khai phá quan điểm là một lĩnh vực mới, nhận đƣợc quan tâm nhiều trong vài
năm gần đây [10,11,12,15]. Đây là một lĩnh vực đánh dấu một bƣớc phát triển trong

khai phá văn bản (text mining): công việc khai phá văn bản sẽ không chỉ dừng lại ở
mặt phân tích câu chữ của văn bản, giúp máy tính thực sự “hiểu” nội dung văn bản nói
gì, mà còn cho biết ngƣời viết có quan điểm nhƣ thế nào (ví dụ: khen/chê) trong văn
bản đó.
Phân lớp quan điểm là bài toán quan trọng trong khai phá quan điểm, với các
ứng dụng trên một số lĩnh vực nhƣ: trên các hệ thống tƣ vấn ngƣời dùng, hệ thống
quảng cáo, hệ thống chăm sóc khách hàng thông minh, và trong các hệ thống tìm kiếm
thông tin.
SentiWordNet là kho ngữ liệu từ vựng đƣợc phát triển cho nhiệm vụ khai phá
quan điểm, trong đó mỗi từ đều có trọng số Pos(s)/Neg(s) thể hiện xu hƣớng quan
điểm của từ. SentiWordNet là một kho ngữ liệu không thể thiếu cho bất kỳ công việc
nào trong bài toán khai phá quan điểm.[6,7,8,9]
Khóa luận tốt nghiệp Mở rộng VietSentiWordNet dựa trên mô hình học bán
giám sát SVMlight và áp dụng vào bài toán khai phá quan điểm nhằm khảo sát, phân
tích các phƣơng pháp xây dựng SentiWordNet, đồng thời trình bày một mô hình mở
rộng VietSentiWordNet và áp dụng kho ngữ liệu mới vào bài toán khai phá quan điểm
khách hàng trên các đánh giá sản phẩm.
Khóa luận gồm những nội dung chính cơ bản sau:
Chương 1: Khái quát về khai phá quan điểm trình bày các khái niệm cơ bản
trong lĩnh vực khai phá quan điểm. Đồng thời, chƣơng này cũng nêu lên một số nét cơ
bản của bài toán khai phá quan điểm khách hàng dựa trên đánh giá sản phẩm.
Chương 2: Các phương pháp xây dựng SentiWordNet tập trung trình bày
phƣơng pháp xây dựng kho ngữ liệu SentiWordNet 3.0. Bên cạnh đó, chƣơng này
cũng trình bày phƣơng pháp xây dựng SentiWordNet cho tiếng Ấn Độ. Mỗi phƣơng
pháp đều yêu cầu nguồn tài nguyên khác nhau. Đây là cơ sở để đƣa ra mô hình phù
hợp với việc mở rộng VietSentiWordNet trong chƣơng 3.
Chương 3: Mở rộng VietSentiWordNet và áp dụng vào bài toán khai phá
quan điểm trình bày mô hình mở rộng VietSentiWordNet dựa trên phƣơng pháp học
bán giám sát SVM. Đồng thời, chƣơng 3 đƣa ra giải pháp áp dụng VietSentiWordNet
vào bài toán khai phá quan điểm khách hàng dựa trên đánh giá sản phẩm.

1

Chương 4: Thực nghiệm trình bày các kết quả trong quá trình thực nghiệm các
thành phần của mô hình do khóa luận đề xuất. Từ các kết quả đạt đƣợc, tiến hành đánh
giá hiệu quả của mô hình.
Phần kết luận tóm lƣợc các kết quả đạt đƣợc, và nêu rõ đóng góp của khóa
luận, đồng thời, một số nghiên cứu trong thời gian sắp tới cũng đƣợc định hƣớng.

2

Chương 1: Khái quát về khai phá quan điểm
Để hiểu và giải quyết đƣợc bài toán khai phá quan điểm, đòi hỏi chúng ta cần
phải nắm vững đƣợc các khái niệm của bài toán khai phá quan điểm. Vì thế, trong
chƣơng này, khóa luận giới thiệu các vấn đề liên quan tới khai phá quan điểm

1.1 Giới thiệu
Thông tin văn bản có thể đƣợc chia ra thành hai loại chính: sự kiện và quan
điểm. Sự kiện là những thể hiện khách quan về những đối tƣợng, sự kiện hay các thuộc
tính của chúng trong thế giới thực. BingLiu và cộng sự, 2010 [12] quan niệm rằng
quan điểm là những thể hiện chủ quan, miêu tả tình cảm, ý kiến hay những cảm xúc
của con ngƣời hƣớng đến thực thể, sự kiện hay thuộc tính.
Khai phá quan điểm hiện đang là một lĩnh vực mới, gần đây thu hút sự quan
tâm không chỉ của các nhà khoa học mà còn của các nhà sản xuất, các công ty
[10,11,12,15], và còn rất nhiều vấn đề trong khai phá quan điểm chƣa đƣợc giải quyết.
Khai phá quan điểm có vai trò quan trọng, bởi khi cần quyết định một vấn đề gì chúng
ta thƣờng đặt ra câu hỏi “người khác nghĩ về vấn đề đó như thế nào?”. Chẳng hạn, khi
muốn mua một chiếc laptop AsusVX248, chúng ta sẽ muốn hỏi bạn bè và ngƣời thân:

“Máy Asus có tốt không? Bảo hành trong bao lâu? Pin dùng có lâu không?..v.v”. Nhƣ
vậy, các quan điểm về sản phẩm giúp ngƣời dùng lựa chọn một cách đúng đắn, đồng
thời, khai phá quan điểm cũng giúp các công ty, tổ chức biết đƣợc ý kiến, quan điểm
về vấn đề mà họ đang quan tâm.
Khai phá quan điểm áp dụng nhiều kết quả của lĩnh vực xử lý ngôn ngữ tự
nhiên, học máy và khai phá văn bản [12].
Khai phá quan điểm bắt đầu bằng việc xác định các từ thế hiện quan điểm nhƣ
tốt (good) – xấu (bad), tuyệt vời (great)... , từ đó xác định xu hƣớng quan điểm của
một từ, một cụm từ, một câu, một đoạn văn bản hoặc một đặc trƣng.

1.2 Các khái niệm dùng trong khai phá quan điểm:

 Đối tƣợng (object): Một đối tượng o là một thực thể (ngƣời, sản phẩm, sự
kiện, chủ đề….) đƣợc đánh giá[12].
 Đặc trƣng (feature): mỗi đối tƣợng có một tập các thành phần (components)
hoặc thuộc tính (attributes). Mỗi thành phần lại bao gồm một tập các thành
phần con và các thuộc tính con. Các thành phần hoặc thuộc tính này đƣợc
gọi là đặc trưng [12]..
o Ví dụ: Đối tƣợng o là điện thoại Nokia N72. Đối tƣợng này có một
tập các thành phần: pin, màn hình, bàn phím… và một tập các thuộc
tính: chất lượng âm thanh, kích cỡ… Thành phần “pin” có tập các

3

thuộc tính: chất lượng pin, kích cỡ pin,…Thuộc tính “chất lượng âm
thanh” có tập các thuộc tính con: chất lượng âm trầm, công suất loa.
 Phân loại đặc trƣng: đặc trƣng đƣợc phân làm 2 loại là đặc trưng hiện và
đặc trưng ẩn. Mỗi một đánh giá r với r = {s1, s2, …, sm} trong đó si là câu
thứ i trong đánh giá r. Nếu đặc trƣng f xuất hiện trong r, thì f là đặc trưng

hiện Ngƣợc lại, f không xuất hiện trong r thì f là đặc trưng ẩn [12]
o Ví dụ: s =”Pin điện thoại này dùng được lâu” thì f = ”pin” là đặc
trƣng hiện.
s=”Máy điện thoại này to quá” thì f =”kích cỡ” là đặc trƣng ẩn.
 Đoạn đánh giá về một đặc trƣng: là một tập các câu liên tiếp trong r diễn tả
quan điểm về đặc trƣng f, bao gồm ít nhất một câu [12].
 Từ quan điểm: Quan điểm trên một đặc trƣng f bất kỳ là thái độ của khách
hàng đối với đặc trƣng f [12]. Thái độ đó có thể theo hƣớng tích cực, tiêu
cực hay trung lập. Từ thể hiện đƣợc quan điểm của khách hàng đƣợc gọi là
từ quan điểm.
Ví dụ:
s = “Nội dung phim hay”
Quan điểm của ngƣời dùng trên đặc trƣng nội dung là một quan điểm hƣớng
tích cực, với từ quan điểm “hay”.
 Ngƣời đánh giá (opinion holder): Là ngƣời hay tổ chức cụ thể đƣa ra lời
đánh giá. Với các đánh giá về sản phẩm trên diễn đàn, blogs: ngƣời đánh giá
chính là các tác giả của đánh giá hay bài viết [12].
o Ví dụ: “Ông A rất hài lòng về sản phẩm điện thoại LG Optimus mới
ra.”
Ngƣời đánh giá: ông A

1.3 Các bài toán trong khai phá quan điểm
Khai phá quan điểm hay còn gọi là phân lớp nhận định có ba bài toán điển hình
nhất đó là:
 Phân lớp quan điểm
 Khai phá và tổng hợp quan điểm dựa trên đặc trƣng
 Khai phá quan hệ (so sánh)
Bing Liu [11] đã trình bày chi tiết về ba bài toán nói trên. Ở đây, chúng tôi xin đề
cập tới bài toán thứ nhất là bài toán phân lớp quan điểm: coi khai phá quan điểm nhƣ
là phân lớp văn bản, coi mỗi quan điểm là một văn bản và quá trình phân lớp quan

điểm chính là phân lớp văn bản. Các quan điểm sẽ đƣợc phân vào 2 lớp tích cực (tốt)
và tiêu cực (xấu), không quan tâm tới lớp trung lập (neutral) bởi những nhận định
mang tính trung lập không ảnh hƣởng tới kết quả tổng hợp quan điểm. Ở bài toán,
ngƣời ta này không quan tâm tới mức đặc trƣng, tức là không quan tâm tới ngƣời đánh

4

giá thích hay không thích đặc trƣng cụ thể nào. Mục tiêu chủ đạo là nhanh chóng xác
định quan điểm đánh giá về một đối tƣợng là tốt hay xấu.

1.4 Bài toán khai phá quan điểm khách hàng từ các đánh giá tiếng Việt
trên miền sản phẩm “điện thoại di động”.
Tại Việt Nam hiện nay, một số trang web bán hàng trực tuyến cho phép ngƣời
dùng đƣa ra những nhận xét về các sản phẩm nhƣ: , …; nhiều
diễn đàn thảo luận về các dòng sản phẩm điện thoại nhƣ ,
,…. Bên cạnh đó, một số trang Web tiến hành thống kê số
lƣợng ý kiến ngƣời dùng nhƣ: .
Bài toán khai phá quan điểm khách hàng từ các đánh giá sản phẩm đòi hỏi phải
phân tích đƣợc trọng số tích cực – tiêu cực của từng quan điểm, do đó, cần phải sử
dụng kho ngữ liệu quan điểm có trọng số. Nhƣng do hiện nay kho ngữ liệu
VietSentiWordNet là chƣa hoàn chỉnh, việc xây dựng kho ngữ liệu VietSentiWordNet
là cấp thiết không chỉ cho bài toán khai phá quan điểm mà còn cho các bài toán khác
đòi hỏi kho ngữ liệu tiếng Việt.

1.5 Tóm tắt chương 1.
Bài toán khai phá quan điểm đang có đƣợc nhiều sự quan tâm của các nhà khoa
học Các khai niệm tổng quan về bài toán khai phá quan điểm, các vấn đề trong bài
toán khai phá quan điểm đã đƣợc giới thiệu ở chƣơng này. Kho ngữ liệu
SentiWordNet trợ giúp rất lớn cho quá trình khai phá quan điểm.

Chƣơng tiếp theo sẽ trình bày về kho ngữ liệu SentiWordNet và các phƣơng pháp
xây dựng SentiWordNet.

5

Chương 2: Các phương pháp xây dựng
SentiWordNet.
2.1 Giới thiệu về kho ngữ liệu WordNet.
Bài toán khai phá quan điểm sử dụng nhiều kết quả của xử lý ngôn ngữ tự
nhiên, trong đó, một kho ngữ liệu chuẩn là cần thiết. WordNet là một kho ngữ liệu
tiếng Anh, các từ tiếng Anh đƣợc nhóm thành các bộ từ đồng nghĩa đƣợc gọi là các
synset, cung cấp các định nghĩa chung và ngắn gọn, đồng thời, ghi lại giá trị quan hệ
ngữ nghĩa học giữa các bộ đồng nghĩa. WordNet đƣợc Cognitive Science Laboratory
of Princeton University dƣới sự chỉ đạo của Giáo sƣ George A.Miller tạo ra và duy trì.
Đƣợc phát triển từ năm 1985, đến nay phiên bản mới nhất là 3.0 chứa 155,287 từ đƣợc
tổ chức thành 117,659 synsets, kích cỡ khoảng 12MB. Dữ liệu và bộ công cụ
WordNet có thể tải và sử dụng miễn phí tại trang WordNet tiếng Anh [17].
Theo Virach Sornlertlamvanich, 2010 [16], vào thời điểm 05/12/2010,
VietWordNet chứa 4,960 từ, 12,270 nghĩa (synset) và 15,872 cặp từ - nghĩa, ƣớc tính
hoàn thành 10.44% [17].

2.2 Giới thiệu về kho ngữ liệu Sentiwordnet.
SentiWordNet là một cơ sở dữ liệu từ vựng đƣợc phát triển bởi Andrea Esuli và
cộng sự, 2006 [8] dựa trên WordNet, nhằm hỗ trợ khai phá quan điểm.

2.2.1 Các khái niệm sử dụng trong SentiWordNet
 Synset: là một bản ghi, cấu tạo bởi 6 cột, các cột phân cách bởi dấu <tab>:
o POS: từ loại của từ
o ID: mã đại diện cho synset

o PosScore: trọng số tích cực của từ
o NegScore: trọng số tiêu cực của từ
o SynsetTerms: là những từ nhận định trong synset.
 SynsetTerms:là những từ nhận định trong synset. Một synset có thế chứa
nhiều từ, và các từ này là từ đồng nghĩa với nhau. Một từ có thể có nhiều
ngữ cảnh khác nhau và trọng số Pos(s)/Neg(s) sẽ khác, do đó các từ này sẽ
đƣợc gán kèm theo số hiệu để phân biệt các từ.
o Ví dụ: từ high#3 có trọng số Pos(s)/Neg(s) là 0.375/0.125. Term
hope#1 có trọng số Pos(s)/Neg(s) là 0.125/0
 Gloss: là cột giải nghĩa và ngữ cảnh sử dụng của từ.
Ví dụ:

6

Hình 1.

Cấu trúc trong file SentiWordNet 3.0.txt

Trong đó:
Bảng 1.

Ví dụ về thành phần trong SentiWordNet 3.0

POS

ID

PosScore

NegScore

SynsetTerms

Gloss

a

00004615

0

0

shortened#4
cut#3

with parts removed; "the drastically cut
film"

a

00004723

0

0

half-length#2

abridged to half its original length

Phiên bản đầu tiên SentiWordNet 1.0 đƣợc xây dựng từ WordNet 2.0, mỗi
synset đƣợc gán trọng số Obj(s) – độ khách quan, Pos(s) – độ tích cực , Neg(s) – độ
tiêu cực của từ đƣợc chứa trong synset đó. Các nghĩa khác nhau của cùng một từ có
thể có thuộc tính liên quan quan điểm (opinion-related) khác nhau [6].
Ví dụ: trong SentiWordNet 1.0, synset [estimable (J,3)] tƣơng ứng với nghĩa “có thể
đã tính toán hoặc ước lượng” cho tính từ estimable , có điểm Obj(s) là 1.0,
Pos(s)=Neg(s)=0, trong khi synset [estimable (J,1)] tƣơng ứng với nghĩa “xứng đáng
được tôn trọng hoặc khen thưởng nhiều” thì có Pos(s)=0.75, Neg(s)=0 và Obj(s)
=0.25.
Các trọng số Pos score, Neg score và Obj score đƣợc cho trong khoảng từ 0.0
đến 1.0, tổng ba trọng số này tƣng ứng với một synset là 1.0

2.2.2 Các phiên bản SentiWordNet
a) SentiWordNet 1.0 đƣợc giới thiệu năm 2006 và đƣợc chấp nhận rộng rãi
cho nghiên cứu. [8]
b) SentiWordNet 1.1 đƣợc giới thiệu trong một báo cáo công nghệ năm 2007
nhƣng không đạt tới đƣợc mức công bố rộng rãi.
c) SentiWordNet 2.0 đƣợc giới thiệu năm 2008 trong luận văn của Esuli [9].
d) SentiWordNet 3.0 đƣợc giới thiệu năm 2010 [6].
SentiWordNet 1.x và 2.0 phát triển từ các chú thích trong Wordnet 2.0.
SentiWordNet 3.0 đƣợc phát triển dựa trên SentiWordNet 1.0 và WordNet 3.0.

7

2.3

Phương pháp xây dựng SentiWordNet 3.0

Stefano Baccianella và cộng sự, 2010 [6] đƣa ra phiên bản SentiWordNet 3.0
cho tiếng Anh, xây dựng trên cơ sở phiên bản WordNet 3.0. Các tác giả xây dựng
SentiWordNet 3.0 qua 2 bƣớc: (1) học bán giám sát và (2) bƣớc biến đổi ngẫu nhiên

Mở rộng
tập mồi

Đào tạo
bộ phân
lớp

Phân lớp
synset

Phân lớp
tổng hợp

Học bán giám sát

Bƣớc biến đổi ngẫu nhiên

Hình 2.

Mô hình phương pháp xây dựng SentiWordNet 3.0

2.3.1 Bước 1: Học bán giám sát
Bƣớc học bán giám sát này đồng nhất với quá trình đã đƣợc sử dụng xây dựng
SentiWordNet 1.0 [8] trong đó bƣớc này đƣợc chia thành 4 bƣớc nhỏ: (1) mở rộng tập
mồi (seed set), (2) đào tạo bộ phân lớp, (3) phân lớp synset và (4) phân lớp tổng hợp

Tập mồi tiêu cực

Tập mồi tích cực

Mở rộng 2 tập mồi dựa trên các mối
quan hệ nhị phân

Đào tạo bộ phân lớp

WordNet

Phân lớp

Phân lớp tổng hợp
Hình 3.

Mô hình bước 1: học bán giám sát

 Bước 1.1: 2 tập mồi nhỏ (một tập chứa các từ tích cực
và một tập chứa
các từ tiêu cực
) đƣợc tự động mở rộng bằng việc duyệt các mối quan hệ
nhị phân trong WordNet theo quy tắc sau:

8

1. Thêm vào
(tƣơng tự với
) tất cả các synset có kết nối tới

(tƣơng tự với
) dựa vào mối quan hệ tƣơng tự: ví dụ quan
hệ “also-see”, hay nói cách khác, 2 synset có cùng hƣớng quan hệ.
2. Thêm vào
(tƣơng tự với
) tất cả các synset có kết nối tới
(tƣơng tự với
) dựa vào mối quan hệ đối lập: ví dụ quan hệ
“direct antonymy”, hay nói cách khác, 2 synset là đối lập trong phân cực
PN.
Việc mở rộng này đƣợc biểu diễn bằng một bán kính K, sử dụng bán
kính k có nghĩa là thêm tất cả các synset có khoảng cách k tới các thành viên
của tập mồi ban đầu trong đồ thị quan hệ nhị phân.
 Bước 1.2: 2 tập mồi cuối cùng của bƣớc trên,
và
cùng với tập
đƣợc sử dụng để đào tạo các bộ phân lớp.
đƣợc định nghĩa là bộ các
synset không thuộc về cả
và
. Các mô đun đào tạo và phân lớp sử
dụng nghĩa của từ để đại diện cho từ đó . Điều này có nghĩa là: kết quả của
phân lớp liên quan trực tiếp tới một nghĩa hơn là một từ, ta có thể gọi đây là
bộ phân lớp nghĩa. Trong SentiWordNet 3.0, bộ phân lớp nghĩa còn đƣợc
gọi là mô hình “túi các synset”. Các synset đƣợc gán một vector đặc trƣng
thông qua phƣơng thức đánh chỉ mục văn bản (tf*idf).
 Bước 1.3: tất cả các synset của WordNet (bao gồm cả các synset đƣợc thêm
vào ở bƣớc 2) thông qua các bộ phân lớp chia thành các lớp Pos, Neg, Obj.
 Bước 1.4: Các tác giả sử dụng tổng cộng 8 phƣơng pháp phân lớp synset
độc lập tự động 1(s,p),…, 8(s,p) sau đó tổng hợp điểm của 8 phân lớp

này. Mỗi một phân lớp synset trả về kết quả là một số nhị phân hoặc số thực
nằm trong khoảng [0,1], do đó, ta có một bộ phân lớp tổng hợp : S x P
cho một đối tƣợng synset s và một lớp
trả về
trọng số
. Các tác giả sử dụng 2 phƣơng thức tổng hợp khác nhau:
phƣơng thức tổng hợp A và phƣơng thức tổng hợp B để tính toán giá trị cho
kết quả cuối cùng. Phƣơng thức A yêu cầu i trả về giá trị nhị phân, trong
khi, phƣơng thức B yêu cầu giá trị thực. Từ đó, các tác giả sử dụng vector
đặc trƣng theo 2 cách đƣợc 2 phƣơng thức học khác nhau (gọi là phương
thức học A và phương thức học B).
o Phương thức học A, i sử dụng các phƣơng pháp học máy bán giám
sát khởi tạo bằng bộ phân lớp nhị phân. Với mỗi phƣơng pháp phân
lớp i, tồn tại 2 bộ phân lớp
và
, trong đó,
phải phân tách
đƣợc các từ thuộc về mục tích cực và các từ thuộc về phần còn lại
không tích cực, còn
phải phân tách đƣợc các từ thuộc về mục tiêu
cực và các từ thuộc về phần còn lại không tiêu cực. Trong pha đào
tạo, các từ trong
đƣợc dùng để đào tạo các ví dụ thuộc

9

o

o

o

o

mục tiêu cực, và các từ trong
đƣợc dùng để đào tạo các ví
dụ thuộc mục tích cực.
Các từ đƣợc phân lớp tích cực bởi bộ phân lớp
đồng thời đƣợc
phân lớp không tiêu cực bởi bộ phân lớp
sẽ đƣợc coi là tích cực.
Các từ đƣợc phân lớp không tích cực bởi bộ phân lớp
đồng thời
đƣợc phân lớp tiêu cực bởi bộ phân lớp
sẽ đƣợc coi là tiêu cực.
Các từ còn lại, đƣợc phân lớp thuộc về không tích cực và (không tiêu
cực ) hoặc thuộc về tích cực và tiêu cực đƣợc coi nhƣ là khách quan.
Phương thức học B, i đƣợc thu bằng các phƣơng pháp học bán giám
sát khởi tạo bởi các phân lớp n-ary, kết của đƣợc trả về là một số thực
cho lớp
. Trong pha đào tạo, các từ trong
đƣợc
sử dụng trực tiếp làm ví dụ cho các lớp tích cực, tiêu cực, khách quan
tƣơng ứng.
Khác nhau cơ bản của phƣơng thức học A và B là phương thức B
phải xem xét đánh dấu theo mục, hoặc khái niệm, trong khi, phương
thức A các đối tƣợng đƣợc xem xét nhƣ là trong một mục chƣa đánh
dấu.
Để đạt độ chính xác cao hơn so với việc chỉ dùng một bộ phân lớp

đơn lẻ , một tập các bộ phân lớp đƣợc tạo ra, mỗi bộ chứa là kết quả
của một kết hợp 2 thành phần: bán kính và phƣơng pháp học máy.
Các tác giả thiết lập tập các bộ phân lớp của họ gồm 8 phần tử, kết
quả của việc chọn bán kính k từ tập {0,2,4,6} và 2 phƣơng pháp học
máy (Rocchio và SVMlight). Kết quả của bƣớc này là, trọng số Pos (
cũng nhƣ Neg, Obj) của mỗi synset đƣợc tạo bởi việc lấy trung bình
giá trị của 8 bộ phân lớp trong tập thông qua 2 phƣơng pháp tổng hợp
A hoặc B:
 Phương pháp tổng hợp A, Esuli và cộng sự sử dụng các bộ
phân lớp đƣợc sinh bởi phương pháp học A, kết quả trả về là
ba giá trị nhị phân, i gán cho s chính xác một trong ba class
của P ( ví dụ i(s,p) = 1 với một lớp
và i(s,p) = 0 cho
2 lớp còn lại). Kết của cuối của (s,p) đƣợc định nghĩa bằng
trung bình cộng của tất cả các phân lớp riêng biệt mà đƣợc gán
nhãn tƣơng ứng cho s
∑⟦

⟧

Trong đó ⟦ ⟧ là hàm đặc thù với (ví dụ hàm trả về 1 nếu
đúng và 0 nếu ngƣợc lại). Nếu tất cả i đều đƣợc gán cùng một
nhãn một synset s, thì s có trọng số là 1.0.
 Phương pháp tổng hợp B, các tác giả sử dụng phương pháp
học A mà trả lại ba giá trị thực, mỗi một phân lớp , đầu tiên
sẽ đƣợc gán ba trọng số không nhị phân
, với tất cả p
10

thuộc P, cho từng synset s. Giá trị trọng số cuối cùng của
đƣợc nhận bằng cách thêm giá trị thực tƣơng ứng của
sau đó lấy trung bình:
∑
∑

∑

 Phƣơng pháp tổng hợp B cho kết quả mịn hơn phƣơng pháp
A, vì phƣơng pháp A chỉ cho kết quả trong tập
còn phƣơng pháp B cho kết quả là giá trị thực trong đoạn
[0,1].

2.3.2 Bước 2: Bước biến đổi ngẫu nhiên
Bƣớc biến đổi ngẫu nhiên này coi WordNet 3.0 nhƣ là một đồ thị, và chạy lặp
đi lặp lại “bƣớc biến đổi ngẫu nhiên”, trong đó, các giá trị Pos(s) ,Neg(s) và Obj(s) ban
đầu đƣợc xác định ở bƣớc trƣớc, và có thể thay đổi ở mỗi bƣớc lặp. Quá trình này
dừng khi mà kết quả có sự hội tụ.
Đồ thị đƣợc sử dụng ở bƣớc này là một đồ thị đƣợc xác định hoàn toàn trên
WordNet bằng quan hệ nhị phân dạng từ dùng để định nghĩa – từ đang được định
nghĩa, nói một cách khác, tồn tại một liên hệ trực tiếp từ synset s1 tới synset s2 khi và
chỉ khi s1 (từ dùng để định nghĩa) xuất hiện ở trong nghĩa của s2 (từ đang được định
nghĩa). Hiểu một cách trực quan là, nếu hầu hết các từ được sử dụng để định nghĩa
một từ đƣợc đƣa ra mang giá trị tích cực (hoặc tiêu cực), thì có một xác suất cao xác
định đƣợc từ đang được định nghĩa là tích cực (tiêu cực). Tính tích cực và tiêu cực
đƣợc xem nhƣ là đƣờng đi thông qua đồ thị từ từ dùng để định nghĩa tới từ được định
nghĩa. Tuy nhiên điều này cần đƣợc kiểm tra bởi vì ở WordNet, từ được định nghĩa là
một synset trong khi từ dùng để định nghĩa là từ chƣa có định nghĩa rõ ràng, vì nghĩa
của synset là một tập hợp các từ chƣa rõ nghĩa. Trong khi đó, bƣớc này yêu cầu nghĩa
phải bao gồm các từ nằm trong SynsetTerm của WordNet. Do đó, SentiWordNet 3.0

sử dụng các nghĩa đƣợc nhóm bằng tay từ Princeton WordNet Gloss Corpus [6].

11

Bảng 2.

Hạng

Top 10 synset tích cực và 10 synset tiêu cực trong SentiWordNet
3.0

Tích cực

Tiêu cực

1

good#n#2 goodness#n#2

abject#a#2

2

better off#a#1

deplorable#a#1 distressing#a#2
lamentable#a#1 pitiful#a#2 sad#a#3
sorry#a#2

3

divine#a#6 elysian#a#2 inspired#a#1

bad#a#10 unfit#a#3 unsound#a#5

4

good enough#a#1

scrimy#a#1

5

solid#a#1

cheapjack#a#1 shoddy#a#1 tawdry#a#2

6

superb#a#2

unfortunate#a#3

7

good#a#3

inauspicious#a#1 unfortunate#a#2

8

goody-goody#a#1

unfortunate#a#1

9

amiable#a#1 good-humored#a#1
goodhumoured#a#1

dispossessed#a#1 homeless#a#2
roofless#a#2

gainly#a#1

hapless#a#1 miserable#a#2
misfortunate#a#1 pathetic#a#1
piteous#a#1
pitiable#a#2 pitiful#a#3 poor#a#1
wretched#a#5

10

2.4 Xây dựng SentiWordNet cho tiếng Ấn Độ.
Kho ngữ liệu SentiWordNet cho tiếng Ấn Độ đƣợc Amitava Das và cộng sự,
2010 [7] xây dựng và phát triển dựa trên WordNet, tập dữ liệu tiếng Ấn Độ theo mô
hình xây dựng cho SentiWordNet tiếng Anh. Vào năm 2010, SentiWordNet cho tiếng
Ấn Độ đƣợc phát triển cho ba bộ chữ: Bengali, Hindi và Telugu.

12

2.4.1 Xây dựng tập từ điển nguồn.
Tập từ điển nguồn đƣợc xây dựng từ SentiWordNet và danh sác các từ chủ
quan thông qua việc ghép 2 từ điển này và loại bỏ trùng lặp, đƣợc một từ điển quan
điểm chứa 14,135 token. Một bộ nhỏ gồm 8,427 từ quan điểm đƣợc trích từ kho ngữ
liệu SentiWordNet tiếng Anh thông qua việc lựa chọn theo độ mạnh của trọng số
Pos/Negs trên ngƣỡng 0.4, bởi vì các từ có độ mạnh trọng số dƣới 0.4 là nhập nhằng
và có thể bị mất mức độ chủ quan khi dịch sang ngôn ngữ đích.

SentiWordNet

Ghép

Danh sách từ chủ quan

Từ điển sau khi ghép, loại bỏ trùng lặp và từ có
trọng số <0.4

Anypos
Không xác định
đƣợc bằng
SentiWordNet

Xác định đƣợc bằng
SentiWordNet

Cập nhật vào từ điển

Loại bỏ

Hình 4.

Mô hình xây dựng tập từ điển nguồn

Bƣớc tiếp theo, các từ mà có nhãn trong danh sách các từ chủ quan là chưa định
nghĩa và đƣợc gán nhãn “anypos” sẽ đƣợc kiểm tra. Nếu có thể xác định lại bằng
SentiWordNet thì sẽ đƣợc cập nhật vào từ điển, nếu không sẽ đƣợc loại bỏ nhằm tránh
nhập nhằng của bƣớc phát hiện những từ chủ quan.
Một vài từ trong danh sách các từ chủ quan có nhiều biến thể, ví dụ: memories.
Nguyên nhân phát sinh từ quá trình dịch thuật, một vài từ không chứa tính chủ quan
sau khi dịch (ví dụ: memory không chứa tính chủ quan). Một danh sách các từ này
đƣợc tạo, đồng thời, các cụm độc lập của các từ này chia sẻ cùng một mẫu gốc chung.
Nếu nhƣ từ gốc là tồn tại trong SentiWordNet, thì các từ sau khi dịch sẽ mang tính chủ
quan và đƣợc thêm vào danh sách mới, ngƣợc lại sẽ bị loại bỏ.

13

Bảng 3.

SentiWordNet tiếng Anh và danh sách các từ chủ quan
SentiWordNet

Danh sách các từ chủ quan

Đơn

Cụm

Đơn

Cụm

115,424

79,091

5,866

990

2,789

30,000

4,745

963

Ngƣỡng

Định hƣớng độ mạnh

Độ mạnh chủ quan

Nhãn

86,944

30,000

2,652

928

Các entry
Các từ không
nhập nhằng
Loại bỏ các từ
nhập nhằng

2.4.2 Tiếp cận theo hướng từ điển song ngữ
Một quá trình dịch theo mức từ giảm thiểu lỗi đƣợc chấp nhận để tạo ra
SentiWordNet cho tiếng Ấn Độ từ từ điển quan điểm đề cập ở phẩn trên. Các synset là
chính xác và đáng tin cậy giống nhƣ đƣợc tạo ra từ ngƣời nói tự nhiên. Mỗi ngôn ngữ
có xấp xỉ 9,966 synset. Từ điển song ngữ này đƣợc sử dụng cùng với từ điển cho từng
ngôn ngữ.

2.4.3 Tiếp cận trên cơ sở WordNet
Nhằm tăng số lƣợng synset của SentiWordNet cho tiếng Ấn Độ, phƣơng hƣớng
tiếp cận trên cơ sở từ điển Wordnet tiếng Ấn Độ đƣợc sử dụng. Thuật toán bắt đầu với
các synset của SentiWordNet tiếng Anh, đƣợc mở rộng sử dụng mối quan hệ đồng
nghĩa và trái nghĩa trong WordNet. Với các synset phù hợp, giữ lại chính xác trọng số
trong SentiWordNet tiếng Anh. Việc tính toán các trọng số tích cực và tiêu cực cho bất
kỳ synset trái nghĩa nào đƣợc tính bằng công thức:

Tp = 1 - Sp
Tn = 1 - Sn

Trong đó Sp là trọng số tích cực, Sn là trọng số tiêu cực trong ngôn ngữ nguồn (ở đây là
tiếng Anh) và Tp ,Tn là trọng số trong ngôn ngữ đích tƣơng ứng (Hindi và Bengali).

2.4.4 Tiếp cận dựa trên tập văn bản
Các tác giả sử dụng tập dữ liệu đƣợc gán nhãn đơn giản SWP (sentiment word
positive) và SWN (sentiment word negative). Mô hình học máy CRF đƣợc lựa chọn để
đào tạo dữ liệu nhân. Sau bƣớc này, sử dụng mô hình n-gram với n = 4 để tiến hành bổ
sung các synset vào từ điển.

14

2.4.5 Đánh giá từ điển
Bảng dƣới đây là kết quả thử nghiệm độ che phủ với miền dữ liệu về các bộ
phim
trên
2
tên
miền:

và
/>
Bảng 4. Phân loại chủ đề sử dụng Bengali SentiWordNet
Ngôn ngữ
Tiếng Anh
Bengali

Tên miền
MPQA
IMDB

NEWS
BLOG

Độ chính xác
76.08%
79.90%
72.16%
74.60%

Độ hồi tƣởng
83.33%
86.55%
76.00%
80.40%

Kết quả trên cho thấy độ che phủ của SentiWordNet cho tiếng Bengali là tốt với
độ hồi tƣởng và độ chính xác kém từ 4%-6% so với SentiWordNet tiếng Anh.

2.5 Các nghiên cứu liên quan
Vũ Xuân Sơn và cộng sự, 2011 [1] xây dựng đƣợc một bộ từ điển
VietSentiWordNet ứng dụng trong khai phá quan điểm tin tức. Từ điển này có 977
synsets, với 1179 từ. Các tác giả áp dụng từ điển VietSentiWordNet vào bài toán phát
hiện và tổng hợp quan điểm tin tức trên miền dữ liệu , thu đƣợc độ
chính xác tổng hợp quan điểm ở mức câu cho kết quả cao nhất là 69.97%. [1]
Bruno Ohana, 2009 [13] áp dụng kho ngữ liệu SentiWordNet vào việc giải quyết
các vấn đề tự động phân lớp quan điểm trên miền dữ liệu đánh giá phim. Tác giả sử
dụng SentiWordNet để trích xuất từ văn bản ra một tập các đặc trƣng, lấy tập đó làm
tập đầu vào cho một bộ phân lớp. Độ chính xác tốt nhất của bộ phân lớp khi sử dụng
SentiWordNet là 69.10% [13].

2.6 Tóm tắt chương 2.
Chƣơng này đã giới thiệu kho ngữ liệu và các phƣơng pháp xây dựng
SentiWordNet tiếng Anh và tiếng Ấn Độ. Phƣơng pháp xây dựng SentiWordNet 3.0 từ
SentiWordNet 1.0 là phƣơng pháp đƣợc áp dụng trong chƣơng tiếp theo.

15

Chương 3: Mở rộng VietSentiWordNet và áp dụng
vào bài toán khai phá quan điểm
3.1 Mở rộng VietSentiWordNet sử dụng học máy bán giám sát SVM.
3.1.1 Phương pháp.
Trên cơ sở tìm hiểu phƣơng pháp xây dựng SentiWordNet 1.0, SentiWordNet
3.0, SentiWordNet cho tiếng Ấn Độ; nguồn ngữ liệu và đặc trƣng ngữ liệu tiếng Việt,
chúng tôi đề nghị một phƣơng pháp mở rộng từ điển VietSentiWordNet cho miền dữ
liệu tin tức của nhóm tác giả Vũ Xuân Sơn và cộng sự [1].
Phƣơng pháp xây dựng từ điển SentiWordNet Ấn Độ có mô hình xây dựng ƣu
việt, tích hợp đƣợc nhiều phƣơng pháp nhƣng có một số khó khăn khi áp dụng phƣơng
pháp trên cho tiếng Việt:
-

-

Bộ từ điển WordNet tiếng Việt: Theo Virach Sornlertlamvanich, 2010 [16],
vào thời điểm 05/12/2010, VietWordNet chứa 4,960 từ, 12,270 nghĩa
(synset) và 15,872 cặp từ - nghĩa, tuy nhiên, chúng tôi chƣa lấy đƣợc Từ
điển VietWordNet nói trên từ trên trang Web của Asian WordNet (AWN).
Danh sách từ chủ quan: chƣa có bộ từ điển mang tính chủ quan (subjective
word list) tiếng Việt.
Dựa vào người dùng Internet: Do thời gian thực hiện nghiên cứu hạn chế

nên chúng tôi không phát triển các ứng dụng với mục đích lấy đánh giá
ngƣời dùng về quan điểm các từ.

Công việc xây dựng SentiWordNet cần nhiều thời gian, chi phí và tài nguyên con
ngƣời. Trong khuôn khổ khóa luận, chúng tôi lựa chọn sử dụng phƣơng pháp học A,
sử dụng bộ phân lớp bán giám sát SVM do đặc điểm:
 Các đối tƣợng từ khóa không cần xếp vào mục, phù hợp với cấu trúc của ngữ
liệu từ điển tiếng Việt thuộc đề tài KC01.01/06-10 [3] do PGS TS. Lƣơng Chi
Mai chủ trì.
 SVMlight đạt đƣợc kết quả cao: Esuli và các cộng sự, 2006 [8] sử dụng 2 bộ
phân lớp Rocchio và SVMlight cho việc phân lớp để xây dựng SentiWordNet
1.0. Esuli, 2008 [9] cũng đã so sánh mô hình học máy Naive Bayesian với mô
hình học máy SVMs (SVMlight phiên bản 6.01 của Joachims) và thấy rằng mô
hình học máy SVMs đạt đƣợc kết quả khả quan nhất .

16

MỞ RỘNG VIETSENTIWORDNET DỰA TRÊN MÔ HÌNH HỌC BÁN GIÁM SÁT SVMlight VÀ ÁP DỤNG VÀO BÀI TOÁN KHAI PHÁ QUAN ĐIỂM

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về