Phát hiện câu so sánh trong tiếng việt và áp dụng trong miền dữ liệu điện thoại

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (583.63 KB, 18 trang )

1

Đại học Quốc Gia Hà Nội – Đại học Công Nghệ
Khoa Công Nghệ ThôngTin

CÔNG TRÌNH DỰ THI
GiẢI THƯỞNG “SINH VIÊN NGHIÊN CỨU KHOA HỌC”
NĂM 2012

Tên công trình: Phát hiện câu so sánh trong tiếng Việt và áp dụng trong miền dữ
liệu”điện thoại”

Họ và tên sinh viên:
Đào Tuấn Vũ – K53CB
Tiêu Thị Phương – K54CC
Giáo viên hướng dẫn:
CN. Vũ Tiến Thành
CN. Trần Xuân Tứ

Hà nội -2012

1

NỘI DUNG
I. ĐẶT VẤN ĐỀ ........................................................................................................ 4
1. ĐỘNG LỰC VÀ MỤC ĐÍCH ..................................................................................... 4
2. GIỚI THIỆU VỀ KHAI PHÁ QUAN ĐIỂM .................................................................. 5
2.1 Khái niệm về khai phá quan điểm................................................................. 5
2.2 Ứng dụng của khai phá quan điểm ............................................................... 5
2.3 Bài toán khai phá quan điểm dựa trên câu so sánh ..................................... 6

3. PHÁT HIỆN CÂU SO SÁNH TRONG TIẾNG VIỆT VÀ ÁP DỤNG TRONG MIỀN DỮ
LIỆU”ĐIỆN THOẠI” ............................................................................................................ 7

4. MỘT SỐ NGHIÊN CỨU LIÊN QUAN ........................................................................ 8
4.1 Nghiên cứu của Bing Liu và cộng sự về khai phá câu so sánh .................... 8
4.2 Một số nghiên cứu khác ................................................................................ 9
II. MÔ HÌNH GIẢI QUYẾT BÀI TOÁN ............................................................. 10
1. TIỀN XỬ LÝ DỮ LIỆU .......................................................................................... 12
2. PHÁT HIỆN CÂU SO SÁNH ..................................................................................... 12
2.1 Trích xuất tập ứng viên cho bộ phân lớp: .................................................. 12
2.2 Học bộ phân lớp thứ nhất ........................................................................... 12
2.3 Học bộ phân lớp thứ hai ............................................................................. 13
III. THỰC NGHIỆM .............................................................................................. 14
1. CẤU HÌNH THỰC NGHIỆM ................................................................................... 14
2. DỮ LIỆU THỰC NGHIỆM...................................................................................... 14
3. THỰC NGHIỆM HỆ THỐNG .................................................................................. 15
KẾT LUẬN .............................................................................................................. 16
TÀI LIỆU THAM KHẢO ...................................................................................... 17

2

TÓM TẮT
Khai phá quan điểm so sánh là một bài toán nhận được sự quan tâm trên thế giới.
Mặc dù bài toán này có liên quan tới bài toán khai phá quan điểm dựa trên đặc trưng sản
phẩm nhưng nó khá là khác biệt. Mục tiêu của bài toán gồm có (1) phát hiện câu so sánh
từ văn bản và (2) trích xuất các quan hệ so sánh.
Trong những năm gần đây, một số giải pháp phát hiện câu so sánh được đưa ra
[JL06, HW08]. Tuy nhiên, đối với tiếng Việt, chưa có một nghiên cứu nào đi sâu vào vấn
đề này.

Trong báo cáo này, chúng tôi sử dụng kỹ thuật học bán giảm sát để phát hiện câu so
sánh trên miền sản phẩm điện thoại di động dựa trên hướng tiếp cận của Nitin Jindal và
cộng sự [JL06]. Chúng tôi đề xuất một mô hình tự động phát hiện câu so sánh dựa trên
học máy bán giám sát EM với kết quả tốt (f1 là 0.78)

3

Các bảng và hình vẽ
Bảng 1. Môi trường thực nghiệm ............................................................................. 14
Bảng 2.Thống kê số lượng câu đánh giá................................................................... 15
Bảng 3. Đánh giá trích xuất đặc trưng ...................... Error! Bookmark not defined.
Bảng 4. Đánh giá xác định định hướng quan điểm (chưa có phát hiện câu so sánh)
........................................................................................... Error! Bookmark not defined.
Bảng 5. Đánh giá xác định định hướng quan điểm (Có phát hiện câu so sánh) Error!
Bookmark not defined.

Hình 1. Mô hình ........................................................................................................ 11
Hình 2. Bảng tổng kết quan điểm trên từng đặc trưng của điện thoại Apple Iphone 4
32G .................................................................................... Error! Bookmark not defined.

4

I. ĐẶT VẤN ĐỀ
1. Động lực và mục đích
Ngày nay mạng xã hội phát triển rất phổ biến và mạnh mẽ. Theo một số liệu thống
kê1 một trang mạng xã hội được ưa chuộng hiện nay là facebook. Có tới 500 triệu người
dùng, và mỗi ngày có trên 50% số lượng người dùng đăng nhập tài khoản, cứ 20 phút thì
trên facebook lại có 3 triệu thông điệp được gửi đi. Các thông điệp này chứa đựng rất

nhiều ý kiến chủ quan của người sử dụng mạng xã hội về một sự vật, sản phẩm hay sự
kiện nào đó. Rất nhiều người muốn biết rằng những ý kiến đó mang ý nghĩa tích cực, tiêu
cực tới sự vật, sản phẩm hay sự kiện nào đó. Chẳng hạn, một công ty rất muốn biết thái
độ của người sử dụng đối với sản phẩm của mình, một người khi muốn mua một sản
phẩm nào đó thường tìm thông tin xung quanh sản phẩm của mính muốn mua. Khai phá
quan điểm giúp họ có thể nhanh chóng biết được nhưng thông tin đó.
Từ thực tế cần thiết mà trên thế giới bài toán khai phá quan điểm rất được quan tâm
nghiên cứu. Đặc biệt có một số hội nghị chuyên về khai phá quan điểm như: Workshop
on Opinion Mining for Business Intelligence (OMBI'10), Workshop on Opinion Mining
and Sentiment Analysis, ICDM-2011 Workshop on Sentiment Elicitation from Natural
Text for Information Retrieval and Extraction, International Workshop on Search and
Mining User-generated Contents, Workshop on Social Theory and Social Computing,
Workshop on Mining User-Generated Content. Bên cạnh đó có rất nhiều bài báo về khai
phá quan điểm tại các hội nghị nổi tiếng như: International World Wide Web Conference,
ACM Transactions on Intelligent Systems and Technology...
Không dừng lại ở việc nghiên cứu về phương pháp, hiện nay nhiều hệ thống về khai
há quan điểm đã được ứng dụng trong thực tiễn: Twitter Sentiment2 và TweetFeel3. Hiện
nay, tại Việt Nam, đã có một số hệ thống về khai phá quan điểm như ePiORM4. Tuy
nhiên, theo tìm hiểu của nhóm chưa có hệ thống khai phá quan điểm nào trên miền các
sản phẩm điện thoại di động. Xuất phát nhu cầu thực tế đấy, chúng tôi đã chọn bài toán
nghiên cứu, xây dựng và thử nghiệm một mô hình khai phá quan điểm cho miền tiếng
Việt.
1

/> />3
/>4
/>2

5

2. Giới thiệu về khai phá quan điểm
2.1 Khái niệm về khai phá quan điểm
Thông tin có thể chia làm hai loại chính đó là thông tin khách quan và thông tin chủ
quan. Trong đó, thông tin khách quan là những phát biểu khách quan về các vật hay sự
kiện trong cuộc sống. Còn thông tin chủ quan là những phát biểu chủ quan phản ánh cảm
xúc, nhận thức của người phát biểu về các vật và sự kiện.
Bing Liu [Liu10] đã định nghĩa khai phá quan điểm như sau: “Với một tập văn bản
D chứa các quan điểm hoặc cảm nghĩ về một đối tượng, mục tiêu của khai phá quan điểm
là trích xuất các thuộc tính và thành phần của đối tượng được đề cập trong mỗi văn bản d
thuộc D và xác định xem liệu các quan điểm đó là tích cực, tiêu cực hay trung lập.”
Bài toán khai phá quan điểm gồm có 3 bài toán điển hình [Liu10]:
- Phân lớp quan điểm
- Khai phá quan điểm dựa trên đặc trưng
- Khai phá quan điểm dựa trên câu so sánh
2.2 Ứng dụng của khai phá quan điểm
Do có rất nhiều ứng dụng nên khai phá quan điểm đã trở thành một lĩnh vực rất
được quan tâm hiện nay. Bing Liu [Liu10] đã chỉ ra hai ứng dụng chính của khai phá
quan điểm:
Thứ nhất, ứng dụng cho người dùng cuối, nếu một người muốn mua một sản phẩm
họ thường tìm kiếm thông tin, các đánh giá của người khác về sản phẩm đó. Khai phá
quan điểm giúp họ thay vì ngồi đọc một số lượng lớn các bình luận thì chỉ cần xem đánh
giá tóm tắt về sản phẩm.
Thứ hai, các tổ chức hoặc doanh nghiệp, khai phá quan điểm cũng rất hữu ích đối
với các doanh nghiệp. Khai phá dữ liệu giúp họ biết thái độ của người dùng đối với sản
phẩm mới của tổ chức hoặc doanh nghiệp để có thế đưa ra các định hướng tiếp theo.

6
2.3 Bài toán khai phá quan điểm dựa trên câu so sánh

2.3.1 Một số khái niệm liên quan
Câu so sánh là loại câu rất hay được người dùng đưa ra khi nhận xét về một sự vật,
hiện tượng nào đó. Nó có thể mô tả rõ ràng về sự vật, hiện tượng đó hơn là nói một cách
chung chung. Chính vì vậy, chúng tôi sẽ tiến hành khai phá câu so sánh để củng cố kết
quả đánh giá về các sản phẩm của người dùng
Ví dụ: “Điện thoại A tốt hơn điện thoại B” với câu “điện thoại A tốt”
Trong trường hợp này với câu đầu tiên có thể nhiều người đã sử dụng điện thoại B
và đã biết điện thoại B này “tốt” đến mức độ nào, nên có thể suy ra được chất lượng của
điện thoại A. Còn câu thứ hai thì chỉ nói lên một cách chung chung và khó có thể đánh
giá được độ “tốt” của điện thoại A.
2.3.2 Phân loại câu so sánh
Câu so sánh có thể chia làm hai loại [JL06]:
- So sánh có thể phân cấp được: là các câu so sánh dựa trên các quan hệ lớn hơn,
nhỏ hơn, bằng, hoặc lớn hơn hoặc nhỏ hơn tất cả.
Ví dụ: iphone 4 có màn hình đẹp hơn samsung galaxy sii
- So sánh không thể phân cấp được: là các câu so sánh mang tính ngụ ý ám chỉ việc
so sánh
Ví dụ: iphone 4 có cảm ứng còn nokia 1002 thì không có.
Với câu so sánh có thể phân cấp được ta có thể chia làm 3 loại [JL06]:
- So sánh bằng: mối quan hệ theo kiểu bằng nhau giữa hai thực thể trên một vài đặc
trưng
Ví dụ: Samsung Galaxy S II có hệ điều hành tương đương iphone 4s.
- So sánh hơn: mối quan hệ theo kiểu hơn hoặc kém giữa hai thực thể trên một vài
đặc trưng
Ví dụ: Màn hình của LG Optimus tốt hơn màn hình Nokia C3-01

7
- So sánh nhất: mối quan hệ hơn hoặc kém hơn giữa một thực thể với tất cả các thực
thể khác trên một vài đặc trưng.

Ví dụ: Kiểu dáng của Samsung Galaxy Mini là đẹp nhất trong các điện thoại hiện
nay.

3. Phát hiện câu so sánh trong tiếng Việt và áp dụng trong miền dữ
liệu”điện thoại”
Hiện nay, theo khảo sát của nhóm thì chưa có một nghiên cứu nào về việc phát hiện
câu so sánh trong tiếng Việt. Bài toán phát hiện câu so sánh trong tiếng Việt và áp dụng
trong miền dữ liệu “điện thoại” được phát biểu như sau:
“Với một tập văn bản gồm các câu bình luận tiếng Việt D chứa các quan điểm hoặc
cảm nghĩ về một sản phẩm. Mục tiêu của bài toán là phát hiện các câu so sánh trong mỗi
văn bản d thuộc D và phân lớp các quan điểm đó là so sánh hơn, so sánh nhất hay so sánh
bằng.”

8

4. Một số nghiên cứu liên quan
Hiện tại, theo khảo sát của nhóm chưa có bất cứ nghiên cứu nào liên quan đến khai
phá câu so sánh trong tiếng Việt và trên thế giới cũng có ít nghiên cứu đến bài toán này.
4.1 Nghiên cứu của Bing Liu và cộng sự về khai phá câu so sánh
Việc khai phá quan điểm dựa trên câu so sánh được chia làm hai nhiệm vụ chính
gồm trích xuất các câu so sánh và trích xuất các quan hệ so sánh. Nitin Jindal và Bing Liu
[JL06],[JL06-1] đề xuất ra mô hình để trích xuất các câu so sánh và trích xuất các quan
hệ so sánh.
- Trích xuất tập ứng viên là câu so sánh:
Từ tập từ khóa được tạo bằng tay (gồm 83 từ) mô hình sẽ tìm ra những câu chứa từ
khóa để tạo thành tập ứng viên là câu so sánh.
- Sử dụng học máy để loại bỏ các câu không phải là câu so sánh:
Jindal và Liu đã chỉ ra rằng tập ứng viên là câu so sánh này có độ hồi tưởng rất cao
(98% theo tập dữ liệu) tuy nhiên lại có độ chính xác thấp (32% theo tập dữ liệu). Do vậy,

Jindal và Liu đã sử dụng học máy để loại bỏ những câu không là câu so sánh từ tập này.
Jindal và Liu sử dụng phương pháp học máy bayes với các thuộc tính là các luật
chuỗi lớp cho kết quả khá cao (độ đo F1 là 81%).
- Sử dụng học máy để phân lớp các câu so sánh vào một trong ba lớp như trong
phần giới thiệu
Sau khi đã loại bỏ tập các câu không phải là so sánh, Jindal và Liu tiếp tục sử dụng
một bộ phân lớp nữa để phân các câu so sánh vào các lớp: so sánh hơn, so sánh bằng, so
sánh nhất.
Jindal và Liu chỉ ra rằng có thể sử dụng mặc dù có thể gộp hai quá trình phân lớp lại
tuy nhiên thì kết quả thực nghiệm không cao bằng việc chia thành hai bộ phân lớp riêng
biệt.
Tác giả đã sử dụng học máy SVM với các đặc trưng là các từ khóa cũng đã cho kết
quả cao (độ chính xác là 96%)

9
4.2 Một số nghiên cứu khác
Nitin Jindal và Bing Liu [JL06] đã đề xuất ra phương pháp đầu tiên cho việc khai
phá quan điểm dựa trên câu so sánh (phát hiện câu so sánh và trích xuất quan hệ so sánh).
Phương pháp này phát hiện câu so sánh bằng các từ khóa (có độ hồi tưởng cao) sau đó sử
dụng các luật chuỗi lớp kết hợp với gán nhãn từ loại làm đặc trưng trong bộ phân lớp. Để
trích xuất quan hệ so sánh tác giả sử dụng luật chuỗi nhãn kết hợp với một phương pháp
học riêng chọn ra các luật chuỗi nhãn tốt nhất bao phủ toàn bộ dữ liệu.
Yang và Ko [YK09] đã cải tiến phương pháp trích xuất của Nitin Jindal và Bing Liu
và áp dụng trong việc phát hiện câu so sánh trong văn bản tiếng Hàn Quốc. Bằng việc
chia tập từ khóa ra làm hai phần sao cho tập các câu chứa từ khóa ở một phần có độ chính
xác cao (trên 90%) và tập các câu chứa từ khóa ở phần còn lại có độ chính xác thấp. Sau
đó cũng giống phương pháp của Jindal và Liu tác giả sử dụng học máy để phần lớp phần
dữ liệu còn lại.
Ngoài ra, Xiaojiang Huang và cộng sự [HWYX] cũng đã tiến hành việc phát hiện

câu so sánh trong tiếng Trung Quốc dựa trên nghiên cứu của Nitin Jindal và Bing Liu
[JL06]
Qua việc nghiên cứu một số công trình liên quan, chúng tôi đề xuất một mô hình
phát hiện câu so sánh dựa trên mô hình trích chọn câu so sánh trong [JB06]. Tuy nhiên
chúng tôi đã thay đổi đặc trưng trong cho bộ học bằng các cac đoạn dãy gán nhãn.

10

II. Mô hình giải quyết bài toán
Trong phần này chúng tôi đề xuất một mô hình câu so sánh dựa trên mô hình đề
xuất của Bing Liu [JB06-2]
Mô hình được chia làm ba pha chính gồm có:
+ Pha 1: Tiền xử lý dữ liệu
+ Pha 2: Trích xuất tập ứng viên
+ Pha 3: Học bộ phân lớp thứ nhất
+ Pha 4: Học bộ phân lớp thứ hai

11

Hình 1. Mô hình

12

1. Tiền xử lý dữ liệu
Do dữ liệu được lấy về là các bình luận của người dùng tại trang bán hàng trực
tuyến nên chưa chuẩn. Nhóm đã tiến hành chuẩn hóa lại dữ liệu để kết quả có độ chuẩn
xác cao.

Ví dụ: chuyển câu “cai dien thoai nay dep qua” thành “cái điện thoại này đẹp quá”
Sau khi chuẩn hóa dữ liệu, chúng tôi sử dụng công cụ WordSeg để tách từ và gán
nhãn từ loại.

2. Phát hiện câu so sánh
Đây là phần chính trong mô hình của chúng tôi nhằm phát hiện câu so sánh trong
các bình luận. Việc trích xuất câu so sánh gồm ba quá trình đó là:
- Trích xuất tập ứng viên cho bộ phân lớp
- Học bộ phân lớp thứ nhất: để trích xuất ra các câu so sánh
- Học bộ phân lớp thứ hai: phân các câu so sánh đã trích xuất ở bước trên vào một
trong 3 lớp: so sánh hơn, so sánh bằng, so sánh nhất
2.1 Trích xuất tập ứng viên cho bộ phân lớp:
Dữ liệu sau khi được chuẩn hóa sẽ được lọc bằng tập từ khóa tạo thành tập ứng viên
cho bộ phân lớp trong đó:
-Tập các từ khóa là tập các từ mang ý nghĩa so sánh. Chúng tôi thống kê được có 51
từ khóa.
- Tập ứng viên là các câu có chứa những từ khóa
Phát hiện câu so sánh bằng học máy bán giám sát:
2.2 Học bộ phân lớp thứ nhất
Chúng tôi đã thay thế việc trích chọn đặc trưng bởi các luật chuỗi nhãn như trong
[JL06] bằng các đoạn dãy gán nhãn.
Các đoạn chuỗi nhãn được trích chọn như sau: coi những từ khóa là điểm chốt để
xây dựng các đặc trưng. Các dãy được tạo bởi chốt và các từ liền kề quanh nó với bán

13
kính là r. Trong quá trình thực nghiệm chúng tôi thấy rằng r đạt giá trị tốt nhất tại giá trị
là 4.
Từ những dãy này chúng tôi tiến hành gán nhãn là so sánh hoặc không so sánh cho
bộ dữ liệu học.

Ví dụ: “iphone/N 5/M thì/C chuẩn_bị/V ra/R chạy/V nhanh/A hơn/R”
<{C}{V}{R}{V}{A}{hơnR}> so sánh
Tiếp theo chúng tôi sử dụng học máy bán giám sát EM để học bộ phân lớp với các
dãy gán nhãn là đặc trưng. Mỗi câu nếu chứa một dãy gán nhãn nào đó trong tập đặc
trưng thì giá trị tương ứng cho đặc trưng đó được gán là 1, ngược lại được gán là 0.
2.3 Học bộ phân lớp thứ hai
Với việc phân lớp này, tập từ khóa được sử dụng làm tập đặc trưng để phân lớp.
Các lớp là so sánh hơn, so sánh bằng và so sánh nhất. Nếu câu có chứa một từ khóa trong
tập đặc trưng thì giá trị tương ứng cho đặc trưng đó được gán giá trị là 1, và là 0 trong
trường hợp khác. Bộ học SVM-kNN được chúng tôi áp dụng và cho kết quả tốt.

14

III. Thực nghiệm
1. Cấu hình thực nghiệm
Bộ xử lý

Intel® 2 Core™ CPU T5670 1.80 GHz

RAM

2.00 GB

Hệ điều hành

Microsoft Windows 7

Công cụ lập trình

Java Eclipse SDK & Eclipse 3.7
Bảng 1. Môi trường thực nghiệm

2. Dữ liệu thực nghiệm
Dữ liệu thực nghiệm được thu thập từ trang thegioididong.com sử dụng chương
trình do nhóm tự viết. Chúng tôi chọn ra 12 sản phẩm có số lượng bình luận nhiều nhất
trong tổng số 76 sản phẩm tại trang thegioididong.com. Tổng số lượng bình luận cho 12
sản phẩm là 3431 bình luận với số lượng câu là 8556.
Do việc chuẩn hóa bằng công cụ có nhiều hạn chế, không thể xử lý hoàn toàn được
ngôn ngữ tự nhiên nên nhóm đã tiến hành chuẩn hóa bằng tay để nâng cao độ chính xác
trong quá trình gán nhãn dữ liệu.
Ví dụ: - sửa “hok” thành “không”
- sửa “oy” thành “rồi”....
Dưới đây là bảng tổng kết dữ liệu qua quá trình chuẩn hóa:
Thống kê số lượng đánh giá
STT
1
2
3
4
5
6
7
8
9
10
11

Tên sản phẩm

iphone-4-32gb
lg-gs290-cookie-fresh
lg-optimus-one-p500
lg-gm360i
lg-optimus-me-p350
nokia-c3-00
nokia-c2-01
samsung-s5830-ace
samsung-galaxy-mini-s5570
samsung-galaxy-s-ii-i9100g
samsung-galaxy-y-s5360

Số lượng câu đánh giá

256
648
925
659
445
378
269
967
1253
1623
857

15
12

276
8556

samsung-galaxy-note-n7000
Tổng cộng
Bảng 2.Thống kê số lượng câu đánh giá

3. Thực nghiệm hệ thống
Với tập các ứng viên là câu so sánh đã được lọc ra bằng từ khóa, chúng tôi tiến hành
thử nghiệm với tập dữ liệu học gồm 1000 câu trong đó có 800 câu chưa được gán nhãn và
tập dữ liệu kiểm tra gồm 300 câu. Trong bộ phân lớp thứ nhất chúng tôi thực nghiệm với
các bán kính r khác nhau và đã cho kết quả như sau:
0.90
0.80
0.70
0.60
0.50

Độ chính xác

0.40

Độ hồi tưởng
Độ đo f1

0.30
0.20
0.10
0.00
EM r = 4

EM r = 3

EM r = 5

SVM

Hình 2. Kết quả bộ phân lớp 1
Với thuật toán EM kết hợp với các bán kính r của đoạn gán nhãn cho kết quả tốt
nhất với độ chính xác là 0.75, độ hồi tưởng là 0.81 và độ đo f1 là 0.78.

16

KẾT LUẬN
Xuất phát từ nhu cầu thực tế tại Việt Nam, trong bài nghiên cứu khoa học này,
chúng tôi đã tiến hành nghiên cứu về lĩnh vực khai phá câu so sánh. Kết quả bước đầu
trên miền sản phẩm “điện thoại” khá tốt.
Chúng tôi bày tỏ lời cảm ơn PGS.TS Hà Quang Thụy, CN. Vũ Tiến Thành, CN.
Trần Xuân Tứ và phòng nghiên cứu SIS-KTLab đã hết sức giúp đỡ chúng tôi hoàn thành
nghiên cứu này.

17

TÀI LIỆU THAM KHẢO
[Liu10] Bing Liu. Sentiment Analysis and Subjectivity. Invited Chapter for the
Handbook of Natural Language Processing, Second Edition. March, 2010.
[BingLiu] Bing Liu, Chapter 11, Webdata mining - Exploring Hyperlinks,
Contents, and Usage Data.

[JL06] Nitin Jindal and Bing Liu, Mining Comparative Sentences and Relations,
Proceedings of 21st National Conference on Artificial Intellgience (AAAI-2006), July
16.20, 2006, Boston, Massachusetts, USA.
[JL06-2] Nitin Jindal and Bing Liu, Identifying Comparative Sentences in Text
Documents, Proceedings of the 29th Annual International ACM SIGIR Conference on
Research & Development on Information Retrieval (SIGIR-06), Seattle 2006.
[HW08] Xiaojiang Huang, Xiaojun Wan, Jianwu Yang and Jianguo Xiao, Learning
to Identify Comparative Sentences in Chinese Text, Proceedings of the 10th Pacific Rim
International Conference on Artificial Intelligence: Trends in Artificial Intelligence
(PRICAI '08)
[YK09] Seon Yang and Youngjoong Ko, Extracting Comparative Sentences from
Korean Text Documents Using Comparative Lexical Patterns and Machine Learning
Techniques, Proceedings of the ACL-IJCNLP 2009 Conference Short Papers (ACLShort
'09)

Phát hiện câu so sánh trong tiếng việt và áp dụng trong miền dữ liệu điện thoại

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về