Tải bản đầy đủ (.pdf) (23 trang)

Độ tương đồng ngữ nghĩa giữa hai câu và ứng dụng trong tóm tắt văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (463.59 KB, 23 trang )

Độ tương đồng ngữ nghĩa giữa
hai câu và ứng dụng trong
tóm tắt văn bản tiếng Việt
Người thực hiện:
Hoàng Minh Hiền
Phạm Thị Thu Uyên
Người hướng dẫn:
PGS.TS Hà Quang Thụy
Cử nhân Trần Mai Vũ
1
2
Nội dung báo cáo
1. Giới thiệu
2. Độ tương đồng câu
3. Phương pháp tính độ tương đồng câu
4. Áp dụng và kết quả thực nghiệm
5. Kết luận và hướng nghiên cứu tiếp
3
1. Giới thiệu
 Vai trò độ tương đồng ngữ nghĩa giữa các
câu
• Sự quan tâm đặc biệt trong các hội nghị
quốc tế như: DUC…
• Áp dụng tốt độ đo này sẽ làm các ứng dụng
trở nên “thông minh” hơn.
 Tính cấp thiết của độ tương đồng ngữ nghĩa
trong tiếng Việt
• Được nêu ra trong đề tài cấp nhà nước
KC.01.01.06-10
2
4


2. Độ tương đồng câu
Độ tương đồng câu là gì?
 Ví dụ: Xét hai câu sau:
“Tôi là nam sinh” và “Tôi là nữ sinh”
ta thấy hai câu trên có sự tương đồng cao.
 Một tài liệu d gồm có n câu: d = s
1
, s
2
, , s
n
.
Mục tiêu của bài toán là tìm ra một giá trị
của hàm S(s
i
, s
j
) với S (0,1), và i, j = 1, ,n.
 Hàm S(s
i
, s
j
) được gọi là độ đo tương đồng
giữa hai câu s
i
và s
j
.
5
2. Độ tương đồng câu

Các phương pháp tính độ tương đồng câu
 Phương pháp sử dụng thống kê
 Độ đo cosine
 Phương pháp sử dụng xử lý ngôn ngữ tự nhiên
 Sử dụng phân tích cấu trúc ngữ pháp
 Sử dụng mạng ngữ nghĩa đối với từ
• Wordnet corpus
• Brown corpus
6
3. Phương pháp tính độ tương đồng câu
Mô hình của phương pháp [LLB06]
7
3. Phương pháp tính độ tương đồng câu
Thực hiện qua 5 bước :
a. Tiền xử lý
b. Tính độ tương tự từ dựa trên Wordnet
c. Độ tương đồng về ngữ nghĩa giữa hai câu
d. Độ tương đồng về thứ tự của các từ trong câu
e. Tính độ tương đồng cho toàn bộ câu
8
3a. Tính độ tương tự từ dựa trên wordnet
 Ví dụ: Teacher -
educator -
professional - adult
- person - male -
male child - boy
[LLB06]
 Vì sao sử dụng độ tương tự từ?
9
3a. Tính độ tương tự từ dựa trên Wordnet

Kết quả thực nghiệm
trên 7 độ đo về độ
tương tự từ dựa trên
Wordnet cho thấy độ
đo JCN có độ chính
xác cao nhất. [Pad03]
Measure Nouns
Only
All
POS
Jiang-Conrath(JCN) 0.46 n/a
Ex. Gloss Overlaps 0.43 0.34
Lin 0.39 n/a
Vector 0.33 0.29
Hirst-St.Onge 0.33 0.23
Resnik 0.29 n/a
Leacock Chodorow 0.28 n/a
10
Độ đo JCN
 JCN sử dụng nội dung thông tin (Information Content) của
các khái niệm (concept)
IC(concept) = –log(P(concept))
với: P(concept) = freq(concept)/N
 Công thức tính khoảng cách ngữ nghĩa giữa hai từ:
distance = IC(c
1
) + IC(c
2
) – 2. IC(lcs(c
1

, c
2
))
 Mối quan hệ giữa hai từ c1 và c2 như sau:
Relatedness(c1, c2) = 1 / distance
11
3b. Độ tương đồng về ngữ nghĩa giữa hai câu
 Gọi s
i
là vector ngữ nghĩa của mỗi câu.
 Sự giống nhau về ngữ nghĩa giữa hai
câu là hệ số cosin giữa hai vector:
||||.||||
.
21
21
ss
ss
S
s
12
3c.Độ tương đồng về thứ tự các từ trong câu
 Ví dụ:
 T
1
: A quick brown dog jumps over the lazy fox.
 T
2
: A quick brown fox jumps over the lazy dog.
 Gọi r là vector thứ tự từ trong câu. Công thức để

tính độ tương đồng về thứ tự của từ trong câu
như sau:
||||
||||
1
21
21
rr
rr
S
r
13
3d. Độ tương đồng về toàn bộ câu
 Sự giống nhau về toàn bộ câu là sự kết hơp
giữa độ tương tự về mặt ngữ nghĩa và thứ tự
của từ trong câu
 Với
10
14
4. Áp dụng độ tương đồng câu cho
tóm tắt văn bản tiếng Việt
Tóm tắt văn bản tiếng Việt dựa vào câu truy
vấn của người dùng.
15
Quy trình tóm tắt văn bản
 Quá trình tiền xử lý
 Lọc nội dung chính, tách câu, loại bỏ câu ngắn. Tách từ dựa vào
công cụ JvnSegmenter. Gán nhãn từ loại dựa vào công cụ
VnQtag, chọn các từ có nhãn phù hợp
 Quá trình tính toán độ tượng tự ngữ nghĩa giữa các

cặp câu
 Áp dụng phương pháp nêu đã nêu để tính độ tương đồng giữa
các câu với câu truy vấn với bộ Wordnet tiếng Việt thô. Từ thực
nghiệm cho thấy = 0,85 thì đưa ra được kết quả về độ tương
đồng câu là cao nhất
 Quá trình tóm tắt văn bản
 Xếp hạng kết quả
 Chọn ra các câu với tỷ lệ xác định trước
16
Kết quả thực nghiệm
 Câu truy vấn:
“Thị trường
chứng khoán
trong nước”
 Đoạn văn bản
17
Kết quả thực nghiệm
Câu Độ đo
[1] 0.54
[2] 0.65
[3] 0.87
[4] 0.74
[5] 0.27
[6] 0.23
18
Kết quả thực nghiệm
Kết quả tóm tắt Google trả về:
Kết quả:
19
5. Kết luận và hướng phát triển tiếp

 Nghiên cứu và áp dụng độ đo tương đồng
câu vào trong xử lý ngôn ngữ tiếng Việt.
 Thử nghiệm thành công độ đo này trong bài
toán tóm tắt trang web tiếng Việt trên máy tìm
kiếm.
 Cải thiện kết quả tính toán các độ đo bằng
việc xây dựng bộ corpus tiếng Việt (kiểu
WordNet) đầy đủ hơn.
20
Tài liệu tham khảo
 [LMT06] Hà Thành Lê, Lương Chi Mai, Huỳnh Quyết Thắng, Định Thị
Phương Thu (2006) Kết hợp các phương pháp chọn câu quan trọng xây
dựng ứng dụng tóm tắt văn bản tiếng Việt, Một số vấn đề chọn lọc của
công nghệ thông tin, 2006, 413-421
 [MB06] Lương Chi Mai, Hồ Tú Bảo (2006). Về xử lý tiếng Việt trong
công nghệ thông tin, Tài liệu Đề tài KC.01.01.06-10 "Nghiên cứu phát
triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt",
Viện Công nghệ Thông tin, Viện Khoa học và Công nghệ Việt Nam,
2006.
 [PT05] Đỗ Phúc, Hồ Anh Thư (2005). Rút trích và tóm tắt nội dung trang
web tiếng Việt, Phát triển khoa học - công nghệ, 2005, 8/(10):13-22
 [BKO07] Blake,C., Kampov,J., Orphanides,A., West,D., & Lown,C.
(2007). UNC-CH at DUC 2007: Query Expansion, Lexical Simplification,
and Sentence Selection Strategies for Multi-Document Summarization,
Document Understanding Conference 2007 (DUC 2007), Rochester,
NY, April 26-27, 2007
 [Bre99] Darin Brezeale (1999). The Organization of Internet Web pages
Using WordNet and Self-Organizing maps, MSc Thesis, The University
of Texas at Arlington, USA,1999
21

Tài liệu tham khảo
 [LLB06] Yuhua Li, David McLean, Zuhair Bandar, James O'Shea,
Keeley A. Crockett (2006). Sentence Similarity Based on Semantic
Nets and Corpus Statistics. IEEE Trans. Knowl. Data Eng. 18(8):
1138-1150
 [MR06] A. A. Mohamed, S. Rajasekaran, (2006). Query-Based
Summarization Based on Document Graphs, Document
Understanding Workshop, June 8-9, 2006 (DUC2006),New York
Marriott, Brooklyn, New York USA
 [NNP06] Cam-Tu Nguyen, Trung-Kien Nguyen, Xuan-Hieu Phan,
Le-Minh Nguyen and Quang-Thuy Ha (2006). Vietnamese Word
Segmentation with CRFs and SVMs: An Investigation. The 20th
Pacific Asia Conference on Language, Information and Computation
(PACLIC20), November 1-3, 2006, Wuhan, China, 215-222
 [Pad03] Siddharth Patwardhan (2003). Incorporating Dictionary and
Corpus Information into a Context Vector Measure of Semantic
Relatedness. MSc. Thesis, University of Minnesota, Duluth, MN
 [RFF05] Francisco J. Ribadas, Manuel Vilares Ferro, Jesús Vilares
Ferro (2005). Semantic Similarity Between Sentences Through
Approximate Tree Matching. IbPRIA (2) 2005: 638-646
22
Tài liệu tham khảo
 [SB08] P. Senellart and V. D. Blondel (2008). Automatic discovery of
similar words, Survey of Text Mining II: Clustering, Classification and
Retrieval (M. W. Berry and M. Castellanos, editors): 25–44. Springer-
Verlag, January 2008.
 [Sen07] Pierre Senellart (2007). Understanding the Hidden Web, PhD
thesis in Computer science, Université Paris-Sud, Orsay, France,
December 2007.
 [STP06] Krishna Sapkota, Laxman Thapa, Shailesh Bdr. Pandey

(2006). Efficient Information Retrieval Using Measures of Semantic
Similarity, Conference on Software, Knowledge, Information
Management and Applications, Chiang Mai, Thailand, December 2006,
94-98.
 [1] Nguyễn Cẩm Tú, Phan Xuân Hiếu. JvnSegmenter.
, Đại học Công nghệ - Đại học
Quốc gia Hà Nội.
 [2] Nguyễn Thị Minh Huyền. vnQTAG.
, Đại học Khoa học Tự nhiên –
Đại học Quốc Gia Hà Nội
Thanks for your listening
23

×