Rút trích từ khóa từ văn bản pháp luật Tiếng Việt bằng thuật toán TextRank

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (269.31 KB, 5 trang )

RÚT TRÍCH TỪ KHĨA TỪ VĂN BẢN PHÁP LUẬT TIẾNG VIỆT
BẰNG THUẬT TỐN TEXTRANK
Lê Thị Ngọc Thơ
Khoa Cơng nghệ Thơng tin, trường Đại học Cơng nghệ TP. Hồ Chí Minh (HUTECH)

TĨM TẮT
Trong nghiên cứu này, chúng tơi trình bày kết quả của việc rút trích từ khóa tự động từ văn bản pháp luật
Tiếng Việt sử dụng thuật toán TextRank. TextRank là phương pháp rút trích từ khóa khơng giám sát từ
văn bản dựa vào việc xếp hạng trên đồ thị. Văn bản sẽ được biểu diễn thành dạng đồ thị, với các từ là đỉnh
và mối quan hệ lân cận giữa các từ là cạnh. Sau đó, các đỉnh trên đồ thị sẽ được xếp hạng dựa trên mối
quan hệ với các đỉnh khác trong đồ thị. Các từ ở đỉnh tương ứng có trọng số cao sẽ được trích ra và kết
hợp với nhau thành từ khóa. Chúng tơi thực nghiệm thuật tốn TextRank trên một chương của Luật Bảo
hiểm Xã hội Việt Nam. Kết quả cao nhất thu được là 21.3% khi rút trích từ khóa tự động. Chúng tơi nhận
thấy đặc điểm của từ khóa trong văn bản Tiếng Việt khá dài và chứa nhiều từ khác ngồi danh từ và tính
từ. Do đó, một phương pháp khác cần được đề xuất để cải tiến hiệu suất của việc rút trích cụm từ khóa từ
văn bản pháp luật Tiếng Việt.
Từ khóa: Rút trích thơng tin, TextRank, tiếng Việt, từ khóa, văn bản pháp luật.

1. GIỚI THIỆU
Văn bản pháp luật thường được xem là dạng văn bản khó đọc vì đặc trưng vốn có nhiều thuật ngữ, cụm từ
và câu được viết rất chặt chẽ nhằm diễn đạt các quy định của pháp luật. Các thuật ngữ trong văn bản pháp
luật thường dài và câu trong văn bản pháp luật thường tham chiếu đến nội dung ở câu khác trong cùng văn
bản hoặc đến văn bản pháp luật khác. Trong nghiên cứu này, chúng tôi áp dụng các phương pháp trong Xử
lý Ngôn ngữ Tự nhiên (XLNNTN) vào văn bản pháp luật Tiếng Việt, nhằm hướng tới việc hỗ trợ cho
người đọc có thể nhanh chóng nắm bắt được thông tin trong văn bản pháp luật. Cụ thể là, chúng tơi tiến
hành rút trích từ khóa trong văn bản pháp luật tiếng Việt. Nói cách khác, đề tài này nhằm mục đích tìm
phương pháp trích lọc những nội dung khái quát trong một văn bản pháp luật ở dạng từ khóa.
Từ khóa là các từ chứa nội dung chính và quan trọng trong câu hoặc văn bản. Nhiệm vụ rút trích từ khóa
tự động từ văn bản đóng vai trị quan trọng trong việc XLNNTN, chẳng hạn như áp dụng vào các ứng
dụng đánh chỉ mục văn bản, truy vấn thơng tin, tóm tắt văn bản tự động, hệ thống hỏi đáp tự động. Các
nghiên cứu trước đây trong hướng XLNNTN đã có các phương pháp có giám sát [1] [2] và không giám sát

[3] [4] [5] để rút trích từ khóa tự động trong văn bản.
Chúng tơi quan tâm đến các phương pháp rút trích từ khóa khơng giám sát. Tuy nhiên, các phương pháp
này phần lớn ban đầu đều được đề xuất cho Tiếng Anh. Bên cạnh đó, có nhiều nghiên cứu cải tiến từ các
phương pháp này cho việc rút trích từ khóa từ các ngôn ngữ khác, như Tiếng Trung Quốc [6], Tiếng Nhật
[7]. Trong đó, có một vài phương pháp được đề xuất riêng cho Tiếng Việt. Nguyen và Phan [8] đã để xuất
rút trích từ khóa từ văn bản Tiếng Việt dựa trên ontology, phương pháp của nhóm tác giả được thực
nghiệm trên dữ liệu Tiếng Việt dịch từ Tiếng Anh. Zhai và cộng sự [9] đã đề xuất phương pháp rút trích từ
khóa song ngữ Trung-Việt dùng bằng cách biểu diễn các từ song ngữ trên siêu đồ thị và áp dụng thuật toán

205

khuếch tán có hướng (directional diffusion algorithm) để tính tốn trọng số của các từ ứng viên. Bui [10]
đề xuất dùng phương pháp học sâu để phân loại các cụm danh từ ứng viên thành từ khóa.
Về tổng quan, các phương pháp rút trích từ khóa thường bao gồm hai bước chính: (1) chọn lựa ứng viên từ
vựng cho từ khóa và (2) nối các ứng viên từ vựng dựa trên trật tự từ theo đúng ngữ pháp. Phần lớn các
nghiên cứu tập trung vào bước (1) để tìm được càng nhiều từ vựng ứng viên càng tốt [4] [5]. Phương pháp
chính để tìm từ vựng ứng viên là tìm cách gán trọng số chỉ sự quan trọng của từ trong đoạn văn bản và
chọn lấy các từ có trọng số cao. Cụ thể, các phương pháp gán trọng số cho từ vựng là TF-IDF (Term
Frequency – Inverse Document Frequency), xếp hạng dựa trên đồ thị từ vựng [4], và gom cụm [5]. Bên
cạnh đó, cũng có nghiên cứu quan tâm đến trật tự từ vựng và loại từ vựng khi hình thành từ khóa hay cụm
từ khóa từ các từ ứng viên [7].
Trong bài báo này, chúng tơi tìm cách tiếp cận bài tốn rút trích từ khóa, tức là những từ hay cụm từ quan
trọng, từ văn bản pháp luật bằng Tiếng Việt. Theo tìm hiểu của chúng tơi, chưa có nghiên cứu nào trước
đây giải quyết bài toán này mặc dù đây là nhiệm vụ quan trọng trong việc đánh chỉ mục văn bản pháp luật
nhằm phục vụ cho q trình truy vấn thơng tin văn bản pháp luật. Bên cạnh đó, việc rút trích từ khóa từ
văn bản pháp luật còn hỗ trợ cho các hệ thống XLNNTN khác như hệ thống hỏi đáp thông tin pháp luật tự
động. Do đó, chúng tơi tiếp cận bài tốn rút trích từ khóa trong văn bản pháp luật Tiếng Việt bằng phương
pháp phổ biến nhất là thuật toán TextRank.
Chúng tơi tiến hành thực nghiệp ngun bản thuật tốn TextRank với các tham số khác nhau trên Chương

1 của Luật Bảo hiểm Xã hội Việt Nam ban hành năm 2006. Kết quả thực nghiệm tốt nhất là 21.3%. Từ kết
quả này và phân tích các dạng từ khóa mà TextRank khơng thể rút trích được một cách tự động, chúng tơi
nhận thấy cần có phương pháp cải tiến cho bài tốn rút trích từ khóa trong văn bản Tiếng Việt.

2. PHƢƠNG PHÁP TIẾP CẬN
Chúng tơi tiếp cận bài tốn rút trích từ khóa dựa trên thuật tốn TextRank [4], là thuật toán xếp hạng từ
vựng ứng viên trên đồ thị bằng cơ chế lan truyền “bình chọn”. Khi một đỉnh
của đồ thị có liên kết tới
một đỉnh khác , ta nói rằng đỉnh
“bình chọn” cho đỉnh . Ý tưởng chính của việc xếp hạng là đỉnh
nhận được càng nhiều bình chọn càng quan trọng. Đồng thời, đỉnh nhận được sự bình chọn của đỉnh quan
trọng cũng quan trọng.
Nội dung chính của thuật tốn TextRank bao gồm các bước như sau:
Bƣớc 1: Biểu diễn văn bản thành đồ thị
(
). Trong đó, là tập hợp các đỉnh của đồ thị, mỗi đỉnh
là một từ vựng, thường là các danh từ và tính từ. là tập hợp các cạnh biểu diễn mối quan hệ giữa các từ.
Để tìm mối quan hệ giữa các cạnh, một cửa sổ trượt có kích thước
được sử dụng để xác định các từ
vựng lân cận. Nói cách khác, chúng ta áp cửa sổ trượt W lên văn bản, hai đỉnh của đồ thị có cạnh nối khi
hai từ vựng tương ứng cùng nằm trong cửa sổ trượt.
Bƣớc 2: Xếp hạng các đỉnh trên đồ thị dựa vào trọng số. Trọng số
định như sau:
( )
Trong đó,

(

)

∑

(

( ) là tập hợp các đỉnh chỉ vào đỉnh

là trọng số của cạnh tương ứng với hai đỉnh

và

,
,

)∑

(

của đỉnh

)

bất kỳ được xác

( ).

( ) là tập hợp các đỉnh mà đỉnh

chỉ đến,

là damping factor (tạm dịch: chỉ số giảm dần).

Bƣớc 3: Lặp lại Bước 2 cho đến khi hội tụ, tức là sự thay đổi về trọng số của các đỉnh nhỏ hơn một
ngưỡng rất bé, hoặc sau số lần lặp xác định.

206

Bƣớc 4: Rút trích từ khóa bằng cách chọn đỉnh có trọng số cao nhất trong đồ thị và kết hợp lại với nhau.
Các từ ứng viên trong tập được kết hợp khi chúng nằm liền kề nhau trong văn bản đầu vào.

3. THỰC NGHIỆM VÀ ĐÁNH GIÁ
Dữ liệu thực nghiệm là chương I của Bộ Luật Bảo hiểm Xã hội Việt Nam, được ban hành vào năm 2006,
gồm tổng cộng 95 câu. Chúng tơi tiến hành rút trích thủ cơng từ khóa trong dữ liệu này để đánh giá, gồm
42 cụm từ khóa.
Chúng tơi dùng cơng cụ VnCoreNLP [11] để tách từ và gán nhãn từ loại cho văn bản Tiếng Việt. Các từ
được gán nhãn là danh từ và tính từ đều được đưa vào đỉnh của đồ thị. Chúng tơi xác định kích thước cửa
sổ trượt
để tìm mối liên hệ giữa các từ nằm trong đoạn ,
- Các tham số của thuật toán TextRank
được thiết lập như sau: chỉ số damping factor
, tỉ lệ đỉnh chứa từ vựng trong đồ thị được lấy
lần lượt trong trong tập hợp *
+, ngưỡng được xác định tương tự bài báo gốc 0.00001.
Khi áp dụng thuật tốn TextRank vào rút trích từ khóa với các tham số như trên vào văn bản Luật Bảo
hiểm Xã hội, chúng tôi thu được kết quả như Bảng 2 ở trang sau. Từ bảng kết quả, chúng ta có thể thấy
hiệu suất rút trích từ khóa bằng thuật tốn TextRank trên văn bản pháp luật tiếng Việt ở mức trung bình là
20%, trong trường hợp tốt nhất chỉ là 21.3%. Đây chưa phải là kết quả khả quan để đưa vào ứng dụng
trong thực tế.
Khi xem xét chi tiết vào kết quả rút trích từ khóa, chúng tơi nhận thấy khá nhiều từ khóa trong văn bản
pháp luật là các cụm từ phức, có chứa cả từ đơn có trọng số cao thấp khơng cùng nằm trong danh sách từ

vựng ứng viên, và có thể chứa hư từ. Chẳng hạn các từ khóa trong Bảng 1.
Bảng 1. Ví dụ về các từ khóa mà TextRank khơng tự động rút trích được

Từ khóa

Lý do khơng rút trích đƣợc

người sử dụng lao động tham gia bảo hiểm thất Động từ “tham gia” đã bị loại từ bước xây dựng
nghiệp
đồ thị
cơ quan, tổ chức tham gia bảo hiểm xã hội

Dấu phẩy được xem là hư từ và bị loại từ bước
xây dựng đồ thị

mức thu nhập

Từ “mức” có trọng số thấp sau khi xếp hạng

Bảng 2. Kết quả rút trích từ khóa từ văn bản pháp luật Tiếng Việt dùng thuật tốn TextRank

W

2

3

4

207

T

# rút
trích

#
đúng

P
(%)

R
(%)

F1
(%)

T

# rút
trích

#
đúng

P
(%)

R

(%)

F1
(%)

0.33

37

7

18.9

16.7

17.7

0.33

34

6

17.7

14.3

15.8

0.5

64

9

14.1

21.4

17.0

0.5

46

7

15.2

16.7

15.9

0.67

75

10

13.3

23.8

17.1

0.67

59

9

15.3

21.4

17.8

0.33

28

5

17.9

11.9

14.3

0.33

35

6

17.1

14.3

15.6

0.5

43

7

16.3

16.7

16.5

0.5

47

8

17.0

19.1

18.0

0.67

58

8

13.8

19.1

16.0

0.67

58

9

15.5

21.4

18.0

0.33

34

6

17.7

14.3

15.8

0.33

33

8

24.2

19.1

21.3

W

7

8

9

W

5

6

T

# rút
trích

#
đúng

P
(%)

R
(%)

F1
(%)

T

# rút
trích

#
đúng

P
(%)

R
(%)

F1
(%)

0.5

46

8

17.4

19.1

18.2

0.5

47

9

19.2

21.4

20.2

0.67

61

8

13.1

19.1

15.5

0.67

59

10

17.0

23.8

19.8

0.33

35

6

17.1

14.3

15.6

0.33

35

7

20.0

16.7

18.2

0.5

44

8

18.2

19.1

18.6

0.5

47

8

17.0

19.1

18.0

0.67

55

9

16.4

21.4

18.6

0.67

59

9

15.3

21.4

17.8

0.33

35

7

20.0

16.7

18.2

0.5

49

7

14.3

16.7

15.4

0.67

55

8

14.6

19.1

16.5

W

10

Từ kết quả và quan sát trên, chúng tơi nhận thấy cần thiết phải có sự cải tiến phương pháp rút trích từ khóa
cho văn bản pháp luật Tiếng Việt nhằm đáp ứng nhu cầu thực tế, cụ thể là các ứng dụng có liên quan đến
truy vấn thông tin hay hỏi đáp pháp luật tự động. Trong tương lai, chúng tôi dự kiến áp dụng các quy tắc
ngữ pháp của Tiếng Việt để đưa vào các từ đơn ngồi danh từ và tính từ, cũng như xem xét các từ khóa có
chứa hư từ.

4. KẾT LUẬN
Trong bài báo này, chúng tơi trình bày kết quả của việc áp dụng thuật tốn TextRank vào rút trích tự động

từ khóa từ văn bản pháp luật Tiếng Việt. TextRank là phương pháp khơng giám sát nhằm rút trích từ khóa
từ văn bản dựa trên phương pháp xếp hạng trên đồ thị. Dữ liệu thực nghiệm là một chương trong Bộ Luật
Bảo hiểm Xã hội Việt Nam. Qua thực nghiệm, chúng tôi nhận thấy rằng việc áp dụng TextRank vào việc
rút trích từ khóa trong văn bản pháp luật Tiếng Việt là chưa tốt và cần có phương pháp cải tiến. Trong
tương lai, chúng tôi dự định áp dụng các quy tắc ngữ pháp của Tiếng Việt để đề xuất phương án khác cải
tiến hiệu suất của việc rút trích từ khóa trong văn bản pháp luật Tiếng Việt.

TÀI LIỆU THAM KHẢO
[1]

P. D. Turney, "Learning Algorithms for Keyphrase Extraction," J. Inform. Retrieval, vol. 2, pp. 303336, 2000.

[2]

Eibe Frank, Gordon W. Paynter, Ian H. Witten, Carl Gutwin, and Craig G. Nevill-Manning,
"Domain-Specific Keyphrase Extraction," in Proc. 16th Int. Joint Conf. Artificial Intell., 1999.

A.

Hulth, "Improved automatic keyword extraction given more linguistic knowledge," in Proc. Conf.
EMNLP-ACL ’03, 2003.

[3]

Rada Mihalcea and Paul Tarau, "TextRank: Bringing Order into Texts," in Proc. Conf. EMNLPACL ’04, 2004.

[4]

Zhiyuan Liu, Peng Li, Yabin Zheng, and Maosong Sun, "Clustering to find exemplar terms for
keyphrase extraction," in Proc. Conf. EMNLP-ACL ’09, 2009.

[5]

Weiming Liang, Changning Huang, Mu Li and Bao-Liang Lu, "Extracting Keyphrases from
Chinese News Articles Using TextRank and Query Log Knowledge," in Proc. PACLIC '09, 2009.

[6]

Tho Thi Ngoc Le, Minh Le Nguyen and Akira Shimazu, "Unsupervised Keyword Extraction for
Japanese Legal Documents," in Proc. JURIX '13, 2013.

208

[7]

Chau Q. Nguyen and Tuoi T. Phan, "An Ontology-based Approach for Key Phrase Extraction," in
Proc. ACLShort '09, 2009.

[8]

Jiaxin Zhai, Shengxiang Gao, Zhengtao Yu, Zequan Fan, Li Liu, Hua Lai and Yafei Zhang,
"Keywords extraction in Chinese-Vietnamese bilingual news based on hypergraph," Int. Jour.
Distributed Sensor Networks, vol. 14, no. 11, 2018.

[9]

B. T. Hung, "Vietnamese Keyword Extraction Using Hybrid Deep Learning Methods," in Proc.
NICS '18, 2018.

[10] Thanh Vu, Dat Quoc Nguyen, Dai Quoc Nguyen, Mark Dras, Mark Johnson, "VnCoreNLP: A
Vietnamese Natural Language Processing Toolkit," in Proc. Demo, NAACL 2018, 2018.

ABSTRACT
In this paper, we present the results of automatic keyphrase extraction from Vietnamese legal documents
using TextRank algorithm. TextRank is an unsupervised keyphrase extraction approach based on graph
ranking. Document is represented as a graph where vertices are words and edges are relations among
words. Then, every vertex is ranked based on their relations with the other vertices in the graph. The
words in corresponding vertices whose weights are high will be extracted and collapsed together to form
keyphrase. We run TextRank on the Law on Social Insurance of Vietnam. The highest F-score is 21.3%
for the performance of keyphrase extraction. We notice Vietnamese legal keyphrases include many words
other than nouns and adjectives. Therefore, there are needs of improvements on the performance of
keyphrase extraction on Vietnamese legal documents.
Keywords: Information extraction, keyphrase, legal documents, TextRank, Vietnamese.

209

Rút trích từ khóa từ văn bản pháp luật Tiếng Việt bằng thuật toán TextRank

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về