Tải bản đầy đủ (.pdf) (21 trang)

Pháp hiện quan hệ ngữ nghĩa giữa các thực thể trong một hoặc giữa các văn bản pháp quy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (566.59 KB, 21 trang )

1

MỞ ĐẦU
1. Tính cấp thiết của đề tài
Ngày nay với sự phát triển mạnh của nền kinh tế cùng với sự bùng nổ của
Internet, nhu cầu trao đổi, tìm kiếm thông tin trở thành vấn đề không thể thiếu đối
với người sử dụng internet. Khối lượng tài nguyên ngày càng nhiều cách tìm kiếm
thơng tin theo từ khóa đơn gian khơng cịn hiệu quả. Hơn nữa ngồi việc tìm kiếm
thơng tin người dùng còn cần quan tâm đến mối quan hệ ngữ nghĩa của các thông
tin, đặc biệt là trong các văn bản pháp quy.
2. Tổng quan về các vấn đề nghiên cứu
Phân loại văn bản là bước cơ sở quan trọng cho bước rút trích thơng tin tiếp
sau. Rút trích thơng tin có nhiều ứng dụng trong nhiều lĩnh vực. Với bài tốn rút
trích thực thể, các phương pháp phổ biến hiện này là phương pháp dựa trên luật
và phương pháp máy học:
 Phương pháp dựa trên luật sẽ xây dựng một tập các luật để nhận dạng thực thể
và một tập các chính sách để điều khiển sự thực thi các luật đó.
 Trích chọn thực thể theo phương pháp máy học là thực hiện phân rã văn bản
khơng hoặc có cấu trúc thành các thành phần được gán nhãn.
Các phương pháp thường được dùng trong rút trích mối quan hệ giữa các
thực thể như sau:
 Các phương pháp dựa trên luật: xây dựng các luật và dựa vào tập các luật này
để xác định mối quan hệ.
 Các phương pháp dựa trên đặc trưng: rút trích một tập các đặc tính từ đầu vào,
sau đó kết hợp với bộ phân loại như cây quyết định.
 Các phương pháp dựa trên nhân: thiết kế các hàm nhân đặc biệt để nắm bắt sự
tương tự giữa các cấu trúc.
3. Mục tiêu nghiên cứu
Xuất phát từ nhu cầu thực tế này, luận văn đề cập đến các kỹ thuật rút trích
tự động các mối quan hệ nhằm xác định các quan hệ ràng buộc trong một hay nhiều
văn bản pháp quy. Từ đó mục tiêu của luận văn là thiết kế và xây dựng hệ thống tìm




2

kiếm mối quan hệ ngữ nghĩa giữa các điều mục trong một hay nhiều văn bản qui
phạm pháp luật có liên quan.

Hình 1: Tổng quan mục tiêu của luận văn

4. u cầu cụ thể
Website có những chức năng chính sau:
 Quản lý từ điển ngữ nghĩa
 Phân tích văn bản. Hỗ trợ người dùng xác định các mối quan hệ ngữ nghĩa
trong một hay nhiều văn bản pháp quy
 Trích các quan hệ ngữ nghĩa giữa các điều mục trong một hoặc giữa các văn
bản pháp quy
 Cho phép người dùng tra cứu văn bản theo nhiều cách khác nhau, kết quả tìm
kiếm thể hiện mối quan hệ đã được phát hiện trong văn một văn bản hoặc giữa các
văn bản pháp quy
 Hỗ trợ cập nhật
Áp dụng rút trích thông tin vào lĩnh vực văn bản pháp quy, vấn đề đặt ra là
nhận dạng được các thực thể văn bản và các điều khoản trong văn bản pháp quy, rút
trích mối quan hệ giữa các văn bản pháp quy và giữa các điều khoản trong văn bản.
5. Đối tƣợng và phạm vi nghiên cứu
 Đối tượng nghiên cứu
o
o
o
o


Kỹ thuật xử lý văn bản
Kỹ thuật tìm kiếm thơng tin
Kỹ thuật rút trích thơng tin, mối quan hệ ngữ nghĩa
Các mơ hình từ điển ngữ nghĩa


3

o Ontology, kỹ thuật xây dựng và quản lý Ontology
 Phạm vi nghiên cứu
o Chỉ khảo sát các văn bản pháp quy về lĩnh vực giáo dục đào tạo
o Chỉ xử lý các văn bản có định dạng thơng dụng như: .doc, .docx, .pdf,
.txt, .htm, html
o Ngôn ngữ của văn bản là tiếng Việt
6. Giải pháp tổng quan
Trước khi giải quyết bài tốn rút trích thơng tin, chúng tơi sử dụng bộ công
cụ vnTagger để tách từ và gán nhãn từ loại, tiếp đó áp dụng kỹ thuật phân loại để
xác định loại văn bản, việc phân loại sẽ giới hạn phạm vi nhận biết thực thể quan
hệ và mối quan hệ ngữ nghĩa giữa các thực thể do đó làm tăng tính chính xác của
việc rút trích thơng tin.

Hình 2: Mơ hình tổng quan xác định mối quan hệ giữa các thực thể

7. Giới thiệu bố cục
Bố cục của luận văn gồm 4 chƣơng với các nội dụng khái quát nhƣ sau:
Chương 1 giới thiệu: khảo sát các công trình nghiên cứu liên quan tới lĩnh
vực phân loại văn bản và rút trích thơng tin
Chương 2 trình bày kỹ thuật phân loại và rút trích thơng tin văn bản: nghiên
cứu một số thuật toán phân loại văn bản, phân tích các ưu và nhược điểm của mỗi
thuật tốn.

Chương 3 trình bày xây dựng hệ thống phát hiện quan hệ ngữ nghĩa giữa các
các thực thể trong một hoặc giữa các văn bản pháp quy
Chương 4 trình bày thử nghiệm và đánh giá của hệ thống


4

CHƢƠNG 1 - GIỚI THIỆU
1.1 Khảo sát các cơng trình liên quan
Cùng với sự phát triển của xã hội, khối lượng các tài liệu số ngày càng nhiều,
nhu cầu cấp thiết phân loại các tài liệu cho việc quản lý dễ dàng, tìm kiếm thơng tin,
tìm kiếm mối quan hệ ngữ nghĩa.
Trong nước, cũng có khá nhiều chúng tơi quan tâm nghiên cứu như: Hướng
tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng giải thuật di
truyền và thống kê trên internet[1], phân loại văn bản tiếng việt với bộ phân loại
véctơ hỗ trợ SVM[2].
 Xây dựng hệ thống xác định mối quan hệ ngữ nghĩa giữa các văn bản pháp
quy trong lỉnh vực giáo dục[3]. Luận văn đã phân tích phần đầu và phần cuối văn
bản pháp quy.
Trên thế giới có rất nhiều cơng trình nghiên cứu về lĩnh vực phân loại tài liệu
như Text classification using machine learning[5] hoặc Machine Learning in
Automated Text Categorization[6].

1.2Những vấn đề tồn tại
Bài tốn rút trích thơng tin (nhận dạng thực thể và rút trích mối quan hệ giữa
các thực thể) áp dụng cho các văn bản tiếng Việt vẫn là một bài toán mở dù đã có
nhiều giải pháp được đưa ra để áp dụng cho các văn bản tiếng Anh, đối với văn bản
tiếng Việt. Việc xác định ngữ nghĩa của từ, nhận dạng các thực thể trong văn bản và
xác định mối quan hệ giữa chúng là một vấn đề hết sức phức tạp.


1.3 Những vấn đề luận văn quan tâm
Áp dụng rút trích thông tin vào lĩnh vực văn bản pháp quy. Luận văn cũng
cần khảo sát nghiên cứu các thể loại văn bản thuộc lĩnh vực giáo dục đào tạo như:
quy chế, quy định, dự thảo…. đồng thời xây dựng từ điển ngữ nghĩa riêng cho lãnh
vực giáo dục đào tạo.

1.4 Kết luận
Chương này đã khảo sát một số các cơng trình nghiên cứu trong lĩnh vực
phân loại văn bản và rút trích thơng tin.


5

CHƢƠNG 2 - PHẦN LÝ THUYẾT XỬ LÝ VĂN BẢN
2.1 Bài toán phân loại văn bản
Phân lớp văn bản dựa trên cách tiếp cận máy học: theo phương pháp này, quá
trình phân lớp gồm 2 bước: bước huấn luyện, thực hiện xây dựng mơ hình phân lớp
dựa trên một tập dữ liệu huấn luyện, tập huấn luyện bao gồm một tập văn bản và
phân lớp tương ứng của chúng.

2.2 Quá trình phân loại văn bản
Để phân loại văn bản thơng thường có các bước như sau:
-

Chuẩn bị tập dữ liệu huấn luyện, tập dữ liệu kiểm thử.

-

Tiền xử lý văn bản – tách từ, loại bỏ chấm câu, loại bỏ từ vơ nghĩa….


-

Vector hóa văn bản.

-

Trích chọn đặc trưng.

-

Áp dụng thuật toán phân loại văn bản.

2.2.1 Chuẩn bị tập dữ liệu huấn luyện, kiểm thử
Quá trình này đã được thực hiện trong giai đoạn chuẩn bị tập dữ liệu huấn
luyện, đây cũng là giai đoạn khá quan trọng quyết định tính chính xác khi phân loại
văn bản. Tập dữ liệu càng lớn thì độ chính xác của việc phân loại văn bản càng cao.

2.2.2 Tiền xử lý văn bản
Văn bản trước khi sử dụng phải tiến hành xử lý, đơn giản nhất là chuyển văn
bản thành dạng tập tin txt, tách từ và loại bỏ các thành phần không tạo nên nghĩa
của văn bản

2.2.3 Vector hóa văn bản
Một văn bản thường được biểu diễn như một dãy các từ. Tập tất cả các từ
trong tập huấn luyện được gọi là từ vựng hay từ đặc trưng. Các văn bản được biểu
diễn trong một khơng gian có số chiều lớn, trong đó mỗi chiều của khơng gian
tương ứng với một từ trong văn bản. Do đó mỗi văn bản D sẽ được biểu diễn dưới


6


dạng véc tơ ⃗ (véc tơ đặc trưng cho văn bản D). Trong đó ⃗= (x1, x2, …, xn) với n là
số từ đặc trưng trong văn bản D. xi là trọng số của đặc trưng thứ i trong văn bản D.

2.2.4 Trích chọn đăc trƣng
Mục tiêu của các phương pháp trích chọn đặc trưng là giảm số chiều của tập
dữ liệu bằng cách loại bỏ các đặc trưng không thích hợp cho việc phân loại. Thủ tục
chuyển đổi này đem lại một số thuận lợi như kích thước tập dữ liệu nhỏ hơn, các
u cầu tính tốn cho các thuật tốn phân loại ít hơn, phục vụ mục đích chính là
tăng độ chính xác của q trình phân loại.
Tần suất xuất hiện của từ trong văn bản theo công thức 2.1:

tf

td

=

t

gs
t

u t hi

g s t tr

Kết hợp t

su t hi


t tr

gv

tf-i f, the

ô g thứ

ô g thứ 2.2:

t t

gv

và t

(2.1)

su t u t hi

gượ v

( ) (2.2)

2.2.5 Áp dụng thuật tốn phân loại
Sau q trình chọn lựa và biến đổi, các tài liệu có thể được biểu diễn dưới
dạng dễ áp dụng các thuật toán máy học. Các thuật toán thường được áp dụng như:
k láng giềng gần nhất (k-NN), Naïve Bayes (NB), cây quyết định, SVN … Mặc dù,
nhiều hướng tiếp cận đã được đề xuất nhưng việc phân loại văn bản tự động vẫn là

một vấn đề thu hút nhiều sự quan tâm bởi vì tính hiệu quả của các bộ phân loại cần
tiếp tục cải tiến.
2.3 Một số thuật tốn phân loại văn bản
2.3.1 Nạve Bayes
Ý tưởng cơ bản của cách tiếp cận Naïve Bayes là sử dụng xác suất có điều
kiện giữa từ và chủ đề để dự đoán xác suất chủ đề của một văn bản cần phân loại.
Thuật tốn Nạve Bayes dựa trên định lý Bayes được phát biểu theo công thức 2.3:
( | )

(

)

( )

( | ) ( )
( )

(2.3)


7

Trong đó:
 Y là giả thuyết, giả thuyết này xảy ra khi biết X xảy ra.
 P(X): xác suất khi X xảy ra.
 P(Y): xác suất khi Y xảy ra.

2.3.2 Thuật toán k láng giềng gần nhất (k-Nearest Neighbor)
Ý tưởng chính của thuật tốn là so sánh độ phù hợp của văn bản d với từng

nhóm chủ đề, dựa trên k văn bản mẫu trong tập huấn luyện mà có độ tương tự với
văn bản d là lớn nhất. Có 2 vấn đề cần quan tâm khi phân lớp văn bản bằng thuật
toán k - láng giềng gần nhất là xác định khái niệm gần, cơng thức để tính mức độ
gần.
Khi đó độ tương tự giữa hai văn bản X và Y được tính theo cơng thức 2.4:
Sim ( X , Y )  cos ine( X , Y , W ) 



tT



tT

( xt  wt )  ( yt  wt )

( xt  wt )

2



tT

( yt  wt )

2

(2.4)


2.3.3 Thuật toán cây quyết định
Cây quyết định là một dạng cây có cấu trúc, trong đó mỗi node trong biểu thị
cho một phép phân nhánh tương ứng cho một thuộc tính, mỗi nhánh biểu thị kết quả
của một phép thử, các node lá biểu thị cho một lớp hoặc các phân bố lớp.
2.3.4 Kết luận
Sau khi khảo sát ba thuật toán máy học phổ biến áp dụng cho lĩnh vực phân
loại văn bản.. Thuật toán Bayes đơn giản nhưng lại có kết quả rất tốt. Vì chất lượng
của các đặc trưng ảnh hưởng lớn tới quá trình phân loại nên chúng tôi tập trung
nhiều vào việc phát hiện các đặc trưng phù hợp của từng loại văn bản pháp quy.

2.4 Bài tốn rút trích thơng tin
Mục đích chính của các hệ thống rút trích thơng tin là chuyển văn bản khơng
có cấu trúc về dạng có cấu trúc, thơng tin trích xuất từ nhiều nguồn khác nhau được
thu thập và biểu diễn dưới một hình thức thống nhất.


8

2.4.1 Nhận dạng thực thể
Là xác định các thực thể từ văn bản khơng có cấu trúc và phân loại chúng
vào các phân lớp đã được định nghĩa sẵn như lớp người, lớp tổ chức.

2.4.2 Hƣớng tiếp cận dựa trên luật
Một tập các luật được định nghĩa thủ công. Văn bản được so sánh với các
luật và khi có sự trùng khớp thì một luật được thực hiện.

2.4.3 Hƣớng tiệp cận máy học
Bài toán nhận dạng thực thể định danh có thể phát biểu lại như sau: Chuỗi
( ,


quan sát ký hiệu

,

,

), thông thường mỗi quan sát được biểu diễn như

một tập các vector đặc trưng. Mục tiêu đặt ra là gán nhãn

với mỗi chuỗi

.

2.4.4 Mơ hình Markov ẩn (Hidden Markov Models – HMM) [11]
HMM là mơ hình máy trạng thái hữu hạn với các tham số biểu diễn xác suất
chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái.
( ,

Chuỗi gán nhãn tốt nhất
( ,

,

,

,

,


) cho từng chuỗi quan sát

) là chuỗi làm cực đại xác suất điều kiện (

) hoặc xác suất

đồng thời ( , ) được tính theo cơng thức 2.5:
( , )

( )

( )

(2.5)

2.4.5 Mơ hình Markov entropy cực đại (Maximum Emtropy Markov
Model - MEMM)[11]
Mơ hình Markov entropy cực đại thay thế các xác suất chuyển trạng thái và
xác suất sinh quan sát trong HMM bởi một hàm xác suất duy nhất ( |
xác suất để trạng thái hiện tại là
liệu quan sát hiện tại là

, theo công thức 2.6:
( | )

Trong đó:
,

:

:

,

với điều kiện trạng thái trước đó là

,
, . . .,

,



(

|

,

)(2.6)

, ),
và dữ


9

2.4.6 Mơ hình CRFs (Conditional Random Fields)
CRFs là một mơ hình rời rạc khác cho hướng tiếp cận gán nhãn tuần tự. CRFs có
dạng đồ thị vơ hướng, trong đó nhãn của quan sát hiện tại không chỉ phụ thuộc các

nhãn trước đó mà cịn phụ thuộc vào các nhãn tương lai.
( | ) được tính theo cơng thức 2.7:
( ⁄ )

( )

(∑ ∑

( ,

, , )) (2.7)

2.5 Rút trích quan hệ ngữ nghĩa giữa các thực thể
Các khái niệm trong một văn bản ln có mối liên hệ với nhau, việc phát
hiện ra các mối quan hệ thực sự rất cần thiết. Ngoài việc làm giàu thêm cơ sở tri
thức hiện tại, việc nhận diện mối quan hệ này cịn tạo nên các cơ sở tri thức mới.
Rút trích mối quan hệ được xem là một phương pháp hiệu quả để đưa ra phương
pháp xử lý cho các hệ thống hỏi đáp...

2.5.1 Quan hệ ngữ nghĩa
Quan hệ ngữ nghĩa (semantic relation) là một khái niệm trong ngôn ngữ học.
Việc xác định quan hệ ngữ nghĩa nhận được sự rất nhiều quan tâm từ các nhà
nghiên cứu về ngôn ngữ học cũng như xử lý ngôn ngữ tự nhiên.

2.5.2 Phƣơng pháp dựa trên luật
Xem xét các cấu trúc quanh hai thực thể, xây dựng luật để rút trích mối quan
hệ giữa hai thực thể trong một câu. Phương pháp này tương tự như phương pháp rút
trích thực thể định danh đã đề cập ở phần trước.

2.5.3 Phƣơng pháp dựa trên đặc trƣng

Bất kỳ một cặp thực thể nào cũng xuất hiện trong cùng một câu đều được
xem xét như là ứng viên cho một mối quan hệ. Mục tiêu đặt ra là gán nhãn phân lớp
tới thực thể này hoặc gán nhãn “nil” nếu cặp thực thể khơng có quan hệ với nhau.

2.5.4 Phân loại dựa trên nhân
Thông tin thể hiện quan hệ giữa hai thực thể có tên trong cùng một câu được
biểu diễn bởi đường đi ngắn nhất giữa hai thực thể này trong đồ thị phụ thuộc.


10

Hàm nhân mà hai chúng tôi Razvan C. Bunescu và Raymond J. Mooney đưa
ra như sau: gọi x = x1 x2 … xm và y = y1 y2 … yn là hai quan hệ, xi biểu diễn vector
đặc trưng ứng với từ nằm ở vị trí thứ i trong quan hệ. Khi đó, hàm nhân là số đặc
trưng trùng nhau giữa x và y và được tính theo cơng thức 2.8:
( , )
Trong đó: ( ,

{


: ếu
( , ): ếu

} (2.8)

) là số đặc trưng chung tại vị trí thứ i của

,


2.5.5 Kết luận
Phần trên đã trình bày một số kỹ thuật để giải quyết hai nhiệm vụ lớn trong
bài tốn rút trích thơng tin: nhận dạng thực thể và rút trích mối quan hệ giữa các
thực thể.


11

CHƢƠNG 3 - XÂY DỰNG HỆ THỐNG XÁC ĐỊNH QUAN HỆ
NGỮ NGHĨA GIỮA CÁC VĂN BẢN PHÁP QUY
Dựa trên quá trình nghiên cứu lý thuyết, luận văn tiếp tục khảo sát thực tế,
phân tích, thiết kế, cài đặt và thử nghiệm hệ thống xác định mối quan hệ ngữ nghĩa
giữa các văn bản pháp quy. Các bước pháp triển sẽ được ghi lại làm cơ sở để phát
triển tiếp theo.

3.1 Khảo sát hệ thống văn bản pháp quy Việt Nam
Theo điều 2 Luật 17/2008/QH12 về Ban hành văn bản quy phạm pháp luật,
hệ thống văn bản quy phạm pháp luật bao gồm:
“1. Hiến pháp, luật, nghị quyết của Quốc hội.
2. Pháp lệnh, nghị quyết của Ủy ban thường vụ Quốc hội.
3. Lệnh, quyết định của Chủ tịch nước.
4. Nghị định của Chính phủ.
5. Quyết định của Thủ tướng Chính phủ.
6. Nghị quyết của Hội đồng Thẩm phán Tòa án nhân dân tối cao, Thơng tư
của Chánh án Tịa án nhân dân tối cao.
7. Thông tư của Viện trưởng Viện kiểm sát nhân dân tối cao.
8. Thông tư của Bộ trưởng, Thủ trưởng cơ quan ngang bộ.
9. Quyết định của Tổng Kiểm toán Nhà nước.
10. Nghị quyết liên tịch giữa Ủy ban thường vụ Quốc hội hoặc giữa Chính
phủ với cơ quan trung ương của tổ chức chính trị - xã hội.

11. Thơng tư liên tịch giữa Chánh án Tịa án nhân dân tối cao với Viện
trưởng Viện kiểm sát nhân dân tối cao; giữa Bộ trưởng, Thủ trưởng cơ quan ngang
bộ với Chánh án Tòa án nhân dân tối cao, Viện trưởng Viện kiểm sát nhân dân tối
cao; giữa các Bộ trưởng, Thủ trưởng cơ quan ngang bộ.


12

12. Văn bản quy phạm pháp luật của Hội đồng nhân dân, Ủy ban nhân dân.”
Mỗi loại văn bản đều có cách thức trình bày khác nhau, các quy cách này được nêu
rõ trong Thông tư số 01/2011/TT-BNV về “Hướng dẫn thể thức và kỹ thuật trình
bày văn bản hành chính”. Trong luận văn này chúng tơi chỉ khảo sát một số loại văn
bản.
Trong đó:
(1) Tên cơ quan, tổ chức chủ quản trực tiếp (nếu có).
(2) Tên cơ quan, tổ chức ban hành nghị quyết.
(3) Chữ viết tắt tên cơ quan, tổ chức ban hành nghị quyết.
(4) Địa danh
(5) Trích yếu nội dung nghị quyết.
(6) Nội dung nghị quyết.
(7) Chữ viết tắt tên đơn vị soạn thảo văn bản và số lượng bản lưu (nếu cần).
(8) Ký hiệu người đánh máy, nhân bản và số lượng bản phát hành (nếu cần).
Trong đó:
(1) Tên cơ quan, tổ chức chủ quản trực tiếp (nếu có).
(2) Tên cơ quan, tổ chức ban hành nghị quyết.
(3) Chữ viết tắt tên cơ quan, tổ chức ban hành nghị quyết.
(4) Địa danh
(5) Trích yếu nội dung nghị quyết.
(6) Nội dung nghị quyết.
(7) Chữ viết tắt tên đơn vị soạn thảo văn bản và số lượng bản lưu (nếu cần).

(8) Ký hiệu người đánh máy, nhân bản và số lượng bản phát hành (nếu cần).
Trong đó:


13

(1) Tên Bộ, cơ quan ngang Bộ, Viện Kiểm sát nhân dân tối cao hoặc Toà án
nhân dân tối cao.
(2) Năm ban hành.
(3) Chữ viết tắt tên Bộ, cơ quan ngang Bộ, Viện Kiểm sát nhân dân tối cao
hoặc Toà án nhân dân tối cao.
(4) Trích yếu nội dung thơng tư.
(5) Căn cứ pháp lý để ban hành; mục đích (nếu có) và phạm vi điều chỉnh
của thơng tư.
(6) Nội dung của thông tư.
(7) Hoặc chức danh của Thủ trưởng cơ quan ngang Bộ, Viện trưởng (Viện
Kiểm sát nhân dân tối cao) hoặc Chánh án (Toà án nhân dân tối cao); trường hợp
cấp phó được giao ký thay người đứng đầu cơ quan thì ghi chữ viết tắt “KT” vào
trước chức vụ của người đứng đầu, bên dưới ghi chức vụ của người ký.
(8) Chữ viết tắt tên đơn vị soạn thảo hoặc chủ trì soạn thảo văn bản và số
lượng bản lưu (nếu cần).
(9) Ký hiệu người đánh máy, nhân bản và số lượng bản phát hành (nếu cần).
Dựa vào các mẫu văn bản đã giới thiệu, phần nào có thể thấy các loại văn
bản khác nhau sẽ có cấu trúc khác nhau, tùy theo từng loại văn bản mà có các quy
định khác nhau về cách bố cục cũng như ngôn từ được sử dụng khi soạn thảo văn
bản.

3.2 Phân tích
Kế thừa và phát triển phát triển luận văn thạc sỹ “xây dựng hệ thống xác định
mối quan hệ ngữ nghĩa giữa các văn bản pháp quy trong lĩnh vục giáo dục”[3].

Chúng tơi tiếp tục phân tích phần giữa của văn bản với mong muốn phát hiện mối
ràng buộc ngữ nghĩa giữa các điều khoản khi có sự thay đổi được rút trích từ phần
đầu. Đưa ra chi tiết về các sự thay đổi và các ảnh hưởng của việc thay đổi này có
thể có trên chính văn bản đang phân tích hoặc các văn bản khác đang tồn tại.


14

3.3 Khảo sát WordNet, phân tích xây dựng bộ từ điển ngữ nghĩa
WordNet là một cơ sở dữ liệu tri thức ngữ nghĩa từ vựng bằng tiếng Anh.
Người ta xây dựng WordNet dựa trên những lý thuyết về ngôn ngữ tâm lý theo cách
liên tưởng từ ngữ của con người. Từ trong WordNet được phân loại thành danh từ,
động ừ, tính từ, và trạng từ.

3.3.1 Mơ hình Wordnet
WordNet là một loại từ điển tương tự từ điển đồng nghĩa. WordNet phân
chia từ vựng thành 5 loại: noun, verb, adjective, adverb và funtion words, nhưng
thực tế nó chỉ chứa noun, verb, adjective, adverb.

3.3.2 Xây dựng từ điển ngữ nghĩa
Trọng tâm của WordNet là những ý niệm đã được từ vựng hóa (ngữ nghĩa
của từ, tạm gọi gọi là: ý niệm từ vựng), chính vì vậy WordNet quan tâm đến cách
biểu diễn những nghĩa (hay ý niệm) này.
Chúng ta đã tìm hiểu và phân tích một số loại văn bản quy phạm pháp luật
như đã trình bày ở trên. Để có thể xây dựng được từ điển thuật ngữ tiếng việt, trước
hết tìm hiểu trong Wordnet 3.0, và cách thức lưu trữ sao cho có thể biễu diễn được
tính đa nghĩa và biễu diễn được các mối quan hệ giữa các từ với nhau.

3.4 Thiết kế
Quy trình trích chọn mối quan hệ ngữ nghĩa giữa các văn bản pháp quy


Hình 3.1: Quy trình trí h họ m i qu

h giữ

á v

pháp quy


15

Các mối quan hệ phổ biến giữa các văn bản và giữa các điều khoản của văn
bản bao gồm: quan hệ căn cứ, sửa đổi bổ sung, bãi bỏ một phần, phần cuối thường
chứa các quan hệ bãi bỏ, thay thế.

3.4.1 Phân loại văn bản
Chúng tơi áp dụng thuật tốn Bayes để phân loại văn bản, quá trình phân loại
gồm hai giai đoạn: huấn luyện và phân loại. Trước khi thực hiện phân loại, phải qua
bước tiền xử lý văn bản như sau:
 Chuyển văn bản về dạng file text, ở bước này chúng tôi đã áp dụng các công
cụ mã nguồn mã java pdfbox, POI để chuyển văn bản dạng .doc, .docx, .pdf.
 Như đã phân tích ở trên, các đặc trưng của văn bản tập trung ở phần đầu và
phần cuối văn bản, ở bước này chúng tôi lược bỏ phần giữa, chỉ giữ lại phần
đầu và phần cuối.
 Sử dụng vnTagger của nhóm chúng tơi Lê Hồng Phương và Nguyễn Thị
Minh Tuyền để tách từ và gán nhãn từ loại.
 Tìm các vector đặc trưng cho từng văn bản.

3.4.2 Phân tích cấu trúc văn bản

Cấu trúc văn bản được phân tích dựa trên phần giữa và phần cuối của văn
bản. Mỗi văn bản được tách theo từng Chương, Mục, Điều, Khoản; nếu văn bản có
phạm vi hẹp thì được tách theo Điều. Dựa vào tính tuần tự của Chương, Mục, Điều,
Khoản (Chương I, Chương II ...; Mục 1, Mục 2 ...; Điều 1, Điều 2; Khoản 1, Khoản
2 ...) luận văn đã tách văn bản, loại bỏ các chương, mục, điều, khoản không tạo nên
cấu trúc của văn bản đang phân tích.

3.4.3 Kiểm tra các quan hệ
Sau khi phát hiện văn bản các điều khoản bãi bỏ, bổ sung, thay thế, sửa
đổi… Tìm kiếm các văn bản có liên quan dựa vào các số hiệu tìm kiếm được trên
văn bản đang phân tích. Dựa vào từ điển ngữ nghĩa, kiểm tra các thay đổi trên có
các cụm từ đang được sữ dụng trên các văn bản pháp quy khác khơng, từ đó xác


16

định mối quan hệ ngữ nghĩa giữa các điều khoản trên cùng một văn bản hay giữa
các văn bản với nhau.
3.4.4 Ontology văn bản pháp quy
Chúng tơi tạo ontology (hình 3.2 và hình 3.3) thể hiện các loại cơ quan ban
hành và các loại văn bản, mối quan hệ ban hành giữa cơ quan ban hành và văn bản
pháp quy.
Bảng 3.1: Danh sách các loại văn bản và cơ quan ban hành tƣơng ứng với từng loại
văn bản
STT

Loại văn

Ký hiệu (Loại


Cơ quan ban hành

bản

VB )

tƣơng ứng

_LOAIVBL

Quốc hội

_CQBHQH

Quốc hội, Ủy ban

_CQBHQH,

Thường vụ Quốc hội,

_CQBHUBTVQH,

Hội đồng thẩm phán

_CQBHHĐTP

Chính phủ

_CQBHCP


Chủ tịch nước, Thủ

_CQBHCTN,

1. Luật
2. Nghị quyết
3. Nghị định
4. Quyết định

5. Thông tư

_LOAIVBNQ
_LOAIVBNĐ
_LOAIVBQĐ

_LOAIVBTT

Ký hiệu (CQBH)

tướng Chính phủ, Kiểm _CQBHTTg,
tốn Nhà nước

_CQBHKTNN

Bộ (thủ tưởng cơ quan

_CQBHBGDĐT (Tạm

ngang bộ), Chánh án


thời chỉ quan tâm tới

Tòa án Nhân dân, Viện

Bộ Giáo dục và Đào

kiểm sát

tạo)

Sau đây là mơ hình ontology thể hiện mối quan hệ giữa cơ quan ban hành,
loại văn bản và văn bản pháp quy:


17

Hình 3.2: O t

gy v
với ơ qu

pháp quy (qu

h giữ v

hà h và ại v

pháp quy

)


Mỗi văn bản đều tuân theo cấu trúc tổng quát Chương, Mục, Điều, Khoản;
ontology này cũng được tổ chức để lưu trữ cấu trúc trên. Mỗi Chương gồm nhiều
Mục, mỗi Mục gồm nhiều Điều, mỗi Điều gồm nhiều Khoản. Giữa các văn bản và
các điều khoản của văn bản có thể có các mối quan hệ: căn cứ văn bản, sửa đổi bổ
sung văn bản, thay thế bãi bỏ một phần văn bản, thay thế bãi bỏ toàn bộ văn bản;
sửa đổi bổ sung điều, thay thế bãi bỏ điều. Luận văn đã xây dựng ontology để lưu
lại các mối quan hệ trên.

Hình 3.3: Mơ t O t

gy v

pháp quy

3.5 Cài đặt
Hệ thống xác định mối quan hệ ngữ nghĩa giữa các văn bản pháp quy xây
dựng dựa trên việc giải quyết hai bài toán: phân loại văn bản (áp dụng thuật toán
Bayes với các đặc trưng của văn bản pháp quy) và rút trích thông tin (dựa trên các


18

tập luật được thiết kế trên cơ sở tính khn mẫu của văn bản pháp quy, xác định
quan hệ ngữ nghĩa dựa trên cấu trúc văn bản pháp quy và từ điển ngữ nghĩa); hệ
thống được cài đặt trên nền java, sử dụng các phần mềm mã nguồn mở pdfbox, POI,
vnTagger và Protégé, với giao diện chính gồm có:
 Giao diện phân tích văn bản: người dùng chọn văn bản cần phân tích, văn
bản sẽ được tải lên máy chủ, tại đây sẽ thực hiện các bước phân loại văn bản,
rút trích quan hệ giữa các văn bản

 Hệ thống hỗ trợ chức năng tìm kiếm với nhiều tiêu chí khác nhau với giao
diện
 Hệ thống hỗ trợ chức năng quản lý từ điển ngữ nghĩa với giao diện


19

CHƢƠNG 4 - THỬ NGHIỆM VÀ ĐÁNH GIÁ
Hệ thống pháp hiện mối quan hệ ngữ nghĩa giữa các thực thể trong một hoặc
giữa các văn bản pháp quy là sự kết hợp của hai bài toán phân loại văn bản và rút
trích thơng tin kết hợp với từ điển ngữ nghĩa.

4.1 Thử nghiệm
Phần thử nghiệm được thực hiện với 200 văn bản, cho 5 loại văn bản khác
nhau: Luật, Nghị định, Nghị quyết, Quyết định, Thông tư trong lãnh vực giáo dục.
Hệ thống sử dụng thuật tốn Nạve Bayes để cài đặt và phân loại, kết quả thu được
như sau:
B
Loại văn bản

g 4.1: Kết qu phâ

ại v

Độ chính xác

Độ phủ

Luật


97,5%

97,5%

Nghị định

97,44%

95%

Nghị quyết

97,5%

97,5%

Quyết định

97.5%

97,5%

Thông tư

97,5%

97,5%

Các mối quan hệ giữa các văn bản pháp quy và giữa các điều khoản mà luận
văn quan tâm: căn cứ, bãi bỏ, bãi bỏ một phần, sửa đổi bổ sung. Kết quả rút trích

các mối quan hệ với 200 văn bản trên cơ sở so sánh với thông tin trên website của
Bộ tư pháp như sau:
B

g 4.2: Kết qu rút trí h m i qu

h giữ

á v

pháp quy

Mối quan hệ

Độ chính xác
(giữa các
văn bản)

Độ phủ
(giữa các
văn bản)

Độ chính xác
(trên một
văn bản)

Độ phủ
(trên một
văn bản)


Căn cứ

98.33%

81.94%

97.8%

80%


20

Bãi bỏ/thay thế

94.74%

81.82%

95.64%

82.74%

Sửa đổi bổ sung

100%

88.89%

98.93%


87.65%

Bãi bỏ một phần

98.33%

86.76%

97.32%

85.45%

Sửa đổi điều

99.39%

82.32%

99.12%

81.37%

Bãi bỏ điều

98.33%

86.76%

98.85%


85.23%

4.2 Đánh giá hệ thống
Hệ thống chạy với độ chính xác trên 90%, một số văn bản bị lỗi chính tả:
thiếu dấu nháy kép, thiếu dấu chấm và khi chuyển thành dạng text bị mất các ký tự
xuống dịng, do đó làm ảnh hưởng tới kết quả rút trích thơng tin.

4.3 Kết luận
Với mục tiêu xây dựng hệ thống xác định mối quan hệ ngữ nghĩa giữa các
văn bản pháp quy, xây dựng ontology văn bản pháp quy, luận văn đã tập trung
nghiên cứu các kỹ thuật rút trích phân loại văn bản, các kỹ thuật rút thơng tin.
Những kết quả đạt được tiêu biểu như sau:


Trang bị được kiến thức về phân loại văn bản, rút trích thông tin.



Nắm được phương pháp xây dựng ontology và web ngữ nghĩa.



Đề xuất phương pháp rút trích mối quan hệ ngữ nghĩa giữa các văn bản
pháp quy, xây dựng ontology văn bản pháp quy. Xây dựng từ điển ngữ
nghĩa làm nguồn ngữ liệu cho các mục đích khác.



Xây dựng website phân tích văn bản rút trích quan hệ giữa các văn bản

pháp quy, cung cấp các chức năng tìm kiếm theo nhiều tiêu chí khác nhau,
hỗ trợ đắt lực cho người dùng tra cứu các thông tin liên quan tới văn bản
pháp quy. Phát hiện các mối quan hệ ràng buộc trên một hoặc giữa các văn
bản khi chỉnh sửa một văn bản.


21

KẾT LUẬN VÀ KHUYẾN NGHỊ
Kết quả của luận văn
Với mục tiêu xây dựng hệ thống phát hiện mối quan hệ ngữ nghĩa trên một
hoặc giữa các văn bản pháp quy. Luận văn đã xây dựng một website cùng những
chức năng.
 Quản lý từ điển ngữ nghĩa
 Phân tích văn bản. Hỗ trợ người dùng xác định các mối quan hệ ngữ nghĩa
trong một hay nhiều văn bản pháp quy
 Trích các quan hệ ngữ nghĩa giữa các điều mục trong một hoặc giữa các văn
bản pháp quy
 Cho phép người dùng tra cứu văn bản theo nhiều cách khác nhau, kết quả tìm
kiếm thể hiện mối quan hệ đã được phát hiện trong văn một văn bản hoặc
giữa các văn bản pháp quy

Hƣớng phát triển
Bài tốn rút trích thơng tin sử dụng phương pháp dựa trên tập luật có nhiều
hạn chế khi các mối quan hệ xuất hiện ở dạng khác. Văn bản khơng đúng định
dạng(sai chính tả, sai cấu trúc..) sẽ gây ra lỗi trong quá trình sử lý, khả năng chịu lỗi
của hệ thống là chưa có. Hệ thống còn xử lý khá chậm với những văn bản quá có
cấu trúc dài, nhiều chương mục. Việc xác định quan hệ ngữ nghĩa giữa các cụm từ
đang được làm thủ cơng.
Xây dựng một website hồn thiện có thể xử dụng được trong thực tế.

Tập trung vào các kỹ thuật rút trích thơng tin khác linh hoạt hơn, góp phần
nâng cao tính chính xác, cho hệ thống linh hoạt và nhanh hơn.
Trích chọn và xác mối quan hệ ngữ nghĩa của các từ ngữ định nghĩa trong
văn bản tự động.



×