Luận văn Thạc sĩ Kỹ thuật: Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.52 MB, 65 trang )

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

PHÍ MẠNH KIÊN

TÌM KIẾM VĂN BẢN PHÁP QUY SỬ DỤNG KỸ THUẬT HỌC SÂU

LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng nghiên cứu)

HÀ NỘI - 2020

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG
---------------------------------------

PHÍ MẠNH KIÊN
TÌM KIẾM VĂN BẢN PHÁP QUY SỬ DỤNG KỸ THUẬT HỌC SÂU

CHUYÊN NGÀNH :

KHOA HỌC MÁY TÍNH

MÃ SỐ:

8.48.01.01

LUẬN VĂN THẠC SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC
GS. TS. TỪ MINH PHƯƠNG

HÀ NỘI - 2020

i

LỜI CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu và tìm hiểu của riêng tơi.
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai cơng
bố trong bất cứ cơng trình nào khác.
Tác giả luận văn

Phí Mạnh Kiên

ii

LỜI CẢM ƠN
Để hoàn thành được luận văn này, ngoài sự nghiên cứu và những cố gắng của bản
thân, em xin gửi lời cảm ơn sâu sắc tới GS. TS. Từ Minh Phương, giảng viên trực
tiếp hướng dẫn, tận tình chỉ bảo và định hướng cho em trong suốt quá trình nghiên
cứu và thực hiện luận văn.
Em xin gửi lời cảm ơn chân thành cảm ơn tất cả các thầy cơ giáo của Học viện
Cơng nghệ Bưu chính Viễn thơng đã giảng dạy và dìu dắt em trong suốt quá trình học
tập tại trường từ khi cịn học đại học cho đến cao học.
Cuối cùng, em xin gửi lời cảm ơn tới gia đình, bạn bè và những người đã luôn ở
bên cổ vũ tinh thần, tạo điều kiện thuận lợi cho em để em có thể học tập tốt và hoàn
thiện luận văn.
Dù đã cố gắng hết sức nhưng trong luận văn khơng thể tránh khỏi những sai sót,
em mong nhận được sự góp ý để hồn thiện hơn.

Em xin chân thành cảm ơn!

iii

MỤC LỤC
LỜI CẢM ƠN ................................................................................................................... ii
MỤC LỤC ....................................................................................................................... iii
DANH MỤC BẢNG ......................................................................................................... v
DANH MỤC HÌNH ẢNH ................................................................................................ vi
DANH MỤC KÝ HIỆU CÁC CHỮ VIẾT TẮT .............................................................. vii
MỞ ĐẦU .......................................................................................................................... 1
CHƯƠNG 1. BÀI TỐN TÌM KIẾM THƠNG TIN VÀ CÁC PHƯƠNG PHÁP BIỂU
DIỄN VĂN BẢN .............................................................................................................. 3
1.1. Bài tốn tìm kiếm thơng tin ..................................................................................... 3
1.1.1. Tìm kiếm văn bản quy phạm pháp luật ............................................................. 3
1.1.2. Hệ thống tìm kiếm và tìm kiếm thông tin ......................................................... 5
1.2. Biểu diễn văn bản sử dụng từ khóa ......................................................................... 8
1.2.1. TF-IDF ............................................................................................................ 8
1.2.2. BM25............................................................................................................. 10
1.3. Biểu diễn văn bản sử dụng chủ đề ẩn .................................................................... 12
1.3.1. Khái niệm mơ hình Latent Dirichlet Allocation (LDA)................................... 12
1.3.2. Tổng quan về mơ hình sinh trong LDA .......................................................... 13
1.3.3. Suy luận ......................................................................................................... 15
1.4. Biểu diễn văn bản sử dụng véc-tơ từ ..................................................................... 16
1.4.1. Giới thiệu ....................................................................................................... 16
1.4.2. Các bước thực hiện ........................................................................................ 16
1.5. Biểu diễn văn bản sử dụng mạng nơ-ron sâu ......................................................... 20
1.5.1. Giới thiệu về mạng nơ-ron nhân tạo ............................................................... 20
1.5.2. Cấu trúc và mơ hình của một nơ-ron nhân tạo ................................................ 20

1.5.3. Cấu tạo và phương thức làm việc của mạng nơ-ron ........................................ 22
1.5.4. Phân loại mạng nơ-ron ................................................................................... 23
1.5.5. Các mạng nơ-ron sâu ..................................................................................... 24
1.5.6. Biểu diễn văn bản sử dụng mạng nơ-ron ........................................................ 28
1.6. Kết luận chương ................................................................................................... 30
CHƯƠNG 2. ỨNG DỤNG BIỂU DIỄN VĂN BẢN BẰNG MẠNG NƠ-RON SÂU
TRONG TÌM KIẾM VĂN BẢN PHÁP QUY ................................................................. 31
2.1. Ý tưởng ................................................................................................................ 31
2.2. Mô-đun Biểu diễn truy vấn ................................................................................... 33

iv

2.3. Mô-đun Biểu diễn điều luật ................................................................................... 35
2.4. So khớp, tính độ liên quan .................................................................................... 36
2.5. Kết luận chương ................................................................................................... 37
CHƯƠNG 3. THỬ NGHIỆM VÀ ĐÁNH GIÁ ............................................................... 38
3.1. Xây dựng tập dữ liệu văn bản pháp quy và câu hỏi................................................ 38
3.1.1. Xây dựng tập dữ liệu văn bản pháp quy tiếng Việt ......................................... 38
3.1.2. Xây dựng tập câu hỏi và câu trả lời chuẩn ...................................................... 39
3.2. Xây dựng hệ thống ................................................................................................ 39
3.2.1. Tiền xử lý dữ liệu ........................................................................................... 39
3.2.2. Xây dựng hệ thống tìm kiếm sử dụng phương pháp TF-IDF và BM25 ........... 41
3.2.3. Xây dựng hệ thống tìm kiếm sử dụng phương pháp biểu diễn văn bản bằng
mạng CNN kết hợp với cơ chế Attention ................................................................. 42
3.3. Phương pháp đánh giá........................................................................................... 44
3.3.1. Recall............................................................................................................. 44
3.3.2. NDCG ........................................................................................................... 45
3.4. Kết quả thực nghiệm ............................................................................................. 45
3.4.1. Thực nghiệm so sánh hiệu quả của các phương pháp ...................................... 46

3.4.2. Thực nghiệm hiệu quả khi thay đổi các tham số ............................................. 47
3.4.3. Thực nghiệm kết hợp điểm của BM25 và NATR............................................ 49
3.4.4. Hình ảnh hóa trọng số Attention ..................................................................... 50
3.5. Kết luận chương ................................................................................................... 51
KẾT LUẬN..................................................................................................................... 52
TÀI LIỆU THAM KHẢO ............................................................................................... 53

v

DANH MỤC BẢNG
Ví dụ minh họa bài tốn tìm kiếm văn bản pháp quy. ......................................... 5
Ví dụ về mẫu huấn luyện cho Skip-gram. ........................................................ 17
Thống kê tỉ lệ xuất hiện đồng thời của các từ. .................................................. 20
Hàm alignment score trong các cơ chế attention. ............................................. 32
Các loại cơ chế attention. ................................................................................. 32
Các thông tin di kèm văn bản. .......................................................................... 38
Một số thống kê về bộ câu hỏi. ........................................................................ 39
Các trường của một bản ghi trong Elasticsearch. .............................................. 41
So sánh hiệu quả các phương pháp. ................................................................. 46
Kết quả khi thay đổi tham số K ........................................................................ 47
Kết quả khi thay đổi tham số N ........................................................................ 48
Kết quả khi thay đổi tham số w. ....................................................................... 49

vi

DANH MỤC HÌNH ẢNH
Hình 1.1. Kiến trúc tổng quan của hệ thống tìm kiếm thơng tin. ......................................... 6
Hình 1.2. TF trong TF-IDF và BM25 .............................................................................. 11

Hình 1.3. IDF trong TF-IDF và BM25. ............................................................................ 12
Hình 1.4. Mơ hình đồ họa của LDA. ................................................................................ 14
Hình 1.5. Mơ hình sinh của Latent Dirichlet Allocation. .................................................. 15
Hình 1.6. Mơ hình sử dụng mạng nơ-ron hồi quy. ............................................................ 18
Hình 1.7. Thuật tốn Continuous bag of words và Skip-gram. ......................................... 19
Hình 1.8. Mơ hình một nơ-ron sinh học. .......................................................................... 20
Hình 1.9. Mơ hình một nơ-ron nhân tạo. .......................................................................... 21
Hình 1.10. Đồ thị các dạng hàm lan truyền. ..................................................................... 21
Hình 1.11. Mơ hình cấu tạo của một mạng nơ-ron cơ bản. ............................................... 22
Hình 1.12. Mơ hình mạng nơ-ro truyền thẳng. ................................................................. 23
Hình 1.13. Mơ hình mạng nơ-ron hồi quy. ....................................................................... 24
Hình 1.14. Minh họa phép nhân chập. ............................................................................. 26
Hình 1.15. Các đặc trưng học được của một mạng nơ-ron nhân chập [23]........................ 26
Hình 1.16. Kiến trúc cơ bản của mạng nơ-ron nhân chập một chiều ................................. 27
Hình 1.17. Kiến trúc cơ bản của mạng nơ-ron nhân chập hai chiều .................................. 27
Hình 1.18. Mơ hình CNN trong nghiên cứu [31]. ............................................................. 28
Hình 1.19. Mơ hình trong nghiên cứu [26]. ...................................................................... 29
Hình 2.1. Ví dụ về cách con người chú ý vào một số từ trong câu. ................................... 31
Hình 2.2. Kiến trúc của Mô-đun Biểu diễn truy vấn. ........................................................ 33
Hình 2.3. Kiến trúc của Mơ-đun Biểu diễn điều luật. ....................................................... 35
Hình 2.4. Tính độ liên quan giữa một điều luật và một truy vấn. ...................................... 36
Hình 3.1. Các bước tiền xử lý dữ liệu. ............................................................................. 40
Hình 3.2. Lưu trữ biểu diễn của các điều luật. .................................................................. 43
Hình 3.3. Quá trình tìm kiếm khi nhận một truy vấn. ....................................................... 44
Hình 3.4. So sánh hiệu quả các phương pháp. .................................................................. 46
Hình 3.5. Kết quả khi thay đổi tham số K. ....................................................................... 47
Hình 3.6. Kết quả khi thay đổi tham số N. ....................................................................... 48
Hình 3.7. Kết quả khi thay đổi tham số w. ....................................................................... 50
Hình 3.8. Hình ảnh hóa trọng số Attention của truy vấn. .................................................. 50
Hình 3.9. Hình ảnh hóa trọng số Attention của điều luật .................................................. 51

vii

DANH MỤC KÝ HIỆU CÁC CHỮ VIẾT TẮT
Viết tắt
AI
ANN
ASR
BM25
CBOW
CNN
DNN
FNN
GloVe
GRU
IR
IRM
LDA
LSA
LSTM
MCMC
NATR
NLP
PLSA
RNN
TF-IDF

Tiếng Anh
Artificial Intelligence

Artificial Neural Network
Automatic Speech Recognition
Best Match - Okapi BM25
Continuous Bag Of Words
Convolutional Neural Network
Deep Neural Network
Feed-forward Neural Network
Global Vector
Gate Recurrent Unit
Information Retrieval
Information Retrieval Model
Latent Dirichlet Allocation
Latent Semantic Analysis
Long-Short Term Memory
Markov-Chain Monte Carlo
Neural Attentive Text Representation
Natural Language Processing
Probabilistic Latent Semantic Analysis
Recurrent Neural Networks
Term Frequency - Inverted Document
Frequency

Tiếng Việt
Trí tuệ nhân tạo
Mạng nơ-ron nhân tạo
Nhận dạng tiếng nói tự động

Mạng nơ-ron nhân chập
Mạng nơ-ron nhiều lớp
Mạng nơ-ron truyền thẳng

Tìm kiếm thơng tin
Mơ hình tìm kiếm thơng tin
Mơ hình phát hiện chủ đề ẩn

Xử lý ngôn ngữ tự nhiên
Mạng nơ-ron hồi quy
Tần xuất từ - tần xuất văn bản
nghịch đảo

1

MỞ ĐẦU
Ngày nay, trong kỉ nguyên kỹ thuật số, với sự bùng nổ của thông tin, số lượng
các tài liệu điện tử do con người tạo ra ngày càng khổng lồ. Trong quá trình học tập,
nghiên cứu hay làm việc, chúng ta cần tìm kiếm và đọc rất nhiều tài liệu để tìm được
thơng tin ta mong muốn. Việc này đơi khi mất nhiều thời gian, điển hình là trong lĩnh
vực pháp luật. Một văn bản pháp luật thường có thể dài tới 15-20 trang hoặc thậm chí
nhiều hơn. Một vụ việc có thể liên quan đến nhiều văn bản khác nhau. Các luật sư,
nhân viên pháp lý... phải đọc rất nhiều văn bản và so sánh các điều, khoản trong đó
với trường hợp đang xử lý. Theo một khảo sát năm 2013 tại Mỹ [19], trung bình, gần
47,3% số người được hỏi dành 15% thời gian, 36.6% số người dành 15-50% thời
gian, 10.3% số người dành từ 50% thời gian trở lên mỗi tuần cho việc tìm kiếm và
nghiên cứu văn bản pháp luật. Đây là một vấn đề thực tiễn, mang lại giá trị mà chúng
ta cần giải quyết.
Bài tốn tìm kiếm thơng tin ra đời chính là để xử lý vấn đề trên. Nhiệm vụ
chính của bài tốn tìm kiếm thơng tin là tìm kiếm các thơng tin thoả mãn nhu cầu
thông tin của người dùng. Người sử dụng của một hệ thống tìm kiếm thơng tin khơng
chỉ muốn tìm những văn bản có chứa những từ khóa trong câu truy vấn mà cịn quan

tâm tới việc thu nhận được những văn bản mang lại thông tin phù hợp với mục đích
tìm kiếm.
Các hệ thống tìm kiếm thông tin thường biểu diễn văn bản và câu truy vấn
dưới dạng các véc-tơ. Chất lượng biểu diễn văn bản và so sánh các véc-tơ biểu diễn
có ảnh hưởng quan trọng tới kết quả. Gần đây, các kỹ thuật sử dụng học sâu cho thấy
khả năng biểu diễn văn bản rất tốt trong xử lý ngơn ngữ tự nhiên nói chung và tìm
kiếm thơng tin văn bản nói riêng. Vì vậy, tơi chọn đề tài “Tìm kiếm văn bản pháp
quy sử dụng kỹ thuật học sâu” cho luận văn của mình. Mục tiêu của luận văn là tìm
hiểu các phương pháp biểu diễn văn bản và đề xuất mơ hình sử dụng kỹ thuật học sâu
ứng dụng trong tìm kiếm văn bản pháp quy tiếng Việt. Đầu vào của hệ thống là một
câu hỏi về pháp luật. Đầu ra của hệ thống là văn bản pháp quy có liên quan, trả lời

2

được cho câu hỏi đó, cụ thể đến mức điều. Ví dụ, với câu hỏi “Vợ chồng ly hơn tài
sản chung được phân chia như thế nào?” hệ thống sẽ trả về kết quả là: Điều 59 Luật
Hôn nhân và gia đình, Điều 7 Thơng tư liên tịch hướng dẫn một số quy định của Luật
Hơn nhân và gia đình.
Nội dung luận văn được chia thành 3 chương như sau:
-

CHƯƠNG 1: Bài tốn tìm kiếm thơng tin và các phương pháp biểu diễn
văn bản: Trình bày tổng quan về bài tốn tìm kiếm thơng tin và các phương
pháp biểu diễn văn bản phục vụ tìm kiếm, tìm kiếm thơng tin.

-

CHƯƠNG 2: Ứng dụng biểu diễn văn bản bằng mạng nơ-ron sâu trong tìm
kiếm văn bản pháp quy: Giới thiệu về bài tốn tìm kiếm văn bản pháp quy,

trình bày phương pháp biểu diễn văn bản sử dụng mạng nơ-ron sâu.

-

CHƯƠNG 3: Thử nghiệm và đánh giá: Mơ tả q trình xây dựng bộ dữ
liệu và so sánh, đánh giá hiệu quả của mơ hình đề xuất so với các phương
pháp khác.

Các kết quả của luận văn đã được chấp nhận công bố tại hội nghị COLING
2020, hội nghị hạng A về xử lý ngôn ngữ tự nhiên.

3

CHƯƠNG 1. BÀI TỐN TÌM KIẾM THƠNG TIN VÀ CÁC
PHƯƠNG PHÁP BIỂU DIỄN VĂN BẢN
Chương này sẽ trình bày tổng quan về bài tốn tìm kiếm thơng tin nói chung
và bài tốn tìm kiếm văn bản pháp quy nói riêng, bao gồm khái niệm, kiến trúc hệ
thống và mơ hình tìm kiếm thơng tin, cùng với các phương pháp biểu diễn văn bản
phục vụ tìm kiếm.

1.1. Bài tốn tìm kiếm thơng tin
1.1.1. Tìm kiếm văn bản quy phạm pháp luật
Theo Bing Liu, tìm kiếm thơng tin hay truy vấn thơng tin (Information
Retrieval – IR) là lĩnh vực nghiên cứu nhằm giúp người dùng tìm kiếm thơng tin phù
hợp với thơng tin mình cần [15].
Theo Manning, tìm kiếm thơng tin là việc tìm các tài liệu ở dạng phi cấu trúc
(thường là văn bản) thỏa mãn một thông tin cần thiết trong một tập hợp dữ liệu lớn
(thường được lưu trên máy tính) [18].
IR nghiên cứu cách thu thập, tổ chức, lưu trữ truy xuất và phân tán thông tin.

Việc biểu diễn và tổ chức thông tin phải được thực hiện theo cách mà người dùng có
thể truy cập được thơng tin đáp ứng nhu cầu của mình.
Bài tốn tìm kiếm thông tin
Input:
-

Một tập tài liệu lớn, ổn định.

-

Một nhu cầu thông tin thể hiện dưới dạng câu truy vấn (các từ khố hoặc
câu hỏi).

Output:
-

Tìm tất cả tài liệu có liên quan đến câu truy vấn.

4

Trong đó, tài liệu ổn định ở đây có thể hiểu là tài liệu mà thao tác xóa, chỉnh
sửa hoặc thêm mới trên nó ít khi xảy ra.
Những vấn đề cần giải quyết của bài tốn tìm kiếm thơng tin
-

Biểu diễn tập tài liệu như thế nào?

-

Biểu diễn nhu cầu thông tin của người dùng như thế nào?

-

Bằng cách nào hệ thống có thể trả về những tài liệu có liên quan đến nhu
cầu thơng tin một cách có hiệu quả?

-

Kết quả trả về được trình bày như thế nào?

Bài tốn tìm kiếm văn bản pháp quy
Văn bản quy phạm pháp luật hay còn gọi là Văn bản pháp quy là một hình
thức pháp luật thành văn được thể hiện qua các văn bản chứa được các quy phạm
pháp luật do cơ quan hoặc cá nhân có thẩm quyền ban hành để điều chỉnh các quan
hệ xã hội. Theo quy định của Luật Ban hành văn bản quy phạm pháp luật năm 2008
của Việt Nam thì Văn bản quy phạm pháp luật là văn bản do cơ quan nhà nước ban
hành hoặc phối hợp ban hành theo thẩm quyền, hình thức, trình tự, thủ tục được quy
định. Trong đó có quy tắc xử sự chung, có hiệu lực bắt buộc chung, được Nhà nước
bảo đảm thực hiện để điều chỉnh các quan hệ xã hội.
Văn bản pháp quy có đặc điểm là thường dài, cấu trúc phức tạp, chia thành
nhiều chương, điều, khoản… Một văn bản pháp luật thường có thể dài tới 15-20 trang
hoặc thậm chí nhiều hơn. Một vụ việc có thể liên quan đến nhiều văn bản khác nhau.
Các luật sư, nhân viên pháp lý... phải đọc rất nhiều văn bản và so sánh các điều, khoản
trong đó với trường hợp đang xử lý. Việc này tốn rất nhiều thời gian, do vậy, nếu có
một hệ thống giúp tìm kiếm và đưa ra được các điều khoản liên quan tới vụ việc đang
xử lý sẽ giúp ích rất nhiều. Bài toán được phát biểu như sau:
-

Đầu vào: Truy vấn của người dùng dưới dạng một câu hỏi.

-

Đầu ra: Các điều khoản có liên quan, giúp trả lời được cho câu hỏi của
người dùng.

5

Ví dụ minh họa đầu vào và đầu ra của bài tốn được mơ tả bằng bảng bên
dưới:
Ví dụ minh họa bài tốn tìm kiếm văn bản pháp quy.
Câu hỏi đầu vào

Con riêng có quyền hưởng thừa kế của bố đã mất không di
chúc không?

Đầu ra

Điều 651 Bộ luật dân sự 2015

Nội dung điều luật Điều 651. Người thừa kế theo pháp luật
1. Những người thừa kế theo pháp luật được quy định theo thứ
tự sau đây:
a) Hàng thừa kế thứ nhất gồm: vợ, chồng, cha đẻ, mẹ đẻ, cha
nuôi, mẹ nuôi, con đẻ, con nuôi của người chết;
b) Hàng thừa kế thứ hai gồm: ông nội, bà nội, ông ngoại, bà
ngoại, anh ruột, chị ruột, em ruột của người chết; cháu ruột của
người chết mà người chết là ông nội, bà nội, ông ngoại, bà
ngoại;

c) Hàng thừa kế thứ ba gồm: cụ nội, cụ ngoại của người chết;
bác ruột, chú ruột, cậu ruột, cơ ruột, dì ruột của người chết;
cháu ruột của người chết mà người chết là bác ruột, chú ruột,
cậu ruột, cơ ruột, dì ruột; chắt ruột của người chết mà người
chết là cụ nội, cụ ngoại.
2. Những người thừa kế cùng hàng được hưởng phần di sản
bằng nhau.
3. Những người ở hàng thừa kế sau chỉ được hưởng thừa kế,
nếu khơng cịn ai ở hàng thừa kế trước do đã chết, khơng có
quyền hưởng di sản, bị truất quyền hưởng di sản hoặc từ chối
nhận di sản.

1.1.2. Hệ thống tìm kiếm và tìm kiếm thơng tin
Hoạt động của một hệ thống tìm kiếm thơng tin được mơ tả trong Hình 1.1,
bao gồm ba bước chính: biểu diễn văn bản, biểu diễn truy vấn và so khớp – đánh giá
độ liên quan giữa văn bản và truy vấn.

6

Hình 1.1. Kiến trúc tổng quan của hệ thống tìm kiếm thông tin.
Truy vấn của người dùng thể hiện thông tin mà người đó cần, có thể thuộc một
trong các dạng sau [15]:
-

Truy vấn dạng từ khóa (Keyword queries): Người dùng thể hiện thơng tin
mình cần bằng một danh sách (ít nhất một) các từ khóa với mục đích tìm
các tài liệu chứa một vài (ít nhất một) hoặc tất cả các từ khóa đó.

-

Truy vấn dạng Boolean (Boolean queries): Người dùng có thể dùng các
tốn tử Boolean AND, OR và NOT để tạo các truy vấn phức tạp. Truy vấn
sẽ bao gồm các từ khóa và các tốn tử Boolean.

-

Truy vấn dạng cụm từ (Phrase queries): Truy vấn gồm một chuỗi các từ tạo
thành một cụm từ. Các tài liệu trả về phải chứa cả cụm từ đó.

-

Truy vấn gần (Proximity queries): Là một phiên bản thoải mái hơn của truy
vấn dạng cụm từ. Nó tìm kiếm các từ khóa trong truy vấn nằm gần nhau
trong các tài liệu. Độ gần (closeness) được dùng như một yếu tố để xếp
hạng các tài liệu trả về.

7

-

Truy vấn dạng tài liệu (Full document queries): Khi truy vấn là tồn bộ một
văn bản, người dùng muốn tìm những văn bản khác tương tự như văn bản
trong truy vấn.

-

Câu hỏi bằng ngôn ngữ tự nhiên (Natural language question): Người dùng
thể hiện thông tin cần thiết dưới dạng một câu hỏi bằng ngơn ngữ tự nhiên,

sau đó hệ thống tìm câu trả lời. Đây là trường hợp phức tạp nhất và cũng là
lý tưởng nhất.

Mơ hình tìm kiếm thơng tin (Information Retrieval Model - IRM) quyết định
tài liệu và truy vấn được biểu diễn như thế nào, cách xác định sự liên quan giữa một
tài liệu với truy vấn của người dùng. Đây là thành phần quan trọng nhất trong hệ
thống IR.
Mơ hình tìm kiếm thơng tin có thể được định nghĩa như sau [6]:
𝐼𝑅𝑀 = {𝐷, 𝑄, 𝐹, 𝑅(𝑞𝑘 , 𝑑𝑗 )}
Trong đó:
-

D (Document collection): Là tập hợp biểu diễn của các tài liệu.

-

Q (Query collection): Là tập hợp biểu diễn các thơng tin người dùng cần,
cịn được gọi là các truy vấn.

-

F (Framework): Là phương pháp mô hình hóa việc biểu diễn tài liệu, truy
vấn và mối quan hệ giữa chúng.

-

R (Ranking function): Là hàm gán một số thực cho biểu diễn 𝑑𝑗 của tài liệu
𝑗 để thể hiện mức độ liên quan của nó với truy vấn 𝑞𝑘 .

Việc biểu diễn văn bản và truy vấn đóng vai trị rất quan trọng, ảnh hưởng trực

tiếp tới kết quả tìm kiếm của hệ thống. Phương pháp biểu diễn tốt cần trích xuất, sau
đó chọn ra được các thông tin cần thiết để so khớp văn bản với truy vấn. Các phương
pháp có thể dùng để biểu diễn văn bản bao gồm: biểu diễn sử dụng từ khóa, biểu diễn
sử dụng chủ đề ẩn, biểu diễn sử dụng véc-tơ từ, biểu diễn sử dụng mạng nơ-ron sâu.
Từng phương pháp sẽ được trình bày cụ thể trong các mục phía sau.

8

Sau khi có biểu diễn của câu truy vấn và các văn bản, hệ thống sẽ thực hiện
quá trình so khớp, tính độ liên quan giữa các văn bản với truy vấn. Độ liên quan có
thể được tính thơng qua các hàm khoảng cách như Euclid, Cosine, hàm tích vơ hướng
hoặc thông qua một mạng nơ-ron. Các văn bản sẽ được xếp hạng dựa trên độ liên
quan tới truy vấn và trả về cho người dùng.

1.2. Biểu diễn văn bản sử dụng từ khóa
1.2.1. TF-IDF
Term Frequency – Inverse Document Frequency (TF-IDF), là một thống kê
số học phản ánh tầm quan trong của một từ (word) với một văn bản (document) trong
tập các văn bản (corpus). Nó thường được dùng để làm trọng số trong việc thu thập
thông tin và khai phá văn bản. Giá trị của TF-IDF tỉ lệ thuận với số lần xuất hiện của
từ đó trong văn bản, tuy nhiên nó bị bù trừ bởi tần suất của nó trong tập tất cả các văn
bản (corpus). Việc đó giúp loại bỏ những trường hợp mà một từ là từ phổ biến nhưng
lại vơ nghĩa ví dụ như các từ “thì”, “là”, “mà” (người ta gọi những từ này là các từ
dừng - stopwords).
TF-IDF là sự kết hợp của hai thống kê cục bộ - tổng quát là: tần suất của từ
(term frequency – cục bộ) và tần suất nghịch đảo văn bản (inverse document
frequency – tổng quát).
Các tham số trong TF-IDF:
-

Term frequency: Tần số xuất hiện

-

Inverse document frequency: Tần số nghịch đảo văn bản

-

Document Length: Độ dài văn bản

Tần số xuất hiện
Yếu tố này đánh giá tần suất xuất hiện của từ trong văn bản. Càng xuất hiện
nhiều, độ liên quan càng cao. Một văn bản xuất hiện từ khóa 5 lần sẽ liên quan nhiều
hơn một văn bản mà từ khóa chỉ xuất hiện 1 lần. Tuy nhiên khơng thể nói rằng một
văn bản xuất hiện từ khóa 6 lần thì liên quan gấp đơi một văn bản từ khóa xuất hiện

9

3 lần. Chính vì thế TF khơng cịn được lấy trực tiếp, thay vào đó TF được tính theo
cơng thức sau:
𝑡𝑓 (𝑡, 𝑑 ) = √𝑓𝑟𝑒𝑞𝑢𝑒𝑛𝑐𝑦
𝑡𝑓 của từ 𝑡 trong văn bản 𝑑 được tính bằng căn bậc hai của số lần 𝑡 xuất hiện
trong 𝑑.
Tần số nghịch đảo văn bản
Tần số nghịch đảo văn bản (Inverse Document Frequency) dùng để đánh giá
độ đặc biệt của một từ dựa vào tần suất xuất hiện của từ trên toàn bộ tập các văn bản.
Một từ xuất hiện ở nhiều văn bản thì sẽ ít có giá trị.
Ví dụ: Chúng ta muốn tìm kiếm luật sở hữu trí tuệ. Khi chúng ta tìm kiếm với

từ khóa "luật" thì sẽ nhận được rất nhiều kết quả nhưng lại có rất ít kết quả chúng ta
mong muốn. Cịn khi chúng ta tìm kiếm với từ khóa "sở hữu trí tuệ" thì nhận được ít
kết quả hơn nhưng chúng ta sẻ thấy rõ ràng các kết quả tìm kiếm sẽ sát với kết quả
chúng ta mong muốn. Suy ra từ khóa "luật" sẽ có giá trị thấp hơn từ khóa "sở hữu trí
tuệ ".
Inverse Document Frequency được tính như sau:
𝑖𝑑𝑓(𝑡, 𝑑) = 𝑙𝑜𝑔

|𝐷|
|𝑑𝑡 |

Trong đó |𝐷| là tổng số văn bản trong tập dữ liệu, |𝑑𝑡 | là số văn bản có chứa
từ 𝑡.
Độ dài văn bản
Yếu tố này đánh giá độ dài của văn bản. Văn bản càng ngắn thì từ sẽ có giá trị
càng cao và ngược lại. Điều này hoàn toàn dễ hiểu, chúng ta có thể thấy một từ xuất
hiện trong tiêu đề sẽ có giá trị hơn rất nhiều cùng từ đó nhưng xuất hiện trong nội
dung. Để thể hiện điều này ta dùng công thức:

10

𝑛𝑜𝑟𝑚(𝑑 ) =

1
√|𝑑|

Trong đó |𝑑| là độ dài văn bản tính bằng tổng số từ.
Tổng hợp lại
𝑡𝑓 − 𝑖𝑑𝑓 (𝑡, 𝑑 ) = 𝑡𝑓(𝑡) × 𝑖𝑑𝑓(𝑡, 𝑑) × 𝑛𝑜𝑟𝑚(𝑑)

1.2.2. BM25
BM25 là hàm tính thứ hạng được các cơng cụ tìm kiếm sử dụng để xếp hạng
các văn bản theo độ phù hợp với truy vấn nhất định. Hàm xếp hạng này dựa trên mơ
hình xác suất, được phát minh ra vào những năm 1970 – 1980. Phương pháp còn được
gọi là Okapi BM25, vì lần đầu tiên cơng thức được sử dụng trong hệ thống tìm kiếm
Okapi, được sáng lập tại trường đại học London những năm 1980 và 1990. [36]
Term frequency trong BM25
Đối với TF-IDF, giá trị của nó sẽ tăng vô hạn khi TF tăng lên. Để giảm tác
động của TF thì BM25 đã chỉnh sửa cơng thức của TF lại, giới hạn tới một điểm cực
đại, và chúng ta có thể tùy chỉnh giới hạn này bằng cơng thức:
(𝑘 + 1) × 𝑡𝑓
𝑘 + 𝑡𝑓
Trong đó 𝑘 là hằng số, 𝑡𝑓 là số lần xuất hiện của từ trong văn bản.
𝑘 giúp giới hạn mức độ ảnh hưởng của một từ đơn lẻ trong truy vấn tới độ liên
quan của một văn bản. Sự so sánh giữa ảnh hưởng của TF trong TF-IDF và BM25 có
thể thấy ở Hình 1.2 bên dưới.
Thay đổi giá trị của 𝑘 sẽ khiến độ dốc của đường cong ảnh hưởng của TF đến
độ liên quan (đường màu xanh) thay đổi. Điều này ảnh hưởng đến việc một từ xuất
hiện nhiều thêm sẽ làm tăng độ liên quan lên như thế nào. Đường cong tác động của
TF lên độ liên quan tăng nhanh khi 𝑇𝐹 ≤ 𝑘 và chậm dần khi 𝑇𝐹 > 𝑘 . Trong
Elasticsearch, 𝑘 có giá trị mặc định là 1.2.

11

Hình 1.2. TF trong TF-IDF và BM2
Độ dài văn bản trong BM25
Cơng thức của TF-IDF chưa thực sự hồn chỉnh, nó đúng với những văn bản
có độ dài trung bình trong toàn bộ tập dữ liệu. Nếu độ dài văn bản quá ngắn hoặc quá

dài so với độ dài trung bình, thì cơng thức trên sẽ cho kết quả thiếu chính xác.
Bởi vậy, người ta thêm vào trong cơng thức trên 2 tham số, một hằng số b và
một giá trị độ dài 𝐿, công thức sẽ trở thành:
(𝑘 + 1) × 𝑡𝑓
𝑘 × (1.0 − 𝑏 + 𝑏 × 𝐿) + 𝑡𝑓
Trong đó:
-

𝐿 là tỉ lệ giữa độ dài của văn bản đang xét so với độ dài trung bình của tất
cả các văn bản.

-

𝑏 là một hằng số

𝑏 càng lớn thì ảnh hưởng của độ dài của tài liệu so với độ dài trung bình càng
được khuếch đại. Nếu đặt 𝑏 thành 0, ảnh hưởng của tỷ lệ độ dài sẽ hồn tồn bị vơ
hiệu và độ dài của tài liệu sẽ không ảnh hưởng đến điểm số. Theo mặc định, 𝑏 có giá
trị là 0.75 trong Elasticsearch.

12

Inverse Document Frequency trong BM25

Hình 1.3. IDF trong TF-IDF và BM25.
Biểu đồ Hình 1.3 cho thấy IDF trong BM25 khá giống IDF trong TF-IDF. Tuy
nhiên BM25 đã chỉnh sửa công thức tính lại để thêm khả năng đưa ra điểm âm khi
tần suất xuất hiện của từ trên toàn bộ tập văn bản rất cao.
𝑖𝑑𝑓𝑡 = 𝑙𝑜𝑔

1 + (𝐷 − 𝑑 + 0.5)
𝑑 + 0.5

Trong đó:
-

𝐷: tổng số văn bản

-

𝑑: số lượng văn bản chứa từ t

1.3. Biểu diễn văn bản sử dụng chủ đề ẩn
1.3.1. Khái niệm mơ hình Latent Dirichlet Allocation (LDA)
Latent Dirichlet Allocation [4] [5] là một trong những mơ hình phát hiện chủ
đề ẩn thành cơng nhất hiện nay được phát triển bởi David Blei, Andrew Ng và
Michael Jordan. Các văn bản được biểu diễn như một tập hợp các chủ đề, ví dụ một
bài viết về bán kính hiển vi sẽ gồm hai chủ đề là: khoa học và kinh doanh. Các chủ
đề lại được xem như là tập hợp của các từ, ví dụ chủ đề pháp luật thì các từ “bộ luật”,

13

“nghị định”, “thơng tư” sẽ có tần suất xuất hiện cao, còn các từ “siêu thị”, “nhà
hàng”, “tàu hỏa” sẽ có tần suất thấp.
LDA là một mơ hình tự sinh xác suất cho các bộ dữ liệu rời rạc như bộ văn
bản ký tự. Bản chất của LDA là một mơ hình Bayes phân cấp với 3 mức, trong đó
mỗi một phần tử của bộ dữ liệu là một tập hợp hữu hạn của một tập các chủ đề nằm
ẩn bên trong nội dung nhìn thấy được của thành phần đó. Trong khi đó, mỗi một chủ

đề lần lượt được mô tả như là một tập hợp vô hạn trong một tập các xác suất chủ đề
tiềm ẩn. Trong phạm vi của việc mơ hình hóa dữ liệu dạng ký tự, xác suất chủ đề
cung cấp một biểu diễn cụ thể của một văn bản.
Cách mơ hình LDA hoạt động như sau: ban đầu coi tất cả văn bản trong bộ
văn bản là rỗng, chưa có từ nào. Giả sử các văn bản đó là tập hợp của những chủ đề
nào. Với mỗi một văn bản, chọn một chủ đề trong tập các chủ đề của văn bản đó, sau
đó chọn một từ trong tập các từ của chủ đề được chọn, thực hiện hành động này cho
đến khi phân phối xác xuất chủ đề đã đủ. Thực hiện chuỗi hành động trên với tất cả
các văn bản trong bộ văn bản.
Tuy nhiên trong thực tế thì những thơng tin biết được là ngược lại. Tức là, với
một tập các văn bản, các văn bản này đã biết hết các từ có trong văn bản này. Việc
phải làm bây giờ là phải ước lượng ngược lại tập các chủ đề có trong tồn bộ tập văn
bản, tập hợp các từ của từng chủ đề, xác suất của từng từ trong chủ đề đó, và cuối
cùng là phân phối xác suất chủ để có trong từng văn bản.

1.3.2. Tổng quan về mơ hình sinh trong LDA
Với một tập các văn bản (corpus) gồm 𝑀 văn bản ký hiệu là 𝐷 =
{𝑑1 , 𝑑2 , … , 𝑑𝑀 }, trong đó văn bản thứ 𝑚 trong tập văn bản sẽ có 𝑁𝑚 từ, các từ trong
văn bản sẽ được lấy từ tập từ vựng của các thuật ngữ (term) = {𝑡1 , 𝑡2 , … , 𝑡𝑉 },. Mục
đích của LDA là tìm ra cấu trúc ẩn của các chủ đề (topic) hay các lĩnh vực (concept)
trong văn bản. Các chủ đề và các lĩnh vực này phải nắm bắt được ý nghĩa của văn
bản. Mặc dù các khái niệm chủ đề ẩn và lĩnh vực ẩn này đã được đề cập đến trong

14

các phương pháp LSA và PLSA, nhưng LDA sẽ cung cấp cho chúng ta một mơ hình
sinh hồn chỉnh và cho kết quả tốt hơn so với các phương pháp được mơ tả ở trên.
Q trình sinh trong LDA được mô tả như sau: LDA sinh ra một luồng các từ
quan sát được 𝑤𝑚,𝑛 (là các từ có trong nội dung văn bản), được phân chia thành các

văn bản. Với mỗi văn bản, một tỷ lệ chủ đề ⃗⃗⃗⃗⃗
𝜗𝑚 sẽ được đưa ra, và từ đó, các từ đặc
tả chủ đề được tạo ra. Nghĩa là, với mỗi từ, một chỉ số chỉ thi chủ đề 𝑧𝑚,𝑛 được lấy
mẫu theo các văn bản – tỷ lệ trộn cụ thể, và sau đó phân phối chủ đề tương ứng 𝜑
⃗ 𝑧𝑚,𝑛
được sử dụng để sinh ra các từ. Các chủ đề 𝜑
⃗ 𝑘 sẽ được lấy mẫu một lần cho mọi văn
bản trong tập văn bản D. Mơ hình đồ họa, mơ hình sinh hồn chỉnh và sẽ được biểu
diễn lần lượt tại các hình 1.2, 1.3.

Hình 1.4. Mơ hình đồ họa của LDA.

Trong đó, các khối là các “đĩa” biểu diễn các bản sao. Đĩa ở ngoài biểu
diễn các văn bản, đĩa ở trong biểu diễn việc lựa chọn các lựa chọn lặp lại của
các chủ đề và các từ trong một văn bản.

15

Hình 1.5. Mơ hình sinh của Latent Dirichlet Allocation.
Trong đó: Dir, Poiss, Mult lần lượt là các phân phối Dirichlet, Poisson và
Multinominal tương ứng.

1.3.3. Suy luận
Với một mơ hình LDA đã cho, có thể thực hiện suy luận ra các chủ đề có trong
một văn bản mới chưa có trong tập văn bản huấn huyện bằng một tiến trình lấy mẫu
tương tự.
̃ , được biểu
Nhiệm vụ cụ thể của việc suy luận này là từ một văn bản mới 𝒎
⃗⃗ , chúng ta phải đi ước lượng các xác suất hậu nghiệm

diễn bởi một véc-tơ các từ ⃗𝒘
⃗̃ cho bởi véc-tơ các từ của câu truy vấn 𝒘
⃗⃗⃗ và mô hình LDA đã cho
của các chủ đề 𝒛
trước 𝑳(𝚯, 𝚽):
⃗|𝒘
⃗⃗⃗ , 𝑳) = 𝒑(𝒛
⃗̃ , 𝒘
⃗̃
⃗⃗ , 𝒘
⃗⃗⃗ , 𝒛
⃗ ).
𝒑(𝒛
Để tìm ra các giá trị cần thiết cho văn bản mới, công thức lấy mẫu mới được
sử dụng trong phần này là:
(𝒕)

̃,𝒘
⃗⃗⃗⃗⃗
⃗⃗⃗ ) =
𝒑(𝒛̃𝒊 = 𝒌| 𝒛⃗⃗⃗⃗⃗
−𝒊 ⃗⃗⃗ ; 𝒛
−𝒊 , 𝒘

(𝒕)

̃ 𝒌,−𝒊 + 𝜷𝒊
𝒏𝒌 + 𝒏
(𝒗)

(𝒗)

(𝒌,−𝒊)

𝒏𝒎
̃

(𝒛)

+ 𝜶𝒌

̃ 𝒌 + 𝜷𝒗 ] − 𝟏 [∑𝑲
[∑𝑽𝒗=𝟏 𝒏𝒌 + 𝒏
𝒛=𝟏 𝒏𝒎 + 𝜶𝒛 ] − 𝟏

16

(𝒕)

⃗ 𝒌 là một biến mới, biến này đếm các đối tượng quan sát được
Trong đó biến 𝒏
của các thuật ngữ và các chủ đề trong văn bản mới. Công thức này đưa ra một ví dụ
đầy màu sắc về các hoạt động của việc lấy mẫu hậu nghiệm Gibbs.
Công thức tính phân phối chủ đề cho văn bản mới như sau:
(𝒌)

𝝑𝒎,𝒌 =

𝒏𝒎

̃ + 𝜶𝒌
(𝒛)

∑𝑲
𝒛=𝟏 𝒏𝒎
̃ + 𝜶𝒛

1.4. Biểu diễn văn bản sử dụng véc-tơ từ
1.4.1. Giới thiệu
Phương pháp biểu diễn văn bản bằng véc-tơ từ, hay biểu diễn bằng từ khóa
phân tán, biểu diễn các từ dưới dạng véc-tơ có số chiều cố định và nhỏ hơn nhiều so
với kích thước từ vựng. Giá trị của mỗi thành phần trong véc-tơ biểu diễn đều là số
thực và có giá trị và thường khác 0 (không chỉ là 0 hay 1 như one-hot), do vậy cách
biểu diễn này còn được gọi là biểu diễn đặc (dense) khác với biểu diễn thưa (sparse)
kiểu one-hot.
Mơ hình này hướng đến việc phân tích ngữ nghĩa của từ và biểu diễn quan hệ
giữa các từ thông qua véc-tơ biểu diễn của chúng. Mỗi véc-tơ biểu diễn của từ bây
giờ không phải là thể hiện số thứ tự của từ trong tập từ điển nữa, nó là véc-tơ đặc
trưng của từ. Nhờ đó ta có thể giảm đáng kể số chiều cần thiết và hoàn tồn có thể
xác định độ tương đồng ngữ nghĩa, trái nghĩa hay một số quan hệ khác của các từ dựa
trên véc-tơ biểu diễn của chúng.
Đặc biệt cách biểu diễn này có thể thể hiện được một số quan hệ về ngữ pháp
và ngữ nghĩa giữa các từ. Ví dụ quan hệ số ít – số nhiều (danh từ tiếng Anh), so sánh
bằng – so sánh hơn (tính từ tiếng Anh), đồng nghĩa, trái nghĩa...

1.4.2. Các bước thực hiện
Cách biểu diễn của từ trong phương pháp này thu được thông qua tiến hành
học máy (không giám sát) trên các mô hình ngơn ngữ mạng nơ-ron nhân tạo [21]

Luận văn Thạc sĩ Kỹ thuật: Tìm kiếm văn bản pháp quy sử dụng kỹ thuật học sâu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về