Tải bản đầy đủ (.pdf) (53 trang)

Luận văn Thạc sĩ Khoa học máy tính: Nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.72 MB, 53 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐÌNH MẠNH

NGHIÊN CỨU CÁC PHƯƠNG PHÁP
TÍNH TỐN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT
TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HÀ NỘI, 12/2020


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐÌNH MẠNH

NGHIÊN CỨU CÁC PHƯƠNG PHÁP
TÍNH TỐN ĐỘ TƯƠNG TỰ CỦA VĂN BẢN LUẬT
TIẾNG VIỆT

Ngành: Khoa học máy tính
Chuyên ngành: Khoa học máy tính
Mã Số: 8480101.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƯƠNG THÁI


HÀ NỘI, 12/2020


MỤC LỤC
MỤC LỤC....................................................................................................................... 3
LỜI CẢM ƠN ................................................................................................................. 6
LỜI CAM ĐOAN ........................................................................................................... 7
DANH MỤC KÝ HIỆU, VIẾT TẮT .............................................................................. 8
DANH MỤC CÁC BẢNG ............................................................................................. 9
DANH MỤC ĐỒ THỊ, HÌNH VẼ ................................................................................ 10
MỞ ĐẦU....................................................................................................................... 11
CHƯƠNG 1. GIỚI THIỆU ........................................................................................... 12
1.1.

Lý do chọn đề tài ......................................................................................... 12

1.2.

Mục đích đề tài ............................................................................................ 12

1.3.

Đối tượng đề tài ........................................................................................... 13

1.4.

Phương pháp nghiên cứu............................................................................. 13

CHƯƠNG 2. KIẾN THỨC NỀN TẢNG ..................................................................... 14
2.1.


Đặc điểm của văn bản tiếng Việt ................................................................ 14

2.1.1.

Cấu tạo từ tiếng Việt............................................................................. 14

2.1.2.

Biến hình từ tiếng Việt ......................................................................... 15

2.1.3.

Từ đồng nghĩa....................................................................................... 15

2.1.4.

Đặc điểm chính tả ................................................................................. 15

2.2.

Đặc điểm của văn bản Luật tiếng Việt ........................................................ 16

2.3.

Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt .............. 17

2.4.

Tổng quan về bài toán đô độ tương tự văn bản ........................................... 17


2.4.1.

Khái niệm về độ tương tự văn bản ....................................................... 17

2.4.2.

Ứng dụng của bài toán đo độ tương tự giữa hai văn bản. .................... 18

2.5.

Phương pháp dựa trên thống kê. ................................................................. 18


2.5.1.

Khái niệm ............................................................................................. 18

2.5.2.

Độ đo tương tự Jaccard ........................................................................ 19

2.5.3.

Độ đo TF-IDF ....................................................................................... 19

2.6.

Phương pháp dựa trên mạng nơron học sâu. ............................................... 19


2.6.1.

Khái niệm học sâu ................................................................................ 19

2.6.2.

Một số ứng dụng của học sâu (Deep Learning) ................................... 20

2.6.3.

Một số phương pháp theo hướng tiếp cận học sâu ............................... 22

2.6.3.1. Mô hình biểu diễn từ bằng vector (Word2Vec). .................................. 22
2.6.3.2. Học chuyển (Transfer Learning) .......................................................... 29
CHƯƠNG 3. CÁC PHƯƠNG PHÁP ĐO ĐỘ TƯƠNG TỰ GIỮA CÁC VĂN BẢN 33
3.1.

Tiền xử lý dữ liệu ........................................................................................ 33

3.2.

Vector hóa văn bản và tính độ tương tự văn bản ........................................ 33

3.2.1.

Mộ số phương pháp theo tiếp cận thống kê ......................................... 33

3.2.2.

Phương pháp học sâu ............................................................................ 38


3.2.2.1. Sử dụng Word2Vec .............................................................................. 38
3.2.2.2. Học biểu diễn vector cho các văn bản .................................................. 39
3.2.2.3. Áp dụng học chuyển (transfer learning) để tăng chất lượng vector biểu
diễn văn bản ............................................................................................................. 40
3.3.

Đánh giá mơ hình ........................................................................................ 40

CHƯƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ ........................................................... 42
4.1.

Môi trường thực nghiệm và các công cụ sử dụng trong thực nghiệm ........ 42

4.2.

Dữ liệu ......................................................................................................... 42

4.2.1.

Thu thập dữ liệu.................................................................................... 42

4.2.2.

Xử lý dữ liệu ......................................................................................... 43

4.3.

Thực nghiệm ............................................................................................... 43
4



4.3.1.

Thực nghiệm với Phương pháp Jacard ................................................. 44

4.3.2.

Thực nghiệm với phương pháp TF-IDF ............................................... 44

4.3.3.

Thực nghiệm với phương pháp Word2Vec .......................................... 44

4.3.4.

Thực nghiệm với phương pháp Doc2Vec ............................................ 45

4.3.5.

Phương pháp học chuyển ..................................................................... 45

4.4.

Kết quả ........................................................................................................ 45

4.4.1.

Đánh giá các phương pháp trên văn bản tiếng Anh ............................. 45


4.4.2.

Đánh giá các phương pháp với truy vấn là 1 văn bản .......................... 45

4.4.3.

Đánh giá các phương pháp với truy vấn là 1 đoạn văn ngắn. .............. 49

CHƯƠNG 5: KẾT LUẬN VÀ CÔNG VIỆC TRONG TƯƠNG LAI ......................... 51
5.1.

Kết luận ....................................................................................................... 51

5.2.

Công việc trong tương lai............................................................................ 51

TÀI LIỆU THAM KHẢO............................................................................................. 52

5


LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn đặc biệt tới PGS. TS Nguyễn Phương Thái, người đã định
hướng đề tài và tận tình hướng dẫn chỉ bảo tơi trong suốt q trình thực hiện Luận văn cao
học này.
Tơi xin chân thành cảm ơn các Thầy, các Cô trường Đại học Công nghệ, Đại học
Quốc gia Hà Nội đã tận tình giảng dạy và truyền đạt những kiến thức, kinh nghịm q báu
trong suốt khóa học của tơi.
Cuối cùng, tơi xin cảm ơn tới nhưng người thân, bạn bè luôn ở bên cạnh, động viên,

chia sẻ cùng tôi trong quá trình học cao học cũng như quá trình thực hiện luận văn cao học.
Xin chân thành cảm ơn!

6


LỜI CAM ĐOAN
Tơi- Nguyễn Đình Mạnh – cam đoan luận văn này là cơng trình nghiên cứu của bản
thân tơi dưới sự hướng dẫn và chỉ bảo của PGS. TS Nguyễn Phương Thái.
Các kết quả nêu trong luận văn là trung thực và khơng sao chép tồn văn của bất kỳ
cơng trình nào khác.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho
lời cam đoan này.
Hà Nội, ngày 16 tháng 12 năm 2020

7


DANH MỤC KÝ HIỆU, VIẾT TẮT
Kí hiệu
CNTT

Giải thích
Cơng Nghệ Thơng Tin

NLP

Neuro – Linguistic – Programming

RNN


Recurrent Neural Network

LSTM

Long Short Term Memory networks

PCFG

Probabilistic Context Free Grammar

AI

Artificial intelligence

DNN

Deep Neural Network

8


DANH MỤC CÁC BẢNG
Bảng 1: Biểu diễn văn bản theo TF.................................................................................... 35
Bảng 2:Biểu diễn văn bản theo IDF ................................................................................... 37
Bảng 3: Thống kê dữ liệu của văn bản luật ....................................................................... 43
Bảng 4: So sánh kết quả 2 phương pháp Word2Vec và Doc2Vec. .................................. 45
Bảng 5: Kết quả các phương pháp theo tiếp cận thống kê. ............................................... 46
Bảng 6: Kết quả các phương pháp theo tiếp cận học sâu. ................................................. 46
Bảng 7: Kết quả của các phương pháp học chuyển cải tiến và chưa có cải tiến ............... 47

Bảng 8: Kết quả các phương pháp theo tiếp cận thống kê và học sâu. .............................. 50

9


DANH MỤC ĐỒ THỊ, HÌNH VẼ
Hình 2.1: Mơ hình Word2Vec .......................................................................................... 23
Hình 2.2: Mơ hình Skip-gram dạng tổng qt .................................................................. 23
Hình 2.3: Minh họa đầu vào và đầu ra của mơ hình Skip-gram....................................... 24
Hình 2.4: Minh họa đầu vào và đầu ra của mơ hình CBOW............................................ 25
Hình 2.5: Mơ hình CBOW dạng tổng qt ....................................................................... 26
Hình 2.6: Mơ hình học chuyển ......................................................................................... 29

10


MỞ ĐẦU
Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm vụ
trọng tâm công tác tư pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày
02/06/2005 của Bộ Chính trị về “Chiến lược cải cách tư pháp đến năm 2020” đã đề ra các
nhiệm vụ cải cách nền tư pháp của nước ta, trong đó có nhiệm vụ “đổi mới thủ tục hành
chính trong cơ quan tư pháp tư pháp nhằm tạo điều kiện thuận lợi cho người dân tiếp cận
công lý; … từng bước thực hiện việc cơng khai hóa các bản án…”. Thực hiện theo chỉ đạo
này các văn bản Luật đã được số hóa và phổ biến đến người dân ngày một nhiều. Lãnh đạo
ngành Tòa án cũng chỉ đạo sát sao việc ứng dụng CNTT để nâng cao hiệu quả công việc
của ngành Tòa án, cụ thể là việc phần mềm Công khai bản án đã được ra đời cung cấp bản
án tới người dân, để họ có thể tìm kiếm các bản án có trường hợp pháp lý tương tự trường
hợp mình đang gặp phải. Họ có thể biết trược được kết quả của việc kiện tụng, khi đó thay
vì phải đưa vụ việc ra Tịa thì một giải pháp khả thi hơn đó là hịa giải để 2 bên đều có lơi,
cũng là giảm bớt áp lực cơng việc cho ngành Tịa án. Để làm được như vậy thì phần mềm

cần phải hỗ trợ người dùng nhiều hơn nữa, không chỉ dừng lại ở việc tra cứu theo từ khóa
cơ bản mà phải hỗ trợ việc tra cứu theo nội dung ngữ nghĩa của văn bản.
Hiện nay, cũng có một vài cơng trình nghiên cứu để xuất các phương pháp khác nhau
để xác định độ tương đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá khiêm tốn so
với các cơng trình nghiên cứu trên văn bản tiếng Anh. Do đặc điểm của từ tiếng Việt cũng
có nhiều điểm khác với tiếng Anh, đặc biệt là văn bản Luật tiếng Việt. Việc xử lý văn bản
và xây dựng kho ngữ liệu chuẩn và đầy đủ là một thách thức lớn. Vì những lý do này,
chúng tơi đã chọn đề tài luận văn là “Nghiên cứu các phương pháp tính tốn độ tương
tự của văn bản luật tiếng Việt” nhằm nghiên cứu các phương pháp đo độ tương tự và thử
nghiện các mơ hình tính tốn độ tương tự, từ đây đưa ra để xuất mơ hình phù hợp nhất với
miền dữ liệu văn bản luật tiếng Việt.
Nội dung luật văn gồm:
 Chương 1. Giới thiệu tổng quan luận văn, mục đích và nội dung nghiên cứu.
 Chương 2. Đưa ra một cái nhìn tổng quan về các kiến thức nền tảng trong bài
toán đo độ tương tự giữa các văn bản.
 Chương 3. Các phương pháp tính toán độ tương tự cho miền dữ liệu văn bản
Luật tiếng Việt.
 Chương 4. Thể hiện chi tiết về tập dữ liệu được sử dụng, các cài đặt cho thực
nghiệm và kết quả của thực nghiệm.
 Chương 5. Tóm tắt lại công việc của luận văn và đưa ra các công việc trong
tương lai.

11


CHƯƠNG 1. GIỚI THIỆU
1.1. Lý do chọn đề tài
Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm vụ
trọng tâm công tác tư pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày
02/06/2005 của Bộ Chính trị về “Chiến lược cải cách tư pháp đến năm 2020” đã đề ra các

nhiệm vụ cải cách nền tư pháp của nước ta, trong đó có nhiệm vụ “đổi mới thủ tục hành
chính trong cơ quan tư pháp tư pháp nhằm tạo điều kiện thuận lợi cho người dân tiếp cận
công lý; … từng bước thực hiện việc cơng khai hóa các bản án…”. Thực hiện theo chỉ đạo
này, các văn bản Luật đã được số hóa và phổ biến đến người dân ngày một nhiều.
Tuy nhiên, việc khai thác các thông tin tài liệu pháp lý cũng gặp rất nhiều khó khăn
do các phần mềm mới chỉ dừng lại ở mức cho phép người dùng tìm kiếm theo từ khóa,
phân loại tố tụng mà chưa cung cấp được một cơng cụ tìm kiếm theo tình huống pháp lý
mà người dân mô tả để đưa ra được văn bản pháp lý (Bản án) có độ tương tự nhất với
trường hợp pháp lý mình đang gặp phải. Hay việc đối sánh chính xác văn bản với nhau để
tìm ra sự sai sót trong áp dụng pháp luật. Nếu làm được điều này thì sẽ giải quyết được
nhưng vấn đề sau:
-

-

Thay vì đưa nhau ra Tịa, các bên tham gia vụ việc sẽ tiến hành hòa giải bởi họ
biết trước được kết quả nếu đưa vụ án ra xét xử thơng qua bản án đã từng giải
quyết trước đó. Qua đó giảm bớt áp lực cơng việc cho ngành Tịa án.
Các nhà quản lý sẽ biết được các bản án đã ra có áp dụng pháp luật đúng hay khơng
thơng qua việc đối sánh các bản án với nhau, nếu 2 bản án có độ tương đồng cao
mà lại có kết quả xét xử khác nhau như vậy việc áp dụng pháp luật tại 1 trong 2
bản án có vấn đề. Từ đây họ sẽ điều chỉnh để hạn chế oan sai cho người dân,

Hiện nay, cũng có một vài cơng trình nghiên cứu để xuất các phương pháp khác nhau
để xác định độ tương đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá khiêm tốn so
với các cơng trình nghiên cứu trên văn bản tiếng Anh. Do đặc điểm của từ tiếng Việt cũng
có nhiều điểm khác với tiếng Anh, đặc biệt lại là văn bản Luật tiếng Việt. Việc xử lý văn
bản và xây dựng được kho ngữ liệu chuẩn và đầy đủ là một vấn đến lớn. Vì những lý do
này, chúng tơi đã chọn tài liệu pháp lý làm miền dữ liệu chính cho luận văn.
1.2. Mục đích đề tài

Nghiên cứu tổng quan vấn đề xử lý văn bản tiếng Việt và một số phương pháp đánh
giá độ tương tự văn bản tiếng Việt.
Nghiên cứu đặc điểm của văn bản luật tiếng Việt, xây dựng mơ hình biểu diễn văn
bản luật tiếng Việt nhằm cải tiến các phép đo độ tương đồng. Thử nghiệm các phương
pháp tính tốn độ tương tự văn bản và đề xuất một phương pháp phù hợp nhất với miền
dữ liệu văn bản luật tiếng Việt.
Xây dựng bộ dữ liệu văn bản luật tiếng Việt (Bản án) phục vụ cho các nghiên cứu về
sau.
12


1.3. Đối tượng đề tài
Nghiên cứu một số mơ hình tính tốn độ tương tự văn bản cả về cú pháp và ngữ nghĩa,
xác định sự tương đồng của văn bản dựa trên từ, câu và toàn bộ văn bản và ứng dụng trong
văn bản luật tiếng Việt.
Thực nghiệm các phép đo độ tương tự đang được áp dụng từ đây đề xuất ra phương
pháp để cải thiện phép đo độ tương tự với miền dữ liệu văn bản luật tiếng Việt.
1.4. Phương pháp nghiên cứu
Nghiên cứu lý thuyết về mơ hình tính độ tương đồng văn bản, các mơ hình biểu diễn
văn bản và ứng dụng các mơ hình vào việc thử nghiệm các phương pháp đo độ tương tự
văn bản luật tiếng Việt.
Đề xuất giải pháp nhằm nâng cao hiệu xuất tính tốn độ tương tự của văn bản luật
tiếng Việt.

13


CHƯƠNG 2. KIẾN THỨC NỀN TẢNG
2.1. Đặc điểm của văn bản tiếng Việt
Văn bản tiếng Việt là một loại hình phương tiện để ghi nhận, lưu giữ và truyền đạt

các thông tin từ chủ thể này sang chủ thể khác bằng ký hiệu gọi là chữ viết tiếng Việt. Nó
gồm tập hợp các câu có tính trọn vẹn về nội dung, hồn chỉnh về hình thức, có tính liên
kết chặt chẽ và hướng tới một mục tiêu giao tiếp nhất định. Hay nói cách khác, văn bản
tiếng Việt là một dạng sản phẩm của hoạt động giao tiếp bằng ngôn ngữ được thể hiện ở
dạng viết trên một chất liệu nào đó (giấy, bia đá,...). Văn bản bao gồm các tài liệu, tư liệu,
giấy tờ có giá trị pháp lý nhất định, được sử dụng trong hoạt động của các cơ quan Nhà
nước, các tổ chức chính trị, chính trị - xã hội, các tổ chức kinh tế... như: các văn bản pháp
luật, các công văn, tài liệu, giấy tờ.
Do văn bản được viết bằng ngôn ngữ tiếng Việt vậy nên nó mang mọi đặc điểm của
ngơn ngữ tiếng Việt.
2.1.1. Cấu tạo từ tiếng Việt
Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, tức là mỗi một tiếng (âm
tiết) được phát âm tách rời nhau và được thể hiện bằng một chữ viết [3]. Hai đặc trưng
này chi phối toàn bộ toàn bộ tổ chức bên trong của hệ thống ngôn ngữ Việt và cần được
chú ý khi xử lý tiếng Việt trên máy tính.
a) Tiếng
Tiếng là đơn vị cơ sở để cấu tạo lên từ. Tiếng là đơn vị nhỏ nhất có nội dung được thể
hiện. Xét về mặt ý nghĩa, các tiếng có thể chia thành các loại sau [2]:
- Tiếng tự thân nó đã có ý nghĩa, thường được quy chiếu vào một đối tượng, khái
niệm. Ví dụ: trời, đất, nước, cây, cỏ…
- Tiếng tự thân nó khơng có ý nghĩa, khơng được quy chiếu vào đối tượng, khái niệm
nào cả mà chúng thường đi cùng với một tiếng khác có nghĩa và làm thay đổi sắc thái
của tiếng đó, ví dụ như: (xanh) lè, (đường) xá, (nắng) nơi…
- Tiếng tự thân nó khơng có ý nghĩa nhưng có thể ghép với nhau để tạo thành từ có
nghĩa, thường xuyên gặp ở những từ mượn như phéc-mơ-tuya, a-pa-tít, mì-chính...
Trong tiếng Việt các tiếng thuộc nhóm đầu tiên chiếm đa số, các tiếng thuộc hai nhóm
sau thường chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thường được gọi là tiếng vơ
nghĩa.
b) Từ, cụm từ
Từ được cấu tạo từ một hoặc nhiều tiếng. Từ cấu tạo từ một tiếng gọi là từ đơn, ví dụ:

tơi, bạn, nhà, hoa… Từ cấu tạo bởi nhiều tiếng là từ ghép, giữa các tiếng có mối quan hệ
về nghĩa.

14


Từ ghép được phân thành từ ghép đẳng lập và từ ghép chính phụ. Đối với từ ghép
đẳng lập các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa, ví dụ: ăn
nói, bơi lội… Đối với từ ghép chính phụ, các thành phần cấu tạo từ có mối quan hệ phụ
thuộc với nhau về nghĩa, thành phần phụ có vai trị làm chun biệt hóa, tạo sắc thái cho
thành phần chính, ví dụ: hoa hồng, đường sắt…
Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan hệ
ngữ pháp nhất định. Ví dụ:
-

Từ “học” là từ gồm một tiếng.
Từ “đại học” là từ gồm hai tiếng.
Cụm từ “khoa học máy tính” gồm 2 từ hay 4 tiếng.

2.1.2. Biến hình từ tiếng Việt
Tiếng Việt khơng có hiện tượng biến hình từ bằng những phụ tố mang ý nghĩa ngữ
pháp bên trong từ như tiếng Anh [3]. Tuy nhiên, tiếng Việt cũng có một số hình thức biến
hình như trường hợp thêm từ “sự” trước một động từ để biến nó thành danh từ hay thêm
tiếng “hóa” sau một danh từ để biến nó thành động từ tương đương, ví dụ như “lựa chọn”
và “sự lựa chọn”, “tin học” và “tin học hóa”.
2.1.3. Từ đồng nghĩa
Từ đồng nghĩa là những từ tương đồng với nhau về nghĩa nhưng khác nhau về âm
thanh và phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc phong cách nào đó, hoặc
đồng thời cả hai [3]. Những từ đồng nghĩa với nhau lập thành một nhóm gọi là nhóm đồng
nghĩa. Ví dụ: dễ, dễ dàng, dễ dãi là những nhóm từ đồng nghĩa.

Từ đồng nghĩa thực chất không phải là những từ trùng nhau hồn tồn về nghĩa mà
có những khác biệt nhất định. Chính sự khác biệt đó là lí do tồn tại và làm nên sự khác
nhau giữa các từ trong một nhóm từ đồng nghĩa.
Thơng thường các từ chỉ đồng nghĩa ở một nghĩa, một ngữ cảnh nào đó. Vì thế, một
từ có nhiều nghĩa (đa nghĩa) có thể tham gia vào nhiều nhóm đồng nghĩa khác nhau. Ví
dụ, từ “coi” có thể tham gia vào các nhóm như coi – xem (coi hát, xem hát), coi – giữ (coi
nhà, giữ nhà).
2.1.4. Đặc điểm chính tả
Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý dữ
liệu văn bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm như [3]:
- Các tiếng đồng âm: kĩ/kỹ, lí, lý… thường bị sử dụng lẫn nhau như: lý luận, lí luận,
kĩ thuật, kỹ thuật…
- Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ thông, chẳng
hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc…
- Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên âm
có ưu tiên cao nhất. Tuy nhiên, khi soạn thảo văn bản nhiều bộ gõ không tuân thủ
15


nguyên tắc này nên có hiện tượng dấu được đặt ở các vị trí khác nhau, chẳng hạn:
tốn, tóan, th, thúy…
- Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa, tuy nhiên
vẫn tồn tại một số cách viết tuỳ tiện.
- Phiên âm tiếng nước ngoài: tồn tại cách viết giữ nguyên gốc tiếng nước ngồi và
phiên âm ra tiếng Việt, ví dụ: Singapore/Xin−ga−po.
- Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt được giữa nối tên
riêng hay chú thích.
Ký tự ngắt câu: sử dụng nhiều loại ký tự đặc biệt như “.”, “;”, “!”, “?”, “…” ngăn cách
giữa các câu hoặc các vế câu trong câu ghép.
2.2. Đặc điểm của văn bản Luật tiếng Việt

a) Khái niệm
Văn bản luật tiếng Việt là một bộ phận của văn bản tiếng Việt, nó mang đầy đủ đặc
tính của văn bản tiếng Việt. Văn bản luật tiếng Việt hay văn bản pháp luật [4] “là một hình
thức để chủ thể mang thẩm quyền thể hiện ý chí, được thể hiện dưới dạng ngôn ngữ viết
thông qua văn bản, bàn hành qua các hình thức, thủ tục mà pháp luật đã quy định”.
Văn bản luật tiếng Việt là được chia làm 03 nhóm gồm: văn bản pháp luật, văn bản
áp dụng pháp luật và văn bản hành chính. Mỗi nhóm trong hệ thống VBPL cịn có một số
nét đặc thù về nội dung, tính chất và vai trị trong quản lý nhà nước.
 Văn bản quy phạm pháp luật
Văn bản quy phạm pháp luật [4] là văn bản do cơ quan nhà nước ban hành hoặc phối
hợp ban hành theo thẩm quyền, hình thức, trình tự, thủ tục được quy định trong Luật này
hoặc trong Luật ban hành văn bản quy phạm pháp luật của Hội đồng nhân dân, Uỷ ban
nhân dân, trong đó có quy tắc xử sự chung, có hiệu lực bắt buộc chung, được Nhà nước
bảo đảm thực hiện để điều chỉnh các quan hệ xã hội.
Có hai cách để nhận biết đâu là một văn bản Quy phạm pháp luật.
- Thứ nhất là nhìn vào cách trình bày văn bản, như trong mỗi văn bản luật đều có chứa
kèm theo số năm ban hành văn bản hay có mơ típ quen thuộc như sau: Nghị quyết số
01/2005/NQ-HĐTP; điểm a và e khoản 1 Điều 93; khoản 1 Điều 133…
- Thứ hai, có thể nhận biết văn bản luật là gì thơng qua hai yếu tố là cơ quan ban hành
và loại văn bản, cụ thể như sau:
 Quốc hội ban hành Hiến pháp, luật, Nghị quyết.
 Ủy ban Thường vụ Quốc hội ban hành Nghị quyết, Pháp lệnh, Nghị quyết liên
tịch.
 Hội đồng thẩm phán Tòa án Nhân dân tối cao ban hành Nghị quyết.
 Chánh án Tòa án Nhân dân tối cao ban hành Thông tư và Thông tư liên tịch.
 …
 Văn bản áp dụng pháp luật
16



- Thứ nhất, văn bản áp dụng pháp luật ban hành ra dưới dạng quy định do những cơ
quan nhà nước, cá nhân hoặc tổ chức xã hội được nhà nước ủy quyền áp dụng pháp luật
ban hành và được bảo đảm thực hiện trong trường hợp cần thiết bằng cưỡng chế nhà nước.
Chỉ những chủ thể có có thẩm quyền về những nội dung trong văn bản do pháp luật quy
định mới có thẩm quyền ban hành văn bản áp dụng pháp luật. Nếu văn bản áp dụng pháp
luật mà nội dung ban hành xác định về nội dung được ban hành bởi cá nhân hay tổ chức
mà pháp luật không quy định về thẩm quyền ban hành thuộc cá nhân hay cơ quan tổ chức
ban hành đó thì văn bản áp dụng pháp luật đó khơng có hiệu lực pháp luật.
- Thứ hai, văn bản áp dụng pháp luật được thể hiện trong những hình thức pháp lý
dưới các dang hình thức nhất định nhất định như: bản án, quyết định, lệnh,…
- Hình thức của văn bản pháp luật bao gồm tên gọi và thể thức của văn bản pháp luật.
Đối với văn bản áp dụng pháp luật thì tên gọi do pháp luật quy định, tùy thuộc vào tính
chất cơng việc mà văn bản áp dụng pháp luật có tên gọi khác nhau, đồng thời thơng qua
tên gọi của văn bản áp dụng pháp luật ta có thể nhận biết được cơ quan nào có thẩm quyền
ban hành văn bản áp dụng pháp luật đó.
 Văn bản hành chính
- là loại văn bản thường dùng để truyền đạt những nội dung và yêu cầu nào đó từ cấp
trên xuống hoặc bày tỏ những ý kiến, nguyện vọng của cá nhân hay tập thể tới các cơ quan
và người có quyền hạn để giải quyết.
- Văn bản hành chính là loại văn bản mang tính thơng tin quy phạm Nhà nước, cụ thể
hóa việc thi hành văn bản pháp quy, giải quyết những vụ việc cụ thể trong khâu quản lý,
như: quyết định nâng lương, quyết định kỉ luật, thông báo, giấy mời họp...
2.3. Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt
Văn bản luật tiếng Việt là bộ phận của văn bản tiếng Việt do đó nó mang đầy đủ đặc
tính của văn bản tiếng Việt, chỉ khác nó chứa nhiều thuật ngữ pháp lý. Những thuật ngữ
dùng để chỉ về những khái niệm thường dùng trong khoa học pháp lý hoặc các văn bản
pháp luật và dùng để chỉ, mô tả một cách khái quát nhất, cô đọng nhất các hiện tượng, nội
dung, trạng thái pháp lý. Thuật ngữ pháp lý cốt lõi chính là những định nghĩa, khái niệm
về các hiện tượng, sự vật trong hệ quy chiếu pháp luật.
Thuật ngữ pháp lý có ý nghĩa rất lớn đối với việc nghiên cứu khoa học pháp lý cũng

có ý nghĩa quan trọng trong việc giải thích các quy định của pháp luật.
2.4. Tổng quan về bài tốn đơ độ tương tự văn bản
2.4.1. Khái niệm về độ tương tự văn bản
Độ tương tự văn bản (document similarity) hay khoảng cách giữa các văn bản là một
trong những bài toán trọng tâm của truy hồi thông tin (information retrieval) [11]. Việc
đo lường mức độ giống nhau của các văn bản đóng một vai trị quan trọng trong nhiều bài
tốn như: tìm kiếm thông tin dựa trên nội dung của tài liệu [12], phân nhóm tài liệu dựa
vào sự tương đồng về nội dung [13][14], … Độ tương tự văn bản là một đại lượng dùng
17


để so sánh hai hay nhiều tài liệu văn bản với nhau. Đại lượng này đặc trưng cho mức độ
liên quan về ngữ nghĩa giữa các văn bản.
Xét ví dụ gồm hai câu “Tơi thích xem phim” và “Tơi u phim”, Có thể thấy rằng hai
câu trên có độ tương đồng về ngữ nghĩa rất cao.
Theo tác giả Nguyễn Kim Anh [5] thì độ tương tự giữa hai văn bản ngồi việc so khớp
từ đơn giản, điểm tương tự cịn được xác định dựa trên số đơn vị từ vựng xuất hiện ở cả
hai văn bản. Đặc biệt cần phải quan tâm tới hiện tượng đồng nghĩa của từ, tầm quan trọng
của từ như tần suất xuất hiện, vị trí xuất hiện của từ và câu trong văn bản.
Để xem xét độ tương tự văn bản, ta cần xét văn bản ở trong 2 khía cạnh là độ tương
tự giữa từ của hai văn bản và độ tương tự về ngữ nghĩa.
 Độ tương tự của từ là khái niệm thể hiện tỷ lệ dựa trên tập từ chung của hai văn
bản.
 Độ tương tự ngữ nghĩa là khái niệm thể hiện tỷ lệ dựa trên sự giống nhau về nội
dung ý nghĩa của tập các văn bản. Độ tương tự về ngữ nghĩa giữa 2 văn bản thể
hiện mối quan hệ về ngữ nghĩa giữa các từ, các câu trong văn bản.
Theo tác giả Đỗ Thị Thanh Nga thì độ tương tự ngữ nghĩa là khái niệm thể hiện tỷ lệ
dựa trên sự giống nhau về nội dung ý nghĩa của tập các tài liệu hoặc các thuật ngữ trong
một danh sách các thuật ngữ [1]. Độ tương đồng ngữ nghĩa phản ánh mối quan hệ ngữ
nghĩa giữa các câu và các tài liệu văn bản. Xét hai văn bản d1 và d2. Mục tiêu của luận văn

này nhắm đến việc đo lường giá trị S(d1,d2), thể hiện hiện độ tương tự giữa hai văn bản d1
và d2. Giá trị S càng cao thì sự giống nhau về ngữ nghĩa của hai văn bản càng cao.
2.4.2. Ứng dụng của bài toán đo độ tương tự giữa hai văn bản.
Bài toán đo độ tương tự giữa văn bản và văn bản được cả thế giới quan tâm nghiên
cứu từ rất lâu trong các ứng dụng của xử lý ngôn ngữ tự nhiên và các lĩnh vực liên quan.
Các ứng dụng phải kể đến như tìm kiếm thơng tin, các tài liệu liên quan sẽ được xếp hạng
theo thứ tự của độ tương tự. Ngoài ra, độ tương tự văn bản cịn được ứng dụng cho bài
tốn phân lớp văn bản, tóm tăt văn bản, bài tốn xác định đạo văn... Gần đây nhất là bài
toán hỗ trợ pháp lý cũng đặc biệt được quan tâm và nghiên cứu.
Các phép đo độ tương tự giữa văn bản và văn bản chủ yếu dựa trên hai tiếp cận chính
là các tiếp cận thống kê và các tiếp cận dựa trên mạng nơron học sâu (deep learning)
2.5. Phương pháp dựa trên thống kê.
2.5.1. Khái niệm
Các phương pháp theo tiếp cận thống kê đánh giá độ tương tự giữa hai văn bản dựa
trên tần suất xuất hiện của các từ trong câu. Độ tương tự đo được tỷ lệ thuận với kích
thước của tập từ chung giữa hai văn bản. Một số phương pháp tiêu biểu theo tiếp cận này
như: các phương pháp sử dụng độ đo Cosine, độ đo khoảng cách Eclide, Manhattan,
phương pháp độ đo Jaccard, phương pháp TF-IDF[19],… Các phương pháp này tốc độ
18


xử lý nhanh, tốn ít chi phí nhưng độ chính xác không cao về mặt ngữ nghĩa, do chưa quan
tâm đến ngữ nghĩa trong văn bản mà chỉ quan tâm đến số lượng từ chung giữa hai văn
bản.
2.5.2. Độ đo tương tự Jaccard
Đây là một trong những độ đo đầu tiên được sử dụng để đánh giá mức độ tương đồng
ngữ nghĩa giữa các văn bản bằng cách so khớp mức độ trùng lặp giữa các từ của hai văn
bản với nhau. Ưu điểm của phương pháp này là tốc độ nhanh và khơng cần phải huấn
luyện mơ hình trước. Nhược điểm của phương pháp này là không so khớp được mức độ
ngữ nghĩa giữa các văn bản cũng như không biết được mức độ quan trọng khác nhau của

các từ trong văn bản. Chi tiết về phương pháp này được trình bày trong phần sau của luận
văn.
2.5.3. Độ đo TF-IDF
Đây là độ đo rất nổi tiếng, được sử dụng trong nhiều bài toán NLP và khai phá dữ liệu
dạng văn bản với mục đích: tính weight (độ quan trọng) của từ (word) trong một văn bản
cụ thể, văn bản đó nằm trong một tập nhiều văn bản khác nhau. Cách tiếp cận này được
sử dụng rộng rãi bởi tốc độ tính tốn nhanh và kết quả nó đem lại cũng khá tốt. Nó thường
được sử dụng để làm một bước lọc cho nhiều bài tốn. Ví dụ như bài toán hỏi-đáp theo
tiếp cận truy hồi câu trả lời [17]. Trong bài tốn này, ta đã có một ngân hàng chứa hàng
tỷ câu trả lời thuộc mọi lĩnh vực, mỗi khi có một câu hỏi, chương trình sẽ tìm câu trả lời
thích hợp trong ngân hàng câu trả lời đó. Nếu sử dụng các kĩ thuật học sâu phức tạp thì
việc tìm kiếm trong tập câu trả lời khổng lồ như vậy là không hiệu quả trong một khoảng
thời gian nhất định (các hệ thống hỏi đáp thường yêu cầu realtime). Chính vì thế, bước
đầu tiên chúng ta cần rút gọn tập câu trả lời tiềm năng bằng cách dùng độ đo TF-IDF để
chọn ra tốp k câu trả lời tốt nhất, sau đó mới áp dụng các kĩ thuật phức tạp khác để tìm ra
câu trả lời tốt nhất trong k câu trả lời tiềm năng kia.
Đây cũng là một tiếp cận được lựa chọn để thử nghiệm cho bài tốn của chúng tơi và
chi tiết phương pháp sẽ được trình bày trong phần sau.
2.6. Phương pháp dựa trên mạng nơron học sâu.
2.6.1. Khái niệm học sâu
Học sâu (deep learning) là một chi của ngành máy học dựa trên một tập hợp các thuật
tốn để cố gắng mơ hình dữ liệu trừu tượng hóa ở mức cao bằng cách sử dụng nhiều lớp
xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi phi tuyến.
Học sâu là một phần của một họ các phương pháp học máy rộng hơn dựa trên đại diện
học của dữ liệu. ví dụ như, một hình ảnh có thể được biểu diễn bằng nhiều cách như một
vector của các giá trị cường độ cho mỗi điểm ảnh, hoặc một cách trừu tượng hơn như là
một tập hợp các cạnh, các khu vực hình dạng cụ thể, vv

19



Các nghiên cứu trong lĩnh vực này cố gắng thực hiện các đại diện tốt hơn và tạo ra
các mô hình để tìm hiểu các đại diện này từ dữ liệu không dán nhãn quy mô lớn. Một số
đại diện được lấy cảm hứng bởi những tiến bộ trong khoa học thần kinh và được dựa trên
các giải thích của mơ hình xử lý và truyền thơng thơng tin trong một hệ thống thần kinh,
chẳng hạn như mã hóa thần kinh để cố gắng để xác định các mối quan hệ giữa các kích
thích khác nhau và các phản ứng liên quan đến thần kinh trong não.
Nhiều kiến trúc mạng nơron học sâu khác đã được áp dụng cho các lĩnh vực như thị
giác máy tính, tự động nhận dạng giọng nói, xử lý ngơn ngữ tự nhiên, nhận dạng tiếng nói
và tin sinh học. Các mơ hình học sâu đã đạt được kết quả rất tốt đối với nhiều nhiệm vụ
NLP khác nhau
Hướng tiếp cận này có nhiều ứng dụng như: Hệ thống nhận diện hình ảnh như Google
Photos, Google Search, Google Drive; hay các hệ thống nhận dạng giọng nói thương mại
như Cortana, Xbox, Skype Translator…
2.6.2. Một số ứng dụng của học sâu (Deep Learning)
a. Nhân dạng giọng nói
Nhận dạng giọng nói tự động quy mơ lớn là trường hợp thành công dầu tiên và thuyết
phục nhất của học sâu. Các mạng nơ ron hồi quy LSTM có thể học các nhiệm vụ “học rất
sâu” liên quan đến các khoảng thời gian nhiều giây có chứa các sự kiện lời nói cách nhau
bởi hàng ngàn bước thời gian riêng biệt, trong đó một bước thời gian tương ứng với 10
ms. Sự ra đời của DNN (Deep Neural Network – mạng nơ ron sâu) để nhận dạng giọng
nói và LSTM đã đẩy nhanh quá trình phát triển học sâu. Ngày nay tất cả các hệ thống nhận
dạng giọng nói thương mại như Cortana, Xbox, Skype Translator… đều dựa trên học sâu.
b. Dịch các ngôn ngữ
Các mạng nơ-ron đã được sử dụng để thực hiện các mơ hình ngơn ngữ từ những năm
2000. LSTM đã giúp cải thiện các hệ thống dịch máy và mơ hình hóa ngơn ngữ. Các kỹ
thuật quan trọng khác trong lĩnh vực này là lấy mẫu âm tính và nhúng từ. Nhúng từ, chẳng
hạn như Word2Vec [15], có thể được coi là một lớp biểu diễn trong kiến trúc học sâu,
biến một từ nguyên tử thành một biểu diễn vị trí của từ so với các từ khác trong tập dữ
liệu; vị trí được biểu diễn dưới dạng một điểm trong không gian vector. Sử dụng nhúng từ

làm lớp đầu vào của RNN cho phép phân tích các câu và cụm từ bằng cách sử dụng một
ngữ pháp vector thành phần hiệu quả. Một ngữ pháp vector thành phần có thể được coi là
ngữ pháp tự do ngữ cảnh xác suất (PCFG) được thực hiện bởi một RNN. Bộ mã hóa tự
động đệ quy được xây dựng trên các từ nhúng để đánh giá độ tương tự của câu và phát
hiện phép diễn giải. Các kiến trúc Deep learning cung cấp kết quả tốt nhất cho phân tích
cấu thành, phân tích tình cảm, truy xuất thơng tin, hiểu ngơn ngữ nói, dịch máy, liên kết
thực thể theo ngữ cảnh, phân loại văn bản và các loại khác.
c. Y khoa

20


Trí tuệ nhân tạo đang tạo ra những tiến bộ lớn trong lĩnh vực y học. Với khả năng chuẩn
đoán bệnh ở giai đoạn sớm, AI giúp tăng khả năng ngăn chặn và chữa trị cũng như giảm chi phí
điều trị bệnh. Ngoài ra AI hỗ trợ các nhà nghiên cứu khám phá ra các phương pháp, thuốc điều
trị bệnh mới một cách hiệu quả. Mặc dùng AI đã xuất hiện nhiều trong thập kỷ qua, nhưng

những tiến bộ mới đã kích hoạt sự bùng nổ trong học sâu. Học sâu giúp các nhà nghiên
cứu phân tích dữ liệu ý tế để điều trị bệnh. Nó giúp tăng cường khả năng phân tích hình
ảnh y khoa của các bác sĩ để chuẩn đốn bệnh.
d. Thị giác máy
Thị giác máy tính đã xuất hiện trong nhiều năm qua và đã đóng góp quan trọng trong
nhiều lĩnh vực sản xuất cơng nghiệp, y tế, quân sự, giao thông,… Học sâu bằng cách sử
dụng các mạng nơ-ron khổng lồ là các máy dạy học để tự động hóa các nhiệm vụ được
thực hiện bởi các hệ thống thị giác máy của con người. Một số ứng dụng của Deep learning
trong lĩnh vực thị giác máy tính: Phân loại ảnh (image classification); phát hiện đối tượng
(object detection); phân đoạn đối tượng (object segmentation); chuyển phong cách; màu
hóa ảnh, khơi phục ảnh.

21



2.6.3. Một số phương pháp theo hướng tiếp cận học sâu
2.6.3.1. Mơ hình biểu diễn từ bằng vector (Word2Vec).
Để khắc phục nhược điểm của phương pháp thống kê là số chiều của một vector quá
lớn (bằng độ dài của từ điển, có thể đến cả triệu từ) và khơng quan tâm đến ngữ nghĩa của
văn bản. Tác giả Tomas Mikolov và các công sự đã công bố phương pháp Word2Vec trong
bài báo “Distributed Representations of Words and Phrasesand their Compositionality)”
[10]. Đây là thuật toán theo phương pháp dự đoán (Prediction-based embedding), dự đốn
học biểu diễn vector từ thơng qua những từ ngữ cảnh xung quanh nhằm cải thiện khả năng
dự đoán ý nghĩa các từ.
Word2Vec là một mạng neural 2 lớp với duy nhất 1 tầng ẩn, lấy đầu vào là một corpus
lớn và sinh ra không gian vector (với số chiều khoảng vài trăm), với mỗi từ duy nhất trong
corpus được gắn với một vector tương ứng trong không gian. Các word vectors được xác
định trong không gian vector sao cho những từ có chung ngữ cảnh trong corpus được đặt
gần nhau trong khơng gian. Dự đốn chính xác cao về ý nghĩa của một từ dựa trên những
lần xuất hiện trước đây.
Nếu ta gán nhãn các thuộc tính cho một vector từ giả thiết, thì các vector được biểu
diễn theo Word2Vec sẽ có dạng như sau:

 Hai kiến trúc mạng nơron của Word2Vec:
- Mơ hình CBOW, sử dụng từ ngữ cảnh (từ xung quanh) để dự đoán từ đích (target
word). Mơ hình này giả thiết vị trí của các từ ngữ cảnh không ảnh hưởng tới việc dự đốn
từ target. Ngược lại, mơ hình Skip-gram, sử dụng từ target để dự đốn những từ ngữ cảnh
xung quang nó.
- Mơ hình Skip-gram, sử dụng một từ để dự đốn ngữ cảnh mục tiêu hay các từ xung
quanh (Continuous skip-gram) xem xét những từ ngữ cảnh xung quanh sẽ được đánh giá
tốt hơn so với những từ trong ngữ cảnh nhưng ở vị trí xa hơn. Mặc dù thứ tự từ vẫn không
được xem xét, mỗi vector của từ bối cảnh được xem xét và cân nhắc.


22


Hình 2.1: Mơ hình Word2Vec
Thuật tốn CBOW tốn ít thời gian huấn luyện mơ hình hơn Skip-gram. Tuy nhiên,
Skip-gram có độ chính xác cao hơn và có chứa cả những từ ít xuất hiện
a) Mơ hình Skip-gram
Mục tiêu: Học các vector biểu diễn cho từ
Cho một từ cụ thể ở giữa câu (input word), nhìn vào những từ ở gần và chọn ngẫu
nhiên. Mạng neural sẽ cho chúng ta biết xác suất của mỗi từ trong từ vựng về việc trở thành
từ gần đó mà chúng ta chọn.
Dưới đây là mơ hình kiến trúc của mạng Skip-gram và cách xây dựng Dữ liệu huấn
luyện mơ hình word embeddings.

Hình 2.2: Mơ hình Skip-gram dạng tổng quát
23


Ví dụ: Xây dựng training data với windows size = 2. Ở đây windows được hiểu như
một cửa sổ trượt qua mỗi từ. Windows size = 2 tức là lấy 2 từ bên trái và bên phải mỗi từ
trung tâm.

Hình 2.3: Minh họa đầu vào và đầu ra của mô hình Skip-gram
Chi tiết về mơ hình
- Xây dựng bộ từ vựng.
- Biểu diễn mỗi từ thành các one-hot-vector.
- Đầu ra là một vector duy nhất, có kích thước bằng kích thước của bộ từ vựng, thể
hiện xác suất của mỗi từ được là lân cận của từ đầu vào.
- Không có hàm kích hoạt trên tầng ẩn.
- Hàm kích hoạt trên tầng output là softmax.

- Trong quá trình huấn luyện, input là 1 one-hot-vector, ouput cũng là 1 one-hotvector.
- Trong quá trình đánh giá sau khi huấn luyện, đầu ra phải là 1 phân bố xác suất.
Vấn đề:
- Kích thước mạng nơron khá lớn: Khi số chiều của vector nhúng từ được thiết lập
là 300, tập từ vựng là 10.000 từ thi mơ hình cần 3 triệu tham số. Địi hỏi chi phí
thời gian lớn để huấn luyện mơ hình bằng thuật toán giảm gradient với kho ngữ
liệu lớn.
Một số cải tiến cho mơ hình Word2Vec
Có 3 cải tiến cơ bản cho mơ hình Word2Vec truyền thống:
 Xử lý các cặp từ thông dụng hoặc cụm từ như là một từ đơn.
 Loại bỏ các từ thường xuyên lặp lại để giảm số lượng các ví dụ huấn luyện.
24


 Sửa đổi mục tiêu tối ưu hóa bằng một kỹ thuật gọi là “Negative Sampling”.
Cải tiến 1: Xử lý cụm từ như một từ đơn: Ví dụ các từ như “thành_phố_Cảng” có
nghĩa khác nhau với từng từ “thành_phố” và “cảng”,... Chúng ta sẽ coi như đó là một từ
duy nhất, với word vector của riêng mình. Điều này sẽ làm tăng kích thước từ vựng.
Cải tiến 2: Loại bỏ các từ thường xuyên lặp lại: Các từ thường xuyên lặp lại như
“các”, “những”,… không cho chúng ta biết thêm nhiều hơn về ý nghĩa của những từ đi
kèm nó và chúng cũng xuất hiện trong ngữ cảnh của khá nhiều từ. Chúng ta sẽ xác định
xác suất loại bỏ và giữ lại một từ trong từ vựng thông qua tần suất xuất hiện của nó.
Cải tiến 3: Negative Sampling: Mỗi mẫu huấn luyện chỉ thay đổi một tỷ lệ phần trăm
nhỏ các trọng số, thay vì tất cả chúng. Khi huấn luyện mạng với 1 cặp từ, đầu ra của mạng
sẽ là 1 one-hot vector, neural đúng thì đưa ra 1 cịn hàng ngàn neural khác thì đưa ra 0.
Chọn ngẫu nhiên 1 số lượng nhỏ các neural “negative” kết hợp với neural “positive” để
cập nhật trọng số (chọn số negative là 5-20 hoạt động tốt với các bộ dữ liệu nhỏ, với bộ
dữ liệu lớn, số negative được thiết lập từ 2 đến5là phù hợp).
b) Mơ hình CBOW
Ý tưởng của mơ hình là dự đốn từ mục tiêu dựa vào các từ ngữ cảnh xung quanh nó

trong một phạm vi nhất định. Cho từ mục tiêu wc tại vị trí c trong câu văn bản, khi đó đầu
vào là các từ ngữ cảnh (wc-m, …,wc-1, wc+1, …, wc+m) xung quanh từ wc trong phạm vi m.

Hình 2.4: Minh họa đầu vào và đầu ra của mơ hình CBOW
25


×