luận văn thạc sĩ nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.59 MB, 54 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐÌNH MẠNH

NGHIÊN CỨU CÁC PHƢƠNG PHÁP TÍNH TỐN
ĐỘ TƢƠNG TỰ CỦA VĂN BẢN LUẬT TIẾNG
VIỆT

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

HÀ NỘI, 12/2020

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN ĐÌNH MẠNH

NGHIÊN CỨU CÁC PHƢƠNG PHÁP TÍNH
TỐN ĐỘ TƢƠNG TỰ CỦA VĂN BẢN LUẬT
TIẾNG VIỆT
Ngành: Khoa học máy tính
Chuyên ngành: Khoa học máy tính
Mã Số: 8480101.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN PHƢƠNG THÁI

HÀ NỘI, 12/2020

LỜI CAM ĐOAN
Tơi- Nguyễn Đình Mạnh – cam đoan luận văn này là cơng trình nghiên cứu của
bản thân tơi dƣới sự hƣớng dẫn và chỉ bảo của PGS. TS Nguyễn Phƣơng Thái.
Các kết quả nêu trong luận văn là trung thực và khơng sao chép tồn văn của bất
kỳ cơng trình nào khác.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định
cho lời cam đoan này.
Hà Nội, ngày 16 tháng 12 năm 2020

LỜI CẢM ƠN
Tôi xin gửi lời cảm ơn đặc biệt tới PGS. TS Nguyễn Phƣơng Thái, ngƣời đã
định hƣớng đề tài và tận tình hƣớng dẫn chỉ bảo tơi trong suốt q trình thực hiện
Luận văn cao học này.
Tơi xin chân thành cảm ơn các Thầy, các Cô trƣờng Đại học Công nghệ, Đại học
Quốc gia Hà Nội đã tận tình giảng dạy và truyền đạt những kiến thức, kinh nghịm q
báu trong suốt khóa học của tơi.
Cuối cùng, tơi xin cảm ơn tới nhƣng ngƣời thân, bạn bè luôn ở bên cạnh, động
viên, chia sẻ cùng tôi trong quá trình học cao học cũng nhƣ quá trình thực hiện luận
văn cao học.
Xin chân thành cảm ơn!

MỤC LỤC
DANH MỤC KÝ HIỆU, VIẾT TẮT................................................................................................... i
DANH MỤC CÁC BẢNG............................................................................................ ii
DANH MỤC ĐỒ THỊ, HÌNH VẼ................................................................................iii
MỞ ĐẦU....................................................................................................................................................... 1
CHƢƠNG 1. GIỚI THIỆU...........................................................................................2

1.1. Lý do chọn đề tài....................................................................................................2
1.2. Mục đích đề tài.......................................................................................................2
1.3. Đối tƣợng đề tài.....................................................................................................3
1.4. Phƣơng pháp nghiên cứu........................................................................................3
CHƢƠNG 2. KIẾN THỨC NỀN TẢNG......................................................................4
2.1. Đặc điểm của văn bản tiếng Việt............................................................................4
2.1.1. Cấu tạo từ tiếng Việt............................................................................................4
2.1.2. Biến hình từ tiếng Việt.........................................................................................5
2.1.3. Từ đồng nghĩa......................................................................................................5
2.1.4. Đặc điểm chính tả................................................................................................5
2.2. Đặc điểm của văn bản Luật tiếng Việt....................................................................6
2.3. Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt...........................7
2.4. Tổng quan về bài tốn đơ độ tƣơng tự văn bản......................................................7
2.4.1. Khái niệm về độ tƣơng tự văn bản......................................................................7
2.4.2. Ứng dụng của bài toán đo độ tƣơng tự giữa hai văn bản.....................................8
2.5. Phƣơng pháp dựa trên thống kê..............................................................................8
2.5.1. Khái niệm............................................................................................................8
2.5.2. Độ đo tƣơng tự Jaccard.......................................................................................8
2.5.3. Độ đo TF-IDF......................................................................................................9
2.6. Phƣơng pháp dựa trên mạng nơron học sâu...........................................................9
2.6.1. Khái niệm học sâu...............................................................................................9
2.6.2. Một số ứng dụng của học sâu (Deep Learning).................................................. 10
2.6.3. Một số phƣơng pháp theo hƣớng tiếp cận học sâu............................................ 11
2.6.3.1. Mơ hình biểu diễn từ bằng vector (Word2Vec)............................................... 11
2.6.3.2. Học chuyển (Transfer Learning)..................................................................... 18
CHƢƠNG 3. CÁC PHƢƠNG PHÁP ĐO ĐỘ TƢƠNG TỰ GIỮA CÁC VĂN BẢN 22

3.1. Tiền xử lý dữ liệu.................................................................................................. 22
3.2. Vector hóa văn bản và tính độ tƣơng tự văn bản................................................... 22

3.2.1. Mộ số phƣơng pháp theo tiếp cận thống kê....................................................... 22
3.2.2. Phƣơng pháp học sâu......................................................................................... 27
3.2.2.1. Sử dụng Word2Vec......................................................................................... 27
3.2.2.2. Học biểu diễn vector cho các văn bản............................................................. 28
3.2.2.3. Áp dụng học chuyển (transfer learning) để tăng chất lƣợng vector biểu diễn
văn bản........................................................................................................................ 28
3.3. Đánh giá mơ hình.................................................................................................. 29
CHƢƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ.......................................................... 31
4.1. Môi trƣờng thực nghiệm và các công cụ sử dụng trong thực nghiệm...................31
4.2. Dữ liệu.................................................................................................................. 31
4.2.1. Thu thập dữ liệu................................................................................................. 31
4.2.2. Xử lý dữ liệu...................................................................................................... 32
4.3. Thực nghiệm......................................................................................................... 32
4.3.1. Thực nghiệm với Phƣơng pháp Jacard.............................................................. 33
4.3.2. Thực nghiệm với phƣơng pháp TF-IDF............................................................ 33
4.3.3. Thực nghiệm với phƣơng pháp Word2Vec........................................................ 33
4.3.4. Thực nghiệm với phƣơng pháp Doc2Vec.......................................................... 33
4.3.5. Phƣơng pháp học chuyển.................................................................................. 34
4.4. Kết quả.................................................................................................................. 34
4.4.1. Đánh giá các phƣơng pháp trên văn bản tiếng Anh........................................... 34
4.4.2. Đánh giá các phƣơng pháp với truy vấn là 1 văn bản........................................ 34
4.4.3. Đánh giá các phƣơng pháp với truy vấn là 1 đoạn văn ngắn.............................38
CHƢƠNG 5: KẾT LUẬN VÀ CƠNG VIỆC TRONG TƢƠNG LAI........................40
5.1. Kết luận................................................................................................................ 40
5.2. Cơng việc trong tƣơng lai..................................................................................... 40
TÀI LIỆU THAM KHẢO........................................................................................... 41

Kí hiệu
CNTT

NLP
RNN
LSTM
PCFG
AI
DNN

i

DANH MỤC CÁC BẢNG
Bảng 1: Biểu diễn văn bản theo TF.................................................................................................. 24
Bảng 2:Biểu diễn văn bản theo IDF................................................................................................. 25
Bảng 3: Thống kê dữ liệu của văn bản luật................................................................................... 32
Bảng 4: So sánh kết quả 2 phƣơng pháp Word2Vec và Doc2Vec........................................ 34
Bảng 5: Kết quả các phƣơng pháp theo tiếp cận thống kê..................................................... 35
Bảng 6: Kết quả các phƣơng pháp theo tiếp cận học sâu........................................................ 35
Bảng 7: Kết quả của các phƣơng pháp học chuyển cải tiến và chƣa có cải tiến...........36
Bảng 8: Kết quả các phƣơng pháp theo tiếp cận thống kê và học sâu............................... 38

ii

DANH MỤC ĐỒ THỊ, HÌNH VẼ
Hình 2.1: Mơ hình Word2Vec............................................................................................................ 12
Hình 2.2: Mơ hình Skip-gram dạng tổng qt............................................................................. 13
Hình 2.3: Minh họa đầu vào và đầu ra của mơ hình Skip-gram........................................... 13
Hình 2.4: Minh họa đầu vào và đầu ra của mơ hình CBOW................................................. 15
Hình 2.5: Mơ hình CBOW dạng tổng qt.................................................................................... 15
Hình 2.6: Mơ hình học chuyển.......................................................................................................... 18

iii

MỞ ĐẦU
Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm
vụ trọng tâm công tác tư pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày
02/06/2005 của Bộ Chính trị về “Chiến lược cải cách tư pháp đến năm 2020” đã đề ra
các nhiệm vụ cải cách nền tƣ pháp của nƣớc ta, trong đó có nhiệm vụ “đổi mới thủ
tục hành chính trong cơ quan tư pháp tư pháp nhằm tạo điều kiện thuận lợi cho
người dân tiếp cận công lý; … từng bước thực hiện việc cơng khai hóa các bản án…”.
Thực hiện theo chỉ đạo này các văn bản Luật đã đƣợc số hóa và phổ biến đến ngƣời
dân ngày một nhiều. Lãnh đạo ngành Tòa án cũng chỉ đạo sát sao việc ứng dụng
CNTT để nâng cao hiệu quả công việc của ngành Tịa án, cụ thể là việc phần mềm
Cơng khai bản án đã đƣợc ra đời cung cấp bản án tới ngƣời dân, để họ có thể tìm
kiếm các bản án có trƣờng hợp pháp lý tƣơng tự trƣờng hợp mình đang gặp phải. Họ
có thể biết trƣợc đƣợc kết quả của việc kiện tụng, khi đó thay vì phải đƣa vụ việc ra
Tịa thì một giải pháp khả thi hơn đó là hịa giải để 2 bên đều có lơi, cũng là giảm bớt
áp lực cơng việc cho ngành Tịa án. Để làm đƣợc nhƣ vậy thì phần mềm cần phải hỗ
trợ ngƣời dùng nhiều hơn nữa, không chỉ dừng lại ở việc tra cứu theo từ khóa cơ bản
mà phải hỗ trợ việc tra cứu theo nội dung ngữ nghĩa của văn bản.
Hiện nay, cũng có một vài cơng trình nghiên cứu để xuất các phƣơng pháp khác
nhau để xác định độ tƣơng đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá khiêm
tốn so với các cơng trình nghiên cứu trên văn bản tiếng Anh. Do đặc điểm của từ tiếng
Việt cũng có nhiều điểm khác với tiếng Anh, đặc biệt là văn bản Luật tiếng Việt. Việc xử
lý văn bản và xây dựng kho ngữ liệu chuẩn và đầy đủ là một thách thức lớn. Vì những lý
do này, chúng tơi đã chọn đề tài luận văn là “Nghiên cứu các phƣơng pháp tính tốn
độ tƣơng tự của văn bản luật tiếng Việt” nhằm nghiên cứu các phƣơng pháp đo độ
tƣơng tự và thử nghiện các mơ hình tính tốn độ tƣơng tự, từ đây đƣa ra để xuất mơ
hình phù hợp nhất với miền dữ liệu văn bản luật tiếng Việt.

Nội dung luật văn gồm:

Chƣơng 1. Giới thiệu tổng quan luận văn, mục đích và nội dung
nghiên cứu.

Chƣơng 2. Đƣa ra một cái nhìn tổng quan về các kiến thức nền tảng
trong bài toán đo độ tƣơng tự giữa các văn bản.

Chƣơng 3. Các phƣơng pháp tính tốn độ tƣơng tự cho miền dữ
liệu văn bản Luật tiếng Việt.

Chƣơng 4. Thể hiện chi tiết về tập dữ liệu đƣợc sử dụng, các cài đặt
cho thực nghiệm và kết quả của thực nghiệm.

Chƣơng 5. Tóm tắt lại cơng việc của luận văn và đƣa ra các công
việc trong tƣơng lai.

1

CHƢƠNG 1. GIỚI THIỆU
1.1. Lý do chọn đề tài
Nghị quyết số 08-NQ/TW ngày 02/01/2002 của Bộ Chính trị về “Một số nhiệm
vụ trọng tâm công tác tƣ pháp trong thời gian tới” và Nghị quyết số 49-NQ/TW ngày
02/06/2005 của Bộ Chính trị về “Chiến lƣợc cải cách tƣ pháp đến năm 2020” đã đề
ra các nhiệm vụ cải cách nền tƣ pháp của nƣớc ta, trong đó có nhiệm vụ “đổi mới thủ
tục hành chính trong cơ quan tƣ pháp tƣ pháp nhằm tạo điều kiện thuận lợi cho
ngƣời dân tiếp cận công lý; … từng bƣớc thực hiện việc cơng khai hóa các bản
án…”. Thực hiện theo chỉ đạo này, các văn bản Luật đã đƣợc số hóa và phổ biến đến

ngƣời dân ngày một nhiều.
Tuy nhiên, việc khai thác các thông tin tài liệu pháp lý cũng gặp rất nhiều khó
khăn do các phần mềm mới chỉ dừng lại ở mức cho phép ngƣời dùng tìm kiếm theo
từ khóa, phân loại tố tụng mà chƣa cung cấp đƣợc một cơng cụ tìm kiếm theo tình
huống pháp lý mà ngƣời dân mô tả để đƣa ra đƣợc văn bản pháp lý (Bản án) có độ
tƣơng tự nhất với trƣờng hợp pháp lý mình đang gặp phải. Hay việc đối sánh chính
xác văn bản với nhau để tìm ra sự sai sót trong áp dụng pháp luật. Nếu làm đƣợc
điều này thì sẽ giải quyết đƣợc nhƣng vấn đề sau:
- Thay vì đƣa nhau ra Tịa, các bên tham gia vụ việc sẽ tiến hành hòa giải
bởi họ biết trƣớc đƣợc kết quả nếu đƣa vụ án ra xét xử thơng qua bản án đã
từng giải quyết trƣớc đó. Qua đó giảm bớt áp lực cơng việc cho ngành Tịa
án.
- Các nhà quản lý sẽ biết đƣợc các bản án đã ra có áp dụng pháp luật đúng
hay khơng thơng qua việc đối sánh các bản án với nhau, nếu 2 bản án có độ
tƣơng đồng cao mà lại có kết quả xét xử khác nhau nhƣ vậy việc áp dụng
pháp luật tại 1 trong 2 bản án có vấn đề. Từ đây họ sẽ điều chỉnh để hạn chế
oan sai cho ngƣời dân,
Hiện nay, cũng có một vài cơng trình nghiên cứu để xuất các phƣơng pháp khác
nhau để xác định độ tƣơng đồng của văn bản tiếng Việt song vẫn chiếm tỉ lệ khá
khiêm tốn so với các cơng trình nghiên cứu trên văn bản tiếng Anh. Do đặc điểm của
từ tiếng Việt cũng có nhiều điểm khác với tiếng Anh, đặc biệt lại là văn bản Luật tiếng
Việt. Việc xử lý văn bản và xây dựng đƣợc kho ngữ liệu chuẩn và đầy đủ là một vấn
đến lớn. Vì những lý do này, chúng tơi đã chọn tài liệu pháp lý làm miền dữ liệu
chính cho luận văn.
1.2. Mục đích đề tài
Nghiên cứu tổng quan vấn đề xử lý văn bản tiếng Việt và một số phƣơng pháp
đánh giá độ tƣơng tự văn bản tiếng Việt.
Nghiên cứu đặc điểm của văn bản luật tiếng Việt, xây dựng mơ hình biểu diễn
văn bản luật tiếng Việt nhằm cải tiến các phép đo độ tƣơng đồng. Thử nghiệm các
phƣơng pháp tính tốn độ tƣơng tự văn bản và đề xuất một phƣơng pháp phù hợp

nhất với miền dữ liệu văn bản luật tiếng Việt.
Xây dựng bộ dữ liệu văn bản luật tiếng Việt (Bản án) phục vụ cho các nghiên
cứu về sau.
2

1.3. Đối tƣợng đề tài
Nghiên cứu một số mơ hình tính tốn độ tƣơng tự văn bản cả về cú pháp và ngữ
nghĩa, xác định sự tƣơng đồng của văn bản dựa trên từ, câu và toàn bộ văn bản và
ứng dụng trong văn bản luật tiếng Việt.
Thực nghiệm các phép đo độ tƣơng tự đang đƣợc áp dụng từ đây đề xuất ra
phƣơng pháp để cải thiện phép đo độ tƣơng tự với miền dữ liệu văn bản luật tiếng
Việt.
1.4. Phƣơng pháp nghiên cứu
Nghiên cứu lý thuyết về mô hình tính độ tƣơng đồng văn bản, các mơ hình biểu
diễn văn bản và ứng dụng các mơ hình vào việc thử nghiệm các phƣơng pháp đo độ
tƣơng tự văn bản luật tiếng Việt.
Đề xuất giải pháp nhằm nâng cao hiệu xuất tính tốn độ tƣơng tự của văn bản
luật tiếng Việt.

3

CHƢƠNG 2. KIẾN THỨC NỀN
TẢNG 2.1. Đặc điểm của văn bản tiếng Việt
Văn bản tiếng Việt là một loại hình phƣơng tiện để ghi nhận, lƣu giữ và truyền
đạt các thông tin từ chủ thể này sang chủ thể khác bằng ký hiệu gọi là chữ viết tiếng
Việt. Nó gồm tập hợp các câu có tính trọn vẹn về nội dung, hồn chỉnh về hình thức,
có tính liên kết chặt chẽ và hƣớng tới một mục tiêu giao tiếp nhất định. Hay nói cách
khác, văn bản tiếng Việt là một dạng sản phẩm của hoạt động giao tiếp bằng ngôn

ngữ đƣợc thể hiện ở dạng viết trên một chất liệu nào đó (giấy, bia đá,...). Văn bản bao
gồm các tài liệu, tƣ liệu, giấy tờ có giá trị pháp lý nhất định, đƣợc sử dụng trong hoạt
động của các cơ quan Nhà nƣớc, các tổ chức chính trị, chính trị - xã hội, các tổ chức
kinh tế... nhƣ: các văn bản pháp luật, các công văn, tài liệu, giấy tờ.
Do văn bản đƣợc viết bằng ngôn ngữ tiếng Việt vậy nên nó mang mọi đặc điểm
của ngơn ngữ tiếng Việt.
2.1.1. Cấu tạo từ tiếng Việt
Tiếng Việt là ngôn ngữ không biến hình từ và âm tiết tính, tức là mỗi một tiếng
(âm tiết) đƣợc phát âm tách rời nhau và đƣợc thể hiện bằng một chữ viết [3]. Hai đặc
trƣng này chi phối toàn bộ toàn bộ tổ chức bên trong của hệ thống ngôn ngữ Việt và
cần đƣợc chú ý khi xử lý tiếng Việt trên máy tính.
a) Tiếng
Tiếng là đơn vị cơ sở để cấu tạo lên từ. Tiếng là đơn vị nhỏ nhất có nội dung
đƣợc thể hiện. Xét về mặt ý nghĩa, các tiếng có thể chia thành các loại sau [2]:
- Tiếng tự thân nó đã có ý nghĩa, thƣờng đƣợc quy chiếu vào một đối tƣợng,
khái niệm. Ví dụ: trời, đất, nƣớc, cây, cỏ…
- Tiếng tự thân nó khơng có ý nghĩa, khơng đƣợc quy chiếu vào đối tƣợng, khái
niệm nào cả mà chúng thƣờng đi cùng với một tiếng khác có nghĩa và làm thay
đổi sắc thái của tiếng đó, ví dụ nhƣ: (xanh) lè, (đƣờng) xá, (nắng) nơi…
- Tiếng tự thân nó khơng có ý nghĩa nhƣng có thể ghép với nhau để tạo thành từ
có nghĩa, thƣờng xuyên gặp ở những từ mƣợn nhƣ phéc-mơ-tuya, a-pa-tít, mìchính...
Trong tiếng Việt các tiếng thuộc nhóm đầu tiên chiếm đa số, các tiếng thuộc hai
nhóm sau thƣờng chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thƣờng đƣợc gọi là
tiếng vơ nghĩa.
b) Từ, cụm từ
Từ đƣợc cấu tạo từ một hoặc nhiều tiếng. Từ cấu tạo từ một tiếng gọi là từ đơn,
ví dụ: tơi, bạn, nhà, hoa… Từ cấu tạo bởi nhiều tiếng là từ ghép, giữa các tiếng có
mối quan hệ về nghĩa.
Từ ghép đƣợc phân thành từ ghép đẳng lập và từ ghép chính phụ. Đối với từ
ghép đẳng lập các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa,

ví dụ: ăn nói, bơi lội… Đối với từ ghép chính phụ, các thành phần cấu tạo từ có mối
4

quan hệ phụ thuộc với nhau về nghĩa, thành phần phụ có vai trị làm chun biệt hóa,
tạo sắc thái cho thành phần chính, ví dụ: hoa hồng, đƣờng sắt…
Cụm từ là những kiến trúc gồm hai từ trở lên kết hợp với nhau theo những quan
hệ ngữ pháp nhất định. Ví dụ:
- Từ “học” là từ gồm một tiếng.
- Từ “đại học” là từ gồm hai tiếng.
- Cụm từ “khoa học máy tính” gồm 2 từ hay 4 tiếng.
2.1.2. Biến hình từ tiếng Việt
Tiếng Việt khơng có hiện tƣợng biến hình từ bằng những phụ tố mang ý nghĩa
ngữ pháp bên trong từ nhƣ tiếng Anh [3]. Tuy nhiên, tiếng Việt cũng có một số hình
thức biến hình nhƣ trƣờng hợp thêm từ “sự” trƣớc một động từ để biến nó thành
danh từ hay thêm tiếng “hóa” sau một danh từ để biến nó thành động từ tƣơng
đƣơng, ví dụ nhƣ “lựa chọn” và “sự lựa chọn”, “tin học” và “tin học hóa”.
2.1.3. Từ đồng nghĩa
Từ đồng nghĩa là những từ tƣơng đồng với nhau về nghĩa nhƣng khác nhau về
âm thanh và phân biệt với nhau về một vài sắc thái ngữ nghĩa hoặc phong cách nào
đó, hoặc đồng thời cả hai [3]. Những từ đồng nghĩa với nhau lập thành một nhóm gọi
là nhóm đồng nghĩa. Ví dụ: dễ, dễ dàng, dễ dãi là những nhóm từ đồng nghĩa.
Từ đồng nghĩa thực chất không phải là những từ trùng nhau hồn tồn về nghĩa
mà có những khác biệt nhất định. Chính sự khác biệt đó là lí do tồn tại và làm nên sự
khác nhau giữa các từ trong một nhóm từ đồng nghĩa.
Thơng thƣờng các từ chỉ đồng nghĩa ở một nghĩa, một ngữ cảnh nào đó. Vì thế,
một từ có nhiều nghĩa (đa nghĩa) có thể tham gia vào nhiều nhóm đồng nghĩa khác
nhau. Ví dụ, từ “coi” có thể tham gia vào các nhóm nhƣ coi – xem (coi hát, xem hát),
coi – giữ (coi nhà, giữ nhà).
2.1.4. Đặc điểm chính tả

Đặc điểm chính tả tiếng Việt có ý nghĩa rất quan trọng trong các hệ thống xử lý
dữ liệu văn bản. Một số đặc điểm chính tả tiếng Việt cần quan tâm nhƣ [3]:
- Các tiếng đồng âm: kĩ/kỹ, lí, lý… thƣờng bị sử dụng lẫn nhau nhƣ: lý luận,
lí luận, kĩ thuật, kỹ thuật…
- Các từ địa phƣơng: một số từ địa phƣơng sử dụng thay cho các từ phổ
thông,
chẳng hạn: cây kiểng/cây cảnh, đờn/đàn, đậu phộng/lạc…
- Vị trí dấu thanh: theo quy định đánh dấu tiếng Việt, dấu đƣợc đặt trên
nguyên
âm có ƣu tiên cao nhất. Tuy nhiên, khi soạn thảo văn bản nhiều bộ gõ không
tuân thủ nguyên tắc này nên có hiện tƣợng dấu đƣợc đặt ở các vị trí khác
nhau, chẳng hạn: tốn, tóan, th, thúy…
- Cách viết hoa: theo quy định, chữ cái đầu câu và tên riêng phải viết hoa,
tuy nhiên vẫn tồn tại một số cách viết tuỳ tiện.
- Phiên âm tiếng nƣớc ngoài: tồn tại cách viết giữ nguyên gốc tiếng nƣớc
ngoài
và phiên âm ra tiếng Việt, ví dụ: Singapore/Xin−ga−po.

5

- Từ gạch nối: do cách viết dấu gạch nối tuỳ tiện, không phân biệt đƣợc giữa
nối tên riêng hay chú thích.
Ký tự ngắt câu: sử dụng nhiều loại ký tự đặc biệt nhƣ “.”, “;”, “!”, “?”, “…” ngăn
cách giữa các câu hoặc các vế câu trong câu ghép.
2.2. Đặc điểm của văn bản Luật tiếng Việt
a) Khái niệm
Văn bản luật tiếng Việt là một bộ phận của văn bản tiếng Việt, nó mang đầy đủ
đặc tính của văn bản tiếng Việt. Văn bản luật tiếng Việt hay văn bản pháp luật [4] “là

một hình thức để chủ thể mang thẩm quyền thể hiện ý chí, được thể hiện dưới dạng
ngôn ngữ viết thông qua văn bản, bàn hành qua các hình thức, thủ tục mà pháp luật
đã quy định”.
Văn bản luật tiếng Việt là đƣợc chia làm 03 nhóm gồm: văn bản pháp luật, văn
bản áp dụng pháp luật và văn bản hành chính. Mỗi nhóm trong hệ thống VBPL cịn
có một số nét đặc thù về nội dung, tính chất và vai trị trong quản lý nhà nƣớc.

Văn bản quy phạm pháp luật

Văn bản quy phạm pháp luật [4] là văn bản do cơ quan nhà nước ban hành hoặc
phối hợp ban hành theo thẩm quyền, hình thức, trình tự, thủ tục được quy định trong
Luật này hoặc trong Luật ban hành văn bản quy phạm pháp luật của Hội đồng nhân
dân, Uỷ ban nhân dân, trong đó có quy tắc xử sự chung, có hiệu lực bắt buộc chung,
được Nhà nước bảo đảm thực hiện để điều chỉnh các quan hệ xã hội.
Có hai cách để nhận biết đâu là một văn bản Quy phạm pháp luật.
Thứ nhất là nhìn vào cách trình bày văn bản, nhƣ trong mỗi văn bản luật đều có
chứa kèm theo số năm ban hành văn bản hay có mơ típ quen thuộc nhƣ sau: Nghị
quyết số 01/2005/NQ-HĐTP; điểm a và e khoản 1 Điều 93; khoản 1 Điều 133…
Thứ hai, có thể nhận biết văn bản luật là gì thơng qua hai yếu tố là cơ quan ban
hành và loại văn bản, cụ thể nhƣ sau:





Quốc hội ban hành Hiến pháp, luật, Nghị quyết.

Ủy ban Thƣờng vụ Quốc hội ban hành Nghị quyết, Pháp lệnh, Nghị quyết
liên tịch.



Hội đồng thẩm phán Tòa án Nhân dân tối cao ban hành Nghị quyết.



Chánh án Tòa án Nhân dân tối cao ban hành Thông tƣ và Thông tƣ
liên tịch.





…
Văn bản áp dụng pháp luật

Thứ nhất, văn bản áp dụng pháp luật ban hành ra dƣới dạng quy định do những
cơ quan nhà nƣớc, cá nhân hoặc tổ chức xã hội đƣợc nhà nƣớc ủy quyền áp dụng
pháp luật ban hành và đƣợc bảo đảm thực hiện trong trƣờng hợp cần thiết bằng
cƣỡng chế nhà nƣớc. Chỉ những chủ thể có có thẩm quyền về những nội dung trong
văn bản do pháp luật quy định mới có thẩm quyền ban hành văn bản áp dụng pháp
luật. Nếu văn bản áp dụng pháp luật mà nội dung ban hành xác định về nội dung
đƣợc ban hành bởi cá nhân hay tổ chức mà pháp luật không quy định về thẩm quyền
6

ban hành thuộc cá nhân hay cơ quan tổ chức ban hành đó thì văn bản áp dụng pháp
luật đó khơng có hiệu lực pháp luật.
Thứ hai, văn bản áp dụng pháp luật đƣợc thể hiện trong những hình thức pháp
lý dƣới các dang hình thức nhất định nhất định nhƣ: bản án, quyết định, lệnh,…

Hình thức của văn bản pháp luật bao gồm tên gọi và thể thức của văn bản pháp
luật. Đối với văn bản áp dụng pháp luật thì tên gọi do pháp luật quy định, tùy thuộc
vào tính chất cơng việc mà văn bản áp dụng pháp luật có tên gọi khác nhau, đồng thời
thơng qua tên gọi của văn bản áp dụng pháp luật ta có thể nhận biết đƣợc cơ quan
nào có thẩm quyền ban hành văn bản áp dụng pháp luật đó.

 Văn bản hành chính

là loại văn bản thƣờng dùng để truyền đạt những nội dung và yêu cầu nào đó từ
cấp trên xuống hoặc bày tỏ những ý kiến, nguyện vọng của cá nhân hay tập thể tới
các cơ quan và ngƣời có quyền hạn để giải quyết.
Văn bản hành chính là loại văn bản mang tính thơng tin quy phạm Nhà nƣớc, cụ
thể hóa việc thi hành văn bản pháp quy, giải quyết những vụ việc cụ thể trong khâu quản
lý, nhƣ: quyết định nâng lƣơng, quyết định kỉ luật, thông báo, giấy mời họp...
2.3. Sự khác nhau giữa văn bản tiếng Việt và văn bản luật tiếng Việt
Văn bản luật tiếng Việt là bộ phận của văn bản tiếng Việt do đó nó mang đầy đủ
đặc tính của văn bản tiếng Việt, chỉ khác nó chứa nhiều thuật ngữ pháp lý. Những
thuật ngữ dùng để chỉ về những khái niệm thƣờng dùng trong khoa học pháp lý hoặc
các văn bản pháp luật và dùng để chỉ, mô tả một cách khái quát nhất, cô đọng nhất
các hiện tƣợng, nội dung, trạng thái pháp lý. Thuật ngữ pháp lý cốt lõi chính là
những định nghĩa, khái niệm về các hiện tƣợng, sự vật trong hệ quy chiếu pháp luật.
Thuật ngữ pháp lý có ý nghĩa rất lớn đối với việc nghiên cứu khoa học pháp lý
cũng có ý nghĩa quan trọng trong việc giải thích các quy định của pháp luật.
2.4. Tổng quan về bài tốn đơ độ tƣơng tự văn bản
2.4.1. Khái niệm về độ tương tự văn bản
Độ tƣơng tự văn bản (document similarity) hay khoảng cách giữa các văn bản là
một trong những bài toán trọng tâm của truy hồi thông tin (information retrieval)
[11]. Việc đo lƣờng mức độ giống nhau của các văn bản đóng một vai trị quan trọng
trong nhiều bài tốn nhƣ: tìm kiếm thông tin dựa trên nội dung của tài liệu [12], phân
nhóm tài liệu dựa vào sự tƣơng đồng về nội dung [13][14], … Độ tƣơng tự văn bản

là một đại lƣợng dùng để so sánh hai hay nhiều tài liệu văn bản với nhau. Đại lƣợng
này đặc trƣng cho mức độ liên quan về ngữ nghĩa giữa các văn bản.
Xét ví dụ gồm hai câu “Tơi thích xem phim” và “Tơi u phim”, Có thể thấy
rằng hai câu trên có độ tƣơng đồng về ngữ nghĩa rất cao.
Theo tác giả Nguyễn Kim Anh [5] thì độ tƣơng tự giữa hai văn bản ngoài việc so
khớp từ đơn giản, điểm tƣơng tự còn đƣợc xác định dựa trên số đơn vị từ vựng xuất
hiện ở cả hai văn bản. Đặc biệt cần phải quan tâm tới hiện tƣợng đồng nghĩa của từ,
tầm quan trọng của từ nhƣ tần suất xuất hiện, vị trí xuất hiện của từ và câu trong văn
bản.
7

Để xem xét độ tƣơng tự văn bản, ta cần xét văn bản ở trong 2 khía cạnh là độ
tƣơng tự giữa từ của hai văn bản và độ tƣơng tự về ngữ nghĩa.


Độ tƣơng tự của từ là khái niệm thể hiện tỷ lệ dựa trên tập từ chung của
hai văn bản.



Độ tƣơng tự ngữ nghĩa là khái niệm thể hiện tỷ lệ dựa trên sự giống
nhau về nội dung ý nghĩa của tập các văn bản. Độ tƣơng tự về ngữ nghĩa giữa
2 văn bản thể hiện mối quan hệ về ngữ nghĩa giữa các từ, các câu trong văn
bản.

Theo tác giả Đỗ Thị Thanh Nga thì độ tƣơng tự ngữ nghĩa là khái niệm thể hiện
tỷ lệ dựa trên sự giống nhau về nội dung ý nghĩa của tập các tài liệu hoặc các thuật
ngữ trong một danh sách các thuật ngữ [1]. Độ tƣơng đồng ngữ nghĩa phản ánh mối
quan hệ ngữ nghĩa giữa các câu và các tài liệu văn bản. Xét hai văn bản d 1 và d2.

Mục tiêu của luận văn này nhắm đến việc đo lƣờng giá trị S(d 1,d2), thể hiện hiện độ
tƣơng tự giữa hai văn bản d1 và d2. Giá trị S càng cao thì sự giống nhau về ngữ nghĩa
của hai văn bản càng cao.
2.4.2. Ứng dụng của bài toán đo độ tương tự giữa hai văn bản.
Bài toán đo độ tƣơng tự giữa văn bản và văn bản đƣợc cả thế giới quan tâm
nghiên cứu từ rất lâu trong các ứng dụng của xử lý ngôn ngữ tự nhiên và các lĩnh vực
liên quan. Các ứng dụng phải kể đến nhƣ tìm kiếm thơng tin, các tài liệu liên quan sẽ
đƣợc xếp hạng theo thứ tự của độ tƣơng tự. Ngoài ra, độ tƣơng tự văn bản cịn đƣợc
ứng dụng cho bài tốn phân lớp văn bản, tóm tăt văn bản, bài tốn xác định đạo văn...
Gần đây nhất là bài toán hỗ trợ pháp lý cũng đặc biệt đƣợc quan tâm và nghiên cứu.
Các phép đo độ tƣơng tự giữa văn bản và văn bản chủ yếu dựa trên hai tiếp cận
chính là các tiếp cận thống kê và các tiếp cận dựa trên mạng nơron học sâu (deep
learning)
2.5. Phƣơng pháp dựa trên thống kê.
2.5.1. Khái niệm
Các phƣơng pháp theo tiếp cận thống kê đánh giá độ tƣơng tự giữa hai văn bản
dựa trên tần suất xuất hiện của các từ trong câu. Độ tƣơng tự đo đƣợc tỷ lệ thuận với
kích thƣớc của tập từ chung giữa hai văn bản. Một số phƣơng pháp tiêu biểu theo
tiếp cận này nhƣ: các phƣơng pháp sử dụng độ đo Cosine, độ đo khoảng cách Eclide,
Manhattan, phƣơng pháp độ đo Jaccard, phƣơng pháp TF-IDF[19],… Các phƣơng
pháp này tốc độ xử lý nhanh, tốn ít chi phí nhƣng độ chính xác khơng cao về mặt ngữ
nghĩa, do chƣa quan tâm đến ngữ nghĩa trong văn bản mà chỉ quan tâm đến số lƣợng
từ chung giữa hai văn bản.
2.5.2. Độ đo tương tự Jaccard
Đây là một trong những độ đo đầu tiên đƣợc sử dụng để đánh giá mức độ tƣơng
đồng ngữ nghĩa giữa các văn bản bằng cách so khớp mức độ trùng lặp giữa các từ của
hai văn bản với nhau. Ƣu điểm của phƣơng pháp này là tốc độ nhanh và khơng cần
phải huấn luyện mơ hình trƣớc. Nhƣợc điểm của phƣơng pháp này là không so khớp
đƣợc mức độ ngữ nghĩa giữa các văn bản cũng nhƣ không biết đƣợc mức độ quan
8

trọng khác nhau của các từ trong văn bản. Chi tiết về phƣơng pháp này đƣợc trình
bày trong phần sau của luận văn.
2.5.3. Độ đo TF-IDF
Đây là độ đo rất nổi tiếng, đƣợc sử dụng trong nhiều bài toán NLP và khai phá
dữ liệu dạng văn bản với mục đích: tính weight (độ quan trọng) của từ (word) trong
một văn bản cụ thể, văn bản đó nằm trong một tập nhiều văn bản khác nhau. Cách
tiếp cận này đƣợc sử dụng rộng rãi bởi tốc độ tính tốn nhanh và kết quả nó đem lại
cũng khá tốt. Nó thƣờng đƣợc sử dụng để làm một bƣớc lọc cho nhiều bài tốn. Ví
dụ nhƣ bài tốn hỏi-đáp theo tiếp cận truy hồi câu trả lời [17]. Trong bài toán này, ta
đã có một ngân hàng chứa hàng tỷ câu trả lời thuộc mọi lĩnh vực, mỗi khi có một câu
hỏi, chƣơng trình sẽ tìm câu trả lời thích hợp trong ngân hàng câu trả lời đó. Nếu sử
dụng các kĩ thuật học sâu phức tạp thì việc tìm kiếm trong tập câu trả lời khổng lồ
nhƣ vậy là không hiệu quả trong một khoảng thời gian nhất định (các hệ thống hỏi
đáp thƣờng u cầu realtime). Chính vì thế, bƣớc đầu tiên chúng ta cần rút gọn tập
câu trả lời tiềm năng bằng cách dùng độ đo TF-IDF để chọn ra tốp k câu trả lời tốt
nhất, sau đó mới áp dụng các kĩ thuật phức tạp khác để tìm ra câu trả lời tốt nhất
trong k câu trả lời tiềm năng kia.
Đây cũng là một tiếp cận đƣợc lựa chọn để thử nghiệm cho bài tốn của chúng
tơi và chi tiết phƣơng pháp sẽ đƣợc trình bày trong phần sau.
2.6. Phƣơng pháp dựa trên mạng nơron học sâu.
2.6.1. Khái niệm học sâu
Học sâu (deep learning) là một chi của ngành máy học dựa trên một tập hợp các
thuật toán để cố gắng mơ hình dữ liệu trừu tƣợng hóa ở mức cao bằng cách sử dụng
nhiều lớp xử lý với cấu trúc phức tạp, hoặc bằng cách khác bao gồm nhiều biến đổi
phi tuyến.
Học sâu là một phần của một họ các phƣơng pháp học máy rộng hơn dựa trên
đại diện học của dữ liệu. ví dụ nhƣ, một hình ảnh có thể đƣợc biểu diễn bằng nhiều
cách nhƣ một vector của các giá trị cƣờng độ cho mỗi điểm ảnh, hoặc một cách trừu

tƣợng hơn nhƣ là một tập hợp các cạnh, các khu vực hình dạng cụ thể, vv
Các nghiên cứu trong lĩnh vực này cố gắng thực hiện các đại diện tốt hơn và tạo
ra các mô hình để tìm hiểu các đại diện này từ dữ liệu không dán nhãn quy mô lớn.
Một số đại diện đƣợc lấy cảm hứng bởi những tiến bộ trong khoa học thần kinh và
đƣợc dựa trên các giải thích của mơ hình xử lý và truyền thơng thơng tin trong một
hệ thống thần kinh, chẳng hạn nhƣ mã hóa thần kinh để cố gắng để xác định các mối
quan hệ giữa các kích thích khác nhau và các phản ứng liên quan đến thần kinh trong
não.
Nhiều kiến trúc mạng nơron học sâu khác đã đƣợc áp dụng cho các lĩnh vực nhƣ
thị giác máy tính, tự động nhận dạng giọng nói, xử lý ngơn ngữ tự nhiên, nhận dạng
tiếng nói và tin sinh học. Các mơ hình học sâu đã đạt đƣợc kết quả rất tốt đối với
nhiều nhiệm vụ NLP khác nhau
9

Hƣớng tiếp cận này có nhiều ứng dụng nhƣ: Hệ thống nhận diện hình ảnh nhƣ
Google Photos, Google Search, Google Drive; hay các hệ thống nhận dạng giọng nói
thƣơng mại nhƣ Cortana, Xbox, Skype Translator…
2.6.2. Một số ứng dụng của học sâu (Deep Learning)
a. Nhân dạng giọng nói
Nhận dạng giọng nói tự động quy mơ lớn là trƣờng hợp thành công dầu tiên và
thuyết phục nhất của học sâu. Các mạng nơ ron hồi quy LSTM có thể học các nhiệm
vụ “học rất sâu” liên quan đến các khoảng thời gian nhiều giây có chứa các sự kiện
lời nói cách nhau bởi hàng ngàn bƣớc thời gian riêng biệt, trong đó một bƣớc thời
gian tƣơng ứng với 10 ms. Sự ra đời của DNN (Deep Neural Network – mạng nơ ron
sâu) để nhận dạng giọng nói và LSTM đã đẩy nhanh quá trình phát triển học sâu.
Ngày nay tất cả các hệ thống nhận dạng giọng nói thƣơng mại nhƣ Cortana, Xbox,
Skype Translator… đều dựa trên học sâu.
b. Dịch các ngôn ngữ
Các mạng nơ-ron đã đƣợc sử dụng để thực hiện các mơ hình ngơn ngữ từ những

năm 2000. LSTM đã giúp cải thiện các hệ thống dịch máy và mơ hình hóa ngơn ngữ.
Các kỹ thuật quan trọng khác trong lĩnh vực này là lấy mẫu âm tính và nhúng từ.
Nhúng từ, chẳng hạn nhƣ Word2Vec [15], có thể đƣợc coi là một lớp biểu diễn trong
kiến trúc học sâu, biến một từ nguyên tử thành một biểu diễn vị trí của từ so với các
từ khác trong tập dữ liệu; vị trí đƣợc biểu diễn dƣới dạng một điểm trong không gian
vector. Sử dụng nhúng từ làm lớp đầu vào của RNN cho phép phân tích các câu và
cụm từ bằng cách sử dụng một ngữ pháp vector thành phần hiệu quả. Một ngữ pháp
vector thành phần có thể đƣợc coi là ngữ pháp tự do ngữ cảnh xác suất (PCFG) đƣợc
thực hiện bởi một RNN. Bộ mã hóa tự động đệ quy đƣợc xây dựng trên các từ nhúng
để đánh giá độ tƣơng tự của câu và phát hiện phép diễn giải. Các kiến trúc Deep
learning cung cấp kết quả tốt nhất cho phân tích cấu thành, phân tích tình cảm, truy
xuất thơng tin, hiểu ngơn ngữ nói, dịch máy, liên kết thực thể theo ngữ cảnh, phân
loại văn bản và các loại khác.
c. Y khoa
Trí tuệ nhân tạo đang tạo ra những tiến bộ lớn trong lĩnh vực y học. Với khả năng
chuẩn đoán bệnh ở giai đoạn sớm, AI giúp tăng khả năng ngăn chặn và chữa trị cũng nhƣ
giảm chi phí điều trị bệnh. Ngoài ra AI hỗ trợ các nhà nghiên cứu khám phá ra các phƣơng
pháp, thuốc điều trị bệnh mới một cách hiệu quả. Mặc dùng AI đã xuất hiện nhiều trong
thập kỷ qua, nhƣng những tiến bộ mới đã kích hoạt sự bùng nổ trong học sâu. Học sâu
giúp các nhà nghiên cứu phân tích dữ liệu ý tế để điều trị bệnh. Nó giúp tăng cƣờng khả
năng phân tích hình ảnh y khoa của các bác sĩ để chuẩn đốn bệnh.

d. Thị giác máy
Thị giác máy tính đã xuất hiện trong nhiều năm qua và đã đóng góp quan trọng
trong nhiều lĩnh vực sản xuất công nghiệp, y tế, quân sự, giao thông,… Học sâu bằng
cách sử dụng các mạng nơ-ron khổng lồ là các máy dạy học để tự động hóa các
nhiệm vụ đƣợc thực hiện bởi các hệ thống thị giác máy của con ngƣời. Một số ứng
10

dụng của Deep learning trong lĩnh vực thị giác máy tính: Phân loại ảnh (image
classification); phát hiện đối tƣợng (object detection); phân đoạn đối tƣợng (object
segmentation); chuyển phong cách; màu hóa ảnh, khơi phục ảnh.

2.6.3. Một số phương pháp theo hướng tiếp cận học sâu
2.6.3.1. Mơ hình biểu diễn từ bằng vector (Word2Vec).
Để khắc phục nhƣợc điểm của phƣơng pháp thống kê là số chiều của một vector
quá lớn (bằng độ dài của từ điển, có thể đến cả triệu từ) và không quan tâm đến ngữ
nghĩa của văn bản. Tác giả Tomas Mikolov và các công sự đã công bố phƣơng pháp
Word2Vec trong bài báo “Distributed Representations of Words and Phrasesand their
Compositionality)” [10]. Đây là thuật toán theo phƣơng pháp dự đoán (Predictionbased embedding), dự đoán học biểu diễn vector từ thông qua những từ ngữ cảnh xung
quanh nhằm cải thiện khả năng dự đoán ý nghĩa các từ.
Word2Vec là một mạng neural 2 lớp với duy nhất 1 tầng ẩn, lấy đầu vào là một
corpus lớn và sinh ra không gian vector (với số chiều khoảng vài trăm), với mỗi từ duy
nhất trong corpus đƣợc gắn với một vector tƣơng ứng trong không gian. Các word
vectors đƣợc xác định trong khơng gian vector sao cho những từ có chung ngữ cảnh
trong corpus đƣợc đặt gần nhau trong không gian. Dự đốn chính xác cao về ý nghĩa
của một từ dựa trên những lần xuất hiện trƣớc đây.
11

Nếu ta gán nhãn các thuộc tính cho một vector từ giả thiết, thì các vector đƣợc
biểu diễn theo Word2Vec sẽ có dạng nhƣ sau:



Hai kiến trúc mạng nơron của Word2Vec:
- Mơ hình CBOW, sử dụng từ ngữ cảnh (từ xung quanh) để dự đốn từ đích
(target word). Mơ hình này giả thiết vị trí của các từ ngữ cảnh khơng ảnh hƣởng tới
việc dự đốn từ target. Ngƣợc lại, mơ hình Skip-gram, sử dụng từ target để dự đốn

những từ ngữ cảnh xung quang nó.
Mơ hình Skip-gram, sử dụng một từ để dự đoán ngữ cảnh mục tiêu hay các từ
xung quanh (Continuous skip-gram) xem xét những từ ngữ cảnh xung quanh sẽ đƣợc
đánh giá tốt hơn so với những từ trong ngữ cảnh nhƣng ở vị trí xa hơn. Mặc dù thứ tự
từ vẫn không đƣợc xem xét, mỗi vector của từ bối cảnh đƣợc xem xét và cân nhắc.

Hình 2.1: Mơ hình Word2Vec
Thuật tốn CBOW tốn ít thời gian huấn luyện mơ hình hơn Skip-gram. Tuy
nhiên, Skip-gram có độ chính xác cao hơn và có chứa cả những từ ít xuất hiện
a) Mơ hình Skip-gram
Mục tiêu: Học các vector biểu diễn cho từ

12

Cho một từ cụ thể ở giữa câu (input word), nhìn vào những từ ở gần và chọn
ngẫu nhiên. Mạng neural sẽ cho chúng ta biết xác suất của mỗi từ trong từ vựng về
việc trở thành từ gần đó mà chúng ta chọn.
Dƣới đây là mơ hình kiến trúc của mạng Skip-gram và cách xây dựng Dữ liệu
huấn luyện mơ hình word embeddings.

Hình 2.2: Mơ hình Skip-gram dạng tổng quát
Ví dụ: Xây dựng training data với windows size = 2. Ở đây windows đƣợc hiểu
nhƣ một cửa sổ trƣợt qua mỗi từ. Windows size = 2 tức là lấy 2 từ bên trái và bên phải
mỗi từ trung tâm.

Hình 2.3: Minh họa đầu vào và đầu ra của mô hình Skip-gram
Chi tiết về mơ hình
- Xây dựng bộ từ vựng.
13

- Biểu diễn mỗi từ thành các one-hot-vector.
- Đầu ra là một vector duy nhất, có kích thƣớc bằng kích thƣớc của bộ từ
vựng, thể hiện xác suất của mỗi từ đƣợc là lân cận của từ đầu vào.
- Không có hàm kích hoạt trên tầng ẩn.
- Hàm kích hoạt trên tầng output là softmax.
- Trong quá trình huấn luyện, input là 1 one-hot-vector, ouput cũng là 1 onehot-vector.
- Trong quá trình đánh giá sau khi huấn luyện, đầu ra phải là 1 phân bố xác
suất.
Vấn đề:
- Kích thƣớc mạng nơron khá lớn: Khi số chiều của vector nhúng từ đƣợc
thiết lập là 300, tập từ vựng là 10.000 từ thi mơ hình cần 3 triệu tham số. Địi
hỏi chi phí thời gian lớn để huấn luyện mơ hình bằng thuật toán giảm gradient
với kho ngữ liệu lớn.
Một số cải tiến cho mơ hình Word2Vec
Có 3 cải tiến cơ bản cho mơ hình Word2Vec truyền thống:




Xử lý các cặp từ thông dụng hoặc cụm từ nhƣ là một từ đơn.
Loại bỏ các từ thƣờng xuyên lặp lại để giảm số lƣợng các ví dụ huấn

luyện.



Sửa đổi mục tiêu tối ƣu hóa bằng một kỹ thuật gọi là “Negative
Sampling”.

Cải tiến 1: Xử lý cụm từ như một từ đơn: Ví dụ các từ nhƣ “thành_phố_Cảng”
có nghĩa khác nhau với từng từ “thành_phố” và “cảng”,... Chúng ta sẽ coi nhƣ đó là
một từ duy nhất, với word vector của riêng mình. Điều này sẽ làm tăng kích thƣớc từ
vựng.
Cải tiến 2: Loại bỏ các từ thường xuyên lặp lại: Các từ thƣờng xuyên lặp lại
nhƣ “các”, “những”,… không cho chúng ta biết thêm nhiều hơn về ý nghĩa của
những từ đi kèm nó và chúng cũng xuất hiện trong ngữ cảnh của khá nhiều từ. Chúng
ta sẽ xác định xác suất loại bỏ và giữ lại một từ trong từ vựng thông qua tần suất xuất
hiện của nó.
Cải tiến 3: Negative Sampling: Mỗi mẫu huấn luyện chỉ thay đổi một tỷ lệ phần
trăm nhỏ các trọng số, thay vì tất cả chúng. Khi huấn luyện mạng với 1 cặp từ, đầu ra
của mạng sẽ là 1 one-hot vector, neural đúng thì đƣa ra 1 cịn hàng ngàn neural khác
thì đƣa ra 0. Chọn ngẫu nhiên 1 số lƣợng nhỏ các neural “negative” kết hợp với
neural “positive” để cập nhật trọng số (chọn số negative là 5-20 hoạt động tốt với các
bộ dữ liệu nhỏ, với bộ dữ liệu lớn, số negative đƣợc thiết lập từ 2 đến5là phù hợp).
b) Mơ hình CBOW
Ý
tƣởng của mơ hình là dự đốn từ mục tiêu dựa vào các từ ngữ cảnh xung
quanh nó trong một phạm vi nhất định. Cho từ mục tiêu wc tại vị trí c trong câu văn
bản, khi đó đầu vào là các từ ngữ cảnh (wc-m, …,wc-1, wc+1, …, wc+m) xung quanh từ
wc trong phạm vi m.

14

luận văn thạc sĩ nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng việt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

luận văn thạc sĩ nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng việt​

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

luận văn thạc sĩ nghiên cứu các phương pháp tính toán độ tương tự của văn bản luật tiếng việt