ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH
Biểu diễn từ vựng theo ngữ cảnh học sâu để cải tiến hiệu suất
phân tích cú pháp tiếng Việt
Nguyễn Hồng Quân
Khoa Công nghệ thông tin, Trường Đại học Cơng nghiệp Quảng Ninh
* Email:
Mobile: 0988677861
Tóm tắt
Từ khóa:
Biểu diễu từ vựng; học sâu; xử lý
ngơn ngữ tự nhiên; vector hóa từ
vựng
Bài báo giới thiệu một biểu diễn từ vựng theo ngữ cảnh bằng học
sâu, mơ hình hóa cả (1) đặc điểm phức tạp của việc sử dụng từ
vựng (ví dụ: cú pháp và ngữ nghĩa) và (2) cách sử dụng biểu diễn
từ vựng này theo ngữ cảnh ngôn ngữ . Các vectơ từ học được các
hàm các trạng thái nội tại của mơ hình ngơn ngữ hai chiều sâu
(biLM), được tiền huấn luyện với một kho dữ liệu lớn. Chúng tôi
áp dụng biểu diễn từ vựng mới này và làm cải thiện đáng kể hiệu
suất bài tốn phân tích cú pháp trong tiếng Việt.
Abstract
Keywords:
word embedding; deep learning;
NLP; word representation, biLM
The paper introduces a contextual lexical representation by deep
learning, modeling both (1) the complex characteristics of
vocabulary use (e.g. syntax and semantics) and (2) usage. represent
this vocabulary in linguistic context. Vectors of word learn the
functions of the intrinsic states of the bidirectional language
models (biLM), pre-training with a large corpus. We apply this
new representation and significantly improve the performance of
the parsing problem in Vietnamese.
1. GIỚI THIỆU
Các biểu diễn từ vựng được tiền huấn luyện
[3] là một thành phần chính trong nhiều mơ hình
học máy mạng nơ ron hiểu ngơn ngữ. Tuy nhiên,
việc học được biểu diễn từ vựng chất lượng cao
thực sự là một thách thức. Biểu diễn từ vựng cần
phải được mơ hình hóa một cách lý tưởng 2 thách
thức sau:
(1) các đặc điểm phức tạp của việc sử dụng
từ (ví dụ: ngữ pháp và ngữ nghĩa)
(2) những cách sử dụng này biến đổi theo ngữ
cảnh ngôn ngữ (đối với mơ hình đa ngơn ngữ).
Trong bài báo này, chúng tôi giới thiệu một
biểu diễn từ vựng theo ngữ cảnh bằng học sâu,
trực tiếp giải quyết được cả hai thách thức trên,
có thể dễ dàng tích hợp vào các mơ hình hiện có
và cải thiện đáng kể hiệu suất trong mọi trường
hợp được xem xét qua một loạt các vấn đề thách
thức về hiểu ngôn ngữ .
Biểu diễn từ vựng bằng học sâu với các kiểu
nhúng từ truyền thống ở chỗ, mỗi biểu diễn cho
một token cụ thể là một hàm của tồn bộ câu đầu
vào. Chúng tơi sử dụng các vectơ dẫn xuất từ một
mạng nơ ron LSTM hai chiều (biLSTM) đã được
huấn luyện với mục tiêu mô hình ngơn ngữ hai
chiều (biLM) trên một kho dữ liệu lớn. Do đó,
biểu diễn từ vựng này được gọi là biểu diễn từ
vựng theo mơ hình ngơn ngữ ELMo
(Embeddings from Language Models).
Khác với các cách tiếp cận trước đây để học
vectơ từ theo ngữ cảnh [1], các biểu diễn từ vựng
ELMo là có chiều sâu, theo nghĩa là chúng là một
hàm nội tại tất cả các lớp của một mô hình ngơn
ngữ 2 chiều (biLM). Cụ thể hơn, biểu diễn từ
vựng này học được một tổ hợp tuyến tính của các
vectơ được xếp chồng lên trên mỗi từ (word) đầu
vào cho mỗi tác vụ cuối, giúp cải thiện rõ rệt hiệu
suất chỉ bằng cách sử dụng lớp LSTM trên cùng.
Kết hợp các trạng thái nội tại theo cách này
cho phép biểu diễn từ vựng rất phong phú. Sử
dụng các ước lượng nội tại, thực nghiệm cho thấy
rằng các trạng thái LSTM ở các mức cao nắm bắt
ngữ nghĩa của từ theo ngữ cảnh rất tốt (có thể
được sử dụng được ngay với các bài toán phân
biệt sự nhập nhằng ngữ nghĩa của từ có giám sát);
các trạng thái LSTM ở các mức thấp lại nắm bắt
các vấn đề về cú pháp tốt hơn (chúng có thể được
sử dụng trong bài tốn gán nhãn từ loại). Việc
phân tích đồng thời tất cả các thơng tin này là cực
kỳ hữu ích, nó cho phép các mơ hình đã học lựa
269
* HNKHCN Lần VI tháng 05/2020
ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH
chọn được các kiểu bán giám sát có lợi nhất cho
mỗi bài tốn cuối.
2. CÁC PHƯƠNG PHÁP BIỂU DIỄN TỪ
VỰNG TRUYỀN THỐNG
2.1. Bag-of-Word (BoW)
Đây là cách biểu diễn vector truyền thống
phổ biến nhất được sử dụng. Để chuyển đổi ngôn
ngữ tự nhiên về dạng 1-of-N, ta thực hiện các
bước như sau:
- Xây dựng một bộ từ vựng.
- Mỗi vector đại diện cho một từ có số chiều
bằng số từ trong bộ từ vựng. Trong đó, mỗi vector
chỉ có một phần tử duy nhất khác 0 (bằng 1) tại vị
trí tương ứng với vị trí từ đó trong bộ từ vựng.
Ví dụ: Giả sử bộ từ vựng của chúng ta chỉ có
5 từ: Vua, Hồng hậu, Phụ nữ, Đàn ơng và Trẻ
con. Ta sẽ mã hóa cho từ “Hoàng Hậu” như sau:
Mỗi từ hoặc n-gram từ sẽ được mơ tả là một
vector có số chiều bằng đúng số từ trong bộ từ
vựng. Tại vị trí tương ứng với vị trí của từ đó
trong túi từ, phần tử trong vector đó sẽ được đánh
dấu là 1. Những vị trí cịn lại sẽ được đánh dấu là
0. Nhược điểm của phương pháp này là ta không
thể xác định được nghĩa thực của mỗi từ và các
từ tương quan với chúng. Trong phương pháp
BoW, từ giống nhau sẽ được đánh trọng số như
nhau. Phương pháp này không xét đến tần suất
xuất hiện của từ hay ngữ cảnh từ. Và trong thực
tế, để cần hiểu được nghĩa của mỗi từ, ta cần xác
định từ đó trong văn cảnh hơn là xét nghĩa độc
lập từ.
2.2. TF-IDF
TF- IDF (term frequency–inverse document
frequency) - tần suất- tần suất đảo nghịch từ. Đây
là một phương pháp thống kê, nhằm phản ánh độ
quan trọng của mỗi từ hoặc n-gram đối với văn
bản trên toàn bộ tài liệu đầu vào. TF-IDF thể hiện
trọng số của mỗi từ theo ngữ cảnh văn bản. TFIDF sẽ có giá trị tăng tỷ lệ thuận với số lần xuất
hiện của từ trong văn bản và số văn bản có chứa
từ đó trên toàn bộ tập tài liệu. Phương pháp này
giúp cho TF-IDF có tính phân loại cao hơn so với
phương pháp trước.
* HNKHCN Lần VI tháng 05/2020
Trong đó, i=1..D, ni là tần số xuất hiện của
từ trong văn bản i; Ni là tổng số từ trong văn bản i
Trong đó, D là tổng số tài liệu có trong tập
dữ liệu; d là số lượng tài liệu có xuất hiện từ.
Tuy nhiên, ngay cả khi phương pháp TFIDF dựa trên BOW thể hiện được trọng số của
các từ khác nhau trong văn bản, nhưng phương
pháp này vẫn không biểu diễn được nghĩa của từ.
2.3. Word2vec
Word2vec là một mạng neural 2 lớp với duy
nhất 1 tầng ẩn, lấy đầu vào là một corpus lớn và
sinh ra không gian vector (với số chiều khoảng
vài trăm), với mỗi từ duy nhất trong corpus được
gắn với một vector tương ứng trong không gian.
Các word vectors được xác định trong khơng
gian vector sao cho những từ có chung ngữ cảnh
trong corpus được đặt gần nhau trong không
gian. Mơ hình dự đốn học biểu diễn vector từ
thơng qua những từ ngữ cảnh xung quanh nhằm
cải thiện khả năng dự đốn ý nghĩa các từ. Có hai
cách xây dựng mơ hình Word2vec để biểu diễn
sự phân tán của từ trong khơng gian vector là
CBOW và SKIP-gram.
Mơ hình CBOW: lấy ngữ cảnh của mỗi từ
làm đầu vào và cố gắng dự đoán từ tương ứng với
ngữ cảnh. Hãy xem xét ví dụ: Hơm nay tơi đi
học. Chúng ta sẽ cố gắng dự đoán từ mục tiêu
(đi) bằng cách sử dụng duy nhất một từ ngữ cảnh
đầu vào (học).
Mơ hình Skip-gram: là phiên bản đảo ngược
của mơ hình CBOW. Cho trước một vị trí ngữ
cảnh, mơ hình cần đưa ra được phân bố xác suất
của mỗi từ ở vị trí đó. Trong cả hai trường hợp,
mạng sử dụng lan truyền ngược để học ra biểu
diễn vector của từ.
Theo Mikolov [3], tác giả của word2vec, cả
hai phương pháp đều có những ưu điểm và nhược
điểm riêng. Skip Gram hoạt động tốt với lượng
dữ liệu nhỏ và hoạt động được với tập từ vựng có
chứa các từ hiếm. Mặt khác, CBOW có thể học
trong thời gian ngắn và cho ra các biểu diễn tốt
hơn cho các từ thông dụng.
270
ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH
đầu tiên trong bộ mã hóa LSTM 2 lớp dự đốn
các nhãn từ loại POS tốt hơn là lớp thứ hai. Cuối
cùng, lớp trên cùng của một LSTM để mã hóa
ngữ cảnh từ (Melamud [14]) đã trình bày cách
học biểu diễn nghĩa của từ. Chúng tôi cho thấy
rằng các thông tin tương tự cũng được tạo ra bởi
mơ hình ngơn ngữ đã sửa đổi trong các biểu diễn
ELMo của chúng tơi và nó rất hữu hích khi học
các mơ hình đối với các tác vụ bên dưới mà pha
trộn các kiểu bán giám sát khác nhau. Dai và
cộng sự [15] ghép cặp bộ encoder-decoder bằng
cách sử dụng các mơ hình ngơn ngữ và bộ
autoendcoder và sau đó tinh chỉnh với bài tốn
giám sát cụ thể.
Hình 1. Mơ hình CBOW và Skip-gram
3. CÁC CƠNG TRÌNH CĨ LIÊN QUAN
Do khả năng nắm bắt thông tin cú pháp và
ngữ nghĩa của các từ vựng từ kho dữ liệu lớn
chưa gắn nhãn, các vectơ từ vựng tiền huấn luyện
Mikolov [3] là một thành phần tiêu chuẩn của
hầu hết kiến trúc NLP hiện đại, bao gồm bài toán
hỏi đáp [4], tìm kiếm văn bản [5] và gán nhãn vai
nghĩa [6]. Tuy nhiên, theo những cách tiếp cận
này, việc học để tạo ra vectơ từ vựng cho thấy
rằng, mỗi từ chỉ có một biểu diễn từ phụ thuộc
vào một ngữ cảnh duy nhất.
Khắc phục một số thiếu sót của vectơ từ
vựng truyền thống, Wieting [7] và Bojanowski
[8] đã đề xuất các phương pháp làm phong phú
biểu diễn từ vựng bằng thông tin từ phụ hoặc học
các vectơ riêng cho từng nghĩa của từ. Các cơng
trình gần đây khác cũng tập trung vào việc học
các biểu diễn theo ngữ cảnh. Context2vec [9] sử
dụng Bộ nhớ dài hạn hai chiều (LSTM) để mã
hóa ngữ cảnh xung quanh một từ. Các cách tiếp
cận khác để học nhúng theo ngữ cảnh bao gồm từ
chính trong biểu diễn từ vựng và được tính tốn
với một bộ mã hóa của hệ thống dịch máy neural
(MT) có giám sát (CoVe; McCann [10]) hoặc mơ
hình ngơn ngữ khơng giám sát của Peter và đồng
sự [1]. Cả hai cách tiếp cận này đều dựa trên các
bộ dữ liệu lớn, mặc dù cách tiếp cận MT bị giới
hạn bởi kích thước của kho ngữ liệu song ngữ.
Một số tiếp cận khác cũng cho thấy, các
lớp khác nhau trong mạng nơ ron tái phát sâu hai
chiều (biRNN) thì mã hóa các loại thơng tin khác
nhau. Ví dụ: giám sát cú pháp đa nhiệm (bài toán
gán nhãn từ loại), tại các lớp thấp hơn của một
mạng LSTM sâu có thể cải thiện hiệu suất tổng
thể của bài toán hơn như bài toán phân tích cú
pháp (Hashimoto [11]) hoặc siêu CCG gắn thẻ
(Søgaard [12]). Trong một hệ thống dịch máy
encoder-decoder dựa trên RNN, Belinkov [13] đã
chỉ ra rằng các biểu diễn từ vựng đã học ở lớp
4. BIỂU DIỄN TỪ VỰNG THEO MƠ HÌNH
NGƠN NGỮ
Khác với các các phương pháp vector hóa
từ vựng truyền thống như word2vec, vectơ
ELMo gán cho một token hoặc một từ thực sự là
một hàm của tồn bộ câu có chứa từ đó. Do đó,
cùng một từ có thể có các vectơ từ khác nhau
trong các ngữ cảnh khác nhau.
Giả sử chúng ta có một vài câu:
(1) Tơi để quyển sách lên bàn
(2) Nói làm gì để thêm buồn
Từ để ở (1) là một động từ, trong khi đó ở
(2) thì nó là kết từ trong quan hệ nhân – quả. Đây
là một trường hợp của đa nghĩa, một từ có thể có
nhiều nghĩa. Các các phương pháp truyền thống
đưa ra cùng một vectơ cho từ "để” trong cả hai
câu. Hệ thống sẽ không phân biệt được các từ đa
nghĩa. Những vectors này không thể nắm bắt
được ngữ cảnh mà từ đó được sử dụng.
Các vectơ từ ELMo giải quyết thành công
vấn đề này. Các biểu diễn từ ELMo đưa tồn bộ
câu đầu vào vào phương trình để tính tốn các
vector. Do đó, thuật tốn đọc từ “để” sẽ có các
vectơ ELMo khác nhau trong ngữ cảnh khác
nhau. Chúng được tính tốn trên lớp đầu tiên của
các biLM hai lớp với các kết hợp ký tự, là một
hàm tuyến tính của các trạng thái mạng nội tại.
4.1. Mơ hình ngơn ngữ 2 chiều
Cho trước một chuỗi có N token, (t1,
t2,,…,tN), một mơ hình ngơn ngữ tiến (forward)
sẽ tính tốn xác suất của một chuỗi bằng cách mơ
hình xác suất tk của token thứ k khi cho trước lịch
sử xuất hiện của các token trước đó (t1, …, tk-1 ) :
271
(1)
* HNKHCN Lần VI tháng 05/2020
ĐẠI HỌC CƠNG NGHIỆP QUẢNG NINH
Các mơ hình ngơn ngữ nơ ron hiện đại gần
đây (Merity [16]) tính tốn biểu diễn token độc
lập theo ngữ cảnh
(thơng qua vector hóa
token hoặc một mạng nơ ron tích chập CNN với
các ký tự) sau đó chuyển biểu diễn này qua lớp L
của mạng nơ ron LSTM tiến. Tại mỗi vị trí k, mỗi
một lớp LSTM đưa ra một biểu diễn phụ thuộc
vào ngữ cảnh
trong đó j = 1,..,L. Đầu ra lớp
trên cùng LSTM, vector
được sử dụng để dự
đoán token tiếp theo tk + 1 với lớp Softmax.
Mơ hình ngơn ngữ lùi (LM-backward) hoạt
động tương tự như mơ hình ngơn ngữ LM- tiến,
nhưng nó chạy theo thứ tự ngược lại.
Nghĩa là, mơ hình dự đốn token ở phía
trước khi cho trước ngữ cảnh tương lai:
(2)
Tương tự như với mơ hình ngơn ngữ LMtiến, mỗi lớp j của mạng nơ ron LSTM-lùi trong
một lớp L của mơ hình sâu có nhiều lớp tạo ra
các biểu diễn
của tk khi cho trước (tk + 1,..,
tN). Một biLM là kết hợp cả LM -tiến và và LMlùi. Công thức sau là mơ tả tối đa hóa khả năng
theo các hướng tiến và lùi cùng nhau:
(3)
Công thức xác suất có điều kiện (3) bao gồm:
Θx: Các tham số biểu diễn token theo các
hai hướng
Θs: Tham số cho Softmax theo cả hai
hướng tiến và lùi.
: Các các tham số riêng
cho các LSTM theo từng hướng.
Nhìn chung, cơng thức này tương tự như
cách tiếp cận của Peters [1], nhưng có một điểm
khác là chia sẻ một số trọng số giữa các hướng
thay vì sử dụng các tham số hồn tồn độc lập.
Trong phần tiếp theo, bài báo giới thiệu một
cách tiếp cận mới để học cách biểu diễn từ vựng
là sự kết hợp tuyến tính của các lớp biLM.
* HNKHCN Lần VI tháng 05/2020
Hình 2. Cố định các tham số của mơ hình biLM
4.2. Biểu diễn từ vựng theo mơ hình ngơn ngữ
Biểu diễn từ vựng theo mơ hình ngơn ngữ
(Embedding from Language Models – ELMo) là
sự kết hợp nhiệm vụ cụ thể biểu diễn của các lớp
trung gian trong mô hình ngơn ngữ hai chiều
biLM. Đối với mỗi token tk, một lớp L của biLM
sẽ tính tốn một tập 2L + 1 các biểu diễn .
=
(4)
đó
là lớp token và
=[
] cho từng lớp trong mạng nơ ron
hai chiều biLSTM.
Để đưa vào một mơ hình thứ cấp, ELMo
thu gọn tất cả các lớp trong R thành một vectơ
duy nhất, ELMok = E(Rk; Θe). Trong trường hợp
đơn giản nhất, ELMo chỉ chọn lớp trên cùng,
E(Rk) =
như trong mơ hình TagLM [1] và
CoVe []. Tổng qt hơn, biểu diễn sẽ tính tốn
trọng số riêng của tất cả các lớp biLM:
(5)
272
Trong
ĐẠI HỌC CƠNG NGHIỆP QUẢNG NINH
Trong đó:
stask là trọng số chuẩn hóa tầng softmax,
γtask là một tham số vơ hướng cho phép mơ
hình tác vụ chia theo tỷ lệ với tồn bộ vectơ
ELMo. γ có ý nghĩa quan trọng thiết thực hỗ trợ
trong q trình tối ưu hóa.
Hình 3. Đưa các biểu diễn ELMo vào mơ hình và học
các trọng số tổ hợp tuyến tính của bài tốn
4.3 Sử dụng biLM cho các bài tốn NLP có
giám sát
Cho trước một mạng nơ ron mơ hình ngơn
ngữ hai chiều biLM được huấn luyện trước và
một kiến trúc có giám sát cho một bài tốn NLP
cụ thể. Chúng ta có thể cải thiện hiệu suất mơ
hình bài tốn bằng áp dụng biLM đơn giản.
Chúng ta chỉ cần chạy biLM và ghi lại tất cả các
biểu diễn lớp cho từng từ vựng một. Sau đó, mơ
hình tác vụ cuối cùng sẽ học sự kết hợp tuyến
tính các biểu diễn này. Q trình này được mô tả
như sau:
Đầu tiên lấy các lớp thấp nhất của mơ hình
giám sát mà khơng có biLM. Hầu hết các mơ hình
bài tốn NLP có giám sát đều có chung kiến trúc ở
các lớp thấp nhất, cho phép chúng ta bổ sung biểu
diễn theo ELMo theo một cách thống nhất. Cho
trước một chuỗi các token (t1,…, tN), đây là tiêu
chuẩn để xây dựng một biểu diễn token độc lập ngữ
cảnh xk cho từng vị trí của token. Việc này sử dụng
các vector từ vựng đã được tiền huấn luyện và các
biểu diễn vector dựa trên ký tự khác. Sau đó, mơ
hình sẽ tạo ra một biểu diễn cảm ngữ cảnh hk, bằng
cách sử dụng mạng nơ ron tái phát RNN hai chiều,
mạng nơ ron tích chập CNN hoặc mạng nơ ron
truyền thẳng.
Để đưa thêm ELMo vào mơ hình có giám
sát, trước tiên, chúng ta cố định các trọng số của
biLM và nối vectơ
với vector xk thành
biểu diễn ELMo nâng cao [xk;
], sau đó
truyền biểu diễn ELMo nâng cao này vào bài
tốn của mạng nơ ron tái phát RNN (hình 2 và
hình 3).
5. CÁC KẾT QUẢ THỰC NGHIỆM
Chúng tơi sử dụng bộ ngữ liệu có tiếng
Việt 4GB để tiền huấn luyện cho các embedding
của mơ hình. Trong thực nghiệm của mình,
chúng tơi sử dụng các cài đặt bộ siêu tham số
tương tự như Peters và cộng sự [2] cho biLM và
mạng CNN với ký tự. Chúng tôi huấn luyện các
tham số cho mơ hình trên một tập hợp dữ liệu 20
triệu từ được lấy mẫu ngẫu nhiên từ văn bản thơ
được thu thập thơng tin chung từ trên mạng
Internet. Có thực hiện một số thay đổi sau:
- Hỗ trợ các ký tự unicode;
- Sử dụng kỹ thuật softmax mẫu để huấn
luyện về từ vựng lớn. Sử dụng một cửa sổ từ
xung quanh từ đích làm mẫu âm và nó cho thấy
hiệu suất tốt hơn trong các thử nghiệm sơ bộ.
Các biLM được tiền huấn luyện trong bài
báo này tập trung vào biLM quy mơ lớn trong bài
tốn phân tích cú pháp, như Peters [1] nhấn mạnh
tầm quan trọng của việc sử dụng biLM so với các
mơ hình ngơn ngữ thuần túy tiến và huấn luyện
quy mô lớn.
Để cân bằng sự phức tạp của mơ hình ngơn
ngữ tổng thể với kích thước mơ hình và các u
cầu tính tốn cho các bài tốn cụ thể mà vẫn duy
trì biểu diễn đầu vào (input) hồn tồn bằng ký
tự, chúng tơi đã giảm một nửa tất cả các kích
thước nhúng. Mơ hình cuối cùng sử dụng các lớp
L = 2 biLSTM với 4096 đơn vị và các phép chiếu
512 chiều và kết nối còn lại từ lớp thứ nhất đến
lớp thứ hai. biLM cung cấp ba lớp biểu diễn cho
mỗi token đầu vào, bao gồm cả các lớp ngoài tập
huấn luyện do đầu vào thuần túy ký tự. Ngược
lại, phương pháp vector hóa từ vựng truyền thống
chỉ cung cấp một lớp biểu diễn cho mỗi token
trong một ngữ cảnh cố định.
Sau khi được xử lý trước, biLM có thể tính
tốn các biểu diễn cho bất kỳ tác vụ nào. Trong
một số trường hợp, việc tinh chỉnh biLM trên dữ
liệu cụ thể của miền dẫn đến giảm đáng kể các
nhập nhằng về nghĩa của từ và tăng hiệu suất cho
bài toán NLP.
Việc huấn luyện ELMo trên ngôn ngữ
tiếng Việt mất khoảng 3 ngày trên với GPU
NVIDIA P100. Bài tốn phân tích cú pháp được
được đánh giá trên bộ ngữ liệu tiếng Việt (Viet
Treebank) với hơn 10 nghìn câu đã gán nhãn.
Điểm đánh giá hiệu suất của mơ hình chúng tơi
sử dụng thuật tốn EVALB của Collins [22].
Để đánh giá khảo nghiệm, chúng tôi sử dụng
các mơ hình phân tích cú pháp tiếng Việt đã
được công bố trong các bài báo [17] [19] [20]
[21]. Kết quả cho thấy có những cải thiện hiệu
suất thơng qua sử dụng ELMo (bảng 1).
273
* HNKHCN Lần VI tháng 05/2020
ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH
Bảng 1. Một số kết quả PTCP cho tiếng Việt
Mơ hình
RNN p^(y|x) [17]
In-order [19]
Self-attention [20]
Labelattention[21]
Cơ
bản
76.19
80.92
81.11
81.98
F1 (%)
ELMo
77.63
82.13
82.57
82.96
+1.44
+1.21
+1.46
+0.98
Hình 4. Biểu đồ hiệu suất các bộ PTCP
6. KẾT LUẬN
Trong bài báo này, chúng tơi giới thiệu
vector hóa từ vựng dựa trên mơ hình ngơn ngữ
ELMo và nó thực sự có hiệu quả với bài tốn phần
tích cú pháp. Nếu được kết hợp với một mơ hình
phức tạp hơn, nó chắc chắn sẽ mang lại hiệu suất
cao hơn nữa. Việc áp dụng ELMo không chỉ giới
hạn ở ở bài tốn phân tích cú pháp. Nó có thể được
dụng cho các bài tốn NLP khác: Dịch máy, Mơ
hình hóa ngơn ngữ, Tóm tắt văn bản, Nhận dạng
thực thể được đặt tên, Hệ thống hỏi đáp.
TÀI LIỆU THAM KHẢO
[1]. Matthew E. Peters, Waleed Ammar, Chandra
Bhagavatula, and Russell Power. 2017. Semisupervisedsequence tagging with bidirectional
language models. In ACL.
[2]. Matthew E. Peters, Mark Neumann, Mohit
Iyyer, Matt Gardner, Christopher Clark, Kenton
Lee, Luke Zettlemoyer: Deep Contextualized
Word Representations. NAACL-HLT 2018:
2227-2237.
[3]. Tomas Mikolov, Ilya Sutskever, Kai Chen,
Greg S Corrado, and Jeff Dean. 2013. Distributed
* HNKHCN Lần VI tháng 05/2020
representations of words and phrases and their
compositionality. In NIPS.
[4]. Xiaodong Liu, Yelong Shen, Kevin Duh, and
Jianfeng Gao. 2017. Stochastic answer networks
for machine reading comprehension. arXiv
preprint arXiv:1712.03556 .
[5]. Qian Chen, Xiao-Dan Zhu, Zhen-Hua Ling,
Si Wei, Hui Jiang, and Diana Inkpen. 2017.
Enhanced lstm for natural language inference. In
ACL.
[6]. Luheng He, Kenton Lee, Mike Lewis, and
Luke S. Zettlemoyer. 2017. Deep semantic role
labeling: What works and what’s next. In ACL
[7]. John Wieting, Mohit Bansal, Kevin Gimpel,
and Karen Livescu. 2016. Charagram:
Embedding words and sentences via character ngrams. In EMNLP
[8]. Piotr Bojanowski, Edouard Grave, Armand
Joulin, and Tomas Mikolov. 2017. Enriching
word vectors with subword information. TACL
5:135-146
[9]. Oren Melamud, Jacob Goldberger, and Ido
Dagan. 2016. context2vec: Learning generic
context embedding with bidirectional lstm. In
CoNLL.
[10] Bryan McCann, James Bradbury, Caiming
Xiong, and Richard Socher. 2017. Learned in
translation: Contextualized word vectors. In NIPS
2017.
[11]. Kazuma Hashimoto, Caiming Xiong,
Yoshimasa Tsuruoka, and Richard Socher. 2017.
A joint many-task model: Growing a neural
network
for
multiple
nlp
tasks. In EMNLP 2017.
[12]. Anders Søgaard and Yoav Goldberg. 2016.
Deep multi-task learning with low level tasks
supervised at lower layers. In ACL 2016
[13] Yonatan Belinkov, Nadir Durrani, Fahim
Dalvi, Hassan Sajjad, and James R. Glass. 2017.
What do neural machine translation models learn
about morphology? In ACL.
[14]. Oren Melamud, Jacob Goldberger, and Ido
Dagan. 2016. context2vec: Learning generic
context embedding with bidirectional lstm. In
CoNLL.
[15]. Andrew M. Dai and Quoc V. Le. 2015.
Semisupervised sequence learning. In NIPS
274
ĐẠI HỌC CÔNG NGHIỆP QUẢNG NINH
[16]. Stephen Merity, Nitish Shirish Keskar, and
Richard Socher. 2017. Regularizing and
optimizing lstm language models. CoRR
abs/1708.02182.
[17]. Nguyễn Hồng Quân (2017), Phân tích cú
pháp tiếng Việt với mạng nơron tái phát, Kỷ yếu
Hội nghị khoa học trường Đại học Công nghiệp
Quảng Ninh lần thứ V, 2017.
[18]. Nguyễn Hồng Quân, Nguyễn Phương Thái
(2016), Khảo sát các lỗi cơ bản phân tích cú pháp
tiếng Việt với các bộ phân tích cú pháp đa ngơn
ngữ, Kỷ yếu Hội thảo Quốc gia lần thứ XIX, Một
số vấn đề chọn lọc của công nghệ thông tin và
truyển thông.
[19]. Nguyễn Hồng Quân (2018), Giải pháp tăng
hiệu suất phân tích cú pháp thành phần tiếng Việt
bằng phương pháp thứ tự giữa, Tập san trường
Đại học công nghiệp Quảng Ninh số 45.
[20]. Nguyễn Hồng Quân (2018), Cải tiến phân
tích cú pháp tiếng Việt với kỹ thuật attention. Tập
san trường Đại học công nghiệp Quảng Ninh số
46.
[21]. Nguyễn Hồng Quân (2019), Nâng cao hiệu
suất phân tích cú pháp bằng cơ chế diễn dịch
label-attention. Tập san trường Đại học công
nghiệp Quảng Ninh số 49.
[22]. M. Collins. Head-Driven Statistical Models
for Natural Language Parsing. PhD thesis,
University of Pennsylvania, 1999.
275
* HNKHCN Lần VI tháng 05/2020