Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (349.17 KB, 7 trang )

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

Phương pháp tạo ra văn bản tiếng Việt có đề
tài xác định
Từ Minh Đăng, Đỗ Ngọc Minh
Trường Đại học Công Nghệ - Đại học Quốc Gia Hà Nội
Email: ,

Tóm tắt—Trong bài báo này, chúng tôi nghiên cứu và
phát triển hệ thống điều khiển sinh văn bản tiếng việt có
đề tài xác định nhằm tạo ra trải nghiệm tương tác tốt
giữa người và máy. Nghiên cứu của chúng tôi hướng đến
việc tạo ra văn bản rõ ràng, mạch lạc và hơn hết là nó
được áp dụng trên mơi trường ngơn ngữ đặc thù - tiếng
Việt. Phương pháp đề xuất điều khiển việc sinh văn bản
mà không cần cập nhật các siêu tham số khi các chủ đề
mới được thêm vào. Kết quả cho thấy rằng, phương pháp
của chúng tơi có độ chính xác và ổn định cao dựa trên
các tiêu chí đánh giá so với các phương pháp khác hiện
nay. Do đó, phương pháp đề xuất có thể được áp dụng dễ
dàng cho các mơ hình với ngơn ngữ tiếng việt trong tương
lai mà không phải thay đổi nhiều để đạt được hiệu quả
tốt.
Từ khóa—Sinh văn bản, tiếng việt, đề tài xác định.

I. GIỚI THIỆU
Trong những năm gần đây, khi mà các phương pháp
học sâu đã thể hiện được khả năng vượt trội trong các
lĩnh vực trí tuệ nhân tạo về nhận dạng đối tượng, điển
hình như những hệ thống của GoogLeNet. Tuy nhiên đối
với lĩnh vực xử lý ngôn ngữ tự nhiên, thời điểm trước

năm 2017 các phương pháp vẫn chưa đạt được hiệu quả
như mong đợi rằng nó có khả năng hoạt động tương
tự như hệ thống ngôn ngữ của con người. Sau đó, khi
Transformer [1] được ra đời vào năm 2017, nó đã tạo
ra bước ngoặc lớn trong sự phát triển những mơ hình
ngơn ngữ mạnh mẽ như [2], [3]. Điều đó giúp cho các
hệ thống xử lý ngơn ngữ tự nhiên hoạt động hiệu quả
trên những bộ dữ liệu lớn và phức tạp.
Đối với lĩnh vực xử lý ngôn ngữ tự nhiên, việc tạo
ra văn bản dài mạch lạc rất hữu ích cho các ứng dụng
như: trợ lý ảo, máy phiên dịch, tạo báo cáo, bài luận và
các văn bản có nội dung dạng dài khác. Tuy nhiên, để
giải quyết các vấn đề này địi hỏi các mơ hình cần nắm
bắt được thơng tin tồn cục, lập kế hoạch nội dung và
tạo ra các từ lân cận một cách nhất quán. Các hệ thống
áp dụng Transformer đã giải quyết được các vấn đề trên
nhưng vẫn còn nhiều hạn chế trong việc tạo ra văn bản
dài mạch lạc. Những hệ thống dựa vào các mơ hình như

ISBN 978-604-80-7468-5

446

BERT [4], T5 [5], GPT-2 [6], BART [7] có khả năng
sinh văn bản ấn tượng đi kèm với sự bản trôi chảy đáng
ngạc nhiên. Các mơ hình này thường được huấn luyện
trước trên bộ dữ liệu lớn, và sau đó được tinh chỉnh với
từng dữ liệu cụ thể. Tuy nhiên, các mơ hình hiện nay
đều gặp phải những hạn chế như sau. Thứ nhất, một từ
trong văn bản sinh ra được lặp lại nhiều lần. Thứ hai,

văn bản sinh ra có độ chính xác ngữ pháp cao nhưng có
thể sai về ngữ nghĩa. Cuối cùng, đối với việc sinh ra văn
bản có đề tài xác định, độ chính xác đề tài bị suy giảm
theo độ dài của văn bản. Để khắc phục được những hạn
chế này, các hệ thống cần có cơ chế điều khiển việc
sinh văn bản, điển hình như [8], [9]. Một trong số đó
là sử dụng học tăng cường để đánh dấu những giá trị
cần được điều khiển. Các phương pháp học sâu có ưu
điểm về độ chân thực của các câu, nhưng chúng cần dữ
liệu lớn nhằm thực hiện việc huấn luyện và thay đổi các
siêu tham số của mơ hình sinh văn bản.
Trong nghiên cứu này, chúng tơi tập trung vào việc
điều khiển sinh văn bản có độ phù hợp cao với đề tài
cho trước mà không cần thay đổi các siêu tham số trong
mơ hình. Điều này cũng tương tự với việc tạo ra hình
ảnh từ chủ đề cho trước trong lĩnh vực xử lý ảnh và thị
giác máy tính. Trong đó có một phương pháp là Plug
Play Generative Networks (PPGN) [10] đã dựa vào cơ
chế tạo ra những hình ảnh có thuộc tính khác nhau và
gán một bộ phân biệt thuộc tính (Atribute Model-AM)
để biệt những thuộc tính đó bên cạnh thuộc tính được
tạo ra bởi bộ sinh, từ đó ta có thể tạo ra được ảnh mà
chứa thuộc tính của đề tài được yêu cầu. Do đó, nghiên
cứu này áp dụng bộ phân biệt thuộc tính này nhằm điều
khiển các câu được sinh ra có chủ đề đã được xác định.
Bộ phân biệt này bao gồm một phần để thay đổi giá
trị của hàm mất mát thực hiện phản hồi hàm mất mát
này vào các khối sinh từ để đưa ra một từ khác và có
ý nghĩa gần đúng với chủ đề yêu cầu. Hơn nữa, đối với
mơ hình hiện nay thường được tạo ra để hỗ trợ các ngôn

ngữ phổ biến trên thế giới như: tiếng Anh, tiếng Trung,
tiếng Tây Ban Nha, v.v. Nhưng đối với những ngôn ngữ

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2022)

ít phổ biến và phức tạp như tiếng Việt thì chưa có mơ
hình tối ưu cho việc sinh văn bản có đề tài cho trước.
Những mơ hình hiện tại hỗ trợ ngơn ngữ tiếng Việt đều
hoạt động theo nguyên tắc sinh từ đơn nên chúng không
giải quyết được những vấn đề của từ ghép và câu dài
mạch lạc. Do đó, nghiên cứu của chúng tơi tập trung
vào việc tạo ra mơ hình điều khiển sinh văn bản tiếng
Việt có đề tài xác định.
II. CÁC NGHIÊN CỨU LIÊN QUAN
Trong việc điều khiển sinh văn bản đã có những
nghiên cứu đạt được kết quả tốt như: phương pháp điều
khiển sinh văn bản sử dụng với mơ hình học tăng cường
[11], huấn luyện một mơ hình Generative adversarial
network (GAN) để điều khiển [11], huấn luyện mô hình
sinh câu có điều kiện ([12], [8]), hoặc là phương pháp
điều khiển sinh văn bản bằng kỹ thuật học máy [13]. Tuy
nhiên, những phương pháp này đều cần một lớn lượng
dữ liệu với các đề tài khác nhau nên thường không thể
đạt được việc xử lý thời gian thực cho các hệ thống
hiện nay. Điển hình như đối với phương pháp sủ dụng
GAN [11], phương pháp này hoạt động bằng việc học
các đặc tính dữ liệu để thực hiện phép cộng nhiễu và
tính xác suất diễn ra dựa vào câu đầu vào. Tính chất
phương pháp GAN vẫn là sinh ra dữ liệu dựa vào cả dữ

liệu thật và nhiễu qua bộ mã hóa và giải mã.
Tiếp theo, phương pháp đã đạt được hiệu quả cao
bằng việc sử dụng học tăng cường để điều khiển sinh
câu [11]. Phương pháp này sử dụng học tăng cường làm
chiến lược để huấn luyện và qua đó đánh giá tính liên
quan đến nhau của văn bản với đề tài đã yêu cầu. Đầu
tiên nó thiết lập thuộc tính của đề tài cần thực hiện nhằm
tạo ra một môi trường huấn luyện cho học tăng cường,
sau đó thực hiện huấn luyện bằng mơ hình MLE+PG.
Cuối cùng, bằng việc tinh chỉnh mơ hình này theo các
nhóm chủ đề để có thể điều khiển việc sinh văn bản.
Phương pháp này được đánh giá bằng tiêu chí độ chính
xác liên quan đến đề tài (BLEU) [14] và độ ổn định
(ROGER) [15] lần lượt là 71.68%, 70%. Điều đó cho
thấy rằng, phương pháp này gần như là cao nhất trong
tất cả các mơ hình được giới thiệu trong thời gian gần
đây với khả năng áp dụng rộng với nhiều ngôn ngữ. Tuy
nhiên, nó có một vấn đề rất lớn đó là dữ liệu để tạo một
môi trường huấn luyện như thế này thường rất lớn và
phức tạp. Mặt khác, phương pháp này u cầu khả năng
tính tốn lớn nên rất khó khăn trong việc trên thiết bị
phần cứng hiện nay.
Phương pháp thứ hai cũng có kết quả tốt bằng thực
hiện huấn luyện lại một mơ hình ngơn ngữ có điều kiện
để điều khiển sinh văn bản, đó là mơ hình CTRL [8].
Phương pháp được sử dụng trong mơ hình này là mở

ISBN 978-604-80-7468-5

447

rộng phương pháp GPT được Open AI phát triển theo
hướng có thể đưa điều kiện vào. Với 1.6 tỷ phép tính
và 50 bộ điều khiển cho phép điều khiển 50 dạng đề
tài khác nhau. Kết quả của phương pháp này là 69.82%
cho độ chính xác liên quan đến đề tài và 75% độ ổn
định. Phương pháp này có kết quả khá là tốt vì được
điều khiển thơng qua các điều kiện cài đặt từ trước, với
các đề tài đã được đánh dấu từ trước. Phương pháp đưa
lại hiệu quả cao như đã nêu ở trên, gặp khó khăn khi mở
rộng các đề tài điều kiển việc sinh ra câu, tăng cường
độ chính xác dựa vào tinh chỉnh lại mơ hình với các đề
tài khác nhau, tuy vậy thì việc sử dụng nó trong ngơn
ngữ khác là rất khó bởi những phần điều khiển nó đi
liền với phần mơ hình ngơn ngữ.
Phương pháp thứ ba là Plug and play language model
(PPLM) [13] dùng kĩ thuật của học máy đề điều khiển
sinh câu. Phương pháp này sử dụng túi từ kết hợp với
chia lại giá trị p(x|a) của câu đó rồi dùng softmax để
lấy ra giá trị véc-tơ. Bằng việc cho mơ hình ngơn ngữ
sinh ra một câu ngẫu nhiên và sử dụng những thuộc tính
đề tài đã được chuyển đổi, với nguồn từ vựng mới thực
hiện sinh ra để cập nhật lại đường quy định đầu ra và
những token của đầu ra. Độ chính xác của phương pháp
này cũng được đo bằng BLUE [14] với ROGER [15] độ
chính xác về đề tài là 40% nhưng bù lại độ ổn định là
88%. Phương pháp này có độ ổn định rất cao nên có thể
khơng rơi vào trạng thái rời khỏi storyline và nó rất dễ
dàng triển khai nếu có mơ hình ngơn ngữ phù hợp chỉ
cần tinh chỉnh 1 phần của đoạn chuyển thì có thể điều

khiển được, nhưng nó cần phải có một túi từ để làm
thuộc tính cho đề tài đó và làm một túi từ cho phù hợp
khơng phải dễ, phụ thuộc vào mơ hình ngơn ngữ nếu
mơ hình ngơn ngữ khơng tạo ra các định dạng câu thể
hiện tính liên kết thì cũng khơng thể điều khiển được.
Những phương pháp trên đều được áp dụng trong
Tiếng Anh nơi mà nguồn dữ liệu phong phú khi mà
áp dụng ở tiếng Việt mới mà dữ liệu ít mà khi xử lý
xong cịn lại rất ít nên việc đi tìm đủ dữ liệu để thực
hiện khá là khó khăn. Trong tiếng Việt những phương
pháp về điều khiển được sử dụng là CTRL [8] được sử
dụng ở FPT bot của tập đồn FPT tuy nhiên thì dữ liệu
được sử dụng ở đó là khơng được cơng bố. Vì những
phương pháp khác yêu cầu lượng dữ liệu quá lớn để
thực hiện do vậy ta có thấy lấy từ ý tưởng của phương
pháp PPLM để sử dụng trong tiếng Việt. Khi đó việc
điều khiển sinh câu sẽ trở nên có thể triển khai hơn là
việc thực hiện một mơ hình hồn tồn với tiếng Việt.
III. MƠ

HÌNH ĐỀ XUẤT

Trong phần này, chúng tơi mơ tả mơ hình đề xuất để
điều khiển việc sinh văn bản tiếng Việt có đề tài xác

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

ra, GPT 2 sử dụng cơ chế của Transformer để tạo một
tập hợp gồm các cặp khóa và giá trị. Với mỗi phần tử

đại diện cho một lớp được sinh ra trong quá trình thực
hiên mơ hình. Tập hợp này được sử dụng để tạo ra xt
và giá trị Ht là giá trị của phân lớp từ bước 0 đến bước
t có thể tóm tắt bằng cơng thức sau.
ot+1 , Ht+1 = LM (xt , Ht )

Hình 1. Mơ hình điều khiển câu

định. Mơ hình được trình bày theo ba phần: Hiệu chỉnh
giá trị của Mơ hình Transformer được huấn luyện cho
việc sinh, Chiến lược điều khiển và Phương thức thiết
lập điều kiện lần được mô tả sau đây.
A. Hiệu chỉnh giá trị của Mơ hình Transformer được
huấn luyện trước cho việc sinh
Phương pháp Transformer đã tạo tiền đề cho việc phát
triển những mơ hình ngơn ngữ rất lớn mà có thể tạo ra
nhờ lượng dữ liệu khổng lồ. Qua đó, Transformer đã đạt
được những thành tựu rất nổi bật. Thứ nhất, nó tạo ra mơ
hình ngơn ngữ có độ chính xác cao tiêu biểu như BERT
[16]. Đồng thời, Transformer đã cải thiện khả năng thực
hiện những nhiệm vụ liên quan đến ngôn ngữ tự nhiên
như là nhận dạng tiếng nói, dịch máy ngày càng hiệu
quả. Nó đã đưa ra hướng đi mới cho giao tiếp giữa người
và máy tiến dần đến giai đoạn mà chúng ta sẽ không biết
là người hay máy nói chuyện với chúng ta. Tiếp theo,
trong nhiệm vụ tạo ra văn bản thì Mơ hình Transformer
được huấn luyện trước cho việc sinh (Generative Pretrained Transformer-GPT) là phương pháp được đánh
giá hiệu quả nhất trong lĩnh vực này với lần lượt các
phiên bản GPT 1 [17], GPT 2 [6] và mới nhất là GPT
3 [18]. Tuy nhiên, trong nghiên cứu này, chúng tôi sử

dụng GPT 2 để thực hiện tạo mơ hình ngơn ngữ và
điều khiển nó. Theo đó, khi đưa một chuỗi ký tự X =
{x1 ,x2 ,. . . xn } vào mơ hình ngơn ngữ thì thu được xác
suất của tồn bộ chuỗi ký tự đó p(X) như trong công
thức (1).
n

p(xi |x0 , x1 , . . . , xi+1 )

p(X) =

(1)

i=1

Công thức ở trên biểu diễn xác suất một chuỗi có thể
tồn tại đối với mơ hình ngơn ngữ và nó quyết định việc
mơ hình tiếp tục sinh câu. Khi xác suất thấp mơ hình sẽ
dừng việc tạo ra từ mới và lặp lại từ cũ trước đó. Ngồi

ISBN 978-604-80-7468-5

448

(2)

Trong đó, Véc-tơ ot+1 được tạo ra thông qua việc đưa
chuỗi giá trị đầu vào và giá trị phân lớp Ht qua mơ hình
ngơn ngữ LM . Với một ánh xạ tuyến tính W cho phép
chuyển Véc-tơ thể hiện giá trị của gradient ot+1 thành

Véc-tơ từ vựng thì lúc đó xt+1 = Sof tmax(W ∗ ot+1 ).
Điều này cho phép tạo ra ngôn ngữ hiệu quả hơn mà
khơng cần phải lặp lại q trình cho từng từ riêng biêt.
Từ đó, chúng tơi sử dụng GPT-2 trong việc triển khai
trên bộ dữ liệu tiếng Việt. Thêm vào đó, nghiên cứu này
không thực hiện huấn luyện từ giá trị trọng số là 0 mà
thực hiện tinh chỉnh lại bằng việc sử dụng mơ hình đã
được huấn luyện và thực hiện thay đổi tinh chỉnh thuật
toán tách từ (tokenizer). Phương pháp tinh chỉnh ở GPT
được thực hiện nhờ phương pháp cập nhật lại nguồn từ
vựng, đưa nguồn dữ liệu từ ngữ của tiếng Việt vào trong
chuỗi từ của tiếng Anh. Tinh chỉnh cần phải giảm tối
đa việc sử dụng dữ liệu nên phương pháp thường triển
khai nhất đối với tiếng Việt là không thay đổi trọng số
của các phân lớp đầu mà chỉ thay đổi ở các phân lớp
sau của mơ hình. Thực hiện BPE [19] trên tồn bộ dữ
liệu huấn luyện đi vào chuyển về dạng GPT. Đối với
tiếng Việt có cặp từ ghép việc dùng mã hóa BPE giữ
được tính nguyên vẹn của từ ghép so với việc dùng các
cách mã hóa đơn từ, cặp từ. Sau khi chuyển BPE sang
GPT, mơ hình thực hiện việc cập nhật gói từ vựng. Cuối
cùng, nó thực hiện tinh chỉnh trên tồn bộ các thơng số
trong mơ hình GPT.
B. Chiến lược điều khiển
Theo như đã trình bày ở trên thì GPT dù là phương
pháp hiệu quả nhất trong việc sinh câu hiện nay, nhưng
nó khơng có khả năng điều khiển được câu một cách
hiệu quả và vẫn chưa đạt được khả năng tạo câu theo
điều kiện. Do đó, chúng tơi đề xuất phương pháp dựa
trên Plug and play language model (PPLM) [13] trong

ngơn ngữ tiếng Anh và thực hiện nó trên ngơn ngữ tiếng
Việt. Để có thể điều khiển đầu ra cho một hệ thống sinh
văn bản, ở bước thực hiện thứ t, ta cần phải biết được
giá trị theo hướng là tổng của hai gradient bao gồm một
gradient biểu thị cho mơ hình sinh có tính liên kết với
đề tài p(x|a) và một gradient biểu thị cho mơ hình sinh
cơ bản được thêm vào đầu tiên p(x). Sử dụng xác suất
p(x|a) đưa các từ thuộc đề tài được thêm giá trị về mặt

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

logit đưa các từ thuộc đề tài ở vị trí cao hơn trong véc-tơ
đầu ra, khi mà lấy mẫu có thể lấy được từ thuộc đề tài
và thay đổi giá trị của gradient thay đổi không tạo ra câu
vô nghĩa. Nguyên tắc dựa vào việc lấy mẫu của véc-tơ
đầu ra thông qua giá trị của gradient sử dụng gradient
mới đưa các từ thể hiện chủ đề có giá trị xác suất cao
hơn. Khi qua một giai đoạn thì Ht sẽ được cập nhật vì
Ht sẽ khơng cần cập nhật liên tục do nó dựa vào phần
quá khứ đã được sinh ra để thực hiện điều chỉnh nên chỉ
cần thay đổi một lượng phù hợp để thay đổi phân phối
của đầu ra sau khi được lấy mẫu, nên ta sử dụng giá trị
∆H để cập nhật cho Ht sao cho Ht + ∆H làm thay
đổi được phân phối có khả năng chứa thuộc tính cho đề
tài mong muốn. ∆H sẽ được khởi tạo với giá trị là 0
khi bắt đầu quá trình và được cập nhật bởi gradient của
mơ hình dùng để tạo ra thuộc tính mong muốn khi đó
thì p(x|a) sẽ được viết lại là p(x| Ht + ∆H) với giá trị
∆H sẽ được tính như cơng thức:

∇δHt ∗log(p(x|Ht +δH)
∆H ← ∆H + α ∗
||∇δHt ∗log(p(x|Ht +δH) ||γ

(3)

Với α là khoảng đã thực hiện γ , là hệ số được chuẩn
hóa ∆H . sẽ được cập nhật một lượng nhất định. Sau khi
đã cập nhật lại Ht + ∆H + ta sẽ tính lại giá trị ⃗vot+1 và
thực hiện quá trình biến về véc-tơ từ vựng thực hiện sinh
câu. Giá trị của p(x) sẽ được tạo ra bởi hệ thống sinh câu
được với những phương pháp nhưng GPT hay là T5 và ta
biết là p(x) sẽ có độ lệch lớn vì nó khơng được cố định
chủ đề để lựa chọn mà biến đổi theo dạng phù hợp với
giá trị xác suất tìm ra. Ta sẽ sử dụng Kullback–Leibler
[20] nhằm giảm sự phân kì của p(x) bằng cách cập nhật
∆H phù hợp với quá trình đó thực hiện nhờ cộng dồn
các đại lượng trước khi gradient.
C. Phương thức thiết lập điều kiện
Ta biết rằng việc đưa ra giá trị khuyên dùng là một
phần quan trọng trong việc cập nhật nhằm tạo sự thay
đổi trong phân phối xác suất từ đó tạo ra đường gradient
mới nhằm mở rộng. Bằng cách tạo ra giá trị đầu vào
của các từ được cung cấp làm thanh điều khiển của đề
tài. Có thể tạo ra một chuỗi từ làm từ khóa , hoặc sử
dụng một bộ phân phối câu làm định tuyến để thực hiện
tạo từ khóa để điều khiển mơ hình ngơn ngữ với phân
phối là và Với các từ biểu hiện chủ đề là {w1 , . . . , wk }
cùng với phân phối đầu ra của mơ hình ngơn ngữ pt+1
là một giá trị trong chuỗi từ khóa nhằm chỉ định chủ đề

cần thực hiện theo :
k

log(p(x|a)) = log(

pt+1 [wi ])

(4)

1

ISBN 978-604-80-7468-5

449

Bảng I
CẤU
STT
1
2
3

HÌNH PHẦN CỨNG

Tên thiết bị
CPU
GPU
RAM

Mơ tả

Intel Xeno Sivel 4210
Nvidia Tesla T4
64GB

Trong đó, x là giá trị của token câu chữ và a là giá trị
của chủ đề. Công thức trên giúp cho việc lấy các xác
suất từ đó so với bộ từ đặc trưng của đề tài được xác
định. p(x|a) là xác suất 1 từ có thuộc đề tài hay khơng.
Việc lấy log đưa ra giá trị để xác nhận. Từ đó tăng giá
trị của các từ ở trong véc-tơ sinh ra của p(x) từ đó tăng
tỉ lệ xuất hiện các từ thuộc đề tài.
IV. THỰC NGHIỆM VÀ KẾT QUẢ
A. Điều kiện kiểm thử
Từ các giá trị ở trên thời gian thực hiện huấn luyện là
168 tiếng nhằm để đưa mơ hình từ tiếng Anh sang mơ
hình tiếng Việt từ đó thực hiện bài tốn. Trong nghiên
cứu này, chúng tơi sử dụng bộ dữ liệu là các bài viết
trên Wikipedia cho việc thực hiện tinh chỉnh GPT tiếng
Anh sang GPT tiếng Việt. Bộ dữ liệu này có dung lượng
2GB và bao gồm những đoạn văn ngắn mô tả về những
sự vật, sự việc. Thêm vào đó, nó bao gồm những câu
nêu định nghĩa và viết theo nguyên tắc tách thông tin
mà không sử dụng biện pháp nghệ thuật nên câu sẽ có
cấu trúc rõ ràng và khơng q phức tạp. Từ đó, mơ hình
có thể giảm thiểu việc sử dụng vượt mức tài nguyên để
huấn luyện, thời gian và độ phức tạp tính tốn. Ngồi ra,
đối với những câu phức tạp hơn, chúng tôi sử dụng bộ
dữ liệu thứ hai là A Large-scale Vietnamese News Text
Classification Corpus cho việc thực hiện tạo ra mơ hình
sinh câu văn theo chủ đề. Bộ dữ liệu này chứa những

câu ở trong những tác phẩm văn học Việt Nam.
Với bộ dữ liệu này, chúng thôi thực hiện mơ hình trên
thiết bị được mơ tả trong bảng I và thời gian thực hiện
huấn luyện là 168 tiếng.
B. Phương pháp kiểm thử
Để đánh giá các mơ hình sinh văn bản, hiện nay có
hai phương pháp kiểm thử chính đó là dùng thuật toán
để kiểm thử tự động hoặc sử dụng khả năng kiểm thử
của con người bao gồm:
Sử dụng con người để kiểm thử: phương pháp này
đánh giá thang điểm từ 1-5 của một câu sinh ra mang
chủ đề đặc trưng từ đó sẽ cho điểm với 1 điểm là ‘rất tệ’
và 5 điểm là ‘tốt’ để đánh giá mơ hình [21]. Tuy nhiên,
việc con người đánh giá chỉ mang tính chủ quan và khó
để xác định chính xác tính hiệu quả của mơ hình.

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

Sử dụng thuật tốn để kiểm thử: Sử dụng tiêu chí
về độ trơi chảy và ngữ pháp để tự động đánh giá hệ
thống. Hai hệ thống thường được dùng để đánh giá bao
gồm BLEU [14]. Ngoài ra, để đánh giá ngữ pháp của
câu có thể sử dụng những hệ thống như là Dist-1 , Dist2, Dist-3 để tính 1-gram, 2-gram, 3-gram, với lần lượt
giá trị của 1-gram, 2-gram, 3-gram là biểu diễn cho độ
chính xác khi mà các từ liên kết với nhau.
n

P (wk |w1:k−1 )

(5)

count(w1 . . . wk )
w1 . . . wk−1

(6)

P (w1:n ) =

Bảng II
KẾT QUẢ SO SÁNH PHƯƠNG PHÁP ĐỀ XUẤT VỚI CÁC PHƯƠNG PHÁP
KHÁC

Mơ hình

Độ
chính
xác (%)

BLEU

GPT2
GPT2-H
CTRL
WD
MLE+PG
Proposed

19.3
21.8

50.3
37.2
64.2
56.8

0.92
0.90
0.78
/
0.95
0.93

Độ
bất ổn
định

Dist
1
0.37
0.54
0.35
0.33
/
0.34

2
0.70
0.91
0.60
0.69

/
0.72

3
0.91
0.92
0.89
0.83
0.90
0.90

38.9
217.0
37.0
34.6
28.7
13.1

1

P (wk |w1:k−1 ) =

Tiếp theo, để tính giá trị BLEU, trước tiên ta có giá trị
của Geometric Average Precision được tính theo cơng
thức sau.
N
n
pw
n

GAP (N ) =

(7)

n=1

giá trị wn là hằng số biến chuyển của bộ tính tốn
phụ thuộc vào số lượng N-gram được thực hiện. Giá
trị Brevity Penalty (BP) xác định sự giống nhau về độ
dài của câu sinh ra với câu đối chiếu.
BP =

1,
cr
e1− c , c ≥ r

BLEU (N ) = BP ∗ GAP (N )

(8)

(9)

Để xác định độ chính xác của nghĩa câu thì chúng ta
có thể dùng API có chứa text classifiers để xác định
có thể dùng một số hệ thống của FPT hoặc API trên
google cloud. Phương pháp BLEU sử dụng NLTK để
chấm điểm việc đúng ngữ pháp bằng cách đếm những
n-gram trong bản được tạo (A) đối với bản sử dụng để
tham chiếu để đối chứng trong dó n-gram là đọ chính

xác về ngữ pháp của từ với từ. Từ giá trí đó thực hiện
so sánh câu so với câu tham chiếu. Dist-1, Dist-2, Dist3 [22] thực hiện theo nguyên tắc là chính xác từng từ,
chính xác một từ tuần tự và chính xác 1 liên từ vẫn dựa
vào bộ đo giữa câu sinh ra và câu tham chiếu. Độ hính
xác về ngữ nghĩa phải sử dụng phân loại câu như đã
nêu ở trên. Phương pháp này dựa vào đặc tính của mọi
dạng câu để đưa ra kết quả việc đặc tính của câu về một
chủ đề nhằm đánh giá câu với một chủ đề hê thống của
google có độ chính xác là 98% cho tiếng Việt. Để đo
là độ chính xác của từ và độ bất ổn định [22] của câu
trong điều khiển câu thì giá trị độ bất ổn định của câu
vẫn còn giá trị trong việc đảm bảo tránh rơi vào lỗi câu

ISBN 978-604-80-7468-5

450

rơi vào những trường hợp có giá trị thấp, câu vô nghĩa
và được theo công thức:
P P (W ) =

1
n

P (w1 , w2 , . . . , wn )

(10)

Giá trị độ bất ổn định biểu hiện khả năng gặp lỗi khi mà
thực hiện việc tạo ra các từ vào các vị trí tiếp theo của

câu. Khác với kiểm tra lỗi chính tả là thêm một từ với
các từ xung quanh thì độ bất ổn định của mơ hình sinh
văn bản là việc hạn chế sinh ra câu vô nghĩa khi càng
sinh văn bản ra, không tạo ra các câu bị chồng thông tin
là lỗi liên kết từ. Với độ bất ổn định càng thấp thì việc
ước lượng biến và mẫu tiếp theo sẽ có độ chính xác cao
và tránh mất nghĩa sai ngữ pháp giảm thiểu việc mất đi
khả năng trơn tru trong câu văn về việc nói (dựa vào
đánh giá của con người)
C. Kết quả đánh giá
Để đánh giá phương pháp đề xuất, chúng tôi đã so
sánh với những hệ thống sau đây bao gồm: GPT2 [6]
là mơ hình cơ bản chưa được điều khiển, GPT2-H [23]
là mơ hình sử dụng con người làm đánh giá, CTRL [8]
mơ hình Transformer sinh câu theo điều kiện có sẵn,
MLE+PG [11] là mơ hình sử dụng học tăng cường để
điều khiển và WD [24] là phương pháp sinh câu nhờ
vào việc đánh dấu các giá trị của của LM.
Kết quả trong bảng II dựa vào tiêu chí về độ chính xác,
BLEU, Dist-n và độ bất ổn định. Ta thấy rằng phương
pháp đề xuất có độ chính xác là 56.8%, tuy có giá trị
chưa phải cao nhất nhưng vẫn ở mức có thể chấp nhận
được. Đối với các mơ hình khơng sử dụng học tăng
cường thì phương pháp được đề cử có kết quả tốt hơn
so với việc sủ dụng các thuật toán học sâu. Giá trị của
phép đo độ chính xác của ngữ pháp gần tương đương
nhau khơng có sự biến đổi nhiều do tất cả đều được
thực hiện lại ở trên phần lõi của GPT. Giá trị của độ bất
ổn định với giá trị càng thấp thì độ ổn định của phương
pháp càng cao và phương pháp đề cử có giá trị độ bất

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

ổn định thấp nhất là 13.07. Điều này xảy ra do phương
pháp để xuất có dựa vào việc thực hiện đặt lại thứ hạng
đề cử của các từ được tạo ra bởi mô hình ngơn ngữ kết
hợp với những giá trị cũ của mơ hình đã được sinh ra.
Ngược lại, đối với những phương pháp khác như CTRL,
GPT2-H và WD dựa vào việc thiết lập sẵn giá trị của
đề tài để thực hiện điều khiển và MLE+PGL là mơ hình
học tăng cường độ ổn định sẽ phụ thuộc hồn tồn vào
việc mơi trường thực hiện có ổn khơng. Với độ ổn định
cao, phương pháp đề xuất có thể tránh được trường hợp
lỗi đặc trưng là việc sinh ra một câu chỉ chứa một vài
từ hoặc một từ duy nhất.
V. KẾT LUẬN
Việc điều khiển sinh văn bản vẫn là một vấn đề được
chú trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên nhằm
tạo ra mơ hình sinh văn bản trong việc giao tiếp giữa
người và máy. Những phương pháp được nêu ở trên và
phương pháp đề xuất đều nhằm mục tiêu đưa ra một
đoạn văn với đề tài đã được cho trước. Phương pháp được
đề xuất có thể thực hiện việc điều khiển mà không cần
phải thay đổi giá trị của các siêu tham số. Việc không
thay đổi này sẽ hạn chế được việc huấn luyện lại mơ
hình khi mà muốn thêm đề tài vào hệ thống điều khiển.
Thêm vào đó, nó phù hợp để áp dụng vào những hệ
thống mà khả năng xử lý của phần cứng thấp. Mơ hình
đề xuất đã đạt được sự ổn định tốt hơn các phương pháp

hiện nay trong việc sinh văn bản tiếng Việt có đề tài xác
định. Hơn nữa, phương pháp đề xuất vì dựa vào giá trị
đầu ra của mơ hình ngơn ngữ mà khơng thay đổi cách
thức hoạt động của mơ hình ngơn ngữ nên có thể sử
dụng cho các mơ hình trong tương lai mà không cần
biến đổi quá nhiều.
TÀI LIỆU

THAM KHẢO

[1] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones,
A. N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all
you need,” Advances in neural information processing systems,
vol. 30, 2017.
[2] R. Socher, A. Perelygin, J. Wu, J. Chuang, C. D. Manning,
A. Ng, and C. Potts, “Recursive deep models for semantic
compositionality over a sentiment treebank,” in Proceedings
of the 2013 Conference on Empirical Methods in Natural
Language Processing. Seattle, Washington, USA: Association
for Computational Linguistics, Oct. 2013, pp. 1631–1642.
[Online]. Available: />[3] Y. Elazar and Y. Goldberg, “Adversarial removal of demographic
attributes from text data,” in Proceedings of the 2018
Conference on Empirical Methods in Natural Language
Processing. Brussels, Belgium: Association for Computational
Linguistics, Oct.-Nov. 2018, pp. 11–21. [Online]. Available:
/>[4] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova,
“Bert: Pre-training of deep bidirectional transformers
for language understanding,” 2018. [Online]. Available:
/>
ISBN 978-604-80-7468-5

451

[5] C. Raffel, N. Shazeer, A. Roberts, K. Lee, S. Narang,
M. Matena, Y. Zhou, W. Li, and P. J. Liu, “Exploring the limits
of transfer learning with a unified text-to-text transformer,”
2019. [Online]. Available: />[6] A. Radford, J. Wu, R. Child, D. Luan, D. Amodei, I. Sutskever
et al., “Language models are unsupervised multitask learners,”
OpenAI blog, vol. 1, no. 8, p. 9, 2019.
[7] M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad,
A. Mohamed, O. Levy, V. Stoyanov, and L. Zettlemoyer,
“Bart: Denoising sequence-to-sequence pre-training for natural
language generation, translation, and comprehension,” 2019.
[Online]. Available: />[8] N. S. Keskar, B. McCann, L. Varshney, C. Xiong, and R. Socher,
“CTRL - A Conditional Transformer Language Model for Controllable Generation,” arXiv preprint arXiv:1909.05858, 2019.
[9] H. Shao, J. Wang, H. Lin, X. Zhang, A. Zhang, H. Ji,
and T. Abdelzaher, “Controllable and diverse text generation
in e-commerce,” in Proceedings of the Web Conference
2021, ser. WWW ’21. New York, NY, USA: Association for
Computing Machinery, 2021, p. 2392–2401. [Online]. Available:
/>[10] A. Nguyen, J. Clune, Y. Bengio, A. Dosovitskiy, and
J. Yosinski, “Plug amp; play generative networks: Conditional
iterative generation of images in latent space,” 2016. [Online].
Available: />[11] L. Yu, W. Zhang, J. Wang, and Y. Yu, “Seqgan: Sequence
generative adversarial nets with policy gradient,” 2016. [Online].
Available: />[12] D. M. Ziegler, N. Stiennon, J. Wu, T. B. Brown, A. Radford,
D. Amodei, P. Christiano, and G. Irving, “Fine-tuning language
models from human preferences,” 2019. [Online]. Available:
/>[13] S. Dathathri, A. Madotto, J. Lan, J. Hung, E. Frank, P. Molino,
J. Yosinski, and R. Liu, “Plug and play language models: A

simple approach to controlled text generation,” in International
Conference on Learning Representations, 2020. [Online].
Available: />[14] K. Papineni, S. Roukos, T. Ward, and W.-J. Zhu, “Bleu: a
method for automatic evaluation of machine translation,” in
Proceedings of the 40th Annual Meeting of the Association
for Computational Linguistics. Philadelphia, Pennsylvania,
USA: Association for Computational Linguistics, Jul. 2002, pp.
311–318. [Online]. Available: />[15] K. Ganesan, “Rouge 2.0: Updated and improved measures for
evaluation of summarization tasks,” 2018. [Online]. Available:
/>[16] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova,
“Bert: Pre-training of deep bidirectional transformers
for language understanding,” 2018. [Online]. Available:
/>[17] A. Radford, K. Narasimhan, T. Salimans, I. Sutskever et al.,
“Improving language understanding by generative pre-training,”
2018.
[18] T. Brown, B. Mann, N. Ryder, M. Subbiah, J. D. Kaplan,
P. Dhariwal, A. Neelakantan, P. Shyam, G. Sastry, A. Askell
et al., “Language models are few-shot learners,” Advances in
neural information processing systems, vol. 33, pp. 1877–1901,
2020.
[19] R. Sennrich, B. Haddow, and A. Birch, “Neural machine
translation of rare words with subword units,” 2015. [Online].
Available: />[20] J. M. Joyce, “Kullback-leibler divergence,” in International
Encyclopedia of Statistical Science.
Springer Berlin
Heidelberg, 2011, pp. 720–722. [Online]. Available:
27

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

[21] G. Lample, S. Subramanian, E. Smith, L. Denoyer, M. Ranzato, and
Y.-L. Boureau, “Multiple-attribute text rewriting,” in International
Conference on Learning Representations, 2019. [Online]. Available:
/>[24]
[22] J. Li, M. Galley, C. Brockett, J. Gao, and B. Dolan, “A diversitypromoting objective function for neural conversation models,” 2015.
[Online]. Available: />[23] E. Clark, T. August, S. Serrano, N. Haduong, S. Gururangan,

ISBN 978-604-80-7468-5

452

and N. A. Smith, “All that’s ’human’ is not gold: Evaluating
human evaluation of generated text,” 2021. [Online]. Available:
/>M. Ghazvininejad, X. Shi, J. Priyadarshi, and K. Knight, “Hafez:
an interactive poetry generation system,” in Proceedings of ACL
2017, System Demonstrations. Vancouver, Canada: Association for
Computational Linguistics, Jul. 2017, pp. 43–48. [Online]. Available:
/>

Phương pháp tạo ra văn bản tiếng Việt có đề tài xác định

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về