Tải bản đầy đủ (.docx) (25 trang)

Hướng đến Chuyển đổi Nội dung thông qua sinh văn bản có cơ sở

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (595.08 KB, 25 trang )

TRƯỜNG ĐẠI HỌC QUY NHƠN
KHOA CÔNG NGHỆ THÔNG TIN
----------

BÁO CÁO TIỂU LUẬN
TÌM HIỂU BÀI BÁO
“Hướng đến Chuyển đổi Nội dung thơng qua sinh văn bản có cơ sở”
Hướng dẫn:

TS. Lê Quang Hùng

Thực hiện:

Đặng Kỳ Duyên

Lớp:

Khoa học máy tính K23

Quy Nhơn, 01/2022


Shrimai Prabhumoye

Chris Quirk, Michel Galley

Carnegie Mellon University

Microsoft Research

5000 Forbes Avenue



One Microsoft Way

Pittsburgh, PA 15219

Redmond, WA 98052



{chrisq,mgalley}@microsoft.com

Tóm tắt
Các nghiên cứu gần đây trong lĩnh vực tạo sinh hệ thần kinh đã thu hút sự quan tâm đáng
kể trong kiểm sốt hình thức văn bản, chẳng hạn như phong cách, văn phong và tính lịch
sự. Tuy nhiên cịn ít nghiên cứu về việc kiểm soát sinh văn bản thần kinh dành cho nội
dung. Bài báo này giới thiệu khái niệm Chuyển đổi nội dung để sinh văn bản dạng dài, với
nhiệm vụ tạo câu tiếp theo vừa phù hợp với ngữ cảnh vừa dựa trên nguồn văn bản bên
ngoài phong phú về nội dung, chẳng hạn như tin tức. Các thử nghiệm của chúng tôi trên dữ
liệu Wikipedia cho thấy những cải tiến đáng kể so với các nghiên cứu khác. Ngoài ra trong
bài báo này, chúng tôi cũng phát hành tập dữ liệu điểm chuẩn gồm 640 nghìn câu tham
chiếu trên Wikipedia liên kết với các bài báo nguồn để khuyến khích triển khai nhiệm vụ
mới này.
1. Giới thiệu
Các nghiên cứu gần đây trong lĩnh vực sinh ngôn ngữ tự nhiên (NLG) thần kinh đã
nhận được sự quan tâm ngày càng cao trong việc kiểm soát văn bản đối với các thuộc
tính ngơn ngữ và liên quan đến hình thức khác nhau, chẳng hạn như phong cách (Ficler
và Goldberg, 2017), tác động (Ghosh và cộng sự, 2017), tính lịch sự (Sennrich và cộng
sự, 2016), tính cách (Li và cộng sự, 2016b), văn phong (Yamagishi và cộng sự, 2016),
tính chính xác về ngữ pháp (Ji và cộng sự, 2017) và độ dài (Kikuchi và cộng sự, 2016).
Xu hướng này giúp phát triển các cơng cụ soạn thảo hiện có như Grammarly, Google

Smart Compose và Microsoft Word với khả năng kiểm soát nhiều thuộc tính văn bản hơn,
hiện chủ yếu chỉ giới hạn ở ngữ pháp, chính tả, lựa chọn từ và số lượng từ. Điều tương
đối ít được khám phá trong nghiên cứu NLG thần kinh là khả năng kiểm soát việc tạo ra
một câu khơng chỉ ở hình thức mà cịn cả nội dung.1 Xem xét ví dụ Hình 1, minh họa một
tình huống mà tác giả chỉnh sửa tài liệu (bài viết trên Wikipedia), mục đích là tạo ra hoặc
đề xuất một câu tiếp theo (màu cam) cho tác giả. Loại tác vụ sinh văn bản dài, không bị
giới hạn này (Mostafazadeh và cộng sự, 2016; Fan và cộng sự, 2018) tất nhiên là cực kỳ
khó khăn. Tác vụ sinh tự do có thể dễ bị chệch hướng do hai yếu tố đối lập. Một mặt, việc
đảm bảo rằng sản lượng được tạo ra có chất lượng tương đối tốt thường sẽ trở nên nhạt
nhẽo và khơng có nội dung thực tế (Li và cộng sự, 2016a).


Hình 1: Ví dụ về chuyển đổi nội dung: Với văn bản được sắp xếp hiện có (màu vàng) và
tài liệu có thơng tin liên quan bổ sung (xanh lá cây), nhiệm vụ là cập nhật văn bản được
sắp xếp (màu cam) để phản ánh những cập nhật nổi bật nhất.
Mặt khác, các kỹ thuật hiện tại có thể giúp hướng các mơ hình nơron nhằm tạo ra kết quả
đầu ra có nội dung hay hơn (sử dụng lấy mẫu nhiệt độ (Fan và cộng sự, 2018), GAN
(Goodfellow và cộng sự, 2014), v.v.), nhưng thường sẽ xuất hiện “ảo giác” (Wiseman và
cộng sự, 2017) với những từ hoặc khái niệm hồn tồn khơng liên quan, khi đó sẽ khơng
thể thuyết phục người dùng.
Điều cịn thiếu ở vấn đề nói trên là khái
niệm về cơ sở: thường có rất nhiều tài
nguyên trực tuyến liên quan đến tài liệu
hiện đang được viết. Phần lớn kiến thức
về thế giới có mục đích chung có sẵn
dưới dạng bách khoa tồn thư (ví dụ:
Wikipedia), sách (ví dụ: Dự án
Gutenberg, Google Sách) và các bài báo.
Mặc dù việc tạo ra các văn bản chất
lượng tốt mà khơng có bất kỳ điều kiện

nào về các nguồn “bên ngoài” (Fan và


cộng sự, 2018) có thể là một khó khăn
trong nghiên cứu, nhưng chúng tơi cho
rằng việc tạo cơ sở có thể trở trên dễ
dàng hơn nhiều, ví dụ trong Hình 1,
trong đó một đoạn của một bài báo (xanh
lá cây) có thể được định dạng lại dựa
trên ngữ cảnh hiện tại của tài liệu (màu
vàng) để tạo ra một câu tiếp theo tự
nhiên (màu cam). Xét về khía cạnh này,
bài báo này giải quyết vấn đề sinh văn
bản có cơ sở, mục tiêu là truyền tải nội
dung hoặc kiến thức từ một nguồn bên
ngồi (ví dụ: bài báo trong Hình 1) để
tạo ra một phần tiếp theo câu của một tài
liệu hiện có. Chúng tơi


coi đây là một hình thức Chuyển đổi nội dung, vì các đặc điểm khác của nguồn bên ngồi
- chẳng hạn như phong cách và hình thức ngơn ngữ - khơng được kiểm sốt.
Ngồi việc xây dựng nhiệm vụ mới này, nghiên cứu của chúng tơi có những đóng
góp sau: Cung cấp một tập dữ liệu lớn gồm 640 nghìn phiên bản chứa dữ liệu song song
của một tài liệu nguồn (tin tức), ngữ cảnh và câu sẽ được tạo. Hai phần sau được rút trích
từ Wikipedia, đây là một tập dữ liệu để tạo cơ sở vì nhiều tuyên bố trong Wikipedia trích
dẫn các nguồn bên ngồi (tức là dựa trên một bài báo bên ngoài); Đồng thời chúng tơi
cung cấp các mơ hình đơn giản nhưng hiệu quả đáp ứng điều kiện của cả bài viết bên
ngoài và ngữ cảnh của tài liệu hiện tại. Chúng tôi so sánh các mơ hình của mình với các
nghiên cứu bên ngồi, bao gồm cả các phương pháp tóm tắt cơ đọng bài báo mà không

xem xét ngữ cảnh của tài liệu. Thử nghiệm cho thấy rằng các mơ hình kết hợp ngữ cảnh
của chúng tôi đạt được 7,0 điểm ROUGE-L F1 - nói cách khác, nếu chỉ xem nhiệm vụ
của chúng tơi như một bài tốn tóm tắt là khơng đủ. Các đánh giá về con người của chúng
tôi cũng cho thấy rằng các mơ hình nhận thức được ngữ cảnh sẽ tạo ra các câu có liên
quan, trơi chảy, mạch lạc và phù hợp.
2. Nhiệm vụ
Nghiên cứu này liên quan đến vấn đề chung về hỗ trợ quyền tác giả có cơ sở, tức đề
xuất văn bản để thêm vào một bản thảo tài liệu hiện có, sao cho tất cả nội dung được thêm
vào phản ánh thông tin từ các nguồn bên ngoài, chẳng hạn như bài báo và sách. Loại tác
vụ này có thể có nhiều hình thức, vì vậy chúng tơi quyết định chính thức hóa mà vẫn giữ
nguyên tính chất của nhiệm vụ. Với một tài liệu bên ngồi (xanh lá cây trong Hình 1) và
một số văn bản được sắp xếp (màu vàng), cần tạo một câu cập nhật duy nhất (màu
cam). Câu cập nhật này phải phù hợp với ngữ cảnh và phản ánh thơng tin có trong tài liệu.
Nhiệm vụ này có một số điểm tương đồng với tóm tắt tự động (Nenkova và
McKeown, 2011), vì cách tiếp cận ban đầu là thêm một câu tóm tắt tài liệu vào văn bản
được sắp xếp. Tuy có liên quan nhưng hai nhiệm vụ vẫn khác nhau ở hai điểm chính. Đầu
tiên, câu tóm tắt phải phù hợp với ngữ cảnh dựa trên ngữ cảnh trước đó của văn bản được
sắp xếp. Thứ hai, tóm tắt chủ yếu liên quan đến việc tìm kiếm thông tin nổi bật, nhưng
trong trường hợp này, thông tin liên quan đến ngữ cảnh thực sự chỉ là phụ trợ trong tài
liệu bên ngoài. Phần 6 (Nghiên cứu liên quan) sẽ đối chiếu nhiệm vụ của chúng tôi với
phần tóm tắt.
Chúng tơi chính thức xác định nhiệm vụ như sau: một văn bản được sắp xếp hiện có
và một tài liệu d mô tả thông tin mới liên quan đến văn bản đó, hệ thống phải tạo ra một
văn bản sửa đổi s1 kết hợp thông tin nổi bật nhất từ d. Chúng tôi hạn chế tập trung vào các
trường hợp có thể lấy văn bản s1 đã sửa đổi bằng cách thêm thông tin mới từ d vào văn
--------------2

Nhìn chung, thơng tin cập nhật từ d có thể đòi hỏi những thay đổi đáng kể đối với s: có lẽ các giả định cốt lõi của s bị mâu thuẫn, cần
phải bỏ nhiều câu và viết lại. Chúng tơi hỗn thiết lập này để tập trung cho các nghiên cứu trong tương lai.



bản được sắp xếp ban đầu s.2 Đặc biệt, giả sử chúng tơi có thể chuyển đổi văn bản cũ
được sắp xếp s thành văn bản mới s1 bằng cách thêm một câu cập nhật bổ sung x thành s.

--------------2

Nhìn chung, thơng tin cập nhật từ d có thể địi hỏi những thay đổi đáng kể đối với s: có lẽ các giả định cốt lõi của s bị mâu thuẫn, cần
phải bỏ nhiều câu và viết lại. Chúng tôi hoãn thiết lập này để tập trung cho các nghiên cứu trong tương lai.


3. Mơ hình
Bài báo này hoạt động trong một mơi trường học tập giám sát thông thường. Đối với
dữ liệu đào tạo, chúng tôi dựa trên một tập dữ liệu lớn về văn bản được sắp xếp hiện có S
= {s1,..., sn}, các tài liệu tương ứng với thông tin mới D = {d1,...., dn}, và các câu cập nhật
X = {x1..., xn}. Nhiệm vụ của chúng tôi là tạo câu cập nhật x i có thể được nối vào văn bản
được sắp xếp si nhằm kết hợp thông tin bổ sung từ tài liệu d i. Mục tiêu là xác định thông
tin mới (cụ thể là di \ si) nổi bật nhất đối với chủ đề hoặc trọng tâm của văn bản, sau đó
tạo một câu đơn đại diện.
3.1. Mơ hình sinh
Phương thức để tạo ra câu cập nhật bổ sung x là sử dụng một mơ hình tổng hợp có
điều kiện dựa trên thơng tin trong văn bản được sắp xếp s và tài liệu mới d. Các phương
pháp gần đây được lấy cảm hứng từ các hệ thống dịch máy thần kinh thành công đã tạo
ra một kết quả ấn tượng trong việc tóm tắt trừu tượng (Nallapati và cộng sự, 2016).Do đó,
bước đầu tiên của chúng tơi là sử dụng mơ hình bộ mã hóa-giải mã giữa các chuỗi
(Bahdanau và cộng sự, 2015) với sự quan tâm (Luong và cộng sự, 2015) đối với nhiệm vụ
của chúng tơi. Loại mơ hình này giả định rằng câu đầu ra có thể được tạo bởi từng từ một.
Mỗi từ đầu ra được tạo ra được điều kiện hóa trên tất cả các từ trước và trình bày mã hóa
của ngữ cảnh z:
(1)
Mơ hình sinh Ngữ cảnh Bất khả tri (CAG): Đường cơ sở đơn giản là để tạo một chuỗi

mơ hình riêng cho tài liệu d khơng kết hợp trực tiếp thông tin từ văn bản được sắp xếp s. Ở
đây, thuật toán được dùng để tạo ra câu cập nhật khả thi nhất = argmax p (x|d). Trong thiết
lập này, chúng tôi coi tài liệu tham chiếu di là nguồn và câu cập nhật được tạo xi là đích.
(2)
Bộ mã hóa và bộ giải mã khơng trực tiếp nhìn thấy thơng tin từ văn bản được sắp xếp
s, nhưng bản cập nhật x vốn đã có thơng tin về nó. Các tham số của mơ hình cập nhật đã
được tác giả cung cấp kiến thức về văn bản được sắp xếp. Do đó nó có thể nắm bắt một số
khái quát về các loại thông tin và vị trí tại d có nhiều khả năng đóng góp thơng tin mới cho
s.
Mơ hình chỉ sinh Ngữ cảnh (COG): Thuật toán này được dùng để tạo câu cập nhật có
khả năng xảy ra nhất = arg max p(xs). Mơ hình này tương tự như CAG ngoại trừ việc
chúng tơi coi si được sắp xếp là nguồn. Thiết lập này sẽ khơng tạo cơ sở của nội dung.
Mơ hình sinh Thông tin Ngữ cảnh (CIG): Bước tiếp theo là kết hợp thông tin từ các văn
bản được sắp xếp s. Chúng tơi có thể nối tài liệu và văn bản được sắp xếp, đồng thời tiến
hành mã hóa trình tự.


(3)
Cách tiếp cận này kết hợp thông tin từ cả hai nguồn, mặc dù khơng phân biệt rõ ràng. Do
đó, mơ hình có thể gặp khó khăn trong việc xác định phần thông tin nào là mới so với văn
bản được sắp xếp.
Để xác định rõ thơng tin đã có trong văn bản được sắp xếp s, một mơ hình có thể mã
hóa s và d riêng biệt, sau đó kết hợp cả hai vào quy trình tổng hợp.
Mơ hình sinh Tiếp thu Ngữ cảnh (CRG): Bước tiếp theo của chúng tơi là điều kiện hóa
quy trình tạo một cách cụ thể hơn trên các văn bản được sắp xếp. Tiến hành điều kiện hóa
q trình sinh s ở mỗi bước. Về hình thức:
(4)
(5)
(6)
trong đó, θd và θs lần lượt là các tham số của bộ mã hóa cho tài liệu d và bộ mã hóa cho

văn bản được sắp xếp s, zd và zs lần lượt là các đại diện được mã hóa của tài liệu d i và văn
bản được sắp xếp si. Tại mỗi bước của quá trình, kết quả đầu ra được điều chỉnh dựa trên
các token được tạo cho đến bước t được nối với zs. Do đó, q trình tổng hợp có thể tiếp
thu ngữ cảnh ở mỗi bước.
3.2. Các mơ hình rút trích
Các mơ hình tạo sinh nên các câu mới với điều kiện ngữ cảnh có liên quan nhưng có
một số thách thức về mơ hình hóa. Mơ hình này vừa phải chọn nội dung phù hợp vừa tạo
ra khả năng nhận biết thông tin một cách trôi chảy về mặt ngôn ngữ.
Chúng tơi cũng xem xét các mơ hình rút trích: các phương pháp tiếp cận chọn câu
phù hợp nhất từ tài liệu d để thêm vào văn bản được sắp xếp s. Những cách tiếp cận này
có thể chỉ tập trung vào vấn đề lựa chọn nội dung và bỏ qua những khó khăn của tác vụ
sinh. Việc đơn giản hóa này có thể dẫn đến hệ quả: câu thích hợp nhất có thể chỉ yêu cầu
một tập hợp con thông tin từ một số câu trong tài liệu hoặc kết hợp thông tin từ nhiều hơn
một câu.
Sum-Basic (SB): Đường cơ sở phổ biến là Sum-Basic, một kỹ thuật tóm tắt rút trích dựa
trên thống kê tần suất từ để chọn các câu nổi bật (Nenkova và Vanderwende, 2005). Bước
đầu tiên, xác suất unigram được tính tốn từ tập hợp các tài liệu đầu vào bằng cách sử dụng
ước tính tần suất tương đối. Sau đó, từng câu một sẽ được chọn cho đến khi phạm vi tóm tắt
được bão hịa. Ở mỗi lần, mơ hình này chọn câu khả thi nhất theo phân phối unigram hiện
tại. Câu đã chọn sẽ được thêm vào phần tóm tắt và bị xóa khỏi nhóm các câu có sẵn. Xác
suất unigram của tất cả từ trong câu đã chọn được lọc theo phương pháp heuris (được thay
bằng căn bậc hai). Các hoạt động chọn và lọc sẽ tiếp tục cho đến khi viết xong bản tóm tắt.


Bước lọc là rất quan trọng để ngăn chặn sự lặp lại: khi một từ (hoặc tốt nhất là một khái
niệm) được chọn cho phần tóm tắt, thì khả năng được chọn ở lần tiếp theo sẽ ít hơn nhiều.
Chúng tơi sử dụng Sum-Basic như một mơ hình rút trích Ngữ cảnh Bất khả tri: chúng
tôi cung cấp tài liệu d làm đầu vào cho mơ hình và chạy Sum-Basic trong đúng một vòng.
Câu được chọn được coi là câu cập nhật x.
Sum-Basic Thông báo Ngữ cảnh (CISB): Chúng tôi đã phát triển bản sửa đổi đơn giản

theo kỹ thuật Sum-Basic để kết hợp thông tin từ văn bản được sắp xếp s làm ngữ cảnh.
Xác suất unigram ban đầu được tính bằng cách sử dụng số lượng từ ở cả văn bản được
sắp xếp và tài liệu. Tiếp theo, đối với mỗi câu trong văn bản được sắp xếp, chúng tơi chỉ
áp dụng quy trình lọc, cập nhật phân phối xác suất như thể những câu đó đã được chọn.
Cuối cùng, chúng tôi chọn câu đơn từ tài liệu khả thi nhất theo xác suất unigram đã được
lọc. Việc sửa đổi này của Sum-Basic giúp chọn một câu nổi bật so với văn bản được sắp
xếp bằng cách hạ xác suất của tất cả các từ hiện có.

Hình 2: Quy trình tạo tập dữ liệu
Mơ hình rút trích CAG, CIG, CRG: Bất kỳ mơ hình tổng hợp nào của x cũng có thể
được sử dụng làm mơ hình rút trích: chúng tơi chỉ cần ước tính khả năng xảy ra của mỗi
câu trong tài liệu theo mơ hình và chọn câu có khả năng xảy ra nhất. Các mơ hình tạo có
thể khơng thành cơng vì chúng khơng thể chọn thông tin phù hợp nhất hoặc do đáp án
không đúng. Xếp hạng rút trích loại bỏ tất cả các lỗi do q trình tạo và có thể loại các
vấn đề mơ hình.
Mơ hình CAG, CIG, CRG hỗn hợp: Vì tài liệu d có thể khá lớn, một mơ hình sinh có
thể gặp khó khăn để chọn thơng tin nổi bật nhất dựa trên ngữ cảnh. Để đơn giản hóa
nhiệm vụ mơ hình này, chúng tơi có thể lọc trước tài liệu, chỉ để những phần nổi bật nhất.
Chúng tôi sử dụng kỹ thuật Sum-Basic thông báotheo ngữ cảnh để chọn năm câu đầu tiên
từ tài liệu. Chúng tôi chỉ cung cấp năm câu này thay cho tài liệu nguồn d, sau đó áp dụng
các kỹ thuật CAG, CIG và CRG được mô tả ở trên.


4. Tập dữ liệu
Tập dữ liệu lý tưởng của chúng tôi sẽ ghi lại các chỉnh sửa được thực hiện đối với
một số văn bản tham chiếu được sắp xếp dựa trên các bài báo mới mô tả thay đổi. Ví dụ:
người ta có thể duy trì tài liệu phần mềm tham chiếu về hệ thống, thực hiện bổ sung hoặc
thay đổi khi có email mơ tả các bản cập nhật hoặc bổ sung. Rất tiếc, loại dữ liệu này rất
khó lấy do vấn đề quyền riêng tư.
Tuy nhiên, Wikipedia có thể cung cấp một nội dung văn bản tham chiếu đến các

nguồn chính. Một số đáng kể các câu Wikipedia bao gồm các trích dẫn đến tài liệu hỗ trợ,
một nguồn dữ liệu truyền tải nội dung. Điều đó cho thấy một số trích dẫn khá khó theo
dõi hoặc độ tin cậy thấp: URL bị hỏng có thể dẫn đến mất thơng tin; các trích dẫn sách rất
khó sử dụng do phạm vi thơng tin lớn; v.v. Vì vậy, chúng tôi chỉ xem xét các trường hợp
mà tài liệu tham khảo liên kết đến một số nguồn tin tức nổi bật.
Dựa trên tần suất trích dẫn, chúng tơi đã chọn một danh sách gồm 86 tên miền, 3 chủ yếu
là trang tin tức. Trong quá trình tạo dữ liệu, chúng tơi chỉ xem xét các trích dẫn thuộc một
trong 86 miền này. Chúng tôi đưa ra giả định đơn giản hóa này vì một số lý do. Đầu tiên, kết
xuất Wikipedia tiếng Anh của chúng tôi chứa khoảng 23,7 triệu URL trích dẫn thuộc 1,6 triệu
tên miền; lọc chi tiết sẽ là một nhiệm vụ khó khăn. Danh sách miền được kiểm duyệt thủ
cơng là một phương tiện có độ chính xác cao (mặc dù dữ liệu thấp) để chọn dữ liệu sạch. Thứ
hai, chúng tôi muốn làm cho văn bản đã tạo trở nên đáng tin cậy, nhất quán và hiệu quả. Hơn
nữa, các miền nổi tiếng luôn có sẵn trên Common Crawl,4 dẫn đến một tập dữ liệu dễ tái tạo.
Hình 2 minh họa quy trình sử dụng để tạo tập dữ liệu cho nhiệm vụ được mô tả trong
Phần 2 từ mỗi bài viết Wikipedia, chúng tơi rút trích văn bản thuần túy mà khơng cần ghi
chú. Khi gặp một trích dẫn thuộc một miền đã chọn, chúng tơi đã cân nhắc câu ngay trước
trích dẫn được tạo dựa trên nội dung của trích dẫn. Câu này trở thành câu cập nhật tham chiếu
của chúng tôi: câu cập nhật bổ sung x được thêm vào văn bản được sắp xếp s để tạo ra văn
bản mới s1. K câu trước câu đích trong bài Wikipedia được coi là văn bản được sắp xếp s.
Trong trường hợp này, chúng tôi đã sử dụng tập hợp k = 3 câu để chọn ngữ cảnh. Bài báo
được trích dẫn đóng vai trị như tài liệu d, từ đó có thể tạo ra bản cập nhật x thích hợp.
Nguồn HTML của trích dẫn được tải xuống từ Common Crawl dùng để tái tạo và nhất
quán. Sau đó, HTML có nguồn gốc từ Common Crawl được xử lý để lấy văn bản thuần
túy của bài báo. Tập dữ liệu kết quả C bao gồm các tập dữ liệu được căn chỉnh C = (di; si;
xi) i∈ [1,n], trong đó n là tổng số mẫu trong tập dữ liệu.
Ngoài ra, người ta có thể dựa vào lịch sử chỉnh sửa Wikipedia để tạo tập dữ liệu. Trong
thiết lập này, các chỉnh sửa bao gồm trích dẫn mới sẽ đóng vai trị là bản cập nhật x. Mặc
dù điều này có bất lợi là nội dung cập nhật phức tạp, nhiều câu, phân tích sơ bộ gợi ý
rằng những chỉnh sửa này là không cần thiết.
-------------3

4

Danh sách này được cung cấp trong bản phát hành dữ liệu của bài báo này.
/>

Bảng 1: Các đặc điểm chính của tập dữ liệu: kích thước gần đúng của các phiên bản đầu
vào và đầu ra, kích thước gần đúng của tập dữ liệu và thu hồi kết quả đầu ra tham chiếu
so với tài liệu nguồn, như một thước đo độ khó của tập dữ liệu.
Người chỉnh sửa có thể tạo nội dung trước tiên trong một lần chỉnh sửa, sau đó thêm trích
dẫn trong lần chỉnh sửa tiếp theo, họ chỉ có thể diễn đạt lại một phần của văn bản trong
khi thêm trích dẫn hoặc có thể kiểm tra một loạt các thay đổi trên tài liệu trong một lần
chỉnh sửa. Cách tiếp cận dựa trên câu của chúng tôi đơn giản và hướng một tập dữ liệu
thú vị.
Thống kê và Phân tích Tập dữ liệu: Bảng 1 mơ tả một số thống kê chính tập dữ
liệu của chúng tơi và so sánh với các tập dữ liệu khác được sử dụng cho các tác vụ tương
tự. Điểm số thu hồi ROUGE-1 của đầu ra tham chiếu x so với tài liệu d cho thấy tác vụ
này sẽ khó khăn đối với các kỹ thuật tóm tắt rút trích thơng thường. 5 Chúng tơi giả thuyết
rằng trong q trình chuyển đổi nội dung, ngôn ngữ trong tài liệu d thường trải qua các
biến đổi đáng kể để phù hợp với văn bản được sắp xếp s. Độ trùng lặp unigram trung bình
(sau khi loại bỏ từ khóa) giữa tài liệu d và câu cập nhật tham chiếu x là 55,79%; độ trùng
lặp của văn bản được sắp xếp s và câu cập nhật tham chiếu x là 30,12%. Điều này gợi ý
tham khảo cập nhật câu x có thể được dẫn xuất từ tài liệu d, mặc dù không được rút trích
trực tiếp. Hơn nữa, nội dung của x rất khác với nội dung của s nhưng có liên quan đến chủ
đề.
Tập dữ liệu của chúng tôi bao gồm khoảng 290 nghìn bài báo Wikipedia duy nhất.
Một số bài báo được trích dẫn nhiều bao gồm ‘Timeline of investigations into Trump and
Russia (2017)’, ‘List of England Test cricketers’ và ‘2013 in science’. Chúng tôi chia ngẫu
nhiên tập dữ liệu thành 580 nghìn phiên bản đào tạo, 6049 phiên bản xác thực và 50 nghìn
phiên bản thử nghiệm, đảm bảo rằng bất kỳ bài viết nào trên Wikipedia xuất hiện trong
tập đào tạo khơng được xuất hiện trong q trình xác thực hoặc kiểm tra.

5. Kết quả thực nghiệm
Chúng tôi đánh giá các mơ hình của mình bằng cách sử dụng cả chỉ số tự động và
đánh giá con người đối với tập hợp con các hệ thống khả thi. Điều quan trọng là sự giống
nhau giữa câu cập nhật do mô hình sinh và câu cập nhật tham chiếu. Đồng thời chúng tơi
cũng u cầu đánh giá ngữ pháp và tính mạch lạc.
-------------5

Thu hồi ROUGE-1 được tính tốn trên 1 mẫu gồm 50 nghìn trường hợp từ tồn bộ tập dữ liệu.


Thiết lập siêu thông số: Đối với tất cả các thử nghiệm của chúng tơi với các mơ
hình chung, chúng tơi đã sử dụng bộ mã hóa hai chiều, hai lớp trong bộ mã hóa và
giải mã,

-------------5

Thu hồi ROUGE-1 được tính tốn trên 1 mẫu gồm 50 nghìn trường hợp từ toàn bộ tập dữ liệu.


kích thước RNN là 128, kích thước vectơ từ là 100. Chúng tôi đã sử dụng bộ công cụ câu
để sử dụng mã hóa cặp byte (BPE) với kích thước từ vựng là 32 nghìn 6. Chúng tơi sử
dụng trình tối ưu hóa giảm độ dốc ngẫu nhiên và tiêu chí dừng thì khá phức tạp trên tập
hợp xác thực. Chúng tơi đã lọc tập dữ liệu của mình để chứa các phiên bản có độ dài của
tài liệu từ 50 đến 2000 token, độ dài của văn bản được sắp xếp từ 20 đến 500 token và độ
dài của câu cập nhật từ 5 đến 200 token.
5.1. Đánh giá tự động
Chỉ số đánh giá tự động chính của chúng tôi cho các câu cập nhật do hệ thống tạo sinh là
ROUGE-L F1 so với câu cập nhật tham chiếu, 7 mặc dù cũng có BLEU (Papineni và cộng
sự, 2002) và METEOR (Denkowski và Lavie, 2011) như các chỉ số bổ sung. ROUGE là
một nhóm chỉ số tiêu chuẩn cho các nhiệm vụ tóm tắt; ROUGE-L đo dãy số chung dài

nhất giữa hệ thống và tham chiếu, ghi lại cả từ vựng lựa chọn và trật tự từ.

Bảng 2: Đo tự động; Khoảng tin cậy 95% trong dấu ngoặc đơn.
Bảng 2 cho thấy nhiệm vụ này khá khó khăn đối với các kỹ thuật rút trích. Hơn nữa,
kết quả nhấn mạnh tầm quan trọng của việc dùng văn bản được sắp xếp như một ngữ cảnh
khi tạo bản cập nhật. Trong tất cả điều kiện thử nghiệm, các mơ hình nhận thức được ngữ
cảnh hoạt động tốt hơn nhiều so với các mơ hình bất khả tri. Ngược lại với Liu và cộng sự
(2018), phương pháp tiếp cận sinh vượt trội hơn phương pháp hỗn hợp, có thể là do chúng
tơi chỉ có một tài liệu đầu vào duy nhất. CAG, CIG và CRG rút trích đều hoạt động tốt
hơn cả Sum-Basic và dạng thông báo ngữ cảnh. CAG rút trích thì tương đương với CAG
sinh, cho thấy câu có chất lượng phù hợp. Tuy nhiên về cơ bản, CIG và CRG sinh là tốt
hơn: cần viết lại để phù hợp với ngữ cảnh.

6
7

/>Chúng tôi sử dụng bộ công cụ pyrouge cùng với ROUGE-1.5.5: />

Hệ thống Oracle của Bảng 2 nhằm mục đích thiết lập giới hạn trên có thể đạt được
bằng các phương pháp rút trích, sử dụng thử nghiệm oracle sau: (d i, si; xi), chúng tôi liệt
kê từng câu được rút trích e của tài liệu di và chọn câu có điểm ROUGE-L cao nhất làm
câu cập nhật của Oracle i (tức là i = arg maxe∈di ROUGE-L (xi; e)). Lưu ý rằng điều này
mang lại giới hạn trên tích cực, vì cùng một chân lý cơ bản x i được sử dụng để chọn ra
một câu rút trích và để cho điểm số liệu tự động cuối cùng. 8 Tuy nhiên, những kết quả này
cho ra hai kết luận: (1 ) Cung cấp một góc nhìn tốt hơn để đánh giá các hệ thống nonoracle và chúng tôi tin rằng điểm đánh giá tự động khá thấp là hợp lý so với giới hạn trên
tích cực (ví dụ: điểm CIGs ROUGE-Ls là 55% của oracle). (2) Kết quả oracle cho thấy
rằng con người đang thay đổi đáng kể nhận thức qua tóm tắt của Wikipedia, vì nếu khơng,
kết quả oracle sẽ gần hơn nhiều với điểm số liệu tối đa (tức là 100%). Điều này cho thấy
rằng phương pháp rút trích là khơng đủ cho tác vụ này, chứng minh cho việc sử dụng các
kỹ thuật tạo sinh.

5.2. Đánh giá con người
Để đánh giá cẩn thận hiệu suất của các cấu hình khả thi nhất (mơ hình CAG và CIG) thì
cũng cần đánh giá chất lượng. Chúng tơi đã trưng cầu một số loại đánh giá, bao gồm hai
phép so sánh tương đối giữa các cặp đầu ra của hệ thống và chất lượng đánh giá tuyệt đối
kết quả đầu ra của từng hệ thống.
Gần với tham chiếu (Tương đối): So sánh tương đối đầu tiên đo lường mức độ chính
xác của bản cập nhật đã tạo phản ánh thơng tin trong bản cập nhật tham chiếu. Ở đây,
những người chú thích chỉ thấy phần tham chiếu cập nhật câu và kết quả đầu ra của hai hệ
thống có nhãn A và B theo thứ tự ngẫu nhiên. Chúng tôi đã hỏi người chú thích "Đầu ra
của hệ thống nào có ý nghĩa gần nhất với bản cập nhật tham chiếu?" Các chú thích có thể
chọn hệ thống A, hệ thống B hoặc chỉ ra rằng cả hai đều không được ưu tiên. Đây là một
nhiệm vụ đánh giá đơn giản mặc dù có khả năng thiên vị đối với bản cập nhật tham chiếu
duy nhất.
Phù hợp với Ngữ cảnh (Tương đối): So sánh tương đối thứ hai đo xem đầu ra có chứa
thơng tin nổi bật từ tài liệu được viết theo cách phù hợp với văn bản được sắp xếp hay
khơng. Các nhà chú giải đã nhìn thấy tài liệu d, văn bản được sắp xếp s và kết quả đầu ra
của hai hệ thống A và B, một lần nữa theo một thứ tự ngẫu nhiên. "Đầu ra của hệ thống
nào chính xác hơn so với thơng tin cơ bản trong đoạn trích của bài báo?" Cần phải xem
xét liệu thơng tin có phù hợp với văn bản được sắp xếp hay không và liệu tài liệu có thể
hỗ trợ nội dung tạo bởi hệ thống hay không.

-------------8

Nghiên cứu trước đây đã chỉ ra rằng loại cơ sở dữ liệu này có thể đem lại những giới hạn trên cao và chúng có xu hướng cao hơn
hiệu suất của con người (Och và cộng sự, 2004, Bảng 1). Och và cộng sự đề xuất một biện pháp cơ sở dữ liệu luân phiên đảm bảo
rằng tham chiếu (định lý cơ bản) được sử dụng bởi argmax sẽ khác với tham chiếu của đánh giá tự động cuối cùng, nhưng việc
này chỉ có thể thực hiện với tập test nhiều nguồn tham chiếu.


Bốn người, mỗi người chú thích 30 cặp đầu ra duy nhất cho hai thiết lập so sánh

tương đối này, tổng cộng 240 phán đoán tương đối. Bảng 3 cho thấy kết quả: hệ thống
CIG nhận biết ngữ cảnh về cơ bản tốt hơn đáng kể ở cả hai cơ sở.

-------------8

Nghiên cứu trước đây đã chỉ ra rằng loại cơ sở dữ liệu này có thể đem lại những giới hạn trên cao và chúng có xu hướng cao hơn
hiệu suất của con người (Och và cộng sự, 2004, Bảng 1). Och và cộng sự đề xuất một biện pháp cơ sở dữ liệu luân phiên đảm bảo
rằng tham chiếu (định lý cơ bản) được sử dụng bởi argmax sẽ khác với tham chiếu của đánh giá tự động cuối cùng, nhưng việc
này chỉ có thể thực hiện với tập test nhiều nguồn tham chiếu.


Bảng 3: Mức độ phù hợp giữa CAG và CIG

Bảng 4: Đánh giá chất lượng tuyệt đối
Nguyên tắc của DUC (Tuyệt đối): Ngồi ra, chúng tơi đã thực hiện đánh giá chất lượng
tuyệt đối theo hướng dẫn từ DUC 2007.9 Với mỗi đầu ra hệ thống duy nhất, họ được yêu cầu
đánh giá năm khía cạnh của đầu ra hệ thống: ngữ pháp, khả năng xúc tích, tham chiếu rõ
ràng, tính tập trung và kết cấu mạch lạc. Đối với mỗi khía cạnh sẽ đánh giá trên thang điểm
năm: (1) Rất kém, (2) Kém, (3) Trung bình, (4) Tốt, (5) Rất tốt. Chúng tôi đã thu thập 120
đánh giá bổ sung trong thiết lập này (4 giám khảo, 30 kết quả đầu ra). Một lần nữa, CIG nhận
biết ngữ cảnh về cơ bản hoạt động tốt hơn CAG trên diện rộng, như đã thấy trong Bảng 4.
Quan sát: Các hệ thống không nhận biết về văn bản được sắp xếp có xu hướng tạo ra các
bản cập nhật dài với các từ hoặc cụm từ thường xuyên lặp lại. Xem xét tỷ lệ token duy nhất
trên tổng số token trong đầu ra, chúng tôi ký hiệu là R. Một chữ R nhỏ cho biết nhiều token
lặp lại. Chúng tôi nhận thấy rằng 88% thời gian tỷ lệ R này giảm xuống dưới 0,5 đối với mơ
hình CAG, tức là đối với 88% trường hợp, hơn 50% từ trong đầu ra là lặp lại. Con số này
tương đối nhỏ - 14% đối với CIG và 20% đối với CRG - trong các mơ hình nhận biết ngữ
cảnh. Trong các bản cập nhật tham chiếu, chỉ có 0,21% trường hợp lặp lại hơn 50% từ.

9


quality-questions.txt


Hình 3: Ví dụ về việc sinh văn bản hiệu quả, trong đó câu cập nhật hệ thống gần đúng với
tham khảo
Hình 3 và 4 hiển thị các ví dụ tốt và xấu được tạo ra bởi mơ hình CIG cùng với tài
liệu, văn bản được sắp xếp và cập nhật tham chiếu. Bảng 5 có một tập hợp các bản cập
nhật được tạo ra bởi mơ hình CIG cũng như bản cập nhật tham chiếu. Như chúng ta có thể
thấy trong ví dụ 3 và 4, mơ hình CIG ghi sai ngày nhưng tạo chính xác nội dung cịn lại.
Trong ví dụ 1 và 2, mơ hình CIG đã chọn thành cơng các đại từ chính xác để giải quyết,
mặc dù thường bị nhầm lẫn khi sử dụng đại từ hoặc thực thể có tên. Ví dụ 5 và 6 đại diện
cho các trường hợp thất bại do thiếu từ.
6. Nghiên cứu liên quan
Nhiệm vụ chuyển đổi nội dung được đề xuất rõ ràng có liên quan đến một số bài báo dài
trong phần tóm tắt, bao gồm cả nghiên cứu gần đây với các kỹ thuật thần kinh (Rush và
cộng sự, 2015; Nallapati và cộng sự, 2016). Đặc biệt, một bài báo gần đây đưa ra nhiệm
vụ tạo tồn bộ bài viết Wikipedia như một bài tốn tổng hợp đa tài liệu (Liu và cộng sự,
2018). Cấu hình hoạt động tốt nhất của họ là một khung trừu tượng rút trích hai giai đoạn;
một cách tiếp cận nhiều giai đoạn giúp tránh được những khó khăn của các phương pháp
thuần túy trừu tượng với các chuỗi token đầu vào khá lớn.


Hình 4: Ví dụ về đầu ra chất lượng thấp: câu cập nhật lặp thông tin một cách không cần
thiết và bỏ sót chi tiết nổi bật từ tài liệu
Ngồi tương đồng về nhiệm vụ tạo ra nội dung theo phong cách Wikipedia, có một
số khác biệt quan trọng trong cách tiếp cận của chúng tôi. Đầu tiên, mục tiêu của bài báo
là xác định tác giả bài viết, bắt đầu từ một tập hợp các nguồn chính, chẳng hạn như các
bài báo. Tuy nhiên trên thực tế, các bài viết trên Wikipedia thường chứa thơng tin bên
ngồi các nguồn chính này, bao gồm kiến thức thơng thường, các câu lệnh để đặt bài viết

trong ngữ cảnh và các suy luận được thực hiện từ các nguồn chính đó. Nhiệm vụ của
chúng tơi giới hạn vào nội dung trong đó người biên tập quyết định rõ ràng trích dẫn một
số nguồn bên ngồi. Do đó, nhiều khả năng bản tóm tắt kết quả có thể được lấy từ nội
dung nguồn bên ngồi. Hơn nữa, chúng tơi tập trung vào việc thêm thơng tin vào các bài
báo hiện có, thay vì viết một bài báo hồn chỉnh mà khơng có bất kỳ ngữ cảnh nào. Hai
kịch bản này khá hữu ích và bổ sung cho nhau: đôi khi là cần tạo ra một văn bản tham
chiếu mới chưa từng có trước đây; mặt khác, mục tiêu là duy trì và cập nhật một tham
chiếu hiện có.


Bảng 5: Các ví dụ sinh văn bản từ hệ thống CIG, được ghép nối với các bản cập nhật
do con người tạo ra.


Một nhiệm vụ liên quan chặt chẽ khác là tóm tắt cập nhật (Dang và Owczarzak,
2008), trong đó các hệ thống cố gắng cung cấp một bản tóm tắt ngắn gọn về thông tin mới
trong một bài báo mới giả sử người dùng đã đọc một bộ tài liệu trước đó đã biết. Chúng
tơi tập trung vào việc quản lý một nguồn tài ngun có thẩm quyền. Ngồi ra, tập dữ liệu
của chúng tôi lớn hơn, cho phép sử dụng các mơ hình tổng hợp trong khơng gian này, nơi
mà các kỹ thuật tóm tắt cập nhật trước đây chủ yếu mang tính rút trích (Fisher và Roark,
2008; Li và cộng sự, 2015).
Đối với bất kỳ nhiệm vụ tạo sinh nào, điều quan trọng là phải giải quyết cả nội dung
("vấn đề" đang được nói đến) cũng như phong cách ("cách thức"). Gần đây, rất nhiều
nghiên cứu đã tập trung vào 'cách thức' (Li và cộng sự, 2018; Shen và cộng sự, 2017), bao
gồm nỗ lực thu thập một tập dữ liệu song song khác nhau về hình thức (Rao và Tetreault,
2018), để kiểm soát các đặc điểm của tác giả trong câu (Prabhumoye và cộng sự, 2018),
để kiểm soát các đặc điểm về tính cách trong hội thoại (Zhang và cộng sự, 2018). Chúng
tôi tin rằng chuỗi nghiên cứu này bổ sung cho nỗ lực của chúng tôi trong việc tạo ra 'cái
gì'.
Một hình thức khác của chuyển đổi nội dung qua các phương thức: sinh văn bản

cung cấp thơng tin đã được tốn học hóa hoặc bán cấu trúc. Nghiên cứu gần đây đã đề cập
đến các kỹ thuật sinh ngôn ngữ tự nhiên thần kinh đưa ra một loạt các nguồn có cấu trúc:
chọn bản ghi cơ sở dữ liệu liên quan và tạo mô tả bằng ngôn ngữ tự nhiên (Mei và cộng
sự, 2016), chọn và mơ tả các cặp giá trị vị trí để tạo phản hồi theo nhiệm vụ cụ thể (Wen
và cộng sự, 2015), và thậm chí tạo tóm tắt tiểu sử Wikipedia cung cấp thông tin Infobox
(Lebret và cộng sự, 2016). Nhiệm vụ của chúng tôi, mặc dù dựa trên nội dung bên ngồi,
nhưng lại khác ở chỗ nó sử dụng nền tảng ngôn ngữ cũng như ngữ cảnh văn bản trước đó
khi sinh văn bản. Thách thức này cho phép thực hiện một loạt các nhiệm vụ tạo sinh cơ sở
vì có rất nhiều dữ liệu dạng văn bản phi cấu trúc.
7. Kết luận
Bài viết này nêu bật tầm quan trọng của nhiệm vụ chuyển đổi nội dung: hướng dẫn bởi một
văn bản được sắp xếp để thiết lập ngữ cảnh và giọng điệu, đồng thời dựa trên một nguồn
mới cung cấp thơng tin hữu ích. Chúng tơi chứng minh rằng nhiều mơ hình có thể giải
quyết vấn đề khó khăn này trên một tập dữ liệu mới bắt nguồn từ Wikipedia và Common
Crawl. Tập dữ liệu này được phát hành rộng rãi cùng với các tập lệnh và mơ hình. 10 Chúng
tôi nhận thấy thiết lập này sẽ tạo cơ hội cho tương tác giữa người với người: trái ngược với
các phương pháp tiếp cận không dựa trên ngữ cảnh do con người tạo ra, chúng tôi thiết lập
sự cộng tác giữa người dùng và máy tính. Mỗi câu mới được đề xuất có thể bị từ chối, chấp
nhận hoặc chỉnh sửa trước khi đưa vào và các chỉnh sửa có thể cung cấp thêm dữ liệu đào
tạo.
-------------10

research/project/content-transfer/


Chúng tơi tin rằng sẽ có nhiều ứng dụng tự nhiên cho cơng trình nghiên cứu này. Các mơ
hình được mô tả ở đây hầu hết là phần mở rộng của các phương pháp tiếp cận hiện có; các
phương pháp tiếp cận với mục tiêu phát hiện tính mới, tiêu điểm và cấu trúc tài liệu có

-------------10


research/project/content-transfer/


thể dẫn đến những cải tiến đáng kể. Chúng tôi có thể áp dụng hàng loạt các mơ hình để
kết hợp các thay đổi cho một bộ tài liệu. Nghiên cứu trong tương lai cũng có thể khám
phá những thay đổi sửa đổi nội dung hiện có thay vì chỉ thêm vào.
Công nhận
Chúng tôi xin cảm ơn những người đánh giá ẩn danh, cũng như Alan W Black, Chris
Brockett, Bill Dolan, Sujay Jauhar, Michael Gamon, Jianfeng Gao, Dheeraj Rajagopal và
Xuchao Zhang vì những nhận xét và đề xuất hữu ích của họ về tác phẩm này. Chúng tôi
cũng xin cảm ơn Emily Ahn, Khyati Chandu, Ankush Das, Priyank Lathwal và Dheeraj
Rajagopal đã giúp đỡ họ trong việc đánh giá con người.
Tham khảo
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. 2015. Neural machine
translation by jointly learning to align and translate. In International Conference on
Learning Representations
Hoa Trang Dang and Karolina Owczarzak. 2008. Overview of the TAC 2008 update
summarization task. In In TAC 2008 Workshop - Notebook papers and results, pages 10–23.
Michael Denkowski and Alon Lavie. 2011. Meteor 1.3: Automatic metric for reliable
optimization and evaluation of machine translation systems. In Proceedings of the sixth
workshop on statistical machine translation, pages 85–91. Association for
Computational Linguistics.
Angela Fan, Mike Lewis, and Yann Dauphin. 2018. Hierarchical neural story generation.
In Proceedings of the 56th Annual Meeting of the Association for Computational
Linguistics (Volume 1: Long Papers), pages 889–898, Melbourne, Australia.
Jessica Ficler and Yoav Goldberg. 2017. Controlling linguistic style aspects in neural
language generation. In Proc. of EMNLP, page 94.
Seeger Fisher and Brian Roark. 2008. Query-focused supervised sentence ranking for
update summaries. In TAC.

Sayan Ghosh, Mathieu Chollet, Eugene Laksana, Louis-Philippe Morency, and Stefan
Scherer. 2017. Affect-LM: A neural language model for customizable affective text
generation. In ACL, volume 1, pages 634–642.
Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley,
Sherjil Ozair, Aaron Courville, and Yoshua Bengio. 2014. Generative adversarial nets.
In Advances in Neural Information Processing Systems 27, pages 2672–2680.
David Graff and Christopher Cieri. 2003. English Gigaword LDC2003T05. In
Philadelphia: Linguistic Data Consortium.


Jianshu Ji, Qinlong Wang, Kristina Toutanova, Yongen Gong, Steven Truong, and
Jianfeng Gao. 2017. A nested attention neural hybrid model for grammatical error
correction. In Proceedings of the 55th Annual Meeting of the Association for
Computational Linguistics (Volume 1: Long Papers), pages 753– 762, Vancouver,
Canada.
Yuta Kikuchi, Graham Neubig, Ryohei Sasano, Hiroya Takamura, and Manabu Okumura.
2016. Controlling output length in neural encoder-decoders. In Proceedings of the 2016
Conference on Empirical Methods in Natural Language Processing, pages 1328–1338,
Austin, Texas.
Remi Lebret, David Grangier, and Michael Auli. 2016. ´ Neural text generation from
structured data with application to the biography domain. In Proceedings of the 2016
Conference on Empirical Methods in Natural Language Processing, pages 1203–1213.
Association for Computational Linguistics.
Chen Li, Yang Liu, and Lin Zhao. 2015. Improving update summarization via supervised
ILP and sentence reranking. In Proceedings of the 2015 Conference of the North
American Chapter of the Association for Computational Linguistics: Human Language
Technologies, pages 1317–1322.
Jiwei Li, Michel Galley, Chris Brockett, Jianfeng Gao, and Bill Dolan. 2016a. A diversitypromoting objective function for neural conversation models. In Proceedings of the
2016 Conference of the North American Chapter of the Association for Computational
Linguistics: Human Language Technologies, pages 110–119, San Diego, California.

Association for Computational Linguistics.
Jiwei Li, Michel Galley, Chris Brockett, Georgios Spithourakis, Jianfeng Gao, and Bill
Dolan. 2016b. A persona-based neural conversation model. In Proceedings of the 54th
Annual Meeting of the Association for Computational Linguistics (Volume 1: Long
Papers), pages 994–1003, Berlin, Germany.
Juncen Li, Robin Jia, He He, and Percy Liang. 2018. Delete, retrieve, generate: a simple
approach to sentiment and style transfer. In Proceedings of the 2018 Conference of the
North American Chapter of the Association for Computational Linguistics: Human
Language Technologies, Volume 1 (Long Papers), volume 1, pages 1865–1874.
Peter J. Liu, Mohammad Saleh, Etienne Pot, Ben Goodrich, Ryan Sepassi, Lukasz Kaiser,
and Noam Shazeer. 2018. Generating wikipedia by summarizing long sequences. In
International Conference on Learning Representations.
Thang Luong, Hieu Pham, and Christopher D. Manning. 2015. Effective approaches to
attention-based neural machine translation. In Proceedings of the 2015 Conference on


Empirical Methods in Natural Language Processing, pages 1412–1421. Association for
Computational Linguistics.
Hongyuan Mei, TTI UChicago, Mohit Bansal, and Matthew R Walter. 2016. What to talk
about and how? selective generation using LSTMs with coarse-to-fine alignment. In
Proceedings of NAACL-HLT, pages 720–730.
Nasrin Mostafazadeh, Nathanael Chambers, Xiaodong He, Devi Parikh, Dhruv Batra,
Lucy Vanderwende, Pushmeet Kohli, and James Allen. 2016. A corpus and cloze
evaluation for deeper understanding of commonsense stories. In Proceedings of the
2016 Conference of the North American Chapter of the Association for Computational
Linguistics: Human Language Technologies, pages 839–849, San Diego, California.
Ramesh Nallapati, Bowen Zhou, Cicero dos Santos, Caglar Gulcehre, and Bing Xiang.
2016. Abstractive text summarization using sequence-tosequence rnns and beyond. In
Proceedings of The 20th SIGNLL Conference on Computational Natural Language
Learning, pages 280–290. Association for Computational Linguistics.

Ani Nenkova and Kathleen R. McKeown. 2011. Automatic summarization. Foundations
and Trends in Information Retrieval, 5(2-3):103–233.
Ani Nenkova and Lucy Vanderwende. 2005. The impact of frequency on summarization.
Technical report, Microsoft Research.
Franz Josef Och, Daniel Gildea, Sanjeev Khudanpur, Anoop Sarkar, Kenji Yamada, Alex
Fraser, Shankar Kumar, Libin Shen, David Smith, Katherine Eng, Viren Jain, Zhen Jin,
and Dragomir Radev. 2004. A smorgasbord of features for statistical machine
translation. In Proc. of HLT-NAACL, pages 161– 168.
Kishore Papineni, Salim Roukos, Todd Ward, and WeiJing Zhu. 2002. BLEU: a method
for automatic evaluation of machine translation. In Proceedings of the 40th annual
meeting on association for computational linguistics, pages 311–318. Association for
Computational Linguistics.
Shrimai Prabhumoye, Yulia Tsvetkov, Ruslan Salakhutdinov, and Alan W Black. 2018.
Style transfer through back-translation. In Proceedings of the 56th Annual Meeting of the
Association for Computational Linguistics (Volume 1: Long Papers), pages 866–876.
Sudha Rao and Joel Tetreault. 2018. Dear sir or madam, may I introduce the GYAFC
dataset: Corpus, benchmarks and metrics for formality style transfer. In Proceedings of
the 2018 Conference of the North American Chapter of the Association for
Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers),
volume 1, pages 129–140.


Alexander M. Rush, Sumit Chopra, and Jason Weston. 2015. A neural attention model for
abstractive sentence summarization. In Proceedings of the 2015 Conference on
Empirical Methods in Natural Language Processing, pages 379–389, Lisbon, Portugal.
Rico Sennrich, Barry Haddow, and Alexandra Birch. 2016. Controlling politeness in
neural machine translation via side constraints. In Proceedings of the 2016 Conference
of the North American Chapter of the Association for Computational Linguistics:
Human Language Technologies, pages 35–40, San Diego, California. Association for
Computational Linguistics.

Tianxiao Shen, Tao Lei, Regina Barzilay, and Tommi Jaakkola. 2017. Style transfer from
non-parallel text by cross-alignment. In Advances in Neural Information Processing
Systems, pages 6830–6841.
Tsung-Hsien Wen, Milica Gasic, Nikola Mrksiˇ c, Pei- ´ Hao Su, David Vandyke, and
Steve Young. 2015. Semantically conditioned LSTM-based natural language
generation for spoken dialogue systems. In Proceedings of the 2015 Conference on
Empirical Methods in Natural Language Processing, pages 1711–1721.
Sam Wiseman, Stuart Shieber, and Alexander Rush. 2017. Challenges in data-todocument generation. In Proceedings of the 2017 Conference on Empirical Methods in
Natural Language Processing, pages 2253–2263, Copenhagen, Denmark. Association
for Computational Linguistics.
Hayahide Yamagishi, Shin Kanouchi, Takayuki Sato, and Mamoru Komachi. 2016.
Controlling the voice of a sentence in Japanese-to-English neural machine translation.
In Proceedings of the 3rd Workshop on Asian Translation (WAT2016), pages 203–210,
Osaka, Japan. The COLING 2016 Organizing Committee.
Saizheng Zhang, Emily Dinan, Jack Urbanek, Arthur Szlam, Douwe Kiela, and Jason
Weston. 2018. Personalizing dialogue agents: I have a dog, do you have pets too? In
Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics
(Volume 1: Long Papers), pages 2204– 2213. Association for Computational Linguistics


×