Thảo
Quốc
Gia
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
Gia
2015
và Công
CôngNghệ
NghệThông
Thông
(ECIT
2015)
Gán nhãn ngữ nghĩa trong song ngữ Anh-Việt
Huỳnh Quang Đức và Trần Lê Tâm Linh
Trung tâm Tin học, Trường Cao đẳng Nghề Sóc Trăng, Tỉnh Sóc Trăng
Trung tâm Khoa học toán học, Trường Đại học Khoa học Tự nhiên Thành phố Hồ Chí Minh
Email: ,
Abstract – Tiếp cận nội dung gán nhãn ngữ nghĩa trong
song ngữ đã được nghiên cứu nhiều trên các ngôn ngữ phổ
biến (như Tiếng Anh, tiếng Pháp). Tuy nhiên, việc gán
nhãn ngữ nghĩa cho những ngơn ngữ ít phổ biến như tiếng
Việt hiện nay đang còn hạn chế, đặc biệt là tận dụng sự
tương đồng ngữ nghĩa trên song ngữ Anh-Việt. Trong nội
dung nghiên cứu này, chúng tôi đề xuất một giải pháp cho
việc gán nhãn ngữ nghĩa một cách tự động trên kho ngữ
liệu song ngữ Anh-Việt, tận dụng những dịch chuyển từ
vựng trong ngôn ngữ chéo, nhưng vẫn đảm bảo yếu tố cốt
lõi về mặt ngữ nghĩa của nó. Hệ thống sử dụng kho ngữ
liệu song ngữ Anh-Việt để xây dựng các tập hợp liên kết có
khả năng kết hợp từ nhiều từ khác nhau được phát hiện
trong kho ngữ liệu, đồng thời hệ thống này cũng sử dụng
một thuật toán học không giám sát để gán nhãn ngữ nghĩa
trên tiếng Anh dựa vào sự tương đồng ngữ nghĩa được liên
kết từ tiếng Việt thông qua ngữ liệu song ngữ Anh-Việt.
Sau đó, hệ thống tự động chiếu những nhãn từ tiếng Anh
sang tiếng Việt thơng qua những liên kết có sẵn.
kém về chi phí và thời gian, địi hỏi phải có đội ngũ chuyên
nghiệp về đánh dấu nhãn ngữ nghĩa trên ngôn ngữ. Những
phương pháp học không giám sát trên đơn ngữ có thuận lợi là
sự giả định ít hơn về dữ liệu có giá trị, nhưng khả năng tổng
quát thực tiễn thấp [2] [12].
Sử dụng kho ngữ liệu song ngữ thì những lợi điểm của hai
ngơn ngữ được khai thác một cách phù hợp. Khả năng gán
nhãn ngữ nghĩa một cách tự động [1] trên phần lớn dữ liệu của
kho ngữ liệu song ngữ bằng thuật tốn học khơng giám sát có
thể thực hiện được, mà khơng mất nhiều thời gian và tiết kiệm
được chi phí. Trong nội dung nghiên cứu này, chúng tôi sử
dụng đồng thời việc gán nhãn ngữ nghĩa trên hai ngôn ngữ
Anh-Việt với một nhãn nghĩa thống kê có sẵn.
Mục đích của phương pháp tiếp cận này hướng đến là: Thứ
nhất, cung cấp một số lượng lớn dữ liệu được gán nhãn ngữ
nghĩa trên tiếng Anh mà không cần đánh dấu bằng tay bởi các
chuyên gia. Thứ hai, đồng thời cũng gán được nhãn ngữ nghĩa
trên tiếng Việt với sự kết hợp hệ thống nhãn đã được đánh dấu
trên tiếng Anh.
Vấn đề cần quan tâm của nghiên cứu này là sự quan sát
những chuyển đổi có thể đáp ứng qua lại như một cơ sở các
đặc trưng về mặt ngữ nghĩa [11]. Một từ có nhiều nghĩa trên
tiếng Anh thường được dịch sang một nghĩa cụ thể trên tiếng
Việt với lựa chọn tùy vào người dịch và nghĩa ngữ cảnh. Vì
vậy, dịch nghĩa phù hợp được xem như một nghĩa chỉ dẫn cho
một ví dụ trong ngữ cảnh của nó. Mặc khác, những ví dụ về kết
nối ngữ nghĩa được dịch với một vài nhất quán trong một số ít
quan hệ từ trong tiếng Việt. Ngồi ra, một số ít từ rất hiếm gặp
một tập hợp duy nhất ngay cả với một nghĩa duy nhất, vì những
ưu tiên việc dịch khác nhau và yêu cầu về ngữ cảnh tạo ra
những từ tương đồng ngữ nghĩa mà khác với sắc thái của nó.
Keywords - ngữ liệu song ngữ; học không giám sát; kho ngữ
liệu; dịch máy;
I. GIỚI THIỆU
Hệ thống gán nhãn ngữ nghĩa là một công cụ quan trọng
trong xử lý ngôn ngữ tự nhiên, đặc biệt là sự phát triển nhanh
chóng của dữ liệu trên Internet. Hiện nay, các nhà nghiên cứu
đang tập trung giải quyết câu hỏi trọng tâm của ngơn ngữ học
tính tốn là làm sao khử nhập nhằng ngữ nghĩa trong ngôn ngữ
tự nhiên, giúp máy tính hiểu rõ được ý nghĩa câu nói của con
người, nhằm giải quyết những vấn đề thực tế trong cuộc sống
hiện đại, gồm nhiều lĩnh vực khác nhau như: khai thác thơng
tin, trả lời câu hỏi, tóm tắt văn bản, dịch máy … Việc phân
tích ngữ nghĩa của văn bản ở mức độ câu, người ta quan tâm
đến đặc điểm của sự kiện như: ai, làm việc gì, ở đâu, khi nào,
như thế nào … những câu hỏi này là đặc điểm chính của việc
gán nhãn ngữ nghĩa cho ngơn ngữ [6].
Bên cạnh đó, những yếu tố quan trọng như: Kỹ thuật máy
học, sự lan truyền về hệ thống ngữ nghĩa của WordNet và giá
trị của kho ngữ liệu lớn cũng được quan tâm trong việc khử
nhập nhằng ngữ nghĩa trong xử lý ngôn ngữ tự nhiên. Phần
lớn những hệ thống học giám sát thì việc học từ kho ngữ liệu
đã được gán nhãn ngữ nghĩa một cách chính xác, được thực
hiện bằng tay do các chuyên gia về ngôn ngữ học thực hiện,
đồng thời việc học đánh giá trên ngữ liệu huấn luyện cần số
lượng lớn ngữ liệu đã được đánh dấu [9]. Điều này là rất tốn
ISBN: 978-604-67-0635-9
Ví dụ, trong kho ngữ liệu song ngữ Anh-Việt, một từ trong
tiếng Việt là “đơng” có thể được dịch tương ứng với từ
“winter” trong tiếng Anh tại một đoạn văn bản, đồng thời cũng
có thể dịch thành từ “east” trong một đoạn văn bản khác. Trong
mỗi từ tiếng Anh như: winter, east bản thân nó cũng có sự
nhập nhằng riêng của từng từ. Nhưng chúng ta có thể tận dụng
ưu điểm thực tế mà cả hai ví dụ từ trong tiếng Anh xuất hiện
tương ứng với từ đông trong tiếng Việt để suy đoán rằng hai từ
tiếng Anh có thể có một vài yếu tố riêng biệt về nghĩa trong
từng đoạn văn bản cụ thể. Chúng ta có thể sử dụng những suy
luận đó để quyết định những nghĩa tiếng Anh nào muốn nói
đến. Điều này phù hợp với mục tiêu ban đầu là chúng ta có thể
chiếu sự lựa chọn nghĩa của từ winter trong tiếng Anh của ví
dụ này sang từ tiếng Việt đơng trong ngữ cảnh này, cũng tương
tự như từ east được dịch sang từ đơng, vì vậy việc gán nhãn
71
71
Thảo
Quốc
Gia
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
Gia
2015
và Công
CôngNghệ
NghệThông
Thông
(ECIT
2015)
ngữ nghĩa trong hai ngôn ngữ song song với sự thống kê đơn
nghĩa là hoàn toàn phù hợp và có thể thực hiện được.
III. PHƯƠNG PHÁP TIẾP CẬN
Để thuận tiện trong việc tiếp cận phương pháp nghiên cứu,
trong kho ngữ liệu song ngữ Anh-Việt chúng tôi thống kê ngữ
nghĩa trên tiếng Anh, mặc dù khơng có sự giả định cần thiết
trong việc dịch trực tiếp, nhưng chúng tôi xem mặc định kho
ngữ liệu tiếng Anh là ngôn ngữ mục tiêu để gán nhãn ngữ
nghĩa và kho ngữ liệu tiếng Việt là ngôn ngữ ngồn xác định
nhãn nghĩa tương đồng cho ngôn ngữ mục tiêu. Trong phần
trước, chúng tôi ví dụ từ tiếng Việt đơng được dịch sang hai từ
khác nhau trong tiếng Anh là winter và east trong hai ngữ cảnh
khác nhau. Quá trình thực hiện hướng tiếp cận này được mô tả
chi tiết như sau:
Trong nội dung nghiên cứu, chúng tôi sử dụng một kho ngữ
liệu song ngữ Anh-Việt với phần lớn dữ liệu được lấy từ ngữ
liệu song ngữ EVC và LLOCE. Sau đó sẽ tiến hành xác định
ngữ nghĩa trên các cặp câu song ngữ Anh-Việt thông qua độ
tương đồng ngữ nghĩa và sự dịch chuyển từ vựng trong ngôn
ngữ chéo để xác định nhãn ngữ nghĩa trên danh từ tiếng Anh.
Cuối cùng là chiếu nhãn ngữ nghĩa từ tiếng Anh sang tiếng
Việt với bộ nhãn trong từ điển ý niệm song ngữ LLOCE
(Longman Lexicon Of Contemporary English) - LLOCV
(Longman Lexical Of Contemporary Vietnamese).
A. Xác định danh từ
Xác định những từ trong ngữ liệu tiếng Anh (ngữ liệu khả
năng - ngơn ngữ mục tiêu) có nghĩa được dịch thích hợp trong
ngữ liệu tiếng Việt (ngữ liệu nguồn). Ví dụ cho trường hợp
này là tập các khả năng của kho ngữ liệu tiếng Anh {winter,
east}, và từ trong kho ngữ liệu tiếng Việt {đông}.
Chúng tôi giả sử lấy một câu hoặc một đoạn đã được dịch
song song trong kho ngữ liệu, dữ liệu song song có sẵn và phù
hợp là từ những trang Web trên mạng Internet. Sau đó, nhận
dạng và đánh dấu các từ có thể liên kết, chúng ta thu được
những câu ở mức độ liên kết từ. Với mỗi từ trong tiếng Việt
chẳng hạn như w, chúng ta thu thập một từ ví dụ như v mà nó
được liên kết. Vị trí của từ trong ví dụ được lưu lại để trong
phần sau chúng ta có thể chiếu trở lại nhãn ngữ nghĩa cuối
cùng từ v sang w. Ví dụ ta có một cặp câu song ngữ Anh-Việt
với liên kết như hình 1.
Các phần cịn lại của nghiên cứu này bao gồm:
Cơng việc liên quan: Một số cơng trình nghiên cứu có
liên quan đến gán nhãn ngữ nghĩa trên đa ngữ.
Đề xuất phương pháp tiếp cận: Mô tả những nội dung
thực hiện để gán nhãn ngữ nghĩa trong kho ngữ liệu song ngữ
Anh-Việt.
Đánh giá kết quả phương pháp tiếp cận vấn đề: Trình
bày những yêu cầu cần thiết trong đánh giá kết quả thực
nghiệm mà chúng tôi sử dụng để gán nhãn ngữ nghĩa.
Thảo luận vấn đề tận dụng lợi điểm của kho ngữ liệu
song ngữ. Kết luận và hướng phát triển trong thời gian tới.
II. CƠNG TRÌNH LIÊN QUAN
Trong nghiên cứu của mình Paul Rayson và cộng sự đã xây
dựng cơng cụ phân tích ngữ nghĩa sử dụng bộ nhãn ý niệm
LLOCE được chia thành 21 chủ đề, và trong 21 chủ đề này
được chia thành 232 loại ý niệm khác nhau [14]. Trong đó, các
tác giả đã dựa vào nhiều loại tri thức khác nhau để xác định
nhãn ngữ nghĩa cho từ trong câu như: từ loại (POS tag), từ có
nhiều chữ (MWEs), từ điển tần suất, phạm vi văn bản (domain
of discourse) …
Thời tiết đã chuyển sang đông
The weather turned to the winter
Dựa trên từ điển ý niệm LLOCE, Scott Piao et all đã phát
triển một hệ thống gán nhãn ngữ nghĩa trên nhiều ngôn ngữ
như: tiếng Anh, tiếng Bồ Đào Nha, tiếng Trung Quốc và tiếng
Ý [15] với kiến trúc hệ thống dựa vào luật ngữ cảnh (context
rules), từ vựng từ (word lexicon), từ vựng nhiều từ (mwe
lexicon). Trong đó có sử dụng TreeTagger cho tiếng Ý và Bồ
Đào Nha và Stanford POS tagger cho tiếng Trung Quốc.
Hình 1. Một ví dụ về liên kết danh từ
Sự liên kết có thể xảy ra giữa từ đơng và từ winter trong
cặp câu song ngữ trên, có nghĩa là hệ thống sẽ dịch từ đông
trong tiếng Việt thành từ winter trong tiếng Anh, từ thời tiết
trong tiếng Việt được dịch thành từ weather trong tiếng Anh.
B. Gom nhóm – Xây dựng tập các khả năng
Bên cạnh đó, chúng tôi cũng tham khảo cách thức tổ chức
từ điểm ý niệm LLOCE được xây dựng bởi Mc Arthur năm
1981 (Mc Arthur, 1981) với cách tổ chức nhãn được gắn thêm
các yếu tố phụ nhằm giúp tăng độ chính xác của nhãn ngữ
nghĩa khi thực hiện gán nhãn cho văn bản. Ví dụ như: giới tính
(sex) nhãn được ghi thêm m/f (male/female) hoặc +/(positive/negative) được bổ sung vào nhãn “happy” hoặc “sad”
với mã “E4.1+” hoặc “E4.1-”.
Gom nhóm những từ trong ngôn ngữ mục tiêu tạo thành
những tập các khả năng về nghĩa được dịch cùng một hình thức
chính tả trong ngôn ngữ nguồn. Tức là sử dụng kho ngữ liệu để
xây dựng các tập khả năng của tất cả các từ (danh từ) mà có
liên kết với nhiều từ khác nhau (từ hai từ trở lên) được phát
hiện trong kho ngữ liệu. Chúng tôi thu thập mỗi loại từ vi trong
tiếng Việt gồm tập hợp tất cả những loại từ trong tiếng Anh mà
được liên kết với bất cứ từ nào trong kho ngữ liệu và gọi đó là
tập khả năng của vi. Ví dụ trong trường hợp này ta có từ trong
câu tiếng Việt là đơng có thể bao gồm những loại từ trong tiếng
Anh winter, east, frozen. Trong tập các khả năng ta thấy xuất
hiện thêm từ frozen mà trong hai ví dụ trước ta thấy khơng có,
điều đó được lý giải như sau:
Trong đánh giá kết quả thực nghiệm [15] tác giả cũng chỉ ra
những lỗi từ vựng xảy ra trong quá trình dịch từ tiếng Anh sang
ngôn ngữ khác như: Từ tiếng Anh father với nhãn S4m, S9,
S2m hoặc từ dad, dada, baba, da, daddy với nhãn S4m, papa
(S4m) …
Sở dĩ có từ frozen trong tập các khả năng là vì trong một số
trường hợp trong kho ngữ liệu có đoạn dịch câu “thời gian này
thời tiết đã chuyển sang đông” thành câu “this time the weather
72
72
HộiHội
Thảo
Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
nghĩa như trên, theo cách tự nhiên thì việc nhận ra đặc điểm vai
trò ngữ nghĩa của từ thuộc lớp ngữ nghĩa như là đối số của nó
được phân bố bằng mối quan hệ cho việc ưu tiên lựa chọn về
độ đo. Đặc biệt, là những lớp có vai trị ngữ nghĩa phù hợp nhất
sẽ có xác suất cao hơn được so với từ đứng trước nó. Cụ thể,
kết nối được lựa chọn thơng qua cơng thức:
has shifted frozen”. Ngồi ra, trong tập các khả năng cịn có thể
chứa thêm từ khác, nếu như trong kho ngữ liệu song ngữ AnhViệt chương trình cịn phát hiện câu dịch có từ đơng được dịch
sang từ khác trong câu tiếng Anh ở một đoạn khác. Ví dụ: Với
câu tiếng Việt “Tại thành phố Hồ Chí Minh số lượng người rất
đơng” được dịch trong ngữ liệu tiếng Anh thành câu “The
number of people are crowded in Ho Chi Minh City”, khi đó
tập các khả năng của từ đông sẽ được bổ sung thâm từ
crowded.
AR ( p, c)
trước
person
sau
insect
…
person
insect
…
Hình 3. Sự phân bố xác suất trước và sau thông qua đối số
Bảng 1 thể hiện sự so sánh một từ được lựa chọn để gán
nhãn ngữ nghĩa thuộc lớp nào trong LLOCE với đối số theo
quan điểm của con người.
BẢNG 1. SỰ KẾT HỢP DANH TỪ PHÙ HỢP
Verb
turn
go
become
be
C. Tính xác suất xác định nhãn ngữ nghĩa
Xem xét tất cả các cặp từ có nghĩa có thể có trong phạm vi
mỗi tập mục tiêu và chọn những từ có nghĩa được cung cấp bởi
sự tương đồng ngữ nghĩa của những từ khác trong nhóm thơng
qua độ tin cậy về mặt nghĩa của nó. Ví dụ như trong phạm vi
tập các khả năng {winter, east, frozen} và tập nguồn {đông}, ta
sẽ xem xét các cặp (winter, đông), (east, đông), (frozen, đông),
mỗi cặp sẽ được gán một giá trị độ tin cậy về mặt ngữ nghĩa.
Trong bước này, tập các khả năng được xem như là vấn đề gán
nhãn ngữ nghĩa trên đơn ngữ đối với sự thống kê ngữ nghĩa
trên ngôn ngữ mục tiêu. Chúng ta quan tâm đến tập các khả
năng {winter, east, frozen}. Đối với con người thì việc chọn
nghĩa của các từ này nằm cạnh nhau sẽ hiểu ngay ý nghĩa đặc
trưng của từng từ. Nhưng với máy tính thì việc xác định nghĩa
sẽ được thực hiện bằng thống kê thơng qua thuật tốn tính xác
suất. Điều này được Philip Resnik khai thác rất hiệu quả trong
thuật tốn khử nhập nhằng ngữ nghĩa thơng qua những mối
quan hệ của nó [13]:
Noun
winter
east
frozen
crowded
AR(verb,noun)
4,94
4,15
3,02
2,11
Semanitc classes
L238
L13
B140
N250
Ví dụ với từ winter có 3 nghĩa khác nhau thuộc 18 lớp ngữ
nghĩa trong từ điển LLOCE, để tính xấp xỉ phù hợp động từ
cho từ winter, sự lựa chọn kết hợp từ go sẽ được tính tốn trên
18 lớp ngữ nghĩa và được trả về giá trị cao nhất, trong trường
hợp này nếu winter có một nghĩa duy nhất thì lớp nhãn ngữ
nghĩa được tạo ra cho từ winter. Cách tiếp cận này quyết định
đối số phù hợp thông qua thuật tốn khử nhập nhằng thơng
qua sự ưu tiên lựa chọn được mô tả như sau:
Cho n là một danh từ có quan hệ R với động từ p, cho một
tập {s1, s2 …. sk} là những nghĩa có thể có của nó. Khi đó:
cho i chạy từ 1 đến k và tính:
Ci = {c | c là gốc của nghĩa si};
ai max ( AR ( p, c)) ;
cCi
S R ( p) D(Pr(c | p) || Pr(c)
c
Pr(c|buzz)
Pr(c)
Hình 2. Một số bước cơ bản của thuật toán xây dựng tập khả năng
Pr(c | p)
Pr(c)
(2)
Quan sát hình 3, ta thấy phân bố tỷ lệ xác suất sẽ thay đổi
khi từ tiếp theo xuất hiện với một từ cho trước.
Thuật toán 1: CAS - Create Ability Set
Đầu vào: Văn bản song ngữ Anh-Việt
Đầu ra: Tập các khả năng một từ tiếng Việt được dịch
sang tiếng Anh.
Bước 1: Tìm danh từ vi. Gọi là tập các ứng viên V;
Bước 2: Tạo tập rỗng S để lưu tập các khả năng cho mỗi
từ vi;
Bước 3: k = 1;
Bước 4: Mỗi từ vi trong V thực hiện
Tạo tập rỗng Sk
Mỗi cặp câu song ngữ thực hiện
Tìm mỗi cặp (we, wv) có wv = = vi bổ sung từ tiếng
Anh vào Sk;
Lưu lại liên kết;
Bước 5: Thêm (vi, Sk) vào S;
Bước 6: k = k + 1;
Bước 7: Quay lại bước 4.
Pr(c | p) * log
1
Pr(c | p)
* Pr(c | p) * log
S R ( p)
Pr(c)
gán ai như là điểm số đại diện ngữ nghĩa của si.
Trong nghiên cứu về sự phù hợp ngữ nghĩa [5] cách đơn
giản nhất là sử dụng kết quả điểm số được tính tốn như trên.
Nếu n có nghĩa duy nhất thì chọn nghĩa đó, ngược lại thì lựa
chọn nghĩa si mà có ai tốt nhất.
Minh họa cụ thể vào cách tiếp cận mà chúng tôi nghiên
cứu. Cho một tập hợp các khả năng {w1, w2 … wn}, thuật toán
sẽ xây dựng trên mỗi cặp (wi,wj) với i ≠ j và xác định nghĩa nào
(1)
Trong đó, S R ( p) là độ đo thông tin, từ p cho biết lớp
nguyên lý về đối số của nó, Pr(c) là khả năng tính xấp xỉ cao
hơn Pr(c | p) , trong trường hợp này từ p sẽ có ít khả năng hơn
đối số của nó, nên khả năng lựa chọn sẽ ít hơn c. Với cách định
73
73
HộiHội
Thảo
Quốc
Gia
2015
và Công
CôngNghệ
NghệThông
Thông
(ECIT
2015)
Thảo
Quốc
Gia
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
TinTin
(ECIT
2015)
cho cặp từ (wi,wj) với sự tương đồng ngữ nghĩa lớn nhất. Và
những nghĩa này sẽ được đại diện bằng một con số tương ứng
với mức độ hợp lý nghĩa của từ. Sau khi xây dựng được tất cả
các cặp trong tập hợp các khả năng, chúng ta sẽ bắt đầu so sánh
trên mỗi cặp, với mỗi nghĩa của từ được ký hiệu bằng một số
xi,k cho mỗi từ wi và được kết hợp với nó là một độ tin cậy
c(xi,k) [0, 1], khi đó sẽ gắn với một nhãn ngữ nghĩa cụ thể. Ví
vụ cho trường hợp này, với một cặp câu song ngữ như sau:
“thời tiết đã chuyển sang đông từ tháng 10” được liên kết với
câu “the weather turned to the winter from October ”, tức là
cặp (đơng, winter) sẽ có độ tin cậy cao hơn cặp (east, đông).
Phần cuối của bước này, hệ thống sẽ đánh dấu biến đổi quan
trọng trong bản dịch nhờ vào những tương đồng ngữ nghĩa của
nhiều từ trong tập các khả năng.
từ-trên 16.000 mục từ có quan hệ về nghĩa [3].
Hệ thống của chúng tôi tiếp cận gán nhãn ngữ nghĩa cho
danh từ với lớp ngữ nghĩa của nó trong cặp câu song ngữ AnhViệt, tức là gán nhãn ngữ nghĩa thuộc 2449 lớp ngữ nghĩa
trong từ điển song ngữ LLOCE-LLOCV (xem hinh 5, hình 6).
LLOCE
A
B
C
L2
L1
M N
L
…
…
L3
…
L21 L22 L23 L24
Thuật toán 2: CP - Calculate Probability
Bước 1: Tạo tập C;
Bước 2: Với mỗi cặp (vi, Sk) trong S thực hiện
Tạo tập Ci;
Với mỗi từ tiếng Anh En trong Sk
Tạo tập Ck;
Với mỗi cặp câu song ngữ trong kho ngữ liệu
Tìm cặp (wv,we) có wv == vi hoặc we == En
Thêm từ tiếng Anh đứng trước we vào Ck
Thêm (vi, En, Ck) vào C;
Tính xác suất xi,k chuẩn hóa với độ tin cậy c(xi,k)
Bước 3: Với mỗi cặp câu song ngữ
Với mỗi từ tiếng Anh trong Sk
Xác định xi, k lớn nhất;
Xác định độ tương đồng nhãn trong LLOCE;
Gán nhãn cho danh từ trong tiếng Anh;
L231 L232
L238 L239
…
…
…
winter
Hình 5. Một nhánh nhãn trong LLOCE
Hệ thống thu thập dữ liệu song ngữ từ nhiều nguồn khác
nhau như: kho ngữ liệu song ngữ EVC, kho ngữ liệu song ngữ
dành cho dịch máy, kho ngữ liệu của LLOCE ... Sau đó, đánh
giá và xử lý tách câu, xác định những câu là bản dịch của
nhau, tiếp theo sẽ tiến hành gióng hàng từ và gán nhãn từ loại
[4]. Sau đó, xây dựng các tập khả năng được dịch từ kết quả
gióng hàng. Kiến trúc hệ thống tổng qt của mơ hình xem chi
tiết trong hình 7.
LLOCV
Hình 4. Một số bước cơ bản của thuật tốn tính xác suất
D. Chiếu nhãn
Chiếu những nhãn ngữ nghĩa từ tập các khả năng sang tập
nguồn của kho ngữ liệu song ngữ. Chúng tôi tận dụng những
ưu điểm trong việc gán nhãn ngữ nghĩa trong tiếng Anh và
mức độ kết nối từ để chiếu những nhãn ngữ nghĩa này với một
sự tương đồng trong tiếng Việt. Ví dụ, với cặp câu song ngữ
Anh-Việt “the weather turned to the winter from October” và
“thời tiết đã chuyển sang đông từ tháng 10”, sau các bước
được thực hiện ở trên, ta thu được một câu trong tiếng Anh với
nhãn ngữ nghĩa được gán như sau “the weather turned to the
winter/L238 from October” kết quả trong câu tiếng Việt “thời tiết
đã chuyển sang đông/L238 từ tháng 10”. Nhãn L238 trong hệ
thống nhãn ngữ nghĩa LLOCE – LLOCV được trình bày trong
phần tiếp theo.
A
B
C
L
…
L2
L1
M N
L3
…
…
L21 L22 L23 L24
L231 L232
…
…
L238 L239
mùa đơng
…
Hình 6. Một nhánh nhãn trong LLOCV
Do hiện nay chưa có kho ngữ liệu song ngữ Anh-Việt đủ
lớn và đạt tiêu chuẩn đã được gán nhãn ngữ nghĩa trên danh từ
bởi các chuyên gia để làm cơ sở đánh giá và so sánh kết quả
trên hệ thống tiếp cận của chúng tôi. Nên kết quả thực nghiệm
của chúng tôi chỉ mô tả cách thức tiến hành và số lượng nhãn
ngữ nghĩa được gán trên kho ngữ liệu song song Anh-Việt mà
được chúng tôi tự xây dựng bằng máy học thống kê. Chất
lượng các câu dịch tự động phụ thuộc vào so sánh độ tương
đồng ngữ nghĩa [12] và thống kê dịch chuyển từ vựng trong
IV. ĐÁNH GIÁ PHƯƠNG PHÁP TIẾP CẬN
Để đánh giá cho phương pháp tiếp cận này, chúng tôi dựa
vào hệ thống nhãn ngữ nghĩa trên từ điển ý niệm LLOCE (1)
song ngữ Anh-Việt. Từ điển LLOCE được tổ chức và sắp xếp
thành các chủ đề-14 chủ đề, mỗi chủ đề được chia thành nhiều
nhóm-129 nhóm, mỗi nhóm được chia thành nhiều lớp-2449
lớp (được gọi là các lớp ngữ nghĩa) và mỗi lớp gồm các mục
(1) Tham khảo thêm tại đường link hệ thống
sử dụng nhãn ngữ nghĩa LLOCE
74
74
Thảo
Quốc
Gia
2015vềvềĐiện
ĐiệnTử,
Tử,Truyền
TruyềnThông
Thông và
TinTin
(ECIT
2015)
HộiHội
Thảo
Quốc
Gia
2015
và Công
CôngNghệ
NghệThông
Thông
(ECIT
2015)
ngôn ngữ chéo [10]. Chúng tôi thực nghiệm cho phương pháp
tiếp cận với kho ngữ liệu tự xây dựng từ nhiều nguồn khác
nhau trên các bản song ngữ Anh-Việt được tổng hợp trong
bảng 2.
BẢNG 3. NHÃN NGỮ NGHĨA ĐƯỢC GÁN
Ngữ liệu
EVC
Dịch máy
LLOCE
Ngữ liệu
song ngữ
Giza++
LLOCE
Tiền xử lý
Gán nhãn
ngữ nghĩa
Dịch chuyển
từ vựng
Số nhãn
được gán
311
Tương đồng
ngữ nghĩa
Hình 7. Kiến trúc tổng qt hệ thống gán nhãn
Độ chính
xác
64,95%
Độ bao
phủ
52,88%
Trong khn khổ nội dung nghiên cứu này, chúng tơi trình
bày một cách tiếp cận sử dụng thuật tốn học khơng giám sát
để gán nhãn vai trò ngữ nghĩa cho danh từ trong câu song ngữ
Anh-Việt. Khai thác sự dịch chuyển từ vựng trong ngơn ngữ
chéo để gán nhãn, bên cạnh đó, cũng tận dụng được một số
đặc trưng trong ngữ cảnh song ngữ để hỗ trợ ra quyết định gán
nhãn vai trò ngữ nghĩa thích hợp trong câu.
Với cách tiếp cận này, ngồi việc quan sát kết quả đạt
được chúng tôi nhận thấy rằng những từ mà có những dịch
chuyển tương tự thường được dùng để chia sẽ một vài yếu tố
ngữ nghĩa giúp cho thuật toán cũng cố nghĩa của từ bằng sự
tương đồng ngữ nghĩa với từ khác đảm bảo độ chính xác cao
hơn.
Trong thực hiện bước tiền xử lý, chúng tôi sử dụng công cụ
tách từ vnTokenizer, POS tagger cho văn bản tiếng Việt, POS
tagger cho văn bản tiếng Anh. Sau đó, sử dụng cơng cụ
GIZA++ cho giai đoạn gióng hàng ở mức từ. Tiếp theo sẽ tiến
hành xác định và nhận dạng danh từ cần gán nhãn (loại bỏ các
nhãn khơng cần thiết như động từ, trạng từ, tính từ …). Quá
trình gán nhãn ngữ nghĩa sẽ dựa vào độ tương đồng ngữ nghĩa
và sự dịch chuyển từ vựng trong ngôn ngữ chéo để xác định
nhãn hợp lý trong q trình tính tốn xác suất để thống kê ngữ
nghĩa.
BẢNG 2. KHO NGỮ LIỆU ANH-VIỆT
Ngữ liệu EVC
Ngữ liệu dịch máy
Ngữ liệu LLOCE
Nhãn
đúng
202
Về kiểm tra chất lượng tập các khả năng lựa chọn dịch từ
tiếng Việt (ngôn ngữ nguồn) chúng tôi thấy vẫn cịn một số từ
bên ngồi khơng liên quan đến nghĩa cần dịch, ví dụ như từ
tiếng Việt {xe đạp} có tập các khả năng {bicycle, tricycle, bike,
motocycle, velocipede, cyclist}, hoặc từ {văn phịng} có tập
khả năng {office, living room, meeting, placement}.
Ngữ liệu
gán nhãn
Số cặp câu
song ngữ
60.032
20.000
31.951
Phần trăm từ
vựng
61,63%
50,27%
61,41%
BẢNG 4. KẾT QUẢ ĐÁNH GIÁ THỰC NGHIỆM
LLOCV
Nguồn ngữ liệu
Số danh từ
được gán
220.087
109.777
65.711
Để đánh giá cho phương pháp tiếp cận, chúng tôi giữ lại
600 cặp câu song ngữ, 382 danh từ trong kho ngữ liệu huấn
luyện (mà nó khơng được sử dụng trong q trình huấn luyện
trước) và chúng tơi thu được kết qua như trong Bảng 4.
Tách từ
Gán nhãn
từ loại
Số lượng
danh từ
357.098
218.367
107.009
V. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Số từ
Mặc dù kết quả thực nghiệm của chúng tơi khơng có kho
ngữ liệu để so sánh và đánh giá, nhưng hiệu suất của cách tiếp
cận này cũng đáng được ghi nhận với việc xây dựng một hệ
thống học không giám sát gán nhãn ngữ nghĩa, dựa trên độ
tương đồng ngữ nghĩa trong từ vựng của ngôn ngữ chéo, đây
là yếu tố cơ bản trong việc dịch thống kê, mặc dù độ tương
đồng được bắt đầu từ bản dịch máy, không phải là bản dịch rõ
ràng của con người. Do đó, trong kết quả thực nghiệm chúng
tôi chỉ quan tâm đến những vấn đề về độ bao phủ (recall) và
độ chính xác (precision) khi thực hiện mơ hình dịch máy
thống kê để đánh giá độ tương đồng khi gán nhãn.
Trong kết quả đạt được có một vài câu quá dài với sự khác
biệt về bản chất ngôn ngữ, một số ngoại lệ, ký hiệu riêng khi
dịch từ ngôn ngữ này sang ngôn ngữ khác, thì hệ thống sẽ
khơng tự động gióng hàng và gán nhãn được cho những cặp
câu này. Thời gian tới chúng tôi sẽ cố gắng tăng độ dài của
câu dịch đến mức độ chấp nhận được hoặc có thể sử dụng một
số kỹ thuật để tách một câu dài hay với cú pháp đặc biệt thành
1.601.183
1.109.564
704.564
Dữ liệu trong Bảng 2 sau đó được chúng tơi chuẩn hóa
theo chuẩn kho ngữ liệu song ngữ, mã ký tự theo bảng mã
Vietnam unicode, phong ký tự Time New Roman. Sau đó, căp
câu song ngữ sẽ được gióng hàng và được kiểm tra bán tự
động. Việc làm này sẽ giúp chúng tôi cải thiện được hiệu suất
gán nhãn cũng như giảm bớt phát sinh lỗi trong q trình
gióng hàng bằng phương pháp thống kê gây ra.
Ví dụ cho một trường hợp được chuẩn hóa cặp câu song
ngữ như sau:
D5335: He swims every day during the summer
D5335: Anh ấy bơi mỗi ngày suốt mùa hè
Để kiểm tra quá trình gán nhãn danh từ trong kho ngữ liệu
chúng tôi thực hiện trên kho ngữ liệu trong bảng 2 với kết quả
gán nhãn như trong bảng 3.
75
75
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
những câu ngắn hơn với sự liên kết đặc biệt, để khi cần thiết
có thể kết hợp lại thành câu hoàn chỉnh đúng với ý nghĩa ban
đầu của nó.
Vấn đề thứ hai chúng tơi quan tâm đó là việc xây dựng một
kho ngữ liệu song ngữ Anh-Việt với các văn bản được dịch
song song chính xác bởi các chuyên gia, để làm cơ sở đánh giá
hiệu suất gán nhãn của hệ thống mà chúng tôi tiếp cận, khi đó
việc cải tiến hiệu suất tiếp cận sẽ được ưu tiên hàng đầu trong
việc gán nhãn ngữ nghĩa trong thời gian tới của chúng tơi. Bên
cạnh đó, hệ thống sử dụng dịch tự động, nên một số từ vừa
nhập nhằng trong tiếng Anh, vừa nhập nhằng trong tiếng Việt,
hệ thống chỉ dựa vào thống kê theo xác suất nên thiếu thống
tin về ngữ cảnh trong việc lựa chọn từ vựng để dịch. Thời gian
tới chúng tôi sẽ xây dựng và mở rộng kho ngữ liệu văn bản
song ngữ Anh-Việt mà được dịch bởi các chuyên gia hoặc kết
hợp thêm nhiều yếu tố trong ngôn ngữ nguồn, giúp sự lựa
chọn từ vựng dịch từ tiếng Việt sang tiếng Anh đạt hiệu quả
cao hơn.
Mặc dù nội dung của bài báo còn nhiều hạn chế nhưng
cũng góp phần cung cấp thêm một hướng tiếp cận trong việc
gán nhãn ngữ nghĩa trong xử lý ngôn ngữ tiếng Việt nhằm hỗ
trợ trong việc dịch tự động, truy vấn thơng tin, tóm tắc văn
bản… Thời gian tới, chúng tôi cố gắng nghiên cứu nâng cao
hiệu suất cho hệ thống và gán thêm nhãn cho động từ, tính từ
và trạng từ nhằm hồn chỉnh hệ thống gán nhãn ngữ nghĩa cho
các từ trong câu.
[2]
LỜI CẢM ƠN
[12]
[3]
[4]
[5]
[6]
[7]
[8]
[9]
[10]
[11]
Chúng tôi xin chân thành cám ơn PGS.TS Đinh Điền đã hỗ
trợ định hướng chuyên môn cho nghiên cứu này và các đồng
nghiệp tại Phd.Lab của Khoa Công nghệ Thông tin Trường Đại
học Khoa học Tự nhiên thành phố Hồ Chí Minh trong việc hỗ
trợ sử dụng các cơng cụ tính tốn cho kết quả thực nghiệm của
chúng tôi.
[13]
[14]
TÀI LIỆU THAM KHẢO
[1]
[15]
Daniel Gildea, Daniel Jurafsky. 2002. Automatic Labeling of Semantic
Roles, 2002 Association for Computational Linguistics. Volume 23,
number 3.
76
76
Dekang Lin. 2000. Word Sense Disambiguation with a Similarity
Smoothed Case Library, Computers and the Humanities, 34: 147-152,
2000.
Đinh Điền, 2006. Xử lý ngôn ngữ tự nhiên. Nhà xuất bản Đại học Quốc
gia thành phố Hồ Chí Minh-2006.
Dinh Dien, Hoang Kiem. 2003. POS-Tagger for English-Vietnamese
Bilingual Corpus, Proceedings of the HLT-NAACL 2003 Workshop on
Building and Using Parallel Texts: Data Driven Machine Translation
and Beyond.
George Miller, Martin Chodorow, Shari Landes, Claudia Leacock, and
Robert Thomas. 1994. Using a semantic concordance for sense
identification. In ARPA Workshop on human Language Technology,
Plainsboro, NJ, March.
Lluís Marquez, Xavier Carreras, Kenneth C.Litkowski, Suzanne
Stevenson. 2008. Semantic Role Labeling: An Introduction to the
Special Issue, 2008 Association for Computational Linguistics. Volume
34, number 2.
Mc Arthur, Tom (1981). Longman Lexcicon of Contemporary English.
Longman London.
Mona Diab. 2000. An Unsupervised Method for Multilingual Word
Sense Tagging Using Parallel Corpora: A Preliminary Investigation. In
SIGLEX2000: Word Sense and Multi-linguality, Hong Kong, October.
Mona Diab, Philip Resnik. 2002. An Unsupervised Method for Word
Sense Tagging using Parallel Corpora, Proceeding of the 40th Annual
Meeting of the Association for Computational Linguistics (ACL),
Philadelphia, July 2002, pp. 255-262.
Mikhail Kozhevnikov, Ivan Titov. 2013. Cross-lingual Transfer of
Semantic Role Labeling Models, Proceedings of the 51st Annual
Meeting of the Association for Computational Linguistics, pages 1190–
1200, Sofia, Bulgaria, August 4-9 2013.
Nancy Ide. 2000. Cross-Lingual Sense Determination: Can It Work?
Computers and the Humanities, 34: 223-234, 2000.
Philip Resnik. 1999. Semantic Similarity in a Taxonomy: An
Information-Based Measure and its Application to Problems of
Ambiguity in Natural Language, Journal of Artificial Intelligence
Research 11 (1999) 95-130.
Philip Resnik. 1997. Selectional Preference and Sense Disambiguation.
In ANLP Workshop on Tagging Text with Lexical Semantics,
Washington, D.C., April.
Rayson, Paul, Dawn Archer, Scott Piao, Tony McEnery (2004). The
UCREL semantic analysis system. In proceedings of the workshop on
Beyon Named Entity Recognition Semantic labelling for NLP tasks in
association with 4th International Conference on Language Resources
and Evaluation (LREC 2004), Lisbon, Portugal, pp.7-12.
Scott Piao, Prancesca Bianchi, Carmen Dayrell, Angela D’Egidio, Paul
Rayson. 2015. Development of the Multilingual Semantic Annotation
System. The 2015 Conference of the North American Chapter of the
Association for Computatioal Linguistics - Human Language
Technologies (NAACL HLT 2015), May 31 to June 5 in Denver
Colorado.