Tải bản đầy đủ (.pdf) (28 trang)

Cải tiến chất lượng dịch máy thống kê cho cặp ngôn ngữ anh – việt dựa vào cây phân tích cú pháp phụ thuộc (tt)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.29 MB, 28 trang )

✣❸■ ❍➴❈ ◗❯➮❈ ●■❆ ❍⑨ ◆❐■
❚❘×❮◆● ✣❸■ ❍➴❈ ❈➷◆● ◆●❍➏
✖✖✖✖✖✖✖

❚❘❺◆ ❍➬◆● ❱■➏❚

❈❷■ ❚■➌◆ ❈❍❻❚ ▲×Ñ◆● ❉➚❈❍ ▼⑩❨ ❚❍➮◆● ❑➊
❈❍❖ ❈➄P ◆●➷◆ ◆●Ú ❆◆❍✲❱■➏❚
❉Ü❆ ❱⑨❖ ❈❹❨ P❍❹◆ ❚➑❈❍ ❈Ó P❍⑩P P❍Ö ❚❍❯❐❈
❈❤✉②➯♥ ♥❣➔♥❤✿ ❑❤♦❛ ❤å❝ ♠→② t➼♥❤
▼➣ sè✿ ✻✷ ✹✽ ✵✶ ✵✶

❚➶▼ ❚➁❚ ▲❯❾◆ ⑩◆

❍➔ ◆ë✐ ✲ ✷✵✶✽


❈æ♥❣ tr➻♥❤ ✤÷ñ❝ ❤♦➔♥ t❤➔♥❤ t↕✐✿ ❚r÷í♥❣ ✣↕✐ ❤å❝ ❈æ♥❣ ♥❣❤➺✱ ✣↕✐ ❤å❝
◗✉è❝ ●✐❛ ❍➔ ◆ë✐✳
◆❣÷í✐ ❤÷î♥❣ ❞➝♥ ❦❤♦❛ ❤å❝✿
✶✳ ❚❙✳◆❣✉②➵♥ ❱➠♥ ❱✐♥❤
✷✳ P●❙✳❚❙✳ ◆❣✉②➵♥ ▲➯ ▼✐♥❤



tt ừ
q trồ ừ q t s r tự
tỹ tứ ử tr ổ ỳ r tố
ỹ tr ử tứ P ử tứ ỏ ỡ t ữủ
ữ õ ổ ỳ õ tợ
ổ t ổ õ tr q tr


Pữỡ t ỷ ỵ ợ t tờ ủ õ ữ ỳ ữủ
ừ tố ỹ tr ử tứ t tớ
ụ ữ ỳ ừ t ú tr t
trt tỹ tứ ỳ t tự t r

ởt số ự ử trt tỹ tứ ỹ tr ú ử
tở t ỳ ự ừ ũ
t t ữ ử t tỹ ở tr t

t ự sỷ ử t ỷ ỵ ỹ ú ử tở tỗ t
t t ữủ
ợ ữ ừ trú t ử tở tr t q
ử tở tứ tố ở ũ ủ ợ s trt tỹ tứ
t tr ự t

t t ữủ tố

ổ ỳ t ỹ t ú ử tở

ử t ừ

ự ữỡ qt t ử tứ tr

tố ỹ ử t ữợ t t ỷ ỵ
ỹ rở t từ ổ t tr t tỹ ở

ử t t ữủ tố


ự tố tố ss t ủ tr tự ổ ỳ


t ữỡ ợ tỹ

õ õ ừ
ự tữủ ổ ỳ t t trt tỹ tứ từ

ổ tứ ỹ ồ trữ ổ ỳ tr ú ử tở
t ữỡ sỷ ử ợ tr ồ qt

t s trt tỹ tứ t ữủ ồ tỹ ở tứ ỳ
t ữỡ sỷ ử ỡr qt t s

ỗ t tự tỹ tứ
P t ữ ừ ộ t ú t ữủ

q ử t s trt tỹ tứ ỗ
t q ự ữủ ổ ố tr ổ tr tr
ừ ở qố t õ tr ừ ở t qố
õ t tr ữợ õ

ố ử ừ
ữỡ ờ q q
ữỡ Pữỡ ỹ t từ ổ t trt tỹ
tứ tr tố


ữỡ Pữỡ sỷ ử t tỹ ở ồ ợ





ữỡ Pữỡ sỷ ử ỡr t ủ tổ t ỳ




ữỡ ữ ừ t ú ử tở ỹ
tố tỷ


ữỡ
ờ q q

ữỡ tr tờ q ự tr
ỗ rst tố ttst
rst ổ ỹ tr ử tứ t
ú ú ử tở ự q ữ r ỏ tỗ
t s t tr qt

sỷ
ởt q tr ừ tứ s ổ ỳ
q ừ ổ ỳ ỗ s õ õ
t ổ ỳ tr ỏ ọ tự ừ ổ
ỳ ỗ t ồ ú ỳ




✭❛✮ ❚❤→♣ ❝❤✉②➸♥ ✤ê✐ t❤➸ ❤✐➺♥ q✉→ tr➻♥❤ ❞à❝❤


✭❜✮ ❚❤→♣ ❝❤✉②➸♥ ✤ê✐ t❤➸ ❤✐➺♥ ❝→❝ ❦✐➸✉ ♣❤➙♥

t❤❡♦ ❝→❝ ♣❤÷ì♥❣ ♣❤→♣ ❦❤→❝ ♥❤❛✉

t➼❝❤ tr♦♥❣ sì ✤ç ❤➻♥❤ t❤→♣

❍➻♥❤ ✶✳✶✿ ❙ì ✤ç ❤➻♥❤ t❤→♣ t❤➸ ❤✐➺♥ ❝→❝ ❤➺ t❤è♥❣ ❞à❝❤ ♠→② ❦❤→❝ ♥❤❛✉✳

✶✳✷ ❚ê♥❣ q✉❛♥ ✈➲ ❞à❝❤ ♠→②
✶✳✸ ❉à❝❤ ♠→② t❤è♥❣ ❦➯
❉à❝❤ ♠→② t❤è♥❣ ❦➯ ✭❙▼❚✮ ❧➔ ♠ët ♣❤÷ì♥❣ ♣❤→♣ t✐➳♣ ❝➟♥ ❝õ❛ ❞à❝❤ ♠→② ❞ü❛
tr➯♥ ♣❤➙♥ t➼❝❤ t❤è♥❣ ❦➯ t➟♣ ❞ú ❧✐➺✉ ❝→❝ ❝➦♣ ❝➙✉ tø ❤❛✐ ♥❣æ♥ ♥❣ú✱ ♥❣ú ❧✐➺✉ s♦♥❣
♥❣ú✳

❍➻♥❤ ✶✳✷✿ ❑✐➳♥ tró❝ ❝ì ❜↔♥ ❝õ❛ ❤➺ t❤è♥❣ ❞à❝❤ ♠→② t❤è♥❣ ❦➯




✶✳✹ ❉à❝❤ ♠→② ♠↕♥❣ ♥ì✲r♦♥

❍➻♥❤ ✶✳✸✿ ❍➺ t❤è♥❣ ❞à❝❤ ♠→② ❞ü❛ tr➯♥ ♠↕♥❣ ♥ì✲r♦♥

✶✳✺ P❤➙♥ t➼❝❤ ❝ó ♣❤→♣ ♣❤ö t❤✉ë❝
✶✳✻ ❱➜♥ ✤➲ ✤↔♦ tr➟t tü tø tr♦♥❣ ❞à❝❤ ♠→②

✶✳✻✳✶ ❙ü ❦❤→❝ ♥❤❛✉ ✈➲ t❤ù tü tø ❣✐ú❛ ❝→❝ ♥❣æ♥ ♥❣ú
✶✳✻✳✷ ❇➔✐ t♦→♥ s➢♣ ①➳♣ ❧↕✐ tr➟t tü tø
❇➔✐ t♦→♥ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ❣ç♠ ❤❛✐ ❜➔✐ t♦→♥ ❝♦♥✿ ✤♦→♥ ✤à♥❤ t➟♣ ❤ñ♣ tø
tr♦♥❣ ❜↔♥ ❞à❝❤ ✈➔ ①→❝ ✤à♥❤ t❤ù tü ❝õ❛ ❝→❝ tø ❞à❝❤ ✭❜➔✐ t♦→♥ s➢♣ ①➳♣ ❧↕✐✮✳


✶✳✼ ▼æ ❤➻♥❤ ❞à❝❤ ♠→② ❞ü❛ tr➯♥ ❝ö♠ tø
❑✐➳♥ tró❝ ❝õ❛ ♠æ ❤➻♥❤ ❞à❝❤ ❞ü❛ tr➯♥ ❝ö♠ tø tr♦♥❣ ❤➻♥❤ ✶✳✹



c c lng t cỏc tp t song song vi s liờn kt ca t. Tt c cỏc cp
cm t phự hp vi s liờn kt ca t u c trớch xut. Xỏc sut c a
ra da trờn s lng tng i hoc xỏc sut dch t vng.
Ngôn ngữ
nguồn

Thuật toán tìm kiếm
BEAM
M

e * arg max m hm (e, f )
e

Mô hình ngôn ngữ

h1 (e, f )

Mô hình dịch

h2 (e, f )

m 1

...

Ngôn ngữ
dịch

Các đặc trung của dịch
máy dựa trên cụm từ

Kin trỳc ca mụ hỡnh dch da trờn cm t

trú ừ ổ ỹ tr ử tứ

Mụ hỡnh dch da trờn cm t thng khụng thc hin ỳng theo trỡnh t


phỏp


ca phng
da trờn c
s t,
m sq
dng khuụn dng ca bn ghi tuyn
tớnh. Cỏc thnh phn nh l mụ hỡnh ngụn ng, mụ hỡnh dch cm t, mụ hỡnh

ỷ ử t từ ổ t ỷ ỵ
dch t vng hoc mụ hỡnh o cm u c s dng mt cỏch thớch hp.
Khuụn dng
cho
phộpt
tớch hp
tớnh

nng
b sung
lng

ỷ ny

tỹ cỏc

nh
tsỷ
ỵ cỏc t
c to ra hoc s cỏc bn dch cm t c s dng.

Mụt

hỡnh o
cm ữỡ
thng c mụ hỡnh húa bi mt khong cỏch c s.
o cm thng b gii hn bi s dch chuyn s lng ti a cỏc t. Cỏc
mụ hỡnh o cm thng tuõn theo ng phỏp ca ngụn ng ớch (vớ d nh
11




❈❤÷ì♥❣ ✷
P❤÷ì♥❣ ♣❤→♣ ❞ü❛ ✈➔♦ ❧✉➟t t❤õ
❝æ♥❣ ❝❤♦ ❜➔✐ t♦→♥ ✤↔♦ tr➟t tü tø
tr♦♥❣ ❞à❝❤ ♠→② t❤è♥❣ ❦➯
❚r➻♥❤ ❜➔② ❝→❝❤ ❣✐↔✐ q✉②➳t ✈➜♥ ✤➲ s➢♣ ①➳♣ ❧↕✐ tr➟t tü tø ✭✤↔♦ tr➟t tü tø✮ ❞ü❛

tr➯♥ t✐➲♥ ①û ❧þ ❝❤♦ ❜➔✐ t♦→♥ ❞à❝❤ ✈î✐ ❦❤♦ ♥❣ú ❧✐➺✉ s♦♥❣ ♥❣ú ❆♥❤ ✕ ❱✐➺t✳ ❚ø
♣❤➙♥ t➼❝❤ ❝→❝ t❤æ♥❣ t✐♥ tr➯♥ ❝➙② ❝ó ♣❤→♣ ♣❤ö t❤✉ë❝ ✈➔ ❝→❝ ❤✐➺♥ t÷ñ♥❣ ♥❣æ♥
♥❣ú✱ sû ❞ö♥❣ ❝→❝ ❧✉➟t t❤õ ❝æ♥❣ ✤➸ ❣✐↔✐ q✉②➳t ✈➜♥ ✤➲ ✤↔♦ tr➟t tü tø ♥❤÷ ❜÷î❝
t✐➲♥ ①û ❧þ ❤➺ t❤è♥❣ ❞à❝❤ ♠→②✳

✷✳✶ ❱➜♥ ✤➲ ✤↔♦ tr➟t tü tø tr♦♥❣ ❞à❝❤ ♠→②
❱✐➺❝ ✤↔♦ tr➟t tø tø ❞ü❛ ✈➔♦ ❝➙② ♣❤➙♥ t➼❝❤ ♣❤ö t❤✉ë❝ ✈➔ →♣ ❞ö♥❣ ❝→❝ ❧✉➟t
s➢♣ ①➳♣ ❧↕✐ ✤➸ t✐➳♥ ❤➔♥❤ t❤❛② ✤ê✐ t❤ù tü ❝→❝ tø✳




ự q
tố ỹ tr ử tứ
ỹ ỗ s ỗ t
ộ ử tứ ộ ử ữủ s ổ ỳ ừ q
tr q ổ tự

n

t = argmax
t,a

i fj (s, t, a)



i=1

ỷ ỵ ú ử tở

tố

ử t ỷ ỵ t

P t tữủ ổ ỳ s
tr t trú tổ ử t ừ t
s t t ữ tr




❍➻♥❤ ✷✳✷✿ ❱➼ ❞ö ✈➲ ❤✐➺♥ t÷ñ♥❣ ♥❣æ♥ ♥❣ú tr♦♥❣ ❝ö♠ ❞❛♥❤ tø ✈î✐ ❛♠♦❞ ✈➔ ❞❡t✳ ❚r♦♥❣
✈➼ ❞ö ♥➔②✱ ❞❛♥❤ tø ✏❝♦♠♣✉t❡r✑ ✤÷ñ❝ ✤↔♦ ✈î✐ t➼♥❤ tø ✏♣❡rs♦♥❛❧✑

❍➻♥❤ ✷✳✸✿ ❱➼ ❞ö ✈➲ ❤✐➺♥ t÷ñ♥❣ ♥❣æ♥ ♥❣ú tr♦♥❣ ❝ö♠ t➼♥❤ tø ✈î✐ ❛❞✈♠♦❞ ✈➔ ❞❡t

✷✳✹✳✷ ▲✉➟t ❝❤✉②➸♥ ✤ê✐ tr➟t tü tø
⑩♥❤ ①↕✿ T → (L, W, O)
• ❚ ❧➔ tø ❧♦↕✐ ❝õ❛ tø ❝❤➼♥❤ ✭♥ót ❝❤❛✮ tr♦♥❣ ❝ö♠ tr➯♥ ❝➙② ❝ó ♣❤→♣ ♣❤ö t❤✉ë❝✳
• ▲ ❧➔ ♥❤➣♥ ♣❤ö t❤✉ë❝ ✭❤❛② q✉❛♥ ❤➺ ♣❤ö t❤✉ë❝✮ ❝õ❛ ❝→❝ ♥ót ❝♦♥✳
• ❲ ❧➔ trå♥❣ sè ✤➸ ①→❝ ✤à♥❤ t❤ù tü ❝õ❛ ♥ót ❝♦♥✳
• ❖ ❧➔ ❞↕♥❣ ✤↔♦ ✭◆♦r♠❛❧✿ ❦❤æ♥❣ ✤↔♦✱ ❘❡✈❡rs❡✿ ✤↔♦✮✳




❍➻♥❤ ✷✳✹✿ ❈→❝ ❧✉➟t ❜➡♥❣ t❛② ❝❤♦ ✈✐➺❝ s➢♣ ①➳♣ ❧↕✐ tø t✐➳♥❣ ❆♥❤ s❛♥❣ t✐➳♥❣ ❱✐➺t sû ❞ö♥❣
t✐➲♥ ①û ❧þ ❝ó ♣❤→♣ ♣❤ö t❤✉ë❝✳

✷✳✹✳✸ ❚➟♣ ❝→❝ ❧✉➟t ✤↔♦ tr➟t tü tø t❤õ ❝æ♥❣

✷✳✺ ❚❤ü❝ ♥❣❤✐➺♠ ✈➲ sû ❞ö♥❣ ❝→❝ ❧✉➟t t❤õ ❝æ♥❣ ❞ü❛
tr➯♥ t✐➲♥ ①û ❧þ tr♦♥❣ ❞à❝❤ ♠→②

✷✳✺✳✶ ❚➟♣ ❞ú ❧✐➺✉ ✈➔ ❝➔✐ ✤➦t t❤ü❝ ♥❣❤✐➺♠
✷✳✺✳✷ ❑➳t q✉↔ t❤ü❝ ♥❣❤✐➺♠
✷✳✻ ❑➳t ❧✉➟♥ ❝❤÷ì♥❣
❙û ❞ö♥❣ ❝→❝ ❧✉➟t t❤õ ❝æ♥❣ ✤➸ ❣✐↔✐ q✉②➳t ✈➜♥ ✤➲ ✤↔♦ tr➟t tü tø✳ ⑩♣ ❞ö♥❣
♣❤÷ì♥❣ ♣❤→♣ t✐➲♥ ①û ❧þ ✤❡♠ ❧↕✐ ❝➙♥ ❜➡♥❣ ❣✐ú❛ tè❝ ✤ë✱ t❤í✐ ❣✐❛♥ t❤ü❝ ❤✐➺♥ ✈➔
✤ë ❝❤➼♥❤ ①→❝ tr♦♥❣ q✉→ tr➻♥❤ ❣✐↔✐ ♠➣✱ ♥➙♥❣ ❝❛♦ ❝❤➜t ❧÷ñ♥❣ ❞à❝❤✳




❍➻♥❤ ✷✳✺✿ ▼ët ❦❤↔♦ s→t ✈➲ ✈à tr➼ tø ❧♦↕✐ ✈➔ ❝→❝ ♥❤➣♥ tr♦♥❣ ✈✐➺❝ s➢♣ ①➳♣ ❧↕✐ t❤ù tü tø

❇↔♥❣ ✷✳✶✿ ❚❤ü❝ ♥❣❤✐➺♠ sû ❞ö♥❣ ❝→❝ ❧✉➟t t❤õ ❝æ♥❣ ❝❤♦ ❦❤♦ ♥❣ú ❧✐➺✉ s♦♥❣ ♥❣ú ❆♥❤✲❱✐➺t

❍➺ t❤è♥❣ ❇▲❊❯✭✪✮ ▼æ t↔
❙②st❡♠ ■

✷✻✳✾✺

⑩♣ ❞ö♥❣ ❝→❝ ❧✉➟t ✈î✐ ♥❤â♠ ❞❛♥❤ tø

❙②st❡♠ ■■

✷✻✳✼✶

⑩♣ ❞ö♥❣ ❝→❝ ❧✉➟t ✈î✐ ♥❤â♠ ✤ë♥❣ tø


❙②st❡♠ ■■■

✷✼✳✶✺

⑩♣ ❞ö♥❣ ❝→❝ ❧✉➟t ✈î✐ ♥❤â♠ t➼♥❤ tø ✈➔ ❣✐î✐ tø

❙②st❡♠ ■❱

✷✼✳✷✻

⑩♣ ❞ö♥❣ ❝→❝ ❧✉➟t t❤õ ❝æ♥❣ ✈î✐ t♦➔♥ ❜ë ❝→❝ ♥❤â♠

❇❛s❡❧✐♥❡

✷✻✳✺✷

❍➺ t❤è♥❣ ❞à❝❤ tr➯♥ ❝ö♠ tø tr♦♥❣ ❝æ♥❣ ❝ö ▼♦s❡s




ữỡ
Pữỡ sỷ ử t tỹ
ở ồ ợ ợ
r ữỡ tr qt t trt tỹ tứ ữ
ữợ t ỷ ỵ t ổ õ t trt tỹ
tứ ợ ợ q tự tỹ t ỷ ỵ ỹ tr ợ
t trt tỹ tứ ữủ s tỹ ở tứ ỳ ữủ tổ t tr tự
trữ ổ ỳ ổ ồ


ỷ ỵ ỹ tr ợ ỹ
t ử
ứ ỳ ữ ừ ồ ú tổ t sỷ ử tt ồ
tr qt trt tỹ tứ ử ữ q tr t
ỷ ỵ tố

t ỷ ỵ ỹ tr ợ
ỹ ổ ồ õ t tỹ ở t ờ tự tỹ tứ tr
ổ ỳ ỗ s tự tỹ tữỡ ự ợ ổ ỳ




trữ

ử t ỷ ỵ ỳ s ỳ t

ổ ợ
t

t

r t tỹ ở t ợ ỗ

ử tở ừ ỗ õ tứ
t

t

t tt t s t


t tt t ử tở ỗ s ợ

ố q ỳ út ợ út tr ỳ s ỳ




✸✳✷ ❚❤ü❝ ♥❣❤✐➺♠ ✈➲ ♣❤÷ì♥❣ ♣❤→♣ sû ❞ö♥❣ ♣❤➙♥
❧î♣ ❝❤♦ ✈✐➺❝ t✐➲♥ ①û ❧þ tr♦♥❣ ❞à❝❤ ♠→②

✸✳✷✳✶ ❚➟♣ ❞ú ❧✐➺✉ ✈➔ ❝➔✐ ✤➦t t❤ü❝ ♥❣❤✐➺♠
✸✳✷✳✷ ❑➳t q✉↔ t❤ü❝ ♥❣❤✐➺♠

❍➻♥❤ ✸✳✸✿ ❚❤è♥❣ ❦➯ ✈➲ q✉❛♥ ❤➺ ❣✐ú❛ ♥ót ❝❤❛ ✈î✐ ❤❛✐ ♥ót ❝♦♥ tr➯♥ ♥❣ú ❧✐➺✉ s♦♥❣ ♥❣ú✳

❇↔♥❣ ✸✳✶✿ ❍✐➺✉ ♥➠♥❣ ❝❤♦ t→❝ ✈ö ❞à❝❤ ❆♥❤✲ ❱✐➺t

❍➺ t❤è♥❣

❇▲❊❯ ✭✪✮

❇❛s❡❧✐♥❡

✷✻✳✺✷

▼❛♥✉❛❧ ❘✉❧❡s

✷✼✳✷✻


❆✉t♦ ❘✉❧❡s

✷✼✳✵✾

❆✉t♦ ❘✉❧❡s ✰ ▼❛♥✉❛❧ ❘✉❧❡s

✷✼✳✸✹

✸✳✸ ❑➳t ❧✉➟♥ ❝❤÷ì♥❣
✶✷


❈❤÷ì♥❣ ✹
P❤÷ì♥❣ ♣❤→♣ sû ❞ö♥❣ ♠↕♥❣ ♥ì✲r♦♥
❦➳t ❤ñ♣ ❝→❝ t❤æ♥❣ t✐♥ ♥❣ú ❝↔♥❤
❚r♦♥❣ ❝❤÷ì♥❣ ♥➔②✱ tr➻♥❤ ❜➔② ♥ë✐ ❞✉♥❣✱ ❦➳t q✉↔ ♥❣❤✐➯♥ ❝ù✉ ✈➲ t✐➲♥ ①û ❧þ
❝ó ♣❤→♣ ♣❤ö t❤✉ë❝ ❝❤♦ ❜➔✐ t♦→♥ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ❆♥❤✲❱✐➺t sû ❞ö♥❣ ♣❤÷ì♥❣
♣❤→♣ ❤å❝ ♠→② tr♦♥❣ ✤â ♠↕♥❣ ♥ì✲r♦♥ ❞ò♥❣ ❝→❝ t❤æ♥❣ t✐♥ ♥❣ú ❝↔♥❤ tø ✇♦r❞
❡♠❜❡❞❞✐♥❣✳

✹✳✶ ▼æ ❤➻♥❤ ✤↔♦ ❞ü❛ tr➯♥ ♠↕♥❣ ♥ì✲r♦♥ sû ❞ö♥❣
❝➙② ❝ó ♣❤→♣ ♣❤ö t❤✉ë❝ ❝❤♦ ❞à❝❤ ♠→② t❤è♥❣ ❦➯
❍➻♥❤ ✹✳✶ ♠æ t↔ ❦✐➳♥ tró❝ ✈➔ ❝→❝ ❞ú ❧✐➺✉ ❤✉➜♥ ❧✉②➺♥✱ tr➼❝❤ ①✉➜t ✤➦❝ tr÷♥❣
tr♦♥❣ ♠æ ❤➻♥❤✳

✹✳✶✳✶ ✣➦❝ tr÷♥❣ ❝❤♦ ♣❤➙♥ ❧î♣ ✈➔ ❤✉➜♥ ❧✉②➺♥ ♠æ ❤➻♥❤
P❤➙♥ ❧î♣ ❤❡❛❞✲❝❤✐❧❞
P❤➙♥ ❧î♣ s✐❜❧✐♥❣
❈→❝ ✤➦❝ tr÷♥❣ ❝❤♦ ❤❛✐ ♣❤➙♥ ❧î♣ ♥❤÷ tr♦♥❣ ❤➻♥❤ ✹✳✷ ✈➔ ❤➻♥❤ ✹✳✸✳


▲î♣ tr✉②➲♥ t❤➥♥❣

✶✸


▼é✐ ✤➦❝ tr÷♥❣ ✤÷ñ❝ →♥❤ ①↕ ❜ð✐ ✈✐➺❝ t❤❛♠ ❝❤✐➳✉ ❜↔♥❣ ✈î✐ ❜✐➸✉ ❞✐➵♥ ✈➨❝ tì
✈➔ ❝→❝ ✈➨❝ tì ❦➳t q✉↔ ✤÷ñ❝ ♥è✐ ✈➔ ✤÷❛ ✈➔♦ ♠é✐ ❝❤✉é✐ ❝→❝ ❧î♣ ➞♥ ✭❝→❝ ♠❛ tr➟♥
trå♥❣ sè✮ ❞ò♥❣ ❤➔♠ ❦➼❝❤ ❤♦↕t sigmoid ✿
1
1 + e−x

σ(z) =

(a)

(3,2)
(3,5)
(2,1)
(5,4)

(b)

Head

Pair

✭✹✳✶✳✶✮

child


Punctuation

Label

xh

T(xh)

L(xh)

xc

T(xc)

L(xc)

w(xh,xc)

changed
changed
moment
life

VBD
VBD
NN
NN

root
root

nsubj
dobj

moment
Null
That
my

NN
Null
DT
PRP

Nsubj
Null
det
poss

0
0
0
0

L(xr)

xh

T(xh)

Punctuation

w(xl,xr)

Label

dobj

changed

VBD

0

(0 ; 1)

(-1; 0)
(0 ; 1)
(0 ; 1)
(-1; 0)

(c)
Pair
(2,5)

xl
moment

Left child
T(xl)
NN


L(xl)

xr

nsubj

life

Right child
T(xr)

Head

V
(d)

❍➻♥❤ ✹✳✶✿ ▼æ ❤➻♥❤ ✤↔♦ ❝❤♦ ❞à❝❤ ♠→② t❤è♥❣ ❦➯ ❆♥❤✲❱✐➺t sû ❞ö♥❣ ♠↕♥❣ ♥ì✲r♦♥ ✈î✐ ❝➙②
♣❤➙♥ t➼❝❤ ♣❤ö t❤✉ë❝✿ ✭❛✮ ❑✐➳♥ tró❝ ♣❤➙♥ ❧î♣ ♠↕♥❣ ♥ì✲r♦♥ ✭❜✮ ▼ët ❣✐â♥❣ ❤➔♥❣ ❝➙✉ tø
♥❣ú ❧✐➺✉ s♦♥❣ ♥❣ú ❆♥❤✲❱✐➺t ✈î✐ ❝→❝ ❞ú ❧✐➺✉ ❤✉➜♥ ❧✉②➺♥ ✈➔ ✤➦❝ tr÷♥❣ ✤÷ñ❝ tr➼❝❤ ①✉➜t
❝❤♦✿ ✭❝✮ ♣❤➙♥ ❧î♣

❝❤❛✲❝♦♥

✈➔ ✭❞✮ ♣❤➙♥ ❧î♣

❛♥❤✲❡♠✳

▲î♣ ➞♥ ✤➣ ❝❤♦ ❝❤✉②➸♥ ✤ê✐ ✈î✐ ✈➨❝ tì ❡♠❜❡❞❞✐♥❣ x✱ ✈➨❝ tì trå♥❣ sè W ✈➔ ♠ët
❣✐→ trà ❜✐❛s b✱ ✤➛✉ r❛ ❞ü ✤♦→♥ δ ①→❝ ✤à♥❤ ❜ð✐✿
z = W.x + b


✭✹✳✶✳✷✮

δ = tanh(z )

✭✹✳✶✳✸✮

❍✉➜♥ ❧✉②➺♥ ♠↕♥❣ ♥ì✲r♦♥
1
L=−
T

T

yi log yˆi + (1 − yi ) log (1 − yˆi )
i=1
✶✹

✭✹✳✶✳✹✮


Đặc trưng
Pair
xh
T(xh)
L(xh)
xc
T(xc)
L(xc)
ω (xh, xc)


Label

Mô tả
Cặp từ với quan hệ nút cha-con
Từ nút cha xh
Part-of-speech (POS) tag của nút cha xh
Nhãn phụ thuộc L(xh) giữa xh với nút cha
của xh
Từ của nút con xc
Part-of-speech (POS) tag của nút con xc
Nhãn phụ thuộc L(xh) giữa xh với nút con xc
Giá trị logic ω(xh, xc) để chỉ nếu có dấu câu
là con của nút cha xh, tồn tại giữa nút cha xh
và nút con xc
Nhãn có giá trị trong khoảng -1 đến 1 để cho
biết nút con ở bên trái hay bên phải hoặc giữ
nguyên vị trí với nút cha.

Đặc trưng
Pair
xl
T(xl)
L(xl)
xr
T(xr)
L(xr)
xh
T(xh)
ω(xl, xr)


Label

(a) The feature of Head-child classifier
❍➻♥❤ ✹✳✷✿ ❈→❝ ✤➦❝ tr÷♥❣ ❝❤♦ q✉❛♥ ❤➺

ới quan hệ nút cha-con
ha xh
peech (POS) tag của nút cha xh
ụ thuộc L(xh) giữa xh với nút cha

út con xc
peech (POS) tag của nút con xc
ụ thuộc L(xh) giữa xh với nút con xc
gic ω(xh, xc) để chỉ nếu có dấu câu
a nút cha xh, tồn tại giữa nút cha xh
n xc
giá trị trong khoảng -1 đến 1 để cho
on ở bên trái hay bên phải hoặc giữ
ị trí với nút cha.

Đặc trưng
Pair
xl
T(xl)
L(xl)
xr
T(xr)
L(xr)
xh

T(xh)
ω(xl, xr)

Label

he feature of Head-child classifier

❤❡❛❞✲❝❤❧✐❞

Mô tả
Cặp từ với quan hệ anh-em
Từ của nút bên trái xl
Part-of-speech (POS) tag củ
Nhãn phụ thuộc L(xl) giữa n
Từ của nút bên phải xr
Part-of-speech (POS) tag củ
Nhãn phụ thuộc L(xr) giữa n
Từ của nút cha xh
Part-of-speech (POS) tag củ
Giá trị logic ω(xl, xr) để chỉ
là con của nút cha xh, tồn tạ
nút xr
Nhãn có giá trị trong khoản
biết nút con phải ở bên trái
hoặc giữ nguyên vị trí so vớ
(b)
The feature of siblin

tr♦♥❣ ♠æ ❤➻♥❤ ♣❤➙♥ ❧î♣


Mô tả
Cặp từ với quan hệ anh-em
Từ của nút bên trái xl
Part-of-speech (POS) tag của nút xl
Nhãn phụ thuộc L(xl) giữa nút xl và xh
Từ của nút bên phải xr
Part-of-speech (POS) tag của nút xr
Nhãn phụ thuộc L(xr) giữa nút xr và xh
Từ của nút cha xh
Part-of-speech (POS) tag của xh
Giá trị logic ω(xl, xr) để chỉ nếu có dấu câu
là con của nút cha xh, tồn tại giữa nút xl và
nút xr
Nhãn có giá trị trong khoảng -1 đến 1 cho
biết nút con phải ở bên trái hay bên phải
hoặc giữ nguyên vị trí so với nút con trái.
(b)
The feature of sibling classifier

❍➻♥❤ ✹✳✸✿ ❈→❝ ✤➦❝ tr÷♥❣ ❝❤♦ q✉❛♥ ❤➺ s✐❜❧✐♥❣ tr♦♥❣ ♠æ ❤➻♥❤ ♣❤➙♥ ❧î♣

✹✳✶✳✷ ❑❤✉♥❣ ❧➔♠ ✈✐➺❝ ❝❤♦ ✤↔♦ tr➟t tü tø
❑❤✉♥❣ ❧➔♠ ✈✐➺❝ ♠æ t↔ tr♦♥❣ ❤➻♥❤ ✹✳✹✳ ❈❤ó♥❣ tæ✐ →♣ ❞ö♥❣
✭❳➙② ❞ü♥❣ ♠æ ❤➻♥❤ ❤✉➜♥ ❧✉②➺♥✮ ✈➔

t❤✉➟t t♦→♥ ✹✳✷

❧➔♠ ✈✐➺❝ ❝õ❛ ❝❤ó♥❣ tæ✐✳

✶✺


t❤✉➟t t♦→♥ ✹✳✶

✭❙➢♣ ①➳♣ ❧↕✐✮ tr♦♥❣ ❦❤✉♥❣


Input sentence

Conll format

Representation
feature
Head-Child
relation

Sibling
relation

PAC Model

SIB Model
Prediction
sibling order

Prediction
child-head order
New representation
feature
Rebuild
New sentence


q tr t ỷ ỵ ỗ tứ ỳ s ỳ
t

ỹ ữỡ sỷ ử
ỡr t ủ tổ t ỳ

ỳ t tỹ

P t t
t ữỡ




❇↔♥❣ ✹✳✶✿ ❚❤è♥❣ ❦➯ ♥❣ú ❧✐➺✉

❈♦r♣✉s

❙❡♥t❡♥❝❡ ♣❛✐rs ❚r❛✐♥✐♥❣ ❙❡t ❉❡✈❡❧♦♣♠❡♥t ❙❡t ❚❡st ❙❡t

●❡♥❡r❛❧

✶✸✸✹✵✸

❚r❛✐♥✐♥❣

✶✸✵✹

✶✵✽✵


❱✐❡t♥❛♠❡s❡

❊♥❣❧✐s❤

❙❡♥t❡♥❝❡s

❉❡✈❡❧♦♣♠❡♥t

❚❡st

✶✸✶✵✶✾

✶✸✶✵✶✾

❆✈❡r❛❣❡ ▲❡♥❣t❤

✶✽✳✾✶

✶✼✳✾✽

❲♦r❞

✷✹✽✶✼✻✷

✷✸✻✵✼✷✼

❱♦❝❛❜✉❧❛r②

✸✾✵✼✶


✺✹✵✽✻

❙❡♥t❡♥❝❡s

✶✸✵✹

❆✈❡r❛❣❡ ▲❡♥❣t❤

✷✷✳✼✸

✷✶✳✹✶

❲♦r❞

✾✵✾✷

✽✺✻✼

❱♦❝❛❜✉❧❛r②

✶✺✸✼

✶✾✷✵

❙❡♥t❡♥❝❡s

✶✵✽✵

❆✈❡r❛❣❡ ▲❡♥❣t❤


✷✷✳✼✵

✷✶✳✹✷

❲♦r❞

✷✷✼✵✼

✷✶✹✷✽

❱♦❝❛❜✉❧❛r②

✷✽✽✷

✸✽✶✻

❇↔♥❣ ✹✳✷✿ ❍✐➺✉ ♥➠♥❣ ❝❤♦ t→❝ ✈ö ❞à❝❤ ❆♥❤✲ ❱✐➺t

❍➺ t❤è♥❣

❇▲❊❯ ✭✪✮

❇❛s❡❧✐♥❡

✷✻✳✺

▼❛♥✉❛❧ ❘✉❧❡s

✷✼✳✶✷


❆✉t♦ ❘✉❧❡s

✷✼✳✵✼

❉P◆◆ ❈❧❛ss✐❢✐❡r

✷✼✳✶✻

✶✼


ữỡ
ữ ừ t ú
ử tở ỹ
tố tỷ
r ữỡ tỹ t s s q st q ừ
ộ t ú ố ợ s t ủ
ữỡ tỹ ổ t

P t ú ử tở

ỗ t t ử tở ợ q

q ữợ ờ tr t ú ử tở t ử tứ
ố ừ ụ t tứ ồ ử tứ ụ t
tứ ử ồ t




5.2.2
Bi
t
t ú ử tở
toỏn phõn tớch cỳ phỏp
tngqt
quỏt:
Cho ởt
mt cõu,
phỏp
aữ
ra mụ
t vt
Bi
ttoỏntờ
phõn
tớch
tcỳú

r ổ
quan
vaitrỏ
trũ ỳ
ng phỏp
cm
t v
thỏi ca
ú. õ
q
hv

ca
ừcỏc
t,tứ

tứhỡnh

tcõu


Hỡnh
tng
quỏt
v
phõn
tớcht
cỳ ú
phỏp
phử
thuc
1.4:
Mụ
ổhỡnh
bi
toỏn
t
tờ
qt


tở

u vo: cõu ó c phõn tỏch t v gỏn nhón t loi trong ú, mi t
li cú mt c im hỡnh thỏi xỏc nh. Quỏ trỡnh kim tra v phõn tớch, t hp



ỳ cỳphỏpt

u vo
da trờn
cỏc lut
loi
b cỏc
trng hp bt quy tc v
tng bc xõy dng nờn cu trỳc cỳ phỏp. Kt qu cn t c hỡnh thỏi ca

ỷ ử t ú ử tở
cõu ú.

Input:
ữ ừ ộ t ú ử tở
o Cõu x = w1, w2 wn ó c tin x lý, tỏch t v gỏn nhón t loi.

tợo Kho
t


ngữủ
liu gm cỏc
cõu ó
c gỏn nhón ph thuc.

Out put: L th ph thuc ca cõu x.

Pữỡ
l:
ttp ộ
th ph thuc
cho mt
L = {r1, r|L|} cỏc loi

ph thuc

(cỏc
cung),tỹ
tứ
thố
ph
thuc ca
mt ữủ
cõu x s
= (w
w
mtr
th
1,w2,
n) l
nhón
sỹ tữỡ


tr

cú hng c gỏn nhón G =(V, E, R), trong ú:
ụ ữ ỳ ố ữủ s ỹ tr tứ ú
o V = Zn+1.
ự ở ộ t ú ữ s
o E { . }.
o R l mt hm xỏc nh cung.
Tp nh V la mt tp Zn+1 = {0, 1, 2n}, n Z+ l tp s nguyờn

õm tng
khụng
dn. iu ny cú ngha tt c cỏc t trong cõu l mt nh

(1 i n) v cú mt nh c bit l 0, khụng tng ng vi bt k t no
ỷ ử ở s t ở tữỡ
q ở tữỡ
ca cõu v luụn l gc th ph thuc. S dng V+ l tp hp tt c cỏc
tỹ tự tỹ tứ tr ỗ ỳ ỳ ữủ s
=

#of concordant
pairs
15
ì21
#of all pairs





❍➻♥❤ ✺✳✸✿ ▼æ t↔ ♣❤÷ì♥❣ ♣❤→♣ ♣❤➙♥ t➼❝❤ ❧é✐✳


❍➻♥❤ ✺✳✹✿ ❱➼ ❞ö ✈➲ ❧é✐ ❞♦ ①→❝ ✤à♥❤ s❛✐ ❧♦↕✐ ♣❤ö t❤✉ë❝ ♥ót ❣è❝ ❦❤✐ s♦ s→♥❤ ❞ú ❧✐➺✉
t❤è♥❣ ❦➯ ❣✐ú❛ ❝➙② ✤÷ñ❝ s✐♥❤ r❛ ✈î✐ ❝➙② ✤÷ñ❝ s✐♥❤ tø ❞ú ❧✐➺✉ ❝❤✉➞♥✳

❍➻♥❤ ✺✳✺✿ ❱➼ ❞ö ✈➲ ❧é✐ tø ❧♦↕✐ ❦❤✐ s♦ s→♥❤ ❞ú ❧✐➺✉ t❤è♥❣ ❦➯ ❣✐ú❛ ❝➙② ✤÷ñ❝ s✐♥❤ r❛ ✈î✐
❝➙② ✤÷ñ❝ s✐♥❤ tø ❞ú ❧✐➺✉ ❝❤✉➞♥✳

✷✵


Đánh giá qua độ đo

Đánh giá qua độ đo

Đánh giá 1: sử dụng tập các tiếng Anh

Đánh giá 2: sử dụng tập các câu tham

được sắp xếp lại thủ công như điểm chuẩn
và so sánh nó với tập các câu tiếng Anh
được sắp xếp lại tự động.

✭❛✮

chiếu tiếng Việt đóng vai trò điểm chuẩn và
so sánh với tập các câu tiếng Anh được
sắp xếp lại tự động.

84


✭❜✮

85

✺✳✷✳✸ P❤➙♥ t➼❝❤ ♥❣✉②➯♥ ♥❤➙♥ ❣➙② ❧é✐ ✤↔♦ tr➟t tü tø
• ▲é✐ ♣❤ö t❤✉ë❝✿ tø ❧♦↕✐ ❦❤æ♥❣ ♣❤↔✐ ❧➔ ♠ët ♣❤ö t❤✉ë❝ ✤ë❝ ❧➟♣ ✈î✐ ♥ót ❝❤❛✳
• ▲é✐ ♥ót ❝❤❛✿ tø ❧♦↕✐ s❛✐ ❦❤✐ ✤÷ñ❝ ♥❤➟♥ ❜✐➳t ♥❤÷ ♥ót ❝❤❛✳

✺✳✸ ❑➳t ❧✉➟♥ ❝❤÷ì♥❣

✷✶


×