H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
MC LC
MC LC 1
M U 3
Chng 1: TNG QUAN 5
1.1 Gii thiu mô hình tìm kim thông tin (Information Retrieval): 5
1.2 H thng tìm kim thông tin xuyên ngôn ng (CLIR): 9
1.2.1 Khái nim: 9
1.2.2 Các vn đ ca CLIR: 10
1.3 Các hng tip cn: 11
1.3.1 Dch máy (Machine Translation for Text Translation): 11
1.3.2 Da trên t đin đa ng (Multilingual Thesauri): 14
1.3.3 Da trên ng liu (Corpus-based techniques): 22
1.4 Mt s công trình nghiên cu trong và ngoài nc: 30
1.4.1 Vit Nam: 30
1.4.2 Trên th gii: 31
1.5 Kt lun: 32
Chng 2: C S LÝ THUYT 35
2.1 Gii thiu v MRD (Machine Readable Dictionary) 35
2.1.1 S lc lch s phát trin MRD trên th gii: 35
2.1.2 Vai trò và cu trúc ca MRD: 39
2.1.3 Khai thác tài nguyên t đin: 41
2.1.4 Xây dng t đin t đng: 42
2.1.5 Cu trúc v mô và vi mô ca t đin MRD: 43
2.1.6 Mt s t đin MRD: 43
2.2 Các phng pháp tách t: 51
2.2.1 Mô hình WFST: 51
2.2.2 Mô hình MMSEG: 57
2.3 Các phng pháp kh nhp nhng: 64
2.3.1 Gii thiu: 64
2.3.2 Kh nhp nhng: 65
2.4 Kt lun: 70
Chng 3: PHÂN TÍCH và THIT K 72
3.1 Tng quan h thng: 72
3.1.1 Phát biu bài toán: 72
3.1.2 Mô hình h thng: 72
3.1.3 Phát sinh qun lý: 73
3.2 Phân tích – thit k h thng: 76
3.2.1 Mô hình Usecase: 76
3.2.2 c t usecase: 77
3.2.3 S đ tun t: 78
3.2.4 Thit k lp: 81
3.2.5 Thit k giao din: 94
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
1
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
3.3 Xây dng h thng: 97
3.3.1 T chc các MRD: 97
3.3.2 Phng pháp tìm kim da trên MRD: 106
3.3.3 Tìm kim tài liu bng công c tìm kim: 110
CHNG 4: CÀI T VÀ TH NGHIM 112
4.1 Cài đt: 112
4.1.1 Tin x lý: 112
4.1.2 Cu trúc d liu: 112
4.1.3 Dch t t đin: 113
4.1.4 Kh nhp nhng : 113
4.1.5 Tìm kim: 116
4.2 Th nghim: 117
4.2.1 Module dch và kh nhp nhng: 117
4.2.2 Chng trình demo trên web: 117
4.3 ánh giá : 119
4.3.1 Module dch và kh nhp nhng: 119
4.3.2 Chng trình tìm kim trên Web: 120
Chng 5: KT LUN và HNG PHÁT TRIN 122
5.1 Kt lun: 122
5.2 Hung phát trin: 122
5.2.1 i vi t đin và ng liu: 122
5.2.2 i vi IR Engine: 123
5.2.3 M rng ngôn ng tìm kim cho h thng: 124
PH LC 125
TÀI LIU THAM KHO 132
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
2
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
M U
Vi s phát trin nhanh chóng ca công ngh tin hc, khi lng thông tin đc lu
tr trên máy tính ngày càng nhiu. Vì vy cn có các h thng tìm kim thông tin
(Information Retrieval) cho phép ngi dùng tìm kim mt cách chính xác và nhanh
nht các thông tin mà h cn trên kho t liu khng l này. Hn na, trong xu th toàn
cu hóa nh hin nay, rt nhiu các t chc, các công ty quc t hình thành, li xut
hin mt nhu cu mi trong vic tìm kim thông tin đó là tìm kim thông tin đa ng đ
ngi dùng có th khai thác mt cách hiu qu nht kho tài liu đa ng mà h có. Mt
ví d c th v kho t liu đa ng là Internet. Các trang Web bng nhiu ngôn ng
khác nhau xut hin ngày càng nhiu, trong khi các công c tìm kim đn ng (search
engine) ch có th tr v các tài liu đc vit cùng ngôn ng vi ngôn ng ca câu
truy vn (query). Do đó vn đ đt ra là liu có th xây dng mt h tìm kim thông
tin mà thông tin tr v là tt c các tài liu các ngôn ng khác nhau trong kho t liu
có liên quan đn câu truy vn (không ph thuc vào ngôn ng ca câu truy vn). ây
chính là bài toán đt ra cho vic nghiên cu các h tìm kim đa ng/ xuyên ng
(multilanguage IR/ cross language IR).
Mc tiêu ca các h thng tìm kim xuyên ng là cung cp công c cho ngi dùng đ
có th mô t nhu cu tìm kim thông tin ngôn ng
mà mình din đt gii nht
(thng là ting m đ), h thng s phi tr v tt c các tài liu tt c các ngôn ng
có trong kho t liu đang tìm kim có liên quan đn nhu cu thông tin ca ngi dùng.
Trên đây là nhu cu chung ca hu ht các ngôn ng và ting Vit ca chúng ta cng
không phi là ngoi l. Khác vi các ngôn ng khác, ting Vit có nhiu đc đim
riêng bit và rt khó x lý bng máy tính, nên các đ tài nghiên cu hay các chng
trình ng dng liên quan đn các h thng tìm kim bng ting Vit còn rt ít. Mà nhu
cu tìm kim tài liu trên kho tàng kin thc ca th gii ca ngi Vit là rt ln. Vi
mong mun phát trin nhiu hn na các h thng tìm kim xuyên ngôn ng bng
ting Vit, chúng tôi xây dng “H thng tìm kim thông tin xuyên ngôn ng Vit –
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
3
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Anh – Hoa” cho phép ngi dùng nhp câu truy vn bng ting Vit và tr v các tài
liu có liên quan bng ting Vit, ting Anh và ting Hoa. Trong lun vn này chúng
tôi la chn ting Anh và ting Hoa là hai đi din tiêu biu cho hai loi hình ngôn
ng bin hình và đn lp. T đó cho thy rng h thng tìm kim thông tin xuyên ng
có th thc thi trên hai loi hình ngôn ng khác nhau.
B cc ca lun vn gm các chng sau:
• Chng 1 – TNG QUAN : gii thiu tng quan v h thng tìm kim
(IR), h thng tìm kim thông tin xuyên ngôn ng (CLIR), các hng tip cn
và các vn đ cn gii quyt ca h thng.
• Chng 2 – C S LÝ THUYT: trình bày c s lý thuyt và các
phng pháp đã nghiên cu trong lun vn.
• Chng 3 – PHÂN TÍCH VÀ THIT K: phân tích và thit k h
thng.
• Ch
ng 4 – CÀI T VÀ KIM TRA: cài đt, kim th chng trình.
• Chng 5 – KT LUN và HNG PHÁT TRIN: trình bày các kt
qu đt đc, các đánh giá v h thng và hng phát trin trong tng lai.
• Phn TÀI LIU THAM KHO và PH LC: trình bày các thông tin có
liên quan đc s dng trong lun vn.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
4
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Chng 1: TNG QUAN
Trong chng này, chúng tôi s trình bày khái quát v các h thng tìm kim
(Information Retrieval), h thng tìm kim thông tin xuyên ngôn ng (Cross-Language
Information Retrieval) và mt s kho sát v tình hình nghiên cu trong và ngoài
nc. Cui chng chúng tôi s rút ra kt lun chung và la chn hng tip cn cho
h thng ca mình. Ni dung trình bày bao gm:
X Gii thiu mô hình tìm kim thông tin.
X H thng tìm kim thông tin xuyên ngôn ng.
X Mt s công trình nghiên cu trong và ngoài nc.
X K
t lun.
1.1 Gii thiu mô hình tìm kim thông tin (Information
Retrieval):
H thng tìm kim thông tin xuyên ng (Cross Language Information Retrieval -
CLIR) có liên h rt mt thit vi h thng tìm kim thông tin (Information Retrieval -
IR) và cng có rt nhiu đc trng ca h thng này (IR). Qui trình ca h thng tìm
kim thông tin nh sau:
• Ngi dùng mun xem nhng tài liu liên quan đn mt ch đ nào đó.
• Ngi dùng cung cp mt mô t v ch đ đó di dng câu truy vn.
• T câu truy vn này h thng s lc ra nhng cm t ch mc.
• Nhng cm t ch mc này s đc so khp vi nhng cm t ch mc
ca các tài liu đã đc x lý trc đó.
• Nhng tài liu nào có mc đ liên quan cao nht s đc tr v cho
ngi dùng.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
5
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Mc đích ca IR là hin th cho ngi dùng mt tp các thông tin tha mãn nhu cu
ca h. Chúng ta đnh ngha chính xác cho thông tin cn thit là “câu truy vn”(query),
và các thông tin đc chn là “tài liu” (documents). Mi cách tip cn trong IR bao
gm 2 thành phn chính: mt là các k thut đ biu din thông tin (câu truy vn, tài
liu), và hai là phng pháp so sánh các cách biu din này. Mc đích là đ t đng
qui trình kim tra các tài liu bng cách tính toán đ tng quan gia các câu truy vn
và tài liu. Qui trình t đng này thành công khi nó tr v các kt qu ging vi các
kt qu đc con ngi to ra khi so sánh câu truy vn vi các tài liu.
Có mt vn đ thng xy ra đi vi h thng tìm kim là nhng t mà ngi dùng
đa ra trong câu truy vn thng khác xa nhng t trong tp tài liu cha thông tin mà
h tìm kim. Trng hp nh th gi là “paraphrase problem” (vn đ v di
n gii).
gii quyt vn đ này h thng đã to ra các hàm biu din x lý các câu truy vn
và các tài liu mt cách khác nhau đ đt đn mt đ tng thích nào đó.
d
Hàm biu din
câu truy vn
Không gian
biu din
R
[0,1]
X lý ca con ngi
j
Hàm biu
din tài liu
Câu truy vn
Biu din 2
Tài liu
c
Hàm so sánh
q
Biu din 1
[0,1]
Không gian
tài liu
D
Không gian câu
truy vn
Q
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
6
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Hình 1.1: Mô hình h thng tìm kim thông tin
Gi min xác đnh ca hàm biu din câu truy vn q là Q, tp hp các câu truy vn có
th có; và min giá tr ca nó là R, không gian thng nht biu din thông tin. Gi
min xác đnh ca hàm biu din tài liu d là D, tp hp các tài liu; và min giá tr
ca nó là R
2
. Min xác đnh ca hàm so sánh c là R x R và min giá tr ca nó là
[0,1], tp các s thc t 0 đn 1. Trong mt h thng tìm kim lí tng:
c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D,
khi j: Q x D > [0,1] biu din vic x lý ca ngi dùng gia các mi quan h ca 2
thông tin, đc tính da trên mt tiêu chun nào đó (ví d: s ging nhau v ni dung
hay s ging nhau v kiu …). Hình 1.1 minh ha mi quan h này.
Có hai kiu h thng tìm kim: tìm kim da trên so khp chính xác và da trên sp
xp. Mô hình trên đây có th mô t c 2 cách tip cn. Trong h thng tìm kim da
trên so khp chính xác, min giá tr ca c đc gii hn t 0 đn 1, và nó đc chuyn
sang nh phân đ quyt đnh liu 1 tài liu có tha biu thc bool đc xác đnh bi
câu truy vn hay không? Các IR da trên so khp chính xác thng cung cp các tài
liu không sp xp tha câu truy vn ca ngi dùng, hu ht các h thng tìm kim
hin nay đu dùng cách này. Cách hot đng chi tit ca h thng s đc mô t
phn sau.
i vi h thng IR da trên sp xp, thì các tài liu s đc sp xp theo th t gim
dn v mc đ liên quan. Có 3 loi h thng tìm kim da trên sp xp: “ranked
Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên min giá tr ca c là
[0,1], tuy nhiên chúng khác nhau cách tính “giá tr trng thái tìm kim” (“retrieval
status value”):
• Trong h thng da trên “ranked Boolean” giá tr này là mc đ mà
thông tin tha mãn biu thc bool đc ch ra bi các thông tin còn li.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
7
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
• Trong h thng da trên “probabilistic” , khái nim này hi khác mt
chút, giá tr này là xác sut mà thông tin có liên quan đn mt câu truy vn. Rt
nhiu h thng tìm kim da trên xác sut đc thit k đ chp nhn câu truy
vn đc din t bng ngôn ng t nhiên hn là mt biu thc bool.
• Trong h thng tìm kim da trên s ging nhau, giá tr trng thái tìm
kim đc tính bng cách tính mc đ ging nhau ca ni dung thông tin.
Trong các h thng tìm kim da trên so khp chính xác, vic đánh giá h thng ch
yu da trên vic đánh giá mc đ liên quan. Gi s j là giá tr nh phân và đc cho
trc. Nói cách khác, ta gi s rng các tài liu hoc có hoc không có liên quan đn
câu truy vn, và đ liên quan gia tài liu và câu truy vn do con ngi xác đnh là
chính xác. Theo gi đnh này, tính hiu qu ca các h thng tìm kim da trên so
khp chính xác đc đánh giá da trên 2 đi lng thng kê là “đ chính xác”
(precision) và “đ bao ph” (recall). chính xác là t l các tài liu đc chn, các
tài liu thc s liên quan đn các thông tin mà ngi dùng cn, đ bao ph là t l tài
liu có liên quan đc sp xp chính xác theo đ liên quan bi h thng tìm kim. Nói
cách khác, đ chính xác bng 1 tr đi t l cnh báo sai, trong khi đó đ bao ph đo
mc đ hoàn chnh ca vic tìm kim. Bng 1.1 minh ha cho các mi quan h này.
Actually is
Selected as
Relevant Not relevant
Relevant Found False alarm
Not Relevant Missed
alarmFalseFound
Found
ecision
+
=Pr
MissedFound
Found
call
+
=Re
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
8
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Bng 1.1: Tính đ hiu qu ca h thng tìm kim thông tin
Vic đánh giá tính hiu qu ca h thng tìm kim da trên sp xp thì phc tp hn.
Mt cách tính đ hiu qu ph bin cho các h thng này là “đ chính xác trung bình”.
Nó đc tính bng cách chn mt tp ln hn các tài liu đu danh sách có giá tr
bao ph gia 0 và 1. Phng pháp thng đc s dng là phng pháp tính da trên
5, 7, 11 đim theo đ bao ph. chính xác sau đó s đc tính cho tng tp mt. Qui
trình s đc lp li cho tng câu truy vn, và tng ng mi đ chính xác trung bình
s cho mt đ bao ph. Mi giá tr trung bình ca nhng s này sau đó s đc tính
toán và ghi nhn nh là mt đc trng ca h thng. chính xác trung bình càng ln
thì càng tt, và vic so sánh ch thc s có ý ngha khi chúng ta s dng cùng mt tp
tài liu và câu truy vn. Tuy nhiên đ chính xác trung bình cng làm gim đi mc đ
thay đi ca các câu truy vn có các đc tính khác nhau (ví d nh s lng tài liu có
liên quan khác nhau). Hn th na, các tài liu có liên quan thng tp trung đu
danh sách sp xp nên thông thng đ chính xác s gim mi khi tp tài liu đc m
rng đ tng đ bao ph.
1.2 H thng tìm kim thông tin xuyên ngôn ng (CLIR):
1.2.1 Khái nim:
H thng tìm kim thông tin xuyên ngôn ng (CLIR) là h thng tìm kim (IR) cho
phép ngi dùng nhp câu truy vn bng mt ngôn ng đ tìm kim các tài liu trong
mt ngôn ng khác. i tng s dng h thng tìm kim thông tin xuyên ng (CLIR)
là:
• Nhng ngi có kh nng đc các tài liu ting nc ngoài, nhng gp
khó khn khi to câu truy vn bng ngôn ng đó.
• Nhng ngi gp khó kh
n khi đc/ tìm kim các tài liu ting nc
ngoài nhng li cn mt s lng gii hn các tài liu đc tìm kim bng
CLIR đ s dng trong các h thng dch máy (MT), thay vì phi dch toàn b
tp hp các tài liu.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
9
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
• Nhng ngi bit các t khóa hoc cm t ting nc ngoài, và mun
đc các tài liu có liên quan vi nhng t khóa hoc cm t đó bng ngôn ng
bn x.
1.2.2 Các vn đ ca CLIR:
Vì câu truy vn do ngi dùng nhp vào và các tài liu đc tìm kim hai ngôn ng
khác nhau nên CLIR cn phi có qui trình chuyn ng cùng vi qui trình tìm kim
theo cách tìm kim truyn thng ca các h đn ng. Các h tìm kim đn ng hin
nay thc hin rt tt qui trình tìm kim đn ng. Và vn đ chính chúng ta cn quan
tâm đây làm th nào đ qui trình chuyn ng có th đc thc hin tt nht.
Chính qui trình chuyn ng này đã làm phát sinh rt nhiu vn đ trong CLIR. Vn đ
đu tiên là làm sao bit đc mt t trong ngôn ng này đc vit nh th nào trong
ngôn ng khác? Vn đ th hai là làm sao quyt đnh đc cách dch nào s đc gi
li? Vn đ th ba là làm sao xác đnh đc tm quan trng khác nhau gia các bn
dch khi có nhiu bn dch đc gi li.
Hai vn đ đu tiên, làm sao đ dch và làm sao đ loi b bt bn dch, là hai vn đ
ca các h thng dch máy . H thng CLIR có th loi b mt vài cách dch và gi li
mt s khác bng cách kh nhp nhng. Tuy nhiên, vic gi li mt s cách dch nhp
nhng giúp cho h thng tìm kim gia tng đ bao ph ca nó.
Vn đ th
ba ca CLIR có liên quan đn cách x lý các bn dch tng đng, là điu
giúp chúng ta phân bit CLIR vi dch máy và tìm kim thông tin đn ng. Gi s
rng câu truy vn ban đu có hai t phân bit. Nu t đu tiên có th đc dch sang
nhiu cách khác nhau, và nu t th hai ch có th đc dch sang mt cách duy nht,
thì h thng tìm kim s không tng trng s cho t đu tiên, bi vì nó có nhiu la
chn khi dch. iu này minh ha cho vn đ tính trng s ca các cách dch, đc bit
là đi vi h thng CLIR. Mt tài liu cha mt cách dch ca mi t trong câu truy
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
10
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
vn có th s có đ liên quan nhiu hn mt tài liu cha nhiu cách dch khác nhau
ca t đu tiên trong câu truy vn nhng không cha cách dch nào ca t th hai.
1.3 Các hng tip cn:
Vic phân loi các hng tip cn ca CLIR da trên phng pháp đc s dng
trong quá trình chuyn ng.
1.3.1 Dch máy (Machine Translation for Text Translation):
Gia tìm kim xuyên ng và dch máy hoàn toàn t đng có mi quan h gn gi.
Hình 1.2 minh ha cách dch t đng hoàn toàn và h tr dch máy có th đc tích
hp trong h thng tìm kim xuyên ng. Vi mt h thng nh th, các câu truy vn
có th đc dch sang bt c ngôn ng nào mà ngi dùng thy cn thit, và các tài
liu s đc tr v bt c ngôn ng nào. Nu cn, vic dch máy hoàn toàn t đng có
th đc dùng đ to ra các bn dch đc hin th trên màn hình cho phép ngi dùng
chn tài liu. Khi cn mt bn dch tt hn thì các tài liu đc chn có th đc
chuyn cho dch máy di s h tr ca con ngi.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
11
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Hình 1.2 Tích hp tìm kim xuyên ng vi dch máy.
Có l hu ht các hng tip cn trc tip đn tìm kim xuyên ngôn ng là vic thc
thi q hoc d bng cách s dng h thng dch hoàn toàn t đng đ mang câu truy vn
và tài liu vào không gian biu din R da trên mt ngôn ng nht đnh. Mt đim yu
ca h thng dch t đng là nó ch có th cung cp vic dch hiu qu trong mt vùng
gii hn nào đó.
Các h thng tìm kim vn bn thng b qua các li dch cú pháp hn là các li v
ng ngha, nhng đ chính xác v ng ngha s gim sút khi các thông tin không đc
mã hóa vào h thng dch mt cách đy đ. Vì vic mã hóa đy đ thông tin có th s
mt chi phí khá cao nên tính hiu qu ca h thng tìm kim xuyên ng da trên dch
máy s b gii hn, đc bit là khi dch các câu truy vn ngn. Khuyt đim này có th
đc gim bt nu chúng ta dch các tài liu thay vì dch câu truy vn. Bi vì các tài
liu thng dài hn các câu truy vn, nên mt h thng dch máy đc nhúng vào hàm
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
12
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
biu din tài liu d có th có nhiu thông tin v ng cnh đ chn la ng ngha hn là
mt h thng đc nhúng vào hàm biu din câu truy vn q.
Tuy nhiên, đ hiu qu sn có ca dch máy đã tr thành vn đ tranh lun khi mt h
thng dch đc nhúng vào d, bi vì thông thng d cn phi đc cung cp cho mt
s lng rt ln các tài liu. Hn na, mt vài công vic do h thng dch máy thc
hin không mang li s ci tin nào cho tính hiu qu ca vic tìm kim vn bn.
Chng hn nh, vic dch vn bn đòi hi phi la chn th t ca các t và thêm vào
các t có quan h gn
1
trong ngôn ng đích. Nhng c hai đc tính này thng b b đi
bi q và d.
Tht vy, mt vài công vic do h thng dch máy làm tht s làm gim tính hiu qu
ca vic tìm kim vn bn. Vì trong các ngôn ng khác nhau ngha ca t s không
đc nhóm theo cùng mt cách, nên các h thng dch máy luôn c gng đt đc
ngha dch tt nht cho t khi t có nhiu ngha. Theo phân tích này thì mt ngha đn
s đc chn cho mi t đa ngha. Tuy nhiên, trong mt h thng tìm kim, q và d có
th đc thit k đ ngn chn nhng thông tin không chc chn và c có th đc thit
k đ tn dng nhng thông tin đó trong vic ci thin tính hiu qu.
Nhng nghiên cu này cho thy rng khi thit k các hàm q và d cho h thng tìm
kim xuyên ng thì kiu và đ sâu ca qui trình có th đc quyt đnh bi kh nng
biu din ca không gian R đ biu din các kt qu ca các qui trình và kh nng s
dng các thông tin đó ca hàm so sánh c. Chúng ta cng có th hoc gii hn qui trình
ca chúng ta bng kh nng ca các k thut hin có đ s dng thông tin kt qu, hoc
chúng ta có th thit k các hàm biu din và so sánh mi đ tn dng thông tin mà k
thut dch máy có th cung cp.
¬
u đim: các câu truy vn có th đc dch sang bt c ngôn ng nào mà ngi
dùng thy cn thit, và các tài liu s đc tr v bt c ngôn ng nào.
1
các t có quan h gn là nhng t ít mang ni dung và thng b loi b bi danh sách các stopword trong mt
h thng truy xut.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
13
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
¬ Khuyt đim: Hiu qu dch còn gii hn.
1.3.2 Da trên t đin đa ng (Multilingual Thesauri):
đây chúng ta đnh ngha mt t đin đng ngha nh là mt công c đ mã hóa
thông tin tri thc cho mt ng dng. Vì th mt t đin đng ngha là mt bn th mà
đc trng là các thut ng đã đc t chc. Mt t đin đng ngha đa ng là mt t
đin t chc các thut ng t mt hoc nhiu th ting. T đin song ng, thng đnh
ngha các cm vi chi tit cho các cm khác, cng đc gp vào đnh ngha này. T
vng trong ngôn ng hc máy tính, đc mã hóa thông tin cú pháp và ng ngha, cng
nm trong đnh ngha này. Các t đin đng ngha phc tp, đc s dng nh là mt
danh mc c s trong h thng tìm kim t đng, cng nm trong phm vi ca đnh
ngha t đin đng ngha trên. Thm chí mt danh sách song ng đn gin gm các
thut ng k thut mà trong đó mi thut ng đc gán mt cách dch duy nht cng là
mt t đin đng ngha theo đnh ngha trên. Chúng ta nhn ra rng đây là mt đnh
ngha m rng không bình thng cho t “t đin đng ngha”. Nhng vì không có
mt thut ng chun ngn gn nào có th đáp ng khái nim chúng ta mô t nên chúng
ta chn cm t có quan h gn nht vi h thng tìm kim xuyên ng hin ti. Bng
1.2 cho thy mt vài kiu t đin đng ngha ph bin đc s dng trong các h
thng tìm kim xuyên ng. Các thông tin chi tit hn v t đin xuyên ng s đc
trình bày phn sau.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
14
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Kiu t đin c trng
T đin đng ngha theo
đ tài
Có mi quan h k tha và kt hp.
Mt cm duy nht đc gán cho 1 nút.
Danh sách khái nim Không gian ca các cm t đc chia
thành các lp khái nim.
Danh sách các cm t Danh sách các t đng ngha xuyên ngôn
ng.
T vng Các cú pháp hoc ng ngha mà máy có
th đc đc (Machine Readable)
Bng 1.2 Các kiu t đin đa ng
K thut da trên t đin có mt s u đim và khuyt đim nht đnh. Vì t đin có
th biu din các mi quan h gia các cm t và các khái nim theo cách mà con
ngi có th hiu đc, nên vic tìm kim thông tin da trên t đin cho phép ngi
dùng khai thác li ích bên trong trong sut quá trình tìm kim đ hình thành mt câu
truy vn tt hn. Hn th na, vì có mt lng các thông tin quan trng đc mã hóa
trong t đin, nên khía cnh ca mt ngi dùng có k nng, mt h thng tìm kim
da trên t đin có th là mt công c rt mnh. Mt khác, vic s dng t đin s áp
đt mc đ gii hn lên c t vng mà ngi dùng s dng cng nh phm vi mà h
thng tìm kim có th cung cp. Các k thut hin nay cho vic xây dng và duy trì t
đin tp trung mnh m vào ngun tài nguyên, và vic hun luyn; và n lc đ s
dng hiu qu các mi quan h v khái nim cha đng bên trong mt t đin phc
tp là rt trng yu.
Mt vài khía cnh v tri thc có th đc mã hóa trong mt t đin. c tính quan
trng ca mt t đin xuyên ng là mt đc t ca đng ngha xuyên ng
2
. Các mi
2
c t ca đng ngha xuyên ng có th không hoàn toàn vì có mt s cm t có th không có bn dch trc
tip trong mt ngôn ng khác.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
15
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
quan h k tha v khái nim (cm t rng hn, hay hp hn) và mi quan h kt hp
(cm t có liên quan hoc đng ngha) thng đc thêm vào mt t đin phc tp.
T đin có th đc dùng t đng hoc th công. Trong mt h thng gi là “vn t
đc qun lý” (“controlled vocabulary”), mi khái nim đc gán nhãn bng mt cm
t có tính mô t đ ngi dùng có th ch rõ nhng khái nim thích hp nht cho câu
truy vn ca h. Khi các mi quan h v khái nim đc mã hóa trong mt t đin
đc s dng mt cách t đng, thì k thut đó đc gi là “tìm kim theo khái nim”
(concept retrieval). Trong mt h thng tìm kim theo khái nim đn gin, mt danh
sách các khái nim đc s dng đ thay th mi cm t bng lp khái nim ca nó đ
tng đ bao ph (da trên đ quyt đnh). Có mt hng tip cn phc tp hn, gi là
“m rng câu truy vn” (query expansion) đã s dng mi quan h gia các khái nim
đc mã hóa đ la chn cm t có th đáp ng c đ chính xác và đ bao ph.
C vic thay th khái nim ln vic m rng câu truy vn đu th hin n lc làm tng
đ bao ph bng cách làm gim nh hng ca vn đ din gii. chính xác có th
đc tng bng cách thêm vào các thông tin v cú pháp và ng ngha trong t đin đ
làm gim nh nh hng ca t đa ngha
3
.Ví d, trong mt h thng thông tin có vn
t đc qun lý thng đc cung cp mt t đin đ ngi dùng có th chn ra cm
t chính xác mt cách th công. Mt h thng tìm kim khái nim có th s dng ý
tng này bng cách đánh th các t da trên t loi ca chúng và sau đó chn cách
dch nào có cùng t loi.
1.3.2.1 H thng vn t đc qun lí:
Trc nm 1973 ngi ta cho rng c h thng vn t đc qun lý và h thng tìm
kim khái nim bng t đin đa ng đu có th thc thi xuyên ng ging nh là vic
thc thi bên trong mt ngôn ng vi cùng k thut. Trc nm 1977 đã có 4 h thng
tìm kim xuyên ng đc thc thi châu Âu. T các h thng này, ni lên 6 tiêu chí
3
Gii pháp cho t đa ngha thng đc gi là kh nhp nhng ngha ca t.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
16
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
cn bn ca các nghiên cu da trên t đin xuyên ng : nhng tiêu chun v thit k,
các công c phát trin và duy trì, phn cng chuyên dng, các cp và các lnh vc ca
ngôn ng mi, giao din ngi dùng, và vic đánh giá nhu cu ca ngi dùng.
Trong nm 1970, ngi ta thy rõ ràng rng vic tiêu chun hóa s phát trin các t
đin đ ngn chn “vic to ra nhng đ tài lch hng và không phù hp” là cn
thit, và nm 1971 UNESCO đã đ ra các tiêu chun cho vic phát trin t đin đa
ng. Trong nm 1973 ISO đã xem xét vn đ này, và trc nm 1976 bn tho cho vn
đ này đã đc ph bin mt cách rng rãi. c thông qua vào nm 1978 nh là
chun ISO 5964 và đc chnh sa gn đây nht vào nm 1985, tiêu chun này đã mô
t phm vi tri thc có th đc ni suy bên trong các t đin đa ng nh th nào, và
nhn din nhng k thut khác nhau cho vic phát trin t đin đa ng.
T đin EUROVOC ca quc hi châu Âu là mt ví d ca mt t đin đa ng hin
đi theo chun ISO 5964. c thit lp ln đu vào nm 1984, EUROVOC hin nay
bao gm 9 ngôn ng
4
chính thc ca cng đng châu Âu, và mt phn ca nó đã đc
dch sang nhiu ngôn ng khác. Vic thit k t đin đòi hi chi phí cao, và điu này
đã làm gii hn lnh vc mà h thng tìm kim da trên vn t đc qun lí có th
cung cp. Nhng EUROVOC chng minh rng mt khi các mi liên h c bn v khái
nim đc đnh ngha trong mt pham vi nào đó thì vic m rng chun t đin đa
ng ISO 5964 cho các ngôn ng khác là hoàn toàn thit thc.
Khi các t đin đa ng gia tng mt cách nhanh chóng, thì các công c thit k và duy
trì cng tr nên quan trng hn. Trong nhng nm 1970, có rt nhiu các th tc cng
nh các thut toán đã đc nghiên cu đ dùng cho vic trn các t đin đn ng
thành mt t đin đa ng.
Ngày nay các h thng tìm kim vn bn xuyên ng đã đc s dng mt cách rng
rãi, nhng hu ht các h thng thng mi đu s dng hng tip cn tìm kim da
trên so khp chính xác. Các t đin đa ng phc tp đã và đang đc phát trin trong
4
9 ngôn ng là: an Mch, Hà Lan, Anh, Pháp, c, Hy Lp, Ý, B ào Nha và Tây Ban Nha.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
17
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
nhiu ngôn ng và lnh vc, và các th tc dùng đ thêm lnh vc và ngôn ng cng
đc hiu rõ. Có 3 nhân t quan trng khi xây dng t đin là : chi phí, nhng tin li
cho ngi dùng cha đc hun luyn, và đ hiu qu.
Vic xây dng t đin là mt vic tn nhiu chi phí. Nhng vic s dng t đin có
th tn nhiu chi phí hn bi vì trong mt h thng có vn t đc qun lí thì mi tài
liu phi đc gán các cm t phn ánh các khái nim cha trong nó. Mc dù các công
c t đng có th h tr giúp tng nng sut ca con ngi nhng vì các hot đng
mang tính trí tu ca con ngi đòi hi vic tái t chc và t chc thông tin nên chi
phí s vn rt cao.
Mt gii hn quan trng khác ca h thng tìm kim vn bn da trên vn t đc
qun lý, và gii hn này cng xut hin trong k thut tìm kim vn bn da trên so
khp chính xác, là nhng ngi dùng không đc hun luyn dng nh s gp khó
khn khi khai thác kh nng ca t đin. Nhng khác nhau quan trng gia ngi
dùng có k nng và ngi dùng không đc hun luyn đã đc nghiên cu da trên
s chn la các cm t ca h, vic h s dng nhng mi quan h ca cm t đc
mã hóa trong mt t đin, và vic s dng các toán t AND, OR hoc NOT trong vic
xây dng câu truy vn. Trong nhiu trng hp ngi ta chng minh rng vic cung
cp nhng ngi trung gian đc hun luyn có li hn vic cung cp nhng hun
luyn đy đ cho mi ngi dùng. K thut tìm kim da trên sp xp đc mô t
phn trc cng gii thiu mt hng tip cn khác đ gii quyt vn đ này. Các h
thng tìm kim da trên sp xp thng chp nhn các câu truy vn bng ngôn ng t
nhiên và cho phép s la chn không ràng buc các cm t. Nói chung, mc đích ca
vic tìm kim da trên sp xp không phi đ thay th k thut so khp chính xác mà
đ làm mnh thêm các h thng bng nhng k thut ci thin mt cách hiu qu vic
tìm kim ca nhng ngi dùng không đc hun luyn.
1.3.2.2 Tìm kim khái nim:
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
18
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Mt cách khác đ biu din các khái nim trong R là biu din các cm t bng cách
s dng t đin đa ng dn dt cho qui trình chn la cm t. ây là mt bin th ca
m rng câu truy vn, mt k thut đã đc nghiên cu rt k trong tìm kim đn ng
5
. Ý tng c bn ca m rng câu truy vn là cung cp các bin th s dng ca cm
t bng cách gia tng các cm t có liên quan trong câu truy vn.
Gn đây, trong [1] L.Ballesteros đã dùng phng pháp “phn hi cc b ” (local
feedback) đ m rng câu truy vn. Phng pháp này là s kt hp gia hai phng
pháp: sa đi câu truy vn trc khi dch (pre-translation query modification) và sa
đi câu truy vn sau khi dch (post-translation query modification). Trong nghiên cu
ca mình, ông gii hn trong hai ngôn ng là ting Anh và ting Tây Ban Nha. Các
câu truy vn ting Anh đc ly t h thng TREC vi chiu dài trung bình là 10.6 t.
Các câu truy vn ting Tây Ban Nha cng đc rút trích t h thng này vi chiu dài
trung bình là 4.3 t. Vic đánh giá tính hiu qu da trên các tài liu ting Anh nm
trong tp Tipster (vol. 2) có đ ln 2GB và tp 208M các bài báo ting Tây Ban Nha
ca báo “El Norte”. Ng liu hun luyn dùng cho vic phn hi trc khi dch là tp
các bài báo này và tp 301 MB c s d liu tin tc ca San Jose Mercury t tp hp
Tipster. Toàn b câu truy vn s đc thc hin trên h thng INQUIRY. Qua thc
nghim L.Ballesteros nhn thy rng vic sa đi câu truy vn trc khi dch to ra
mt c s quan trng cho vic dch và nâng cao đ chính xác; vic sa đi câu truy
vn sau khi dch da trên t đin máy đc s nâng cao đ bao ph ca tìm kim. Và k
thut này s hiu qu hn đi vi các câu truy vn dài vì các câu truy vn dài s có
nhiu ng cnh hn giúp gim tính nhp nhng. Kt hp hai qui trình này giúp tng đ
chính xác trung bình lên 50%. iu này cho thy vic m rng câu truy vn s giúp
gia tng đáng k đ hiu qu ca h tìm kim xuyên ng.
1.3.2.3 Mã hóa thông tin ng ngha:
5
c trng duy nht ca m rng câu truy vn trong truy xut xuyên ng là các cm t ban đu s b loi ra khi
câu truy vn m rng nu nó không mang cùng mt ngha trong c 2 ngôn ng
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
19
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Mt khía cnh khác ca d án EMIR[2] là vic ng dng vic phân rã nhanh nhng
không sâu đ tn dng thông tin ng ngha đc mã hóa trong t đin. S lng các
cm t ting Anh đc gim bng cách gán nhãn tng cm t ting Anh vi t loi
tng ng ca nó, và sau đó ch chn nhng t ting Anh có cách s dng cú pháp
tng t các cm t ting Pháp. T đin EMIR là mt danh sách song ng các cm t
trong đó thông tin ng ngha đc mã hóa nh là các t ghép, đc s dng đ thay
th các mi quan h v khái nim. Trong EMIR, các cm t bao gm các t, các ng
và t ghép. Bi vì các t ghép ni các t khóa vi nhau da trên nn tng là mi quan
h v ng ngha thay vì hình thc b ngoài ca chúng, do đó vic đa ra các công thc
cho t ghép s tt hn vic rút trích các ng đn gin. Bi vì trt t ca các t trong t
ghép thng thay đi trong ngôn ng đích, nên các mc t ca cm t ghép đã đc
thit lp đ gii thích cho vic chuyn đi khi cn.
Phiên bn EMIR ca SPIRIT đã đc đánh giá trên tp 1398 các khái nim v hàng
không ca Cranfield bng cách s dng 225 câu truy vn đã đc Trung tâm t liu
quân đi Pháp dch sang ting Pháp. Các tài liu ting Anh đc tìm kim đáp ng các
câu truy vn ting Pháp. so sánh, các câu truy vn ting Pháp sau đó đc dch tr
li sang ting Anh bng cách s dng h thng dch t đng SYSTRAN và các tài liu
đc chn bng cách s dng phiên bn đn ng ca h thng tìm kim SPIRIT. C
th nh sau:
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
20
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
10 20 30 40 50 60 70 80 90
bao ph
chính xác
EMIR
SYSTRAN
SPIRIT Anglais
Hình 1.3 So sánh tìm kim đn ng ca SPIRIT, tìm kim song ng ca EMIR và dch
câu truy vn ca SYSTRAN
1.3.2.4 ánh giá u khuyt đim:
¬ u đim :
Tài nguyên t đin thì ph bin và sn có hn ng liu song song do đó hng tip cn
da trên t đin có th đc xem là la chn tt hn các hng tip cn còn li. Mc
dù chiu sâu ca t đin là hn ch nhng phm vi ca nó thì đ rng đ chúng ta có
th dch các câu truy vn thuc nhiu đ tài khác nhau. Mt khác, hin nay các t đin
đin t là khá phong phú, chúng ta có th tn dng ngun tài nguyên này đ cu trúc
hóa và rút trích các thông tin cn thit cho t đin máy đc dùng trong các h xuyên
ng.
¬ Khuyt đim:
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
21
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Vic dch t đng da trên t đin ch đt 50% hiu qu do các bn dch nhp nhng.
Mt trong hai nguyên nhân chính là vic chuyn đi t vng dn đn vic thêm rt
nhiu t khác. Theo nguyên cu ca L. Ballesteros, điu này dn đn vic mt 12-29%
th hin ca câu truy vn trong khi dch và gây nên vn đ khi dch các câu truy vn
dài. Nguyên nhân th hai là vic mt các ng khi dch word by word, dn đn vic mt
20 – 25% . Thêm vào đó, các câu truy vn thng cha các thut ng, mà các thut
ng này thng không có trong t đin tng quát. Nu chúng ta không có t đin
chuyên ngành hoc t đin thut ng thì hiu qu ca h thng s càng thp. Tuy
nhiên, nhng khuyt đim trên đây s là đng lc thúc đy chúng ta tip tc nghiên
cu và tìm hiu các phng pháp nhm nâng cao tính hiu qu ca hng tip cn
này.
1.3.3 Da trên ng liu (Corpus-based techniques):
Ngoài cách s dng t đin, chúng ta có th khai thác trc tip thông tin thng kê v
cách dùng thông thng ca các cm t t ng liu song song. Cách tip cn trc tip
này rt thích hp đ tích hp vi các k thut tìm kim da trên vic thng kê cách
dùng thông thng ca các cm t. K thut tìm kim thng kê thng tn dng hai
nhn xét quan trng v cách dùng thông thng ca cm t. Nhn xét đu tiên là
nhng tài liu mà ngi dùng đánh giá là cùng loi thì nhìn chung thng s dng các
cm t tng t nhau. Quay tr li mô hình 1.1, q và d đc thit k mt cách đc
trng đ trích ra các thông tin v tn s ca cm t và c đc thit k đ tn dng điu
này. Nhn xét th hai là các cm t him và ít ph bin thì s giúp ích rt nhiu cho
vic phân bit gia các tài liu . Các cm t ph bin mang ít ni dung thng b loi
b bi mt danh sách stoplist, và các cm t còn li thng đc tính trng s bng
cách s dng “tn s tài liu đo ” thng đc tính nh sau:
⎟
⎟
⎠
⎞
⎜
⎜
⎝
⎛
=
itermwithdocumentsofNumber
documentsofNumber
idf
i 2
log
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
22
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Kt hp hai kt qu ta gi là “tfidf” (term frequency and inverse document frequency -
tn s ca t và tn s tài liu đo )
tfidf
ij
= tf
ij
* idf
i
tf
ij
là s ln t i xut hin trong tài liu j.
Mt vài k thut có th đc s dng đ xây dng hàm so sánh c cho mt th hin
tfidf. Có th k thut đn gin nht là k thut dùng không gian vector, trong đó các
vector ca trng s tfidf đc thit lp bi q và d và kt qu đc chun hoá bên trong
ca 2 vector đc tính nh vào c. Kt qu này cho ra mt giá tr mong mun, là mt
hàm tng nghiêm ngt đi vi bt c vic gim nào ca s khác nhau ca 2 giá tr tfidf
ging nhau. Nói mt cách khác, mang 2 vector li gn nhau theo bt c chiu nào s
làm tng tính tng đng ca chúng. Bi vì kt qu chun hóa bên trong ca 2 vector
là cosin ca góc gia 2 vector trong không gian vector, nên kt qu này đc bit đn
nh là phép đo đ tng đng dùng hàm s cosin. H thng SMART, đc Salton
phát trin, là mt ví d v h thng tìm kim s dng không gian vector.
K thut tìm kim da trên xác sut thng thc thi mt hàm c phc tp hn. Thng
da trên mt gi đnh đn gin là j (hoc r ) là giá tr nh phân (ngha là mi tài liu có
hoc có liên quan hoc không có liên quan ), k thut tìm kim da trên xác sut thc
hin vic tìm kim đ c lng xác sut mà mt tài liu cho trc có liên quan da
trên đ tng quan hoc tfidf. H thng INQUIRY đc Croft và các cng s phát
trin là mt ví d cho h thng tìm kim da trên xác sut.
1.3.3.1 Xây dng t đin t đng:
V ý ngha, các k thut da trên ng liu có th đc xem nh là mt loi ca k
thut xây dng t đin t đng, trong đó thông tin v mi quan h gia các t đc to
ra t các con s thng kê cách s dng thông thng ca t. S khác nhau là ch t
đin này không cn con ngi xây dng. Ging nh các k thut tìm kim xuyên ngôn
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
23
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
ng khác, k thut xây dng t đin t đng là mt nghiên cu quan trng k tha t
ng cnh ca tìm kim đn ng. Mt s lng đáng k các nghiên cu v đ tài này đã
xut hin và đc công b trong tài liu v dch máy. đây chúng tôi trình bày hai k
thut đ xây dng t đin đa ng t khía cnh tìm kim.
K thut đu tiên, ngi ta đã thc nghim trên 1.100 ng danh t ly t ng liu song
song ca khong 1.000 cp câu dài ting Hà Lan và ting Anh trong mt tài liu k
thut
6
. Các ng danh t trong mi cp câu đc nhn din bng cách s dng mt th
t loi thng kê và mt b parser đn gin. Các ng viên dch cho mi ng danh t
ting Hà Lan đc to ra bng cách so sánh tn s ca mi cm ting Anh xut hin
trong mt cp câu ting Anh cha ng danh t, vi tn s mà mi t ting Anh xut
hin trong toàn tp tài liu. Mt đc tính khác đc thêm vào giúp cho vic ngn chn
các chn la ng danh t xut hin nhng v trí liên quan khác nhau trong các cp
câu.
Các tham s đc tìm thy cho các kt qu trong vic nhn din các bn dch đn
chính xác đn 45%, và nhiu la chn khác mà các la chn này to ra mt danh sách
các ng viên ca các bn dch trong đó cha 66% các bn dch đn chính xác. Vi
c
dóng câu, đánh tag t loi và phân rã li chim 85% các li, và các nghiên cu cho
thy rng vic chn la chn trên cho vic biu din k thut ca mình s nâng t l
các bn dch đn chính xác lên 69% hoc thêm khong 95% các bn dch chính xác
vào mt danh sách. Bi vì ng liu song song có kích thc nh nên không th quyt
đnh vic thc thi ca k thut khi có nhiu hn mt bn dch ca cùng mt t xut
hin trong ng liu
7
. Kt qu ca t vng song ng không đc s dng cho vic tìm
kim vn bn, vì th chúng ta không th quyt đnh điu gì làm nh hng đn các li
dch s có hiu qu cho vic tìm kim. Hn na, chúng ta không th đa ra các hng
dn v vic liu vic gim đ chính xác, kt qu ca vic tng s lng ng viên có
6
Chiu dài trung bình ca câu là hn 24 t. Các câu đc gióng hàng bng cách s dng k thut thng kê, và
7% các cp câu sau đó đc phát hin là b gióng hàng sai
7
71% các ng danh t bng ting Hà Lan xut hin ch 1 ln trong toàn b tp tài liu
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
24
H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
th đc bù đp bng cách tng đ bao ph, kt qu ca vic thêm vào bn dch chính
xác trong danh sách.
1.3.3.2 Dch da vào vector thut ng (Term Vector Translation):
Chúng ta quan tâm đn nhng k thut tìm kim vn bn đa ng da vào ng liu to
ra nhng ánh x không phi dành cho ngi dùng. Ngha là chúng ta xem xét nhng
k thut tìm kim vn bn đa ng da vào thng kê mà mc đích là đ ánh x thông
tin thng kê v thut ng s dng gia các ngôn ng. C th là chúng ta xem xét các
k thut ánh x các tp tfidf (term frequency and inverse document frequency) bao
gm các trng s ca các cm t t mt ngôn ng này sang ngôn ng khác, phng
pháp này ta gi là dch da vào vector thut ng.
Xét trng hp hai ngôn ng, chúng ta có ba tp tài liu ting Anh, ting Pháp và tp
còn li là song song (ngha là mi tài liu trong tp song song là mt cp ting Anh và
bn dch ting Pháp). Mi câu truy vn đu tiên th hin cho tp song song, và nhng
tài liu trong đó đc sp xp da trên m
c đ ging nhau ca câu truy vn vi bn
dch ca nhng tài liu theo ngôn ng ca câu truy vn. Nhng tài liu ting Pháp có
th t sp xp cao nht đc ghép li và đc dùng nh mt câu truy vn cho nhng
tài liu ting Pháp còn li. ây chính là phng pháp phn hi thích hp (relevance
feedback). Tng t cho tài liu ting Anh. Sau đó 3 danh sách đã sp xp đc ni li
và hin th cho ngi dùng.
Phn hi thích hp (relevance feedback) là mt k thut thông thng đc dùng
trong tìm kim thông tin da vào thng kê. Mt vector chun hóa tfidf là mt xp x
heuristic cho s phân b mt đ ca mt t trong mt tài liu. Theo đó, kt qu bên
trong đã chun hóa ch đn gin là s tng quan gia 2 tài liu mô t bi nhng phân
b này. Vì cht lng ca s
phân b theo Heuristic có th đc ci tin bng cách
thêm nhng giám sát, nên phn hi thích hp có th đc xem là cách tip cn
heuristic làm mn hóa nhng phân b không hp lý trong nhng câu truy vn ngn.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
25