Tải bản đầy đủ (.pdf) (133 trang)

Đề tài: "Hệ Thống Tìm Kiếm Thông Tin Bằng Ngôn Ngữ Việt Anh Hoa " pptx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.27 MB, 133 trang )


H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
MC LC
MC LC 1
M U 3
Chng 1: TNG QUAN 5
1.1 Gii thiu mô hình tìm kim thông tin (Information Retrieval): 5
1.2 H thng tìm kim thông tin xuyên ngôn ng (CLIR): 9
1.2.1 Khái nim: 9
1.2.2 Các vn đ ca CLIR: 10
1.3 Các hng tip cn: 11
1.3.1 Dch máy (Machine Translation for Text Translation): 11
1.3.2 Da trên t đin đa ng (Multilingual Thesauri): 14
1.3.3 Da trên ng liu (Corpus-based techniques): 22
1.4 Mt s công trình nghiên cu trong và ngoài nc: 30
1.4.1  Vit Nam: 30
1.4.2 Trên th gii: 31
1.5 Kt lun: 32
Chng 2: C S LÝ THUYT 35
2.1 Gii thiu v MRD (Machine Readable Dictionary) 35
2.1.1 S lc lch s phát trin MRD trên th gii: 35
2.1.2 Vai trò và cu trúc ca MRD: 39
2.1.3 Khai thác tài nguyên t đin: 41
2.1.4 Xây dng t đin t đng: 42
2.1.5 Cu trúc v mô và vi mô ca t đin MRD: 43
2.1.6 Mt s t đin MRD: 43
2.2 Các phng pháp tách t: 51
2.2.1 Mô hình WFST: 51
2.2.2 Mô hình MMSEG: 57
2.3 Các phng pháp kh nhp nhng: 64
2.3.1 Gii thiu: 64


2.3.2 Kh nhp nhng: 65
2.4 Kt lun: 70
Chng 3: PHÂN TÍCH và THIT K 72
3.1 Tng quan h thng: 72
3.1.1 Phát biu bài toán: 72
3.1.2 Mô hình h thng: 72
3.1.3 Phát sinh qun lý: 73
3.2 Phân tích – thit k h thng: 76
3.2.1 Mô hình Usecase: 76
3.2.2 c t usecase: 77
3.2.3 S đ tun t: 78
3.2.4 Thit k lp: 81
3.2.5 Thit k giao din: 94
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
1

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
3.3 Xây dng h thng: 97
3.3.1 T chc các MRD: 97
3.3.2 Phng pháp tìm kim da trên MRD: 106
3.3.3 Tìm kim tài liu bng công c tìm kim: 110
CHNG 4: CÀI T VÀ TH NGHIM 112
4.1 Cài đt: 112
4.1.1 Tin x lý: 112
4.1.2 Cu trúc d liu: 112
4.1.3 Dch t t đin: 113
4.1.4 Kh nhp nhng : 113
4.1.5 Tìm kim: 116
4.2 Th nghim: 117

4.2.1 Module dch và kh nhp nhng: 117
4.2.2 Chng trình demo trên web: 117
4.3 ánh giá : 119
4.3.1 Module dch và kh nhp nhng: 119
4.3.2 Chng trình tìm kim trên Web: 120
Chng 5: KT LUN và HNG PHÁT TRIN 122
5.1 Kt lun: 122
5.2 Hung phát trin: 122
5.2.1 i vi t đin và ng liu: 122
5.2.2 i vi IR Engine: 123
5.2.3 M rng ngôn ng tìm kim cho h thng: 124
PH LC 125
TÀI LIU THAM KHO 132

GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
2

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
M U
Vi s phát trin nhanh chóng ca công ngh tin hc, khi lng thông tin đc lu
tr trên máy tính ngày càng nhiu. Vì vy cn có các h thng tìm kim thông tin
(Information Retrieval) cho phép ngi dùng tìm kim mt cách chính xác và nhanh
nht các thông tin mà h cn trên kho t liu khng l này. Hn na, trong xu th toàn
cu hóa nh hin nay, rt nhiu các t chc, các công ty quc t hình thành, li xut
hin mt nhu cu mi trong vic tìm kim thông tin đó là tìm kim thông tin đa ng đ
ngi dùng có th khai thác mt cách hiu qu nht kho tài liu đa ng mà h có. Mt
ví d c th v kho t liu đa ng là Internet. Các trang Web bng nhiu ngôn ng
khác nhau xut hin ngày càng nhiu, trong khi các công c tìm kim đn ng (search
engine) ch có th tr v các tài liu đc vit cùng ngôn ng vi ngôn ng ca câu

truy vn (query). Do đó vn đ đt ra là liu có th xây dng mt h tìm kim thông
tin mà thông tin tr v là tt c các tài liu  các ngôn ng khác nhau trong kho t liu
có liên quan đn câu truy vn (không ph thuc vào ngôn ng ca câu truy vn). ây
chính là bài toán đt ra cho vic nghiên cu các h tìm kim đa ng/ xuyên ng
(multilanguage IR/ cross language IR).
Mc tiêu ca các h thng tìm kim xuyên ng là cung cp công c cho ngi dùng đ
có th mô t nhu cu tìm kim thông tin  ngôn ng
 mà mình din đt gii nht
(thng là ting m đ), h thng s phi tr v tt c các tài liu  tt c các ngôn ng
có trong kho t liu đang tìm kim có liên quan đn nhu cu thông tin ca ngi dùng.
Trên đây là nhu cu chung ca hu ht các ngôn ng và ting Vit ca chúng ta cng
không phi là ngoi l. Khác vi các ngôn ng khác, ting Vit có nhiu đc đim
riêng bit và rt khó x lý bng máy tính, nên các đ tài nghiên cu hay các chng
trình ng dng liên quan đn các h thng tìm kim bng ting Vit còn rt ít. Mà nhu
cu tìm kim tài liu trên kho tàng kin thc ca th gii ca ngi Vit là rt ln. Vi
mong mun phát trin nhiu hn na các h thng tìm kim xuyên ngôn ng bng
ting Vit, chúng tôi xây dng “H thng tìm kim thông tin xuyên ngôn ng Vit –
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
3

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Anh – Hoa” cho phép ngi dùng nhp câu truy vn bng ting Vit và tr v các tài
liu có liên quan bng ting Vit, ting Anh và ting Hoa. Trong lun vn này chúng
tôi la chn ting Anh và ting Hoa là hai đi din tiêu biu cho hai loi hình ngôn
ng bin hình và đn lp. T đó cho thy rng h thng tìm kim thông tin xuyên ng
có th thc thi trên hai loi hình ngôn ng khác nhau.
B cc ca lun vn gm các chng sau:
• Chng 1 – TNG QUAN : gii thiu tng quan v h thng tìm kim
(IR), h thng tìm kim thông tin xuyên ngôn ng (CLIR), các hng tip cn

và các vn đ cn gii quyt ca h thng.
• Chng 2 – C S LÝ THUYT: trình bày c s lý thuyt và các
phng pháp đã nghiên cu trong lun vn.
• Chng 3 – PHÂN TÍCH VÀ THIT K: phân tích và thit k h
thng.
• Ch
ng 4 – CÀI T VÀ KIM TRA: cài đt, kim th chng trình.
• Chng 5 – KT LUN và HNG PHÁT TRIN: trình bày các kt
qu đt đc, các đánh giá v h thng và hng phát trin trong tng lai.
• Phn TÀI LIU THAM KHO và PH LC: trình bày các thông tin có
liên quan đc s dng trong lun vn.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
4

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Chng 1: TNG QUAN
Trong chng này, chúng tôi s trình bày khái quát v các h thng tìm kim
(Information Retrieval), h thng tìm kim thông tin xuyên ngôn ng (Cross-Language
Information Retrieval) và mt s kho sát v tình hình nghiên cu trong và ngoài
nc. Cui chng chúng tôi s rút ra kt lun chung và la chn hng tip cn cho
h thng ca mình. Ni dung trình bày bao gm:
X Gii thiu mô hình tìm kim thông tin.
X H thng tìm kim thông tin xuyên ngôn ng.
X Mt s công trình nghiên cu trong và ngoài nc.
X K
t lun.
1.1 Gii thiu mô hình tìm kim thông tin (Information
Retrieval):
H thng tìm kim thông tin xuyên ng (Cross Language Information Retrieval -

CLIR) có liên h rt mt thit vi h thng tìm kim thông tin (Information Retrieval -
IR) và cng có rt nhiu đc trng ca h thng này (IR). Qui trình ca h thng tìm
kim thông tin nh sau:
• Ngi dùng mun xem nhng tài liu liên quan đn mt ch đ nào đó.
• Ngi dùng cung cp mt mô t v ch đ đó di dng câu truy vn.
• T câu truy vn này h thng s lc ra nhng cm t ch mc.
• Nhng cm t ch mc này s đc so khp vi nhng cm t ch mc
ca các tài liu đã đc x lý trc đó.
• Nhng tài liu nào có mc đ liên quan cao nht s đc tr v cho
ngi dùng.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
5

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Mc đích ca IR là hin th cho ngi dùng mt tp các thông tin tha mãn nhu cu
ca h. Chúng ta đnh ngha chính xác cho thông tin cn thit là “câu truy vn”(query),
và các thông tin đc chn là “tài liu” (documents). Mi cách tip cn trong IR bao
gm 2 thành phn chính: mt là các k thut đ biu din thông tin (câu truy vn, tài
liu), và hai là phng pháp so sánh các cách biu din này. Mc đích là đ t đng
qui trình kim tra các tài liu bng cách tính toán đ tng quan gia các câu truy vn
và tài liu. Qui trình t đng này thành công khi nó tr v các kt qu ging vi các
kt qu đc con ngi to ra khi so sánh câu truy vn vi các tài liu.
Có mt vn đ thng xy ra đi vi h thng tìm kim là nhng t mà ngi dùng
đa ra trong câu truy vn thng khác xa nhng t trong tp tài liu cha thông tin mà
h tìm kim. Trng hp nh th gi là “paraphrase problem” (vn đ v di
n gii).
 gii quyt vn đ này h thng đã to ra các hàm biu din x lý các câu truy vn
và các tài liu mt cách khác nhau đ đt đn mt đ tng thích nào đó.










d
Hàm biu din
câu truy vn
Không gian
biu din
R
[0,1]
X lý ca con ngi
j
Hàm biu
din tài liu
Câu truy vn
Biu din 2
Tài liu
c
Hàm so sánh
q
Biu din 1
[0,1]
Không gian
tài liu
D

Không gian câu
truy vn
Q
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
6

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Hình 1.1: Mô hình h thng tìm kim thông tin
Gi min xác đnh ca hàm biu din câu truy vn q là Q, tp hp các câu truy vn có
th có; và min giá tr ca nó là R, không gian thng nht biu din thông tin. Gi
min xác đnh ca hàm biu din tài liu d là D, tp hp các tài liu; và min giá tr
ca nó là R
2
. Min xác đnh ca hàm so sánh c là R x R và min giá tr ca nó là
[0,1], tp các s thc t 0 đn 1. Trong mt h thng tìm kim lí tng:
c(q(query), d(doc)) = j(query, doc) , ∀query∈ Q, ∀doc ∈ D,
khi j: Q x D > [0,1] biu din vic x lý ca ngi dùng gia các mi quan h ca 2
thông tin, đc tính da trên mt tiêu chun nào đó (ví d: s ging nhau v ni dung
hay s ging nhau v kiu …). Hình 1.1 minh ha mi quan h này.
Có hai kiu h thng tìm kim: tìm kim da trên so khp chính xác và da trên sp
xp. Mô hình trên đây có th mô t c 2 cách tip cn. Trong h thng tìm kim da
trên so khp chính xác, min giá tr ca c đc gii hn t 0 đn 1, và nó đc chuyn
sang nh phân đ quyt đnh liu 1 tài liu có tha biu thc bool đc xác đnh bi
câu truy vn hay không? Các IR da trên so khp chính xác thng cung cp các tài
liu không sp xp tha câu truy vn ca ngi dùng, hu ht các h thng tìm kim
hin nay đu dùng cách này. Cách hot đng chi tit ca h thng s đc mô t 
phn sau.
i vi h thng IR da trên sp xp, thì các tài liu s đc sp xp theo th t gim
dn v mc đ liên quan. Có 3 loi h thng tìm kim da trên sp xp: “ranked

Boolean”, “probabilistic” và “similarity based”. Trong 3 cách trên min giá tr ca c là
[0,1], tuy nhiên chúng khác nhau  cách tính “giá tr trng thái tìm kim” (“retrieval
status value”):
• Trong h thng da trên “ranked Boolean” giá tr này là mc đ mà
thông tin tha mãn biu thc bool đc ch ra bi các thông tin còn li.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
7

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
• Trong h thng da trên “probabilistic” , khái nim này hi khác mt
chút, giá tr này là xác sut mà thông tin có liên quan đn mt câu truy vn. Rt
nhiu h thng tìm kim da trên xác sut đc thit k đ chp nhn câu truy
vn đc din t bng ngôn ng t nhiên hn là mt biu thc bool.
• Trong h thng tìm kim da trên s ging nhau, giá tr trng thái tìm
kim đc tính bng cách tính mc đ ging nhau ca ni dung thông tin.
Trong các h thng tìm kim da trên so khp chính xác, vic đánh giá h thng ch
yu da trên vic đánh giá mc đ liên quan. Gi s j là giá tr nh phân và đc cho
trc. Nói cách khác, ta gi s rng các tài liu hoc có hoc không có liên quan đn
câu truy vn, và đ liên quan gia tài liu và câu truy vn do con ngi xác đnh là
chính xác. Theo gi đnh này, tính hiu qu ca các h thng tìm kim da trên so
khp chính xác đc đánh giá da trên 2 đi lng thng kê là “đ chính xác”
(precision) và “đ bao ph” (recall).  chính xác là t l các tài liu đc chn, các
tài liu thc s liên quan đn các thông tin mà ngi dùng cn, đ bao ph là t l tài
liu có liên quan đc sp xp chính xác theo đ liên quan bi h thng tìm kim. Nói
cách khác, đ chính xác bng 1 tr đi t l cnh báo sai, trong khi đó đ bao ph đo
mc đ hoàn chnh ca vic tìm kim. Bng 1.1 minh ha cho các mi quan h này.
Actually is
Selected as
Relevant Not relevant

Relevant Found False alarm
Not Relevant Missed




alarmFalseFound
Found
ecision
+
=Pr
MissedFound
Found
call
+
=Re
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
8

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Bng 1.1: Tính đ hiu qu ca h thng tìm kim thông tin
Vic đánh giá tính hiu qu ca h thng tìm kim da trên sp xp thì phc tp hn.
Mt cách tính đ hiu qu ph bin cho các h thng này là “đ chính xác trung bình”.
Nó đc tính bng cách chn mt tp ln hn các tài liu  đu danh sách có giá tr
bao ph gia 0 và 1. Phng pháp thng đc s dng là phng pháp tính da trên
5, 7, 11 đim theo đ bao ph.  chính xác sau đó s đc tính cho tng tp mt. Qui
trình s đc lp li cho tng câu truy vn, và tng ng mi đ chính xác trung bình
s cho mt đ bao ph. Mi giá tr trung bình ca nhng s này sau đó s đc tính
toán và ghi nhn nh là mt đc trng ca h thng.  chính xác trung bình càng ln

thì càng tt, và vic so sánh ch thc s có ý ngha khi chúng ta s dng cùng mt tp
tài liu và câu truy vn. Tuy nhiên đ chính xác trung bình cng làm gim đi mc đ
thay đi ca các câu truy vn có các đc tính khác nhau (ví d nh s lng tài liu có
liên quan khác nhau). Hn th na, các tài liu có liên quan thng tp trung  đu
danh sách sp xp nên thông thng đ chính xác s gim mi khi tp tài liu đc m
rng đ tng đ bao ph.
1.2 H thng tìm kim thông tin xuyên ngôn ng (CLIR):
1.2.1 Khái nim:
H thng tìm kim thông tin xuyên ngôn ng (CLIR) là h thng tìm kim (IR) cho
phép ngi dùng nhp câu truy vn bng mt ngôn ng đ tìm kim các tài liu trong
mt ngôn ng khác. i tng s dng h thng tìm kim thông tin xuyên ng (CLIR)
là:
• Nhng ngi có kh nng đc các tài liu ting nc ngoài, nhng gp
khó khn khi to câu truy vn bng ngôn ng đó.
• Nhng ngi gp khó kh
n khi đc/ tìm kim các tài liu ting nc
ngoài nhng li cn mt s lng gii hn các tài liu đc tìm kim bng
CLIR đ s dng trong các h thng dch máy (MT), thay vì phi dch toàn b
tp hp các tài liu.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
9

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
• Nhng ngi bit các t khóa hoc cm t ting nc ngoài, và mun
đc các tài liu có liên quan vi nhng t khóa hoc cm t đó bng ngôn ng
bn x.
1.2.2 Các vn đ ca CLIR:
Vì câu truy vn do ngi dùng nhp vào và các tài liu đc tìm kim  hai ngôn ng
khác nhau nên CLIR cn phi có qui trình chuyn ng cùng vi qui trình tìm kim

theo cách tìm kim truyn thng ca các h đn ng. Các h tìm kim đn ng hin
nay thc hin rt tt qui trình tìm kim đn ng. Và vn đ chính chúng ta cn quan
tâm  đây làm th nào đ qui trình chuyn ng có th đc thc hin tt nht.
Chính qui trình chuyn ng này đã làm phát sinh rt nhiu vn đ trong CLIR. Vn đ
đu tiên là làm sao bit đc mt t trong ngôn ng này đc vit nh th nào trong
ngôn ng khác? Vn đ th hai là làm sao quyt đnh đc cách dch nào s đc gi
li? Vn đ th ba là làm sao xác đnh đc tm quan trng khác nhau gia các bn
dch khi có nhiu bn dch đc gi li.
Hai vn đ đu tiên, làm sao đ dch và làm sao đ loi b bt bn dch, là hai vn đ
ca các h thng dch máy . H thng CLIR có th loi b mt vài cách dch và gi li
mt s khác bng cách kh nhp nhng. Tuy nhiên, vic gi li mt s cách dch nhp
nhng giúp cho h thng tìm kim gia tng đ bao ph ca nó.
Vn đ th
ba ca CLIR có liên quan đn cách x lý các bn dch tng đng, là điu
giúp chúng ta phân bit CLIR vi dch máy và tìm kim thông tin đn ng. Gi s
rng câu truy vn ban đu có hai t phân bit. Nu t đu tiên có th đc dch sang
nhiu cách khác nhau, và nu t th hai ch có th đc dch sang mt cách duy nht,
thì h thng tìm kim s không tng trng s cho t đu tiên, bi vì nó có nhiu la
chn khi dch. iu này minh ha cho vn đ tính trng s ca các cách dch, đc bit
là đi vi h thng CLIR. Mt tài liu cha mt cách dch ca mi t trong câu truy
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
10

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
vn có th s có đ liên quan nhiu hn mt tài liu cha nhiu cách dch khác nhau
ca t đu tiên trong câu truy vn nhng không cha cách dch nào ca t th hai.
1.3 Các hng tip cn:
Vic phân loi các hng tip cn ca CLIR da trên phng pháp đc s dng
trong quá trình chuyn ng.

1.3.1 Dch máy (Machine Translation for Text Translation):
Gia tìm kim xuyên ng và dch máy hoàn toàn t đng có mi quan h gn gi.
Hình 1.2 minh ha cách dch t đng hoàn toàn và h tr dch máy có th đc tích
hp trong h thng tìm kim xuyên ng. Vi mt h thng nh th, các câu truy vn
có th đc dch sang bt c ngôn ng nào mà ngi dùng thy cn thit, và các tài
liu s đc tr v bt c ngôn ng nào. Nu cn, vic dch máy hoàn toàn t đng có
th đc dùng đ to ra các bn dch đc hin th trên màn hình cho phép ngi dùng
chn tài liu. Khi cn mt bn dch tt hn thì các tài liu đc chn có th đc
chuyn cho dch máy di s h tr ca con ngi.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
11

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa

Hình 1.2 Tích hp tìm kim xuyên ng vi dch máy.
Có l hu ht các hng tip cn trc tip đn tìm kim xuyên ngôn ng là vic thc
thi q hoc d bng cách s dng h thng dch hoàn toàn t đng đ mang câu truy vn
và tài liu vào không gian biu din R da trên mt ngôn ng nht đnh. Mt đim yu
ca h thng dch t đng là nó ch có th cung cp vic dch hiu qu trong mt vùng
gii hn nào đó.
Các h thng tìm kim vn bn thng b qua các li dch cú pháp hn là các li v
ng ngha, nhng đ chính xác v ng ngha s gim sút khi các thông tin không đc
mã hóa vào h thng dch mt cách đy đ. Vì vic mã hóa đy đ thông tin có th s
mt chi phí khá cao nên tính hiu qu ca h thng tìm kim xuyên ng da trên dch
máy s b gii hn, đc bit là khi dch các câu truy vn ngn. Khuyt đim này có th
đc gim bt nu chúng ta dch các tài liu thay vì dch câu truy vn. Bi vì các tài
liu thng dài hn các câu truy vn, nên mt h thng dch máy đc nhúng vào hàm
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229

12

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
biu din tài liu d có th có nhiu thông tin v ng cnh đ chn la ng ngha hn là
mt h thng đc nhúng vào hàm biu din câu truy vn q.
Tuy nhiên, đ hiu qu sn có ca dch máy đã tr thành vn đ tranh lun khi mt h
thng dch đc nhúng vào d, bi vì thông thng d cn phi đc cung cp cho mt
s lng rt ln các tài liu. Hn na, mt vài công vic do h thng dch máy thc
hin không mang li s ci tin nào cho tính hiu qu ca vic tìm kim vn bn.
Chng hn nh, vic dch vn bn đòi hi phi la chn th t ca các t và thêm vào
các t có quan h gn
1
trong ngôn ng đích. Nhng c hai đc tính này thng b b đi
bi q và d.
Tht vy, mt vài công vic do h thng dch máy làm tht s làm gim tính hiu qu
ca vic tìm kim vn bn. Vì trong các ngôn ng khác nhau ngha ca t s không
đc nhóm theo cùng mt cách, nên các h thng dch máy luôn c gng đt đc
ngha dch tt nht cho t khi t có nhiu ngha. Theo phân tích này thì mt ngha đn
s đc chn cho mi t đa ngha. Tuy nhiên, trong mt h thng tìm kim, q và d có
th đc thit k đ ngn chn nhng thông tin không chc chn và c có th đc thit
k đ tn dng nhng thông tin đó trong vic ci thin tính hiu qu.
Nhng nghiên cu này cho thy rng khi thit k các hàm q và d cho h thng tìm
kim xuyên ng thì kiu và đ sâu ca qui trình có th đc quyt đnh bi kh nng
biu din ca không gian R đ biu din các kt qu ca các qui trình và kh nng s
dng các thông tin đó ca hàm so sánh c. Chúng ta cng có th hoc gii hn qui trình
ca chúng ta bng kh nng ca các k thut hin có đ s dng thông tin kt qu, hoc
chúng ta có th thit k các hàm biu din và so sánh mi đ tn dng thông tin mà k
thut dch máy có th cung cp.
¬
u đim: các câu truy vn có th đc dch sang bt c ngôn ng nào mà ngi

dùng thy cn thit, và các tài liu s đc tr v bt c ngôn ng nào.

1
các t có quan h gn là nhng t ít mang ni dung và thng b loi b bi danh sách các stopword trong mt
h thng truy xut.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
13

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
¬ Khuyt đim: Hiu qu dch còn gii hn.
1.3.2 Da trên t đin đa ng (Multilingual Thesauri):
 đây chúng ta đnh ngha mt t đin đng ngha nh là mt công c đ mã hóa
thông tin tri thc cho mt ng dng. Vì th mt t đin đng ngha là mt bn th mà
đc trng là các thut ng đã đc t chc. Mt t đin đng ngha đa ng là mt t
đin t chc các thut ng t mt hoc nhiu th ting. T đin song ng, thng đnh
ngha các cm vi chi tit cho các cm khác, cng đc gp vào đnh ngha này. T
vng trong ngôn ng hc máy tính, đc mã hóa thông tin cú pháp và ng ngha, cng
nm trong đnh ngha này. Các t đin đng ngha phc tp, đc s dng nh là mt
danh mc c s trong h thng tìm kim t đng, cng nm trong phm vi ca đnh
ngha t đin đng ngha trên. Thm chí mt danh sách song ng đn gin gm các
thut ng k thut mà trong đó mi thut ng đc gán mt cách dch duy nht cng là
mt t đin đng ngha theo đnh ngha trên. Chúng ta nhn ra rng đây là mt đnh
ngha m rng không bình thng cho t “t đin đng ngha”. Nhng vì không có
mt thut ng chun ngn gn nào có th đáp ng khái nim chúng ta mô t nên chúng
ta chn cm t có quan h gn nht vi h thng tìm kim xuyên ng hin ti. Bng
1.2 cho thy mt vài kiu t đin đng ngha ph bin đc s dng trong các h
thng tìm kim xuyên ng. Các thông tin chi tit hn v t đin xuyên ng s đc
trình bày  phn sau.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235

TS. inh in Nguyn Th Tuyt Mai - 0112229
14

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa

Kiu t đin c trng
T đin đng ngha theo
đ tài
Có mi quan h k tha và kt hp.
Mt cm duy nht đc gán cho 1 nút.
Danh sách khái nim Không gian ca các cm t đc chia
thành các lp khái nim.
Danh sách các cm t Danh sách các t đng ngha xuyên ngôn
ng.
T vng Các cú pháp hoc ng ngha mà máy có
th đc đc (Machine Readable)
Bng 1.2 Các kiu t đin đa ng
K thut da trên t đin có mt s u đim và khuyt đim nht đnh. Vì t đin có
th biu din các mi quan h gia các cm t và các khái nim theo cách mà con
ngi có th hiu đc, nên vic tìm kim thông tin da trên t đin cho phép ngi
dùng khai thác li ích bên trong trong sut quá trình tìm kim đ hình thành mt câu
truy vn tt hn. Hn th na, vì có mt lng các thông tin quan trng đc mã hóa
trong t đin, nên  khía cnh ca mt ngi dùng có k nng, mt h thng tìm kim
da trên t đin có th là mt công c rt mnh. Mt khác, vic s dng t đin s áp
đt mc đ gii hn lên c t vng mà ngi dùng s dng cng nh phm vi mà h
thng tìm kim có th cung cp. Các k thut hin nay cho vic xây dng và duy trì t
đin tp trung mnh m vào ngun tài nguyên, và vic hun luyn; và n lc đ s
dng hiu qu các mi quan h v khái nim cha đng bên trong mt t đin phc
tp là rt trng yu.
Mt vài khía cnh v tri thc có th đc mã hóa trong mt t đin. c tính quan

trng ca mt t đin xuyên ng là mt đc t ca đng ngha xuyên ng
2
. Các mi


2
c t ca đng ngha xuyên ng có th không hoàn toàn vì có mt s cm t có th không có bn dch trc
tip trong mt ngôn ng khác.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
15

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
quan h k tha v khái nim (cm t rng hn, hay hp hn) và mi quan h kt hp
(cm t có liên quan hoc đng ngha) thng đc thêm vào mt t đin phc tp.
T đin có th đc dùng t đng hoc th công. Trong mt h thng gi là “vn t
đc qun lý” (“controlled vocabulary”), mi khái nim đc gán nhãn bng mt cm
t có tính mô t đ ngi dùng có th ch rõ nhng khái nim thích hp nht cho câu
truy vn ca h. Khi các mi quan h v khái nim đc mã hóa trong mt t đin
đc s dng mt cách t đng, thì k thut đó đc gi là “tìm kim theo khái nim”
(concept retrieval). Trong mt h thng tìm kim theo khái nim đn gin, mt danh
sách các khái nim đc s dng đ thay th mi cm t bng lp khái nim ca nó đ
tng đ bao ph (da trên đ quyt đnh). Có mt hng tip cn phc tp hn, gi là
“m rng câu truy vn” (query expansion) đã s dng mi quan h gia các khái nim
đc mã hóa đ la chn cm t có th đáp ng c đ chính xác và đ bao ph.
C vic thay th khái nim ln vic m rng câu truy vn đu th hin n lc làm tng
đ bao ph bng cách làm gim nh hng ca vn đ din gii.  chính xác có th
đc tng bng cách thêm vào các thông tin v cú pháp và ng ngha trong t đin đ
làm gim nh nh hng ca t đa ngha
3

.Ví d, trong mt h thng thông tin có vn
t đc qun lý thng đc cung cp mt t đin đ ngi dùng có th chn ra cm
t chính xác mt cách th công. Mt h thng tìm kim khái nim có th s dng ý
tng này bng cách đánh th các t da trên t loi ca chúng và sau đó chn cách
dch nào có cùng t loi.
1.3.2.1 H thng vn t đc qun lí:
Trc nm 1973 ngi ta cho rng c h thng vn t đc qun lý và h thng tìm
kim khái nim bng t đin đa ng đu có th thc thi xuyên ng ging nh là vic
thc thi bên trong mt ngôn ng vi cùng k thut. Trc nm 1977 đã có 4 h thng
tìm kim xuyên ng đc thc thi  châu Âu. T các h thng này, ni lên 6 tiêu chí


3
Gii pháp cho t đa ngha thng đc gi là kh nhp nhng ngha ca t.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
16

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
cn bn ca các nghiên cu da trên t đin xuyên ng : nhng tiêu chun v thit k,
các công c phát trin và duy trì, phn cng chuyên dng, các cp và các lnh vc ca
ngôn ng mi, giao din ngi dùng, và vic đánh giá nhu cu ca ngi dùng.
Trong nm 1970, ngi ta thy rõ ràng rng vic tiêu chun hóa s phát trin các t
đin đ ngn chn “vic to ra nhng đ tài lch hng và không phù hp” là cn
thit, và nm 1971 UNESCO đã đ ra các tiêu chun cho vic phát trin t đin đa
ng. Trong nm 1973 ISO đã xem xét vn đ này, và trc nm 1976 bn tho cho vn
đ này đã đc ph bin mt cách rng rãi. c thông qua vào nm 1978 nh là
chun ISO 5964 và đc chnh sa gn đây nht vào nm 1985, tiêu chun này đã mô
t phm vi tri thc có th đc ni suy bên trong các t đin đa ng nh th nào, và
nhn din nhng k thut khác nhau cho vic phát trin t đin đa ng.

T đin EUROVOC ca quc hi châu Âu là mt ví d ca mt t đin đa ng hin
đi theo chun ISO 5964. c thit lp ln đu vào nm 1984, EUROVOC hin nay
bao gm 9 ngôn ng
4
chính thc ca cng đng châu Âu, và mt phn ca nó đã đc
dch sang nhiu ngôn ng khác. Vic thit k t đin đòi hi chi phí cao, và điu này
đã làm gii hn lnh vc mà h thng tìm kim da trên vn t đc qun lí có th
cung cp. Nhng EUROVOC chng minh rng mt khi các mi liên h c bn v khái
nim đc đnh ngha trong mt pham vi nào đó thì vic m rng chun t đin đa
ng ISO 5964 cho các ngôn ng khác là hoàn toàn thit thc.
Khi các t đin đa ng gia tng mt cách nhanh chóng, thì các công c thit k và duy
trì cng tr nên quan trng hn. Trong nhng nm 1970, có rt nhiu các th tc cng
nh các thut toán đã đc nghiên cu đ dùng cho vic trn các t đin đn ng
thành mt t đin đa ng.
Ngày nay các h thng tìm kim vn bn xuyên ng đã đc s dng mt cách rng
rãi, nhng hu ht các h thng thng mi đu s dng hng tip cn tìm kim da
trên so khp chính xác. Các t đin đa ng phc tp đã và đang đc phát trin trong


4
9 ngôn ng là: an Mch, Hà Lan, Anh, Pháp, c, Hy Lp, Ý, B ào Nha và Tây Ban Nha.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
17

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
nhiu ngôn ng và lnh vc, và các th tc dùng đ thêm lnh vc và ngôn ng cng
đc hiu rõ. Có 3 nhân t quan trng khi xây dng t đin là : chi phí, nhng tin li
cho ngi dùng cha đc hun luyn, và đ hiu qu.
Vic xây dng t đin là mt vic tn nhiu chi phí. Nhng vic s dng t đin có

th tn nhiu chi phí hn bi vì trong mt h thng có vn t đc qun lí thì mi tài
liu phi đc gán các cm t phn ánh các khái nim cha trong nó. Mc dù các công
c t đng có th h tr giúp tng nng sut ca con ngi nhng vì các hot đng
mang tính trí tu ca con ngi đòi hi vic tái t chc và t chc thông tin nên chi
phí s vn rt cao.
Mt gii hn quan trng khác ca h thng tìm kim vn bn da trên vn t đc
qun lý, và gii hn này cng xut hin trong k thut tìm kim vn bn da trên so
khp chính xác, là nhng ngi dùng không đc hun luyn dng nh s gp khó
khn khi khai thác kh nng ca t đin. Nhng khác nhau quan trng gia ngi
dùng có k nng và ngi dùng không đc hun luyn đã đc nghiên cu da trên
s chn la các cm t ca h, vic h s dng nhng mi quan h ca cm t đc
mã hóa trong mt t đin, và vic s dng các toán t AND, OR hoc NOT trong vic
xây dng câu truy vn. Trong nhiu trng hp ngi ta chng minh rng vic cung
cp nhng ngi trung gian đc hun luyn có li hn vic cung cp nhng hun
luyn đy đ cho mi ngi dùng. K thut tìm kim da trên sp xp đc mô t 
phn trc cng gii thiu mt hng tip cn khác đ gii quyt vn đ này. Các h
thng tìm kim da trên sp xp thng chp nhn các câu truy vn bng ngôn ng t
nhiên và cho phép s la chn không ràng buc các cm t. Nói chung, mc đích ca
vic tìm kim da trên sp xp không phi đ thay th k thut so khp chính xác mà
đ làm mnh thêm các h thng bng nhng k thut ci thin mt cách hiu qu vic
tìm kim ca nhng ngi dùng không đc hun luyn.
1.3.2.2 Tìm kim khái nim:
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
18

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Mt cách khác đ biu din các khái nim trong R là biu din các cm t bng cách
s dng t đin đa ng dn dt cho qui trình chn la cm t. ây là mt bin th ca
m rng câu truy vn, mt k thut đã đc nghiên cu rt k trong tìm kim đn ng

5
. Ý tng c bn ca m rng câu truy vn là cung cp các bin th s dng ca cm
t bng cách gia tng các cm t có liên quan trong câu truy vn.
Gn đây, trong [1] L.Ballesteros đã dùng phng pháp “phn hi cc b ” (local
feedback) đ m rng câu truy vn. Phng pháp này là s kt hp gia hai phng
pháp: sa đi câu truy vn trc khi dch (pre-translation query modification) và sa
đi câu truy vn sau khi dch (post-translation query modification). Trong nghiên cu
ca mình, ông gii hn trong hai ngôn ng là ting Anh và ting Tây Ban Nha. Các
câu truy vn ting Anh đc ly t h thng TREC vi chiu dài trung bình là 10.6 t.
Các câu truy vn ting Tây Ban Nha cng đc rút trích t h thng này vi chiu dài
trung bình là 4.3 t. Vic đánh giá tính hiu qu da trên các tài liu ting Anh nm
trong tp Tipster (vol. 2) có đ ln 2GB và tp 208M các bài báo ting Tây Ban Nha
ca báo “El Norte”. Ng liu hun luyn dùng cho vic phn hi trc khi dch là tp
các bài báo này và tp 301 MB c s d liu tin tc ca San Jose Mercury t tp hp
Tipster. Toàn b câu truy vn s đc thc hin trên h thng INQUIRY. Qua thc
nghim L.Ballesteros nhn thy rng vic sa đi câu truy vn trc khi dch to ra
mt c s quan trng cho vic dch và nâng cao đ chính xác; vic sa đi câu truy
vn sau khi dch da trên t đin máy đc s nâng cao đ bao ph ca tìm kim. Và k
thut này s hiu qu hn đi vi các câu truy vn dài vì các câu truy vn dài s có
nhiu ng cnh hn giúp gim tính nhp nhng. Kt hp hai qui trình này giúp tng đ
chính xác trung bình lên 50%. iu này cho thy vic m rng câu truy vn s giúp
gia tng đáng k đ hiu qu ca h tìm kim xuyên ng.
1.3.2.3 Mã hóa thông tin ng ngha:


5
c trng duy nht ca m rng câu truy vn trong truy xut xuyên ng là các cm t ban đu s b loi ra khi
câu truy vn m rng nu nó không mang cùng mt ngha trong c 2 ngôn ng
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229

19

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Mt khía cnh khác ca d án EMIR[2] là vic ng dng vic phân rã nhanh nhng
không sâu đ tn dng thông tin ng ngha đc mã hóa trong t đin. S lng các
cm t ting Anh đc gim bng cách gán nhãn tng cm t ting Anh vi t loi
tng ng ca nó, và sau đó ch chn nhng t ting Anh có cách s dng cú pháp
tng t các cm t ting Pháp. T đin EMIR là mt danh sách song ng các cm t
trong đó thông tin ng ngha đc mã hóa nh là các t ghép, đc s dng đ thay
th các mi quan h v khái nim. Trong EMIR, các cm t bao gm các t, các ng
và t ghép. Bi vì các t ghép ni các t khóa vi nhau da trên nn tng là mi quan
h v ng ngha thay vì hình thc b ngoài ca chúng, do đó vic đa ra các công thc
cho t ghép s tt hn vic rút trích các ng đn gin. Bi vì trt t ca các t trong t
ghép thng thay đi trong ngôn ng đích, nên các mc t ca cm t ghép đã đc
thit lp đ gii thích cho vic chuyn đi khi cn.
Phiên bn EMIR ca SPIRIT đã đc đánh giá trên tp 1398 các khái nim v hàng
không ca Cranfield bng cách s dng 225 câu truy vn đã đc Trung tâm t liu
quân đi Pháp dch sang ting Pháp. Các tài liu ting Anh đc tìm kim đáp ng các
câu truy vn ting Pháp.  so sánh, các câu truy vn ting Pháp sau đó đc dch tr
li sang ting Anh bng cách s dng h thng dch t đng SYSTRAN và các tài liu
đc chn bng cách s dng phiên bn đn ng ca h thng tìm kim SPIRIT. C
th nh sau:
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
20

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
0
0.1
0.2

0.3
0.4
0.5
0.6
0.7
0.8
10 20 30 40 50 60 70 80 90
 bao ph
 chính xác
EMIR
SYSTRAN
SPIRIT Anglais

Hình 1.3 So sánh tìm kim đn ng ca SPIRIT, tìm kim song ng ca EMIR và dch
câu truy vn ca SYSTRAN
1.3.2.4 ánh giá u khuyt đim:
¬ u đim :
Tài nguyên t đin thì ph bin và sn có hn ng liu song song do đó hng tip cn
da trên t đin có th đc xem là la chn tt hn các hng tip cn còn li. Mc
dù chiu sâu ca t đin là hn ch nhng phm vi ca nó thì đ rng đ chúng ta có
th dch các câu truy vn thuc nhiu đ tài khác nhau. Mt khác, hin nay các t đin
đin t là khá phong phú, chúng ta có th tn dng ngun tài nguyên này đ cu trúc
hóa và rút trích các thông tin cn thit cho t đin máy đc dùng trong các h xuyên
ng.
¬ Khuyt đim:
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
21

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa

Vic dch t đng da trên t đin ch đt 50% hiu qu do các bn dch nhp nhng.
Mt trong hai nguyên nhân chính là vic chuyn đi t vng dn đn vic thêm rt
nhiu t khác. Theo nguyên cu ca L. Ballesteros, điu này dn đn vic mt 12-29%
th hin ca câu truy vn trong khi dch và gây nên vn đ khi dch các câu truy vn
dài. Nguyên nhân th hai là vic mt các ng khi dch word by word, dn đn vic mt
20 – 25% . Thêm vào đó, các câu truy vn thng cha các thut ng, mà các thut
ng này thng không có trong t đin tng quát. Nu chúng ta không có t đin
chuyên ngành hoc t đin thut ng thì hiu qu ca h thng s càng thp. Tuy
nhiên, nhng khuyt đim trên đây s là đng lc thúc đy chúng ta tip tc nghiên
cu và tìm hiu các phng pháp nhm nâng cao tính hiu qu ca hng tip cn
này.
1.3.3 Da trên ng liu (Corpus-based techniques):
Ngoài cách s dng t đin, chúng ta có th khai thác trc tip thông tin thng kê v
cách dùng thông thng ca các cm t t ng liu song song. Cách tip cn trc tip
này rt thích hp đ tích hp vi các k thut tìm kim da trên vic thng kê cách
dùng thông thng ca các cm t. K thut tìm kim thng kê thng tn dng hai
nhn xét quan trng v cách dùng thông thng ca cm t. Nhn xét đu tiên là
nhng tài liu mà ngi dùng đánh giá là cùng loi thì nhìn chung thng s dng các
cm t tng t nhau. Quay tr li mô hình 1.1, q và d đc thit k mt cách đc
trng đ trích ra các thông tin v tn s ca cm t và c đc thit k đ tn dng điu
này. Nhn xét th hai là các cm t him và ít ph bin thì s giúp ích rt nhiu cho
vic phân bit gia các tài liu . Các cm t ph bin mang ít ni dung thng b loi
b bi mt danh sách stoplist, và các cm t còn li thng đc tính trng s bng
cách s dng “tn s tài liu đo ” thng đc tính nh sau:









=
itermwithdocumentsofNumber
documentsofNumber
idf
i 2
log

GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
22

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
Kt hp hai kt qu ta gi là “tfidf” (term frequency and inverse document frequency -
tn s ca t và tn s tài liu đo )
tfidf
ij
= tf
ij
* idf
i
tf
ij
là s ln t i xut hin trong tài liu j.
Mt vài k thut có th đc s dng đ xây dng hàm so sánh c cho mt th hin
tfidf. Có th k thut đn gin nht là k thut dùng không gian vector, trong đó các
vector ca trng s tfidf đc thit lp bi q và d và kt qu đc chun hoá bên trong
ca 2 vector đc tính nh vào c. Kt qu này cho ra mt giá tr mong mun, là mt
hàm tng nghiêm ngt đi vi bt c vic gim nào ca s khác nhau ca 2 giá tr tfidf

ging nhau. Nói mt cách khác, mang 2 vector li gn nhau theo bt c chiu nào s
làm tng tính tng đng ca chúng. Bi vì kt qu chun hóa bên trong ca 2 vector
là cosin ca góc gia 2 vector trong không gian vector, nên kt qu này đc bit đn
nh là phép đo đ tng đng dùng hàm s cosin. H thng SMART, đc Salton
phát trin, là mt ví d v h thng tìm kim s dng không gian vector.
K thut tìm kim da trên xác sut thng thc thi mt hàm c phc tp hn. Thng
da trên mt gi đnh đn gin là j (hoc r ) là giá tr nh phân (ngha là mi tài liu có
hoc có liên quan hoc không có liên quan ), k thut tìm kim da trên xác sut thc
hin vic tìm kim đ c lng xác sut mà mt tài liu cho trc có liên quan da
trên đ tng quan hoc tfidf. H thng INQUIRY đc Croft và các cng s phát
trin là mt ví d cho h thng tìm kim da trên xác sut.
1.3.3.1 Xây dng t đin t đng:
V ý ngha, các k thut da trên ng liu có th đc xem nh là mt loi ca k
thut xây dng t đin t đng, trong đó thông tin v mi quan h gia các t đc to
ra t các con s thng kê cách s dng thông thng ca t. S khác nhau là  ch t
đin này không cn con ngi xây dng. Ging nh các k thut tìm kim xuyên ngôn
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
23

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
ng khác, k thut xây dng t đin t đng là mt nghiên cu quan trng k tha t
ng cnh ca tìm kim đn ng. Mt s lng đáng k các nghiên cu v đ tài này đã
xut hin và đc công b trong tài liu v dch máy.  đây chúng tôi trình bày hai k
thut đ xây dng t đin đa ng t khía cnh tìm kim.
K thut đu tiên, ngi ta đã thc nghim trên 1.100 ng danh t ly t ng liu song
song ca khong 1.000 cp câu dài ting Hà Lan và ting Anh trong mt tài liu k
thut
6
. Các ng danh t trong mi cp câu đc nhn din bng cách s dng mt th

t loi thng kê và mt b parser đn gin. Các ng viên dch cho mi ng danh t
ting Hà Lan đc to ra bng cách so sánh tn s ca mi cm ting Anh xut hin
trong mt cp câu ting Anh cha ng danh t, vi tn s mà mi t ting Anh xut
hin trong toàn tp tài liu. Mt đc tính khác đc thêm vào giúp cho vic ngn chn
các chn la ng danh t xut hin  nhng v trí liên quan khác nhau trong các cp
câu.
Các tham s đc tìm thy cho các kt qu trong vic nhn din các bn dch đn
chính xác đn 45%, và nhiu la chn khác mà các la chn này to ra mt danh sách
các ng viên ca các bn dch trong đó cha 66% các bn dch đn chính xác. Vi
c
dóng câu, đánh tag t loi và phân rã li chim 85% các li, và các nghiên cu cho
thy rng vic chn la chn trên cho vic biu din k thut ca mình s nâng t l
các bn dch đn chính xác lên 69% hoc thêm khong 95% các bn dch chính xác
vào mt danh sách. Bi vì ng liu song song có kích thc nh nên không th quyt
đnh vic thc thi ca k thut khi có nhiu hn mt bn dch ca cùng mt t xut
hin trong ng liu
7
. Kt qu ca t vng song ng không đc s dng cho vic tìm
kim vn bn, vì th chúng ta không th quyt đnh điu gì làm nh hng đn các li
dch s có hiu qu cho vic tìm kim. Hn na, chúng ta không th đa ra các hng
dn v vic liu vic gim đ chính xác, kt qu ca vic tng s lng ng viên có


6
Chiu dài trung bình ca câu là hn 24 t. Các câu đc gióng hàng bng cách s dng k thut thng kê, và
7% các cp câu sau đó đc phát hin là b gióng hàng sai
7
71% các ng danh t bng ting Hà Lan xut hin ch 1 ln trong toàn b tp tài liu
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229

24

H thng tìm kim thông tin xuyên ngôn ng Vit – Anh – Hoa
th đc bù đp bng cách tng đ bao ph, kt qu ca vic thêm vào bn dch chính
xác trong danh sách.
1.3.3.2 Dch da vào vector thut ng (Term Vector Translation):
Chúng ta quan tâm đn nhng k thut tìm kim vn bn đa ng da vào ng liu to
ra nhng ánh x không phi dành cho ngi dùng. Ngha là chúng ta xem xét nhng
k thut tìm kim vn bn đa ng da vào thng kê mà mc đích là đ ánh x thông
tin thng kê v thut ng s dng gia các ngôn ng. C th là chúng ta xem xét các
k thut ánh x các tp tfidf (term frequency and inverse document frequency) bao
gm các trng s ca các cm t t mt ngôn ng này sang ngôn ng khác, phng
pháp này ta gi là dch da vào vector thut ng.
Xét trng hp hai ngôn ng, chúng ta có ba tp tài liu ting Anh, ting Pháp và tp
còn li là song song (ngha là mi tài liu trong tp song song là mt cp ting Anh và
bn dch ting Pháp). Mi câu truy vn đu tiên th hin cho tp song song, và nhng
tài liu trong đó đc sp xp da trên m
c đ ging nhau ca câu truy vn vi bn
dch ca nhng tài liu theo ngôn ng ca câu truy vn. Nhng tài liu ting Pháp có
th t sp xp cao nht đc ghép li và đc dùng nh mt câu truy vn cho nhng
tài liu ting Pháp còn li. ây chính là phng pháp phn hi thích hp (relevance
feedback). Tng t cho tài liu ting Anh. Sau đó 3 danh sách đã sp xp đc ni li
và hin th cho ngi dùng.
Phn hi thích hp (relevance feedback) là mt k thut thông thng đc dùng
trong tìm kim thông tin da vào thng kê. Mt vector chun hóa tfidf là mt xp x
heuristic cho s phân b mt đ ca mt t trong mt tài liu. Theo đó, kt qu bên
trong đã chun hóa ch đn gin là s tng quan gia 2 tài liu mô t bi nhng phân
b này. Vì cht lng ca s
 phân b theo Heuristic có th đc ci tin bng cách
thêm nhng giám sát, nên phn hi thích hp có th đc xem là cách tip cn

heuristic làm mn hóa nhng phân b không hp lý trong nhng câu truy vn ngn.
GVHD: TS. H Bo Quc Nguyn Th Hng Nhung - 0112235
TS. inh in Nguyn Th Tuyt Mai - 0112229
25

×