tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 77 - 0112398 – T Th Ngc Thanh
Trên cây cú pháp này, ta xác nh c các quan h cú pháp nh: S – V (ch$
ng – ng t), V – O (ng t – i t), A – N ( tính t – danh t), D – N ( nh t –
danh t). Mi t thc (content words) trong câu trên, cho dù ã xác nh c t loi
chính xác, nhng u vn gây nhp nh0ng v ng ngh a. Ví d!, ng t “enter” ( i
vào / nhp), danh t “bank” (ngân hàng/ b sông/ dãy), tính t “old” (già/ c/ ). Vì vy,
chúng ta phi s% d!ng n nhng ràng buc ng ngh a nh sau:
T Ràng buc /
nhãn ng ngh a
Ràng buc
I (tôi) Type: Person
(Ngi)
Enter1
(i vào)
S:Human
(ngi)
O:Closed – SPA
(không kín)
Enter2
(nhp)
S:Human
(ngi)
O: Data (d liu)
Bank1
(ngân hàng)
Type: Hou (nhà c%a, không gian kín)
Bank2
(b sông)
Type: Nat
(công trình thiên nhiên, không gian h)
Old1
(già)
N: Ani
(có s sng)
Old2
(c/)
Bng 5: Danh sách các ngh a và ràng buc c$a các t thc trong câu.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 78 - 0112398 – T Th Ngc Thanh
Hình 14 Cây quyt -nh trong vi&c ch)n ngh!a phù hp.
Qua vic duyt cây t trên xung vi gc là ng t (Enter), cui cùng ta chn
c các ngh a phù hp: enter1 (i vào), bank1 ( ngân hàng), và old2 (c/). Trong vic
xét iu kin ràng buc v ng ngh a, chúng ta phi xét n tính c#p bc (hierachical)
trong h thng nhãn ng ngh a (ontology) mà trong ó khái nim con s* k tha các
nét ngh a c$a khái nim cha và có thêm nét ngh a mi riêng c$a chúng. Thông tin v
"c im ng ngh a (type) c$a tng m!c t thc c/ng nh các ràng buc ã c xác
nh trong t in LDOCE và FrameNet.
2.4.2.3.3. Tri thc v ngôn t ( Collocation)
Ràng buc v ng ngh a gia các thành phn cú pháp không phi lúc nào c/ng
gii quyt c mi nhp nh0ng, vì có nhng quan h tim 5n v logic, v ng ngh a
ho"c thm chí do thói quen mà vic nhn bit phi òi h2i nhng tri thc th gii thc
mà n nay ngi ta c/ng cha th tích hp ht vào t in hay các c s tri thc khác
trong máy tính.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 79 - 0112398 – T Th Ngc Thanh
Ví d!, danh t “bank” trong câu “I go to the bank…” có ngh a gì? Ta s* chn
ngh a nào trong s các ngh a: “ngân hàng/ b (sông) / dãy”; danh t “way” là “ng
(i) / cách (thc)”?; danh t “letter” là “bc th / ch cái”?;…. Nu ta ch& xét các ràng
buc v ng ngh a ( không phi lúc nào các ràng buc này c/ng có m"t y $ ) thì ta
khó mà có th xác nh c chính xác ngh a c$a các t nhp nh0ng ó.
Vì vy, kh% nhp nh0ng trong nhng trng hp này, ngi ta thng xét
n hình thái và ng ngh a c$a các t lân cn hay còn gi là ngôn t (collocation).
Ch+ng hn khi th#y “bank … river” → “b sông”, “bank … account/money” → “ngân
hàng”; “way to” → “ng (i)”, “way of” → “cách thc”; “write … letter … to” →
“bc th”, “… letter A” → “ch cái”, “… letters, digits, symbols …” → “ch cái”,
“write … papers, letters, messages,…” → “bc th”;….
Phm vi lân cn c$a t cn kh% ng ngh a có th là bên trái 1, 2 hay n t và bên
phi 1, 2 hay n t. Vic chn la lân cn này ph! thuc vào tng trng hp và cá
nhân c! th.
2.4.2.3.4. Tri thc v ch (subject)
Trong mt s trng hp nhp nh0ng, chúng ta có th xác nh c ngh a
úng c$a t nu ta bit c ch$ c$a vn bn. Ch+ng hn t “bank”, nu ang nói
v v#n “tài chính” thì nó thng có ngh a là “ngân hàng”; t “driver” → “trình iu
khin” ( nu ch$ là l nh vc “tin hc”); “sentence” → “câu” (nu ch$ là “ngôn
ng / vn phm”) ho"c “bn án” ( nu ang nói v “pháp lut”); “element” → “nguyên
t” ( trong “hoá”) / “phn t%” (trong “toán / tin hc”);….
6 xác -nh c ch c a v8n bn ang cn dch, ta c+n xem xét s# xu(t
hi&n c a mt s t" chuyên môn trong l!nh v#c ó. Ch+ng hn, nu trong vn bn ta
th#y xu#t hin các t nh: “ellipsis” (t&nh lc), “bilingual” (song ng), “anaphora”
(th i t), “pharse” (ng), … thì ta có th oán nhn vn bn này ang nói v ch$
“ngôn ng hc”; tng t cho các t “computer”, “memory”, “peripherals”, “CPU”,…
→ ang nói v “tin hc”, ….
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 80 - 0112398 – T Th Ngc Thanh
Chính vì vy, trong t in LDOCE/ LLOCE u có mã s ch$ cho các t
chuyên môn này. Chúng ta có th xác nh c ch$ mt cách t ng b0ng cách
xem xét các t chuyên môn lân cn t ang cn kh% nhp nh0ng.
2.4.2.3.5. Tri thc v tn sut ngha ca t
Mt t không phi lúc nào c/ng thuc v mt ch$ nh#t nh ( trong t in
LDOCE, hn 56% t thuc dng này), vì vy tính thông d!ng c$a mt ngh a nào ó
còn c da trên o v tn su#t (frequency) xu#t hin c$a t ó i vi ngh a c!
th ó. Ví d!, danh t “pen”có ngh a thông d!ng nh#t là “bút/ vit” (bên cnh các
ngh a ít thông d!ng hn, nh: “chu1ng”, “l1ng chim”); “ball” thng có ngh a là “qu
banh/ hòn bi” hn là “bu.i khiêu v/”,…
o tn su#t xu#t hin c$a mi ngh a c$a mi t c thng kê trên nhng
ng liu r#t ln thuc nhiu loi vn bn khác nhau. Chính vì vy, trong WordNet và
trong LDOCE, các ngh a c sp xp theo th t gim dn (ngh a thông d!ng nh#t s*
c lit kê u tiên).
2.4.2.3.6. Tri thc trong nh ngha ca ngha t (definition):
Trong các t in LDOCE/ WordNet, mi ngh a s* c nh ngh a và có ví d!
kèm theo. Ví d!, t “bank” trong LDOCE s* có các ngh a kèm nh ngh a c$a nó nh:
- “land along the side of a river, lake, etc.” (#t dc bên sông / h1 )
- “a place where money is kept and paid ….” (ni gi tin và tr
tin …)
- “a row, a line of …” (mt hàng, mt dãy …)
Da trên thông tin trong các nh ngh a này, và so sánh vi thông tin c$a ng
cnh, ta có th xác nh c ngh a phù hp c$a t trong ng cnh ó. thc hin
iu này, Wilks et.al. ã tính toán phn giao (overlap) c$a t#t c các t. hp ngh a c$a
các t thc trong câu ting Anh dùng nh ngh a mi ngh a c$a t.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 81 - 0112398 – T Th Ngc Thanh
2.4.2.4. Gán nhãn ng% ngh!a
Kh% nhp nh0ng ngh a c$a t là bài toán "c trng trong gán nhãn ng ngh a.
Tc là ngh a c$a t a ngh a s* c xác nh ngay nu bit nhãn ng ngh a c$a nó, ví
d!: danh t “bank” s* có ngh a là “ngân hàng” nu c gán nhãn là “HOU”, và có
ngh a “b (sông)” nu gán nhãn “NAT”, ….
Trong các mô hình gán nhãn ng ngh a theo cách tip cn da trên các ngu1n
tri thc nói trên, ngi ta thng s% d!ng b nhãn có mn (granularity) khác nhau.
B nhãn càng mn ( chi tit hàng trm ngàn nhãn nh WordNet) thì chính xác c$a
vic gán nhãn s* th#p hn nhng kh nng kh% nhp nh0ng ngh a c$a nó s* cao hn (
vì không có trng hp nào cùng nhãn mà khác ngh a). Ngc li, nu chn b nhãn
càng thô ( ch& có 36 nhãn nh LLOCE), thì chính xác trong gán nhãn s* cao hn và
t#t nhiên kh nng kh% nhp nh0ng ngh a s* th#p hn ( s* có nhiu trng hp cùng
nhãn nhng khác ngh a).
Ngoài ra, vic gán nhãn ng ngh a còn c phân bit theo quy mô gán nhãn:
ho"c là gán cho mt s ít các t in hình ( nh Hwee Ng và Hian Lee cho mt t
interest, David Yarowsky cho 12 t,…) ho"c là gán cho hu ht các t thc (nh Mark
Stevenson và Yorick Wilks, Mona Diab và Philip Resnik).
Vic chn ngu1n tri thc nào cho mi tình hung c h thng quyt nh
b0ng phng pháp hc giám sát trên ng liu ã c gán nhãn ng ngh a chính xác (
ây chính là ng liu hu#n luyn hay còn gi là ng liu vàng). Gii thut hc có th
là mng Neural, cây quyt nh, MBL, TBL,… mà trong ó các gii thut hc da trên
ký hiu (symbolic) t2 ra chính xác hn.
2.4.2.5. Các m'c nh*p nh9ng trong x lý ng% ngh!a:
2.4.2.5.1. Nhp nhng mc t vng:
Nh câu ví d! “I enter the bank” trên, sau khi phân tích cú pháp, máy tính ã
xác nh c mi quan h gia ng t “enter” (i vào) và i t c$a nó là “bank” (là
ngân hàng hay b sông?) thì phi cn phân tích ng ngh a c$a ng t “enter” và danh
t “bank”. Trong trng hp này máy s* vn d!ng các ý nim c$a ngôn ng hc tri
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 82 - 0112398 – T Th Ngc Thanh
nhn bit r0ng “enter” là hành ng “i vào không gian kín (close space)” và danh
t “bank” vi ngh a là “b sông” có thuc tính là “không gian h” thì s* không tho
thuc tính này, ch& có “bank” vi ngh a “ngân hàng” là s* tho iu kin “không gian
kín” này, nên cui cùng máy tính s* chn ngh a “ngân hàng”.
2.4.2.5.2. Nhp nhng mc cu trúc:
Ví d! xét ng “Old man and woman”, ta có 2 phân tích: “[Old man] and
[woman]” và “Old [man and woman]” và máy tính s* chn cách phân tích th nhì (do
tính cân b0ng vn có trong c#u trúc song song c$a liên t “and”). Tuy nhiên, nu xét
“Old man and child”, ta c/ng s* có 2 phân tích: “[Old man] and [child]” và “Old [man
and child]” và máy tính s* chn cách phân tích th nh#t, vì máy th#y c#u trúc th nhì
là vô lý (do có s i lp gia thuc tính “tr,” trong “child” và già trong “man”).
2.4.2.5.3. Nhp nhng mc liên câu:
Ví d! xét câu “The monkey ate the banana because it
was hungry” (con kh& n
chui vì nó
ói). Trong mt s trng hp, máy tính hin nay có th xác nh c i
t “it” (nó) thay th cho t nào: “monkey” (kh&) hay “banana” (chui). gii quyt
c nhp nh0ng này, máy tính phi xem li mnh trc và vn d!ng tri thc v th
gii thc có trong WordNet bit r0ng “ch& có kh& mi có kh nng ói” nên s* chn
“it thay th cho monkey”. Còn trong câu: “The monkey ate the banana because it
was
ripe” (con kh n chui vì nó
chín), thì máy tính s* bit r0ng “ch& có chui mi có kh
nng chín), nên s* chn “it thay th cho banana”.
2.4.3. Phân lo4i v8n bn (Text Classification)
Trong thi i ngày này, thi i c$a thông tin, lng vn bn ngày càng ln và
ta cn phân loi các vn bn thành các nhóm ch$ khác nhau, nh: theo chuyên
ngành (Toán, Lý, Hoá, Vn, S%, …), theo l nh vc (Khoa hc, Vn hoá, Xã hi, Chính
tr, …), …. Do khi lng quá ln, ta không th phân loi th$ công b0ng tay c. Vì
vy, mt chng trình máy tính phân loi t ng c yêu cu. xây dng chng
trình này, ngi ta ã dùng nhiu cách tip cn khác nhau, nh: da trên t khoá, da
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 83 - 0112398 – T Th Ngc Thanh
trên trng ng ngh a c$a các t có tn s xu#t hin cao, mô hình Maximum Entropy,
da trên lý thuyt tp thô, …
i vi ting Anh, các kt qu trong l nh vc này r#t kh quan. Còn i vi
ting Vit, gn ây ã có mt s công trình nghiên cu v v#n này và ã có mt s
kt qu ban u nhng còn hn ch do phn phân tích hình thái (tách t) và t in ý
nim (phân loi ng ngh a) cho ting Vit cha hoàn thin. Bên cnh vic phân loi
vn bn, ngi ta c/ng quan tâm n các ng d!ng gom c!m vn bn nh0m nhóm các
vn bn có ni dung tng t nhau (theo các thông s c$a vn bn) li vi nhau.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 84 - 0112398 – T Th Ngc Thanh
Chng 3 : MÔ HÌNH VÀ GII THUT
3.1. Công ngh& tìm kim ng% ngh!a trên th gii hi&n nay:
Hu ht các hiu qu gn ây c$a các công c! tìm kim da vào ng ngh a là
ph! thuc cao vào công ngh x% lí ngôn ng t nhiên phân tích và hiu câu truy
v#n. Mt trong nhng công c! tìm kim u tiên và thông d!ng nh#t này là Ask Jeeves
(
/>). Nó liên kt nhng im mnh c$a phn mm phân tích
ngôn ng t nhiên, x% lí khai khoáng d liu, và to c s tri thc vi nhng phân tích
theo kinh nghim. Ngi dùng có th gõ các truy v#n b0ng ngôn ng t nhiên và nhn
c nhng tr li tho áng.
Mt ví d! da trên ng ngh a khác là Albert (
/>). 'u
im ln nh#t c$a nó là cung c#p nhiu ngôn ng thêm vào cho ting Anh, ví d! nh
ting Pháp, Tây Ban Nha, c. Loi này c$a search engine cn mt s ông ngi
xây dng nên mt mng ng ngh a r#t ln nh0m m!c ích hng ti vic thc thi hp
lí.
Mt kiu nâng cao khác c$a công c! tìm kim Internet là Cycorp
(
/>). Cyc liên kt c s tri thc ln nh#t trên th gii vi Internet.
Cyc (en-cyc-lopedia) là mt c s tri thc bao la và a ng cnh. Vi Cyc Knowledge
Server, nó cho phép các site Internet thêm vào tri thc ng ngh a thông d!ng và phân
bit nhng ngh a khác nhau c$a các khái nim nhp nh0ng.
3.1.1. Các hi&u qu tìm kim ng% ngh!a hi&n nay
Khi công ngh Web trí tu nhân to tr nên nâng cao hn, s% d!ng các th, RDF
và OWL s* a ra nhng c hi ng ngh a cho tìm kim. Tuy nhiên, kích thc c$a
mng ang c tìm kim s* phi thit lp mt khong trng cho gii pháp phc tp
và do ó nh hng mnh n kh nng xu#t hin c$a các kt qu thành công.
Nhiu công ty ln ang tht s hng n v#n c$a tìm kim ng ngh a. S
phát trin c$a Microsoft v Web có l* ph! thuc vào kh nng c$a nó hoàn thin
công c! tìm kim mà dn u là Google. Kt qu là Microsoft ã a ra mt chng
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 85 - 0112398 – T Th Ngc Thanh
trình tìm kim mi gi là MSNBot, nó lt qua Web xây dng mt ch& m!c c$a các
liên kt HTML và các tài liu. MSNBot c d nh nh là mt công ngh mà kt
hp các ng d!ng cho h iu hành Windows. Sau ó Microsoft s* kt ni công c! tìm
kim c$a nó vi c.ng MSN trong phiên bn Windows k tip c$a nó nh0m làm cho d-
dàng tìm kim e-mail, spreadsheets và các tài liu trên các PC (Personal Computer),
các mng hp nh#t, c/ng nh Web.
3.1.2. Công ngh& tìm kim
Tìm kim ng ngh a gii quyt vi các khái nim và các mi quan h logic.
Nu xem xét các v#n thc t c$a tìm kim ng ngh a, chúng ta s* th#y r0ng cây tìm
kim ng trc tình trng thiu logic a n v#n cha hoàn t#t (Incompleteness
Problem) hay v#n “ngc ng” (Halting Problem).
u tiên hãy xem xét v(n cha hoàn t(t. Kt lun có th c xem nh là
mt s suy di-n c$a mt dãy logic gn li vi nhau. ( mi im, có th có nhiu
hng khác nhau ti mt suy di-n mi. Vì vy, nh0m t hiu qu, có mt nhóm
các kh nng phân nhánh b0ng cách nào ó hng n mt gii pháp úng. Và
nhóm các phân nhánh ó có th tri ra trong các hng mi l.
Ví d!, bn có th mun c gng nh ngh a “ai là ngi mà Kevin Bacon bit”
da trên thông tin v mi quan h gia ình c$a anh ta, nhng phim c$a anh ta, hay
nhng tip xúc công vic c$a anh ta. Do ó, có nhiu hn mt hng a n mt
s các kt qu. Các kt qu này n0m trong mt nhóm phân nhánh các kh nng có th
có. Do vy, kt lun trong h thng c$a chúng ta là mt loi c$a v#n tìm kim,
c biu th nh là mt cây tìm kim.
Có th bt u &nh c$a cây, gc, hay t các nhánh. &nh c$a cây có th là
câu truy v#n c h2i. Mi bc ln xung các nút con trong cây này có th c xem
nh mt suy di-n logic tim tàng di chuyn hng n vic c gng xác nhn câu truy
v#n nguyên th$y mà s% d!ng bc suy di-n logic này. Hng r* qut c$a các kh nng
có th c xem nh cây phân nhánh này, tr nên rm rp hn và sâu hn. Mi tip
cn này kt thúc b0ng vic tr thành mt trong các bc con, n mt nút con.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 86 - 0112398 – T Th Ngc Thanh
Tng tng r0ng mi nút trong cây này biu th mt vài hng xác nhn.
Mi liên kt t mt nút cha cao hn n mt nút con biu th mt câu lnh logic. Bây
gi v#n này là chúng ta có mt cây ln c$a các kh nng.
Trong mt h thng logic phc tp, có mt s lng ln các chng c tim
tàng. Mt s chúng dài và không rõ ràng nu ch& có mt chng c. c chng minh
vào nhng nm 1930, mt s h thng logic $ phc tp vn ã là không y $
(không th quyt nh). Nói cách khác, có các câu lnh mà không th c chng
minh mt cách logic. Lun c c$a nó cho iu ó liên quan n mt v#n khác, v#n
“ngc ng” (Halting Problem).
V(n halting suy ra r0ng các thut gii hin nay s* không bao gi kt thúc
trong mt câu tr li. Khi nói v Web, chúng ta nói v hàng triu các s kin và hàng
ch!c ngàn lut mà có th ni kt an li vi nhau trong nhng hng phc tp, vì th
không gian c$a các chng c tim tàng là vô tn và cây này theo logic s* tr nên vô
tn. Theo ó, chúng ta s* i vào các v#n không hoàn t#t vn có; ví d! nh chúng ta
không th th#y mi chng c có th có và thu t#t c các câu tr li.
Chúng ta s* i vào tình trng không hoàn t#t bi vì cây tìm kim quá ln. Vì th
hng tip cn c$a chúng tôi là ch& phi tìm kim trên các phn c$a cây. Có mt chin
lc n.i ting cho vic b0ng cách nào ch& ra các v#n tìm kim nh vy. Mt
chin lc là tìm kim cây theo “chiu sâu” (depth-first).
Tìm kim chiu sâu s* bt u &nh cây và i xung sâu n mc có th mt
s ng dn nào ó, m rng các nút khi chúng ta i, cho n khi tìm th#y mt kt
thúc cht (dead end). Mt kt thúc có th là mt ích (thành công) hay mt nút mà
chúng ta không th to ra các con mi. Vì vy h thng không th chng minh b#t c
th gì ngoài im này.
Hãy xem qua tìm kim theo chiu sâu và xoay theo tr!c c$a cây. Chúng ta bt
u nút &nh và i sâu nh#t có th:
1) Bt u nút cao nh#t.
2) i xung sâu nh#t có th theo mt hng.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 87 - 0112398 – T Th Ngc Thanh
3) Khi chúng ta i vào mt kt thúc, sao lu nút cui cùng mà t ó
chúng ta ri kh2i. Nu có mt ng dn mà chúng ta cha i, thì
hãy ln theo nó. C theo chn la này cho n khi chúng ta th#y mt
kt thúc hay mt ích n.
4) ng dn này dn n mt kt thúc khác, vì th i tr li mt nút và
c gng nhánh khác.
5) ng dn a n mt im ích. Nói cách khác, nút cui cùng này
là mt kt qu kh quan cho truy v#n. Vì th chúng ta có mt câu tr
li. Hãy tìm kim nhng áp án khác b0ng cách i lên mt vài node
và sau ó i xung mt ng dn mà chúng ta cha i th%.
6) Tip t!c cho n khi th#y nhiu hn nhng im kt thúc và s% d!ng
ht nhng kh nng tìm kim.
'u im c$a tìm kim theo chiu sâu là: ây là mt cách hiu qu theo thut
toán tìm kim các cây trong mt nh dng. Nó gii hn s lng không gian mà ta
có duy trì vic nh nhng th mà ta cha nhìn th#y. T#t c nhng th mà chúng ta
phi nh là lu li ng dn.
Khuyt im c$a tìm kim này là mt khi chúng ta bt u i xung mt
hng, chúng ta s* i n t#t các các con ng cho n cui cùng.
Mt chin lc khác cho tìm kim là tìm kim theo chiu ngang trc. ( ây
chúng ta tìm kim t lp này sang lp khác. u tiên chúng ta c gng thc hin t#t c
các kim chng bc 0 và sau ó chúng ta c gng thc hin t#t c các kim chng
bc 1, v.v… 'u im c$a tìm kim theo chiu ngang là chúng ta c bo m
nhn các kim chng n gin nh#t trc khi chúng ta n nhng cái phc tp hn.
iu này c a ra do nhng li ích c$a Ockham’s Razor. Nu có mt kim chng
bc th n, chúng ta s* tìm th#y nó trc khi chúng ta xem xét n bc th n+1.
Khuyt im c$a tìm kim theo chiu ngang là chúng ta có nhng cây r#t sâu, chúng
ra c/ng có nhng cây r#t rm rp mà chúng ta có hàng ngàn hay hàng ch!c ngàn các
nút con. Khuyt im khác c$a tìm kim này là s lng không gian chúng ta phi s%
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 88 - 0112398 – T Th Ngc Thanh
d!ng lu t#t c các kt qu mc th 3 trc khi chúng ta kho sát nó. Vi tìm kim
theo chiu rng, chúng ta càng i vào cây càng sâu thì không gian yêu cu càng ln.
Vì th chúng ta nhn ra r0ng hai trong các thut gii c. in cho tìm kim, theo
chiu dc và chiu ngang, s* dn n nhng v#n v các h thng ln.
Có hai lp c bn c$a các gii thut tìm kim c s% d!ng c gng gii
quyt các gii hn v v#n không hoàn t#t và tình trng ngc ng là: không có $
thông tin và có $ thông tin. Các tìm kim không +y thông tin, hay không nhìn
th#y, thì không có thông tin v s lng các bc hay chi phí ng dn t trng thái
hin ti n ích. Nhng tìm kim kiu này bao g1m: tìm theo chiu sâu (depth-first),
theo chiu rng (breadth-first), chi phí không .i (uniform-cost), gii hn chiu sâu
(depth-limiting) và tìm kim sâu thêm l"p i l"p li (iterative deepening). Các tìm
kim +y thông tin, hay heuristic, có y $ thông tin v ích n; thông tin này
thng là chi phí ng dn c lng cho nó hay là c oán s lng các bc
xu#t phát t nó. Thông tin này c bit nh là heuristic search agent. Nó cho phép
các tìm kim có y $ thông tin thc hin tt hn nhng tìm kim không $ thông tin
và làm cho chúng hành x% trong mt dáng v, hoàn toàn “lí trí”. Nhng tìm kim này
bao g1m: các tìm kim best-first, hill-climbing, beam, A*, và IDA* (iterative
deepening A*).
3.1.3. Các Web search agent
Trong khi các công c! tìm kim là mnh và quan trng cho tng lai c$a Web,
thì có mt hình thc hot ng khác c$a tìm kim c/ng óng vai trò quyt nh: các
trm tìm kim Web (Web search agent). Mt Web search agent s* không thc hin
nh mt công c! tìm kim thng mi. Các công c! tìm kim này s% d!ng c s d
liu tra cu t mt c s tri thc (Knowledge Base).
Trong trng hp c$a Web search agent, t các trang Web c tìm kim và
máy tính cung c#p mt giao din cho ngi dùng. Các kt qu tri giác c$a agent là các
tài liu c kt ni thông qua Internet s% d!ng HTTP. Các hot ng c$a agent c
nh ngh a nu tìm th#y ích n c$a vic tìm mt trang Web cha mt im ích
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 89 - 0112398 – T Th Ngc Thanh
c ch& rõ (ví d! nh t khoá hay c!m t) và nu không , thì tìm mt v trí khác
ving thm. Nó hot ng trong môi trng s% d!ng các phng pháp u ra cp
nht ngi dùng trng thái c$a tìm kim hay các kt qu kt thúc.
Cái gì làm cho “trí tu” c$a agent có kh nng ra quyt nh có lí trí khi a ra
mt chn la. Nói cách khác, a ra mt ích n, chúng s* ra quyt nh i theo
nhng hành ng mà dn n ích trong mt cách úng lúc.
Mt agent thng có th phát sinh ra t#t c các kt qu có th có c$a mt s
kin, nhng sau ó nó s* cn tìm kim thông qua nhng kt qu ó tìm kim mt
ích n mong mun và thc thi ng dn (chui các bc) bt u trng thái ban
u hay trng thái hin ti, n trng thái c$a ích n mong mun. Trong trng
hp c$a Web search agent thông minh, nó s* cn s% d!ng mt tìm kim nh hng
thông qua Web ti ích c$a nó.
Vic xây dng mt Web search agent thông minh cn nhng k thut cho tìm
kim nhiu và kt hp t khoá, ngn chn “handling” và kh nng t ny mm khi nó
s% d!ng ht hoàn toàn mt không gian tìm kim. a ra mt im ích, Web search
agent x% lí tìm kim thông qua mt s ng dn cn thit. Agent này s* da vào
t khoá. Phng pháp c $ng h này là bt u t mt v trí “ht ging” (do
ngi dùng cung c#p) và tìm t#t c nhng v trí khác c liên kt trong mt dng cây
n gc (v trí ht ging) cha im ích.
Search agent cn bit im ích (ví d! t khoá hay c!m t), ni mà bt u, l"p
li bao nhiêu ln im ích nhn th#y s* xem bao lâu (ràng buc thi gian), và
phng pháp gì nên c nh ngh a tiêu chu5n cho vic chn ng dn (các phng
pháp tìm kim). Nhng v#n này c a ra trong phn mm.
Vic thc thi cn mt s tri thc c$a lp trình, làm vic vi sockets, HTTP,
HTML, sp xp, và tìm kim.
Có nhiu ngôn ng trong nhng thi hành trên Web, nhng giao din lp trình
ng d!ng (APIs) nâng cao, và kh nng phân tách vn bn tt hn mà có th s% d!ng
vit mt Web agent.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 90 - 0112398 – T Th Ngc Thanh
S% d!ng thut gii sp xp nâng cao và hiu qu s* giúp ci thin thc thi c$a
Web search agent.
Thit k Web search agent g1m bn giai on: khi to, nhn thc, hành ng
và hiu qu. Trong giai o4n kh$i t4o, Web search agent nên to lp t#t c các bin,
c#u trúc và mng. C/ng nên l#y thông tin c s cn cho vic ch& o sn tìm im
ích, ích n, mt v trí bt u và phng pháp tìm kim. Giai o4n nh*n th'c,
c tp trung s% d!ng tri thc c cung c#p tip xúc vi mt trang và thu h1i
thông tin t v trí ó. Nó nên c nhn din nu hin din im ích và nên nhn ra
các ng dn n nhng v trí URL khác. Giai o4n hành ng l#y t#t c nhng
thông tin mà h thng bit và nh ngh a nu ích n c tìm th#y (im ích c
tìm th#y và vic sn tìm kt thúc).
Nu vic sn tìm vn còn hot ng nó phi ra quyt nh i n ni nào tip
theo. ây là s thông minh c$a agent, và phng pháp c$a tìm kim cho bit Web
agent s* “thông minh” bao nhiêu. Nu mt liên kt không tìm th#y, vic sn tìm kt
thúc, và nó cung c#p u ra cho user.
Web search agent di chuyn t giai on khi to n mt vòng l"p bao g1m
các giai on nhn thc, hot ng và hiu qu cho n khi t c ích n hay
không.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 91 - 0112398 – T Th Ngc Thanh
Hình 15: Dòng c s$ tìm kim Web
3.2. Các bc xây d#ng mt 'ng dng semantic search engine:
Mt ví d! c$a công ngh tìm kim ng ngh a là TAP. TAP là mt án phân
tán g1m nhng nhà nghiên cu t Standford, IBM, và W3C. TAP to òn b5y cho
công ngh t ng và bán t ng rút ra nhng c s tri thc t phn thân không có
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 92 - 0112398 – T Th Ngc Thanh
c#u trúc hay bán c#u trúc c$a vn bn. H thng này có th s% d!ng thông tin va hc
hc thêm thông tin mi, và có th s% d!ng thu h1i thông tin.
Trong TAP, các tài liu s6n có c phân tích s% d!ng công ngh ng ngh a và
chuyn sang thành các tài liu Web ng ngh a s% d!ng công ngh t ng hay th$
công vi các gói tri thc có c#u trúc ngày càng sâu hn. Công ngh thu h1i thông tin
truyn thng c nâng cao vi tri thc có c#u trúc sâu cung c#p các kt qu chính
xác hn. C hai phép phân tích t ng và c hng dn s% d!ng các h thng và
các agent lp lun thông minh.
Các gii pháp xây dng nên mt công ngh trung tâm c gi là các Semantic
Web Template. Thc hin biu di-n tri thc, s sáng to, s tiêu th! và duy trì c$a tri
thc tr nên trong sut i vi ngi dùng. Mô hình d liu RDF là c s c$a công
ngh biu di-n tri thc Web ng ngh a và TAP s% d!ng RDF Schema và OWL.
Khó khn c$a vic t to ra tri thc yêu cu mt máy tri thc có th dùng
dch các tài liu sang nhng ngôn ng tng trng và logic c yêu cu. Các
ontology s% d!ng vn t vng chính c$a tri thc c yêu cu nh ngh a các khái
nim và mi quan h mà các trng hp c$a khái nim ó nm gi.
3.3.1. Xây d#ng kin trúc Web ng% ngh!a:
Kin trúc Web ng ngh a c phát trin da trên ý tng c$a vic chú thích
các trang Web b0ng các th, RDF và OWL biu di-n chi tit các ontology ng
ngh a. Tuy nhiên, gii hn c$a các h thng này là chúng ch& x% lí các trang Web ã
c chú thích b0ng nhng th, ng ngh a c! th.
Ontology mô t các khái nim và mi quan h vi mt tp t vng tiêu biu.
M!c ích c$a vic xây dng ontology là chia s, và s% d!ng li tri thc. T khi Web
ng ngh a là mt mng phân tán, có nhng ontology khác nhau mô t nhng iu
tng ng mt cách ng ngh a. Kt qu là, cn thit lp s 1 các yu t c$a
nhng ontology này nu chúng ta mun x% lí thông tin trên qui mô c$a Web. Mt tip
cn cho tìm kim ng ngh a có th da trên vic phân loi vn bn cho nhng ánh x
ontology so sánh mi yu t c$a mt ontology này vi mi yu t c$a ontology khác,
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 93 - 0112398 – T Th Ngc Thanh
và sau ó nh ngh a quan h tng ng trên mi mt c"p c s. Nhng item c
liên kt có giá tr tng ng c$a nó ln hn mt ngng nào ó.
3.3.2. L*p ch3 mc ng% ngh!a tim tàng:
Bây gi chúng ta cp n vic thc thi Latent Semantic Indexing (LSI – lp
ch& m!c ng ngh a tim tàng) có th ci tin nhng kh nng tìm kim ngày nay mà
không có nhng gii hn nghiêm trng c$a mng Web ng ngh a rng ln.
Vic da vào tiêu chu5n c$a chính xác, ph5m ch#t và s thu h1i òi h2i
nhiu hn “sc mnh c bp”. Gán các công c! mô t và phân loi cho vn bn cung
c#p mt thun li quan trng, b0ng cách tr v các tài liu không cn cha liên kt
theo tng ch mt cho truy v#n tìm kim c$a chúng ta. Các b d liu c mô t y
$ có th cung c#p mt bc tranh v phm vi và s phân tán c$a b su tp tài liu nói
chung. iu này có th c thc hin bi vic nghiên cu c#u trúc c$a các danh m!c
và các danh m!c con (c gi là s phân loi_ taxonomy).
Mt tr ngi nghiêm trng cho s tip cn n vic phân loi d liu này là v#n
vn có trong b#t c kiu c$a taxonomy – trên th gii ôi khi chng li s phân
loi. Ví d!, cà chua là trái cây hay rau qu?
Và iu gì xy ra khi chúng ta kt ni hai tp tài liu c ch& m!c trong nhng
hng khác nhau? Các gii pháp c gi là các “ontology taxonomy” (phân loi
ontology).
Các tìm kim t khoá thông thng tip cn mt tp tài liu mà mt tài liu
cha hay không cha mt t a ra.
Ch& m!c ng ngh a tim tàng (LSI) thêm mt bc quan trng cho vic x% lí
ch& m!c tài liu. Thêm vào vic ghi nhng t khoá mà mt tài liu cha, phng pháp
này kho sát toàn b tp d liu, th#y nhng tài liu khác cha mt s t tng
ng vi các t ó. LSI c phát trin u tiên Bellcore trong cui nhng nm 80.
LSI xem các tài liu có nhiu t thông d!ng là có ngh a, và xem nhng tài liu ít t
thông d!ng là có ít ng ngh a. M"c dù thut gii LSI không hiu tí gì v ngh a c$a các
t, nó nhn ra các khuôn mu.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 94 - 0112398 – T Th Ngc Thanh
Khi bn tìm kim mt c s d liu ch& m!c LSI, công c! tìm kim này xem
xét nhng giá tr tng t mà nó tính toán cho mi t c$a ni dung, và tr v các tài
liu mà nó ngh là thích hp nh#t vi câu truy v#n. Bi vì hai tài liu có th r#t gn
ngh a vi nhau thm chí nu chúng không cùng chung mt t khoá "c bit, LSI
không yêu cu mt s phân tích l#y tng xng tr v các kt qu hu d!ng. (
nhng v trí mà mt tìm kim theo t khoá n gin s* không thc hin c nu
không có phân tích l#y tng xng, thì LSI s* thng tr v nhng tài liu liên quan
mà không cha t#t c nhng t khoá ó.
3.3.2.1. Tìm kim l(y ni dung
Vic lp ch& m!c ng ngh a tim tàng xem xét các mu t trong mt tp tài liu.
Ngôn ng t nhiên có nhiu nhng t không cn thit, và không phi mi t xu#t hin
trong tài liu u cha ng ngh a. Các t c s% d!ng thng xuyên trong tin Anh
thng không cha ni dung, ví d! nh các t chc nng, liên t, gii t, và các ng
t thng. Bc u tiên trong vic thc thi LSI là chn lc nhng t xa l t mt tài
liu. thu c ni dung ng ngh a t mt tài liu:
1. To mt danh sách hoàn ch&nh t#t c các t xu#t hin trong b su tp.
2. Lc b2 các mo t, các gii t, và các liên t
3. Lc b2 các ng t thông d!ng (know, see, do, be…)
4. Lc b2 các i t
5. Lc b2 các tính t thông d!ng (big, late, high…)
6. Lc b2 các t “frilly” (therefore, thus, however, albeit,…)
7. Lc b2 mt s t xu#t hin trong mi tài liu.
8. Lc b2 các t xu#t hin ch& trong mt tài liu.
3.3.2.2. Stemming (lemmatize)
Công c! tìm kim ng ngh a là mt gii pháp hiu qu áng chú ý. Nó có th
phát hin c 2 tài liu tng t nhau thm chí nu chúng không có b#t k3 mt t
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 95 - 0112398 – T Th Ngc Thanh
nào chung và công c! tìm kim ng ngh a này có th loi b2 nhng tài liu ch& dùng
chung nhng t quan tâm mt cách ph. bin.
Mt s công vic khi u cn thit thu thp tài liu s6n sàng cho vic lp
ch& m!c thì r#t "c trng ngôn ng, ch+ng hn nh stemming (lemmatize). i vi
các tài liu ting Anh, chúng ta s% d!ng thut toán c gi là The Porter Stemmer
kh% các phn uôi thông thng c$a t, tr v dng gc c$a nó. (Ví d!: writing
→ write, writes → write, …).
Vic u tiên là áp d!ng i vi các tài liu riêng bit, và chúng ta gán cho nó
mt trng s c!c b. Các t xu#t hin nhiu ln trong mt tài liu thì có trng s ln
hn nhng t ch& xu#t hin 1 ln.
Chúng ta a ra mt gii thut to ra trang web c$a các tài liu và các t – liên
kt t#t c các tài liu vi các t. Cho mt mô hình các t và các tài liu, mt ngi có
th thit lp các giá tr da trên s khác bit c$a tài liu so vi các tài liu khác. ‘Giá
tr’ c$a mt tài liu b#t k3 so vi các tài liu khác có th c thit k nh là mt hàm
c$a s lng các kt ni mà phi c thông qua thit lp mt kt ni gia các tài
liu. Nu 2 tài liu c liên kt vi nhau bi nhiu ng i (ng kt ni) thì hai
tài liu này có th có cùng mt mc tng quan.
Trng s c$a t là s# chu,n hoá c a 2 t" có ngh!a thông th7ng:
- Các t xu#t hin nhiu ln trong mt tài liu thì có nhiu ng ngh a hn t
ch& xu#t hin mt ln.
- Nhng t c s% d!ng thng xuyên thì có th áng quan tâm hn nhng
t bình thng.
Mô t gii thut:
Vi mi tài liu:
1. “Stem” (lc b2 tin t và hu t) t#t cá các t và b2 i nhng t có
ngh a thng xuyên xu#t hin.
2. i vi mi t:
a. ánh d#u li mi tài liu mà có mi quan h trc tip n t này.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 96 - 0112398 – T Th Ngc Thanh
b. Tính im cho mi tài liu da trên hàm tính khong cách t tài
liu xu#t phát n các mi quan h c$a t.
3. Vi mi tài liu có mi quan h mi cha c ánh d#u thì tin hành
lu vt.
L"p li các thao tác nh trên mt cách qui.
Gii thut tính trng s chi tit c s% d!ng nh sau:
1. i vi mi ln tng khong cách, chia im s cho 2.
2. im s cho mi tài liu b0ng vi giá tr gii hn chia cho cn bc hai
tính ph. bin c$a t.
Toàn b thut gii này a ra mt cái nhìn ng ngh a th#p da vào ng i t
mt tài liu n s 1 t.
Chu5n c trình bày ây là trng hp n gin nh#t và nó có th c ci
tin theo nhiu cách khác nhau. Có nhiu gii thut tính im khác có th c s%
d!ng. Thêm vào ó, mt t in 1ng ngh a có th c áp d!ng giúp khc ph!c
các v#n ng ngh a.
Mt th% thách áng quan tâm là làm cho gii thut làm vic mà khi các tài
liu mi c thêm vào chúng s* lp tc t tính im. Mt thách thc khác là tìm ra
mt cách mà có th a gii thut n nhiu máy.
3.3. Mô hình ngh- cho 'ng dng tìm kim ng% ngh!a trên l!nh v#c
eDoc
T nhng c s lí thuyt ã nghiên cu trên, chúng em t.ng hp li và ngh
mô hình cho ng d!ng tìm kim ng ngh a trong l nh vc eDoc.
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 97 - 0112398 – T Th Ngc Thanh
Hình 16: Mô hình ngh- cho 'ng dng tìm kim ng% ngh!a trên l!nh v#c eDoc
Web Browser:
óng vai trò giao din giao tip vi ngi dùng. Nó thc hin vai trò tip nhn
câu truy v#n c$a ngi dùng và hin th kt qu câu truy v#n.
Search engine:
ây là phn chính c$a chng trình. Search engine thc hin t#t c các thao tác
x% lí cn có c$a h thng:
óng vai trò nh web robot, thu thp tài liu in t% trên mng.
Search engine
Web Browser
Corpora
Ontology
Metadata
eDoc
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 98 - 0112398 – T Th Ngc Thanh
Thc hin nh b lc, search engine tin hành thu thp, x% lí, rút trích siêu
d liu cho các tài liu b0ng cách phân tách t, lc b2 nhng t không cn
thit ch& gi li danh sách các danh t và ng t, sau ó tin hành thng kê
tn s xu#t hin c$a các l nh vc trong tài liu và cui cùng lu tr siêu d liu
cho ni dung c$a tài liu ó, s% d!ng chu5n siêu d liu Dublin Core.
T. chc và lu tr các Ontology cho mi quan h ng ngh a gia các i
tng trong thc t. Hình thc t. chc, lu tr dng tp tin RDF.
T. chc và lu tr các kho ng liu (corpora). ây c/ng c xem là mt
Ontology, biu di-n mi quan h thành phn_b phn c$a i tng, 1ng thi
kho ng liu c/ng cho phép xác nh các t 1ng ngh a vi nhau da vào khái
nim synset. (Chi tit v các kho ng liu c mô t bên di). S% d!ng hình
thc lu tr bng trong SQL Server vì d liu này có nhu cu truy v#n cao.
Thit k siêu d liu mô t mi quan h gia các tài nguyên (các tài liu
eDoc) vi các i tng trong Ontology. C/ng s% d!ng hình thc lu tr dng
c s d liu quan h.
Thc hin phân tích câu truy v#n c$a ngi dùng, l#y nhng t quan trng,
t ó phân tích ng ngh a c$a câu truy v#n da vào Word Net và các Ontology
1ng thi truy v#n các siêu d liu tr v cho Web Browser các tài liu úng
vi ng ngh a câu truy v#n c$a ngi dùng.
eDoc
Ch& t#t c các tài liu in t% trên mng, c! th là các file dng HTML, PDF,
CHM, ASP, PHP…
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 99 - 0112398 – T Th Ngc Thanh
Qui trình x lí c a t+ng search engine:
Hình 17: Qui trình x lý c a t+ng search engine
Internet
Câu truy v#n
Tài liu tr v
Tài liu
eDoc
Thông tin tài
liu
Metadata
Nhn câu
truy v
#
n
X% lí truy
v#n
Hin th
k
t qu
Thu thp
tài liu
X% lí tài
liu
Lu vào c
s d liu
Ontology
Ontology
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 100 - 0112398 – T Th Ngc Thanh
3.4. Các gii thu*t s dng
3.4.1. Gii thu*t x lý tài li&u:
Tài liu sau khi c thu thp v s* c x% lí thông qua b lc. S 1 gii
thut:
Hình 18: Gii thu*t x lý tài li&u:
eDoc
Các key word
và thông tin
tài li&u
Danh t" và
ng
t
"
text
Danh t" và ng
t" nguyên mu
lc b: nh%ng t"
không quan tr)ng
chuy6n sang
text
thng kê t+n s xu(t
hi&n c a t" và l!nh
v#c c a tài li&u
lemmatize
Kho
ng
%
li
&
u
Kho
ng
%
li
&
u
tài: Tìm kim ng ngh a ng d!ng trên l nh vc eDoc
0112274 – Phm Th M Phng - 101 - 0112398 – T Th Ngc Thanh
Gii thu*t cho bc lemmatize:
Kho ng liu s% d!ng cho vic stemming là WORDNET vì s lng t
trong kho ng liu là khá ln (vi trên 100 000 danh t và 11 000 ng t), các
t s% d!ng dng nguyên mu. Ngoài ra trong t in c$a WORDNET có file
“noun.exc” và “verb.exc”, ây là hai file chuyn các danh t dng s nhiu
b#t qui tc sang s ít và chuyn các ng t quá kh và tip di-n dng b#t qui
tc v nguyên mu.
Các bc stemming n gin:
B1: Kim tra tng t, nu t này có trong “noun.exc” hay “verb.exc” thì l#y
dng nguyên mu c$a nó.
B2: Nu không có thì:
Nu t này kt thúc b0ng “s” thì: tin hành b2 “s” theo lut.
• Nu t kt thúc b0ng “ss”, “chs”, “shs”, “xs”, “is”, “zs” thì
ây không phi là s nhiu.
• Nu t kt thúc là “ ’s ” thì ây là dng s hu cách nên b2 hai
kí t này.
• B2 kí t ‘s’ cui t.
• Kim tra trong kho ng liu danh t và ng t, nu có t này
thì ây là t nguyên mu.
• Nu không có (ngh a là t này cha dng nguyên mu) thì:
o Nu t kt thúc b0ng “se”, ”che”, “she”, “xe”, “ze” thì b2
kí t ‘e’ sau cùng.
o nu t kt thúc b0ng “ie” thì b2 “ie” thêm “y”.
Nu t này kt thc b0ng “ed” thì:
• B2 “ed”.
• Kim tra trong kho ng liu ng t, nu có thì ây là dng
nguyên mu.