Tải bản đầy đủ (.docx) (37 trang)

Mô hình rút trích cụm từ đặc trưng ngữ nghĩa trong tiếng Việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (712.46 KB, 37 trang )

Chvong 1. Me ÐAU
1.1.

Юng co nghiên cúu

World Wide Web (WWW) phát trien nhanh chóng cùng vói
nguon tài nguyên thông tin ngày càng phong phú, nhu cau khai thác
nguon thông tin này cúa ngvòi sú dnng ngày càng tró nên cap thiet
doi vói dòi song cúa con ngvòi. Vi¾c khai thác này dvoc thnc hi¾n
thông qua các phvong thúc nhv truy hoi thông tin (Information
Retrieval), tóm lvoc van bán (Text Summarization), và rút trích
thông tin (Information Extraction), ...
M®t trong các van de cot lõi cúa h¾ thong khai thác này là xác
d%nh và rút trích chính xác các cnm tù d¾c trvng ngu nghia
(CTÐTNN) (khái ni¾m CTÐTNN dvoc d%nh nghia ó chvong 2, tai
d%nh nghia 2.1) cúa câu trong van bán. Van de này là moi quan tâm
cúa các nhà ngôn ngu hoc, cung nhv các nhà khoa hoc trong linh vnc
xú lý ngôn ngu tn nhiên bang máy tính.
é Vi¾t Nam, chúng ta mong muon có dvoc m®t h¾ thong rút
trích các cnm tù d¾c trvng ngu nghia cúa câu trong van bán tieng
Vi¾t, nham dáp úng nhu cau dang b% bó ngó trong các h¾ thong khai
thác thông tin. Ðieu này dã dòi hói và thúc day vi¾c nghiên cúu và
phát trien mô hình rút trích cnm tù d¾c trvng ngu nghia trong tieng
Vi¾t (Vietnamese Key Phrase Information Extraction Model - ViKE).
Lu¾n án nghiên cúu rút trích cnm tù d¾c trvng ngu nghia (CTÐTNN)
cúa câu don tieng Vi¾t. Vói kháo sát tan so xuat hi¾n cúa các cnm
trong các van bán tieng Vi¾t, lu¾n án dã t¾p trung nghiên cúu vi¾c
xác d%nh và rút trích cnm danh tù d¾c trvng ngu nghia (CDTÐTNN)
cho câu don tieng Vi¾t..
1.2.


Mnc tiêu và pham vi nghiên cúu

Internet là m®t noi lvu tru nguon thông tin cúa nhân loai. Nguon
thông tin này dvoc chia sé, phát trien và mó r®ng không ngùng cùng
vói sn phát trien nhanh chóng cúa World Wide Wed (Web). Van de
d¾t ra là làm the nào de khai thác và sú dnng nguon tài nguyên
thông
-1-


tin này m®t cách hi¾u quá nhat.
Thông tin trên Web hau het deu the hi¾n dvói dang ngôn ngu tn
nhiên, thông qua các trang Web, các h¾ thong truy hoi thông tin
(Information Retrieval) dvoc phát trien và thành công nhat hi¾n nay

§
là Google , Yahoo , v.v... Tuy nhiên, các mô hình này deu sú dnng
tù khóa de xú lý và truy hoi tài li¾u. Hi¾u suat truy hoi cúa chúng có
nhung giói han nhat d%nh vì ngu nghia cúa tài li¾u b% mat di nhieu
khi van bán dvoc bieu dien dvói dang m®t t¾p các tù khóa.
Tvong tn, yêu cau cung cap thông tin tù phía ngvòi sú dnng cung
dvoc bieu dien bói các tù khóa. Sn bieu dien này rõ ràng không có
khá nang the hi¾n dvoc tron ven nhu cau thông tin nhv mong muon
cúa ngvòi sú dnng. Do dó, khi truy hoi thông tin trên các h¾ thong
hi¾n nay, ngvòi sú dnng deu nh¾n dvoc thêm các tài li¾u không
liên quan tói thông tin can tìm.
Ðe cái tien các mô hình truy hoi thông tin theo tù khóa, nhieu công
trình nghiên cúu di khai thác tiem nang cúa ccm tù d¾c trvng trong
các h¾ thong nhv truy hoi thông tin (Hulth, 2004), tóm lvoc van bán
(Text Summarization) (Paice và Black, 2003), và rút trích thông tin

(Information Extraction) (Medelyan và Witten, 2006; Thuy Dung
Nguyen, 2007), ...Trong các h¾ thong này, khái ni¾m ccm tù d¾c
trvng dvoc d%nh nghia nhv sau:
Ð%nh nghia 1.1: Trong các thv vi¾n và khoa hoc thông tin ccm tù
d¾c trvng (cnm tù khóa – key phrase) dvoc d%nh nghia là “ccm tù mô
tá ngan gon và chính xác chú de hay khía canh cúa chú de mà nó
dvoc tháo lu¾n trong van bán” (Feather và P., 1996, 240).
Theo quan diem cúa Cao Xuân Hao (1998): “câu là don v% co bán
cúa lòi nói, cúa ngôn tù, cúa van bán. Nó là don v% nhó nhat có the
sú dcng vào vi¾c giao te. Nói cách khác, câu là ngôn bán (van
bán) ngan nhat”.
Nhv v¾y, vói quan diem câu là van bán ngan nhat và de nhan
manh trvòng hop ccm tù d¾c trvng dien dat chú de cúa van bán
ngan nhat

§

www.google.com/
www. yahoo.com/
-2-


H®i ngh% Khoa hoc Quoc gia
[12] Nguyen Quang Châu, Phan Th% Tvoi, Cao Hoàng Trn, 2005.
Gán nhãn tù loai cho tieng Vi¾t dna trên van phong, trong ký yeu
cúa h®i tháo khoa hoc quoc gia lan thú II, Nghiên cúu co bán và
Úng dcng công ngh¾ thông tin-FAIR’05, 9-2005, pp.106-116.

II. NGHIÊN CÚU KHOA HOC
[1] Úng dnng trong de tài trong diem cap nhà nvóc: Nghiên cúu phát

trien các ky thu¾t xây dnng và khai thác thông tin Web có ngu
nghia (Vietnamese Semantic Web) (KC.01.21), do PGS.TS. Cao
Hoàng Trn làm chú nhi¾m de tài, nghi¾m thu nam 2006.
[2] Úng dnng trong de tài trong diem ÐHQG Tp.HCM: Xây dnng
chvong trình tro giúp truy xuat thông tin bang tieng Vi¾t
(Vietnamese Information Retrieval) (B2005-20-01-TD), do
PGS.TS. Phan Th% Tvoi làm chú nhi¾m de tài, nghi¾m thu
nam 2007.

(câu) và pham vi nghiên cúu là câu don, lu¾n án d%nh nghia ccm
tù d¾c trvng ngu nghia nhv trong d%nh nghia 2.1 (Chvong 2, trang
22).
Ccm tù d¾c trvng ngu nghia – dvoc viet tat là CTÐTNN – có khá
nang mô tá chú de trong câu (hay van bán). Nói cách khác,
CTÐTNN mang thông tin ve n®i dung nong cot cúa m®t câu.
CTÐTNN rat huu dnng trong nhieu úng dnng. Trong linh vnc truy
hoi thông tin, các CTÐTNN không chí ho tro trong vi¾c xác d%nh n®i
dung cúa m®t van bán có thích hop vói yêu cau thông tin cúa ngvòi
sú dnng hay không, mà còn bieu th% n®i dung nong cot cúa câu truy
van thông tin trong d®ng co tìm kiem (search engine) trên Web the
h¾ thú ba và h¾ thong hói-dáp (question-answering) (Qiao, 2010).
Do các CTÐTNN phán ánh dvoc n®i dung nong cot (chú de) cúa
câu trong van bán, nên chúng dvoc sú dnng de phân loai van bán
(text classification) (Jones và Mahoui, 2000), tóm lvoc van bán (text
summarization) (Barker và Cornacchia, 2000). M¾c dù các
CTÐTNN dvoc dùng r®ng rãi trong các h¾ thong úng dnng khác
nhau, nhvng th¾t sn vi¾c rút trích các CTÐTNN tvong úng cho tùng
câu hay tùng van bán bang phvong pháp thú công ton rat nhieu thòi
gian và công súc.
Nhu cau này là d®ng lnc thúc day các nghiên cúu rút trích tn

d®ng các CTÐTNN. Có the phân các nghiên cúu ve CTÐTNN
thành ba hvóng chính:
1. Hvóng tiep c¾n sú dcng tù dien (Dictionary approach): sú dnng
m®t tù dien dvoc xây dnng bang phvong pháp thú công dùng de rút
trích các CTÐTNN trong câu (hay van bán). Quá trình rút trích các
CTÐTNN dvoc thnc hi¾n bang các phvong pháp so trùng các
CTÐTNN trong tù dien vói các cnm tù trong tài li¾u. Thu¾n loi
chính cúa hvóng tiep c¾n là nhanh và thnc hi¾n don gián. Hi¾n nay
nhieu h¾ thong van dang sú dnng phvong pháp này (Bian và Chen,
1998; Li và Xing, 1998; ...). Tuy nhiên, phvong pháp này còn b% han
che khi tài li¾u có nhung tù mói không có trong tù dien. Ðây là m®t
van de can dvoc nghiên cúu và giái quyet. Các nghiên cúu theo
hvóng tiep c¾n sú dnng tù dien dã có nhieu chien lvoc de cái thi¾n

-50-

-3-


quá trình so trùng nhv: so trùng cnc dai (maximum-matching), so
trùng cnc tieu (minimum-matching), so trùng tói (forwardmatching), so trùng lùi (backward-matching), so trùng theo cá hai
hvóng (bi-directional- matching) và các phvong pháp giái quyet van
de bang dánh giá kinh nghi¾m (heuristics). Tuy nhiên, hi¾u suat
cúa hvóng tiep c¾n này lai phù thu®c vào d® lón cúa tù dien. Nó
th¾t sn không hi¾u quá khi giái quyet bài toán nh¾n di¾n danh tù
riêng nhv tên, v% trí, hay các thu¾t ngu mói trong nhung pham vi
chuyên bi¾t.
2. Hvóng tiep c¾n ngôn ngu hoc (Linguistic approach), hvóng
**
này dùng co só tri thúc ngu nghia tù vnng (nhv WordNet ,

††
Wikipedia ,…), dùng phvong pháp dánh giá theo kinh nghi¾m, hay
phvong pháp lu¾t de rút trích các cnm tù (Wu và Tseng, 1995). Các
nghiên cúu ve xú lý ngôn ngu tieng Anh dã chúng tó hvóng tiep c¾n
này có the dat d® chính xác cao. Tuy nhiên d® chính xác cúa
phvong pháp còn phn thu®c vào vi¾c thiet ke tùng h¾ thong cn
the (Brill, 1995; Church, 1988; Voutilainen, 1997). M¾c dù
nhieu ket quá
nghiên cúu dã chúng tó hvóng tiep c¾n này có nhieu tiem nang, tuy
nhiên van chva có m®t công trình nghiên cúu nào theo hvóng tiep
c¾n này cho ngôn ngu tieng Vi¾t, và hi¾n thnc theo hvóng tiep
c¾n này còn g¾p nhieu khó khan. Khó khan chính là vi¾c xây
dnng m®t co só tri thúc ngu nghia tù vnng tieng Vi¾t cho nhung
mien (domain) chuyên bi¾t, có pham vi lón. Vi¾c này dòi hói rat
nhieu thòi gian và công súc.
Vói mnc tiêu giái quyet cho bài toán rút trích CTÐTNN cho câu
don cúa tieng Vi¾t, lu¾n án t¾p trung xây dnng mô hình ViKEa
(Vietnamese Key phrase Extraction for assignment approach) theo
hvóng tiep c¾n ngôn ngu hoc dna trên Ontology và khai thác các tri
thúc ngôn ngu tieng Vi¾t de nâng cao hi¾u quá cúa mô hình. Vi¾c
lu¾n án nghiên cúu và khai thác Vi.Wikipedia nhv kho tri thúc tieng

-4-

and Web-based Applications & Services (iiWAS 2009), OCG
ISBN 978-3-85403-260-1, ACM ISBN 978-1-60558-660-1, 1416 December 2009, Malaysia, ACM & ACS, pp. 274-281.
[6] Chau Q. Nguyen, Tuoi T. Phan, 2009. An Ontology–Based
Approach for Key Phrase Extraction. In Proceedings of the 47th
Annual Meeting of the Association for Computational
Linguistics and the 4th International Joint Conference on

Natural Language Processing of the Asian Federation of
Natural Language Processing (ACL-IJCNLP 2009), ISBN
978-1-932432-47-5,
August 2 - 7, 2009, Singapore, Companion Vol, pp.181-184.
[7] Chau Q. Nguyen, Luan T. Hong, Tuoi T. Phan, 2009. A Support
Vector Machines Approach to Vietnamese Key Phrase
Extraction, In Proceedings of the 2009 IEEE-RIVF International
Conference on Computing & Communication Technologies
(IEEE-RIVF 2009), ISBN 978-1-4244-4567-7, IEEE eXpress,
pp.131-135.
[8] Chau Q. Nguyen, Tuoi T. Phan, 2007. A Pattern-based Approach
to Vietnamese Key Phrase Extraction, In Addendum
Contributions of The 5th International IEEE Conference on
Computer Sciences- RIVF’07, ISBN 2-912590-4-0, Studia
Informatica Universalis, pp.41-46.
[9] Chau Q. Nguyen, Tuoi T. Phan, 2006. A Hybrid Approach to
Vietnamese Part-Of-Speech Tagging, In Proceedings of The 9th
International Oriental COCOSDA 2006 Conference - OCOCOSDA’06, 12/2006, Malaysia, pp.157-160.
[10] Chau Q. Nguyen, Thanh C. Nguyen, Tuoi T. Phan, 2006.
Vietnamese Key Phrase Extraction for Information Retrieval, In
Proceedings of The 9th International Oriental COCOSDA 2006
Conference - O-COCOSDA’06, 12/2006, Malaysia, pp.169-172.
[11] Chau Q. Nguyen, Tuoi T. Phan, Tru H. Cao, 2006. Vietnamese
Proper Noun Recognition, In Proceedings of The 4th
International IEEE Conference on Computer Sciences- RIVF’06,
ISSN 1621-0065, IEEE Press, pp.144-151.

-49-



**
††

www.wordnet.com/
www.wikipedia.org/

-4-

-49-


tù các trang web (VIRs là sán pham dã dvoc nghi¾m thu cúa de tài
trong diem Ðai hoc quoc gia Tp. Ho Chí Minh - B2005-20-01-TD).
Ket quá cúa h¾ thong VIRs dã dvoc cái thi¾n so vói khi chva tích
hop ViKEe.
Cuoi cùng, bên canh các mô hình dvoc de xuat, phvong pháp cúa
lu¾n án khai thác Vi.Wiki nhv m®t ontology tieng Vi¾t không chí de
phnc vn cho vi¾c xác d%nh cnm danh tù d¾c trvng ngu nghia cho câu
tieng Vi¾t mà còn dva ra m®t hvóng giái quyet cho van de thieu kho
ngu li¾u ho tro xú lý ngôn ngu tieng Vi¾t.
DANH MUC CÔNG TRÌNH CUA TÁC GIÃ
I. BÁO CÁO KHOA HOC
Tap chí Khoa hoc
[1] Chau Q. Nguyen, Tuoi T. Phan, 2009. Hvóng tiep c¾n xác d%nh
cnm tù d¾c trvng ngu nghia trong tieng Vi¾t dna trên Wikipedia,
Tap chí Công ngh¾ thông tin & truyen thông, ISSN 0866-7039,
T¾p V-1, so 2(22): 30-37.
[2] Nguyen Quang Châu, Phan Th% Tvoi, 2008. Nh¾n di¾n cnm tù
d¾c trvng ngu nghia trong Tieng Vi¾t, Tap chí Công ngh¾ thông
tin & truyen thông, ISSN 0866-17093, so 19: 64-73.

[3] Nguyen Quang Châu, Hong Thanh Lu¾n, Phan Th% Tvoi, 2008.
M®t hvóng tiep c¾n hoc máy cho bài toán rút trích cnm tù d¾c
trvng ngu nghia trong tieng Vi¾t, Tap chí Khoa hoc & Công
ngh¾ Vi¾t nam, ISBN 0866-708X, t¾p 46, so 1: 69-78.
[4] Nguyen Quang Châu, Phan Th% Tvoi, Cao Hoàng Trn, 2006. Gán
nhãn tù loai cho tieng Vi¾t dna trên van phong và tính toán xác
suat, Tap chí Phát trien Khoa hoc & Công ngh¾, ISSN 18590128, t¾p 9, so 2:11-21.
H®i ngh% Khoa hoc Quoc te
[5] Chau Q. Nguyen, Tuoi T. Phan, 2009. Key Phrase Extraction: A
Hybrid Assignment and Extraction Approach. In Proceedings of
the 11th International Conference of Information Integration
-48-

Vi¾t dã giái quyet khó khan ve tài nguyên tri thúc tù vnng tieng Vi¾t
khi xây dnng mô hình theo hvóng tiep c¾n này.
3. Hvóng tiep c¾n bang phvong pháp thong kê (Statistical
approach), thnc chat là quá trình hoc các giá tr% dã dvoc thong kê tù
m®t kho ngu li¾u lón de rút trích các cnm tù (Su và CS, 1996).
Hvóng tiep c¾n này tó ra hi¾u quá cho vi¾c rút trích cnm tù d¾c
trvng ngu nghia (Yang và CS, 1998; Chien, 1997; Chien, 1998;
Chen và CS, 1997), và nó liên quan m¾t thiet vói hvóng tiep c¾n
n-gram vói n có giá tr% 2,3, hay 4. Tuy nhiên, khi Chien (1997)
dùng PAT-Tree (PATricia Tree) de rút trích các CTÐTNN trong van
bán cúa tieng Trung Quoc, tác giá dã không giói han giá tr% cúa n.
M¾c dù có gia tang ve m¾t tính toán, ky thu¾t này không nhung
không dòi hói nhieu công súc de tao tù dien hay co só tri thúc mà
còn có khá nang lay dvoc các thu¾t ngu có trong so cao trong kho
ngu li¾u. Tuy nhiên, m¾t han che cúa hvóng tiep c¾n là có m®t
so trvòng hop không the rút trích các cnm tù hop lý mà có tan suat
thap.

M¾c dù hvóng tiep c¾n bang thong kê có d® chính xác (Precision)
không tot, nhvng có d® day dú (Recall) cao so vói hvóng tiep c¾n
ngôn ngu hoc. Vì v¾y, vói mnc tiêu là cái thi¾n toi da hi¾u quá cúa
h¾ thong ViKEa theo hvóng tiep c¾n ngôn ngu hoc khi vi¾c khai thác
ngôn ngu van còn giói han, lu¾n án se xây dnng mô hình rút trích các
CTÐTNN bang phvong pháp máy hoc có giám sát. Các CTÐTNN
dvoc gán nhãn tù loai ban dau làm t¾p huan luy¾n de xây dnng mô
hình rút trích. Ðây là co só cho mô hình xác d%nh dúng các CTÐTNN
trong các cnm tù dn tuyen. Mô hình rút trích dùng m®t t¾p các tính
chat d¾c trvng de phân loai các cnm tù. Van de d¾t ra là phái xác
d%nh dvoc các tính chat d¾c trvng cúa các cnm tù, nham xác d%nh
m®t cách chính xác các CTÐTNN trong các cnm tù dn tuyen.
Nhv v¾y, mnc tiêu cúa lu¾n án là xây dnng m®t mô hình lai cho bài
toán rút trích CTÐTNN trong câu don tieng Vi¾t. Mô hình này là sn
phoi hop cúa hai mô hình theo hvóng tiep c¾n ngôn ngu hoc và
phvong pháp xác suat thong kê. Ðó chính là sn phoi hop cúa hai mô
-5-


hình theo hvóng tiep c¾n rút trích và xác d%nh CTÐTNN (dvoc
trình

-48-

-5-


bày trong Chvong 3). Trong hvóng tiep c¾n ngôn ngu hoc, lu¾n án
sú dnng phvong pháp so trùng mau dna trên Ontology dvoc tao l¾p
tù Wikipedia tieng Vi¾t. Mô hình này là co só de lu¾n án de xuat bon

tính chat d¾c trvng cho phvong pháp xác d%nh cnm tù d¾c trvng ngu
nghia dùng phvong pháp máy hoc vecto ho tro (Support Vector
Machines-SVMs) nham nam bat dvoc v% trí lô-gích và d¾c tính hình
thái cúa CTÐTNN, là: (1) v% trí tù trong câu, (2) nhãn tù loai, (3) cau
trúc cnm tù, (4) các tù quan h¾ giua các cnm tù.
Tù dây, các bài toán chính can dvoc giái quyet trong pham vi
lu¾n án bao gom:
Bài toán 1 - Xây dnng mô hình ViKEa.
Lu¾n án nghiên cúu và khai thác nguon tài nguyên cúa
Vi.wikipedia de xây dnng m®t Ontology tieng Vi¾t ViO
(Vietnamese Ontology) nham phnc vn yêu cau cúa bài toán.
Lu¾n án de xuat mô hình xác d%nh CTÐTNN, dvoc goi là
ViKEa, dna trên các tri thúc ngôn ngu tn nhiên (nhv h¾ thong lu¾t và
ViO) và các bài toán tien xú lý (nhv phân doan tù và gán nhãn tù
loai).
Bài toán 2 - Xây dnng mô hình rút trích cnm tù d¾c trvng ngu
nghia, dvoc goi là ViKEe ( Vietnamese Key phrase Extraction for
extraction approach).
Lu¾n án nghiên cúu và phân tích các mô hình hoc máy. Tù dó
de xuat mô hình rút trích CTÐTNN dùng phvong pháp SVMs, nham
cái thi¾n toi da hi¾u quá cúa mô hình ViKEa khi nguon tài nguyên
tieng Vi¾t san có còn han che.
Bài toán 3 - Xây dnng mô hình ViKE (Vietnamese Key phrase
Extraction).
ViKE là sn ket hop hai mô hình ViKEa và ViKEe cho bài toán
rút trích cnm tù d¾c trvng ngu nghia trong câu don cúa tieng Vi¾t,
vói mnc tiêu khai thác toi da d® chính xác cúa vi¾c rút trích
CTÐTNN cúa tùng mô hình trong bài toán 1 và 2.
Nhv d%nh hvóng nêu trên, pham vi nghiên cúu cúa lu¾n van dvoc
the hi¾n trong hình 1.1.


Ðau tiên là mô hình ViKEa, theo hvóng tiep c¾n ngôn ngu dna
trên Ontology ViO (dvoc khai thác tù Vi.Wiki) vói ky thu¾t so trùng
mau và các quan h¾ ngu nghia giua các the loai trên Ontology, cung
nhv các khâu tien xú lý phân doan tù và gán nhãn tù loai. Ket quá
dat dvoc cúa mô hình ViKEa khá cao trong trvòng hop các cnm
danh tù cúa các câu có các tù quan h¾, ho¾c có các khái ni¾m tvong
úng trong ontology ViO. Ngvoc lai, các CDTÐTNN dvoc nh¾n
dang sai deu thu®c vào trvòng hop khái ni¾m chva ton tai trong
Ontology ViO. Ðây là m¾t han che cúa mô hình ViKEa và cung là
d®ng co nghiên cúu cúa lu¾n án cho mô hình theo hvóng tiep c¾n
hoc máy de xây dnng các d® tvong tn ngu nghia giua các cnm danh
tù. Tù vi¾c dánh giá và so sánh ket quá thu dvoc tù mô hình ViKEa,
lu¾n án rút ra dvoc các tính chat d¾c trvng ve ngôn ngu cúa
CDTÐTNN. Các tính chat d¾c trvng này quyet d%nh cnm danh tù
nào là d¾c trvng ngu nghia so vói các cnm danh tù khác trong câu.
Ngoài ra, các tính chat d¾c trvng này là tien de góp phan xác d%nh
t¾p tính chat nh¾n di¾n CDTÐTNN trong mô hình ViKEe theo
hvóng tiep c¾n rút trích và ky thu¾t hoc máy.

-6-

-47-

Tiep theo, lu¾n án dã de xuat mô hình ViKEe theo hvóng tiep c¾n
hoc máy nham cái thi¾n toi da hi¾u suat cúa h¾ thong khi vi¾c khai
thác tài nguyên ngôn ngu còn có giói han. Hvóng tiep c¾n này dna
trên phvong pháp hoc máy, cn the là phvong pháp SVMs và ky
thu¾t huan luy¾n SMO. Lu¾n án hi¾n thnc hvóng tiep c¾n thành
m®t úng dnng riêng bi¾t goi là mô hình ViKEe. Úng dnng này

có the chay d®c l¾p ho¾c nhúng vào các úng dnng khác trên môi
trvòng Windows. Ket quá dat dvoc cúa mô hình ViKEe theo hvóng
tiep c¾n rút trích CDTÐTNN dat dvoc dã dáp úng dvoc mnc tiêu
de ra cúa lu¾n án và se góp phan cái thi¾n hi¾u suat cúa mô hình
ket hop cúa ViKE trong trvòng hop các CDTÐTNN không dvoc
xác d%nh trong mô hình ViKEa theo hvóng xác d%nh dna trên
Ontology ViO.


Ngoài ra, chúng tôi cung dã tích hop ViKEe nhv là m®t mô-dun
cúa h¾ thong truy xuat thông tin xuyên ngôn ngu có ho tro

tieng Vi¾t goi là VIRs. H¾ thong này cho phép truy xuat thông tin
huu ích

-6-

-47-


trien. Dvói dây, chúng tôi trình bày m®t so hvóng phát trien chính:
- Ve hvóng tiep c¾n xác d%nh CTÐTNN, m®t van de can mó
r®ng là khai thác các moi quan h¾ dong nghia thông qua các
ontology ve ngôn ngu (ví dn nhv Wiktionary, WordNet, ...). Ðong
thòi khai thác các moi quan h¾ (là quan h¾ dong nghia, quan h¾
phán nghia, hay quan h¾ thành phan, ...) giua các trang thông tin
thông qua các liên ket cúa chúng trong Wikipedia. Tù dó mó r®ng
các khái ni¾m và các quan h¾ cúa các danh hi¾u trong Ontology
ViO cung nhv tù dien ViDic, nham nâng cao hi¾u suat xác d%nh
CTÐTNN cúa h¾ thong.


các câu tieng Vi¾t. Mô hình ViKE là sn ket hop cúa hai mô hình theo
hvóng tiep c¾n ngôn ngu và hoc máy (mô hình ViKEa và ViKEe).

- Ю tvong tn ngu nghia cúa khái ni¾m và thnc the có tên chva
dvoc kháo sát trong lu¾n án này. Ðong thòi, vi¾c khai thác d®
tvong tn giua các thành phan cúa thnc the có tên nhv là d® tvong tn
ve tên, lóp, c¾p tên-lóp và danh hi¾u cung chva dvoc khai thác.
Ðây là m®t trong nhung hvóng phát trien quan trong cúa de tài.
- Ve hvóng van de rút trích CDTÐTNN, m®t van de can khai thác
là giai doan huan luy¾n mau cho mô hình hoc máy can dvoc mó r®ng
cho tùng lãnh vnc cn the, cung nhv c¾p nh¾t thêm các kho ngu li¾u
huan luy¾n nham nâng cao d® chính xác cúa h¾ thong.
- M®t hvóng phát trien khác cung rat quan trong là vi¾c áp dnng
các mô hình này cho các ngôn ngu khác, vì các mô hình dvoc phát
trien, kháo sát, cung nhv thnc nghi¾m trong lu¾n án này deu trên
tieng Vi¾t. Thông qua vi¾c phát trien mô hình cho các ngôn ngu
khác (nhv tieng Anh) de so sánh dánh giá phvong pháp dvoc de xuat
trong lu¾n án vói các phvong pháp khác, cung nhv dánh giá quá
trình toi vu chi phí trong mô hình ket hop ViKE.
7.3 Ket lu¾n
Lu¾n án dã trình bày các hvóng tiep c¾n de giái quyet bài toán
rút trích các cnm danh tù d¾c trvng ngu nghia cúa câu don tieng
Vi¾t. Tù phân tích và dánh giá tùng hvóng tiep c¾n, lu¾n án dã
de xuat m®t mô hình ViKE cho bài toán rút trích CDTÐTNN trong

-46-

-7-



Hình 1.1. Pham vi cúa lu¾n van

Câu tieng Vi¾t

1.3.

T¾p mau

Tien xú lý

Rút trích các cnm tù dn tuyen

Phân doan tù
Xác d%nh CTÐTNN
Gán nhãn tù loai
Dna vào Ontology

Dna vào hoc máy
Các CTÐTNN

-46-

Ontology ViO

Mô hình

Ðóng góp chính cua lu¾n van

Sau dây là nhung dóng góp chính cúa lu¾n án doi vói linh vnc xú

lý ngôn ngu tn nhiên mà cn the là xú lý van bán tieng Vi¾t:
- Ðóng góp thú nhat: Xây dnng co che rút trích cnm tù d¾c
trvng ngu nghia trong câu tieng Vi¾t.
- Ðóng góp thú hai: Ðe xuat mô hình ViKEa, là mô hình xác
d%nh cnm tù d¾c trvng ngu nghia câu don cúa tieng Vi¾t, dùng
phvong pháp so trùng mau dna trên vi¾c khai thác Vi.Wikipedia nhv
m®t Ontology tieng Vi¾t.
- Ðóng góp thú ba: Ðe xuat mô hình ViKEe, là mô hình rút trích
cnm tù d¾c trvng ngu nghia trong câu don cúa tieng Vi¾t, dùng
phvong pháp SVMs vói bon tính chat d¾c trvng: (1) v% trí tù trong
câu; (2) nhãn tù loai; (3) cau trúc cnm tù; (4) các tù quan h¾ giua các
cnm tù.
- Ðóng góp thú tv: Ðe xuat mô hình ViKE, là sn ket hop hai mô

-7-


hình ViKEa và ViKEe cho bài toán rút trích cnm tù d¾c trvng ngu
nghia trong câu don cúa tieng Vi¾t.
- Ðóng góp thú nam: Xây dnng m®t kien trúc công ngh¾ hoàn
chính cho úng dnng rút trích CTÐTNN trong câu don cúa tieng
Vi¾t.
- Ðóng góp thú sáu: Ðe xuat phvong pháp khai thác
Vi.Wikipedia nhv m®t Ontology tieng Vi¾t không chí de phnc vn cho
vi¾c xác d%nh cnm danh tù d¾c trvng ngu nghia trong câu don cúa
tieng Vi¾t mà còn góp phan giái van de thieu tài nguyên có san cúa
ngu li¾u tieng Vi¾t, ho tro cho van de xú lý ngôn ngu tn nhiên trong
tieng Vi¾t.
Chvong 2. CÐ Se LÝ THUYET NGÔN NGU TIENG VI½T
2.1 Giói thi¾u

Chvong này trình bày các van de ve ngu pháp tieng Vi¾t nham
phnc vn vi¾c nghiên cúu phvong pháp rút trích cnm tù d¾c trvng ngu
nghia cho câu tieng Vi¾t. Do ngu pháp tieng Vi¾t van còn nhieu van
de tranh lu¾n chva dat tói sn nhat quán giua các nhà ngôn ngu hoc
nên chúng ta cung còn nhieu khó khan trong vi¾c tn d®ng hóa phân
tích tieng Vi¾t. Trong pham vi nghiên cúu cúa lu¾n án, chvong 2
chí de c¾p den các khái ni¾m, tính chat, và quan diem chung cúa các
nhà ngôn ngu hoc, nham xác d%nh rõ co só lý thuyet ve ngôn ngu
tieng Vi¾t phnc vn cho mnc tiêu cúa lu¾n án.
Cn the, chvong 2 trình bày các van de nhv the nào là cnm tù d¾c
trvng ngu nghia cho câu tieng Vi¾t, múc d® và tiêu chí ngu nghia cúa
CTÐTNN cung nhv tù loai, cnm tù và câu de làm co só lý thuyet ve
ngôn ngu hoc cho phvong pháp xác d%nh cnm tù d¾c trvng ngu nghia
cho câu tieng Vi¾t.
2.2 Co sõ lý thuyet
2.2.1 Cnm tù d¾c trvng ngu nghia
Trong tieng Vi¾t, câu là don v% nhó nhat dám nhi¾m chúc nang
thông báo tron ven thông tin bang ngôn ngu (Di¾p Quang Ban,
-8-

- Nghiên cúu và phát trien mô hình theo hvóng tiep c¾n rút trích
cnm danh tù d¾c trvng ngu nghia trong tieng Vi¾t, de c¾p van de xác
d%nh các tính chat d¾c trvng cho nh¾n di¾n các CDTÐTNN trong
câu don tieng Vi¾t, trong dó có các câu truy van, tù dó de xuat mô
hình ViKEe. Ðây là mô hình sú dnng máy hoc vecto ho tro, cn the
là giái thu¾t SMO de giái quyet bài toán thieu kho ngu li¾u dú lón
có chú giái trong quá trình huan luy¾n. Mô hình hoc máy có giám sát
ViKEe dna theo bon tính chat d¾c trvng: (1) v% trí tù trong câu; (2)
nhãn tù loai; (3) cau trúc cnm tù; (4) các tù quan h¾ giua các cnm
danh tù cúa các cnm danh tù dn tuyen de rút trích các CDTÐTNN.

- Phát trien mô hình ket hop giua hvóng tiep c¾n xác d%nh và
hvóng tiep c¾n rút trích cnm danh tù d¾c trvng ngu nghia trong tieng
Vi¾t dna trên các mô hình dã phát trien là hai mô hình ViKEa và
ViKEe. Tù dó lu¾n án de xuat mô hình ViKE. Ðây là mô hình ket
hop hai mô hình ViKEa và ViKEe vói mnc tiêu khai thác toi da d®
chính xác cúa vi¾c rút trích CDTÐTNN cúa tùng mô hình.
- Xây dnng m®t Ontology tieng Vi¾t ViO và tù dien ViDic de
phnc vn cho vi¾c xác d%nh cnm danh tù d¾c trvng ngu nghia cho câu
tieng Vi¾t, bang cách rút trích h¾ phân cap các the loai và các quan h¾
ngu nghia trong Vi.Wikipedia nhv m®t Ontology tieng Vi¾t.
- Xây dnng dvoc m®t kien trúc công ngh¾ hoàn chính cho úng
dnng rút trích CDTÐTNN trong tieng Vi¾t.
7.2 Hvóng phát trien
Tù các nghiên cúu liên quan dã dvoc de c¾p và tù các ket quá cúa
lu¾n án, chúng tôi de ngh% m®t so van de và hvóng nghiên cúu tiep
theo nhv sau.
Các mô hình rút trích dvoc giói thi¾u trong lu¾n án này là nhung
mô hình cho hai hvóng tiep c¾n chính là hvóng xác d%nh và hvóng
rút trích CDTÐTNN. Ðong thòi lu¾n án khai thác vi¾c ket hop giua
hai hvóng trên de xây dnng m®t mô hình tong quát cho bài toán rút
trích cnm danh tù d¾c trvng ngu nghia trong câu don tieng Vi¾t. Vì
v¾y, có the nói tù hvóng nghiên cúu này còn nhieu van de can phát
-45-


xác) thì mô hình ViKEa và mô hình ViKE cho ket quá rút trích chính
xác. Ngvoc lai, m®t so truy van mà mô hình ViKEa không rút trích
dvoc CDTÐTNN (nhv câu S9) thì mô hình ViKEe và mô hình ViKE
có the rút trích dvoc CDTÐTNN. Nhv v¾y, các ket quá phân tích các
mô hình thông qua các câu thú nghi¾m trên cung nhv toàn b® t¾p

kiem thú C1 dã minh chúng hi¾u suat cúa mô hình ViKE dat dvoc
cao hon so vói hai mô hình ViKEa và ViKEe. Ðieu này chúng tó mô
hình ket hop hai hvóng tiep c¾n xác d%nh và rút trích CDTÐTNN dã
dáp úng dvoc mnc tiêu d¾t ra cúa lu¾n án cho bài toán rút trích cnm
danh tù d¾c trvng ngu nghia trong câu truy van nói riêng và câu
tieng Vi¾t nói chung .
Chvong 7. TONG KET
7.1 Tóm tat các ket quã dat dvoc
Vói mnc tiêu cúa de tài là nghiên cúu và phát trien mô hình rút
trích cnm danh tù d¾c trvng ngu nghia trong tieng Vi¾t, lu¾n án dã
dat dvoc các ket quá sau:
- Lu¾n án dã kháo sát các vu diem và han che trong các mô hình
rút trích cnm tù d¾c trvng. Tù dó, lu¾n án dã de xuat m®t mô hình ket
hop hvóng tiep c¾n xác d%nh và hvóng tiep c¾n rút trích cnm danh tù
d¾c trvng ngu nghia trong tieng Vi¾t. Mô hình này dã dóng góp vào
vi¾c xú lý ngu nghia van bán và các úng dnng xú lý ngôn ngu tn
nhiên.
- Nghiên cúu và phát trien mô hình theo hvóng tiep c¾n xác d%nh
cnm danh tù d¾c trvng ngu nghia trong tieng Vi¾t. Ðe khac phnc van
de can thiet phái có kho ngu li¾u tieng Vi¾t có chú giái lón khi xác
d%nh cnm danh tù d¾c trvng ngu nghia, lu¾n án khai thác m®t bách
khoa toàn thv trnc tuyen vói n®i dung mó Wikipedia de xây dnng
Ontology tieng Vi¾t ViO và tù dien ViDic. Tù dó lu¾n án dã de xuat
mô hình ViKEa. Ðây là mô hình sú dnng phvong pháp so trùng mau
dna trên co só tri thúc và Ontology.
-44-

2004). Tù là don v% nhó nhat tn thân có nghia. Cnm tù là don v% nhó
hon câu nhvng lón hon tù ve m¾t ý nghia ngu pháp (câu > cnm tù >
tù ). Tuy không thông báo tron ven n®i dung thông tin nhvng cnm tù

có khá nang dn báo, d%nh hvóng n®i dung thông tin cúa van bán.
Trong vi¾c nghiên cúu ve ngôn ngu hoc, các nhà nghiên cúu deu có
m®t quan diem chung ve cau trúc cú pháp cúa thành phan câu và
chúc nang chính phn cúa chúng (Cao Xuân Hao, 1992; Ho Lê, 1993;
Nguyen Kim Thán và оng Huu Quynh, 2001; Di¾p Quang Ban,
2004…). Thành phan câu là khái ni¾m chung cúa nhieu ngôn ngu,
không nêu dvoc d¾c thù tùng ngôn ngu riêng bi¾t. Tiêu chuan phân
d%nh thành phan câu dvoc dna vào quan h¾ ý nghia giua các tù trong
câu và dna vào các d¾c trvng hình thúc cúa tù trong câu.
Trong m®t câu nói cô l¾p, tách ròi tình huong nói nang, sn có m¾t
cúa thành to chính có tính chat bat bu®c. Thành to chính giu vai trò
quan trong ve ngu pháp doi vói cnm tù. Thành to chính là thành to
dai di¾n cho toàn b® cnm tù trong moi liên h¾ vói các yeu to khác
nam ngoài cnm tù. Do dó, chúc nang cú pháp cúa toàn b® cnm tù
trong kien trúc lón hon se gan bó m¾t thiet vói vai trò cú pháp cúa
thành to chính. Trong quan h¾ n®i b® cnm tù, thành to chính chi phoi
tat cá các thành to trnc tiep phn thu®c vào mình, nó quyet d%nh chúc
nang cú pháp cúa tat cá các thành to phn có liên quan.
Ve ý nghia, thành to chính quyet d%nh khá nang gia nh¾p các cau
trúc lón hon cúa toàn b® cnm tù. M¾t khác cung chính n®i dung nghia cúa thành to chính quyet d%nh khá nang xuat hi¾n kieu thành to
phn. Nhò dó chúng ta có the dna vào khá nang xuat hi¾n cúa các
thành to phn nhv là dna vào m®t dau hi¾u hình thúc de xác d%nh tù
loai, tieu loai và th¾m chí cá ý nghia cúa lóp tù hay cúa tù giu vai trò
thành to chính.
Xét ve quá trình doc hieu ngu nghia cúa van bán trong bình di¾n
dnng pháp, ngoài m¾t n®i dung cúa các câu bieu dat (hay nghia bieu
th%), dây chính là cap d® ngu nghia cúa tù hay cnm tù dám nhi¾m
(nhv m®t cnm tù là cnm danh tù, cnm d®ng tù hay cnm tính tù) (Cao
Xuân Hao, 1992). Cap d® cao hon là nh¾n ra các doi tvong (só chí)
-9-



dvoc nói den trong câu van bán, các doi tvong này dvoc xác d%nh bói
cnm danh tù (Ccm tù d¾c trvng ngu nghia - CTÐTNN) và các moi
quan h¾ cúa chúng.
Chang han nhv câu “cho biet quê hvong cúa Chú t%ch Ho Chí
Minh ?”. Neu xét ó cap d® ngu nghia cúa cnm tù, quê hvong chí là
m®t cnm danh tù chí noi chon, và Chú t%ch Ho Chí Minh cung là cnm
danh tù chí tên riêng. Tuy nhiên, neu xét thêm moi quan h¾ cúa
chúng, thì quê hvong trong câu này chí den doi tvong là quê hvong

Ðe tính toán hi¾u suat cúa h¾ thong, ngoài vi¾c kháo sát các thông
so ve d® chính xác, d® bao phú cung nhv d® trung bình dieu hòa F,
lu¾n án tien hành kháo sát thòi gian dáp úng cúa h¾ thong nham kiem
d%nh tính khá thi trong úng dnng. Thòi gian dáp úng dvoc tính tù lúc
ngvòi dùng dva câu vào h¾ thong cho den lúc nh¾n dvoc ket quá trá
ve. Vói thnc nghi¾m trên t¾p kiem thú C1, thòi gian dáp úng ®mà lu¾n
án dã kháo sát trên cùng m®t máy tính vói cau hình (Intel Core™
Duo 1.8x2 GHz Processor, 2GB DDR2 SDRAM, 120GB HDD,
®

©

cúa Chú t%ch Ho Chí Minh chú không phái cúa ai khác; trong dó,

Microsoft

cnm danh tù Chú t%ch Ho Chí Minh chí den doi tvong là v% Chú t%ch
Ho Chí Minh cúa chúng ta, nhvng doi tvong Chú t%ch Ho Chí Minh
là doi tvong phn trong câu dang xét. Nó dóng vai trò giói han pham

vi cúa các doi tvong quê hvong trong câu. Vói m®t góc nhìn nhv
v¾y, ngu nghia câu, hay ngu nghia van bán dvoc the hi¾n rõ nét và
day dú hon trong linh vnc xú lý ngôn ngu tn nhiên bang máy tính.Vì
v¾y, có the nói, trong m®t pham trù nào dó, các CTÐTNN và các moi
quan h¾ cúa chúng tao thành n®i dung nong cot - ngu nghia cúa m®t
câu hay m®t van bán.

nhau nhieu (khoáng chênh l¾ch là tù 1 den 93 mi li giây). Ket quá dat
dvoc nhv trình bày trong Báng 6.3 khi thnc nghi¾m trên t¾p C1 vói
10 câu ngau nhiên.

Câu thnc hi¾n chúc nang công cn tv duy, công cn giao tiep thông
qua nghia cúa nó. Nghia cúa câu không don gián là m®t phép c®ng
nghia cúa các tù trong câu. Nghia cúa câu là m®t cau trúc có nhieu
tang. Các tang nghia trong câu phoi hop vói nhau tao ra nghia hình
thúc cúa câu. Nghia cúa câu có the thay trên be m¾t cúa nó nhvng
nhieu khi chí thay dvoc trong be sâu cúa nó. Nhvng dù là be m¾t
(hien ngôn) hay trong be sâu (hàm ngôn), nghia câu chí có the là
nghia hình thúc khi câu có só chí. Muon xác d%nh só chí cúa câu thì
phái hieu só chí cúa các thành phan tao câu và tình huong cúa phát
ngôn. Tách ra khói câu, tù ngu van có nghia nhvng không có só chí
(Cao Xuân Hao, 1992).
Nhv v¾y, m®t dieu không the phú nh¾n là trong m®t câu có
nhung tù, nhóm tù dám nhi¾m chúc nang chính cúa vi¾c chuyen
tái thông tin phát ngôn. Thu¾t ngu lu¾n án dùng de chí nhung tù,
nhóm tù có
-10-

Windows


XP) cho ba k%ch bán trên không chênh l¾ch

Báng 6.3: Thòi gian dáp úng khi thnc nghi¾m trên t¾p C1 vói 10 câu ngau nhiên.

Câu
(S)

Thòi gian dáp úng trên t¾p C1
(mi li giây)

Ю chênh l¾ch

ViKEa

ViKEe

ViKE

ViKE ViKEe
(*)

(*)/
ViKEe

ViKE ViKEa
(**)

(**)/
ViKEa


S1

110

117

124

7

5.98%

14

12.73%

S2

61

69

63

-6

-8.70%

2


3.28%

S3

20

30

25

-5

-16.67%

5

25.00%

S4

5

9

8

-1

-11.11%


3

60.00%

S5

113

110

114

4

3.64%

1

0.88%

S6

86

83

96

13


15.66%

10

11.63%

S7

83

95

84

-11

-11.58%

1

1.20%

S8

737

812

830


18

2.22%

93

12.62%

S9

138

156

140

-16

-10.26%

2

1.45%

S10

796

814


847

33

4.05%

51

6.41%

6.4 Ket chvong
Qua kháo sát các câu trên, mô hình ViKEa là mô hình có thòi gian
dáp úng trung bình nhanh nhat, ke tiep là mô hình ViKE, cuoi cùng
là mô hình ViKEe. Tuy nhiên, doi vói m®t so câu (nhv S4) mô
-43-


hình ViKEe không rút trích dvoc CDTÐTNN (ho¾c rút trích
không chính

-11-

-43-


Vói 2079 câu cúa t¾p kiem thú C1 dã dvoc bon cú nhân ve ngôn
ngu hoc nh¾n di¾n các CDTÐTNN theo phvong pháp thú công, thu
dvoc các phiên bán (Ver) lan lvot là V1 ,V2 ,V3 ,và V4.
- Phiên bán V1 xác d%nh dvoc 3072 CDTÐTNN, trong dó có
2692 CTÐTNN dvoc nh¾n di¾n tù h¾ thong ViKE.

- Phiên bán V2 xác d%nh dvoc 3050 CDTÐTNN, trong dó có
2293 CDTÐTNN dvoc nh¾n di¾n tù h¾ thong ViKE.
- Phiên bán V3 xác d%nh dvoc 2985 CDTÐTNN ít hon phiên bán
V2, nhvng có 2512 CDTÐTNN dvoc nh¾n di¾n tù h¾ thong ViKE
nhieu hon phiên bán V2 .
- Phiên bán V4 xác d%nh dvoc ít nhat trong 4 phiên bán và thu
dvoc 2079 CDTÐTNN, trong dó có 2003 CDTÐTNN dvoc nh¾n
di¾n tù h¾ thong ViKE.
Ket quá dat dvoc cúa mô hình ViKE vói d® chính xác, d® day

và d® trung bình dieu hòa F dvoc trình bày trong Báng 6.1.
Báng 6.1: Ket quá rút trích CDTÐTNN trong mô hình ViKE.
Ver
V1
V2
V3
V4

E
3007
3007
3007
3007

A
3072
3050
2985
2079


EfiA
2692
2293
2512
2003

Precision
89,52%
76,26%
83,54%
66,61%

Recall
87,63%
75,18%
84,15%
96,34%

F
88,57%
75,71%
83,85%
78,77%

Ðong thòi, de dánh giá hi¾u suat rút trích CDTÐTNN cúa mô
hình ViKE dat dvoc so vói hai mô hình ViKEa và ViKEe ve m¾t
thnc nghi¾m, lu¾n án thnc hi¾n ba k%ch bán trên cùng m®t t¾p kiem
thú C1 vói cùng phiên bán V1 nhv sau:
▪ K%ch bán 1: thnc nghi¾m trên mô hình ViKEa.
▪ K%ch bán 2: thnc nghi¾m trên mô hình ViKEe.

▪ K%ch bán 3: thnc nghi¾m trên mô hình tong quát ViKE.
Ket quá dat dvoc thong kê trong Báng 6.2.
Báng 6.2: So sánh hi¾u suat rút trích CDTÐTNN giua các mô hình.
Mô hình
ViKEa
ViKEe
ViKE

E
3236
3483
3007

A
3072
3072
3072

EfiA
2293
2457
2692

Precision
74.6%
70,54%
89,52%

-42-


Recall
70.8%
80%
87,63%

F
72,65%
74,97%
88,57%

chúc nang nhv trên là Ccm tù d¾c trvng ngu nghia cúa câu và dvoc
d%nh nghia nhv sau.
Ð%nh nghia 2.1 Cnm tù d¾c trvng ngu nghia là cnm tù d¾c
trvng mô tá ngan gon chính xác chú de mà nó dvoc tháo lu¾n trong
van bán ngan nhat (câu).
Ngoài cap d® ngu nghia cúa tù hay cnm tù dám nhi¾m (nhv m®t
cnm tù là cnm danh tù, cnm d®ng tù hay cnm tính tù), cap d® cao
hon là nh¾n ra các doi tvong (só chí) dvoc nói den trong câu van
bán
(Cao Xuân Hao, 1992). Dna vào co só trên, lu¾n án xác d%nh tiêu chí
ngu nghia de xác d%nh CTÐTNN cho câu nhv sau.
Tiêu chí ngu nghia cúa ccm tù d¾c trvng ngu nghia cúa câu là
ccm tù xác d%nh doi tvong (só chí) chính dvoc de c¾p den trong
thông tin cúa câu.
Ví dn 2.1: Máy tính này có dung lvong RAM lón nhat.
é dây, theo tiêu chí ngu nghia thì “dung lvong RAM lón nhat ” là
cnm tù d¾c trvng ngu nghia cho câu. Quan h¾ thành phan giua cnm
danh tù “máy tính này” và cnm danh tù “dung lvong RAM lón nhat”
cho phép xác d%nh doi tvong chính dvoc de c¾p den trong thông tin
cúa câu là dung lvong RAM lón nhât. Vì dung lvong RAM là dung

lvong cúa m®t thiet b% b® nhó trong (dvoc goi tên là RAM) cúa máy
tính (trong linh vnc chuyên bi¾t là máy tính), nên không can cnm tù
“máy tính này” thì cnm tù “dung lvong RAM lón nhat” cung mang
dvoc n®i dung nong cot (ngu nghia) cúa câu ó ví dn 2.1.
Vi¾c nghiên cúu ccm tù d¾c trvng ngu nghia có tam quan trong
cho vi¾c tìm hieu thông tin cung nhv sú dnng chúng trong h¾ thong
ngôn ngu. Cau tao cúa cnm tù mang nhung dau hi¾u de tù dó có the
phân d%nh tù loai, tieu loai cúa tù (d¾c diem không bien hình tù cúa
tieng Vi¾t). Cau tao cúa ccm tù giúp chúng ta nam dvoc cách trien
khai câu bang vi¾c mó r®ng các thành phan trong câu ho¾c ngvoc lai
nhv rút gon câu, mô hình hoá câu, hay giúp cho vi¾c tìm hieu câu,
van bán dvoc de dàng và thu¾n loi hon.
-11-


2.2.2 Câu
Câu là don v% cúa nghiên cúu ngôn ngu có cau tao ngu pháp (bên
trong và bên ngoài) tn l¾p và ngu di¾u ket thúc, mang m®t ý nghi
tvong doi tron ven hay thái d®, sn dánh giá cúa ngvòi nói, ho¾c có
the kèm theo thái d®, sn dánh giá cúa ngvòi nói, giúp hình thành và
bieu hi¾n, truyen dat tv tvóng, tình cám. Câu là don v% nhó nhat
chuyen tái m®t thông tin tron ven nhat bang ngôn ngu (Di¾p Quang
Ban, 2004).
Theo quan diem cúa Cao Xuân Hao (1998), câu là don v% co bán
cúa lòi nói, cúa ngôn tù, cúa van bán. Nó là don v% nhó nhat có the
sú dnng vào vi¾c giao te. Nói cách khác, câu là ngôn bán (van bán)
nhó nhat.
Ðon v% câu cung dvoc chia thành nhieu dang thúc. Ðiem chung
nhat cúa nhieu quan ni¾m ve ý nghia ngu pháp cúa nhieu ngôn ngu
thì don v% tù, câu trong van bán ó tang khái quát nhat. Tù dvoc

phân loai thành danh tù, d®ng tù, tính tù, dai tù, phn tù, ket tù, tro
tù, cám tù, và các tieu loai cúa chúng … nhv quan diem cúa các
nhà ngôn ngu hoc (Úy ban Khoa hoc Xã h®i Vi¾t Nam, 1983).
Câu dvoc phân loai theo mnc dích phát ngôn, cau trúc,…. Nhieu
quan diem ve phân loai câu dã dvoc dva ra.
Các công trình nghiên cúu ve loai câu cúa các nhà ngôn ngu hoc
trên deu the hi¾n quan diem, mnc dích và lu¾n chúng riêng. M®t
diem thu¾n loi là pham vi nghiên cúu cúa lu¾n án chí t¾p trung
vào các dang câu don. Và theo quan diem cúa các nhà nghiên cúu
ngôn ngu hoc trên thì cách phân loai câu theo mnc dích nói
tvong doi giong nhau. Cn the, cách phân loai câu nghi van dvoc
trình bày nhv sau:
Câu nghi van toàn b¼
Câu tu¤ng thu¼t

Phân loai
theo
mnc bích
nói

Dùng câu tu¤ng thu¼t

Câu nghi van
Dùng tù nghi van
Câu cám thán

Câu nghi van lna chon
Câu nghi van b¼
ph¼n
Câu nghi van lna chon

b¼ ph¼n

Câu cau khien

-12-

cn d®c l¾p là vnWordSegmentation, vnPOSTagger, ViKEa, ViKEe
mà chúng de dàng tích hop vào các h¾ thong khác.
3. Lóp co só du li¾u (Database tier): lóp này cung cap các chúc
nang lvu tru và truy xuat du li¾u cúa ViKE thông qua h¾ quán tr% co
só du li¾u MySQL Server 5.1 và các t¾p tin ngu li¾u dang XML.
6.3 Ðánh giá hi¾u suat rút trích CDTÐTNN
Phvong pháp dánh giá hi¾u suat cúa lu¾n án là dna vào thnc
nghi¾m vói d® chính xác, d® day dú, và d® trung bình dieu hòa F
dvoc trình bày trong mnc 3.4.2 cúa Chvong 3.
Ðe dánh giá hi¾u suat cúa h¾ thong, chúng tôi cung xin lvu ý
rang các mô hình de xuat trong lu¾n án deu thùa ke ket quá cúa
công doan tien xú lý phân doan tù và gán nhãn tù loai de rút trích
CDTÐTNN trong câu tieng Vi¾t. Nên hi¾u suat rút trích
CDTÐTNN cúa h¾ thong phn thu®c vào hi¾u suat cúa công doan
tien xú lý. Gia tang hi¾u suat cúa công doan tien xú lý cung se
làm gia tang hi¾u suat cúa h¾ thong rút trích CDTÐTNN. Tuy
nhiên, dây là hai van de tách bi¾t. Trong lu¾n án này chí t¾p trung
kháo sát các mô hình rút trích CDTÐTNN và chap nh¾n các loi tích
luy cúa công doan tien xú lý.
Ve ngu li¾u kiem thú, lu¾n án chon loc các t¾p mau câu tvòng
thu¾t và câu hói, dvoc lay tù các nguon ngu li¾u sau:
1. TREC (Text REtrieval Conference) ( />(TREC, 2009) là:
 TREC07: bao gom 446 câu hói tieng Anh.
 TREC06: bao gom 492 câu hói tieng Anh.

 TREC02: bao gom 440 câu hói tieng Anh.
2. Trang web www.lexxe.com (Qiao, 2010): bao gom 701 câu
tieng Anh.
T¾p mau thu dvoc tù hai nguon trên gom 2079 câu tieng Anh
dvoc H®i Nghiên Cúu D%ch Thu¾t Tp. Ho Chí Minh d%ch sang t¾p
mau câu tieng Vi¾t tvong úng, dvoc goi là t¾p kiem thú C1.
-41-


trong ViO , thì vi¾c xác d%nh cnm danh tù dn tuyen nào là
CDTÐTNN se dna vào phvong pháp hoc máy thông qua mô
hình ViKEe (úng vói trvòng hop các câu mà không chúa các
tù, hay cnm tù quan h¾ giua các cnm danh tù dn tuyen và các
cnm danh tù dn tuyen không có khái ni¾m trong ViO).
Ve ý tvóng, giái thu¾t xác d%nh các cnm danh tù d¾c trvng ngu nghia
trong mô hình ViKE dvoc trình bày tong quát nhv sau:
Giãi thu¾t 6.1. Xác d%nh CDTÐTNN trong ViKE.
6.2 H¾ thong rút trích CDTÐTNN trong tieng Vi¾t
Ðe kiem nghi¾m các phvong pháp de xuat cho bài toán rút trích
CDTÐTNN cho câu tieng Vi¾t, lu¾n án hi¾n thnc Mô hình rút
trích ccm danh tù d¾c trvng ngu nghia trong tieng Vi¾t –ViKE nhv
m®t h¾ thong vói mô hình kien trúc ba lóp dvoc trình bày ó Hình
6.2.
1. Lóp giao di¾n (Presentation tier): cung cap m®t giao di¾n cho
phép ngvòi sú dnng nh¾p các câu trnc tiep vào h¾ thong ho¾c tù m®t
t¾p tin chúa các câu. Ket quá trá ve là các CDTÐTNN tvong úng cho
moi câu nh¾p dvói dang XML. Vói dang XML, các CDTÐTNN có
the de dàng dvoc sú dnng trong các úng dnng khác.
2. Lóp nghi¾p vc (Business tier): dây là thành phan the hi¾n các
qui tac nghi¾p vn cúa kien trúc h¾ thong ViKE. Lóp này gom ba

khoi:
 Khoi thú nhat ch%u trách nhi¾m tách tù và gán nhãn tù
loai cho tù (Word segmentation and POS tagger).
 Khoi thú hai là mô hình ViKEa theo hvóng tiep c¾n xác d%nh
CDTÐTNN, dùng de xú lý các câu cúa ngvòi sú dnng có chúa các
tù, hay cnm tù quan h¾ giua các cnm danh tù dn tuyen, ho¾c câu có
chúa các cnm danh tù dn tuyen có khái ni¾m trong ViO.
 Khoi thú ba là mô hình ViKEe theo hvóng tiep c¾n rút tích
CDTÐTNN. Khoi này xú lý các câu không chúa các tù, hay cnm tù
quan h¾ giua các cnm danh tù dn tuyen, và cung không chúa các
cnm danh tù dn tuyen có khái ni¾m trong ViO.
Các khoi này dvoc thiet ke trong môi trvòng Java thành bon công
-40-

Tù cách phân loai theo mnc dích nói nhv trên và tiêu chí ngu
nghia (dvoc d%nh nghia ó mnc 2.2.1), các CTÐTNN dvoc xác d%nh
trong các tieu loai cúa câu nghi van (dùng câu tvòng thu¾t) nhv sau:
1) Câu nghi van toàn b® thì CTÐTNN là cnm danh
tù Ví dn 2.2: Máy tính này hv roi à?
2) Câu nghi van lna chon thì CTÐTNN là cnm danh
tù Ví dn 2.3: Phan cúng hv hay phan mem hv?
3) Câu nghi van b® ph¾n thì CTÐTNN là cnm danh tù ho¾c cnm
d®ng tù
Ví dn 2.4: Tác giá cuon sách AI này là ai?
Máy tính này v¾n hành nhv the nào?
4) Câu nghi van lna chon b® ph¾n thì CTÐTNN là cnm danh
tù Ví dn 2.5: Anh mua sách AI hay sách PL?
Nhv phân tích ó các ví dn trên, cnm danh tù là CTÐTNN chiem tí
l¾ cao hon cnm tù khác trong các tieu loai cúa câu nghi van (dùng
câu tvòng thu¾t). Hon nua, theo kháo sát thnc nghi¾m cúa lu¾n án

trên 437 câu nghi van và câu tvòng thu¾t dvoc rút trích trong các tài
li¾u truy¾n ngan và báo chí khoa hoc (dvoc trình bày chi tiet trong
Phn lnc F cúa lu¾n án) thì CTÐTNN là cnm danh tù chiem 87,12%
(còn cnm d®ng tù chiem 12,88%).
Xét ve m¾t nghia (Úy ban Khoa hoc Xã h®i Vi¾t Nam, 1983;
Nguyen Tài Can, 1996), cnm tù là m®t cau tao có tác dnng làm cho
nghia cúa chính to dvoc thnc tai hoá, túc là có liên h¾ vói thnc tai.
Trong cnm danh tù, nghia thnc tai hoá là nghia ve tính xác d%nh cúa
doi tvong. Còn trong cnm d®ng tù, cnm tính tù, thì nghia thnc tai hoá
chí là nghia ve tính tình thái. Nhv v¾y, khi xác d%nh dvoc cnm danh
tù thì dong thòi chúng ta cung xác d%nh dvoc bán chat ý nghia cúa sn
v¾t gan vói cnm danh tù dó.
Vói sn phân tích và nh¾n d%nh nhv trên, lu¾n án chí t¾p trung
nghiên cúu các ccm danh tù d¾c trvng ngu nghia cho câu.
Ðe xác d%nh dvoc ccm danh tù d¾c trvng ngu nghia cho câu, quá
trình thnc hi¾n phái phân doan câu thành các tù vói sn chú thích tù
loai cúa chúng. Dna vào tù loai và cau tao cúa m®t cnm danh tù, quá
trình tiep tnc nh¾n di¾n các cnm danh tù trong câu (goi là cnm danh
tù dn tuyen). Tiep theo, quá trình phái xác d%nh các ccm danh tù d¾c
-13-


trvng ngu nghia (CDTÐTNN) trong các cnm danh tù dn tuyen này
dna trên cau trúc câu và tù quan h¾ giua các cnm danh tù.
2.3 Ket chvong
Can cú vào cá d¾c diem cú pháp và thnc tien sú dnng ngôn ngu
tieng Vi¾t, vói mnc tiêu phnc vn cho vi¾c truy van thông tin tù
nguon thông tin Internet dang van bán, pham vi nghiên cúu cúa
lu¾n án là rút trích các ccm danh tù d¾c trvng ngu nghia
(CDTÐTNN) cúa câu don thay vì rút trích các cnm tù d¾c trvng

cho tat cá các dang thúc câu trong tieng Vi¾t.
Trong chvong này, các khái ni¾m co bán ve ngu pháp tieng Vi¾t
nhv tù loai, cnm tù, câu cung nhv múc d® và tiêu chí ngu nghia cúa
cnm tù d¾c trvng ngu nghia làm co só lí thuyet ve ngôn ngu hoc cho
phvong pháp rút trích CTÐTNN trong câu tieng Vi¾t dã dvoc giói
thi¾u. Ðong thòi, lu¾n án xác d%nh giói han CTÐTNN cho các loai
câu don tieng Vi¾t là ccm danh tù d¾c trvng ngu nghia (do cnm
danh tù bieu th% nghia ve tính xác d%nh doi tvong, và là cnm tù chiem
so lvong lón nhat trong tieng Vi¾t. Ðong thòi, theo ket quá kháo sát
thnc nghi¾m cúa lu¾n án vói trên 437 câu nghi van và tvòng thu¾t thì
CTÐTNN là cnm danh tù chiem 87,12%, cnm d®ng tù chiem
12,88%). Vì v¾y pham vi nghiên cúu cúa lu¾n án là rút trích các
cnm danh tù d¾c trvng ngu nghia trong câu don cua tieng Vi¾t.
[

Chvong 3. TONG QUAN CÁC MÔ HÌNH RÚT TRÍCH
CUM T٠оC TRUNG
3.1 Giói thi¾u
Chvong này trvóc tiên se trình bày tong quan các thành tnu cúa
các nghiên cúu hi¾n tai ve hvóng tiep c¾n rút trích và xác d%nh các
cnm tù d¾c trvng (CTÐT) và so sánh giua hai hvóng tiep c¾n co bán
này cho bài toán rút trích CTÐT. Sn so sánh và phân tích này lý giái
nguyên nhân tai sao các no lnc nghiên cúu lai dvoc phân bo trên cá
hai hvóng tiep c¾n. Tiep theo lu¾n án trình bày hvóng tiep c¾n cho

-14-

Phan còn lai cúa chvong dvoc to chúc thành ba phan: Phan 6.2
trình bày mô hình ket hop giua hai mô hình ViKEa và ViKEe; Phan
6.3 mô tá h¾ thong rút trích CDTÐTNN trong tieng Vi¾t, cung nhv

mô hình kien trúc ba lóp cúa h¾ thong; Phan 6.4 phân tích và dánh
giá hi¾u suat rút trích CDTÐTNN cúa h¾ thong ViKE; Phan cuoi
cùng là ket chvong.
6.1 Mô hình rút trích CTÐT trong tieng Vi¾t
Mô hình tong quát ViKE là sn ket hop giua hai mô hình ViKEa
và ViKEe dvoc trình bày ó Hình 1.1.
Trong mô hình tong quát rút trích cnm danh tù d¾c trvng ngu
nghia trong tieng Vi¾t, quy trình dvoc thnc hi¾n lan lvot qua các
công doan sau:
 Công doan 1. Tien xú lý các câu tieng Vi¾t bao gom bài toán
phân doan tù và gán nhãn tù loai.
 Công doan 2. Rút trích các cnm danh tù dn tuyen tù các tù có
gán nhãn tù loai ó công doan 1 bang phvong pháp so trùng mau.
 Công doan 3. Xác d%nh chính xác CDTÐTNN tù các cnm danh
tù dn tuyen lan lvot qua các bvóc sau:
▪ Bvóc 1: Dna vào các thông tin ngu cánh là các tù, hay cnm tù
quan h¾ de nh¾n di¾n các CDTÐTNN trong các cnm danh tù
dn tuyen thông qua mô hình ViKEa (úng vói trvòng hop các
câu có chúa các tù, hay cnm tù quan h¾ giua các cnm danh tù
dn tuyen).
▪ Bvóc 2: Trong trvòng hop giua các cnm danh tù dn tuyen
không có các tù, hay cnm tù quan h¾ thì quá trình nh¾n di¾n
CDTÐTNN se dvoc truy van dna trên Ontology ViO thông
qua mô hình ViKEa (úng vói trvòng hop các câu mà không
chúa các tù, hay cnm tù quan h¾ giua các cnm danh tù dn
tuyen, nhvng các cnm danh tù dn tuyen có khái ni¾m trong
ViO).
▪ Bvóc 3: Neu các cnm danh tù dn tuyen chva ton tai trong co
só tri thúc hay các cnm danh tù dn tuyen không có khái ni¾m
-39-



5.6 Ket chvong
Chvong 5 dã trình bày m®t hvóng tiep c¾n de giái quyet bài toán
rút trích chính xác cnm danh tù d¾c trvng ngu nghia trong câu don
tieng Vi¾t. Hvóng tiep c¾n này dna trên phvong pháp hoc máy, cn
the là phvong pháp SVMs và ky thu¾t huan luy¾n SMO. Chúng tôi
hi¾n thnc hvóng tiep c¾n thành m®t úng dnng riêng bi¾t goi là
ViKEe. Úng dnng này có the chay d®c l¾p ho¾c nhúng vào các
úng dnng khác trên môi trvòng Windows. Ngoài ra, chúng tôi
cung dã tích hop ViKEe nhv là m®t mô-dun cúa h¾ thong truy xuat
thông tin xuyên ngôn ngu có ho tro tieng Vi¾t goi là VIRs. H¾
thong này cho phép truy xuat thông tin huu ích tù các trang web
(VIRs là sán pham dã dvoc nghi¾m thu cúa de tài trong diem Ðai
hoc quoc gia Tp. Ho Chí Minh - B2005-20-01-TD). Ket quá cúa
h¾ thong VIRs dã dvoc cái thi¾n so vói khi chva tích hop ViKEe.
Nhv v¾y, vói d® chính xác, d® day dú và d® trung bình dieu hòa
cúa mô hình ViKEe theo hvóng tiep c¾n rút trích CDTÐTNN dat
dvoc trong Báng 5.3 dã dáp úng dvoc mnc tiêu de ra cúa lu¾n án và
se góp phan cái thi¾n hi¾u suat cúa mô hình ket hop ViKE trong
trvòng hop các CDTÐTNN không dvoc xác d%nh trong mô hình
ViKEa theo hvóng xác d%nh dna trên Ontology ViO.
Chvong 6. MÔ HÌNH RÚT TRÍCH CUM T٠оC TRUNG
NGU NGHIA TRONG TIENG VI½T (ViKE) - KET HeP
HUéNG TIEP C¾N RÚT TRÍCH VÀ XÁC бNH CTÐT
6.1 Giói thi¾u
Trong chvong này, lu¾n án trình bày Mô hình rút trích ccm danh
tù d¾c trvng ngu nghia trong tieng Vi¾t dvoc goi là ViKE. Ðây là
mô hình ket hop giua mô hình theo hvóng tiep c¾n xác d%nh
CDTÐTNN-ViKEa và mô hình theo hvóng tiep c¾n rút trích

CDTÐTNN-ViKEe. Sn ket hop cúa hai mô hình này nham mnc tiêu
phát huy vu diem, cung nhv han che các nhvoc diem cúa cá hvóng
tiep c¾n xác d%nh và hvóng tiep c¾n rút trích cnm danh tù d¾c trvng
ngu nghia trong tieng Vi¾t.
-38-

mô hình rút trích CTÐTNN cho câu tieng Vi¾t. Cuoi cùng, lu¾n án
so ket nhung van de dã dvoc nghiên cúu trong chvong này.
3.2 Các nghiên cúu liên quan
Các nghiên cúu ve cnm tù d¾c trvng dvoc phân loai thành hai
hvóng tiep c¾n chính là rút trích (extraction) và xác d%nh
(assignment) (Medelyan và Witten, 2006).
3.2.1 Hvóng tiep c¾n rút trích cnm tù d¾c trvng
Phvong pháp rút trích cnm tù d¾c trvng (CTÐT) thông thvòng
gom hai công doan là tuyen chon các cnm tù dn tuyen và chon loc
các CTÐT trong các cnm tù dn tuyen.
- Công doan tuyen chon: Các cnm tù dn tuyen bao gom các tù và
cnm tù dvoc rút trích tù van bán. Ðe thnc hi¾n dieu này, m®t b® gán
nhãn tù loai và b® phân tích cú pháp don gián dvoc sú dnng de xác
d%nh các cnm tù dn tuyen.
- Công doan chon loc: Công doan này se phân tích các cnm tù dn
tuyen theo phvong pháp chon loc dna vào kinh nghi¾m de xác d%nh
các CTÐT trong các cnm tù dn tuyen. Các phvong pháp chon loc có
the dvoc phân thành hai hvóng tiep c¾n chính là hoc máy (machine
learning) và hvóng tiep c¾n tvong trvng (symbolic) cùng vói các ky
thu¾t mà chúng sú dnng. Trong khi các phvong pháp hoc máy di xây
dnng mô hình thong kê tù các t¾p du li¾u dã dvoc huan luy¾n thì vói
các phvong pháp d¾c trvng, các nhà nghiên cúu dva ra cách chon loc
tot nhat là dna vào các phân tích thú công trên các tài li¾u và các
CTÐT cúa chúng.

3.2.1.1 Phvong pháp hoc máy
Rút trích CTÐT có the dvoc xem là m®t quá trình hoc có giám sát
tù các mau thú. Van de chính là phái d%nh nghia dvoc t¾p tính chat
tính d¾c trvng cúa CTÐT. T¾p tính chat này có the giúp phân bi¾t
dvoc các CTÐT và các cnm tù không d¾c trvng trong các cnm tù dn
tuyen. Giái thu¾t hoc can hai t¾p tài li¾u có gán nhãn cúa CTÐT bang
phvong pháp thú công: m®t t¾p dùng de huan luy¾n de tao mô hình
phân loai. T¾p tài li¾u còn lai dùng de kiem d%nh và dánh giá mô
-15-


hình. Trong t¾p huan luy¾n, các CTÐT có the là mau âm (mau sai)
và mau dvong (mau dúng). Lvoc do hoc mô hình chon loc là phân
tích các giá tr% cúa t¾p tính chat d¾c trvng cho moi mau.
Các công trình theo hvóng tiep c¾n này nhv (Frank và CS, 1999;

(I,O,B) de xem khá nang cnm tù thu®c vào lóp nào là cao nhat qua
công thúc (5.35).
, vói i = 1,…,M
f  xarg max f

Witten và CS, 1999; Thuy Dung Nguyen và Min-Yen Kan, 2007).

dvoc khai thác de cung cap các sn ki¾n cho sn phát hi¾n các CTÐT
mói không có trong ontology (Pouliquen và CS). Theo Medelyan và

1vsR

i


(x)
i

3.2.1.2 Phvong pháp tvong trvng
Barker và Cornacchia (2000) phát trien m®t công cn rút trích
CTÐT là B&C. B&C không ket hop vói bat cú ky thu¾t hoc máy
nào. Ðe rút trích các cnm tù dn tuyen tác giá dùng m®t tù dien tra
cúu don gián de gán các nhãn tù loai và m®t b® phân tích tù de xác
d%nh tat cá các danh tù có tính tù và danh tù bo nghia cho nó. Các
thnc nghi¾m dánh giá vói sn tham gia cúa con ngvòi dã minh chúng
hvóng tiep c¾n don gián này thnc hi¾n tot nhv b® rút trích cúa
Turney (Turney, 1999). Ngoài ra, Paice và Black (2003) rút trích các
thu¾t ngu tù các tài li¾u liên quan trong m®t linh vnc cn the và các
thu¾t ngu này dvoc xem nhv là các CTÐT.
3.2.2 Hvóng tiep c¾n xác d%nh cnm tù d¾c trvng
Tvong phán vói các phvong pháp rút trích, các phvong pháp xác
d%nh CTÐT tiêu bieu dvoc dùng khi t¾p các CTÐT dn tuyen có giói
han, co d%nh. T¾p này có dvoc tù t¾p tù vnng có the dieu tiet dvoc
hay t¾p các tiêu de. Phvong pháp này phân tích các d¾c trvng cúa các
tài li¾u hon là các d¾c trvng cúa tùng cnm tù de tìm ra các CTÐT
thích hop tù t¾p tù vnng. M®t CTÐT có the xuat hi¾n trong nguyên
van cúa tài li¾u. é dây, sn phân loai nh% phân có the dvoc huan luy¾n
cho tùng CTÐT trong t¾p có k phan tú cúa m®t van bán, vi¾c xác
d%nh CTÐT cho m®t van bán bang cách thnc hi¾n k lan phân loai nh
% phân và dánh giá chúng de xác d%nh ket quá thích hop.
Trong hvóng tiep c¾n xác d%nh, CTÐT có d® vu tiên cao nhat, các
thông tin tvong ho giua CTÐT và các tù khác trong van bán có the
dvoc dùng de chon lna các tính chat (Dumais và CS, 1998). Neu các
CTÐT thiet l¾p thành m®t ontology có tính khái quát, chính xác và
các moi quan h¾ trên chúng thì các moi quan h¾ này cung có the

-16-

-37-


Và fi(x) là mô hình phân loai SVMs lóp thú i cúa M lóp phân
loai SVMs.
Ý tvóng cúa phvong pháp này chí xây dnng ra M b® phân loai nh
% phân SVMs (M là so loai can phân bi¾t). Cn the là chon ra 1
loai ci phân bi¾t vói các loai còn lai, ke tiep chon m®t ci’ phân
bi¾t vói các loai còn lai,… làm tvong tn cho den het.
5.5 Ket quã thnc nghi¾m
Vói cùng m®t t¾p du li¾u huan luy¾n dã dvoc phân chia nhv
trên, huan luy¾n dna trên hàm kernel tuyen tính và các tham so
khác nhau nhv C, d® dài vector. Ðánh giá d® chính xác se dna
trên t¾p du li¾u thú nghi¾m chiem 40% kho ngu li¾u, d® chính

xác dvoc tính là tý so giua so các mau dvoc phân loai dúng và so
các mau dvoc gán nhãn phân loai theo phvong pháp thú công.
Ðe so sánh và dánh giá phvong pháp SVMs cho bài toán rút trích
các CDTÐTNN úng vói vi¾c chon các tính chat d¾c trvng làm tiêu
chí phân bi¾t các CDTÐTNN (dvoc trình bày trong mnc 5.2.5.1).
Lu¾n án goi h¾ thong ViKEe khi chí dùng hai tính chat tù, nhãn tù
loai là V1 và h¾ thong ViKEe khi mó r®ng thêm hai tính chat cau
trúc ccm tù, và tù quan h¾ giua các ccm tù là V2. Lu¾n án tien hành
dánh giá trên t¾p ngu li¾u C1 gom 2.079 câu don dã dvoc trình bày ó
mnc 5.2.5.2. Ket quá dat dvoc d® chính xác, d® day dú , và d® trung
bình dieu hòa F nhv Báng 5.3.
Báng 5.3: Ket quá rút trích CDTÐTNN cúa mô hình ViKEe.


-17-

Mô hình ViKEe

So câu

Precision

Recall

Hai tính chat (V1)

2079

70,15%

78%

73,86%

Bon tính chat (V2)

2079

70,54%

80%

74,97%


-37-

F


- Vòng l¾p trong chon các giá tr% a2 sao cho |E1-E2| có giá tr% lón
nhat và toi vu hóa hai h¾ so. C¾p nh¾t SVMs theo giá tr% mói cúa hai
h¾ so vùa tìm dvoc.
5.2.5.4 Huan luy¾n mô hình SVMs
Tù kho ngu li¾u dùng de huan luy¾n, moi tù cùng vói thông tin
cúa chính nó và các thông tin cúa ngu cánh xung quanh se dvoc
vecto so hóa (m¾c d%nh chieu dài vecto là 3 tù). Nên moi mau huan
luy¾n se là m®t vecto so thnc. Các vecto so thnc này là dau vào cúa
quá trình huan luy¾n bang giái thu¾t SMO. Ket quá cúa quá trình
huan luy¾n là chúng ta có m®t mô hình trong so. Cn the chí can tính
vecto trong so w và phân loai các mau bang công thúc (5.15):

{

l

f  xsignwxbsign| ) i
yi
[ i1

[

xi ,
x


 b
|
J

Neu xét chi tiet hon, hàm huan luy¾n tuyen tính là m®t trvòng hop
d¾c bi¾t cúa vi¾c úng dnng hàm kernel nham tìm ra moi liên h¾ giua
các mau thông qua hàm kernel K(xi,x) tuyen tính nhv công thúc
(5.30):
N

f  x  ) i .j K xi ,
S

x


b

Witten (2006) thì dùng các quan h¾ dong nghia và phán nghia de tính
toán d® tvong dong cúa các CTÐT dn tuyen cùng vói tính toán thong
kê de cái tien d® chính xác cúa vi¾c xác d%nh. Tuy nhiên, m¾t không
thu¾n loi cúa phvong pháp xác d%nh CTÐT là nó dòi hói m®t kho
ngu li¾u có chú giái lón.
Trong công trình Hulth (2004), tác giá trình bày m®t ky thu¾t
hoc máy khác vói các ky thu¾t dã dùng trong các công cn xú lý
ngôn ngu tn nhiên. Tác giá cung dã so sánh các phvong pháp
khác nhau de dánh giá vi¾c rút trích các tù và cnm tù dn tuyen
nhv phvong pháp gom ccm danh tù (NP chunking), so trùng mau
tù loai (POS), và cuoi cùng là rút trích n-gram. M¾c dù không so
sánh dánh giá các

phvong pháp trên cùng m®t t¾p tài li¾u thnc nghi¾m, nhvng ket quá
dánh giá cúa Hulth lai cao hon dáng ke so vói các công bo cúa KEA
và GenEx (theo hvóng tiep c¾n rút trích). Hulth mô tá quá trình thnc
hi¾n giái thu¾t dã dvoc cái tien sau khi sú dnng các ky thu¾t hvóng
ngôn ngu cho khâu tuyen chon và phân loai. Ket quá nh¾n d%nh cúa
Hulth là m®t d®ng lnc thúc day de khai thác các ky thu¾t xú lý ngôn
ngu tn nhiên sâu hon cho bài toán rút trích và xác d%nh CTÐT.
3.3 Ket chvong

i1

Vói xi : là các vecto ho tro ; b : d® dòi ban dau dã tìm
dvoc.
Ðe mó r®ng phân loai cho nhieu doi tvong, quá trình thnc hi¾n can
sú dnng hàm gán nhãn cho tùng loai bang công thúc (5.31):

thông tin cúa tù trung tâm cùng thông tin cúa các tù ngu cánh lân
c¾n. Tù t¾p tin mô hình trong so, cho moi vecto di qua 3 b® phân loai

g(x) = sign(f(x))
Sau khi huan luy¾n, vì du li¾u dvoc mô hình theo ba nhãn gom cnm
nên t¾p tin mô hình trong so se chúa 3 b® phân loai tvong úng vói
các lóp I, O và B.
5.2.5.5 Rút trích các cnm danh tù d¾c trvng ngu nghia
Ðau vào cúa vi¾c rút trích cung là t¾p vecto so thnc nhv giai
doan huan luy¾n. moi vecto dai di¾n cho m®t tù trong câu chúa
-36-

-17-



Vói các kháo sát trong chvong này, cá hai hvóng tiep c¾n rút
trích và xác d%nh CTÐT deu có các vu diem cung nhv han che.
Lu¾n án dã dva ra m®t mô hình cho bài toán rút trích
CTÐTNN trong câu tieng Vi¾t. Mô hình này chính là sn phoi hop
giua hai hvóng tiep c¾n rút trích và xác d%nh CTÐT nham phát huy
vu diem cúa cá hai hvóng, dong thòi han che các han che cúa
chúng.

Ngoài ra trong chvong này, lu¾n án cung dã trình bày các phvong
pháp cho công doan co bán cúa cá hai hvóng tiep c¾n là giai doan
tien xú lý nhv bài toán phân doan tù và bài toán gán nhãn tù loai,
cung nhv phvong pháp dánh giá hi¾u suat cho các mô hình de xuat.
Các chvong tiep theo, lu¾n án se trình bày lan lvot các công doan
còn lai cúa mô hình ViKE thông qua hai mô hình tvong úng vói hai
hvóng tiep c¾n xác d%nh và rút trích CTÐTNN.

-36-

-18-


Vói hvóng tiep c¾n xác d%nh CTÐTNN, vi¾c nghiên cúu và phát
trien m®t co só tri thúc (hay ontology) có tính khái quát, chính xác
và các moi quan h¾ trên chúng de tang tính hi¾u quá cho vi¾c xác
d%nh CTÐTNN là rat quan trong. Ðong thòi, các ky thu¾t so trùng mà
lu¾n án de xuat trong mô hình xác d%nh CTÐTNN, cung nhv ket quá
cúa mô hình này se dvoc phân tích dánh giá.
Còn hvóng tiep c¾n rút trích CTÐTNN, vói mnc tiêu là giái quyet
trvòng hop các cnm tù dn tuyen không có khái ni¾m tvong úng

trong Ontology, lu¾n án dã de xuat mô hình rút trích CTÐTNN
trong tieng Vi¾t là ViKEe. Ðe xây dnng mô hình này, lu¾n án di
theo hvóng tiep c¾n hoc máy có giám sát cn the là phvong pháp
SVMs de giái quyet bài toán thieu kho ngu li¾u có chú giái lón
trong quá trình huan luy¾n.
Chvong 4. MÔ HÌNH XÁC бNH CUM T٠оC
TRUNG NGU NGHIA TRONG TIENG VI½T (ViKEa) PHUÐNG PHÁP SO TRÙNG MAU DUA TRÊN ONTOLOGY

gom nhãn tù loai (pos), nhãn gom cnm IOB (chunk) và tù. Kho ngu
li¾u XML này có dang nhv sau:
<vnWord pos="Np" chunk="I">Vi¼t Nam</vnWord>
<vnWord pos="Vb" chunk="O">bã tré thành</vnWord>
<vnWord pos="Nc" chunk="I">thành viên</vnWord>
<vnWord pos="Cm" chunk="O">cúa</vnWord>
<vnWord pos="Np" chunk="I">WTO</vnWord>
<vnWord pos="." chunk="O">.</vnWord>

Trong dó: I: tù ó trong cnm tù; O: tù ó ngoài cnm tù; B: tù bat
dau cúa cnm tù neu trvóc dó có cnm tù khác lien ke.
Kho ngu li¾u này dvoc chia thành hai t¾p riêng bi¾t dùng de huan
luy¾n (goi là t¾p C2) và thú nghi¾m (goi là t¾p C1) vói tý l¾ tvong
úng là 60% và 40%.
T¾p ngu li¾u
C2
C1

Báng 5.1: Kho ngu li¾u.
So lvong tù
So lvong câu
61.435

4.137
10.229
2.079

So cnm tù
12.785
3072

5.2.5.3 Xây dnng mô hình cho SVMs

4.1 Giói thi¾u
Nhv dã tháo lu¾n trong chvong 3, m¾c dù các CTÐTNN dvoc rút
trích tn d®ng theo hvóng xác d%nh CTÐTNN có d® chính xác khá cao
nhv Hulth dã công bo (Hulth, 2004). Nhvng de dat dvoc ket quá dó,
hvóng tiep c¾n này can m®t co só tri thúc hay Ontology có tính khái
quát, chính xác và có các moi quan h¾ trên chúng de tang tính hi¾u
quá cho vi¾c xác d%nh CTÐTNN. Nói m®t cách khác, vi¾c nghiên
cúu và phát trien m®t co só tri thúc hay ontology tieng Vi¾t là rat
quan trong và can thiet.
Trong chvong này, lu¾n án chí trình bày mô hình rút trích cnm
danh tù d¾c trvng ngu nghia theo hvóng xác d%nh CTÐTNN dna
trên có só tri thúc và phvong pháp so trùng mau dvoc goi là ViKEa
(Hình 4.1).
Phan còn lai cúa chvong dvoc to chúc thành ba phan: Phan 4.2
trình bày công doan rút trích cnm danh tù dn tuyen bang phvong
pháp so trùng mau dna trên t¾p mau nh¾n dang các cnm danh tù co
-18-

Do các vu diem cúa giái thu¾t SMO trong vi¾c huan luy¾n cho
SVMs (Jones, 2001), nên lu¾n án áp dnng nó de huan luy¾n t¾p du

li¾u tao ra m®t mô hình dùng trong quá trình phân lóp.
Ý tvóng cúa giái thu¾t này là trong moi bvóc huan luy¾n lay 2 diem
mau trong t¾p huan luy¾n thóa dieu ki¾n chon cúa heuristic de tìm
các giá tr% a1, a2 tvong úng c¾p nh¾t vào vecto a sao cho thóa ràng
bu®c tuyen tính xuyên suot quá trình giái thu¾t:
l

) y
i 1

i

i

0

Heuristic dùng de chon hai giá tr% a1, a2 tai moi bvóc l¾p, thnc hi¾n
tiep c¾n 2 vòng l¾p: vòng l¾p ngoài chon lna a1, vòng l¾p trong chon
a2.
- Vòng l¾p ngoài xen ke giua m®t lan duy¾t qua toàn b® du li¾u và
l¾p lai nhieu lan trên các t¾p con không thu®c biên (0 < a1 < C) cho
den khi toàn b® t¾p du li¾u huan luy¾n thóa dieu ki¾n KKT ó (5.21).

-35-


×