Tải bản đầy đủ (.doc) (77 trang)

Tìm kiếm văn bản tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (454.8 KB, 77 trang )

MỤC LỤC
LỜI MỞ ĐẦU ................................................................................................ 1
PHẦN I. CƠ SỞ LÝ THUYẾT ................................................................. 3
I.TIẾNG VIỆT VÀ NGỮ PHÁP TIẾNG VIỆT ____________________ 3
1.Tính chính xác của văn bản tiếng Việt........................................................3
2. Từ tiếng Việt..................................................................................................4
2.1. Từ đơn_từ ghép......................................................................................5
2.2. Từ loại...................................................................................................6
2.3. Dùng từ cấu tạo ngữ...............................................................................7
3. Câu tiếng Việt ................................................................................................ 7
3.1 Câu đơn..................................................................................................8
4. Các đặc điểm của tiếng Việt .....................................................................10
4.1 Đặc điểm chính tả.................................................................................11
4.2 Vấn đề đa nghĩa và nhập nhằng trong ngôn ngữ....................................12
II. MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU VĂN BẢN ................ 13
1. Biểu diễn văn bản........................................................................................13
Sinh từ ( Term Generation).........................................................................14
Lọc từ (Term Filter)....................................................................................15
2. Các kỹ thuật khai phá................................................................................15
2.1. Khai phá các luật kết hợp (Association Rules)......................................16
2.2. Lập chỉ mục tự động (Auto indexing)...................................................17
3. Phân nhóm văn bản....................................................................................18
III. MỘT SỐ PHƯƠNG PHÁP TÌM KIẾM VĂN BẢN ____________ 20
1. Tìm hiểu chung về các hệ thống khai thác thông tin..............................20
2. Tìm kiếm văn bản theo mô hình không gian vectơ.................................21
2.1 Độ chính xác và độ truy hồi.................................................................21
2.2 Bảng tần xuất. ......................................................................................23
2.3 Chỉ dẫn ngữ nghĩa tiềm ẩn (Latent Sematic Indexing LSI)....................25
2.4.Tìm kiếm tài liệu dùng SVD..................................................................32
2.5. TV_Tree...............................................................................................33
2.5.1. Thiết lập TV_Tree ....................................................................................... 33


2.5.2.Chèn vào TV_Tree ....................................................................................... 34
2.5.3.Tìm kiếm trên TV_Tree ................................................................................ 36
3. Tìm kiếm văn bản theo mô hình tập thô dung sai..................................38
3.1 Khái niệm tập thô và không gian dung sai ......................................39
3.2 Mô hình tập thô dung sai (TRSM) trong việc khai thác thông tin ..........41
3.2.1 Không gian dung sai: .................................................................................. 41
3.2.2 Giải thuật tìm kiếm văn bản sử dụng TRSM ............................................... 44
Else ..................................................................................................................... 45
3.3 Hàm xếp hạng chính và xếp hạng phụ trong việc đánh giá mức độ chính
xác của tài liệu............................................................................................46
PHẦN II. PHƯƠNG ÁN GIẢI QUYẾT VÀ CÀI ĐẶT THỬ NGHIỆM 49
I. PHƯƠNG ÁN GIẢI QUYẾT ________________________________ 49
Cơ sở dữ liệu .............................................................................................. 55
quan h ệ dung sai ........................................................................................ 55
Các xấp xỉ dươi ........................................................................................... 55
II. CÀI ĐẶT THỬ NGHIỆM _________________________________ 56
1. TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT ................................................... 56
1.1 Tổ chức từ điển ..................................................................................... 56
1.2. Tổ chức cơ sở dữ liệu văn bản .............................................................. 57
1.3. Xác định các từ khoá trong văn bản ...................................................... 58
2. Xử lý dữ liệu để phục vụ cho mô hình tìm kiếm văn bản bằng phương
pháp tập thô dung sai. .................................................................................... 60
Tính không gian dung sai và các xấp xỉ trên và xấp xỉ dưới ........................ 60
3. Tìm kiếm văn bản sử dụng mô hình tập thô dung sai ............................ 68
HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LAI ...................................... 71
TÀI LIỆU THAM KHẢO. ......................................................................... 73
MỤC LỤC HÌNH
Hình 1: Mô hình xác định từ đại diện cho văn bản..................................13
Hình 2: Truy vấn văn bản .........................................................................21
Hình 3: Thu nhỏ kích thước qua SVD......................................................28

Hình 4. Kiến trúc của hệ thống..................................................................55
Hình 5: Tổ chức lưu trữ từ điển.................................................................57
Hình 6: Sơ đồ lưu trữ cơ sở dữ liệu văn bản.............................................58
Hình 7:Giao diện ứng dụng tách từ có nghĩa cho văn bản......................59
Hình 8: Giao diện thực hiện tính không gian dung sai cho các term.....65
Hình 9: Giao diện thực hiện tính xấp xỉ trên và dưới cho các văn bản..68
Hình 10: Giao diện phục vụ tìm kiếm văn bản.........................................69
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
LI M U
Chỳng ta bit rng ngun ti nguyờn c lu tr di dng d liu vn bn
l rt rng ln v giu thụng tin nhng vic khai thỏc ngun d liu ny vn cha t
hiu qu cao. Hin nay, trờn th gii ó cú khỏ nhiu h thng thc hin cụng vic
ny theo nhng phng phỏp khỏc nhau tuy cha t c hiu qu ti u nhng
cng phn no ỏp ng c cỏc yờu cu thụng tin ca ngi s dng. Mi phng
phỏp khỏc nhau u th hin c nhng im mnh riờng ca nú v vic la chn
phng phỏp no ph thuc vo nhng mc ớch v tiờu chớ riờng t ra.
Hin nay, s gia tng ca cỏc phng tin truyn thụng trong vic lu tr v
s bựng n ca cỏc c s d liu ln lm cho vic tỡm kim vn bn cng tr nờn
quan trng hn bao gi ht. Chớnh vỡ vy, vic la chn phng phỏp tỡm kim vn
bn giỳp cho ngi s dng cú th tỡm kim c nhng thụng tin cn thit mt cỏch
chớnh xỏc hiu qu t ngun ti liu vn bn rng ln phc v cho cỏc mc ớch
trong cụng vic cng nh trong i sng l rt cn thit. Nhn thc c tm quan
trng ca vic khai thỏc d liu vn bn, em ó la chn ti: Tỡm kim vn bn
ting Vit.
Vi ti ny em i sõu vo nghiờn cu vic tỡm kim vn bn ting Vit s
dng lý thuyt tp thụ tp thụ dung sai (Tolerance Rough Set Model). õy cng l
mt trong nhng phng phỏp rt hiu qu cho mc ớch khai phỏ d liu cng nh
tỡm kim vn bn ting Vit vỡ nú ó phn no gii quyt c vn ng ngha

trong ting Vit m t trc cho ti nay vn cha cú mt bin phỏp no gii quyt tt
cho vn ng ngha. õy l mt ti tng i rng v phc tp nhng thi gian
nghiờn cu khụng nhiu, s hiu bit trong lnh vc ny cũn b hn ch nờn ỏn tt
nghip ny s khụng trỏnh khi nhng thiu sút. Em rt mong nhn c s úng
gúp, ch bo thờm ca thy cụ v cỏc bn c ỏn ny hon thin v hu ớch
hn trong thi gian ti.
Em xin chõn thnh cm n TS. Nguyn Kim Anh. Cụ ó m ra cho em hng
nghiờn cu v tỡm kim vn bn ting Vit ng thi cụ ó tn tỡnh hng dn em
trong sut quỏ trỡnh lm ỏn.
Trịnh Đức Cờng Trang 1
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
anh Lu Anh Tun v anh Lờ Minh Hin nhng ngi ó tn tỡnh giỳp em
trong quỏ trỡnh lm ỏn. Tụi cng xin cm n cỏc bn hc cựng khoa ó úng gúp ý
kin cho tụi hon thnh ỏn mt cỏch tt hn.
Trịnh Đức Cờng Trang 2
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
PHN I. C S Lí THUYT
I.TING VIT V NG PHP TING VIT
1.Tớnh chớnh xỏc ca vn bn ting Vit
Khi nghiờn cu v vn bn ting Vit chỳng ta gp rt nhiu khú khn trong
vic tin hc hoỏ phc v cho vic khai phỏ ngun d liu vn bn ting Vit. Mt
trong nhng khú khn ú chớnh l ng phỏp ting Vit. phõn tớch v kim tra tớnh
chớnh xỏc ca mt vn bn ting Vit, chỳng ta phi tin hnh phõn tớch t vng,
phõn tớch cỳ phỏp, phõn tớch ng ngha, v phõn tớch chng thc.
Phõn tớch t vng: Quỏ trỡnh ny nhm phõn tớch hỡnh thỏi ca cỏc t to
nờn cõu t ú kim tra c tớnh ỳng n ca õm tit v t.

Phõn tớch cỳ phỏp: Quỏ trỡnh ny a ra mụ t v quan h v vai trũ ng
phỏp ca cỏc t trong cõu ng thi a ra hỡnh thỏi ca cõu. u vo ca giai on
ny l cõu ó c phõn tỏch t, trong ú mi t cú c im hỡnh thỏi nht nh.
Quỏ trỡnh kim tra cỳ phỏp tin hnh phõn tớch v t hp cỏc t u vo, da trờn
cỏc lut cỳ phỏp loi b cỏc trng hp bt quy tc v tng bc dng lờn cu
trỳc cỳ phỏp ca cõu. u ra ca giai on ny l hỡnh thỏi cõu. Cỏc lut cỳ phỏp
thng c xõy dng theo c ch m, ngha l cú th sa i, b sung hay loi b
cỏc lut tha. Kt qu ca bc phõn tớch cỳ phỏp ph thuc rt nhiu vo tớnh
chớnh xỏc v y ca cỏc lut cỳ phỏp.
Phõn tớch ng ngha: Mc ớch ca quỏ trỡnh ny l kim tra ý ngha ca
cõu cú mõu thun vi c on hay khụng? Da trờn mi quan h logic v ngha gia
cỏc cm t trong cõu v mi quan h gia cỏc cõu trong on, h thng s xỏc nh
c mt phn ý ngha ca cõu trong ng cnh ca c on. u vo ca giai on
phõn tớch ng ngha l tp cỏc kh nng phõn tớch cõu v thụng tin v ng ngha ca
tt c cỏc t. Cỏc thc t thng cú nhiu ngha v ngha ca nú ch c xỏc nh
duy nht trong mi quan h gii thớch vi cỏc t khỏc trong cõu.
Trịnh Đức Cờng Trang 3
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
Mt cỏch tip cn c nhiu ngi quan tõm l s dng logic v t biu din
thụng tin ng ngha. Thụng tin ng ngha c lu tr ging nh thụng tin cỳ phỏp.
Cỏc phng phỏp lp lun logic cú th dựng phng oỏn v suy lun nhiu thụng
tin hn da trờn thụng tin u vo. Cỏc thụng tin ny khụng cn phi phõn loi
(nhn giỏ tr ỳng hay sai). Mụ hỡnh cu trỳc ng phỏp ca cõu l cu trỳc cú y
ngha ng phỏp v thụng bỏo. Cú hai cỏch miờu t:
Miờu t cỏc quan h cỳ phỏp gia t v t hp t.
Miờu t mụ hỡnh hay ý ca cõu. Vic miờu t nhm cho phộp suy oỏn c
ý ca cỏc b phn ln hn t t ú xỏc nh ý ca cõu. Cõu l mt th trn vn ch
khụng phi l tng cỏc b phn cu thnh nú. í ca cõu l tớch ý ngha cỏc yu t

tham gia cựng vi ý ngha quan h tng th cu trỳc cõu. T l mt t hp ca cõu,
trong t th hin mt phn ý ca cõu. Nhng t khụng nht thit phi hin din
trong cõu vi ngha m nú cú khi úng vai trũ mt n v c lp cp khỏc.
Da trờn mụ hỡnh cu trỳc cỳ phỏp cõu, ta cú th nhn din cu trỳc chỡm ca cõu
(nh hnh ng-ch th hnh ng, hnh ng - i tng hnh ng), giỳp gii
thớch c ý ngha ca cõu v vch ra tớnh a ngha ca chỳng.
Phõn tớch thc chng: Quỏ trỡnh ny xỏc nh ý ngha cõu da trờn mi
quan h ca cõu vi hin thc. í ngha thc t ca cõu ph thuc ph thuc rt
nhiu vo ý, t v ng cnh din ra li núi. Do vy, quỏ trỡnh phõn tớch thc chng
rt khú thc hin bng mỏy tớnh thụng thng, vic phõn tớch cõu ch dng mc
phõn tớch phõn tớch ng ngha, cũn vic phõn tớch thc chng do ngi dựng quyt
nh.
2. T ting Vit
Trong phm vi cu to t, phng tin ch yu v ng phỏp chớnh l s kt
hp cỏc ting. Trt t sp xp cỏc ting cú vai trũ qua trng trong cu to t. Kt
hp cỏc phng tin ny. Cú hai phng thc cu to t ch yu ú l lỏy v ghộp.
Lỏy l vic sp t cỏc ting thnh ụi, k cn nhau, cú s phi hp v ng õm to
nờn ngha. Cũn ghộp l vic sp t cỏc ting thnh ụi, k cn nhau, cú s kt hp
v ng ngha to nờn ngha ca t ghộp.
Trịnh Đức Cờng Trang 4
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
2.1. T n_t ghộp.
T trong ting Vit cú th l mt ting hay gm nhiu tin. Hn na, trong
ting Vit nhng t nhiu ting cú th c ghộp bi nhng ting hay t khỏc cú
ngha. Vớ d nh hai t ch mt ting ú l t t, nc cú th c ghộp vi
nhau thnh mt t cú ngha tru tng hn l ú l t t nc. Nhng t ny
gi l t ghộp.
Do s tn ti ca nhng t n (l nhng t mt ting) v t ghộp, chỳng ta

phi tin hnh nghiờn cu cú th xut nhng phng ỏn hu hiu trong bi
toỏn nhn dng t trong cõu.
Khi xem xột t ghộp, chỳng ta cú th thy cú hai loi nh sau:
T ghộp song song: Mi ting thng l mt ting cú ngha, cú th dựng l
t mt ting, gn bú vi nhau theo quan h song song v núi chung cú th i ch
cho nhau. Trong s phi hp v ng ngha thỡ thng cú s bin i v ngha riờng
thnh mt ngha hỡnh tng.
Vớ d: n ung, bn gh, nh ca
T ghộp chớnh ph: Mi ting cú th cú mt ting cú ngha, nhng thụng
thng cú mt ting cú th dựng lm t cũn ting kia khụng cú chc nng ng phỏp
ú.
Ting Vit tn ti mt s cỏc cỏc t ghộp cú nhiu hn hai ting, phỏt trin t
loi t ghộp chớnh ph, qua ú cú th chia thnh cỏ phn chớnh, phn ph, thun tin
hn trong vic phõn tớch t. Chớnh s tn ti ca t ghộp (ghộp bi cỏc ting cú
ngha) l nguyờn nhõn ca s nhp nhng v ngha ca cõu. Do vy, trỏnh s
nhp nhng v ngha trong cõu, mun phõn tớch v x lý vn bn ting Vit mt
cỏch tt nht thỡ bi toỏn t ra l lm th no tỏch cỏc t trong cõu tht chớnh
xỏc.
Trịnh Đức Cờng Trang 5
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
2.2. T loi
Trong ting Vit, t c phõn ra thnh nhiu t loi khỏc nhau. Trong ti
liu T loi danh t trong ting Vit hin i ca tỏc gi Nguyn Ti Cm ta thy
xut hin cỏc t loi c bn sau:
Danh t: bn, gh, vi vúc, khoa hc, k thut,
ng t: i, ng, nghiờn cu, chm súc,
Tớnh t: núng, p, p , vui v, bun,
i t: tụi, h, nú,

S t: mt, hai, ba,
Loi t: con, cỏi,
Quỏn t: cỏc, nhng,
Trng t: trờn, di, trong, ngoi,
Liờn t v, hay, nu, tuy,
Gii t: cựng, vi, bng, ,
Phú t: ó, s, khong, rt,
Tr t: nh, nhộ, thỡ m,
Tt nhiờn trong vic phõn loi trờn ch cú ý ngha tng i, vỡ trong nhiu
ti liu khỏc nhau vn cú s khỏc nhau v cỏch phõn chia theo t loi. Nu xem xột
mt cỏch k lng hn na v mt cỳ phỏp, trong mi loi t cũn cú th chia nh
hn c na.
Trịnh Đức Cờng Trang 6
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
2.3. Dựng t cu to ng
Ng l n v ng phỏp trung gian gia t v cõu. Cho nờn vic tỡm hiu cu
to cng nh cỏc loi ng l cn thit tỡm hiu cu to ca cõu. Qua cu to ng,
cú th nhn rừ thờm c im ng phỏp ca t loi.
Theo Ng phỏp ting Vit-cõu ca tỏc gi Hong Trng Hiu, ting
Vit cú cỏc ng loi c bn sau:
Danh ng: Ng cú danh t lm trung tõm.
ng ng: Ng cú ng t lm trung tõm.
Tớnh ng: Ng cú tớnh t lm trung tõm.
Gii ng: Ng bt u bng gii t.
xõy dng c mt h thng lut cỳ phỏp tt, ta cn phi chia cỏc loi
ng mt cỏch cht ch hn. V do vy, ta cng hn ch s lng cõu sai. Chng
hn, danh ng kt thỳc trỏi (l danh ng m v trỏi ca nú ó im tn cựng), ta
khụng th thờm hay b sung t no vo u to nờn danh ng mi.

Vớ d mt bi toỏn; ta khụng th b sung cỏc, nhng, vo trc ng
ú.
3. Cõu ting Vit
Cõu l n v dựng t, hay ỳng hn l dựng ng m cu to nờn trong quỏ
trỡnh t duy. Xột v mt cu trỳc cõu, ting Vit cú hai loi cõu l cõu n v cõu
ghộp.
Trịnh Đức Cờng Trang 7
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
3.1 Cõu n
Cõu n l loi cõu c s ca ting Vit, nú bao gm mt nũng ct n hay
mt kt cu ch v. V mt ng ngha, Cõu n mang ng ngha t thõn, cũn cõu
ghộp mang ngha kt hp. Cõu n cú th l cõu khng nh, cõu ph nh, cõu nghi
vn, cõu tng thut, cõu cu khin, cõu biu cm.
Vớ d:
Nú hc rt gii.
Nú khụng hc gii.
Nú hc cú gii khụng?
Nú ang i n trng.
Em i hc i!
Em mi hc gii lm sao!
Nũng ct ca cõu n l mt kt cu ch v. Ngoi ra cõu n cũn cú cỏc
thnh phn nũng ct khỏc nh:
Thnh phn than gi. Vớ d Bn i, chỳng ta i no.
Thnh phn chuyn tip. Vớ d Anh Trng, trỏi li, khụng lm gỡ c.
Thnh phn chỳ thớch. Vớ d Nú, em tụi, rt thụng minh.
Thnh phn tỡnh hung. Vớ d Trong mỏy tớnh, d liu dng nh
phõn.
Thnh phn khi ý. Vớ d Thuc, anh y khụng hỳt.

din t mt cõu n, ngi ta thng dựng mụ hỡnh suy din:
Cõu n Px Cx Vx Bx.
Trong ú P: Thnh phn ph
C: Ch ng
V: V ng
B: B ng, nh ng.
Trịnh Đức Cờng Trang 8
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
x: thnh phn cú th trin khai tip.
3.2 Cõu ghộp
V mt ng phỏp, cõu ghộp bao gm b phn ch yu l mt nũng ct ghộp,
c to nờn bi ớt nht hai v v mi v thng bao gm mt nũng ct n. Tuy
rng, cõu n ch cú mt nũng ct n nhng khụng phi bao gi cõu n cng
ngn hn cõu ghộp. Ngi ta cú th chia cõu ghộp thnh hai loi: Cõu ghộp song
song v cõu ghộp qua li.
Cõu ghộp song song: L loi cõu cú th cú hai hay nhiu hn hai v. Tuy
nhiờn, s liờn kt gia cỏc v lng lo, cú th tỏch thnh cỏc cõu n m vn bo
ton ngha. Cú trng hp cỏc v cú quan h s dng kt t, tuy nhiờn ý ngha c
lp ca cỏc v vn tng i rừ rng.
Vớ d:
Khỏn gi hũ reo, cuc u din ra tht sụi ng v chỳng tụi mun i ch
nh s thng.
Cõu ghộp qua li: L loi cõu cú hai v v v ny l iu kin tn ti ca v
kia. Cú c hai v thỡ cõu mi cú ý ngha trn vn. Ni gia cỏc v l cỏc kt t,
thụng thng ngi ta dựng c cp kt t. Ta cú th biu din cõu ghộp nh sau:
Cõu ghộp xN1 + yN2
Mt trong cỏ kt t cú th c loi b. Ta cú mt s vớ d sau:
(Bi) vỡ N1 nờn (hoc m N2)

N1 (cho) nờn (hoc m) N2
Nu N1 thỡ N2
Khụng nhng N1 m cũn N2
Tụi i thỡ nú s bun.
Vỡ ph ngon nờn ca hng ca nú mi ụng khỏch n th
3.3 Cỏc thnh phn ca cõu
Ch ng: Thnh phn ch yu ca cõu.
Trịnh Đức Cờng Trang 9
§å ¸n tèt nghiÖp

T×m kiÕm v¨n b¶n tiÕng ViÖt
Vị ngữ: Thành phần chính, bổ sung, giải thích ý nghĩa cho thành phần
chủ yếu.
Trạng ngữ: Thành phần chủ yếu, bổ sung ý nghĩa cho câu, chỉ nơi
chốn, thời gian, không gian, …
Bổ ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho động từ làm vị
ngữ.
Định ngữ: Thành phần phụ thuộc, bổ sung ý nghĩa cho vị ngữ.
4. Các đặc điểm của tiếng Việt
TrÞnh §øc Cêng Trang 10
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
4.1 c im chớnh t
Chớnh t ting Vit ó cú mt h thng cỏc quy tc chun mc. Tuy vy, vn
cũn cú mt s t tn ti nhiu cỏch vit khỏc nhau. Ngay c bn thõn mt ngi
cng cú lỳc vit th ny, cú lỳc li vit khỏc. S sai khỏc ny l do nhng nguyờn
nhõn sau:
Nhng t ng õm: y/i (k thut/ k thut, bỏc s/ bỏc s), d/gi (dụng bóo/
giụng bóo)

Phng ng: chớnh ỏng/ chỏnh ỏng
V trớ du trong mt nguyờn õm: cu ho/ cu ha
Cỏch vit hoa tu tin i vi danh t riờng: Tn ti nhiu cỏch vit khỏc
nhau vớ d nh Vit nam / Vit Nam
Phiờn õm nc ngoi: l hỡnh thc bin ch ngoi quc thnh ch a
phng. Nhng hin nay tn ti c hai cỏch vit ú l phiờn õm hoc khụng phiờn
õm. Vớ d singapo / sing-ga-po
Du gch ni thng xut hin cỏc t a õm nc ngoi du nhp vo Vit
Nam. Vớ d nh: Portugal c dch l B o Nha / B-o-Nha.
Cỏc cỏch vit khụng thng nht s gõy rt nhiu khú khn trong vic kim
tra chớnh t cng nh ỏp dng kim tra chớnh t t ng bng mỏy tớnh.
Trịnh Đức Cờng Trang 11
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
4.2 Vn a ngha v nhp nhng trong ngụn ng
Phõn tớch cỳ phỏp cho ta im khi u tỡm ra ý ngha ca ton b cõu.
Khi ch cú mt cỏch phõn tớch thỡ vic tỡm ra ý ngha ca cõu l vic khỏ n gin.
Nhng khi cú nhiu cỏch phõn tớch thỡ vic tỡm ra ý ngha tht ca cõu l mt cụng
vic khú khn.
Vớ d cõu: Tụi nghe nú ra thnh ph. Cõu ny cú hai cỏch phõn tớch sau:
Tụi
(l ch ng)
// nghe
( l ng t)
// nú ra thnh ph
( l b ng)
Tụi
(ch ng)
// nghe nú

(thnh phn gii thớch)
// ra thnh ph
Cỏch phõn tớch th nht thỡ i tng ra thnh ph l Tụi
Cỏch phõn tớch th hai thỡ i tng ra thnh ph l nú
Nhng cõu nh th gi l nhp nhng cỳ phỏp. S nhp nhng cỳ phỏp s gõy
khú khn trong quỏ trỡnh phõn tớch.
Trịnh Đức Cờng Trang 12
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
II. MT S K THUT KHAI PH D LIU VN BN
1. Biu din vn bn
Nh chỳng ta ó bit, bi toỏn khai phỏ d liu vn bn l i phỏt hin
cỏc tri thc cũn tim n trong d liu vn bn. Cỏc tri thc ú cú th l mt mu
hỡnh hoc c biu din di dng lut. ú thc cht l cỏc biu din cú cu trỳc.
Tuy nhiờn d liu m chỳng ta ỏp dng cỏc k thut khai phỏ lai l d liu phi cu
trỳc. Chớnh vỡ iu ny lm cho chỳng ta khụng th ỏp dng trc tip trờn d liu
u vo m cn phi cú cỏc thao tỏc tin x lý khỏc.
Vi yờu cu phõn tớch sõu hn cỏc vn bn, mi ti liu cn c
chuyn sang mt dng ngụn ng biu din li no ú. Mt trong cỏc ngụn ng biu
din li c s dng rng rng rói nht i vi cỏc vn bn l kiu lp ch mc
theo t i din. Khi xem mt vn bn ta quan tõm n t i din. ú chớnh l mt
t hay mt cm t c la chn biu din ý ngha hay c trng ca vn bn.
Do vy, mt vn t ra l lm th no trớch lc cỏc t i din cho vn
bn mt cỏch chớnh xỏc v c trng cho vn bn. Vic trớch lc cỏc t i din cho
vn bn l mt khõu quan trng trong vic gii quyt bi toỏn khai phỏ d liu vn
bn.
Mụ hỡnh di õy nhm xỏc nh cỏc t i din cho vn bn mt cỏch t
ng.
Hỡnh 1: Mụ hỡnh xỏc nh t i din cho vn bn

Trịnh Đức Cờng Trang 13
B c
(reader)
Phõn tớch
cỳ phỏp
Sinh t Lc tVn bn
§å ¸n tèt nghiÖp

T×m kiÕm v¨n b¶n tiÕng ViÖt
Sinh từ ( Term Generation)
Văn bản sau khi qua bộ phân tích cú pháp có thể đã thu được khá chính xác
các từ trong văn bản. Tuy nhiên, không phải từ nào cũng được chọn làm từ đại diện
cho văn bản. Chúng ta phải loại bỏ các từ mang ít thông tin. Trong bước sinh từ đại
diện, chuỗi các từ đại diện chọn làm ứng cử viên tiềm năng dựa trên mẫu hình thái
cú pháp như: “Danh từ - Danh từ”, “Tính từ - Danh từ”…
Sau khi đã có một chuỗi các ứng cử viên, ta tiến hành nối các từ đại diện này
thành các từ đại diện đơn (single term) mới, quá trình này được thực hiên qua nhiều
vòng lặp. Tại mỗi vòng lặp, ta tính hệ số kết hợp (association coeffcient) giữa mỗi
cặp từ đại diện kề nhau. Nếu cặp từ nào có hệ số kết hợp đủ lớn sẽ được nối lại
thành một từ đại diện mới.
Có hai vấn đề đặt ra, thứ nhất là những mẫu hình thái – cú pháp nào được
sử dụng để tiến hành lập danh sách các từ đại diện tiềm năng, thứ hai là hệ số kết
hợp được tính như thế nào.
Đã có rất nhiều nghiên cứu về các mẫu hình thái – cú pháp, việc sử dụng các
mẫu nào để có thể trích các từ đại diện từ văn bản. Hiện nay, người ta thường sử
dụng một số mẫu hình như “Danh từ- Danh từ”, “Động từ - Danh từ”, “Danh từ -
Kết từ - Dang từ” để có thể trích được các từ đại diện dạng như: Khai phá dữ liệu,
Quản trị doanh nghiệp, quản lý nhân sự…
Tuy nhiên, không phải bất cứ tổ hợp từ nào phù hợp với mẫu hình hình thái
– cú pháp đều có thể được chọn. Chỉ những cụm từ có hệ số kết hợp đủ lớn mới

được đưa vào danh sách những từ đại diện có nhiều tiềm năng. Có nhiều cách tính
hệ số kết hợp, trong đó người ta thường sử dụng một hàm tính độ đo đồng xuất
hiện, tính số lần hai từ cùng xuất hiện theo mẫu hình thái – cú pháp trong văn bản.
TrÞnh §øc Cêng Trang 14
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
Lc t (Term Filter)
Bc sinh t c mụ t trờn to ra mt danh sỏch rt di cỏc t i din,
danh sỏch ny c gn vi mi ti liu m khụng quan tõm n mi liờn h trờn
ton b cỏc tp vn bn. Trong khi ú, bc chit xut t i din (term extraction)
ch cú ý ngha l chun b cho cỏc k thut khai phỏ d liu vn bn khỏc, gii quyt
cỏc bi toỏn lm vic trờn mt tp ln cỏc ti liu nh phõn lp vn bn, phõn loi
vn bn, tỡm kim vn bndo ú mi tng quan gia cỏc t chit xut c v
tp vn bn phi c lu ý n. Ngng kt hp m ta chn trờn cú th to ra
mt danh sỏch rt di cỏc t i din nhiu hn mong i, d tha, khụng cú hiu
qu khi xột trờn ton b tp vn bn. Mc ớch ca pha lc t ny l thu gn tp t
i din da vo tn xut ca mi t trờn ton b tp vn bn. Pha lc t s tỡm v
loi b cỏc t i din khụng ỏng quan tõm trờn ton b ng cnh ca ton b tp
vn bn, hoc tn xut ca t ú cha ln (cha vt qua ngng) hoc s phõn
b khụng ng u trờn ton b tp vn bn.
Cỏch tip cn ca chỳng ta l s dng mt hm thng kờ cho im trờn cỏc
t. Hm ny gỏn im cho mi t da trờn tn xut ca t ú trờn ton b vn bn
núi chung v phõn b xỏc xut trờn mi vn bn núi riờng. Chỳng ta s tin hnh
chn nhng t cú s im vt ngng M (do ngi s dng chn qua thc
nghim), tp ny s c s dng cho cỏc k thut khai phỏ d liu vn bn s c
trỡnh by phn sau.
2. Cỏc k thut khai phỏ
Cỏc bi toỏn thng c quan tõm trong khai phỏ d liu vn bn l Phõn
loi vn bn (text categorization), Phõn lp vn bn (text classification), lp ch mc

tỡm kim (text indexing). Cỏc bi toỏn ny u phi da vo mt yu t vụ cựng
quan trng l nhng mu hỡnh tri thc (patterns) hoc cỏc lut m chỳng ta khai phỏ
c t tp vn bn luyn (training document). Trong phn ny, ta s xem xột
mt s nhng k thut dựng khai phỏ tri thc t tp cỏc vn bn nh phỏt hin
cỏc lut kt hp (association rules discovery), lp ch mc t ng (automated
indexing)
Trịnh Đức Cờng Trang 15
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
2.1. Khai phỏ cỏc lut kt hp (Association Rules)
Nu d liu dng vn bn ó c lp ch mc, vi mc ớch tr giỳp cho
quỏ trỡnh x lý ngụn ng t nhiờn, cu trỳc ch mc (indexing structure) cú th c
s dng cho quỏ trỡnh phỏt hin tri thc chớnh xỏc t d liu vn bn.
Trong phn ny, chỳng ta xem xột cỏch tỡm kim thụng tin trong mt tp cỏc
ti liu ó c lp ch mc bng cỏch tỡm kim (retrieveing) mt cỏch t ng
nhng mi quan h kt hp gia cỏc t khoỏ (key-word), c gi l lut kt hp
(association rule).
Trịnh Đức Cờng Trang 16
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
2.2. Lp ch mc t ng (Auto indexing)
Trong hu ht cỏc trng hp lp ch mc, ngi ta vn thc hin mt cỏch
th cụng. Rừ rng thao tỏc lp ch mc th cụng ũi hi rt nhiu thi gian v khụng
ỏng tin cy. Vic lp ch mc t ng trờn c s ti liu vn bn cú th c xem
xột vi mc ớch cho phộp s dng cỏc k thut chit xut lut kt hp trờn mt din
rng. Cỏc k thut lp ch mc t ng cú th s dng s gỏn trng s nh sau:
Trong ú: w
i,j

l trng s ca t khoỏ t
j
trong ti liu d
i,
N l s lng ti liu trong tp ti liu v n
j
l s lng ti liu cú
cha t khoỏ t
j.


p
ij
l tn s li liu liờn quan ca t
j
trong d
i
v c tớnh theo cụng
thc sau:
Trong ú: f
i,j
l s ln xut hin t khoỏ t
j
trong ti liu d
j
Khi mt s ỏnh trng s c la chn thỡ vic ỏnh ch mc t ng cú
th c thc hin nh l phộp la chon n gin, trong ú cỏc t c la chn
tho món rng buc trong s ó cho.
Li ớch ca vic lp ch mc t ng l rỳt gn c chi phớ ca vic lp ch
mc. Tuy nhiờn, mt trong nhng nhc im ca phng phỏp ny l do khụng cú

thờm bt k mt tri thc (vớ d nh t in xp loi ng ngha) nờn th tc lp ch
mc t ng to ra cỏc ch mc chung chung, khụng thc s mnh m, cht ch,
hng ch .
Trịnh Đức Cờng Trang 17
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
3. Phõn nhúm vn bn
Vi nhim v ca bi toỏn khai phỏ d liu vn bn l tỡm kim nhng thụng
tin cũn tim n trong trong c s d liu. Vi nhng c s d liu ln vn t ra
l cỏc h thng tỡm kim sao cho cú hiu qu, mt trong nhng k thut ch yu l
phõn nhúm vn bn nhm gii quyt vn trờn.
Trong bi toỏn phõn nhúm, mt nhúm l tp hp cỏc phn t ging nhau hn
so vi cỏc phn t thuc nhúm khỏc. Mc tiờu ca bi toỏn phõn nhúm l tỡm ra
c mt tp cỏc nhúm sao cho tng ng gia cỏc thnh phn bờn trong mi
nhúm cao v tng ng gia cỏc phn t thuc cỏc nhúm khỏc nhau thp.
Phng phỏp phõn nhúm phõn cp.
i vi phng phỏp phõn nhúm phõn cp, quỏ trỡnh xõy dng phõn
cp thng cú chi phớ ln nht. ó cú rt nhiu thut toỏn c phỏt trin nhm xõy
dng cõy phõn cp vn bn mt cỏch cú hiu qu. Cỏc thut toỏn ny thng cú
chung phng phỏp lp quỏ trỡnh phõn tớch hai cp nhúm ó c xõy dng t trc
v hp nht cp cú tng ng ln nht thnh mt nhúm vn bn. Cỏc thut toỏn
ch khỏc nhau vic tớnh toỏn tng ng khi mt trong s cỏc cp l sn phm
ca quỏ trỡnh hp nht trc ú. Phng phỏp phõn nhúm n liờn kt nh ngha
tng ng l tng ng ln nht gia hai n v t hai nhúm. Cỏc phng
phỏp phõn nhúm khỏc nh phng phỏp nh liờn kt hon ton s dng tng
ng nh nht, phng phỏp phõn nhúm liờn kt nhúm trung bỡnh s dng tng
ng trung bỡnh. Cỏc thut toỏn ny thng cú chung c tớnh tớch t ch
chỳng u lp quỏ trỡnh ghộp hai nhúm vn bn thnh mt nhúm. Cỏc thut toỏn tớch
t theo ngha ca thut toỏn tham lam, ngha l cp nhúm vn bn c chn kt

hp l cp gn ging nhau nht theo mt tiờu chớ no ú. Cui cựng, thut toỏn ny
u cú tớnh ton cc ch tt c cỏc cp nhúm u c x lý tớnh toỏn tng
ng v do ú phc tp tớnh toỏn u l O(n
2
). õy l mt trong nhc im ln
nht ca cỏc thut toỏn dng ny.
Phng phỏp phõn nhúm khụng phõn cp:
Trịnh Đức Cờng Trang 18
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
Cỏc thut toỏn phõn nhúm dng khụng phõn cp hot ng theo cỏch
thc trỏi ngc so vi cỏc thut toỏn phõn nhúm phõn cp. Cỏc thut toỏn ny luụn
tng n iu s phn t ca tng nhúm v cỏc nhúm mi cú th l kt qu ca quỏ
trỡnh tỏch hay hp cỏc nhúm c. Cỏc phng phỏp phõn nhúm khụng phõn cp cú
th yờu cu cỏc vn bn khụng th c trựng nhau cỏc nhúm khỏc nhau (nh
phng phỏp chia) hoc cú th trựng nhau.
Trịnh Đức Cờng Trang 19
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
III. MT S PHNG PHP TèM KIM VN BN
1. Tỡm hiu chung v cỏc h thng khai thỏc thụng tin
Cỏc h thụng khai thỏc thụng tin cú th c cụng thc hoỏ mt cỏch tng
quỏt nh mt hm =(,D,Q,) vi ={t
1
, t
2
,, t
M

} l tp cỏc term (cỏc t khoỏ) ;
D={d
1
, d
2
,, d
N
} l tp cỏc ti liu trong ú mi d
i
; Q={Q
1
,Q
2
,, Q
p
} l tp
cỏc truy vn trong ú mi Q
K
; v : Q ì D -> R l hm xp hng c lng
chớnh xỏc gia mt truy vn v mt ti liu. Cho mt truy vn qQ vi cỏc ti
liu d
j1
,d
j2
D nu (q,d
j1
) > (q,d
j2
) thỡ d
j1

c cho rng chớnh xỏc hn d
j2
vi truy
vn q.
Thụng thng, mt ti liu dj cú th c biu hin vi cỏc cp term v
trng lng dj= (t
j1
,w
j1
;t
j2
,w
j2
; .; t
jn
,w
jn
) vi t
jk
v w
j1
[0,1] ỏnh giỏ tm quan
trng ca term t
jk
trong ti liu d
j
. Mt truy vn q Q cng cú th c biu din bi
tp cỏc cp term v trng lng q=(q
1
,w

q1
;t
2
,w
q2
;.;t
t
,w
qt
) vi q
k
v w
qk
[0,1].
Nhim v ca khai thỏc thụng tin l mang li mt tp A={d
j1
,d
j2
,,d
jm
}D vi truy
vn q v mt hm xp hng (Q,djk).
Sau õy, chỳng ta s tỡm hiu k v hai mụ hỡnh tỡm kim thụng tin c s
dng rng rói v khỏ ph bin ú l mụ hỡnh khụng gian vect v mụ hỡnh lý
thuyt tp thụ
Trịnh Đức Cờng Trang 20
Đồ án tốt nghiệp

Tìm kiếm văn bản tiếng Việt
2. Tỡm kim vn bn theo mụ hỡnh khụng gian vect

Mt trong nhng mụ hỡnh phõn nhúm hoc tỡm kim vn bn truyn thng ú
l da theo mụ hỡnh khụng gian vect, vi c s lớ thuyt v ma trn xõy dng
nhng vn liờn quan ti k thut phõn nhúm cỏc ti liu, cỏch tip cn ti nhng
vn trong truy vn c s d liu vn bn. Trong ỏn ny s trỡnh by c th hn
v mụ hỡnh khụng gian vect ỏp dng cho bi toỏn tỡm kim vn bn, cỏc khỏi nim
v xõy dng thut toỏn cho tỡm kim thụng tin.
2.1 chớnh xỏc v truy hi
Gi s D l mt tp hu hn cỏc vn bn. A l mt gii thut nhn chui ký
t theo ch l t lm u vo v tr li mt tp cỏc vn bn A(t) u ra. A(t)D.
Vi vic a vo thuc tớnh thớch hp (relevant) vi hai i s: Mt ch t
v mt vn bn d. Nu relevant(t,d) l ỳng thỡ cú ngha l vn bn d c xem xột
thớch hp vi ch t. Vớ d: Thuc tớnh thớch hp cú th thc hin trờn nghim
D
test
D ca nhng vn bn v tp hp kim tra tng t T
test
ca cỏc ch
Hỡnh 2: Truy vn vn bn
chớnh xỏc (Precision) ca gii thut A vi s tp trung ti thuc tớnh
thớch hp v tp th nghim D
test
l P
t
% cho ch t T
test
c tớnh
Trịnh Đức Cờng Trang 21
tp cỏc vn bn cú
liờn quan thớch ỏng
tp cỏc vn bn

cỏc vn bn tỡm c
sau thut toỏn truy vn

×