MỤC LỤC
1. Giới thiệu chung về hệ thống hỏi đáp 7
!"
Báo cáo đồ án tốt nghiệp
DANH MỤC CÁC TỪ VIẾT TẮT
STT Từ Dạng đầy đủ Giải nghĩa
# $ $%&'()*'+&,) '(&/ 0(12)345
6)- ''%&768'&9:*,/8()* '(&/ 0(12)345;<=3>
? 8(%,8@8%8&?,*<&'')
A(%B(CD@EFG(H
)I
J K KC5&<(&9'+&,.5& L<M%(,N@O)/*3P)
Q RK R&%@8,KC5,&'')* 6)S%(T<<UV%.
W K )8@*%&*X&K)&
Y$ Y7$%&'()* M%2)<Z([3S2)
\ ]$ ]&'*$%&'()* M%2)3^_'8)
` $ @(&,8()X&$%&'()* M%2)@H8<a
#b ?' )8@*%&?8,()<)58(' O)(8/)8c)(*L)
## - 'd9G@)0%
# - *(8@:*,/8()*-(8(& e(<N<4<(,L(4)(F()
# - :*,/8()*-(8(& ,L(4)(F()
#J $ $%&'()*'9&,)'<%'')* M%2)(N*@%B
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 2
Báo cáo đồ án tốt nghiệp
DANH MỤC CÁC HÌNH VẼ
f#)g(,^</c(0(1$\
fP<3h0(12)345##
f0(1$#W
fJi8<=8([j')5jb
fQe%(,^<(,)&C4<3k(H<(S
fW%.0((,)&J
fe%(,^<(,)&lFC4<3k@*L)(H<(SQ
f\)g(,^<6)-##
f`4<(m5n<=8-J
f#bR&'*%,<&)(&,:8<&'_<4<o)g(m)%.IJQ
f##-3hl1)<*X)0<5M(U<<M%2)'D9p(,)&W
f#m)3q((%B((*49%.0((,)&WJ
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 3
Báo cáo đồ án tốt nghiệp
DANH MỤC CÁC BẢNG
6N#-Hl4<8%)G8$Xm0(1(f/l)g/
6N4<<M%2)/r%
6NF()X><4<*9&(,*(,)&
6NJ1)V%80,&'*@X&')G8<M%2)_<M%(,N@O)\
6NQ1)V%80,&@&X8()G8<M%2)_<M%(,N@O)`
6NW03>(%3P<l)lg(P5<M%2)7<M%(,N@O)Jb
6Nc('1<M%2)XU9pl)<m)3q(<(,f9s(,)&QW
6N\^(U<<4<KQW
6N`^(U<*L)@0QW
6N#b6NR-777%(,G(F()*L'iQ
6N##6N?_F()X>(,8(,*5t(,)S@u/Q`
6N#6NvKRK_F()X>(,O54)c)*LQ`
6N#6N"YKR777%(,G(F()<=8O)<=<Z(,83P<(,)S@u/Wb
6N#J4<,mo%c<(,*@iXH<5t(,87X)0oN*(mW\
6N#Q4<([3hi8(,*@iXH<5t(,87X)0oN*(mW\
6N#W1)@)I0)G8<4<<M%(,N@O)wXm<4<9)8@*%&/*X&(,*@iXH<5t
(,87X)0oN*(mW\
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 4
Báo cáo đồ án tốt nghiệp
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 5
LỜI CẢM ƠN
,;<g(&/C)<M(mD)@O)<N/'M%'w<(;)<4<(n.<F
(,*(,OxL)a<64<l*8mc)Z)<%Xm<4<(n.<F(,*l*8
F0(F()yoc/F0(1(F()Z),)I3u(B(f)N
9L.y(,%.>3L(<*&/Gl)g(T<yGl))0/V%Eo4%(,*
'%1(V%4(,fz/z/a<(B5Xm,{@%.0(L)(,O
K/C)D)@O)<N/3g<FI8_)NX)Ioc/F
0(1(F()yl*8F0(F()y(,OxL)a<64<l*8m
c)3ug(@t)^53|y;9rXm<}9L.(B(f(,*V%4(,f&/
(H<)0xh4(1()05
%1)<s&/C)<M(mD)@O)<N/3g)83fyoLo{3u
3cX)Iy<z/'Z<y3ZZ5El)gXm)^53|(,*V%4(,fa<(B5y
)I<T%Xm*m(mxh4
Báo cáo đồ án tốt nghiệp
TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP
sX;)'H54((,)SlF[<=8l)(g7Cuc)y<~l*8a<lA(%B(y
@P(F()m.<ml•@hy(g);)o;<Xm*l€%.I/;)yl€%.IX>'Hos
•(F()'1•3Z8)w/ow(3P<)>%(F()(f<c)3S(,d(m‚O)<)g
(wƒ'„<8*UXfXB./m%<n%(f/(F()8ay<UC4<Xm()0@P)
m./c(<8*
xS345T%<n%3Z(8<nCM.9H/c(0(1(,U<,^((F()@E(d@m0
(1<ZlNz(H<)0<4<)8*()g5y)S%FG<*O)Z<*5…5O)
'D9p38,8.I%<n%(F()yG<M%2)9;)9LFG(H)I†8(%,8@
@8%&‡y0(15N))S%3P<<4<(F()3Zd/T<3c<*O)ˆl)B3P<
.I%<n%(F()8.<M%2)yZ5N)(,NX>3^(F()O)'D9p<nylF()g%y
lF([8
)08.y/q<9s<8<Z/c(0(1(,U<,^((F()m*3L(3g/T<3c@E(d
<*O)/*/%13u<Z/c('10(154((,)S3L(3P<Glg(V%N
lNV%8xZ<U@m0(12)345†$%&'()*'+&,) '(&/7$‡
,*3h4(1()05m.o8*h/<4<Xe3>'8%ˆ
− f/)S%X>l)g(,^<<=80(12)345
− ?M(U<<M%2)9H8Xm*(,)&
− f/)S%X>/c(0(1<p(S@m6)-#†)''%&7o8'&9):*,/8()*'.'(&/70
(1c)(*L);<=3>‡
− m)3q(
+ ?M(U<<M%2)9H8Xm*(,)&T9p(,*oN*(m
+ m)3q(0(1c)(*L)T9p(,*oN*(m
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 6
Báo cáo đồ án tốt nghiệp
Chương I. TỔNG QUAN
1. Giới thiệu chung về hệ thống hỏi đáp
,*@iXH<(,U<,^((F()y0(12)345†$%&'()*7'+&,)yX)g((w(
@m$‡3N/BX)0<(H3c(,N@O)<4<<M%2)3P<B5Xm*d9LFG(H
)I0(19H8Xm*<'d9G@)0%8.<4<XzoNFG(H)I<Z'‰y38
,8<M%(,N@O)5sP5(&*FG(H)I
$3t)2)<4<lA(%B(CD@EFG(H)I†8(%,8@@8%8&5,*<&'')
7?‡<4<9L(,U<,^((F()l4<yXU9pˆ(,U<,^(XzoN†9*<%/&(
,&(,)&X8@‡
$@m>/Z3S54((,)S0(1c)(*L)ylg(P5$X;)<4<<<gV%N
@Ec)(*L)†)8@*%&88&/&(‡y(8'„3P</c(0(1c)(*L)*m<}y0
(1XmO)9s3>%)8*()g52)_(,N@O)
4<(,U<,^((F()(%.>(1@m9H8Xm*E(d<*)(B5XzoN
GZ/([,)Io)0(yO3Zyc)9%Gi8<=8XzoN(3X;)
(B5([l*4†l&.+*,9‡Z<T8/mlFV%8(M/3g(,B((H([8./1)V%80
(,*<M%%.)Iy<}<Z([l*4(F)(f<83=y(,B((H([XmV%80G545,e(
V%8(,a(,*X)0<V%.g(3ki8<=8<M%0(12)3459H8(,I<4<()g5
<B<^(,a3gG545<M%(FV%8X)0<<*5…5O)9sB5<M%2)
9;)9LFG(H)Iy38,8<M%(,N@O)wa(&*FG(H)I
Bảng 1. Sự khác nhau giữa QA và hệ thống tìm kiếm
$ -KR
5%( M%2)FG(H)I %Š)(,%.Xe<T8([l*4
"%5%( M%(,N@O)wa c((B5P5(m)@)0%
'&' ,8<T%8 )I<T%/d,c
H<(g3u<Z)>%0(12)3453P<CM.9HyX><e%(,^<<=8<4<0
(1m.<Z(Sl4<8%yf<%y3>%<ZGXe3><U<nV%8
(M/CD@E@mˆ
• ?M@*L)<M%2)
• ‹D@E<M%2)
• •<T<<'d9G@)0%
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 7
Báo cáo đồ án tốt nghiệp
• ,U<,^((F()([XzoN
• -)<M%(,N@O)
Hình 1. Kiến trúc một hệ thống QA
c(Xm)0(12)345(H3c()I%o)S%(,*(H<(gˆ
• ?)$-'*†((8,9)&(8@ybb#‡
• 'l-R†6,)@@&(8@ybb‡
• RK†&C(RK(,)&X8@*:&,&<&y([#``b3g8. )
?)$-'*@m0(12)3459H8(,I'Hlg(P5<=8<4<lA(%B((,U<,^((F
())03L)X;)<4<oc@a<FG3S@H8<a3*LXzoN<T8(F()5sP5
3S(,N@O)6c@a<FG3P<9H8(,I,e()>%<F<pCD@EFG(H)I
ˆ?"-(8&,†Part-Of-Speech Tagger7B9)0@*L)([‡yK(8&,†Name Entity
Tagger_B9)0(H<(S‡Xm<N-X>FGZ5M(U<<M%2)3S(f/,8
([lZ83S(,%.XeXm(f/,8Ky5M(U<<4<3*LXzo8*h/<NX)0<l)S/(,8'H
<Z/q(<=8<4<(H<(S<=8KXm/1)V%80)G8<4<([
'l-R@m0(12)345<Z3c<UC4<<8*9H8Xm*X)0<5M(U<@P
9G@)0%*@)&@;/mZ(%3P<@m9H8Xm*<4<lA(%B(CD@EFG(H)I
xM.@m0(13)N)0%V%N
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 8
Báo cáo đồ án tốt nghiệp
RK(H<)0@%(,G<4<<M%2)3P<5M(&*([@*L)<p(S†XU9pˆ(•
<T<y'Hl)0yŒ‡)0<5M@*L)<M%2)Xm<M%(,N@O)9H8(,I(f/(F()([/c('1
@P@;<4<XzoNy(m)@)0%
2. Khó khăn trong xử lý ngôn ngữ tự nhiên
2.1. Cấu trúc ngữ pháp và các thành phần cấu tạo câu
,*)I<T%X>G545()g)0(<^(8<Z(S(e.,•<8<Z/c(
3ki8<%ŽX><4<a)<=8@*L)([<~G545<M%()g)0(
,*()g)0((,B((H'w53q(<4<([@m5()0<U3So)S%(kV%80
G545_(T<@mV%80<^545_)G8<4<([(,*/c(<M%,B((H<4<.g%(1<e%
(m3P<V%.3ko•/c(Xk(,Ue(3k)Xk(,U(8.3•)(fi8<Z(S(8.
3•)(&*
[(,*()g)0(<Z(S<Z/c(()g8.h/)>%()gG8y(,*
()g)0(yG([)>%()g@L)<Z(S3P<…5od)G()g8.([l4<<Z
i8U9p8)([/c(()g3e(y;<<Z(S3P<…5X;)8%(m/c(([<ZE
i8(,[%(P@m3e(;<
*m),8<t<Z<4<<p/98([y3c([Xm(U([X;))>%(m5n<e%(L*y
3N/)0/<4<<T<zl4<8%(,*<M%
2.2. Phép lặp từ
4<3L)([y3L)(['dG%8.98([(O3P<'D9p3S<}3gG(,)
(T<3u3P<w<3g(,*<4<<M%2)(,;<y5…5G545XB.a)@m5…5@q5
([†885*,8‡‹…(3*Lc)(*8k'8%ˆ
> Quyển sách bìa đỏ kia là sách tham khảo à?
Đúng vậy.
> Nó bao nhiêu tiền?
[Quyển sách màu đỏ kia] bao nhiêu tiền ?
20.000 đồng.
0(15N))S%3P<‚Zƒd3M.<U@m‚V%.S'4</m%32l)8ƒc(
55453)N3SCD@E@*L)<M%m.@m@%(,G98'4<<4<(,)(T<3u3P<
I%(,;<3Z)q55N)/c(3L)([y0(1l)S/(,8@L)98'4<([3)S//;)
e(Xm(8.(g3L)([X;)(,)(T<ne((28/uG545Xm);)L<M%?…5
@q5([@mXe3>5•o)g(,*CD@EFG(H)I
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 9
Báo cáo đồ án tốt nghiệp
2.3. Câu tỉnh lược
mm.y<*O)(OC%.I'D9p<M%lF*m<}†<M%(}
@P<‡(,*c)(*L)y/mi8<=8G<M%3Z5p(%c<Xm*G3*L2)345
(H<)0(,;<3Z
‹D@EG(,OP55T<(L5<=8<M%(}@P<3t)2)0(15N)9%.(,f
/c(/*9&@c)(*L)y3)>%m.lF5N)@^<m*<~9•9m/q<9sX)0<ow(o%c<
5N)2)<M%2)3n.3=l4@mlZ<k%X;)O)'D9p
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 10
Báo cáo đồ án tốt nghiệp
Chương II. KIẾN TRÚC CHUNG HỆ THỐNG HỎI ĐÁP
3uZ)d5n(,;<y<4<0(12)345(H<(g<Z(S<Z<e%(,^<'8)l4<
8%3>%5N)(B5(,%CD@E<4<Xe3><oN
• ?M@*L)XmCD@E<M%2)
• •<T<<e%(,^<9G@)0%
• 'd9G@)0%
• ,U<,^((F()
• ‹D@EXm')<M%(,N@O)
Hình 2. Lược đồ hệ thống hỏi đáp
,*<m.y(8'„(B5(,%(f/)S%l)g(,^<<=8/c(0(12)345Xm
3g<(8'„(f/)S%(I/X><<gV%N@Ec)(*L)y([3Z<m)3q((D
)0/0(1c)(*L)
>l)g(,^<<=80(12)345y<Z(S<)8(mZ/<U3S()g5<Bˆ
Z/@)IV%83gCD@E<M%2)Xm<M%(,N@O)†):*,/8()*&C(,8<()*•'.(8<()<
88@.')'‡yZ/@)IV%83g(,%.B5y(,U<,^((F()(&*([lZ8†):*,/8()*
,&(,)&X8@‡f(gy(8'„()g5<B0(12)345(&*0(1<*(,I
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 11
Báo cáo đồ án tốt nghiệp
1. Kỹ thuật nhận dạng câu hỏi và trả lời
)/c(<M%2)3P<3q(,8<*/c(O)8./c(0(1(,N@O)(H3cy
)0/Xp3n%()I5N))N)V%.g(•/38,83P<<M%(,N@O)@m5N))S%3P<<M%
2)
$%4(,fCD@E/c(<M%2)o8*h/<4<o;<<*'8%ˆ
?M(U<<M%2)
?M(U<G545<=8<M%yX)g(9L<M%(,N@O)
a<9L<M%(,N@O)
a<<4<V%805sP5
-w5Cg5i8(&*C4<'%e(
d,c(,%.Xe
$%4(,f5M(U<<M%2)o8*h/X)0<5M(U<<^545<=8<M%2)yC4<3k
@*L)<M%(,N@O)/*3P)y(f/([lZ8<Z@)IV%83S(H<)0(,U<,^(3*LXzM%
(,%.Xeo83n%CM.9H([G([lZ8XM.•//p<()I%3L(3c<UC4<
<8*Xm<ZlNz(,U<,^(,8/c('1GTX)I<*<M%(,N@O)(U<P5(,*
(B5P5@;†V%4(,f@a<‡
$%4(,f@a<9L<M%<Z)0/Xpl)S/(,8<4<TX)I<M%(,N@O)<Z<T8
G(H<(S<n<Zd<M%(,N@O)/*3P)8.lFXm@*L)o2G<M%lF
(U<P56c@a<<M%<Z)0/XpBo)g(<4</1)V%80)G8<4<(m5n([
lZ8<=8<M%2)yXm(f/l)g//1)V%80((H(,*GTX)I<M%(,N@O)
x)>%m.(O3P<(H<)03H8Xm*/c(<M.5p(%c</m<e%(,^<9*0(1
V%.g(3k‚*N<4<ƒ)G8<M%2)Xm<M%(,N@O)3P<(U(*43SC4<3k(,B(
(H<4<TX)I<M%(,N@O)M%(,N@O)3P<34)4<8*e(@m<M%(,N@O)3P<0
(1@H8<a
1.1. Phân tích câu hỏi
4<Xp5M(U<<M%2)<Z(SlF,‘,m31)X;)<*O)l)(,N@O)<M%
2)y(%.)I31)X;)/c(0(1(,N@O)(H3cZ3ZX8)(,t<1(.g%V%.g(3k
3c<UC4<<=80(1
w(@a<(F()Ž<T8(,*<M%2))GX8)(,tV%8(,ay<zoNy<*5…5
0(1(H<()3^@03S38,83P<<M%(,N@O)3^3w<*<M%2)3Z)
X)0<5M(U<<M%2)(e(oL)y,e(lZXmn@mlF(S<*0(12)345
(H<)0)0/Xp<=8Z
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 12
Báo cáo đồ án tốt nghiệp
4<()g5<B<zoNe(3S5M(U<<M%2)@m<)8)0/Xp(m5nˆ
(f/l)g/9L<M%(,N@O)/*3P)Xm(f/l)g/(,a(M/<=8<M%2)Re()>%<4<
0(1†*@@47@)*9bby&&(8@bb#Œ‡'D9p/c((B5<4<@%B(9*O)@B5
(,f(H(L*3S(f/l)g/9L<M%(,N@O)/*3P)†K‡O(f<4<@%B(3P<X)g(
9;)9L<4<o)S%(T<<UV%.†RK‡Xm)0/Xp(f/l)g/9L<M%(,N@O)@mX)0<
l)S/(,8'Ht8P5)G8<M%2)Xm<4<o)S%(T<3Za)o)S%(T<3>%((U<
X;)/c(9L<M%(,N@O)/*3P)Xm3P<w<*<M%2)5sP5X;)3k9L
4<()g5<B3)Ne(3S(f/3P<(,a(M/<=8<M%2)3Z@m@*L)o2(e(<N
<4<([9[†lF<Zi8V%8(,ay<}<Z(4<9pX>/q(G545‡l2)<M%Xm
<*)G([<t@L)3L)9)0<*(,a(M/<M%2)†([lZ8‡
c((,*GlA(%B(3P<'D9py3Z@m'D9p<M.(,)&†/c(9L<M.5p
(%c<‡e3>m.'„3P<@m/,‘(,*<'8%
Trích rút từ khóa (keyword)
xM.@mo;<3n%<*X)0<@H8<a([G3S')<M%(,N@O)5sP5
0(1<*)([lZ8@m(e(<N<4<98([y3c([y(U([y5Z([(,*<M%2)y
@*L)(,[98'4<<4<([o8*h/†V%.g(3k9H8Xm*l))0/<=8O)()g(
lg‡4<([/m/*9%@&5M(U<<^545lF<*)@m/c(5n<=8([y<p/([F
Ga<<~ok@*L)o2
)0<5M(U<<M%2)(,*0(1$3ZX8)(,tV%8(,a*9%@&5M
(U<<M%2)†V%&'()*88@.')'‡<*(83n%,8@m<4<(F()ˆ
• xk9L<M%(,N@O)/*3P)
• *L)<M%2)
• B5([lZ8
1.2. Luật phân tích từ ngữ
4<()g5<B0<=80(1$9H8(,IG<F<pCD@EFG(H
)Iy/m3c<UC4<Xm<e(@Pok);)LXm5p(%c<Xm*l)g(,^<(•(S
<=8(*m0(1xZ@mG<F<p))58,yY*,9&(y8/&K()(.(8,&(Œ
,*FG(h(L)G([<Z)>%i8*q<)>%([3hi8yn
i8ŒfXB.y(,*0(1<nCM.9H(,;<G@%B(3SV%.g(3k([@*L)
<=8([3S5p<Xp<*V%4(,f5M(U<<M%2)Xm')<M%(,N@O)c((,*G
<4<()g5<By3Z@mCM.9HY*,9&(
1.2.1. Xác suất ngữ nghĩa (Sense probability).
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 13
Báo cáo đồ án tốt nghiệp
,*V%4(,f5M(U<<M%y0(1(O5N)V%.g(3kC&//c(([<Z
(%c</c(@*L)([e(3km*lF†(,*V%4(,f(f/9L<M%(,N@O)/*
3P)‡x)>%m.<Z(S(H<)03P<9H8Xm*(U(*4C4<'%e(Gi8<=8([•/
(,*/c(9LY*,9&(†XU9pC4<'%e(<=8([‚<8(ƒ•/<8*d/p<‚8)/8@ƒ
(,*Y*,9&(‡Y*,9&('w5Cg5i8<=8([(&*<%Š)U9py<*/c(98'4<
'w5Cg5Gi8<=8([+@m’'byŒy'“(8(U(*4C4<C%e(i8<=8([(%c<Xm*
/p<'8%ˆ
;)
ml@m/c(o)g5M<e5no•C4<'%e(<=8i8Y*,9&(3^3n%()I
†l*Nb‡
1.2.2. Dạng của từ
L<=8([+3P<(Uo•ˆ
1.2.3. Khoảng cách của từ (Word Distance)
)0<(U(*4l*N<4<<=8([3P<'D9p3S(U(*4l*N<4<)G8
<M%y<p(Sy)G83*L(,N@O)Xm<M%2)
*N<4<)G88)([(,4)i85p(%c<Xm*l*N<4<Gi8d<s
3c'M%(,*5M@*L)Y*,9&(I@0<3c'M%<=8(e(<N<4<<q5Gi8<=8
8)([3P<3*3L<9H8Xm*C4<'%e(<=8<q5Gi8<=8([(U,)IXmlg(P5
@L)
*N<4<)G88)([3hi8<~3P<(U(*49H8(,I(e(<N<4<G
i8<=8([y(s.(&*C4<'%e(*N<4<)G88)([ylE)0%@m9)'(†+#y+‡3P<
3ki8@ml*N<4<3hi8*q<(,4)i8(s.Xm*([3Z@m3hi8
8.(,4)i8
1.2.4. Thay thế từ ngữ
)0<(8.(g/c(([m*3Z<Z(S<n()g((,*V%4(,f/d,cV%&,.y3P<
(U(*49H8(,I(B5Y(e(<N<4<(B53hi8<=8([+B5<4<([(8.(g<*+
3P<3ki8@mˆ
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 14
Báo cáo đồ án tốt nghiệp
,*3Z‚(ƒ@m/c();)L<13ky'D9p3S(,4(,OP5/c(([n
i8X;)+<ZGi8lF(H<'HwX;)+†XU9p‚<*/5%(&,ƒX;)
‚/8<)&ƒ‡
1.3. Luật viết dạng câu trả lời - query reformulation & query expansion
1.3.1. Viết lại dạng truy vấn - Query reformulation
)/c(<M%2)3P<3q(,8y0(1'„(H3c'),8/c(*q<Xm)<%Š)<Z
lNz@m<M%(,N@O)<*<M%2)
x1)X;)<4<<M%2)(,*()g)0((f<4<(1(e(@m)G%.I<e%(,^<<M%y
(8.Xm*Xk(,U<=8([3S2)o•@O))N)
U9pˆ‚4<)N<=8oT<(,8)g%GoI*8%0@m8)”ƒ
M%(,N@O)3)Ne('„@m‚4<)N<=8oT<(,8)g%GoI*8%0@m
•K–ƒ
4<(T8)@mX)g(@L)<M%ˆ‚•K–3uX„oT<(,8)g%GoI*8%0ƒ
xS()gm(,N@O)3P<(&*<4<(T(85N)(I/Xm*3c(['8*<*5s
P5X;)c)9%<M%2)/q<9s<M%2)lF<T83c([m*UXfXB.I
<M%(,N@O)(1(e(<*<M%2)(,*()g)0(@m(&*9L#
1.3.2. Mở rộng truy vấn - Query expansion
4<([l*4(f/3P<(,*V%4(,f5M(U<<M%2)3P<38Xm*V%&,.$%.
(,fm.<n()g(3S<Z(S(H3c(,U<,^(9G@)0%')<M%(,N@O)K
6;<3n%()I(,*X)0</d,cV%&,.@mX)0<5N)CD@Ef(4)38Gi8
<=8([Gyo•X)0<(8.(g<4<([l*4o•G([3hi8(T†(,*
(05<'d9G@)0%‡g%<n()g( C4<3k(,a(M/<M%(,N@O)c(Xm)()>(1
(OC%.IC%e()0(,*<M%2)‚Xk(,Uƒy‚dƒy‚(L)ƒ/*3P)<M%(,N@O)X>
3k83)S/—‚m.ƒy‚@^<ƒy‚l)ƒ/*3P)<M%(,N@O)X>(O))8Œ-8%CD@Ey<^ok
@*L)o2l2)V%&,.
t()g5(&*y(8<n/d,cX)0<(f/l)g/o•X)0<(I/Xm*†(,*(,O
P5‚*,ƒ‡<4<([3hi8X;)<p/([<n(f/l)g/
6;<()g5(&*@mX)0<CD@E<4<(,L([yo•G/c(<4<(U<P5Xm@*L)o2
<^l2)G<p/([<n(f/l)g/†CD@E‡()g5
,*XtCD@E<%1)yg%V%&,.<t<T8)>%([l*49;)9L@)I
([y3c([<~(IO)†g%<Z<NaXm(I‡ok@*L)o2g%8.<N'8%'H<w(
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 15
Báo cáo đồ án tốt nghiệp
(}8XB./mXr<t(h(L))>%([l*4@)I([y<^(8<~'„@*L)o21(
G([l*4@)IV%8(,H<()g53gG([l*43u3P<CD@Ed5n(,;<†<Z
(S(FV%8<M.5p(%c<3S5M(U<<e%(,^<FG‡
2. Kỹ thuật trích rút dữ liệu - retrieve document & answer extraction
2.1. Trích rút thông tin - Retrieve document
i)Iy3)>%lF(S()g%(,*/c(0(12)345(H3c@m5N)3k
Xk3P<(B5(m)@)0%<T89G@)0%/m<M%2)<n<Z,*V%4(,fm.y'H'8)l4<
)G8<4<3k9L<M%2)Xm<4<TX)I<M%(,N@O)<n3P<C&/C…(y'H@H8<a
5N)3=@;3S3N/oN*3c<UC4<<8*5N)l)S/'*4(3P<'H)•%9*X)0<
X)g(@L)3k9L<M%†,&:*,/%@8()*‡0(1$3u(4)'D9p0(1(,U<,^(
(F()3S(H<)03)>%m.
U9p 0(1$†$%&'()*7'+&,)5,*,8/*:(&8%8&89
*)()*‡ˆ
Hình 3. Hệ thống QALC
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 16
Báo cáo đồ án tốt nghiệp
*9%@&5M(U<<M%2)V%.g(3k<4<(F()ˆ3k9L<M%(,N@O)
/*3P)yZ/<=8<M%2)y([l*4ŒF()m.'„3P<'D9p3S(,U<,^(9G
@)0%(FV%8oc(f/l)g/
F()8.3*LXz/m<M%(,N@O)38(f/l)g/@mlg(V%N<=8/c(Xm)V%4
(,f<a@H8(m<Fyh/<Zˆ
• H8<a3n%()I9H8Xm*<4<([<ZEi8†([lZ8‡<=8<M%2)(f/l)g/(05
9G@)0%
• )gm()g5'H@H8<a(T(FV%8X)0<B9L<4<<p/Gi8
3hi88.38i8Œ
• 4<<M%3P<@H8<aO;<@P3c<I@0<‚l*N<4<ƒGi8
)G8<^X;)<p/([<=8<M%2)Xm(I(H<(S(,*9L(,N@O)/*3P)
xn%,8<=8/*9%@&m.(OlF5N)@m(U<P5e(<*0(12)
345ˆ(m)@)0%<Z(SlF3P<Cg5Lg%@m<M%2)3^7'8)y'H@H8<a9H8
)>%Xm*([l*4@moN(M<M%2)Œf(gy(O3n%,8'„3P<CD@E()g5d
o;<'8%@m(,U<,^(<M%(,N@O)†8'+&,&C(,8<()*‡
2.2. Trích rút câu trả lời - Answer extraction
,U<,^(<M%(,N@O) - '+&,&C(,8<()*y8.<ta)@mo;<CD@E<^545y@m
o;<()g5(&*'8%X)0<(,U<,^(9G@)0%3S38,83P<<M%(,N@O)/*/%1L)
o;<m.y<4<<M%(,N@O)()>/z3P<(4<,8Xm34)4
8)<4<5•o)g3S(,U<,8<M%(,N@O)y3Z@mˆ
− ?M(U<9L<M%(,N@O)†'+&,(.5&88@.')'‡
− )g5<B(&*;a</4.†?8((&,@&8,)855,*8<‡
Phân tích dạng câu trả lời -Answer type analysis:
‹M.9H(B5<4<9L<M%(,N@O)
?M@*L)<M%(,N@O)
4<l%F9L3P<wXZ)9L<M%(,N@O)(T
4<m.<Z(U<UC4<<8*lF(,N@O)3P<<4<<M%2)*m)
l%F9L†lF4u3P<‡
Tiếp cận theo hướng học máy -Pattern learning approach
L<M%2)<Z(S3P<‚a<ƒg%'D9p<q5<M%2)7(,N@O)/c(l)S%
9G@)0%@)I(p<
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 17
Báo cáo đồ án tốt nghiệp
%B((*4
− %F<T831)(PyXz<NXm<M%2)3P<38,8oc(f/l)g/U9pˆ
<8@@*,)&'y6)8<yQWb
− e(<N<4<(I(H<(S3P<(8.(go•9L<=8<^
− c(Xm)l%F9L<s@*L)3P<9s3S‚a<ƒX>Xm)9L'dG%3q<
(,
− H<)0(•V%4(*4†(&*9L(H<(SXm<4<@H8<a(*l&l4<‡
-D9p‚3c()(dƒ3S34)4<M%(,N@O)xc()(d3P<(Uoz
<F(T<†3^˜3^™'8)‡
v)8)3*Lm.<Z(S3P<5M,u)8)3*Lm.(mJ)8)3*L<*
• f/,8<4<(H<(S7K()(.KC(,8<()*ˆ)0/Xp<=8)8)3*L@m,^(,8/c(
(B5TX)I<M%(,N@O)([(m)@)0%Z(S(e.8.,•yg%'D9p<M.(,)&y
V%4(,f9%.0(<M.lg((^<y(8'„(%3P<9L<M%(,N@O)/*/%1[
9L<M%/*/%1y'),8(B5P5<4<(H<(S'w5Cg5(&*<4<@%B(X)g(@L)
<M%†,&:*,/%@8()*‡
• ?M@*L)<4<(H<(S7K()(.<@8''):)<8()*ˆB5(H<(S(%3P<d)8)3*L
(,;<<Z(S3P<5MXm*/c('1Z/e(3k4<@*L)(H<(S<Z(S<Zˆ
+ O)yXk(,Uy(•<T<Œ
+ m.(4y(O))8
+ xk@Py'1@P
+ %lšy5…53*
Š)9L(H<(S.I%<n%<4<'w5<M%XmCD@E(T
• ?M@*L)(,%.Xe7$%&,.@8''):)<8()*ˆs3SC4<3k@%B(<^545<n
9%3SX)g(<M%(,N@O)([<M%2)3u3P<5M@*L)d)8)3*L(,;<
• -*'4<4<(H<(S7K()(.R8l)ˆ$%.g(3k9L(H<(S<Z5sP5
9L<M%2)lF6;<m.<Z(SCD@E<%l)5M(U<<M%2)g%'D
9p<e%(,^<<M.5M(U<-D9poc@a<<M%3SC4<3ky34)4<M%(,N@O)
((U<X;)<M%2)y<F(T<<*3)S/3P<@e.([RK
2.3. Kỹ thuật xử lý đại từ thay thế
U9pˆ)<M%2)'8%3P<B5Xm*ˆ‚6T<(,8(*e(3P<X„z/m*”ƒ
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 18
Báo cáo đồ án tốt nghiệp
0(1<n5N))S%‚6T<(,8(*e(ƒ@m3L)([(8.(g0(15N)()g
m(f/l)g/(,*-3S(f/,8(IoT<(,8<Z(%c<(UlU<(U<3L(@;
e(y'8%3Z(SXm*<M%2)y38<M%2)X>9L3)Nˆ‚6T<(,8›?3P<
X„z/m*”ƒ
2.4. Tổ chức cơ sở dữ liệu độc lập
'd9G@)0%<~@m/c(Xe3><nV%8(M/<=80(1,*5M(U<<M%
2)y3L)38'1<4<0(12)345)08.9H8Xm*3n%Xm*G545@m(B5<'d9G
@)0%<=8Y*,9&(XmRK%h9G@)0%@%(,G(F()y(%š0(1<Z(S@m
<8'w5Cg5*q<'w5Cg5/c(5n4<0(1<'d9G@)0%<%.I)05)0
8.-$'&,X&,y",<8@&'D9p@%(,G<'d9G@)0%(,I<4<oN
e3>3q(,8@m<4<(T)G8GoN9G@)0%m.X;)0(1<^
545Xmoc@a<<M%5sP50FG(H)I3uZ)d5n(,IZ(S(8/lN*
<4<(•<T<<=8Kœ†K97'&,œ,)&9@.(&,:8<&(*8(888&/&(‡y(L)3Z(•
<T<9G@)0%3P<(•<T<3c<@B5X;)5nT9pG@)0%(,*G0(1
@)IV%83gFG(H)I(Oo8*h/(m5n@mˆ
• 4<oNGi8G(H)I
• 4<oN@%(,G9G@)0%
• CL)G8oNG545XmoN9G@)0%
2.4.1. Bảng ngữ nghĩa câu - Semantic tables
xM.@m@*L)9G@)0%(S)0<4<f<=8<%.I)8X>/q(FG(H)Iy
(L)3Zy(B5P5([3P<54((,)SXm<e%(,^<<M%<oN3P<3ki8[G3P<
5M@*L)ˆ
• 4<(H<(S
• -Hl)0
• T<z
• c(5n*q<(*moc<M%(mGy(p<G
• m5n@)Ilg(
• $%4([
• xL)([
• G([38<^<z<^545
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 19
Báo cáo đồ án tốt nghiệp
c((H<(Sn((H/c(98([Xm'Hl)0(f(OwX;)/c(
3c([m5n@)Ilg(@m()>(1'„3P<@*L)o2'8%l)<M%3P<5M(U<
$%4([†'.'(&+*,9‡y@)I([yo•i8Z55nV%.g(3ki8<=8<M%
lF@)IV%83g5n9G@)0%<zoNxL)([@mG([w<@L)<*<p/([3u
3P<w<3g(,;<3Zy3L)([@mG(['„ok(8.(g(,*V%8(,f5M(U<<M%
Z/@L)y<}<ZG([@)IV%83g9G@)0%<oN@m([(%c<Z/(H<(Sy'H
l)0y<T<z
H<(SXm'Hl)03P<3ki89H8(&*<e%(,^<‚<8'&ƒ†(f%1@H8
<a‡o)S%(k'Hlg(P5)G8<^545XmGi8?n(D([XH/m<Z(Slg(
P5X;)/c((H<(Sl4<(L*(m<p/98([y*q<lg(P5X;)/c(3c([(L*
(m<p/3c([y'„(%c<(,OP5(H<(S*q<'Hl)0c(‚<8'&ƒ<Z(S3P<
349e%@mow(o%c<*q<(%š<aGi8<=8/c((H<(S*q<'Hl)03P<
3ki8od)/c((B5<4<(,OP5†‚<8'&ƒ‡y58o)0(9L3c([Xm9L98
([U9pyo8i8<=8([‚')5ƒ3P</)*L9;)3M.ˆ
Hình 4. Nghĩa của từ "ship"
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 20
Báo cáo đồ án tốt nghiệp
2.4.2. Bảng dữ liệu cơ bản
6N9G@)0%<oN(S)0<e%(,^<9G@)0%(&*<4<f<=8/c(0(1
V%N@E9G@)0%f(e(<N<4<0V%N(,k<'d9G@)0%CD@E<4<(m5n9G@)0%
o•<4<(•<T<G‚Z/ƒ@)Ilg((H<(S)0<<Z/c(3k9LoN<%
@m*m(*mlN9iX;)X;)oe(lš0V%N(,k<'d9G@)0%m*
6N9G@)0%<oNh/(m5ny/c(@*L)<T8<4<(F()<=8‚Z/ƒ
Xm<4<(m5n9G@)0%Z/3P<3ki8o•(IZ/m5n<t@L)
<T8/1)@)Ilg()G8<4<Z/
2.4.3. Ánh xạ giữa 2 loại bảng
m5nm.<Z<T<z<}9r<*<(,f<4<(T<3)([/c(^(
Gi8†(,*([3)SGi8‡(;)(I<=8Xs9G@)0%<oN
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 21
Báo cáo đồ án tốt nghiệp
Chương III. PHÂN TÍCH CÂU HỎI DỰA VÀO TRIE
1. Cấu trúc cây Trie.
c(<M.,)&y(&*@…/&(&(8@†#``\‡y@m/c(<e%(,^<9G@)0%3P<3ki8
od)/c(@%B(30V%.†-‡••†-˜8#‡y†-˜8‡yŒy†-˜8,‡–yX;)-@m/c((B5P5<4<CM%
8@58o&(•’8ž“,ž•#yXm-˜8@m(e(<N<4<<%Š)<=8-ow(3n%X;)8
,*0(1m.y(8'D9p<e%(,^<(,)&X;)<4<‚<%Š)ƒ@m<4<3k9L<M%
2)Xm‚8@58o&(ƒ@m(B5<4<([3S2)Xm<4<9L(H<(Sc(3k9L<M%2)@m
/c(3L)9)I<=8o)S%(T<RKX;)5now(3n%Xmlg((^<3P<349e%y5n<t
@L)3P<3L)9)0o•<4<9L(H<(S
Ví dụ: <Q AT=’NAME’> Who is the
<ENAME type =”POS”> dean</ENAME> of
<ENAME type = “ORG”> Macquarie
University </ENAME> ? </Q>
Có thể được viết lại thành : “^Who is the !POS of !ORG $”. (1)
6)S%9)•<=8<M%2)(,)&(31))1o)S%9)•<=8/c(([3)S(,)&y(%.
)IyX)0<@%(,G(F()y'D9p9e%)0%†(*l&‡Œ@ml4<o)0(,*o)S%9)•
(,)&y/Š)l)/c(^(3P<(z/*q<(L*/;)y(n'%e(K<=8Z3P<)@L)f
/c(^((,*(,)&<Z(S3g3P<V%8)>%9L<M%l4<8%y/Š)^(<Z@%(,G
(n'1Xm5M@*L)v)N'D<Z/c((B5<4<<M%2)y(85M(U<<^(m<4<l%F
9L<p(S'8%ˆ
Bảng 2. Các câu hỏi mẫu
Câu hỏi Khuôn dạng EAT
Y&,&)')@&” Y&,&)'Ÿ"› "
Y*)'(&9&8*:-” Y*)'(&Ÿ?"›*:Ÿ"Rv› K
Y*)' -/)(” Y*)'ŸK› K-
Y*)' -/)(*:-” Y*)'ŸK›*:"Rv› K-
*+:8,)'(&'” *+:8,)'Ÿ"› "
*+(8@@)'-()” *+(8@@)'ŸK› "
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 22
Báo cáo đồ án tốt nghiệp
f9;)<},8<4<9G@)0%3P<(•<T<Xm@%(,G(TX;)(B5<%Š)
3k9L<M%2)doN(,IZ(SB(e.,•y/Š)^(<=8(,)&@%(,G/c(8.
)>%K
Hình 5. Cấu trúc trie xác định thực thể
Bảng 3. Thông tin về các node trong trie
Node (EAT, Tần suất)
# †"y#‡y†Ky#‡y†K-y‡y†6KR‡
7Q †"y#‡
W7 †Ky#‡y†K-y‡
\7# †Ky#‡
# †K-y‡
#J7# †K-y#‡
#\ †6KRy‡
#`7W †6KRy#‡
2. Phân tích câu hỏi dựa vào cấu trúc trie.
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 23
Báo cáo đồ án tốt nghiệp
6;<3n%()I(,*X)0<5M(U<<M%2)y3Z@m<%.S<M%2)X>G3k
9L)1†#‡G3k9LXB.3t)2)349e%5now(3n%Xmlg(
(^<<=8<M%2)yXm<Z(So)g(3P<9L(8.(g<=8/c('1/r%<M%2)9H8Xm*
(H<(S<=8<^
-D9p<4<3k9L<M%2)y(8<1w(f/l)g/'H((U<)G8o)S%9)•
†(*l&‡3n%()I<=8<M%2)X;)^(<=8(,)&g%(f/3P<y(*l&()g5(&*'„3P<(f/
l)g/(,*G^(wX;)^(3n%()I3Z$%4(,fm.@q5@L)<*3gl)lF
<t(*l&m*5N)l)S/(,8*q<(*l&)0(L)lF(S(f/3P<(,*9u.^((,)&
38(f/$%4(,fm.(,NX>KX;)(n'1<8*e(<=8^((,)&<%1)<s3P<
X)g(z/F()m.'„3P<'D9p@m/K<=8<M%2)383P<5M(U<
g%(*l&)0(L)lF(28/uoe(lš^(m*y(*l&()g5(&*'„3P<l)S/
(,8X;)<4<^((,)&(,*9u.f9;)(S)0X)0<(f/l)g/‚o2V%8ƒ(,*V%4
(,f5M(U<<M%2)‚Y*)' *-/)(*:8<V%8,)&)X&,')(.”ƒXm‚Y*)'
*-/)(”ƒ
Hình 6. Duyệt trie
)0<5M(U<<M%2)‚Y*)' *-/)(”ƒ3P<(H<)0o•X)0<l)S/(,8
(*l&/d3n%<M%X;)([‚+*ƒXm‚)'ƒxSE,•([‚ *ƒXm‚-/)(ƒ(,*‚ *
-/)(ƒlF3P<(8.(go•9L(H<(S<=8<^yod)Xf(IlF3P<o)g(
od)v8¡&((&&,[lZ8‚ *ƒlF3P<(f/(e.d^(()g5(&*^(‚)'ƒ†^(#‡yXf
(g([()g5(&*<=8<M%2)†‚-/)(ƒ‡3P<(f/l)g/d^(()g5(&*†^(#Jy#Q‡7
G^(<4<^(ne((f/3P<o;<g%^((f/3P<y(e(<N<4<([lF
(f/(e.d5U8(,;<3>%3P<w<s@*L)X;)<4<^(d)G8^((f/3P<
g%(f/3P<^(5sP5(f<*3OX;)(n'%e(@;'„<)g/%
(g,*V%4(,fm.y<4<^(•/)G8<4<^(5sP53P<(f/(e.'„3k
i89L(H<(S<=8G<p/([lF5sP5(,*9L<M%2)g%(e(<N
<4<(*l&3P<l)S/(,8/mXrlFB9)03P<^(5sP5(f^(<%1)<s
5sP5'„3ki89LK
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 24
Báo cáo đồ án tốt nghiệp
Hình 7. Cấu trúc trie không xác định loại thực thể
,a(M/<=8<M%2)3P<<},8OXm*5n(H<(S<=8(S)09L3k
9L<M%2)-H(8.(g/c(Xm)<p/([(,*<M%2)o•<4<9L(H<(S<Z(S
3P<(H<)0(,;<*q<(,*V%4(,f9%.0((,I<M.(,)&?545m.V%8
(M/3g<NX)0<lF(S(f/(e.'H5sP5)G8(,)&Xm<M%2)g%(,OP53Z
CN.,8yKX;)(n'1<8*e(<=8^(<%1)<s3P<(z/'„3P<4<*<M%2)
U9pˆK<ZC4<'%e(<8*e(d^(W'„3P<4<*<M%2)‚Y*”ƒ
?545(f/l)g/KlFe(()g(.I%<n%X)0<349e%<=8<4<(H<
(S,*(,OP5m.y(,)&3P<CM.9H<}9H8Xm*(F()<T8(,*<4<([
<=8<M%2))<4<(H<(SXm9L(H<(SlF3P<349e%yV%4(,f5M
(U<<M%2)Xr(H<)0()g(,f(f/l)g/o2V%8/F(Nd(,Iy(%.)Iy(,*
(,OP5m.y()g(,flF3ki8o•/c(Z/(H<(S/mo•/1)
V%80<8o)g()G8/c(([(,*CM%X;)/c(([8.<p/([l4<(,*<M%2)38
3P<5M(U<
xS@m/'4(2Xe3>m.yC…(XU9pˆ‚Y*)'(&89/))'(,8()X&8'')'(8(*:
8<V%8,)&)X&,')(.”ƒf<N‚89/))'(,8()X&ƒXm‚8'')'(8(ƒ3>%lF(f/3P<
(,*(,)&df(,I)g(,fCD@E†(f/l)g/o2V%8‡w([‚*:ƒX;)^(#by/q<
3k,•<Z/1)V%80)G8‚89/))'(,8()X&8'')'(8(ƒXZ)‚9&8ƒ(H)G8
‚8<V%8,)&)X&,')(.ƒX;)‚-ƒ
)0<3)([^(m.'8^(l4<<=8(,)&lFe(()g(o•#([y/m<Z(S
o•/c(Z/([3hi8*q<3h<T<zG5453P<3ki8([(,;<
†<Z(SOY*,9&(*q</c(@*L):)@&((H‡
M.(,)&lF<}<Z(4<9p5M(U<<M%2)/m9*3q<3)S/<e%(,^<<M.y
)^5(8<Z(S5M@*L)3P<<4<@*L)<M%2)3S(H<)0(,U<,^((F()'8%m.
)0%V%N<=80(1'„5p(%c<(,H<()g5Xm*'H<UC4<Xm3n.3=<=8<M.
(,)&y(UP5@Ey<UC4<y3n.3=<=8(,)&@L)5p(%c<Xm*lNz3*4By9H
Sinh viên thực hiện: Nguyễn Thúy Ngân – K50 – HTTTB Trang 25