ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Chu Anh Minh
BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG
WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ
HTML VÀ ĐỒ THỊ WEB
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:Công nghệ thông tin
HÀ NỘI - 2009
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Chu Anh Minh
BÀI TOÁN TRÍCH XUẤT TỪ KHOÁ CHO TRANG
WEB ÁP DỤNG PHƯƠNG PHÁP PHÂN TÍCH THẺ
HTML VÀ ĐỒ THỊ WEB
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành:Công nghệ thông tin
Cán bộ hướng dẫn:Th.S Nguyễn Thị Hậu
Cán bộ đồng hướng dẫn:CN. Trần Mai Vũ
HÀ NỘI - 2009
Lời cảm ơn
!"#$%&
'! ()*+,-&./0120345.6
7805&379
":5("50-1;"033
<=4*-0>8?4@5AB0=
&9C*.
5*$5;0DE*>8*
951B7-7.F9G045.**?80*=
805&379
5;09HIJ'KHIJ'%-CL8"
8M0345.=&9;
+3N":>;3O$B;
;L0345.67805&379
%!L"PQ5JI<QJJR
S+
Chu Anh Minh
TÓM TẮT NỘI DUNG
MTU8050*VEL05WLC*05MT
U8050L< X?*0DL050073M
TYZ[0*0\EE*] 0><4*05"-^>
&94*>W5L$43 5" _05MTU
8050*VE78^9B*MTU8D*0<L1*
VE78*9555U80516*5`TFC*aE b"
,T>85c^591d0T>e685*f
4505".89d5*VEg^.8g^^@
1N
0805&379"5->T.4"05
16*059959fđộ quan trọng các thẻ HTMLđồ thị web !0*5
9959g^khai phá log từ điển hỗ trợ ,^."h
*0T^U8D* HD*&-591dL3>1B7dAC*5
*VE+7K08484*
MỤC LỤC
Chu Anh Minh..............................................................................................................i
%i!jZkQJJR
Chu Anh Minh.............................................................................................................ii
TÓM TẮT NỘI DUNG................................................................................................i
MỤC LỤC....................................................................................................................ii
Bảng các kí hiệu và chữ viết tắt.................................................................................iv
Danh mục hình vẽ........................................................................................................v
Danh mục các bảng biểu............................................................................................vi
MỞ ĐẦU.......................................................................................................................1
Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang web............................3
P P b`T> l
P Q H575`C*U8D* m
P l b555U8D* m
P m 5?C*05U8D*0*VE I
P m P b35*DL1&9 n
P m Q b35*DL1o^9 n
P m l '5T>85 n
P I p1dC*U8D*05e6 q
P I P +*U8D*05".8 q
P I P P r505".8 q
P I P Q %0;L45VE05".8 R
P I l +*U8D*05*VEo^9 PJ
P n o8 PQ
Chương 2. Các công trình liên quan.........................................................................13
Q P '59959MTU8D*0< Pl
Q P P s959(3U Pl
Q P Q s9591d5850< Pm
Q P l s9591d=5" PI
Q P l P MTU8D*1d99!*tE_*"E Pn
Q P l Q MTU8D*1dE**YgU6]99 Pn
Q Q '59959MTU8D*0*VE Pq
Q Q P (3U Pq
Q Q Q He&8*950 Pq
Q Q l He&591d5".8LuU Pv
Q l w5U8D*0<VEY8E"V01*E] Pv
Q mo8 PR
Chương 3. Hướng giải quyết và đề xuất mô hình bài toán.....................................20
l P %4" QJ
l P P S1dL4*=C*5c0%)x QJ
l P Q S1du$VE Ql
l P Q P b$e*u$aE Ql
l P Q Q !L1C*9959 Qm
l P l S1d4E"0 Qn
l P m S1dUAg^ Qq
l Q b>T.05 Qq
l Q P ).073 Qq
l Q Q )'*VE Qv
l Q l )U8D* QR
l Q l P )1d=3c%)x QR
l Q l Q )1du$VE lQ
l Q l l '59959g^ ll
l Q l m )o^9 lI
l l o8 lI
Chương 4. Thực nghiệm và đánh giá.......................................................................36
m P w70567 ln
m Q )1B7f ln
m P P )9(? ln
m P Q ). ln
m P l 'd9(> lq
m P m yB77 lv
m l H467f mJ
m m b558467 mm
Kết luận.....................................................................................................................46
Hướng phát triển tiếp theo........................................................................................47
Tài liệu tham khảo.....................................................................................................48
Bảng các kí hiệu và chữ viết tắt
Kí hiệu Diễn giải
%)x %"9EE)*89x**E
Z\ Z[0*0\EE*
Sz SE*zE
Sz) SE*zE)*8E
Sz{ SE*zE{9|*0
} E}E4E"
Zy} ZEEy0E}E4E"
~\x ~[0\E0Ex0*0
al' a01a1EaE'00
aaa a01a1EaE
Danh mục hình vẽ
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm..................8
Hình 2. Top từ khóa của baomoi.com......................................................................10
Hình 3. Top từ khóa của flickr.com..........................................................................10
Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web
baomoi.com.................................................................................................................11
Hình 5. Hình minh họa kết quả sinh từ khóa của trang web
.................................................................................17
Hình 6. Mô tả đồ thị web...........................................................................................24
Hình 7. Phần hiển thị của các liên kết đến các trang cần trích xuất từ khóa........25
Hình 8. Kết quả trả về của máy tìm kiếm Google có liên kết trỏ tới trang
vnexpress....................................................................................................................25
Hình 9. Mô hình đề xuất cho toàn hệ thống.............................................................27
Hình 10. Mô hình mô đun sinh từ khóa áp dụng độ quan trọng thẻ HTML.........31
Hình 11. Mô hình mô đun sinh từ khóa dựa trên phương pháp đồ thị web..........32
Hình 12. Mô hình mô đun sinh từ khóa dựa trên log..............................................33
Hình 13. Mô hình mô đun sinh từ khóa dựa trên từ điển hỗ trợ............................34
Hình 14. Mô hình mô đun tổng hợp từ khóa...........................................................35
Hình 15. Thư mục Tiếng_Việt của dmoz..................................................................38
Hình 16.Các liên kết cần lấy về trong các thư mục.................................................39
Danh mục các bảng biểu
Bảng 1. Bảng trọng số các thẻ HTML trongTextNet..............................................21
Bảng 2. Bảng các thẻ HTML quan trọng khác........................................................22
Bảng 3. Ví dụ về các trường trong querylog của MSN...........................................26
Bảng 4. Cấu hình phần cứng trong thực nghiệm của bài toán...............................36
Bảng 5. Các gói của chương trình.............................................................................36
Bảng 6. Các lớp của gói general................................................................................37
Bảng 7. Các lớp của gói methods..............................................................................37
Bảng 8. Các lớp của gói SELink...............................................................................37
Bảng 9. Danh sách các phần mềm, mã nguồn sử dụng..........................................37
Bảng 10.Kết quả trích xuất từ khóa của một số trang tiếng Việt, tiếng Anh.........40
Bảng 11. So sánh kết quả trả về của một ví dụ sinh từ khóa cho báo điện tử.......44
MỞ ĐẦU
0B<("6NoC*ZEE`7a01a1E
aEk=aEk"&9*1;D6N`9
> 'N6<W9o&9C*ZEE.7450;
C*510*79,<*0 S6*C*5".8-9(04"
^T>&9C*5*VE '55".8C"2
1dBU805.B*D?*U8050*849N^9
+71d5".8d450-WL0B<("
!5*VEDL1^>4*;N`9>U805
>0510*793quảng cáo trên máy tìm kiếm9;*
510*7985DU8D*ND bDML05L6
A95A05MTU8050*VE !7d05`*(
.^L&95U805*005U805"95L1C**
VE
)LL685005MTU8D*05*VE^
64*C*>10*79DM7phân loại các tài liệuVE
05d9T97.805dD,1#1
\T > 5 * VE 50 85 * 5 0 f E*0 *00 0
[8 0E*" 0 -591d7U8D*05*"A=
EDA7E01•1#135*50*"59€85
D4* '5U8D*F9*06^@01N HB
BU8D*^.8>T0LA95^9(0
C*1NF91ND5.o4*>5T>*
^4*
)LT>4*=88•D695AC*VE.B
€VE^F= 0D5*VE(DB9(7
o4*5U805A55".85d85DA5&1#1
!D^A705*VE5c‚E*ƒ0-%)x !D„F9
0máy tìm kiếm làm việc tốt hơn5.85DA9&*VE3
b*35*VE7*">U805L5C !D„85
743B10*79D3^*VE: '355".
85*D><VE.7sinh tự độngT4*= !DU*
P
0*?U*DA.*^BU805*"C*
VEDAD
+6805&->TL99594"05
MTU8050*VE+7K4*>…Bài toán trích xuất
từ khóa cho trang Web áp dụng phương pháp phân tích thẻ HTML và đồ thị Web†
)dC*>?4"05U805E0*9959
Mfphân tích nội dung trang dựa trên thẻ HTMLđồ thị web !0*8D*
&,*995985g^A*0T^U8D*Df
khai phá log1Ntừ điển hỗ trợ +U0;*VE„DU0;9
95985* 0D99598*95L1*16*c%)x
C;0>* r*670T"59&"84*
DA=LM585*08^95U805C*M
4$.&9U805*85("CM5
!09(MỞ ĐẦU KẾT LUẬN8TC*805&*0u5
*f
kChương 1fw7>05 !5857>05 '5
?1dC*05 !B5?`*005
kChương 2f'5.4* w7^>59959-
^591d5050<0*VE
kChương 3f%4">T.05 )
4"C*5>T.DA6
kChương 4…H46755† b**B84-
5584
Q
Chương 1. Giới thiệu bài toán trích xuất từ khoá cho trang
web
1.1. Đặt vấn đề
S695A*DC*ZEE`76Noa01a1E
aEYaaa]k=VEk0"8D8A05
N`9> .87*"("C*>
>e685* S6L95>7-0*B5".8
9(0-4"^6&9d" +.(1d5".
87*"TD,^64*C*510*79h
dựa vào máy tìm kiếm để quảng cáo sản phẩm C*.4*5từ khóa‡Qnˆ‡Qˆ‡lnˆ
bD,L6MA95Abài toán sinh từ khóa cho trang web.
+7U8D*0*VE8B/D@e*055".
87*"DD>?1d05*VEo^9
8550507..975 +g*
VE5U8D*C**D„B6^@T301NA.T"
B854*=DA*4*
0><4*bài toán trích xuất từ khóa-^4*F@>
05L$80*= ‡Qnˆ‡lJˆ ‡Qvˆ ‡Qqˆ ‡PPˆ‡QIˆ510*798
10*,B4$VE1$45VEC*.
YSz{fSE*zE{9|*0]‡mˆ !B50&<C"
>< '3>*VE.859?;93>*‰>
99599(&9T"7
'5U8D*5UdUhL1C**VE<L
5=TM5T '5U8D*9845*"
845*;31d Bài toán trích xuất từ khóa cho trang web
7591d5995985*@L;*VE*"5
4**VEA.*^&9U8D*;170F‡Qmˆ‡QRˆ
'MB6591dL-(6#C*05-L6
A8D*&&9?>05U8D*0*VE HD*&
,>T.05U8D*16**9959Mfđộ quan
trọng của các thẻ HTML, đồ thị web _;D,o*9959g
^7.U8D*Dfkhai phá query logC*5".8tập từ điển hỗ trợ
l
1.2. Khái niệm và các đặc trưng của từ khóa
Từ khóaLU*"LdU1NAL5M5=
TL1MC*L7Y<*"5*VE]‡QJˆ‡Iˆ‡vˆ‡Pvˆ 0
KU8D*^A71>&B85*f8E"V01E
4E"E*"*‰@e*C*F3*‡QIˆ 057.
5keywordstags^1d>T %7*"5*VE€
E0al'
P
Ya01a1EaE'00]>D?*BU8D*C**0
c‚E*ƒLM…keywords† '5U8D*C*5*VE*3^
CW4$VE _05MTU8D*C*7+7
KL0B05T90?@B6
,0L3" &95U8D*DA0Lbản
tóm tắt đơn giản nhấtC*<‡QIˆ &95U8D*„D•@e*C*
<*"*VED
Bài toán trích xuất từ khóa cho trang web L45..8&1;
&95U*"dUD@e*5U"DA;170*VED‡Qmˆ
‡QRˆ w4"05"**59959A591d5*VE
*"54**VEA.*5U8D*;170*VE
"L56L
)L3`AMW‡lqˆ45.FMU8D*f
Từ dừngf'5U1UY09V01]8h01*55U8D*^
* '5U1U5U8*0@e*5Uf**E
*0V0 0K5Uf„N 0+7
Loại từf'5U01*5U8D*5LU0`1*U "
DA5UDA^,(E• '51*U
^0=51*U
Liên quan đến tiêu đề f!BU8D*0<94*(>
<
Số lượngf&9U8D*C*L*VE<L1*55U8D*
85*D9N^9U0;<*VE85*
IkPJU8D*0*VEPIkQJ0550
1.3. Đánh giá các từ khóa
.5"4$*VE>h=-
U805@WT !.=* !"1081#15
P
9fŠŠVl 0
m
L5*8:L".&5L85><
S0;*L1*55U805.8L9L45.LL
)=T;>BU805^^@88
W^^(5858DNLB=
)L8-D^L1*5U8D*00F"F55U
dUA=*01*5BU805„*;0*VE
^0*VE*0 )`1NT>5>555dU805
16*3L38M*;(9D05U8D*‡Qˆf
* Tính phổ biến
'0*"51#TA55DM9o '5phần mềm
a01*8E**5039oC*dU^.816*00;L
6C*Sz‡Qˆ \•030*0.168„D0*0
Tính đặc trưng
H57"U^03A7M9o;4*
=88• +M1d1dhDA;^?;*0SzdU
805…*E09*E† !10*79/810*0e6
0AY*0*E] )`1NU805“insurance companies”DM9o
*0U805“auto insurance”dU805“insurance companies”„
10B.81$d0A=0A?80c0
A*?840.80A.;8T7
Hướng người sử dụng
!3"16*05eC*31N +M1d1dL;@
TLWK****U8D*D‹K**E*E*E‹
…K**E*E*E*E† %*U805"DM9o6* 'F
,DM`.D7&" +&".U0.3
!.0LC*1d00.„T"U?*„3
U805?*0h1d3.8L;@>
1.4. Thách thức của bài toán sinh từ khóa cho trang web
'5?"C"&9>MTU8D*05
<*"5058AD< )L^A05<10<
/(D>L>*"LC>5$M# 08D3
5*VEDo^9C*>L*VED>
84*f45064* +.&"B5
I
?C*05MTU8D*0*VED#5*L
1C*>*8&9
1.4.1. Đối với các trang có nội dung tập trung
'5*DL1&95*0D?*BL1d
A>LT> !D8580;:59(0.9(;
L< +58e&MTU8D*3<„^591d(
3U$MU050;<LuU '5*DL1&9
50712L< !D7=#05
*"L>4*=F9<T^C*7MTU8D* +
B451.*;",85
1.4.2. Đối với các trang có nội dung tổng hợp
%7*""^&9&"0g*VE
!(o^9?T( '5*VE3B&9
&„^A$*(81N*C*= !B*
("=5*C '5*VE90*,6‡lIˆ )L*
VE90*L***BW>u85*E0L5
3T !0:*-Ld.8VE90*T95
1$d8550??805M +M1d>5VE90*fK{x
)S!"*00w00E !591d7MTU8D*591d3L1
05*VE"„12848M5 '(DB9
95985ADAU8D*00;*"08D*&"591d
99591Nu$aE0g^
1.4.3. Các vấn đề khác
!"*"3^5*VEZEET> +.&"78A
05L1,-8D*8ABg07-D*%)x*
VE !B%)xLBDTF`„E0€C*al'
5&cWD*"c bADA9MT"^B
0*VE.F*(5*D-%)xE0€ "5.1"7
DA:4*5g%)xAA7$Bg&"05
.@C*F*`9T>>79MF9595$*5
0;<0*VE y0+7KDBdUL3U
8T7L.„8D@e* +.&"(9DLL5U3T
3+7
n
!05g>TFC*%)x*"0L1<C*5*
VE,DBgf+781T* )L3*VED
1d5>#9MfVVV 10 8VVV 0 08:
5*C*=.-%)xA$;8-%)xC**VE6
;-%)xC*5*T9>
1.5. Ứng dụng của từ khóa trong các lĩnh vực
1.5.1. Vai trò từ khóa trong máy tìm kiếm
1.5.1.1. Quảng cáo trên máy tìm kiếm
+7*5".8-4"9(0(>M8
; y0D5".8Ld8A0B1N
VE7*" 'M.69o^1N1dD04
505".8L0B.?quảng cáo8574D
9(WL0B<(" '510*794$C*5*
VEYVE*E](DB^85*84505".8
L574T y07.85".8C"16*U805
07.*BU805;1705*VEA450L0
B7d(C*510*7954$VE345
*VEC*. '510*79"(<8M5U805"55".
8ADA450*VEC*. "DT>10*79
85,34509€"*^9;*BU
805
0458?B450M`50BU805DD
*3^84>0BU805"T
'DL^85h550BU805854*0M8
485".8>D2D(4*=D^5
€L14503 y0DDU*D74;U*
D5(0U8D*cM;*20MT9o
oLC*10*79450
.8D^*")*8E5".8YSz)]‡llˆL5
?450859oVE7*"D,M&9MC*5
5".8 '5g5".8&9L^8ou>
5WMC*1d045.&C*F !B
q
";7g^07T955".8A>8
49N^9DA^505"85 !B"*5
"DA1dFA^B9€1N*
4*0`05(C*1N0*
'5U805„7d4*=^@*B74*
B74*",DU805D !uU4506"C*
55".8T +M1d<QJJmw00E>l/b*)ŒU450
‡Qˆ 'D*5quảng cáo trực tiếp5".8f
- Cách thứ 1 85>0BU805A0h*VEC*
=hW?;*001*5>C*5".8Ypay for placement ]
'5"$D8h85".8A3.058
4D^^?;*0 '5",M^591d1055".8
(0^6hC*M&05C*5".8>
- Cách thứ 2^591d9o '55".8A**.8>
Q9(.%.PL9(84>M55".8.
T"0735*VE-*V>L9(9(105*
VED^ +5*VEA$W9("55".8591d
^>81N8 'De*5450„9>05"
.881NE*05".880450 )L
^96D7*"D>10*79>`3*
>3;** H4505".85U805DA„
N*510*79>3WBU805D.BU805D
9o4*= y0D5".8„D45.T50U805 b3
gU80510*79050U805*0„^?W$M
(
Hình 1. Minh họa các quảng cáo của doanh nghiệp trên máy tìm kiếm
v
1.5.1.2. Hoạt động quảng bá web trong máy tìm kiếm
Tối ưu hóa công cụ tìm kiếm *" SEO Y C* search engine
optimization]L&9^959959h*0?;C*L
VEE05*84C*5d.8DA^0LA
e6C*9$4*d.8‡mˆ )L0B599590
45.Sz{7.U8D*05*VE
U8D*BUdUB"&9&900Bg
5".8A.T"UB*VE b>4*=(C*
54$VE5*VEC*=D^Bg5".839
;BU8D*9o4*>C**VEC*=8
!BU8D*F4*=C*B0;LSz{C*
B4$VE S„89959383D*B*
aE0BU8D*8*1d0Bg5".8 %B*
ADB1N4**VEBU8D*8^L
450`45‡Qˆ
!BU8D*0BU8D*F0L*VE•'.*8D*W"
9=*BU8D*9o8^45A5
&9784.8 .*^BU8D*`759?
^:„F90*VE;^?;*001*5.8
D>1N"&90 _(07=FB
U8D*90FW`7‡Qˆ‡lnˆ
• S1dB7>U8D*uD*3U
• 5BU8D*45;*5*VEo85
• b`7Y`73845*;31N]
bAL1$9$6"(9=^BU
8D*F9N^9 !BU8D*1d(9M^9*VED
B"&9(9*.8BU8D*D "BU
8D*C*1N>F;83BU8D*4$
VEe b*3=1d*3U0`7>0L6.8
.&"B7>TD74 !BUđơn 8A^45D7
4 'Ž;MD.8“free download software”/&90D
gU“soft” 5B7>U8D*;FTW.T1#9**
7*VE850L6F@C*g5".8 &8
6AhL*VEDA9;3LL7>;
R
FM1d“Mp3”*"“báo điện tử” \•5"^&9*
*0EE<„D^M9o
1.5.3. Vai trò từ khóa trong các trang web tổng hợp thông tin
)LL685A95A05MTU8050*VED
U805F9 phân loại5<E0$e*C*1N11;C>
09•91#1"9.D !DF978g
74**Y0k8]L5Lgiảm thời gian để tìm kiếm
03L1**E +M1d0%.Q%.l
BU805(C*Q**00 0Y+7]}8YK]
Hình 2. Top từ khóa của baomoi.com
Hình 3. Top từ khóa của flickr.com
;LA0D1N"&9E>B*D
BU805.&"09U805„D^C*1N !B
U8D**"^1N1dMBC>1N7;
*4* +885"&90*VE=DA8595=
EB*^0T7*" !BU8D*"F90
1NE058545E0C>5$
081N=E5*VE…những điều gì họ sẽ quan tâm
tiếp theo ?†L:^>4$5*VEo^9
h0-(3*C*1N +U805L0
B9598574 )gL*VE1N8=„
7*BU8054*D !BU805"D9(0
^L1*VE1N*= +BU805"1N
DA.B4**=*=4*5U805 +M1d0
%.m=4*o1"7C*!*0"RŠIBU
8054*„^^@01N4*L17;
PJ
1NDAE54*phát xít, duyệt binh, hồng quân, thủ tướng
Nga, tổng thống Nga, Nga....
Hình 4. Từ khóa được trích xuất từ phần tóm tắt bài báo của trang web baomoi.com
!05?1d64*1N5U805DL
?1d8507 phân cụm 5*VEE0M5U8D* )g*
VEDL&95U8D*5U8D*"DAN5U8D*C*5
*VE85 y0DLU8D*Ld?*5*VE4*
DU8D*MC*dD )L*VED>U8D*0L
*VEDAL>d85* 'M66"C*5U
8D*DD51d07.8*7407
BWDTF
Mạng xã hội,*95AT*F^>64*C*
c )L05.?C*;-L0 _0A=
&8M*"B*c8?0`B>5T>0-
L^4* !B0DT>85*>
2WLC> '50E*M71N*AA1#
=0C>LC*= *W",^0U8D*‡QIˆ +5
*=0„E01•^B4*050
0L5*D +5*">10` +M1df8=L
00>T>5"M1NDA.B4*
Ua10V&9.•!=DA„.T"B=M
'5U8D*,L059?A=8595*VED
PP
1.6. Tổng kết chương
'"-."B857C*U8D*05MT
U8D*0*VE5?C*D057VE +4*"F*
,T"^(4*=C*7U8D*5e685*
'ZZ8D*&."L3.80*=D4*05
"
PQ
Chương 2. Các công trình liên quan
2.1. Các phương pháp trích xuất từ khóa cho văn bản
MTU8050*VEL05^dAD*L9(U
05MTYZ\fZ[0*0\EE*] b-D5?85
*>05MTU805L56L )`705D
<L0B05(305" )dC*05
MTU8D*.*BU805^L1C*<*VE
h5591d5995985*16*5`AC*<VE
">591dC*05D<5<
)L39959005D<,DA591d005
MTU8D*0<
'5@"9959^591d85*1;3<f
1d(3Y[1[]=5"*tE*"E"4"$0k0EEL
uU8D*58e&85005D< S*"9(
7L39959
2.1.1. Phương pháp tần số từ
s959(TT7C*U^7Wx0<
PRIv‡Plˆ s959"16*f(3C*UT70550
LL0BM>e*C*U‰MM3C*UDe*09;L
,L0BM>`@e*C*U "WC*9959$
;108<C*5"M8AA7^5>`B
e*
s959"E•h5UT7>(.„*M
9oC*D9(0L1C*D '5U9o"^=
6*E0599U*0T9E0(3T7 "E09
959".51;85*C*U„^0LU 0D7
M05(3C*U„1275UD(345*05U1U )L
56.BUD(345*00`45T9,84*=
'F*DA;0&9G05U8D*De*;0G8B
0BU8D*(3T90BUD(345*0 y0DG
^T9&„h080‡*ˆ*&1& '5U1U
,DA^0;:74L&9UAU1U
Pl
bAM(3C*U4*=9959(3UM993C*g
U07Y[]993C*UW009Y1[kEE110E]‡lmˆ
1[Y8E"V01]•
]
]Y
0Y
keywordNUMDOC
NUMDOC
0Df
!~)y{'f370&909
!~)y{'Y8E"V01]fM37DU8E"V01T7
![Y8E"V01]1[Y8E"V01]^LG5$5dU8D*^.
T"^5=3 !BU0D=3*0.^=
b3*VEDA591d9959"h5U$*/*
VE(T"U8D* x(E0580*;3"YEE19*E]AT"
>5*VE859LN10*‡QIˆ &95*VE";0
L&909 +7M05U8D*0g7VE„^ME0?
16*0B0;EA$M*U5*VED "10*
VED>BU^A$0L*8D@e*f6
450 ;T7>(W5* +.&"5UT705
d";D(3T7*005U8D*
2.1.2. Phương pháp sử dụng các thông tin khác trong văn bản
s959.U8D*16*0MT59(4*=C*59(
0<D9(69959DC*z110‡PQˆ16*0
9959T"9(4*=C*<f5dU^@U8D*>C*
<M$C*0< s959.U8D*,„1N5`
AC*<A.*BU8D* y"WC*9959f
a. Cụm từ gợi ý trong văn bản
5dU^@4*0`84*5
4*= +M1d5U…050"†…D;† 9(4*
=C*< %0`BdU85…M1d†/*9(84*=
C*<
b. Tiêu đề của văn bản
!8><C*..9F=L1
,5A7tiêu đề*00=/(.4*0>DA
A^L1C*0L< +.&">DL4*=T*0
Pm
0< b-D550?D<16*0Lu
1N>2A58505‡Pˆ 'DA591d9959
"0<VE`79(<0c‚EƒC*u%)x
C**VE +75505C*><„07.L1
C*<*"*VE„WM5 '5>DA^0
9(D=C*<5UDe*6*"BU`9
;>0<N5U0>.>4*=
c. Vị trí của các từ khóa trong văn bản
BU^T70B0;(0<
DL4*=*05U?B**"3 y0&"DA
=5U8D**00DT7>W9(W(T3B
1 "L3;DTF1;f9(79(MD
; '5UW9(79(D;T7>0<>85
4*=
1 Tần số từ trong văn bản
'5UT7"0<D/*C>C*<
D )?L4*=C*5UdUM05W(3T7C*
F0< bA85C*8e&(3"0(3f(3
U•>L&950`&950;<85* '"/59
1d0L;C*L< )LdUdUT70<>
LG0D.^0U4*=
UBW*DAM^=3C*LU8D*ho^9
"M5=3&^U59959MFWf
VEYH]•
]Y ]Y ]Y ]Y KFrequentKPositionKCueKTitle
δγβα
+++
'5*3
δγβα
„^>/9N^9h5751B
785*
2.1.3. Phương pháp sử dụng học máy
HzK‡PRˆwEz‘‡Rˆ*.?1d**L3959>
05MTU8D*Y8E"V01E*0]‡Qvˆ 08wEz‘1N&1
">.HzK1N&4"$16*99!*E_*"EY!*tE_*"E
1E0E]QLMD}Zy}805C*U0;(C*
< )L995985591d16*gU6YE**]591d
UAa01!E0599A4"05U8D*"
PI
2.1.3.1. Trích xuất từ khóa sử dụng phân lớp Naïve Bayes
050‡Qvˆ’*~|1d99!*tE_*"EA591d0
05" “0h05"DA0LT>0=5" 'D5UW
0<dM&*LUD9L9U8D*Y8E"V01]*"
LUY01*"V01] !5.=5"85."
,1d&9T"7A=5*0A&*LUU8D**"8
y6*0B-&^U45.=A&.*5U8D*
UB<*0 !*tE_*"E16*5TC*5UA4"$
EUDD:*-GLU8D*8
<(^^5*508E1d58M7
f1T531*1TT9€" !BB8*9*kE*$
0;: M/3}Zy}0508E y01dZy}5&91B79
0NLC>
bA"16^L.99A&^U8D* 5
-1d5LMuf(3T7$MC*U0<
2.1.3.2. Trích xuất từ khóa sử dụng lexical chain (chuỗi từ vựng) và phân
lớp
050<QJJq‡PPˆw0Ez*Z"*'E8-."59
&05E01dUABe*a01!E‡lvˆ8^999"
4"$ADA&1;M5U8D* s959"D1d5
4*7Be*h*0T^5U8D*4* MT'gU
67**54*7Be*C*<*0 0L
gU6„/*^LU1*U;U54*7u
e*5e*Y*]DY**] '78D8<TDM"16
^LgU6C*<16*0UAa01!E a01!E^=.
UAK"D("C5>5U0Kf1*U
5Uue*5e* +54*7Be*"5"16
.A*gU6YE**]0L<;0LgU
6DT;03a01!E !>9?;9„*^9(
Be*
S*8D^5gBe*C*<(U8D* 5=
&05"4"$'m I5LMf$MT7((3
T7$MT73NLLMT"UgU6-*U
Pn