Tải bản đầy đủ (.pdf) (61 trang)

Trích chọn sự kiện dịch bệnh cho hệ thống giám sát trực tuyến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.91 MB, 61 trang )

ÑI H≈C QU»C GIA HÀ NÀI
TR◊ÕNG ÑI H≈C CÔNG NGHõ
NGUYôN MINH TIòN
TRÍCH CH≈N S‹ KIõN D¿CH BõNH
CHO Hõ TH»NG GIÁM SÁT
TR‹C TUYòN
LUäN VãN THÑC Sfl CÔNG NGHõ THÔNG TIN
HÀ NÀI - 2014
ÑI H≈C QU»C GIA HÀ NÀI
TR◊ÕNG ÑI H≈C CÔNG NGHõ
NGUYôN MINH TIòN
TRÍCH CH≈N S‹ KIõN D¿CH BõNH
CHO Hõ TH»NG GIÁM SÁT
TR‹C TUYòN
Ngành: Công nghª Thông tin
Chuyên ngành: Hª thËng Thông tin
Mã sË: 60480104
LUäN VãN THÑC Sfl CÔNG NGHõ THÔNG TIN
NG◊ÕI H◊ŒNG DàN KHOA HOC: Ti∏n sˇ Nguyπn Trí Thành
HÀ NÀI - 2014
LÌi cam oan
Tôi xin cam oan lu™n v´n “Trích chÂn s¸ kiªn d‡ch bªnh cho hª thËng giám sát
tr¸c tuy∏n” là công trình nghiên c˘u cıa riêng tôi. Các sË liªu, k∏t qu£ ˜Òc trình
bày trong lu™n v´n là hoàn toàn trung th¸c và ch˜a t¯ng ˜Òc công bË trong bßt
k˝ mÎt công trình nào khác.
Tôi ã trích d®n ¶y ı các tài liªu tham kh£o, công trình nghiên c˘u liên quan
trongn˜ÓcvàquËct∏.Ngo§itr¯cáctàiliªuthamkh£onày,lu™nv´nlàcông
viªc cıa riêng tôi.
Hà NÎi,ngày tháng n´m2014
Tác gi£
Nguyπn Minh Ti∏n


3
Lèi cÊm ẽn
Trểc tiờn, tụi xin gi lèi cÊm ẽn sõu sc nhòt tểi TS. Nguyn Trớ Thnh, nguèi
ó tn tỡnh chứ bÊo v hểng dđn tụi trong quỏ trỡnh thác hiên lun vn tật nghiêp.
Tụi xin gi lèi cÊm ẽn chõn thnh tểi PGS.TS. H Quang Thy, ngèi ó tn
tỡnh giỳp ễ, nh hểng v gúp cho tụi trong suật thèi gian tụi nghiờn cu v lm
viêc tĐi phũng thớ nghiêm Cụng nghê Tri thc (Knowledge Technology Laboratory
- KT-Lab).
Tụi xin gi lèi cÊm ẽn tểi TS. Phan Xuõn Hiu, nghiờn cu sinh Trản Mai V,
nhng ngèi ó c v, giỳp ễ v úng gúp kin cho tụi trong suật quỏ trỡnh hc
tp v nghiờn cu tĐi trèng Đi hc Cụng nghê - Đi hc Quậc gia H Nẻi.
Tụi chõn thnh cÊm ẽn cỏc thảy, cụ, v cỏn bẻ trèng Đi hc Cụng nghê -
Đi hc Quậc gia H Nẻi ó giÊng dĐy v tĐo iu kiên thun lềi cho tụi hc tp,
nghiờn cu, v hon thnh lun vn. Bờn cĐnh ú, tụi xin cÊm ẽn cỏc anh, ch, v
cỏc bĐn sinh viờn thuẻc phũng nghiờn cu Cụng nghê Tri thc (KT-Lab) ó giỳp
ễ tụi hon thnh lun vn.
Tụi xin gi lèi cÊm ẽn tểi nhng ng nghiêp tĐi Bẻ mụn Cụng nghê Phản mm
- Khoa Cụng nghê Thụng tin - Trèng Đi hc S phĐm K Thut Hng Yờn ó
ng hẻ, c v tụi trong suật thèi gian hc tp, nghiờn cu v hon thnh lun vn.
Cuậi cựng, tụi muận gi lèi cÊm ẽn c biêt tểi gia ỡnh, bĐn bố, v nhng ngèi
thõn yờu luụn bờn cĐnh ẻng viờn tụi trong suật quỏ trỡnh hc tp v thác hiên
lun vn tật nghiêp.
Tụi xin chõn thnh cÊm ẽn!
Hc viờn
Nguyn Minh Tin
4
Mˆc lˆc
1TÍngquanv∑bàitoántríchxußts¸kiªn 1
1.1 Bài toán trích xußt thông tin t¯ d˙ liªu lÓn . . . . . . . . . . . . . . 1
1.1.1 Bài toán trích xußt thông tin . . . . . . . . . . . . . . . . . . 1

1.1.2 D˙ liªu lÓn - CÏ hÎi và thách th˘c cho lænh v¸c trích chÂn
thông tin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 TÍng quan v∑ s¸ kiªn . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 ‡nh nghæa s¸ kiªn . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Trích chÂn s¸ kiªn . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3 Bài toán trích chÂn s¸ kiªn d‡ch bªnh . . . . . . . . . . . . . . . . . 8
1.3.1 Trích chÂn s¸ kiªn d‡ch bªnh - fi nghæa và t¶m quan trÂng . 8
1.3.2 Phát hiªn s¸ kiªn . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3.3 Trích chÂn s¸ kiªn . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4 fi nghæa bài toán trích chÂn s¸ kiªn d‡ch bªnh . . . . . . . . . . . . . 10
1.4.1 fi nghæa khoa hÂc . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.4.2 fi nghæa th¸c t∏ . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.5 Khó kh´n và thách th˘c . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.6 TÍng k∏t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2MÎtsËph˜Ïngphápti∏pc™n 12
2.1 Ph˜Ïng pháp ti∏p c™n d¸a trên lu™t . . . . . . . . . . . . . . . . . . 12
2.1.1 Lu™t cú pháp . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.1.2 Lu™t ng˙ nghæa . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Ph˜Ïng pháp ti∏p c™n d¸a trên hÂc máy . . . . . . . . . . . . . . . . 14
2.3 Ph˜Ïng pháp k∏t hÒp lu™t và hÂc máy . . . . . . . . . . . . . . . . . 15
2.4 MÎt sË nh™n xét . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.5 TÍng k∏t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3Môhình∑xußt 18
3.1 Các ∞c tính cıa s¸ kiªn d‡ch bªnh . . . . . . . . . . . . . . . . . . . 18
3.2 Phát bi∫u bài toán . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.3 Ph˜Ïng pháp ∑ xußt . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.4 Mô hình phát hiªn và trích chÂn s¸ kiªn . . . . . . . . . . . . . . . . 20
5
M÷C L÷C 6
3.5 Bài toán phát hiªn s¸ kiªn . . . . . . . . . . . . . . . . . . . . . . . . 21

3.5.1 Phát bi∫u bài toán . . . . . . . . . . . . . . . . . . . . . . . . 21
3.5.2 Xây d¸ng t™p lu™t . . . . . . . . . . . . . . . . . . . . . . . . 22
3.5.3 Xây d¸ng mô hình phân lÓp . . . . . . . . . . . . . . . . . . . 24
3.6 Bài toán trích chÂn s¸ kiªn . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6.1 Phát bi∫u bài toán . . . . . . . . . . . . . . . . . . . . . . . . 25
3.6.2 Trích chÂn thÌi gian . . . . . . . . . . . . . . . . . . . . . . . 26
3.6.3 Trích chÂn tên bªnh . . . . . . . . . . . . . . . . . . . . . . . 27
3.6.4 Trích chÂn ‡a i∫m . . . . . . . . . . . . . . . . . . . . . . . 27
3.7 TÍng k∏t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
4Th¸cnghiªmvàánhgiák∏tqu£ 30
4.1 Môi tr˜Ìng và các công cˆ cài ∞t . . . . . . . . . . . . . . . . . . . 30
4.1.1 Cßu hình ph¶n c˘ng . . . . . . . . . . . . . . . . . . . . . . . 30
4.1.2 Công cˆ ph¶n m∑m . . . . . . . . . . . . . . . . . . . . . . . . 30
4.1.3 Các gói ch˜Ïng trình . . . . . . . . . . . . . . . . . . . . . . . 30
4.2 Xây d¸ng t™p d˙ liªu . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.1 Thu th™p d˙ liªu . . . . . . . . . . . . . . . . . . . . . . . . . 32
4.2.2 Ti∑n x˚ l˛ d˙ liªu . . . . . . . . . . . . . . . . . . . . . . . . . 33
4.3 ánh gía quá trình phát hiªn s¸ kiªn . . . . . . . . . . . . . . . . . . 33
4.3.1 ánh giá bÎ lÂc d˙ liªu . . . . . . . . . . . . . . . . . . . . . 33
4.3.2 ánh giá quá trình phân lÓp . . . . . . . . . . . . . . . . . . 34
4.4 ánh gía quá trình trích chÂn s¸ kiªn . . . . . . . . . . . . . . . . . 35
4.5 Phân tích lÈi và bàn lu™n . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.5.1 Phân tích lÈi b Î lÂc d˙ liªu . . . . . . . . . . . . . . . . . . . 37
4.5.2 Phân tích lÈi quá trình trích chÂn s¸ kiªn . . . . . . . . . . . 37
4.6 TÍng k∏t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
Danh mˆc các t¯ vi∏t t≠t
STT T¯ vi∏t t≠t T¯ ¶y ı
1 IE Information Extraction
2IR InformationRetrieval
3 DM Data Mining

4DSSs DecisionSupportingSystems
5 OMSs Online Monitoring Systems
6RSs RecommendationSystems
7 MUC Message Understanding Conference
8 ACE Automatic Content Extraction
9NOAA NationalOceanicandAtmosphericAdministration
10 TDT Topic Detection and Tracking
11 NLP Natural Language Pro cess ing
12 NER Named Entity Recognition
13 TF-IDF Term Frequency - Inverse Document Frequency
14 CRFs Conditional Random Fields
15 Maxent Maximum Entropy Model
7
Danh sách b£ng
1.1 ThËng kê trên d˙ liªu Twitter . . . . . . . . . . . . . . . . . . . . . . 3
3.1 Danh sách các t¯/cˆm t¯ th˜Ìng xuyên . . . . . . . . . . . . . . . . 23
4.1 Cßu hình ph¶n c˘ng ˜Òc s˚ dˆng trong th¸c nghiªm . . . . . . . . 30
4.2 Công cˆ ph¶n m∑m ˜Òc s˚ dˆng trong th¸c nghiªm . . . . . . . . 31
4.3 Danh sách các lÓp trong t¯ng gói ph¶n m∑m . . . . . . . . . . . . . 32
4.4 Các thành ph¶n cıa mÎt bài báo . . . . . . . . . . . . . . . . . . . . 33
4.5 T lª lÈi cıa ch˘c n´ng lÂc d˙ liªu . . . . . . . . . . . . . . . . . . . 34
4.6 So sánh kh£ n´ng phân lÓp gi˙a Thí nghiªm a and Thí nghiªm b .35
4.7 So sánh Î chính xác quá trình trích chÂn gi˙a Thí nghiªm c and
Thí nghiªm d 36
4.8 LÈi trong Thí nghiªm c (15 trên 25 lÈi) . . . . . . . . . . . . . . . . 38
4.9 LÈi trong Thí nghiªm d 39
8
Danh sách hình v≥
1.1 S¸ t´ng tr˜ng d˙ liªu t¯ n´m 2004 ∏n n´m 2020 . . . . . . . . . . 2
1.2 D˙ liªu trên Internet trong 60 giây . . . . . . . . . . . . . . . . . . . 3

1.3 Các b˜Óc trong quá trình khám phá tri th˘c trong cÏ s d˙ liªu [15] 4
3.1 Quá trình phát hiªn và trích chÂn s ¸ kiªn . . . . . . . . . . . . . . . 21
3.2 Thành ph¶n phát hiªn s¸ kiªn . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Thành ph¶n trích chÂn s¸ kiªn . . . . . . . . . . . . . . . . . . . . . 25
3.4 Bi∫u diπn cıa cây phân cßp ‡a i∫m . . . . . . . . . . . . . . . . . . 28
9
LÌi nói ¶u
Trích chÂn/trích xußt thông tin (Information Extraction - IE), ∞c biªt là trích
chÂn/trích xußt s¸ kiªn (Event Extraction - EE) là mÎt lænh v¸c con trong khai
phá d˙ liªu (Data Mining - DM). K∏t qu£ cıa quá trình trích chÂn có th∫ ˜Òc
dùng cho các hª thËng hÈ trÒ ra quy∏t ‡nh (Decision Supporting Systems - DSSs),
các hª thËng t˜ vßn (Recommendation Systems - RSs), ho∞c các hª thËng giám
sát tr¸c tuy∏n (Online Monitoring Systems - OMSs) [20].
Nh˙ng n´m g¶n ây, trích chÂn s¸ kiªn ã thu hút nhi∑u s¸ quan tâm t¯ các
nhà khoa hÂc trong l ænh v¸c khai phá d˙ liªu nói chung và trích chÂn thông tin
nói riêng. Trích chÂn s¸ kiªn ˜Òc ∑ xußt l¶n ¶u tiên t§i hÎi th£o Message
Understanding Conference n´m 1987 [19]. Trong hÎi ngh‡ này, mÎt s¸ kiªn ˜Òc
‡nh nghæa nh˜ sau: mÎt s¸ kiªn b≠t buÎc ph£i có tác nhân (actor), thÌi gian
x£y ra s¸ kiªn (time), ‡a i∫m (place) và tác Îng tÓi môi tr˜Ìng xung quanh
(impact on the surrounding environment).Bênhc§nhó,ch˜ÏngtrìnhAutomatic
Content Extraction (ACE) ˜a ra ‡nh nghæa: s¸ kiªn là mÎt hành Îng ˜Òc t§o
ra bi ng˜Ìi tham gia và ˜Òc chia thành tám lo§i: cuÎc sËng (life), s¸ di chuy∫n
(movement), s¸ chuy∫n (transection), kinh doanh (business), xung Ît (conflict),
liên hª (contact), con ng˜Ìi (personnel) và lu™t phát (justice). Theo inh nghæa cıa
Allen và cÎng s¸ [1], mÎt s¸ kiªn bao gÁm bËn thuÎc tính: ph˜Ïng th˘c (modality),
s¸ phân c¸c (Positive, Negative), m˘c Î (Specific, Generic) và thÌi i∫m (Past,
Present, Future, Unspecified).
Lu™n v´n "Trích chÂn s¸ kiªn d‡ch bªnh cho hª thËng giám sát tr¸c tuy∏n" t™p
trung vào nghiên c˘u các cách th˘c và ph˜Ïng pháp gi£i quy∏t bài toán trích chÂn
s¸ kiªn d‡ch bªnh. Qua ó, ˜a ra mô hình, gi£i pháp cho vßn ∑ trích chÂn s¸

kiªn d‡ch bªnh trên mi∑n d˙ liªu ti∏ng Viªt. Lu™n v´n s˚ dˆng ph˜Ïng pháp k∏t
hÒp gi˙a lu™t (rule-based) và hÂc máy ∫ gi£i quy∏t hai bài toán lÓn trong nghiên
c˘u, ó là: bài toán phát hiªn s¸ kiªn và bài toán trích chÂn s¸ kiªn. K∏t qu£ cıa
nghiên c˘u là danh sách các s¸ kiªn d‡ch bªnh ˜Òc tr¸c quan hóa trên hª thËng
giám sát tr¸c tuy∏n, nÏ i mà ng˜Ìi dùng có th∫ theo dõi tình hình diπn bi∏n d‡ch
bªnh trên lãnh thÍ Viªt Nam.
Cßu trúc lu™n v´n ˜Òc chia làm bËn ch˜Ïng, nÎi dung ˜Òc mô t£ nh˜ sau:
Ch˜Ïng 1: TÍng quan v∑ bài toán trích chÂn s¸ kiªn
Ch˜Ïng này trình bày cÏ b£n v∑ bài toán trích chÂn s¸ kiªn trong bËi c£nh bùng
10
DANH SCH HèNH Vỡ 11
n thụng tin trờn Internet. Hẽn na, lun vn cng cp tểi mẻt sậ nghiờn cu
liờn quan v trớch chn sá kiên, nh nghổa sá kiên. Quan trng hẽn, chẽng ny
chứ ra nghổa ca bi toỏn trớch chn sá kiên dch bênh trờn min d liêu ting
Viêt. Cuậi cựng, tỏc giÊ trỡnh by nhng thỏch thc trong bi toỏn trớch chn sá
kiên dch bênh v ng dng ca bi toỏn.
Chẽng 2: Mẻt sậ phẽng phỏp tip cn
Chẽng ny tp trung trỡnh by ba phẽng phỏp giÊi quyt bi toỏn phỏt hiên v
trớch chn sá kiên, ú l: phẽng phỏp s dng lut, phẽng tip cn hc mỏy, v
phẽng phỏp kt hềp gia lut v hc mỏy. Bờn cĐnh ú, lun vn cng a ra
mẻt sậ nhn xột gia cỏc phẽng phỏp. Cuậi cựng, lun vn chứ ra phẽng phỏp
phự hềp vểi bi toỏn trớch chn sá kiên dch bênh.
Chẽng 3: Mụ hỡnh xuòt
Chẽng ny mụ tÊ mụ hỡnh xuòt cho bi toỏn phỏt hiên v trớch chn sá kiên
dch bênh, bờn cĐnh ú mụ tÊ chi tit hai bi toỏn lển trong lun vn ú l: bi
toỏn phỏt hiên sá kiên v trớch chn sá kiên.
Chẽng 4: Thác nghiêm v ỏnh giỏ kt quÊ
Chẽng ny mụ tÊ quỏ trỡnh thác nghiêm v ỏnh giỏ kt quÊ ca phẽng phỏp
xuòt dáa trờn hai bi toỏn lển, ú l: bi toỏn phỏt hiên sá kiên v trớch chn sá
kiên.Baẻoềcsdngtrongphaphỏthiênsákiênlẻchớnhxỏc(precision),

ẻ hi tng (recall) v ẻ o F1 (F1-score), trong khi ú phẽng phỏp ỏnh giỏ
th cụng ềc ỏp dng trong pha trớch chn sá kiên.
Phản kt lun: mụ tÊ nhng kt quÊ Đt ềc ca lun vn, nhng hĐn ch
v phẽng hểng phỏt trin ca lun vn trong tẽng lai.
Chẽng 1
Tng quan v bi toỏn trớch xuòt sá
kiên
Trớch xuòt/trớch chn thụng tin úng vai trũ quan trng giỳp con ngèi giÊi
quyt vòn bựng n d liêu. Chẽng ny s cp tểi bi toỏn trớch chn thụng
tin trong ng cÊnh bựng n d liêu; sẽ lềc v sá kiên, trớch chn sá kiên, v trớch
chn sá kiên dch bênh; nờu rừ nghổa ca bi toỏn trớch chn sá kiên dch bênh
v nhng thỏch thc m bi toỏn trớch chn sá kiên dch bênh cản giÊi quyt.
1.1 Bi toỏn trớch xuòt thụng tin t d liêu lển
1.1.1 Bi toỏn trớch xuòt thụng tin
Trớch xuòt thụng tin (IE) cú th ềc coi năm gia thu hi thụng tin (Information
Retrieval - IR) v hiu vn bÊn (Text Understanding) [3]. Khụng giậng vểi thu hi
thụng tin chứ tp trung vo cỏc mâu thụng tin cú liờn quan trong vn bÊn, trớch
xuòt thụng tin cũn quan tõm tểi cỏc sá kiên cú liờn quan trong vn bÊn v biu
din chỳng dểi dĐng cỏc khuụn mđu (template). Bờn cĐnh ú, khỏc vểi hiu vn
bÊn chứ tp trung trờn mẻt phản nh ca vn bÊn (cõu, oĐn vn), trớch xuòt thụng
tin quan tõm tểi ton bẻ nẻi dung vn bÊn.
Theo Peshkin v Pfeffer [29], trớch xuòt thụng tin cú th ềc nh nghổa: nh
l mẻt cụng viêc in thụng tin vo cỏc mđu t cỏc d liêu khụng bit trểc trong
min ềc nh nghổa trểc. Mc tiờu ca trớch xuòt thụng tin l lòy t cỏc vn
bÊn cỏc thụng tin ni bt ca cỏc sá kiên, thác th, hoc cỏc mậi quan hê. Nh
vy, cú th coi trớch xuòt thụng tin l mẻt k nghê lòy v biu din tri thc thnh
cỏc thụng tin cú nh dĐng v hu ớch t ngun d liêu vụ tn trờn Internet.
Vy bi toỏn trớch chn thụng tin cú th ềc phỏt biu nh sau:
ảu vo: d liêu bòt k.
ảu ra: thụng tin hu ớch (tri thc) cú còu trỳc.

1
CHNG 1. TNG QUAN Vú BI TON TRCH XUỏT S KIừN 2
D liêu ảu vo cho bi toỏn trớch chn thụng tin ròt phong phỳ v a dĐng. D
liêu cú th l cú còu trỳc (structured), bỏn còu trỳc (semi-structured), khụng cú
còu trỳc (unstructured), hoc cú th l d liêu kh ụng gian (partial), d liêu thèi
gian (temporal). Vểi bòt k dĐng d liêu no, nhiêm v ca trớch chn thụng tin
cng phÊi a ra cỏc kt quÊ cú còu trỳc ngn v nghổa.
1.1.2 D liêu lển - Cẽ hẻi v thỏch thc cho lổnh vác trớch chn thụng tin
We are drowning in data, but starving for knowledge!" [26]
1
.Johnchứrarăng
chỳng ta ang d tha d liêu tuy nhiờn lĐi nghốo nn v tri thc.
Theo thậng kờ ca NOAA (National Oceanic and Atmospheric Administration,
USA) tớnh tểi thèi im thỏng 04-2012, d liêu ngèi dựng tĐo ra trờn Internet
khoÊng gản 60.000 Terabytes v s tng lờn khoÊng 160.000 Terabytes trong vũng
8nmtểi.SátngtrngềcminhhoĐtronghỡnh1.1
2
.
Hỡnh 1.1: Sá tng trng d liêu t nm 2004 n nm 2020
Theo thậng kờ t statisticbrain.com
3
ngy 01-01-2014 trờn d liêu Twitter, mẩi
ngy cú khoÊng 135.000 ngèi ng nhp vo Twitter; sậ lềng cỏc thụng iêp mẻt
ngy trờn Twitter l khoÊng 58 triêu tweet; trung bỡnh mẩi giõy cú khoÊng 9.100
thụng iêp ềc ngèi dựng a lờn Twitter. Sậ liêu chi tit ềc minh hoĐ trong
bÊng 1.1.
Theo thậng k ca Qmee
45
,dliêutrờnInternettrong60giõycúthềc
1

John Naisbitt (www.naisbitt.com/)
2
/>3
/>4
/>5
e-internet-
8738267.html
CHNG 1. TNG QUAN Vú BI TON TRCH XUỏT S KIừN 3
BÊng 1.1: Thậng kờ trờn d liêu Twitter
Thậng kờ t Twitter D liêu
Sậ lềng cỏc ngèi dựng ng k tớch các 645.750.000
Sậ lềng cỏc ngèi dựng ng nhp mẻt ngy 135.000
Sậ lềng cỏc trang c biêt ềc thm hng thỏng 190 triêu
Sậ lềng thụng iêp mẻt ngy 58 triêu
Sậ lềng cỏc truy vòn thụng quan chc nng tỡm kim mẻt ngy 2.1 t
Sậ lềng cỏc ngèi dựng tớch các hng thỏng 115 triêu
Sậ ngy m tng sậ thụng iêp Đt tểi 1 t 5ngy
Sậ lềng cỏc thụng iêp mẻt giõy 9.100
trác quan hoỏ nh hỡnh 1.2.
Hỡnh 1.2: D liêu trờn Internet trong 60 giõy
Thụng qua hỡnh 1.2, mẩi giõy ngèi dựng tÊi lờn 72 giè video, cú khoÊng 2 triêu
cõu truy vòn trờn Google, khoÊng 41.000 thụng iêp ềc ngèi dựng Facebook
tÊi lờn mẩi giõy, khoÊng 20 triêu bc Ênh ềc tÊi lờn Flick, 204 triêu email ềc
gi. Nhng con sậ thậng kờ trờn cho thòy d liêu ềc a lờn Internet cú sậ lềng
lển v phong phỳ v chng loĐi.
T cỏc thậng kờ trờn, chỳng ta cú th thòy răng d liêu cú xu hểng bựng n
trờn Internet. Tuy nhiờn, nhiu d liêu khụng Êm bÊo răng ngèi dựng cú nhiu
thụng tin v cng khụng th núi răng ngèi dựng cú th nm bt ềc tri thc
mẻt cỏch hin nhiờn v d dng. Trong thác t, quỏ trỡnh bin i t d liêu sang
thụng tin v cuậi cựng sang tri thc l mẻt quỏ trỡnh lõu di, ũi hi nhiu phẽng

phỏp x l phc tĐp. Quỏ trỡnh bin i ny cú th ềc minh hoĐ trong hỡnh 1.3.
Theo Fayyad v cẻng sá [15], quỏ trỡnh bin i t d liêu thnh tri thc l
mẻt quỏ trỡnh bin i lõu di, cản nhiu bểc x l phc tĐp. Trong suật quỏ
trỡnh ny, d liêu ềc th hiên ba mc: d liêu, thụng tin (mđu), v tri thc.
CHNG 1. TNG QUAN Vú BI TON TRCH XUỏT S KIừN 4
ly understandable patterns in data (Fayyad,
Piatetsky-Shapiro, and Smyth 1996).
Here, data are a set of facts (for example,
cases in a database), and pattern is an expres-
sion in some language describing a subset of
the data or a model applicable to the subset.
Hence, in our usage here, extracting a pattern
also designates tting a model to data; nd-
ing structure from data; or, in general, mak-
ing any high-level description of a set of data.
The term process implies that KDD comprises
many steps, which involve data preparation,
search for patterns, knowledge evaluation,
and renement, all repeated in multiple itera-
tions. By nontrivial, we mean that some
search or inference is involved; that is, it is
not a straightforward computation of
predened quantities like computing the av-
erage value of a set of numbers.
The discovered patterns should be valid on
new data with some degree of certainty. We
also want patterns to be novel (at least to the
system and preferably to the user) and poten-
tially useful, that is, lead to some benet to
the user or task. Finally, the patterns should

be understandable, if not immediately then
after some postprocessing.
The previous discussion implies that we can
dene quantitative measures for evaluating
extracted patterns. In many cases, it is possi-
ble to dene measures of certainty (for exam-
ple, estimated prediction accuracy on new
data) or utility (for example, gain, perhaps in
dollars saved because of better predictions or
speedup in response time of a system). No-
tions such as novelty and understandability
are much more subjective. In certain contexts,
understandability can be estimated by sim-
plicity (for example, the number of bits to de-
scribe a pattern). An important notion, called
interestingness (for example, see Silberschatz
and Tuzhilin [1995] and Piatetsky-Shapiro and
Matheus [1994]), is usually taken as an overall
measure of pattern value, combining validity,
novelty, usefulness, and simplicity. Interest-
ingness functions can be dened explicitly or
can be manifested implicitly through an or-
dering placed by the KDD system on the dis-
covered patterns or models.
Given these notions, we can consider a
pattern to be knowledge if it exceeds some in-
terestingness threshold, which is by no
means an attempt to dene knowledge in the
philosophical or even the popular view. As a
matter of fact, knowledge in this denition is

purely user oriented and domain specic and
is determined by whatever functions and
thresholds the user chooses.
Data mining is a step in the KDD process
that consists of applying data analysis and
discovery algorithms that, under acceptable
computational efciency limitations, pro-
duce a particular enumeration of patterns (or
models) over the data. Note that the space of
Articles
FALL 1996 41
Data
Transformed
Data
Patterns
Preprocessing
Data Mining
Interpretation /
Evaluation
Transformation
Selection



Knowledge
Preprocessed Data
Target Date
Figure 1. An Overview of the Steps That Compose the KDD Process.
Hỡnh 1.3: Cỏc bểc trong quỏ trỡnh khỏm phỏ tri thc trong cẽ s d liêu [15]
õy,dliêucúthcoilmẻttphềpcỏcsákiên(cỏcbÊnghitrongcẽsd

liêu). Thụng tin (mđu) l mẻt sá biu din trong mẻt ngụn ng mụ tÊ ca mẻt
tp con d liêu. Cuậi cựng, thụng tin s l tri thc nu nú vềt qua mẻt ngễng
(threshold). Trong khuụn kh lun vn, tỏc giÊ ng quan im v d liêu, thụng
tin, v tri thc vểi Fayyad v cẻng sá.
Mẻt iu rừ rng, sá bựng n d liêu trờn Internet tĐo ra nhng thun lềi v
thỏch thc cho cỏc nh khoa hc khi muận thu hi thụng tin. ảu tiờn, sá phỏt
trin ca Internet v sá bựng n thụng tin tĐo ra nhiu ngun thụng tin. Nu nh
trểc õy, ngun d liêu ch yu l vn bÊn (text) thỡ hiên nay d liêu ròt phong
phỳ, bao gm cỏc d liêu vn bÊn, hỡnh Ênh, õm thanh, cỏc d liêu thèi gian, khụng
gian Nhng ngun d liêu tĐo iu kiên thun lề i cho nhng nghiờn cu v trớch
chn thụng tin. Bờn cĐnh ú, d liêu hiên nay khụng ẽn th uản l tin tc, nú cũn
bao gm thụng tin cỏ nhõn (cÊm xỳc, kin). T nhng d liêu mểi ny, trớch
chn thụng tin cú th thu hi nhng thụng tin mểi phc v cho quỏ trỡnh tớch hềp
thụng tin.
Tuy nhiờn, bờn cĐnh nhng thun lềi, sá bựng n v d liêu tĐo ra nhng thỏch
thc khụng nh trong lổnh vác trớch chn thụng tin. ảu tiờn, vểi sá ra èi ca
cỏc d liêu mểi ũi hi cản phÊi cú nhng k thut phự hềp. ụi khi trong mẻt sậ
trèng hềp, trớch chn thụng tin phÊi ẽng ảu vểi nhng d liêu phc tĐp nh
hỡnh Ênh, õm thanh, d liêu khụng gian, hoc thèi gian. Th hai, sá ang dĐng v
ngun d liêu ũi hi quỏ trỡnh tớch hềp d liêu phc tĐp. iu ny xuòt phỏt do
mc ớch ca trớch chn thụng tin l lòy ra mẻt lềng nh thụng tin cú nghổa,
do ú, sau quỏ trỡnh trớch chn, d liêu cản ềc tng hềp t nhiu ngun khỏc
nhau cuậi cựng a ra d liêu cú nghổa vểi ngèi dựng. Cuậi cựng, bi toỏn
v tậc ẻ x l v tớnh toỏn cản ềc giÊi quyt. Vểi sá bựng n v sậ lềng v
phc tĐp v nẻi dung yờu cảu cỏc phẽng phỏp trớch chn thụng tin phÊi cú thèi
gian x l hềp l.
CHNG 1. TNG QUAN Vú BI TON TRCH XUỏT S KIừN 5
Nh ó cp trờn, chỳng ta cú th thòy rừ tảm Ênh hng ca d liêu lển
(Big Data) tểi quỏ trỡnh thu hi thụng tin ca con ngèi v vai trũ ca trớch chn
thụng tin trong bậi cÊnh thụng tin bựng n v gõy khú khn cho ngèi dựng trong

quỏ trỡnh tip cn tri thc.
1.2 Tng quan v sá kiên
Vểi vai trũ trớch chn ra cỏc thụng tin cú nghổa t tp lển cỏc d liêu, trớch
chn sá kiên ềc cẻng ng khoa hc ròt quan tõm v ảu t nghiờn cu. Nm
1987, Message Understanding Conferences (MUC)
6
ềc t chc vểi sá hẩ trề
ca Qu nghiờn cu Bẻ quậc phũng Hoa K
7
v lản ảu tiờn khỏi niêm sá kiên
event ềc cp. Sau ú, ròt nhiu hẻi ngh ềc t chc tĐo thnh dóy hẻi ngh
MUC. Vểi mẩi hẻi ngh, thụng tin ềc quan tõm khỏc nhau nhng u cú c
im chung l chỳng ềc trớch xuòt t d liêu núi v khng hoÊng (crisis). Cỏc
ch trong d liêu thèng l tẻi phĐm, khng bậ, ỏnh bom Mẻt trong nhng
úng gúp lển ca MUC l a ra viêc trớch xuòt thụng tin dáa trờn mđu (scenario
template). Cỏc mđu ềc ban t chc quy nh v cỏc ẻi tham gia cản in thụng
tin vo cỏc mđu ny mẻt cỏch tá ẻng. Cuậi cựng, cỏc sá kiên ềc trớch chn gm
cỏc thụng tin: t chc, ậi tềng tham gia (ngèi, sá vt, sá viêc), thèi gian, a
im, sậ lềng ẻ chớnh xỏc (precision) v hi tng (recall) ca cỏc nghiờn cu
tham dá MUC năm trong khoÊng 50% n 60% [19].
Chẽng trỡnh Phỏt hiên v theo dừi ch (Topic Detection and Tracking,
TDT)
8
ềc t chc t nm 1997 thu hỳt nhiu nhúm nghiờn cu t cỏc trèng
Đi hc tham gia. Chẽng trỡnh ny ềc phậi hềp t chc bi Viên Cụng nghê
v Chuân hoỏ quậc gia Hoa K (NIST) v DAPRA nhăm giÊi quyt bi toỏn phỏt
hiên, theo dừi, v xõu chuẩi sá kiên. Mẻt sậ nhúm nghiờn cu tham gia chẽng
trỡnh ny nh: nhúm CMU ca Đi hc Carnegie Mellon, nhúm BBN t cụng ty
BBN Technologies, nhúm DRAGON ca cụng ty Dragon Systems, nhúm UPENN
ca trèng Đi hc Pennsylvania (UPENN). Cỏc bi toỏn quan trng ca TDT

gm: Story Segmentation, Topic Tracking, Topic Detection, First Story Detection,
and Link Detection
9
.
Chẽng trỡnh Trớch xuòt nẻi dung tá ẻng (Automatic Content Extraction,
ACE)
10 11
ca Đi hc Pennsylvania cng thu hỳt ềc nhiu sá quan tõm t
cẻng ng nghiờn cu v trớch chn thụng tin cng nh trớch chn sá kiên. Chẽng
trỡnh ny tp trung vo cỏc ngụn ng nh ting Anh, Trung Quậc, v A rp
(Arabic). Cỏc thụng tin ềc trớch chn gm cỏc thác th, quan hê gia cỏc thác
6
/>7
/>8
.u penn.edu/TDT/
9
/>10
.u penn.edu/ace
11
/>CHNG 1. TNG QUAN Vú BI TON TRCH XUỏT S KIừN 6
th, v cỏc sá kiên chỳng tham gia vo. ACE cú mc ớch giậng vểi MUC, tuy
nhiờn chẽng trỡnh ny tp trung vo cỏc ậi tềng (thác th, mậi quan hê thác
th v cỏc sá kiên) hẽn l tp trung vo cỏc t (term of words) trong vn bÊn
12
.
Nh vy, cú th thòy răng trớch chn thụng tin núi chung v trớch chn sá kiên
núi riờng l mẻt vòn quan trng v thèi sá, nhn ềc ròt nhiu quan tõm t
cẻng ng khoa hc. Trong phản tip theo, lun vn s lm sỏng t nh nghổa v
sá kiên cng nh bi toỏn trớch chn sá kiên.
1.2.1 nh nghổa sá kiên

Trớch chn sá kiên lản ảu tiờn ềc giểi thiêu nh mẻt ch quan trng trong
Message Understanding Conference (MUC) nm 1987 [19]. Trong MUC, mẻt sá
kiên ềc nh nghổa nh sau: mẻt sá kiên phÊi cú tỏc nhõn (actor), thèi gian
(time), a im (place), v tỏc ẻng tểi mụi trèng xung quanh". Khi tham gia
MUC, cỏc nhúm nghiờn cu phÊi xuòt phẽng phỏp in cỏc thụng tin
vo cỏc mđu cho trểc (scenario template). Cỏc mđu ny gm nhiu thnh phản
(slots/elements) khỏc nhau tẽng ng vểi cỏc thnh phản ềc nh nghổa bờn
trờn. Thèi gian ban ảu, MUC chứ tp trung nghiờn cu cỏc sá kiên quõn sá. Tuy
nhiờn, cỏc lản t chc sau, cỏc loĐi sá kiên mểi ềc b sung nh khng b ậ, ảu
t mĐo him, tai nĐn mỏy bay
Trong chẽng trỡnh ACE, Dodington George R. v cẻng sá a ra nh nghổa
sá kiên nh sau: mẻt sá kiên l mẻt hnh ẻng ềc tĐo bi nhng ngèi tham
gia" [13]. ACE chia sá kiên thnh 8 loĐi khỏc nhau gm: LIFE (sá sậngcht),
MOVEMENT (sá di chuyn), TRANSACTION (giao dch), BUSINESS (kinh t),
CONFLICT (xung ẻt), CONTACT (giao thiêp, gp gễ), PERSONNEL (nhn-
ui viêc), JUSTICE (phỏp l). Mẩi dĐng sá kiên lĐi phõn biêt tng dĐng con. Vớ
d, LIFE cú cỏc dĐng sá kiên con nh BE-BORN (cho èi), INJURE (b thẽng),
DIE (cht), hay PERSONAL cú START-POSITION (v trớ khi nhn viêc), END-
POSITION (v trớ khi thụi viêc), NOMINATE (b nhiêm), ELECT (bảu chn),
Trong nghiờn cu ca mỡnh, Allen v cẻng sá cho răng mẻt sá kiên ềc phÊn
ỏnh qua tin tc khi nú cú 4 yu tậ: phẽng thc (modality), tớnh ậi các (polar-
ity), sá tng quỏt (genericity), v thèi im (tense) [1]. Trong ú, phẽng thc l
hnh vi gõy ra sá kiên; tớnh ậi các l sá kiên ú gõy tỏc ẻng tật hay xòu (possi-
tive/negative); sá tng quỏt l sá kiên ú cú tớnh chung hay riờng (specific/generic);
v thèi im l thèi gian sÊy ra sá kiên (past, present, future, hoc unspecified).
Trong min d liêu liờn quan tểi dch bờnh, Gishman R. v cẻng sá a ra nh
nghổa v mẻt sá kiên nh l mẻt mđu (template) gm cỏc thuẻc tớnh: tờn bênh
(disease name), thèi gian (date), a im (location), sậ lềng nĐn nhõn (victime
number), mụ tÊ v nĐn nhõn (victim descriptor), tỡnh trĐng (victim status), loĐi
12

/>CHNG 1. TNG QUAN Vú BI TON TRCH XUỏT S KIừN 7
nĐn nhõn (victim type), v sá kiên cha (parent event) [17]. Sá khỏc biêt trong
nh nghổa ca Grishman vểi cỏc nh nghổa khỏc chẩ ụng cp thờm tểi sá
kiên cha. Trong thác t, mẻt sá kiên cú th l sá kiên bt ảu hoc ềc bt ảu
t mẻt sá kiên khỏc (parent event). Nh vy, quỏ trỡnh trớch chn sá kiên khụng
ẽn giÊn chứ lòy ra cỏc thụng tin tẽng ng vểi mđu ềc nh nghổa m cản ph ỏt
hiên thờm sá kiên ban ảu ca sá kiên hiên tĐi.
Trong cụng bậ ca Nguyen v cẻng sá [27], cỏc tỏc giÊ quan niêm mẻt sá kiên
dch bênh l mẻt mđu (template) gm cỏc thuẻc tớnh tờn bênh (disease name), thèi
im bựng phỏt (time), v a im bựng phỏt (location). Khỏc vểi quan niêm ca
Grishman v cẻng sá, cỏc tỏc giÊ chứ quan tõm tểi 3 thuẻc tớnh cho mc ớch trác
quan hoỏ hẽn l trớch chn cỏc thụng tin chi tit ca sá kiên v phỏt hiên chuẩi sá
kiên. Trong min d liêu ting Viêt, Tran v cỏc cẻng sá [38] quan tõm tểi ba loĐi
sá kiên chớnh gm: chỏy n, tẻi phĐm,vtĐi nĐn giao thụng. Mc tiờu ca tỏc giÊ
l trớch chn ra cỏc thụng tin cẽ bÊn ca ba loĐi sá kiên v trác quan hoỏ chỳng
trờn mẻt bÊn theo dừi sá kiên.
Cú th thòy răng cỏc nghiờn cu liêt kờ trờn u ng răng sá kiên cú th
coi nh mẻt mđu (template) gm nhiu cỏc thuẻc tớnh (elements). Quỏ trỡnh trớch
chn sá kiên quan tõm tểi viêc lm th no cú th in cỏc thụng tin phự hềp t
vn bÊn gậc tẽng ng vểi tng thuẻc tớnh.
1.2.2 Trớch chn sá kiên
Trớch xuòt sá kiên cú th coi l mẻt lổnh vác con ca trớch chn thụng tin. Tuy
nhiờn, trớch chn sá kiên cú sá khỏc biêt vểi lổnh vác cha ca nú. Nu nh trớch
chn thụng tin chứ quan tõm vểi cỏc d liêu rèi rĐc (tờn ngèi, a im, cỏc con
sậ, ) thỡ trớch chn sá kiên quan tõm nhiu hẽn tểi tớnh còu trỳc v mc ẻ liờn
quan ca thụng tin trong mẻt sá kiên. Qua ú, ngèi c cú th d dng suy lun
ra cỏc thụng tin cú nghổa. Vớ d, vểi cõu Thờm mẻt trƠ t vong do bênh tay chõn
miêng tĐi QuÊng Nam vo ngy 12/06/2012".Trongvớdny,trớchchnthụng
tin a ra cỏc kt quÊ rèi rĐc nh: mẻt, QuÊng Nam,hoc12/06/2012;trongkhi
trớch chn sá kiên s a ra mẻt bẻ cỏc thuẻc tớnh biu din cho sá kiên gm {tay

chõn miêng, QuÊng Nam, 12/06/2012}.Rừrng,vểitpdliêutrờn,thụngtin
s hu ớch v ảy hẽn cỏc thụng tin rèi rĐc.
Mẻt cỏch tng quỏt, cú th coi trớch chn sá kiên nhn ảu vo l cỏc vn bÊn
khụng cú còu trỳc v ảu ra l tri thc ềc biu din dểi dĐng thụng tin cú
còu trỳc. Nhng thụng tin ny cú th lm ảu vo cho nhng hê thậng giỏm sỏt
(monitoring systems) hoc cỏc hê thậng hẩ trề ra quyt nh (supported decision
systems). Trớch chn sá kiên cú th ềc ỏp dng cho mẻt min d liêu c th
(close domain) nh dch bênh, chỏy n, hoc min d liêu m (open domain),
ng thèi a ra cỏc thụng tin xung quang sá kiên ú, thụng thèng bao gm: tỏc
CHNG 1. TNG QUAN Vú BI TON TRCH XUỏT S KIừN 8
nhõn, thèi gian, a im, sậ lềng,
Theo Grishman v cẻng sá, trớch chn sá kiên l mẻt bi toỏn khú do vòn
x l ngụn ng tá nhiờn (Natural Language Processing - NLP) v c trng d
liêu [19]. D dng nhn thòy trớch chn sá kiên ph thuẻc nhiu vo NLP, c th
l bi toỏn nhn dĐng thác th (Named Entity Recognition - NER). Mc dự NER
ó thu ềc nhng kt qua khÊ quan, tuy nhiờn vđn cũn mẻt sậ thỏch thc lển,
c biêt vểi cỏc ngụn ng khụng phÊi ting Anh. Bờn cĐnh ú, d liêu ảu vo ca
trớch chn sá kiên ròt a dĐng nờn s Ênh hng tểi tớnh hiêu quÊ ca quỏ trỡnh
trớch chn.
1.3 Bi toỏn trớch chn sá kiên dch bênh
1.3.1 Trớch chn sá kiên dch bênh - nghổa v tảm quan trng
Trớch chn sá kiên dch bênh cú th coi l mẻt lổnh vác con trong trớch chn sá
kiên. Nu nh trớch chn sá kiên cú th ỏp dng cho cÊ min d liêu úng (close
domain) hoc min d liêu m (open domain) thỡ trớch chn sá kiên dch bênh chứ
quan tõm tểi nhng vn bÊn liờn quan tểi dch bênh. Vớ d, khi ngèi dựng c
cỏc bi bỏo liờn quan tểi mẻt dch bênh (tay chõn miêng), h muận lòy ra cỏc
thụng tin cẽ bÊn, d nhể ca ton bẻ bi bỏo gm: tờn bênh, a im bựng phỏt,
v thèi gian bựng phỏt. Nh vy, yờu cảu l cản phÊi trớch chn ềc cỏc thụng
tin cẽ bÊn ca mẻt sá kiên dch bênh t mẻt vn bÊn ảu vo.
Bi toỏn trớch chn dch bênh cú nghổa quan trng khụng chứ trong nghiờn

cu m cũn trong èi sậng, c biêt trong trèng hềp cỏc dch bênh nguy him
bựng phỏt v lõy lan trờn diên rẻng. Do mẻt dch bênh thèng bựng phỏt trong
mẻt thèi gian ngn v lõn lan ròt nhanh trờn mẻt phĐm vi rẻng, do vy nú cú th
tĐo ra cỏc tỡnh huậng xòu Ênh hng tểi ngèi dõn v nn kinh t. Do ú, trớch
chn v giỏm sỏt sá lõy lan ca cỏc dch bênh cú nghổa ròt quan trng trong viêc
ậi phú vểi sá lõy lan ca chỳng.
Bi toỏn phỏt hiên v trớch chn sá kiên dch bênh ềc cp t khỏ sểm
v nhn ềc nhiu sá quan tõm t phớa cỏc nh khoa hc. Grishman v cẻng sá
[17] s dng cỏc mđu sá kiên (event patterns) phõn tớch cỏc cõu ảu vo v
trớch chn ra cỏc sá kiên dch bênh. Cỏc mđu sá kiên ny ềc xõy dáng dáa trờn
mậi quan hê gia cỏc t. Vớ d, mđu np (DISEASE) vg (KILL) np (VICTIM)"
s ềc s dng ậi sỏnh vểi cõu Cholera killed 23 inhabitants". Mẻt sá kiên
ềc phỏt hiên dáa trờn rng buẻc ca hai cm danh t gm: outbreak of v
died from Trongnghiờncucamỡnh,hiêuquÊcaquỏtrỡnhtrớchchnkhoÊng
53.98% (F-score).
Volkova v cẻng sá [39] quan tõm tểi trớch chn sá kiên dch bênh trờn ẻng
vt. Quỏ trỡnh nhn dĐng sá kiên gm ba bểc: ảu tiờn l nhn dĐng thác th t
CHNG 1. TNG QUAN Vú BI TON TRCH XUỏT S KIừN 9
cỏc bn bÊn khụng cú còu trỳc, th hai l phõn lểp cỏc cõu dáa trờn cỏc thác th,
v cuậi cựng l cỏc thác th trong mẻt cõu ềc kt hềp tĐo thnh sá kiên. ẻ
chớnh xỏc trong pha nhn dĐng sá kiên v phõn lểp lản lềt l 75% v 65% trờn
hai tp d liêu l WordNet v GoogleSet.
Doan v cỏc cẻng sá [12] xõy dáng hê thậng Global Health Monitor cho phộp
hin th cỏc sá kiên dch bênh trờn ton th giểi. Hê thậng gm ba thnh phản
chớnh: (1) phõn lểp ch , (2) nhn dĐng thác th (NER), v (3) phỏt hiên cỏc
thnh phản ca sá kiên (disease/location detection). Cỏc tỏc giÊ s dng Naive
Bayes cho bi toỏn phõn lểp ch v Đt ẻ chớnh xỏc khoÊng 88.10%. Trong
thnh phản nhn dĐng thác th, cỏc tỏc giÊ s dng Support Vector Machine v
Đt ẻ chớnh xỏc vo khoÊn 76.97% (F-score). Trong bể c cuậi cựng, tỏc giÊ s
dng mẻt Ontology [9] vểi ẻ chớnh xỏc khoÊng 93.49%.

Nh vy, cng giậng nh nh nghổa v sá kiên, mẻt sá kiên dch bênh cú th
coi nh mẻt mđu (template) cha cỏc thuẻc tớnh ca sá kiên. Trớch chn sá kiên
dch bênh chứ quan tõm tểi nhng d liêu liờn quan tểi dch bênh (con ngèi hoc
ẻng vt).
1.3.2 Phỏt hiên sá kiên
Bi toỏn trớch chn sá kiên dch bênh cú th phỏt biu thnh hai bi toỏn nh,
ú l: bi toỏn phỏt hiên sá kiên v bi toỏn trớch chn sá kiên. Bi toỏn phỏt hiên
sá kiên trÊ lèi cõu hi lm th no phỏt hiên ềc mẻt vn bÊn cú cha sá kiên
dch bênh?". Tc l cho trểc ảu vo l mẻt vn bÊn, quỏ trỡnh phỏt hiên sá kiên
phÊi quyt nh vn bÊn ú cú cha sá kiên dch bênh hay khụng? Theo Grishman
v cẻng sá [17], phỏt hiên sá kiên l quỏ trỡnh hc khụng giỏm sỏt, tỏc giÊ s dng
cỏc t khoỏ quyt nh mẻt vn bÊn cú cha sá kiên dch bênh hay khụng. Hai
t khoỏ ềc tỏc giÊ s dng l outbreak of " v died from ".
Theo Doan v cẻng sá [12], bi toỏn phỏt hiên sá kiên cú th coi nh quỏ trỡnh
hc cú giỏm sỏt. Trong nghiờn cu ca mỡnh, tỏc giÊ s dng phẽng phỏp phõn
lểp Naive Bayes phõn lểp cỏc ti liêu. Bẻ phõn lểp ny dáa trờn mẻt tp cỏc
d liêu ó ềc gỏn nhón. Qua quỏ trỡnh huòn luyên, bẻ phõn lểp s quyt nh
mẻt vn bÊn ảu vo cú cha sá kiên dch bênh hay khụng.
1.3.3 Trớch chn sá kiên
Nu nh bi toỏn phỏt hiên sá kiên trÊ lèi cõu hi mẻt vn bÊn cú cha sá kiên
hay khụng?",thỡbitoỏntrớchchnsákiêntrÊlèicõuhilm th no trớch chn
cỏc thuẻc tớnh ca mẻt sá kiên?". Phẽng phỏp s dng lut (hc khụng giỏm sỏt)
ềc s dng t ròt sểm giÊi quyt bi toỏn ny [17]. Quỏ trỡnh trớch chn băng
phẽng phỏp ny thèng s dng cỏc lut dáa trờn quỏ trỡnh khÊo sỏt d liêu
trớch chn ra cỏc thuẻc tớnh ca mẻt sá kiên.
CHNG 1. TNG QUAN Vú BI TON TRCH XUỏT S KIừN 10
Mẻt cỏch tip cn khỏc l s dng hc mỏy v cỏc k thut ca NLP giÊi
quyt bi toỏn trớch chn sá kiên. Quỏ trỡnh ny thèng s dng NER lòy ra
cỏc thuẻc tớnh cẽ bÊn ca sá kiên nh: thèi gian, a im, tờn ngèi, sau ú kt
hềp cỏc thuẻc tớnh ny thnh mẻt sá kiên [12, 39]. Bờn cĐnh ú, NER cú th kt

hềp vểi Ontology t chc cỏc sá kiên theo mẻt còu trỳc ềc nh trểc.
Nh vy, cú th núi bi toỏn trớch chn sá kiên núi chung v trớch chn dch
bênh núi riờng cú th ềc chia thnh hai bi toỏn nh, ú l: phỏt hiên sá kiên
v trớch chn sá kiên. T rong lun vn ny, tỏc giÊ s mụ tÊ chi tit cỏc k thut
ềc ỏp dng trong hai bi toỏn ny chẽng 3.
1.4 nghổa bi toỏn trớch chn sá kiên dch bênh
1.4.1 nghổa khoa hc
V mt khoa hc, trớch chn sá kiên núi chung v trớch chn sá kiên dch bênh
núi riờng l mẻt trong nhng bi toỏn cẽ bÊn ca trớch chn thụng tin. GiÊi quyt
tật bi toỏn ny s l tin tật cỏc cỏc bi toỏn khỏc nh phỏt hiên chuẩi sá kiên,
dá oỏn xu hểng, hay l ảu vo cho cỏc hê thậng giỏm sỏt v hẩ trề ra quyt
nh. Bờn cĐnh ú, cỏc nghiờn cu liờn quan tểi trớch chn sá kiên dch bênh trờn
th giểi ó thu ềc nhng kt quÊ khÊ quan, tuy nhiờn khụng nhiu nghiờn cu
ềc tin hnh trờn d liêu ting Viêt [27, 38, 12]. Do ú, bi toỏn ny cản ềc
giÊi quyt mẻt cỏch thoÊ ỏng trờn min d liêu ting Viêt.
1.4.2 nghổa thác t
Bi toỏn trớch chn sá kiên dch bênh cú nghổa ròt lển trong thác t, c biêt
trong trèng hềp cỏc dch bênh bựng phỏt. Trong trèng hềp ny, cỏc nh quÊn l,
chớnh ph, v cụng dõn cản nhng giÊi phỏp theo dừi din tin tỡnh hỡnh dch
bênh, t ú cú nhng quyt nh phự hềp. Trong ng cÊnh bựng n thụng tin
liờn quan tểi mẻt dch bênh, trớch chn sá kiên l mẻt giÊi phỏp phự hềp a
nhng thụng tin hu ớch tểi ngèi dựng.
Hiên tĐi cú mẻt sậ hê thậng ỏp dng k thut trớch chn sá kiên v trác quan
hoỏ cung còp thụng tin cho ngèi dựng. Grishman v cẻng sá xõy dáng hê thậng
Peoteous-BIO cung còp cỏc thụng tin dch bênh dểi dĐng sá kiên cho ngèi dựng
[18]. D liêu trong hê thậng ềc lòy t cỏc trang web v cỏc bỏo cỏo ca t chc
World Health Organization (WHO)
13
v ProMed
14

. Collier v cẻng sá ó xõy
dáng hê thậng BioCaster nẽi m ngèi dựng cú th theo dừi mẻt sậ loĐi sá kiên
trờn ton th giểi, c biêt l sá kiên dch bênh
15
. Tẽng tá, hê thậng HealthMap
ca Freifeld Clark C. v cẻng sá cho phộp ngèi dựng theo dừi tỡnh hỡnh dch bênh
13
/>14
/>15

CHNG 1. TNG QUAN Vú BI TON TRCH XUỏT S KIừN 11
trờn ton th giểi
16
.TĐiViêtNam,Tranvcẻngsáóxõydánghêthậngtheo
dừi ba loĐi sá kiên chớnh l: chỏy n, tai nĐn giao thụng, v tẻi phĐm
17
[38] vểi
ngun d liêu t cỏc trang web.
1.5 Khú khn v thỏch thc
Mc dự ềc nhiu nh khoa hc ảu t nghiờn cu, tuy nhiờn trớch chn sá
kiên vđn phÊi ậi mt vểi nhiu thỏch thc trong viêc nõng cao ẻ chớnh xỏc ca
quỏ trỡnh trớch chn. ảu tiờn, ẻ chớnh xỏc ca quỏ trỡnh trớch chn ph thuẻc ròt
lển vo bi toỏn phỏt hiên sá kiên. Trong khi ú, bi toỏn phỏt hiên sá kiên ph
thuẻc vo ẻ chớnh xỏc ca bẻ phõn lểp (giỏm sỏt hoc khụng giỏm sỏt). Trong
khi ú bi toỏn phõn lểp ó Đt ềc nhng kt quÊ khÊ quan trong ting Anh,
nú vđn gp nhiu khú khn trong ting Viêt do c trng ngụn ng.
Th hai, do quỏ trỡnh trớch chn ph thuẻc nhiu vo cỏc k thut ca NLP,
c biêt l NER. Tuy bi toỏn NER ó ềc giÊi quyt trờn ting Anh tuy nhiờn
trờn ting Viêt nú vđn cũn hĐn ch. Hẽn na, mẻt sậ yu tậ v mt ngụn ng nh
nhp nhăng ng nghổa (Word Sense Disambiguation), hiên tềng ng tham chiu

(Co-References), hoc nhn dĐng tớnh ng nghổa ca tiờu bÊn tin (Syntactically
Ambiguious Headlines) cú Ênh tỏc ẻng khụng nh tểi ẻ chớnh xỏc ca quỏ trỡnh
trớch chn.
Cuậi cựng, quỏ trỡnh trác quan hoỏ gp khoỏ khn khi d liêu trớch chn khụng
ảy . Vớ d, vểi cõu Bênh si bựng phỏt tĐi H Nẻi t ảu thỏng 4",ktquÊ
ca quỏ trỡnh trớch chn l {bênh si, H Nẻi, thỏng 4}.Vểithụngtinvaim
khụng chi tit, s ròt khú bit chớnh xỏc dch bênh bựng phỏt õu (qun,
huyên, hoc èng). Bờn cĐnh ú, thèi gian ca sá kiên cng khụng c th, dđn
n viêc tớnh thèi gian chớnh xỏc ca sá kiên gp khú khn.
1.6 Tng kt
Trong chẽng 1, lun vn ó trỡnh by cẽ bÊn v bi toỏn trớch chn sá kiên,
vai trũ ca trớch chn thụng tin trong ng cÊnh bựng n d liêu. Trng tõm ca
chẽng ny trỡnh by nhng khỏi niêm cẽ bÊn ca trớch chn sá kiên núi chung v
trớch chn sá kiên dch bênh núi riờng. Bờn cĐnh ú, chẽng ny cng cp tểi
hai bi toỏn cẽ bÊn ca trớch chn sá kiên dch bênh, ú l: bi toỏn phỏt hiên sá
kiên v bi toỏn trớch chn s kiên; ng thèi nờu rừ nghổa ca bi toỏn trớch
chn sá kiên dch bờnh trong khoa hc v thác t. Trong chẽng tip theo, lun
vn s trỡnh by mẻt sậ phẽng phỏp tip cn giÊi quyt bi toỏn trớch chn sá
kiên v sá kiên dch bênh.
16

17

Chẽng 2
Mẻt sậ phẽng phỏp tip cn
Trong chẽng ny, tỏc giÊ s trỡnh by mẻt sậ phẽng phỏp tip cn cho bi
toỏn trớch chn sá kiên dch bênh. Cỏc phẽng phỏp ny bao gm: phẽng phỏp
dáa trờn lut, phẽng phỏp dáa trờn hc mỏy, v phẽng phỏp kt hềp gia lut
v hc mỏy. Phản cuậi cựng, tỏc giÊ a ra mẻt sậ bn lun v cỏc phẽng phỏp.
Dáa trờn cẽ s ny, tỏc giÊ s láa chn phẽng phỏp phự hềp cho bi toỏn chẽng

3.
2.1 Phẽng phỏp tip cn dáa trờn lut
Trong nghiờn cu ca mỡnh, Hogenboom F. v cẻng sá [20] cung còp mẻt khÊo
sỏt láa chn phẽng phỏp phự hềp cho bi toỏn trớch chn sá kiên trờn vn bÊn.
Bi bỏo ó chứ ra răng cú ba phẽng phỏp cẽ bÊn giÊi quyt bi toỏn trớch chn
sá kiên, ú l: phẽng phỏp dáa trờn d liêu (data-driven), phẽng phỏp dáa trờn
tri thc (knowledge-driven), v phẽng phỏp lai (hybrid). Phẽng phỏp th nhòt
thèng s dng hc mỏy (cỏc mụ hỡnh xỏc suòt) trờn mẻt tp d liêu huòn luyên
lển giÊi quyt bi toỏn trớch chn cỏc thụng tin ca mẻt sá kiên. in hỡnh cho
phẽng phỏp ny l nhn dĐng thác th (NER). Phẽng phỏp th hai dáa trờn
kin thc chuyờn gia min (thèng l nhng chuyờn gia ngụn ng v chuyờn gia
min d liêu) sinh ra tp lut. Tp lut ny ềc s dng trớch chn cỏc
thnh phản ca sá kiên. Phẽng phỏp cuậi cựng kt hềp phẽng phỏp th nhòt
v th hai. Trong khuụn kh lun vn, tỏc giÊ gi phẽng phỏp dáa trờn d liêu l
phẽng phỏp s dng hc mỏy v phẽng phỏp dáa trờn tri thc l phẽng phỏp
s dng lut.
2.1.1 Lut cỳ phỏp
Lut cỳ phỏp, ụi khi cũn ềc gi l cỏc mđu cỳ phỏp (lexico-syntactic patterns)
cú th coi l phẽng phỏp ề c s dng sểm trong bi toỏn trớch chn sá kiên.
Cỏc mđu ny ềc sinh ra t cỏc chuyờn gia min (domain experts) dểi dĐng cỏc
12
CHNG 2. MT Sằ PHNG PHP TIũP CọN 13
lut (rules) [20]. in hỡnh cho phẽng phỏp ny chớnh l cỏc lut ềc biu din
dểi dĐng biu thc chớnh quy (regular expression).
Cỏc lut cỳ phỏp kt hềp sá biu din ca cỏc k tá v cỏc thụng tin cỳ phỏp
vểi cỏc biu thc chớnh quy . Sau khi cỏc biu thc chớnh quy ềc xõy dáng, nhng
biu thc ny ềc so khểp vểi d liêu trong vn bÊn ảu vo trớch chn ra
cỏc thụng tin tẽng ng. Trong mẻt sậ trèng hềp, lut cỳ phỏp ềc biu din
dĐng ẽn giÊn hẽn, ú l cỏc t khoỏ. Cỏc lut cỳ phỏp ềc s dng trong trớch
chn sá kiên [5, 11, 10]. Trong nghiờn cu ca mỡnh, Nishihara v cẻng sá s dng

ba t khoỏ: a im (place), ậi tềng (object), v hnh vi(action) biu din
mẻt sá kiên ềc trớch chn t blogs [28]. Trong lổnh vác tin tê v chớnh tr, Aone
v cẻng sá dựng cỏc lut cỳ phỏp trớch chn cỏc thụng tin ca mẻt sá kiên [2].
Xu v cẻng sá s dng cỏc mđu cỳ phỏp hc cỏc mđu t d liêu cỏc sá kiên
[40]. Cỏc mđu ny úng vai trũ l tp nhõn (seeds) trong k thut bootstrapping.
c biêt, cỏc lut cỳ phỏp cũn ềc s dng trớch chn cỏc thụng tin trong
min d y sinh. Yakushiji v cẻng sá s dng mẻt bẻ phõn tớch kt hềp vểi ng
phỏp xỏc nh mậi quan hê v cỏc sá kiên [41]. Cỏc lut cỳ phỏp nh nghổa
cỏc còu trỳc tham sậ bờn trong vn bÊn.
2.1.2 Lut ng nghổa
Trong trớch chn sá kiên s dng lut, ụi khi phÊi trớch chn cỏc khỏi niêm cú
nghổacbiêthoccỏcmậiquanhêgiacỏcthnhphảnềctrớchchn.Tuy
nhiờn, cỏc lut cỳ phỏp khụng giÊi quyt ềc vòn ny. giÊi quyt vòn
ny, phẽng phỏp thèng ềc ỏp dng l s dng lut ng nghổa (lexico-semantic
patterns). Cỏc lut ng nghổa khụng ẽn giÊn l tp hềp ca cỏc t dểi dĐng biu
thc chớnh quy m l cỏc mđu ềc xõy dáng dểi dĐng cỏc t v mậi quan hê
gia chỳng.
Cỏc lut ny ềc s dng vểi nhiu mc ớch khỏc nhau. Li Fang v cẻng
sá ó s dng cỏc lut ng nghổa trớch chn thụng tin t sn giao dch trng
khoỏn (stock market) [14]. Cohen v cẻng sá [8] s dng khỏi niêm bẻ nhn dĐng
(recognizer) trờn min d liêu y sinh trớch chn cỏc sá kiên y sinh t tp d
liêu. Cỏch tip cn tẽng tá cng ềc ỏp dng bi Vargas-Vera v Celjuska [24]
khi tỏc giÊ xuòt mẻt bẻ khung (framework) cho viêc nhn diên cỏc sá kiên tp
trung trờn cỏc bi bỏo ca Knowledge Media Institute (KMi). Capet v cẻng sá
[6] s dng cỏc mđu ng nghổa trớch chn sá kiên cho hê thậng tá ẻng cÊnh
bỏo sểm.
Trớch chn sá kiên t cỏc vn bÊn khụng cú còu trỳc cú th ềc ỏp dng trong
nhiu lổnh vác, c biêt trong min d liêu dch bênh. Grishman R. v cẻng sá
ó s dng 120 mđu sá kiên ngụn ng (linguasitc event patterns) phõn tớch
cỏc cõu v trớch chn cỏc thụng tiờn liờn quan tểi mẻt sá kiên dch bênh [17].

CHNG 2. MT Sằ PHNG PHP TIũP CọN 14
Cỏc mđu ny ềc xõy dáng dáa trờn cỏc t c mậi quan hê gia chỳng. Vớ d,
mđu np (DISEASE) vp (KILL) np (VICTIM)" s so khểp vểi mẻt mênh nh
Cholera killed 23 inhabitants". Mẻt sá kiên ềc nhn dĐng khi nú cha hai cm
t outbreak of " v people died from ". Cỏc mđu ny ềc ỏp dng trớch
chn cỏc sá kiên dch bênh v Đt ẻ o F (F-score) l 53.98%.
2.2 Phẽng phỏp tip cn dáa trờn hc mỏy
Phẽng phỏp dáa trờn hc mỏy thèng ềc s dng cho cỏc ng dng x l
ngụn ng tá nhiờn v yờu cảu tp d liêu huòn luyên lển huòn luyên mụ hỡnh
sao cho xòp xứ vểi cỏc hiên tềng ngụn ng [20]. Cỏch tip cn ny thèng dáa trờn
mụ hỡnh xỏc suòt (probabilistic models), l thuyt thụng tin (information theory),
v Đi sậ tuyn tớnh (linear algebra). Trong thác t, mẻt sậ cỏch tip cn cẽ bÊn
cú th chứ ra l Term Frequency - Inverse Document Frequency (TF-IDF), word
sense disambiguation, n-grams, v phõn cm.
Cú th tỡm thòy nhiu vớ d v viêc s dng cỏc tip cn dáa trờn d liêu trớch
chn sá kiên trong cỏc nghiờn cu v trớch chn thụng tin. Nm 2009, Ok amoto v
cẻng sá [25] dáng mẻt khung (framework) phỏt hiên cỏc sá kiên cc bẻ (local
events). Trong nghiờn cu ca mỡnh, tỏc giÊ s dng cỏc k thut ca phõn cm
phõn còp. Trong khi bÊn thõn phõn cm cú th sinh ra cỏc kt quÊ tật cho trớch
chn sá kiên, Liu M. v cẻng sá [23] kt hềp cỏc th cú trng sậ vụ hểng chia
ụi (weighted undirected bipartite graphs) v phõn cm trớch chn cỏc thác th
chớn v cỏc sá kiên cú nghổa t cỏc thụng tin hng ngy. Cỏc k thut phõn cm
cng ềc s dng bi Tanev v cẻng sá [37] trớch chn cỏc sá kiên bĐo lác v
thÊm hoĐ cho hê thậng giỏm sỏt.
Bờn cĐnh ú, cỏc k thut dáa trờn d liêu cng ềc ỏp dng cho min d
liêu dch bênh. Doan S. v cẻng sá [12] xõy dáng hê thậng giỏm sỏt sc khoƠ ton
cảu (Global Health Monitor system) hin th sá lõy lan dch bênh trờn th giểi. Hê
thậng ny gm ba thnh phản chớnh: (1) phõn lểp ch , (2) nhn dĐng thác th,
v (3) phỏt hiên tờn bênh v a im bựng phỏt dch bênh. Trong thnh phản
th nhòt, bẻ phõn lểp Naive Bayes ềc s dng v ẻ chớnh xỏc ca quỏ trỡnh

phõn lểp khoÊng 88.10% . Trong thnh phản th hai, tỏc giÊ s dng Support
Vector Machine (SVM) cho bi toỏn nhn dĐng thác th v ẻ chớnh xỏc khoÊng
76.97% vểi ẻ o F (F-score). Thnh phản cuậi cựng tỏc giÊ s dng mẻt ontology
(BioCaster Ontology) phỏt hiên tờn bênh v a im bựng phỏt. ẻ chớnh xỏc
ca thnh phản th ba ny khoÊng 93.40%.

×