Semi - Supervised learning

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (324.45 KB, 30 trang )

Semi Superviesd learning Nguyn Ngc Tựng K54B - CNTT
1
MC LC
NHN XẫT CA HI NG .......................................................................................... 3
Chng I: GII THIU V MY HC ........................................................................... 4
( Machine learning ) ............................................................................................................ 4
I GII THIU: .................................................................................................................... 4
1.1 nh ngha hc ..................................................................................................... 5
1.2. Khỏi nim v hc mỏy ................................................................................................. 6
1.3 Cỏc tip cn hc ............................................................................................................ 7
1.4 Tng tỏc vi con ngi ............................................................................................... 7
II. QU TRèNH HC MY .............................................................................................. 8
2.1 Quỏ trỡnh trớch tri thc t d liu .................................................................................. 8
2.2 Phõn loi hc ................................................................................................................. 8
2.3 D liu .......................................................................................................................... 8
2.4 Giao thc ....................................................................................................................... 8
2.5 Tiờu chun thnh cụng .................................................................................................. 8
2.6 Khụng gian biu din .................................................................................................... 9
2.7 Bn cht ca cỏc thuc tớnh ........................................................................................ 10
2.8 Tin x lý d liu ........................................................................................................ 10
2.10 Tp mu ................................................................................................................... 11
2.11 Tỡm kim trong khụng gian gii thuyt..................................................................... 11
III. CC LOI GII THUT TRONG MY ................................................................. 11
3.1 Cỏc loi gii thut. ...................................................................................................... 11
3.2 Cỏc ch v hc mỏy ............................................................................................... 12
Chng II: HC NA GIM ST ............................................................................... 14
(Semi-supervised learning ) .............................................................................................. 14
I. TNG QUAN................................................................................................................ 14
1.1 Gii thiu v hc cú giỏm sỏt (supervised learning) v khụng cú giỏm sỏt
(unsupervised learning) .................................................................................................... 14
a. Hc cú giỏm sỏt: ........................................................................................................... 14

b. Hc khụng cú giỏm sỏt: ................................................................................................ 17
1.2 Khỏi nim v hc na giỏm sỏt ................................................................................... 18
II. MT S GII THUT TRONG HC NA GIM ST......................................... 19
2.1 Generative Models ...................................................................................................... 19
2.1.1 Gii thiu v Generative Models ......................................................................... 19
2.1. Generative Models trong Semi - supervised learning ................................................ 19
2.1.3 u im v nhc im ca gii thut .................................................................... 22
2.1.5 ng dng ca mụ hỡnh ............................................................................................. 22
2.2 Semi superviesd Suport vector machines ................................................................ 23
2.2.1 Gii thiu v S3VM .................................................................................................. 23
2.2.2 Gii thut S3MV ...................................................................................................... 24
2.2.3 Kt lun v S3VM..................................................................................................... 25
2.3 Self-training ................................................................................................................ 26
CHNG III. SELF TRAINING V BI TON NHN DNG Kí T TRấN
NH .................................................................................................................................. 27
I. GII THUT SELF TRAINING............................................................................... 27
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT
2
1.1 Giới thiệu về Self – training ........................................................................................ 27
1.2 Giải thuật ..................................................................................................................... 27
1.3 Đánh giá giải thuật ...................................................................................................... 28
II. BÀI TỐN NHẬN DẠNG KÝ TỰ TRÊN ẢNH ....................................................... 28
2.1 Phân tích bài tốn ....................................................................................................... 28
2.2 Hướng giải quyết bài tốn. ......................................................................................... 28
I. KẾT QUẢ BAN ĐẦU ĐÃ ĐẠT ĐƯỢC ...................................................................... 30
II. HƯỚNG PHÁT TRIỂN ............................................................................................... 30

THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT
3
NHẬN XÉT CỦA HỘI ĐỒNG
………………………………………………………………………………………………
................................................................................................................................................
................................................................................................................................................
................................................................................................................................................
………………………………………………………………………………………………
................................................................................................................................................
................................................................................................................................................
................................................................................................................................................
………………………………………………………………………………………………

................................................................................................................................................
................................................................................................................................................
................................................................................................................................................
………………………………………………………………………………………………
................................................................................................................................................
................................................................................................................................................
................................................................................................................................................
………………………………………………………………………………………………
................................................................................................................................................
................................................................................................................................................
................................................................................................................................................
………………………………………………………………………………………………
................................................................................................................................................
................................................................................................................................................
................................................................................................................................................
………………………………………………………………………………………………
................................................................................................................................................
................................................................................................................................................
................................................................................................................................................
………………………………………………………………………………………………
................................................................................................................................................
................................................................................................................................................
................................................................................................................................................
………………………………………………………………………………………………
................................................................................................................................................
................................................................................................................................................
................................................................................................................................................
………………………………………………………………………………………………
................................................................................................................................................
................................................................................................................................................

................................................................................................................................................

THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
Semi Superviesd learning Nguyn Ngc Tựng K54B - CNTT
4
Chng I: GII THIU V MY HC
( Machine learning )

I GII THIU:

Khi c hi v nhng k nng thụng minh no l c bn nht ng thi
khú t ng húa nht ca con ngi ngoi cỏc hot ng sỏng to ngh
thut, hnh ng ra quyt nh mang Trói qua nhiu nm, hai lnh vc ny
vn l mc tiờu, thỏch thc ca khoa hc TTNT.
Tm quan trng ca vic hc thỡ khụng cn phi tranh cói, vỡ kh nng hc
chớnh l mt trong nhng thnh t quan trng ca hnh vi thụng minh. Mc
dự tip cn h chuyờn gia ó phỏt trin c nhiu nm, song s lng cỏc
h chuyờn vn cũn hn ch. Mt trong nhng nguyờn nhõn ch yu l do quỏ
trỡnh tớch ly tri thc phc tp, chi phớ phỏt trin cỏc h chuyờn gia rt cao,
nhng chỳng khụng cú kh nng hc, kh nng t thớch nghi khi mụi trng
thay i. Cỏc chin lc gii quyt vn ca chỳng cng nhc v khi cú
nhu cu thay i, thỡ vic sa i mt lng ln mó chng trỡnh l rt khú
khn. Mt gii phỏp hin nhiờn l cỏc chng trỡnh t hc ly cỏch gii
quyt vn t kinh nghim, t s ging nhau, t cỏc vớ d hay t nhng
ch dn, li khuyờn,...
Mc dự hc vn cũn l mt vn khú, nhng s thnh cụng ca mt s
chng trỡnh hc mỏy thuyt phc rng cú th tn ti mt tp hp cỏc
nguyờn tc hc tng quỏt cho phộp xõy dng nờn cỏc chng trỡnh cú kh
nng hc trong nhiu lnh vc thc t.

THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT
5

1.1 Định nghĩa ‘học’

Theo Herbert Simon: ‘Học được định nghĩa như là bất cứ sự thay đổi nào
trong một hệ thống cho phép nó tiến hành tốt hơn trong lần thứ hai khi lặp
lại cùng một nhiệm vụ hoặc với một nhiệm vụ khác rút ra từ cùng một quần
thể các nhiệm vụ đó’
Định nghĩa này mặc dù ngắn nhưng đưa ra nhiều vấn đề liên quan đến việc
phát triển một chương trình có khả năng học. Học liên quan đến việc khái
qt hóa từ kinh nghiệm: hiệu quả thực hiện của chương trình khơng chỉ cải
thiện với ‘việc lặp lại cùng một nhiệm vụ’ mà còn với các nhiệm vụ tương
tự. Vì những lĩnh vực đáng chú ý thường có khuynh hướng là to lớn, nên các
chương trình học – (learner) chỉ có thể khảo sát một phần nhỏ trong tồn bộ
các ví dụ có thể; từ kinh nghiệm hạn chế này, chương trình học vẫn phải
khái qt hóa được một cách đúng đắn những ví dụ chưa từng gặp trong lĩnh
vực đó. Đây chính là bài tốn quy nạp (induction), và nó chính là trung tâm
của việc học. Trong hầu hết các bài tốn học, dữ liệu luyện tập sẵn có
thường khơng đủ để đảm bảo đưa ra được một khái qt hóa tối ưu, cho dù
chương trình học sử dụng giải thuật nào. Vì vậy, các giải thuật học phải khái
qt hóa theo phương pháp heuristic, nghĩa là chúng sẽ chọn một số khía
cạnh nào đó mà theo kinh nghiệm là cho hiệu quả trong tương lai để khái
qt. Các tiêu chuẩn lựa chọn này gọi là thiên lệch quy nạp (inductive bias).
Có nhiều nhiệm vụ học (learning task) khác nhau. Nhiệm vụ của chương
trình học là học một khái qt (generalization) từ một tập hợp các ví dụ. Học
khái niệm (concept learning) là một bài tốn học quy nạp tiêu biểu: cho
trước một số ví dụ của khái niệm, chúng ta phải suy ra một định nghĩa cho

THƯ VIỆN ĐIỆN TỬ TRỰC TUYẾN
Semi Superviesd learning Nguyn Ngc Tựng K54B - CNTT
6
phộp ngi dựng nhn bit mt cỏch ỳng n nhng th hin ca khỏi nim
ú trong tng lai.

Mt s khỏi nim:
Hc thuc lũng
Hc tng cng
Hc khỏi nim
Gii quyt vn
Khỏi quỏt hoỏv c bit hoỏ
Bias:
C nh mt h khỏi nim
Tỡm kim trong hkhỏi nim gii thớch tt nht dliu
La chn BIAS l mt s tho hip
1.2. Khỏi nim v hc mỏy
Hc mỏy (cũn gi l Mỏy hc) l mt lnh vc ca trớ tu nhõn to liờn quan
n vic phỏt trin cỏc k thut cho phộp cỏc mỏy tớnh cú th "hc". C th
hn, hc mỏy l mt phng phỏp to ra cỏc chng trỡnh mỏy tớnh bng
vic phõn tớch cỏc tp d liu. Hc mỏy cú liờn quan ln n thng kờ, vỡ c
hai lnh vc u nghiờn cu vic phõn tớch d liu, nhng khỏc vi thng kờ,
hc mỏy tp trung vo s phc tp ca cỏc gii thut trong vic thc thi tớnh
toỏn. Nhiu bi toỏn suy lun c xp vo loi bi toỏn NP-khú, vỡ th mt
phn ca hc mỏy l nghiờn cu s phỏt trin cỏc gii thut suy lun xp x
m cú th x lớ c.
Hc mỏy cú tớnh ng dng rt cao bao gm mỏy truy tỡm d liu, chn oỏn
y khoa, phỏt hin th tớn dng gi, phõn tớch th trng chng khoỏn, phõn
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Semi Superviesd learning Nguyn Ngc Tựng K54B - CNTT

7
loi cỏc chui DNA, nhn dng ting núi v ch vit, chi trũ chi v c
ng rụ-bt (robot locomotion).
1.3 Cỏc tip cn hc
Cú ba tip cn hc: tip cn ký hiu (symbol-based learning), tip cn mng
neuron hay kt ni (neural or connectionist networks) v tip cn ni tri
(emergent) hay di truyn v tin húa (genetic and evolutionary learning).
Cỏc chng trỡnh hc thuc tip cn da trờn ký hiu biu din vn di
dng cỏc ký hiu (symbol), cỏc gii thut hc s tỡm cỏch suy ra cỏc khỏi
quỏt mi, hp l, hu dng v c biu din bng cỏc ký hiu ny.
Ngc li vi tip cn ký hiu, tip cn kt ni khụng hc bng cỏch tớch ly
cỏc cõu trong mt ngụn ng ký hiu. Ging nh b nóo ng vt cha mt
s lng ln cỏc t bo thn kinh liờn h vi nhau, mng neuron l nhng h
thng gm cỏc neuron nhõn to liờn h vi nhau. Tri thc ca chng trỡnh
l ngm nh trong t chc v tng tỏc ca cỏc neuron ny.
Tip cn th ba l tip cn ni tri mụ phng cỏch thc cỏc h sinh hc tin
húa trong t nhiờn, nờn cũn c gi l tip cn di truyn v tin húa.
1.4 Tng tỏc vi con ngi

Mt s h thng hc mỏy n lc loi b nhu cu trc giỏc ca con ngi
trong vic phõn tớch d liu, trong khi cỏc h thng khỏc hng n vic
tng s cng tỏc gia ngi v mỏy. Khụng th loi b hon ton tỏc ng
ca con ngi vỡ cỏc nh thit k h thng phi ch nh cỏch biu din ca
d liu v nhng c ch no s c dựng tỡm kim cỏc c tớnh ca d
liu. Hc mỏy cú th c xem l mt n lc t ng húa mt s phn
ca phng phỏp khoa hc. Mt s nh nghiờn cu hc mỏy to ra cỏc
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Semi Superviesd learning Nguyn Ngc Tựng K54B - CNTT
8
phng phỏp bờn trong cỏc framework ca thng kờ Bayes (Bayesian

statistics).
II. QU TRèNH HC MY
2.1 Quỏ trỡnh trớch tri thc t d liu
Lm sch d liu
S dng mt phng phỏp hc ngh mụ hỡnh
Hp thc hoỏ mụ hỡnh c ngh
2.2 Phõn loi hc
C ch c s: Quy np = phng phỏp cho phộp rỳt ra cỏc kt lun t
mt dóy cỏc s kin.
Hc giỏm sỏt classification, regression, logistic regression Dóy "s
kin" c "gỏn nhón"
Hc khụng giỏm sỏt ( khụng thy) : clustering. Dóy s kin khụng
c "gỏn nhón".
2.3 D liu
Bn cht: s, ký hiu, pha trn
Cht lng: nhiu, gc
2.4 Giao thc
Giỏm sỏt / khụng giỏm sỏt
Gii thiu cỏc vớ d cho hc:
Tng vi d mt ( theo mt cỏch rỳt) - incremental
Tt c cỏc vớ d ng thi
2.5 Tiờu chun thnh cụng
Cỏch ng x:
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Semi – Superviesd learning Nguyễn Ngọc Tùng – K54B - CNTT
9
 Đo lường tỷ suất lỗi của sự phân lớp
 Sự hội tụ
 Sự diễn giải:
 Giải thích

 Tính dễ hiểu

2.6 Không gian biểu diễn
 Không gian biểu diễn, ký hiệu X, các phần tử của nó được gọi là các
dữ liệu / các thể hiện / cácđối tượng / các ví dụ.
 Mỗi phần tử x thuoc X được biểu diễn bởi một tập k thuộc tính ( bộ
mô tả / biến )
x = ( x1, x2, …,xk)
 Một đối tượng x cũng có thể được kết hợp với lớp liên thuộc của nó
(nhãn) : z = ( x, c )

THÖ VIEÄN ÑIEÄN TÖÛ TRÖÏC TUYEÁN
Semi Superviesd learning Nguyn Ngc Tựng K54B - CNTT
10

2.7 Bn cht ca cỏc thuc tớnh
S ( giỏ tr trong R )
Ri rc / cht / tờn / t s ( giỏ tr trong N )
Nh phn ( giỏ tr trong { 0, 1 } )
Dóy cỏc phn t trong mt alphabet
Khụng gian biu din:
Thun nht ( thuc tớnh cựng kiu)
Trn ( mixte)
2.8 Tin x lý d liu
Chn thuc tớnh mụ t d liu
Chnthuctớnh( feature selection ): Loi b cỏc thuc tớnh ớt
phự hp i vi vic hc. ớch l lm gim s chiu.
Trớch / xõy dng thuc tớnh ( feature construction ): gim s

chiu khụng gian u vo bng cỏc phộp bin i ( tuyn tớnh
hoc khụng) cỏc thuc tớnh khi u. ớch l gim s chiu ca
vn v xõy dng bin tng hp ( k ộn cỏc tng tỏc).
X lý nhiu: Li thuc tớnh mụ t hoc nhónphỏt hin bt thng
bng visualization, s dng chuyờn gia. Thay th cỏc d liu thiu.
2
.9 Ri rc hoỏ d liu liờn tc

- Mt s thut toỏn hc khụng cú kh nng x lý trc tip cỏc thuc tớnh liờn
tc. Cn thit bin i cỏc thuc tớnh liờn tc thnh thuc tớnh giỏ tr ri rc
- Mt s phng phỏp gi thit d liu tuõn theo mt lut phõn phi ( Gauss
, u) Ri rc thnh cỏc khong phõn phi tng ng vi cỏc phõn
phi ú.
- Mt s phng phỏp ri rc hoỏ khỏc: phõn on, o lng entropy,
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Semi Superviesd learning Nguyn Ngc Tựng K54B - CNTT
11
2.10 Tp mu
Tp mu = tp hu hn cỏc vớ d. 3 kiu tp mu:
Tp mu hc / tp hc
Tp mu hp thc hoỏ / tp hp thc
-Tp mu th / tp th
2.11 Tỡm kim trong khụng gian gii thuyt
-Mi khi khụng gian gi thit H ó c la chn, hc tr thnh tỡm kim
gi thit tt nht trong H.
-Nu cú mt s ỏnh giỏ mi gi thit bi mt hm "giỏ", cú th xột hc nh
mt vn ti u hoỏ: Tỡm phn t ca H lm ti u hm "giỏ".
Ti u khụng rng buc & Ti u vi rng buc
Hm ti u rt thng dựng l hm "li"
- Cỏc phng phỏp ti u hoỏ: Gradient, Nhõn t Lagrange, Annealing

III. CC LOI GII THUT TRONG MY
3.1 Cỏc loi gii thut.
Cỏc thut toỏn hc mỏy c phõn loi theo kt qu mong mun ca thut
toỏn. Cỏc loi thut toỏn thng dựng bao gm:

Hc cú giỏm sỏt (supervised learning) -- trong ú, thut toỏn to ra
mt hm ỏnh x d liu vo ti kt qu mong mun. Mt phỏt biu
chun v mt vic hc cú giỏm sỏt l bi toỏn phõn loi: chng trỡnh
cn hc (cỏch xp x biu hin ca) mt hm ỏnh x mt vector
ti mt vi lp (class) bng cỏch xem xột mt s vớ
d mu d_liu- kt_qu ca hm ú.

Hc khụng giỏm sỏt (unsupervised learning) -- mụ hỡnh húa mt tp
d liu, khụng cú sn cỏc vớ d ó c gn nhón.
THệ VIEN ẹIEN Tệ TRệẽC TUYEN
Semi Superviesd learning Nguyn Ngc Tựng K54B - CNTT
12

Hc na giỏm sỏt (semi-supervised learning) -- kt hp cỏc vớ d cú
gn nhón v khụng gn nhón sinh mt hm hoc mt b phõn loi
thớch hp.

Hc tng cng (reinforcement learning) -- trong ú, thut toỏn hc
mt chớnh sỏch hnh ng tựy theo cỏc quan sỏt v th gii. Mi hnh
ng u cú tỏc ng ti mụi trng, v mụi trng cung cp thụng
tin phn hi, cỏc thụng tin ny hng dn thut toỏn hc.

transduction -- tng t hc cú giỏm sỏt nhng khụng xõy dng hm.
Thay vo ú, c gng oỏn kt qu mi da vo d liu hun luyn,
kt qu hun luyn, v d liu mi.

Hc cỏch hc (learning to learn) -- trong ú thut toỏn hc thiờn kin
quy np (inductive bias) ca chớnh mỡnh, da theo cỏc kinh nghim ó
gp.
Phõn tớch hiu qu cỏc thut toỏn hc mỏy l mt nhỏnh ca ngnh thng kờ,
c bit vi tờn lý thuyt hc tớnh toỏn (computational learning theory).
3.2 Cỏc ch v hc mỏy

Mụ hỡnh húa cỏc hm mt xỏc sut iu kin (conditional
probability density functions): hi quy v phõn loi
o
Mng n-ron
o
Cõy quyt nh
o
Gene expression programming
o
Lp trỡnh di truyn
o
Gaussian process regression
o
Linear discriminant analysis
o
k lỏng ging gn nht
THệ VIEN ẹIEN Tệ TRệẽC TUYEN

Semi - Supervised learning

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về