Tải bản đầy đủ (.pdf) (12 trang)

ỨNG DỤNG VỀ KHOA HỌC DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU: DATA MINING LANDSCAPE

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (8.84 MB, 12 trang )

Về#khoa#học#dữ#liệu#và#khai#phá#dữ#liệu Outline
Data#mining#landscape
! Statistics,( machine(learning,(data(mining,(and(data(
Hồ#Tú#Bảo science
Japan#Advanced#Institute##of#Science#and#Technology
! Issues*in*data*mining
Data,*information,*knowledge,*and*wisdom ! Development* of*data*mining*and*its*challenges

From$Julien$Blin Một$số$slides$chưa$chuyển$qua$tiếng$Việt$nhưng$ sẽ$được$trình$bày$bằng$tiếng$Việt
3 2

How*knowledge*is*created?

Chuồn*chuồn bay*thấp thì mưa Biết "& ,#Tìm#!(")
Bay*cao thì nắng bay*vừa thì râm (thơi) Induction)(quy)nạp)

Mùa*hè*đang*nắng,*cỏ*gà*trắng*thì*mưa.* Biết ! " #$à#"&, Tìm#((*+)#
Cỏ*gà*mọc*lang,*cả*làng*được*nước.* Deduction)(suy)diễn)

Kiến*đen*tha*trứng*lên*cao
Thế*nào*cũng*có*mưa*rào*rất to

Chuồn chuồn cắn rốn,*bốn ngày biết bơi!

4

Data,*information,*and*knowledge How*does*people*collect*data?

Knowledge$can$be$considered$data$at$a$$ ! Dữ*liệu*chính*là*giá(trị(của(các(thuộc(tính (features,*attributes,*
high$level$of$abstraction$and$generalization. properties,*variables)*của*các*đối*tượng,*thu*được*do*quan*sát,*đo*đạc*
và*thu*thập.*


integrated information, including facts and
their relations (“justified true belief) ! Hai*cách*thu*thập*dữ*liệu
Is this road appropriate for such amount of cars?
Obtaining$by$ Lấy*mẫu* Thu*mọi*dữ*liệu*
K Perceiving data equipped with meaning ngẫu*nhiên có*được
K Discovering Average of number of cars each hour, each
K Learning day, each week, each year on the road. Conventional)statistics:$First$have$ Data)Mining:$Data$are$collected$
the$target then$collect$data$to$reach$ without$connecting$to$any$target.$$
Obtaining$by$ Un-interpreted signal the$target.$Methods$were$mostly$ Many$innovative$multivariate$
K Processing Number of cars counted on a road by created$for small$or$mediumKsized$ techniques$being$developed$to$solve$
hours, by days of the week, by months. data$sets. largeKscale$data$problems.
Obtaining$by$
K Observing
K Measuring
K Collecting

5 6

From*data*to*knowledge? Thống*kê*m Statistics

Có$thể$xem$tri$thức$là$dữ$liệu$ở$mức$$$$$$$ ! Thống&kê&cung#cấp#các#phương#pháp#và#kỹ#thuật#toán#học#để#
khái$quát$hoá$cao$(generalization). phân#tích,#khái#quát#và#ra#quyết#định#từ#dữ#liệu.

Nhiều*khoa*học*liên*quan** ! Nội dung&chính
việc*đi*từ*dữ*liệu*đến*tri*thức " Thống&kê&mô&tả&(descriptive#statistics):#phân#bố#xác#suất…
• Statistics* " Thống&kê&suy&diễn&(inferential#statistics):#ước#lượng#và#kiểm#
• Machine*Learning* định#giả#thiết#thống#kê…)
• Data*Mining*
• Data*Science ! Dữ#liệu#từ#thí#nghiệm#và#dữ#liệu#quan#sát#
" Dữ#liệu#thống#kê#thường#được#thu#thập#để#trả&lời&những& câu&

7 hỏi&được định trước (experiment#design,#survey#design)
" Phần#lớn#là#dữ#liệu#số,#ít#dữ#liệu#hình#thức#(symbolic).

! Nhiều#phương#pháp#phát#triển#cho#tập#dữ&liệu&nhỏ,#phân#tích#từng#
biến#ngẫu#nhiên#riêng#lẻ,#trước#khi#có#máy#tính.

8

Phân*tích*dữ*liệu*nhiều*biến Phân*tích*dữ*liệu*nhiều*biến

Multivariate*analysis* Multivariate*analysis*

! Phân#tích#đồng#thời#quan#hệ#của#nhiều#biến#ngẫu#nhiên ! Phương*pháp*phân*tích*được*tạo*ra*cho*các*tập*dữ*liệu*có*kích*
! Phân&tích&thăm&dị&(EDA,#exploratory#data#analysis)#dùng#dữ# thước*nhỏ*hoặc*trung*bình,*và*khi*máy*tính*cịn*yếu.*

liệu#tạo#ra#các#giả#thiết#vs.#việc#kiểm#định#giả#thiết#trong####### ! Phân*tích*thống*kê*nhiều*biến*đang*thay*đổi*nhanh*do*kỹ*thuật*
Phân&tích&khẳng&định&(CDA,#confirmatory#data#analysis)# tính*tốn*nhanh*và*hiệu*quả*hơn.*Nhiều*phương*pháp*mới*được*
phát*triển*để*giải*các*bài*toán*lớn (Pagerank của Google* nghịch
" Factor#analysis, PCA,#Linear#discriminant#analysis đảo ma*trận kích thước nhiều tỷ chiều)
" Regression#analysis
" Cluster#analysis Nov.*2012:*Cray’s*Titan*computer,* June*2013:*China Tianhem2,*33.86*petaflops,*
17.59*petaflops, 560640*processors. 3,120,000* Intel*cores*(No.*1.*Sunway*TaihuLight)
! Thấy#gì#từ#các#phương#pháp#truyền#thống?
10
" Kết#quả#nghèo#trên#dữ#liệu#lớn#và#phức#tạp#
" Các#phương#pháp#truyền#thống#chỉ#phân#tích#tập#dữ#liệu#nhỏ.# M?achine learning
" Giá#lưu#trữ#và#xử#lý#dữ#liệu#giảm#nhanh#thập#kỷ#qua.

9


Machine*learning*and*data*mining*

Machine learning Data mining ! Field*of*study*that*gives*computers*the*
ability*to*learn without*being*explicitly*
# To build computer # To find new and useful programmed*(Arthur*Samuel,*1959).

systems that learn as knowledge from large ! Một*chương*trình*máy*tính*được*nói*là*
human does. datasets.
" học từ*kinh*nghiệm*E
# ICML since 1982 # ACM SIGKDD (1995),
" cho*một*lớp*các*nhiệm*vụ*T
(33th ICML in 2016), PKDD and PAKDD (1997)
ECML since 1989. IEEE ICDM and SIAM DM " với*độ*đo*hiệu*suất*P

# ECML/PKDD since 2001. (2000), etc. nếu*hiệu*suất*của*nó*với*nhiệm*vụ*T,*
# ACML starts Nov. 2009.
đánh*giá* bằng*P,*có*thể*tăng*lên*cùng*

kinh*nghiệm.

(Tom*Mitchell,* 1997) (from$Eric$Xing$lecture$notes)

ACML:$Asia$Conference$on$Machine$Learning • Three main AI targets: Automatic Reasoning, Language understanding, Learning

PAKDD:$Pacific$Asia$Knowledge$Discovery$and$Data$Mining 11 • Finding hypothesis f in the hypothesis space F by narrowing the search with constraints (bias) 12

Khai*phá*dữ*liệu*– Data*Mining Statistics*vs.*Machine*Learning

Tự) động) khám) phá,) phát) hiện) các)tri) thức) tiềm) ẩn) từ) Statistics Machine(learning
các)tập)dữ)liệu)lớn)và)đa)dạng.)

! Nhấn*mạnh*suy*diễn*thống*kê*hình* ! Nhấn*mạnh*các*bài*toán*dự*đoán,*
Data mining metaphor: Statistics Large and thức*(ước*lượng,*kiểm*định*giả* thiết). bắt đầu*với*dữ*liệu*hình*thức.***********************************
Extracting ore from rock unstructured
KDD real-life data ! Dựa*trên*các*mơ*hình*(models)*cho*bài* ! Bước*đầu*chủ*yếu*xây*dựng*và*
tốn*có*số*chiều* nhỏ,*ở*dạng*số. dùng*các*thuật* toán*trực*cảm*
(heuristics* algorithms).
! Khoa*học*đã*thiết*lập,*ít*‘văn*hóa’*thay*
đổi*và*thích* nghi*với*mơi*trường*tính* ! Gắn*với*thống*kê*nhiều*hơn,*xây*
toán.* dựng*mơ*hình*tốn*cho*các*thuật*

! Có xu hướng mở*rộng*sang*học*máy. toán*(statistical* models*underlying*
the*algorithms).*
Databases Machine Learning

13 14
London)taxi
Thống*kê*vs.*Khai*phá*dữ*liệu Thấy gần đây

London)subway

Feature Statistics Data)Mining

Kiểu$bài$tốn &$dữ Có$cấu$trúc$(well$structured) Không cấu$trúc/Nửa cấu trúc
liệu Unstructured/SemiKstructured
Xác$định$mục$tiêu$rồi$thu$
Mục$đích$phân$ tích$ thập$ dữ$liệu Dữ$liệu$thu$thập$ thường$ không$ liên$
và$thu$thập$dữ$ liệu Nhỏ$ và$thường$ thuần$ nhất quan$ đến$ mục$tiêu

Kích$thước$dữ$ liệu Lớn$ và$thường$ không$ thuần$ nhất.$


Mô$thức/tiếp$cận Dựa$ trên$lý$thuyết$suy$diễn Phối$hợp$ lý$thuyết$và$trực$cảm
Paradigm/approach Theory$based$ (deductive) Theory$&$heuristic$based$
(inductive)
Kiểu$phân$ tích Confirmative$(khẳng$ định)
Explorative$(thăm$dò,$khai$phá)

Số$biến Nhỏ Lớn
Dựa$ trên$giả$định$về$phân$ bố Không$ giả$ định$phân$ bố$ xác$suất
Giả$định$ về$phân$ bố
Distribution assump. Thứ$ba,$7/7/2015
Nhu)cầu)nhân)lực)khổng)lồ)cho)Big)Data
15
Kiểu bài toán 16

Big#data#là#gì? A*scheme*of*data*science

Dữ$liệu$lớn$nói$về$các$$$$$$$$$$$$$$ PUBLICATION DIRECTED*ACTIONS*TO*HUMAN DIRECTED*ACTIONS*TO*MACHINES
tập)dữ)liệu)rất)lớn) ACCESS
và/hoặc$rất)phức)tạp, RESULT Browser Mobile* Custom*hand*help Web* FTP*and*SFTP MQ,*JMS,*Sockers
vượt$quá$khả$năng$xử$ devices services
lý$của$các$kỹ$thuật$IT$ COMMUNICATION
truyền$thống$(View%1). VISUALIZATION Tag(cloud Clustergram History( Spatial(information(flow
DATA* ANALYTICS flow
(View%2)%Big%Data% is%about% technology%(tools%and% processes).% ANALYTICS DATA*
(View%3)%Hiện%tượng%khách%quan% mà%các%tổ%chức,%doanh% nghiệp…%phải%đối%đầu%để%phát%triển. STATISTICS MACHINE* MINING
LEARNING
17
MANAGEMENT Distributed* Data*Cleaning
Data*science File*System Data*Security
DATA* Data*

“Chỉ$Thượng$ đế$là$đáng tin.$Mọi MANIPULATION Parallel0 Storage …….
thứ$khác$đều$phải$ dựa$ vào$dữ$liệu” computing

Data Scientist: The Sexiest EXTRACT SemiGstructured/unGstructure*data*extraction*************…….
Job of the 21st Century
DATA*SOURCES Enterprise,*Oracle,*SAP, Sensors Mobiles Web/Unstructured …….
(Harvard Business Review, October Customer,*Systems,*etc.
2012) 18

Outline

! Statistics,* machine*learning,* data*mining,*and*data*science
! Issues( in(data(mining

1) Types,*models*and*structures*of*data
2) Data*mining*process
3) Model*assessment*and*selection
4) Data*mining*methods
5) Others
! Development* of*data*mining*and*its*challenges

Một$số$slides$chưa$chuyển$qua$tiếng$Việt$nhưng$ sẽ$được$trình$bày$bằng$tiếng$Việt
20

Data*types*and*models vs.*mining*methods The*data*analysis*process

Data types and models Mining tasks and methods a*step*consisting*of*methods* 5 Putting*the*results
that*analyze*the*data*for* in*practical*use
# Flat data tables # Classification/Prediction useful*patterns*or*models*
# Relational databases from*the*data 4 Interpret*and*evaluate

# Temporal & spatial data " Decision trees discovered*knowledge
# Transactional databases " Bayesian classification
# Multimedia data " Neural networks Maybe&70)90%& 3 Data*Analysis
# Genome databases " Rule induction of&effort&and&cost Extract*Patterns/Models*
# Materials science data " Support vector machines
# Textual data " Hidden Markov Model 2
# Web data " etc. Preprocess*data********
# etc.
# Description 1 The$process$is$inherently
Understand*the*domain,* interactive$and$iterative
" Association analysis collect*data,*define*problems
" Clustering 22
" Summarization
" etc.

21

Major*tasks*in*data*preprocessing Data*types

1 Data cleaning # SYMBOLIC Symbols$
" Indexing:*E.g.,*names,*tags,*case*numbers,*or*serial* or$
2 Data integration and transformation numbers*that* identify*a*respondent*or*group*of* Numbers
respondents.
3 Data reduction 4 Data discretization " Binary:*Two*values,*e.g.,*YES*or*NO,*SUCCESS*or* 24
(instances and dimensions) 23 FAILURE,*MALE*or*FEMALE,*WHITE*or*NONmWHITE,*FOR*
or*AGAINST,*and*so*on.*

" Boolean:*Two*values*TRUE*or*FALSE,*and*may*have*the*
value*UNKNOWN.*


" Nominal:*Charactermstring*values*(green,*blue,*red,*…)
" Ordinal:*Values*for*this*charactermstring* data*type*are*

linearly*ordered (Small,*Middle,*Large,…)

# NUMERIC
" Integer:*Values*are*just*integer*numbers
" Continuous:*real*numbers.*

Why*we*should*care about*data*types? Structures*of*data

Combinatorial search in hypothesis spaces (machine learning) ! Structured(data

Attribute********Numerical*********Symbolic Posible$ " Can*be*stored*in*database*SQL*in*
analysis$ table*with*rows*and*columns.*
No*structure Places, Nominal$or operations$
Color categorical (thus$methods,$ " Only*about*5m10%*of*all*
= ≠ (Binary,* algorithms)$ available*data.
Rank, Boolean) depend$on$data$
Ordinal**** Integer:** Resemblance types ! SemiMstructured( data
structure******* Age, Ordinal
Temperature " Doesn’t*reside*in*a*relational*
=≠≥ Measurable database*but*that*does*have*
Continuous:* some*organizational*properties*
Ring* Income, that*make*it*easier*to*analyze.*
structure Length
" XML*documents*and*NoSQL**
=≠≥ +× databases*documents*are*semi*
structured
Often matrix-based computation (multivariate data analysis)


Articls$in$a$Latex$database

25 26

Structures*of*data Supervised*vs.*Unsupervised*data*

! Unstructured(data Given:* !",$" , !%, $% , … , (!(, $()
m *+ is*description*of*an*object,*phenomenon,* etc.
" Unstructured*data*represent*around*80%*of*data.*It*often*include* m $+ (label*attribute)*is*some*property*of**+,*if*not*available*learning*is*unsupervised
text*and*multimedia*content.*
Example:*emmail*messages,* word*documents,*videos,*photos,*audio* Find:*a*function*, * that*characterizes*{*+}*or*that*, *+ = $+
files,*webpages* and*many*other*kinds*of*business*documents.
Unsupervised data Supervised data
" A*key*issue*in*data*science*is*representing(unstructured(data
Example:*The*DNA*sequence H1 H2
H3 H4
“…TACATTAGTTATTACATTGAGAAACTTTATAATTAAAAAAGATTC…”
can*be*represented*by*different*ways*for*computation*such*as* C1 C2
sliding*windows,*motifs,**kernel*function,*web*link…*representation C3 C4

27 The$problem$is$usually$called$classification if$“label”$is$categorical,$and$prediction if$“label”$
is$continuous$(in$this$case,$if$the$descriptive$attribute$is$numerical$the$problem$ is$regression)$ $

Hoàng$Xuân$Huấn,$Classification$and$Regression 28

Classification—a*twomstep*process Classification:*Train,*Validation,*Test

Model construction Model usage Results)known


Classification + Training)set Model
Algorithms +
` Builder
Unknown object `
H1 H2 + Evaluate
Data

Model Builder Predictions

H3 H4 +
-
Classifier Cancerous? YN +
(model) 29 -

C1 C2 Validation)set

training data If color = dark Final Model +
and # tails = 2 - Final)Evaluation
cancerous cell Testing Set +
Then -

30

Classification*with*decision*trees Classification*with*neural*networks

#nuclei?

H1 H2 1 2 H1 H2 color*=*dark
#*nuclei*=*1
color? color? #*tails*=*2 Healthy

light dark Cancerous
H3 H4 H3 H4
H #tails? 32
light dark
12
C1 C2 #tails? C C1 C2

12

C3 C4 H C HC

C3 C4

31

Classification*with*decision*rules Instancembased*classification

H1 H2 IF Color = light ! InstanceMbased( classification Class$A
AND # nuclei = 1 X
Healthy " Using*most*similar*individual*instances*known*
THEN in*the*past*to*classify*a*new*instance Class$B
34
H3 H4 ! Typical(approaches X$
belongs$
Color = dark " kMnearest(neighbor(approach to$A$or$B?$
# nuclei = 2
IF Cancerous ! Instances*represented*as*points*in*a*
AND Euclidean*space

C1 C2 THEN " Locally(weighted(regression

! Constructs*local*approximation

C3 C4 " CaseMbased(reasoning

! Uses*symbolic*representations*and*
knowledgembased*inference

33

Bayesian*classification Clustering*(Apsara faces)

! The*essence*of*Bayes’*theorem*is*that*tell*us*how*to*update*our*initial*
probabilities*.(ℎ) if*we*see*evidence*0,*in*order*to*find*out*.(ℎ|0)

. ℎ 0 = . 0 ℎ .(ℎ)
.(0)

. ℎ 0 = . 0 ℎ . .(ℎ) = . 0 ℎ . .(ℎ)

.(0) . 0 ℎ . . ℎ + . 0 ¬ℎ . .(¬ℎ) 127 landmarks

! A*prior*probability 12 9 10 3 6 4 5 7 8
! Conditional*probability*(likelihood)*← coming*from*the*data*
! Posteriori*probability Single Link clusters

• Nạve*assumption:*attribute-independence Shape alignment An ethnologist needs to validate the groups

• Bayesian*belief*network*allows*a*subset of*the*variables*conditionally* Nguyễn$Trí$Thành,$Cluster$Analysis
independent. 36
35


Mining associations* Many*other*issues

Super market data ! Ensemble*learning
! Transfer*learning
“Young men buy diaper and beer together” ! Learning* to*rank
! Multiminstance* multimlabel*learning
Dữ*liệu*siêu*thị**** Khai*phá*dữ*liệu****** Trai*trẻ*20m30*tuổi + ! Semimsupervised* learning
! Structured* prediction* *
Bỉm*************************Bia***** ! Social*network* analysis*(Trần*Mai*Vũ)
! Learning* in*specific*domains
! etc.

   
        
   
    
 38

    
 

Võ$Đình$Bảy,$Pattern$and$asociation$mining
37

KDD*nuggets Which*algorithms*perform*best*at*which*tasks?*

Nguồn-thông-tin-lớn-nhất-về-khai-phá-dữ-liệu Algorithm Pros Cons Good)at

www.kdnuggets.com is*website*of*the*data*mining*community Linear)

regression
K Very$fast$(runs$in$constant$time) K Unable$to$model$complex$relationships K The$first$look$at$a$dataset
Decision) K Easy$to$understand$the$model K Unable$to$capture$nonlinear$ K Numerical$data$with$lots$of$
trees K Less$prone$to$overfitting
relationships$ without$first$transforming$ features
Neural) the$inputs
networks
K Fast K Complex$trees$are$hard$to$interpret K Star$classification
Support) K Robust$to$noise$and$missing$values K Duplication$ within$ the$same$subKtree$is$ K Medical$diagnosis
Vector) K Accurate K Credit$risk$analysis
Machines possible
K Extremely$powerful K Images
K`Nearest) K Can$model$even$very$complex$ K Prone$to$overfitting K Video
Neighbors K Long$training$time K “HumanKintelligence”$type$tasks$
relationships K Requires$significant$computing$power$for$
K No$need$to$understand$the$underlying$ like$driving$or$flying
large$datasets K Robotics
data K Almost$works$by$“magic” K Model$is$essentially$unreadable

K Can$model$complex,$nonlinear$ K Need$to$select$a$good$kernel$function K Classifying$proteins
relationships K Model$parameters$are$difficult$to$interpret K Text$classification
K Sometimes$numerical$stability$problems K Image$classification
K Robust$to$noise$(because$they$ K Requires$significant$memory$and$ K Handwriting$recognition
maximize$margins)
processing$power
K Simple
K Powerful K Expensive$and$slow$to$predict$new$ K LowKdimensional$datasets
K No$training$involved$(“lazy”) instances K Computer$security:$intrusion$
K Naturally$handles$multiclass$
K Must$define$a$meaningful$distance$ detection

classification$and$regression function K Fault$detection$in$semiKconducter

K Performs$poorly$on$highKdimensionality$ manufacturing
datasets K Video$content$retrieval
K Gene$expression
K ProteinKprotein$interaction

39 40

Outline Development*of*machine*learning

! Statistics,* machine*learning,* data*mining,*and*data*science Successful)applications
! Issues*in*data*mining
! Development( of(data(mining(and(its(challenges Symbolic)concept)induction Data)mining IR$&$ranking
Multi$strategy$learning MIML

Minsky$criticism$ NN,$GA,$EBL,$CBL Active$&$online$learning Transfer$learning
Pattern$Recognition$emerged
Abduction,$Analogy Kernel$methods Sparse$learning

Revival)of)non`symbolic)learning Bayesian$methods

PAC$learning ILP SemiKsupervised$learning Deep$$learning

Experimental$comparisons Dimensionality$reduction

Math$discovery$AM Supervised)learning Probabilistic$graphical$models
Neural$modeling Statistical)learning

Rote$learning Unsupervised)learning Nonparametric$Bayesian

Ensemble$methods

Reinforcement)learning Structured$prediction

19510941 19149960 1956 19179058 196189801970 19179290 1982 12908060 1990 19972010

ICML$(1982) ECML$(1989) KDD$(1995) PAKDD$(1997) ACML$(2009)

enthusiasm dark$age renaissance maturity fast$development
42
Một$số$slides$chưa$chuyển$qua$tiếng$Việt$nhưng$ sẽ$được$trình$bày$bằng$tiếng$Việt
41

Kernel*methods:*the*scheme Probabilistic*graphical*models

MIN VOL SET

Input$space$X PU L MEMBOL U S IN TU BATION KIN KED TU BE VEN TMAC H D ISC ON N EC T

Feature$space$F ! Kết*nối*graph*theory*và probability* PAP SH U N T VEN TL U N G VEN ITU BE
theory*trong*một*hình*thức*chặt* chẽ*
cho*mơ*hình*hố*thống*kê*nhiều* chiều.* PR ESS

x1 x2 inverse map φ-1 MIN OVL FIO2 VEN TAL V

φ(xn) AN APH YL AXIS PVSAT AR TC O2
φ(xn-1)
φ(x) φ(x1) ... ! Probability*theory đảm*bảo*tính*nhất* TPR SAO2 IN SU FFAN ESTH EXPC O2
k(xi,xj) = φ(xi).φ(xj) φ(x2) qn*(consistency)*và*cho*mơ*hình*mơ*
… tả*và*kết*nối*với*dữ*liệu.* H YPOVOL EMIA L VFAIL U R E C ATEC H OL

xn-1 xn
! Graph*theory cho*một*giao*diện*trực*
giác*với*con*người. L VED VOL U ME STR OEVOL U ME HISTORY ERRBLOWOUTPUT HR ER R C AU TER

“Ngôn*ngữ*đồ*thị*cho*ta*cách* diễn*giải* C VP PC W P CO H R EKG H R SAT
rõ*tính*chất* thực*tế:*các*biến*có*xu*
kernel function k: XxX $ R Gram matrix Knxn= {k(xi,xj)} - kernel-based algorithm on K hướng*chỉ*tương*tác*trực-tiếp-với*một* H R BP
số*ít*biến*khác”.*(Koller’s book).
BP
! Modularity:*Mọi*hệ*phức*tạp*đều*được*
xây*dựng*từ*những*phần*đơn*giản*hơn.* A ICU alarm network, 37 nodes, 509 parameters.

# Biến%đổi%dữ%liệu%từ%X%bởi%một%ánh%xạ%6(x) vào%một%không% gian%vector%(nhiều%chiều),% gọi%là ! Issues:*
" Representation
feature%space%F. " Learning
" Inference
# Tìm%một%hàm/mơ%hình tuyến%tính (hoặc%một%hàm%tốt%hơn) trong% F bằng%%các%thuật%toán% " Applications

quen%biết%thực%hiện%trên%Gram%matrix. Trần Quốc Long, Probabilistic graphical models

# Bởi%một%ánh%xạ%ngược,%hàm%tuyến%tính%trên%F%có%thể%tương%ứng%với%một%hàm%phức%tạp%trên%

X.%

# Điều%này%có%thể%thực%hiện%đơn%giản%hơn% do%sử%dụng%nội%tích%(inner%products)% trong F%(kernel%

trick)%xác%định%bởi%một%hàm%hạch%(kernel%function).

Probabilistic*graphical*models Nonmlinearly*separable*problems********************
and*deep*learning

Instances-of-graphical-models

Naïve$ Graphical$models Probabilistic$models Structure Types+of Exclusive7OR Classes+with Most+General
Bayes$ Single7Layer Decision+Regions Problem Meshed+regions Region+Shapes
classifier
Half+Plane A B
Mixture$ Bounded+ By
models Hyperplane B A

Kalman Directed Undirected LDA B A
filter
model Bayes$nets MRFs Two7Layer Convex+Open A B
Or
B A
Closed+Regions
DBNs B A
Hidden$ Markov$Model$ (HMM)
Conditional Three7Layer Arbitrary A B
random$ (Complexity
fields Limited$by$No. B

of$Nodes) B A A

MaxEnt

Murphy, ML for life sciences 45 Lê$Hồng$Phương,$Deep$Learning$ for$Text

46

Some*typical*books**


47


×