Tải bản đầy đủ (.pdf) (99 trang)

Nghiên cứu thuật toán phân lớp nhị phân và ứng dụng cho bài toán protein folding

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.54 MB, 99 trang )

TR

NG
I H C KHOA H C T NHIÊN TPHCM
KHOA CÔNG NGH THÔNG TIN
B MÔN CÔNG NGH TRI TH C

v(w

NGUY N QUANG PH

C - 0112193

NGHIÊN C U THU T TOÁN PHÂN L P
NH PHÂN VÀ NG D NG CHO
BÀI TOÁN PROTEIN FOLDING

LU N V N C

NHÂN TIN H C

GIÁO VIÊN H

NG D N

Ths. CHU T T BÍCH SAN

Niên khóa 2001 - 2005


NH N XÉT C A GIÁO VIÊN H



NG D N

.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................

.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
Tp HCM, ngày tháng n m 2005

ThS. Chu T t Bích San


NH N XÉT C A GIÁO VIÊN PH N BI N
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................

.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
Tp HCM, ngày tháng n m 2005

TS. Lê Hoài B c


L i cám n
cd
Sau nhi u tháng nghiên c u và th c hi n, lu n v n đã hoàn t t và đã đ t
đ

c nh ng k t qu nh t đ nh.
Tr

c h t, em xin đ

c bày t lòng bi t n đ i v i cơ Chu T t Bích

San và thày Ph m Nguy n Anh Huy đã nhi t tình, t n tâm h


ng d n và ch

b o cho em th c hi n đ tài lu n v n t t nghi p này.
Em xin chân thành cám n Khoa Công Ngh Thông Tin, Tr

ng

i

h c Khoa H c T Nhiên Tp HCM đã t o đi u ki n cho em th c hi n đ tài t t
nghi p này.
Em xin chân thành cám n quý thày cô trong Khoa Cơng Ngh Thơng
Tin đã t n tình gi ng d y, truy n đ t cho em nh ng ki n th c quý báu trong
nh ng n m h c v a qua.
Sau cùng, em xin chân thành c m n gia đình, nh ng ng

i thân và b n

bè đã giúp đ , đ ng viên em trong su t th i gian h c t p và làm lu n v n này.
M t l n n a, xin chân thành cám n t t c m i ng

i!

TpHCM, Tháng 7/2005
Sinh viên th c hi n
Nguy n Quang Ph

c



M

U

Trong nh ng n m g n đây, khai thác d li u đã tr thành m t trong
nh ng h

ng nghiên c u l n nh t c a l nh v c khoa h c máy tính và công

ngh tri th c. Khai thác d li u đã và đang ng d ng thành công vào nhi u
l nh v c th
mơi tr

ng m i, tài chính, th tr

ng ch ng khoáng, y h c, thiên v n,

ng, giáo d c, vi n thông và sinh h c..v.v.
Kh i l

ng thông tin đã đ

l nh v c ho t đ ng c a loài ng

c x lý và đã đ

c s n sinh trong t t c các

i đã và đang t ng lên đáng k , chúng đ


c

l u tr trong các c s d li u t p trung hay phân tán. Trong nh ng kho d
li u này n ch a m t kho tàng tri th c quý báu, mu n l y đ
chúng ta ph i có m t cơng c đó là các ph
Khai thác d li u g m nhi u h
áp d ng trong l nh v này ph n l n đ

c kho báu này

ng pháp khai thác d li u.

ng ti p c n. Các k thu t chính đ

c

c k th a t các l nh v c c s d li u,

máy h c (machine learning), trí tu nhân t o (artificial intelligence), lý thuy t
thơng tin (information theory), xác su t th ng kê (probability & statistics),
tính tốn hi u n ng cao (high performance computing), và ph

ng pháp tính

tốn m m (soft computing methodologies). Các bài toán ch y u trong khai
thác d li u là khai thác chu i (text mining), khai thác web (web mining),
khai thác chu i (sequence mining), khai thác lu t k t h p (association rules
mining), lý thuy t t p thô (rough set theory), gom c m (clustering), phân l p
(classification)… Trong đó phân l p là m t trong các n i dung quan tr ng c a
khai thác d li u và đây là m t l nh v c nghiên c u có nhi u tri n v ng v i

nhi u kh n ng ng d ng th c t . Lu n v n này đ
t

c xây d ng d a trên ý

ng cho m t thu t toán gi m thi u s phân l p quá kh p (overfitting) và s

phân l p quá khái quát (overgeneralization) c a th y Ph m Nguy n Anh Huy


(2005). Sau đó, áp d ng thu t tốn này cho bài toán protein folding, đây là
m t bài toán khám phá c u trúc 3D c a protein. C u trúc 3D c a protein đ

c

hình thành t c u t o các chu i amino axit, nó cung c p nh ng manh m i
quan tr ng v các ch c n ng c a t ng protein. Vì v y, bài tốn protein folding
là m t bài toán l n và quan tr ng trong ngành sinh h c. Ph n này s đ

c

trình bày k h n trong n i dung lu n v n.
Lu n v n s bao g m các ph n chính nh sau:
Ch

ng 1: Gi i thi u t ng quan v bài toán phân l p (classification)

và protein folding. Ch
b


c đ

ng này s gi i thi u các khái ni m v phân l p, các

gi i quy t m t bài tốn phân l p và trình bày v n đ

quá

kh p(overfitting) và quá khái quát (overgeneralization) trong bài toán phân
l p.

ng th i gi i thi u bài tốn protein folding.
Ch

ng 2 : Trình bày m t s thu t toán phân l p ph bi n hi n nay

nh cây quy t đ nh (decision trees), m ng Bayesian, m ng neural và thu t
toán Support Vector Machine (SVM).
Ch

ng 3 : Trình bày chi ti t thu t toán phân l p k t h p gi a phân

l p quá kh p v i phân l p quá khái quát c a th y Ph m Nguy n Anh Huy.
Ch
k t qu đ

ng 4 : Áp d ng bài toán phân l p cho Protein folding và đánh giá
c, so sánh k t qu đ t đ

c so v i các thu t toán phân l p khác.



M CL C
DANH SÁCH CÁC B NG ........................................................................................i
DANH SÁCH CÁC HÌNH .......................................................................................iii
CH

NG 1:T NG QUAN BÀI TỐN PHÂN L PVÀ PROTEIN FOLDING ....1

1.1. BÀI TOÁN PHÂN L P (CLASSIFICATION).............................................2
1.1.1. Gi i thi u.............................................................................................2
1.1.2. Các b

c chính đ gi i quy t bài toán phân l p.................................3

1.2. OVERFITTING VÀ OVERGENERALIZATION TRONG BÀI TOÁN
PHÂN L P...................................................................................................6
1.3. PROTEIN FOLDING.....................................................................................7
CH

NG 2: M T S THU T TOÁN PHÂN L P PH BI N.............................9
2.1. CÂY QUY T

NH (DECISION TREES) ...............................................10

2.1.1.

nh ngh a và thu t toán t o cây quy t đ nh.....................................10

2.1.2.


đo Entropy...................................................................................13

2.1.3. Rút trích lu t phân l p t cây quy t đ nh đo Entropy …..................14
2.2. M NG BAYESIAN....................................................................................17
2.2.1. Lý thuy t Bayes.................................................................................17
2.2.2.Thu t toán phân l p Naive Bayes.....................................................18
2.2.3. M ng Bayesian..................................................................................20
2.2.4.H c (hu n luy n) trên m ng Bayesian...............................................22
2.3. M NG NEURAL........................................................................................24
2.3.1. M ng lan truy n ti n đa t ng.............................................................24
2.3.2. Xây d ng c u trúc m ng...................................................................25


2.3.3. Lan truy n ng

c……………….....................................................26

2.4. SUPPORT VECTOR MACHINE (SVM) ..................................................31
2.4.1 Gi i thi u SVM..................................................................................31
2.4.2. RBF Kernel.......................................................................................32
2.4.3. T i u tham s ...................................................................................33
CH

NG 3: THU T TOÁN PHÂN L P I U CH NH S

QUÁ KH P VÀ

QUÁ KHÁI QUÁT...................................................................................................36
3.1. GI I THI U................................................................................................37

3.2. M T S

NH NGH A..............................................................................38

3.2.1 Homogenous Clauses.........................................................................38
3.2.2. M t đ c a m t Homogenous Clause...............................................41
3.3. CHI TI T THU T TỐN..........................................................................41
3.3.1. Thu t tốn chính................................................................................42
3.3.2. Các thu t toán h tr ........................................................................46
3.3.2.1. Thu t toán tìm các Positive Clauses....................................46
3.3.2.2. Thu t tốn tìm các Homogenous Clauses ..........................48
3.3.2.3. Thu t toán m r ng Homogenous Clause...........................50
3.3.2.4. Thu t toán gom các Homogenous Clauses..........................53
CH

NG 4: CÀI

T THU T TOÁN VÀ ÁP D NG CHO BÀI TOÁN

PROTEIN FOLDING..........................................................................55
4.1. CÀI

T THU T TỐN...........................................................................56

4.1.1. Ch

ng trình Demo trên khơng gian hai chi u.................................56

4.1.2. Cài đ t thu t toán trên không gian N chi u.......................................64
4.1.2.1. Chu n b d li u..................................................................64



4.1.2.2. Giao di n và các ch c n ng c a ch
4.2. K T QU

T

ng trình.....................65

C..............................................................................69

4.2.1 Ngu n d li u trên web site
/>4.2.2. Ngu n d li u trên web site
/>4.3. ÁP D NG PHÂN L P CHO BÀI TỐN PROTEIN
FOLDING...................................................................................................74
4.3.1. Bài tốn Protein Folding...................................................................74
4.3.2. Mơ t c s d li u...........................................................................76
4.3.3. K t qu th c hi n..............................................................................80
T NG K T...............................................................................................................85

TÀI LI U THAM KH O.........................................................................................86


DANH SÁCH CÁC HÌNH
Hình 1-1: B

c 1 - H c đ xây d ng mơ hình phân l p........................................4

Hình 1-2: B


c 2 - Ki m tra và đánh giá...............................................................5

Hình 1-3: C u trúc l p hoàn toàn xo n c (all- ) c a protein..............................8
Hình 1-4: C u trúc l p hồn tồn hình s i (all- ) c a protein..............................8
Hình 2-1: Minh h a cây quy t đ nh v i vi c phân l p t bào ung th ................10
Hình 2-2: M t ví d c a m ng Bayesian.............................................................21
Hình 2-3: M ng lan truy n hai t ng.....................................................................25
Hình 2-4: M t neural trong t ng n ho c t ng xu t.............................................28
Hình 2-5: B phân l p quá khít và b phân l p t t h n......................................34
Hình 3-1: Minh h a đ nh ngh a Homogenous Clauses........................................39
Hình 3-2: Vùng A đ

c thay th b ng hai Homogenous Clauses A1 và A2.......40

Hình 3-3: M t t p m u h c hai chi u...................................................................43
Hình 3-4: Các Positive Clauses tìm đ

c

b

Hình 3-5: Các Homogenous Clauses tìm đ
Hình 3-6: Các Homogenous Clauses đ

c 1.............................................43
c

cm

b


c 2.....................................44

r ng

Hình 3-7: M t ví d Positive Clauses v i hai ng

b

c 3............................45

ng kho ng cách....................48

Hình 3-8: Các Homogenous Clauses cho m i Positive Clauses..........................50
Hình 3-9: Các Homogenous Clauses sau khi đ

c m r ng...............................53


Hình 3-10: Minh h a vi c gom các Homogenous Clauses..................................54
Hình 4-1: Giao di n ch

ng trình Demo.............................................................56

Hình 4-2: Giao di n ch

ng trình sau khi nh p d li u.......................................60

Hình 4-3: Giao di n ch


ng trình sau khi tìm các Positive Clauses....................61

Hình 4-4: Giao di n ch

ng trình sau khi tìm các Homogenous Clauses...........62

Hình 4-5: Giao di n ch

ng trình sau khi m r ng Homogenous Clauses.........63

Hình 4-6: Giao di n ch

ng trình phân l p cho d li u N chi u.........................65

Hình 4-7: Giao di n ch

ng trình sau khi đã h c xong t p m u h c...................67

Hình 4-8: Giao di n ch

ng trình sau khi đã ki m tra và đánh giá xong t pm u

th ……………………………………………………………………………….68
Hình 4-9: Bi u đ so sánh k t qu ..…………………………………………….71
Hình 4-10: Các b c c u trúc khác nhau c a phân t protein……………………75
Hình 4-11: Bi u đ so sánh k t qu phân l p c u trúc Protein............................84
B ng 4-12: K t qu phân l p protein c a thu t toán SVM và NN......................84


DANH SÁCH CÁC B NG

B ng 2-: Thu t toán phát sinh cây quy t đ nh......................................................12
B ng 2-2 : B ng ng u nhiên cho m i lu t............................................................15
B ng 2-3 : Thu t gi i lan truy n ng

c...............................................................31

B ng 3-1: Thu t tốn chính..................................................................................42
B ng 3-2: Thu t tốn tìm các Positive Clauses..............................................47
B ng 3-3: Thu t tốn tìm các Homogenous Clauses cho m i Positive Clauses..49
B ng 3-4: Thu t toán m r ng Homogenous Clause C.......................................52
B ng 3-5: Thu t toán gom các Homogenous Clauses.........................................54
B ng 4-1: Ví d m t t p m u hai chi u...............................................................59
B ng 4-2: Mô t các t p d li u trên
website ............................69
B ng

4-3:

K t

qu

phân

l p

các

t p


d

li u

trên

website ............................70
B ng 4-4: K t qu phân l p theo thu t toán SVM c a Cjlin ..............................71
B ng 4-5: K t qu c a quá trình h c và d đoán l p cho t p d li u trên website:
.........................74
B ng 4-6: K t qu phân l p protein vào l p all- ..............................................81
B ng 4-7: K t qu phân l p protein vào l p all- ...............................................81


B ng 4-8: K t qu phân l p protein vào l p

/

..............................................82

B ng 4-9: K t qu phân l p protein vào l p

+

.............................................82

B ng 4-10: K t qu phân l p protein c a thu t toán phân l p đi u ch nh tính quá
kh p và quá khái quát d li u..............................................................................83



T NG QUAN

CH

NG 1:

T NG QUAN
BÀI TOÁN PHÂN L P
VÀ PROTEIN FOLDING

1


T NG QUAN

1.1. BÀI TOÁN PHÂN L P (CLASSIFICATION)

1.1.1. Gi i thi u
Phân l p (classification) là m t ti n trình x lý nh m x p các m u d
li u hay các đ i t

ng vào m t trong các l p đã đ

m u d li u hay các đ i t

ng đ

c đ nh ngh a tr

c x p v các l p d a vào giá tr c a các


thu c tính (attributes) cho m t m u d li u hay đ i t
c các đ i t

ng đã bi t tr

c. Các

c vào các l p t

đ c tr ng b i t p các thu c tính c a các đ i t

ng. Sau khi đã x p t t

ng ng, lúc này m i l p đ

c

ng ch a trong l p đó. Ví d :

phân l p t bào đ xác đ nh t bào ung th , gi s m i t bào có ba thu c tính
c bi u di n t bào(màu s c, đuôi, nhân) và ta đã

là màu s c, đuôi và nhân, đ
x pđ

c ba t bào vào l p “t bào ung th ”, ba t bào này có giá tr thu c

tính nh sau: t bào1(t i, 2, 2), t bào2(t i, 2, 1), t bào3 (t i, 3, 2). Khi xem
xét m t t bào m i có thu c tính (t i, 3, 1) ta có th k t lu n nó b ung th hay

khơng b ng cách xác đ nh m t l p mà t bào này thu c v , n u t bào này
thu c v l p “t bào ung th ” thì t bào này có th b ung th , ng

cl it

bào này có th khơng b ung th .
Phân l p cịn đ

c g i là phân l p có giám sát (supervised

classification), là m t trong nh ng l nh v c ph

bi n nh t c a h c máy

(machine learning) và khai thác d li u (data mining). Nó gi i quy t vi c xác
đ nh nh ng quy t c gi a s l

ng bi n s đ c l p và k t qu đ t đ

bi n s xác đ nh ph thu c trong t p d li u đ

c đ a ra. T ng quát, đ a ra

m t t p m u h c (xi1, xi2, …., xik, yi), i=1,….,N, nhi m v là ph i
đ

c hay m t

cl


ng

c m t b phân l p hay m t mơ hình x p x m t hàm y = f(x) ch a bi t mà

phân l p chính xác cho b t k m u nào thu c t p các m u h c. Có nhi u cách
đ bi u di n m t mơ hình phân l p và có r t nhi u thu t tốn gi i quy t nó.
Các thu t tốn phân l p tiêu bi u bao g m nh m ng neural, cây quy t đ nh,

2


T NG QUAN

suy lu n quy n p, m ng Beyesian, Support Vector Machine…. T t c các
cách ti p c p này xây d ng nh ng mơ hình đ u có kh n ng phân l p cho m t
m u m i ch a bi t d a vào nh ng m u t

ng t đã đ

Bài tốn phân l p có th x lý thơng tin đ
ho t đ ng c a con ng

i và th gi i t nhiên đ

b ng. B ng này bao g m các đ i t

c h c.

c thu th p t m i l nh v c
c bi u di n d


i d ng các

ng và các thu c tính. Các ph n t trong

b ng là các giá tr xác đ nh các thu c tính (attributes hay features) c a các đ i
t

ng. Trong đó s c t chính là s thu c tính c a các đ i t

m t thu c tính và s dịng chính là s đ i t
d li u đ

c bi u di n d

ng, m i c t là

ng ch a trong d li u này. M i

i các d ng khác có th đ

c chuy n thành d ng

b ng nh trên đ th c hi n quá trình phân l p. Bài toán phân l p g m các
b

c nh sau:

1.1.2. Các b


c chính đ gi i quy t bài toán phân l p

Phân l p d li u g m hai b
B

c x lý chính:

c 1: H c (training), m c đích c a b

c này là xây d ng m t mơ

hình xác đ nh m t t p các l p d li u. Mô hình này đ

c xây d ng b ng cách

phân tích các b d li u c a m t c s d li u, m i b d li u đ

c xác đ nh

b i giá tr c a các thu c tính. Gi s m i b d li u đã thu c v m t trong các
l p đã đ

c đ nh ngh a tr

c, đi u này đ

c xác đ nh b i m t trong các thu c

tính, g i là thu c tính phân l p. Trong ng c nh c a bài toán phân l p, m i b
d li u đ


c xem nh là m t m u, m t ví d , hay m t đ i t

d li u đ

c phân tích đ xây d ng mơ hình phân l p đ

ng. Nh ng b

c l y t trong t p

d li u h c hay d li u hu n luy n (training data set). Nh ng b d li u riêng
l t o thành t p d li u hu n luy n còn g i là nh ng m u hu n luy n (training
samples) và đ

c ch n ng u nhiên t m t kho các m u. B

3

c này đ

c xem


T NG QUAN

là h c có giám sát, ng

c l i v i h c có giám sát là h c khơng có giám sát


(unsupervised learing), tiêu bi u là bài tốn gom c m (clustering) trong đó
các l p mà các m u hu n luy n thu c v là không bi t tr
c ng không đ

c bi t tr

Hình 1-1: B
Mơ hình đ
th

c và s l p d li u

c.

c 1 - H c đ xây d ng mơ hình phân l p

c đ a ra sau khi đã phân tích xong t p d li u hu n luy n

ng có d ng là nh ng quy t c phân l p, cây quy t đ nh hay các cơng th c

tốn h c. Ví d , hình 1.1 có m t c s d li u v thơng tin khách hàng, m t
mơ hình phân l p (hay lu t phân l p) đ

c xây d ng sau q trình h c

b

c 1 có th xác đ nh nh ng khách hàng tin c y và nh ng khách hàng bình

th


ng c a m t c a hàng. Lu t phân l p này có th đ

4

c s d ng đ phân


T NG QUAN

lo i các m u d li u li u trong t

ng lai, c ng nh nó cung c p m t tri th c

h u ích ch a trong c s d li u.
c 2 : Ki m tra và đánh giá, b

B
đ

c xây d ng

b

c này s d ng mơ hình phân l p đã

c 1 vào vi c phân l p.

Hình 1-2: B


c 2 - Ki m tra và đánh giá

u tiên, đánh giá đ chính xác c a mơ hình hay b phân l p này, b ng
cách s d ng m t t p các m u đã đ
(test set). Nh ng m u này đ
đ

ch c

b

c phân l p đ th (test) g i là b th

c ch n ng u nhiên và đ c l p v i các m u đã

c 1 g i là m u th (test sample).

chính xác c a m t mơ

hình phân l p d a trên b th là t l nh ng m u th đ

c phân l p đúng

b ng mơ hình phân l p đó. Ngh a là v i m i m u th , so sánh l p đúng mà
m u th đó thu c v v i l p mà mơ hình phân l p này d đốn cho m u th
đó. L u ý, n u đ chính xác c a mơ hình này d a trên t p d li u hu n luy n,

5



T NG QUAN

thì mơ hình này đ
m u đã đ

c đánh giá là t i u, nó phân l p đúng hoàn toàn trên các

c h c, trong tr

ng h p này, mơ hình h

ng t i s q khít

(overfitting) c a d li u. Vì v y ph i s d ng m t b d li u li u th . N u đ
chính xác c a m t mơ hình đ
đó đ

c xem xét có th ch p nh n đ

c dùng đ phân l p cho các b d li u ho c các đ i t

lai. Ví d , mơ hình phân l p đ

c xây d ng trong b

tích d li u c a các khách hàng đã bi t, đ
các khách hàng m i trong t

ng lai


c thì mơ hình
ng trong t

ng

c 1 b ng cách phân

c dùng đ d đoán s “đánh giá”

hình 1-2.

1.2. OVERFITTING VÀ OVERGENERALIZATION TRONG BÀI
TỐN PHÂN L P
Trong nh ng n m g n đây, có r t nhi u thu t toán c i ti n cho bài tốn
phân l p nh ng ch a có m t thu t toán nào hay m t h th ng phân l p nào có
kh n ng phân l p chính xác tuy t đ i cho các m u hay các đ i t
nh ng m u ch a đ
đ

c

c h c).

ng m i (là

chính xác c a các thu t toán phân l p ch đ t

m t m c đ nh t đ nh đ i v i t p m u th .

chính xác này có th


g n nh tuy t đ i hay th p ph thu c vào s trùng h p c a t p m u th v i
t p m u đã đ

c h c. G c c a v n đ này là tính quá kh p (overfitting) và

quá khái quát (overgeneralization) c a các thu t toán phân l p này. M t s
thu t toán đ a ra mơ hình phân l p r t ph c t p đ có th phân l p chính xác
cho các m u h c nh ng không ch c r ng mơ hình này có th phân l p chính
xác cho các m u m i, đây chính là s quá kh p. Rõ h n, thu t toán mang tính
quá kh p d li u ngh a là mơ hình c a thu t tốn này đ a ra phân l p r t t t
cho nh ng m u d li u đã bi t nh ng khơng th phân l p chính xác cho các
m u d li u m i ch a đ

c bi t tr

c. S quá khái quát xu t hi n khi h

th ng s d ng d li u s n có và c g ng phân tích cho s l

6

ng l n d li u


T NG QUAN

v i các lu t quá khái quát. C hai v n đ này có th là nguyên nhân c a đ
chính xác phân l p khơng t t.


ây là l nh v c nghiên c u c a các thu t toán

th ng kê, nh m ng Neural cây quy t đ nh, Support Vector Machine.

1.3. PROTEIN FOLDING
Protein folding là bài tốn tìm ki m c u trúc 3D cho m t protein, c ng
đ

c g i là tr ng thái t nhiên c a nó. M t c u trúc 3D c a m t protein đ

c

t o thành t các chu i axit amin c a nó, m i axit amin là m t h p ch t h u
c . Có 20 lo i axit amin khác nhau, đ
protein đ

c đ t tên là A, C, G, T,… và m t

c xem nh là m t chu i các axit amin (ví d : AGGTC….). Vì

v y, bài tốn protein folding là tìm ra cách mà m t chu i axit amin (c u trúc
1D) này xo n vào tr ng thái t nhiên (c u trúc 3D) c a nó. Bài tốn protein
folding là m t l nh v c nghiên c u r ng t c u trúc 3D c a protein s cung
c p nh ng manh m i quan tr ng v ch c n ng c a m t protein, trong khi
nh ng ch c n ng này không th tìm hi u đ
các ph

c nhanh chóng và d dàng qua

ng pháp th c nghi m .


Trong quá trình tìm ki m c u trúc 3D c a protein ph i d a vào m t
b

c là tìm c u trúc 2D, đây là hình d ng bên trong chu i axit amin con c a

protein, nh ng hình d ng này là m t hình xo n c (g i là -helix) ho c m t
hình s i (g i là -strand). M t protein đ

c phân lo i vào m t trong b n l p

c u trúc, ph thu c vào thành ph n c u trúc ph đó là : hồn tồn xo n c (g i
là all- ), hồn tồn hình s i (g i là all- ),
hình d ng hai l p c u trúc all-

và all- .

7

/ ,

+ . Hình d

i đây minh h a



×