TR
NG
I H C KHOA H C T NHIÊN TPHCM
KHOA CÔNG NGH THÔNG TIN
B MÔN CÔNG NGH TRI TH C
v(w
NGUY N QUANG PH
C - 0112193
NGHIÊN C U THU T TOÁN PHÂN L P
NH PHÂN VÀ NG D NG CHO
BÀI TOÁN PROTEIN FOLDING
LU N V N C
NHÂN TIN H C
GIÁO VIÊN H
NG D N
Ths. CHU T T BÍCH SAN
Niên khóa 2001 - 2005
NH N XÉT C A GIÁO VIÊN H
NG D N
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
Tp HCM, ngày tháng n m 2005
ThS. Chu T t Bích San
NH N XÉT C A GIÁO VIÊN PH N BI N
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
..............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
.............................................................................................................................
Tp HCM, ngày tháng n m 2005
TS. Lê Hoài B c
L i cám n
cd
Sau nhi u tháng nghiên c u và th c hi n, lu n v n đã hoàn t t và đã đ t
đ
c nh ng k t qu nh t đ nh.
Tr
c h t, em xin đ
c bày t lòng bi t n đ i v i cơ Chu T t Bích
San và thày Ph m Nguy n Anh Huy đã nhi t tình, t n tâm h
ng d n và ch
b o cho em th c hi n đ tài lu n v n t t nghi p này.
Em xin chân thành cám n Khoa Công Ngh Thông Tin, Tr
ng
i
h c Khoa H c T Nhiên Tp HCM đã t o đi u ki n cho em th c hi n đ tài t t
nghi p này.
Em xin chân thành cám n quý thày cô trong Khoa Cơng Ngh Thơng
Tin đã t n tình gi ng d y, truy n đ t cho em nh ng ki n th c quý báu trong
nh ng n m h c v a qua.
Sau cùng, em xin chân thành c m n gia đình, nh ng ng
i thân và b n
bè đã giúp đ , đ ng viên em trong su t th i gian h c t p và làm lu n v n này.
M t l n n a, xin chân thành cám n t t c m i ng
i!
TpHCM, Tháng 7/2005
Sinh viên th c hi n
Nguy n Quang Ph
c
M
U
Trong nh ng n m g n đây, khai thác d li u đã tr thành m t trong
nh ng h
ng nghiên c u l n nh t c a l nh v c khoa h c máy tính và công
ngh tri th c. Khai thác d li u đã và đang ng d ng thành công vào nhi u
l nh v c th
mơi tr
ng m i, tài chính, th tr
ng ch ng khoáng, y h c, thiên v n,
ng, giáo d c, vi n thông và sinh h c..v.v.
Kh i l
ng thông tin đã đ
l nh v c ho t đ ng c a loài ng
c x lý và đã đ
c s n sinh trong t t c các
i đã và đang t ng lên đáng k , chúng đ
c
l u tr trong các c s d li u t p trung hay phân tán. Trong nh ng kho d
li u này n ch a m t kho tàng tri th c quý báu, mu n l y đ
chúng ta ph i có m t cơng c đó là các ph
Khai thác d li u g m nhi u h
áp d ng trong l nh v này ph n l n đ
c kho báu này
ng pháp khai thác d li u.
ng ti p c n. Các k thu t chính đ
c
c k th a t các l nh v c c s d li u,
máy h c (machine learning), trí tu nhân t o (artificial intelligence), lý thuy t
thơng tin (information theory), xác su t th ng kê (probability & statistics),
tính tốn hi u n ng cao (high performance computing), và ph
ng pháp tính
tốn m m (soft computing methodologies). Các bài toán ch y u trong khai
thác d li u là khai thác chu i (text mining), khai thác web (web mining),
khai thác chu i (sequence mining), khai thác lu t k t h p (association rules
mining), lý thuy t t p thô (rough set theory), gom c m (clustering), phân l p
(classification)… Trong đó phân l p là m t trong các n i dung quan tr ng c a
khai thác d li u và đây là m t l nh v c nghiên c u có nhi u tri n v ng v i
nhi u kh n ng ng d ng th c t . Lu n v n này đ
t
c xây d ng d a trên ý
ng cho m t thu t toán gi m thi u s phân l p quá kh p (overfitting) và s
phân l p quá khái quát (overgeneralization) c a th y Ph m Nguy n Anh Huy
(2005). Sau đó, áp d ng thu t tốn này cho bài toán protein folding, đây là
m t bài toán khám phá c u trúc 3D c a protein. C u trúc 3D c a protein đ
c
hình thành t c u t o các chu i amino axit, nó cung c p nh ng manh m i
quan tr ng v các ch c n ng c a t ng protein. Vì v y, bài tốn protein folding
là m t bài toán l n và quan tr ng trong ngành sinh h c. Ph n này s đ
c
trình bày k h n trong n i dung lu n v n.
Lu n v n s bao g m các ph n chính nh sau:
Ch
ng 1: Gi i thi u t ng quan v bài toán phân l p (classification)
và protein folding. Ch
b
c đ
ng này s gi i thi u các khái ni m v phân l p, các
gi i quy t m t bài tốn phân l p và trình bày v n đ
quá
kh p(overfitting) và quá khái quát (overgeneralization) trong bài toán phân
l p.
ng th i gi i thi u bài tốn protein folding.
Ch
ng 2 : Trình bày m t s thu t toán phân l p ph bi n hi n nay
nh cây quy t đ nh (decision trees), m ng Bayesian, m ng neural và thu t
toán Support Vector Machine (SVM).
Ch
ng 3 : Trình bày chi ti t thu t toán phân l p k t h p gi a phân
l p quá kh p v i phân l p quá khái quát c a th y Ph m Nguy n Anh Huy.
Ch
k t qu đ
ng 4 : Áp d ng bài toán phân l p cho Protein folding và đánh giá
c, so sánh k t qu đ t đ
c so v i các thu t toán phân l p khác.
M CL C
DANH SÁCH CÁC B NG ........................................................................................i
DANH SÁCH CÁC HÌNH .......................................................................................iii
CH
NG 1:T NG QUAN BÀI TỐN PHÂN L PVÀ PROTEIN FOLDING ....1
1.1. BÀI TOÁN PHÂN L P (CLASSIFICATION).............................................2
1.1.1. Gi i thi u.............................................................................................2
1.1.2. Các b
c chính đ gi i quy t bài toán phân l p.................................3
1.2. OVERFITTING VÀ OVERGENERALIZATION TRONG BÀI TOÁN
PHÂN L P...................................................................................................6
1.3. PROTEIN FOLDING.....................................................................................7
CH
NG 2: M T S THU T TOÁN PHÂN L P PH BI N.............................9
2.1. CÂY QUY T
NH (DECISION TREES) ...............................................10
2.1.1.
nh ngh a và thu t toán t o cây quy t đ nh.....................................10
2.1.2.
đo Entropy...................................................................................13
2.1.3. Rút trích lu t phân l p t cây quy t đ nh đo Entropy …..................14
2.2. M NG BAYESIAN....................................................................................17
2.2.1. Lý thuy t Bayes.................................................................................17
2.2.2.Thu t toán phân l p Naive Bayes.....................................................18
2.2.3. M ng Bayesian..................................................................................20
2.2.4.H c (hu n luy n) trên m ng Bayesian...............................................22
2.3. M NG NEURAL........................................................................................24
2.3.1. M ng lan truy n ti n đa t ng.............................................................24
2.3.2. Xây d ng c u trúc m ng...................................................................25
2.3.3. Lan truy n ng
c……………….....................................................26
2.4. SUPPORT VECTOR MACHINE (SVM) ..................................................31
2.4.1 Gi i thi u SVM..................................................................................31
2.4.2. RBF Kernel.......................................................................................32
2.4.3. T i u tham s ...................................................................................33
CH
NG 3: THU T TOÁN PHÂN L P I U CH NH S
QUÁ KH P VÀ
QUÁ KHÁI QUÁT...................................................................................................36
3.1. GI I THI U................................................................................................37
3.2. M T S
NH NGH A..............................................................................38
3.2.1 Homogenous Clauses.........................................................................38
3.2.2. M t đ c a m t Homogenous Clause...............................................41
3.3. CHI TI T THU T TỐN..........................................................................41
3.3.1. Thu t tốn chính................................................................................42
3.3.2. Các thu t toán h tr ........................................................................46
3.3.2.1. Thu t toán tìm các Positive Clauses....................................46
3.3.2.2. Thu t tốn tìm các Homogenous Clauses ..........................48
3.3.2.3. Thu t toán m r ng Homogenous Clause...........................50
3.3.2.4. Thu t toán gom các Homogenous Clauses..........................53
CH
NG 4: CÀI
T THU T TOÁN VÀ ÁP D NG CHO BÀI TOÁN
PROTEIN FOLDING..........................................................................55
4.1. CÀI
T THU T TỐN...........................................................................56
4.1.1. Ch
ng trình Demo trên khơng gian hai chi u.................................56
4.1.2. Cài đ t thu t toán trên không gian N chi u.......................................64
4.1.2.1. Chu n b d li u..................................................................64
4.1.2.2. Giao di n và các ch c n ng c a ch
4.2. K T QU
T
ng trình.....................65
C..............................................................................69
4.2.1 Ngu n d li u trên web site
/>4.2.2. Ngu n d li u trên web site
/>4.3. ÁP D NG PHÂN L P CHO BÀI TỐN PROTEIN
FOLDING...................................................................................................74
4.3.1. Bài tốn Protein Folding...................................................................74
4.3.2. Mơ t c s d li u...........................................................................76
4.3.3. K t qu th c hi n..............................................................................80
T NG K T...............................................................................................................85
TÀI LI U THAM KH O.........................................................................................86
DANH SÁCH CÁC HÌNH
Hình 1-1: B
c 1 - H c đ xây d ng mơ hình phân l p........................................4
Hình 1-2: B
c 2 - Ki m tra và đánh giá...............................................................5
Hình 1-3: C u trúc l p hoàn toàn xo n c (all- ) c a protein..............................8
Hình 1-4: C u trúc l p hồn tồn hình s i (all- ) c a protein..............................8
Hình 2-1: Minh h a cây quy t đ nh v i vi c phân l p t bào ung th ................10
Hình 2-2: M t ví d c a m ng Bayesian.............................................................21
Hình 2-3: M ng lan truy n hai t ng.....................................................................25
Hình 2-4: M t neural trong t ng n ho c t ng xu t.............................................28
Hình 2-5: B phân l p quá khít và b phân l p t t h n......................................34
Hình 3-1: Minh h a đ nh ngh a Homogenous Clauses........................................39
Hình 3-2: Vùng A đ
c thay th b ng hai Homogenous Clauses A1 và A2.......40
Hình 3-3: M t t p m u h c hai chi u...................................................................43
Hình 3-4: Các Positive Clauses tìm đ
c
b
Hình 3-5: Các Homogenous Clauses tìm đ
Hình 3-6: Các Homogenous Clauses đ
c 1.............................................43
c
cm
b
c 2.....................................44
r ng
Hình 3-7: M t ví d Positive Clauses v i hai ng
b
c 3............................45
ng kho ng cách....................48
Hình 3-8: Các Homogenous Clauses cho m i Positive Clauses..........................50
Hình 3-9: Các Homogenous Clauses sau khi đ
c m r ng...............................53
Hình 3-10: Minh h a vi c gom các Homogenous Clauses..................................54
Hình 4-1: Giao di n ch
ng trình Demo.............................................................56
Hình 4-2: Giao di n ch
ng trình sau khi nh p d li u.......................................60
Hình 4-3: Giao di n ch
ng trình sau khi tìm các Positive Clauses....................61
Hình 4-4: Giao di n ch
ng trình sau khi tìm các Homogenous Clauses...........62
Hình 4-5: Giao di n ch
ng trình sau khi m r ng Homogenous Clauses.........63
Hình 4-6: Giao di n ch
ng trình phân l p cho d li u N chi u.........................65
Hình 4-7: Giao di n ch
ng trình sau khi đã h c xong t p m u h c...................67
Hình 4-8: Giao di n ch
ng trình sau khi đã ki m tra và đánh giá xong t pm u
th ……………………………………………………………………………….68
Hình 4-9: Bi u đ so sánh k t qu ..…………………………………………….71
Hình 4-10: Các b c c u trúc khác nhau c a phân t protein……………………75
Hình 4-11: Bi u đ so sánh k t qu phân l p c u trúc Protein............................84
B ng 4-12: K t qu phân l p protein c a thu t toán SVM và NN......................84
DANH SÁCH CÁC B NG
B ng 2-: Thu t toán phát sinh cây quy t đ nh......................................................12
B ng 2-2 : B ng ng u nhiên cho m i lu t............................................................15
B ng 2-3 : Thu t gi i lan truy n ng
c...............................................................31
B ng 3-1: Thu t tốn chính..................................................................................42
B ng 3-2: Thu t tốn tìm các Positive Clauses..............................................47
B ng 3-3: Thu t tốn tìm các Homogenous Clauses cho m i Positive Clauses..49
B ng 3-4: Thu t toán m r ng Homogenous Clause C.......................................52
B ng 3-5: Thu t toán gom các Homogenous Clauses.........................................54
B ng 4-1: Ví d m t t p m u hai chi u...............................................................59
B ng 4-2: Mô t các t p d li u trên
website ............................69
B ng
4-3:
K t
qu
phân
l p
các
t p
d
li u
trên
website ............................70
B ng 4-4: K t qu phân l p theo thu t toán SVM c a Cjlin ..............................71
B ng 4-5: K t qu c a quá trình h c và d đoán l p cho t p d li u trên website:
.........................74
B ng 4-6: K t qu phân l p protein vào l p all- ..............................................81
B ng 4-7: K t qu phân l p protein vào l p all- ...............................................81
B ng 4-8: K t qu phân l p protein vào l p
/
..............................................82
B ng 4-9: K t qu phân l p protein vào l p
+
.............................................82
B ng 4-10: K t qu phân l p protein c a thu t toán phân l p đi u ch nh tính quá
kh p và quá khái quát d li u..............................................................................83
T NG QUAN
CH
NG 1:
T NG QUAN
BÀI TOÁN PHÂN L P
VÀ PROTEIN FOLDING
1
T NG QUAN
1.1. BÀI TOÁN PHÂN L P (CLASSIFICATION)
1.1.1. Gi i thi u
Phân l p (classification) là m t ti n trình x lý nh m x p các m u d
li u hay các đ i t
ng vào m t trong các l p đã đ
m u d li u hay các đ i t
ng đ
c đ nh ngh a tr
c x p v các l p d a vào giá tr c a các
thu c tính (attributes) cho m t m u d li u hay đ i t
c các đ i t
ng đã bi t tr
c. Các
c vào các l p t
đ c tr ng b i t p các thu c tính c a các đ i t
ng. Sau khi đã x p t t
ng ng, lúc này m i l p đ
c
ng ch a trong l p đó. Ví d :
phân l p t bào đ xác đ nh t bào ung th , gi s m i t bào có ba thu c tính
c bi u di n t bào(màu s c, đuôi, nhân) và ta đã
là màu s c, đuôi và nhân, đ
x pđ
c ba t bào vào l p “t bào ung th ”, ba t bào này có giá tr thu c
tính nh sau: t bào1(t i, 2, 2), t bào2(t i, 2, 1), t bào3 (t i, 3, 2). Khi xem
xét m t t bào m i có thu c tính (t i, 3, 1) ta có th k t lu n nó b ung th hay
khơng b ng cách xác đ nh m t l p mà t bào này thu c v , n u t bào này
thu c v l p “t bào ung th ” thì t bào này có th b ung th , ng
cl it
bào này có th khơng b ung th .
Phân l p cịn đ
c g i là phân l p có giám sát (supervised
classification), là m t trong nh ng l nh v c ph
bi n nh t c a h c máy
(machine learning) và khai thác d li u (data mining). Nó gi i quy t vi c xác
đ nh nh ng quy t c gi a s l
ng bi n s đ c l p và k t qu đ t đ
bi n s xác đ nh ph thu c trong t p d li u đ
c đ a ra. T ng quát, đ a ra
m t t p m u h c (xi1, xi2, …., xik, yi), i=1,….,N, nhi m v là ph i
đ
c hay m t
cl
ng
c m t b phân l p hay m t mơ hình x p x m t hàm y = f(x) ch a bi t mà
phân l p chính xác cho b t k m u nào thu c t p các m u h c. Có nhi u cách
đ bi u di n m t mơ hình phân l p và có r t nhi u thu t tốn gi i quy t nó.
Các thu t tốn phân l p tiêu bi u bao g m nh m ng neural, cây quy t đ nh,
2
T NG QUAN
suy lu n quy n p, m ng Beyesian, Support Vector Machine…. T t c các
cách ti p c p này xây d ng nh ng mơ hình đ u có kh n ng phân l p cho m t
m u m i ch a bi t d a vào nh ng m u t
ng t đã đ
Bài tốn phân l p có th x lý thơng tin đ
ho t đ ng c a con ng
i và th gi i t nhiên đ
b ng. B ng này bao g m các đ i t
c h c.
c thu th p t m i l nh v c
c bi u di n d
i d ng các
ng và các thu c tính. Các ph n t trong
b ng là các giá tr xác đ nh các thu c tính (attributes hay features) c a các đ i
t
ng. Trong đó s c t chính là s thu c tính c a các đ i t
m t thu c tính và s dịng chính là s đ i t
d li u đ
c bi u di n d
ng, m i c t là
ng ch a trong d li u này. M i
i các d ng khác có th đ
c chuy n thành d ng
b ng nh trên đ th c hi n quá trình phân l p. Bài toán phân l p g m các
b
c nh sau:
1.1.2. Các b
c chính đ gi i quy t bài toán phân l p
Phân l p d li u g m hai b
B
c x lý chính:
c 1: H c (training), m c đích c a b
c này là xây d ng m t mơ
hình xác đ nh m t t p các l p d li u. Mô hình này đ
c xây d ng b ng cách
phân tích các b d li u c a m t c s d li u, m i b d li u đ
c xác đ nh
b i giá tr c a các thu c tính. Gi s m i b d li u đã thu c v m t trong các
l p đã đ
c đ nh ngh a tr
c, đi u này đ
c xác đ nh b i m t trong các thu c
tính, g i là thu c tính phân l p. Trong ng c nh c a bài toán phân l p, m i b
d li u đ
c xem nh là m t m u, m t ví d , hay m t đ i t
d li u đ
c phân tích đ xây d ng mơ hình phân l p đ
ng. Nh ng b
c l y t trong t p
d li u h c hay d li u hu n luy n (training data set). Nh ng b d li u riêng
l t o thành t p d li u hu n luy n còn g i là nh ng m u hu n luy n (training
samples) và đ
c ch n ng u nhiên t m t kho các m u. B
3
c này đ
c xem
T NG QUAN
là h c có giám sát, ng
c l i v i h c có giám sát là h c khơng có giám sát
(unsupervised learing), tiêu bi u là bài tốn gom c m (clustering) trong đó
các l p mà các m u hu n luy n thu c v là không bi t tr
c ng không đ
c bi t tr
Hình 1-1: B
Mơ hình đ
th
c và s l p d li u
c.
c 1 - H c đ xây d ng mơ hình phân l p
c đ a ra sau khi đã phân tích xong t p d li u hu n luy n
ng có d ng là nh ng quy t c phân l p, cây quy t đ nh hay các cơng th c
tốn h c. Ví d , hình 1.1 có m t c s d li u v thơng tin khách hàng, m t
mơ hình phân l p (hay lu t phân l p) đ
c xây d ng sau q trình h c
b
c 1 có th xác đ nh nh ng khách hàng tin c y và nh ng khách hàng bình
th
ng c a m t c a hàng. Lu t phân l p này có th đ
4
c s d ng đ phân
T NG QUAN
lo i các m u d li u li u trong t
ng lai, c ng nh nó cung c p m t tri th c
h u ích ch a trong c s d li u.
c 2 : Ki m tra và đánh giá, b
B
đ
c xây d ng
b
c này s d ng mơ hình phân l p đã
c 1 vào vi c phân l p.
Hình 1-2: B
c 2 - Ki m tra và đánh giá
u tiên, đánh giá đ chính xác c a mơ hình hay b phân l p này, b ng
cách s d ng m t t p các m u đã đ
(test set). Nh ng m u này đ
đ
ch c
b
c phân l p đ th (test) g i là b th
c ch n ng u nhiên và đ c l p v i các m u đã
c 1 g i là m u th (test sample).
chính xác c a m t mơ
hình phân l p d a trên b th là t l nh ng m u th đ
c phân l p đúng
b ng mơ hình phân l p đó. Ngh a là v i m i m u th , so sánh l p đúng mà
m u th đó thu c v v i l p mà mơ hình phân l p này d đốn cho m u th
đó. L u ý, n u đ chính xác c a mơ hình này d a trên t p d li u hu n luy n,
5
T NG QUAN
thì mơ hình này đ
m u đã đ
c đánh giá là t i u, nó phân l p đúng hoàn toàn trên các
c h c, trong tr
ng h p này, mơ hình h
ng t i s q khít
(overfitting) c a d li u. Vì v y ph i s d ng m t b d li u li u th . N u đ
chính xác c a m t mơ hình đ
đó đ
c xem xét có th ch p nh n đ
c dùng đ phân l p cho các b d li u ho c các đ i t
lai. Ví d , mơ hình phân l p đ
c xây d ng trong b
tích d li u c a các khách hàng đã bi t, đ
các khách hàng m i trong t
ng lai
c thì mơ hình
ng trong t
ng
c 1 b ng cách phân
c dùng đ d đoán s “đánh giá”
hình 1-2.
1.2. OVERFITTING VÀ OVERGENERALIZATION TRONG BÀI
TỐN PHÂN L P
Trong nh ng n m g n đây, có r t nhi u thu t toán c i ti n cho bài tốn
phân l p nh ng ch a có m t thu t toán nào hay m t h th ng phân l p nào có
kh n ng phân l p chính xác tuy t đ i cho các m u hay các đ i t
nh ng m u ch a đ
đ
c
c h c).
ng m i (là
chính xác c a các thu t toán phân l p ch đ t
m t m c đ nh t đ nh đ i v i t p m u th .
chính xác này có th
g n nh tuy t đ i hay th p ph thu c vào s trùng h p c a t p m u th v i
t p m u đã đ
c h c. G c c a v n đ này là tính quá kh p (overfitting) và
quá khái quát (overgeneralization) c a các thu t toán phân l p này. M t s
thu t toán đ a ra mơ hình phân l p r t ph c t p đ có th phân l p chính xác
cho các m u h c nh ng không ch c r ng mơ hình này có th phân l p chính
xác cho các m u m i, đây chính là s quá kh p. Rõ h n, thu t toán mang tính
quá kh p d li u ngh a là mơ hình c a thu t tốn này đ a ra phân l p r t t t
cho nh ng m u d li u đã bi t nh ng khơng th phân l p chính xác cho các
m u d li u m i ch a đ
c bi t tr
c. S quá khái quát xu t hi n khi h
th ng s d ng d li u s n có và c g ng phân tích cho s l
6
ng l n d li u
T NG QUAN
v i các lu t quá khái quát. C hai v n đ này có th là nguyên nhân c a đ
chính xác phân l p khơng t t.
ây là l nh v c nghiên c u c a các thu t toán
th ng kê, nh m ng Neural cây quy t đ nh, Support Vector Machine.
1.3. PROTEIN FOLDING
Protein folding là bài tốn tìm ki m c u trúc 3D cho m t protein, c ng
đ
c g i là tr ng thái t nhiên c a nó. M t c u trúc 3D c a m t protein đ
c
t o thành t các chu i axit amin c a nó, m i axit amin là m t h p ch t h u
c . Có 20 lo i axit amin khác nhau, đ
protein đ
c đ t tên là A, C, G, T,… và m t
c xem nh là m t chu i các axit amin (ví d : AGGTC….). Vì
v y, bài tốn protein folding là tìm ra cách mà m t chu i axit amin (c u trúc
1D) này xo n vào tr ng thái t nhiên (c u trúc 3D) c a nó. Bài tốn protein
folding là m t l nh v c nghiên c u r ng t c u trúc 3D c a protein s cung
c p nh ng manh m i quan tr ng v ch c n ng c a m t protein, trong khi
nh ng ch c n ng này không th tìm hi u đ
các ph
c nhanh chóng và d dàng qua
ng pháp th c nghi m .
Trong quá trình tìm ki m c u trúc 3D c a protein ph i d a vào m t
b
c là tìm c u trúc 2D, đây là hình d ng bên trong chu i axit amin con c a
protein, nh ng hình d ng này là m t hình xo n c (g i là -helix) ho c m t
hình s i (g i là -strand). M t protein đ
c phân lo i vào m t trong b n l p
c u trúc, ph thu c vào thành ph n c u trúc ph đó là : hồn tồn xo n c (g i
là all- ), hồn tồn hình s i (g i là all- ),
hình d ng hai l p c u trúc all-
và all- .
7
/ ,
+ . Hình d
i đây minh h a