Tải bản đầy đủ (.pdf) (43 trang)

Tin sinh học dự đoán cấu trúc protein

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.25 MB, 43 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KĨ THUẬT HÓA HỌC
BỘ MÔN CÔNG NGHỆ SINH HỌC






ĐỒ ÁN MÔN HỌC
TIN SINH HỌC – DỰ ĐOÁN CẤU TRÚC PROTEIN


SVTH: Phạm Hà Huy
GVHD: TS. Huỳnh Ngọc Oanh
MSSV: 60700959





Tp. Hồ Chí Minh, Tháng 6 / 2011

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN























NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN























MỤC LỤC
DANH MỤC HÌNH vi
DANH MỤC BẢNG vii
DANH MỤC VIẾT TẮT viii
CHƯƠNG 1. MỞ ĐẦU 1
CHƯƠNG 2. TỔNG QUAN VỀ DỰ ĐOÁN CẤU TRÚC PROTEIN 2
2.1. TẦM QUAN TRỌNG CỦA VIỆC DỰ ĐOÁN CẤU TRÚC 2
2.1.1. Cấu trúc protein: 2
2.1.2. Chức năng của protein 3
2.1.3. Ảnh hưởng của cấu trúc đến chức năng protein 4
2.2. CÁC CƠ SỞ CHO VIỆC DỰ ĐOÁN CẤU TRÚC 5
CHƯƠNG 3. CÁC PHƯƠNG PHÁP DỰ ĐOÁN CẤU TRÚC PROTEIN 7
3.1. AB INITIO 7
3.2. PROTEIN THREADING 7
3.3. HOMOLOGY MODELING [9]: 8
3.3.1. Quy trình thực hiện 8
3.3.2. Một số công cụ hỗ trợ của phầm mềm máy tính tiêu biểu 13
3.4. SO SÁNH CÁC PHƯƠNG PHÁP DỰ ĐOÁN CẤU TRÚC 15
3.5. ĐÁNH GIÁ CHẤT LƯỢNG MÔ HÌNH : 17
3.5.1. Tính chính xác về hoá học lập thể 17
3.5.2. Độ tin cậy của Fold : 20

3.5.3. Công cụ hỗ trợ PROCHECK 23
CHƯƠNG 4. MỘT VÍ DỤ VỀ DỰ ĐOÁN CẤU TRÚC PROTEIN 25
4.1. TÌM TRÌNH TỰ TƯƠNG ĐỒNG 25
4.2. SẮP GIÓNG CỘT : 28
4.3. XÂY DỰNG MÔ HÌNH CẤU TRÚC : 30
4.4. KIỂM TRA CẤU TRÚC: 32
CHƯƠNG 5. KẾT LUẬN VÀ KIẾN NGHỊ 33
5.1. Kết luận: 33
5.2. Kiến Nghị 33
CHƯƠNG 6. TÀI LIỆU THAM KHẢO 34














DANH MỤC HÌNH

Hinh 1. Các loại cấu trúc 3D của Protein 3
Hinh 2. Cấu trúc 3D của một số Protein tiêu biểu 3
Hinh 3. Biểu đồ xác định mã di truyền 6
Hinh 4. Quy trình dự đoán cấu trúc protein bằng phương pháp mô hình hoá tương

đồng 10
Hinh 5. Ký hiệu các góc xoắn của khung sườn trong cấu trúc protein 19
Hinh 6. Cấu trúc mắt người 25
Hinh 7. Website BLAST 26
Hinh 8. Giao diện tìm kiếm trình tự tương đồng 26
Hinh 9. Kết quả tìm kiếm trình tự tương đồng được biệu thị bằng màu sắc 27
Hinh 10. Kết quả tìm kiếm trình tự tương đồng 27
Hinh 11. Giao diện website CLUSTALW 2 28
Hinh 12. Những bước cần thiết để thực hiện sắp gióng cột 29
Hinh 13. Kết quả sau khi sử dụng CLUSTALW 2 30
Hinh 14. Giao diện website SWISS-MODEL 31
Hinh 15. Giao diện khai báo SWISS-MODEL 31
Hinh 16. Mô hình kết quả 32






DANH MỤC BẢNG

Bảng 1. Tóm lược và so sánh 3 nhóm phương pháp dùng trong dự đoán cấu
trúc protein 23
Bảng 1. Tóm tắt giá trị trung bình của các tham số hóa học lập thể 25














DANH MỤC VIẾT TẮT

3D 3 Dimentional
BLAST Basic Local Aligment Search Tool
PDB Protein Data Bank
DOPE-score Discrete Optimized Protein Energy score
ID Identification number
NCBI National Center for Biotechnology Information
CSDL Cơ Sở Dữ Liệu
PSI-BLAST position-specific iterative BLAST















Đồ án - Dự đoán cấu trúc protein

1


CHƯƠNG 1. MỞ ĐẦU
Ngày nay, Công nghệ sinh học được xác định là một nghành khoa học kỹ thuật
mang tính chiến lược ở nhiều quốc gia tiến bộ trên thế giới. Trong đó, công nghệ gen và
kỹ thuật di truyền được xem là lĩnh vực nghiên cứu trọng điểm. Mà đối tượng nghiên cứu
chủ yếu của công nghệ gen và kỹ thuật di truyền là những đại phân tử sinh học (DNA,
RNA, protein). Khi làm việc trên các đối tượng này, một trong những yếu tố quan trong
quyết định sự thành công là việc con người phải nắm được hình dạng thực tế cấu trúc
trong không gian của chúng.
Watson và Crick đã ghi tên mình vào lịch sử nhân loại khi là 2 người đầu tiên tìm
ra cấu trúc DNA người. Từ công trình nghiên cứu này chúng ta đã có thể giải đáp cho
hàng trăm câu hỏi về di truyền ở người. Protein cũng là đối tượng nghiên cứu quan trọng
của Công nghệ gen và có nhiều ứng dụng trực tiếp đến đời sống cũng như sản xuất. Do
đó yêu cầu đặt ra là cần phải tìm hiểu được cấu trúc không gian của chúng nhằm hiểu rõ
được quá trình hoạt động của các protein.
Trước đây, Để tìm hiểu cấu trúc không gian của một protein các nhà khoa học phải
mất rất nhiều thời gian ( có khi đến hàng năm trời ) để thực hiện phương pháp X-ray và
NMR. Ngược lại để biết trình tự amino acid của một protein thì rất nhanh. Theo thống kê
đến tháng 8 năm 2008, có hơn 52.500 protein đã được xác định cấu trúc không gian,
trong khi đó có đến hơn 6 triệu protein đã được xác định trình tự amino acid.[1]
Ngày nay, nhờ sự tiến bộ của kỹ thuật máy tính chúng ta đã có thể sử dụng những
chương trình máy tính để so sánh sự giống nhau giữa trình tự amino acid của protein mục
tiêu với những protein đã biết cấu trúc không gian , từ đó dự đoán được cấu trúc của
protein mục tiêu. Đây là một hướng nghiên cứu quan trọng của lĩnh vực tin sinh hoc và
có nhiều ứng dụng được trong thực tiễn .Đã có rất nhiều nghiên cứu về đề tài này trên thế

giới và đạt được nhiều thành quả nhất định.
Trong phạm vi đồ án chuyên nghành, em chỉ xin trình bày một số kiến thức tổng
quan để có thể có cái nhìn khái quát và đầy đủ nhất về hướng nghiên cứu này


Đồ án - Dự đoán cấu trúc protein

2


CHƯƠNG 2. TỔNG QUAN VỀ DỰ ĐOÁN CẤU TRÚC
PROTEIN

2.1. TẦM QUAN TRỌNG CỦA VIỆC DỰ ĐOÁN CẤU TRÚC
2.1.1. Cấu trúc protein:
Protein là một hợp chất đại phân tử được tạo thành từ rất nhiều các đơn phân là
các axit amin. Axit amin được cấu tạo bởi ba thành phần: một là nhóm amin (-NH
2
), hai
là nhóm cacboxyl (-COOH) và cuối cùng là nguyên tử cacbon trung tâm đính với một
nguyên tử hyđro và nhóm biến đổi R quyết định tính chất của axit amin.Người ta phân ra
có bốn loại protein theo cấu trúc:
� Cấu trúc bậc một: Cấu trúc bậc một (primary structure) của phân tử
protein được biểu hiện là số lượng của các mạch polypeptide, số lượng và trình tự của các
axit amin trên mỗi mạch.Vì vậy cấu trúc bậc một của các protein khác nhau có sự dao
động lớn, nên cá loại protein có được là một con số khổng lồ.
� Cấu trúc bậc hai (xoắn alpha và beta): Các protein không chỉ là một
chuỗi thẳng các axit amin nối lại với nhau, mà chúng còn cuộn lại trong một cấu trúc
không gian phức tạp. Chính điều này đóng vai trò chủ yếu trong xác định các tính chất
sinh học đặc trưng cho từng loại protein. Đặc tính không gian ba chiều này là hệ quả của

sự tương tác giữa các peptide trong protein. Vào năm 1951, L.Pauling và B.Corey cho
thấy các liên kết hydro bên trong phân tử tạo nên và ổn định cấu trúc xoắn alpha.Cấu trúc
xoắn alpha có dạng đơn giản nhất ở một số protein sợi (fibrous protein). Một cách sắp
xếp khác của mạch polypeptide tạo nên kiểu cấu trúc bậc hai khác gọi là cấu trúc beta,
thường được gọi là các phiến xếp (pleated sheet). Nhờ sự sắp xếp như vậy nên protein
dẻo, chắc, lại chịu sức căng như các loại protein của tơ lụa, mạng nhện, lông vũ …
� Cấu trúc bậc ba: Các protein khối cuộn (globular protein) có cấu trúc
không gian phức tạp hơn nhiều so với protein sợi, các mạch polypeptide của chúng cuộn
lại phức tạp có dạng cuộn hay khối cầu , nhờ các nhóm gốc bên R tích điện hay phân cực.
Các protein cuộn gồm các enzym, các hormon protein, các kháng thể và phần lớn các
protein của máu.
� Cấu trúc bậc bốn: Khi một protein khối cuộn gồm hai hay nhiều hơn các
mạch polypeptide độc lập gắn lại với nhau, thường nhờ liên kết yếu, sẽ có cấu trúc bậc
bốn.
Đồ án - Dự đoán cấu trúc protein

3



Hinh 1. Các loại cấu trúc 3D của protein

Hinh 2. Cấu trúc 3D của một số protein tiêu biểu
2.1.2. Chức năng của protein
Các protein có chức năng rất đa dạng. Chúng thực hiện hầu hết các chức năng căn
bản của chất sống như: chất xúc tác các phản ứng sinh học, phân tử cấu trúc của tế bào,
Đồ án - Dự đoán cấu trúc protein

4



tham gia vào sự vận động, dự trữ và vận chuyển thức ăn, các chất điều hòa và bảo vệ tế
bào. Phân loại protein dựa theo chức năng:
� Các chất xúc tác:
Các enzyme là nhóm protein lớn nhất và quan trọn nhất. Có hàng nghìn enzym và
mỗi cái xúc tác một kiểu phản ứng sinh hóa nhất định. Các enzyme thường có cấu trúc
không gian hình khối cuộn và có trung tâm hoạt tính.
� Các protein cấu trúc:
Là nhóm protein thứ hai. Cấu tạo nên da, lông vũ, móng, guốc động vật. Thường
là protein có cấu trúc xoắn alpha hay beta.
� Các protein vận chuyển:
Hemoglobine của máu vận chuyển O
2
cho cơ thể
Myoglobine – protein vận chuyển O
2
cho cơ thể
Albumin – huyết tương
Thường có cấu trúc bậc bốn, do nhiều tiểu đơn vị tạo thành. Ví dụ như
Hemoglobin được tạo thành từ bốn tiểu đơn vị: alpha 1, beta 1, alpha 2 và beta 2. Các
tiểu đơn vị được sắp xếp đối xứng.
� Các protein vận động :
Myosin và Actine : protein của cơ.
Dineine: protein của chiên mao
Các protein tham gia vào sự co cơ để vận động.
� Các protein bảo vệ:
Các kháng thể là các protein bảo vệ cơ thể
Fibrinogen là chất có thể thành Fibrine làm đông máu
Trombine là protein làm đông máu
� Các chất có hoạt tính sinh học

Các Hormon protein như insulin, hormon tăng trưởng, điều hòa hoạt động trao đổi
chất

2.1.3. Ảnh hưởng của cấu trúc đến chức năng protein
Protein là một đại phân tử quan trọng đối với sự sống, chúng giữ nhiều nhiều chức
năng quang trọng. Nhưng bất kì một protein nào cũng chỉ được tạo thành từ hai mươi
amino acid. Mỗi một enzyme lại chỉ có thể xúc tác cho một phản ứng sinh hóa đặc
Đồ án - Dự đoán cấu trúc protein

5


trưng.Và có tới vài trăm ngàn enzyme khác nhau.Vậy điều gì tạo nên tính đặc hiệu của
enzyme và sự đa dạng của protein?
Qua rất nhiều nghiên cứu, Chúng ta xác định được rằng cấu trúc không gian ba
chiều của một protein là chìa khóa cho tất cả mọi câu hỏi. Một enzyme sẽ bị bất hoạt nếu
một chất ức chế gắn vào trung tâm hoạt động thứ nhất và làm biến đổi hình dạng của
trung tâm hoạt động còn lại. Enzyme cũng sẽ bất hoạt nếu ta đun nóng để làm mất cấu
trúc không gian của protein.

2.2. CÁC CƠ SỞ CHO VIỆC DỰ ĐOÁN CẤU TRÚC
Tuy phân tử protein có nhiều cấu trúc khác nhau nhưng có nhiều cơ sở cho rằng
chính cấu trúc bậc một xác định cấu trúc không gian tự nhiên của phân tử protein. Đặc
biệt, cấu trúc bậc một tạo thuận lợi nhất về mặt năng lượng để ổn định mạch polypeptide.
Ví dụ, nếu mạch polypeptide có hai đơn vị cysteine thì cầu nối disulfide sẽ nối hai mạch
để ổn định cấu trúc. Proline cũng có ảnh hưởng đến sự cuộn lại của mạch, vì nó tạo thành
cấu trúc alpha do nhóm gốc R của nó có mạch vòng.
Protein tương đồng là những protein có chức năng sinh lí giống nhau, do vậy
chúng phải có quan hệ tiến hóa với nhau. Protein tương đồng có nhiều đoạn thứ tự sắp
xếp amino acid giống nhau và sự khác biệt giữa chúng có mối quan hệ mật thiết với quá

trình tiến hóa. Ví dụ, Cytochrome c – một loại protein chứa Fe có chức năng chuyển e
-

trong quá trình hô hấp ở ti thể là sợi polypeptide dài khoảng 100 amino acid với MW
13000 Da. Hiện đã biết cấu trúc bậc nhất của Cytochrome c thuộc hơn sáu mươi loài khác
nhau, trong đó phát hiện tới 27 vị trí amino acid giống nhau. Ở một số vị trí khác còn
thấy có sự thay thế các gốc amino acid có tính chất giống nhau, như argine được thay thế
bằng lysine.
Đã có rất nhiều dự án nghiên cứu cấu trúc 3D của nhiều loại protein nhưng rất ít
protein được nghiên cứu cấu trúc 3D bằng thực nghiệm. Và chẳng thể nào tin rằng hàng
tỷ protein sẽ được tìm ra cấu trúc 3D bằng thực nghiệm. Ngày nay, nhờ sự tiến bộ công
nghệ thông tin và sự phát triển những thuật toán máy máy tính. Dựa trên mối quan hệ
protein tương đồng và sự tạo thành cấu trúc 3D từ cấu trúc bậc một. Chúng ta đã có
những phần mềm có thể dự đoán cấu trúc của một protein đã xác định rõ trình tự amino
acid trên cấu trúc bậc một
Chúng ta đã có những protein biết rõ trình tự amino acid và cũng đã được xác định
cấu trúc 3D thông qua thực nghiệm. Dựa trên ngân hàng thông tin đó, chúng ta sẽ so sánh
Đồ án - Dự đoán cấu trúc protein

6


toàn phần hoặc một đoạn trình tự amino acid của protein cần xác định cấu trúc 3D với
những trình tự amino acid của những protein đã biết trình tự trong ngân hàng thông tin.
Qua sự tương đồng như vậy, ta sẽ dự đoán toàn bộ được cấu trúc 3D của một protein
chưa có cấu trúc không gian.


Hinh 3. Biểu đồ xác định mã di truyền











Đồ án - Dự đoán cấu trúc protein

7


CHƯƠNG 3. CÁC PHƯƠNG PHÁP DỰ ĐOÁN CẤU TRÚC
PROTEIN

3.1. AB INITIO
Dựa trên giả thiết protein “ fold “ trong không gian đến trạng thái năng lượng
nhiệt động học tối thiểu, phương pháp Ab initio xây dựng cấu trúc bằng cách tối thiểu
hóa hàm năng lượng. Hàm năng lượng được xây dựng dựa trên các nguyên lý vật lý
lượng tử. Quá trình phát sinh các cấu trạng có thể có bằng mô phỏng động học phân
tử đòi hỏi năng lực tính toán rất lớn. Vì vậy, mặc dù có một số thành công, phương
pháp này hiện chỉ được ứng dụng dự đoán các phân tử protein nhỏ.
Mặt khác, nhiều protein trong tự nhiên không tồn tại ở trạng thái năng lượng
cực tiểu, chứng tỏ rằng độ bền nhiệt động học không phải là yếu tố duy nhất quyết định
trạng thái gấp cuộn của protein.[7]

3.2. PROTEIN THREADING
Do kết quả của tiến hóa hội tụ, dạng gấp cuộn của các trình tự protein có thể

giống nhau một cách trùng hợp, ngay cả khi không có sự tương đồng về trình tự. Vì
vậy, rất có khả năng trình tự mục tiêu sẽ có cấu trúc tương tự với các cấu trúc đã xác
định bằng thực nghiệm. Như vậy, ngay cả khi không tìm được một cấu trúc có họ hàng
với trình tự mục tiêu, vẫn có thể chọn cấu trúc từ các “ fold ” trong cơ sở dữ liệu đã có
thay vì dự đoán từ đầu.
Protein threading là thuật ngữ chỉ chung các phương pháp dự đoán cấu trúc dựa
trên khuôn mẫu cấu trúc sẵn có, nhưng áp dụng với các trình tự không tìm được tương
đồng trong cơ sở dữ liệu cấu trúc. Protein threading có thể chỉ dựa trên trình tự thuần
túy, bằng cách tăng độ nhạy của các thuật giải tìm kiếm (ví dụ PSI-BLAST, SAM-
T98) để phát hiện ra các trình tự có quan hệ xa hơn, hoặc bổ sung thêm các thông tin về
cấu trúc, thông qua kỹ thuật threading.
Threading là thuật ngữ chỉ quá trình kết hợp một trình tự với một cấu trúc sao
cho có được một kết quả tối ưu. Vì vậy, threading cũng có thể được hiểu là sự sắp
gióng cột trình tự - cấu trúc. Do hiệu quả của kỹ thuật này trong lĩnh vực nhận diện
“fold” , threading thường được dùng để chỉ phương pháp nhận diện “fold” nói chung.
Quá trình threading là quá trình xác định sắp gióng cột tối ưu của chuỗi các môi
Đồ án - Dự đoán cấu trúc protein

8



trường với chuỗi các amino acid bằng phương pháp lập trình tự động.
Để giải quyết vấn đề so sánh cấu trúc – trình tự, Profile 3D được sử dụng để mô
tả cấu trúc dưới dạng ma trận. Mỗi axit amin ưu tiên nằm trong những môi trường
khác nhau. Độ ưu tiên của axit amin ( x ) trong môi trường ( e )được biểu diễn bằng
điểm của cặp x – e trong ma trận điểm. Điểm này được tính bằng xác suất hiện diện
của x trong môi trường e. Profile 3D của một fold là ma trận xác định điểm của 20
axit amin ứng với vị trí i của “fold” [5]:




Kết quả sắp gióng thường được đánh giá bằng Z-score, một dạng điểm thống
kê. Điểm sắp gióng cột ngẫu nhiên được phát sinh bằng cách so sánh một số lượng
lớn các trình tự khác với cùng “ fold ”. Sắp gióng cột được xem là có ý nghĩa khi điểm
đạt được có sự khác biệt đáng kể so với điểm ngẫu nhiên. Ngưỡng xác định sắp gióng
cột có nghĩa phụ thuộc vào phương thức chuyển đổi từ kết quả kiểm định thống kê sang
Z-score.

3.3. HOMOLOGY MODELING [9]:
3.3.1. Quy trình thực hiện
3.3.1.1. Tìm trình tự tương đồng và cấu trúc khuôn:
a) Tìm trình tự tương đồng
BLAST là một công cụ cơ bản và phổ biến dùng để tìm kiếm trình tự tương
đồng. Trong phương pháp mô hình hóa tương đồng, BLAST được sử dụng để truy vấn
trình tự mục tiêu trên các cơ sở dữ liệu cấu trúc protein như cơ sở dữ liệu PDB
(
Kết quả BLAST trên PDB sẽ cho biết các trình tự nào đã được xác định cấu
trúc bằng thực nghiệm tương đồng với trình tự mục tiêu. Các trình tự này được gọi là
trình tự mẫu hay template.
PSI-BLAST (position-specific iterative BLAST) là phương pháp cải tiến dựa
trên BLAST nhằm mục đích tăng cường độ nhạy của thuật giải tìm kiếm BLAST để
có thể phát hiện những trình tự có quan hệ xa hơn.
Đồ án - Dự đoán cấu trúc protein

9



b) Chọn cấu trúc khuôn

Theo lý thuyết, khi độ tương tự về trình tự từ 30% trở lên đã có thể xem là có
sự tương đồng về cấu trúc. Tuy nhiên, thực tế cho thấy trình tự cần có thành phần
amino acid tương tự trên 40% mới đảm bảo được độ chính xác cho mô hình xây dựng.
Cấu trúc khuôn mẫu được chọn theo các tiêu chí như sau:
� Độ tương đồng trình tự với trình tự mục tiêu : Cấu trúc có độ tương
đồng về trình tự càng cao càng thích hợp làm cấu trúc khuôn mẫu. Khi có nhiều
khuôn mẫu được sử dụng đồng thời cho một đoạn trình tự, tiêu chí này thường
được dùng để xác định trọng số cho mỗi khuôn mẫu, nhằm đảm bảo các cấu trúc
tương đồng hơn sẽ đóng góp nhiều hơn vào mô hình.
� Độ phân giải (resolution) của cấu trúc cho biết độ chính xác của cấu
trúc protein. Độ phân giải cao (high- resolution) thường đồng nghĩa với giá trị nhỏ,
ví dụ, độ phân giải 1.9 Å cao hơn (và tốt hơn) độ phân giải 2.8 Å. Độ phân giải
của các cấu trúc trong
PDB thường nằm trong khoảng 1–4 Å

� R-factor thể hiện độ đúng của mô hình, tức là giá trị cho biết mức độ
phù hợp giữa cấu trúc 3D giải ra từ bản đồ mật độ electron với cấu trúc thật sự của
tinh thể. R-factor được xác định bằng cách so sánh cường độ thực nghiệm (amplitude)
của các phản xạ tia X và cường độ tính toán được từ cấu trúc được chọn. Sự trùng
khớp tốt giữa cường độ tính toán với cường độ đo đạc sẽ cho một giá trị R-factor
thấp và khi đó mô hình càng gần với cấu trúc thực. R-factor có thể giảm một cách cố ý
bằng nhiều cách, và do đó trong nhiều trường hợp không còn chỉ thị tốt cho chất lượng
cấu trúc.
Thông thường, cấu trúc có độ phân giải tốt hơn hoặc bằng 2.0 Å được xem là có
thể tin cậy. Nếu cấu trúc đó có R-factor thấp hơn 20% có thể cho là cấu trúc đúng về cơ
bản.


Đồ án - Dự đoán cấu trúc protein


10




Hinh 4. Quy trình dự đoán cấu trúc protein bằng phương pháp mô hình hoá tương
đồng
Đồ án - Dự đoán cấu trúc protein

11


3.3.1.2. Sắp gióng cột
Sắp gióng cột trình tự mục tiêu với các trình tự của cấu trúc khuôn bằng các
chương trình sắp gióng cột như ClustalW, T-Coffee… nhằm xác định các vùng bảo tồn,
làm cơ sở cho việc sao chép tọa độ. Kết quả sắp gióng cột có ảnh hưởng rất lớn đến độ
chính xác của mô hình được xây dựng

3.3.1.3. Xây dựng mô hình cấu trúc
a) Mô hình hoá khung sườn
Sau khi sắp gióng cột, những phần tương đồng trên cấu trúc khuôn sẽ được
dùng làm cơ sở để xây dựng khung sườn cho trình tự mục tiêu. Cách sử dụng thông tin
cấu trúc khuôn tùy thuộc vào hướng tiếp cận trong xây dựng mô hình; ví dụ như, sao
chép trực tiếp tọa độ của một số phần trên cấu trúc khuôn, hoặc biến đổi thành các biểu
thức mô tả giới hạn lập thể…
Có 3 hướng tiếp cận để xây dựng mô hình trong phương pháp mô hình hóa tương
đồng: tập hợp mảnh ghép, khớp từng đoạn, thỏa mãn giới hạn lập thể.
� Phương pháp tập hợp khối: Là phương pháp được phát triển đầu tiên trong
mô hình hóa tương đồng và hiện vẫn được sử dụng rộng rãi. Phương pháp này sử dụng
kết quả sắp gióng cột giữa trình tự khuôn mẫu và trình tự mục tiêu để xác định các vùng

bảo tồn cấu trúc (SCR). SCR thường là các thành phần cấu trúc như xoắn α hay phiến β,
và thường chứa những vùng có chức năng quan trọng như trung tâm hoạt động của
một protein. Các vùng xen giữa những SCR có độ tương đồng trình tự ít hơn, được
đánh dấu là vùng biến đổi (SVR) và nhìn chung thường chứa các loop. Khi các SCR đã
được xác định, tọa độ của các nguyên tử thuộc vùng này được sao chép từ khuôn mẫu
sang các amino acid tương ứng trong cấu trúc mục tiêu. Việc sử dụng đồng thời nhiều
khuôn mẫu trong xây dựng khung sườn có thể làm tăng độ chính xác của mô hình. Các
vùng SCR được xây dựng theo cách này có hình học tốt và cần rất ít phép tối ưu hóa.
� Phương pháp khớp từng đoạn: Dựa trên cơ sở hầu hết các đoạn 6-peptide
của cấu trúc protein có thể được nhóm thành khoảng 100 lớp, phương pháp này tập hợp
các mảnh ngắn từ các cấu trúc khuôn để xây dựng nên mô hình. Từ trình tự trung gian
giữa trình tự mục tiêu và trình tự khuôn mẫu, tọa độ khuôn được sao chép cho những
vùng bảo tồn. Để nối các khoảng trống, chương trình chia nhỏ cấu trúc mục tiêu thành
một bộ các đoạn ngắn và tìm kiếm trên cơ sở dữ liệu để có các đoạn phù hợp với khung
Đồ án - Dự đoán cấu trúc protein

12


sườn của cấu trúc mục tiêu. Sự phù hợp được xác định dựa trên các tiêu chí: Sự tương
đồng trình tự, sự tương tự về cấu hình, tính tương thích về tương tác Van der Wall
� Phương Pháp thỏa mãn các giới hạn lập thể: Phương pháp này xem mô
hình cấu trúc như một tổng thể thay vì chia cắt thành từng vùng riêng biệt như trong
các phương pháp khác. Cấu trúc khuôn mẫu được sử dụng để tạo ra các giới hạn hình
học và sinh hóa, ví dụ như giới hạn về khoảng cách giữa các nguyên tử Cα và khoảng
giá trị cho phép của các góc nhị diện của khung sườn và chuỗi bên. Ngoài các giới hạn
tính toán từ cấu trúc tương đồng, có thể bổ sung thêm các giới hạn lập thể lấy từ một
trường lực cơ học phân tử, như giới hạn về chiều dài nối, góc nối, góc nhị diện và tiếp
xúc không nối giữa các nguyên tử. Vị trí của các nguyên tử trong mô hình được thao tác
để tạo ra một mô hình thỏa mãn tốt nhất các giới hạn đã đặt ra.

b) Mô hình hoá loop và mô hình hoá chuỗi bên
Quy trình dùng để tạo ra mô hình cuối cùng phụ thuộc vào phương pháp dùng để
mô hình hóa khung sườn. Nếu chương trình mô hình hóa dựa trên phương pháp tổ hợp
mảnh ghép, thì sườn polypeptide của vùng SCR được xây dựng như mô tả ở trên, nhưng
loop và các chuỗi bên cần phải được mô hình hóa bằng một cách khác. Trong phương
pháp giới hạn lập thể, các loop đã được tính đến trong tập hợp giới hạn tính toán từ khuôn
mẫu. Tuy nhiên, nếu các loop ít bảo tồn, chúng có thể được mô hình hóa riêng, sử dụng
một phương pháp mô hình hóa loop.
Mặc dù một số loop là vị trí hoạt động và tương đối bảo tồn, hầu hết các loop
không có chức năng nào đặc biệt ngoài vai trò liên kết các phần tử cấu trúc bậc hai. Do
đó, những loop tương đương trên các protein họ hàng có thể có những cấu hình rất khác
nhau. Việc mô hình hóa loop có thể được xem là một vấn đề protein “ fold “ thu nhỏ,
trong đó cấu hình của loop phải được tính toán từ trình tự. Tuy nhiên, do các đoạn ngắn
trình tự không cung cấp đủ thông tin để quyết định cấu trúc, các vùng xung quanh loop,
đặc biệt là phần kẹp hai bên loop cần phải được xét đến trong quá trình mô hình hóa loop.
Phương pháp mô hình hóa loop nhìn chung rơi vào 2 nhóm cơ bản: phương pháp truy vấn
cơ sở dữ liệu và phương pháp ab initio.
Trong phương pháp truy vấn cơ sở dữ liệu, một cơ sở dữ liệu chứa cấu trúc
của các loop xác định từ tất cả các cấu trúc protein hiện biết. Cơ sở dữ liệu được dùng
để dò tìm các đoạn khác nhau có thể khớp với các axit amin ở hai bên loop và các
đoạn tìm thấy được xếp hạng theo tiêu chuẩn hình học hoặc độ tương đồng trình tự
giữa khuôn mẫu và trình tự loop mục tiêu. Các đoạn được chọn sau đó được sắp
Đồ án - Dự đoán cấu trúc protein

13


chồng và nối với phần thân. Cuối cùng, cấu trúc loop dự đoán cần được tối ưu hóa để
cải thiện cấu hình tổng thể.
Trong phương pháp mô hình hóa loop ab initio, mô phỏng động học phân tử

được thực hiện trên trình tự loop nhằm phát sinh các cấu trạng có thể có. Các thuật giải
tối ưu hóa được thực hiện trên hàm năng lượng để chọn ra cấu trạng có năng lượng tối
thiểu.
Phương pháp truy vấn cơ sở dữ liệu được công nhận là chính xác hơn các phương
pháp ab initio, nhưng khi chiều dài loop tăng, số lượng các cấu trạng hình học có thể có
tăng dẫn đến hiệu quả tìm trên cơ sở dữ liệu giảm. Do đó, chỉ có loop với khoảng 7 axit
amin hay ít hơn mới có hy vọng tìm được các cấu trạng sẵn có trong cơ sở dữ liệu cấu trúc
protein hiện biết. Khi số lượng các cấu trúc thực nghiệm ngày càng nhiều thì độ chính
xác của phương pháp này cũng được cải thiện.[7]

3.3.1.4. Kiểm tra cấu trúc
Kiểm tra cấu trúc là một bước không thể thiếu trong quá trình xây dựng mô
hình cấu trúc. Kết quả kiểm tra cấu trúc giúp cho việc quyết định có tiếp tục quá
trình tinh luyện mô hình hay không, hoặc lựa chọn mô hình tốt nhất nếu có nhiều mô
hình được tạo ra đồng thời trong quá trình xây dựng.
Các tiêu chí kiểm tra cấu trúc được chia làm 2 nhóm: chất lượng hóa học lập thể
và chất lượng gấp cuộn protein. Chất lượng hóa học lập thể còn được gọi là chất lượng
bên trong, vì chất lượng lập thể của một cấu trúc được xác định dựa trên tọa độ của các
nguyên tử trong bản thân cấu trúc đó, hoàn toàn không phụ thuộc một cấu trúc nào khác.
Chất lượng gấp cuộn của một cấu trúc protein được xác định thông qua việc so sánh cấu
trúc đó với một tập hợp các cấu trúc chuẩn được cho là tốt. Nhiều hệ thống điểm đã được
xây dựng và thử nghiệm nhằm tối ưu hóa quá trình so sánh này.

3.3.2. Một số công cụ hỗ trợ của phầm mềm máy tính tiêu biểu
3.3.2.1. MODELLER
Quá trình xây dựng mô hình của MODELLER là quá trình tối ưu hóa hàm
mục tiêu. Hàm mục tiêu F(R) ứng với hệ thống R trong hệ tọa độ là tổng tất cả các
hàm giới hạn c
i
(f

i
,p
i
)

Đồ án - Dự đoán cấu trúc protein

14




Hàm giới hạn c
i
(f
i
,p
i
) là dạng thức toán học được dùng để mô tả sự phân bố
của đặc tính hình học f trên bộ các tham số p tương ứng. Hàm giới hạn có thể có các
dạng như giới hạn trên, giới hạn dưới, dạng phân phối chuẩn…
Mỗi đặc tính (feature) vật lý, như khoảng cách nguyên tử, góc nối, góc xoắn…
được mô tả bằng một nhóm các hàm giới hạn. Các giới hạn này được tính toán từ kết quả
sắp gióng cột của trình tự mục tiêu với trình tự của các cấu trúc khuôn.

3.3.2.2. SWISSMODEL [4]
Quy trình mô hình hóa tương đồng áp dụng trong SWISS-MODEL có thể xem là
một ví dụ cho phương pháp tập hợp khối (rigid-body assembly). Quy trình gồm 5 bước
chính.
Bước 1: Chọn cấu trúc khuôn

Thư viện các cấu trúc mẫu ExPDB của SWISS-MODEL được trích ra từ Protein
Data Bank (PDB). Các tập tin tọa độ của PDB được tách thành các chuỗi riêng biệt, các
mô hình lý thuyết và cấu trúc có chất lượng thấp được loại bỏ khỏi bộ dữ liệu. Để tìm
cấu trúc mẫu, trình tự mục tiêu được truy vấn trên các trình tự của thư viện cấu trúc. Nếu
các cấu trúc mẫu tìm được nằm trên các vùng riêng biệt của trình tự mục tiêu, quá trình
mô hình hóa sẽ được chia làm các tác vụ độc lập.
Bước 2: Sắp gióng cột
Mỗi tác vụ mô hình hóa có thể có tối đa 5 cấu trúc khuôn. Các cấu trúc mẫu được
sắp chồng lên nhau; sau đó cấu trúc có Cα-RMS quá cao so với cấu trúc khuôn đầu tiên
sẽ bị loại. Sắp gióng cột cục bộ được thực hiện giữa trình tự mục tiêu với cấu trúc mẫu,
và việc chèn gap được tối ưu hóa dựa trên cấu trúc mẫu. Những amino acid nằm biệt lập
được dịch chuyển ra vùng đầu loop để thuận tiện cho việc xây dựng loop.
Bước 3: Xây dựng mô hình
Khung sườn cho mô hình được lấy theo tọa độ trung bình của các nguyên tử trên
các cấu trúc mẫu, trọng số của mỗi cấu trúc tương đương với độ tương tự trình tự của cấu
trúc đó với trình tự mục tiêu. Các loop được phát sinh cho những phần tương đương với
gap trong sắp gióng cột và được tính điểm dựa trên năng lượng, chướng ngại lập thể và
Đồ án - Dự đoán cấu trúc protein

15


sự hình thành các tương tác ưu đãi như liên kết hydro. Nếu không có loop nào được chọn
từ tập hợp này hoặc nếu loop dài hơn 10 amino acid, thư viện loop từ các cấu trúc thực
nghiệm được dùng để tìm kiếm các loop thích hợp.
Bước 4: Mô hình hóa chuỗi bên
Tại những vị trí bảo tồn, các chuỗi bên của cấu trúc khuôn được thay thế
bằng chuỗi bên của trình tự mục tiêu. Các cấu trạng chuỗi bên có thể ứng với khung
sườn xác định được chọn từ thư viện góc xoay rotamer. Hàm tính điểm ưu tiên các
chuỗi bên có sự hình thành các liên kết hydro, cầu nối disulfide và tránh các va chạm lập

thể.
Bước 5: Tối thiểu hóa năng lượng
Các bất thường trong hình học của cấu trúc protein tạo ra trong quá trình ghép nối
các khối cấu trúc được điều chỉnh nhờ quá trình tối thiểu hóa năng lượng bằng trường lực
GROMOS96. Quá trình tối ưu hóa năng lượng bằng các phương pháp động học phân tử
nhìn chung không làm tăng độ chính xác của mô hình, và chỉ được sử dụng ở bước cuối
trong quy trình để chuẩn hóa cấu trúc.

3.4. SO SÁNH CÁC PHƯƠNG PHÁP DỰ ĐOÁN CẤU TRÚC
Trong các phương pháp dự đoán cấu trúc hiện nay, mô hình hóa tương đồng là
phương pháp thành công nhất. Bảng 1 so sánh các điểm cơ bản giữa các phương pháp
dự đoán cấu trúc bậc 3.
Đối với các cấu trúc lớn, phương pháp ab initio hầu như không thể tính toán được
trong điều kiện hạn định về năng lực xử lý và thời gian tính toán. Khó khăn trong phương
pháp protein threading là việc so sánh trình tự với cấu trúc trong trường hợp quan hệ
tương đồng quá mờ nhạt dẫn đến kết luận không chính xác về sự tương thích của một
trình tự với một cấu trúc fold sẵn có. Trong khi đó, phương pháp mô hình hóa tương
đồng đã được phát triển mạnh mẽ và tương đối hoàn chỉnh, cả về các công cụ thành
phần như thuật giải tìm kiếm trình tự tương đồng, thuật giải sắp gióng cột trình tự và
các quy trình khác nhau như tập hợp khối, thỏa mãn giới hạn lập thể. Trở ngại duy nhất
đối với phương pháp mô hình hóa tương đồng là đòi hỏi một cấu trúc thực nghiệm có
sự tương đồng cao với trình tự mục tiêu.


Đồ án - Dự đoán cấu trúc protein

16


Bảng 2. Tóm lược và so sánh 3 nhóm phương pháp dùng trong dự đoán cấu trúc

protein

Ab initio Protein threading Homology modeling
Đối
tượng
Trình tự bất kỳ, thường
ngắn và hoàn toàn không

tìm được trình tự họ

hàng có dữ liệu cấu trúc

Trình tự không tìm được
tương đồng trong cơ sở

dữ liệu cấu trúc
Trình tự có quan hệ tiến hóa
rõ ràng với các trình tự đã
có cấu trúc
Giả
thiết
cơ sở
Cấu trúc protein tự nhiên
là cấu trúc ứng với trạng
thái năng lượng cực
tiểu
Fold của một trình tự bất
kỳ rất có thể trùng hợp
với một trong các fold
đã được ghi nhận từ thực

nghiệm, do tiến hóa hội
tụ.
Do cấu trúc bảo tồn hơn
trình tự, các trình tự có
quan hệ tương đồng thì cấu
trúc tương ứng cũng có
quan hệ tương đồng.
Công
cụ
Trường lực và thuật giải
dùng cho tối ưu hóa
năng lượng.
Thư viện các đoạn ngắn
cấu trúc (phục vụ tiếp
cận theo hướng đơn giản
hóa)
CSDL fold.
Thuật giải so sánh trình
tự - trình tự cải tiến (so
sánh trình tự - profile)
Thuật giải so sánh trình
tự - cấu trúc (dùng cho
threading)
CSDL cấu trúc.
Thuật giải so sánh trình tự -
trình tự.
Phương pháp vận dụng
thông tin từ cấu trúc khuôn
(sao chép tọa độ; tính toán
giới hạn lập thể…).

Ưu
điểm
Không phụ thuộc cơ sở
dữ liệu cấu trúc

Độ chính xác cao
Chất lượng mô hình tốt
Đồ án - Dự đoán cấu trúc protein

17


Nhược
điểm
Yêu cầu tài nguyên máy
tính lớn
Trong nhiều trường hợp,
cấu trúc tự nhiên của
protein không tương ứng
với cấu trúc có năng
lượng cực tiểu.

Phụ thuộc nhiều vào cơ sở
dữ liệu cấu trúc và thuật
giải sắp gióng cột.
Độ chính xác giảm dần khi
khác biệt về trình tự tăng.
Mô hình hóa loop vẫn còn
là một vấn đề chưa được
giải quyết

Ứng
dụng
Tạo các cấu trúc nhỏ, độ phân giải thấp,
phục vụ cho
- Nghiên cứu về chức năng của protein.
- Cung cấp thông tin hỗ trợ việc giải cấu tr
úc
thực nghiệm
- Hỗ trợ phương pháp mô hình hóa tương

đồng trong các trường hợp có độ tương đồng

trình tự kém
Tạo các cấu trúc tốt phục vụ
cho:
- Nghiên cứu chức nă
ng
protein
- Nghiên cứu tương tá
c
protein-protein
- Thiết kế thuốc

3.5. ĐÁNH GIÁ CHẤT LƯỢNG MÔ HÌNH :
3.5.1. Tính chính xác về hoá học lập thể
Chất lượng hóa học lập thể của một mô hình cấu trúc được biểu thị qua các thông
số như chiều dài nối, góc nối, góc xoắn… Khảo sát một số lượng lớn các mô hình cấu
trúc thực nghiệm cho thấy các giá trị này phân bố quanh một giá trị lý tưởng, và sự tập
trung quanh giá trị lý tưởng càng rõ ràng khi độ phân giải của cấu trúc càng cao. Do đó,
các giá trị trung bình phân tích từ các cấu trúc tinh thể (Bảng 2) có thể được xem là giá

trị tham chiếu để so sánh với các thông số tương ứng của mô hình nhằm phát hiện ra các
đặc tính lập thể bất thường.



×