Bài giảng tin sinh học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (708.6 KB, 14 trang )

Nội dung môn học

BÀI GIẢNG TIN SINH HỌC
GV. Ngô Công Thắng
Bộ môn Công nghệ phần mềm
Website: fita.hua.edu.vn/ncthang

Mục đích môn học
Nắm được các kiến thức cơ bản về Tin
sinh học.
Có khả năng khai thác và sử dụng các
công cụ trực tuyến, các phần mềm hỗ trợ
trong việc phân tích và xử lý các thông tin
sinh học.
Có khả năng xây dựng các phần mềm
đơn giản giải quyết một số bài toán Tin
sinh học.
học.

45 tiết = 20 LT + 25 TH
Tổng quan về Tin sinh học
Cơ sở dữ liệu sinh học và các công cụ
trực tuyến.
tuyến.
Lập trình Perl

Tài liệu học tập
Bài giảng Tin sinh học
Nguyễn Văn Cách, Tin sinh học, Nxb. Khoa học Kỹ thuật, 2005
Hồ Huỳnh Thùy Dương, Sinh học phân tử, Nxb. Giáo dục, 2000
Trần Linh Thước, Thực tập Bioinformatics, Đại học quốc gia Thành phố

HCM, 2004.
Nguyễn Hải Thanh, ứng dụng Tin học trong ngành Nông nghiệp, Nxb.
Khoa học Kỹ thuật, 2005.
Bernard R. Glick, Jack J. Pasternak, Molecular Biotechnology, 1999
Andreas D. Baxevanis, BIOINFORMATICS: A Practical Guide to the
Analysis of Genes and Proteins, USA, 2002.
David W. Mount, BIOINFORMATICS: Sequencer and genome analysis,
Cold Spring Harbor Laboratory Press, 2002.
Các tài liệu trên mạng Internet: www.bioinformatics.org
www.bioinformatics.org;; www.bioperl.org

Phương pháp học
Nghe giảng trên lớp
Nghiên cứu chuyên đề theo nhóm, báo
cáo kết quả nghiên cứu trong các buổi học
Thực hành sử dụng một số phần mềm
trong Tin sinh học và lập trình bằng ngôn
ngữ Perl.

Nội dung

BÀI GIẢNG TIN SINH HỌC
Chương 1. Tổng quan về Tin sinh học

Nội dung
Sơ lược về Sinh học phân tử (SHPT)
Giới thiệu về Tin sinh học
Giới thiệu các bài toán trong SHPT

Bài toán gióng cặp chuỗi
Bài toán gióng đa chuỗi
Bài toán xây dựng cây phát sinh chủng loài
Xây dựng chương trình

Sơ lược về Sinh học phân tử (SHPT)
Giới thiệu về Tin sinh học
Giới thiệu các bài toán trong SHPT
Bài toán gióng cặp chuỗi
Bài toán gióng đa chuỗi
Bài toán xây dựng cây phát sinh chủng loài
Xây dựng chương trình

Sinh học phân tử
Tế bào là đơn vị cấu tạo nên tất cả các cơ
quan trong cơ thể sinh vật. Mỗi tế bào là
một hệ thống phức tạp, bao gồm nhiều
thành phần khác nhau được bao bọc bởi
một lớp màng tế bào.
Trong tế bào có các tiểu phân tử
(nucleotide, amino acid…) và đại phân tử
(DNA, RNA, Protein…)

DNA (d
(deoxyribonucleic
eoxyribonucleic acid
acid))
DNA được tạo thành bởi
chuỗi các nucleotide: A, C,

G và T. (A(A-Adenine, C Cytosine, G -Guanin, T Thymine).
DNA tồn tại ở dạng xoắn
kép (double
(double--helix), bao
gồm hai chuỗi nucleotide
đơn. Dạng xoắn kép được
tạo thành bởi liên kết giữa
các cặp AA-T, GG-C.

Protein
Protein được tạo thành từ một hay nhiều
dãy amino acid theo một thứ tự đặc biệt.
Có 20 loại amino acid. Một số loại protein
chính là:

T-T-G-A-C-T-A-T-C-C-A-G-A-T-C
A-A-C-T-G-A-T-A-G-G-T-C-T-A-G

RNA (ribonucleic acid)
RNA cũng được tạo thành bởi các
nucleotide, nhưng khác với DNA, T
(Thymine) được thay bởi U (Uracil). RNA
không tồn tại ở dạng xoắn kép.
RNA có nhiều chức năng trong tế bào,
như mRNA và tRNA là các kiểu chức
năng khác nhau của RNA, cần thiết trong
sự tổng hợp protein.

Protein cấu trúc (structural protein): góp phần
tạo nên cấu trúc của cơ thể

Enzyme: là chất xúc tác cho các phản ứng
hoá sinh trong cơ thể.
Protein màng (transmembrane protein): là
chìa khóa của sự duy trì môi trường tế bào,
điều hòa dung tích tế bào.

Protein

Một chuỗi protein thực chất là một chuỗi amino
acid nối kết với nhau thành một mạch dài nhờ
các liên kết peptit. Hình dáng thực tế của protein
phụ thuộc vào trình tự các amino acid trong nó.

Biểu diễn dữ liệu sinh học phân tử
trên máy tính
Một dây DNA (trong chuỗi xoắn kép) là chuỗi ký tự
được tạo thành bởi các ký tự AA-T-G-C, RNA là
chuỗi ký tự được tạo thành từ các ký tự AA-U-G-C,
còn protein là chuỗi ký tự được tạo thành bởi 20 ký
tự biểu diễn 20 loại amino acid.
Với việc biểu diễn như trên, việc xử lý các chuỗi
sinh học được đưa về bài toán xử lý xâu ký tự.
Ví d DNA:
CCTTCATTGACCTCAACTACATGGTCTACATGTTCCAGTATGATTCCACCGC
Ví d protein:
MDPELAKCLFFEGATVVILNMPKGTEFGIDYNSWEVGPKFRGVKMIPPGIHFLH

Bảng mã DNA, RNA
và protein

B∀ng mã 1 ký t∃ dùng cho DNA/RNA

B∀ng mã 1 và 3 ký t∃ dùng cho protein

Nội dung
Sơ lược về Sinh học phân tử (SHPT)
Giớ i thiệu
thi u về
v Tin sinh học
h c
Gi
Giới thiệu các bài toán trong SHPT
Bài toán gióng cặp chuỗi
Bài toán gióng đa chuỗi
Bài toán xây dựng cây phát sinh chủng loài
Xây dựng chương trình

Tin sinh học (Bioinformatics)
Bio:: Molecular Biology
Bio
Informatics
Informatics:: Computer Science
Bioinformatics
Bioinformatics:: Giải quyết các bài toán
sinh học bằng các phương pháp của tin
học.
Các tên gọi khác
khác:: Computational biology,
Computational molecular biology,
Biocomputing.

Tin sinh học (tiếp)
Tin sinh học (bioinformatics) là khoa học ứng
dụng, sử dụng các phương pháp của khoa học
máy tính và công nghệ thông tin trong việc quản
lý, phân tích các dữ liệu sinh học.
Tin sinh học là một giao ngành giữa hai ngành
tin học và sinh học với mục đích khám phá
những thông tin còn ẩn giấu sau khối lượng dữ
liệu sinh học khổng lồ mà các nhà sinh học đã
thu thập được, tiến tới hiểu rõ hơn các quy luật
vận động của cơ thể sống.

Nội dung
Sơ lược về Sinh học phân tử (SHPT)
Giới thiệu về Tin sinh học
Giới thiệu các bài toán trong SHPT
Bài toán gióng cặp chuỗi
Bài toán gióng đa chuỗi
Bài toán xây dựng cây phát sinh chủng loài
Xây dựng chương trình

Các bài toán trong tin sinh học

Lớp bài toán phân tích trình tự: bài toán khớp
chuỗi hay gióng chuỗi (sequence alignment), tìm
kiếm trình tự trong cơ sở dữ liệu (sequence
database searching)…
Lớp bài toán phân tích cấu trúc: bài toán so

sánh cấu trúc protein (protein structure
comparison), phân lớp cấu trúc protein (protein
structure classification), dự đoán cấu trúc protein
(protein structure prediction)…
Lớp bài toán phân tích chức năng: dự đoán vị trí
protein trong tế bào (protein subcellular
localization prediction), dự đoán tương tác
protein (protein interaction prediction), dự đoán
chức năng protein…

Một số nguồn CSDL tin sinh học
trên Internet
EMBL
(European Molecular Biology Laboratory): Đây
là nguồn cơ sở dữ liệu chuỗi nucleotide đặt tại
Viện sinh học Châu Âu, Hinxton, Anh.
Website: />GenBank:: Đây là nguồn CSDL chuỗi đặt tại
GenBank
National Center for Biotechnology information
(NCBI), Bethesda, Mỹ.
Website: />

Một
ột số nguồn CSDL tin sinh học
trên Internet
DDBJ (DNA Data Bank of Japan): Đây là
ngân hàng chuỗi DNA đặt tại CIB,
Mishima, Nhật Bản.
Website:
UniRef (UniProt NonNon-redundant

REFerence): Đặt tại EBI, Anh. Website:
/>SWISS
SWISS--PROT
PROT:: Đặt tại Viện tin sinh học
Thụy sỹ. Website:

Một số dạng file dữ liệu chuỗi sinh học
Dạng FASTA:
FASTA: Các file chuỗi định dạng theo
FASTA có thể chứa nhiều chuỗi khác nhau. Cấu
trúc file fasta như sau:
Mỗi chuỗi bắt đầu bằng một dòng tiêu đề, theo sau là các
dòng dữ liệu của chuỗi. Dòng tiêu đề bắt đầu bằng một
dấu lớn hơn (“>”), sau đó đến tên của chuỗi và các thông
tin về chuỗi.
Các dòng trống và các khoảng trống hay các ký tự gap
trong tệp FASTA được bỏ qua.

Một số dạng file dữ liệu chuỗi sinh học

Một số dạng file dữ liệu chuỗi sinh học

D
Dạng
ng ALN ClustalW:
ClustalW: Dạng ALN có nguồn gốc từ chương
trình khớp chuỗi ClustalW. File dữ liệu bắt đầu với từ
“CLUSTAL”, sau đó là các thông tin về kiểu chương trình
clustal đã tạo ra file dữ liệu này. Tiếp theo là các chuỗi đa
khớp, được tổ chức theo các khối 60 ký tự. Mỗi khối có thể

có nhiều dòng, bắt đầu mỗi dòng là tên chuỗi, tiếp theo là
các ký tự của chuỗi và cuối dòng là tổng số ký tự của chuỗi
tính đến cuối dòng đó.

GenBank:
GenBank: Một file dữ liệu chuỗi GenBank có thể
chứa một hay nhiều chuỗi. Mỗi chuỗi trong file dữ
liệu dạng này gồm có nhiều dòng có kiểu khác
nhau. Các dòng chứa ký tự của chuỗi nằm giữa
dòng chứa từ “ORIGIN” và dòng chứa hai dấu gạch
chéo //.

Nội dung
Sơ lược về Sinh học phân tử (SHPT)
Giới thiệu về Tin sinh học
Giới thiệu các bài toán trong SHPT
cặp
p chu i
Bài toán gióng c
Bài toán gióng đa chuỗi
Bài toán xây dựng cây phát sinh chủng loài
Xây dựng chương trình

Bài toán gióng cặp chuỗi
Cho hai chuỗi sinh học S1, S2. Gióng cặp chuỗi
này được thực hiện bằng cách chèn thêm vào
hai chuỗi S1 và S2 các dấu cách (ký hiệu là
là−
−) tại

các vị trí bất kỳ với số lượng không hạn chế để
tạo ra hai chuỗi S1’, S2’ tương ứng, sau đó đặt
một chuỗi trên chuỗi kia sao cho mỗi ký tự của
chuỗi này gióng thẳng với một ký tự của chuỗi
kia và cặp ký tự gióng không đồng thời là dấu
cách.
Chuỗi sinh học ban đầu không có dấu cách và
nếu loại bỏ dấu khỏi khỏi S1’ và S2’ ta sẽ có S1
và S2 ban đầu.

Bài toán gióng cặp chuỗi
Mỗi phương án gióng cặp chuỗi sẽ được cho điểm dựa
vào mức độ giống nhau giữa hai chuỗi đã được gióng.
Phương pháp cho điểm tuyến tính (linear additive
scoring scheme): Mỗi một cặp ký tự giống nhau được
tính 2 điểm, cặp không giống nhau tính 0 điểm, còn cặp
có ít nhất một ký tự là dấu cách sẽ được -1 điểm. Cộng
dồn điểm của tất cả các cặp ký tự của hai chuỗi sẽ được
điểm cho phương án gióng chuỗi.
Phương án gióng cặp chuỗi cho điểm cao là phương án
tốt. Phương án tối ưu là phương án mà không còn
phương án nào khác có điểm cao hơn. Điểm số cho
phương án tối ưu này được gọi là mức độ tương đồng
giữa hai chuỗi (similarity).

Một số phương pháp gióng cặp chuỗi
Phương pháp sử dụng ma trận điểm (dot
matrix)
Phương pháp quy hoạch động
Phương pháp BLAST

Phương pháp sử dụng ma trận điểm

Giải thuật gióng cặp chuỗi Needleman
Needleman--Wunsch
Giải thuật Needleman
Needleman--Wunsch gồm 3
bước:
B1: Khởi tạo ma trận đánh giá từ hai chuỗi
chuỗi.
B2: Tính toán, điền giá trị cho ma trận đánh
giá.
B3: Sử dụng kỹ thuật quay lui để tìm ra kết
quả.

Giải thuật gióng cặp chuỗi Needleman
Needleman--Wunsch
Giải thuật NeedlemanNeedleman-Wunsch là giải thuật
gióng cặp chuỗi toàn bộ dựa trên quy hoạch
động để tính điểm cho quá trình gióng chuỗi.
Để tính điểm cho các cặp ký tự khi gióng chuỗi
theo giải thuật Needleman
Needleman--Wunsch người ta
dùng ma trận thay thế, đối với các chuỗi protein
người hay dùng ma trận thay thế PAM250 hoặc
BLOSUM62.
Phương pháp quy hoạch động đảm bảo về mặt
toán học sẽ tìm được phương án gióng cặp
chuỗi tối ưu ứng với một cơ chế tính điểm cụ

thể. Tuy nhiên phương pháp này có số bước
tính toán lớn, khoảng bình phương chiều dài
chuỗi.

Bước khởi tạo của giải thuật NeedlemanNeedleman-Wunsch

S(0,0) = 0
S(3,0) = 0

Khôi phục lại đường đi trong giải thuật
NeedlemanNeedleman-Wunsch

Giải thuật gióng cặp chuỗi SmithSmith-Waterman
Quá trình gióng chuỗi được thực hiện bởi
việc gióng chuỗi từng cặp trong 2 chuỗi.
Khi đó điểm cho gióng chuỗi từng cặp ký
tự phụ thuộc vào: hai ký tự là giống nhau
(matches), hai ký tự không giống nhau
(mismatches) và điểm cho việc thêm/bớt
khoảng trống (gap penalty). Kết quả của
gióng cặp cục bộ là tìm ra được những
đoạn trong 2 chuỗi có độ tương đồng cao
nhất.

Giải thuật gióng cặp chuỗi SmithSmith-Waterman

Nội dung

Giải thuật Smith

Smith--Waterman là giải thuật gióng
cặp chuỗi cục bộ dựa trên quy hoạch động để
tính điểm cho quá trình gióng chuỗi.
Giải thuật này giúp nhận ra những miền tương
đồng giữa hai chuỗi tìm kiếm cho gióng chuỗi
cục bộ tối ưu hơn. Giải thuật xây dựng trên ý
tưởng so sánh tìm ra những đoạn hay những
miền của hai chuỗi mà có độ tương đồng cao
nhất, để từ đó đánh giá mức độ tương đồng
giữa hai chuỗi.

Sơ lược về Sinh học phân tử (SHPT)
Giới thiệu về Tin sinh học
Giới thiệu các bài toán trong SHPT
Bài toán gióng cặp chuỗi
Bài toán gióng a chu i
Bài toán xây dựng cây phát sinh chủng loài
Xây dựng chương trình

Bài toán gióng đa chuỗi

Ý nghĩa của bài toán gióng đa chuỗi

Gióng đa chuỗi (Multiple Sequence Alignment,
MSA) là phương pháp so sánh nhiều chuỗi,
được thực hiện bằng cách chèn thêm các dấu
cách vào các chuỗi để thu được các chuỗi có
cùng chiều dài sao cho khi gióng theo từng cột
thì mỗi ký tự trong một chuỗi gióng thẳng với

một ký tự hoặc dấu cách trong các chuỗi khác
và không có cột nào có toàn dấu cách. Một
phương án gióng đa chuỗi được gọi là tối ưu
nếu có số ký tự giống nhau hoặc tương tự nhau
trên từng cột ký tự là lớn nhất.
Bài toán gióng đa chuỗi là bài toán đi tìm
phương án gióng tối ưu cho nhiều chuỗi.

Bài toán gióng đa chuỗi có ý nghĩa rất to lớn
trong Tin sinh học. Giả sử có một tập hợp gồm
nhiều chuỗi đại diện cho những loài sinh vật,
nhìn vào tập hợp loài nào đó có thể đặt câu hỏi
liệu tổ tiên của chúng có quan hệ với nhau
không? Giữa chúng có mối quan hệ gì? Để trả
lời những câu hỏi đó ta phải xét đến quá trình
tiến hoá của những loài vật.
Mặt khác kết quả gióng đa chuỗi cho phép ta
xây dựng được cây phát sinh chủng loài, xây
dựng cây tiến hoá, từ đó đánh giá được mối
quan hệ giữa các loài.

Bài toán gióng đa chuỗi

Một số giải thuật giải bài toán gióng đa chuỗi

Ví dụ: Giả sử có 5 chuỗi S1 = AAGAAA,
S2 = ATAATG, S3 = CTGGG, S4 =
CCAGTT và S5 = CCGG. Khi đó, một
phương án gióng 5 chuỗi này như sau:

Giải thuật Quy hoạch động
Giải thuật Heristics Star Alignment
Giải thuật Clustalw

Giải thuật Quy hoạch động cho bài toán
gióng đa chuỗi

Giải thuật Clustalw

Ví dụ có 3 chuỗi S1, S2, S3. Khi đó có thể tính điểm khi
gióng chuỗi tại vị trí i,j,k của 3 chuỗi S1, S2, S3 bằng
cách xây dựng một khối lập phương trong không gian ba
chiều với mỗi trục là một chuỗi. Quá trình gióng chuỗi
toàn bộ xảy ra từ “nguồn” và “đích” như hình dưới đây:
Đích

Giải thuật clustalw là phương pháp cải tiến cho
gióng đa chuỗi. Phương pháp này đang được
sử dụng rộng rãi cho gióng đa chuỗi và xây
dựng cây phát sinh loài (Phylogennetic tree) bởi
vì phương pháp này giải quyết về độ phức tạp
tính toán mà những phương pháp khác chưa
giải quyết được, đồng thời giải quyết được bài
toán gióng đa chuỗi – xây dựng cây phát sinh
loài và đánh giá được mức độ tương đồng giữa
các chuỗi.
Phương pháp này xây dựng gióng đa chuỗi bắt
đầu với việc xác định một gióng cặp có mối
quan hệ tương đồng lớn nhất. Sau đó xây dựng

gióng đa chuỗi tương tự như HSA.

Nguồn

Giải thuật Heristics Star Alignment
Heristics Star Alignment (HSA) là giải
thuật dựa trên ý tưởng tính toán tất cả
những cặp pairwise alignment rồi từ đó
tìm ra một chuỗi trung tâm (center of star),
chuỗi này có mức độ tương đồng cao nhất
so với các chuỗi còn lại. Sau khi tìm được
chuỗi trung tâm, thực hiện gióng cặp dần
dần và kết hợp chúng lại ta thu được
gióng đa chuỗi.

Các bước của giải thuật Clustalw
Bước 1: Thực hiện gióng cặp chuỗi giữa tất cả các chuỗi
và xác định mức độ tương đồng giữa mỗi cặp. Từ đó
xây dựng ma trận khoảng cách “distance” tương đồng
giữa các chuỗi.
Bước 2: Từ ma trận khoảng cách xây dựng cây chỉ dẫn
(guide tree) thể hiện mối quan hệ tương đồng giữa các
chuỗi. Sử dụng phương thức neighbor–
neighbor–joining (quan hệ
hàng xóm).
Bước 3: Xây dựng gióng đa chuỗi (MSA). Căn cứ vào
cây chỉ dẫn (guide tree) thu được trong bước 2 ta xác
định được những nhánh có cặp chuỗi tương đồng lớn
nhất để thực hiện gióng cặp, sau đó kết hợp những
gióng cặp đó lại (tương tự giải thuật HSA) ta thu được

kết quả gióng đa chuỗi.

Nội dung
Sơ lược về Sinh học phân tử (SHPT)
Giới thiệu về Tin sinh học
Giới thiệu các bài toán trong SHPT
Bài toán gióng cặp chuỗi
Bài toán gióng đa chuỗi
Bài toán xây dựng cây phát sinh chủng
loài
Xây dựng chương trình

Bài toán xây dựng cây phát sinh chủng loài
Sau khi gióng đa chuỗi, các số liệu thu
được sẽ được dùng để xây dựng cây phát
sinh chủng loài (cây phân loại). Hướng
tiếp cận đơn giản nhất là chuyển thông tin
gióng chuỗi thành ma trận khoảng cách,
thể hiện khoảng cách tiến hóa giữa tất cả
các cặp chuỗi trong bảng dữ liệu.
Một số phương pháp:
Phương pháp NeighborNeighbor-Joining (N
(N--J)
Phương pháp Maximum Parsimony (MP)

Nội dung
Sơ lược về Sinh học phân tử (SHPT)
Giới thiệu về Tin sinh học
Giới thiệu các bài toán trong SHPT

Bài toán gióng cặp chuỗi
Bài toán gióng đa chuỗi
Bài toán xây dựng cây phát sinh chủng loài
Xây dựng chương trình

Xây dựng chương trình
Chương trình gồm hai phần chính:
Phần giao diện được thiết kế dưới dạng các
trang web để nhận dữ liệu từ người sử dụng.
Phần chương trình xử lý dữ liệu được viết
bằng ngôn ngữ lập trình Perl dựa trên kịch
bản cgi.

Chương trình hoạt động theo cơ chế hoạt
động của CGI

Cơ chế hoạt động của CGI
Trình duyệt của máy khách chuyển dữ liệu
đầu vào (yêu cầu) tới máy chủ.
Máy chủ chuyển dữ liệu nhận được tới
chương trình CGI trên máy chủ.
CGI nhận dữ liệu và xử lý rồi chuyển nó
tới ứng dụng khác (nếu cần), sau đó gửi
dữ liệu (kết quả) cho máy chủ Web.
Máy chủ Web gửi kết quả do CGI đã xử lý
cho trình duyệt của máy khách và thể hiện
kết quả trên trang web.

Bài giảng tin sinh học

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về