Tải bản đầy đủ (.ppt) (54 trang)

Giới thiệu về tin sinh học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.37 MB, 54 trang )

GIớI THIệU Về TIN SINH HọC
NỘI DUNG
I. GIỚI THIỆU
1. M t s khái ni mộ ố ệ
2. Phân tích trình tự
3. B t c p trình tắ ặ ự
II. HƯỚNG NGHIÊN CỨU CHÍNH
1. Phân tích và b t c p trình tắ ặ ự
2. Gi i thích v b gen ng iả ề ộ ườ
3. Tính toán quá trình ti n hoá c a sinh v tế ủ ậ
4. Đo s đa d ng sinh h cự ạ ọ
5. D đoán c u trúc genự ấ
III. GIỚI THIỆU MỘT SỐ CSDL
I. GIỚI THIỆU
Tin sinh h c (Bioinformatics)ọ : Là 1 lĩnh v c ự
khoa h c s d ng các công ngh c a các ngành ọ ử ụ ệ ủ
khoa h c khác nh : ọ ư Ứng dụng toán học; sinh h c; ọ
Thống kê; Khoa học máy tính Để giải quyết vấn đề sinh
học ở cấp độ phân tử

Là khoa h c qu n lý và phân tích DL sinh h c s ọ ả ọ ử
d ng các k thu t máy tính.ụ ỹ ậ

M c tiêu: Phát hi n ra nh ng hi u bi t m i v ụ ệ ữ ể ế ớ ề
sinh h c; đ ng th i t o cái nhìn t ng quát và ọ ồ ờ ạ ổ
th ng nh t trong các v n đ c a sinh h cố ấ ấ ề ủ ọ

Thu th p, l u tr , phân tích, tích h p thông tin ậ ư ữ ợ
sinh h c và di truy n đ khai thác các thông tin ọ ề ể
m t cách h p lýộ ợ


Là c s h t ng c a sinh h c phân tơ ở ạ ầ ủ ọ ử

Phân tích và gi i thích các lo i ả ạ
DL sinh h c nh : nucleotide; ọ ư
trình t acid amin; ch c năng và ự ứ
c u trúc c a protein.ấ ủ

Phát tri n các thu t toán m i và ể ậ ớ
th ng kê s li u đ đánh giá các ố ố ệ ể
thông tin sinh h c và m i quan ọ ố
h gi a các thành viên trong c ệ ữ ơ
s d li u l n.ở ữ ệ ớ

Phát tri n và th c hi c các công ể ự ệ
c cho phép truy c p hi u qu và ụ ậ ệ ả
qu n lý các lo i thông tin khác ả ạ
nhau trong lĩnh v c sinh h c.ự ọ
I. GIỚI THIỆU

DNA

RNA

Protein

Trình tự

C u trúcấ

Tính ti n hoáế


S t ng tácự ươ

Đ t bi nộ ế

Nucleic acid: là v t ch t thông tin mang di ậ ấ
truy n c a các h th ng s ng.ề ủ ệ ố ố

Nhóm Phosphate

Đ ng Pentoseườ

1 nitrogen base(A(adenine); G(Guanine);
T(thymine); C(Cytosime); U(Uraeicl))

Nucleic acid g m 2 lo i phân t có c u t o gi ng ồ ạ ử ấ ạ ố
nhau:

DNA (Deoryribonucleic)

RNA(Ribonucleic acid)
1. Một số khái niệm
6
DNA
mRNA
Protein
Gen
1. Một số khái niệm

Gen là m t đo n DNA đ m b o cho vi c t o ra m t ộ ạ ả ả ệ ạ ộ

polypeptide, nó bao g m c ph n phía tr c là vùng 5’ ồ ả ầ ướ
không d ch mã (5’ untranslation) hay còn g i là vùng ị ọ
ng c h ng (upstream) và phía sau là vùng 3’ không ượ ướ
d ch mã (3’ untranslation) hay còn g i là vùng cùng ị ọ
h ng (downstream) c a vùng mã hóa cho protein, và ướ ủ
bao g m c nh ng đo n không mã hóa (intron) xen gi a ồ ả ữ ạ ữ
các đo n mã hóa (exon). ạ
1. Một số khái niệm

DNA: là m t chu i xo n kép, ộ ỗ ắ
m i s đ n là 1 chu i ỗ ợ ơ ỗ
nucleotide. ATCG

DNA th ng đ c coi là v t ườ ượ ậ
li u di truy n c p đ phân t ệ ề ở ấ ộ ử
tham gia quy t đ nh các tính ế ị
tr ng. Trong quá trình sinh ạ
s n, phân t DNA đ c nhân ả ử ượ
đôi và truy n cho th h sau.ề ế ệ
5' C-G-A-T-T-G-C-A-A-C-G-A-T-G-C 3'
| | | | | | | | | | | | | | |
3' G-C-T-A-A-C-G-T-T-G-C-T-A-C-G 5'
1. Một số khái niệm-DNA

Phân tích trình t đ n gi nự ơ ả

Tìm ki m trong CSDLế

Phân tích t ng c pừ ặ


Tìm hi u các vùng đi u ti t Genể ề ế

Tìm ki m genế

Chú thích gen

Tính toán b gen di truy n( phân tích gi a các ộ ề ữ
loài và ch ng loài)ủ
1. Một số khái niệm-DNA

Có c u t o gi ng DNA. ấ ạ ố

Khác nhau: RNA là chu i ỗ
đ nơ

T đ c thay th b ng Uượ ế ằ

Có 3 lo i: mRNA; tRNA; ạ
rRNA
1. Một số khái niệm-RNA
CCTGAGCCAACTATTGATGAA
PEPTIDE
CCUGAGCCAACUAUUGAUGAA

Tìm hi u c u trúcể ấ

S n i ghép các bi n thự ố ế ể

Bi u hi n c a mô c thể ệ ủ ụ ể


Cung c p d li u th c ấ ữ ệ ự
nghi m liên quan t i ệ ớ
hàng ngàn gen cùng lúc

Tìm hi u h ptotein c a 1 sinh v tể ệ ủ ậ

C u trúc 2D; 3D c a ptoteinấ ủ

G m nhi u acid aminồ ề

Có 20 lo i acid amin: CDEFGHIKLMNPQRSTVWYạ
1. Một số khái niệm-Protein
Mối liên hệ giữa DNA-RNA-Protein
2. PHÂN TÍCH TRÌNH Tự

So sánh trì nh t s p x p đ ự ắ ế ể
tìm ra chu i t ng t ỗ ươ ự

Cách s p x p c a các trình t ắ ế ủ ự
trong DNA/RNA/Amino Acids
đ xác đ nh các vùng gi ng ể ị ố
nhau có th cho k t qu : ch c ể ế ả ứ
năng, c u trúc hay m i quan ấ ố
h ti n hoá ệ ế

Xác đ nh c u trúc gen, đ c ị ấ ọ
đ c các khung d ch mã, s ượ ị ự
phân ph i c a introns và ố ủ
exons và các thành ph n đi u ầ ề
ti t genế

2. PHÂN TÍCH TRÌNH Tự

Khung đ c m : ọ ở Đoạn trình tự nằm giữa một bộ ba khởi đầu và
một bộ ba kết thúc tương ứng cùng khung đọc được gọi là khung
đọc mở (ORF = open reading frame).

Đặc điểm này được dùng để xác định các trình tự ADN mã hoá
protein trong các dự án giải mã hệ gen.





Initiation codon
Initiation codon
Stop codon
Stop codon
5’
5’ Mở đầu: ATG
3’
3’
ORF
Terminator
Terminator
(TAA, TAG, TGA)
CHIềU DịCH MÃ TRONG SÁU KHUÔN ĐọC ORF
5’ AATGGCAATCCGCGTAGACTAGGCA 3’
3’ TTACCGTTAGGCGCATCTGTATCGT 5’
AAT
AAT

GGC
GGC
AAT
AAT
CCG
CCG
CGT
CGT
AGA
AGA
CTA
CTA
GGC
GGC
A
A
A
A
ATG
ATG
GCA
GCA
ATC
ATC
CGC
CGC
GTA
GTA
GAC
GAC

TAG
TAG
GCA
GCA
AA
AA
TGG
TGG
CAA
CAA
TCC
TCC
GCG
GCG
TAG
TAG
ACT
ACT
AGG
AGG
CA
CA
T
T
TAC
TAC
CGT
CGT
TAG
TAG

GCG
GCG
CAT
CAT
CTG
CTG
TAT
TAT
CGT
CGT
TT
TT
ACC
ACC
GTT
GTT
AGG
AGG
CGC
CGC
ATC
ATC
TGT
TGT
ATC
ATC
GT
GT
TTA
TTA

CCG
CCG
TTA
TTA
GGC
GGC
GCA
GCA
TCT
TCT
GTA
GTA
TCG
TCG
T
T
+1
-2
-3
-1
+2
+3
EXPRESSED SEQUENCE TAGS (EST)
genomic sequence
exons
consensus sequence
(  mRNA)
missing intron
THAY THế GHÉP NốI
hnRNA

mRNA 2
exon 15‘UTR exon 2
mRNA 1
exon 15‘UTR exon 3
exon 15‘UTR exon 2 exon 3
EXPRESSED SEQUENCE TAGS (EST)

EST-nhãn xác định trình tự biểu hiện (expressed
sequence tag): là các đoạn trình tự ngắn được trích
ra từ một trình tự cDNA đã biết. Các vùng tương
ứng với các EST được xác định là các exon, còn
các vùng nằm giữa các exon tương ứng với các
intron (mặc dù, nguyên tắc cắt intron khác nhau có
thể sử dụng một exon không có mặt trong cDNA
hay EST được giải mã trình tự).

Các thông tin giải mã trình tự cDNA và EST
cũng giúp tìm được sự liên kết giữa các contig,
giữa các đoạn khung và giữa chúng với nhau.

Trình t DNA xác đ nh ự ị trình tự protein

Trình t ự Protein xác định cấu trúc protein

C u trúc ấ Protein xác định c u trúc ấ gấp và chức năng
c a ủ protein
2. PHÂN TÍCH TRÌNH Tự
KẾT LUẬN

Bắt cặp toàn cục/cục bộ


Bắt cặp đôi một/nhiều trình tự
3. BắT CặP TRÌNH Tự

Bắt cặp toàn cục

Đ u vào: cho 2 trình t có kh năng gi ng nhauầ ự ả ố

M c đích: xác đ nh các vùng b o t n và khác nhauụ ị ả ồ

Thu t toán: Needleman-Wunsch liên k t đ ngậ ế ộ

ng d ng: Ứ ụ
- So sánh 2 gen có cùng ch c năngứ
- So sánh 2 lo i protein có cùng ch c năng. ạ ứ

Bắt cặp cục bộ

Đ u vào: Hai trình t có th gi ng ho c không có liên ầ ự ể ố ặ
quan

M c đích: ụ xem liệu một chuỗi con có trong một chuỗi khác

Thu t toán: Smith-Waterman liên k t đ ngậ ế ộ

Ứng dụng:
- Tìm kiếm điểm tương đồng c c b ụ ộ trong chuỗi lớn (trình tự
bộ gen)
- Tìm ki m trongế lĩnh vực bảo tồn hoặc motif ở hai protein
3. BắT CặP TRÌNH Tự

BắT CặP ĐÔI/NHIềU TRÌNH Tự

B t c p trình t đôi m t: Là s liên k t gi a 2 trì nh t ắ ặ ự ộ ự ế ữ ự
thu đ c b ng cách thêm vào nh ng kho ng tr ng, nh ượ ằ ữ ả ắ ư
v y chu i sau khi b t c p s có cùng đ dài và có nh ng ậ ỗ ắ ặ ẽ ộ ữ
vùng đ i di n cho nh ng kho ng t ng đ ngạ ệ ữ ả ươ ồ

B t c p đa trình t : t ng t nh b t c p đôi m t ắ ặ ự ươ ự ư ắ ặ ộ
nh ng có s trình t n>2.ư ố ự

Định nghĩa: Một sự liên kết nhiều trình tự là một sự liên kết của
n> 2 trình tự thu được bằng cách chèn khoảng cách ("-") vào
trình tự và nh v y cư ậ ác trình đều có chiều dài L và có thể được
sắp xếp trong một ma trận N hàng và L cột nơi mỗi cột đại diện
cho một vị trí tương đồng.
3. BắT CặP TRÌNH Tự
1. Manual
2. Dot matrix
3. Distance Matrix
4. Combined (Distance + Manual)
3. BắT CặP TRÌNH Tự
B t c p th công:(Manual alignment)ắ ặ ủ
B t c p th công:(Manual alignment)ắ ặ ủ

Áp d ng khi trình t b t c p không quá ụ ự ắ ặ
khác nhau, ch có vài kho ng tr ng và ỉ ả ắ
s b t c p h p lý có th ki m tra tr c ự ắ ặ ợ ể ể ự
quan
GCG-TCCATCAGGTAGTTGGTGTG
GCGATCCATCAGGTGGTTGGTGTG


u đi m: S d ng 1 công c m nh và d hu n luy nƯ ể ử ụ ụ ạ ễ ấ ệ

Kh năng tích h p d li u b sungả ợ ữ ệ ổ

Khuy t đi m: mang tính ch quan và không linh ế ể ủ
ho tạ
DOT MATRIX
Do Gibbs and
McIntyre, 1970
đưa ra: 2 trình t ự
đ c vi t thành ượ ế
tiêu đ dòng và ề
tiêu đ c t c a 1 ề ộ ủ
ma tr n 2 chi u. ậ ề
N u 2 nucleotide ế
gi ng nhau thì ố
đi n vào 1 d u ề ấ
ch m.ấ

×