Tải bản đầy đủ (.ppt) (34 trang)

Bai giang tin sinh hoc 4

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.54 MB, 34 trang )

1
n to
SO SÁNH CÁC TRÌNH TỰ SINH
HỌC BẰNG BLAST VÀ CLUTALX
Mục tiêu của bài học

Nắm được những nguyên tắc so sánh các trình tự
sinh học

Sử dụng chương trình BLAST giúp chúng ta
nhanh chóng tìm ra những trình tự sinh học tương
đồng (nếu có trong các CSDL lớn như NCBI,
EMBL, DDPJ…) với trình tự yêu cầu.

Cung cấp những số liệu về tỉ lệ tương đồng,
nguồn gốc các trình tự tương đồng,…
Tìm kiếm trình tự sinh học
2
Bắt cặp trình tự

Sắp xếp thẳng hàng trình tự là phương pháp sắp
xếp hai hoặc nhiều trình tự nhằm đạt được sự
giống nhau tối đa.

Các trình tự này có thể được xen bằng các
khoảng trống (thường được diễn tả bằng các gạch
nối ngang) tại các vị trí có thể để làm sao tạo
thành các cột giống nhau (identical) hoặc tương
tự nhau (similar).
tcctctgcctctgccatcat caaccccaaagt
|||| ||| ||||| ||||| ||||||||||||


tcctgtgcatctgcaatcatgggcaaccccaaagt
Giới thiệu môn học
3

Phương pháp này thường được dùng để nghiên
cứu sự tiến hóa của các trình tự từ một tổ tiên
chung, đặc biệt là các trình tự sinh học như trình
tự protein hoặc trình tự DNA.

Các bắt cặp không đúng trong trình tự tương ứng
với các đột biến và các khoảng trống tương ứng
với phần thêm vào hoặc xóa đi.

Thuật ngữ "sắp xếp thẳng hàng trình tự" cũng chỉ
quá trình tạo ra sự sắp xếp này hay tìm ra các
cách sắp xếp tốt nhất trong cơ sở dữ liệu gồm các
trình tự riêng biệt.
Giới thiệu môn học
4
Sắp gióng cột đôi một (Pairwise alignment)

Sắp gióng cột đôi một là phương pháp phục vụ
cho việc tìm kiếm một trình tự sắp gióng cột toàn
bộ hay (cục bộ) mà trùng khớp nhất của các chuỗi
protein (amino acid) hay DNA (nucleic acid).

Thông thường, mục đích của nó là tìm ra (mối
quan hệ) đồng đẳng của một gene hay một sản
phẩm-gen trong một cơ sở dữ liệu các thông tin
mẫu đã có sẵn. Thông tin này là hữu ích để trả lời

một loạt các câu hỏi sinh học khác nhau.
Giới thiệu môn học
5
Ứng dụng

Một vài ví dụ về những câu hỏi mà các nhà nghiên
cứu dùng BLAST để tìm câu trả lời.

Chủng loại vi khuẩn nào có các protein có liên hệ về
giống loài với một loại protein khác mà có
chuỗi amino-acid mà ta đã biết không?.

Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu?

Có gen nào khác dùng để mã hóa các protein có cấu
trúc hay dáng dấp gần với cái mà ta vừa xác định
không?.

BLAST còn được dùng kết hợp với các giải thuật
khác có đòi hỏi sự so trùng chuỗi gần đúng.
Giới thiệu môn học
6
Blast

BLAST là một giải thuật để so sánh các chuỗi sinh
học, như các chuỗi của các protein hay của các
chuỗi DNA khác nhau.

Chúng ta dùng blast khi câu hỏi đặt ra “liệu có
trình tự nào trong ngân hàng dữ liệu giống hoặc

gần giống với trình tự của bạn không”?.
Giới thiệu môn học
7
Nguyên tắc trong blast
Thuật toán của BLAST có 2 phần, một phần tìm
kiếm và một phần đánh giá thống kê dựa trên kết
quả tìm được.
Giới thiệu môn học
8
Thu thập và lựa
chọn trình tự
(protein hay
DNA, RNA)
Blast
Thuật toán blast

Thuật toán của BLAST có 2 phần, một phần tìm
kiếm và một phần đánh giá thống kê dựa trên kết
quả tìm được.

Trong phần đánh giá thống kê, BLAST dựa trên cơ
sở đánh giá của một cặp trình tự để tính ra một giá
trị gọi là [Bit-Score]. Giá trị càng cao chứng tỏ khả
năng tương tự của các bắt cặp càng cao.

Ngoài ra BLAST tính toán một giá trị trông đợi
E-Score (Expect-Score) phụ thuộc vào Bit-Score.
Giới thiệu môn học
9
Giá trị xác xuất trong blast

Giới thiệu môn học
10
Các bước tìm kiếm trong blast
Giới thiệu môn học
11
Minimum
Score (S)
Neighborhood
Score Threshold (T)
Bước 1: BLAST tìm kiếm các
chuỗi con ngắn với chiều dài cố
định W có tính tương tự cao
Những chuỗi con nào có số điểm lớn hơn một
giá trị ngưỡng T (threshold value) thì được
gọi là tìm thấy và được BLAST gọi là Hits
Bước 2: BLAST tiếp tục tìm kiếp
những cặp Hits tiếp theo dựa
trên cơ sở những Hit đã tìm
được trong bước 1
Mở rộng so sánh các trình tự

Bước 3: Cuối cùng BLAST mở rộng những cặp
Hits đã tìm được theo cả hai chiều và đồng thời
đánh số điểm.

Quá trình mở rộng kết thúc khi điểm của các cặp
Hits không thể mở rộng thêm nữa.
Giới thiệu môn học
12
KENFDKARFSGTWYAMAKKDPEG 50 RBP (query)

MKGLDIQKVAGTWYSLAMAASD. 44 lactoglobulin (hit)
Hit!
Mở rộngMở rộng
Những chuỗi con nucleotide trong blast
Giới thiệu môn học
13
Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay
thế (Substitutionsmatrix) BLOSUM hoặc PAM.
Protein words
Giới thiệu môn học
14
Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay
thế (Substitutionsmatrix) BLOSUM hoặc PAM.
15
Các biến thể của blast
Program query Database
1
blastn DNA DNA
1
blastp protein protein
6
blastx DNA protein
Blastn
Giới thiệu môn học
16


Megablast

Discontiguous megablast


So sánh trình tự Nhập vào với trình tự cơ sở dữ liệu
Giới thiệu môn học
17
Giới thiệu môn học
18
Megablast
Large numbers of query sequences (megablast):
Khi so sánh một số lượng lớn các chuỗi đầu vào qua chỉ một BLAST
dạng dòng lệnh, "megablast" là nhanh hơn rất nhiều so với chạy
BLAST nhiều lần.
Protein-protein BLAST
Chương trình này, khi đưa vào một protein truy
vấn, sẽ trả về các chuỗi protein gần giống nhất từ
cơ sở dữ liệu protein mà người dùng chỉ định.

Blastp

PSI-blast

PHI-blast
Giới thiệu môn học
19
Kết quả
Giới thiệu môn học
20
PSI-Blast
PHI-Blast
PSI blast Iteration 1
Giới thiệu môn học

21
Chứa đựng những vùng protein-PSI blast
Giới thiệu môn học
22
Một trong những chương trình BLAST mới nhất,
chương trình này dùng để tìm kiếm các mối quan hệ xa
(distant relative) của một protein.
Kết quả
Giới thiệu môn học
23
Kết quả
Giới thiệu môn học
24
Blastx
Giới thiệu môn học
25

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×