Tải bản đầy đủ (.pdf) (43 trang)

Báo cáo tiểu luận tin sinh đề tài: blast

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.67 MB, 43 trang )

Tiểu Luận: BLAST
GVHD: TS. Nguyễn Đức Bách
Nhóm sinh viên thực hiện: nhóm 4
Nhoעm 4_k55cnsha
7/12/2014
2
1.
Nhóm sinh viên thực hiện

Nhoעm 4_k55cnsha
3
NỘI DUNG
7/12/2014
ĐẶT VẤ N ĐỀ
Nhoעm 4_k55cnsha
4
NỘI DUNG
Phần I
-Khái niê ̣m, li ̣ch sử
- Thuâ ̣t toán
- Mục đı́ch
- Các da ̣ng, biến thể, ý nghı̃a
Phần II
-Ứ ng du ̣ng
-Thao tác với blast
- Vı́ dụ cụ thể
7/12/2014
Nhoעm 4_k55cnsha
7/12/2014
5
Đặt vấn đề


Thế kỷ XX ghi nhận sự phát triển như vũ bão của khoa học và
công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự liên kết hỗ trợ
lẫn nhau, tác động thúc đẩy sự phát triển của mọi lĩnh vực của
đời sống xã hội, đặc biệt là trên lĩnh vực tin học, công nghệ
internet và công nghệ sinh học.
Với những phát hiện và nghiên cứu càng
ngày càng nhiều, chúng ta sẽ càng đạt ra
nhiều câu hỏi trong quá trı̀nh nghiên cứu?
Nhoעm 4_k55cnsha
7/12/2014
6
Đặt vấn đề
Chủng loại vi khuẩn nào có các protein có
liên hệ về giống loài với một loại protein
khác mà có chuỗi amino-acid mà ta đã
biết không?
Chuỗi DNA mà ta vừa sắp xếp có nguồn
gốc từ đâu?
Có gen nào khác dùng để mã hóa các
protein có cấu trúc hay dáng dấp gần với
cái mà ta vừa xác định không?
???
Nhoעm 4_k55cnsha
7
I. Phần I 1. Khái niệm, lịch sử
Khái niê ̣m
Chúng ta dùng blast khi câu hỏi đặt ra “liệu có trình tự
nào trong ngân hàng dữ liệu giống hoặc gần giống với
trình tự của bạn không”?
BLAST (Basic Local Alignment Search Tool ) là một giải

thuật để so sánh các chuỗi sinh học, như các chuỗi
amino-acid của các protein hay của các chuỗi DNA
khác nhau.
7/12/2014
Nhoעm 4_k55cnsha
8
I. Phần I 1. Khái niệm, lịch sử
1970: Thuật toán của Needleman-Wunsch cho việc căn
trình tự (alignment) được công bố
Li ̣ch sử
1981: Thuật toán Smith-Waterman để căn trı̀nh tự đã
được công bố IMB giới thiệu trên máy tı́nh cá nhân trên
thị trường
1988: NCBI được thành lập ở viện nghiên cứu ung thư
quốc gia. Thuật toán FASTA dùng để so sánh trı̀nh tự được
công bố bởi Pearson và Lupman. Des Higgins và Paul
Sharpe công bố phát triển chương trı̀nh CLUSTAL
7/12/2014
Nhoעm 4_k55cnsha
9
I. Phần I 1. Khái niệm, lịch sử
Li ̣ch sử
1990: Chương trı̀nh BLAST ra đời (Altschul, et. al.)
Dù ít chính xác hơn Smith-Waterman nhưng lại cho
tốc độ nhanh hơn gấp 50 lần. Tốc độ và sự chính xác
tương đối của BLAST là những cải tiến kĩ thuật quan
trọng của các chương trình BLAST và những điều đó
cho thấy lí do vì sao công cụ này lại là công cụ tìm
kiếm phổ biến nhất trong tin sinh học.
7/12/2014

Nhoעm 4_k55cnsha
10
I. Phần I 2. Thuật toán
Thu thập và lựa
chọn trình tự
(protein hay
DNA, RNA)
Blast
Phân tích kết
quả blast
Thuật toán của BLAST có 2 phần, một phần
tìm kiếm và một phần đánh giá thống kê dựa
trên kết quả tìm được.
7/12/2014
Nhoעm 4_k55cnsha
11
I. Phần I 2. Thuật toán
Trong phần đánh giá thống kê, BLAST dựa trên cơ sở
đánh giá của một cặp trình tự để tính ra một giá trị gọi
là [Bit-Score]. Giá trị càng cao chứng tỏ khả năng
tương tự của các bắt cặp càng cao.
Ngoài ra BLAST tính toán một giá trị trông đợi E-Score
(Expect-Score) phụ thuộc vào Bit-Score.
Giá trị E càng thấp , số điểm càng có ý nghĩa
E = mn * 2-S '
Các tham số m và n là độ dài của trình tự truy vấn
và cơ sở dữ liệu.
7/12/2014
Nhoעm 4_k55cnsha
12

Minimum
Score (S)
Neighborhood
Score Threshold (T)
Bước 1: BLAST tìm kiếm các chuỗi con
ngắn với chiều dài cố định W có tính
tương tự cao
Những chuỗi con nào có số điểm lớn hơn một giá trị
ngưỡng T (threshold value) thì được gọi là tìm thấy
và được BLAST gọi là Hits
Bước 2: BLAST tiếp tục tìm kiếp
những cặp Hits tiếp theo dựa trên cơ
sở những Hit đã tìm được trong bước
1
I. Phần I 2. Thuật toán
7/12/2014
Nhoעm 4_k55cnsha
13
I. Phần I 2. Thuật toán
n Bước 3: Cuối cùng BLAST mở rộng những cặp Hits đã tìm
được theo cả hai chiều và đồng thời đánh số điểm.
n Quá trình mở rộng kết thúc khi điểm của các cặp Hits
không thể mở rộng thêm nữa.
KENFDKQRVSGTWYAMAKKDPEG 50 RBP (query)
MKGLDIQKVAGTWYSMAMAASD. 44 lactoglobulin (hit)
Hit!
Mở rộng Mở rộng
7/12/2014
Nhoעm 4_k55cnsha
14

I. Phần I 2. Thuật toán
Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế
(Substitutionsmatrix) BLOSUM hoặc PAM.
Những chuỗi con nucleotide trong blast
7/12/2014
Protein words
Nhoעm 4_k55cnsha
15
Những chuỗi con này được đánh giá cho điểm dựa trên ma trận thay thế
(Substitutionsmatrix) BLOSUM hoặc PAM.
I. Phần I 2. Thuật toán
7/12/2014
Nhoעm 4_k55cnsha
16
I. Phần I 2. Thuật toán
Phương pháp chung:
n Terminal mismatches (không phù hợp đầu
cuối) (0)
n Bắt cặp nhau score (điểm, số điểm) (1)
n Mismatch penalty (bắt cặp nhầm) (-3)
n Gap(khoảng cách) penalty (-1)
n Gap extension(mở rộng ) penalty (-1)
DNA Defaults
GGGGGGAGAA GGG
|||||*|*|| ||| 11(1)+2(-3)+1(-1)+1(-1)=
3
3
GGGGGAAAAAGGGGG
7/12/2014
Nhoעm 4_k55cnsha

17
I. Phần I 3. Blast dùng để làm gì?
n Tìm hiểu mối quan hệ của một trình tự protein hoặc
DNA (query sequence) với các trình tự đã biết trong
CSDL liệu.
n (Những) loài SV nào có trình tự DNA/Protein giống với
trình tự truy vấn.
n Nguồn gốc của trình tự truy vấn
n Trình tự protein do gene X mã hóa có chức năng gì? có
những vùng hoạt động (domain), vung đặc thù (motif) gì?
n Mối quan hệ tiến hóa giữa các sinh vật có các trình tự
giống với trình tự truy vấn (paralog/ortholog)
n Phát hiện trình tự DNA/ Protein mới
7/12/2014
Nhoעm 4_k55cnsha
18
I. Phần I 3. Blast dùng để làm gì?
Tìm trình tự giống với trình tự query theo phương thức căn
trình tự cục bộ
Dự đoán cấu trúc: 2D DNA/RNA, 3D Protein
Xác định các đặc điểm của sản phẩm gene:
Mw, pI, họ protein,
Vùng chức năng (motif, domain), concensus pattern
Dự đoán vị trí của sản phẩm gene
So sánh các concensus pattern
Dự đoán mối quan hệ tiến hóa
Multisequence alignment
Hỗ trợ lắp ráp trình tự
7/12/2014
Nhoעm 4_k55cnsha

19
I. Phần I 3. Blast dùng để làm gì?
Dự đoán gene trong genome: Các vùng exon, intron, promoter
Dự đoán các vùng điều hòa hoạt động gene
Nghiên cứu tiến hóa ở mức độ genome
7/12/2014
Nhoעm 4_k55cnsha
20
I. Phần I 4. Các dạng, ý nghĩa
BLAST thực sự là một họ các chương trình
Nucleotide-nucleotide BLAST (blastn): Chương trình này, khi
đưa vào một DNA truy vấn, sẽ trả về các chuỗi DNA gần giống
nhất từ cơ sở dữ liệu DNA mà người dùng chỉ định.
Protein-protein BLAST (blastp): Chương trình này, khi đưa
vào một protein truy vấn, sẽ trả về các chuỗi protein gần
giống nhất từ cơ sở dữ liệu protein mà người dùng chỉ định.
Nucleotide-protein 6-frame translation (blastx): Chương
trình này so sánh các sản phẩm chuyển đổi (trừu tượng) sang
6-khung của một chuỗi nucleotide truy vấn (cả 2 dải) với một
cơ sở dữ liệu chuỗi protein. Quá trình này có thể rất chậm.
7/12/2014
Nhoעm 4_k55cnsha
21
I. Phần I 4. Các dạng, ý nghĩa
Nucleotide-nucleotide 6-frame translation (tblastx): Chương
trình này là chậm nhất trong họ BLAST. Nó chuyển chuỗi
nucleotide truy vấn thành mọi 6-khung (frame) có thể và so
sánh các proteins tạo thành. Mục tiêu của tblastx là tìm kiếm
mối quan hệ rất xa giữa các chuỗi nucleotide.
Protein-nucleotide 6-frame translation (tblastn):

Chương trình này chuyển cơ sở dữ liệu đích thành mọi 6-khung
(frame) và so sánh với chuỗi protein truy vấn .
Large numbers of query sequences (megablast): Khi so sánh một
số lượng lớn các chuỗi đầu vào qua chỉ một BLAST dạng dòng
lệnh, "megablast" là nhanh hơn rất nhiều so với chạy BLAST
nhiều lần.
7/12/2014
Nhoעm 4_k55cnsha
22
I. Phần I 4. Các dạng, ý nghĩa
Position-Specific Iterative BLAST (PSI-BLAST): Một trong những
chương trình BLAST mới nhất, chương trình này dùng để tìm kiếm
các mối quan hệ xa (distant relative) của một protein. Trước tiên,
một danh sách các protein liên quan sẽ được tạo ra. Sau đó,
những protein này được kết hợp thành một "profile" dưới dạng
chuỗi trung bình (average sequence). Một câu truy vấn tới một cơ
sở dữ liệu protein sẽ được thực thi nhờ profile này, và một nhóm
lớn hơn các protein được tìm thấy. Nhóm lớn này lại được dùng
để tạo ra một profile khác, và quá trình này cứ lặp lại.
7/12/2014
Nhoעm 4_k55cnsha
23
I. Phần I 4. Các dạng, biến thê,̉ ý nghĩa
Lựa chọn chương trình BLAST
7/12/2014
n Một vài ví dụ về những câu hỏi mà các nhà nghiên cứu
dùng BLAST để tìm câu trả lời.
n Chủng loại vi khuẩn nào có các protein có liên hệ về giống
loài với một loại protein khác mà có chuỗi amino-acid mà
ta đã biết không?.

n Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ đâu?
n Có gen nào khác dùng để mã hóa các protein có cấu trúc
hay dáng dấp gần với cái mà ta vừa xác định không?.
n BLAST còn được dùng kết hợp với các giải thuật khác có đòi
hỏi sự so trùng chuỗi gần đúng.
Nhoעm 4_k55cnsha
24
Phần II 1. Ứ ng dụng
7/12/2014
Nhoעm 4_k55cnsha
25
Phần II 1. Ứ ng dụng
32 .ACAGGACATTTTACTACTCTGCAGATAATGGCTGACTTTGACATGGTAC 80
| | | | | | || | | || | | |||| |
51 TTCTTCAGACTGCGCCATGGGGCTCAGCGACGGGGAATGGCAGTTGGTGC 100
. . . . .
81 TGAAGTGCTGGGGTCCAATGGAGGCGGACCACGCAACCCACGGGAGTCTG 130
|||| |||||| ||||||| || |||| ||| ||| |
101 TGAATGCCTGGGGGAAGGTGGAGGCTGATGTCGCAGGCCATGGGCAGGAG 150
. . . . .
131 GTGCTGACCCGTTTATTCACAGAGCACCCAGAAACCCTAAAGTTATTCCC 180
|| || | | | | ||||||| || || || ||||| || |||
151 GTCCTCATCAGGCTCTTCACAGGTCATCCCGAGACCCTGGAGAAATTTGA 200
. . . . .
181 CAAGTTTGCTGGC ATCGCCCATGGGGACCTGGCCGGGGATGCAGGTG 227
|||||| | | | | | || || | | |
201 CAAGTTCAAGCACCTGAAGACAGAGGCTGAGATGAAGGCCTCCGAGGACC 250
48% similarity
DNA Bò và Cá
7/12/2014

×