Tải bản đầy đủ (.ppt) (42 trang)

Chuyên đề: Phương pháp tìm kiếm chuỗi tương đồng đối với DNA và Protein pot

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.72 MB, 42 trang )

BIOINFORMATICS
Chuyên đề
PHƯƠNG PHÁP TÌM KIẾM CHUỖI
TƯƠNG ĐỒNG ĐỐI VỚI DNA VÀ
PROTEIN
GVHD: Dr Võ Văn Toàn
HVTH: Trương Thị Vệ
Lớp: Cao học SHTN khóa 12
M UỞĐẦ
Thế kỷ XX ghi nhận sự phát triển như vũ bão của khoa
học và công nghệ, đã tạo ra cơ sở lý luận, vật chất và sự
liên kết hỗ trợ lẫn nhau, tác động thúc đẩy sự phát triển
của mọi lĩnh vực của đời sống xã hội, đặc biệt là trên lĩnh
vực tin học, công nghệ internet và công nghệ sinh học.
Tin sinh học chính là sự hội tụ, hợp tác của cả ba lĩnh
vực công nghệ hàng đầu: tin học – công nghệ thông tin
– công nghệ sinh học, cùng cộng tác với nhau để khám
phá thế giới sống

Thực tế cho thấy, từ khi tin sinh học ra đời đã
thực sự trở thành công cụ nghiên cứu mới, trợ
giúp đăc lực và hiệu quả, đẩy nhanh tốc độ
nghiên cứu và ứng dụng công nghệ sinh học,
chắp cánh cho công nghệ sinh học nói chung và
sinh học nói riêng tiến lên một lầm cao mới.
Nhờ thành tựu của tin sinh học, thời gian
nghiên cứu được rút ngắn “ trước đây bạn phải
mất nửa năm trong phòng thí nghiệm bây gời
bạn có thể dễ dàng tiết kiệm thời gian chỉ với
một buổi chiều trước chiếc máy tính”


Tin sinh học có rất nhiều ứng dụng, vì thế cơ sở dữ
liệu của công nghệ sinh học không chỉ dừng lại ở tập
hợp các kết quả nghiên cứu thực nghiệm đơn thuần
của các nhà khoa học trên khắp thế giới, mà nó còn
bao gồm khả năng khái quát hóa, mô phỏng hóa thành
những “đối tượng số” của thế giới sinh học sống
động.

Trong nhiều chương trình ứng dụng của tin sinh học,
Chương trình phân tích cấu trúc tương đồng Blast là
một ứng dụng vô cùng quan trọng, cho biết chính xác
sự tương đồng của các Nucleotic, chuỗi AND hay
protein
I. ĐẠI CƯƠNG VỀ CHƯƠNG TRÌNH PHÂN TÍCH
CẤU TRÚC TƯƠNG ĐỒNG

I.1 . Tìm kiếm tương đồng

Chương trình tìm kiếm tương đồng được sử dụng để
tìm kiếm một cơ sở dữ liệu trình tự tương đồng cho
AND hay các chuỗi amino-acid của các protein với
AND hay các chuỗi amino-acid của các protein khác
trong ngân hàng dữ liệu. Các cơ sở dữ liệu protein
hiện có của ngân hàng dữ liệu là 100 triệu dư lượng

Đối với việc tìm kiếm với nhiều trình tự khác
nhau, thời gian nhanh chóng trở thành một vấn
đề quan trọng. Vì lý do này, đã có nhiều nỗ lực
để sản xuất các thuật toán nhanh hơn các
chương trình năng động thẳng. Mục tiêu của

các phương pháp này là để tìm kiếm như là
một phần nhỏ nhất có thể, trong khi vẫn nhìn
vào tất cả các điểm sắp xếp cao. Trong trường
hợp trình tự rất giống nhau, có một số phương
pháp dựa trên việc mở rộng kết hợp chính xác
khoa học máy tính

Tuy nhiên, để tìm thấy sự phù hợp, các
phương pháp này khó đem đến sự chính xác
tuyệt đối, và cách tiếp cận các công cụ phần
mềm đã được sử dụng.

Hầu hết chương trình phổ biến là: BLAST ;
FastA
I.2. Chương trình phân tích cấu trúc tương đồng
BLAST

Chúng ta dùng blast khi câu hỏi đặt ra “liệu
có trình tự nào trong ngân hàng dữ liệu
giống hoặc gần giống với trình tự của bạn
không”?.

BLAST (Basic Local Alignment Công cụ tìm
kiếm) là một bộ các chương trình tìm kiếm và
so sánh cấu trúc của chuỗi AND, protein, phân
tích với các chuỗi tương ứng lưu giữ trong
ngân hàng dữ liệu, nhằm tìm kiếm chuỗi (hay
một số chuỗi ) tương đồng nhất với chuỗi kiểm
tra. Sau đó người phân tích sẽ khai thác thông
tin về đặc điểm hay đặc tính đã biết của các

chuỗi trong ngân hàng để dự đoán, xác định
cấu trúc và đặc tính của chuỗi kiểm tra này.

Trọng tâm của kỹ thuật phân tích là tìm kiếm
và xác định các vùng tương đồng nhau về cấu
trúc trên các chuỗi, để xác định mức độ phân
ly tương đối của chuỗi phân tích với các chuỗi
khác trong ngân hàng dữ liệu. Về phương diện
kỹ thuật, chương trình BLAST cho phép phát
hiện sự tương đồng cấu trúc của hai mức độ là
mang tính cục bộ ở một vùng hay mang tính
tổng thể giữa hai chuỗi với nhau.

Khi được cung cấp một thư viện hay cơ sở dữ liệu
các chuỗi đó, một tìm kiếm BLAST sẽ cho phép
nhà nghiên cứu tìm kiếm các chuỗi con giống với
chuỗi có sẵn mà ta quan tâm. Ví dụ, tiếp sau việc
khám phá ra các gen mà trước đây chưa biết ở
chuột (loại mus musculus), một nhà khoa học sẽ
thường thực thi một tìm kiếm BLAST trên genome
người để tìm kiếm xem liệu con người có mang
các gen giống vậy không; BLAST sẽ xác định các
chuỗi nào trong genome người mà giống với gen
chuột dựa trên sự giống nhau của chuỗi

Để chạy, BLAST cần đầu vào là 2 chuỗi: một
là chuỗi cần phân tích (hay còn gọi là chuỗi
đích) và một cơ sở dữ liệu chuỗi. BLAST sẽ
tìm kiếm các chuỗi con trong chuỗi cần phân
tích mà giống với các chuỗi con trong cơ sở

chuỗi dữ liệu. Thông thường, khi sử dụng,
chuỗi cần phân tích là nhỏ hơn rất nhiều so với
cơ sở dữ liệu, ví dụ: chuỗi cần phân tích có thể
chỉ gồm 1 nghìn nucleotide trong khi cơ sở dữ
liệu chuỗi có hàng tỉ nucleotide.

BLAST tìm kiếm những bắt cặp trình tự có
điểm số cao giữa chuỗi cần phân tích và các
chuỗi trong cơ sở dữ liệu bằng cách sử dụng
phương pháp dựa trên kinh nghiệm (heuristic)
để có thể có tìm được kết quả gần tốt bằng với
giải thuật Smith-Waterman. Thuật toán bắt cặp
trình tự tối ưu của Smith-Waterman là quá
chậm khi tìm kiếm trong một cơ sở dữ liệu gen
quá lớn như Ngân Hàng Gen (GenBank).

Bởi vậy, giải thuật BLAST dùng một hướng
tiếp cận heuristic, dù ít chính xác hơn Smith-
Waterman nhưng lại cho tốc độ nhanh hơn gấp
50 lần. Tốc độ và sự chính xác tương đối của
BLAST là những cải tiến kĩ thuật quan trọng
của các chương trình BLAST và những điều
đó cho thấy lí do vì sao công cụ này lại là công
cụ tìm kiếm phổ biến nhất trong tin sinh học.
II.PHƯƠNG PHÁP TÌM KIẾM CHUỐI TƯƠNG
ĐỒNG BẰNG CHƯƠNG TRÌNH BLAST
Thao tác cơ bản khi sử dụng chương trình
phân tích cấu trúc chuỗi tương đồng BLAST
gồm các bước chính sau:
Bước 1: Lựa chọn chương trình

BLAST
Các BLAST các trang tìm kiếm cho phép bạn
chọn từ các chương trình khác nhau. Dưới đây
là một bảng của các chương trình này.

Blastp: Để so sánh cấu trúc một chuỗi amino
acid cần phân tích với cấu trúc chuỗi protein
trong ngân hàng dữ liệu.

Blastn: Để so sánh cấu trúc chuỗi nucleotide
cần phân tích với cấu trúc chuỗi nucleotide
trong ngân hàng dữ liệu .

Blastx : Để so sánh cấu trúc chuỗi nucleotide
cần phân tích (dưới dạng được dịch đầy đủ
sang cấu trúc chuỗi amino axit ) với cấu trúc
chuỗi protein trong ngân hàng dữ liệu. Phương
án so sánh này được sử dụng để tìm hiểu đặc
điểm “sản phẩm ” sẽ được tạo ra khi lựa chọn
đoạn chuỗi này.

Tblastn: Để So sánh cấu trúc chuỗi amino
axit cần phân tích với cấu trúc chuỗi protein
tương ứng được dịch mã bảo toàn trình tự
chuỗi nucleotic trong ngân hàng dữ liệu.

Tblastx : Là phương án so sánh cấu trúc chuỗi
amino axit cần phân tích với cấu trúc chuỗi
protein trong ngân hàng dữ liệu. Xin lưu ý
rằng chương trình tblastx không thể được sử

dụng với cơ sở dữ liệu trên trang BLAST Web
bởi vì nó được tính toán chuyên sâu.
Bước 2: Nhập dữ liệu

Chương trình xử lý trực tuyến BLAST cho
phép nhập dữ liệu chuỗi phân tích trực tuyến
dạng ký tự qua bàn phím hay nhập dữ liệu đã
được viết theo một trong 3 ngôn ngữ là “”
FASTA sequence format, “Identifiers” và
“Bare sequence”
Bước 3: đặt vùng phân tích “Set
Subsequence”

Trong mục này, người phân tích phải cung cấp
thông tin vị trí trên đoạn chuỗi cần phân tích
bàng hai giá trị số chỉ vị trí giới hạn đầu cuối
đoạn chuối ấy. Trong trường hợp cần phân tích
toàn chuỗi, dữ liệu nhập sẽ có dạng From I to
length.
Bước 4 Lựa chọn ngân hàng dữ liệu “choose
databases”

Trong bước lựa chọn này, người phân tích phải
xác định nhóm dữ liệu cụ thể của ngân hàng
dữ liệu được chỉ định làm đối tượng so sánh.
Thao tác lựa chọn này được thực hiện bằng
cách dùng chuột đánh dấu vào một trong các
mảng cấu trúc chuỗi, trong cửa sổ giao tiếp
“choose databases”, tương ứng với đối tượng
chuỗi cần phân tích

Bước 5: Gửi yêu cầu xử lí

Sau khi nhập hết dữ liệu, người phân tích nhấn
lệnh “BLAST” để gửi tin đi. Sau khoảng thời gian
chờ đợi ngắn, chương trình BLAST sẽ phục hồi
yêu cầu với dạng giao diện như :

Phần đầu hiển thị kết quả sơ bộ dạng đồ họa hình
ảnh màu sắc của các chuỗi tương đồng cao nhất.

Phần tiếp theo hiển thị kết quả dạng kí tự tóm tắt
kết quả

Phần cuối cùng hiển thị kết quả cụ thể khi so sánh

Ví dụ, tiếp sau việc khám phá ra các gen mà
trước đây chưa biết ở chuột (loại mus
musculus), một nhà khoa học sẽ thường thực
thi một tìm kiếm BLAST trên genome người để
tìm kiếm xem liệu con người có mang các gen
giống vậy không; BLAST sẽ xác định các
chuỗi nào trong genome người mà giống với
gen chuột dựa trên sự giống nhau của chuỗi.
Ứng dụng

BLAST là một trong những chương trình được
sử dụng rộng rãi nhất trong tin sinh học, có lẽ
là vì nó giúp giải quyết một vấn đề cơ bản và
giải thuật tập trung vào tốc độ hơn tính chính
xác.


Nó tập trung vào tốc độ vì đó là quyết định
đến tính thực tiễn của giải thuật do cơ sở dữ
liệu về genome người là cực kì lớn, mặc dù
các giải thuật về sau có thể nhanh hơn.
- Ứng dụng BLAST trong việc xây dựng cây
phát sinh chủng loài: Thông tin từ các nucleotit
và các chuỗi protein có thể được sử dụng để
suy ra mối quan hệ phát sinh loài. Bởi vì cần
nhiều đột biến nhỏ tích lũy thành đột biến lớn
để có thể thay đổi chuỗi này thành chuỗi khác.
Vì vậy một cặp so sánh giống nhau hơn về trình
tự hay có ít hơn các thay đổi có thể cho thấy
chúng có tổ tiên gần nhau hơn. Do vậy chúng ta
có thể xây dựng được cây phát sinh chủng loại

×