3/26/2013
1
Chƣơng 3
SẮP XẾP THẲNG HÀNG TRÌNH TỰ
(SEQUENCE ALIGNMENT)
TRƢỜNG ĐH CÔNG NGHIỆP THỰC PHẨM TPHCM
KHOA CNSH & KTMT
ThS. Nguyễn Thành Luân Email:
BÀI GIẢNG TIN SINH HỌC
HỆ ĐẠI HỌC
NỘI DUNG BÀI HỌC
• Khái niệm về sắp xếp trình tự
• Tại sao phải nghiên cứu sắp xếp trình tự?
• Phân loại PP sắp xếp trình tự
• Các biểu hiện của phương pháp sắp xếp
trình tự
• Các phương pháp so sánh trình tự thông
dụng
• Ứng dụng của sắp xếp trình tự thẳng
hàng
3/26/2013
2
KHÁI NIỆM
• Theo tin sinh học, sắp xếp thẳng hàng trình
tự là 1 cách sắp xếp các trình tự của DNA,
RNA hay protein để xác định hay so sánh
các vùng tương đồng của các mối quan hệ
chức năng, cấu trúc hay tiến hóa của trình tự
cần nhận biết.
• Sắp xếp thẳng hàng trình tự là phương pháp
sắp xếp hai hoặc nhiều trình tự nhằm đạt
được sự giống nhau tối đa.
KHÁI NIỆM
Các trình tự sắp xếp thường là các nucleotide hay
amino acid được diễn tả theo các hàng với một thuật
ngữ nhất định.
Các khoảng trắng (gaps) được diễn ra như là các
ký tự tương đồng hoặc xác định (thêm vào hoặc mất
đi) được sắp xếp theo dạng cột
Ý nghĩa của sắp xếp thẳng hàng trình tự
• Quá trình tạo ra sự sắp xếp nhằm tìm ra
các cách sắp xếp tốt nhất trong CSDL gồm
các trình tự riêng biệt.
• Nhằm nêu bật sự giống nhau giữa các
trình tự
3/26/2013
3
Ý nghĩa của sắp xếp thẳng hàng trình tự
• Được dùng để nghiên cứu & giải thích sự
tiến hóa của các trình tự từ một tổ tiên
chung
• Tính toán các bắt cặp không chính xác
trong trình tự tương ứng với các đột biến.
VÌ SAO PHẢI SẮP XẾP TRÌNH TỰ
“Tôi tin rằng, sẽ có một ngày, mặc dù tôi sẽ
không còn sống để chứng kiến điều đó,
chúng ta sẽ có những cây tiến hóa chính xác
về các loài sinh giới trong tự nhiên này”
-Charles Darwin-
VÌ SAO PHẢI SẮP XẾP TRÌNH TỰ
• Nhu cầu tìm hiểu mối quan hệ tiến hóa của
các loài sinh giới
• Làm sáng tỏ các lý giải sinh học về các
protein: dựa trên các vùng bảo toàn sinh
học quan trọng (proteomics)
• Xây dựng giả thiết về cấu trúc 3-D của
protein
• Xây dựng giả thiết về chức năng của protein
3/26/2013
4
Phƣơng pháp nhận diện
• Làm thế nào để các biểu hiện về loài
khác nhau trong sinh giới được phân
tích?
SẮP XẾP TRÌNH TỰ
– So sánh trình tự toàn bộ (Global) vs khu
vực (Local Alignment)
– So sánh cặp (Pairwise) vs so sánh đa
trình tự (Multiple Alignment)
Phân loại sắp xếp trình tự
• Được chia thành 2 dạng:
– Sắp xếp theo trình tự cặp (PAIRWISE
ALIGNMENT)
– Sắp xếp theo nhiều trình tự (MULTIPLE
ALIGNMENT)
Sắp xếp trình tự theo cặp
(Pairwise alignment)
• Sắp xếp trình tự theo cặp là phương pháp so
sánh & tìm kiếm cách khả dĩ nhất của một
trình tự của gen (protein hay nucleotide)
chưa biết trùng khớp nhất của 1 chuỗi
protein (amino acid) hay DNA (nucleic acid)
đã biết.
• Mục đích: Tìm ra mối quan hệ đồng đẳng
của một gene hay một sản phẩm-gen trong
một cơ sở dữ liệu các thông tin mẫu đã có
sẵn.
3/26/2013
5
So sánh trình tự theo cặp
Khám phá các thông
tin về:
-Chức năng
-Cấu trúc chuỗi
-Quan hệ tiến hóa
Bắt cặp trình tự
• Các trình tự này có thể được xen bằng các
khoảng trống (gạch ngang) tại các vị trí có
thể để biểu diễn các cột xác định
(identical) hoặc tương tự nhau (similar).
TCCTCTGCCTCTGCCATCAT CAACCCCAAAGT
| | | | | | | | | | | | | | | | | | | | | | | | | | | | |
CCTGTGCATCTGCAATCATGGGCAACCCCAAAGT
Sắp xếp trình tự toàn bộ
(Global Alignment)
• Tìm ra các trình tự toàn phần tốt nhất
(total sequence)
3/26/2013
6
Sắp xếp trình tự cục bộ
(Local Alignment)
• Tìm ra đoạn trình tự ngắn có giá trị bảo
tồn cao (optimize the sequence)
Ứng dụng sắp xếp thẳng hàng theo
cặp
• Những câu hỏi mà các nhà nghiên cứu dùng
BLAST để tìm câu trả lời.
• Chủng loại vi khuẩn nào có các protein có liên hệ
về giống loài với một loại protein khác mà có
chuỗi amino-acid mà ta đã biết không?.
• Chuỗi DNA mà ta vừa sắp xếp có nguồn gốc từ
đâu?
• Có gen nào khác dùng để mã hóa các protein có
cấu trúc gần với cái mà ta vừa xác định không?.
• BLAST còn được dùng kết hợp với các giải thuật
khác có đòi hỏi sự sao trùng chuỗi gần đúng.
Tầm quan trọng của việc sắp xếp
trình tự thẳng hàng theo cặp
Khi 2 cặp trình
tự được so sánh
được gọi là
đồng đẳng vì cả
2 đều có chung
nguồn gốc từ 1
tổ tiên
3/26/2013
7
So sánh các đặc tính di truyền
của các loài
Hemoglobin
Tính đồng đẳng của trình tự
(Homology)
Là những trình tự biểu hiện ở
cũng 1 cơ quan (hay cơ thể) của
những loài động vật khác nhau
dƣới 1 sự khác biệt về hình thức
và chức năng
Biểu hiện homology ở những loài
động vật có xƣơng sống
• Cấu trúc xương tay/cánh/vây
Ngƣời
Khỉ
Chim Cá
3/26/2013
8
Ví dụ
Tìm hiểu cấu trúc của 1 gene không điển hình có
thể được suy ra từ 1 gen điển hình.
Kết quả sắp xếp trình tự nhận thấy β-sheet hiện
diện ở RT’ase người, nhưng không biểu hiện gen
α-helix.
Biểu hiện gen đồng đẳng qua quá trình
hình thành loài (Orthology)
Gene biểu hiện hình thành loài với tổ tiên chung
của chúng không trải qua quá trình sao chép
gen (=gen giống nhau ở các loài khác nhau)
GENE SPECIATION ORTHOLOGS
Biểu hiện gen đồng đẳng qua quá trình
sao chép gen (Paralogy)
Gen biểu hiện sao chép gen với tổ
tiên của chúng đã trải qua quá trình
sao chép gen
Gen tiến hóa bởi các đột biến
nhưng cũng làm gia tăng sự đa
dạng gen bằng việc nhân bản
sao chép gen.
ERRORS IN GENE REPLICATION
PARALOGS
(GENE DUPLICATION)
3/26/2013
9
Ví dụ
Ứng dụng so sánh trình tự cặp
• Phát hiện & xác định 1 nhóm gene đã biết
– E.g So sánh 2 loại muỗi Aedes aegypti vs.
Anopheles gambiae
• Xác định gene của Aedes dựa trên những gì đã
biết về Anopheles
• Trình tự chưa biết
– So sánh các nhóm protein đã biết để tìm
hiểu chức năng khả dĩ nhất cho protein so
sánh
Ứng dụng so sánh trình tự cặp
• Trƣờng hợp đơn giản nhất: trình tự gen tổ tiên
là trình tự gen hiện tại trong 2 loài có chung nguồn
gốc là DNA polymerase ở người và tinh tinh
• So sánh đột biến (X và Y) được gom góp qua giai
đoạn phân kỳ của người và tinh tinh (khoảng 5tr
năm trước)
• Không thể tính toán được dễ dàng số lượng đột
biến X hay Y nhưng có thể tính toán tổng X + Y
nhờ số lượng trình tự khác biệt trong phép so
sánh
3/26/2013
10
Tin sinh học trả lời mối quan
hệ họ hàng
BREAK - TIME
Các phƣơng pháp so sánh trình
tự thông dụng
• Phương pháp so sánh ma trận điểm
(Dot-matrix)
• Phương pháp phân tích theo dạng
lượt dọc các ô (Sliding Windows)
3/26/2013
11
Dot-matrix
Phƣơng pháp phân tích theo dạng
lƣợt dọc các ô (Sliding Windows)
3/26/2013
12
Phân tích so sánh NST
Mã hóa so sánh 1
NST này với 1 NST
khác.
Tìm sự tương đồng
giữa các NST từ các
loài có mối quan hệ
gần nhau (e.g NST
người số 22 = tinh tinh
số 21 = chuột số 16)
Sắp xếp nhiều trình tự thẳng hàng
(Clustal)
Thứ tự bộ ba
nucleotide mã
hóa cho amino
acid.
UAA, UAG,
UGA đảm
nhiệm vai trò
kết thúc chuỗi
Clustal
• Clustal là phần mềm máy tính đƣợc sử
dụng rộng rãi cho việc so sánh nhiều
trình tự, gồm 3 loại chính:
– ClustalW: giao diện lệnh dòng (command
line interface)
– ClustalX: Giao diện đồ họa cho ngƣời
dùng
– Clustal Omega: Là thành viên cuối cùng
bổ sung vào gia đình Clustal.
3/26/2013
13
ClutalX
• Clustal X là một phần mềm (giao diện windows)
dùng cho việc so sánh sự tương đồng của hai
hay nhiều trình tự sinh học.
• Mô tả kết quả bằng hệ thống màu sắc và các ký
hiệu nổi bậc những nét đặc trưng trong những
đoạn tương đồng.
• Ngày càng trở nên hữu ích cho các nhà nghiên
cứu trong việc tìm kiếm những vùng bảo tồn trên
những trình tự DNA hoặc protein
Sắp gióng cột bằng ClustalX
3/26/2013
14
Nguyên tắc ClustalX
• Thu nhận và lựa chọn tập trình tự (protein
hay DNA, RNA)
• Nhập các trình tự sinh học vào ClustalX
• Phân tích kết quả sắp xếp thẳng hàng
theo cột
Các lƣu ý khi thực hiện
• Trước khi thực hiện việc sắp xếp, phải lựa
một cách cẩn thận tập trình tự mà cần so
sánh cột.
• Những trình tự này thuộc cùng một protein,
DNA hay RNA và cùng tổ tiên.
• Tùy thuộc vào mục đích xây dựng sắp xếp
so sánh cột thì ta chọn ra một số trình tự
để phân tích bằng ClustalX
Các ma trận toán học
• Những chuỗi con
này đƣợc đánh giá
cho điểm dựa trên
ma trận thay thế
(Substitutions
matrix) BLOSUM
hoặc PAM.
3/26/2013
15
BLOSUM62 Matrix
Cách tính điểm (Scores) trong ma trận
• Phương pháp chung:
– Bắt cặp không tương xứng đích (A<->G, T<-
>C) (10)
– Bắt cặp nhau score (20)
– Lỗi bắt đôi không tương xứng (A<->T, G<-
>C) (5)
– Lỗi khoảng trống (gap) (-5)
– Lỗi 2 đoạn khoảng trống (0)
Trình tự DNA mặc định
Cách tính điểm
3/26/2013
16
Ví dụ
Score 1 = 105
Socre 2 = 100
Score 1 có độ
tin cậy cao hơn
Trình tự nào có độ tin cậy cao hơn?
Cách tính điểm số DNA
GGGGGGAGAA- - - - -
| | | | | | | | | | * * * * *
GGGGGAAAAAGGGGG
GGGGGGAGAA GGG
| | | | | | | | | |** | | |
GGGGGAAAAAG-GGG
Trình tự nào đƣợc chọn trong
phƣơng pháp tính điểm ma trận??
Sự tƣơng đồng giữa bò & cá
3/26/2013
17
Sự tƣơng đồng giữa bò & heo
So sánh nhiều trình tự
• Mở rộng và tạo thêm các dự đoán tin cậy so với so
sánh trình tự theo cặp (pairwise)
• Dữ liệu dự đoán tốt hơn cho các cấu trúc Protein
• Dự đoán các chức năng của amino acid ở protein
như phần còn lại ở khu vực hoạt hóa
• Các cách xác định đột biến gây ra các bệnh di
truyền.
• Thiết kế các chuỗi peptide kháng thể
• Thiết kế mồi (primer) PCR phổ biến
• Xác định các quan hệ tiến hóa giữa các trình tự
DNA.
• Mã hóa DNA (DNA Barcode)
Ứng dụng thực tiễn
• Bệnh tế bào máu hình lưỡi liềm - Sickle
Cell Anemia (SCA)
• Thiết kế các peptide kháng thể
• Thiết kế mồi PCR
• Mã hóa DNA (DNA Barcoding)
• Xác định quan hệ tiến hóa loài
3/26/2013
18
SCA (Sickle Cell Anemia)
Sự di truyền tính trạng SCA
Tế bào Hb thường có
dạng như bánh rán
(donut)
Tế bào bệnh thường
có hình lưỡi liềm
Cản trở và gây sưng
phồng mạch máu, gây
các chứng đau buốt.
Gây thiếu máu, mệt
mỏi
Xét nghiệm di truyền
3/26/2013
19
Thiết kế các peptide kháng thể (Ab)
Vùng giữa112 and
125 bp nhằm phân
biệt chuột và người.
Ab peptides nhắm vào
việc gắn với thrombin
chuột và người.
Vùng giữa 140 và
190 có thể được sử
dụng để phân biệt
chuột từ thrombin
người
Thiết kế mồi PCR
Thiết kế các mồi oligonuclotide để gắn các vùng
bảo tồn cao của gene thioredoxin. Những đoạn mồi
này sẽ tối ưu hóa các đoạn gen thioredoxin từ các
loài khác như lớp bò sát, cá, chim và các động vật có
vú khác.
Nhóm gen Thioredoxin từ các loài khác nhau
DNA Barcode
3/26/2013
20
Xác định quan hệ tiến hóa loài
Việc xác định dựa
vào 1 trong 2 cơ sở:
Xác định quan hệ
của các thành viên
khác nhau trong 1
họ gene (Gene
duplication)
Xác định 1 gene
trong những cá thể
loài khác
So sánh nhiều trình tự DNA
• Tìm hiểu tất cả gene có liên quan đến
gene cần tìm
Ví dụ về so sánh các TT Hemoglobin người:
– Human hemoglobin a
– Human hemoglobin b
– Horse hemoglobin a
– Horse hemoglobin b
– Insect myoglobin
– Plant globin
– Leghemoglobin
So sánh nhiều trình tự DNA
• Không thể tìm thấy việc sắp xếp trình tự
tốt nhất cho 6-8 đoạn mã hóa.
– Quy trình so sánh trình tự
– Xử lý/sắp xếp tất cả trình tự nghi ngờ
– Tính toán khoảng cách giữa các pair
nucleotide
– Xây dựng cây phát sinh loài dựa trên khoảng
cách
– Phân tích trình tự thông qua cây phát sinh
3/26/2013
21
Xây dựng cây phát sinh loài
Hình: Mối quan hệ
về trình tự các
nhóm Hb liên
quan nhau. Các
nhóm trình tự này
sẽ được sắp xếp
trước, xa nhau
được sắp xếp sau
Phân tích trình tự thông qua
cây phát sinh loài
Sắp xếp các trình tự có quan hệ gần nhau
nhất trước.
– Sắp xếp các nhóm trình tự với nhau
– Theo thứ tự sắp xếp các trình tự đến khi quá
trình sắp xếp hoàn thành.
Tuy nhiên:
– Không bảo đảm trong việc tìm trình tự sắp
xếp tối ưu nhất.
– Việc sắp xếp trình tự đối với các trình tự gần
nhau rất hạn chế.
KẾT THÚC CHƢƠNG III