4/9/2013
1
Phép phân tích hệ thống
cây phát sinh loài
(Phylogeny Analysis)
TRƢỜNG ĐẠI HỌC CN THỰC PHẨM TPHCM
KHOA CNSH & KTMT
HỆ ĐẠI HỌC
Chƣơng 4
ThS. Nguyễn Thành Luân
Bioinformatics
Các ứng dụng thực tiễn
Bioinformatics
4/9/2013
2
Bioinformatics
Bioinformatics
Câu hỏi
Tại sao ngày nay vẫn còn tồn tại
những động vật có cấu tạo phức tạp
như động vật có xương sống bên
cạnh động vật nguyên sinh có cấu
tạo rất đơn giản?
Bioinformatics
Tìm hiểu các quan hệ loài
4/9/2013
3
Bioinformatics
CÂY PHÁT SINH LOÀI LÀ GÌ?
Miêu hóa nhóm
loài tính khác nhau
có cùng quan hàng
nhau và cùng hình thành
tiên trong quá
PHYLOGENETIC TREE
Bioinformatics
Cây phát sinh loài
(Phylogeny)
Cây phát sinh loài „kể lại‟các thời
điểm „lâu đời nhất‟ trong mối quan
hệ loài từ 1 tổ tiên chung.
tiên chung cho các
loài/gene trong cây phát sinh
Bioinformatics
Ý nghĩa cây phát sinh loài
Phản ánh
quan các nhóm loài sinh
Quá trình hoá các nhóm sinh
cao,
.
các nhóm
4/9/2013
4
Bioinformatics 10
Tác phẩm “Nguồn gốc các loài”
Tác : Charles Darwin
1859
các loài hóa
là quá trình
nhiên
sách gây tranh cãi vì mâu
tin tôn giáo
Bioinformatics 11
Charles Darwin (1809 1882)
HMS Beagle
Bioinformatics 12
Hành trình trên tàu
Beagle
1831 - 1836
4/9/2013
5
Bioinformatics 13
Cây phát sinh loài tiên
Bioinformatics 14
Bioinformatics 15
hành trình
4/9/2013
6
Bioinformatics 16
Nhóm 1: 6 loài (1, 3,
cây
Nhóm 2: 6 loài (7, 8,
Nhóm 3: 1 loài (9)
Nhóm 4: 1 loài (2)
Bioinformatics 17
Darwin‟s tree of life
Bioinformatics 18
Quan Darwin hóa
loài
4/9/2013
7
Bioinformatics 19
Darwin vs Tôn giáo
Bioinformatics 20
Hình thái
Gen
Bioinformatics 21
Xây dựng cây phát sinh loài hiện đại
Hình thái
Hóa
Di
Gen
4/9/2013
8
Bioinformatics 22
Trình tự bảo tồn
Là trình mã hóa không
mã hóa protein vai trò
quan sinh
Bioinformatics 23
Ví dụ: promoter
-
tách nhau.
-
Bioinformatics 24
4/9/2013
9
Bioinformatics 25
các trình
gian
Xây cây phát sinh loài
Bioinformatics 26
Các phần mềm hỗ trợ
trình BLAST NCBI
trình ClustalX,
ClustalW
cây phát sinh loài TreeView
MEGA
Bioinformatics
Các thuật ngữ trong cây
phát sinh loài
Phylogeny phylogenetic phylo
Bootstrap
Distance
Parsimony
Likelihood
Rooted tree
Unrooted tree
4/9/2013
10
Bioinformatics
Các đột biến có thể xảy ra
Transition (Sự chuyển đoạn)
ra các nhóm purine (A <-> G) hay
pyrimidine (C <->T)
Transversion (Sự đảo đoạn)
purine sang pyrimidine
(A<->T, C<->G, A<->C, T<->G)
đột biến điểm
mất
đoạn, chuyển đoạn, thêm đoạn, hoặc đảo
đoạn
Bioinformatics
Bioinformatics
Các dạng khác nhau của cây
tiến hóa
Các dạng cây tiến hóa loài với dạng cây phát sinh loài
không biết rõ nguồn gốc (a) và cây biết rõ nguồn gốc (b)
4/9/2013
11
Bioinformatics
Cây phát sinh loài không rõ
nguồn gốc (Unrooted tree)
Là dạng mạng lƣới quan hệ loài
, không
Không rõ khi quá trình
nhân gene ra
Bioinformatics
Cây phát sinh loài biết rõ
nguồn gốc (Rooted tree)
Cây phát sinh loài biểu hiện rõ sự
tiến hóa
Có ra quá trình nhân gene
Có ngun - Ví tiên chung liên quan
các trình loài
nhóm không liên quan
nhóm nghiên (outgroup)
Bioinformatics
Cây phát sinh loài biết rõ
nguồn gốc (Rooted tree)
Outgroup là trình có
cách quan xa
các nhóm trình nghiên
Ví dụ: Nghiên cứu quan hệ
Hemoglobin A, sử dụng nhóm
không liên quan là Hemoglobin B
4/9/2013
12
Bioinformatics
Các dạng của cây phát sinh loài
biết rõ nguồn gốc (Rooted tree)
Cây phát sinh sơ đồ phân ly (Cladograms) biểu hiện tất cả các tỷ
lệ quan hệ loài ngang nhau ở mức độ quan hệ họ hàng. Cây
phát sinh nhánh tiến hóa (phylograms) biểu hiện các nhánh
có tỷ lệ khác nhau tiêu biểu cho sự khác biệt giữa gene/loài.
Bioinformatics
Cây phát sinh nhánh tiến hóa
Các nhánh dài hơn
chỉ ra việc tiến hóa
diễn ra nhanh hơn –
đặc biệt hữu ích
trong việc tìm hiểu
các quan hệ đƣợc
sinh ra từ dữ liệu mã
hóa trình tự, có thể
chỉ ra sự thay đổi về
chức năng, hoặc về
môi trƣờng sống…
Bioinformatics
Ví dụ
Cây phát sinh loài 1, 2, 3 theo thứ tự là;
(a) phân ly, nhánh hóa và dendrogram
(b) nhánh hóa và phân
ly.
(c) phân ly và nhánh hóa
(d)
4/9/2013
13
Bioinformatics
Các phƣơng pháp để xây
dựng cây phát sinh loài
Các
: 3
PP vào ma cách
(Distance Matrix)
PP kê không tham
(Parsimony)
ra (Likelihood)
Bioinformatics
Phƣơng pháp Distance
Bioinformatics
Distance Matrix
Các trình tự giống nhau nhất = có
mối liên hệ loài gần nhất
Khi khác 1 cách
không chính xác
4/9/2013
14
Bioinformatics
Cách tính
(1) a + b = 3
(2) a + e + c = 9
(3) b + e + c = 8
_______________
(2)-(3) a - b = 1
(1) a+ b = 3
(2-3+1) 2a = 4
a = 2
b = 1
:
c = 5
d = 3
e = 2
Bioinformatics
Kết quả
Bioinformatics
Phƣơng pháp thống kê
không tham số (Parsimony)
Nguồn gốc Parsimony:
(the preferred
hypothesis)
4/9/2013
15
Bioinformatics
Ví dụ
•Xây dựng cây phát sinh loài dạng
Parsimony bằng cách vẽ ra mọi trƣờng hợp
có thể có về cây phát sinh loài đó:
•4 loài -> 3 cây
•5 loài -> 15 cây
•6 loài -> 105 cây
• Sau đó vẽ sơ đồ cột đầu tiên của trình tự
đƣợc sắp xếp trên mỗi cây, đếm số lƣợng
các thay đổi trong trình tự
Bioinformatics
Phƣơng pháp Parsimony
Sequence 1 GCACCT
Sequence 2 GCACGT
Sequence 3 ATTCGA
Sequence 4 ACTCGA
các phân tích cho trình
Ví : Tree 1 = 1 ( 1) + 1 ( 2) + 1( 3)
+ 0( 4)
.
Bioinformatics
Phƣơng pháp tìm kiếm các khả
năng có thể xảy ra (Likelihood)
trung phân tích trong 1
trình
trung vào các cây phát sinh có có.
Đƣa ra 1 mô hình tiến hóa nhất.
4/9/2013
16
Bioinformatics
Khảo sát sự tiến hóa
transition A↔G, C↔T
(transversion A↔C, A↔T, G↔C, G↔T)
Sequence 1 GCACAT
Sequence 2 GCACGT
Sequence 3 ATGCGC
Sequence 4 ACTCGC
Bioinformatics
Khảo sát sự tiến hóa
Bioinformatics
Khảo sát sự tiến hóa
se
(Base
).
.
T các và xác
cây phát sinh loài thích
4/9/2013
17
Bioinformatics
Câu hỏi ôn tập
Theo trình
phát sinh loài nào thích
PP likelihood phân
tích
Bioinformatics
Độ tin cậy của cây phát sinh loài
likelihood) là điểm lặp lại (bootstrap)
Sequence1 GAGCTAGGGAATCTTAATTTGAAGGTT
Sequence2 GAACTCGGGACTCTTGATCTGAGGGTT
Sequence3 ATGTGAGGGAATCTTATATTGAAGGTT
Sequence4 ATATGAGGAAATCTTAATTTGAAGGTT
Bioinformatics
Điểm lặp lại (Bootstrap)
(sample)
4/9/2013
18
Bioinformatics
Điểm lặp lại (Bootstrap)
nhiên sát các trình n
lần
hoàn toàn không
u
nhiên nghiên và sát
cây phát sinh loài khác nhau (100
1000 )
Bioinformatics
Re-sampling
Bioinformatics
Các mặt hạn chế của cây
phát sinh loài
Không hoàn toàn mô chính xác
hóa các loài
Các
sánh trên khác trong
nghiên
4/9/2013
19
Bioinformatics
Các hạn chế của cây phát
sinh
sinh loài (phylogenetic characteristic)
VD: gen
aemoglobin) không phi cây phát sinh
Haemoglobin loài
=> 1 gen không thể quyết định quan
hệ 1 loài nào đó
Bioinformatics
Các hạn chế
Theo quan c,
khó chính xác
Bioinformatics
Luận điểm của Louisiana vs
Schmidt
4/9/2013
20
Bioinformatics
Luận điểm của Louisiana vs
Schmidt
Vitamin K
chia
Bioinformatics
Luận điểm của Louisiana vs
Schmidt
trai chích cho cô 1 nghi
loài
Bioinformatics
Luận điểm của Louisiana vs
Schmidt
Câu hỏi: Có phải dòng HIV từ ngƣời
phụ nữ có phải có mối liên quan với
dòng HIV đƣợc lấy từ máu bệnh
nhân của nha sĩ?
4/9/2013
21
Bioinformatics
Giả thiết
2 giả thiết đƣợc đƣa ra
- ngay
- gian
Bioinformatics
Chứng minh giả thiết
nhân có mang HIV+
Các dòng AIDS các phân và phân loài
có liên Lafayette
trình
Phân tích cây phát sinh loài
Bioinformatics
Chứng minh giả thiết dựa
trên cây phát sinh loài
4/9/2013
22
Bioinformatics
Các ứng dụng khác
Bioinformatics
Các tài liệu tham khảo thêm
Cây phát sinh loài không
F. rubripes IL-6
nhóm IL-
IL 6.
-
joining)
Bioinformatics 66
Sự tiến hóa tƣơng lai???
4/9/2013
23
Bioinformatics
Các kiến thức cần nhớ
cây phát sinh loài
Ý phát sinh loài
Các trong cây phát
sinh
Các pháp xây cây phát
sinh loài
Các cây phát sinh loài
Bioinformatics
KẾT THÚC CHƢƠNG IV