Tải bản đầy đủ (.pdf) (23 trang)

Bài giảng Tin sinh học: Chương 4 - ThS. Nguyễn Thành Luân

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.51 MB, 23 trang )

4/9/2013
1

Phép phân tích hệ thống
cây phát sinh loài
(Phylogeny Analysis)

TRƢỜNG ĐẠI HỌC CN THỰC PHẨM TPHCM
KHOA CNSH & KTMT
HỆ ĐẠI HỌC
Chƣơng 4
ThS. Nguyễn Thành Luân

Bioinformatics
Các ứng dụng thực tiễn
Bioinformatics
4/9/2013
2
Bioinformatics
Bioinformatics
Câu hỏi
Tại sao ngày nay vẫn còn tồn tại
những động vật có cấu tạo phức tạp
như động vật có xương sống bên
cạnh động vật nguyên sinh có cấu
tạo rất đơn giản?
Bioinformatics
Tìm hiểu các quan hệ loài
4/9/2013
3
Bioinformatics


CÂY PHÁT SINH LOÀI LÀ GÌ?
 Miêu     hóa   nhóm
loài    tính khác nhau
 có cùng  quan   hàng
 nhau và cùng hình thành   
tiên trong quá 

PHYLOGENETIC TREE
Bioinformatics
Cây phát sinh loài
(Phylogeny)
 Cây phát sinh loài „kể lại‟các thời
điểm „lâu đời nhất‟ trong mối quan
hệ loài từ 1 tổ tiên chung.
    tiên chung cho   các
loài/gene trong cây phát sinh
 



Bioinformatics
Ý nghĩa cây phát sinh loài
 Phản ánh
   quan   các nhóm loài sinh

 Quá trình  hoá  các nhóm sinh 
   cao,     
.
      các nhóm 



4/9/2013
4
Bioinformatics 10
Tác phẩm “Nguồn gốc các loài”
 Tác : Charles Darwin
    1859
     các loài  hóa
là    quá trình   
nhiên
  sách gây tranh cãi vì mâu
   tin tôn giáo
Bioinformatics 11
Charles Darwin (1809  1882)
HMS Beagle
Bioinformatics 12
Hành trình trên  tàu
Beagle
1831 - 1836
4/9/2013
5
Bioinformatics 13
Cây phát sinh loài  tiên
 
Bioinformatics 14

Bioinformatics 15

 



hành trình
4/9/2013
6
Bioinformatics 16

Nhóm 1: 6 loài (1, 3,

cây

Nhóm 2: 6 loài (7, 8,



Nhóm 3: 1 loài (9)


Nhóm 4: 1 loài (2)


Bioinformatics 17
Darwin‟s tree of life
Bioinformatics 18
Quan  Darwin   hóa
 loài 
4/9/2013
7
Bioinformatics 19
Darwin vs Tôn giáo
Bioinformatics 20


 Hình thái
 
 
 
 Gen
Bioinformatics 21
Xây dựng cây phát sinh loài hiện đại
 Hình thái
 Hóa 
 Di    
 Gen
4/9/2013
8
Bioinformatics 22
Trình tự bảo tồn
 Là  trình  mã hóa  không
mã hóa protein  vai trò 
 quan    sinh 
Bioinformatics 23
Ví dụ: promoter
 -


tách nhau.
 -

 
Bioinformatics 24


4/9/2013
9
Bioinformatics 25

   các trình 
     gian
 Xây  cây phát sinh loài
Bioinformatics 26
Các phần mềm hỗ trợ
    trình  BLAST  NCBI
    trình  ClustalX,
ClustalW
   cây phát sinh loài TreeView
 MEGA
Bioinformatics
Các thuật ngữ trong cây
phát sinh loài
 Phylogeny phylogenetic phylo
Bootstrap
Distance
Parsimony
Likelihood
Rooted tree
Unrooted tree

4/9/2013
10
Bioinformatics
Các đột biến có thể xảy ra
 Transition (Sự chuyển đoạn)

  ra các nhóm    purine (A <-> G) hay
pyrimidine (C <->T)
 Transversion (Sự đảo đoạn)
 purine sang pyrimidine
(A<->T, C<->G, A<->C, T<->G)
 đột biến điểm
mất
đoạn, chuyển đoạn, thêm đoạn, hoặc đảo
đoạn

Bioinformatics
Bioinformatics
Các dạng khác nhau của cây
tiến hóa
Các dạng cây tiến hóa loài với dạng cây phát sinh loài
không biết rõ nguồn gốc (a) và cây biết rõ nguồn gốc (b)
4/9/2013
11
Bioinformatics
Cây phát sinh loài không rõ
nguồn gốc (Unrooted tree)
 Là dạng mạng lƣới quan hệ loài
, không



Không   rõ khi quá trình
nhân  gene  ra

Bioinformatics

Cây phát sinh loài biết rõ
nguồn gốc (Rooted tree)
 Cây phát sinh loài biểu hiện rõ sự
tiến hóa
 Có   ra quá trình nhân  gene 


 Có ngun  - Ví   tiên chung liên quan
   các trình   loài

  nhóm   không liên quan 
nhóm nghiên  (outgroup)

Bioinformatics
Cây phát sinh loài biết rõ
nguồn gốc (Rooted tree)
 Outgroup là  trình  có 
cách  quan  xa   
các nhóm trình  nghiên 

Ví dụ: Nghiên cứu quan hệ
Hemoglobin A, sử dụng nhóm
không liên quan là Hemoglobin B

4/9/2013
12
Bioinformatics
Các dạng của cây phát sinh loài
biết rõ nguồn gốc (Rooted tree)
Cây phát sinh sơ đồ phân ly (Cladograms) biểu hiện tất cả các tỷ

lệ quan hệ loài ngang nhau ở mức độ quan hệ họ hàng. Cây
phát sinh nhánh tiến hóa (phylograms) biểu hiện các nhánh
có tỷ lệ khác nhau tiêu biểu cho sự khác biệt giữa gene/loài.
Bioinformatics
Cây phát sinh nhánh tiến hóa
Các nhánh dài hơn
chỉ ra việc tiến hóa
diễn ra nhanh hơn –
đặc biệt hữu ích
trong việc tìm hiểu
các quan hệ đƣợc
sinh ra từ dữ liệu mã
hóa trình tự, có thể
chỉ ra sự thay đổi về
chức năng, hoặc về
môi trƣờng sống…
Bioinformatics
Ví dụ
Cây phát sinh loài 1, 2, 3 theo thứ tự là;
(a) phân ly, nhánh  hóa và dendrogram
(b) nhánh  hóa và phân
ly.
(c) phân ly và nhánh  hóa
(d) 
4/9/2013
13
Bioinformatics
Các phƣơng pháp để xây
dựng cây phát sinh loài
Các 

: 3 
PP  vào ma   cách
(Distance Matrix)
PP  kê không tham 
(Parsimony)

ra (Likelihood)

Bioinformatics
Phƣơng pháp Distance
Bioinformatics
Distance Matrix
 Các trình tự giống nhau nhất = có
mối liên hệ loài gần nhất




 Khi   khác  1 cách 
  không chính xác
4/9/2013
14
Bioinformatics
Cách tính
(1) a + b = 3
(2) a + e + c = 9
(3) b + e + c = 8
_______________
(2)-(3) a - b = 1
(1) a+ b = 3

(2-3+1) 2a = 4
a = 2
b = 1
 :
c = 5
d = 3
e = 2
Bioinformatics
Kết quả
 

 


Bioinformatics
Phƣơng pháp thống kê
không tham số (Parsimony)
Nguồn gốc Parsimony: 

(the preferred
hypothesis)






4/9/2013
15
Bioinformatics

Ví dụ
•Xây dựng cây phát sinh loài dạng
Parsimony bằng cách vẽ ra mọi trƣờng hợp
có thể có về cây phát sinh loài đó:

•4 loài -> 3 cây
•5 loài -> 15 cây
•6 loài -> 105 cây

• Sau đó vẽ sơ đồ cột đầu tiên của trình tự
đƣợc sắp xếp trên mỗi cây, đếm số lƣợng
các thay đổi trong trình tự
Bioinformatics
Phƣơng pháp Parsimony
 Sequence 1 GCACCT
 Sequence 2 GCACGT
 Sequence 3 ATTCGA
 Sequence 4 ACTCGA
   các phân tích cho   trình 
 

 Ví : Tree 1 = 1 ( 1) + 1 ( 2) + 1( 3)
+ 0( 4)
 
.
Bioinformatics
Phƣơng pháp tìm kiếm các khả
năng có thể xảy ra (Likelihood)
 
  trung phân tích   trong 1 

trình 
  trung vào các cây phát sinh có  có.
 

 Đƣa ra 1 mô hình tiến hóa nhất.
 

4/9/2013
16
Bioinformatics
Khảo sát sự tiến hóa
 transition A↔G, C↔T

(transversion A↔C, A↔T, G↔C, G↔T)
 Sequence 1 GCACAT
 Sequence 2 GCACGT
 Sequence 3 ATGCGC
 Sequence 4 ACTCGC
 



Bioinformatics
Khảo sát sự tiến hóa
Bioinformatics
Khảo sát sự tiến hóa
 se 
     (Base 
).
 


.
 T  các     và xác
 cây phát sinh loài thích  
4/9/2013
17
Bioinformatics
Câu hỏi ôn tập
 Theo     trình  
 phát sinh loài nào thích  
 PP likelihood     phân
tích  

Bioinformatics
Độ tin cậy của cây phát sinh loài
 

likelihood) là điểm lặp lại (bootstrap)

Sequence1 GAGCTAGGGAATCTTAATTTGAAGGTT
Sequence2 GAACTCGGGACTCTTGATCTGAGGGTT
Sequence3 ATGTGAGGGAATCTTATATTGAAGGTT
Sequence4 ATATGAGGAAATCTTAATTTGAAGGTT
Bioinformatics
Điểm lặp lại (Bootstrap)
 


 


(sample)
 



4/9/2013
18
Bioinformatics
Điểm lặp lại (Bootstrap)
  nhiên  sát các   trình  n
lần
 
hoàn toàn không
 
u
    nhiên  nghiên  và  sát
cây phát sinh loài   khác nhau (100 
1000 )
 


Bioinformatics
Re-sampling
Bioinformatics
Các mặt hạn chế của cây
phát sinh loài
 Không hoàn toàn mô  chính xác 
  hóa  các loài
 Các 



 
sánh  trên   khác  trong
nghiên 

4/9/2013
19
Bioinformatics
Các hạn chế của cây phát
sinh
 

sinh loài (phylogenetic characteristic)
VD:    gen
aemoglobin) không phi cây phát sinh
 Haemoglobin  loài 

=> 1 gen không thể quyết định quan
hệ 1 loài nào đó
Bioinformatics
Các hạn chế
 




 Theo quan  c, 

khó chính xác 



Bioinformatics
Luận điểm của Louisiana vs
Schmidt
 

 


 

 
 



4/9/2013
20
Bioinformatics
Luận điểm của Louisiana vs
Schmidt
 

Vitamin K 
 
chia 

 

Bioinformatics

Luận điểm của Louisiana vs
Schmidt
  trai  chích cho cô  1  nghi
 
 





loài

Bioinformatics
Luận điểm của Louisiana vs
Schmidt
Câu hỏi: Có phải dòng HIV từ ngƣời
phụ nữ có phải có mối liên quan với
dòng HIV đƣợc lấy từ máu bệnh
nhân của nha sĩ?

4/9/2013
21
Bioinformatics
Giả thiết
2 giả thiết đƣợc đƣa ra
-   ngay 
-   gian 
Bioinformatics
Chứng minh giả thiết
 




  nhân có mang HIV+
Các dòng AIDS  các phân  và phân  loài
có liên    Lafayette
     trình 
 Phân tích cây phát sinh loài

Bioinformatics
Chứng minh giả thiết dựa
trên cây phát sinh loài
4/9/2013
22
Bioinformatics
Các ứng dụng khác
Bioinformatics
Các tài liệu tham khảo thêm
 Cây phát sinh loài không


F. rubripes IL-6 

nhóm IL-

IL 6.

 

-

joining)
Bioinformatics 66
Sự tiến hóa tƣơng lai???
4/9/2013
23
Bioinformatics
Các kiến thức cần nhớ
   cây phát sinh loài
 Ý    phát sinh loài
 Các    trong cây phát
sinh
 Các  pháp xây  cây phát
sinh loài
 Các   cây phát sinh loài
Bioinformatics
KẾT THÚC CHƢƠNG IV

×