Tải bản đầy đủ (.pdf) (13 trang)

SẮP xếp TRÌNH tự ỨNG DỤNG xây DỰNG cây PHÁT SINH LOÀI

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.19 MB, 13 trang )

3/25/2014

LOGO

SẮP XẾP TRÌNH TỰ & ỨNG DỤNG
XÂY DỰNG CÂY PHÁT SINH LOÀI
MÔN TIN SINH HỌC
BÀI TIỂU LUẬN NHÓM

ThS. Nguyễn Thành Luân


BLAST

Homology (Tính đồng đẳng)
Homology =
Similarity
between
objects due
to a
common
ancestry

2

9/25/2013

BLAST

Tính đồng đẳng trình tự
Tính giống nhau giữa các trình tự


như 1 kết quả của 1 nguồn gốc tổ
tiên chung.
Gap

VLSPAV-WAKVGAHAAGHG
||| || |||| | ||||
VLSEAVLWAKVEADVAGHG
Match

Mismatch

3
9/25/2013

3

1


3/25/2014

BLAST

So sánh trình tự

Alignment: So sánh 2 hoặc
nhiều trình tự. Tìm kiếm 1 chuỗi
các ký tự tương đồng hoặc xác
định trong trình tự.


4
9/25/2013

4

Tại sao lại phải so sánh trình tự?
Ở phòng thí nghiệm: Tìm kiếm lỗi trình tự

©

9/25/2013

5

Tại sao lại phải so sánh trình tự?
Tìm kiếm các bệnh liên quan đột biến
So sánh các trình tự ở dạng khỏe mạnh và
nhiễm bệnh

9/25/2013
© Eli
Koren

6

2


3/25/2014


Tại sao lại phải so sánh trình tự?
Tìm kiếm các đoạn Single Nucleotide
Polymorphism (SNPs) trong genome

9/25/2013
© Eli
Koren

7

Tại sao lại phải so sánh trình tự?
Dự đoán cấu trúc hoặc chức năng của
gene/protein với những trình tự tương đồng trong
CSDL để dự đoán cấu trúc/chức năng protein
chưa biết.
Mục tiêu: trình tự giống nhau
thường biểu hiện chức năng
giống nhau

8

© Eli Koren

Tại sao lại phải so sánh trình tự?
Tìm hiểu các khu vực bảo tồn cao trong
gene – chỉ ra sự quan trọng của chức năng
(e.g., tyrosine có nguồn gốc tiến hóa từ vùng
chứa phosphoryl hóa).

9


© Eli Koren

3


3/25/2014

Tại sao lại phải so sánh trình tự?
Tìm hiểu và nắm bắt được mối quan hệ tiến hóa

10

9/25/2013
© Eli
Koren

Cây phát sinh loài: Cách xây dựng
Sequence A

Sequence B
Sequence C

Sequence D

• Physical position in tree is not
meaningful
• Swiveling can only be done at the
nodes
• Only tree structure matters


Sequence E
Present
Time
11

Cây phát sinh loài: Cách xây dựng
Sequence A

Sequence B

Sequence E

Sequence D

• Physical position in tree is not
meaningful
• Swiveling can only be done at the
nodes
• Only tree structure matters

Sequence C
Present
Time

9/25/2013

12

4



3/25/2014

Tree Terminology
Rooted vs. unrooted trees
A
B

D

B

E

A

C
D
Root

E
C
F

F

Rooted trees: Has a root that denotes common ancestry
Unrooted trees: Only specifies the degree of kinship among taxa but
not the evolutionary path


13

9/25/2013

Tree Terminology
Scaled vs. unscaled trees
A
B
C
D
E
F

Scaled trees: Branch lengths are proportional to the number of
nucleotide/amino acid changes that occurred on that branch (usually
a scale is included).
Unscaled trees: Branch lengths are not proportional to the number
of nucleotide/amino acid changes (usually used to illustrate
evolutionary relationships only).
14

9/25/2013

Tree Terminology
Monophyletic vs. paraphyletic
Saturnite 1

Jupiterian 32


Saturnite 2

Jupiterian 5

Saturnite 3

Jupiterian 67

Martian 1

Human 11

Martian 3

Jupiterian 8

Martian 2

Human 3

Monophyletic groups: All taxa within the group are derived from a
single common ancestor and members form a natural clade.
Paraphyletic groups: The common ancestor is shared by other taxon
in the group and members do not form a natural clade.

9/25/2013

15

5



3/25/2014

CÁC DẠNG CÂY PHÁT SINH LOÀI

Distance
Maximum Parsimony
Maximum Likelihood
Bayesian

ĐỘ TIN CẬY CỦA CÂY PHÁT SINH LOÀI

?

rat
human

?

turtle
?

fruit fly
?

oak
duckweed

17


9/25/2013

Giá trị Bootstrap
Computational method to estimate the confidence level of a certain •
phylogenetic tree.
Pseudo sample 1

Sample
rat
human
turtle
fruitfly
oak
duckweed

rat
human
turtle
fruitfly
oak
duckweed

0123456789
GAGGCTTATC
GTGGCTTATC
GTGCCCTATG
CTCGCCTTTG
ATCGCTCTTG
ATCCCTCCGG


Pseudo sample 2

rat
human
turtle
fruit fly
oak
duckweed

Inferred tree
9/25/2013

001122234556667
GGAAGGGGCTTTTTA
GGTTGGGGCTTTTTA
GGTTGGGCCCCTTTA
CCTTCCCGCCCTTTT
AATTCCCGCTTCCCT
AATTCCCCCTTCCCC

rat
human
turtle
fruitfly
oak
duckweed

445556777888899
CCTTTTAAATTTTCC

CCTTTTAAATTTTCC
CCCCCTAAATTTTGG
CCCCCTTTTTTTTGG
CCTTTCTTTTTTTGG
CCTTTCCCCGGGGGG

Many more replicates
(between 100 - 1000)
18

6


3/25/2014

Giá trị Bootstrap

100
65

rat
human

turtle

0

fruit fly
55


oak
duckweed

• Giá trị ở giá trị %
• Thực tế thực hành: values 60-100% được biểu hiện
•Nếu giá trị bootstrap <50%, Không tin cây

19

9/25/2013

TÌM KIẾM ĐOẠN TRÌNH TỰ CỦA NHÓM
Thay vì được đưa cho 1 đoạn trình tự chưa rõ
(như bài thực hành số 1), bạn sẽ được đưa 1
mã số quản lý Genbank (Genbank Accession
number của trình tự nucleotide
Sử dụng Mã quản lý Genbank để tìm kiếm
trình tự khởi đầu của bạn (theo CSDL
nucleotide)
Tìm mục liên kết ‘protein_id’ để tìm kiếm các
trình tự acid amin (aa sequences)
www.themegallery.com

7


3/25/2014

8



3/25/2014

9


3/25/2014

Sử dụng đoạn trình tự của bạn
Sử dụng đoạn trình tự aa vừa tìm kiếm được
để thực hiện tìm kiếm BLAST (theo Blastp)
qua MEGA4
Xác định các trình tự cho việc phân tích với
tiêu chí:
 Hỗn hợp các loài khác nhau hoặc gen khác
nhau
 Chọn lựa các nhóm có điểm cao (high score)
nhưng bên cạnh đó, lựa chọ những nhóm có
điểm thấp hơn nhằm tăng việc đa dạng trong
cây phát sinh loài (tối thiểu 25 trình
tự/nhóm)

UPLOAD TRÌNH TỰ CỦA BẠN QUA MEGA
Theo ứng dụng trình tự MEGA (Molecular
Evolutionary Genetics Analysis) để thêm các
trình tự và tạo ra việc sắp xếp các trình tự
thẳng hàng

10



3/25/2014

Nhiệm vụ của nhóm
 Tất cả các trình tự nên được upload lên MEGA và lưu
lại cho các phép phân tích về sau
 Tạo các trình tự sắp xếp thẳng hàng, liệt kê lập bảng
gồm 1 nhóm ngoài (outgroup)

Tiêu chí báo cáo tiểu luận nhóm (10%)
Dạng tiểu luận: Nhóm (4-5 Sinh viên)
Assessment: Báo cáo seminar (MS
Powerpoint) (10%)
Báo cáo viết (MS Word) (20%)
Seminar: 10 phút+ 5 phút trả lời câu hỏi
Độ dài báo cáo viết: <= 20 trang
Bài báo cáo seminar có thể là những nhóm
gen liên quan đến báo cáo viết hoặc các bệnh
liên quan đến nhóm aa mà nhóm đang tìm
hiểu….

11


3/25/2014

Cấu trúc bài báo cáo tiểu luận
Cả bài báo cáo nhóm và viết được yêu cầu như
sau:
 Tóm tắt các mục tiêu, phương pháp, kết quả và

kiến nghị cho báo cáo (Summary)
 Tổng quan tài liệu: tìm kiếm thông tin liên quan
các ngữ cảnh/hoàn cảnh nghiên cứu về aa đó &
mục tiêu của nghiên cứu
 Ngắn gọn nói về phương pháp thực hiện với các
tài liệu liên quan đến kỹ thuật tin sinh học
 Sơ đồ khối
 Tin sinh học đóng vai trò cốt yếu như thế nào
cho việc phân tích và phát sinh các CSDL?

Cấu trúc bài báo cáo tiểu luận
Các kết quả chính
 Các nhóm khác nhau có thể sử dụng dạng tiêu
đề (sub-heading) như 1, 1.1, 1.1.1….
 Liên quan đến phương pháp thực hiện
 Sử dụng các sơ đồ, biểu đồ và hình ảnh để đề
cập các kết quả
 Kết quả ngắn gọn, xúc tích, tránh lạc đề
4. Thảo luận và kết luận
 Các kết quả chính và các hàm ý, ghi nhận của
nhóm
 Liên kết với các tài liệu khoa học khác
 Các tìm kiếm xa hơn/sâu hơn/kiến nghị….

Tài liệu tham khảo
>= 15 tài liệu, trong đó ít nhất 8 tài liệu
tiếng Anh & dịch tài liệu.
Sử dụng hỗ trợ EndNote trong việc tạo ra
các tài liệu tham khảo
Phân biệt rõ Tài liệu tiếng Việt & tiếng Anh

làm 2 phần riêng biệt
Tài liệu tiếng Việt sắp xếp A-Z theo tên
(Nguyễn Văn A  Trần Văn B)
Tài liệu tiếng Anh sắp xếp A-Z theo họ (VD:
Smith, J.  William, B.  Yao, M.

12


3/25/2014

TIÊU CHÍ BÁO CÁO SEMINAR

13



×