3/25/2014
LOGO
SẮP XẾP TRÌNH TỰ & ỨNG DỤNG
XÂY DỰNG CÂY PHÁT SINH LOÀI
MÔN TIN SINH HỌC
BÀI TIỂU LUẬN NHÓM
ThS. Nguyễn Thành Luân
BLAST
Homology (Tính đồng đẳng)
Homology =
Similarity
between
objects due
to a
common
ancestry
2
9/25/2013
BLAST
Tính đồng đẳng trình tự
Tính giống nhau giữa các trình tự
như 1 kết quả của 1 nguồn gốc tổ
tiên chung.
Gap
VLSPAV-WAKVGAHAAGHG
||| || |||| | ||||
VLSEAVLWAKVEADVAGHG
Match
Mismatch
3
9/25/2013
3
1
3/25/2014
BLAST
So sánh trình tự
Alignment: So sánh 2 hoặc
nhiều trình tự. Tìm kiếm 1 chuỗi
các ký tự tương đồng hoặc xác
định trong trình tự.
4
9/25/2013
4
Tại sao lại phải so sánh trình tự?
Ở phòng thí nghiệm: Tìm kiếm lỗi trình tự
©
9/25/2013
5
Tại sao lại phải so sánh trình tự?
Tìm kiếm các bệnh liên quan đột biến
So sánh các trình tự ở dạng khỏe mạnh và
nhiễm bệnh
9/25/2013
© Eli
Koren
6
2
3/25/2014
Tại sao lại phải so sánh trình tự?
Tìm kiếm các đoạn Single Nucleotide
Polymorphism (SNPs) trong genome
9/25/2013
© Eli
Koren
7
Tại sao lại phải so sánh trình tự?
Dự đoán cấu trúc hoặc chức năng của
gene/protein với những trình tự tương đồng trong
CSDL để dự đoán cấu trúc/chức năng protein
chưa biết.
Mục tiêu: trình tự giống nhau
thường biểu hiện chức năng
giống nhau
8
© Eli Koren
Tại sao lại phải so sánh trình tự?
Tìm hiểu các khu vực bảo tồn cao trong
gene – chỉ ra sự quan trọng của chức năng
(e.g., tyrosine có nguồn gốc tiến hóa từ vùng
chứa phosphoryl hóa).
9
© Eli Koren
3
3/25/2014
Tại sao lại phải so sánh trình tự?
Tìm hiểu và nắm bắt được mối quan hệ tiến hóa
10
9/25/2013
© Eli
Koren
Cây phát sinh loài: Cách xây dựng
Sequence A
Sequence B
Sequence C
Sequence D
• Physical position in tree is not
meaningful
• Swiveling can only be done at the
nodes
• Only tree structure matters
Sequence E
Present
Time
11
Cây phát sinh loài: Cách xây dựng
Sequence A
Sequence B
Sequence E
Sequence D
• Physical position in tree is not
meaningful
• Swiveling can only be done at the
nodes
• Only tree structure matters
Sequence C
Present
Time
9/25/2013
12
4
3/25/2014
Tree Terminology
Rooted vs. unrooted trees
A
B
D
B
E
A
C
D
Root
E
C
F
F
Rooted trees: Has a root that denotes common ancestry
Unrooted trees: Only specifies the degree of kinship among taxa but
not the evolutionary path
13
9/25/2013
Tree Terminology
Scaled vs. unscaled trees
A
B
C
D
E
F
Scaled trees: Branch lengths are proportional to the number of
nucleotide/amino acid changes that occurred on that branch (usually
a scale is included).
Unscaled trees: Branch lengths are not proportional to the number
of nucleotide/amino acid changes (usually used to illustrate
evolutionary relationships only).
14
9/25/2013
Tree Terminology
Monophyletic vs. paraphyletic
Saturnite 1
Jupiterian 32
Saturnite 2
Jupiterian 5
Saturnite 3
Jupiterian 67
Martian 1
Human 11
Martian 3
Jupiterian 8
Martian 2
Human 3
Monophyletic groups: All taxa within the group are derived from a
single common ancestor and members form a natural clade.
Paraphyletic groups: The common ancestor is shared by other taxon
in the group and members do not form a natural clade.
9/25/2013
15
5
3/25/2014
CÁC DẠNG CÂY PHÁT SINH LOÀI
Distance
Maximum Parsimony
Maximum Likelihood
Bayesian
ĐỘ TIN CẬY CỦA CÂY PHÁT SINH LOÀI
?
rat
human
?
turtle
?
fruit fly
?
oak
duckweed
17
9/25/2013
Giá trị Bootstrap
Computational method to estimate the confidence level of a certain •
phylogenetic tree.
Pseudo sample 1
Sample
rat
human
turtle
fruitfly
oak
duckweed
rat
human
turtle
fruitfly
oak
duckweed
0123456789
GAGGCTTATC
GTGGCTTATC
GTGCCCTATG
CTCGCCTTTG
ATCGCTCTTG
ATCCCTCCGG
Pseudo sample 2
rat
human
turtle
fruit fly
oak
duckweed
Inferred tree
9/25/2013
001122234556667
GGAAGGGGCTTTTTA
GGTTGGGGCTTTTTA
GGTTGGGCCCCTTTA
CCTTCCCGCCCTTTT
AATTCCCGCTTCCCT
AATTCCCCCTTCCCC
rat
human
turtle
fruitfly
oak
duckweed
445556777888899
CCTTTTAAATTTTCC
CCTTTTAAATTTTCC
CCCCCTAAATTTTGG
CCCCCTTTTTTTTGG
CCTTTCTTTTTTTGG
CCTTTCCCCGGGGGG
Many more replicates
(between 100 - 1000)
18
6
3/25/2014
Giá trị Bootstrap
100
65
rat
human
turtle
0
fruit fly
55
oak
duckweed
• Giá trị ở giá trị %
• Thực tế thực hành: values 60-100% được biểu hiện
•Nếu giá trị bootstrap <50%, Không tin cây
19
9/25/2013
TÌM KIẾM ĐOẠN TRÌNH TỰ CỦA NHÓM
Thay vì được đưa cho 1 đoạn trình tự chưa rõ
(như bài thực hành số 1), bạn sẽ được đưa 1
mã số quản lý Genbank (Genbank Accession
number của trình tự nucleotide
Sử dụng Mã quản lý Genbank để tìm kiếm
trình tự khởi đầu của bạn (theo CSDL
nucleotide)
Tìm mục liên kết ‘protein_id’ để tìm kiếm các
trình tự acid amin (aa sequences)
www.themegallery.com
7
3/25/2014
8
3/25/2014
9
3/25/2014
Sử dụng đoạn trình tự của bạn
Sử dụng đoạn trình tự aa vừa tìm kiếm được
để thực hiện tìm kiếm BLAST (theo Blastp)
qua MEGA4
Xác định các trình tự cho việc phân tích với
tiêu chí:
Hỗn hợp các loài khác nhau hoặc gen khác
nhau
Chọn lựa các nhóm có điểm cao (high score)
nhưng bên cạnh đó, lựa chọ những nhóm có
điểm thấp hơn nhằm tăng việc đa dạng trong
cây phát sinh loài (tối thiểu 25 trình
tự/nhóm)
UPLOAD TRÌNH TỰ CỦA BẠN QUA MEGA
Theo ứng dụng trình tự MEGA (Molecular
Evolutionary Genetics Analysis) để thêm các
trình tự và tạo ra việc sắp xếp các trình tự
thẳng hàng
10
3/25/2014
Nhiệm vụ của nhóm
Tất cả các trình tự nên được upload lên MEGA và lưu
lại cho các phép phân tích về sau
Tạo các trình tự sắp xếp thẳng hàng, liệt kê lập bảng
gồm 1 nhóm ngoài (outgroup)
Tiêu chí báo cáo tiểu luận nhóm (10%)
Dạng tiểu luận: Nhóm (4-5 Sinh viên)
Assessment: Báo cáo seminar (MS
Powerpoint) (10%)
Báo cáo viết (MS Word) (20%)
Seminar: 10 phút+ 5 phút trả lời câu hỏi
Độ dài báo cáo viết: <= 20 trang
Bài báo cáo seminar có thể là những nhóm
gen liên quan đến báo cáo viết hoặc các bệnh
liên quan đến nhóm aa mà nhóm đang tìm
hiểu….
11
3/25/2014
Cấu trúc bài báo cáo tiểu luận
Cả bài báo cáo nhóm và viết được yêu cầu như
sau:
Tóm tắt các mục tiêu, phương pháp, kết quả và
kiến nghị cho báo cáo (Summary)
Tổng quan tài liệu: tìm kiếm thông tin liên quan
các ngữ cảnh/hoàn cảnh nghiên cứu về aa đó &
mục tiêu của nghiên cứu
Ngắn gọn nói về phương pháp thực hiện với các
tài liệu liên quan đến kỹ thuật tin sinh học
Sơ đồ khối
Tin sinh học đóng vai trò cốt yếu như thế nào
cho việc phân tích và phát sinh các CSDL?
Cấu trúc bài báo cáo tiểu luận
Các kết quả chính
Các nhóm khác nhau có thể sử dụng dạng tiêu
đề (sub-heading) như 1, 1.1, 1.1.1….
Liên quan đến phương pháp thực hiện
Sử dụng các sơ đồ, biểu đồ và hình ảnh để đề
cập các kết quả
Kết quả ngắn gọn, xúc tích, tránh lạc đề
4. Thảo luận và kết luận
Các kết quả chính và các hàm ý, ghi nhận của
nhóm
Liên kết với các tài liệu khoa học khác
Các tìm kiếm xa hơn/sâu hơn/kiến nghị….
Tài liệu tham khảo
>= 15 tài liệu, trong đó ít nhất 8 tài liệu
tiếng Anh & dịch tài liệu.
Sử dụng hỗ trợ EndNote trong việc tạo ra
các tài liệu tham khảo
Phân biệt rõ Tài liệu tiếng Việt & tiếng Anh
làm 2 phần riêng biệt
Tài liệu tiếng Việt sắp xếp A-Z theo tên
(Nguyễn Văn A Trần Văn B)
Tài liệu tiếng Anh sắp xếp A-Z theo họ (VD:
Smith, J. William, B. Yao, M.
12
3/25/2014
TIÊU CHÍ BÁO CÁO SEMINAR
13