5/7/2015
Khóa học:
Tin Sinh Học: Lắp ráp, Dự đoán,
Chú giải và Phân tích Hệ gen
Giảng viên:
TS. Nguyễn Cường
TS. Dương Quốc Chính
Trợ giảng:
Nguyễn Văn Lâm
Phạm Quang Huy
Nguyễn Quốc Đại
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
2
Chú giải và phân tích hệ gen
1
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
3
Đặt vấn đề
1. Có 1 chuỗi trình tự DNA hoặc protein, làm thế nào để
biết chuỗi trình tự mang chức năng sinh học gì?
2. Có 50000 chuỗi trình tự trong tay, có những cách nào
có thể khai phá từ khối dữ liệu khổng lồ này?
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
4
Nội dung
• Lý thuyết: cơ chế tìm kiếm trong:
• BLAST
• InterProScan
• BLAST2GO
• Thực hành:
• BLAST
• InterProScan
• BLAST2GO
2
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
5
Quy trình chú giải chức năng
Trình tự DNA
(hoặc protein)
Phần mềm
BLAST
NCBI-nr
InterPro
Trình tự được
chú giải bằng
BLAST
Phần mềm
InterProScan
Trình tự được chú giải
bằng InterProScan
Gene
Ontology
Enzyme
Phần mềm
BLAST2GO
KEGG
Trình tự được chú giải
chức năng.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
6
Quy trình chú giải chức năng
Trình tự DNA
(hoặc protein)
Phần mềm
BLAST
NCBI-nr
InterPro
Trình tự được
chú giải bằng
BLAST
Phần mềm
InterProScan
Trình tự được chú giải
bằng InterProScan
Gene
Ontology
Enzyme
Phần mềm
BLAST2GO
KEGG
Trình tự được chú giải
chức năng.
3
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
7
Sequence alignment là gì?
Alignment (Gióng hàng): So sánh 2 (pairwise) hoặc nhiều
(multiple) trình tự với nhau để tìm ra những vùng trình tự
giống hoặc tương đồng giữa chúng.
MVNLTSDEKTAVLALWNKVDVEDCGGE
|| || ||||| ||| || ||
||
MVHLTPEEKTAVNALWGKVNVDAVGGE
Kết quả alignment:
8 mismatches
18 matches
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
Global vs. Local alignment
• Global alignment – Sắp gióng cột trên
toàn bộ chiều dài (bao gồm cả hai đầu
của mỗi trình tự).
• Local alignment – chỉ đưa ra những
8
Global
alignment:
Áp dụng cho
so sánh các
trình tự
ortholog với
nhau (tiến hóa)
Local
alignment:
Xác định các
vùng chức
năng trong
protein.
vùng tương đồng nhất giữa 2 trình tự.
4
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
9
Local alignment thích hợp với chú giải chức năng
3 kết quả alignment, 3 ý nghĩa khác nhau
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
10
1. BLAST
• Basic Local Alignment Search Tool
• Altschul và cs. 1990,1994,1997
• Là công cụ tìm kiếm tương đồng rất phổ biến, dựa trên
thuật toán Smith Waterman.
• Có thể tìm ra các đoạn local alignment tốt nhất phục vụ
chú giải chức năng.
• Được phát triển cả trên web và standalone.
5
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
11
Cơ chế tìm kiếm trong BLAST
Cơ sở dữ liệu
NCBI
Trình tự query
MEAAVKEEISVEDEAVDKNI
MEA
EAA
AAV
AVK
VKE
KEE
EEI
EIS
ISV
...
Cắt nhỏ trình tự
query thành các
words có kích
thước là 3
Cắt nhỏ các trình
tự trong cơ sở dữ
liệu thành các
word cũng có
kích thước là 3
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
12
Cơ chế tìm kiếm trong BLAST
Danh sách word được cắt
nhỏ của trình tự query:
MEA
EAA
AAV
AVK
VKL
KEE
EEI
EIS
ISV
Dánh sách các word được cắt nhỏ
trong cơ sở dữ liệu
?
…
RTT
SDG
SRW
QEL
VKI
DKI
LFC
AAV
PFR
AAQ
KSS
LLN
RWY
GKG
NIS
WDV
KVR
DEI
…
So sánh các word
với nhau
6
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
13
Cơ chế tìm kiếm trong BLAST
Trình tự query
MEA
EAA
AAV
AVK
KLV
KEE
EEI
EIS
ISV
Cơ sở dữ liệu
NCBI
ELEPRRPRYRVPDVLVADPPIARLSVSGRDENSVELTMEAT
TDVRWMSETGIIDVFLLLGPSISDVFRQYASLTGTQALPPLFSLGYHQSRWNY
IWLDIEEIHADGKRYFTWDPSRFPQPRTMLERLASKRRV KLVAIVDPH
Tìm vị trí của các word giống nhau trên
các trình tự của cơ sở dữ liệu
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
14
Cơ chế tìm kiếm trong BLAST
Trình tự cơ sở dữ liệu
Mở rộng tìm kiếm
trên trình tự của
cơ sở dữ liệu
Trình tự query
Word
Độ dài mở rộng
tối đa = kết quả
BLAST
Word được tìm thấy trên trình tự cơ sở dữ liệu sẽ được
mở rộng về 2 bên để tiếp tục tìm kiếm sự tương đồng.
7
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
Kết quả BLAST
15
Thanh trên cùng có
các ô màu khác nhau
là thanh đơn vị đo
điểm số alignment
(Score)
Thanh đơn vị này
(Query) thể hiện độ
dài bp của toàn bộ
trình tự input
Các thanh này là kết quả các trình
tự được tìm thấy trên cơ sở dữ liệu,
đi kèm là màu sắc thể hiện điểm số
alignment và vùng alignment (HSP)
tương ứng với vị trí trên trình tự
query.
Đường thẳng nhỏ
(dấu *) thể hiện có
2 vùng alignment
trên cùng một trình
tự kết quả.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
16
Danh sách BLAST “hit”:
Max score: Điểm số (score) alignment cao nhất của vùng alignment (HSP) giữa
trình tự query và trình tự trên cơ sở dữ liệu.
Total score: Tổng điểm số (score) alignment của tất cả các vùng alignment
(HSP) cộng lại. Total score khác với max score khi xảy ra trường hợp nhiều vùng
alignment (HSP) đến từ cùng một trình tự trên cơ sở dữ liệu (dấu *).
Query coverage: Phần trăm độ dài giữa vùng alignment (HSP) và độ dài query
E-value: Độ tin cậy của kết quả, e-value càng thấp kết quả càng tin tưởng.
8
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
17
Kết quả chi tiết BLAST
Bit-score:
dạng log của
score
Identity: số
base giống
hệt nhau.
E-value
Similarity (Positive):
Số base tương
đồng nhau.
Số lượng đoạn
trống (GAP)
trong alignment.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
18
Kết luận
• Gợi ý tham số BLAST:
E-value
Sequence identity
Nucleotide
≤ 1e-6
≥ 70%
Protein
≥ 1e-3
≥ 25%
Các tham số này chỉ mang ý nghĩa tham khảo, kết
luận chính xác nhất về một kết quả BLAST chỉ khi
đánh giá được alignment của kết quả đó.
(Nguồn: Chapter 11 – Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins)
9
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
19
Bài tập 1: thực hành BLAST
I. Download toàn bộ protein của chủng E.coli DH10B trên
NCBI.
1. Vào trang NCBI BioProject và download:
/>
2. Nhấn vào con số “4126” ở mục Protein Sequence (đây chính là
3.
4.
5.
6.
tổng số protein tìm thấy trong chủng E.coli DH10B)
Nhấn vào nút “Send” ở góc trên cùng bên phải
Chọn “Destination” -> “File”-> “Format: FASTA” -> “Creat file”
Sau khi download file về máy, đổi tên thành “DH10B.fasta”
Sử dụng FileZilla để upload file DH10B.fasta lên máy chủ và cất
ở thư mục của bạn. (ví dụ: /home/hocvien1)
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
20
Bài tập 1: thực hành BLAST
II. Chuẩn bị cơ sở dữ liệu:
Để có thể giúp BLAST hiểu được bạn muốn tìm kiếm trình tự trên
file DH10B.fasta, bạn phải chuyển file fasta thành 1 cơ sở dữ liệu
dựa vào script “makeblastdb” có sẵn trong phần mềm BLAST+ :
makeblastdb –in DH10B.fasta –out DH10B –dbtype prot
Trong đó:
-in file được chọn để làm cơ sở dữ liệu BLAST
-out tên cơ sở dữ liệu
-dbtype dạng cơ sở dữ liệu là protein (nếu là
nucleotide thì để nucl)
10
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
21
Bài tập 1: thực hành BLAST
III. Một nhóm nghiên cứu thiết kế mồi và muốn câu protein “30S ribosomal
subunit S1” từ E.coli DH10B, nhóm mang mẫu đi giải trình tự Sanger thu
được file Sanger.fasta đặt trong thư mục:
/data/BIC15/6.annotation/Sanger.fasta
IV. Từ bộ protein của chủng E.coli DH10B đã được công bố trên NCBI (project20079), ta sử dụng blastp để tìm kiếm trình tự Sanger.fasta trên bộ dữ
liệu này:
blastp –num_thread 2 –db DH10B –query Sanger.fasta /
–out ketqua.xml –evalue 1e-6 –outfmt 5
Trong đó:
–num_thread: số lượng CPU sử dụng
-db: cơ sở dữ liệu sử dụng
-query trình tự cần kiểm tra
-out: tên file đầu ra
-evalue ngưỡng độ tin cậy e-value cao nhất
-outfmt định dạng file số 5, có dạng file là XML, định dạng file
này có thể xem bằng phần mềm EPOS – Blast Viewer.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
22
Bài tập 1: thực hành BLAST
V. Đáp án bài tập: sau khi đã tạo ra được file ketqua.xml, học viên có
thể mở ra bằng EPOS và đánh giá kêt quả BLAST. Dưới đây là các kết
quả mà học viên cần đạt được.
1. Tạo cơ sở dữ liệu DH10B.
Phần mềm thông báo tạo thành công cơ sở dữ liệu
11
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
23
Bài tập 1: thực hành BLAST
V. Đáp án bài tập:
2.
Mở phần mềm EPOS -> chọn BLAST Viewer -> Import File -> chọn file
ketqua.xml -> nhấn OK
Kết quả trình tự cần kiểm tra có 3 kết quả tìm thấy, trong đó trình tự tin cậy nhất trả
về “30S ribosomal subunit” S1 trên chủng E.coli DH10B.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
24
Bài tập 1: thực hành BLAST
V. Đáp án bài tập:
2.
Mở phần mềm EPOS -> chọn BLAST Viewer -> Import File -> chọn file
ketqua.xml -> nhấn OK
Kết quả trình tự cần kiểm tra có 3 kết quả tìm thấy, trong đó trình tự tin cậy nhất trả
đúng về kết quả 30S ribosomal subunit S1 trên chủng E.coli DH10B.
12
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
25
Quy trình chú giải chức năng
Trình tự DNA
(hoặc protein)
Phần mềm
BLAST
NCBI-nr
…
InterPro
…
Trình tự được
chú giải bằng
BLAST
Phần mềm
InterProScan
Trình tự được chú giải
bằng InterProScan
Gene
Ontology
Enzyme
Phần mềm
BLAST2GO
KEGG
Trình tự được chú giải
chức năng.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
26
2. InterProScan
Là tập hợp của 11
ngân hàng protein lớn
nhất trên thế giới
13
5/7/2015
Database
Trung tâm
Cấu trúc dữ liệu
Phương pháp chú giải
URL
Pfam
Sanger Institute
Sequence alignment
Family & Domain based on
conserved sequence
/>
Gene3D
UCL
Structure
alignment
Structural Domain
.u
k/Gene3D/
Superfamily
Uni. of Bristol
Structure
alignment
Evolutionary domain
relationships
/>PERFAMILY/
SMART
EMBL Heidelberg
Sequence alignment
Functional domain
annotation
/>
TIGRFAM
J. Craig Venter Inst.
Sequence alignment
Microbial Functional
Family Classification
/>ch/projects/tigrfams/overview/
Panther
Uni. S. California
Sequence alignment
Family functional
classification
/>
PIRSF
PIR, Georgetown,
Washington D.C.
Sequence alignment
Functional classification
/>ww/dbinfo/pirsf.shtml
PRINTS
Uni. of Manchester
Sequence alignment
Family functional
classification
chester.
ac.uk/dbbrowser/PRINTS/inde
x.php
PROSITE
SIB
Sequence alignment
Functional annotation
/>
HAMAP
SIB
Sequence alignment
Microbial protein family
classification
/>
ProDom
PRABI : Rhône-Alpes
Bioinformatics Center
Sequence alignment
Conserved domain
prediction
/>current/html/home.php
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
28
Limitations with Pairwise comparisons
14
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
29
Protein signatures database
Xây dựng mô hình
Protein family/domain
Tìm kiếm
Multiple sequence alignment
1
Xây dựng lại
mô hình
Protein
signature
2
3
Kết quả mới
ITWKGPVCGLDGKTYRNECALL
E-value 1e-49
AVPRSPVCGSDDVTYANECELK
E-value 3e-42
SVPRSPVCGSDGVTYGTECDLK
E-value 5e-39
HPPPGPVCGTDGLTYDNRCELR
E-value 6e-10
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
30
Tìm kiếm trên InterPro database
/>
Điền trình tự protein
Chọn cơ sở dữ liệu
15
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
31
/>Download
kết quả về
máy tính
Family
và domain
Sequence
feature
Unintegrated
signatures
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
32
/>
Đường dẫn đến InterPro entry
Đường dẫn đến
signature databases
16
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
33
Bài tập 2: thực hành InterProScan
I. Tương tự với BLAST, ta sẽ phân tích trình tự
II.
III.
IV.
V.
Sanger.fasta để phân loại trình tự này thuộc vào họ
(family) nào và có những domain nào.
Truy cập www.ebi.ac.uk/interpro/sequencesearch
Dán trình tự vào ô “Analyse your protein sequence”
Nhấn search
Quan sát kết quả
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
34
Bài tập 2: thực hành InterProScan
Kết quả phân tích trình tự Sanger.fasta
17
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
35
Quy trình chú giải chức năng
Trình tự DNA
(hoặc protein)
Phần mềm
BLAST
NCBI-nr
…
InterPro
…
Trình tự được
chú giải bằng
BLAST
Phần mềm
InterProScan
Trình tự được chú giải
bằng InterProScan
Gene
Ontology
Enzyme
Phần mềm
BLAST2GO
KEGG
Trình tự được chú giải
chức năng.
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
36
Gene Ontology là gì?
Gene ontology là một quyển từ điển chứa các thuật
ngữ sinh học được liên kết với nhau và giải quyết
được 2 vấn đề lớn nhất trong chú giải chức năng:
• Từ đa nghĩa (nhiều sự vật được mô tả bởi cùng 1
thuật ngữ)
• Từ đồng nghĩa (một sự vật được mô tả bởi nhiều
thuật ngữ)
18
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
37
Từ đa nghĩa
Cell
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
•
•
•
•
•
38
Glucose synthesis
Glucose biosynthesis
Glucose formation
Glucose anabolism
Gluconeogenesis
Từ đồng nghĩa
19
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
39
Gene Ontology
Thông tin có được từ một protein (sản phẩm gene):
• Protein đó có chức năng gì?
• Chức năng đó thực hiện ở đâu?
• Chức năng đó thực hiện như thế nào?
Gene Ontology
•
•
1. Molecular Function
protein kinase activity
insulin receptor activity
Chức năng của protein
2. Biological Process
Các quá trình mà protein tham gia
•
cell division
• mitochondrion
3. Cellular Component
Khu vực mà protein hoạt động
• mitochondrial matrix
• mitochondrial inner membrane
20
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
A0A087WNN3
41
Cách tạo ra Gene Ontology
PMID: PMC2680341
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
42
Bằng chứng thực nghiệm của gene ontology
Inhibition of Btk kinase activity by IBtk
21
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
43
Bằng chứng thực nghiệm của gene ontology
Protein tyrosine kinase inhibitor activity
GO:0030292
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
44
Bằng chứng thực nghiệm của gene ontology
Các bằng chứng từ thực nghiệm khẳng định
protein Ibtk mang các mã chức năng trên và
được xếp vào nhóm IDA (thực nghiệm)
Negative regulation of protein amino acid phosphorylation
GO:0001993
22
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
GO EVIDENCE CODES
Direct Evidence Codes
IDA - inferred from direct assay
IEP - inferred from expression pattern
IGI - inferred from genetic interaction
IMP - inferred from mutant phenotype
IPI - inferred from physical interaction
45
Evidence codes
/>dence.shtml
Indirect Evidence Codes
inferred from literature
IGC - inferred from genomic context
TAS - traceable author statement
NAS - non-traceable author statement
IC - inferred by curator
inferred by sequence analysis
RCA - inferred from reviewed computational analysis
IS* - inferred from sequence*
IEA - inferred from electronic annotation
Other
NR - not recorded (historical)
ND - no biological data available
ISS - inferred from sequence or structural similarity
ISA - inferred from sequence alignment
ISO - inferred from sequence orthology
ISM - inferred from sequence model
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
GO EVIDENCE CODES
GO Mapping
Example
Direct
Evidence Codes
IDA - inferred from direct assay
IEP - inferred from expression pattern
IGI - inferred from genetic interaction
IMP - inferred from mutant phenotype
IPI - inferred from physical interaction
Indirect Evidence Codes
inferred from literature
IGC - inferred from genomic context
TAS - traceable author statement
NAS - non-traceable author statement
IC - inferred by curator
NDUFAB1
inferred
by sequence analysis
RCA - inferred from reviewed computational analysis
IS* - inferred from sequence*
IEA - inferred from electronic annotation
46
Bằng chứng dạng tài liệu
(literature):
• Chi tiết
• Độ chính cao
• “Lâu” (vì cần thực nghiệm)
Other
NR - not recorded (historical)
ND - no biological data available
23
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
GO EVIDENCE CODES
Direct Evidence Codes
GO
Mapping
IDA
- inferred
fromExample
direct assay
IEP - inferred from expression pattern
IGI - inferred from genetic interaction
IMP - inferred from mutant phenotype
IPI - inferred from physical interaction
Bằng chứng dạng tài liệu
(literature):
• Chi tiết hơn
• Độ chính cao
• “Lâu” (vì cần thực nghiệm)
Indirect Evidence Codes
inferred from literature
IGC - inferred from genomic context
TAS - traceable author statement
NAS - non-traceable author statement
IC - inferred by curator
inferred by sequence analysis
RCANDUFAB1
- inferred from reviewed computational analysis
IS* - inferred from sequence*
IEA - inferred from electronic annotation
Other
NR - not recorded (historical)
ND - no biological data available
47
Bằng chứng dạng máy tính
• Nhanh (computational)
• Độ chính xác thấp hơn
• Ít chi tiết hơn
ISS - inferred from sequence or structural similarity
ISA - inferred from sequence alignment
ISO - inferred from sequence orthology
ISM - inferred from sequence model
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
48
Ứng dụng của Gene Ontology
NDUFAB1 (UniProt P52505)
Bovine NADH dehydrogenase (ubiquinone) 1, alpha/beta subcomplex, 1, 8kDa
Biological Process (BP or P)
GO:0006633 fatty acid biosynthetic process TAS
GO:0006120 mitochondrial electron transport, NADH to ubiquinone TAS
GO:0008610 lipid biosynthetic process IEA
NDUFAB1
Molecular Function (MF or F)
GO:0005504 fatty acid binding IDA
GO:0008137 NADH dehydrogenase (ubiquinone) activity TAS
GO:0016491 oxidoreductase activity TAS
GO:0000036 acyl carrier activity IEA
Cellular Component (CC or C)
GO:0005759 mitochondrial matrix IDA
GO:0005747 mitochondrial respiratory chain complex I IDA
GO:0005739 mitochondrion IEA
24
5/7/2015
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
49
Ví dụ về chú giải Gene Ontology
NDUFAB1 (UniProt P52505)
Bovine NADH dehydrogenase (ubiquinone) 1, alpha/beta subcomplex, 1, 8kDa
GO:ID (unique)
GO evidence code
GO term name
Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org
Mối quan hệ
giữa các thuật
ngữ
50
Ontologies
Mã số
Mô tả
thuật ngữ
Gene Ontology hiện có
40.000 thuật ngữ (05/05/2015)
25