Tải bản đầy đủ (.pdf) (49 trang)

Tin Sinh Học: Lắp ráp, Dự đoán, Chú giải và Phân tích Hệ gen

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (4.11 MB, 49 trang )

5/7/2015

Khóa học:

Tin Sinh Học: Lắp ráp, Dự đoán,
Chú giải và Phân tích Hệ gen
Giảng viên:

TS. Nguyễn Cường
TS. Dương Quốc Chính

Trợ giảng:

Nguyễn Văn Lâm
Phạm Quang Huy
Nguyễn Quốc Đại

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

2

Chú giải và phân tích hệ gen

1


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

3



Đặt vấn đề

1. Có 1 chuỗi trình tự DNA hoặc protein, làm thế nào để

biết chuỗi trình tự mang chức năng sinh học gì?
2. Có 50000 chuỗi trình tự trong tay, có những cách nào
có thể khai phá từ khối dữ liệu khổng lồ này?

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

4

Nội dung
• Lý thuyết: cơ chế tìm kiếm trong:
• BLAST
• InterProScan
• BLAST2GO
• Thực hành:
• BLAST
• InterProScan
• BLAST2GO

2


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org


5

Quy trình chú giải chức năng
Trình tự DNA
(hoặc protein)
Phần mềm
BLAST

NCBI-nr

InterPro

Trình tự được
chú giải bằng
BLAST

Phần mềm
InterProScan

Trình tự được chú giải
bằng InterProScan

Gene
Ontology

Enzyme

Phần mềm
BLAST2GO


KEGG
Trình tự được chú giải
chức năng.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

6

Quy trình chú giải chức năng
Trình tự DNA
(hoặc protein)
Phần mềm
BLAST

NCBI-nr

InterPro

Trình tự được
chú giải bằng
BLAST

Phần mềm
InterProScan

Trình tự được chú giải
bằng InterProScan

Gene
Ontology


Enzyme

Phần mềm
BLAST2GO

KEGG

Trình tự được chú giải
chức năng.

3


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

7

Sequence alignment là gì?
Alignment (Gióng hàng): So sánh 2 (pairwise) hoặc nhiều
(multiple) trình tự với nhau để tìm ra những vùng trình tự
giống hoặc tương đồng giữa chúng.

MVNLTSDEKTAVLALWNKVDVEDCGGE
|| || ||||| ||| || ||
||
MVHLTPEEKTAVNALWGKVNVDAVGGE
Kết quả alignment:

8 mismatches
18 matches

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

Global vs. Local alignment
• Global alignment – Sắp gióng cột trên

toàn bộ chiều dài (bao gồm cả hai đầu
của mỗi trình tự).

• Local alignment – chỉ đưa ra những

8

Global
alignment:
Áp dụng cho
so sánh các
trình tự
ortholog với
nhau (tiến hóa)

Local
alignment:
Xác định các
vùng chức
năng trong
protein.


vùng tương đồng nhất giữa 2 trình tự.

4


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

9

Local alignment thích hợp với chú giải chức năng

3 kết quả alignment, 3 ý nghĩa khác nhau

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

10

1. BLAST
• Basic Local Alignment Search Tool
• Altschul và cs. 1990,1994,1997

• Là công cụ tìm kiếm tương đồng rất phổ biến, dựa trên

thuật toán Smith Waterman.
• Có thể tìm ra các đoạn local alignment tốt nhất phục vụ
chú giải chức năng.
• Được phát triển cả trên web và standalone.


5


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

11

Cơ chế tìm kiếm trong BLAST
Cơ sở dữ liệu
NCBI

Trình tự query

MEAAVKEEISVEDEAVDKNI
MEA
EAA
AAV
AVK
VKE
KEE
EEI
EIS
ISV
...

Cắt nhỏ trình tự
query thành các
words có kích

thước là 3

Cắt nhỏ các trình
tự trong cơ sở dữ
liệu thành các
word cũng có
kích thước là 3

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

12

Cơ chế tìm kiếm trong BLAST
Danh sách word được cắt
nhỏ của trình tự query:
MEA
EAA
AAV
AVK
VKL
KEE
EEI
EIS
ISV

Dánh sách các word được cắt nhỏ
trong cơ sở dữ liệu

?




RTT
SDG
SRW
QEL
VKI
DKI
LFC
AAV
PFR

AAQ
KSS
LLN
RWY
GKG
NIS
WDV
KVR
DEI


So sánh các word
với nhau

6


5/7/2015


Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

13

Cơ chế tìm kiếm trong BLAST
Trình tự query

MEA
EAA
AAV
AVK
KLV
KEE
EEI
EIS
ISV

Cơ sở dữ liệu
NCBI

ELEPRRPRYRVPDVLVADPPIARLSVSGRDENSVELTMEAT

TDVRWMSETGIIDVFLLLGPSISDVFRQYASLTGTQALPPLFSLGYHQSRWNY

IWLDIEEIHADGKRYFTWDPSRFPQPRTMLERLASKRRV KLVAIVDPH

Tìm vị trí của các word giống nhau trên
các trình tự của cơ sở dữ liệu


Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

14

Cơ chế tìm kiếm trong BLAST
Trình tự cơ sở dữ liệu

Mở rộng tìm kiếm
trên trình tự của
cơ sở dữ liệu

Trình tự query
Word

Độ dài mở rộng
tối đa = kết quả
BLAST

Word được tìm thấy trên trình tự cơ sở dữ liệu sẽ được
mở rộng về 2 bên để tiếp tục tìm kiếm sự tương đồng.

7


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

Kết quả BLAST


15

Thanh trên cùng có
các ô màu khác nhau
là thanh đơn vị đo
điểm số alignment
(Score)
Thanh đơn vị này
(Query) thể hiện độ
dài bp của toàn bộ
trình tự input

Các thanh này là kết quả các trình
tự được tìm thấy trên cơ sở dữ liệu,
đi kèm là màu sắc thể hiện điểm số
alignment và vùng alignment (HSP)
tương ứng với vị trí trên trình tự
query.

Đường thẳng nhỏ
(dấu *) thể hiện có
2 vùng alignment
trên cùng một trình
tự kết quả.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

16

Danh sách BLAST “hit”:


Max score: Điểm số (score) alignment cao nhất của vùng alignment (HSP) giữa
trình tự query và trình tự trên cơ sở dữ liệu.
Total score: Tổng điểm số (score) alignment của tất cả các vùng alignment
(HSP) cộng lại. Total score khác với max score khi xảy ra trường hợp nhiều vùng
alignment (HSP) đến từ cùng một trình tự trên cơ sở dữ liệu (dấu *).
Query coverage: Phần trăm độ dài giữa vùng alignment (HSP) và độ dài query
E-value: Độ tin cậy của kết quả, e-value càng thấp kết quả càng tin tưởng.

8


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

17

Kết quả chi tiết BLAST
Bit-score:
dạng log của
score

Identity: số
base giống
hệt nhau.

E-value

Similarity (Positive):

Số base tương
đồng nhau.
Số lượng đoạn
trống (GAP)
trong alignment.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

18

Kết luận
• Gợi ý tham số BLAST:
E-value

Sequence identity

Nucleotide

≤ 1e-6

≥ 70%

Protein

≥ 1e-3

≥ 25%

Các tham số này chỉ mang ý nghĩa tham khảo, kết
luận chính xác nhất về một kết quả BLAST chỉ khi

đánh giá được alignment của kết quả đó.

(Nguồn: Chapter 11 – Bioinformatics: A Practical Guide to the Analysis of Genes and Proteins)

9


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

19

Bài tập 1: thực hành BLAST
I. Download toàn bộ protein của chủng E.coli DH10B trên
NCBI.
1. Vào trang NCBI BioProject và download:
/>
2. Nhấn vào con số “4126” ở mục Protein Sequence (đây chính là
3.
4.
5.
6.

tổng số protein tìm thấy trong chủng E.coli DH10B)
Nhấn vào nút “Send” ở góc trên cùng bên phải
Chọn “Destination” -> “File”-> “Format: FASTA” -> “Creat file”
Sau khi download file về máy, đổi tên thành “DH10B.fasta”
Sử dụng FileZilla để upload file DH10B.fasta lên máy chủ và cất
ở thư mục của bạn. (ví dụ: /home/hocvien1)


Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

20

Bài tập 1: thực hành BLAST
II. Chuẩn bị cơ sở dữ liệu:
Để có thể giúp BLAST hiểu được bạn muốn tìm kiếm trình tự trên
file DH10B.fasta, bạn phải chuyển file fasta thành 1 cơ sở dữ liệu
dựa vào script “makeblastdb” có sẵn trong phần mềm BLAST+ :
makeblastdb –in DH10B.fasta –out DH10B –dbtype prot
Trong đó:
-in file được chọn để làm cơ sở dữ liệu BLAST
-out tên cơ sở dữ liệu
-dbtype dạng cơ sở dữ liệu là protein (nếu là
nucleotide thì để nucl)

10


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

21

Bài tập 1: thực hành BLAST
III. Một nhóm nghiên cứu thiết kế mồi và muốn câu protein “30S ribosomal

subunit S1” từ E.coli DH10B, nhóm mang mẫu đi giải trình tự Sanger thu

được file Sanger.fasta đặt trong thư mục:
/data/BIC15/6.annotation/Sanger.fasta

IV. Từ bộ protein của chủng E.coli DH10B đã được công bố trên NCBI (project20079), ta sử dụng blastp để tìm kiếm trình tự Sanger.fasta trên bộ dữ
liệu này:
blastp –num_thread 2 –db DH10B –query Sanger.fasta /
–out ketqua.xml –evalue 1e-6 –outfmt 5
Trong đó:
–num_thread: số lượng CPU sử dụng
-db: cơ sở dữ liệu sử dụng
-query trình tự cần kiểm tra
-out: tên file đầu ra
-evalue ngưỡng độ tin cậy e-value cao nhất
-outfmt định dạng file số 5, có dạng file là XML, định dạng file
này có thể xem bằng phần mềm EPOS – Blast Viewer.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

22

Bài tập 1: thực hành BLAST
V. Đáp án bài tập: sau khi đã tạo ra được file ketqua.xml, học viên có
thể mở ra bằng EPOS và đánh giá kêt quả BLAST. Dưới đây là các kết
quả mà học viên cần đạt được.

1. Tạo cơ sở dữ liệu DH10B.

Phần mềm thông báo tạo thành công cơ sở dữ liệu

11



5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

23

Bài tập 1: thực hành BLAST
V. Đáp án bài tập:
2.

Mở phần mềm EPOS -> chọn BLAST Viewer -> Import File -> chọn file
ketqua.xml -> nhấn OK

Kết quả trình tự cần kiểm tra có 3 kết quả tìm thấy, trong đó trình tự tin cậy nhất trả
về “30S ribosomal subunit” S1 trên chủng E.coli DH10B.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

24

Bài tập 1: thực hành BLAST
V. Đáp án bài tập:
2.

Mở phần mềm EPOS -> chọn BLAST Viewer -> Import File -> chọn file
ketqua.xml -> nhấn OK

Kết quả trình tự cần kiểm tra có 3 kết quả tìm thấy, trong đó trình tự tin cậy nhất trả

đúng về kết quả 30S ribosomal subunit S1 trên chủng E.coli DH10B.

12


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

25

Quy trình chú giải chức năng
Trình tự DNA
(hoặc protein)
Phần mềm
BLAST

NCBI-nr


InterPro


Trình tự được
chú giải bằng
BLAST

Phần mềm
InterProScan


Trình tự được chú giải
bằng InterProScan

Gene
Ontology

Enzyme

Phần mềm
BLAST2GO

KEGG
Trình tự được chú giải
chức năng.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

26

2. InterProScan

Là tập hợp của 11
ngân hàng protein lớn
nhất trên thế giới

13


5/7/2015


Database

Trung tâm

Cấu trúc dữ liệu

Phương pháp chú giải

URL

Pfam

Sanger Institute

Sequence alignment

Family & Domain based on
conserved sequence

/>
Gene3D

UCL

Structure
alignment

Structural Domain

.u

k/Gene3D/

Superfamily

Uni. of Bristol

Structure
alignment

Evolutionary domain
relationships

/>PERFAMILY/

SMART

EMBL Heidelberg

Sequence alignment

Functional domain
annotation

/>
TIGRFAM

J. Craig Venter Inst.

Sequence alignment


Microbial Functional
Family Classification

/>ch/projects/tigrfams/overview/

Panther

Uni. S. California

Sequence alignment

Family functional
classification

/>
PIRSF

PIR, Georgetown,
Washington D.C.

Sequence alignment

Functional classification

/>ww/dbinfo/pirsf.shtml

PRINTS

Uni. of Manchester


Sequence alignment

Family functional
classification

chester.
ac.uk/dbbrowser/PRINTS/inde
x.php

PROSITE

SIB

Sequence alignment

Functional annotation

/>
HAMAP

SIB

Sequence alignment

Microbial protein family
classification

/>
ProDom


PRABI : Rhône-Alpes
Bioinformatics Center

Sequence alignment

Conserved domain
prediction

/>current/html/home.php

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

28

Limitations with Pairwise comparisons

14


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

29

Protein signatures database
Xây dựng mô hình

Protein family/domain


Tìm kiếm

Multiple sequence alignment

1

Xây dựng lại
mô hình
Protein
signature

2

3

Kết quả mới

ITWKGPVCGLDGKTYRNECALL

E-value 1e-49

AVPRSPVCGSDDVTYANECELK

E-value 3e-42

SVPRSPVCGSDGVTYGTECDLK

E-value 5e-39

HPPPGPVCGTDGLTYDNRCELR


E-value 6e-10

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

30

Tìm kiếm trên InterPro database
/>
Điền trình tự protein

Chọn cơ sở dữ liệu

15


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

31

/>Download
kết quả về
máy tính
Family
và domain

Sequence
feature

Unintegrated
signatures

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

32

/>
Đường dẫn đến InterPro entry

Đường dẫn đến
signature databases

16


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

33

Bài tập 2: thực hành InterProScan
I. Tương tự với BLAST, ta sẽ phân tích trình tự

II.
III.
IV.
V.


Sanger.fasta để phân loại trình tự này thuộc vào họ
(family) nào và có những domain nào.
Truy cập www.ebi.ac.uk/interpro/sequencesearch
Dán trình tự vào ô “Analyse your protein sequence”
Nhấn search
Quan sát kết quả

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

34

Bài tập 2: thực hành InterProScan
Kết quả phân tích trình tự Sanger.fasta

17


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

35

Quy trình chú giải chức năng
Trình tự DNA
(hoặc protein)
Phần mềm
BLAST

NCBI-nr



InterPro


Trình tự được
chú giải bằng
BLAST

Phần mềm
InterProScan

Trình tự được chú giải
bằng InterProScan

Gene
Ontology

Enzyme

Phần mềm
BLAST2GO

KEGG
Trình tự được chú giải
chức năng.

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

36


Gene Ontology là gì?
Gene ontology là một quyển từ điển chứa các thuật
ngữ sinh học được liên kết với nhau và giải quyết
được 2 vấn đề lớn nhất trong chú giải chức năng:
• Từ đa nghĩa (nhiều sự vật được mô tả bởi cùng 1
thuật ngữ)
• Từ đồng nghĩa (một sự vật được mô tả bởi nhiều
thuật ngữ)

18


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

37

Từ đa nghĩa

Cell

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org








38

Glucose synthesis
Glucose biosynthesis
Glucose formation
Glucose anabolism
Gluconeogenesis

Từ đồng nghĩa

19


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

39

Gene Ontology
Thông tin có được từ một protein (sản phẩm gene):
• Protein đó có chức năng gì?
• Chức năng đó thực hiện ở đâu?
• Chức năng đó thực hiện như thế nào?

Gene Ontology




1. Molecular Function

protein kinase activity
insulin receptor activity

Chức năng của protein

2. Biological Process
Các quá trình mà protein tham gia


cell division

• mitochondrion

3. Cellular Component
Khu vực mà protein hoạt động

• mitochondrial matrix
• mitochondrial inner membrane

20


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

A0A087WNN3


41

Cách tạo ra Gene Ontology

PMID: PMC2680341

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

42

Bằng chứng thực nghiệm của gene ontology

Inhibition of Btk kinase activity by IBtk

21


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

43

Bằng chứng thực nghiệm của gene ontology

Protein tyrosine kinase inhibitor activity
GO:0030292

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org


44

Bằng chứng thực nghiệm của gene ontology

Các bằng chứng từ thực nghiệm khẳng định
protein Ibtk mang các mã chức năng trên và
được xếp vào nhóm IDA (thực nghiệm)

Negative regulation of protein amino acid phosphorylation
GO:0001993

22


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

GO EVIDENCE CODES
Direct Evidence Codes
IDA - inferred from direct assay
IEP - inferred from expression pattern
IGI - inferred from genetic interaction
IMP - inferred from mutant phenotype
IPI - inferred from physical interaction

45

Evidence codes
/>dence.shtml


Indirect Evidence Codes
inferred from literature
IGC - inferred from genomic context
TAS - traceable author statement
NAS - non-traceable author statement
IC - inferred by curator
inferred by sequence analysis
RCA - inferred from reviewed computational analysis
IS* - inferred from sequence*
IEA - inferred from electronic annotation
Other
NR - not recorded (historical)
ND - no biological data available

ISS - inferred from sequence or structural similarity
ISA - inferred from sequence alignment
ISO - inferred from sequence orthology
ISM - inferred from sequence model

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

GO EVIDENCE CODES
GO Mapping
Example
Direct
Evidence Codes
IDA - inferred from direct assay
IEP - inferred from expression pattern
IGI - inferred from genetic interaction

IMP - inferred from mutant phenotype
IPI - inferred from physical interaction
Indirect Evidence Codes
inferred from literature
IGC - inferred from genomic context
TAS - traceable author statement
NAS - non-traceable author statement
IC - inferred by curator
NDUFAB1
inferred
by sequence analysis
RCA - inferred from reviewed computational analysis
IS* - inferred from sequence*
IEA - inferred from electronic annotation

46

Bằng chứng dạng tài liệu
(literature):
• Chi tiết
• Độ chính cao
• “Lâu” (vì cần thực nghiệm)

Other
NR - not recorded (historical)
ND - no biological data available

23



5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

GO EVIDENCE CODES
Direct Evidence Codes
GO
Mapping
IDA
- inferred
fromExample
direct assay
IEP - inferred from expression pattern
IGI - inferred from genetic interaction
IMP - inferred from mutant phenotype
IPI - inferred from physical interaction

Bằng chứng dạng tài liệu
(literature):
• Chi tiết hơn
• Độ chính cao
• “Lâu” (vì cần thực nghiệm)

Indirect Evidence Codes
inferred from literature
IGC - inferred from genomic context
TAS - traceable author statement
NAS - non-traceable author statement
IC - inferred by curator
inferred by sequence analysis

RCANDUFAB1
- inferred from reviewed computational analysis
IS* - inferred from sequence*
IEA - inferred from electronic annotation
Other
NR - not recorded (historical)
ND - no biological data available

47

Bằng chứng dạng máy tính
• Nhanh (computational)
• Độ chính xác thấp hơn
• Ít chi tiết hơn

ISS - inferred from sequence or structural similarity
ISA - inferred from sequence alignment
ISO - inferred from sequence orthology
ISM - inferred from sequence model

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

48

Ứng dụng của Gene Ontology
NDUFAB1 (UniProt P52505)
Bovine NADH dehydrogenase (ubiquinone) 1, alpha/beta subcomplex, 1, 8kDa
Biological Process (BP or P)
GO:0006633 fatty acid biosynthetic process TAS
GO:0006120 mitochondrial electron transport, NADH to ubiquinone TAS

GO:0008610 lipid biosynthetic process IEA

NDUFAB1

Molecular Function (MF or F)
GO:0005504 fatty acid binding IDA
GO:0008137 NADH dehydrogenase (ubiquinone) activity TAS
GO:0016491 oxidoreductase activity TAS
GO:0000036 acyl carrier activity IEA
Cellular Component (CC or C)
GO:0005759 mitochondrial matrix IDA
GO:0005747 mitochondrial respiratory chain complex I IDA
GO:0005739 mitochondrion IEA

24


5/7/2015

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

49

Ví dụ về chú giải Gene Ontology
NDUFAB1 (UniProt P52505)
Bovine NADH dehydrogenase (ubiquinone) 1, alpha/beta subcomplex, 1, 8kDa

GO:ID (unique)

GO evidence code

GO term name

Tin sinh học: Lắp ráp, dự đoán, chú giải và phân tích hệ gen | Phòng Tin sinh học | www.tinsinhhoc.org

Mối quan hệ
giữa các thuật
ngữ

50

Ontologies
Mã số

Mô tả
thuật ngữ

Gene Ontology hiện có
40.000 thuật ngữ (05/05/2015)

25


×