CƠ SỞ DỮ LIỆUGiới thiệu Mô hình dữ liệu NCBI (tuần 1) Cơ sở dữ liệu trình tự GenBank (tuần 2) Cơ sở dữ liệu về cấu trúc (tuần 3) Cơ sở dữ liệu bản đồ genom (tuần 4).Các cơ sở dữ liệuCơ sở dữ liệu NCBI (National Center forBiotechnology Information) C docx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (58.83 KB, 6 trang )

CƠ SỞ DỮ LIỆU
Giới thiệu
Mô hình dữ liệu NCBI
(tuần 1)
Cơ sở dữ liệu trình tự GenBank
(tuần 2)
Cơ sở dữ liệu về cấu trúc
(tuần 3)
Cơ sở dữ liệu bản đồ genom
(tuần 4)
Các cơ sở dữ liệu
 Cơ sở dữ liệu NCBI
(National Center for
Biotechnology Information)
 Cơ sở dữ liệu EMBL-EBI
(European Molecular
Biology Laboratory-European Bioinformatics
Institute)
 Cơ sở dữ liệu CIB-DDBJ
(Center for Information
Biology-DNA Data Bank of Japan)
Mô hình dữ liệu NCBI
 NCBI dựa trên 4 dữ liệu cơ bản:
- Bài báo khoa học
- Trình tự ADN
- Trình tự protein
- Cấu trúc ba chiều.
 Ngoài ra còn có các cơ sở dữ liệu khác:
- Taxonomy
- Bản đồ genome
Mô hình dữ liệu NCBI:

Bài báo khoa học
 Tên tác giả
 Bài báo: Tên bài báo, tập, số, trang.
 Patent
 Yếu tố nhận dạng MEDLINE và PubMed: Để truy cập
bài báo.
- MEDLINE unique identifier (MUID): số nguyên
- PubMed (Có chứa tất cả MEDLINE) với yếu tố nhận
dạng: PubMed identifier (PMID).
- Ghi chú: Bài báo có trong MEDLINE sẽ có cả PMID và
MUID. Bài báo chỉ có trong PubMed sẽ chỉ có PMID.
- PubMed Central: Bao gồm cả các bài báo điện tử hoặc
trước khi xuất bản chính thức trong các tạp chí in.
Mô hình dữ liệu NCBI:
Yếu tố nhận dạng trình tự (SEQ-Ids)
 Locus name: Nhằm cung cấp yếu tố nhận dạng duy nhất
- Có trong GenBank, EMBL và DDBJ
- Gồm một số số (<=10) và chữ in hoa
 Accession Number:
- 1 chữ in hoa kèm 5 số
- Số mới gồm 2 chữ in hoa kèm 6 số
 gi Number (GenInfo Identifiers) : yếu tố nhận dạng cho 1 trình
tự riêng biệt, bao gồm:
- Trình tự nucleotid từ DDBJ/EMBL/GenBank
- Trình tự protein từ dịch mã vùng CDS
- Trình tự protein từ SWISS-PROT, PIR, PRF, PDB, patent, …
ưu điểm của gi:
- Yếu tố nhận dạng trình tự được sử dụng trong nhiều CSDL.
- Yếu tố nhận dạng chuyên biệt cho một trình tự chính xác
- Yếu tố nhận dạng ổn định và dễ truy cập.

Mô hình dữ liệu NCBI:
Yếu tố nhận dạng trình tự (SEQ-Ids)
 Accession.Version Combined Identifier: Do hợp tác
của GenBank, EMBL và DDBJ đưa ra
- Vẫn cho phép truy cập một bản ghi chỉ dựa trên số
truy cập mà không có phiên bản.
- Cho phép truy cập trình tự đã thay đổi sử dụng số
truy cập và số phiên bản.
- Cho biết trình tự đã thay đổi bao nhiêu lần dựa trên
số phiên bản.
 Accession Numbers on Protein Sequences:
- Accession.version Numbers cũng đã được sử dụng
cho trình tự protein trong CDS feature’s /protein ID
qualifier.
- Gồm 3 chữ in hoa kèm 5 số và 1 số chỉ phiên bản.

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về