Tải bản đầy đủ (.ppt) (40 trang)

TIỂU LUẬN CÔNG NGHỆ SINH HỌC: CƠ SỞ DỮ LIỆU VÀ CÁC NGÂN HÀNG CƠ SỞ DỮ LIỆU

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.76 MB, 40 trang )

CHỦ ĐỀ: CƠ SỞ DỮ LIỆU VÀ CÁC NGÂN HÀNG CƠ
SỞ DỮ LIỆU
TRƯỜNG ĐẠI HỌC NÔNG NGHIỆP
HÀ NỘI
Khoa công nghệ sinh học
GV hướng dẫn: Nguyễn Đức Bách
Nhóm thực hiện: 5
1

Thành viên trong nhóm 5
ST
T
Họ và tên Mã sinh viên Lớp
1 Nguyễn Thùy
Dương
550331 K55CNSHA
2 Hoàng Thị Duyền 550329 K55CNSHA
3 Tạ Thị Bé 550320 K55CNSHA
4 Vũ Kim Cúc 550324 K55CNSHA
5 Phạm Thị Lan Anh 550319 K55CNSHA
6 Nguyễn Văn Đức 550338 K55CNSHA
8 Trần Thị Thùy
Dương
550332 K55CNSHA
9 Nguyễn Quang
Hải
K55CNSHA
2
CÁC NỘI DUNG CHÍNH
3
I. CƠ SỞ DỮ LIỆU SINH HỌC LÀ GÌ?


Cơ sở dữ liệu sinh học (CSDL) là thư viện của
thông tin khoa học về sự sống, được thu thập từ các
nghiên cứu khoa học, các công trình khoa học đã công
bố, các thử nghiệm công nghệ cao và các phân tích tính
toán. Chúng lưu trữ các thông tin chủ yếu về gen,
protein, nucleotide
Các thông tin này được sắp xếp và lưu trữ bởi một
hệ thống các máy chủ rất mạnh của 3 ngân hàng gen lớn
nhất thế giới là NCBI, EMBL và DDBJ.
4
5
II. CSDL của các ngân hàng gen
Cả 3 CSDL lớn nhất (NCBI, EMBL và DDBJ) đều có đầy
đủ thông tin cơ bản về các CSDL trên. Tuy nhiên mỗi ngân
hàng có một cách phân loại và tổ chức các loại dữ liệu khác
nhau.
6
1. CSDL CỦA EMBL/EBI
7
1. CSDL của EMBL/EBI
8
a/ CSDL tài liệu (Literature Databases)

Medline: Bao quát tất cả các lĩnh vực của y học.

Omim: Di truyền Mendel ở người (Online Mendelian
Inheritance in Man -OMIM) là một tập hợp của các gen và
các rối loạn di truyền.

Patent Abstracts: Các bản tóm tắt có liên quan đến CNSH của

các ứng dụng mô hình lấy từ các sản phẩm dữ liệu của
European Patent Office (EPO)- trụ sở sáng chế châu Âu

Taxonomy: CSDL phân loại của ISDC (International
Sequence Database Collaboration) chứa các tên của các sinh
vật được trình bày dưới dạng CSDL trình tự.
9
b/ CSDL Microarray (Microarray Databases)
Là một kho dữ liệu `Microarray về biểu hiện gen.
Chức năng của nó là lưu trữ các kho dữ liệu đo
lường, quản lý chỉ mục tìm kiếm và tạo các dữ liệu
phù hợp cho các ứng dụng khác.

ArrayExpress: Một CSDL cho microarry dựa vào
dữ liệu biểu hiện gen.

Miame : Thông tin tối thiểu về một thí nghiệm
microarry (Minimum Information About a
Microarray Experiment (MIAME).
10
c/ CSDL Nucleotide (Nucleotide Databases)
CSDL trình tự nucleotide: Có thể truy cập vào hàng
trăm trình tự genome hoàn chỉnh cùng với các sản phẩm
protein dịch mã nhờ máy chủ của EBI.

ASD (Alternative Splicing Database): chứa dữ liệu về các
exon phân cắt phát sinh cùng với các thông tin bổ sung đi
kèm. Dự án ASD nhằm hiểu rõ hơn về cơ chế cắt ghép
nảy sinh ở quy mô genome.
11


ATD: CSDL đa dạng về các bản phiên mã nảy sinh (Alternate
Transcript Diversity Database) chứa dữ liệu về các bản phiên
mã trong đó mỗi bản phiên mã được mô tả cho một dạng cắt
ghép nảy sinh và sự polyadenyl hóa nảy sinh (alternative
polyadenylation).

EMBL-Align database: CSDL so sánh nhiều trình tự.

EMBL-Bank: Ngân hàng EMBL còn được gọi là CSDL trình
tự nucleotide EMBL, đóng góp vào nguồn trình tự nucleotide
sơ cấp của châu Âu.
12

EMBL CDS: là một CSDL của trình tự nucleotide mã hóa
(CDS coding sequence)

Ensembl: Mô tả tự động của các genome eukaryote.

Genomes Server: cho phép truy cập với một số lượng lớn
các genom hoàn chỉnh.

Genome Reviews: CSDL genome được chỉnh sửa bao gồm
các phiên bản chính xác của các mục tra cứu (entry)
genome hoàn chỉnh từ CSDL trình tự nucleotide của
EMBL/GenBank/DDBJ

Karyn's Genomes: thu thập và mô tả một số trình tự
genome.
13


IMGT/HLA: CSDL di truyền miễn dịch, bao gồm
CSDL IMGT/HLA của phức hệ phù hợp tổ chức
(MHC). CSDL di truyền miễn dịch IMGT/LIGM bao
gồm CSDL IMGT/LIGM của các Ig và các thụ thể tế
bào T.

IPD: CSDL đa hình miễn dịch (Immun
Polymorphism Database), bao gồm các gen đa hình
của hệ thống miễn dịch

LGICdb: CSDL các chất gắn các kênh Ion (Ligand
Gated Ion Channel Database)

Mutations: Dự án CSDL sự đa hình trình tự
(Sequence variation database project)

Parasites: CSDL genome ký sinh (Parasite Genome
databases).
14

d/ CSDL protein (Protein Databases)
EBI đã phát triển và duy trì một số CSDL protein có liên
quan với nhau. Danh sách của các dự án và CSDL:

CluSTr: Đề xuất một sự phân loại tự động của
UniProtKB/Swiss-Prot + UniProtKB/TrEMBL.

CSA: Tập hợp các vị trí xúc tác (Catalytic Site Atlas) là
một nguồn của các vị trí xúc tác và các gốc được tìm

thấy ở các enzym bằng cách sử dụng CSDL cấu trúc.

GO: Các trang của hiệp hội Gene Ontology của EBI.

GOA: Cung cấp các thông tin về sản phẩm gen vào
nguồn GO.

HPI: Các proteomic của người ban đầu (Human
Proteomics Initiative) là một khởi xướng bởi SIB và
EBI để mô tả tất cả các trình tự đã biết của người theo
tiêu chuẩn chất lượng của UniProtKB/Swiss-Prot.
15

IntAct: Là một CSDL đi kèm với hệ thống phân
tích, nó cung cấp một giao diện truy vấn và một
module để phân tích các dữ liệu.

IntEnz: CSDL liên quan giữa các enzym
(Integrated relational Enzyme database) chứa các
dữ liệu enzym được chứng nhận bởi hội đồng định
tên (Nomenclature Committee) với mục đích là để
tạo ra một CSDL các enzym có mối quan hệ đơn.

InterPro: CSDL là một sự kết hợp của nguồn tài
liệu trích dẫn cho các họ proein, các domain và các
vị trí hoạt động.

IPI: (International Protein Index) một hệ thống
proteom không dư thừa (non-redundant) được xây
dựng từ UniProtKB/Swiss-Prot,

UniProtKB/TrEMBL, Ensembl và RefSeq.

PANDIT: là một bộ các chương trình so sánh trình
tự và xây dựng cây phân loại.
16

Proteome Analysis: Phân tích so sánh và thống kê các
proteom của các sinh vật.

UniProt: Nguồn Protein phổ biến cho các trình tự
protein và trung tâm của các CSDL protein cho các
ngân hàng CSDL khác.

UniProt Archive: Một phần trình tự protein được
trích ra từ CSDL công khai chỉ chứa các trình tự
protein.

UniProtKB/Swiss-Prot: CSDL trình tự protein được
mô tả, một phần của UniProtKB.

UniProtKB/TrEMBL: Một CSDL protein được tạo ra
bằng máy tính, là một phần của UniProtKB.
17
18
e/ CSDL Proteomic (Proteomic Databases)
EBI đã phát triển và lưu giữ một số lượng lớn các CSDL liên quan proteom.
Dưới đây là một số CSDL proteom.

ChEBI (Chemical Entities of Biological Interest ChEBI): một từ điển của
các phân tử nhỏ


IntAct

IntEnz

IUPHAR CSDL thụ thể đại diện cho tất cả các lĩnh vực của dược học theo
nghĩa rộng nhất của nó từ lý thuyết cho đến lâm sàng ở quy mô thế giới.

PRIDE (PRoteomics IDEntifications database) cho phép đăng ký (submit)
dữ liệu protein ở dạng PRIDE XML.
19
f/ CSDL cấu trúc (Structure Databases)
EBI đã phát triển và duy trì một số lượng các CSDL có
liên quan đến cấu trúc của các đại phân tử.

DALI: Thư mục cấu trúc domain của các protein.

MSD: CSDL cấu trúc các đại phân tử (MSD), bao gồm
các công cụ tìm kiếm PDB.

MSDchem: Thư viện hóa học của các thành phần hóa
học tìm thấy trong PDB.

MSDlite: Cung cấp các công cụ dễ dàng truy cập vào
PDB.

MSDtarget: Máy chủ chung cấp các công cụ tìm kiếm
20

RESID: CSDL các protein cải biến


Reactome: CSDL về các quá trình sinh học ở cơ thể người.

BioModels: CSDL của các mô hình sinh học cho phép các
nhà sinh học lưu giữ, tìm kiếm và công bố các mô hình
toán học trong lĩnh vực sinh học.
21
2. CSDL CỦA NCBI
22
2. CSDL của NCBI
a/ CSDL tài liệu (Literature Database)

Bookshelf: Tìm kiếm những thông tin cơ bản hoặc các chủ
đề nghiên cứu mới, miễn phí, có một phần ở PubMed.

PubMed: là giao diện tìm kiếm thông tin trong lĩnh vực
sinh y học, cung cấp các công trình khoa học đã được
công bố trong Medline.

PubMed Central: Là một tạp chí khoa học sự sống, kết
hợp với hệ thống Enztrez, PMC cho phép truy cập tự do và
không hạn chế với hơn 160 tạp chí khoa học sự sống.
23

Online Mendelian Inheritance in Man (OMIM): là
CSDL về genome người nằm trong dự án xác định
genome người.

Online Mendelian Inheritance in Animals (OMIA)
Là một CSDL của các gen, các rối loạn di truyền và

các tính trạng của các loài động vật.

Journals: Tìm kiếm các CSDL tạp chí cho phép kết
nối (link) các tạp chí với hệ thống Entrez kể cả
CSDL di truyền.
24
25

×