Tải bản đầy đủ (.pptx) (50 trang)

Chuyên đề 3 pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.41 MB, 50 trang )

B
á
o

c
á
o

T
i
n

s
i
n
h

h
o
c
C
h
u
y
ê
n

đ

0
3



Nhóm 4
Đặng Thị Phượng Trần Thị Ngọc
Nguyễn Thị Thương Phạm Thị Ngân
Nguyễn Minh Phương
1.2
N i dung chuyên ộ đề
I. Cơ sở dữ liệu sinh học
II. Các ngân hàng CSDL sinh học
III. Tìm hiểu công cụ trên các ngân hàng
CSDL (EBI, NCBI, ExpaSy và DDBJ)
1.3
I. Cơ sở dữ liệu sinh học
1. Lịch sử ra đời
2. Độ chính xác của CSDL sinh học
3. Các loại CSDL sinh học
1.4
1. L ch s ra iị ử đờ

Cơ sở dữ liệu sinh học (CSDL) chủ yếu đề cập đến các
thông tin về trình tự axit nucleic (ADN, ARN), trình tự
axit amin của các phân tử protein, thông tin về cấu trúc
và giải phẫu của một số genom, mô hình cấu trúc không
gian của các đại phân tử.

Các thông tin này được sắp xếp và lưu trữ bởi một hệ
thống các máy chủ rất mạnh của 3 ngân hàng gen lớn
nhất thế giới là NCBI, EMBL và DDBJ.
1.5


1965 Ti n s Margaret Dayhoffetal xu t b n “Atlas of Protein ế ĩ ấ ả
Sequences and Structures” (b n c a Trình t và c u ả đồ ủ ự ấ
trúc Protein)=> t n n móng cho s ra i CSDL sinh h cđặ ề ự đờ ọ

1982 EMBL kh i t o CSDL v trình t DNA, trong vòng m t n m ở ạ ề ự ộ ă
sau ó GenBank ra iđ đờ

1984 kh i t o c s d li u v ADN c a Nh t B nở ạ ơ ở ữ ệ ề ủ ậ ả

1988 EMBL / GenBank / DDBJ ng ý v nh d ng ph đồ ề đị ạ ổ
bi n cho các y u t d li u ế ế ố ữ ệ

N m 2004, ã có kho ng 500 c s d li u sinh h c công c ng ă đ ả ơ ở ữ ệ ọ ộ
và th ng m i. ươ ạ
1.6
2. Độ chính xác của CSDL sinh học

Trong lĩnh vực sinh học thì độ chính xác luôn được coi
trọng và đặt lên hàng đầu.

Nguồn cơ sở liên quan đến sinh học được truyền tải trên
mạng vô cùng đa dạng và phong phú về chủng loại và đồ sộ
về khối lượng. Chiếm khối lượng lớn nhất và đa dạng nhất
là kết quả nghiên cứu trên đối tượng sinh học. Thường
được biểu diễn dưới dạng số hay kí tự trong các tệp dữ liệu
đơn lẻ hay dưới dạng các chương trình thuật toán hoàn
chỉnh để cất giữ hay trao đổi.
1.7
3. Các loại CSDL sinh học
Chia CSDL thành 2 loại: Sơ cấp và Thứ cấp

a. CSDL Sơ cấp

CSDL sơ cấp bao gồm các DLSH được lưu trữ trong các
ngân hàng gen:

Các trình tự Protein và DNA đi kèm với các thông tin,
môt tả

Các cấu trúc Protein và axit nucleic cùng với các thông
tin bổ sung, mô tả

Các CSDL của các gen (biểu hiện sản phẩm protein,
enzym)
1.8
b. CSDL Thứ cấp

Các CSDL thứ cấp được hình thành từ kết quả phân tích
của CSDL sơ cấp

Trình tự các motif(vùng đặc trưng của các phân tử
protein và axit nucleic)

Các đột biến và các biến thể trong các trình tự protein và
DNA

Các mối quan hệ hoặc phân loại: là kết quả của quá
trình so sánh, đối chiếu giữa các CSDL.
1.9
M t s CSDL sinh h c l n trên th gi iộ ố ọ ớ ế ớ


Dữ liệu về thông tin thông thường (sách báo, tạp chí…
dạng số hóa), vd như CSDL tập trung về mảng y dược,
CSDL về mảng nông nghiệp, CSDL tập trung về mảng
thông tin về cổ sinh học và động vật hoang dã…
1.10
C s d li u v công trình khoa h c ã công b PUBMED c a ngân hàng NCBIơ ở ữ ệ ề ọ đ ố ủ
( />1.11

Dữ liệu về phân loại học: vd như CSDL về phân loại sinh
học của NCBI, CSDL về hệ thống thông tin phân loại các
giới, CSDL của tổ chức quốc tế về các thông tin chung về
thực vật…(mảng dữ liệu này rất phong phú nhưng bị ràng
buộc do sự khác biệt tương đối còn tồn tại giữa một vài hệ
thông phân loại).
1.12
CSDL v phân lo i sinh h c c a NCBIề ạ ọ ủ
( />1.13

Dữ liệu về cấu trúc và đặc tính của nucleotide và
genom: đây là một trong hai mảng lớn nhất , đa dạng và
phong phú nhất trong kho tàng dữ liệu sinh học. Về dữ liệu
cấu trúc chuỗi nucleotide phải kể đến CSDL hợp tác liên
kết chung giữa EBI,NCBI và DDBJ

Về dữ liệu genom có thể ví dụ một vài CSDL lớn như:
CSDL về gen người, CSDL về vi khuẩn E.coli , CSDL về
nấm men…
1.14
C s d li u v gen trên ngân hàng d li u NCBIơ ở ữ ệ ề ữ ệ
( />1.15

CSDL v gen ng i (OMIM)ề ườ
( />1.16

Ngoài ra, còn loại dữ liệu về cấu trúc và đặc tính chuỗi
amino axit và protein được xem là một trong hai mảng dữ
liệu lớn nhất về công nghệ sinh học. Trong nhóm này phải
kể đến CSDL lớn như: Protein Information Resources PIR,
SWISS-PROT TrEMBL…

Dữ liệu về enzyme và các đường hướng trao đổi chất,vd
ENZYME Databases, về đặc tính enzyme BRENDA về
enzyme và phản ứng enzyme…
1.17
SWISS - PROT
/>1.18
C s d li u ENZYME Databases c a ngân hàng EXPASYơ ở ữ ệ ủ
( />1.19

Mỗi CSDL có thể định hướng tập trung vào những mảng
thông tin riêng. Song tất cả mọi CSDL đều được xây dựng
với tiêu chí đảm bảo dễ dàng truy cập, quản lí khai thác dữ
liệu. Để thỏa mãn yêu cầu trên, nhìn chung tất cả các CSDL
đều cung cấp cho khách hàng chương trình tìm kiếm và kết
nối liên thông dữ liệu rất hiệu quả, ví dụ entrez trong NCBI,
SRS trong EBI hay SRS trong DDBJ…
1.20
II.Các ngân hàng CSDL sinh học
1. Ngân hàng CSDL là gì? Các ngân hàng CSDL thu thập dữ
liệu từ đâu?
2. Tên, địa chỉ của một số ngân hàng CSDL sinh học lớn

trên thế giới (EBI, NCBI, ExpaSy, DDBJ)
3. Có thể khai thác sử dụng những gì trên các ngân hàng
CSDL?
1.21
1. Ngân hàng CSDL là gì?

Ngân hàng CSDL sinh học là cả một kho tàng dữ liệu khổng lồ,
được sắp xếp và lưu trữ bởi một hệ thống các máy tính chủ rất
mạnh của các ngân hàng gen lớn trên thế giới

Các ngân hàng dữ liệu sinh học sẽ giúp các nhà nghiên cứu tìm
ra cơ sở về gen của những trường hợp rối loạn gen do di truyền
và phát hiện các căn bệnh khác không có các mẫu hình di truyền
rõ ràng.Và họ có thể làm rõ hơn các mối liên quan về môi trường
với nguy cơ phát triển các căn bệnh cụ thể.

Có thể nói điều gây hứng thú nhất đối với các nhà nghiên cứu về
y học là ở chỗ những cơ sở dữ liệu này có thể giúp giải thích cho
việc các cá nhân phản ứng rất khác nhau khi sử dụng cùng một
loại thuốc. Sự hiểu biết như vậy có thể mở ra một phương pháp
mới trong việc điều chế ra các loại thuốc phù hợp hơn với cơ thể
bệnh nhân.
1.22
Các ngân hàng CSDL thu thập dữ liệu từ đâu?

Các ngân hàng CSDL thu thập tất cả các kết quả nghiên cứu của
cá nhân, nhóm nghiên cứu, phòng thí nghiệm hay các viện
nghiên cứu và gần đây là từ các dự án xác định trình tự genom.

Hoặc cũng có thể thu được trên cơ sở phân tích, khái quát hóa, hệ

thống hóa hay thông tin mô phỏng cho từng đối tượng hay nhóm
đối tượng sinh học trong thế giới tự nhiên.

Phát triển, phân phối, hỗ trợ và phối hợp truy cập vào một loạt
các CSDL và phần mềm cho cộng đồng khoa học và y khoa.

Phối hợp các nguồn lực để thu thập thông tin sinh học.

Các thông tin sau khi thu thập được một đội ngũ các nhà sinh
học, nhà lập trình sắp xếp và tổ chức hợp lý
1.23
2. Tên, địa chỉ của một số ngân hàng CSDL sinh
học lớn trên thế giới (EBI, NCBI, ExpaSy, DDBJ)
a. EBI (European Bioinformatics Institute)
 ✎
Cơ sở dữ liệu thuộc Viện Tin Sinh học Châu Âu (thuộc EMBL)
 ✎
Thành lập năm 1994, trực thuộc phòng thí nghiệm Sinh học Phân tử
Châu Âu (European Molecular Biology Laboratory – EMBL, 1974).
 ✎
EBI là một tổ chức phi lợi nhuận mà các hình thức tổ chức học tập một
phần của Phòng thí nghiệm Sinh học phân tử châu Âu (EMBL).
 ✎
EBI là một trung tâm nghiên cứu và dịch vụ trong tin sinh học. Viện
quản lý cơ sở dữ liệu của dữ liệu sinh học bao gồm các axit nucleic,
các chuỗi protein và cấu trúc macromolecular.
 ✎
EBI hiện đã trở thành một trong ba ngân hàng dữ liệu sinh học lớn
nhất thế giới.
 ✎

EBI được tổ chức và quản lý theo khoảng 80 mảng khác nhau, đồng
thời còn cung cấp hầu hết các chương trình phân tích và xử lý thông tin
sinh học.
1.24
Địa chỉ trang web :
1.25
b. NCBI (National Centre for Biotechnology Informatic )
 ✎
Cơ sở dữ liệu Trung tâm Thông tin Quốc gia về Công nghệ
sinh học Mỹ
 ✎
Được thành lập năm 1998, là một trong số các CSDL sinh
học lớn nhất thế giới hiện nay.
 ✎
NCBI quản lý nguồn thông tin sinh học khổng lồ, với
khoảng 2.10^6 nhóm dữ liêu khác nhau.
 ✎
Địa chỉ trang web:

Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay
×