Bài giảng Tin sinh học: Chương 2 - Thạc sĩ. Nguyễn Thành Luân

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.57 MB, 30 trang )

13/03/2013
1
Cơ sở dữ liệu Tin sinh học
(Bioinformatic Databases)
HỆ ĐẠI HỌC
Chương II

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TPHCM
KHOA CNSH & KTMT
Sự thử thách của nguồn thông tin mở

GV: ThS. Nguyễn Thành Luân

Mục tiêu của bài học
 Nắm được những nguyên tắc so sánh các
trình tự sinh học
 Sử dụng chương trình BLAST giúp chúng ta
nhanh chóng tìm ra những trình tự sinh học
tương đồng (nếu có trong các CSDL lớn như
NCBI, EMBL, DDPJ…) với trình tự yêu cầu.
 Cung cấp những số liệu về tỉ lệ tương đồng,
nguồn gốc các trình tự tương đồng, …

13/03/2013
2
Nội dung bài học
• Khái niệm cơ sở dữ liệu (CSDL)
• Các công cụ về cơ sở dữ liệu:
– GenBank
– BankIt
– BLAST

• Các nguồn cơ sở dữ liệu sinh học cơ bản
• Các công cụ tìm kiếm dữ liệu
• Phân loại CSDL Tin sinh học
WHAT ARE DATABASES
Cơ sở dữ liệu là gì?
• Là tổ chức các chuỗi thông tin theo dạng tệp
• Thông tin có thể bỏ vào và lấy ra bất kz khi nào
(Ease of Access)
• Đơn giản hóa nguồn thông tin bằng các ký
hiệu đặc biệt (Số hóa – Digital databases)
• Lưu trữ mọi nguồn dữ liệu thông qua các ngân
hàng CSDL là các website
• Chứa đựng các khám phá mới trong nghiên cứu
khoa học

13/03/2013
3
Chức năng & nhiệm vụ CSDL
• Định nghĩa và miêu tả
• Chìa khóa duy nhất về:
– Cập nhật các phiên bản phần mềm tin sinh học
– Liên kết tới những nguồn CSDL khác
– Lưu trữ tài liệu
• Ấn bản, cập nhật và chỉnh sửa tài liệu, trình tự dựa
trên nguồn của CSDL,…

Cơ sở dữ liệu sinh học
(Biological databases)
• Trình tự DNA, RNA và protein hoặc 1 gene

• Hầu hết các trường hợp, 1 trình tự protein được hiểu
là 1 trình tự trong sinh học

• Hiểu rõ các dạng khác nhau của trình tự là mấu chốt
cho bất cứ sự giải thích vấn đề nào.

• Phân tích các lỗi có thể xuất hiện trên trình tự nhằm so
sánh các sự khác biệt giữa các trình tự.

13/03/2013
4
Nguồn:
BIOLOGICAL
PATHWAYS
HOW DID THEY DO
THAT?
GENBANK
KHÁI NIỆM GenBank?
Là nơi mà cơ sở dữ liệu được chứa đựng tất
cả thông tin về đoạn gen đã được mã hóa
(DNA, RNA) hoặc những trình tự protein gốc
với việc đính kèm và biểu hiện tất cả thông
tin sinh học chứa đựng về đoạn gen mã
hóa đó.
/>ank overview.html

13/03/2013
5
Cách khai thác & sử dụng Genbank

• Chú trọng vào xử lý nucleotide của gene - nơi chứa
nguồn thông tin trung tâm (Molecular Databases)
• Là chỗ chứa đựng tất cả các trình tự mã hóa phổ
biến theo dạng công cộng (public)
• Dữ liệu được nhóm lại với nhau theo các cơ sở
phân loại khác biệt
• Chỉ có thể sử dụng & quản lý thông qua Internet
• Nhanh, hiệu quả, cứ mỗi 2 tháng là có 1 ấn bản
hoàn chỉnh về 1 gen.

Cơ sở dữ liệu Genbank
 Chứa nhiều đoạn gene đã được mã hóa và
công bố theo dạng gói (zip batch)
– Nhiều thông tin lệ thuộc nhau về
• Tác giả dữ liệu
• Loài/giống của gen
• Cách phân loại chính xác
– Chứa cả các đoạn gen mã hóa chưa được
công bố
– Mọi người đều có thể đưa trình tự vào (thông tin
mở và tính khoa học không cao).
 Tuy nhiên, nó được chỉnh sửa liên tục để
ngày một hoàn thiện hơn

13/03/2013
6
Cơ sở dữ liệu Genbank
• Dựa trên vào các trung tâm dữ liệu tin
sinh học có thể chấp thuận việc nhập dữ
liệu các gen mã hóa dưới dạng web cho

phép sự truy cập của người dùng theo 3
website cơ bản.
– GenBank (US)
– EMBL- EBI (Europe)
– DDBJ (Japan)
• Thông tin có thể được trao đổi giữa 3
trung tâm trên

Hệ thống phân loại loài trong GenBank
• PRI –Primate (ĐV có vú
bậc cao như người,
vượn)
• ROD -Rodent (Gặm
nhấm)
• MAM -Mammalian (ĐV
có vú)
• VRT -Vertebrate (ĐV có
xương sống)
• INV -Invertebrate (ĐV
không xương sống)
• PLN -Plant (Thực vật)
• RNA -Structural (RNA cấu
trúc)
• VRL-Viral (Virus)
• PHG-Phage (Các Phage
chuyển gen)
• SYN-Synthetic (Enzyme
tổng hợp)
• BCT –Bacterial (Vi khuẩn)
• UNA-Unannotated (Chưa

xác định)

13/03/2013
7
Hệ thống phân loại chức năng trong GenBank
• PAT –Patent
• EST -Expressed
sequence tag
• STS -Sequence tagged
site
• GSS -Genome survey
sequence
• HTG-High throughput
genome
Tại sao phải cập nhật các gen mã
hóa trên Genbank?
• Tính chia sẻ trong nghiên cứu khoa học
• Không có nguồn gen mã hóa liên quan đến
bài báo đã ấn bản
• Các bài báo nghiên cứu khoa học trở nên lạc
hậu và không còn đúng với hiện thực
• Bản gen bằng điện tử hữu ích, hiệu quả
hơn và được chấp nhận về tính giá trị
• Cách tốt nhất trong việc trao đổi các thông
tin dữ liệu mới và cập nhật
13/03/2013
8
Cấu trúc
Genbank
Tính liên kết trong Genbank

Nguồn:
13/03/2013
9
Công cụ hỗ trợ việc ấn bản trình tự
• BankIt: Công cụ dựa trên nền tảng web:
– Nhanh & đơn giản, cần độ chính xác cao
– Dễ sử dụng cho việc cập nhật các trình tự
đơn giản
– Kết nối với Internet để ấn bản online
• Sequin: được download để sử dụng
– Khó sử dụng hơn, chỉnh sửa được nhiều lần
– Có các tư liệu hỗ trợ và lý tưởng cho các trình
tự phức tạp, lớn và đa dạng hơn.
– Làm việc không cần kết nối Internet (Offline)
Giao diện BankIt
13/03/2013
10
BankIt
BLAST
BLAST = Basic Local Alignment Search Tool (Công cụ
tìm kiếm trình tự cơ bản)

BLAST là một giải thuật sử dụng để so sánh
các chuỗi trình tự sinh học, như các trình tự
của các protein hay của các DNA khác nhau.

– Chúng ta dùng BLAST khi câu hỏi đặt ra “liệu có trình
tự nào trong ngân hàng dữ liệu giống hoặc gần giống
với trình tự của bạn đang làm không? ”

13/03/2013
11
Giao diện BLAST trên NCBI

Trình tự tìm kiếm trong BLAST
Chính xác và hiểu rõ
công việc
13/03/2013
12
Thuật toán BLAST
• Thuật toán của BLAST có 2 phần
– Chức năng tìm kiếm
– Đánh giá thống kê.
• Trong phần đánh giá thống kê, BLAST dựa
trên cơ sở đánh giá của một cặp trình tự để
tính ra một giá trị gọi là [Bit-score]. Giá trị
Score càng cao các trình tự bắt cặp càng cao.
• Ngoài ra BLAST tính toán một giá trị trông đợi
E-Value (Expected-Value) phụ thuộc vào Bit-
Score

THÔNG SỐ TÌM KIẾM BLAST
• Dựa vào các mối quan hệ về số liệu của trình tự
– Score (bits): đo lường ý nghĩa thống kê của việc
so sánh trình tự  Scores < 50 = không ý nghĩa
– E-value: expectation value – (giá trị kỳ vọng) số
lần mà giá trị Score có thể được dự báo thay đổi
có thể xảy ra
• Giá trị E-value càng thấp, các so sánh về trình tự mã hóa
càng có ý nghĩa.

• Giá trị E-value >0.001 = không ý nghĩa
– L (locus information: điểm thông tin) –liên kết
tới vị trí chính xác của đoạn gen đó trong hệ gen.

13/03/2013
13
Hiển thị cơ bản trong tìm kiếm BLAST
• Chế độ view bằng giao diện đồ họa
(Graphical View)

• Chế độ view BLAST theo các cấu trúc
khung đọc mở (Open Reading Frame -
ORF)

• Chế độ view theo Bảng chú thích
(Description View)
GRAPHICAL
VIEW
13/03/2013
14
ORF VIEW
DESCRIPTION VIEW
13/03/2013
15
Các dạng BLAST
 Nucleotide-nucleotide BLAST (blastn)
 Protein-protein BLAST (blastp)
 Position-Specific Iterative BLAST (PSI-BLAST)
(blastpgp)
 Nucleotide 6-frame translation-protein (blastx)

 Nucleotide 6-frame translation-nucleotide (tblastx)
 Protein-nucleotide 6-frame translation (tblastn)
 Large numbers of query sequences (megablast)
Các dạng BLAST
13/03/2013
16
Mỗi Entry CSDL chứa
– Mã số nhận biết đặc hiệu (Accession
number)
– Tác giả (Author)
– Trình tự (Sequence)
– Tên gen (Gene name)
– Vị trí chính xác điểm khởi đầu và kết thúc
(Locus Information)
– Trình tự dịch mã sang amino acid
– Loài và phân loại (Organism and Classification)
– Chi tiết về việc công bố xuất bản (Publication)
BLAST
PHÂN LOẠI CƠ SỞ DỮ LIỆU
• CSDL Protein
• CSDL Nucleotide
• CSDL Genome
• CSDL Primers

13/03/2013
17
CƠ SỞ DỮ LIỆU CẤU TRÚC
(Structural Database)
Nucleotide
DNA

NDB (Nucleic Acid Database)
Cấu trúc 3D của DNA
RNA
RDP (Ribosomal Database Project)
Cấu trúc 2D của gen rRNA, tRNA, mRNA
Protein
PDB (Protein Data Bank)
Cấu trúc 3D của protein
CSDL CẤU TRÚC PROTEIN
• Nghiên cứu với các
CSDL máy tính có các
ấn bản trình tự protein –
dựa trên các lập trình
web cho phép đặt câu
hỏi và thảo luận:
SwissProt
GenPept
TrEMBL
Brookh
13/03/2013
18
CSDL cấu trúc protein
• Nhiệm vụ chính của
hầu hết là
– Tổ chức và xác định
các cấu trúc protein,
– Cung cấp cho cộng
đồng sinh học các
hữu ích nhất
 Quản lý nguồn dữ

liệu nghiên cứu

PDB -Insulin hexamer
CSDL Protein

 CSDL cấu trúc đại phân tử (Macromolecular
Structure Databases-EBI) -lựa chọn, quản lý và
xây dựng dữ liệu về các cấu trúc đại phân tử.

 CSDL về phân loại trình tự cấu trúc (EBI) cấu
trúc bậc 2, tính đồng đẳng và các đoạn gấp

 Cấu trúc 3D (EMBL) CSDL của tất cả các cấu
trúc protein và các trình tự liên quan.

PIR
SWISS-PROT
TrEMBL
13/03/2013
19
PIR (Protein
Information
Resource) là 1 phân
nhánh của Tổ chức
Nghiên cứu Y sinh
Malaysia (The
National Biomedical
Research
Foundation -NBRF)

được liên kết với
Trung tâm Y học Đại
học Georgetown,
Penang, Malaysia
(GUMC)

CSDL Protein
 SWISS-PROT-1 nguồn CSDL trình tự protein duy trì
sự hợp tác bởi Viện Tin sinh học Thụy Sĩ (the Swiss
Institute for Bioinformatics-SIB) và Viện Tin Sinh học
Châu Âu (EBI-European Bioinformatics Institute)
 TrEMBL-là 1 phần phụ hỗ trợ xác định bằng
máy tính của SWISS-PROT, chứa tất cả các
dịch mã của các trình tự nucleotide chưa được
hợp nhất trong SWISS-PROT
 Cả 2 CSDL trình tự trên đã được sát
nhập vào CSDL UniProt
13/03/2013
20
Tiềm năng của CSDL Protein
• Tìm kiếm các protein đồng đẳng nhằm tìm
và nhận dạng các protein có cùng nguồn
gốc chung.
• So sánh các trình tự protein kết hợp tìm
kiếm các trình tự đồng đẳng (cùng chức
năng) từ các loài khác nhau  tiến hóa
loài.
• Cấu trúc và chức năng protein từ đoạn
trình tự
• Hình thành nên ngành học mới là protein học

(proteomics)

13/03/2013
21
Nghiên cứu các sự tiến hóa protein từ các
cấu trúc chức năng khác nhau (Proteomics)
CSDL cấu trúc nucleotide
• Chia làm 2 mảng nghiên cứu:

– Cấu trúc hệ gene (Genomics)

– Cấu trúc DNA & RNA
13/03/2013
22
Cấu trúc DNA
 Nghiên cứu các cấu
trúc DNA nhằm đánh
giá và phân tích các
bệnh di truyền, kỹ thuật
xác định vân tay trong
việc xác định tội phạm
và nghiên cứu di
truyền phả hệ
 Thông tin về CSDL cấu
trúc DNA có thể được
ấn bản theo dạng công
cộng hoặc cá nhân
Cấu trúc RNA
Nghiên cứu nhiều lĩnh
vực liên quan đến

 Cấu trúc phân tử
nhỏ
 Các nucleic acid nhỏ
(DNA)
 tRNA,mRNA và
rRNA (RNA)
Hiểu thêm chức năng
về sự phát triển của các
đoạn gen ở ribosome
Cấu trúc 50S-subunit của ribosome RNA
13/03/2013
23
Các CSDL trình tự nucleotide khác
• EMBL Nucleotide Sequence Database (EBI)
• EMEST: giải mã trình tự EST thuộc EBI
• Các đột biến – So sánh trình tự khác biệt
(EBI)
• MitBase (Mitochondrial Base)- CSDL DNA ti
thể (EBI)
• CSDL về trình tự các bệnh cúm (Influenza)
(LANL)

CSDL trình tự Genome
• TIGR (www.tigr.org)
• The Whitehead (Giải mã trình tự của MIT)
(www.genome.wi.mit.edu)
• The Sanger Institute (www.sanger.ac.uk)
• Celera-PE Biosystems (www.celera.com)
• Ensembl (www.ensembl.org)
 Phục vụ cho nhu cầu ngày càng cao về tìm

hiểu bộ gen của sinh vật (genomics)

13/03/2013
24
TIGR (www.tigr.org)
- Bộ sưu tập của các cơ sở dữ
liệu về DNA và protein
- Các biểu hiện gen, vai trò tế
bào
- Tập hợp protein
- Các số liệu trong phân loại
loài ở vi khuẩn, thực vật và
người
- Là nơi chứa dữ liệu genome
VSV nhiều nhất và chi tiết nhất
Viện nghiên cứu The Whitehead-
Dự án giải mã trình tự của MIT &
Harvard
• Dự án lớn nhất về Genome
người ở Mỹ (US Human
Genome Project – HGP)

• Dự án bắt đầu năm 1990 kết
thúc năm 2003 (14/04/2003)
sớm hơn so với dự kiến 2 năm
13/03/2013
25
Human Genome Project (HGP)
• Sau hơn 13 năm thực hiện đã đạt được 1 số
kết quả:

– Nhận biết được tổng cộng 20,000 – 25,000 bộ gen
– Xác định được chuỗi DNA người là 3,300,000,000
bp
– Lưu trữ thông tin trong các CSDL lớn
– Tiến hành cải tiến những công cụ phân tích dữ liệu
– Phát triển những quy định về đạo đức và pháp
luật từ dự án
The Sanger Institute
(www.sanger.ac.uk)
• Lấy theo tên nhà khoa học người Anh
Frederick Sanger (1918)
• Nobel sinh học về cấu trúc protein và nghiên
cứu về insulin (1958)
• So sánh và phân tích trình tự DNA ở cấp
độ lớn của hệ gen người và các loài khác
• Cung cấp nguồn CSDL mở cho tất cả mọi
người

Bài giảng Tin sinh học: Chương 2 - Thạc sĩ. Nguyễn Thành Luân

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về