TỔNG QUAN BIOINFORMATIC potx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.07 MB, 64 trang )

Đ
Đ
A
A
Ï
Ï
I
I

H
H
O
O
Ï
Ï
C
C

Q
Q
U
U
O
O
Á
Á
C
C

G
G
I
I
A
A

T
T
H
H
A
A
Ø
Ø
N
N
H
H

P
P
H
H
O
O
Á

Á

H
H
O
O
À
À

C
C
H
H
Í
Í

M
M
I
I
N
N
H
H

T
T
R
R
Ư
Ư
Ơ
Ơ
Ø
Ø
N
N
G
G

Đ
Đ
A
A
Ï
Ï
I
I

H
H
O
O

Ï
Ï
C
C

K
K
H
H
O
O
A
A

H
H
O
O
Ï
Ï
C
C

T
T
Ư
Ư

Ï
Ï

N
N
H
H
I
I
E
E
Â
Â
N
N

K
K
H
H
O
O
A
A

S
S

I
I
N
N
H
H

H
H
O
O
Ï
Ï
C
C

(DÙNG CHO SINH VIÊN NGÀNH CÔNG NGHỆ SINH HỌC)

Chủ biên: TRẦN LINH THƯỚC
Thực hiện: ĐẶNG THỊ PHƯƠNG THẢO
ĐỖ ANH TUẤN

10/2003
(Lưu hành nội bộ)

1

MỤC LỤC

PHẦN MỞ ĐẦU 2

PHẦN I: KHAI THÁC DỮ LIỆU SINH HỌC QUA MẠNG INTERNET 10

Bài 1
. Cơ sở dữ liệu sinh học trên mạng internet 11
Bài 2
. Tìm kiếm thông tin trên mạng internet 13
Bài 3
. Tìm kiếm các trình tự sinh học 19
Bài 4
. Tìm kiếm các trình tự tương đồng 24
Bài 5
. Phân tích trình tự DNA 28
Bài 6
. Tạo cây phát sinh loài từ trình tự DNA 32

PHẦN II: MỘT SỐ CÔNG CỤ PHẦN MỀM PHÂN TÍCH GEN 35

Bài 7
. Nhập xuất dữ liệu 37
Bài 8
. Tìm trình tự DNA và khung đọc mở 40
Bài 9
. Chuyển đổi trình tự DNA và amino acid 43
Bài 10
. Thiết lập bản đồ enzyme cắt giới hạn 46
Bài 11
. Thiết kế mồi (primer) 49
Bài 12
. Vẽ bản đồ plasmid 52

Bài 13
. Bài tập tổng hợp 61

PHỤ LỤC 63

2

P
P
H
H
A
A

À
À
N
N

M
M
Ô
Ô
Û
Û

Ñ
Ñ
A
A
À
À
U
U

3
1. Bioinformatics là gì ?

Bioinformatics là một ngành học còn khá mới trong lónh vực Sinh học. Vì vậy,
hiện nay có khá nhiều đònh nghóa khác nhau về thuật ngữ bioinformatics. Chúng ta
thử tìm hiểu một số thuật ngữ:
• Bioinformatics là môn học về cách sử dụng máy tính để giải quyết những
vấn đề của khoa học sự sống, chủ yếu là vấn đề cơ sở dữ liệu phong phú của bộ gen,
trình tự protein Ngoài ra, nó còn giải quyết những vấn đề về kỹ thuật như mô hình
cấu trúc ba chiều của phân tử và các hệ thống Sinh học (3/2001, Cancer WEB).
• Bioinformatics là sự sáng lập và phát triển của tiến bộ những thông tin và kỹ
thuật máy tính nhằm giải quyết những vấn đề sinh học, thường là sinh học phân tử
(các lónh vực sinh học khác cũng đang ngày càng gia tăng). Như vậy, bioinformatics
liên quan đến những phương pháp như lưu trữ, tìm kiếm và phân tích dữ liệu sinh học
như acid nucleic (DNA/RNA) và trình tự protein; nghiên cứu cấu trúc, chức năng, con
đường và những ảnh hưởng di truyền (Đại học Stanford).
• Bioinformatics là một sự phối hợp giữa toán học, thống kê và kỹ thuật máy
tính nhằm phân tích thông tin về sinh học, sinh hóa, sinh lý.
• Bioinformatics là môn học về cấu trúc đặc trưng của thông tin sinh học và
hệ thống sinh học. Nó cung cấp một loạt những hệ thống dữ liệu Sinh học (ví dụ bộ

gen) kết hợp với những lý thuyết phân tích và công cụ thực hành của toán học và
khoa học máy tính.

Tóm lại, thuật ngữ bioinformatics có thể đònh nghóa một cách ngắn gọn là sự
kết hợp giữa Công nghệ Sinh học và Công nghệ Thông tin với mục tiêu giúp hiểu biết
và khám phá những nguyên lý trong Sinh học (NCBI).

Bioinformatics:
Môn học về cấu
trúc đặc trưng
của thông tin
Sinh học
Cấu trúc
Sinh học
Sinh hóa

Sinh học
phân tử
Genomics
Khoa học
máy tính
Thống kê
Toán học

4
2. Nội dung thực tập Bioinformatics

Nội dung thực tập Bioinformatics dành cho sinh viên năm thứ III, ngành Công
nghệ Sinh học, bao gồm:
- Giới thiệu về các cơ sở dữ liệu sinh học trên mạng Internet và cách thức
khai thác các cơ sở dữ liệu này phục vụ cho nghiên cứu.
- Làm quen một số công cụ phần mềm phân tích gen.
Sau khi hoàn thành khóa học, sinh viên phải nắm vững một số kiến thức cơ
bản về cách thức tìm kiếm và xử lý dữ liệu sinh học .

Trong quá trình thực tập, hầu hết nội dung yêu cầu thực hiện truy cập thông
tin trên mạng Internet (với ngôn ngữ sử dụng chủ yếu là tiếng Anh) nên có khá nhiều
thuật ngữ tin học, sinh học cũng như cách thức giao tiếp vẫn giữ nguyên thuật ngữ
tiếng Anh.

3. Sử dụng mạng Internet trong đợt thực tập

Vì không phải tất cả mọi người đều đã có kinh nghiệm sử dụng Internet, do đó
chúng ta bắt đầu với phần giới thiệu ngắn về mạng Internet. Mạng Internet là một hệ
thống mạng toàn cầu có khả năng liên kết các máy tính khác nhau trên thế giới. Khi

tham gia vào hệ thống mạng Internet chúng ta có thể tham khảo các tài nguyên chia
sẻ trên các máy tính (nơi lưu trữ thông tin) thuộc mọi lónh vực: khoa học, văn hóa,
giáo dục, thể thao, giải trí… Trong đợt thực tập này, để làm việc trên mạng Internet,
chúng ta sẽ sử dụng phần mềm Microsoft Internet Explorer của hãng Microsoft (hoặc
có thể dùng phần mềm Netscape với những chức năng tương tự).

Yêu cầu đối với sinh viên là phải có những kiến thức cơ bản về máy tính (làm
việc với máy tính trong môi trường Windows). Để vào chương trình Microsoft
Internet Explorer, chúng ta thực hiện tuần tự các bước sau:

• Tìm biểu tượng của Internet Explorer trên Desktop và nhấn đúp
(double clicking) bằng nút chuột trái để mở cửa sổ trình duyệt Web. Hoặc nhấn phím
Start chọn Programs, rồi chọn Internet Explorer.
• Đòa chỉ tìm kiếm được nhập vào tại khung Address và nhấn Enter↵
. Internet
Explorer sẽ kết nối máy tính chúng ta với mạng vào đòa chỉ đã nhập.

Biểu tượng trên góc phải màn hình thể hiện hoạt động kết nối Internet:

Đang kết nối

Kết nối xong hoặc bò gián đoạn

5
Mạng Internet là một mạng máy tính toàn cầu với hơn 150 triệu máy tính
(tháng 1/2002) liên lạc với nhau thông thường qua giao thức TCP/IP (Transfer
Control Protocol/Internet protocol). Các máy tính được nhận diện và kết nối với mạng
Internet thông qua đòa chỉ internet (Internet protocol - IP) của nó có dạng dãy số gồm
4 số phân cách bởi dấu chấm (ví dụ 172.69.145.21). Bốn dòch vụ chính có thể sử dụng

trên mạng là: thư điện tử (e-mail), đăng nhập từ xa (telnet), chuyển tập tin (file
transfer protocol, FTP) và World Wide Web (hay còn gọi là giao thức truyền siêu văn
bản - hypertext transfer protocol, HTTP). World Wide Web cho phép người sử dụng
các trình duyệt đònh vò và xem thông tin từ hơn 40 triệu dòch vụ web trên toàn thế giới
(tháng 3/2002). Các tài liệu siêu văn bản có thể thể chứa hình ảnh, âm thanh, văn bản
text… và có thể dễ dàng liên kết với các trang siêu văn bản khác. Đòa chỉ đònh vò các
tài liệu siêu văn bản là một đòa chỉ duy nhất (URL – Uniform Resource Locator) có
dạng service://hostname:port/file (dòch vụ://tên máy chủ: cổng/file).

Service : Tên dòch vụ đang truy cập (ftp, http, gopher, telnet, mailto)
hostname : Đòa chỉ IP hoặc tên miền nơi đònh vò của thông tin
port : Cổng trên máy phục vụ, mặc đònh là 80, nhưng cũng có khi là 8000
hay 8080
/file : Tên thật của tập tin trên máy tính được tham chiếu bởi máy phục vụ

Ví dụ về đòa chỉ WWW:
/>

Các trang web là nơi chứa đựng thông tin thường xây dựng bằng ngôn ngữ
siêu văn bản và có sử dụng các liên kết đến các trang khác. Các liên kết thường được
thể hiện bằng những dòng chữ bò đổi màu chữ khi ta di chuyển đến và con trỏ biến
thành dấu hiệu . Khi nhập đòa chỉ liên kết đến các vò trí trang web (web site) phải
đánh dòng văn bản với đầy đủ các ký tự, có sự phân biệt giữa chữ thường và chữ hoa.

Nơi nhập đòa chỉ
Nội
dung
trang
web

6
Khi sử dụng phần mềm Internet Explorer để xem (duyệt) trang web, chúng ta
có thể lưu lại các đòa chỉ khi đã “ghé thăm” bằng cách sử dụng chức năng Add to
favourites… trên thanh Explorer bar khi đang ở trang web “ưa thích”. Những lần truy
cập sau, chúng ta chỉ cần nhấn vào tên trang web trong menu Favourites để vào trang
web ưa thích mà không phải nhập lại đòa chỉ Internet.

Sử dụng những nút Back hoặc Forward để trở lại hoặc tiếp tục mở lại trang web
phía trước; các nút Stop và Refesh để tạm dừng truy cập hay thực hiện “làm tươi” nội
dung trang web bằng cách truy cập lại đòa chỉ Internet này.
4. Một số thuật ngữ sinh – tin học thường gặp trên mạng internet

Thuật ngữ Sinh học
Accession Mã số truy cập trong các cơ sở dữ liệu sinh học (Genbank…)
Alignment Sắp gióng cột hai hay nhiều trình tự nhằm xác đònh độ tương đồng

giữa chúng.
bp (base pair) cặp base.
cDNA (complementary DNA) mạch đơn bổ sung cho RNA và được tồng
hợp từ khuôn nhờ enzyme phiên mã ngược.
Cloning Kỹ thuật tạo ra tập hợp các tế bào hoặc phân tử giống hệt nhau cùng
bắt nguồn từ một tế bào hay một phân tử ban đầu.
Codon Bộ ba nucleotide mã hóa cho một acid amin hay một “dấu hiệu” bắt
đầu hay kết thúc dòch mã.
DNA sequencing
Trình tự A, T, G, C của acid deoxyribonucleic (DNA).
Downstream Đầu 3’ của trình tự nucleotide.
Exon Một phần của một gen gián đoạn (gen tồn tại ở eukaryote), có mặt
trong phân tử RNA trưởng thành.
Gene Đoạn DNA (gen) tham gia vào việc hình thành một sợi polypeptide;
gen bao gồm các vùng nằm trước và sau vùng mã hóa và cả trình tự
(intron) nằm giữa các phần mã hóa.
gi Dãy số hiệu của mỗi trình tự quy đònh theo sắp xếp của NCBI.
Hairpin Vùng xoắn kép hình thành từ sự bắt cặp bổ sung giữa hai trình tự bổ
sung nằm kề nhau trên một phân tử DNA hay RNA mạch đơn (cấu
trúc kẹp tóc).
Intron Đoạn DNA được phiên mã nhưng bò loại bỏ trong quá trình trưởng
thành của RNA, không có mặt ở phân tử RNA trưởng thành.
Molecular hybridization
Quá trình trong đó hai mạch acid nucleic bổ sung (A-T, G-C) bắt cặp
hình thành nên mạch kép; kỹ thuật hữu hiệu để phát hiện một trình tự
nucleotide chuyên biệt (lai phân tử).

7
Operon Đơn vò biểu hiện và điều hòa gen ở vi khuẩn, bao gồm các gen cấu
trúc nằm cạnh nhau và các nhân tố điều hòa, các gen cấu trúc này

cùng chòu những tác động điều hòa như nhau.
PCR (Polymerase Chain Reaction) kỹ thuật dùng để khuếch đại nhiều bản
sao của một trình tự DNA đích nhờ DNA polymerase.
ORF (Open Reading Frame) khung đọc mở khi dòch mã cho ra một trình tự
amino acid hoàn chỉnh.
Plasmid DNA dạng vòng, nằm ngoài nhiễm sắc thể và có khả năng tự sao
chép độc lập.
Primer Trình tự DNA hay RNA ngắn, bắt cặp với một mạch khuôn DNA và
có mang đầu 3’OH tự do giúp DNA polymerase bắt đầu tổng hợp
mạch mới.
Promoter Trình tự trên phân tử DNA, nơi RNA polymerase gắn vào để khởi
động phiên mã.
Redundancy Sự có mặt của nhiều mẩu tin dư thừa (thường là trình tự). Trong
Bioinformatics, đó là sự liên quan của những trình tự giống nhau
trong cùng một cơ sở dữ liệu.
Restriction enzyme (RE)
Enzyme nhận biết một trình tự DNA ngắn chuyên biệt và cắt mạch
kép DNA.
Restriction map
Bản đồ vò trí nhận biết của tất cả các enzyme cắt giới hạn trên một
trình tự DNA.
RNA sequencing
Trình tự A, U, G, C của acid ribonucleic (RNA).
Splicing Sự loại bỏ các intron và nối liền các exon ở RNA trong quá trình
trưởng thành sau phiên mã.
Tm (Melting temperature) nhiệt độ mà ở đó một nửa số phân tử của trình
tự đó bò biến tính (nhiệt độ nóng chảy của một trình tự).
Transcription Sự tổng hợp RNA từ khuôn DNA.
Translation Sự tổng hợp protein từ khuôn mRNA (sự dòch mã).
Upstream Đầu 5’ của trình tự nucleotide.

Vector Trong kỹ thuật tạo dòng (cloning), là plasmid hay phage dùng để
chuyên chở một đoạn DNA lạ gắn vào đó với mục đích tạo ra một
lượng bản sao lớn hay một sản phẩm protein từ đoạn DNA này.

Thuật ngữ Tin học
Acrobat Họ các công cụ của công ty Adobe cho phép nhà xuất bản dòch các
tập tin Postscript thành Portable Document Format (PDF) và người
dùng có thể xem trên trên các nền thông thường của máy.
BLAST (Basic Local Alignment Search Tool) một công cụ tìm kiếm nhanh
những trình tự tương đồng trong một cơ sở dữ liệu.

8
Browser Công cụ cho phép người dùng quét một danh sách tập tin hoặc tìm
một mục riêng nào đó. Trong WWW (World-Wide-Web), browser
được hiểu là phần mềm cho phép duyệt qua những tư liệu trên Web.
Browser Một trình duyệt web (Web Browser) hỗ trợ các đồ họa, âm thanh và
video.
Download Tải tập tin xuống máy tính, truyền các tập tin từ một máy tính sang
một máy tính khác.
FAQs Những câu hỏi được yêu cầu thường xuyên (Frequently Asked
Questions).
FASTA Chương trình tìm kiếm trình tự tương đồng được dùng rộng rãi đầu
tiên.
Freeware Phần mềm sử dụng miễn phí và có thể tải về máy tính cá nhân.
FTP Giao thức chuẩn dùng để gởi tập tin (File Transfer Protocol) từ một
máy này đến một máy khác trên mạng TCP/IP như Internet.
Gap Khoảng trống được đưa vào khi so sánh các trình tự với nhau nhằm
làm tăng độ tương đồng giữa chúng.
Gateway Dòch vụ dòch thông điệp giữa những giao thức khác nhau.
Gopher Hệ menu phân cấp dùng để gởi tài liệu trên Internet.

Homepage Trang đầu của một server World-Wide-Web hay tài liệu gốc mô tả
một tổ chức (cá nhân) được cung cấp thông qua user.
HTML Ngôn ngữ đánh dấu siêu văn bản (The HyperText Markup
Language) dùng để mô tả các tài liệu truyền thông qua WWW.
HTML cho phép một tài liệu có thể chứa các liên kết đến một tài liệu
khác, cung cấp cho WWW khả năng Hypertext (và hypermedia).
Internet Bất kỳ mạng nào của hệ thống mạng liên kết trên thế giới.
IP address Số duy nhất gán cho một máy mạng TCP/IP.
LAN (Local Area Network) mạng phủ trên một vùng đòa lý tương đối nhỏ
(một văn phòng, một tầng hay một tòa nhà…).
Login Thủ tục khởi nhập một liên kết với máy chủ của người sử dụng mạng
(thường gồm yêu cầu về tên và mật khẩu).
Netquette Những nguyên tắc xã giao chủ đạo trong truyền thông trên mạng
Internet.
Offline Khi không sử dụng kết nối đó nữa.
Online Khi sử dụng kết nối với một máy tính khác.
Query Khung nhập trình tự (hoặc những loại thuật ngữ tìm kiếm khác)
Shareware Phần mềm cho phép tải và sử dụng miễn phí nhưng nếu muốn dùng
tiếp thì phải trả cho tác giả một khoản tiền danh dự nhỏ.
URL (Uniform Resource Locator – đònh danh tài nguyên đồng nhất) hệ
thống ghi đòa chỉ được web sử dụng.
WWW (World Wide Web) Phương tiện đònh vò trên Internet bằng cách sử
dụng siêu liên kết.
Ví dụ

9
5. Tài liệu tham khảo

1. Cynthia Gibas &Per Jabeck. 2001. Developing Bioinformatics Computer
Skills. O’Reilly & Associates, Inc., USA.
2. Gunter Kahl. 1995. Dictionary of Gene Technology. VCH Verlagsgesell-
schaft mbH, Germany.
3. Hồ Huỳnh Thùy Dương. 1998. Sinh học phân tử, NXB Giáo dục.
4. Institute of Technical Biochemistry, 2002. Bioinformatics tools for
Biologists, University of Stutgartt, Germany.
5. National Center for Biotechnology Information, NCBI. 10/2001.
USA.
6. Neil F., Peadar Ó G. 2001. Bioinformatics programme, 4
th
Molecular Biology
Workshop, HCMC, Vietnam.

10

P
P
H
H
A
A
À

À
N
N

I
I

K
K
H
H
A
A
I
I

T
T
H
H
A
A
Ù
Ù
C

C

D
D
Ö
Ö
Õ
Õ

L
L
I
I
E
E
Ä
Ä
U
U

S
S
I
I
N
N
H

H

H
H
O
O
Ï
Ï
C
C

Q
Q
U
U
A
A

M
M
A
A
Ï
Ï
N
N
G

G

I
I
N
N
T
T
E
E
R
R
N
N
E
E
T
T

11
Bài 1
.

CƠ SỞ DỮ LIỆU SINH HỌC TRÊN MẠNG INTERNET

1. Mục đích, nguyên tắc

Công việc đầu tiên khi chúng ta bắt tay vào công việc nghiên cứu là tập hợp
và xử lý thông tin về lónh vực nghiên cứu mình quan tâm. Để làm được chuyện này,
ngoài cách tiếp cận truyền thống là vào thư viện, chúng ta còn có thể khai thác kho
dữ liệu thông tin phong phú trên mạng Internet (World Wide Web). Ở đây luôn có
một lượng lớn thông tin Sinh học đa dạng và cập nhật có thể tham khảo và sử dụng
trong nghiên cứu. Các thông tin này thuộc nhiều lónh vực khác nhau như: sinh học
phân tử, sinh hóa, sinh học tế bào, di truyền học…

Trên thế giới có rất nhiều hệ thống các nhóm nghiên cứu sinh học hoạt động
trên nhiều lónh vực khác nhau. Các thông tin sinh học thu thập được từ hoạt động của
các nhóm này ngày càng nhiều, nhất là từ khi Công nghệ Sinh học có những bước tiến
bộ vượt bậc. Từ thực tế này đã xuất hiện nhu cầu cần quản lý, hợp tác và trao đổi
thông tin sinh học với sự trợ giúp của Công nghệ Thông tin, ngành kỹ thuật mũi nhọn
trong thời đại công nghệ tri thức. Các cơ sở dữ liệu sinh học trên thế giới ra đời từ đó

với mục đích giúp các nhà sinh học có điều kiện quản lý, khai thác, trao đổi thông tin
nghiên cứu của kho dữ liệu sinh học khổng lồ của sự sống trên hành tinh này.

2. Khai thác và xử lý thông tin Sinh học

Hiện nay, có rất nhiều dạng cơ sở dữ liệu thuộc nhiều lónh vực sinh học khác
nhau (dữ liệu về môi trường, đa dạng sinh học, đa dạng di truyền; dữ liệu về nguồn
gen: DNA, RNA; dữ liệu về protein: trình tự, cấu trúc, chức năng…). Trong đó, dữ liệu
về sinh học phân tử luôn chiếm ưu thế do đặc thù thông tin trong nghiên cứu của lónh
vực này.

Chúng ta có thể khai thác các dữ liệu sinh học phân tử bằng cách thông qua
mạng Internet liên kết đến các máy tính chủ (server) lưu trữ các trình tự DNA của
hàng ngàn gen thuộc hàng trăm loài khác nhau, trình tự protein có nguồn gốc từ
những trình tự DNA này, trình tự bộ gen (genome) của nhiều loài (bao gồm cả bản
thảo của trình tự bộ gen người), rất nhiều ấn phẩm điện tử (sách, báo, tạp chí…) và
những thông tin khác phục vụ cho mục đích nghiên cứu. Ngoài ra, còn có nhiều đòa
chỉ giới thiệu các nhóm nghiên cứu về các vấn đề sinh học chuyên ngành, các chương
trình phần mềm dùng để phân tích các trình tự sinh học trên Internet. Chúng ta có thể
sử dụng trực tiếp trên Internet hoặc chép (download) các phần mềm miễn phí này về
máy tính của mình. Phần lớn các thông tin này được sử dụng miễn phí. Tuy nhiên, có
một số thông tin được bảo vệ bằng luật bản quyền và không thể sử dụng miễn phí.

12
Trong phần I, chúng ta sẽ làm quen với nhiều cách tìm kiếm những thông tin
sinh học trên mạng Internet thông qua các trang web tìm kiếm thông tin hoặc các cơ
sở dữ liệu sinh học lớn trên thế giới. Thông tin tìm kiếm được quan tâm là các bài báo
khoa học và các trình tự nucleic acid hay protein. Tùy từng trường hợp cụ thể mà
chúng ta có thể xác đònh đối tượng và mở rộng phạm vi tìm kiếm đến những lónh vực

khác với nguyên tắc tương tự.

Thông tin sinh học trên mạng Internet có nhiều dạng, chủ yếu là các dạng
dạng trang web (HTM, HTML), dạng tạp chí điện tử, các bài báo lưu trữ (PDF) hoặc
các dạng cơ sở dữ liệu tr2inh tự sinh học (trình tự DNA, protein…). Để khai thác các
thông tin này chúng ta cần phải biết lựa chọn cơ sở dữ liệu, cách thức truy cập và sử
dụng công cụ tìm kiếm và xử lý những thông tin này phù hợp với yêu cầu công việc.

Chương trình thực tập khai thác thông tin sinh học qua mạng Internet bao gồm
các nội dung:

• Tìm kiếm các dạng dữ liệu trình tự sinh học và các thông tin sinh
học khác có liên quan (chủ yếu về sinh học phân tử).
• Đòa chỉ Internet để tìm kiếm các thông tin này.
• Giải quyết các câu hỏi làm thế nào để:
- Truy cập thông tin có liên quan (ấn phẩm, cấu trúc, trình tự liên
quan)?
- Truy cập trình tự DNA và protein trong các cơ sở dữ liệu trình tự
sinh học?-
- Phân tích trình tự sinh học bằng các chương trình trên Internet?

Chúng ta sẽ download các trình tự Sinh học và phân tích chúng bằng nhiều
chương trình khác nhau. Các chương trình này hầu hết là những phần mềm hoặc trang
web miễn phí. Như vậy, sau đợt thực tập, các bạn có thể thực hiện việc tìm kiếm và
phân tích thông tin sinh học bằng bất kỳ máy tính nào nối mạng Internet.

13
Bài 2
.

TÌM KIẾM THÔNG TIN TRÊN MẠNG INTERNET

1. Mục đích, nguyên tắc

Để tìm kiếm thông tin trên mạng Internet, chúng ta có thể sử dụng nhiều công
cụ tìm kiếm khác nhau. Việc tiếp cận các thông tin thường được thực hiện bằng cách
xác đònh nội dung chính cần tìm kiếm, lựa chọn công cụ tìm kiếm, xác đònh phạm vi
thực hiện tìm kiếm và chọn lọc thông tin (loại bỏ những thông tin không cần thiết).
Công việc tìm kiếm thông tin sẽ trở nên nhẹ nhàng hơn khi ta nắm vững một số
nguyên tắc giới hạn tìm kiếm và lọc thông tin.

Sơ đồ nguyên tắc tìm kiếm thường sử dụng là:

2. Công cụ và cách sử dụng

Để tìm kiếm những thông tin này, thông thường chúng ta phải xác đònh một từ
hay một nhóm từ khóa (keyword) mang nội dung chủ yếu hay quan trọng nhất của
vấn đề quan tâm. Sau đó sử dụng các công cụ tìm kiếm trên mạng để tìm đến các đòa
chỉ lưu trữ những thông tin cần thiết hoặc những thông tin liên quan. Sử dụng các
chức năng chọn lọc thông tin của các công cụ để hạn chế việc tiếp nhận những thông
tin không liên quan. Ví dụ thông tin: “PCR for detection of Listeria monocytogenes in
food samples”, trong trường hợp này có thể xác đònh các từ khóa là: PCR,

monocytogenes.

Sau khi xác đònh được từ khóa, ta thường phải xác đònh phạm vi tìm kiếm để
lựa chọn những công cụ thích hợp. Nếu chúng ta cần tìm thông tin tổng hợp về lónh
vực này thì có thể bắt đầu tìm kiếm thông tin ở những trang web. Các công cụ tìm
kiếm có thể là những trang tìm kiếm trên mạng (AltaVista, EuroSeek, Lycos, GOTO,
Yahoo…) hoặc những phần mềm tìm kiếm trên mạng Internet. Nhập từ khóa vào hộp
yêu cầu và nhấn Enter↵ hoặc nút tìm kiếm (Go, Search…). Nguyên tắc chung của việc
nhập từ khóa là:

- Để tìm thông tin có nhiều từ khóa ta nhập tuần tự các từ khóa và phân cách
giữa các từ bằng khoảng trắng (dùng spacebar).

Thông tin
cần tìm
Xác đònh
từ khóa
Chọn cách
tìm kiếm
Lọc
thông tin
KẾT QUẢ
CẦN TÌM

14
- Để tìm thông tin chứa một cụm từ khóa ta thường đặt chúng trong dấu ngoặc
kép (“”), các từ thường dùng (for, of, in, to…) có thể được loại bỏ.

Ví dụ: PCR detection, Listeria cho kết quả khác với “PCR for detection of Listeria”

Tuy nhiên hiệu quả thực hiện tìm kiếm tại các trang web lớn, đa chức năng
thường không cao (do chúng phải chia sẻ cho các chức năng khác bên cạnh chức năng
tìm kiếm). Kết quả tìm kiếm dạng này thường quá lớn (do chức năng lọc thông tin
không mạnh), mất nhiều thời gian (thường phải tải kèm hình ảnh quảng cáo), dễ bò
gián đoạn (do quá tải ở trang chủ) Để tăng hiệu quả tìm kiếm, chúng ta có thể sử
dụng những trang tìm kiếm nhỏ gọn và chuyên nghiệp hơn (ví dụ Google, All The
Web). Các trang này thường có nhiều chức năng tìm kiếm chuyên biệt, khả năng
chọn lọc thông tin mạnh (Advanced Search), tìm được nhiều đòa chỉ.

Một giải pháp khác để tìm kiếm thông tin là sử dụng các phần mềm tìm kiếm
thông tin. Các phần mềm này thường sử dụng cùng lúc nhiều trang tìm kiếm trên
mạng (ví dụ phần mềm WebFerret, Copernic). Cách tìm kiếm này thường cho hiệu
quả rất cao, có thể tìm rất nhiều đòa chỉ liên quan đến thông tin ta quan tâm, nhưng
thông tin thường không tập trung.

Giới hạn kết
quả xuất hiện
Nhập từ
tìm kiếm
Giới hạn
ngôn ngữ,
phạm vi
tìm kiếm

15
Số tập xuất
bản, trang
đầu tiên của
bài báo
Tên tác giả
và từ khóa
tìm kiếm
Tuy nhiên, nếu chúng ta chỉ quan tâm đến những thông tin khoa học sinh học
đáng tin cậy, thường là những bài báo khoa học, thì việc tìm kiếm sẽ có hiệu quả cao
nhất khi ta tìm kiếm thông tin trong những tạp chí khoa học chuyên ngành trên mạng

Internet (ví dụ tạp chí Applied Environmental Microbiology), hoặc những cơ sở dữ
liệu thông tin về Sinh học (NCBI, Medscape, BioMedNet…).

Trong đợt thực tập này chúng ta sẽ tìm kiếm thông tin bằng cách sử dụng cơ sở
dữ liệu trong trang chủ NCBI (National Center for Biotechnology Information -
NCBI, USA) tại đòa chỉ Internet là
/. Khi truy cập vào đòa
chỉ này, chúng ta sẽ nhìn thấy một trang chủ dạng như sau:

Giới hạn
phạm vi

tìm kiếm
và kết quả
thể hiện

16
Chúng ta thực hiện tìm kiếm thông tin sinh học trong trang Entrez. Trang
Entrez là một trang web của NCBI.

• Nhấn dòng chữ Entrez để vào trang Entrez.

Trong Entrez, bạn có thể tìm kiếm nhiều dạng cơ sở dữ liệu khác nhau. Mỗi
cơ sở dữ liệu là một liên kết được biểu thò bằng dòng văn bản được đổi màu khi ta di
chuyển đến. Ví dụ: PubMed, Protein

Các dòng văn bản đổi màu được gọi là các liên kết siêu văn bản (hay liên kết)
và thường mở ra một trang mới khi ta nhấn vào. Trong Entrez chúng ta có thể nhập
vào những yêu cầu tìm kiếm cơ sở dữ liệu về các bài báo thuộc lónh vực Y – Sinh học
(PubMed), trình tự nucleic acid (Nucleotide), trình tự protein (Protein), cấu trúc 3
chiều (Structure), bộ gen (Genome)… Ở đây, chúng ta sử dụng trang PubMed để tìm
kiếm các bài báo về thông tin Y - Sinh học.

Ví dụ chúng ta quan tâm bài báo có tựa đề “Isolation and characterization
of Escherichia coli O157:H7 from retail meats in Argentina”. Tác giả: Chinen I,
Tanaro JD, Miliwebsky E, Lound LH, Chillemi G, Ledri S, Baschkier A, Scarpin
M, Manfredi E, Rivas M. Chúng ta có thể chọn lựa từ khóa là “O157:H7”,
“Argentina” (tựa đề) và “Chinen” (tên tác giả).

Các cơ sở dữ

liệu thuộc
trang Entrez
Khung nhập yêu cầu

17
• Chọn cơ sở dữ liệu là PubMed ở khung Search.
• Nhập từ khóa cần tìm kiếm vào khung yêu cầu (for
oooo )
• Ấn phím Go hoặc nhấn Enter↵.

Kết quả sẽ xuất hiện sau vài phút (hoặc lâu hơn) dưới dạng một danh sách các
mục bài (entries, hits) với tên tác giả, tựa đề bài báo, tên tạp chí, năm xuất bản
Nhấn vào dòng tên tác giả để xem chi tiết tóm tắt từng mục bài.

Thay đổi kiểu thể hiện kết quả bằng cách chọn kiểu thể hiện ở menu Display
(Summary, Brief, Abstract, Citation, ASN.1, MEDLINE…). Để tìm chính xác các từ
khóa, chúng ta có thể sử dụng toán tử Boolean (AND, OR, NOT) và dùng thẻ (tag)
trong ngoặc vuông ([ ]) đặt sau từ khóa để giới hạn phạm vi tìm kiếm từ khóa đó.
Dưới đây là một số thẻ thông dụng.

Thẻ Giới hạn phạm vi tìm kiếm
[AB] Tóm tắt - abstract
[AU] Tên tác giả - author name
[DP] Ngày xuất bản - publication date
[CY] Nơi phát xuất bản tạp chí - country
[IP] Số phát hành của tạp chí
[IS] International Standard Serial Number of Journal (ISSN)
[LA] Ngôn ngữ của bài báo - language
[PG] Số trang - page number
[TI] Tựa đề - title word
[VI] Tập (số) - volume

Tên tác giả
Tựa đề bài báo

18
Ví dụ: "DNA microarray"[ti] AND Curtis[au] 2002[dp]
nghóa là: tìm bài báo có chữ
DNA microarray (trong tựa đề bài báo) của tác giả Curtis năm 2002

Lưu ý: khi tìm kiếm, để tìm một cụm từ (phrase) thì chúng phải được đặt trong dấu
ngoặc kép (“”). Entrez tự động hiểu có toán tử AND giữa các từ cách nhau bằng
khoảng trắng (không nằm trong dấu ngoặc kép).

Ví dụ: protein SSB tương đương với protein AND SSB và khác với “protein SSB”.

3. Thực hành

Sinh viên thực hành tìm bài báo có tựa đề:
“Cloning and characterization of two promoters for the human Hsal 2
gene and their transcriptional repression by the Wilms tumor
suppressor gene product”
Tác giả:
Ma Y, Li D, Chai L, Luciani AM, Ford D, Morgan J, Maizel AL

Ta thực hiện chọn lựa từ khóa là “Cloning” (tựa đề) và “Ma” (tên tác giả).
Chúng ta thực hiện tìm kiếm bài bào này trên PubMed bằng nhiều cách khác nhau.
Đầu tiên thực hiện tìm những bài báo có từ “Cloning” và từ “Ma”.

• Nhập vào khung for dòng “Cloning[TI] AND Ma[AU]”.
• Nhấn phím Go hoặc nhấn Enter↵
.

Câu hỏi: Có bao nhiêu mục bài được tìm thấy?
Trả lời:

Bây giờ nếu biết thêm thông tin bài báo trên xuất bản năm 2001.

Câu hỏi: Phải nhập vào trình tự tìm kiếm là gì để tìm được chính xác bài báo ta cần?
Có bao nhiêu bài báo tìm được?
Trả lời:

Trong trang PubMed, thử tìm và phân biệt hai trường hợp khi tìm bài báo với
yêu cầu là LT AND gene và “LT gene” (trong ngoặc kép).

Câu hỏi: Số bài tìm được của mỗi cách là bao nhiêu?
Có gì khác nhau giữa hai cách tìm này?
Trả lời:

19
Bài 3
.

TÌM KIẾM CÁC TRÌNH TỰ SINH HỌC

1. Mục đích, nguyên tắc

Trong nghiên cứu sinh học phân tử, chúng ta thường xuyên phải làm việc trên
các đối tượng là nucleic acid (DNA) và protein. Đây là các dạng trình tự sinh học
được lưu trữ phổ biến trong các cơ sở dữ liệu sinh học. Hiện nay, các thông tin này
được lưu trữ chủ yếu trong các cơ sở dữ liệu lớn trên thế giới như hệ thống GenBank
(NCBI, USA), EMBL (European Molecular Biology Laboratory, UK), DDBJ (DNA
Database of Japan, JP) và một số hệ thống cơ sở dữ liệu khác trên thế giới.
Thông tin trong các cơ sở dữ liệu này rất lớn và luôn được cập nhật thường
xuyên (sau mỗi 24 giờ). Ví dụ cơ sở dữ liệu về nucleotide của Genbank (NCBI) hiện
nay chứa trên 13 tỉ base của trên 100 ngàn loài. Con số này luôn tăng theo số mũ và
dự tính gia tăng lên gấp đôi trung bình sau mỗi 14 tháng (10/2001). Để tìm những
trình tự sinh học này, chúng ta sử dụng công cụ tìm kiếm Entrez Nucleotide (tìm trình
tự DNA) hoặc Entrez Protein (tìm trình tự protein).

2. Công cụ và cách sử dụng

2.1. Tìm trình tự DNA

Để tìm những trình tự DNA ta sử dụng Entrez Nucleotide để tìm kiếm trong hệ
thống cơ sở dữ liệu về trình tự DNA. Các cơ sở dữ liệu này bao gồm hệ thống
GenBank (NCBI, USA) và liên kết với cơ sở dữ liệu của EMBL, DDBJ và một số hệ
thống dữ liệu khác trên thế giới.

• Từ trang PubMed, nhấn vào dòng Nucleotide để đưa ta đến trang Entrez
Nucleotide.
• Nhập vào yêu cầu (thường là tên gen như: “luc gene”, “ST gene”,…) và
nhấn nút Go (hoặc nhấn Enter↵).
• Kết quả sẽ xuất hiện một danh sách trình tự DNA tương tự như sau:

• Nhấn vào các mục bài để xem chi tiết trình tự DNA.
Các mục bài
tìm được

20
Tên tác giả và
ta
ïp
chí đăn
g
tải

2.2. Tìm trình tự Protein

Để tìm trình tự protein, cũng tương tự việc tìm kiếm trình tự DNA. Việc tìm
kiếm trình tự protein cũng được thực hiện trong hệ thống Genbank, EMBL và DDBJ.

• Nhấn vào dòng Protein trong trang Entrez để mở trang Entrez Protein.
• Nhập vào yêu cầu (thường là tên protein như: “SSB”, “ST”,…) và nhấn nút
Go (hoặc nhấn Enter↵
).
• Sau vài phút, kết quả sẽ xuất hiện một danh sách trình tự protein tương tự
như trường hợp DNA.
• Nhấn vào mã số truy cập của các mục bài để xem chi tiết trình tự protein.

3. Thực hành

3.1. Tìm trình tự DNA

Chúng ta thực tập tìm kiếm trình tự gen có tên là LT.

• Từ trang PubMed, nhấn vào dòng Nucleotide để đưa ta đến trang Entrez
Nucleotide.
• Nhập vào yêu cầu là ( “LT gene” và nhấn nút Go (hoặc nhấn Enter↵
).
• Sau vài phút, kết quả sẽ xuất hiện một danh sách trình tự DNA.

Kết quả tìm kiếm sẽ thể hiện số lượng các mục bài (entries, hits) có liên quan
đến trình tự gen LT.

Trình tự protein

21

Câu hỏi: Có bao nhiêu mục bài có liên quan đến trình tự gen LT được tìm thấy?
Trả lời:

Để thay đổi kiểu thể hiện kết quả ta có thể thay đổi dạng trình bày bằng cách
chọn kiểu thể hiện ở menu Display (Summary, Brief, ASN.1, FASTA, GenBank, GI
list…).
• Nhấn lên phần số của bất kỳ mục bài nào, ta sẽ nhận được mô tả chi tiết của
mục này liên quan đến trình tự DNA, trình tự protein đã được dòch mã, tên
tác giả và những thông tin cần thiết khác (vùng promoter, peptide tín hiệu…).
Dạng thể hiện những mô tả này là kiểu Genbank.
• Trở lại trang Entrez Nucleotide và nhập trình tự tìm kiếm là “D00102” và
nhấn Go.

Câu hỏi: Kết quả có bao nhiêu mục được tìm thấy?
Trả lời:
• Tiếp tục nhấn vào dòng D00102 để xem chi tiết mục bài này.

Câu hỏi: Trình tự DNA này dài bao nhiêu?
Nó mã hóa cho gen gì?
Công trình này được đăng tải bởi tạp chí nào?
Tác giả là ai?
Trả lời:

22
Cách mã hoá dùng trong trình tự acid nucleic:

A > adenosine M > A C (amino)
C > cytidine S > G C (strong)
G > guanine W > A T (weak)
T > thymidine B > G T C
U > uridine D > G A T
R > G A (purine) H > A C T
Y > T C (pyrimidine) V > G C A
K > G T (keto) N > A G C T (any)
- gap of indeterminate length

3.2. Tìm trình tự Protein

• Trở về trang Entrez hoặc từ trang Entrez Nucleotide, nhấn vào dòng
Protein để mở trang Entrez Protein.

Trang Entrez protein sẽ xuất hiện có dạng:

Chúng ta thực tập tìm kiếm trình tự protein là độc tố bền nhiệt có tên là ST (ST
toxin).

• Nhập dòng “ST toxin” vào khung yêu cầu, nhấn Go, và chờ kết quả.

23
Thực hiện tìm hiểu chi tiết các mục bài vừa tìm kiếm được bằng cách nhấn lên
các mã số mục bài (tương tự cách dùng với trình tự DNA).

Câu hỏi: Có bao nhiêu mục bài liên quan đến trình tự protein yêu cầu được tìm
thấy?
Trình tự protein ST toxin chủ yếu liên quan đến loài nào?
Đặc điểm của protein này?
Trả lời:

Cách mã hóa dùng trong trình tự amino acid:

A alanine P proline
B aspartate or asparagine Q glutamine
C cystine R arginine
D aspartate S serine
E glutamate T threonine
F phenylalanine U selenocysteine
G glycine V valine
H histidine W tryptophan
I isoleucine Y tyrosine
K lysine Z glutamate, glutamine
L leucine X any
M methionine * translation stop
N asparagine - gap of indeterminate length

24
Bài 4
.

TÌM KIẾM CÁC TRÌNH TỰ TƯƠNG ĐỒNG

1. Mục đích, nguyên tắc

Một chương trình tìm kiếm và so sánh trình tự tương đồng được nhiều người
dùng nhất hiện nay có tên là BLAST (Basic Local Alignment Search Tool). Chương
trình này thực hiện so sánh trình tự DNA và protein nhập vào với những trình tự trong
các cơ sở dữ liệu (GenBank, EMBL…) và lựa chọn các trình tự có mức độ tương đồng
từ cao đến thấp. Chúng ta dùng BLASTù khi có câu hỏi đặt ra “Liệu có trình tự nào
trong ngân hàng dữ liệu giống hoặc gần giống với trình tự của bạn không?”.

Chương trình BLAST giúp chúng ta nhanh chóng tìm ra những trình tự sinh
học tương đồng (nếu có) với trình tự bạn yêu cầu. Ngoài ra, BLAST còn cung cấp cho
bạn những số liệu về tỉ tệ tương đồng, nguồn gốc các trình tự tương đồng…

2. Công cụ và cách sử dụng

Để truy cập vào trang BLAST, chúng ta nhấn vào dòng BLAST trong trang chủ
của NCBI. Chúng ta có thể thực hiện tìm kiếm trình tự tương đồng DNA (Nucleotide -
Nucleotide BLAST) hoặc protein (Protein – Protein BLAST).

TỔNG QUAN BIOINFORMATIC potx

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về