Tải bản đầy đủ (.pdf) (59 trang)

Tổng quan về tin sinh học và một số ứng dụng trong thực tế

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.29 MB, 59 trang )

BỘ Y TẾ
TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

HOÀNG NGUYỄN KHÁNH LINH
Mã sinh viên: 1201323

TỔNG QUAN VỀ TIN SINH HỌC VÀ
MỘT SỐ ỨNG DỤNG TRONG THỰC TẾ
KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ

HÀ NỘI - 2017


BỘ Y TẾ
TRƯỜNG ĐẠI HỌC DƯỢC HÀ NỘI

HOÀNG NGUYỄN KHÁNH LINH
Mã sinh viên: 1201323

TỔNG QUAN VỀ TIN SINH HỌC VÀ
MỘT SỐ ỨNG DỤNG TRONG THỰC TẾ
KHÓA LUẬN TỐT NGHIỆP DƯỢC SĨ

Người hướng dẫn:
PGS.TS. Nguyễn Văn Rư
Nơi thực hiện:
Bộ môn Hóa sinh

HÀ NỘI - 2017



LỜI CẢM ƠN

Trong quá trình thực hiện và hoàn thành khóa luận này, em đã nhận được
rất nhiều sự quan tâm, động viên và giúp đỡ tận tình từ các thầy cô, gia đình và
bạn bè. Nhờ có sự giúp đỡ quý báu đó mà em mới có thể nghiên cứu và hoàn thành
tốt khóa luận của mình.
Nhân dịp này, em xin bày tỏ sự kính trọng và lòng biết ơn sâu sắc đến:
PGS. TS. Nguyễn Văn Rư, thầy đã tận tình chỉ bảo, tạo mọi điều kiện,
trực tiếp hướng dẫn em hoàn thành khóa luận.
Em cũng xin trân trọng cảm ơn Đảng ủy, Ban Giám hiệu nhà trường, Phòng
Đào tạo cùng toàn thể các thầy cô, các cán bộ Trường Đại học Dược Hà Nội đã
tạo điều kiện để em có thể lĩnh hội những kiến thức quý giá về ngành Dược trong
suốt 5 năm học.
Cuối cùng, em xin gửi lời cảm ơn sâu sắc đến gia đình, bạn bè đã luôn sát
cánh, động viên em hoàn thành khóa luận này.

Hà Nội, ngày 18 tháng 5 năm 2017
Sinh viên

Hoàng Nguyễn Khánh Linh


MỤC LỤC
ĐẶT VẤN ĐỀ ............................................................................................. 1
PHẦN I: TỔNG QUAN .............................................................................. 2
1. Tổng quan về tin sinh học..................................................................... 2
1.1. Giới thiệu chung về tin sinh học..................................................... 2
1.1.1. Một số định nghĩa về tin sinh học ............................................ 2
1.1.2. Vai trò, lợi ích của tin sinh học ................................................ 3
1.1.3. Một số cơ sở dữ liệu tin sinh học lớn ....................................... 4

1.2. Tình hình phát triển Tin sinh học tại Việt Nam hiện nay............... 4
2. Một số chương trình, phần mềm tin sinh học phổ biến ........................ 6
2.1. Chương trình thiết kế mồi trong phản ứng PCR ............................ 6
2.1.1. Giới thiệu về phản ứng PCR .................................................... 6
2.1.2. Giai đoạn thiết kế mồi và ứng dụng của tin sinh học............... 8
2.2. Các công cụ tìm kiếm tương đồng ............................................... 13
2.2.1. Cấu trúc và chức năng của các phân tử sinh học ................... 13
2.2.2. Quá trình phân tích trình tự .................................................... 14
2.2.3. Ứng dụng chương trình tìm kiếm tương đồng trong chú giải gen
.................................................................................................................... 15
2.3. Các phần mềm trực quan phân tử ................................................. 18
2.3.1. Một số thông tin liên quan về protein và kĩ thuật đồ họa phân
tử ................................................................................................................. 18


2.3.2. Ứng dụng các phần mềm trực quan phân tử .......................... 19
2.4. Một số kĩ thuật mới ...................................................................... 25
2.4.1. Kĩ thuật khai thác dữ liệu (Data mining) ............................... 25
2.4.2. Kĩ thuật nguồn lực cộng đồng ................................................ 26
3. Một số ứng dụng của tin sinh học ...................................................... 28
3.1. Các ứng dụng trong chẩn đoán ..................................................... 28
3.1.1. Ứng dụng kĩ thuật giải trình tự định danh vi khuẩn ............... 28
3.1.2. Ứng dụng kỹ thuật PCR, giải trình tự để định danh vi nấm .. 29
3.1.3. Ứng dụng PCR và giải trình tự trong chẩn đoán bệnh ........... 29
3.2. Ứng dụng trong kiểm nghiệm chất lượng sản phẩm probiotic .... 29
3.3. Ứng dụng PCR, giải trình tự phát hiện đột biến kháng thuốc ...... 31
3.4. Ứng dụng kĩ thuật giải trình tự dự đoán chức năng protein ......... 31
3.5. Ứng dụng trong việc xác định gen gây bệnh ở người .................. 31
3.6. Ứng dụng trong nghiên cứu phát triển thuốc ............................... 33
PHẦN II: BÀN LUẬN .............................................................................. 34

KẾT LUẬN VÀ ĐỀ XUẤT ...................................................................... 40
TÀI LIỆU THAM KHẢO ......................................................................... 41


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

STT

Chữ viết đầy đủ

Chữ viết tắt

1

ADN

Acid deoxyribonucleic

2

ARN

Acid ribonucleic

3

BLAST

Basic Local Alignment Search Tool


4

CIB DDBJ

The Center for Information Biology and DNA Data
Bank of Japan

5

EMBL

European Molecular Biology Laboratory

6

FAO

Food and Agriculture Organization

7

FDA

The Food and Drug Administration

8

GMO

Genetically Modified Organism


9

GWAS

Genome-wide association study

10

HBV

Hepatitis B virrus

11

HCV

Hepatitis C virus

12

MTHFR

Methylen tetrahydrofolat reductase

13

NCBI

National Center for Biotechnology Information


14

PDB

Protein Data Bank

15

PCR

Polymerase Chain Reaction


16

SNP

Single nucleotide polymorphisms

17

VSV

Vi sinh vật

18

WHO


World Health Organization


DANH MỤC CÁC HÌNH VẼ
Hình 1: Nguyên tắc và các bước thực hiện phản ứng PCR [90] ................. 7
Hình 2: Giao diện kết quả phần mềm thiết kế mồi Primer3 ...................... 12
Hình 3: Giao diện chương trình BLAST ................................................... 16
Hình 4: Biểu diễn đồ họa của cấu trúc 3 chiều protein. Hình ảnh 3 chiều của
lysozym lòng trắng trứng gà được hiển thị với RasMol (hàng đầu và hàng hai), và
Cn3D (hàng ba) [76] ............................................................................................ 20
Hình 5: Cấu trúc 3 chiều của lysozym lòng trắng trứng gà được tìm kiếm
trực tuyến bằng mã PDB: 1LYZ .......................................................................... 21
Hình 6: Cấu trúc 3 chiều của phức hợp alcol dehydrogenase được hiển thị
với phần mềm RasMol [76] ................................................................................. 22
Hình 7: Chuỗi Cα của lysozym lòng trắng trứng gà được hiển thị với phần
mềm KineMage [76] ............................................................................................ 23
Hình 8: Tương tác của các đại phân tử được hiển thị với phần mềm Cn3D
[76] ....................................................................................................................... 24
Hình 9: Kết quả giải trình tự 16s rDNA trực khuẩn Gram (+) phân lập kị
khí từ bệnh phẩm mủ xoang [8] ........................................................................... 28


ĐẶT VẤN ĐỀ
Tin sinh học là một khoa học liên ngành ứng dụng tin học để giải quyết các
vấn đề thuộc lĩnh vực sinh học. Do đặc thù ngành, khoa học sinh học có một số
lượng dữ liệu khổng lồ, vì vậy các ứng dụng của tin học có thể giúp lưu trữ, xử lý,
chiết tách và ứng dụng các dữ liệu đó một cách hiệu quả nhất.
Trên thế giới, ứng dụng tin sinh học đã mang lại nhiều lợi ích trong nhiều
lĩnh vực khoa học thực tế như là nông nghiệp, công nghiệp, y dược học đặc biệt là
nghiên cứu phát triển thuốc và chẩn đoán theo dõi điều trị bệnh.

Ở Việt Nam, tin sinh học đã được quan tâm và ứng dụng vào thực tế đạt
được những kết quả to lớn. Trong lĩnh vực y dược học, ứng dụng tin sinh học cũng
đang diễn ra mạnh mẽ như là nghiên cứu phát triển thuốc, chẩn đoán điều trị bệnh.
Tuy nhiên những nghiên cứu ứng dụng ở nước ta hiện nay cũng mới chỉ bắt đầu.
Vì vậy, để khai thác được các giá trị của tin sinh học, chúng tôi tiến hành đề tài
“Tổng quan về tin sinh học và một số ứng dụng trong thực tế" với 2 mục tiêu:
1. Thu thập và trình bày được các kiến thức về tin sinh học
2. Trình bày được một số ứng dụng về tin sinh học trong thực tế

1


PHẦN I: TỔNG QUAN
1. Tổng quan về tin sinh học
1.1. Giới thiệu chung về tin sinh học
1.1.1. Một số định nghĩa về tin sinh học
Có rất nhiều định nghĩa khác nhau về tin sinh học:
- Thuật ngữ tin sinh học dùng để chỉ hầu hết các ứng dụng máy tính vào
khoa học sinh học, ban đầu dùng để gọi việc phân tích dữ liệu trình tự sinh học
vào giữa thập niên 80 [11].
- Việc sử dụng máy tính và công nghệ thông tin để lưu trữ và phân tích trình
tự nucleotid và acid amin và các thông tin liên quan [55].
- Một lĩnh vực khoa học gồm tất cả các khía cạnh của việc thu thập, lưu trữ,
xử lý, phân tích, giải thích và truyền bá thông tin sinh học [38].
Tóm lại, tin sinh học là một lĩnh vực liên ngành, với sự kết hợp của sinh
học, khoa học máy tính và công nghệ thông tin. Có 3 hướng chính trong tin sinh
học:
- (1) Phát triển các kĩ thuật thống kê và thuật toán mới để đánh giá mối quan
hệ giữa các dữ liệu trong cơ sở dữ liệu lớn.
- (2) Phân tích và diễn giải các loại dữ liệu khác nhau, bao gồm trình tự

nucleotid, acid amin, và cấu trúc protein.
- (3) Sự phát triển các công cụ cho phép truy cập và quản lý hiệu quả các
loại thông tin khác nhau.
2


1.1.2. Vai trò, lợi ích của tin sinh học
Tin sinh học đã và đang được ứng dụng vào nhiều lĩnh vực trong nghiên
cứu khoa học. Trong công nghệ sinh học, tin sinh học giúp thúc đẩy các quá trình
như giải trình tự gen tự động, dự đoán chức năng gen, dự đoán cấu trúc protein,
phát triển thuốc, thiết kế vaccin [71], nghiên cứu tiến hóa, cải tiến cây trồng, khoa
học thú y [37].
Với riêng ngành dược, tin sinh học được ứng dụng nhiều trong phát triển
thuốc. Quá trình nghiên cứu và phát triển thuốc rất tốn kém về tiền bạc và thời
gian. Vì vậy, các công ty dược phẩm luôn tìm mọi cách để giảm nguy cơ thất bại
khi phát triển thuốc cũng như cố gắng đẩy nhanh tiến trình phát hiện thuốc. Việc
ứng dụng tin sinh học vào nghiên cứu phát triển thuốc đem lại nhiều lợi ích to lớn:
- Tiết kiệm chi phí: Theo ước tính, chi phí của quá trình nghiên cứu phát
triển thuốc lên tới 800 triệu đô cho mỗi thuốc được đưa ra thị trường [21]. Các
công cụ tin sinh học đang được ứng dụng để giảm bớt gánh nặng chi phí này.
- Tiết kiệm thời gian: Sức mạnh của các công cụ tin sinh học có thể giúp dự
đoán các hoạt chất tiềm năng. Việc dự đoán hoạt chất tiềm năng nhất để tập trung
phát triển hoạt chất đó thay vì nghiên cứu dàn trải có thể rút ngắn thời gian nghiên
cứu phát triển thuốc, thuốc có thể sẽ được đưa ra thị trường sớm hơn.
- Hiệu quả điều trị: Một thuốc mới được đưa ra thị trường có thể là thuốc
để trị một bệnh chưa tìm ra các thuốc chữa, hoặc là thuốc có ưu thế về một mặt
nào đó hơn các thuốc trị bệnh đó đã biết. Hiệu quả của thuốc sẽ đem lại những lợi
ích cho các bệnh nhân nói riêng và toàn xã hội nói chung.

3



1.1.3. Một số cơ sở dữ liệu tin sinh học lớn
Cơ sở dữ liệu của NCBI là một trong các cơ sỡ dữ liệu sinh học lớn nhất thế
giới hiện nay. Trung tâm dữ liệu này gồm một số mảng dữ liệu con như PubMed
chứa các công trình nghiên cứu của các nhà khoa học, GenBank chứa dữ liệu về
cấu trúc chuỗi ADN và chuỗi acid amin, dịch vụ Entrez kết nối liên thông giữa
các mảng dữ liệu khác,…
Cơ sở dữ liệu EMBL của phòng thí nghiệm sinh học phân tử châu Âu là
một trong ba ngân hàng dữ liệu sinh học lớn nhất thế giới. Trung tâm dữ liệu này
cũng bao gồm một số mảng dữ liệu, trong đó lớn nhất phải kể đến dữ liệu cấu trúc
ADN (EMBL), dữ liệu cấu trúc protein (SWISS-PROT) và dữ liệu cấu trúc các
đại phân tử (EBI-MSD).
Cơ sở dữ liệu CIB – DDBJ là cơ sở dữ liệu thuộc sự quản lý của Trung tâm
thông tin sinh học, Viện di truyền quốc gia Nhật Bản, và cũng là một trong ba
ngân hàng dữ liệu sinh học lớn nhất thế giới.
3 trung tâm dữ liệu gen lớn nhất thế giới là NCBI, EMBL và DDBJ liên kết
với nhau. GenBank chính là sản phẩm hợp tác quốc tế giữa 3 trung tâm này. Mỗi
cơ sở dữ liệu đều sở hữu các thông tin của 2 cơ sở dữ liệu còn lại [3].
1.2. Tình hình phát triển Tin sinh học tại Việt Nam hiện nay
Bắt kịp xu thế phát triển của khoa học thế giới, ở Việt Nam đã có một số
nhà khoa học quan tâm nghiên cứu lĩnh vực đầy tiềm năng này và đã đạt được một
số thành công nhất định.

4


- Năm 2015, PGS. Lê Sỹ Vinh cùng các cộng sự đến từ Đại học Công nghệ
(Đại học Quốc gia Hà Nội) đã công bố kết quả nghiên cứu xây dựng và phân tích
thành công hệ gen 3 cá thể của một gia đình người Việt Nam.

- Tiến sĩ Nguyễn Cường cùng các cộng sự đến từ Phòng Tin sinh học, Viện
Công nghệ sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam có nhiều
công trình nghiên cứu theo các hướng như giải trình tự, lập bản đồ gen, phân tích
hệ gen,…
- PGS.TS Lê Thị Lý (ĐH Quốc tế, ĐH Quốc gia TPHCM) nghiên cứu về
ứng dụng của Tin sinh học trong phát triển thuốc.
- PGS.TS Thái Khắc Minh (Đại học Y dược TPHCM) nghiên cứu thiết kế
thuốc hợp lý, xây dựng các mô hình in silico,…
Cuối năm 2014, Tin sinh học được bổ sung vào danh mục công nghệ cao
được nhà nước ưu tiên phát triển, cho thấy tầm quan trọng của lĩnh vực này. Điều
này có thể góp phần thúc đẩy các nhà khoa học quan tâm nghiên cứu đến Tin sinh
học nhiều hơn nữa.

5


2. Một số chương trình, phần mềm tin sinh học phổ biến
2.1. Chương trình thiết kế mồi trong phản ứng PCR
2.1.1. Giới thiệu về phản ứng PCR
2.1.1.1. Định nghĩa phản ứng PCR
PCR (Polymerase Chain Reaction) – phản ứng chuỗi polymerase, hay còn
gọi phản ứng khuếch đại gen, là một kĩ thuật tạo ra nhiều bản sao một đoạn ADN.
Kĩ thuật này được phát minh bởi nhà khoa học Kary Mullis vào năm 1985.

6


2.1.1.2. Nguyên tắc và các bước thực hiện phản ứng PCR

Hình 1: Nguyên tắc và các bước thực hiện phản ứng PCR [90]

Nguyên tắc và các bước thực hiện: [8],[90]
Bước 1: ADN khuôn có cấu trúc xoắn kép sẽ được làm biến tính bởi nhiệt
(khoảng 940C) và tách thành 2 mạch đơn.
Bước 2: Hạ nhiệt độ xuống (khoảng 55-560C), mồi xuôi và mồi ngược sẽ
gắn bổ sung vào 2 mạch đơn.
Bước 3: Nhiệt độ lại được tăng (khoảng 720C). Các polymerase chịu nhiệt
thực hiện phản ứng kéo dài chuỗi. Đoạn ADN ban đầu được khuếch đại.
7


Lặp đi lặp lại các bước như trên. Sau mỗi chu kỳ, số sản phẩm nằm giữa hai
vị trí mồi được nhân đôi. Sau 20 chu kỳ, trình tự đích tăng gấp khoảng một triệu
lần [41].
2.1.1.3. Các yếu tố cần thiết cho một phản ứng PCR
Thành phần của một phản ứng PCR gồm có [67]:
- Một mẫu ADN chứa đoạn ADN đích cần khuếch đại
- Một ADN polymerase, thường sử dụng Taq polymerase chịu nhiệt [49] vì
khả năng duy trì sự nguyên vẹn về cấu trúc và chức năng trong giai đoạn biến tính
chuỗi ADN.
- Hai đoạn mồi ADN.
- dNTP gồm 4 loại dATP, dGTP, dCTP, dTTP là nguyên liệu để tổng hợp
sợi bổ sung
- Một dung dịch đệm cung cấp môi trường hóa học thích hợp cho hoạt động
của enzym ADN polymerase.
- Các cation hóa trị hai, thường sử dụng Mg2+ hoặc Mn2+, là cofactor của
enzym ADN polymerase
2.1.2. Giai đoạn thiết kế mồi và ứng dụng của tin sinh học
2.1.2.1. Vai trò của mồi và giai đoạn thiết kế mồi
Mồi là các đoạn trình tự ngắn oligonucleotid bổ sung với 2 đầu của đoạn
ADN cần khuếch đại. Để polymerase tổng hợp được sợi bổ sung, mồi phải bắt cặp

được với sợi khuôn. Do vậy có thể nói mồi đóng vai trò quyết định tính đặc hiệu
của PCR [8].
8


Mồi phải thỏa mãn một số yêu cầu về độ dài, chiều, nhiệt độ gắn mồi, nhiệt
độ nóng chảy, mật độ GC. Chọn mồi phải tuân theo một số nguyên tắc sau đây
[1],[18]:
- Độ dài mồi cần chọn nằm trong khoảng 16 đến 30 nucleotid. Chiều dài
mồi xuôi và mồi ngược chênh lệch không quá 3 nucleotid.
- Trình tự của mồi được chọn không có sự bắt cặp giữa mồi xuôi và mồi
ngược, và cũng không tạo những cấu trúc kẹp tóc.
- Mồi phải chọn đặc trưng cho ADN cần khuếch đại và không trùng với các
trình tự lặp lại trên gen.
- Trình tự nằm giữa mồi xuôi và mồi ngược không quá lớn (1kb).
- Nhiệt độ nóng chảy của mồi khoảng 72°C. Chênh lệch nhiệt độ nóng chảy
của mồi xuôi và mồi ngược không cách nhau quá xa, thông thường trong khoảng
từ 4-5°C.
Để phản ứng PCR diễn ra thuận lợi, cần thiết kế mồi thỏa mãn các đặc điểm
nêu trên.
2.1.2.2. Ứng dụng tin sinh học vào giai đoạn thiết kế mồi
Có thể thấy, việc thiết kế mồi thủ công rất phức tạp và mất nhiều thời gian.
Một số phần mềm tin sinh học trợ giúp việc thiết kế mồi đã được phát triển, giúp
tìm kiếm và lựa chọn đoạn nucleotid tương đồng với cấu trúc chuỗi phân tích. Các
chương trình thiết kế mồi được sử dụng phổ biến gồm có Primer3 [64], Primer –
Blast [87], FastPCR [34], Oligo Primer Analysis [65].

9



Primer3 là phần mềm được sử dụng phổ biến nhất để thiết kế mồi [18]. Đây
là một chương trình đơn giản và miễn phí, với phiên bản trực tuyến tại địa chỉ:
/>Các thao tác sử dụng chính phần mềm Primer3 [1]:
Bước 1: Nhập dữ liệu. Chuỗi ký tự được viết theo định dạng FASTA.
Bước 2: Thiết lập các thông số. Một số thông số cơ bản gồm có:
Number to Return: số cặp mồi lựa chọn
Max 3’ Stability: chỉ số lựa chọn độ ổn định của chuỗi mồi
Primer Size: kích thước giới hạn của đoạn mồi được chọn
Primer Tm: nhiệt độ phân ly cặp mồi
Max Self Complementaty: tổng trị số lớn nhất đánh giá khả năng tự bắt cặp của
đoạn mồi với đoạn mồi khác
Salt Concentration: nồng độ muối trong phản ứng PCR
Annealing Ologo Concentration: nồng độ mồi trong phản ứng PCR
Start Codong Position: vị trí xác định trong thực nghiệm
Bước 3: Gửi lệnh yêu cầu. Nhấn “Pick Primer” để gửi thông tin đi xử lý.
Chương trình sẽ trả về kết quả lựa chọn đoạn mồi.
Ví dụ, với chuỗi trình tự sau:
ctcagctgtgtcaaagtttcacagatcctcgtcttctattccggctacactcagtctcctccagcttagatcttt
gtccttctcctgggtactctccgactccttcttccagctaatgtccggtcattagaaaagttttaaagtttgaattgtcnnt
ccctgtcaaagtttccagacctcgtcgtccttctcttctccgtcagctctcagtcttcattggaacagatctgtctttattcc
10


gcctgctacactcagtctcctccttcagtctcttaaaagtttgttcagtcttagatgaatttctctgggtactttgtcctccg
actccgtccagctaatcggtcttgtcgtcattagatttccttcttctagatgattcatgtctacctattgtcnntcgtcttcc
cgtgtnnnccaggtccgtttcgtccgcctgtcgtctattctatctcggtccttacacaaagttgtccttaaagtttttttgt
gtccctagtccaaggtccaattttttccatctgtttcgtcctgtcttttttgngntcgcgtccgtttcccgttctctatgcctc
cctcctcttatc
Đầu tiên, nhập trình tự vào ô nhập. Sau đó, thiết lập một số thông số, ví dụ:
- Targets: 300,250

- Excluded Region: 30,15
- Number To Return: 5
- Max 3’ Stability: 9.0
- Max Mispriming: 12.00
- Pair Max Mispriming: 24.00
- Primer Size:

Min: 15

Opt: 20

Max: 25

- Primer Tm:

Min: 55

Opt: 60

Max: 65

- Product Tm:

Min:

Opt: 50

Max:

- Các tham số còn lại giữ nguyên giá trị mặc định

Nhấn “Pick Primer” để gửi thông tin đi xử lý. Chương trình sẽ trả về kết
quả lựa chọn đoạn mồi, với giao diện như sau:

11


Hình 2: Giao diện kết quả phần mềm thiết kế mồi Primer3

Như vậy, chương trình Primer3 đã lựa chọn được 4 cặp mồi. Cặp mồi phù
hợp nhất là cặp mồi được hiển thị đầu tiên trong tệp kết quả:
- Mồi xuôi: cgtcgtccttctcttctccg
12


- Mồi ngược: gagggaggcatagagaacgg
Sau đó là 3 cặp mồi khác kém hơn, xếp theo thứ tự chất lượng giảm dần
như sau:
1. Mồi xuối: gcctgctacactcagtctcc
Mồi ngược: ggaggcatagagaacgggaa
2. Mồi xuôi: attccgcctgctacactcag
Mồi ngược: agaggagggaggcatagaga
3. Mồi xuôi: tctccgtcagctctcagtct
Mồi ngược: gataagaggagggaggcatag
Thông tin này sẽ được sử dụng để tổng hợp nên đoạn mồi
2.2. Các công cụ tìm kiếm tương đồng
2.2.1. Cấu trúc và chức năng của các phân tử sinh học
Acid nucleic là một đại phân tử sinh học, được cấu thành từ 3 thành phần:
một đường pentose, một nhóm phosphat, và một base nitơ. Acid nucleic gồm 2
loại là ADN và ARN. Acid nucleic là một polymer được hình thành từ các
monomer là nucleotid bằng liên kết phosphodieste. Có 5 loại nucleotid là Adenin

(A), Cytosin (C), Guanin (G), Thymin (T) và Uracil (U). Trật tự sắp xếp các
nucleotid này tạo thành trình tự của ADN và ARN.
ADN là một chuỗi xoắn kép gồm 2 chuỗi đơn, mỗi chuỗi đơn là một chuỗi
polynucleotid. Trật tự sắp xếp các nucleotid tạo thành trình tự gen. Trình tự gen
quy định trình tự ARN được tạo ra qua quá trình phiên mã, trình tự ARN lại quy
định trình tự protein được tạo ra qua quá trình dịch mã. Như vậy, trật tự sắp xếp
13


các nucleotid trên các gen sẽ quyết định trật tự sắp xếp các acid amin trên protein
mà gen đó mã hóa. Trình tự ADN chứa 4 loại nucleotid là: A, C, G, T.
Có 20 acid amin thông thường. Mỗi acid amin ngoài tên đầy đủ còn có thể
biểu diễn dưới dạng viết tắt 3 chữ cái hoặc 1 chữ cái. Trình tự acid amin được quy
định bởi trình tự nucleotid trên gen. Mỗi bộ ba nucleotid liên tiếp (còn gọi là một
codon) mã hóa cho một loại acid amin nhất định.
Protein là những phân tử gồm một hoặc nhiều chuỗi polypeptid, được cấu
tạo từ các đơn vị cơ bản là acid amin. Trình tự các acid amin trong chuỗi
polypeptid quyết định cấu trúc không gian của chuỗi, từ đó sẽ quyết định chức
năng của protein.
2.2.2. Quá trình phân tích trình tự
2.2.2.1. Giải trình tự
Giải trình tự gen là quá trình xác định thứ tự sắp xếp các nucleotid trên phân
tử ADN. Trước đây, phân tử ADN được giải trình tự bằng phương pháp hóa học
hoặc phương pháp enzym. Hiện nay, với sự phát triển của khoa học công nghệ,
các đoạn vẫn được giải trình tự theo phương pháp enzym nhưng bằng các máy giải
trình tự tự động [8].
2.2.2.2. Lắp ráp trình tự
Các công cụ giải trình tự hiện nay chỉ có thể đọc được những đoạn nhỏ của
bộ gen (từ 100bp đến khoảng 20kb), ngắn hơn đáng kể so với các gen đang được
nghiên cứu (ví dụ như bộ gen con người chứa trên 3Gb). Do vậy, để thu được một

trình tự hoàn chỉnh, sau khi giải trình tự từng đoạn nhỏ, phải lắp ráp các đoạn nhỏ
đó lại thành một chuỗi hoàn chỉnh. [1],[70] Đó chính là quá trình lắp ráp trình tự,
14


với sự trợ giúp của các chương trình máy tính. Một số phần mềm được sử dụng
phổ biến là Celera, Euler, Phrap, Velvet [70],[48].
2.2.2.3. Chú giải gen
Sau khi có được trình tự gen, quá trình dự đoán gen và chú giải gen sẽ diễn
ra. Đây là quá trình xác định vị trí của gen, các vùng mã hóa trong gen và xác định
chức năng sinh học của protein mà gen đó mã hóa. Tìm kiếm tương đồng là một
bài toán trong lĩnh vực chú giải gen. Bằng cách so sánh trình tự nucleotid của gen
hoặc trình tự acid amin của protein mà gen đó mã hóa với trình tự của các gen
hoặc protein đã biết chức năng, nhà nghiên cứu có thể xác định những trình tự
tương đồng, điều này cung cấp đầu mối chức năng của protein mới. Các chương
trình tin sinh học tìm kiếm tương đồng thường được sử dụng cho mục đích này
[41].
2.2.3. Ứng dụng chương trình tìm kiếm tương đồng trong chú giải gen
Các chương trình tìm kiếm tương đồng được sử dụng rộng rãi gồm có:
BLAST [9], PSI – BLAST [9], SSEARCH [73],[53], FASTA [54] và HMMER3
[32]. Đề tài sẽ tập trung giới thiệu về chương trình BLAST.
BLAST - một trong những phần mềm tìm kiếm trình tự được sử dụng rộng
rãi nhất [17] – là một trong những phần mềm được sử dụng phổ biến trong chú
giải gen.
Phần mềm BLAST so sánh cấu trúc chuỗi ADN cần phân tích với thư viện
các chuỗi ADN đã biết được lưu giữ trong ngân hàng dữ liệu, để xác định chuỗi
(hoặc các chuỗi) tương đồng nhất với chuỗi cần phân tích [1].

15



Chương trình BLAST có thể được sử dụng online tại địa chỉ:
/>Giao diện chương trình BLAST:

Hình 3: Giao diện chương trình BLAST
Thao tác sử dụng phần mềm BLAST [1]:
Bước 1: Lựa chọn chương trình BLAST
Có 5 phiên bản của chương trình BLAST [12]:
Blastp: so sánh trình tự protein cần phân tích với các trình tự protein trong
ngân hàng dữ liệu
Blastn: so sánh trình tự nucleotid cần phân tích với trình tự các nucleotid
trong ngân hàng dữ liệu
Blastx: so sánh trình tự nucleotid cần phân tích với trình tự các protein trong
ngân hàng dữ liệu
16


Tblastn: so sánh trình tự protein cần phân tích với trình tự các protein được
dịch mã tương ứng từ trình tự nucleotid trong ngân hàng dữ liệu
Tblastx: so sánh trình tự nucleotid cần phân tích với trình tự các nucleotid
trong ngân hàng dữ liệu, theo từng đoạn khung gồm 6 kí tự một.
Người sử dụng sẽ lựa chọn 1 trong 5 chương trình này, tùy theo mục đích
sử dụng.
Bước 2: Nhập dữ liệu
Người dùng nhập dữ liệu chuỗi cần phân tích. Người dùng có thể tải tập tin
dữ liệu ở định dạng FASTA hoặc nhập mã của trình tự truy vấn vào ô nhập.
Bước 3: Đặt vùng phân tích “Set Subsequence”. Trong mục này, người phân
tích phải cung cấp thông tin vị trí trên đoạn chuỗi cần phân tích bằng 2 giá trị số
chỉ vị trí giới hạn đầu – cuối đoạn chuỗi ấy.
Bước 4: Lựa chọn ngân hàng dữ liệu “choose databases”: Người phân tích

phải xác định nhóm dữ liệu cụ thể của ngân hàng dữ liệu được chỉ định làm đối
tượng so sánh, bằng cách đánh dấu vào một trong các mảng cấu trúc chuỗi.
Người phân tích có thể đặt thêm một số tùy chọn như giới hạn, lọc chuỗi,…
để tối ưu các kết quả.
Bước 5: Gửi yêu cầu xử lý. Người phân tích nhấn lệnh “BLAST” để gửi
yêu cầu. Chương trình BLAST sẽ phản hồi yêu cầu bằng một tệp dữ liệu kết quả,
với các mức từ thấp đến cao (nghĩa là các chuỗi được hiện thị theo độ tương đồng
từ mức cao xuống mức thấp hơn).

17


×