Tải bản đầy đủ (.doc) (89 trang)

Phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 89 trang )

1

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN VĂN THÀNH

PHÁT HIỆN CÁC ĐỘT BIẾN ĐẢO ĐOẠN
TRONG HỆ GEN GIẢI MÃ TỪ THIẾT BỊ
ĐỌC TRÌNH TỰ THẾ HỆ MỚI

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên – 2014


2

LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của
cá nhân, được thực hiện dưới sự hướng dẫn khoa học của Tiến sĩ Nguyễn
Cường. Các số liệu, những kết luận nghiên cứu được trình bày trong luận
văn này trung thực và chưa từng được công bố dưới bất cứ hình thức nào.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.

Học viên

Nguyễn Văn Thành


3



LỜI CÁM ƠN
Lời đầu tiên, tôi xin chân thành cám ơn Tiến sĩ Nguyễn Cường nguời
đã trực tiếp huớng dẫn tôi hoàn thành luận văn. Với những lời chỉ dẫn,
những tài liệu, sự tận tình hướng dẫn và những lời động viên của Thầy đã
giúp tôi vượt qua nhiều khó khăn trong quá trình thực hiện luận văn này.
Tôi cũng xin cám ơn quý Thầy (Cô) giảng dạy chương trình cao học
“Khoa học máy tính” đã truyền dạy những kiến thức quý báu, những kiến
thức này rất hữu ích và giúp tôi nhiều khi thực hiện nghiên cứu.
Xin cám ơn các quý Thầy (Cô) công tác tại Trường Đại học Công
nghệ thông tin và truyền thông – Đại học Thái Nguyên đã tạo điều kiện cho
tôi được tham gia và hoàn thành khóa học.

Tôi xin chân thành cám ơn.

Học viên

Nguyễn Văn Thành


4

MỤC LỤC
LỜI CAM ĐOAN..................................................................................................... 1
LỜI CÁM ƠN........................................................................................................... 3
MỤC LỤC ................................................................................................................ 4
DANH MỤC CÁC HÌNH ẢNH ............................................................................. 6
DANH MỤC CÁC BẢNG BIỂU ........................................................................... 7
DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ............................................... 8
PHẦN MỞ ĐẦU ...................................................................................................... 9

Chương 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT HIỆN
ĐỘT BIẾN ĐẢO ĐOẠN....................................................................................... 11
1.1 - Tổng quan về Tin sinh học ......................................................................... 11
1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn ............................................... 12
1.2.1 - Gen và đột biến cấu trúc hệ gen ...................................................... 12
1.2.2 - Phương pháp phát hiện sự biến đổi cấu trúc trong bản đồ gen ...............
15
1.2.3 - Định dạng cơ sở dữ liệu ................................................................... 23
1.2.3 - Bài toán đột biến đảo đoạn .............................................................. 27
1.3 - Các công cụ giải quyết bài toán đảo đoạn .............................................. 33
1.3.1 - Chương trình Wgsim ........................................................................ 33
1.3.2 - Chương trình TMAP ........................................................................ 33
1.3.3 - Chương trình BWA và Bowtie. ....................................................... 33
Chương 2. MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN ....................... 34
2.1 - Thuật toán ma trận điểm............................................................................. 35
2.2 - Thuật toán Blast.......................................................................................... 37


5

2.3 - Thuật toán lai GA-SA................................................................................. 42
2.4 - Thuật toán Needleman – Wunsch .............................................................. 45
2.5 - Thuật toán Smith-Waterman ...................................................................... 49
Chương 3. CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ .................. 56
3.1 - Ánh xạ các đoạn trình tự. ........................................................................... 57
3.2 - Xử lý SAM và khởi tạo điểm dừng khả dĩ. ................................................ 58
3.3 - Lọc và hoàn thiện điểm dừng. .................................................................... 61
3.4 - Mô phỏng dữ liệu và thống kê kết quả ánh xạ. .......................................... 64
3.5 - Đánh giá kết quả phân tích. ........................................................................ 68
3.6 - So sánh với các phương pháp hiện tại........................................................ 74

3.7 - Những hạn chế và cách khắc phục ............................................................. 76
KẾT LUẬN ............................................................................................................ 78
TÀI LIỆU THAM KHẢO ..................................................................................... 80


6

DANH MỤC CÁC HÌNH ẢNH
Hình 1.1: Trong mỗi tế bào có một nhân chính giữa. ....................................... 13
Hình 1.2: Gen được cấu tạo từ DNA. Mỗi NST có nhiều gen ......................... 13
Hình 1.3: Cấu trúc một phần của gen................................................................. 13
Hình 1.4: Đột biến đảo đoạn trong hệ gen. .......................................................... 15
Hình 1.5: Các giai đoạn của đọc trình tự thế hệ mới ........................................ 22
Hình 1.6: Định dạng SAM .................................................................................. 25
Hình 1.7: Bản sao - số biến thể ( CNVs) ........................................................... 28
Hình 1.8: Đồ thị gia tăng CNV và InDel đã thêm vào CSDL từ năm 2002 ...... 28
Hình 1.9: Đồ thị sự phân phối kích thước CNVs trong cơ sở dữ liệu ............. 29
Hình 1.10: Phần lớn sự đảo đoạn đến nay có cỡ 10 đến 100kb ....................... 30
Hình 2.1: Ma trận thay thế BLOSUM................................................................... 40
Hình 2.2: Ma trận thay thế PAM........................................................................... 40
Hình 3.1: Sự gióng hàng của quá trình ánh xạ r1, r2 trên vùng đảo ngược ... 57
Hình 3.2: Những vùng được lựa chọn dựa vào điểm dừng trái và phải .......... 62
Hình 3.4: Số lượng đảo đoạn trong các NST khác nhau .................................. 65
Hình 3.5: Phân phối kích thước của 90 đảo đoạn ............................................. 65
Hình 3.6: Tổng số trình tự của ánh xạ bởi Map1 và Map2 đọc lý tưởng........ 67
Hình 3.7: Tổng số trình tự của ánh xạ bởi Map1 và Map2 cho trình tự lỗi.... 67
Hình 3.8: Những giá trị dương tính giả trong pha thứ 1 và pha thứ 2 ............ 72
Hình 3.9: Tính nhạy cảm ở pha 1 và pha 2........................................................ 73
Hình 3.10: Dự đoán giá trị dương tính giả ở pha 1 và pha 2. .......................... 73
Hình 3.11: Tính nhạy cảm ở pha 1 và pha 2 cho trình tự có lỗi. ..................... 74

Hình 3.12: PPV ở pha 1 và pha 2 cho trình tự có lỗi........................................ 74


7

Hình 3.13: So sánh Inverse Variant vớiBreakDancer dựa vào điểm dừng. .... 76
Hình 3.15: So sánh Inverse Variant với BreakDancer dựa vào tính nhạy cảm, PPV
và FScore....................................................................................................................... 76

DANH MỤC CÁC BẢNG BIỂU
Bảng 1.1: Các thẻ định danh trong SAM .............................................................. 25
Bảng 1.2: Định nghĩa cờ đảo bit trong SAM ........................................................ 25
Bảng 1.3: Mô tả chuỗi CIGAR ............................................................................. 26
Bảng 1.4 Bảng cho thấy CNVs và đảo đoạn ......................................................... 28
Bảng 3.1: Những tham số được đặt mô phỏng cho các đoạn trình tự có lỗi. ....... 66
Bảng 3.2: Kết quả của Inverse Variant ở trình tự lý tưởng có độ dài 100bp ........ 69
Bảng 3.3: Kết quả của Inverse Variant ở trình tự lý tưởng có độ dài 200bp ........ 69
Bảng 3.4: Kết quả của Inverse Variant ở trình tự lý tưởng có độ dài 400bp ........ 69
Bảng 3.5: Kết quả của Inverse Variant ở trình tự lý tưởng với độ bao phủ 10X.. 70
Bảng 3.6: Kết quả của Inverse Variant ở trình tự lỗi với độ bao phủ là 10X ....... 70
Bảng 3.7: Bảng so sánh InverseVariantvới BreakDancer..................................... 75


8

DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ
STT
1

Từ viết tắt/thuật ngữ


Nghĩa/Mô tả

DNA

Deoxyribo Ducleic Acid

2

BP

Base Pair

3

GB

Giga Base Pair

4

NST

Nhiễm sắc thể

5

DNA senquencing

Đọc trình tự DNA


6

HGP

Dự án hệ giải trình tự hệ gen con người

7

Nucleotide

Là các trình tự A,T,G,C

8

SBS

Đọc trình tự bằng sợ tổng hợp

9

SBL

Đọc trình tự gắn nối

10

PCR

Kỹ thuật khuếch đại gen


11

Nanowell

Giếng nano

12

CGIAR

Chuỗi thể hiện số base được ánh xạ/mất/thêm
so với tham chiếu

13

SNP

Đa hình đơn điểm/đơn nucleotide

14

CNV

Bản sao số biến thể

15

InDel


Vị trí thể hiện sự chèn hoặc xóa trong gen

16

BWA (hoặc Bowtie)

Công cụ ánh xạ trình tự với dữ liệu tham chiếu

17

TMAP

Chương trình để xây dựng bản đồ di truyền

18

Wgsim

Công cụ mô phỏng các đoạn trình tự ngắn từ dữ
liệu hệ gen tham chiếu

19

Single end reads

Phương pháp đọc trình tự theo chiều đơn

20

PPV


Dự đoán dương tính giả

21

Hg19

Trình tự hệ gen người phiên bản 19

22

MAQ

Phần mềm lập bản đồ cho các trình tự ngẵn từ
máy đọc trình tự thế hệ mới


9

PHẦN MỞ ĐẦU
Trong nghiên cứu về sinh học hiện đại có nhiều công nghệ và giải
pháp được ứng dụng để phân tích, tổng hợp dữ liệu về cấu trúc và trình tự hệ
gen của các loài sinh vật. Việc phân tích và tổng hợp bộ dữ liệu này yêu cầu
một hệ thống cấu trúc lưu trữ đáp ứng đủ tính chất về độ phức tạp và độ lớn
của bộ dữ liệu kết quả. Các thiết bị đọc trình tự gen được ra đời để giải
quyết các vấn đề nêu trên. Các thiết bị đọc trình tự gen là những công cụ xác
định thứ tự các nucleotide gắn kết với nhau dọc theo chiều dài của gen và
trình tự gắn kết nhau của các nucleotide được gọi là trình tự gen. Trong đó,
đọc trình tự thế hệ mới là một bước tiến vượt bậc về công nghệ đọc trình tự,
từ khả năng đọc trình tự đoạn ngắn 1500bp (Sanger) hay 100 bp

(pyrosequencing) của các thiết bị đọc trình tự trước đó, đọc trình tự thế hệ
mới cho phép đọc được từ 8gb đến 600gb, có nghĩa là cho phép đọc trình tự
nguyên bộ gen của bất kỳ loài sinh vật nào.
Với mong muốn hiểu chi tiết về cấu trúc gen các nhà nghiêncứu sinh
học luôn muốn đọc trình tự hoàn chỉnh các gen của tất cả các loài sinh vât
trong tự nhiên, bao gồm cả hệ gen của con người và toàn bộ trình tự gen
khác của nhiều động, thực vật, vi sinh vật, đồng thời qua việc nghiên cứu đó
có thể phát hiện ra những đột biến cấu trúc trong hệ gen được giải mã. Đặc
biệt là dạng đột biến đảo đoạn, loại đột biến này ít gây ảnh hưởng đến sức
sống của cá thể, nhưng nógóp phần lớn tăng cường sự sai khác giữa các
nhiễm sắc thể (NST) tương đồng điều này dẫn đến tăng sự đa dạng giữa các
thứ,các nòi trong cùng một nòi, ít ảnh hưởng tới sức sống của cá thểvà trong
đó sự sắp xếp lại hệ gen trên NST do đột biến đảo đoạn góp phần tạo sự đa
dạng trong tự nhiên. Đối với con người việc đọc trình tự hệ gen rất quan
trọng, nó góp phần trong việc nghiên cứu sinh học cơ bản và trong nhiều
lĩnh vực ứng dụng như chẩn đoán bệnh tật, công nghệ sinh học, sinh học
pháp y, sinh học hệ thống...Nhận thấy tính thiết thực của vấn đề và với sự


10

định hướng của giáo viên hướng dẫn, học viên đã chọn đề tài “Phát hiện
các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế
hệ mới” để làm rõ các vấn đề đã nêu trên.
Đối tượng và phạm vi nghiên cứu
Kiến trúc về các thành phần và các đột biến cấu trúc trong hệ gen.
Ứng dụng thiết bị đọc trình tự thế hệ mới trong công nghệ sinh học.
Ph ương pháp phát hiện các đột biến đảo đoạn khi sử dụng các thiết bị
đọc trình tự thế hệ mới để giải mã.
Hướng nghiên cứu của đề tài

Nghiên cứu, tìm hiểu mô hình, cách làm việc và giải mã hệ gen từ
thiết bị đọc trình tự thế hệ mới.
Nghiên cứu cấu trúc dữ liệu, các phương pháp tiền xử lý và lắp ráp hệ
gen từ thiết bị đọc trình tự thế hệ mới.
Tìm hiểu, tham khảo các tài liệu liên quan đến các đột biến đảo đoạn
trong hệ gen, từ đó xây dựng thuật toán phát hiện ra các đột biến gen
đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới.
Phương pháp nghiên cứu
Nghiên cứu lý thuyết về các thiết bị đọc trình tự thế hệ mới, đột biến
gen đảo đoạn và cách phát hiện đột biến đảo đoạn trong hệ gen giải mã
từ thiết bị đọc trình tự thế hệ mới.
Thiết kế, đặc tả, xây dựng chương trình, phương pháp đọc trình tự
gen và phát hiện đột biến đảo đoạn.
Qua những phát hiện về đột biến đảo đoạn đưa ra kết luận.
Ý nghĩa khoa học của đề tài
Làm cơ sở để phát hiện ra các đột biến đảo đoạn trong hệ gen.
Ứng dụng như chẩn đoán bệnh, sinh học pháp y, sinh học hệ thống.


11

Chương 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT
HIỆN ĐỘT BIẾN ĐẢO ĐOẠN
1.1 - Tổng quan về Tin sinh học
Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các
công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy
tính và toán sinh học (biomathematics) để giải quyết các vấn đề sinh học.
Những nghiên cứu trong ngành tin sinh học (bioinformatics) thường
trùng lặp với sinh học tính toán (computational biology) hoặc sinh học hệ
thống (system biology). Những lĩnh vực nghiên cứu chính của nó bao gồm

bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein
structural alignment), dự đoán cấu trúc protein (protein structural
prediction), dự đoán biểu hiện gen (gene expression), tương tác protein protein (protein-protein interaction), mô hình hoá quá trình ti ến hoá. Thuật
ngữ tin sinh học và sinh học tính toán thường được dùng hoán đổi cho nhau,
nhưng nói một cách nghiêm túc thì cái trước là tập con của cái sau. Mối
quan tâm chính ở tin sinh học và sinh học tính toán là việc sử dụng các công
cụ toán học để phân chiết các thông tin hữu ích từ các dữ liệu hỗn độn thu
nhận được bằng các kỹ thuật sinh học với lưu lượng và mức độ lớn. Như
vậy, về phương diện này lĩnh vực khai phá dữ liệu (data mining) có sự trùng
lắp với sinh học tính toán. Bài toán đặc trưng trong sinh học tính toán bao
gồm việc lắp ráp (assembly) những trình tự ADN chất lượng cao từ những
đoạn ngắn ADN được thu nhận từ kỹ thuật xác định ADN và việc dự đoán
quy luật điều hoà gen (gene regulation) với dữ liệu từ các mARN,
microarray hay khối phổ (mass-spectrometry).
Các lĩnh vực nghiên cứu chính của tin sinh học gồm hệ gen học phân
tích trình tự, tìm kiếm gen, tìm kiếm các đột biến, phân loại học phân tử,
bảo tồn đa dạng sinh học, phân tích chức năng gen hay biểu hiện nhận diện
chuỗi polypeptid dự đoán cấu trúc của protein các hệ thống sinh học kiểu
mẫu, phân tích hình ảnh mức độ cao, công cụ phần mềm.
Định hướng nghiên cứu tìm kiếm các đột biến là một bài toán rộng
trong Tin sinh học. Bởi vì, các hệ gen thường có nhiều kiểu đột biến với


12

mức độ đột biến khác nhau như là: Đột biến cấu trúc (trong đó có đột biến
mất đoạn, đột biến thêm đoạn, đột biến đảo đoạn, …), đột biến điểm (đột
biến đa hình đơn SNP, đột biến mất nucleotide, đột biến thêm nucleotite, ..).
Trong luận văn này, tôi sẽ tiến hành nghiên cứu phương pháp phát
hiện đột biến đảo đoạn, một dạng của đột biến cấu trúc hệ gen.

1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn
1.2.1 - Gen và đột biến cấu trúc hệ gen
Ngày nay với tiến bộ của khoa học sinh học phân tử, người ta đã biết
rõ rằng đơn vị sinh học cơ bản nhất trong một con thể sống là tế bào (cells),
như cơ thể chúng ta được cấu tạo bằng khoảng 60.000 tỉ tế bào (có ước tính
khác cho rằng con số này là 100.000 tỉ), trong đó nhiều tế bào có những
nhiệm vụ khác nhau, chẳng hạn như tế bào thần kinh có khả năng điều khiển
các hoạt động của cơ thể, tế bào tim cấu thành nên tim và có chức năng co
bóp cung cấp máu đi nuôi cơ thể v.v…Những tế bào này có thời gian tồn tại
nhất định.
Mặc dù khác nhau về chức năng và chu kỳ sống, nhưng tất cả các tế
bào đều có cấu trúc giống nhau: trong mỗi tế bào đều có một nhân (nucleus)
nằm chính giữa


13

Hình 1.1: Trong mỗi tế bào có một nhân chính giữa.

Trong nhân có chứa NST và trong NST có chứa nhiều DNA
(Deoxyribo-Nucleic Acid). DNA bao gồm 4 trình tự nucleotide: A (adeline),
C (cytosine), G (guanine), và T (thymine).

Hình 1.2: Gen được cấu tạo từ DNA. Mỗi NST có nhiều gen

Gen là đoạn DNA, là tập hợp một nhóm gồm 3 mẫu tự có tên là
trinucleotide (bộ 3 mã hóa), như TAG GCC TCA... Một gen là tập hợp nhiều
tam mẫu tự như thế. Như hình minh họa một đoạn của gen gồm các bộ ba
TGA CTG ACT.


Hình 1.3: Cấu trúc một phần của gen.

Gen có chức năng gửi các tín hiệu hóa học đi đến tất cả các nơi trong
cơ thể. Những tín hiệu này có chứa đầy đủ các thông tin, các chỉ thị cụ thể


14

cho các cơ quan trong cơ thể ta phải hoạt động ra sao. Việc tìm hiểu số
lượng gen cũng như cơ cấu tổ chức của gen trong cơ thể con người là một
điều tất yếu để mang lại những tiến bộ mới và quan trọng của y sinh học.
Nhưng không phải gen nào cũng có chức năng rõ ràng. Trong thực tế, có
khoảng 47% gen không có chức năng cụ thể (hay chúng ta chưa biết chức
năng của chúng).
Đột biến gen là những biến đổi nhỏ xảy ra trong cấu trúc của gen. Những
biến đổi này thường liên quan đến 1 cặp nucleotide (đột biến điểm) hoặc 1 số
cặp nucleotide.
Trong những cá thể tự nhiên, các gen đều có thể bị đột biến nhưng với tần
-6

-4

số thấp (từ 10 đến 10 ). Các cá thể mang đột biến đã biểu hiện thành kiểu hình
là thể đột biến. Đột biến gen làm thay đổi cấu trúc của gen từ đó tạo ra alen mới
so với dạng ban đầu.
VD: Ở ruồi giấm gen A qui định mắt đỏ, sau khi bị đột biến tạo thành gen
a qui định mắt trắng
Các dạng đột biến
Độ t b iến mấ t đoạ n : Đột biến này làm NST bị mất đoạn (đoạn đó
không chứa tâm động), làm giảm số lượng gen trên NST thường gây chết hoặc

giảm sức sống của cá thể
Độ t b i ến t hêm đo ạn : Một đoạn nào đó của NST lặp lại một vài
lần xen vào NST. Việc thêm đoạn này là giảm hoặc tăng thêm cường độ biểu
hiện tính trạng vì làm tăng hoặc giảm số lượng gen trên NST
Độ t bi ến chu yển đ oạn : Một đoạn NST bị chuyển dịch trên cùng
một NST hay giữa hai NST khác nhau. Cả hai NST cùng cho và nhận một
đoạn (chuyển đoạn tương hỗ) hay một bên cho, một bên nhận (chuyển đoạn
không tương hỗ). Đột biến chuyển đoạn thường gây chết hoặc mất khả năng sinh
sản.


15

Độ t bi ến đả o đ oạn : Đảo đoạn là hiện tƣợng xảy ra do gãy đồng
thời tại
o
hai điểm trên một nhiễm sắc thể và sau đó đoạn bị đứt xoay 180 rồi nối lại. Hậu
quả là, trật tự các gene trong đoạn đảo ngược lại với trật tự bình thường.
Tùy theo sự tương quan của đoạn đảo với vị trí tâm động, có thể chia làm
hai kiểu đảo đọan. Nếu đoạn đảo không chứa tâm động, gọi là đảo đoạn cận
tâm (paracentric inversion); ngược lại, nếu đoạn đảo băng qua cả tâm động thì
gọi là đảo đoạn quanh tâm (pericentric inversion). Sự trao đổi chéo xảy ra bên
trong vòng của thể dị hợp đảo đoạn cận tâm tạo ra các giao tử chứa các khuyết
đọan lớn.

Hình 1.4: Đột biến đảo đoạn trong hệ gen.

Mô tả: (a) Kết cặp và xuất hiện vòng; (b) Phân ly làm xuất hiện cầu
nối và đoạn không tâm; (c) Cầu nối hai tâm đứt gãy ngẫu nhiên; và (d) Các
sản phẩm được tạo ra.

1.2.2 - Phương pháp phát hiện sự biến đổi cấu trúc trong bản đồ
gen
a. Phương pháp lai dựa trên tiếp cận mảng


16

Phƣơng pháp tiếp cận sử dụng vi mảng[7] đƣợc xem là bƣớc đột phá
đầu tiên trong việc phát hiện và xác định số lượng cũng như kiểu biến đổi
cấu trúc hệ gen. Theo kỹ thuật này, hai cách tiếp cận phổ biến nhất, trước
tiên là ghép hệ gen so sánh mảng (mảng CGH), thứ hai là vi mảng SPN.
Mặc dù cả hai kỹ thuật này được dựa trên suy luận tăng hoặc giảm số lượng
bản sao so với một mẫu tham chiếu hoặc bản gốc khác nha u về chi tiết và áp
dụng các xét nghiệm phân tử. Tuy nhiên với kỹ thuật này có thể phát hiện ra
sự thay đổi cấu trúc như chèn, xóa là đáng kể, phát hiện đảo đoạn gen chỉ là
số ít.
b. Phương pháp đơn phân tích phân tử
Đơn phân tích phân tử[7] là một cách quan trọng để hình dung và
hiểu được vị trí và cấu trúc của các biến thể lớn hơn ở cấp độ đơn phân tử.
Phương pháp phân tích này bao gồm các kỹ thuật như huỳnh quang lai tại
chỗ (FISH), Fiber-FISH. Kỹ thuật này mang lại hiệu quả cho việc xác định
những sự biến đổi cấu trúc chung và hiếm có của hệ gen. Tuy nhiên, chất
lượng và độ phân giải không cao của các kỹ thuật trên gây ra giới hạn ứng
dụng của chúng khi thực hiện trên các cấu trúc đặc biệt lớn (~ 500 kb - 5
Mb). Nhiều phương pháp khác nhau đang được phát triển để sử dụng các
đoạn DNA lớn hoặc dài hơn với quy mô lớn để hiển thị trực tiếp cải thiện
độ phân giải và khả năng mở rộng của phương pháp này. Lập bản đồ quang
học là một kỹ thuật dựa trên một sửa đổi của bản đồ hạn chế truyền thống.
Trong kỹ thuật này sự tiêu chuẩn hóa kỹ thuật được thực hiện trên DNA cố
định để xác định kích thước mảnh, nhỏ và thay đổi thứ tự tương đối của

DNA trên cơ sở so sánh với một mẫu tiêu chuẩn hóa trong phiên bản của
chuỗi gen tham. Ban đầu, nó được phát triển để phân tích bộ gen của nấm
men nhưng đã được sử dụng để phân tích cấu trúc và tính quy mô của bộ
gen người, những phát hiện về sự đảo đoạn, thay thế, cũng như thay đổi số
lượng bản sao và điểm dừng của hệ gen. Lập bản đồ kỹ thuật quang học có


17

thông lượng rất hạn chế và toàn bộ phân tích của nó phụ thuộc vào bộ gen
tham chiếu. Phương pháp mã vạch DNA cũng đang được phát triển như là
kỹ thuật thay thế đó sẽ là hữu ích để phát hiện thông lượng cao của sự khác
biệt về cấu trúc cân bằng trong cấp độ tế bào trong tương lai.
c. Phương pháp dựa trên trình tự gen
Trong phương pháp này đã giải quyết được các hạn chế ở các kỹ thuật
trước đó, kết quả đưa ra làm giảm được chi phí về thời gian và cải thiện chất
lượng của kết quả thu được. Trình tự hệ gen được dựa trên b ốn nucleotide
cơ bản, trình tự này của từng loài sinh vật sẽ được lưu lại trong cơ sở dự liệu
sinh học (Ngân hàng trình tự gen thế giới NCBI - National Center for
Biotechnology Information)[1] , việc so sánh các cấu trúc hệ gen của các loài
sinh vật với bộ gen dữ liệu tham chiếu sẽ đưa ra được các kết luận thực tế về
sự tiến hóa, sự phát triển của sinh vật. Sau đây là một số phương pháp đọc
trình tự gen:
Phương pháp Sanger
Phương pháp Sanger là phương pháp đọc trình tự đầu tiên đã được sử
dụng rộng rãi trong nhiều năm trước đây. Phương pháp dựa trên cơ sở kết
hợp của các dideoxynucleotide (ddNTP) bằng DNA polymerase trong quá
trình khuếch đại DNA trong ống nghiệm.
Phương pháp Pyrosequencing
Năm 1996, Nyrén và Ronaghi đã phát minh ra k ỹ thuật

pyrosequencing[14]. Đối với phương pháp đọc trình tự Sanger, quá trình đọc
trình tự được thực hiện sau phản ứng khuếch đại DNA. Đối với phương
pháp pyrosequencing, quá trình đọc trình tự được thực hiện ngay trong giai
đoạn tổng hợp sợi DNA bổ sung cho sợi khuôn, nghĩa là tổng hợp sợi DNA
bổ sung đến đâu thì đọc trình tự đến đó.
Nguyên lý của kỹ thuật đọc trình tự trong pyrorequencing là ghi nhận
tín hiệu phát quang từ giếng phản ứng mỗi khi sợi bổ sung dựa trên sợi
Số hóa bởi Trung tâm Học
liệu

tnu.edu.vn/


18

khuôn kéo dài được một nucleotide. Để làm được điều này, dung dịch chứa
các loại nucleotide A hoặcT hoặc C hoặc G được lập trình để cho vào giếng
phản ứng có chứa đoạn DNA muốn đọc trình tự, mồi đọc trình tự, và các
thành phần cho phản ứng tổng hợp sợi khuôn. Mỗi khi dung dịch nucleotide
cho vào là đúng với nucleotide được bắt cặp vào sợi khuôn để tổng hợp sợi
bổ sung thì sẽ giải phóng ra một pyrophosphate (PPi) sẽ được phóng ra và
được enzyme sulfurylase chuyển hóa tạo ra một ATP, ATP này sẽ giúp hệ
thống phát quang luciferin-luciferase phát ra ánh sáng do enzyme luciferase
oxi hóa luciferin thành oxyluciferin và phát quang [15] . Với sự ghi nhận tín
hiệu phát quang từ ống phản ứng theo trình tự bổ sung dung dịch các loại
nucleotide, thiết bị pyrosequencing sẽ dịch ra trình tự các nucleotide trên
đoạn DNA được đọc trình tự. Để huỷ được ATP và các nucleotide tự do còn
thừa sau mỗi lần bổ sung nucleotide, enzyme apyrase cũng được cho vào
giếng phản ứng sau khi tín hiệu phát quang được ghi nhận.
Pyrosequencing là một bước tiến về kỹ thuật trong đọc trình tự, cho

phép đọc trình tự ngay trong quá trình tổng hợp sợi bổ sung đoạn DNA, do
vậy pyrosequencing chính là công nghệ khởi đầu cho kỹ thuật “đọc trình tự
tổng hợp”, nền tảng của kỹ thuật đọc trình tự bộ gen hay còn gọi là kỹ thuật
đọc trình tự thế hệ mới sau này. Với ưu thế thời gian đọc trình tự nhanh, độ
chính xác cao, nên pyrosequencing có nhi ều ứng dụng và có ưu thế hơn kỹ
thuật đọc trình tự Sanger, đặc biệt là trong chẩn đoán và chỉ định điều trị
bệnh

[16]

. Vì đây là kỹ thuật mở, và có sẵn các bộ hóa chất thương mại, cho

nên pyrosequencing là một kỹ thuật không thể thiếu trong các phòng thí
nghiệm sinh học phân tử.
Phương pháp đọc trình tự thế hệ mới
Đọc trình tự thế hệ mới là một bước tiến vượt bậc về công nghệ đọc
trình tự. Từ khả năng đọc trình tự đoạn ngắn 1500 bp (Sanger) hay 100 bp
Số hóa bởi Trung tâm Học
liệu

tnu.edu.vn/


19

(pyrosequencing), đọc trình tự thế hệ mới cho phép đọc được từ 8 Gb đến
600 Gb, có nghĩa là cho phép đọc trình tự nguyên bộ gen. Do vậy đọc trình
tự thế hệ mới còn được gọi là đọc trình tự bộ gen.
Đọc trình tự thế hệ mới dựa trên 2 nguyên lý chính sau:
Thứ nhất, đọc trình tự bằng tổng hợp (sequencing by synthesis, SBS)

thường được các thế hệ máy Roche 454, Ion Torrent và Illumina s ử dụng.
SBS liên quan đến việc sử dụng một hỗn hợp các dNTP được biến đổi tại vị
trí 2‟. Hỗn hợp này bao gồm các dNTP bổ sung tự nhiên và các dNTP bổ
sung có đánh dấu huỳnh quang. Quá trình xác định trình tự sẽ diễn ra tương
tự như phản ứng PCR thông thường. Đầu tiên một đoạn trình tự mồi nằm
trên đoạn adapter sẽ được gắn vào phần cuối của đoạn gDNA khuôn cần đọc
trình tự. Sau đó, việc xác định trình tự được thực hiện bằng cách gắn lần
lượt từng dNTP bổ sung có đánh dấu huỳnh quangvào phần cuối của trình tự
mồi trên theo chu trình 3 bước:
Một polymerase kết hợp với một dNTP kết thúc có đánh dấu huỳnh
quang và gắn bổ sung với base trên đoạn gen cần đọc trình tự;
Thiết bị sẽ ghi lại hình ảnh, phần mềm sẽ phân tích hình ảnh thu được
để xác định phân tử dNTP nào được kết hợp và từ đó tìm ra được trình tự bổ sung.
Nhóm kết thúc đầu 3‟ và tín hiệu huỳnh quang sẽ được cắt bỏ bằng
phương pháp hóa học. SBS xác định trình tự các đoạn gen theo chiều từ đầu
5‟ đến 3‟.
Quá trình này được lặp lại cho đến khi toàn bộ chiều dài của đoạn gen
được đọc trình tự. Về mặt lý thuyết, độ dài đoạn được đọc bằng SBS có thể
lên đến hàng trăm trình tự.
Nguyên lý thứ hai, đọc trình tự gắn nối (sequencing by ligation, SBL)
được sử dụng ở máy SOLiD. Phương pháp xác định trình tự bằng phản ứng
ghép nối (SBL): được phát minh bởi George Church. SBL đã được sử dụng
Số hóa bởi Trung tâm Học
liệu

tnu.edu.vn/


20


để xác định trình tự gen và là nền tảng cho các thiết bị đọc trình tự thế hệ
mới. SBL là một chu trình tuần hoàn gồm 4 bước:
Đưa vào các primer neo được thiết kế trình tự bổ sung với trình tự trên
adapter. Quá trình lai của nonamers ngẫu nhiên với nhau. Mỗi
hỗn hợp
nonamer gồm có 4 loại nonamers, mỗi loại có các trình tự và vị trí đã được
biết đến. Các chất phát quang khác nhau được gắn ở cuối của mỗi loại
nonamer sẽ cho phép xác định trình tự trên nonamer.
Các nonamer lai với các primer neo. Sau đó, thiết bị ghi hình và phần
mềm sẽ xác định trình tự ở vị trí tham chiếu.
Primer neo, phức hệ nonamer được đọc phóng và quá trình được lặp
lại cho các vị trí query trong hỗn hợp nonamer. SBL hoạt động trong cả hai
chiều: chiều xuôi (5 'đến 3') và chiều ngược (3 'đến 5').
Công nghệ đọc trình tự gen thế hệ mới theo 3 bước chính như sau:
Bước 1 : Chuẩn bị các đoạn DNA và gắn lên các giá bám: Trước hết
DNA của bộ gen được cắt nhỏ thành các đoạn DNA ngắn nhờ siêu âm hay
nhờ khí dung, sau đó 2 đầu các đoạn DNA ngắn này được gắn 2 đoạn
adapter có trình tự nhận biết bởi các đoạn dò và trình tự mồi PCR. Các đoạn
DNA này sẽ được gắn lên các giá bám là các hạt nano (Roche 454,
SOLiDhay Ion Torrent) hay trên các vi b ản (Illumina) nhờ các đoạn dò đặc
hiệu adapter đã gắn sẵn trên các giá bám này.
Bước 2: Khuếch đại các đoạn DNA trên giá bám bằng mồi đặc hiệu
adapter: Nếu giá bám là vi bản thì thành phần PCR được bơm trải lên vi bản
và khi thực hiện PCR sẽ có từng cụm sản phẩm khuếch đại được gắn trên
các vị trí tách rời nhau. Nếu giá bám là các vi hạt thì phải nhủ hoá thành
phần PCR để các giọt nhủ chỉ chứa một vi hạt, nhờ vậy sau khi thực hiện

Số hóa bởi Trung tâm Học
liệu


/>

21

PCR mỗi vi hạt chỉ có một loại sản phẩm khuếch đại bám lên. Sau đó, các vi
hạt được loại bỏ nhủ dịch và bơm vào một vi chip có chứa hàng chục ngàn

Số hóa bởi Trung tâm Học
liệu

tnu.edu.vn/


21

đến hàng trăm ngàn giếng kích thước nano (nanowell), kích thước này cho
phép mỗi nanowell chỉ chứa được một vi hạt.
Bước 3: Đọc trình tự dựa trên hai nguyên lý SBS và SBL đã được
trình bày ở trên. Nguyên tắc tương tự với pyrosequencing, tuy nhiên có một
số điểm khác biệt bao gồm:
 Thay vì phải huỷ bỏ các thành phần A T, C, và G còn dư thừa
trong phản ứng trước khi cho thành phần tham gia mới vào thì ở đọc trình
tự thế
hệ mới, thành phần tham gia đọc trình tự dư thừa này được thu hồi sau khi
thu được tín hiệu;
 Tín hiệu tổng hợp được ghi nhận sau mỗi lần bơm các thành
phần tham gia vào có thể là tín hiệu phát quang dựa trên hệ thống
luciferin
luciferase (Roche 454) [9] ,tín hiệu điện do thay đổi pH (Ion-Torrent), tín
hiệu huỳnh quang được đánh dấu trên các nucleotide A, T, C hay G

(Illumina), hay cũng có thể là tín hiệu huỳnh quang được gắn lên probe
(SOLiD).

Số hóa bởi Trung tâm Học
liệu

tnu.edu.vn/


22

Hình 1.5: Các giai đoạn của đọc trình tự thế hệ mới

 Tổng hợp mạch bổ sung dựa trên mạch khuôn có thể là kéo dài
đầu
3‟ của mạch bổ sung bằng các nucleotide (A, T, C hay G) và c ứ mỗi khi một
nucleotide được kéo dài thì sẽ có một tín hiệu phát quang (Roche 454),
huỳnh quang (Illumina) hay pH (ion Torrent) đư ợc ghi nhận, hay có thể là
kéo dài đầu 3‟ của mạch bổ sung mỗi lần 2 base nhờ sự kéo dài và nối đoạn
dò dựa trên sợi khuôn và cứ mỗi khi tổng hợp được 2 base thì sẽ có một tín
hiệu huỳnh quang được ghi nhận (SOLiD).
Thứ tự của các lần bổ sung các thành phần đọc trình tự vào chip
nanowell hay vào vi bản được máy tính ghi lại đồng thời với thứ tự và
cường độ tín hiệu tổng hợp sợi bổ sung của từng cụm DNA bám lên vi bản
hay trên vi hạt, nhờ vậy mà sẽ đọc được trình tự của các đoạn DNA trên
Số hóa bởi Trung tâm Học
liệu

tnu.edu.vn/



23

từng cụm. Vì có đến hàng trăm ngàn cụm nên sẽ có hàng trăm ngàn trình tự
sẽ được đọc, tương ứng với hàng trăm ngàn đoạn DNA từ bộ gen sẽ đọc
được. Các trình tự của các đoạn đọc được sẽ được phần mềm của thiết bị nối
lại với nhau bằng cách so sánh trình tự, tìm các đoạn trùng lặp ở hai đầu và
như vậy là sẽ có kết quả của trình tự nguyên bộ gen.
Do phương pháp dựa trên tình tự gen có chi phí thấp và có độ chính
xác cao nên phương pháp này được nghiên cứu và phát triển rộng rãi. Trong
khuôn khổ luận văn này, tôi sẽ đi sâu vào ngh iên cứu các thuật toán theo
phương pháp dựa trên trình tự gen được giải mã từ các thiết bị đọc trình tự
thế hệ mới.
1.2.3 - Định dạng cơ sở dữ liệu
a) Định dạng FASTA
Định dạng FASTA[2] được dùng để mô tả thông tin về một chuỗi
DNA (protein) bao gồm 2 phần: Phần tiêu đề và phần nội dung
Tiêu đề: bao gồm 1 dòng bắt đầu với kí từ “>” và kết thúc bởi một kí
tự xuống dòng. Phần này sẽ lưu trữ toàn bộ thông tin mô tả về đoạn trình tự
DNA (protein) như tên chuỗi, độ dài chuỗi, ngày tháng tiến hành giải mã,
loại dữ liệu...
Trình tự nucleotit hoặc axit amin.Tất cả các kí tự không thuộc về phần
tiêu đề sẽ là dữ liệu mô tả các nucleotit của chuỗi DNA. Phần thông tin này
có thể chứa các dấu cách.
VD: >gi|142864|gb|M10040.1|BACDNAE
encoding DNA primase, complete cds

B.subtilis

dnaE


gene

GTACGACGGAGTGTTATAAGATGGGAAATCGGATACCAGAT
GAAATTGTGGATCAGGTGCAAAAGTCGGCAGATATCGTTGAAGTC
ATAGGTGATTATGTTCAATTAAAGAAGCAAGGCCGAAACTACTTT
GGACTCTGTCCTTTTCATGGAGAAAGCACACCTTCGTTTTCCGTAT
CGCCCGACAAACAGATTTTTCATTGCTTTGGCTGCGGAGCGGGCGG
CAATGTTTTCTCTTTTTTAAGGCAGATGGAAGGCTATTCTTTTGCCG
Số hóa bởi Trung tâm Học
liệu

tnu.edu.vn/


24

Phần tiêu đề chứa các thông tin cơ bản về chuỗi như là số hiệu gi của
chuỗi (142864), GB (M10040), tên chuỗi (BACDNAE), tên sinh vật lấy mẫu
(B.subtilis)
Phần thông tin chứa trình tự DNA
GTACGACGGAGTGTTATAAGATGGGAAATCGGATACCAGAT
GAAATTGTGGATCAGGTGCAAAAGTCGGCAGATATCGTTGAA........
b) Định dạng FASTQ
Định dạng FASTQ[2] được dùng để mô tả thông tin về đoạn trình tự
DNA và chất lượng khi đọc trình tự của đoạn DNA đó dưới dạng mã ascii
(nói nôm la: FASTQ = FASTA + Quality).
Mỗi trình tự DNA sẽ được lưu trong file FASTQ với 4 dòng, trong đó:
Dòng 1 bắt đầu với kí tự “@” và theo sau là chuỗi các thông tin về
dãy DNA này (giống với FASTA)

Dòng 2 là trình tự nucleotit của chuỗi (giống với FASTA)
Dòng 3 bắt đầu với kí tự “+” và có thể bao gồm thêm thông tin để
định danh chuỗi
Dòng 4 là điểm chất lượng khi giải mã các nucletit bởi các thiết bị đọc
trình tự. Chất lượng của trình tự được mã hóa dưới dạng mã ASCII.
VD:
@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50
TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGAT
+
hhhhhhhhhhghhghhhhhfhhhhhfffff

c) Định dạng SAM
Định dạng SAM (Sequence Aligment Map) là chu ẩn lưu trữ dữ liệu
trình tự được lắp ráp hoặc ánh xạ tới tham chiếu được cộng đồng Tin sinh
học trên thế giới thừa nhận và sử dụng phổ biến trong tất cả các phần mềm.
Số hóa bởi Trung tâm Học
liệu

tnu.edu.vn/


×