Tải bản đầy đủ (.pdf) (81 trang)

phát hiện các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.56 MB, 81 trang )

1
Số hóa bởi Trung tâm Học liệu


ĐẠI HỌC THÁI NGUYÊN
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG





NGUYỄN VĂN THÀNH




PHÁT HIỆN CÁC ĐỘT BIẾN ĐẢO ĐOẠN
TRONG HỆ GEN GIẢI MÃ TỪ THIẾT BỊ
ĐỌC TRÌNH TỰ THẾ HỆ MỚI



LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH


Thái Nguyên – 2014
2
Số hóa bởi Trung tâm Học liệu




LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của
cá nhân, đƣợc thực hiện dƣới sự hƣớng dẫn khoa học của Tiến sĩ Nguyễn
Cường. Các số liệu, những kết luận nghiên cứu đƣợc trình bày trong luận
văn này trung thực và chƣa từng đƣợc công bố dƣới bất cứ hình thức nào.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.


Học viên


Nguyễn Văn Thành











3
Số hóa bởi Trung tâm Học liệu


LỜI CÁM ƠN
Lời đầu tiên, tôi xin chân thành cám ơn Tiến sĩ Nguyễn Cường nguời
đã trực tiếp huớng dẫn tôi hoàn thành luận văn. Với những lời chỉ dẫn,

những tài liệu, sự tận tình hƣớng dẫn và những lời động viên của Thầy đã
giúp tôi vƣợt qua nhiều khó khăn trong quá trình thực hiện luận văn này.
Tôi cũng xin cám ơn quý Thầy (Cô) giảng dạy chƣơng trình cao học
“Khoa học máy tính” đã truyền dạy những kiến thức quý báu, những kiến
thức này rất hữu ích và giúp tôi nhiều khi thực hiện nghiên cứu.
Xin cám ơn các quý Thầy (Cô) công tác tại Trƣờng Đại học Công
nghệ thông tin và truyền thông – Đại học Thái Nguyên đã tạo điều kiện cho
tôi đƣợc tham gia và hoàn thành khóa học.

Tôi xin chân thành cám ơn.

Học viên


Nguyễn Văn Thành






4
Số hóa bởi Trung tâm Học liệu


MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CÁM ƠN 3
MỤC LỤC 4
DANH MỤC CÁC HÌNH ẢNH 6

DANH MỤC CÁC BẢNG BIỂU 7
DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ 8
PHẦN MỞ ĐẦU 9
Chƣơng 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT HIỆN
ĐỘT BIẾN ĐẢO ĐOẠN 11
1.1 - Tổng quan về Tin sinh học 11
1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn 12
1.2.1 - Gen và đột biến cấu trúc hệ gen 12
1.2.2 - Phƣơng pháp phát hiện sự biến đổi cấu trúc trong bản đồ gen 15
1.2.3 - Định dạng cơ sở dữ liệu 23
1.2.3 - Bài toán đột biến đảo đoạn 27
1.3 - Các công cụ giải quyết bài toán đảo đoạn 33
1.3.1 - Chƣơng trình Wgsim 33
1.3.2 - Chƣơng trình TMAP 33
1.3.3 - Chƣơng trình BWA và Bowtie. 33
Chƣơng 2. MỘT SỐ THUẬT TOÁN PHÁT HIỆN ĐỘT BIẾN 34
2.1 - Thuật toán ma trận điểm 35
2.2 - Thuật toán Blast 37
5
Số hóa bởi Trung tâm Học liệu


2.3 - Thuật toán lai GA-SA 42
2.4 - Thuật toán Needleman – Wunsch 45
2.5 - Thuật toán Smith-Waterman 49
Chƣơng 3. CÀI ĐẶT THUẬT TOÁN VÀ ĐÁNH GIÁ KẾT QUẢ 56
3.1 - Ánh xạ các đoạn trình tự. 57
3.2 - Xử lý SAM và khởi tạo điểm dừng khả dĩ. 58
3.3 - Lọc và hoàn thiện điểm dừng. 61
3.4 - Mô phỏng dữ liệu và thống kê kết quả ánh xạ. 64

3.5 - Đánh giá kết quả phân tích. 68
3.6 - So sánh với các phƣơng pháp hiện tại. 74
3.7 - Những hạn chế và cách khắc phục 76
KẾT LUẬN 78
TÀI LIỆU THAM KHẢO 80










6
Số hóa bởi Trung tâm Học liệu





DANH MỤC CÁC HÌNH ẢNH
Hình 1.1: Trong mỗi tế bào có một nhân chính giữa. 13
Hình 1.2: Gen đƣợc cấu tạo từ DNA. Mỗi NST có nhiều gen 13
Hình 1.3: Cấu trúc một phần của gen 13
Hình 1.4: Đột biến đảo đoạn trong hệ gen. 15
Hình 1.5: Các giai đoạn của đọc trình tự thế hệ mới 22
Hình 1.6: Định dạng SAM 25
Hình 1.7: Bản sao - số biến thể ( CNVs) 28

Hình 1.8: Đồ thị gia tăng CNV và InDel đã thêm vào CSDL từ năm 2002 28
Hình 1.9: Đồ thị sự phân phối kích thƣớc CNVs trong cơ sở dữ liệu 29
Hình 1.10: Phần lớn sự đảo đoạn đến nay có cỡ 10 đến 100kb 30
Hình 2.1: Ma trận thay thế BLOSUM 40
Hình 2.2: Ma trận thay thế PAM 40
Hình 3.1: Sự gióng hàng của quá trình ánh xạ r1, r2 trên vùng đảo ngƣợc 57
Hình 3.2: Những vùng đƣợc lựa chọn dựa vào điểm dừng trái và phải 62
Hình 3.4: Số lƣợng đảo đoạn trong các NST khác nhau 65
Hình 3.5: Phân phối kích thƣớc của 90 đảo đoạn 65
Hình 3.6: Tổng số trình tự của ánh xạ bởi Map1 và Map2 đọc lý tƣởng. 67
Hình 3.7: Tổng số trình tự của ánh xạ bởi Map1 và Map2 cho trình tự lỗi. 67
Hình 3.8: Những giá trị dƣơng tính giả trong pha thứ 1 và pha thứ 2 72
Hình 3.9: Tính nhạy cảm ở pha 1 và pha 2. 73
Hình 3.10: Dự đoán giá trị dƣơng tính giả ở pha 1 và pha 2. 73
Hình 3.11: Tính nhạy cảm ở pha 1 và pha 2 cho trình tự có lỗi. 74
Hình 3.12: PPV ở pha 1 và pha 2 cho trình tự có lỗi. 74
7
Số hóa bởi Trung tâm Học liệu


Hình 3.13: So sánh Inverse Variant vớiBreakDancer dựa vào điểm dừng. 76
Hình 3.15: So sánh Inverse Variant với BreakDancer dựa vào tính nhạy cảm, PPV và F-
Score 76



DANH MỤC CÁC BẢNG BIỂU

Bảng 1.1: Các thẻ định danh trong SAM 25
Bảng 1.2: Định nghĩa cờ đảo bit trong SAM 25

Bảng 1.3: Mô tả chuỗi CIGAR 26
Bảng 1.4 Bảng cho thấy CNVs và đảo đoạn 28
Bảng 3.1: Những tham số đƣợc đặt mô phỏng cho các đoạn trình tự có lỗi. 66
Bảng 3.2: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 100bp 69
Bảng 3.3: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 200bp 69
Bảng 3.4: Kết quả của Inverse Variant ở trình tự lý tƣởng có độ dài 400bp 69
Bảng 3.5: Kết quả của Inverse Variant ở trình tự lý tƣởng với độ bao phủ 10X 70
Bảng 3.6: Kết quả của Inverse Variant ở trình tự lỗi với độ bao phủ là 10X 70
Bảng 3.7: Bảng so sánh InverseVariantvới BreakDancer. 75






8
Số hóa bởi Trung tâm Học liệu


DANH MỤC CÁC TỪ VIẾT TẮT-THUẬT NGỮ
STT
Từ viết tắt/thuật ngữ
Nghĩa/Mô tả
1
DNA
Deoxyribo Ducleic Acid
2
BP
Base Pair
3

GB
Giga Base Pair
4
NST
Nhiễm sắc thể
5
DNA senquencing
Đọc trình tự DNA
6
HGP
Dự án hệ giải trình tự hệ gen con ngƣời
7
Nucleotide
Là các trình tự A,T,G,C
8
SBS
Đọc trình tự bằng sợ tổng hợp
9
SBL
Đọc trình tự gắn nối
10
PCR
Kỹ thuật khuếch đại gen
11
Nanowell
Giếng nano
12
CGIAR
Chuỗi thể hiện số base đƣợc ánh xạ/mất/thêm
so với tham chiếu

13
SNP
Đa hình đơn điểm/đơn nucleotide
14
CNV
Bản sao số biến thể
15
InDel
Vị trí thể hiện sự chèn hoặc xóa trong gen
16
BWA (hoặc Bowtie)
Công cụ ánh xạ trình tự với dữ liệu tham chiếu
17
TMAP
Chƣơng trình để xây dựng bản đồ di truyền
18
Wgsim
Công cụ mô phỏng các đoạn trình tự ngắn từ dữ
liệu hệ gen tham chiếu
19
Single end reads
Phƣơng pháp đọc trình tự theo chiều đơn
20
PPV
Dự đoán dƣơng tính giả
21
Hg19
Trình tự hệ gen ngƣời phiên bản 19
22
MAQ

Phần mềm lập bản đồ cho các trình tự ngẵn từ
máy đọc trình tự thế hệ mới




9
Số hóa bởi Trung tâm Học liệu


PHẦN MỞ ĐẦU
Trong nghiên cứu về sinh học hiện đại có nhiều công nghệ và giải
pháp đƣợc ứng dụng để phân tích, tổng hợp dữ liệu về cấu trúc và trình tự hệ
gen của các loài sinh vật. Việc phân tích và tổng hợp bộ dữ liệu này yêu cầu
một hệ thống cấu trúc lƣu trữ đáp ứng đủ tính chất về độ phức tạp và độ lớn
của bộ dữ liệu kết quả. Các thiết bị đọc trình tự gen đƣợc ra đời để giải
quyết các vấn đề nêu trên. Các thiết bị đọc trình tự gen là những công cụ xác
định thứ tự các nucleotide gắn kết với nhau dọc theo chiều dài của gen và
trình tự gắn kết nhau của các nucleotide đƣợc gọi là trình tự gen. Trong đó,
đọc trình tự thế hệ mới là một bƣớc tiến vƣợt bậc về công nghệ đọc trình tự,
từ khả năng đọc trình tự đoạn ngắn 1500bp (Sanger) hay 100 bp
(pyrosequencing) của các thiết bị đọc trình tự trƣớc đó, đọc trình tự thế hệ
mới cho phép đọc đƣợc từ 8gb đến 600gb, có nghĩa là cho phép đọc trình tự
nguyên bộ gen của bất kỳ loài sinh vật nào.
Với mong muốn hiểu chi tiết về cấu trúc gen các nhà nghiêncứu sinh
học luôn muốn đọc trình tự hoàn chỉnh các gen của tất cả các loài sinh vât
trong tự nhiên, bao gồm cả hệ gen của con ngƣời và toàn bộ trình tự gen
khác của nhiều động, thực vật, vi sinh vật, đồng thời qua việc nghiên cứu đó
có thể phát hiện ra những đột biến cấu trúc trong hệ gen đƣợc giải mã. Đặc
biệt là dạng đột biến đảo đoạn, loại đột biến này ít gây ảnh hƣởng đến sức

sống của cá thể, nhƣng nógóp phần lớn tăng cƣờng sự sai khác giữa các
nhiễm sắc thể (NST) tƣơng đồng điều này dẫn đến tăng sự đa dạng giữa các
thứ,các nòi trong cùng một nòi, ít ảnh hƣởng tới sức sống của cá thểvà trong
đó sự sắp xếp lại hệ gen trên NST do đột biến đảo đoạn góp phần tạo sự đa
dạng trong tự nhiên. Đối với con ngƣời việc đọc trình tự hệ gen rất quan
trọng, nó góp phần trong việc nghiên cứu sinh học cơ bản và trong nhiều
lĩnh vực ứng dụng nhƣ chẩn đoán bệnh tật, công nghệ sinh học, sinh học
pháp y, sinh học hệ thống Nhận thấy tính thiết thực của vấn đề và với sự
10
Số hóa bởi Trung tâm Học liệu


định hƣớng của giáo viên hƣớng dẫn, học viên đã chọn đề tài “Phát hiện
các đột biến đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế
hệ mới” để làm rõ các vấn đề đã nêu trên.
Đối tƣợng và phạm vi nghiên cứu
 Kiến trúc về các thành phần và các đột biến cấu trúc trong hệ gen.
 Ứng dụng thiết bị đọc trình tự thế hệ mới trong công nghệ sinh học.
 Phƣơng pháp phát hiện các đột biến đảo đoạn khi sử dụng các thiết bị
đọc trình tự thế hệ mới để giải mã.
Hƣớng nghiên cứu của đề tài
 Nghiên cứu, tìm hiểu mô hình, cách làm việc và giải mã hệ gen từ
thiết bị đọc trình tự thế hệ mới.
 Nghiên cứu cấu trúc dữ liệu, các phƣơng pháp tiền xử lý và lắp ráp
hệ gen từ thiết bị đọc trình tự thế hệ mới.
 Tìm hiểu, tham khảo các tài liệu liên quan đến các đột biến đảo đoạn
trong hệ gen, từ đó xây dựng thuật toán phát hiện ra các đột biến gen
đảo đoạn trong hệ gen giải mã từ thiết bị đọc trình tự thế hệ mới.
Phƣơng pháp nghiên cứu
 Nghiên cứu lý thuyết về các thiết bị đọc trình tự thế hệ mới, đột biến

gen đảo đoạn và cách phát hiện đột biến đảo đoạn trong hệ gen giải mã
từ thiết bị đọc trình tự thế hệ mới.
 Thiết kế, đặc tả, xây dựng chƣơng trình, phƣơng pháp đọc trình tự
gen và phát hiện đột biến đảo đoạn.
 Qua những phát hiện về đột biến đảo đoạn đƣa ra kết luận.
Ý nghĩa khoa học của đề tài
 Làm cơ sở để phát hiện ra các đột biến đảo đoạn trong hệ gen.
 Ứng dụng nhƣ chẩn đoán bệnh, sinh học pháp y, sinh học hệ thống.

11
Số hóa bởi Trung tâm Học liệu


Chƣơng 1.TỔNG QUAN VỀ TIN SINH HỌC VÀ BÀI TOÁN PHÁT
HIỆN ĐỘT BIẾN ĐẢO ĐOẠN
1.1 - Tổng quan về Tin sinh học
Tin sinh học (bioinformatics) là một lĩnh vực khoa học sử dụng các
công nghệ của ngành toán học ứng dụng, tin học, thống kê, khoa học máy
tính và toán sinh học (biomathematics) để giải quyết các vấn đề sinh học.
Những nghiên cứu trong ngành tin sinh học (bioinformatics) thƣờng
trùng lặp với sinh học tính toán (computational biology) hoặc sinh học hệ
thống (system biology). Những lĩnh vực nghiên cứu chính của nó bao gồm
bắt cặp trình tự (sequence alignment), bắt cặp cấu trúc protein (protein
structural alignment), dự đoán cấu trúc protein (protein structural
prediction), dự đoán biểu hiện gen (gene expression), tƣơng tác protein-
protein (protein-protein interaction), mô hình hoá quá trình tiến hoá. Thuật
ngữ tin sinh học và sinh học tính toán thƣờng đƣợc dùng hoán đổi cho nhau,
nhƣng nói một cách nghiêm túc thì cái trƣớc là tập con của cái sau. Mối
quan tâm chính ở tin sinh học và sinh học tính toán là việc sử dụng các công
cụ toán học để phân chiết các thông tin hữu ích từ các dữ liệu hỗn độn thu

nhận đƣợc bằng các kỹ thuật sinh học với lƣu lƣợng và mức độ lớn. Nhƣ
vậy, về phƣơng diện này lĩnh vực khai phá dữ liệu (data mining) có sự trùng
lắp với sinh học tính toán. Bài toán đặc trƣng trong sinh học tính toán bao
gồm việc lắp ráp (assembly) những trình tự ADN chất lƣợng cao từ những
đoạn ngắn ADN đƣợc thu nhận từ kỹ thuật xác định ADN và việc dự đoán
quy luật điều hoà gen (gene regulation) với dữ liệu từ các mARN,
microarray hay khối phổ (mass-spectrometry).
Các lĩnh vực nghiên cứu chính của tin sinh học gồm hệ gen học phân
tích trình tự, tìm kiếm gen, tìm kiếm các đột biến, phân loại học phân tử,
bảo tồn đa dạng sinh học, phân tích chức năng gen hay biểu hiện nhận diện
chuỗi polypeptid dự đoán cấu trúc của protein các hệ thống sinh học kiểu
mẫu, phân tích hình ảnh mức độ cao, công cụ phần mềm.
Định hƣớng nghiên cứu tìm kiếm các đột biến là một bài toán rộng
trong Tin sinh học. Bởi vì, các hệ gen thƣờng có nhiều kiểu đột biến với
12
Số hóa bởi Trung tâm Học liệu


mức độ đột biến khác nhau nhƣ là: Đột biến cấu trúc (trong đó có đột biến
mất đoạn, đột biến thêm đoạn, đột biến đảo đoạn, …), đột biến điểm (đột
biến đa hình đơn SNP, đột biến mất nucleotide, đột biến thêm nucleotite, ).
Trong luận văn này, tôi sẽ tiến hành nghiên cứu phƣơng pháp phát
hiện đột biến đảo đoạn, một dạng của đột biến cấu trúc hệ gen.
1.2 – Cơ sở lý thuyết bài toán đột biến đảo đoạn
1.2.1 - Gen và đột biến cấu trúc hệ gen
Ngày nay với tiến bộ của khoa học sinh học phân tử, ngƣời ta đã biết
rõ rằng đơn vị sinh học cơ bản nhất trong một con thể sống là tế bào (cells),
nhƣ cơ thể chúng ta đƣợc cấu tạo bằng khoảng 60.000 tỉ tế bào (có ƣớc tính
khác cho rằng con số này là 100.000 tỉ), trong đó nhiều tế bào có những
nhiệm vụ khác nhau, chẳng hạn nhƣ tế bào thần kinh có khả năng điều khiển

các hoạt động của cơ thể, tế bào tim cấu thành nên tim và có chức năng co
bóp cung cấp máu đi nuôi cơ thể v.v…Những tế bào này có thời gian tồn tại
nhất định.
Mặc dù khác nhau về chức năng và chu kỳ sống, nhƣng tất cả các tế
bào đều có cấu trúc giống nhau: trong mỗi tế bào đều có một nhân (nucleus)
nằm chính giữa

13
Số hóa bởi Trung tâm Học liệu


Hình 1.1: Trong mỗi tế bào có một nhân chính giữa.
Trong nhân có chứa NST và trong NST có chứa nhiều DNA
(Deoxyribo-Nucleic Acid). DNA bao gồm 4 trình tự nucleotide: A (adeline),
C (cytosine), G (guanine), và T (thymine).

Hình 1.2: Gen được cấu tạo từ DNA. Mỗi NST có nhiều gen
Gen là đoạn DNA, là tập hợp một nhóm gồm 3 mẫu tự có tên là
trinucleotide (bộ 3 mã hóa), nhƣ TAG GCC TCA Một gen là tập hợp nhiều
tam mẫu tự nhƣ thế. Nhƣ hình minh họa một đoạn của gen gồm các bộ ba
TGA CTG ACT.

Hình 1.3: Cấu trúc một phần của gen.
Gen có chức năng gửi các tín hiệu hóa học đi đến tất cả các nơi trong
cơ thể. Những tín hiệu này có chứa đầy đủ các thông tin, các chỉ thị cụ thể
14
Số hóa bởi Trung tâm Học liệu


cho các cơ quan trong cơ thể ta phải hoạt động ra sao. Việc tìm hiểu số

lƣợng gen cũng nhƣ cơ cấu tổ chức của gen trong cơ thể con ngƣời là một
điều tất yếu để mang lại những tiến bộ mới và quan trọng của y sinh học.
Nhƣng không phải gen nào cũng có chức năng rõ ràng. Trong thực tế, có
khoảng 47% gen không có chức năng cụ thể (hay chúng ta chƣa biết chức
năng của chúng).
Đột biến gen là những biến đổi nhỏ xảy ra trong cấu trúc của gen. Những
biến đổi này thƣờng liên quan đến 1 cặp nucleotide (đột biến điểm) hoặc 1 số
cặp nucleotide.
Trong những cá thể tự nhiên, các gen đều có thể bị đột biến nhƣng với tần
số thấp (từ 10
-6
đến 10
-4
). Các cá thể mang đột biến đã biểu hiện thành kiểu hình
là thể đột biến. Đột biến gen làm thay đổi cấu trúc của gen từ đó tạo ra alen mới
so với dạng ban đầu.
VD: Ở ruồi giấm gen A qui định mắt đỏ, sau khi bị đột biến tạo thành gen
a qui định mắt trắng
Các dạng đột biến
Đột biến mất đoạn : Đột biến này làm NST bị mất đoạn (đoạn đó không
chứa tâm động), làm giảm số lƣợng gen trên NST thƣờng gây chết hoặc giảm
sức sống của cá thể
Đột biến thêm đoạn: Một đoạn nào đó của NST lặp lại một vài lần xen
vào NST. Việc thêm đoạn này là giảm hoặc tăng thêm cƣờng độ biểu hiện tính
trạng vì làm tăng hoặc giảm số lƣợng gen trên NST
Đột biến chuyển đoạn: Một đoạn NST bị chuyển dịch trên cùng một NST
hay giữa hai NST khác nhau. Cả hai NST cùng cho và nhận một đoạn (chuyển
đoạn tƣơng hỗ) hay một bên cho, một bên nhận (chuyển đoạn không tƣơng hỗ).
Đột biến chuyển đoạn thƣờng gây chết hoặc mất khả năng sinh sản.
15

Số hóa bởi Trung tâm Học liệu


Đột biến đảo đoạn: Đảo đoạn là hiện tƣợng xảy ra do gãy đồng thời tại
hai điểm trên một nhiễm sắc thể và sau đó đoạn bị đứt xoay 180
o
rồi nối lại. Hậu
quả là, trật tự các gene trong đoạn đảo ngƣợc lại với trật tự bình thƣờng.
Tùy theo sự tƣơng quan của đoạn đảo với vị trí tâm động, có thể chia làm
hai kiểu đảo đọan. Nếu đoạn đảo không chứa tâm động, gọi là đảo đoạn cận
tâm (paracentric inversion); ngƣợc lại, nếu đoạn đảo băng qua cả tâm động thì
gọi là đảo đoạn quanh tâm (pericentric inversion). Sự trao đổi chéo xảy ra bên
trong vòng của thể dị hợp đảo đoạn cận tâm tạo ra các giao tử chứa các khuyết
đọan lớn.

Hình 1.4: Đột biến đảo đoạn trong hệ gen.
Mô tả: (a) Kết cặp và xuất hiện vòng; (b) Phân ly làm xuất hiện cầu
nối và đoạn không tâm; (c) Cầu nối hai tâm đứt gãy ngẫu nhiên; và (d) Các
sản phẩm đƣợc tạo ra.
1.2.2 - Phƣơng pháp phát hiện sự biến đổi cấu trúc trong bản đồ gen
a. Phƣơng pháp lai dựa trên tiếp cận mảng
16
Số hóa bởi Trung tâm Học liệu


Phƣơng pháp tiếp cận sử dụng vi mảng[7] đƣợc xem là bƣớc đột phá
đầu tiên trong việc phát hiện và xác định số lƣợng cũng nhƣ kiểu biến đổi
cấu trúc hệ gen. Theo kỹ thuật này, hai cách tiếp cận phổ biến nhất, trƣớc
tiên là ghép hệ gen so sánh mảng (mảng CGH), thứ hai là vi mảng SPN.
Mặc dù cả hai kỹ thuật này đƣợc dựa trên suy luận tăng hoặc giảm số lƣợng

bản sao so với một mẫu tham chiếu hoặc bản gốc khác nhau về chi tiết và áp
dụng các xét nghiệm phân tử. Tuy nhiên với kỹ thuật này có thể phát hiện ra
sự thay đổi cấu trúc nhƣ chèn, xóa là đáng kể, phát hiện đảo đoạn gen chỉ là
số ít.
b. Phƣơng pháp đơn phân tích phân tử
Đơn phân tích phân tử[7] là một cách quan trọng để hình dung và
hiểu đƣợc vị trí và cấu trúc của các biến thể lớn hơn ở cấp độ đơn phân tử.
Phƣơng pháp phân tích này bao gồm các kỹ thuật nhƣ huỳnh quang lai tại
chỗ (FISH), Fiber-FISH. Kỹ thuật này mang lại hiệu quả cho việc xác định
những sự biến đổi cấu trúc chung và hiếm có của hệ gen. Tuy nhiên, chất
lƣợng và độ phân giải không cao của các kỹ thuật trên gây ra giới hạn ứng
dụng của chúng khi thực hiện trên các cấu trúc đặc biệt lớn (~ 500 kb - 5
Mb). Nhiều phƣơng pháp khác nhau đang đƣợc phát triển để sử dụng các
đoạn DNA lớn hoặc dài hơn với quy mô lớn để hiển thị trực tiếp cải thiện
độ phân giải và khả năng mở rộng của phƣơng pháp này. Lập bản đồ quang
học là một kỹ thuật dựa trên một sửa đổi của bản đồ hạn chế truyền thống.
Trong kỹ thuật này sự tiêu chuẩn hóa kỹ thuật đƣợc thực hiện trên DNA cố
định để xác định kích thƣớc mảnh, nhỏ và thay đổi thứ tự tƣơng đối của
DNA trên cơ sở so sánh với một mẫu tiêu chuẩn hóa trong phiên bản của
chuỗi gen tham. Ban đầu, nó đƣợc phát triển để phân tích bộ gen của nấm
men nhƣng đã đƣợc sử dụng để phân tích cấu trúc và tính quy mô của bộ
gen ngƣời, những phát hiện về sự đảo đoạn, thay thế, cũng nhƣ thay đổi số
lƣợng bản sao và điểm dừng của hệ gen. Lập bản đồ kỹ thuật quang học có
17
Số hóa bởi Trung tâm Học liệu


thông lƣợng rất hạn chế và toàn bộ phân tích của nó phụ thuộc vào bộ gen
tham chiếu. Phƣơng pháp mã vạch DNA cũng đang đƣợc phát triển nhƣ là
kỹ thuật thay thế đó sẽ là hữu ích để phát hiện thông lƣợng cao của sự khác

biệt về cấu trúc cân bằng trong cấp độ tế bào trong tƣơng lai.
c. Phƣơng pháp dựa trên trình tự gen
Trong phƣơng pháp này đã giải quyết đƣợc các hạn chế ở các kỹ thuật
trƣớc đó, kết quả đƣa ra làm giảm đƣợc chi phí về thời gian và cải thiện chất
lƣợng của kết quả thu đƣợc. Trình tự hệ gen đƣợc dựa trên bốn nucleotide
cơ bản, trình tự này của từng loài sinh vật sẽ đƣợc lƣu lại trong cơ sở dự liệu
sinh học (Ngân hàng trình tự gen thế giới NCBI - National Center for
Biotechnology Information)[1]

, việc so sánh các cấu trúc hệ gen của các loài
sinh vật với bộ gen dữ liệu tham chiếu sẽ đƣa ra đƣợc các kết luận thực tế về
sự tiến hóa, sự phát triển của sinh vật. Sau đây là một số phƣơng pháp đọc
trình tự gen:
Phƣơng pháp Sanger
Phƣơng pháp Sanger là phƣơng pháp đọc trình tự đầu tiên đã đƣợc sử
dụng rộng rãi trong nhiều năm trƣớc đây. Phƣơng pháp dựa trên cơ sở kết
hợp của các dideoxynucleotide (ddNTP) bằng DNA polymerase trong quá
trình khuếch đại DNA trong ống nghiệm.
Phƣơng pháp Pyrosequencing
Năm 1996, Nyrén và Ronaghi đã phát minh ra kỹ thuật
pyrosequencing[14]. Đối với phƣơng pháp đọc trình tự Sanger, quá trình đọc
trình tự đƣợc thực hiện sau phản ứng khuếch đại DNA. Đối với phƣơng
pháp pyrosequencing, quá trình đọc trình tự đƣợc thực hiện ngay trong giai
đoạn tổng hợp sợi DNA bổ sung cho sợi khuôn, nghĩa là tổng hợp sợi DNA
bổ sung đến đâu thì đọc trình tự đến đó.
Nguyên lý của kỹ thuật đọc trình tự trong pyrorequencing là ghi nhận
tín hiệu phát quang từ giếng phản ứng mỗi khi sợi bổ sung dựa trên sợi
18
Số hóa bởi Trung tâm Học liệu



khuôn kéo dài đƣợc một nucleotide. Để làm đƣợc điều này, dung dịch chứa
các loại nucleotide A hoặcT hoặc C hoặc G đƣợc lập trình để cho vào giếng
phản ứng có chứa đoạn DNA muốn đọc trình tự, mồi đọc trình tự, và các
thành phần cho phản ứng tổng hợp sợi khuôn. Mỗi khi dung dịch nucleotide
cho vào là đúng với nucleotide đƣợc bắt cặp vào sợi khuôn để tổng hợp sợi
bổ sung thì sẽ giải phóng ra một pyrophosphate (PPi) sẽ đƣợc phóng ra và
đƣợc enzyme sulfurylase chuyển hóa tạo ra một ATP, ATP này sẽ giúp hệ
thống phát quang luciferin-luciferase phát ra ánh sáng do enzyme luciferase
oxi hóa luciferin thành oxyluciferin và phát quang[15] . Với sự ghi nhận tín
hiệu phát quang từ ống phản ứng theo trình tự bổ sung dung dịch các loại
nucleotide, thiết bị pyrosequencing sẽ dịch ra trình tự các nucleotide trên
đoạn DNA đƣợc đọc trình tự. Để huỷ đƣợc ATP và các nucleotide tự do còn
thừa sau mỗi lần bổ sung nucleotide, enzyme apyrase cũng đƣợc cho vào
giếng phản ứng sau khi tín hiệu phát quang đƣợc ghi nhận.
Pyrosequencing là một bƣớc tiến về kỹ thuật trong đọc trình tự, cho
phép đọc trình tự ngay trong quá trình tổng hợp sợi bổ sung đoạn DNA, do
vậy pyrosequencing chính là công nghệ khởi đầu cho kỹ thuật “đọc trình tự
tổng hợp”, nền tảng của kỹ thuật đọc trình tự bộ gen hay còn gọi là kỹ thuật
đọc trình tự thế hệ mới sau này. Với ƣu thế thời gian đọc trình tự nhanh, độ
chính xác cao, nên pyrosequencing có nhiều ứng dụng và có ƣu thế hơn kỹ
thuật đọc trình tự Sanger, đặc biệt là trong chẩn đoán và chỉ định điều trị
bệnh
[16]
. Vì đây là kỹ thuật mở, và có sẵn các bộ hóa chất thƣơng mại, cho
nên pyrosequencing là một kỹ thuật không thể thiếu trong các phòng thí
nghiệm sinh học phân tử.
Phƣơng pháp đọc trình tự thế hệ mới
Đọc trình tự thế hệ mới là một bƣớc tiến vƣợt bậc về công nghệ đọc
trình tự. Từ khả năng đọc trình tự đoạn ngắn 1500 bp (Sanger) hay 100 bp

19
Số hóa bởi Trung tâm Học liệu


(pyrosequencing), đọc trình tự thế hệ mới cho phép đọc đƣợc từ 8 Gb đến
600 Gb, có nghĩa là cho phép đọc trình tự nguyên bộ gen. Do vậy đọc trình
tự thế hệ mới còn đƣợc gọi là đọc trình tự bộ gen.
Đọc trình tự thế hệ mới dựa trên 2 nguyên lý chính sau:
Thứ nhất, đọc trình tự bằng tổng hợp (sequencing by synthesis, SBS)
thƣờng đƣợc các thế hệ máy Roche 454, Ion Torrent và Illumina sử dụng.
SBS liên quan đến việc sử dụng một hỗn hợp các dNTP đƣợc biến đổi tại vị
trí 2‟. Hỗn hợp này bao gồm các dNTP bổ sung tự nhiên và các dNTP bổ
sung có đánh dấu huỳnh quang. Quá trình xác định trình tự sẽ diễn ra tƣơng
tự nhƣ phản ứng PCR thông thƣờng. Đầu tiên một đoạn trình tự mồi nằm
trên đoạn adapter sẽ đƣợc gắn vào phần cuối của đoạn gDNA khuôn cần đọc
trình tự. Sau đó, việc xác định trình tự đƣợc thực hiện bằng cách gắn lần
lƣợt từng dNTP bổ sung có đánh dấu huỳnh quangvào phần cuối của trình tự
mồi trên theo chu trình 3 bƣớc:
Một polymerase kết hợp với một dNTP kết thúc có đánh dấu huỳnh
quang và gắn bổ sung với base trên đoạn gen cần đọc trình tự;
Thiết bị sẽ ghi lại hình ảnh, phần mềm sẽ phân tích hình ảnh thu đƣợc
để xác định phân tử dNTP nào đƣợc kết hợp và từ đó tìm ra đƣợc trình tự bổ sung.
Nhóm kết thúc đầu 3‟ và tín hiệu huỳnh quang sẽ đƣợc cắt bỏ bằng
phƣơng pháp hóa học. SBS xác định trình tự các đoạn gen theo chiều từ đầu
5‟ đến 3‟.
Quá trình này đƣợc lặp lại cho đến khi toàn bộ chiều dài của đoạn gen
đƣợc đọc trình tự. Về mặt lý thuyết, độ dài đoạn đƣợc đọc bằng SBS có thể
lên đến hàng trăm trình tự.
Nguyên lý thứ hai, đọc trình tự gắn nối (sequencing by ligation, SBL)
đƣợc sử dụng ở máy SOLiD. Phƣơng pháp xác định trình tự bằng phản ứng

ghép nối (SBL): đƣợc phát minh bởi George Church. SBL đã đƣợc sử dụng
20
Số hóa bởi Trung tâm Học liệu


để xác định trình tự gen và là nền tảng cho các thiết bị đọc trình tự thế hệ
mới. SBL là một chu trình tuần hoàn gồm 4 bƣớc:
Đƣa vào các primer neo đƣợc thiết kế trình tự bổ sung với trình tự trên adapter.
Quá trình lai của nonamers ngẫu nhiên với nhau. Mỗi hỗn hợp
nonamer gồm có 4 loại nonamers, mỗi loại có các trình tự và vị trí đã đƣợc
biết đến. Các chất phát quang khác nhau đƣợc gắn ở cuối của mỗi loại
nonamer sẽ cho phép xác định trình tự trên nonamer.
Các nonamer lai với các primer neo. Sau đó, thiết bị ghi hình và phần
mềm sẽ xác định trình tự ở vị trí tham chiếu.
Primer neo, phức hệ nonamer đƣợc đọc phóng và quá trình đƣợc lặp
lại cho các vị trí query trong hỗn hợp nonamer. SBL hoạt động trong cả hai
chiều: chiều xuôi (5 'đến 3') và chiều ngƣợc (3 'đến 5').
Công nghệ đọc trình tự gen thế hệ mới theo 3 bước chính như sau:
Bƣớc 1 : Chuẩn bị các đoạn DNA và gắn lên các giá bám: Trƣớc hết
DNA của bộ gen đƣợc cắt nhỏ thành các đoạn DNA ngắn nhờ siêu âm hay
nhờ khí dung, sau đó 2 đầu các đoạn DNA ngắn này đƣợc gắn 2 đoạn
adapter có trình tự nhận biết bởi các đoạn dò và trình tự mồi PCR. Các đoạn
DNA này sẽ đƣợc gắn lên các giá bám là các hạt nano (Roche 454,
SOLiDhay Ion Torrent) hay trên các vi bản (Illumina) nhờ các đoạn dò đặc
hiệu adapter đã gắn sẵn trên các giá bám này.
Bƣớc 2: Khuếch đại các đoạn DNA trên giá bám bằng mồi đặc hiệu
adapter: Nếu giá bám là vi bản thì thành phần PCR đƣợc bơm trải lên vi bản
và khi thực hiện PCR sẽ có từng cụm sản phẩm khuếch đại đƣợc gắn trên
các vị trí tách rời nhau. Nếu giá bám là các vi hạt thì phải nhủ hoá thành
phần PCR để các giọt nhủ chỉ chứa một vi hạt, nhờ vậy sau khi thực hiện

PCR mỗi vi hạt chỉ có một loại sản phẩm khuếch đại bám lên. Sau đó, các vi
hạt đƣợc loại bỏ nhủ dịch và bơm vào một vi chip có chứa hàng chục ngàn
21
Số hóa bởi Trung tâm Học liệu


đến hàng trăm ngàn giếng kích thƣớc nano (nanowell), kích thƣớc này cho
phép mỗi nanowell chỉ chứa đƣợc một vi hạt.
Bƣớc 3: Đọc trình tự dựa trên hai nguyên lý SBS và SBL đã đƣợc
trình bày ở trên. Nguyên tắc tƣơng tự với pyrosequencing, tuy nhiên có một
số điểm khác biệt bao gồm:
 Thay vì phải huỷ bỏ các thành phần A T, C, và G còn dƣ thừa trong
phản ứng trƣớc khi cho thành phần tham gia mới vào thì ở đọc trình tự thế
hệ mới, thành phần tham gia đọc trình tự dƣ thừa này đƣợc thu hồi sau khi
thu đƣợc tín hiệu;
 Tín hiệu tổng hợp đƣợc ghi nhận sau mỗi lần bơm các thành phần
tham gia vào có thể là tín hiệu phát quang dựa trên hệ thống luciferin
luciferase (Roche 454) [9] ,tín hiệu điện do thay đổi pH (Ion-Torrent), tín
hiệu huỳnh quang đƣợc đánh dấu trên các nucleotide A, T, C hay G
(Illumina), hay cũng có thể là tín hiệu huỳnh quang đƣợc gắn lên probe
(SOLiD).
22
Số hóa bởi Trung tâm Học liệu



Hình 1.5: Các giai đoạn của đọc trình tự thế hệ mới
 Tổng hợp mạch bổ sung dựa trên mạch khuôn có thể là kéo dài đầu
3‟ của mạch bổ sung bằng các nucleotide (A, T, C hay G) và cứ mỗi khi một
nucleotide đƣợc kéo dài thì sẽ có một tín hiệu phát quang (Roche 454),

huỳnh quang (Illumina) hay pH (ion Torrent) đƣợc ghi nhận, hay có thể là
kéo dài đầu 3‟ của mạch bổ sung mỗi lần 2 base nhờ sự kéo dài và nối đoạn
dò dựa trên sợi khuôn và cứ mỗi khi tổng hợp đƣợc 2 base thì sẽ có một tín
hiệu huỳnh quang đƣợc ghi nhận (SOLiD).
Thứ tự của các lần bổ sung các thành phần đọc trình tự vào chip
nanowell hay vào vi bản đƣợc máy tính ghi lại đồng thời với thứ tự và
cƣờng độ tín hiệu tổng hợp sợi bổ sung của từng cụm DNA bám lên vi bản
hay trên vi hạt, nhờ vậy mà sẽ đọc đƣợc trình tự của các đoạn DNA trên
23
Số hóa bởi Trung tâm Học liệu


từng cụm. Vì có đến hàng trăm ngàn cụm nên sẽ có hàng trăm ngàn trình tự
sẽ đƣợc đọc, tƣơng ứng với hàng trăm ngàn đoạn DNA từ bộ gen sẽ đọc
đƣợc. Các trình tự của các đoạn đọc đƣợc sẽ đƣợc phần mềm của thiết bị nối
lại với nhau bằng cách so sánh trình tự, tìm các đoạn trùng lặp ở hai đầu và
nhƣ vậy là sẽ có kết quả của trình tự nguyên bộ gen.
Do phƣơng pháp dựa trên tình tự gen có chi phí thấp và có độ chính
xác cao nên phƣơng pháp này đƣợc nghiên cứu và phát triển rộng rãi. Trong
khuôn khổ luận văn này, tôi sẽ đi sâu vào nghiên cứu các thuật toán theo
phƣơng pháp dựa trên trình tự gen đƣợc giải mã từ các thiết bị đọc trình tự
thế hệ mới.
1.2.3 - Định dạng cơ sở dữ liệu
a) Định dạng FASTA
Định dạng FASTA[2] đƣợc dùng để mô tả thông tin về một chuỗi
DNA (protein) bao gồm 2 phần: Phần tiêu đề và phần nội dung
Tiêu đề: bao gồm 1 dòng bắt đầu với kí từ “>” và kết thúc bởi một kí
tự xuống dòng. Phần này sẽ lƣu trữ toàn bộ thông tin mô tả về đoạn trình tự
DNA (protein) nhƣ tên chuỗi, độ dài chuỗi, ngày tháng tiến hành giải mã,
loại dữ liệu

Trình tự nucleotit hoặc axit amin.Tất cả các kí tự không thuộc về phần
tiêu đề sẽ là dữ liệu mô tả các nucleotit của chuỗi DNA. Phần thông tin này
có thể chứa các dấu cách.
VD: >gi|142864|gb|M10040.1|BACDNAE B.subtilis dnaE gene
encoding DNA primase, complete cds
GTACGACGGAGTGTTATAAGATGGGAAATCGGATACCAGAT
GAAATTGTGGATCAGGTGCAAAAGTCGGCAGATATCGTTGAAGTC
ATAGGTGATTATGTTCAATTAAAGAAGCAAGGCCGAAACTACTTT
GGACTCTGTCCTTTTCATGGAGAAAGCACACCTTCGTTTTCCGTAT
CGCCCGACAAACAGATTTTTCATTGCTTTGGCTGCGGAGCGGGCGG
CAATGTTTTCTCTTTTTTAAGGCAGATGGAAGGCTATTCTTTTGCCG
24
Số hóa bởi Trung tâm Học liệu


Phần tiêu đề chứa các thông tin cơ bản về chuỗi nhƣ là số hiệu gi của
chuỗi (142864), GB (M10040), tên chuỗi (BACDNAE), tên sinh vật lấy mẫu
(B.subtilis)
Phần thông tin chứa trình tự DNA
GTACGACGGAGTGTTATAAGATGGGAAATCGGATACCAGAT
GAAATTGTGGATCAGGTGCAAAAGTCGGCAGATATCGTTGAA
b) Định dạng FASTQ
Định dạng FASTQ[2] đƣợc dùng để mô tả thông tin về đoạn trình tự
DNA và chất lƣợng khi đọc trình tự của đoạn DNA đó dƣới dạng mã ascii
(nói nôm la: FASTQ = FASTA + Quality).
Mỗi trình tự DNA sẽ đƣợc lƣu trong file FASTQ với 4 dòng, trong đó:
Dòng 1 bắt đầu với kí tự “@” và theo sau là chuỗi các thông tin về
dãy DNA này (giống với FASTA)
Dòng 2 là trình tự nucleotit của chuỗi (giống với FASTA)
Dòng 3 bắt đầu với kí tự “+” và có thể bao gồm thêm thông tin để

định danh chuỗi
Dòng 4 là điểm chất lƣợng khi giải mã các nucletit bởi các thiết bị đọc
trình tự. Chất lƣợng của trình tự đƣợc mã hóa dƣới dạng mã ASCII.
VD:
@SRR566546.970 HWUSI-EAS1673_11067_FC7070M:4:1:2299:1109 length=50
TTGCCTGCCTATCATTTTAGTGCCTGTGAGGTGGAGATGTGAGGAT
+
hhhhhhhhhhghhghhhhhfhhhhhfffff

c) Định dạng SAM
Định dạng SAM (Sequence Aligment Map) là chuẩn lƣu trữ dữ liệu
trình tự đƣợc lắp ráp hoặc ánh xạ tới tham chiếu đƣợc cộng đồng Tin sinh
học trên thế giới thừa nhận và sử dụng phổ biến trong tất cả các phần mềm.
25
Số hóa bởi Trung tâm Học liệu


Định dạng SAM là các thẻ đƣợc định danh. Tiêu đề đƣợc bắt đầu với ký
hiệu @ và có các thành phần khác theo thứ tự sau:
Bảng 1.1: Các thẻ định danh trong SAM
1
Tên truy vấn / khuôn mẫu / cặp
2
Cờ (Cờ đảo bit)
3
Tên tham chiếu
4
Vị trí (tại 1 vị trí cuối cùng bên trái)
5
Chất lƣợng ánh xạ (Trong quy mô Phred )

6
CIGAR(Dạng chuỗi )
7
Tên tham chiếu ghép nối ( = nếu tƣơng tự nhƣ tên tham chiếu )
8
Vị trí ghép nối ( tại 1 vị trí )
9
Kích thƣớc đoạn chèn
10
Trình tự truy vấn
11
Chất lƣợng truy vấn
12
Trƣờng biến tùy chọn
Hình 1.6: Định dạng SAM

Mỗi bit trong cờ đƣợc định nghĩa là:
Bảng 1.2: Định nghĩa cờ đảo bít trong SAM
VD: Minh họa định dạng file SAM
@SQ SN:ref LN:45 header
r001


163
ref 7
30
8M3S
37
=TTAGATAAAG
Mẫu

Cờ
Tên tham
chiếu
Vị trí
CIGAR
Chất lƣợng
ánh xạ
Tên trình tự

×