Tải bản đầy đủ (.docx) (69 trang)

NGHIÊN cứu lắp ráp hệ GENE với dữ LIỆU từ THIẾT bị đọc TRÌNH tự THẾ hệ mới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.11 MB, 69 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG
----˜&™----

NGUYỄN THỊ THANH NGỌC

NGHI£N CøU L¾P R¸P HÖ GENE VíI D÷ LIÖU
Tõ THIÕT BÞ §äC TR×NH Tù THÕ HÖ MíI
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. Nguyễn Cường

Thái Nguyên - 2014


2
LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thực sự của cá nhân
dưới sự hướng dẫn khoa học của TS. Nguyễn Cường. Các số liệu, những kết luận nghiên
cứu được trình bày trong luận văn này trung thực và chưa từng công bố dưới bất cứ hình
thức nào. Tôi xin chịu trách nhiệm về nghiên cứu của mình.
Học viên

Nguyễn Thị Thanh Ngọc


3
LỜI CẢM ƠN


Lời đầu tiên, tôi xin chân thành cảm ơn Tiến sĩ Nguyễn Cường, người thày đã trực
tiếp hướng dẫn tôi hoàn thành luận văn này. Thày đã tận tình hướng dẫn, chỉ bảo và cung
cấp những tài liệu liên quan đồng thời động viên tinh thần giúp tôi vượt qua nhiều khó
khăn trong quá trình thực hiện luận văn. Tôi cũng xin chân thành cảm ơn quý Thầy ( Cô)
giảng dạy chương trình cao học chuyên ngành “ Khoa học máy tính” đã truyền đạt những
kiến thức hữu ích và giúp tôi khi thực hiện nghiên cứu. Xin cảm ơn các quý Thầy, Cô công
tác tại Trường Đại học Công nghệ thông tin và truyền thông – Đại học Thái Nguyên đã tạo
điều kiện cho tôi được tham gia và hoàn thành khoá học.
Tôi xin chân thành cảm ơn!

Thái Nguyên, ngày

tháng

năm 2014

Học viên

Nguyễn Thị Thanh Ngọc


4
MỤC LỤC


5
DANH MỤC CÁC TỪ VIẾT TẮT

ST


Từ viết tắt/thuật

T

ngữ

Nghĩa/Mô tả

1

DNA

Deoxyribo Ducleic Acid

2

BP

Base pair

4

GB (G base)

Giga base pair

5

NST


Nhiễm sắc thể

6

DNA senquencing

Đọc trình tự DNA

7

HGP

Dự án hệ giải trình tự hệ gene con người

8

ddNTP

Dideoxynucleotide

DNA polymerase

Enzyme tham gia chính vào quá trình nhân đôi

9

10

11


12

DNA
Nucleotide

các trình tự A,T,G,C

SBS

đọc trình tự bằng sợi tổng hợp (sequencing by
synthesis)

Sanger (SAGE)

Tên thiết bị đọc trình tự đoạn ngắn (1500bp)


6

ATP

Phân tử mang năng lượng, có chức năng vận

13

chuyển năng lượng đến các nơi cần thiết cho tế
bào sử dụng

14


ABI SOLID

Tên thiết bị đọc trình tự

15

dNTP

Deoxynucleotide

16

gDNA

DNA thuộc nhiễm sắc thể

17

SBL

Đọc trình tự gắn nối (sequencing by ligation)

18

PCR

Kỹ thuật khuếch đại gene

19


Nanowell

Giếng nano

20

GS20

Tên thiết bị đọc trình tự

21

Illumina Solexa 1G Tên thiết bị đọc trình tự

22

Roche 454 FLX

Tên thiết bị đọc trình tự

23

scaffold

(Super cotig )chuỗi các cotig
Các khối nhỏ có kích thước từ vài base đến vài chục

24

Tandem Repeat


base bị lặp đi lặp lại nhiều lần.
Chuỗi lặp lớn lên tới vài nghìn base

25

Large
regions

repeat


7

26

fragment

Mảnh DNA

27

Read

Đoạn trình tự ngắn

28

Cotig


Đoạn trình tự dài

De Bruijn

Đồ thị De Bruijn ,Tên một thuật toán lắp ráp

29

hệ gene với dữ liệu
Đọc trình tự đoạn ngắn (100bp)

30

pyrosequencing
khoảng cách giữa 2 đoạn read xuôi và ngược

31

32

33

Insert size ( fragment
length)
Coverage

số bản copy của genome gốc được giải mã

paired-end short Lắp ráp trình tự sử dụng cặp read ngắn
reads


34

Ligation error

Lỗi giải trình tự

35

ALLPAHTS

Tên phương pháp lắp ráp hệ gene với dữ liệu

36

overlap graph

Đồ thị

37

node

Nút trong đồ thị

38

Tip

một node trong đồ thị mà từ vị trí đó không có



8

cạnh dẫn tới node nào khác

39

40

41

Bubble

Lỗi trong đồ thị, xuất hiện khi tồn tại hai
đường dẫn giữa hai điểm node

SSA

(Short Sequence Assembler) thuật toán lắp ráp
được đề xuất

neighbour

Hang xóm – điểm lân cận


9
DANH MỤC BẢNG



10
DANH MỤC HÌNH


11
MỞ ĐẦU

1. Đối tượng và phạm vi nghiên cứu
- Nghiên cứu phương pháp, thiết bị đọc trình tự thế hệ mới nhằm giải trình tự gene
trong công nghệ sinh học.
- Nghiên cứu các thuật toán lắp ráp hệ gene với dữ liệu từ thiết bị đọc trình tự thế
hệ mới.
- Nghiên cứu, xây dựng một thuật toán mới có chức năng lắp ráp hệ gene với dữ
liệu thành đoạn trình tự dài hơn để hạn chế nhược điểm của những thuật toán đang sử
dụng.
2. Hướng nghiên cứu của đề tài
- Tìm hiểu, tham khảo các tài liệu liên quan đến thiết bị đọc trình tự gene thế hệ
mới.
- Nghiên cứu, tìm hiểu các phương pháp lắp ráp hệ gene với dữ liệu từ kết quả đọc
trình tự gene của máy đọc trình tự gene thế hệ mới.
- Nghiên cứu, tìm hiểu các ưu, nhược điểm của các thuật toán phổ dụng hiện nay
trên thế giới nhằm mục đích lắp ráp hệ gene với dữ liệu từ thiết bị đọc trình tự thế hệ mới.
- Đề xuất, cài đặt thử nghiệm một thuật toán mới có cùng chức năng khắc phục
được một số nhược điểm của thuật toán phổ dụng.
3. Phương pháp nghiên cứu:
- Tổng hợp, phân tích và đánh giá lý thuyết các thuật toán lắp ráp hệ gene với dữ
liệu đã và đang sử dụng trong và ngoài nước.
- Kế thừa các kết quả nghiên cứu đã có trong nước và trên thế giới.
- Tiến tới đề xuất một thuật toán mới có chức năng lắp ráp hệ gene với dữ liệu từ

kết quả đọc trình tự của máy đọc trình tự gene thế hệ mới.
- Cài đặt thử nghiệm thuật toán nghiên cứu, đề xuất.
4. Ý nghĩa khoa học của đề tài


12
-

Về phương diện lý thuyết: Đề tài diễn giải ưu, nhược điểm của một số
phương pháp lắp ráp hệ gene với dữ liệu từ kết quả đọc trình tự gene của máy
đọc trình tự gene thế hệ mới. Từ đó, đề xuất một phương pháp mới hạn chế
một số nhược điểm của phương pháp hiện tại đang dùng.

-

Về phương diện thực tiễn: Đề tài mong muốn khắc phục một số hạn chế của
phương pháp hiện tại, tiến tới mục tiêu chính là tìm ra những thuật toán cải
tiến hơn có thể sử dụng dữ liệu các đoạn trình tự thu được từ công nghệ giải
trình tự thế hệ mới để lắp ráp hoàn chỉnh hệ gene.

Chương 1: CÁC KHÁI NIỆM CƠ BẢN


13

1.1. Giới thiệu
Công nghệ sinh học ngày càng phát triển. Ngày nay thông tin về trình tự gene rất
hữu ích trong những nghiên cứu về sinh học cơ bản và nhiều lĩnh vực ứng dụng như chuẩn
đoán bệnh trong y học, sinh học pháp y, sinh học hệ thống…. Đọc trình tự gene (DNA
sequencing) là việc xác định thứ tự các nucleotide gắn kết với nhau dọc theo chiều dài của

gen ( DNA), và trình tự gắn kết nhau của các nucleotide được gọi là trình tự gene.
Từ những năm đầu của thập niên 70 của thế kỷ trước, các nhà khoa học đã thu
được thành công đầu tiên trong việc đọc trình tự gene bằng phương pháp thủ công. Cho
đến năm 1990, chương trình genome người ( HGP) đã được bắt đầu nhằm tìm hiểu cơ
sở di truyền của một số bệnh ở người, chương trình đã thu được một trình tự phác thảo
với độ chính xác cao((~99,99%). Cùng với sự phát triển kỹ thuật đọc trình tự dựa vào
huỳnh quang và tự động hoá phân tích, việc đọc trình tự gene đã trở nên đơn giản và
nhanh chóng hơn nhiều nhờ sự ứng dụng huỳnh quang phân tích tự động ( Olsvik,
Wahlberg et al. 1993 ; Pettersson, Lundeberg et al. 2009) [9]. Tuy nhiên tại thời điểm
này, đọc trình tự DNA gặp phải vấn đề là các thiết bị chi phí quá đắt đỏ và mất thời
gian để đọc nguyên vẹn hệ gene. Chúng chỉ phù hợp cho việc kiểm tra các gene riêng
lẻ, một số xét nghiệm chẩn đoán phân tử sử dụng trong các phòng thí nghiệm y học như
di truyền phân tử, di truyền dược học, bệnh về máu và vi sinh.
Với mong muốn khai thác thông tin về hệ gene, việc giải trình tự hệ gene của nhiều
loài, bao gồm cả hệ gene của con người, động vật, thực vật và các loài vi sinh vật là rất cần
thiết. Công trình giải mã hệ gene được hoàn thành là bước đầu quan trọng cho việc phân
tích, đánh giá một loài cụ thể. Một khi trình tự nucleotide được khám phá rất nhiều phân
tích có thể được thực hiện để tìm hiểu chức năng của sinh vật. Một vài phần mềm chuyên
dụng đã được sử dụng để dự đoán gene của sinh vật. Kết hợp với đó là các kỹ thuật như
SAGE, RNA-SEQ và RNA-PET giúp phát hiện ra những phiên mã hoặc gene mới. Các
công nghệ như ChIP-chip, ChIP-seq hay ChIP-PET hỗ trợ việc tìm các điểm bám nhân tố
phiên mã mới (transcription factor binding site - TFBS). Cho nên, tìm ra toàn bộ trình tự hệ
gene một loài cũng tạo thuận lợi cho việc hiểu loài đó ở nhiều phương diện khác nhau. Tuy
nhiên, giải mã và lắp ráp hoàn chỉnh một hệ gene vẫn còn là một chặng đường rất xa ở phía
trước. Khó khăn đầu tiên gặp phải đó là phạm vi dữ liệu rất lớn, tuy nhiên khó khăn đó gần
đây đã được giải quyết khi công nghệ ngày càng phát triển. Vì vậy, thử thách lớn nhất hiện


14
nay nằm ở quá trình sử dụng thuật toán để xử lý khối dữ liệu đó. Mục tiêu chính là tìm ra

những thuật toán cải tiến hơn có thể sử dụng dữ liệu các đoạn trình tự thu được từ công
nghệ giải trình tự thế hệ mới để lắp ráp hoàn chỉnh hệ gene một cách sát với lý thuyết nhất.
Đọc trình tự thế hệ mới là một bước tiến vượt bậc về công nghệ đọc trình tự. Từ
khả năng đọc trình tự đoạn ngắn 1500 bp (Sanger) hay 100 bp (pyrosequencing), đọc
trình tự thế hệ mới cho phép đọc được từ 8 Gb đến 600 Gb dữ liệu, có nghĩa là cho
phép đọc trình tự toàn bộ hệ gene. Do vậy đọc trình tự thế hệ mới còn được gọi là đọc
trình tự hệ gene (whole genome sequencing). Đọc trình tự gene thế hệ mới là một công
cụ mạnh nhất để phát hiện được các tác nhân gây bệnh, với khả năng đọc được hàng
trăm ngàn đoạn DNA có trong mẫu thử thì công nghệ này rất dễ dàng phát hiện trình tự
nucleic acid của bất cứ tác nhân nào có mặt trong mẫu thử lấy từ vật chủ hay bệnh
nhân.
Nhận thấy tính thiết thực của vấn đề và với sự định hướng của giáo viên hướng

dẫn TS. Nguyễn Cường, tôi chọn đề tài “Nghiên cứu lắp ráp hệ gene với dữ liệu
từ thiết bị đọc trình tự thế hệ mới ”. Đề tài này sẽ xây dựng một chương trình có

chức năng lắp ráp các đoạn trình tự ngắn (reads) thành các đoạn trình tự dài
hơn (contigs) từ thiết bị đọc trình tự thế hệ mới.
1.2. Giải trình tự và các nguyên lý đọc trình tự gene

Một hệ gene bao gồm một hoặc nhiều nhiễm sắc thể. Mỗi nhiễm sắc thể
lại bao gồm 2 chuỗi DNA bổ xung cho nhau xoắn lại với nhau tạo nên cấu
trúc xoắn đôi ( Hình 1.1). Mục đích của việc giải trình tự hệ gene là xác định
chính xác thứ tự DNA trong mỗi nhiễm sắc thể. Điều này nghe thì có vẻ đơn
giản, thế nhưng thực tế thì lại hoàn toàn phức tạp. Công nghệ hiện nay chỉ đọc
được giới hạn là khoảng ~ 600 base pair (bp) trong khi đó hệ gene có kích
thước từ hàng trăm triệu đến hàng tỉ bp. Do đó, ta sử dụng hướng tiếp cận
'Whole genome shotgun sequencing' để giải mã hệ gene.



15

Hình 1.1: Cấu trúc Nhiễm sắc thể
Vậy 'Whole genome shotgun sequencing' là gì? Đầu tiên ta nhân bản
chuỗi DNA đích hàng trăm lần, sau đó cắt nhỏ các bản sao này thành
những mảnh nhỏ . Độ dài của từng mảnh (fragment) sẽ được quy định bằng
một kích thước nhất định. Mỗi mảnh sau đó sẽ được đọc trình tự để thu
được trình tự DNA dưới dạng A,C,G,T - các Deoxyribonucleic Acid hoặc
là N – base chưa xác định. Ở một vài trường hợp, các mảnh sẽ được giải
mã từ cả 2 đầu của đoạn fragment theo cả chiều thuận và nghịch của đoạn
đọc. Khó khăn xảy ra trong việc giải mã là việc sắp xếp lại các mảnh
fragment ngắn lại với nhau để tạo nên gene gốc ban đầu. Mục tiêu của luận
văn này cũng tập trung vào vấn đề này.


16

Hình 1.2: Công nghệ giải mã hệ gene
Quá trình lắp ráp các trình tự hệ gene phụ thuộc vào thiết bị hoặc
phương pháp đọc trình tự gene. Cho đến giữa năm 2000, chỉ có một công
nghệ duy nhất đó là Sanger/Capilary. Nó có khả năng đọc tới 600bp từ mỗi
đầu của đoạn DNA. Mặc dù vậy số lượng thực tế những mảnh fragment mà
nó có thể đọc được trong một khoảng thời gian cụ thể là rất thấp, dẫn đến hiệu
quả đọc trình tự thấp. Do đây là cách duy nhất trong gần một thập kỷ, phần
lớn các cách lắp ráp hệ gene trước đây chỉ được tối ưu hoá nhằm sử dụng
fragment ở kích thước này.
Vào năm 2005, 454 Life Sciences giới thiệu thiết bị đọc trình tự GS20 có khả
năng đọc trình tự với độ dài 400bp với hiệu suất cao hơn. Lắp ráp các đoạn trình tự thu
được từ thiết bị này không khác nhiều lắm so với lắp ráp kiểu Sanger. Do đó những
thuật toán cũ đã được cải tiến với một vài thay đổi nhỏ.


Năm 2006 đánh dấu một giai đoạn mới của giải trình DNA tự khi máy


17

giải trình tự Illumina Solexa 1G được giới thiệu ra thị trường. Điều đặc biệt
của máy giải trình tự này là nó sắp cho từng cặp read, tạo điều kiện cho quá
trình lắp ráp các trình tự một cách chính xác. Khả năng giải mã sử dụng một
đầu nối nhỏ 25bp cho một kết quả đầu ra vượt xa Sanger và 454 Life Sciences
mà lại ở mức chi phí thấp ( Hình 1.3). Những đoạn fragment ngắn là nguyên
nhân cản trở phương pháp lắp ráp gối chồng đối với bộ gene lớn ở những
động vật có vú. Mặc dù vậy với khả năng vốn có là cho kết quả các read theo
cặp, giải mã hệ gene của vi khuẩn vẫn hoàn toàn có thể. Những phần mềm lắp
ráp hệ gene trước kia không hề phù hợp cho việc lắp ráp những dữ liệu như trên
vì 3 lý do:
i, Thứ nhất: những thuật toán phức tạp trước kia càng ngày càng khó
khăn trong việc xử lý một khối dữ liệu thô khổng lồ.
ii, Thứ hai, quá trình lắp ráp các trình tự đối với dữ liệu trước kia dựa
vào khoảng trùng khớp lớn và độ tin cậy cao của các đoạn trùng nhau giữa 2
trình tự liền kề, do đó nó không thể xử lý được đối với những đoạn read chỉ
dài 25bp.
iii, Cuối cùng, các thuật toán lắp ráp các trình tự trước kia không tận
dụng được dữ liệu là từng cặp read. Từ đó, người ta đã xây dựng thuật toán
lắp ráp thích hợp cho dữ liệu cặp này.

Hình 1.3: Cấu trúc cặp read


18


Vào năm 2007, ABI cho ra mắt thiết bị giải trình tự 'ABI SOLID', cũng
có khả năng đọc một lượng lớn cặp read ngắn với hiệu suất cao. Ta có bảng
so sánh giữa các công nghệ giải trình tự sau:
Bảng 1.1: So sánh các công nghệ giải trình tự thế hệ mới
Roche 454 FLX

Illumina Solexa

ABI SOLiD

Độ dài đoạn Read

200 – 300bp

25-35bp

35bp

Tổng dung lượng

˜ 100Mb

˜ 1Gb

˜ 3Gb

Thời gian chạy

7.5 giờ


3 đến 5 ngày

Trên 8 ngày

Giá hoá chất
Giá thiết bị

Ưu điểm

˜ $5000/ lần chạy

˜ $3000/ lần chạy ˜ $3000/ slide (1.5Gb)
(1Gb)

˜ $5000,000

˜ $475,000

˜ $525,000

Chạy nhiều lần/ năm

Giá rẻ hơn/base

Giá rẻ hơn/base

Đoạn read dài hơn

Nguyên vật liệu ít Nguyên vật liệu ít hơn

hơn

Giá
Nhược điểm

thành

hơn/base

cao Độ dài đoạn read Độ dài đoạn read ngắn
ngắn

Chạy ít lần/ năm

Chạy ít lần/ năm
Đọc trình tự gene thế hệ mới (next generation sequening)
Trước khi phân tích các vấn đề, ta cần định nghĩa một vài thứ:
-

Read length: độ dài của mỗi đoạn read xuôi/ngược tạo ra bởi máy giải trình tự. Độ dài này
phụ thuộc vào công nghệ giải trình tự được sử dụng, do đó nó không phải là một hằng số

-

với mỗi thư viện nhất định. Tuy nhiên ta vẫn sẽ giả sử vậy.
Insert size ( fragment length) : khoảng cách giữa 2 đoạn read xuôi và ngược
Coverage: Là số bản copy của genome gốc được giải mã. Chính bằng read length x 2 x number

-


of read / độ dài genome (áp dụng cho thư viện cặp read)
Contig : một đoạn trình tự đã được lắp ráp( biết trình tự) được giả thiết tạo thành một
khoảng liên tục trên genome gốc.


19
-

Scaffold (super contig) : Là một chuỗi các contig mà được giả thiết sắp xếp theo cùng một
thứ tự trên trong genome đích, có thể bị chia cắt bởi những đoạn chưa rõ trình tự.
“Lắp ráp trình tự sử dụng cặp read ngắn( paired-end short reads ) “ được phát biểu
như sau:“Cho một tập các cặp reads trong đó mỗi cách đọc trình tự xuôi và ngược bị chia
bởi một khoảng cách xác định trong hệ gene nguồn, hãy dựng lại hoàn chỉnh hệ gene
nguồn đó”.
Mặc dù vậy việc lắp ráp cũng gặp phải những khó khăn do xuất hiện sai số hoặc sự
trùng lặp. Sai số trong paired-end short reads chủ yếu ở 2 dạng:
- Sequencing error: xảy ra trong quá trình giải mã với việc đọc lỗi một base. Ở một
số platform sequencing, hoàn toàn có thể xảy ra việc thêm hay bớt một base pairs. Nhưng
những trường hợp như thế này là hiếm gặp ở Illumina Solexa 1G và ABI SOLID, do đó
chúng ta sẽ bỏ qua việc phải thêm hay bớt base pairs trong việc phân tích lỗi. Trong khi
các platform cố gắng hướng đến giảm thiểu error rate xuống chỉ còn dưới 1% nhưng thực
tế dữ liệu vẫn nảy sinh error rate trong khoảng từ 1% → 5%

Hình 1.4: Sequencing error
- Ligation error /Chimetic Paired-end : Xảy ra khi hai đầu của hai đoạn fragment
khác nhau được nối với nhau và giả sử như chúng đến từ cùng một fragment. Phân tích dữ
liệu chỉ ra giá trị này nằm trong khoảng từ 1% - 10%, thư viện có insert size càng lớn thì
độ sai sót càng cao.



20

Hình 1.5: Ligation error
Sequencing error có thể được sửa bằng cách cho nhiều đoạn read phủ lên cùng một
vị trí. Phần lớn sequencing error là do ngẫu nhiên. Nếu sử dụng cách này với năm đoạn
phủ lên nhau, biết chắc một đoạn là sai thì bốn đoạn còn lại vẫn có thể tin là đúng, do đó có
thể sửa được read xảy ra lỗi (Hình 1.5). Mặc dù vậy trong hệ gene có rất nhiều vùng gần
như giống nhau ngoại trừ một vài base . Trong trường hợp này công cụ lắp ráp cần nhận
biết để tác chúng thành hai đoạn riêng biệt thay vì việc ghép chúng thành một contig hay
một trình tự đồng nhất (Hình 1.5).

Hình 1.6: Sửa lỗi giải trình tự sử dụng nhiều bản sao
Tuy nhiên, có nhiều vùng trong hệ gene có đoạn mã gần giống nhau chỉ khác nhau một
hoặc một vài base. Trong trường hợp này, phần mềm lắp ráp nên xác định được đây không
phải là lỗi, nếu nó xác định là lỗi và sửa lỗi này thì sẽ dẫn đến việc tạo ra lỗi trong quá
trình lắp ráp sau này (Hình 1.7).


21

Hình 1.7: Không phải lỗi trong giải trình tự, hai đoạn mã lặp
ở hai vị trí khác nhau

Việc lắp ráp các đoạn lặp trong chuỗi DNA là một trong những vấn đề
phức tạp và khó nhất trong quá trình lắp ráp. Các đoạn lặp có thể được chia
thành các loại sau:
Tandem repeat:
Trường hợp 1: các khối nhỏ có kích thước thường từ vài base cho đến
vài chục base bị lặp đi lặp lại nhiều lần được gọi là tandem repeat (hình 1.8).
Trong một vài trường hợp, có thể có một số sự thay đổi giữa các khối lặp lại

như bị mất hoặc thêm một, một vài base. Việc lắp ráp đúng các đoạn lặp này
đối với các đoạn read ngắn là một trong những vấn đề rất khó

Hình 1.8: Một ví dụ của ‘Tandem repeat’
- Large repeat regions: Trong một vài trường hợp, chuỗi lặp lại có thể
lên tới vài nghìn cặp base, và xảy ra rất nhiều lần trong nhiều vùng khác nhau


22

trong hệ gene. Và có thể có một vài khác biệt nhỏ giữa các đoạn lặp này. Do
đó, các phần mềm lắp ráp nên có khả năng xác định được các vùng này và
giải quyết các sai biệt giữa đoạn lặp có thể xảy ra.
Sau đây giới thiệu công nghệ

Đọc trình tự gene thế hệ mới (next

generation sequening)
Đọc trình tự thế hệ mới là một bước tiến vượt bậc về công nghệ đọc trình tự. Từ
khả năng đọc trình tự đoạn ngắn 1500 bp (Sanger) hay 100 bp (pyrosequencing), đọc trình
tự thế hệ mới cho phép đọc được từ 8 Gb đến 600 Gb dữ liệu, có nghĩa là cho phép đọc
trình tự toàn bộ hệ gene. Do vậy đọc trình tự thế hệ mới còn được gọi là đọc trình tự toàn
bộ hệ gene (whole genome sequencing).
Nguyên lý đọc trình tự thế hệ mới:
Đọc trình tự gen thế hệ mới theo 2 nguyên lý chính sau:
(1)

Thứ nhất, đọc trình tự bằng tổng hợp (sequencing by synthesis , SBS) thường được các thế
hệ máy Roche 454, Ion Torrent và Illumina sử dụng. SBS liên quan đến việc sử dụng một
hỗn hợp các dNTP được biến đổi tại vị trí 2’. Hỗn hợp này bao gồm các dNTP bổ sung tự

nhiên và các dNTP bổ sung có đánh dấu huỳnh quang. Quá trình xác định trình tự sẽ diễn
ra tương tự như phản ứng PCR thông thường. Đầu tiên một đoạn trình tự mồi nằm trên
đoạn adapter sẽ được gắn vào phần cuối của đoạn gDNA khuôn cần đọc trình tự. Sau đó,
việc xác định trình tự được thực hiện bằng cách gắn lần lượt từng dNTP bổ sung có đánh
dấu huỳnh quang vào phần cuối của trình tự mồi trên theo chu trình 3 bước:
(i) Một polymerase kết hợp với một dNTP kết thúc có đánh dấu huỳnh quang và
gắn bổ sung với base trên đoạn gen cần đọc trình tự;
(ii) Thiết bị sẽ ghi lại hình ảnh, phần mềm sẽ phân tích hình ảnh thu được để xác
định phân tử dNTP nào được kết hợp và từ đó tìm ra được trình tự của base bổ sung.
(iii) Nhóm kết thúc đầu 3’ và tín hiệu huỳnh quang sẽ được cắt bỏ bằng phương
pháp hóa học. SBS xác định trình tự các đoạn DNA theo chiều từ đầu 5’ đến 3’.
Quá trình này được lặp lại cho đến khi toàn bộ chiều dài của đoạn DNA được đọc
trình tự. Về mặt lý thuyết, độ dài đoạn được đọc bằng SBS có thể lên đến hàng trăm base.

(2)

Thứ hai, đọc trình tự gắn nối (sequencing by ligation, SBL) được sử dụng ở máy SOLiD.
Phương pháp xác định trình tự bằng phản ứng ghép nối (SBL): được phát minh bởi George


23
Church. SBL đã được sử dụng để xác định trình tự DNA và là nền tảng cho các thiết bị
đọc trình tự thế hệ mới. SBL là một chu trình tuần hoàn gồm 4 bước:
-

Đưa vào các primer neo được thiết kế bổ sung với trình tự trên adapter.

-

Quá trình lai của nonamers ngẫu nhiên với nhau. Mỗi hỗn hợp nonamer gồm có 4 loại

nonamers, mỗi loại có các base và vị trí đã được xác định. Các chất phát quang khác nhau
được gắn ở cuối của mỗi loại nonamer sẽ cho phép xác định base trên nonamer.

-

Các nonamer lai với các primer neo. Sau đó, thiết bị ghi hình và phần mềm sẽ xác định
base ở vị trí query.

-

Primer neo, phức hệ nonamer được đọc phóng và quá trình được lặp lại cho các vị trí query
trong hỗn hợp nonamer. SBL hoạt động trong cả hai chiều: chiều xuôi (5 'đến 3') và chiều
ngược (3 'đến 5').
Nhìn chung, công nghệ đọc trình tự gene thế hệ mới gồm 3 bước chính như sau:
- Chuẩn bị các đoạn DNA và gắn lên các giá bám: Trước hết DNA hệ gene được
chia nhỏ thành các đoạn DNA ngắn nhờ siêu âm hay nhờ khí dung, sau đó 2 đầu các đoạn
DNA ngắn này được gắn 2 đoạn adapter có trình tự nhận biết bởi các đoạn dò và trình tự
mồi PCR. Các đoạn DNA này sẽ được gắn lên các giá bám là các hạt nano (Roche 454,
SOLiDhay Ion Torrent) hay trên các vi bản (Illumina) nhờ các đoạn dò đặc hiệu adapter đã
gắn sẵn trên các giá bám này.
- Khuếch đại các đoạn DNA trên giá bám bằng mồi đặc hiệu adapter: Nếu giá bám
là vi bản thì thành phần PCR được bơm trải lên vi bản và khi thực hiện PCR sẽ có từng
cụm sản phẩm khuếch đại được gắn trên các vị trí tách rời nhau. Nếu giá bám là các vi hạt
thì phải nhủ hoá thành phần PCR để các giọt nhủ chỉ chứa một vi hạt, nhờ vậy sau khi thực
hiện PCR mỗi vi hạt chỉ có một loại sản phẩm khuếch đại bám lên. Sau đó, các vi hạt được
loại bỏ nhủ dịch và bơm vào một vi chip có chứa hàng chục ngàn đến hàng trăm ngàn
giếng kích thước nano (nanowell), kích thước này cho phép mỗi nanowell chỉ chứa được
một vi hạt.



24

Hình 1.9: Các giai đoạn của đọc trình tự thế hệ mới
(A) Chuẩn bị DNA và gắn lên các giá bám;
(B) Khuếch đại các đoạn DNA trên giá bám bằng mồi đặc hiệu adapter;
(C) Đọc trình tự bằng SBS (đối với Roche 454, Ion Torrent và
Illumina) và bằng SBL (SOLiD).
- Đọc trình tự bằng tổng hợp hoặc bằng gắn nối : Nguyên tắc cũng gần giống
pyrosequencing, tuy nhiên có một số điểm khác biệt bao gồm:
(i) Thay vì phải huỷ bỏ các thành phần A T, C, và G còn dư thừa trong phản ứng
trước khi cho thành phần tham gia mới vào thì ở đọc trình tự thế hệ mới, thành phần tham
gia đọc trình tự dư thừa này được thu hồi sau khi thu được tín hiệu và bơm thành phần


25
tham gia mới;
(ii) Tín hiệu tổng hợp được ghi nhận sau mỗi lần bơm các thành phần tham gia vào
có thể là tín hiệu phát quang dựa trên hệ thống luciferinluciferase (Roche 454) (Margulies,
Egholm et al. 2005; Schuster 2008)[5], tín hiệu điện do thay đổi pH (Ion‐Torrent), tín hiệu
huỳnh quang được đánh dấu trên các nucleotide A, T, C hay G (Illumina)(Mardis 2008)[4],
hay cũng có thể là tín hiệu huỳnh quang được gắn lên probe (SOLiD) (Valouev, Ichikawa
et al. 2008)[21].
(iii) Tổng hợp mạch bổ sung dựa trên mạch khuôn có thể là kéo dài đầu 3’ của
mạch bổ sung bằng các nucleotide (A, T, C hay G) và cứ mỗi khi một nucleotide được kéo
dài thì sẽ có một tín hiệu phát quang (Roche 454), huỳnh quang (Illumina) hay pH (ion
Torrent) được ghi nhận, hay có thể là kéo dài đầu 3’ của mạch bổ sung mỗi lần 2 base nhờ
sự kéo dài và nối đoạn dò dựa trên sợi khuôn và cứ mỗi khi tổng hợp được 2 base thì sẽ có
một tín hiệu huỳnh quang được ghi nhận (SOLiD).
Thứ tự của các lần bổ sung các thành phần đọc trình tự vào chip nanowell hay vào
vi bản được máy tính ghi lại đồng thời với thứ tự và cường độ tín hiệu tổng hợp sợi bổ

sung của từng cụm DNA bám lên vi bản hay trên vi hạt, nhờ vậy mà sẽ đọc được trình tự
của các đoạn DNA trên từng cụm. Vì có đến hàng trăm ngàn cụm nên sẽ có hàng trăm
ngàn trình tự sẽ được đọc, tương ứng với hàng trăm ngàn đoạn DNA từ hệ gene sẽ được
đọc trình tự. Trình tự của các đoạn đọc được sẽ được phần mềm của thiết bị nối lại với
nhau bằng cách so sánh trình tự, tìm các đoạn trùng lặp ở hai đầu và như vậy là sẽ có kết
quả của trình tự toàn bộ hệ gene.
1.3. Ứng dụng của công nghệ đọc trình tự gene
Đọc trình tự có thể xác định trình tự các gene riêng lẻ, các vùng gene lớn, các nhiễm sắc
thể hoặc toàn bộ các bộ gene. Tùy theo phương pháp sử dụng, kết quả cho biết trình tự của
các nucleotide trong sợi DNA hoặc RNA tách chiết từ các tế bào động thực vật hoặc các
nguồn chứa thông tin di truyền khác.
Kết quả này có nhiều ứng dụng chính như sau:
1.

Biết được trình tự nucleotide của bất cứ một đoạn DNA nào đó chính là cơ sở để các nhà
khoa học có thể đọc trình tự gene hay bộ gene cho các nghiên cứu có liên quan.

2.

Phát hiện các thay đổi của trình tự nucleotide của một đoạn DNA, tạo cơ sở cho phát hiện
các đột biến gen, các SNP, các kiểu gene, …


×