ỨNG DỤNG THUẬT TOÁN BURROWSWHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.48 MB, 80 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------

Vũ Thị Diệu

ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM
TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – Năm 2015

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------

Vũ Thị Diệu

ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM
TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM

Chuyên ngành: Cơ sở toán cho tin học
Mã số: 60480104

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN CƯỜNG

Hà Nội – Năm 2015

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu nêu
trong luận văn là trung thực. Những kết luận khoa học của luận văn chưa từng được ai
công bố trong bất kỳ công trình nào khác.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.

TÁC GIẢ LUẬN VĂN

Vũ Thị Diệu

LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS. Nguyễn Cường, người đã tận tình giúp
đỡ và hướng dẫn tôi hoàn thành luận văn này.Thầy đã định hướng giúp tôi phương
pháp nghiên cứu và giúp tôi từng bước tiếp cận với lĩnh vực Tin – Sinh học bổ ích và
vô cùng mới mẻ. Cho tôi thêm đam mê và động lực để hoàn thành luận văn một cách
tốt nhất.
Tôi xin gửi lời cám ơn tới tập thể các bạn, các anh chị làm việc tại phòng Tin
Sinh, thuộc Viện Công nghệ sinh học, Viện Hàn lâm KH&CN Việt Nam. Cám ơn các
bạn, các anh chị đã nhiệt tình giúp đỡ em trong thời gian qua, giúp em tiếp cận một
cách gần nhất với môi trường thực tế của ngành Tin – Sinh để em có thể đưa ra những
kết quả nghiên cứu một cách trực quan và đầy đủ trong luận văn của mình.
Tôi cũng xin được gửi lời cảm ơn chân thành tới các thầy cô giáo trong và ngoài
trường Đại học Khoa học tự nhiên, bạn bè, đồng nghiệp và gia đình đã giúp đỡ, động
viên tôi trong quá trình nghiên cứu, hoàn thành luận văn này.
Luận văn chắc chắn không tránh khỏi những thiếu sót. Rất mong được sự góp ý
của các Thầy, Cô và các đồng nghiệp đồng thời cũng rất mong được các nhà nghiên

cứu tiếp tục hiệu chỉnh, bổ sung. Tôi xin chân thành cảm ơn!
TÁC GIẢ LUẬN VĂN

Vũ Thị Diệu

MỤC LỤC

DANH MỤC CÁC HÌNH VẼ

DANH MỤC CÁC BẢNG BIỂU

MỞ ĐẦU

Tin - Sinh học (Bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ
của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân
tạo, hóa học và hóa sinh để giải quyết các vấn đề sinh học. Sự ra đời của Tin - Sinh học
là sự hợp tác chặt chẽ giữa các nhà Tin học và các nhà nghiên cứu Sinh học nhằm khai
phá dữ liệu hiệu quả, Tin – Sinh học đã trở thành mục tiêu công nghệ của ngành Sinh
học trong thế kỉ mới. Bắt kịp xu thế phát triển của khoa học thế giới, những năm gần
đây các nhà Tin - Sinh học Việt Nam đã xác định được những hướng đi phù hợp và đạt
được thành công bước đầu với một số công trình nghiên cứu mang tính ứng dụng cao.
Trong sinh học, việc giải mã trình tự gen rất quan trọng, nó góp phần trong
việc nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng như chẩn đoán
bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống... Do đặc tính khí
hậu nhiệt đới, Việt Nam có những lợi thế về những nguồn dữ liệu Sinh học to lớn, hữu
ích, điều đó trở thành một điều kiện thuận lợi và cũng là thách thức cần đến sự đóng

góp của Tin - Sinh học.
Nhận thấy tính mới mẻ trong lĩnh vực nghiên cứu Tin – Sinh học nói chung
cũng như những ưu điểm phát triển của nghành Tin - Sinh học nước nhà, học viên
đã lựa chọn đề tài “ứng dụng thuật toán Burrow – Wheeler Tranform trong quá
trình giải mã hệ gen lúa”. Luận văn bao gồm ba chương chính, nội dung tóm lược
như sau:
Chương 1 trình bày tổng quan và các khái niệm cơ bản trong sinh học phân tử,
các định dạng dữ liệu trong bài toán Tin – Sinh học. Mục tiêu chính của chương này
nhằm làm rõ các khái niệm giới thiệu vấn đề và nội dung sẽ trình bày trong chương
tiếp theo của luận văn.

8

Chương 2 trình bày quá trình giải mã hệ gen, bài toán gióng hàng trình tự trong
việc giải mã hệ gen. Chương 2 sẽ nêu một số thuật toán cơ bản giải bài toán gióng hàng
trình tự. Trọng tâm của chương 2 giới thiệu ý tưởng và quá trình xây dựng thuật toán
Burrows–Wheeler Transform trong quá trình giải mã hệ gen.
Chương 3 Trình bày về quá trình thực nghiệm và ứng dụng thuật toán trên dữ liệu
sinh học. Tác giả tham gia cùng nhóm nghiên cứu thuộc phòng Tin – Sinh học, viện
Công nghệ Sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam xây dựng công
cụ dóng hàng trình tự BWTAligner dựa trên thuật toán BWT đã tìm hiểu. Đối chứng
kết quả khi dóng hàng trình tự trên công cụ dóng hàng phổ biến BWA. Trong chương
này thực hiện từng bước chuẩn bị dữ liệu, cài đặt môi trường, sử dụng công cụ, đưa ra
kết quả thực nghiệm và đánh giá kết quả của luận văn.

9

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

Tin - Sinh học là một lĩnh vực mới mẻ trong phạm vi nghiên cứu tại Việt Nam.
Những năm gần đây, Tin - Sinh học đã được các nhà nghiên cứu Việt Nam tiếp cận gần
hơn và đạt được những thành công bước đầu nổi trội. Trong chương đầu của luận văn,
tác giả sẽ giới thiệu đến những khái niệm cơ bản của Tin - Sinh học, hướng phát triển
của Tin – Sinh học nói chung và tại Việt Nam nói riêng, từ đó làm tiền đề để phát biểu
mục tiêu của luận văn. Phần cuối chương một sẽ trình bày các định nghĩa cơ bản trong
bài toán Tin – Sinh học mà sẽ được nhắc đến xuyên suốt trong những phần sau của
luận văn này.
1.1 Đặt vấn đề
1.1.1 Tin – Sinh học
Tin - Sinh học (Bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ
của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân
tạo, hóa học và hóa sinh để giải quyết các vấn đề sinh học. Tin - Sinh học thiên về việc
phát triển các giải thuật, lý thuyết và các kĩ thuật thống kê tính toán để giải quyết các
bài toán bắt nguồn từ nhu cầu quản lí và phân tích dữ liệu sinh học.
Những lĩnh vực nghiên cứu chính của Tin - Sinh học gồm phân tích trình tự, tìm
kiếm gen, tìm kiếm các đột biến, phân tích chức năng gen …vv. Mọi sinh vật đều có hệ
gen, và người ta khẳng định rằng hệ gen mã hóa hầu hết thông tin di truyền của sinh
vật. Do vậy, việc giải mã hệ gen là một bài toán có ý nghĩa vô cùng quan trọng trong
ngành sinh học trên thế giới nói chung, và với một nước đang phát triển như Việt Nam
nói riêng. Giải mã trình tự gen là một bài toán có quy mô rộng lớn trong ngành Tin –
Sinh học và đã đem lại được những thành tựu nghiên cứu có ý nghĩa vô cùng to lớn:
Năm 2003, thành công của dự án giải mã 1000 hệ gen người (Human Genome
Project ) đã mang tới bước đột phá lớn của sinh học trong công nghệ, khởi đầu cho

10

hàng loạt các dự án giải mã hệ gen cho các loài khác nhau trên thế giới. Một số dự án
nổi bật khác trên thế giới có thể kể tên như dự án “750 người Hà Lan” giải trình tự tại

BGI - Hongkong bắt đầu năm 2011, “một triệu người Trung Quốc” bắt đầu từ năm
2011, dự án “giải mã hệ gen một người Hàn Quốc” vào năm 2009, “giải mã hệ gen một
người Nhật Bản” vào năm 2010. Việc xây dựng và giải mã thành công hệ gen có tác
động lớn đến nhiều lĩnh vực khác nhau, trong đó nổi bật là y học, dược học, công nghệ
sinh học và tin học ứng dụng, đồng thời thúc đẩy sự phát triển nền kinh tế của các quốc
gia. Đặc biệt các nghiên cứu giải mã hệ gen có ý nghĩa to lớn trong việc đưa ra cảnh
báo, phòng ngừa và điều trị sớm, phát triển các các phương pháp điều trị và chữa bệnh
hướng đến từng cá thể, nghiên cứu duy trì và phát triển nguồn giống tốt.
Có thể nói rằng sự nhập cuộc của Tin - Sinh học với sự hợp tác chặt chẽ giữa các
nhà Tin học và các nhà nghiên cứu Sinh học nhằm khai phá dữ liệu hiệu quả đã trở
thành mục tiêu công nghệ của ngành Sinh học trong thế kỉ mới.
1.1.2 Khai phá dữ liệu trong Tin – Sinh học
Khai phá dữ liệu rất quan trọng trong các lĩnh vực khác nhau như: tài chính - thị
trường chứng khoán (phân tích tình hình tài chính và dự báo giá của các loại cổ phiếu
trong thị trường chứng khoán,…), kinh doanh - thương mại (quảng cáo, thương mại
điện tử, phát hiện lỗi, chăm sóc sức khỏe, công nghiệp, thể thao, giải trí, truyền thông,
…), text mining & Web mining (phương tiện tìm kiếm, xử lý văn bản, phân lớp văn
bản và các trang web, tóm tắt văn bản,…), bảo hiểm, điều khiển, viễn thông,… Không
nằm ngoài các lĩnh vực này, sinh học phân tử cũng rất cần công nghệ khai phá dữ liệu
để khám phá tri thức mới. Cũng giống như hỗ trợ các lĩnh vực khác, khi khai phá dữ
liệu hỗ trợ lĩnh vực sinh học phân tử đã giúp cho lĩnh vực này phát triển một cách vượt
bậc. Như trong nghiên cứu về di truyền, khai phá dữ liệu đã giúp tìm kiếm và phát hiện
loài, xác định DNA, dự đoán protein, … chăm sóc sức khỏe cộng đồng, điều trị y học.
Khai phá dữ liệu đã giúp cho việc chẩn đoán bệnh, đưa ra phương pháp điều trị tốt hơn,

11

tìm ra mối liên hệ giữa các triệu chứng, tiên lượng gen gây bệnh,… Ngoài ra, khai phá
dữ liệu sinh học phân tử còn có nhiều tác động đến các lĩnh vực khác như công nghệ

sinh học (biotechnology) và y sinh (biomedical). Nó có các ứng dụng như điều chế
dược phẩm, khoa học pháp y (forensic DNA analysis), và công nghệ sinh học trong
nông nghiệp.
1.1.3 Hướng phát triển của ngành Tin – Sinh học tại Việt Nam
Bắt kịp xu thế phát triển của khoa học thế giới, các nhà Tin - Sinh học Việt Nam
đã xác định được những hướng đi phù hợp và đạt được thành công bước đầu với một
số công trình nghiên cứu mang tính ứng dụng cao. Ví dụ như một số nghiên cứu trong
lĩnh vực phân tích gen, xác định trình tự DNA của một số loài để đánh giá về mặt di
truyền, biến dị, xác định hệ số di truyền tìm ra các họ hàng thân thích, đánh giá mức độ
biến đổi tính di truyền, nghiên cứu về đa dạng sinh học, xây dựng ngân hàng gen (gen
bank)...
Một số đơn vị nghiên cứu trong nước đã lựa chọn Tin - Sinh học là hướng nghiên
cứu và phát triển có thể kể đến như: Khoa Công nghệ Sinh học, Trường Đại học Khoa
học Tự nhiên TP Hồ Chí Minh; Viện Công nghệ Sinh học, Viện Khoa học và Công
nghệ Việt Nam; Trường Đại học Y Dược TP Hồ Chí Minh. Tuy là một ngành khoa học
mới mẻ tại Việt Nam trong những năm gần đây nhưng cộng đồng Tin - Sinh học Việt
Nam nói chung cũng đã có những đóng góp và thành tựu đang kể. Đáng chú ý là sản
phẩm phần mềm Tin - Sinh học do PGS. TS. Trần Văn Lăng (Viện Công nghệ thông tin
tại TP Hồ Chí Minh) chủ trì đã tạo ra phần mềm HiBio riêng với một số tính năng cần
thiết cho việc tìm hiểu về sinh học phân tử và việc tiếp cận với những bài toán Tin Sinh
trở nên trực quan và ưu Việt. Năm 2012, Viện Hàn lâm Khoa học và Công nghệ Việt
Nam khởi động dự án xây dựng bản đồ gen người cho 54 dân tộc Việt Nam và thành
lập Viện hệ gen học. Cuối năm 2013, TS. Lê Sỹ Vinh – giảng viên Trường Đại học
Công nghệ và các cộng sự đã công bố những kết quả đầu tiên về việc nghiên cứu xây

12

dựng và phân tích hệ gen người Việt, bắt đầu từ tiếp cận của các kỹ thuật tính toán Tin
– Sinh học. Và còn nhiều công trình nghiên cứu khác đã được công bố thể hiện những

thành công bước đầu của Tin - Sinh học Việt Nam.
Xét về nguồn dữ liệu gen, Việt Nam có những lợi thế về những nguồn thông tin to
lớn, hữu ích, do đó trở thành một điều kiện thuận lợi và cũng là thách thức cần đến sự
đóng góp của Tin - Sinh học. Có thể kể đến những nguồn dữ liệu đa dạng, sẵn có trong
nước về nhiều lĩnh vực khác nhau như nông nghiệp, chăn nuôi, hải sản, phòng chống
bệnh văcxin, kit chẩn đoán và y dược phẩm. Kết hợp được sự đa dạng, sẵn có của
nguồn dữ liệu gen với những hiểu biết về Tin học ứng dụng hứa hẹn về sự phát triển
thành công của Tin - Sinh học nước nhà.
1.2 Mục tiêu của luận văn
Về mặt giải thuật: Với những tiếp cận đầu tiên về ngành Tin – Sinh học như đã
trình bày ở trên và trong khuôn khổ nghiên cứu luận văn của mình, tôi tập trung vào
nghiên cứu một bài toán quan trọng trong quá trình giải mã hệ gen nhằm tìm kiếm các
biến dị di truyền (đa hình) là: bài toán gióng hàng trình tự (Sequence Alignment). Cụ
thể trong nghiên cứu của mình, tôi tìm hiểu thuật toán Burrows – Wheeler Transform
(BWT) để giải bài toán gióng hàng trình tự, đồng thời so sánh thuật toán BWT với một
số thuật toán khác đã được ứng dụng.
Về mặt thực nghiệm: Với sự hỗ trợ nguồn dữ liệu từ Viện Di truyền Nông
nghiệp, Viện Khoa học Nông nghiệp Việt Nam, cùng với sự cộng tác của các thành
viên trong phòng Tin – Sinh, Viện Công nghệ Sinh học, Viện Hàn Lâm khoa học Việt
Nam về mặt công nghệ, tôi đã góp phần xây dựng công cụ gióng hàng trình tự
BWTAligner dựa trên thuật toán BWT đã nghiên cứu. Luận văn thực hiện trên dữ liệu
thực nghiệm là bộ dữ liệu lúa Chiêm Nhỡ (Bắc Ninh) của Viện Di truyền Nông nghiệp.
So sánh chất lượng gióng hàng trình tự trên công cụ đã xây dựng với công cụ BWA –
một công cụ gióng hàng trình tự được sử dụng rộng rãi hiện nay và đưa ra những biện

13

luận nhằm góp phần cải tiến và phát triển thêm công cụ đã xây dựng.
1.3 Các khái niệm cơ bản trong sinh học phân tử

Với những tổng quan về Tin – Sinh học và mục tiêu của luận văn mà tôi đã trình
bày ở nội dung trên, trong nội dung tiếp theo tôi sẽ trình bày về các khái niệm cơ bản
trong sinh học phân tử. Các khái niệm được trình bày dưới đây sẽ là những khái niệm
được sử dụng xuyên suốt trong nội dung tiếp theo của luận văn.
1.3.1 DNA
Acid Deoxyribo Nucleic (viết tắt ADN theo tiếng Pháp hay DNA theo tiếng Anh)
là một phân tử acid nucleic mang thông tin di truyền mã hóa cho hoạt động sinh
trưởng và phát triển của các vật chất hữu cơ bao gồm cả một số virus. ADN thường
được coi là vật liệu di truyền ở cấp độ phân tử tham gia quyết định các tính trạng.
Trong quá trình sinh sản, phân tử ADN được nhân đôi và truyền cho thế hệ sau.Về mặt
cấu trúc cơ bản, DNA là các đại phân tử (polymer) mà các đơn phân (monomer) là các
nucleotide. Mỗi nucleotide được tạo thành từ một phân tử đường ribose, một
gốc phosphate và một bazơ nitơ (nucleobase). Trong DNA chỉ có 4 loại nucleotide và
những loại này khác nhau ở thành phần nucleobase. Do đó tên gọi của các loại
nucleotide xuất phát từ gốc nucleobase mà nó mang: ademine (A), thy mine(T),
Cytosine (C), và guanine (G). Trong đó, A và G là các purine (có kích thước lớn)
còn T và X, có kích thước nhỏ hơn (pyrimidine).

14

Hình 1.1 Mô hình cấu trúc phân tử DNA
1.3.2 Gen
Gen hay còn gọi là gien, gene, ren hay di tố là một đoạn DNA mang một chức
năng nhất định trong quá trình truyền thông tin di truyền. Trên nhiễm sắc thể, một gen
thường có một vị trí xác định và liên kết với các vùng điều hòa phiên mã và các vùng
chức năng khác để bảo đảm và điều khiển hoạt động của gen.
Gen có chức năng gửi các tín hiệu hóa học đi đến tất cả các nơi trong cơ thể.
Những tín hiệu này có chứa đầy đủ các thông tin, các chỉ thị cụ thể cho các cơ quan
trong cơ thể ta phải hoạt động ra sao. Việc tìm hiểu số lượng gen cũng như cơ cấu tổ

chức của gen trong cơ thể con người là một điều tất yếu để mang lại những tiến bộ mới
và quan trọng của y sinh học.

Hình 1.2 Mô hình cấu trúc gen

15

1.3.3 Hệ gen tham chiếu
Một hệ gen tham chiếu (A reference genome) có thể hiểu như một hệ gen đối
chứng, đó là một hệ gen đại diện ở một loài nào đó và người ta đã công nhận rõ mức độ
biểu hiện của gen ấy ở các mô đặc hiệu hay thời điểm quan trọng nào đó. Nói cách
khác, hệ gen tham chiếu của một loài là trình tự được lấy trên cơ sở dữ liệu bao gồm
tập hợp các gen mang tính đại diện mà không đặc thù cho một cá thể riêng biệt. Như
vậy, bộ gen tham chiếu được lấy làm đối chứng để so sánh trong việc định lượng và
giải mã hệ gen. Hệ gen tham chiếu được lựa chọn phải là hệ gen tiêu biểu trên thế giới
và mang đầy đủ các tính trạng đại diện của loài. Bài toán giải mã hệ gen sẽ lấy dữ liệu
gen cần xét – để đưa vào đối chứng với hệ gen tham chiều và qua các công cụ Tin Sinh học, các đa hình trên hệ gen được tìm thấy và phân tích. Như vậy hẹ gen tham
chiếu có ý nghĩa quan trọng trong việc đánh giá và xác định tính trạng loài, làm tiền đề
cho việc lựa chọn tính trạng tốt trong thực tiễn.
1.3.4 Định dạng dữ liệu trong bài toán Tin – Sinh học
Dữ liệu về các chuỗi DNA được giải mã bởi các trung tâm công nghệ sinh học
khác nhau trên thế giới. Và một trong những khó khăn đầu tiên của các nhà quản lý
thông tin gặp phải là dữ liệu từ các trung tâm khác nhau có thể được lưu trữ dưới các
định dạng khác nhau. Để giải quyết bài toán liên quan đến sự khác biệt về định dạng
dữ liệu, chúng ta cần định ra xác định dạng dữ liệu chuẩn nhằm mục đích lưu trữ và
chia sẻ dữ liệu trong bài toán Tin – Sinh học.
Fasta và Fastq là những định dạng dữ liệu chuẩn, đơn giản và quan trọng nhằm
lưu trữ thông tin về các chuỗi DNA. SAM là định dạng dữ liệu đầu ra sau khi xử lý bài
toán gióng hàng trình tự sẽ được trình bày trong chương sau. Do đó, những tiểu mục

sau đây sẽ giới thiệu chi tiết về các định dạng dữ liệu cơ bản này.

16

a. Định dạng FASTA
Định dạng FASTA là định dạng phổ biến nhất được dùng để lưu trữ thông tin
về một chuỗi ADN hoặc protein. Định dạng dữ liệu FASTA lưu trữ thông tin hệ
gen tham chiếu (giới thiệu hệ gen tham chiếu: 1.3.3), bao gồm 2 phần: phần tiêu
đề và phần nội dung
-

Phần tiêu đề: bao gồm 1 dòng bắt đầu với kí từ “>” và kết thúc bởi một kí tự
xuống dòng. Phần này sẽ lưu trữ toàn bộ thông tin mô tả về đoạn trình tự ADN
(protein) như tên chuỗi, độ dài chuỗi, ngày tháng tiến hành giải mã, loại dữ liệu
(nếu có)

-

Phần nội dung: Chứa trình tự có thể là nucleotide hoặc axit amin. Các trình tự này
có thể ở trên một dòng hoặc có thể được chia thành nhiều dòng.

Hình 1.3 Định dạng dữ liệu FASTA

b. Định dạng FASTQ
Định dạng FASTQ là định dạng được sử dụng để lưu trữ dữ liệu được tạo ra từ
các máy giải trình tự thế hệ mới (FastQ = FastA + Quality). Do đó, FASTQ chỉ chứa

17

trình tự nucleotit mà không dùng để lưu trữ các trình tự axit amin. So với định dạng
FASTA thì định dạng FASTQ gồm có 4 dòng như sau:
- Dòng 1 bắt đầu với kí tự “@” và theo sau là chuỗi các thông tin về dãy DNA này

(giống với FASTA)
- Dòng 2 là trình tự nucleotit của chuỗi (giống với FASTA)
- Dòng 3 bắt đầu với kí tự “+” và có thể bao gồm thêm thông tin để định danh

chuỗi, chức năng của dòng này là để phân biệt giữa dòng trình tự và dòng điểm
chất lượng.
- Dòng 4 là điểm chất lượng khi giải mã các nucletit bởi các thiết bị đọc trình tự.

Chất lượng của trình tự được mã hóa dưới dạng mã ASCII.

Hình 1.4 Định dạng FASTQ

c. Định dạng SAM
Định dạng SAM (Sequence Aligment Map) là chuẩn lưu trữ dữ liệu trình tự
được lắp ráp hoặc ánh xạ tới hệ gen tham chiếu được cộng đồng Tin - Sinh học trên
thế giới thừa nhận và sử dụng phổ biến trong tất cả các phần mềm.
Định dạng SAM là định dạng dữ liệu có thể đọc được, chính là file dữ liệu đầu
ra sau khi chạy các công cụ gióng hàng trình tự.

18

Định dạng SAM bao gồm các thẻ được định danh. Tiêu đề được bắt đầu với
ký hiệu @ và có các thành phần khác theo thứ tự sau:

19

1
2
3
4
5
6
7
8
9
10
11
12

Tên truy vấn / khuôn mẫu / cặp
Cờ (FLAG) (Cờ đảo bit)
Tên tham chiếu
Vị trí (tại 1 vị trí cuối cùng bên trái)
Chất lượng ánh xạ (Trong quy mô Phred )
CIGAR(Dạng chuỗi )
Tên tham chiếu ghép nối ( = nếu tương tự như tên tham chiếu )
Vị trí ghép nối ( tại 1 vị trí )
Kích thước đoạn chèn
Trình tự truy vấn
Chất lượng truy vấn
Trường biến tùy chọn
Bảng 3.1 Các thẻ định danh trong định dạng SAM

Bảng 3.2 Ví dụ về định dạng SAM

20

CHUỖI
MÔ TẢ
M
Trùng khớp vị trí căn chỉnh (trùng khớp trình tự hoặc không trùng
I
D
N
S
H
P
=

khớp)
Chèn vào tham chiếu
Xóa từ tham chiếu
Bỏ qua vùng của tham chiếu
Trích đoạn mềm (trích đoạn trình tự có mặt trong trình tự)
Trích đoạn cứng (trích đoạn trình tự không có mặt trong trình tự )
Đệm (xóa từ bảng tham chiếu đã được thêm)
Trình tự trùng khớp

X

Trình tự không trùng khớp
Bảng 3.3 Mô tả chuỗi CIGAR

21

CHƯƠNG 2 : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN
BURROWS WHEELER TRANSFORM
Trong quy trình giải mã hệ gen, bước xác định biến dị/ đa hình là một bước quan
trọng và góp phần lớn trong việc đưa ra cảnh báo, phòng ngừa và điều trị sớm, phát
triển các phương pháp điều trị và chữa bệnh hướng đến từng cá thể của loài. Trong
chương hai, tác giả giới thiệu về bài toán gióng hàng trình tự - một bài toán quan
trọng nhằm xác định biến dị/ đa hình trong quá trình giải mã hệ gen. Tiếp theo của
chương 2 sẽ giới thiệu một số thuật toán cơ bản giải quyết bài toán gióng hàng trình
tự. Nội dung trọng tâm của chương hai là giới thiệu thuật toán Burrows – Wheeler
Tranform (BWT) nhằm giải quyết hiệu quả bài toán gióng hàng trình tự một cách
nhanh chóng, chính xác và hiệu quả.
2.1 Quy trình giải mã hệ gen và bài toán gióng hàng trình tự
2.1.1 Giải mã hệ gen và quy trình
Hệ gen được cấu tạo từ các phân tử ADN là một phân tử acidnucleic mang
thông tin di truyền mã hóa cho hoạt động sinh trưởng và phát triển của sinh vật. Hệ
gen bao gồm 4 loại nucleotide: A (Adenine), T (Thymine), G (Guanine) và C
(Cytosine). Máy giải trình tự thế hệ mới (Next-generation sequencing) có thể giải
trình tự được toàn bộ hệ gen. Máy giải trình tự không chỉ tạo ra duy nhất một chuỗi
trình tự toàn bộ hệ gen, mà tạo ra hàng triệu đoạn trình tự nhỏ được cắt ra từ hệ gen,
gọi là các trình tự đoạn ngắn (read). Các read được gióng hàng với một trình tự tham
chiếu để tìm kiếm các khác biệt. Trong phần này, luận văn sẽ nêu tầm quan trọng của
gióng hàng trong quy trình để phát hiện các biến dị/đa hình.

22

a. Quy trình
Các biến dị di truyền bao gồm đa hình đơn nucleotide viết tắt là SNP (single
nucleotide polymorphisms) là một biến thể của nucleotide xảy ra ở một vị trí nhất
định trong hệ gen và đa hình thêm hoặc mất nucleotide được gọi là InDel(Insertion/
Deletion). Những loại đa hình này ít nhiều có thể dẫn đến thay đổi các tính trạng của
sinh vật.
Quy trình thực hiện việc tìm kiếm các biến dị di truyền (SNP và InDel)
bao gồm 4 bước chính (Hình):
Bước 1: Tách chiết hệ gen của sinh vật.
Bước 2: Hệ gen của sinh vật được giải trình tự (theo một số phương pháp như:
Pyrosequencing, giải trình tự bằng gắn nối, hoặc giải trình tự bằng tổng hợp). Các
đoạn trình tự ngắn cần đước đánh giá chất lượng trước khi gióng hàng. Các đoạn trình
tự có chất lượng thấp cần loại bỏ.
Bước 3: Gióng hàng trình tự các đoạn ngắn (read) được tạo ra từ máy giải trình
tự thế hệ mới với một trình tự tham chiếu được chọn trên cơ sở dữ liệu bằng phần
mềm ứng dụng thuật toán Burrows – Wheeler transform. Chất lượng gióng hàng của
phần mềm cần được đánh giá bởi phần trăm các đoạn trình tự ngắn gióng hàng với
trình tự tham chiếu.
Bước 4: File dữ liệu đầu ra của phần mềm gióng hàng được sử dụng cho việc
tìm kiếm các biến dị di truyền bằng một số phần mềm SAMtools và VarScan.

23

Hình 2.1 Quy trình xác định các biến dị di truyền.
Thuật toán BWT được ứng dụng trong bài toán gióng hàng trình tự là một
bước để xác định biến dị (đa hình) trên hệ gen.

2.1.2 Nội dung bài toán gióng hàng trình tự (Sequence Alignment)
Bài toán gióng hàng trình tự, hay là còn gọi là bài toán sắp xếp thẳng hàng trình

tự (Sequence Alignment) là quá trình nghiên cứu sự giống nhau giữa các chuỗi trình tự
(sequence), là cách thức so sánh giữa 2 hay nhiều trình tự dựa trên việc so sánh một
chuỗi các thành phần (ký tự) của trình tự để tìm ra những điểm tương đồng, giống nhau
giữa các trình tự.
Sequence 1



G A A T T C A G T T A
|

Sequence 2



|

|

G G A T -

24

|

|

C -

G -

|
-

A

Hình 2.2 Ví dụ bài toán gióng hàng 2 trình tự Sequence 1 – Sequence 2

25

ỨNG DỤNG THUẬT TOÁN BURROWSWHEELER TRANSFORM TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về