Tải bản đầy đủ (.pdf) (14 trang)

Ứng dụng thuật toán burrows – wheeler transform trong quá trình giải mã hệ gen lúa tại việt nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (407.91 KB, 14 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------

Vũ Thị Diệu

ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM
TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – Năm 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
---------------------

Vũ Thị Diệu

ỨNG DỤNG THUẬT TOÁN BURROWS-WHEELER TRANSFORM
TRONG QUÁ TRÌNH GIẢI MÃ HỆ GEN LÚA TẠI VIỆT NAM

Chuyên ngành: Cơ sở toán cho tin học
Mã số:60480104

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN CƯỜNG

Hà Nội – Năm 2015




LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu nêu
trong luận văn là trung thực. Những kết luận khoa học của luận văn chưa từng được ai
công bố trong bất kỳ công trình nào khác.
Tôi xin chịu trách nhiệm về nghiên cứu của mình.

TÁC GIẢ LUẬN VĂN

Vũ Thị Diệu


LỜI CẢM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc tới TS. Nguyễn Cường, người đã tận tình giúp
đỡ và hướng dẫn tôi hoàn thành luận văn này.Thầy đã định hướng giúp tôi phương
pháp nghiên cứu vàgiúp tôi từng bước tiếp cận với lĩnh vực Tin – Sinh học bổ ích và vô
cùng mới mẻ.Cho tôi thêm đam mê và động lực để hoàn thành luận văn một cách tốt
nhất.
Tôi xin gửi lời cám ơn tới tập thể các bạn, các anh chị làm việc tại phòng Tin
Sinh, thuộc Viện Công nghệ sinh học, Viện Hàn lâm KH&CN Việt Nam. Cám ơn các
bạn, các anh chị đã nhiệt tình giúp đỡ em trong thời gian qua, giúp em tiếp cận một
cách gần nhất với môi trường thực tế của ngành Tin – Sinh để em có thể đưa ra những
kết quả nghiên cứu một cách trực quan và đầy đủ trong luận văn của mình.
Tôi cũng xin được gửi lời cảm ơn chân thành tới các thầy cô giáo trong và ngoài
trường Đại học Khoa học tự nhiên, bạn bè, đồng nghiệp và gia đình đã giúp đỡ, động
viên tôi trong quá trình nghiên cứu, hoàn thành luận văn này.
Luận văn chắc chắn không tránh khỏi những thiếu sót. Rất mong được sự góp ý

của các Thầy, Cô và các đồng nghiệp đồng thời cũng rất mong được các nhà nghiên
cứu tiếp tục hiệu chỉnh, bổ sung.Tôi xin chân thành cảm ơn!
TÁC GIẢ LUẬN VĂN

Vũ Thị Diệu


MỤC LỤC
DANH MỤC CÁC HÌNH VẼ........................................................................................ 7
DANH MỤC CÁC BẢNG BIỂU .................................................................................. 9
MỞ ĐẦU ......................................................................................................................... 1
CHƢƠNG 1: CƠ SỞ LÝ THUYẾT ............................... Error! Bookmark not defined.
1.1 Đặt vấn đề ................................................................. Error! Bookmark not defined.
1.1.1

Tin – Sinh học ................................................... Error! Bookmark not defined.

1.1.2

Khai phá dữ liệu trong Tin – Sinh học .............. Error! Bookmark not defined.

1.1.3

Hướng phát triển của ngành Tin – Sinh học tại Việt NamError!

Bookmark

not defined.
1.2 Mục tiêu của luận văn ............................................. Error! Bookmark not defined.
1.3 Các khái niệm cơ bản trong sinh học phân tử ...... Error! Bookmark not defined.

1.3.1

DNA .................................................................. Error! Bookmark not defined.

1.3.2

Gen .................................................................... Error! Bookmark not defined.

1.3.3

Hệ gen tham chiếu............................................. Error! Bookmark not defined.

1.3.4

Định dạng dữ liệu trong bài toán Tin – Sinh họcError!

Bookmark

not

defined.
CHƢƠNG 2 : CƠ SỞ LÝ THUYẾT VÀ THUẬT TOÁN .......... Error! Bookmark not
defined.
BURROWS WHEELER TRANSFORM...................... Error! Bookmark not defined.
2.1 Quy trình giải mã hệ gen và bài toán gióng hàng trình tựError! Bookmark not
defined.


2.1.1


Giải mã hệ gen và quy trình .............................. Error! Bookmark not defined.

2.1.2

Nội dung bài toán gióng hàng trình tự (Sequence Alignment) ................. Error!

Bookmark not defined.
2.1.3

Ý nghĩa sinh học của bài toán gióng hàng trình tựError!

Bookmark

not

defined.
2.1.4

Phân loại bài toán gióng hàng trình tự .............. Error! Bookmark not defined.

2.2 Một số thuật toán cơ bản cho bài toán gióng hàng trình tựError!

Bookmark

not defined.
2.2.1

Thuật toán ma trận điểm ................................... Error! Bookmark not defined.

2.2.2


Thuật toán quy hoạch động Smith-Waterman .. Error! Bookmark not defined.

2.3 Thuật toán Burrows – Wheeler Tranform (BWT )Error!

Bookmark

not

defined.
2.3.1

Chuyển đổi Burrows-Wheeler thuâ ̣n ................ Error! Bookmark not defined.

2.3.2

Chuyển đổi Burrows-Wheeler nghich
̣ .............. Error! Bookmark not defined.

2.3.3

Tìm kiếm chính xác (Exact matching) .............. Error! Bookmark not defined.

2.3.4

Tìm kiếm có sai khác không nhiều hơn z vị trí (Inexact matching) ......... Error!

Bookmark not defined.
2.4 Kết luận .................................................................... Error! Bookmark not defined.
CHƢƠNG 3 : ỨNG DỤNG THUẬT TOÁN BWT VÀ THỬ NGHIỆM TRÊN DỮ

LIỆU SINH HỌC ............................................................. Error! Bookmark not defined.
3.1 Quy trình thực nghiệm ............................................ Error! Bookmark not defined.
3.2 Cài đặt ứng dụng ..................................................... Error! Bookmark not defined.
3.3 Chuẩn bị dữ liệu ...................................................... Error! Bookmark not defined.


3.4 Kết quả và đánh giá ................................................. Error! Bookmark not defined.
3.5 Đánh giá kết quả của luận văn ............................... Error! Bookmark not defined.
KẾT LUẬN ....................................................................... Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ............................................................................................. 3

DANH MỤC CÁC HÌNH VẼ
Hình 1.1

Mô hình cấu trúc phân tử DNA .................. Error! Bookmark not defined.

Hình 1.2

Mô hình cấu trúc gen .................................. Error! Bookmark not defined.

Hình 1.3

Định dạng dữ liệu FASTA .......................... Error! Bookmark not defined.

Hình 1.4

Định dạng FASTQ ...................................... Error! Bookmark not defined.

Hình 2.1


Quy trình xác định các biến dị di truyền. ... Error! Bookmark not defined.

Hình 2.2

Ví dụ bài toán gióng hàng 2 trình tự Sequence 1 – Sequence 2 ......... Error!

Bookmark not defined.
Hình 2.3

Các đột biến xác định khi gióng hàng 2 trình tự u – vError!

Bookmark

not defined.
Hình 2.4

Ví dụ bài toán Short Read Alignment ......... Error! Bookmark not defined.

Hình 2.5

Ma trận chứa tất cả các phép quay đầu vào của xâu ATGTAC......... Error!

Bookmark not defined.
Hình 2.6

Chuỗi BWT Thu được bằng cách sắp xếp ma trận L * L theo thứ tự từ điển
… ................................................................ Error! Bookmark not defined.


Hình 2.7


Minh họa việc giải mã BWT xâu „CT$ATGA‟Error!

Bookmark

not

defined.
Hình 2.8

Mô tả quá trình tạo chuỗi BWT .................. Error! Bookmark not defined.

Hình 2.9

Vị trí xuất hiện của kí tự “a” trong chuỗi X =”agcagcagact ............ Error!

Bookmark not defined.
Hình 2.10 Giá trị SA = [9,10] của chuỗi W=“gca” ... Error! Bookmark not defined.
Hình 2.11 Công thức tính khoảng cách SA ................. Error! Bookmark not defined.
Hình 2.12 Kết quả của quá trình tìm kiếm W=”gca” . Error! Bookmark not defined.
Hình 3.1

Mô phỏng nhiệm vụ thực nghiệm trong chương 3Error! Bookmark not

defined.
Hình 3.2

Ví dụ mô phỏng mục tiêu của ứng dụng ..... Error! Bookmark not defined.

Hình 3.3


Biểu đổ đánh giá chất lượng base giải trình tự (A. file fastq 1, B. file fastq

2)

…. ............................................................... Error! Bookmark not defined.

Hình 3.4

Biểu đồ số lượng SNP trên từng nhiễm sắc thể với hai phần mềm gióng

hàng trình tự BWA và BWTAligner ................................ Error! Bookmark not defined.



DANH MỤC CÁC BẢNG BIỂU
Bảng 3.1

Các thẻ định danh trong định dạng SAM .... Error! Bookmark not defined.

Bảng 3.2

Ví dụ về định dạng SAM .............................. Error! Bookmark not defined.

Bảng 3.3

Mô tả chuỗi CIGAR ..................................... Error! Bookmark not defined.

Bảng 3.1


Thông tin về máy chủ được sử dụng để cài đặt thử nghiệm ............... Error!

Bookmark not defined.
Bảng 3.2

Thông tin chi tiết về dữ liệu mô phỏng thu được. ...... Error! Bookmark not

defined.
Bảng 3.3

Kết quả tìm kiếm SNP với BWA và BWTAligner với các độ sâu trình tự

khác nhau. ...................................................................... Error! Bookmark not defined.
Bảng 3.4

Thống kê : TP - dương tính thật, FP – dương tính giả, FN – âm tính giả
Error! Bookmark not defined.

Bảng 3.5

So sánh độ đúng giữa BWA và BWTAligner gọi SNP Error! Bookmark not

defined.
Bảng 3.6
not defined.

Bảng thống kê số lượng trên từng SNP với 2 phần mềm . Error! Bookmark


MỞ ĐẦU


Tin - Sinh học (Bioinformatics) là một lĩnh vực khoa học sử dụng các công nghệ
của các ngành toán học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân
tạo, hóa học và hóa sinh để giải quyết các vấn đề sinh học. Sựra đời của Tin - Sinh
họclà sự hợp tác chặt chẽ giữa các nhà Tin học và các nhà nghiên cứu Sinh học nhằm
khai phá dữ liệu hiệu quả, Tin – Sinh họcđã trở thành mục tiêu công nghệ của ngành
Sinh học trong thế kỉ mới. Bắt kịp xu thế phát triển của khoa học thế giới, những năm
gần đây các nhà Tin - Sinh học Việt Nam đã xác định được những hướng đi phù hợp và
đạt được thành công bước đầu với một số công trình nghiên cứu mang tính ứng dụng
cao.
Trong sinh học, việc giải mã trình tự gen rất quan trọng, nó góp phần trong
việc nghiên cứu sinh học cơ bản và trong nhiều lĩnh vực ứng dụng như chẩn đoán
bệnh tật, công nghệ sinh học, sinh học pháp y, sinh học hệ thống...Do đặc tính khí
hậu nhiệt đới, Việt Nam có những lợi thế về những nguồn dữ liệu Sinh học to lớn, hữu
ích, điều đó trở thành một điều kiện thuận lợi và cũng là thách thức cần đến sự đóng
góp của Tin - Sinh học.
Nhận thấy tính mới mẻ trong lĩnh vực nghiên cứu Tin – Sinh học nói chung
cũng như những ưu điểm phát triển của nghành Tin -Sinh học nước nhà, học viên
đã lựa chọn đề tài “ứng dụng thuật toán Burrow – Wheeler Tranform trong quá
trình giải mã hệ gen lúa”. Luận văn bao gồm ba chương chính, nội dung tóm lược
như sau:
Chương 1 trình bày tổng quan và các khái niệm cơ bản trong sinh học phân tử,
các định dạng dữ liệu trong bài toán Tin – Sinh học. Mục tiêu chính của chương này
nhằm làm rõ các khái niệm giới thiệu vấn đề và nội dung sẽ trình bày trong chương
tiếp theo của luận văn.
1


Chương 2 trình bày quá trình giải mã hệ gen, bài toán gióng hàng trình tự trong
việc giải mã hệ gen. Chương 2 sẽ nêu một số thuật toán cơ bản giải bài toán gióng hàng

trình tự. Trọng tâm của chương 2 giới thiệu ý tưởng và quá trình xây dựng thuật toán
Burrows–Wheeler Transform trong quá trình giải mã hệ gen.
Chương 3 Trình bày về quá trình thực nghiệm và ứng dụng thuật toán trên dữ liệu
sinh học. Tác giả tham gia cùng nhóm nghiên cứu thuộc phòng Tin – Sinh học, viện
Công nghệ Sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam xây dựng công
cụ dóng hàng trình tự BWTAligner dựa trên thuật toán BWT đã tìm hiểu. Đối chứng
kết quả khi dóng hàng trình tự trên công cụ dóng hàng phổ biến BWA. Trong chương
này thực hiện từng bước chuẩn bị dữ liệu, cài đặt môi trường, sử dụng công cụ, đưa ra
kết quả thực nghiệm và đánh giá kết quả của luận văn.

2


TÀI LIỆU THAM KHẢO

Tiếng Việt

1. Nguyễn Văn Cách (2006), Giáo trình tin sinh học, NXB Khoa học kỹ thuật,
Hà Nội..
Tiếng Anh

2. Burrows,M. and Wheeler,D.J. (1994),“A block-sorting lossless data
compression algorithm”,Technical report, 124.
3. Campagna,D.

et

al.

(2009),“PASS:


a

program

to

align

short

sequences”,Bioinformatics, 25, pp. 967–968.
4. Li,H. et al (2008),“Mapping short DNA sequencing reads and calling
variants using mapping quality scores”,Genome Res, 18, 1851–1858.
5. Li, H. et al (2009), “The sequence alignment/map format and
SAMtools”,Bioinformatics, 25(16), PP. 2078-2079.
6. Li Heng and Richard Durbin (2009), “Fast and Accurate Short Read
Alignment with Burrows-Wheeler Transform”, Bioinformatics, 25, pp.
1754–1760.
7. Li, H., et al. (2009), "The sequence alignment/map format and SAMtools."
Bioinformatics, 25(16), PP. 2078-2079.
8. Alkan, C., et al. (2011), "Genome structural variation discovery and
genotyping",Nature Reviews Genetics, 12(5), pp. 363-376.
9. Chen, K., et al. (2009), "BreakDancer: an algorithm for high-resolution
mapping of genomic structural variation", Nat Meth, 6(9), pp. 677-681.

3


10. Feuk. L., et al. (2010), "Inversion variants in the human genome: role in

disease and genome architecture.",Genome Med, 2(11), pp. 250-276.

4



×