Tải bản đầy đủ (.pdf) (87 trang)

Phân tích hệ phiên mã và sàng lọc một số gen giả định liên quan tới tình trạng tăng trưởng ở tôm sú (PENAEUS MONODON)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.36 MB, 87 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
--------o0o--------

Nguyễn Hải Bằng

PHÂN TÍCH HỆ PHIÊN MÃ VÀ SÀNG LỌC MỘT SỐ GEN
GIẢ ĐỊNH LIÊN QUAN TỚI TÍNH TRẠNG TĂNG TRƢỞNG Ở
TÔM SÚ (PENAEUS MONODON)

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội – 2017


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
KHOA SINH HỌC

Nguyễn Hải Bằng

PHÂN TÍCH HỆ PHIÊN MÃ VÀ SÀNG LỌC MỘT SỐ GEN
GIẢ ĐỊNH LIÊN QUAN TỚI TÍNH TRẠNG TĂNG TRƢỞNG Ở
TÔM SÚ (PENAEUS MONODON)

Chuyên ngành : Di truyền học
Mã số : 60420121

LUẬN VĂN THẠC SĨ KHOA HỌC

NGƢỜI HƢỚNG DẪN KHOA HỌC


PGS. TS. ĐINH DUY KHÁNG
PGS. TS. NGUYỄN THỊ HỒNG VÂN

Hà Nội – 2017


LỜI CẢM ƠN
Lời đầu tiên, tôi xin được bày tỏ lòng biết ơn sâu sắc và chân thành tới PGS. TS. Đinh
Duy Kháng, Viện Công nghệ sinh học, người đã truyền thụ cho tôi niềm đam mê khoa học và
trực tiếp dìu dắt, hướng dẫn tôi trong quá trình nghiên cứu và hoàn thành luận văn tốt
nghiệp.
Tôi xin trân trọng cảm ơn PGS. TS. Nguyễn Thị Hồng Vân, chủ nhiệm bộ môn Di
Truyền học-Trường Đại học Khoa học tự nhiên Hà Nội, người thầy đã tạo dựng trong tôi
những ý tưởng khoa học và hết lòng giúp đỡ tôi trong quá trình học tập và nghiên cứu.
Trong thời gian học tập và nghiên cứu vừa qua, tôi đã nhận được sự giúp đỡ, động
viên và tạo điều kiện thuận lợi của PGS. TS. Đồng Văn Quyền, Phó Viện Trưởng Viện Công
nghệ sinh học; TS. Nguyễn Cường, Trưởng phòng Tin sinh học Viện Công nghệ sinh học và
các anh chị em Phòng Vi sinh phân tử, phòng Tin sinh học Viện Công nghệ sinh học. Nhân
dịp này tôi xin chân thành cảm ơn những sự giúp đỡ quý báu đó.
Tôi xin bày tỏ lòng biết ơn tới các thầy, cô giáo và anh chị em đồng nghiệp thuộc Bộ
môn Y Sinh học Di truyền, Trường Đại học Y Dược Hải Phòng, đã nhiệt tình hỗ trợ, tạo điều
kiện cho tôi trong quá trình học tập và nghiên cứu.
Luận văn được thực hiện trong khuôn khổ Nhiệm vụ “Lập bản đồ gen tôm sú (Penaeus
monodon)”thuộc nhiệm vụ quỹ gen cấp Nhà Nước với sự tài trợ kinh phí của Bộ Khoa học và
Công nghệ giai đoạn 2012-2016 do PGS. TS. Đinh Duy Kháng làm chủ nhiệm.

Cuối cùng, tôi xin gửi lời cảm ơn đến gia đình, bạn bè, học trò, những người đã
chia sẻ, động viên và tạo điều kiện để tôi học tập, nghiên cứu và hoàn thành luận văn
này.
Hà Nội, ngày 6 tháng 3 năm 2017

Học viên

Nguyễn Hải Bằng


MỤC LỤC
MỞ ĐẦU .................................................................................................................... 1
CHƢƠNG 1. TỔNG QUAN .................................................................................... 3
1.1. Giới thiệu về tôm sú ........................................................................................... 3
1.2. Tình hình nghiên cứu hệ gen và hệ phiên mã của tôm sú trên thế giới ........ 5
1.2.1. Công trình nghiên cứu đầu tiên liên quan tới hệ phiên mã của tôm .......... 6
1.2.2. Xác định các gen liên quan tới hệ miễn dịch của tôm thông qua việc phân
tích hệ phiên mã ................................................................................................... 6
1.2.3. Xác định các gen có liên quan tới khả năng sinh sản của tôm .................. 7
1.2.4. Xác định các gen có liên quan tới giới tính của tôm sú.................................... 7
1.2.5. Nghiên cứu giải trình tự hệ gen và hệ phiên mã tôm sú ở Thái Lan ......... 8
1.2.6. Nghiên cứu lập bản đồ gen tôm sú ở Đài Loan ......................................... 9
1.2.7. Nghiên cứu giải mã hệ gen và hệ phiên mã tôm sú ở Việt Nam ............... 9
1.3. Công nghệ đọc trình tự thế hệ mới ................................................................ 11
1.3.1. Hệ phiên mã ............................................................................................. 11
1.3.2. Công nghệ đọc trình tự thế hệ mới Illumina............................................ 11
1.3.3. Đọc trình tự hệ phiên mã RNA-seq ......................................................... 13
1.4. Các phƣơng pháp phân tích hệ phiên mã sử dụng các công cụ tin sinh .... 13
1.4.1. Tiền xử lý dữ liệu..................................................................................... 13
1.4.2. Lắp ráp de novo hệ phiên mã ................................................................... 16
1.4.3. Chú giải hệ phiên mã bằng công cụ BLASTX ........................................ 19
1.5. Tính trạng tăng trƣởng và một số gen ứng viên liên quan tới tính trạng tăng
trƣởng ở động vật giáp xác .................................................................................... 20
1.5.1. Tính trạng tăng trưởng ............................................................................. 20
1.5.2. Các nhóm gen liên quan đến tính trạng tăng trưởng đã được công bố trong

nhóm giáp xác ..................................................................................................... 21
1.5.3. Các nhóm gen ứng viên trong quá trình lột xác....................................... 27
1.5.4. Các gen phân giải và phát triển hệ cơ trong quá trình lột xác ................. 30
CHƢƠNG 2: VẬT LIỆU VÀ PHƢƠNG PHÁP NGHIÊN CỨU ...................... 33
2.1. Vật liệu .............................................................................................................. 33
2.1.1. Dữ liệu giải trình tự ................................................................................. 33


2.1.2. Hệ máy chủ tính toán hiệu năng cao ........................................................ 34
2.2. Sơ đồ quy trình nghiên cứu ............................................................................ 35
2.3. Phƣơng pháp tiền xử lý dữ liệu ...................................................................... 36
2.4. Phƣơng pháp lắp ráp de novo hệ phiên mã ................................................... 36
2.5. Phƣơng pháp đánh giá chất lƣợng lắp ráp hệ phiên mã ............................. 37
2.6. Phƣơng pháp chú giải unigene trong hệ phiên mã ....................................... 38
2.7. Phƣơng pháp phân tích biểu hiện hệ phiên mã ............................................ 39
CHƢƠNG 3: KẾT QUẢ VÀ THẢO LUẬN ........................................................ 40
3.1. Kết quả đánh giá và tiền xử lý dữ liệu trình tự đọc thô ............................... 40
3.2. Kết quả lắp ráp hệ phiên mã từ mô cơ và mô gan tụy tôm sú Penaeus
monodon ................................................................................................................... 44
3.3. Chú giải chức năng hệ phiên mã từ mô cơ và mô gan tụy tôm sú Penaeus
monodon ................................................................................................................... 46
3.4. Phân loại Gene Ontology ................................................................................ 52
3.5. Phân loại con đƣờng trao đổi chất KEEG .................................................... 53
3.6. Sàng lọc các unigene thuộc các nhóm gen/gen giả định liên quan đến tính
trạng tăng trƣởng từ hệ phiên mã từ mô cơ và mô gan tụy tôm sú Penaeus
monodon ................................................................................................................... 54
3.7. Phân tích biểu hiện hệ phiên mã từ mô cơ và mô gan tụy tôm sú Penaeus
monodon ................................................................................................................... 58
KẾT LUẬN ............................................................................................................. 65
KIẾN NGHỊ ............................................................................................................ 66

TÀI LIỆU THAM KHẢO...................................................................................... 67


DANH MỤC CÁC CHỮ VIẾT TẮT

3’UTR
cDNA

: Complement deoxyribonucleic acid

Contig

: Contiguous nucleotide sequence

DNA

: deoxy ribonucleic acid

EC

: Enzyme commission

IHHNV

: 3’ untranslated region (trình tự không dịch mã đầu 3’)

: infectious hypodermal and hematopoietic necrosis virus (virus
gây gệnh hoại tử cơ quan tạo máu và cơ quan tạo biểu mô)

MBV


: monodon baculovirus (virus gây bệnh còi)

Nr-NCBI

: non redundant protein database-National Center for
Biotechnology Information

PCR

: Polymerase Chain Reaction (phản ứng khuếch đại gen)

RNA

: ribonucleic acid

RNA-seq

: RNA sequencing

TSV

: Taura syndrome virus (virus gây hội chứng Taura)

WSSV

: White spot syndrome virus (virus gây hội chứng đốm trắng)

YHV


: Yellow head virus (virus gây bệnh đầu vàng)


DANH MỤC BẢNG
Bảng 2.1. Thông tin về máy chủ tính toán hiệu năng cao ................................................... 34
Bảng 3.1. Thống kê số lượng, độ dài trình tự đọc theo từng mô ......................................... 43
Bảng 3.2.Thống kê kết quả lắp ráp hệ phiên mã tinh sạch từ
mô cơ và mô gan tụy tôm sú Penaeus monodon ................................................................. 45
Bảng 3.3.Thống kê kết quả chú giải hệ phiên mã tôm sú
trên các cơ sở dữ liệu ............................................................................................................ 51
Bảng 3.4. Liệt kê 51 unigene liên quan đến tính trạng tăng trưởng .................................... 56
Bảng 3.5. Điểm số biểu hiện FPKM của 51 unigene liên quan tới
tính trạng tăng trưởng .......................................................................................................... 60


DANH MỤC HÌNH
Hình 1.1. Tôm sú thu được từ vùng biển Nghệ An, Việt Nam. ................................. 3
Hình 1.2. Minh họa về cách hoạt động của cửa sổ trượt. ......................................... 16
Hình 1.3. Quá trình lắp ráp hệ phiên mã de novo bằng Trinity. ............................... 18
Hình 2.1. Định dạng FASTQ .................................................................................... 34
Hình 2.2. Cách tính N50 ........................................................................................... 38
Hình 3.1. Kết quả đánh giá chất lượng dữ liệu trình tự đọc thô và
dữ liệu trình tự đọc tinh sạch ở mô cơ ..................................................... 40
Hình 3.2. Kết quả đánh giá chất lượng dữ liệu trình tự đọc thô và
dữ liệu trình tự đọc tinh sạch ở môgan tụy .............................................. 42
Hình 3.3. Phân bố độ dài toàn bộ unigene trên hệ phiên mã tinh sạch .................... 46
Hình 3.4. Phân bố độ dài trên toàn bộ unigene có kết quả BLASTX (A) và phân
bố độ dài trên toàn bộ unigene không có kết quả BLASTX (B) .............................. 47
Hình 3.5. Thống kê kết quả chú giải trên cơ sở dữ liệu Nr-NCBI ........................... 50
Hình 3.6. Sơ đồ Venn thể hiện kết quả chú giải trên 4 cơ sở dữ liệu ....................... 52

Hình 3.7. Thống kê thông tin chú giải chức năng trên ngân hàng Gene Ontology .. 53
Hình 3.8. Thống kê 10 con đường chuyển hóa có số lượng unigene
tham gia nhiều nhất ................................................................................. 54
Hình 3.9. Số lượng unigene biểu hiện đặc trưng ở mô cơ và mô gan tụy
trong tập 17.406 unigene .......................................................................... 58
Hình 3.10. Biểu đồ nhiệt (heatmap) minh họa điểm biểu hiện của 16.184
unigene DEG trên mô cơ và mô gan tụy ................................................. 59


MỞ ĐẦU
Tôm sú (Penaeus monodon) là loài thủy sản mang lại giá trị kinh tế lớn, hiện
nay đang được nhiều nước chú trọng phát triển nhưThái Lan, Việt Nam, Hàn Quốc,
Đài Loan, Malaysia, Indonesia, Ấn Độ…[63]. Nghề nuôi tôm sú có ưu thế lớn với
các nước này vì đó là nguồn tài nguyên bản địa có thể nuôi và khai thác lâu dài,
đóng góp quan trọng vào vấn đề an toàn lương thực, xóa đói giảm nghèo và phát
triển kinh tế xã hội của mỗi nước. Chiến lược phát triển lâu dài của toàn khu vực là
có được ngành sản xuất tôm sú bền vững, hạn chế tối thiểu các tác động tiêu cực
đến môi trường sinh thái. Nền tảng cho chiến lược phát triển này là phát triển nguồn
tôm bản địa với các chương trình nhân giống khoa học để nâng cao tỷ lệ sống và sự
tăng trưởng. Để đạt được mục đích này, việc nghiên cứu cấu trúc và chức năng của
toàn bộ hệ gen tôm sú là một vấn đề khoa học cơ bản có định hướng ứng dụng hết
sức quan trọng.
Nghiên cứu hệ gen tôm sú sẽ cung cấp thông tin chính xác cho việc xác định
các tính trạng quan trọng như: tính trạng tăng trưởng, tính kháng bệnh, tính chống
chịu với điều kiện môi trường, các tính trạng liên quan đến chất lượng tôm. Do kích
thước hệ gen tôm sú rất lớn, khoảng 2,17 Gb [76] nên việc giải mã toàn bộ hệ gen
tôm sú đòi hỏi thời gian và tốn nhiều kinh phí. Vì vậy, để có thể từng bước khai
thác các thông tin cần thiết từ hệ gen tôm sú phục vụ thực tiễn sản xuất thì việc giải
mã từng phần hệ gen như giải mã hệ phiên mã, giải mã từng phân đoạn trong hệ gen
có định hướng sử dụng kỹ thuật GBS (Genome typing by Sequencing) với phương

pháp xác định trình tự gen thế hệ mới NGS (Next generation sequencing) là cách
tiếp cận thông minh và khả thi.
Hệ phiên mã là tập hợp tất cả các phân tử RNA trong cơ thể sinh vật có khả
năng mã hóa protein [18], là cầu nối từ thông tin trình tự hệ gen đến chức năng của
hệ protein. Chính vì vậy phân tích hệ phiên mã sẽ giúp chúng ta thu được những kết
quả sâu hơn khi phân tích chức năng của protein tương ứng. Sự ra đời của công
nghệ giải trình tự thế mới (NGS) đã tạo điều kiện thuận lợi để thu nhận và khai thác

1


thông tin về hệ gen và hệ phiên mã của sinh vật [71]. RNA-seq là công nghệ giải
trình tự thế hệ mới với đối tượng là RNA. RNA-seq sẽ giúp các nhà nghiên cứu có
thể tìm hiểu sâu hơn thông tin liên quan trình tự hệ phiên mã và phân tích chức năng
gen. Bằng phương pháp tính toán số lượng trình tự thu được từ RNA-seq, người ta
có thể đánh giá được mức độ biểu hiện gen. Đây là phương pháp có khả năng thay
thế được phương pháp micro-array truyền thống [71]. Hiện nay trên thế giới, nghiên
cứu hệ phiên mã được chia làm 2 hướng: i) đối với đối tượng đã có dữ liệu tham
chiếu cần sử dụng phương pháp re-sequencing; ii) với những dự án thực hiện trên
những loài chưa có dữ liệu tham chiếu cần tiếp cận theo phương pháp lắp ráp de
novo [28],[47],[59],60].
Do chưa có hệ phiên mã tham chiếu, nên đối với loài tôm sú Penaeus
monodon, từ dữ liệu giải trình tự thế hệ mới hệ phiên mã từ mô cơ và mô gan tụy
tôm sú thu nhận từ vùng biển Bắc Trung Bộ Việt Nam, chúng tôi đã tiến hành đề
tài: “Phân tích hệ phiên mã và sàng lọc một số gen giả định liên quan tới tính trạng
tăng trưởng ở tôm sú Penaeus monodon”.
Mục tiêu nghiên cứu của đề tài:
- Xây dựng bản đồ hệ phiên mã từ mô cơ và mô gan tụy của tôm sú Penaeus
monodon thu nhận từ vùng biển Bắc Trung Bộ Việt Nam.
- Sàng lọc các gen giả định liên quan đến tính trạng tăng trưởng của tôm sú.

- Phân tích biểu hiện hệ phiên mã từ mô cơ và mô gan tụy tôm sú Penaeus
monodon.
Đề tài được thực hiện tại Phòng Vi sinh vật học phân tử và Phòng Tin sinh
học, Viện Công nghệ sinh học, Viện Hàn lâm Khoa học và Công nghệ Việt Nam.

2


Chƣơng 1 – TỔNG QUAN
1.1. Giới thiệu về tôm sú
Tôm sú là một trong các loài tôm nuôi quan trọng thuộc họ Penaeidae, và
được phân loạinhư sau [1],[31]:
Ngành: Arthropoda (Chân khớp)
Lớp: Crustacea (Giáp xác)
Bộ: Decapoda (Mười chân)
Họ: Penaeidae (Tôm he)
Chi: Penaeus
Loài: Penaeus monodon
Tên tiếng Anh: Black Tiger Shrimp
Tên địa phương : Tôm Sú , tôm Rong.

Hình 1.1. Tôm sú thu đƣợc từ vùng biển Nghệ An, Việt Nam.

3


Về đặc điểm sinh học, tôm sú là loài sống ở nơi chất đáy là bùn pha với cát ở
độ sâu ven bờ đến 40m nước và độ mặn từ 5 – 34 ‰.Tôm sú có đặc điểm thường
sinh trưởng nhanh, trong 3 – 4 tháng có thể đạt cỡ trung bình 40 – 50 g. Tôm sú
thuộc loại dị hình phái tính, con cái có kích thước lớn hơn con đực ở cùng độ tuổi.

Tôm trưởng thành tối đa với con cái có chiều dài từ 220 – 250 mm, trọng lượng đạt
từ 100 – 300 g, con đực dài từ 160 – 200 mm, trọng lượng đạt từ 80 – 200 g. Tôm
có tính ăn tạp, thức ăn ưa thích là các loài nhuyễn thể, giun nhiều tơ và giáp xác. Về
mặt phân bố, ở nước ta tôm sú phân bố từ Bắc vào Nam, vùng phân bố chính là
vùng biển các tỉnh Trung bộ [3],[8].
Tôm sú là loài giáp xác có vỏ kitin bao bọc bên ngoài cơ thể nên sự phát triển
của chúng mang tính gián đoạn và đặc trưng bởi sự gia tăng đột ngột về kích thước
và khối lượng. Sau mỗi lần lột xác, tôm sú tăng trưởng về chiều dài và trọng lượng
trung bình từ 10-15% so với trước khi lột xác. Quá trình này tùy thuộc vào môi
trường nước, điều kiện dinh dưỡng và các giai đoạn phát triển của cá thể [3],[8],[9].
Trong tự nhiên, tôm sú sống trong môi trường nước mặn, tới mùa sinh sản
chúng tiến vào gần bờ đẻ trứng. Có hai đặc điểm cần chú ý trong vòng đời tôm sú:
tăng trưởng ở giai đoạn hậu ấu trùng xảy ra ở vùng cửa sông (đặc trưng bởi vùng
nước lợ); sự chín sinh dục, kết cặp xảy ra ở ngoài khơi nơi có nồng độ muối dao
động từ 28-34 ‰ và ổn định. Sau khi trứng tôm sú được đẻ 14-15 giờ, ở nhiệt độ
27-280C sẽ nở thành ấu trùng. Ấu trùng theo các làn sóng biển dạt vào các vùng
nước lợ. Trong môi trường này, ấu trùng (larvae) tiến sang thời kỳ hậu ấu trùng
(postlarvae) rồi tôm giống (juvenile) và bơi ra biển tiếp tục chu trình sinh trưởng,
phát triển và sinh sản của chúng [8].

4


1.2.Tình hình nghiên cứu hệ gen và hệ phiên mã của tôm sú trên thế giới
Tôm sú (Penaeus monodon) là một loài giáp xác đại dương đóng vai trò rất
quan trọng trong nền công nghiệp thủy sản Việt Nam. Theo báo cáo mới nhất của
chính phủ Việt Nam, sản lượng trong nước của tôm sú đạt 260.000 tấn vào năm
2014

( />

1/tinh-hinh-san-xuat-thuy-san-nam-2014). Do đó, việc tiến hành các nghiên cứu
chuyên sâu ở mức độ hệ gen và hệ phiên mã sẽ mang lại một cái nhìn sâu sắc về các
quá trình sinh học nhằm cải thiện năng suất nuôi trồng thủy sản tôm sú.
Cho đến nay, những hiểu biết cơ bản về sự điều khiển sinh trưởng, sinh sản và
hệ thống miễn dịch ở tôm sú còn rất hạn chế do thiếu những thông tin vềhệ gen và
sự biểu hiện gen của chúng. Kích thước hệ gen tôm sú rất lớn khoảng 2.17 Gb, nên
việc giải mã toàn bộhệ gen tôm sú đòi hỏi nhiều thời gian và chi phí lớn, ước tính
hàng chục triệu đô la. Vì vậy các nghiên cứu vềhệ gen tôm sú từ trước tới nay trên
thế giới được lựa chọn là tập trung phát triển bản đồ di truyền liên kết dựa vào các
chỉ thị phân tử microsatellite, single-nucleotide polymorphism (SNP) và amplified
fragment length polymorphism (AFLP) [48],[73],[76]; nghiên cứu và phân tích các
đoạn trình tự gen biểu hiện (Express sequence tag-EST) bằng phương pháp Sanger
[41],[48],[58],[65],[66]; giải trình tự hệ gen ty thể tôm sú [72]; nghiên cứu cấu trúc
và chức năng của các gen liên quan [17],[23],[65],[67]; lựa chọn các chỉ thị phân tử
phục vụ công tác chọn giống [26],[48].Trong thời gian gần đây, nhóm nghiên cứu
của Baranski và cộng sự (2014) đã sử dụng dữ liệu giải trình tự thế hệ mới để phát
triển bản đồ di truyền liên kết ở tôm sú P. monodon, nhưng không nghiên cứu phân
tích biểu hiện hay sàng lọc các gen ứng viên liên quan tới tính trạng tăng trưởng
[15].
Hiện nay nguồn dữ liệu về genome tôm sú còn khá khiêm tốn. Trên ngân hàng
Genbank có tổng cộng 39.908 EST được ứng dụng vào tìm kiếm các điểm đa hình
(ví dụ như SNP) và có khoảng 600 trình tự microsatellite (cập nhật tháng 10 năm
2013) [11].

5


1.2.1. Công trình nghiên cứu đầu tiên liên quan tới hệ phiên mã của tôm
Công trình đầu tiên nghiên cứu về hệ phiên mã tôm sú đã được Lehnert và
cộng sự công bố vào năm 1999. Trong công trình nghiên cứu này, 3 thư viện cDNA

đã được thiết lập từ 3 mô khác nhau của tôm sú, bao gồm chân bơi, gốc mắt và hạch
ngực. Các tác giả đã giải mã được 172 trình tự EST, trong đó có 88 trình tự từ hạch
ngực, 56 trình tự từ gốc mắt và 32 trình tự từ chân bơi [41].
1.2.2. Xác định các gen liên quan tới hệ miễn dịch của tôm thông qua việc phân
tích hệ phiên mã
Sau công bố của Lehnert, công trình thứ hai nghiên cứu về hệ gen tôm do
Gross và cộng sự thực hiện năm 2001 [27] được tập trung vào hai đối tượng quan
trọng trong công nghiệp nuôi tôm của Hoa Kỳ là tôm thẻ chân trắng Thái Bình
Dương (Litopenaeus vannamei) và tôm thẻ chân trắng Đại Tây Dương (Litopenaeus
setiferus). Bốn thư viện cDNA đã được thiết lập từ hai mô có liên quan tới hệ miễn
dịch của tôm (tế bào máu và tổ chức gan tụy) của hai loài tôm thẻ chân trắng nêu
trên. Tổng cộng đã có 2045 EST đã được giải trình tự, xác định được 44 gen có liên
quan tới hệ miễn dịch của tôm. Chủ yếu các gen có liên quan tới hệ miễn dịch
thuộc về thư viện cDNA thu từ tế bào máu (chiếm tới 27,6% ở Litopenaeus
setiferus và 21,2% ở Litopenaeus vannamei). Trong khi đó tìm thấy tỷ lệ này thấp
hơn nhiều ở thư viện cDNA thu từ mô gan tụy (4,4% ở Litopenaeus setiferus và
5,6% ở Litopenaeus vannamei). Trong số các EST liên quan tới khả năng phòng vệ
của tôm thì những EST liên quan tới các peptide kháng khuẩn được tìm thấy nhiều
nhất (chiếm tới 64%; 172/268) chủ yếu thuộc về thư viện được hình thành từ mô tế
bào máu. Lectin chiếm 6,7% chỉ tìm thấy ở mô gan tụy. Các EST khác có liên quan
tới tính miễn dịch của tôm mã hóa cho các serine protease, protease inhibitor, các
protein sốc nhiệt, protein liên kết beta-1,3-glucan. So sánh các EST thu được từ hai
loại mô khác nhau là mô tế bào máu và mô gan tụy nhận thấy có sự khác biệt về
hình thái biểu hiện các gen có liên quan tới khả năng phòng vệ của tôm. Các EST
liên quan tới các enzyme phân giải và các protein liên kết acid béo chỉ tìm thấy

6


trong thư viện mô gan tụy. Ở các loài động vật giáp xác các tế bào máu là các tế

bào chủ yếu tham gia vào đáp ứng miễn dịch bao gồm miễn dịch dịch thể và miễn
dịch qua trung gian tế bào. Chúng tổng hợp và giải phóng ra các phân tử đóng vai
trò phòng vệ. Supungul và cộng sự (2002) là những người đầu tiên công bố về sử
dụng EST nghiên cứu biểu hiện gen trong tế bào máu của tôm sú. Trong số các EST
tìm thấy có liên quan tới việc biểu hiện và tổng hợp protein chiếm 17,7% trong tổng
số EST (109/615), trong đó các protein có liên quan tới khả năng phòng vệ của tôm
chiếm 8,9% (55/615). Các thành phần có liên quan tới khả năng phòng vệ bao gồm
các hệ prophenoloxidase, các enzyme chống oxy hóa, các chất ức chế serine
protease và các protein sốc nhiệt [65]. Hai năm sau, nhóm nghiên cứu của Supungul
(2004) tiếp tục nghiên cứu 447 EST phân lập từmô máu tôm sú sau khi đã công
cường độc tôm bằng vi khuẩn Vibrio harveyi và tìm ra được các EST mang các gen
mã hóa cho các peptide kháng khuẩn [66].
1.2.3. Xác định các gen có liên quan tới khả năng sinh sản của tôm
Yamano và Unuma (2006) đã sử dụng các EST từ gốc mắt của tôm he Nhật
BảnMarsupenaeus japonicus phân tích kiểu hình biểu hiện để tìm ra các gen liên
quan tới khả năng sinh sản của tôm cái. Nhóm tác giả đã giải trình tự 2.304 EST và
phân tích tất cả các EST đã giải mã và tìm ra được 4 EST mang các đặc tính liên
quan tới khả năng sinh sản của tôm. Ba trong số đó rất giống với hormone thuộc họ
peptide làm tăng đường huyết ở các loài giáp xác và EST thứ tư rất giống với
farnesoic acid O-methyltransferase, enzyme này sản xuất ra methyl farnesoate (MF)
[74].
1.2.4. Xác định các gen có liên quan tới giới tính của tôm sú
Phòng thí nghiệm đứng đầu là Menasveta đã tập trung nghiên cứu các EST để
xác định các gen liên quan tới giới tính với mục đích tìm hiểu cơ chế phân tử của
quá trình thành thục tuyến sinh dục và xác định giới tính ở tôm sú. Đây là những
công trình quan trọng về mặt thực tiễn vì có thể được sử dụng để cải thiện khả năng

7



sinh sản của tôm sú nuôi. Nghiên cứu 1051 EST phân lập từ buồng trứng, đã xác
định được 25 gen có liên quan tới giới tính. Sau đó, đã nghiên cứu biểu hiện của các
gen này trong buồng trứng của tôm. Từ tinh hoàn tôm, thư viện cDNA đã được thiết
lập và 896 EST đã được giải mã. Một số cDNA mang gen mã hóa cho các protein
chức năng liên quan tới quá trình phát triển của tinh hoàn đã được xác định [40],
[58].
1.2.5. Nghiên cứu giải trình tự hệ gen và hệ phiên mã tôm sú ở Thái Lan
Thái Lan là nước đứng hàng đầu thế giới về xuất khẩu tôm với thu nhập
khoảng 2 tỷ USD/năm. Chính vì vậy, ngay sau hội nghị quốc tế Bangkok 2004,
Thái Lan đã đầu tư khoảng 1,5 triệu USD cho giải mã EST và xây dựng bản đồ gen
tôm sú. Các nghiên cứu xây dựng ngân hàng EST và các EST liên quan tới nhiều
tính trạng quan trọng như giới tính của tôm, khả năng phòng vệ của tôm, tìm ra các
microsatellite phục vụ xây dựng bản đồ liên kết di truyền... đã được Trung tâm Sinh
học phân tử và Genomics của Giáo sư Tassanakajon tiến hành thành công và công
bố kết quả trên các tạp chí khác nhau. Phân tích 10.100 dòng EST,
Maneeruttanarungroj và cộng sự đã tìm ra được 997 EST có duy nhất 1
microsatellite marker. Sử dụng các marker microsatellite kết hợp với các marker
khác như AFLP, SNP, các nhà khoa học Thái Lan đã phân ra được các nhóm liên
kết gồm 47 nhóm liên kết trên tôm đực và 36 nhóm liên kết trên tôm cái, chiếm tới
1/2 hệ gen tôm sú và xây dựng thành công bản đồdi truyền liên kết.Từ năm 2006,
Tassanakajon và cộng sự tại trường Đại học tổng hợp Chulalongkorn, Bangkok đã
thực hiện một dự án lớn giải mã EST và thiết lập ngân hàng dữ liệu EST tôm sú.
Khởi đầu bằng 15 thư viện cDNA từ các mô khác khau trong điều kiện bình thường
hoặc stress nhằm tìm ra các gen đặc hiệu kháng bệnh và thích ứng với stress. Trong
công trình công bố vào năm 2006, 10.100 clone đã được giải trình tự, trong đó tìm
được 4845 trình tự không trùng lặp và một nửa trong số đó có độ tương đồng cao
với các gen đã biết [48].Thái Lan đã thiết lập ngân hàng dữ liệu cDNA/EST của
tôm sú (), số lượng EST được lưu giữ ở đây hiện nay

8



đã tăng đáng kể, tuy nhiên cơ sở dữ liệu này chỉ được khai thác nội bộ trong các
nhóm nghiên cứu của Thái Lan và các nhóm có hợp tác. Tuy vậy, các gen mã hóa
protein vẫn chưa được phân tích nhiều và số lượng những gen này còn khá ít ỏi so
với kích thước bộ gen 2,17 Gb của tôm sú [4].
1.2.6. Nghiên cứu lập bản đồ gen tôm sú ở Đài Loan
Năm 2010, You và cộng sự thuộc Viện Động vật học, Trường Đại học tổng hợp
Quốc gia Đài Bắc đã xây dựng được bản đồ liên kết di truyền tôm sú dựa trên các
marker microsatellite và AFLP. Dựa trên 256 marker microsatellite và 85 marker
AFLP, các nhà khoa học đã tìm ra được 43 nhóm liên kết trong bản đồ gen tôm đực
và 46 nhóm liên kết trong bản đồ gen tôm cái.Bản đồ gen tôm đực chứa 176
microsatellite và 49 AFLP marker với khoảng cách giữa các marker là 11.2 cM,
Trong khi đó bản đồ gen tôm cái chứa 171 microsatellite và 36 AFLP marker với
khoảng cách giữa các marker là 13.8 cM. Đồng thời các tác giả cũng thực hiện kỹ
thuật karyotyping (lập kiểu nhân) và xác định được 40 trong số 44 nhiễm sắc thể
thuộc dạng metacentric (tâm giữa), một thuộc dạng submetacentric (tâm lệch) và 3
thuộc dạng acrocentric (tâm đầu)[76].
1.2.7. Nghiên cứu giải mã hệ gen và hệ phiên mã tôm sú ở Việt Nam
Trong khuôn khổ của một đề tài thuộc Chương trình Công nghệ sinh học thủy
sản của Bộ Nông nghiệp và Phát triển nông thôn, Viện Công nghệ sinh học đã tiến
hành nghiên cứu giải trình tự một phần hệ gen và xây dựng cơ sở dữ liệu hệ gen
tôm sú. Đề tài đã sử dụng phương pháp phân lập và phân tích các đoạn trình tự gen
biểu hiện (EST/cDNA). Sử dụng máy đọc trình tự thế hệ 1 nâng cấp ABI 3100/
3100-Avant Genetic Analyzer (Applied BioSystems), đề tài đã thu được một số kết
quả bước đầu. Đó là thiết lập được 6 loại thư viện cDNA (mô cơ, mô gan, mô tụy,
mô mắt, buồng trứng và máu) ở đối tượng tôm sú thường, tôm sú nhiễm bệnh đốm
trắng và tôm sú bố mẹ. Trong tổng số 3204 dòng tái tổ hợp đã được phân tích có
2060 dòng có chứa đoạn chèn lớn hơn 300 bp và 1144 dòng có chứa đoạn chèn nhỏ


9


hơn 300 bp. Các dòng tái tổ hợp có chứa đoạn chèn lớn hơn 300 bp được chọn để
giải trình tự. Trên tổng số 2060 dòng cDNA/EST tái tổ hợp phân tích có 251 loại
trình tự được xác định trong đó 167 loại trình tự đủ dài để có thể dịch mã ra protein
suy diễn (> 20 aa) và 84 loại trình tự EST/ 3’-UTR. Trong số 167 trình tự protein
suy diễn, có 44 trình tự protein có thể chú giải chức năng và 123 trình tự protein giả
thuyết (hypothetical protein).Đây là công trình nghiên cứu đầu tiên vềhệ gen tôm sú
Việt Nam [4].
Từ năm 2012, Viện Công nghệ sinh học được Bộ Khoa học và Công nghệ giao
nhiệm vụ“Lập bản đồ gen tôm sú (Penaeus monodon)” thuộc nhiệm vụ quỹ gen cấp
Nhà Nước, Viện Công nghệ sinh học thuộc Viện Hàn lâm Khoa học và Công nghệ
Việt Nam đã sử dụng kỹ thuật sinh học phân tử để nghiên cứu tính đa hình tôm sú
thu nhận từ ba quần đàn ở các vùng biển khác nhau của Việt Nam, gồm Bắc Trung
Bộ, Nam Trung Bộ và Nam Bộ. Sử dụng kỹ thuật AFLP với bộ AFLP® Mapping
Kit (Applied Biosystems) và phân tích bằng phần mềm Gene Mapper 4.1, đã xây
dựng được cây phả hệ và xác định được tính đa hình di truyền cao trong các quần
đàn tôm sú Việt Nam. Đây là cơ sở khoa học cho các nghiên cứu tiếp theo nhằm lưu
giữ và khai thác nguồn gen bản địa phục vụ gia hóa và chọn giống tôm sú [5].
Một hướng nghiên cứu quan trọng trong đề tài “Lập bản đồ gen tôm sú
(Penaeus monodon)” đó là tiến hành nghiên cứu ứng dụng công nghệ giải trình tự
thế hệ mới để giải trình tự hệ phiên mã thu được từ các mô khác nhau của tôm sú.
Từ dữ liệu giải trình tự hệ phiên mã thu được từ các mô khác nhau của tôm sú sẽ
được tiến hành lắp ráp de novo, chú giải chức năng từ các cơ sở dữ liệu khác nhau
và phân tích biểu hiện nhằm xây dựng bản đồ hệ phiên mã tôm sú Penaeus
monodon và sàng lọc các gen giả định liên quan đến tính trạng tăng trưởng cũng
như các chỉ thị phân tử liên quan tới tính trạng tăng trưởng. Các chỉ thị phân tử cũng
như các thông tin khác có được từ nghiên cứu hệ phiên mã sẽ đóng góp một cách
hết sức có ý nghĩa và mang tính quyết định cho công tác chọn giống và nuôi trồng

tôm.

10


1.3. Công nghệ đọc trình tự thế hệ mới
1.3.1. Hệ phiên mã
Đối với các sinh vật đa bào, gần như mỗi tế bào đều có cùng chung một hệ gen
và do đó có chung các gen. Tuy nhiên không phải tất cả các gen đều phiên mã trong
mỗi tế bào, nói cách khác những tế bào khác nhau thể hiện một mô hình biểu hiện
khác nhau. Việc chọn lọc và so sánh hệ phiên mã của các loại tế bào cũng như các
mô khác nhau giúp các nhà nghiên cứu có cái nhìn sâu sắc về cấu tạo của các loại tế
bào đặc biệt và các thay đổi trong hoạt động phiên mã có liên quan đến những tính
trạng quan trọng. Hệ phiên mã đại diện cho một phần hệ gen được dịch ra thành các
phân tử RNA. Tuy nhiên, mỗi gen có thể tạo ra nhiều biến thể của mRNA do sự
thay đổi vị trí cắt, sửa đổi RNA hay thay đổi vị trí khởi đầu và kết thúc của phiên
mã. Do đó, hệ phiên mã đạt được mức độ phức tạp mà hệ gen không có. Bằng cách
nghiên cứu hệ phiên mã, các nhà nghiên cứu có thể xác định được thời điểm và vị
trí các gen bật, tắt trong các dạng tế bào hoặc mô. Số lượng bản phiên mã có thể
được tính để tính toán được hoạt động của gen hay biểu hiện của gen trong tế bào
[18].
1.3.2. Công nghệ đọc trình tự thế hệ mới Illumina
Trong thế kỷ trước, việc đọc trình tự DNA còn gặp nhiều khó khăn do máy
móc có giá thành cao, mất thời gian để đọc toàn bộ hệ gen do vậy chỉ phù hợp cho
kiểm tra các gen riêng lẻ và một số xét nghiệm chẩn đoán phân tử sử dụng trong các
phòng thí nghiệm y học như di truyền phân tử, di truyền dược lý, bệnh về máu, xét
nghiệm vi sinh vật gây bệnh… Ngày nay, các công ty thương mại đã cho ra đời các
thế hệ máy đọc trình tự dựa trên nhiều công nghệ mới (Next Generation Sequencing
- NGS). Các kỹ thuật đọc trình tự gen đã trở nên đơn giản và nhanh hơn nhờ sự ứng
dụng huỳnh quang phân tích tự động. Các công nghệ đọc trình tự mới luôn hướng

tới làm tăng dung lượng (throughput), làm giảm thời gian và giá thành [29],[46].

11


Nguyên lý đọc trình tự gen thế hệ mới: theo 2 nguyên lý chính. Nguyên lý thứ
nhất là đọc trình tự bằng tổng hợp (sequencing by synthesis, SBS) đã được các thế
hệ máy Roche 454, Ion Torrent và Illumina sử dụng. Nguyên lý thứ hai là đọc trình
đọc trìnhtự bằng gắn nối (sequencing by ligation, SBL) được sử dụng ở máy SOLiD
do George Church phát minh. SBL đã được sử dụng để xác định trình tựhệ gen và là
nền tảng cho các thiết bị đọc trình tự thế hệ mới [29],[46].
Công nghệ đọc trình tự thế hệ mới Illumina sử dụng công nghệ giải trình tự
bằng tổng hợp (sequencing by synthesis). Sử dụng khuếch đại thông qua bắc cầu tạo
ra polonies (các dòng PCR) của trình tự mẫu DNA được làm giàu. Đối với công
nghệ này, mẫu DNA được phân mảnh, và hai bộ adapter khác nhau được gắn vào
đầu các mảnh, một bộ để liên kết các vi bản (flow cell) và một bộ cần cho giải trình
tự. Các mảnh được biến tính và sợi đơn này sau đó được bơm vào các vi bản, bề
mặt được bao phủ dày đặc các trình tự mồi bắt cặp bổ sung với adapter. Sợi khuôn
thông qua trình tự adapter được gắn lên bề mặt của các vi bản. Sự bắt cặp bổ sung
giữa adapter đầu còn lại sợi đơn DNA với trình tự mồi tạo ra các cầu nối. Sau khi
bổ sung hóa chất PCR, các sợi thứ hai được tạo ra. Biến tính làm phân ly 2 sợi DNA
bắt cặp bổ sung của cầu, và bước gắn mới sẽ tạo ra 2 cầu từ 1 cầu ban đầu. Lặp lại
quá trình khuếch đại cầu tạo thành các cụm nhỏ với các mảnh được khuếch đại
khoảng 1.000 lần. Các trình tự ngược được cắt và rửa trôi. Cụm sợi đơn DNA mẫu
còn lại được dùng để giải trình tự. Đối với giải trình tự Illumina, quá trình này liên
quan đến các nucleotide yếu tố kết thúc đảo ngược (reverse terminator nucleotide),
được đánh dấu thuốc nhuộm huỳnh quang khác nhau. Điều này cho phép bổ sung
của cả bốn dNTP cùng lúc. Sau khi bổ sung, nucleotide bắt cặp bổ sung và dNTP
chưa kết hợp bị rửa trôi. Các nhóm hóa chất trên dNTP ngăn chặn sự kéo dài chuỗi.
Tiếp theo, hình ảnh của các vi bản được ghi lại, với tín hiệu huỳnh quang ở những

cụm xác định. Tiếp theo xử lý các vi bản với hóa chất để loại bỏ thuốc nhuộm
huỳnh quang từ nucleotide đã kết hợp và phục hồi nhóm 3'-OH. Các vi bản được bổ
sung những chu kỳ dNTP mới và hình ảnh của các vi bản được ghi lại. Bằng cách
xếp chồng và chồng hình ảnh thu được trong tất cả các chu kỳ, các phần mềm có thể

12


tái tạo lại trình tự của mỗi cụm mẫu. Quá trình này được gọi là giải trình tự đọc lần
lượt (single read sequencing). Để đọc trình tự hai chiều, tức là đọc trình tự của các
sợi thứ hai, các cụm ban đầu được chuyển đổi thành DNA sợi kép và sợi đã được
giải trình tự được loại bỏ. Do sự khác biệt adapter ở mỗi đầu của mảnh DNA, việc
lựa chọn của sợi được giải trình tự có thể được xác định nhờ trình tự mồi bổ sung
với bộ adapter nào [29].
1.3.3. Đọc trình tự hệ phiên mã RNA-seq
RNA-seq nổi lên như một công cụ mạnh khi nghiên cứu hệ phiên mã. Công
nghệ này giúp các nhà nghiên cứu có được một danh sách tất cả các bản phiên mã
(transcript) và mức độ biểu hiện của chúng trong một tế bào hay mô xác định trong
một điều kiện cụ thể. Một thí nghiệm RNA-seq đặc thù bao gồm phân lập RNA,
chuyển RNA thành cDNA và giải trình tự bằng công nghệ giải trình tự thế hệ mới.
Những hệ thống giải trình tự ứng dụng trong phân tích RNA gồm có các hệ thống
như Illumina, Applied Biosystems SOLiD và Roche 454 Life Science. Điểm mạnh
của việc sử dụng công nghệ giải trình tự thế hệ mới so với các phương pháp khác đó
là khả năng giải trình tự hiệu suất cao, có tỉ lệ lỗi thấp và có khả năng giải trình tự
theo cặp. Sau khi giải trình tự, các trình tự đọc được ánh xạ với hệ gen tham chiếu
hoặc hệ phiên mã tham chiếu hoặc lắp ráp de novo không cần trình tự hệ gen để tạo
ra một hệ phiên mã chứa các thông tin về cấu trúc và mức độ biểu hiện mỗi gen
[71].
1.4. Các phƣơng pháp phân tích hệ phiên mã sử dụng các công cụ tin sinh
1.4.1. Tiền xử lý dữ liệu

Trong các trình tự đọc bởi tất cả các thiết bị giải trình tự thế hệ mới, mỗi base
đều có một xác suất đọc sai được xác định. Các lỗi đọc base sai này khiến những
bước phân tích tiếp theo sử dụng đầu vào là dữ liệu trình tự đọc gặp khó khăn hoặc
thu được kết quả không chính xác. Một trong những bước chịu ảnh hưởng trực tiếp
bởi chất lượng của dữ liệu trình tự đọc là quy trình lắp ráp hệ phiên mã [55]. Lỗi

13


giải trình tự có thể gây ra sai sót trong lắp ráp, dẫn đến tạo ra các contig sai và kích
thước ngắn. Đối với các dự án giải trình tự, đặc biệt là giải trình tự hệ phiên mã
hoàn toàn mới chưa có tham chiếu, tiền xử lý đóng vai trò quan trọng và bắt buộc
cần thực hiện bởi đây là bước quyết định đến độ tin cậy của hệ phiên mã và sử dụng
trình tự hệ phiên mã trong các nghiên cứu khác.
Dữ liệu giải trình tự được đánh giá chất lượng bằng phần mềm
FastQC( Mỗi máy giải
trình tự sẽ có một thang điểm chất lượng riêng cho từng loại máy. FastQC là một
phần mềm được phát triển nhắm tới việc thiết lập một bản báo cáo về chất lượng
được chuẩn hóa có thể chỉ ra những vấn đề có nguồn gốc từ cả máy giải trình tự lẫn
dữ liệu đầu vào. FastQC tương thích với tất cả các nền tảng giải trình tự chính và
đưa ra kết quả thống kê thông qua các đồ thị, bảng biểu tổng kết và tóm tắt để
nhanh chóng đánh giá chất lượng của dữ liệu. Phần mềm nhận đầu vào là tệp tin
FASTQ của dữ liệu giải trình tự, sau đó thống kê và đánh giá chất lượng của dữ liệu
trình tự dựa trên một số tiêu chí như sau:
-

Thông tin tổng quan: Đưa ra những thông tin tổng quan về dữ liệu như thông

tin về máy giải trình tự, tổng số trình tự đọc (read), độ dài của các trình tự đọc, và
trung bình phần trăm GC của toàn bộ dữ liệu.

-

Chất lượng trình tự theo vị trí base: Tiêu chí này cho biết tính chính xác của

việc đọc base thông qua việc thống kê chất lượng của các base tại một vị trí trên tất
cả các trình tựđọc, đồng thời tạo ra một biểu đồ Box-Whisker tại vị trí đó để hình
dung về sự phân bố chất lượng giữa các vị trí base. Đối với từng vị trí base, điểm
chất lượng giải trình tự QC (quality score) của một trình tự thể hiện xác suất trình tự
đó bị đọc sai, ví dụ: QC = 10 nghĩa là có 1 base sai trong 10 base (10%), QC = 20
nghĩa là có 1 base sai trong 100 base (1%), QC = 30 nghĩa là có 1 base sai trong
1000 base (0,1%).

14


-

Chất lượng theo đoạn trình tự: Thay vì tính toán chất lượng tại từng vị trí

base, tiêu chí này báo cáo chất lượng trung bình của từng trình tự và lập thành một
đồ thị tích lũy.
-

Thành phần trình tự theo vị trí base: Thành phần trình tự theo vị trí base cho

biết tỉ lệ loại nucleotide DNA (1 trong 4 loại Adenine, Cytosine, Guanine và
Thymine) ở từng thành phần vị trí base.
-

Thành phần GC theo vị trí base: Tiêu chí này được báo cáo dưới dạng một


biểu đồ dựng bởi tỉ lệ nucleotide G hoặc C tại mỗi vị trí base.
-

Thành phần GC theo trình tự: Tương tự, tiêu chí này đánh giá tỉ lệ nucleotide

G hoặc C của từng trình tự trong dữ liệu. Đồ thị tích lũy của dữ liệu được đối chiếu
với đồ thị của một mô hình tiêu chuẩn. Sự sai lệch giữa hai đồ thị này có thể một
phần đánh giá độ nhiễu hoặc sai sót của dữ liệu trình tự.
-

Thành phần N theo vị trí base: Khi thiết bị giải trình tự gọi tên một base cần

có một độ tin cậy nhất định. Trong trường hợp base được gọi không đạt độ tin cậy
này, thiết bị sẽ thay thế tên base bằng ký tự N, biểu thị base này chưa được xác
định. Đồ thị này được dựng dựa trên tỉ lệ ký tự N xuất hiện ở mỗi vị trí base.
-

Phân bố độ dài trình tự: Một số thiết bị giải trình tự có thể tạo ra những đoạn

trình tự có kích thước bằng nhau, tuy nhiên, phần lớn các máy giải trình tự phổ biến
hiện nay đều tạo ra dữ liệu trình tự với kích thước không đều. Trong những trường
hợp có sự dao động giữa độ dài của các trình tự trong dữ liệu, tiêu chí này được thể
hiện dưới dạng đồ thị giúp hình dung sự phân bố của số lượng trình tự ở các độ dài
khác nhau.
Công đoạn làm sạch dữ liệu giải trình tự được thực hiện với công cụ
Trimmomatic. Phần mềm Trimmomatic là công cụ tiền xử lý dữ liệu trình tự bằng
cách cắt và loại bỏ dữ liệu có chất lượng xấu, kích thước ngắn và adapter từ tệp
FASTQ. Trimmomatic có 2 chế độ chính là chế độ paired-end và single-end tương


15


ứng với dữ liệu trình tự giải 2 chiều hay 1 chiều. Đối với dữ liệu giải trình tự
Illumina, công cụ Trimmomatic loại bỏ adapter bằng cách kiểm tra các trình tự
adapter với các trình tự đọc nếu có ánh xạ chính xác phần mềm sẽ loại bỏ đoạn
trình tự đó. Với dữ liệu có chất lượng thấp, phương pháp phổ biến nhất là loại bỏ
những base có điểm chất lượng thấp. Trimmomatic xử lý chất lượng bằng phương
pháp cửa sổ trượt (Sliding window). Khi sử dụng cửa sổ trượt, cửa sổ được thiết lập
một độ dài và phần mềm tịnh tiến cửa sổ để tính điểm chất lượng trung bình của tất
cả các base tại mỗi vị trí cửa sổ đi qua, khi phát hiện ra tại vị trí nào có điểm trung
bình thấp hơn ngưỡng thiết lập phần mềm sẽ cắt toàn bộ trình tự từ vị trí đó trở về
sau.

Hình 1.2. Minh họa về cách hoạt động của cửa sổ trƣợt

Kết thúc việc cắt bỏ phần trình tự có chất lượng thấp, Trimmomatic sẽ kiểm
tra toàn bộ trình tự còn lại và loại khỏi dữ liệu các trình tự có kích thước ngắn hơn
ngưỡng tối thiểu được đặt ra. Phần mềm Trimmomatic là phần mềm được phát triển
dành riêng cho xử lý dữ liệu của Illumina [16].
Như vậy, tiền xử lý dữ liệu giải trình tự thế hệ mới là một khâu rất quan trọng
đóng vai trò dẫn tới thành công trong quá trình lắp ráp de novo hệ phiên mã. Đặc
biệt đối các dữ liệu trình tự đọc giải trình tự bằng công nghệ Illumina-Miseq, phần
mềm FastQC là một công cụ thích hợp để đánh giá chất lượng dữ liệu, phần mềm
Trimmomatic là công cụ thích hợp dùng để tiền xử lý dữ liệu.
1.4.2. Lắp ráp de novo hệ phiên mã
Lắp ráp de novo hệ phiên mã là phương pháp tạo ra một hệ phiên mã mà
không cần sự trợ giúp của một hệ gen tham chiếu.Phương pháp de novo được sử
dụng nhiều để nghiên cứu các sinh vật không mô hình bởi 2 nguyên nhân: giá thành


16


giải trình tự bằng công nghệ giải trình tự thế hệ mới thấp hơn so với các thế hệ giải
trình tự trước đó và sự xuất hiện của phương pháp xây dựng hệ gen không cần có hệ
gen tham chiếu. Việc lắp ráp hệ phiên mã nói chung sử dụng 2 thuật toán cơ bản là
thuật toán Overlap graphs và thuật toán de Bruijn graphs [51]. Thuật toán Overlap
graphs được sử dụng trong nhiều phần mềm thiết kế cho dữ liệu giải trình tự
Sanger. Sự trùng lặp giữa mỗi cặp trình tự đọc được tính toán và đồ thị hóa, trong
đó mỗi một nút đại diện cho một trình tự đọc. Thuật toán này tốn nhiều tài nguyên
máy tính hơn thuật toán de Bruijn graphs và lắp ráp hiệu quả đối với lắp ráp ít trình
tự đọc.
De Bruijn graphs (DBG) là thuật toán được phát triển sau thuật toán Overlap
graphs, bước đầu tiên của thuật toán này là chia nhỏ đoạn trình tự ra các đoạn trình
tự bằng nhau (k-mer). Sau đó, sử dụng những k-mer này để xây dựng lên đồ thị và
cuối cùng là lắp ráp những k-mer đó trở thành contig dựa vào thông tin cung cấp từ
đồ thị. Thuật toán này được giới thiệu lần đầu tiên vào năm 1995 bởi Ramana M.
Idury và Michael S. Waterman [34]. Sau đó, EULER là phần mềm đầu tiên ứng
dụng thuật toán được công bố vào năm 2001 [56]. Sau khi được công bố, thuật toán
này ít được biết đến trong lĩnh vực lắp ráp hệ gen trong một khoảng thời gian dài và
ít người nhìn ra được tiềm năng quan trọng của nó. Tuy nhiên, mọi thứ đã hoàn toàn
thay đổi khi công nghệ giải trình tự Illumina/solexa được thương mại hóa. Từ đó
hàng loạt phần mềm lắp ráp đoạn trình tự ngắn được ra đời dựa trên thuật toán này.
Trong đó phải kể đến như Euler-USR, AbySS, Allpath-LG, SOAPdenovo, Velvet
và Trinity [21],[30]. Những phần mềm ứng dụng thuật toán DBG lúc đầu thường
được áp dụng thành công với những hệ gen và hệ phiên mã kích thước nhỏ, sau đó
dần dần được ứng dụng với những hệ gen, hệ phiên mã kích thước lớn hơn. Kể từ
thành công trong dự án lắp ráp hệ gen của dưa chuột [33] và gấu trúc [45] ứng dụng
công nghệ giải trình tự Illumina, các nhà nghiên cứu trên khắp thế giới đã thấy một
phương pháp hiệu quả mới để lắp ráp những hệ gen, hệ phiên mã có kích thước lớn.

Trong các chương trình lắp ráp de novo hệ phiên mã sử dụng thuật toán DBG,
Trinity là một công cụ được sử dụng rất phổ biến trong các nghiên cứu về các loài

17


×