Tải bản đầy đủ (.pdf) (69 trang)

Ứng dụng kĩ thuật Metagenimics trong nghiên cứu hệ vi sinh vật vùng rễ cây cà phê tại huyện CưmGra tỉnh Đăk Lăk (Luận văn thạc sĩ)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.78 MB, 69 trang )

VIỆN HÀN LÂM KHOA HỌC VÀ CÔNG NGHỆ VIỆT NAM
VIỆN SINH THÁI VÀ TÀI NGUYÊN SINH VẬT

HOÀNG THỊ HUYỀN TRANG

ỨNG DỤNG KĨ THUẬT METAGENIMICS TRONG NGHIÊN CỨU
HỆ VI SINH VẬT VÙNG RỄ CÂY CÀ PHÊ TẠI HUYỆN CƯM’GRA
TỈNH ĐĂK LĂK

LUẬN VĂN THẠC SĨ
Chuyên ngành: Sinh học thực nghiệm
Mã số: 60 42 01 14

HÀ NỘI, 2017


LỜI CAM ĐOAN
Tôi xin cam đoan bản luận văn là công trình nghiên cứu của tôi dưới sự
hướng dẫn của TS. Phạm Bích Ngọc. Các số liệu, kết quả nêu trong luận văn là
trung thực và chưa từng được công bố trong bất kỳ công trình nào khác.
Tác giả luận văn

Hoàng Thị Huyền Trang

i


LỜI CẢM ƠN
Với lòng biết ơn sâu sắc, tôi xin gửi lời cảm ơn tới TS. Phạm Bích Ngọc
đã tận tình hướng dẫn và tạo điều kiện thuận lợi, giúp đỡ tôi trong suốt quá
trình học tập, làm việc và hoàn thành luận văn.


Xin chân thành cảm ơn TS. Vũ Huyền Trang, Ths. Nguyễn Hồng Hà, Ths.
Nguyễn Khắc Hưng cùng tập thể cán bộ, nghiên cứu sinh, học viên phòng Công
nghệ tế bào thực vật, Viện Công nghệ Sinh học, Viện Hàn lâm Khoa học và công
nghệ Việt Nam đã nhiệt tình giúp đỡ, truyền đạt kinh nghiệm quý báu cho tôi
trong suốt thời gian thực hiện luận văn.
Xin chân thành cảm ơn đề tài : “Nghiên cứu metagenome của vi sinh vật
đất vùng rễ một số cây trồng ở Việt Nam: cây thuốc có củ (cây nghệ), cây công
nghiệp (cà phê) nhằm tăng năng suất và chất lượng cây trồng” do PGS. TS. Lê
Mai Hương chủ nhiệm đã hỗ trợ kinh phí và trang thiết bị trong quá trình thực
hiện luận văn.
Qua đây, tôi cũng xin gửi lời cảm ơn tới các thầy cô và ban đào tạo viện
Sinh thái và tài nguyên sinh vật đã hướng dẫn, truyền đạt kiến thức cho tôi trong
suốt thời gian học tập và nghiên cứu.
Cuối cùng tôi xin cảm ơn đến bạn bè và gia đình đã giúp đỡ, chia sẻ,
động viên tôi trong suốt quá trình học tập cũng như thực hiện luận văn.
Hà Nội, 1 tháng 11 năm 2017
Học viên

Hoàng Thị Huyền Trang

ii


MỤC LỤC

MỞ ĐẦU ............................................................................................................... 1
CHƯƠNG 1: TỔNG QUAN TÀI LIỆU ............................................................... 3
1.1. Cây cà phê và tình hình sản xuất cà phê .................................................... 3
1.1.1. Nguồn gốc,phân bố cây cà phê ............................................................... 3
1.1.2. Tình hình sản xuất cây cà phê tại Việt Nam ....................................... 3

1.2. Hệ vi sinh vật đất và ý nghĩa đối với sinh trưởng, phát triển của cây trồng
........................................................................................................................... 5
1.2.1. Giới thiệu về hệ vi sinh vật ................................................................. 5
1.2.2. Vi sinh vật đất vùng rễ ........................................................................ 6
1.3. Công nghệ metagenomics và ứng dụng nghiên cứu đa dạng di truyền của
các hệ vi sinh vật đất ......................................................................................... 8
1.4. Các bước ứng dụng công nghệ Metagenomics trong nghiên cứu da dạng
khu hệ sinh vật từ môi trường ........................................................................... 9
1.5. Ứng dụng đọc trình tự gen thế hệ mới trong nghiên cứu metagenomics 14
1.5.1. Công nghệ đọc trình tự bán dẫn ion .................................................. 15
1.5.2. Công nghệ giải trình tự Illumina (Solexa) sequencing ..................... 17
1.6. Các nghiên cứu metagenomics trên thế giới và Việt Nam ...................... 21
1.6.1. Các nghiên cứu metagenomics trên thế giới ..................................... 21
1.6.2. Các nghiên cứu metagenomics tại Việt Nam .................................... 22
CHƯƠNG 2. VẬT LIỆU – PHƯƠNG PHÁP .................................................... 25
2.1. Vật liệu nghiên cứu .................................................................................. 25
2.2. Phương pháp nghiên cứu.......................................................................... 25
2.2.1. Phương pháp thu mẫu ....................................................................... 25
2.2.2. Phương pháp tách chiết DNA tổng số............................................... 26
2.2.4. Khuếch đại vùng 16S rRNA ............................................................. 28
2.2.5. Tinh sạch sản phẩm PCR .................................................................. 29
2.2.6. Gắn Index (Nextera XT Index kit) .................................................... 29
iii


2.2.7. Tinh sạch sản phẩm gắn Index .......................................................... 31
2.2.8. Đánh giá thư viện .............................................................................. 31
2.2.9. Biến tính thư viện và giải trình tự trên máy Miseq ........................ 31
2.2.10.


Phân tích dữ liệu.......................................................................... 33

2.2.11.

Phương pháp xác định tuyến trùng ............................................. 35

CHƯƠNG 3. KẾT QUẢ VÀ THẢO LUẬN ...................................................... 36
3.1.

Phân tính đặc điểm lý hóa và sinh học chung của các mẫu ................ 36

3.2.

Kết quả tách chiết DNA tổng số. ........................................................ 39

3.3.

Chuẩn bị thư viện và gắn adapter........................................................ 40

3.4.

Kết quả phân tích dữ liệu trình tự ....................................................... 41

3.5.

Kết quả phân tích mức độ đa dạng quần thể vi khuẩn đất vùng rễ cây

cà phê ............................................................................................................. 42
3.5.1. Kết quả đánh giá độ đa dạng ở mức phân loại nghành .................. 43
3.5.2. Kết quả phân tích cấu trúc thành phần vi khuẩn chiếm ưu thế trong

đất vùng rễ ở mức độ phân loại lớp và họ vi khuẩn. ................................... 44
3.5.3. Kết quả phân tích cấu trúc hệ vi khuẩn đất vùng rễ ở mức độ chi . 47
3.5.4. Kết quả phân tích thành phần một số loài vi khuẩn đặc trưng của hệ
vi sinh vật đất vùng rễ cây cà phê. .............................................................. 49
KẾT LUẬN VÀ KIẾN NGHỊ............................................................................. 51
1.

Kết luận ....................................................................................................... 51

2.

Kiến nghị ..................................................................................................... 51

TÀI LIỆU THAM KHẢO ................................................................................... 53

iv


DANH MỤC CÁC BẢNG
Bảng 3.1. Bảng thống kê thành phần hữu cơ của 4 mẫu đất nghiên cứu ............ 38
Bảng 3.2. Nồng độ và độ tinh sạch 4 mẫu DNA tách từ đất ............................... 40
Bảng 3.3: Thống kê dữ liệu trình tự thu được sau bước giải trình tự ................. 41

DANH MỤC CÁC HÌNH
Hình 1.1. Sơ đồ mô tả hoạt động của hệ thống giải trình tự của Illumina .......... 20
giai đoạn 1: tổng hợp ........................................................................................... 20
Hình 1.2. Sơ đồ mô tả hoạt động của hệ thống giải trình tự của Illumina .......... 20
Hình 2.1. Vị trí tiến hành thu mẫu tại một khu vực nghiên cứu ......................... 26
Hình 2.2. Quy trình khuếch đại và giải trình tự vùng 16S rRNA ....................... 28
Hình 2.3. Bố trí các ống mẫu .............................................................................. 30

Hình 2.4. Quy trình phân tích sử dụng công cụ QIIME ..................................... 34
Hình 3.1: Hình ảnh cây cà phê tái canh bệnh và cà phê kinh doanh tại khu vực
thu mẫu thí nghiệm. Cây cà phê tái canh bệnh (A) và mẫu rễ (C); Cây cà phê
kinh doanh (B) và mẫu rễ (D) ............................................................................. 36
Hình 3.2. Biểu đồ thể hiện thành phần loài tuyến trùng trong mẫu đất tại khu vực
nghiên cứu ........................................................................................................... 37
Hình 3.3. Kết quả điện di kiểm tra sản phẩm tách DNA tổng số ....................... 39
của 4 mẫuđất nghiên cứu ..................................................................................... 39
Hình 3.4. Biểu đồ ghi lại tín hiệu đo kích thước sản phẩm khuếch đại bằng cặp
mồi 16S................................................................................................................ 40
Hình 3.4. Biểu đồ ghi lại tín hiệu đo kích thước sản phẩm gắn index ................ 41
Hình 3.5: Rarefaction curve dựa trên dữ liệu trình tự của bốn hệ vi sinh vậtcác
OTU 0,1 ............................................................................................................... 42
Hình 3.6: Cấu trúc quần thể vi sinh vật ở mức độ ngành.................................... 43
Hình 3.7. Cấu trúc quần thể vi sinh vật ở mức độ lớp ........................................ 45
v


Hình 3.8. Cấu trúc quần thể vi sinh vật ở mức độ họ ......................................... 46
Hình 3.9. Biểu đồ thể hiện cấu trúc quần thể vi sinh vật có lợiở mức độ chi ..... 47
Hình 3.10. Biểu đồ thể hiện cấu trúc quần thể vi sinh vật có hại mức độ chi .... 49
Hình 3.11. Biểu đồ thể hiện cấu trúc quần thể vi sinh vật có ích mức độ loài ... 49
Hình 3.12. Biểu đồ thể hiện cấu trúc quần thể vi sinh vật có hại mức độ loài ... 50

vi


DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT

TCT


: Tái canh tốt

TCB

: Tái canh bệnh

NSC

: Năng suất cao

NSTB

: Năng suất trung bình

OM

: Hữu cơ tổng số

Nts

: Nitơ tổng số

Pts

: Photpho tổng số

Kts

: Kali tổng số


Pdt

: Photpho dễ tiêu

Kdt

: Kali dễ tiêu

vii


MỞ ĐẦU
Quần thể sinh vật (archaeal, vi khuẩn, nấm, tuyến trùng) quanh hệ rễ thường tạo nên
sinh thái điển hình và đặc trưng cho từng loài thực vật, đóng vai trò quan trọng trong sinh
trưởng và phát triển của cây. Các sinh vật này có thể cung cấp các chất dinh dưỡng, các chất
kích thích cho việc tăng cường phát triển của cây và ngăn ngừa sâu bệnh hoặc giúp cây
chống chịu với các điều kiện bật lợi như nóng, lạnh, muối và hạn hán.
Cà phê là cây công nghiệp dài ngày, là một trong những cây chủ lực mang lại
hiệu quả kinh tế cao cho ngượi trồng và cho kinh tế chung cho cả nước. Năm 2012
Việt Nam đã vượt qua Brasil trở thành quốc gia đứng đầu thế giới về xuất khẩu cà phê.
Lượng cà phê xuất khẩu tăng liên tục hàng năm. Năm 2016, Việt Nam xuất khẩu 1,78
triệu tấn với kim ngạch 3,34 tỷ USD, tăng 32,8% về khối lượng và tăng 24,7% về giá
trị so với năm 2015. Tuy nhiên do tập trung vào tăng sản lượng nên các vùng đất trồng
cà phê đang bị khai thác quá mức, gây ô nhiễm nguồn nước, đất bị xói mòn, bạc màu,
phát sinh dịch bệnh, tạo điều kiện cho các vi sinh vật kháng thuốc trừ sâu…. Vấn đề
nghiên cứu có tính hệ thống các sinh vật (có lợi và có hại, cộng sinh và ký sinh…) và
nguồn gen của chúng trong đất và trên cây trồng ở các vùng canh tác hiệu quả sẽ là cơ
sở khoa học định hướng, xây dựng các giải pháp cải tạo hiệu quả khu hệ sinh vật, góp
phần thúc đẩy phát triển cây cà phê một cách bền vững.

Hiện nay, metagenomics (phân tích DNA của các vi sinh vật trong môi trường
mà không cần nuôi cấy) là công nghệ mới, kết hợp các kỹ thuật công nghệ sinh học
khác nhau từ công nghệ gen, giải trình tự đến đến tin sinh học để nghiên cứu thành
phần, chức năng và động học của quần thể vi sinh vật. Các dữ liệu thu được từ nghiên
cứu metagenomics có thể cho phép phát hiện các đối tượng vi sinh vật gây bệnh, dự
báo được dịch bệnh để có các biện pháp phòng trừ hiệu quả. Việc đánh giá được đa
dạng của quần thể vi sinh vật trong đất canh tác, xác định được các nhóm vi sinh vật
có lợi, có hại… sẽ làm cơ sở để nghiên cứu các chế phẩm sinh học nhằm cải tạo đất,
kích thích các vi sinh vật có lợi, tăng cường sức đề kháng chống chịu, tăng năng suất,
chất lượng của cây trồng.

1


Xuất phát từ những phân tích trên chúng tôi tiến hành đề tài nghiên cứu “Ứng
dụng kĩ thuật metagenomics trong nghiên cứu hệ vi sinh vật vùng rễ cây cà phê tại
huyện Cư M’gra tỉnh Đăk Lăk”.

Mục tiêu nghiên cứu
Đánh giá được cấu trúc hệ vi khuẩn đất vùng rễ cây cà phê và bước đầu
khảo sát tác động của hệ vi sinh vật đến sinh trưởng và phát triển của cây cà phê
tại tỉnh Đăk Lăk.
Nội dung nghiên cứu
- Tách chiết DNA tổng số từ các mẫu đất nghiên cứu.
- Giải trình tự phân đoạn 16S ribosome bằng kỹ thuật metagenomics
- Xác định và so sánh thành phần nghành, lớp, họ, chi, loài của hệ vi
khuẩn đất vùng rễ cây cà phê.
Địa điểm nghiên cứu
Phòng Công nghệ Tế bào Thực vật – Viện Công nghệ Sinh học – Viện
Hàn lâm và Khoa học Việt Nam


2


CHƯƠNG 1: TỔNG QUAN TÀI LIỆU

1.1. Cây cà phê và tình hình sản xuất cà phê
1.1.1. Nguồn gốc,phân bố cây cà phê
Cây cà phê có nguồn gốc từ châu Phi cận nhiệt đới và phía Nam châu Á, thuộc họ
Rubiaceae. Về hình thái, cây cà phê là cây bụi luôn xanh hoặc cây nhỏ có thể cao tới 5
m. Lá có màu xanh đậm và bóng, thường dài 10-15 cm và rộng 6,0 cm, hoa trắng,
thơm. Quả cà phê có hình oval, dài khoảng 1,5 cm, khi chưa chín có màu xanh, chín
dần thành màu vàng, sau đó đỏ thắm và đen . Mỗi quả thường có 2 hạt nhưng đến 510% số quả chỉ có 1 hạt. Quả chín trong khoảng từ 7-9 tháng. Hai loài cà phê chính
được trồng phổ biến là Coffea canephora (thường được gọi là “robusta”) và C.
arabica. Trong các loài cà phê đang được trồng trên thế giới, C. arabica là loài được
đánh giá cao nhất, có nguồn gốc từ vùng cao nguyên phía tây nam của Ethiopia, cao
nguyên Boma ở phía đông nam Sudan, và Mount Marsabit ở phía bắc Kenya. C.
canephora có nguồn gốc Guinea Uganda và miền nam Sudan. Các loài cà phê phổ
biến hơn là C. liberica, C. excelsa, C. stenophylla, C. mauritiana, và C. racemosa
(vi.wikipedia.org/wiki/Cà_phê).
1.1.2. Tình hình sản xuất cây cà phê tại Việt Nam
Theo VIFOCA, niên vụ 2015-2016 (tính từ ngày 1/10/2015-30/9/2016), Việt Nam
xuất khẩu được gần 1,75 triệu tấn cà phê, đạt kim ngạch 3,16 tỷ USD, tăng 34,8% về
lượng và tăng 17,2% về kim ngạch. Đây là niên vụ có khối lượng xuất khẩu cao nhất
trong 3 năm qua. Đó cũng là nguồn thu nhập chủ yếu của 540.000 hộ nông dân với
hơn 1,6 triệu lao động ở vùng sâu, vùng xa, nhất là ở Tây Nguyên. Cà phê Việt Nam
được trồng chủ yếu tại Lâm Đồng, Đăk Lăk, Gia Lai và Đắc Nông.
Với ý nghĩa kinh tế to lớn từ xuất khẩu hàng năm tăng liên tục của các sản phẩm cà
phê đã đưa Việt Nam trở thành một trong những quốc gia xuất nông sản lớn nhất trên
thế giới. Tuy nhiên, do năng suất cà phê Việt Nam quá cao, khai thác quá mức nên cây

cà phê, quá trình đầu tư thâm canh quá mức trong điều kiện không có cây che bóng,
thoái hoá đất, sâu bệnh gây hại…làm cây cà phê nhanh chóng kiệt quệ, già cỗi. Theo
TS. Lê Ngọc Báu, Viện trưởng Viện Khoa học kỹ thuật nông lâm nghiệp Tây Nguyên,
năm 1980, cả nước có 22.500 ha cà phê, năng suất bình quân 0,78 tấn/ha, sản lượng

3


8.400 tấn; nhưng nay diện tích trên 600.000 ha, sản lượng 1,5 triệu tấn/năm, năng suất
từ 2,3 – 2,5 tấn/ha. So với năm 1980, sản lượng cà phê tăng trên 180 lần, năng suất
tăng 3 lần năm 2013. Theo thống kê của Cục Trồng Trọt năm 2013, cả nước có trên
80.000 ha cà phê trên 20 năm tuổi và khoảng 40.000 ha cà phê dưới 20 năm nhưng đã
có biểu hiện già cỗi, sinh trưởng kém, nhiều cành không cho quả; tổng diện tích cà phê
già cần phải trồng thay thế và chuyển đổi trong 5 – 10 năm tới khoảng 140.000 –
160.000 ha, chiến gần 30%, tập trung tại 2 tỉnh Đắk Lăk và Lâm Đồng (Theo Cục
Trồng trọt-Bộ Nông nghiệp và phát triển nông thôn; giacaphe.com, 2013). Tỉnh Đăk
Lăk có trên 185.000 ha cà phê, mỗi năm cho thu hoạch từ 380.000 tấn trở lên với trên
51% diện tích cà phê đã hơn 15 tuổi, cho năng suất thấp dần (theo ông Nguyễn Văn
Sinh, Phó giám đốc Sở NN&PTNT tỉnh Đăk Lăk).
Tương tự, tỉnh Lâm Đồng có khoảng hơn 40.000 ha cà phê có độ tuổi từ 15-30 năm,
(chiếm hơn 27% tổng diện tích cà phê của tỉnh) cần được tái canh. Theo Bộ NNPTNT, hiện nay, diện tích cà phê già cỗi cần phải trồng thay thế và chuyển đổi trong 5
– 10 năm tới khoảng 140 – 160 nghìn ha (chiếm trên 20% diện tích cà phê của toàn
vùng). Trong đó diện tích cà phê trên 20 năm tuổi hiện có trên 86 nghìn ha, chưa kể
khoảng 40 nghìn ha cà phê dưới 20 tuổi nhưng đã có biểu hiện già cỗi cho năng suất
và chất lượng thấp.
Việc đẩy mạnh tái canh, thay thế vườn cây già cỗi đang đứng trước không ít trở
ngại cho ngành cà phê Việt Nam do kỹ thuật và chi phí trong quá trình tái canh. Việc
tái canh cây cà phê chi phí rất cao, tỷ lệ sâu bệnh cũng rất lớn, đặc biệt nghiêm trọng là
bệnh tuyến trùng hại rễ - một trong những khó khăn chính ảnh hưởng nghiêm trọng
đến sản xuất cà phê trên thế giới. Các nhóm tuyến trùng phổ biến nhất và gây hại nhiều

nhất trên cà phê là Meloidogyne và Pratylenchus [10]. Tại Việt Nam các loài tuyến
trùng Pratylenchus coffea and Meloidogyne spp. and Radopholus arabocoffea được
biết đến là tác nhân chính gây hại cho 24%, 9% and 12% các mẫu rễ cà phê được phân
tích. Tại Việt Nam vào những năm 1970, tuyến trùng Pratylenchus coffeae đã làm suy
yếu và chết hàng loạt các vườn cà phê chè tại Phủ Quỳ - Nghệ An. Đến năm 1994,
hiện tượng vàng lá do các bệnh hại rễ xuất hiện phổ biến tại một số tỉnh trồng cà phê
của tỉnh Đăk Lăk và sau đó là các vùng trồng khác của Tây Nguyên, gây hại hàng trăm

4


ha cà phê tại Đăk Lăk. Năm 1997, ở Đăk Lăk có trên 3.000 ha cà phê bị vàng lá, trong
đó có gần 50% diện tích vàng lá do các bệnh hại rễ. Gần đây nhất, trong năm 2008 tại
vùng Phủ Quỳ - Nghệ An đã có gần 100 ha cà phê chè Catimor đưọc trồng lại trên đất
cà phê được thanh lý cũng đã bị tuyến trùng gây hại và chết hàng loạt. Tuyến trùng có
thể gây tác hại trong thời kỳ vườn ương nhưng chủ yếu là ở trên đồng ruộng. Cây cà
phê bị tuyến trùng thường sinh trưởng kém, mùa khô thường bị vàng héo, cây bị nặng
có thể chết khô ngay ở trên lô trồng. Triệu chứng của tuyến trùng gây vết thương là
làm cho rễ bị sưng u, có những đường nứt nẻ. Còn tuyến trùng gây nốt sần chỉ ở trên
các rễ phụ có những u dạng nốt sần.
Việc phòng trừ nhóm tuyến trùng gây hại rất khó khăn ngay cả khi sử dụng các biện
pháp hóa học, sinh học. Ngoài ra các biện pháp canh tác để hạn chế nhóm tuyến trùng
được sử dụng như việc để đất hoang hóa một thời gian dài trước khi canh tác mới hay
luân canh đều không mang lại hiệu quả cao do ảnh hưởng trực tiếp đến thu nhập kinh
tế của người trồng cà phê. Đây là vấn đề nan giải đòi hỏi các biện pháp giải quyết triệt
để nhằm đảm bảo sự phát triển ổn định và bền vững của ngành cà phê Việt Nam.
Các nghiên cứu gần đây cho thấy chất đất và hệ vi sinh vật tồn tại trong đất là một
trong những nguyên nhân cơ bản tác động đến sự phân bố của tuyến trùng. Số lượng
và thành phần của tuyến trùng khác nhau trong các mẫu đất có đặc điểm khác nhau.P.
Q. Trinh và đồng sự đã xác định rằng tuyến trùng thuộc nhóm Meloidogyne spp. được

tìm thấy nhiều trong đất sét, trong khi nhóm tuyến trùng R. arabocoffeaetập trung chủ
yếu trong đất cát và đất mùn và Pratylenchus spp. tồn tại với số lượng lớn trong đất cát
(P.Q.Trinh et al., 2009). Nhóm tác giả này cũng chỉ ra rằng trong điều kiện nhà kính vi
khuẩn Pasteuria penetrans có khả năng hạn chế đáng kể số lượng tuyến trùng trong
đất trồng cà phê (P.Q.Trinh et al., 2009).
1.2. Hệ vi sinh vật đất và ý nghĩa đối với sinh trưởng, phát triển của cây trồng
1.2.1. Giới thiệu về hệ vi sinh vật

Vi sinh vật (VSV) có vai trò quan trọng trong các chu trình sinh thái như hình thành
cấu trúc đất, phân hủy chất hữu cơ, tham gia chu trình chuyển hóa các nguyên tố, chất
quan trọng (C, N, P, K…) và các chất dinh dưỡng khác. Chúng cũng tham gia kìm
hãm sự phát triển bệnh ở cây, tăng sinh trưởng cho cây giúp cây thích ứng với môi

5


trường. Nhóm VSV sống tự do trong đất lại có vai trò đặc biệt quan trọng trong việc
tạo nên độ màu mỡ, độ phì của đất. Chúng đảm bảo trạng thái cân bằng cho cây trong
môi trường đất. Một số VSV thuộc nhóm này có khả năng chuyển hóa các chất trong
đá mẹ thành đất và cung cấp chất dinh dưỡng cho cây, trong đó có những loại chuyển
hóa lân (P) và kali (K). Nhóm VSV vùng rễ là đội ngũ "vệ sinh viên" đông đảo và cần
mẫn. Chúng giúp cây phân hủy các chất hữu cơ, các chất cặn bã do cây bài tiết ra, các
chất này thường là không cần thiết đối với cây, có độc cho cây. Các loại VSV này
phần lớn là các loại đối kháng, chúng luôn cạnh tranh với các loại VSV, tuyến trùng...
gây bệnh cho cây ở trong đất và do đó tránh cho cây được nhiều loại bệnh. Mặt khác
thông qua quá trình phân hủy các chất hữu cơ, chúng cung cấp cho cây những chất
dinh dưỡng cần thiết như P, Ca, Cu, Fe...
Hệ vi sinh vật tồn tại xung quanh cây trồng đóng vai trò hết sức quan trọng lên năng
suất và chất lượng cây trồng [35] [66]. Nhìn chung, trong mối quan hệ với cây trồng,
VSV có thể cộng sinh (có lợi) hoặc gây bệnh (hại) cho cây. Vi sinh vật cộng sinh có

thể sống chung với cây trồng trong những mối quan hệ rất khăng khít và là một phần
không thể thiếu giúp cây trồng sinh trưởng và phát triển tốt. Một ví dụ cho mối quan
hệ trên là các VSV Rhizobium sp. trong nốt sần rễ cây họ Đậu Fabaceae, có vai trò
quan trọng trong quá trình cố định nitơ cho cây.
Các VSV gây bệnh cho cây đã từ lâu được xác định là khá nhiều về số lượng và
thường gây ra nhiều thiệt hại cho nông nghiệp. Tuy nhiên, cho đến nay người ta còn
nhìn nhận nhóm VSV này tương đối phiến diện. Người ta chỉ thấy gây hại mà quên
mất vai trò của nó trong các chu trình chuyển hóa vật chất, trong cân bằng sinh thái.
Trong các hệ sinh thái, chính các mối quan hệ giữa các mối quan hệ giữa các loại VSV
trong nhiều trường hợp mang ý nghĩa quyết định đối với trạng thái cân bằng, với sự
tốn tại và phát triển của các hệ đó.
1.2.2. Vi sinh vật đất vùng rễ
Vi sinh vật vùng rễ nói chung và nấm rễ nói riêng có ý nghĩa rất quan trọng trong
đời sống của thực vật ở cạn. Tập hợp vi sinh vật bao gồm vi khuẩn và nấm trong vùng
rễ có thể có ích hoặc gây hại cho cây [2][60]. Chúng có vai trò thực tiễn trong nền kinh
tế, khoa học và các chu trình vật chất, năng lượng trong tự nhiên. Các nấm cộng sinh

6


hình thành rễ nấm (mycorrhiza) cộng sinh với thực vật có thể ứng dụng trong lâm
nghiệp, đặc biệt trong việc trồng rừng, như Pisolithus tinctorius hình thành rễ nấm
ngoại dinh dưỡng (ectomycorrhiza) cộng sinh với cây thông nhựa (chi Pinus) hoặc cây
bạch đàn (chi Eucalyptus), giúp gia tăng tỷ lệ sinh trưởng của cây P. tinctorius hình
thành rễ nấm cộng sinh chặt chẽ với rễ cây thông, giúp cây tăng cường sự hấp thụ vận
chuyển các yếu tố dinh dưỡng như: N, P, K, Ca... nên nó được ứng dụng trong các dự
án tái sinh hoặc trồng mới các rừng thông nhựa, bạch đàn ở các vùng đất nghèo dinh
dưỡng hay đất cát. Bởi vậy, chúng ta có thể chọn lọc các vi sinh vật có ích và chủ động
bón cho đất và vùng môi trường rễ nhằm mục đích tăng cường các hoạt động có lợi
cho nông nghiệp theo định hướng như cải thiện tính ổn định đất, kìm hãm sinh vật có

hại cho cây và giúp cây phát triển tốt [36] [38] [52].
Đất trồng tự nhiên đều có khả năng ngăn chặn các tác nhân gây bệnh trong một mức
độ nhất định, điều này được chứng minh bằng các so sánh mức độ nhiễm bệnh khi tiến
hành gây nhiễm bệnh nhân tạo trên đất tiệt trùng và đất không tiệt trùng. Quá trình ức
chế bệnh tự nhiên này được cho là có liên quan đến hoạt động của cộng đồng vi sinh
vật. Việc thay đổi hữu cơ có thể kích thích hoạt động của hệ vi sinh vật trong đất trồng
và kết quả là tăng cường khả năng ức chế bệnh tự nhiên của đất trồng. Ức chế chọn lọc
là quá trình xảy ra khi một số vi sinh vật nhất định trong đất ức chế một loại tác nhân
gây bệnh. Quá trình ức chế chọn lọc xảy ra đồng thời với ức chế tự nhiên của đất sẽ
làm tăng hiệu quả ức chế bệnh. Tuy nhiên có rất ít trường hợp các nhà khoa học có thể
phân lập từ đất các vi sinh vật có khả năng ức chế tác nhân gây bệnh. Sau nhiều thập
kỷ nghiên cứu, các nhà bệnh lý học thực vật đã phát hiện ra rằng các hệ vi sinh vật cực
kỳ phức tạp đóng vai trò ức chế tác nhân gây bệnh, các nghiên cứu chỉ ra rằng các
phức hệ vi sinh vật này có thể góp phần vô cùng hữu ích cho sản xuất nông nghiệp.
Không một vi sinh vật riêng lẻ nào được phân lập lại có khả năng tương tự, điều này
cho thấy tác động qua lại, hỗ trợ nhau trong quá trình ức chế tác nhân gây bệnh của các
thành viên trong hệ vi sinh vật đất. Qua đó có thể nhận thấy tiềm năng của hệ vi sinh
vật đất là rất lớn và nghiên cứu thành công hệ vi sinh vật này hứa hẹn mang lại nhiều
thành tựu to lớn trong lĩnh vực sản xuất các chế phẩm sinh học như phân bón vi sinh
hay tác động đến hệ vi sinh vật đất nhằm cải thiện và nâng cao chất lượng cây trồng.

7


Hệ vi sinh vật trong đất được đánh giá là có mức độ đa dạng loài phong phú nhất
trong các hệ vi sinh vật đã được nghiên cứu từ trước tới nay [16]. Trong 1 gam đất
vùng rễ có thể chứa tới 1011 tế bào vi sinh vật và hơn 30,000 loài prokaryote [40]. Hệ
genome của cộng đồng vi sinh vật này lớn hơn nhiều so với genome của thực vật và
còn được gọi là bộ gen thứ hai của thực vật. Thực tế đãc ho thấy, thực vật không thể
tồn tại và phát triển nếu thiếu hệ vi sinh vật đất. Trên một số môi trường đất, cây trồng

vẫn phát triển tốt ngay cả khi tồn tại các tác nhân gây bệnh ở mật độ cao. Tác động của
hệ vi sinh vật trong đất lên sinh trưởng và phát triển của thực vật được thể hiện rõ ràng
nhất qua quá trình ức chế tác nhân gây bệnh: khi đất được tiệt trùng, các tác nhân ức
chế bệnh cũng biến mất.
1.3. Công nghệ metagenomics và ứng dụng nghiên cứu đa dạng di truyền của các
hệ vi sinh vật đất
Các nghiên cứu từ trước cho thấy rằng phần lớn các vi sinh vật tồn tại trong môi
trường xung quanh chúng ta không thể nuôi cấy trên môi trường nhân tạo trong phòng
thí nghiệm và do đó không thể xác định trình tự DNA cũng như nghiên cứu phân tích
[1]. Những nghiên cứu đầu tiên về metagenomics đã tập trung phân tích trình tự 16S
rRNA, những trình tự này thường ngắn, mang tính bảo thủ cao trong cùng một loài và
khác nhau giữa các loài [64][6]. Các nhà khoa học đã phát hiện nhiều trình tự 16S
rRNA được tìm thấy không thuộc về bất kỳ loài nào đã được phân lập trước đây. Điều
này cho thấy rằng đã có rất nhiều loài vi sinh vật bị bỏ sót không được nghiên cứu đến.
Phân tích trình tự các đoạn 16S rRNA thu trực tiếp từ môi trường tự nhiên cho thấy
rằng bằng phương pháp nuôi cấy truyền thống, chúng ta chỉ có thể nghiên cứu được
khoảng 1% số lượng các loài vi sinh vật tồn tại trong mẫu tự nhiên thu được [23].
Theo Amann và các đồng sự, bằng các phương pháp vi sinh truyền thông chỉ có thể
nuôi cấy khoảng 0.001–0.1% các loài vi sinh vật biển, 0.25% loài vi sinh vật nước
ngọt, 0.25% trong trầm tích và chỉ 0.3% sinh vật đất [1].
Việc phân lập và nuôi cấy trên môi trường nhân tạo là những phương pháp truyền
thống thường được sử dụng để nghiên cứu phân tích vi sinh vật, tuy nhiên hơn 99% vi
sinh vật không thể được phân lập và nuôi cấy theo các phương pháp này, do đó hiện
nay mới chỉ có một phần rất nhỏ các gen và các vi sinh vật được nghiên cứu đến. Để
khắc phục các hạn chế của các phương pháp trên, các nhà nghiên cứu đã đề xuất

8


phương pháp tách chiết và phân tích thông tin di truyền (chủ yếu là DNA) trực tiếp từ

mẫu đất. Theo lý thuyết, DNA tách chiết được từ một mẫu đất mang thông tin di
truyền của tất cả các vi sinh vật tồn tại trong hệ vi sinh vật mẫu đất đó. Do trong đất
thường tồn tại các hợp chất liên kết với phân tử DNA, cản trở các phản ứng hóa học
của phân tử này, việc tinh sạch loại bỏ các hợp chất này là một khâu cực kỳ quan trọng
cho các bước phân tích sau này [49][13]. Sau bước tinh sạch DNA việc phân loại các
vi sinh vật đất có thể thực hiện bằng cách nhân bản các đoạn gen 16S RNA nhờ phản
ứng PCR. Bằng cách này có thể phân tích mức độ đa dạng của hệ vi sinh vật đất, so
sánh các hệ vi sinh vật của các mẫu đất khác nhau, cũng như nghiên cứu sự thay đổi về
cấu trúc khi có tác động của các yếu tố bên ngoài. Ngoài 16S rRNA một số gen khác
cũng được sử dụng để nghiên cứu đánh giá đa dạng di truyền của vi sinh vất đất như
dnaK (HSP-70-type molecular chaperone) và amoA (ammonia monooxygenase).
“Metagenomics” xuất phát từ ý tưởng cho rằng nghiên cứu phân tích thông tin di
truyền của một hệ sinh vật (thường là vi sinh vật) có thể thực hiện tương tự như việc phân
tích thông tin di truyền của một cá thể đơn lẻ. Công nghệ metagenomics ra đời đã khắc
phục được những hạn chế của các phương pháp truyền thống, hướng sự tập trung nghiên
cứu vào các vi sinh vật chưa được chú ý đến. Bằng cách phân lập và nghiên cứu trực tiếp
genome của toàn bộ các vi sinh vật tồn tại trong một môi trường nghiên cứu, ta có thể có
thông tin di truyền của hệ vi sinh vật ở đó mà không cần phải phân lập và nuôi cấy từng tế
bào riêng lẻ.
1.4. Các bước ứng dụng công nghệ metagenomics trong nghiên cứu da dạng khu
hệ sinh vật từ môi trường
Các bước ứng dụng công nghệ metagenomics trong nghiên cứu da dạng khu hệ sinh
vật từ môi trường có thể chia thành ba phần chính như sau:
Phần 1: Giải trình tự
Từ những năm 70 của thế kỷ trước, trình tự DNA toàn bộ hệ gene của sinh vật đầu
tiên được giải mã là của thể thực khuẩn Bacteriophage fX174 trên vi khuẩn
Escherichia coli (dài chỉ 5,368 bp, gồm 11 gene). Đến đầu những năm 90, hệ gene của
Saccharomyces cerevisiae (nấm men, dài khoảng 12,5 triệu bp, gồm 5770 gene), sinh
vật đa bào đơn giản nhất được giải mã toàn bộ (kích thước lưu trữ 12,8 Mb), tạo tiền


9


đề cho chương trình giải mã hệ gene người (dài 3,3 tỷ bp, gồm khoảng 21,000 gene,
kích thước 3,000 Mb) thành công năm 2003.
Những tiến bộ về chi phí cho giải trình tự và thời gian giải trình tự trung bình (vd.
Theo thống kê của National Human Genome Research Institute, giải trình tự hệ gene
người cần 95 triệu USD (01/2001), đến tháng 01/2012 đã giảm xuống còn 7,666 USD)
được đánh giá là một trong những thành tựu khoa học lớn nhất trong lịch sử nhân loại,
mở ra một chương mới trong nghiên cứu sinh học, y học và dược học. Đến nay, những
dự án giải trình tự hàng nghìn hệ gene người hay các quần thể vi sinh vật đã trở nên rất
khả thi. Nghiên cứu metagenomics ra đời và phát triển được trước hết nhờ có những
kỹ thuật giải trình tự mới này.
Phần 2: Quản lý và phân tích metabase
Metabase được hiểu là hệ thống cơ sở dữ liệu metagenome bao gồm các thành phần
chính sau đây:
➢Các tập dữ liệu metagenome (trình tự DNA, RNA, protein) thu được từ hệ vi sinh
vật trong mẫu.
➢Tập dữ liệu tham chiếu: toàn bộ hệ gene của các loài vi khuẩn, virus, v.v.
➢Các tập dữ liệu metagenome có chú giải về đa dạng phân loài, chức năng, v.v.
Metabase được lưu trữ và quản lý bởi một số viện, trung tâm nghiên cứu lớn của thế
giới. Phần lớn trong số đó cung cấp các dịch vụ miễn phí như: tiếp nhận lưu trữ, truy
vấn, thống kê, tổng kết, và môt số công cụ tính toán. Đặc điểm chung của các hệ thống
này là: (i) Dung lượng lưu trữ lớn; (ii) Dữ liệu được tổ chức theo chuẩn nhất định, sử
dụng cơ sở dữ liệu quan hệ (chuẩn thường được sử dụng nhất là của Genome
Standards Consortium (GSC)); (iii) Sử dụng những máy chủ mạnh, siêu máy tính, môi
trường tính toán song song hoặc đám mây cho các tác vụ tính toán trên dữ liệu lớn;
(iv) Phân quyền truy vấn đối với các tập dữ liệu, người dùng; (v) Cho phép tải các tập
dữ liệu lên và trả về kết quả phân tích qua Internet.
Sau đây là một số hệ thống tiêu biểu, có những điểm cần tham khảo khi thiết kế hệ

thống của Việt Nam:

10


➢ Intergrated Microbial Genomes (IMG), JGI bộ Năng lượng Mỹ: tập dữ liệu
metagenomics đất, nước biển, nước ngọt, suối nước nóng, vật chủ (cây công
nghiệp, ruột động vật), môi trường ô nhiễm.
➢ MetabioME, RIKEN, Nhật: Tập hợp các tập dữ liệu metagenomics, dữ liệu tham
chiếu (971 hệ gene vi khuẩn), v.v đã được công bố từ 10 nguồn khác nhau, như
ENZYME, Swiss-Prot, BRENDA, GenBank, v.v. và chú giải bằng tay bởi các
chuyên gia. Đặc biệt, cung cấp danh sách trên 500 enzymes có giá trị thương
mại đã được công bố quốc tế.
➢ MG-RAST, NIH, Mỹ: Lưu trữ 50,683 tập dữ liệu metagenomics (trong đó trên
10,095 miễn phí), 14.2 Tbp DNA.
➢ CAMERA, Calit2, Mỹ: Cổng thông tin hỗ trợ lưu trữ dữ liệu metagenomics thô,
đã chú giải, đã phân tích và các công cụ tin sinh mạnh được tổ chức thành một
giải pháp nhất định hoặc luồng công việc.
Phần 3: Tính toán và phân tích dữ liệu metagenome
Phân tích dữ liệu metagenomics tuân theo một quy trình nhất định (analysis pipeline)
cho các loại dữ liệu khác nhau và tùy theo mục tiêu phân tích của bài toán sinh học.
Tuy nhiên, có một số tác vụ cơ bản chung, trong đó các đề tài nhánh của đề án yêu cầu
2 tác vụ đầu tiên, như sau:
➢ Sự đa dạng phân loài (taxonomic binning): Nhận diện thành phân vi sinh vật của
môi trường đang xét: nhóm sinh vật, số lượng, vị trí trên cây phân loài v.v.
➢ Sự đa dạng chức năng (functional binning): Nhận diện chức năng của các gene
có mặt trong quần thể vi sinh đang xét và vai trò của chúng trong các quá trình
sinh học như trao đổi chất (metabolic pathways) và tổng hợp (biosynthetic
pathways), v.v. Phát hiện gene mới cũng nằm trong nhóm bài toán này.
➢ Ghép hệ gene (genome assemly): Từ số lượng lớn chuỗi DNA ngắn kết quả của

quá trình giải trình tự, yêu cầu lắp ghép lại thành chromosome hoặc hệ gene gốc.
Bài toàn này đặc biệt khó do bản chất hỗn tạp và dư thừa của dữ liệu
metagenomics.
➢ So sánh các quần thể vi sinh vật (comparative metagenomics of microbial
communities): Đặc điểm của quần thể vi sinh trong các mẫu môi trường có thể

11


được so sánh, ví dụ đa dạng phân loài, chức năng, hay khả năng trao đổi chất
(metabolic capacities) nhằm tìm ra đặc trưng quy định tính chất của từng quần
thể. Do khó ghép hệ gene, các chuỗi trình tự gene có thể được so sánh trực tiếp
với nhau.
Về cơ bản, các phương pháp tính toán có thể thuộc một trong số hoặc kết hợp hai
hướng tiếp cận sau: Dựa vào đặc tính của chuỗi DNA (sequence-based): số lượng, tần
số của nucleotide, motifs v.v. là đầu vào cho các thuật toán phân loại; và Dựa vào tính
tương đồng của chuỗi DNA (homolog-based): tìm sự tương đồng với chuỗi đã được
chú giải trong cơ sở dữ liệu tham chiếu, cây phân loài (NCBI) hoặc cây/con đường
chức năng (KEGG, SEED) để gán phân nhóm hay chức năng gần nhất.
Như đã nêu trên, hai khó khăn lớn nhất cho việc tính toán trên dữ liệu metagenomics
là: độ dài chuỗi DNA đọc được và sự dư thừa trong phân loài. Do chuỗi trình tự đọc
được ngắn (short read), việc trích rút đặc tính không có nhiều ý nghĩa. Vì vậy cần thiết
phải ghép lại thành những chuỗi dài hơn (contig) với sai số nhất định. Khi giải trình tự
hệ vi sinh vật, khối trình tự thu về hỗn tạp và không biết được phân bố của các loài
(đôi khi lên đến 10,000 loài). Dư thừa (redundancy) là hệ quả của việc không thể giải
trình tự sâu quần thể vi sinh trên mẫu (lý do chi phí), thay vào đó chỉ giải trình tự ngẫu
nhiên một phần (subsample). Khi đó một số loài hiện diện với tỷ lệ quá lớn so (thường
là những loài không cần quan tâm) với số còn lại hoặc hoàn toàn bỏ qua những loài
thiểu số gây khó khăn cho cách thuật toán lắp ghép, tìm chức năng, v.v. dẫn đến kết
quả bị bóp méo (biased).

Các công cụ đã được phát triển và công bố cho metagenomics tương đối nhiều, chạy
qua giao diện web, dòng lệnh, hoặc giao diện đồ họa, v.v., có thể chia thành ba nhóm
sau:
➢Nền tảng tính toán (platform): cung cấp khả năng đưa các công cụ, thuật toán v.v
vào dưới dạng các module chức năng, ghép nối thành các luồng giải pháp
(analysis pipeline) cho từng vấn đề cụ thể, ví dụ như: Galaxy, MG-Rast,
IMG/M, CAMERA.

12


➢Gói phần mềm (package): tập hợp các công cụ, tiện ích trong phân tích
metagenomics, ví dụ như Qiime, MetaABC, MetabioME, MEGAN. Các gói
này được cài đặt trên nền Windows, Linux, v.v.
➢Công cụ cho từng tác vụ riêng biệt: tìm đa dạng phân loài hoặc và đa dạng chức
năng, ví dụ như BLAST, BLASTX, BLAT, PhyloPythia, Tetra, v.v. Đây chủ
yếu là các thuật toán cơ bản được công bố quốc tế giải quyết một vấn đề nhất
định trong tính toán. Riêng BLAST và các biến thể là công cụ tìm kiếm đối
sánh quan trọng được sử dụng trong hầu hết các hệ thống và gói phần mềm.
Như vậy mặc dù gặp phải những trở ngại khó khăn ban đầu như quá trình tách DNA
khỏi các tạp chất, số lượng khổng lồ các vi sinh vật tồn tại trong môi trường đất, xây
dựng thư viện metagenomic, xác định chức năng của các gen mới v.v… nhưng cùng
với những bước phát triển đột phá trong phương pháp đọc trình tự và công cụ tin sinh
học công nghệ metagenomics hiện nay đã đạt được những thành tựu đáng kể và ngày
càng được quan tâm phát triển hơn. Ứng dụng công nghệ metagenomics đã xác định
được phần lớn các vi sinh vật có mặt trong môi trường đất, so sánh mức độ đa dạng
giữa các môi trường khác nhau, đánh giá sự thay đổi về cấu trúc thành phần của hệ vi
sinh vật dưới tác động của các tác nhân khác nhau lên môi trường. Ngày nay số lượng
lớn dữ liệu thu được từ công nghệ metagenomics đã được công bố rộng rãi, không
những tạo điều kiện thuận lợi cho các nhà khoa học nghiên cứu phân tích các gen mới

mà còn mở ra những hướng mới góp phần cải thiện nâng cao sản xuất nông nghiệp,
công nghiệp.
Nghiên cứu sử dụng kỹ thuật metagenomics và xây dựng thư viện metagenom cho
phép đánh giá đa dạng di truyền và phương pháp trao đổi chất của các vi sinh vật
không thể nuôi cấy trong quần thể vi sinh vật [19, 24].Các vector tách dòng thích hợp
cho nghiên cứu metagenomics bao gồm BAC, cosmid và plasmid. Phân tích các dòng
vô tính ở các bước tiếp theo có thể thực hiện bằng cách đọc trình tự hoặc thông qua
các công cụ sàng lọc chức năng. Việc phân tích dựa trên kết quả đọc trình tự có thể
tiến hành theo phương pháp shotgun metagenome hoặc touchdown PCR với các cặp
mồi đặc hiệu cho các gen quan tâm [24].

13


1.5. Ứng dụng đọc trình tự gen thế hệ mới trong nghiên cứu metagenomics
Đọc trình tự gen (DNA sequencing) là việc xác định thứ tự các nucleotide gắn kết với
nhau dọc theo chiều dài của gen (DNA), và trình tự gắn kết nhau của các nucleotide
được gọi là trình tự gen. Đọc trình tự có thể xác định trình tự các gen riêng lẻ, các
vùng gen lớn, các nhiễm sắc thể hoặc toàn bộ các bộ gen. Tùy theo phương pháp sử
dụng, kết quả cho biết trình tựcủa các nucleotide trong sợi DNA hoặc RNA tách chiết
từ các tế bào động thực vật hoặc các nguồn chứa thông tin di truyền khác.
Kết quả này có nhiều ứng dụng chính như sau:
(i) Biết được trình tự nucleotide của bất cứ một đoạn DNA nào đó và đây chính là cơ
sở để các nhà khoa học có thể đọc trình tự gene hay bộ gen cho các nghiên cứu
có liên quan
(ii)

Phát hiện các thay đổi của trình tự nucleotide của một đoạn DNA, tạo cơ sở cho
phát hiện các đột biến gen, các SNP, các kiểu gene, …


(iii) Định danh vi khuẩn hay vi nấm dựa trên đọc trình tự DNA của RNA ribosome
(16S của vi khuẩn và 28S của vi nấm) đặc biệt là các đối tượng khó định danh
hay không thành công nuôi cấy.
(iv)

Sự khác biệt nhau từng nucleotide của các đoạn DNA được sử dụng trong xét
nghiệm dấu vân tay DNA (DNA finger printing) để nhận dạng cá nhân và mối
quan hệ cá nhân, trong phát hiện đa dạng loài…

Đọc trình tự gen thế hệ mới theo 2 nguyên lý chính sau:
Thứ nhất, đọc trình tự bằng tổng hợp (sequencing by synthesis, SBS) thường
được các thế hệ máy Roche 454, Ion Torrent và Illumina sử dụng. SBS liên quan đến
việc sử dụng một hỗn hợp các dNTP được biến đổi tại vị trí 2’. Hỗn hợp này bao gồm
các dNTP bổ sung tự nhiên và các dNTP bổ sung có đánh dấu huỳnh quang. Quá trình
xác định trình tự sẽ diễn ra tương tự như phản ứng PCR thông thường. Đầu tiên một
đoạn trình tự mồi nằm trên đoạn adapter sẽ được gắn vào phần cuối của đoạn gDNA
khuôn cần đọc trình tự. Sau đó, việc xác định trình tự được thực hiện bằng cách gắn
lần lượt từng dNTP bổ sung có đánh dấu huỳnh quangvào phần cuối của trình tự mồi
trên theo chu trình 3 bước:

14


(i) Một polymerase kết hợp với một dNTP kết thúc có đánh dấu huỳnh quang và
gắn bổ sung với base trên đoạn gen cần đọc trình tự;
(ii) Thiết bị sẽ ghi lại hình ảnh, phần mềm sẽ phân tích hình ảnh thu được để xác
định phân tử dNTP nào được kết hợpvà từ đó tìm ra được trình tự của base bổ
sung.
(iii) Nhóm kết thúc đầu 3’ và tín hiệu huỳnh quang sẽ được cắt bỏ bằng phương
pháp hóa học. SBS xác định trình tự các đoạn genome theo chiều từ đầu 5’ đến

3’.
Nguyên lý thứ hai, đọc trình tự gắn nối (sequencing by ligation, SBL) được sử
dụng ở máy SOLiD. Phương pháp xác định trình tự bằng phản ứng ghép nối (SBL):
được phát minh bởi George Church. SBL đã được sử dụng để xác định trình tự
genome và là nền tảng cho các thiết bị đọc trình tự thế hệ mới. SBL là một chu trình
tuần hoàn gồm 4 bước:
➢Đưa vào các primer neo được thiết kế trình tự bổ sung với trình tự trên adapter.
➢Quá trình lai của nonamers ngẫu nhiên với nhau. Mỗi hỗn hợp nonamer gồm có 4
loại nonamers, mỗi loại có các base và vị trí đã được biết đến. Các chất phát
quang khác nhau được gắn ở cuối của mỗi loại nonamer sẽ cho phép xác định
base trên nonamer.
➢Các nonamer lai với các primer neo. Sau đó, thiết bị ghi hình và phần mềm sẽ
xác định base ở vị trí query.
➢Primer neo, phức hệ nonamer được đọc phóng và quá trình được lặp lại cho các
vị trí query trong hỗn hợp nonamer. SBL hoạt động trong cả hai chiều: chiều
xuôi (5 'đến 3') và chiều ngược (3 'đến 5').
1.5.1. Công nghệ đọc trình tự bán dẫn ion
Khác với các công nghệ đọc trình tự khác, công nghệ đọc trình tự ion torrent sử
dụngnucleotide không bị biến đổi hoặc không sử dụng các mắt đọc. Đọc trình tự bán
dẫn ion (ion semiconductor sequencing) còn được gọi là đọc trình tự giải phóng ion
(ion torrent sequencing),đọc trình tự thông qua pH (pH-mediated sequencing), đọc

15


trình tự silicon (silicon sequencing) hoặc đọc trình tự bán dẫn (semiconductor
sequencing).
Ứng dụng chính của công nghệ này gồm: Đọc trình tự của các mẫu có nhiều chỉ
thị barcode; Đọc trình tự các thư viện đã được gắn adapter; Đọc trình tự genome của vi
khuẩn và virus; Đọc trình tự các mẫu metagenomic, RNA ngắn; Đọc trình tự các dòng

BAC …
a) Nguyên lý của công nghệ
Trong tự nhiên, sự liên kết của một dNTP vào sợi DNA liên quan sự hình thành
liên kết cộng hóa trị, đọc phóng pyrophosphate và ion hydro (Rusk, 2011;
Purushothaman et al., 2006). Một dNTP chỉ liên kết được nếu nó bổ sung với nucleotid
trên sợi khuôn.
Trong hệ thống đọc trình tự, mỗi giếng chứa có một sợi DNA khuôn vàđược
đưa vào một loại dNTP. Nếu loại dNTP này bổ sung với nucleotide trên sợi khuôn thì
nó sẽ liên kết và kéo dài sợi tổng hợp. Điều này dẫn tới sự giải phóng một ion hydro,
tạo thành một cảm ứng ion ISFET (ion-sensitive field-effect transistor) và xác định
một phản ứng đã xảy ra. Nếu trình tự sợi khuôn có sự lặp lại của một loại nucleotide,
thì sẽ có nhiều phân tử dNTP kết hợp trong cùng một chu kỳ, dẫn tới số phân tử hydro
tương ứng được giải phóng và tín hiệu điện tử tăng lên một cách tỷ lệ thuận.
b) Ưu nhược điểm của máy Ion Torrent
Độ chính xác của Ion Torrent ion semiconductor sequencer năm 2011
là99.6%trên 50 base được đọc với 100 Mb /lần chạy. Chiều dài đọc năm 2011 là 100
cặp base.Độ chính xác cho các đoạn lặp lại của đoạn 5 lặp lại là 98% [33]
Ưu điểm chính của ion semiconductor sequencing là i) đọc tốc độ đọc nhanh, ii)
chi phí vận hành và đầu tư thấp [30],iii) không dùng nucleotide biến đổi và xác định
bằng quang học. Vì hệ thống ghi lại hiện tượng liên kết nucleotide tự nhiên nên đọc
trình tự trong một thời gian thực. Tốc độ đọc trình tự chỉ bị giới hạn bởi vòng quay
nucleotides trong hệ thống Ion Torrent Systems Inc., các nhà phát minh công nghệ đã
thông báo rằng mỗi liên kết đo mất 4 giây, và mỗi lần chạy khoảng 1 giờ đọc được
100-200bp [12]. Nếu chip được nâng cấp thì số lần đọc sẽ được tăng lên [12]. Nếu

16


đoạn DNA khuôn có nhiều lần lặp nucleotide cùng loại thì sau khi liên kết có nhiều
ion hydro được giải phóng trong cùng một chu kỳ. Như vậy sự thay đổi pH cực lớn

dẫn tới tín hiệu điện tử tăng lên tương ứng [12]. Điều này là một hạn chế vì rất khó để
xác định một đoạn lặp lại. Hạn chế này cũng gặp ở trong các công nghệ khác như
pyrosequencing [41]. Tín hiệu được tạo ra từ số lặp lại cao là khó khăn để phân biệt từ
sự lặp lại của một số khác nhau nhưng tương tự, ví dụ: lặp lại của đoạn 7 khó phân biệt
với đoạn 8.
Hạn chế khác của hệ thống này là chiều dài đọc ngắn hơn các phương pháp
khác như Sanger sequencing hoặc pyrosequencing. Chiều dài đọc dài là một lợi thế
cho quá trình lắp ráp genome de novo. Chiều dài đọc đã được nâng cao bởiIon Torrent
Systems Inc. là 400 cặp base cho lần chạy [43][51]. Lượng vật liệu đưa vào thấp hơn
so với công nghệ đọc trình tự khác, mặc dù các nhà phát triển hy vọng thay đổi điều
này bằng sự tăng mật độ của chip [51].
c)Ứng dụng của máy đọc trình tự ion torrent
Đối với máy ion semiconductor sequencing nhà sản xuất nhấn mạnh ưu điểm
làđọc trình tự nhanh, liên tục và kinh tế, máy có thể sử dụng trong đa số phòng thí
nghiệm như một máy để bàn [51]. Hoặc sẽ hoạt động ở ngoài các trung tâm đặc trưng,
trong các bệnh viện và các phòng thí nghiệm nhỏ.Công nghệ này phù hợp trong các
ứng dụng nhỏ như đọc trình tự của genom vi khuẩn, đọc trình tựtranscriptome vi
khuẩn, đọc trình tự gen đích amplicon, hoặc kiểm tra chất lượng của thư viện trình tự
[51][30]. Từ khi ra đời tới nay công nghệ đọc trình tự bán dẫn ion đã được ứng dụng
trong nhiều công trình nghiên cứu, như: Dựa trên đọc trình tự DNA của rRNA để định
danh vi khuẩn hay vi nấm [25][61][66] Đọc trình tự genome [3][20][39][47][48][62];
Nghiên cứu đột biến, chức năng của gen đích [4][9][18][22]. Các nghiên cứu cũng đưa
ra được ưu nhược điểm của công nghệ [63].
1.5.2. Công nghệ giải trình tự Illumina (Solexa) sequencing
a. Nguyên lý công nghệ:
Công nghệ giải trình tự của Illumina sử dụng các array đơn dòng và công nghệ
khóa dừng thuận nghịch cho việc giải trình tự trên diện rộng với độ chính các cao. Hệ
thống giải trình tự linh hoạt, hiện đại cho phép thực hiện một loạt các ứng dụng nghiên

17



×