Tải bản đầy đủ (.pdf) (71 trang)

KHAI THÁC D. LI.U ESTs (EXPRESSED SEQUENCE TAGs) . CHI CAM CHANH (CITRUS) CHO VI.C PHÁT TRI.N MARKER PHÂN T. SSR (SIMPLE SEQUENCE REPEATS)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.74 MB, 71 trang )

i

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC NÔNG LÂM TP. HỒ CHÍ MINH
BỘ MƠN CƠNG NGHỆ SINH HỌC
************

KHĨA LUẬN TỐT NGHIỆP
KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE
TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT
TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE
REPEATS)

Ngành học: CƠNG NGHỆ SINH HỌC
Niên khóa: 2003-2007
Sinh viên thực hiện: LƢU TRẦN CƠNG HUY

Thành phố Hồ Chí Minh
Tháng 9/2007


ii

LỜI CẢM ƠN
Xin gửi lòng biết ơn sâu sắc đến ba mẹ và gia đình đã hết lịng hỗ trợ, động viên về
mọi mặt để tơi hồn thành đề tài.
Xin chân thành cảm tạ
Ban Giám hiệu Trƣờng Đại học Nông Lâm Thành Phố Hồ Chí Minh
Ban chủ nhiệm Bộ Mơn Công nghệ Sinh Học cùng tất cả quý thầy cô đã
truyền đạt kiến thức cho tơi trong suốt q trình học tại trƣờng.
Chân thành cảm ơn


TS. Trần Thị Dung đã tận tình hƣớng dẫn, giúp đỡ tơi trong suốt thời gian
thực hiện đề tài tốt nghiệp.
Xin cảm ơn CN. Lƣu Phúc Lợi đã giúp đỡ, hỗ trợ kiến thức và tài liệu chuyên môn.
Xin cảm ơn bạn bè thân yêu của lớp DH03SH đã chia sẻ cùng tôi những vui buồn
trong thời gian học cũng nhƣ hết lòng hỗ trợ, giúp đỡ tôi trong thời gian thực hiện
đề tài.
Tp. Hồ Chí Minh tháng 08 năm 2007
Sinh viên thực hiện

Lƣu Trần Công Huy


iii

TĨM TẮT KHỐ LUẬN
LƢU TRẦN CƠNG HUY, Đại Học Nơng Lâm TP. Hồ Chí Minh, tháng
07/2007. “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED SEQUENCE TAGs) Ở
CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT TRIỂN MARKER PHÂN
TỬ SSR (SIMPLE SEQUENCE REPEATS)”
Hội đồng hƣớng dẫn
TS. Trần Thị Dung
Cử Nhân. Lƣu Phúc Lợi
Khóa luận đƣợc thực hiện tại bộ môn Công Nghệ Sinh Học, trƣờng đại học
Nơng Lâm TP. Hồ Chí Minh, trong khoảng thời gian từ tháng 3/2007 đến 8/2007.
Trong những năm qua, sinh học không ngừng phát triển và đã tạo ra những
kho dữ liệu miễn phí và trực tuyến rất lớn về trình tự gene, protein, bộ gene ... của
thực vật lẫn động vật nhƣ các cơ sở dữ liệu sinh học lớn nhƣ NCBI, EMBL,
DDBj…. Một trong những CSDL lớn đó là ESTs (Expressed Sequence Tags), trong
đó có ESTs của chi cam chanh (citrus). Những trình tự ESTs này có thể đƣợc sử
dụng để khai thác các SSRs (Simple Sequence Repeats). Những SSRs này rất hữu

ích vì chúng có rất nhiều ứng dụng nhƣ genome mapping, phenotype mapping và
chọn giống thực vật nhờ marker phân tử. Hơn thế nữa, việc phát triển marker SSR
từ EST có chi phí rất thấp so với phƣơng pháp phân lập SSR truyền thống.
Để đạt đƣợc mục tiêu trên, khóa luận cần đảm bảo thực hiện những nội dung nhƣ
sau:
1) Dùng Perl script để thu nhận trình tự các nucleotide của ESTs của Citrus
vừa tìm từ trang cơ sở dữ liệu GenBank NCBI.
2) Tìm và tách các đoạn microsatellite có thể có trong mỗi đoạn gen.
3) Tìm SSR nằm trên vùng gen kháng virus Tristeza


iv

4) Tìm hiểu về mơ hình dữ liệu quan hệ, sử dụng mơ hình này vào việc lƣu
trữ dữ liệu các trình tự nucleotide và trình tự SSRs của chi cam chanh (Citrus), và
tạo cơ sở dữ liệu chứa những trình tự này. Sau đó đƣa các dữ liệu này vào cơ sở dữ
liệu chính.
5) Trang web đƣợc thiết kế để chia sẻ thông tin trực tuyến với ngƣời dùng
Kết quả
Thu nhận đƣợc 191.110 trình tự ESTs của các lồi Citrus đƣợc thu thập từ
CSDL dbEST và CoreNucleotide của GenBank. Những trình tự ESTs này đƣợc tìm
các vùng lặp lại, từ đó xác định đƣợc 28.241 SSRs trong 190412 ESTs . 19755
primers đƣợc thiết kế trên vùng flanking của các SSRs. Các primers này đã đƣợc
kiểm tra sự lặp lại và sự bắt cặp đặc hiệu bằng BLAST. Cơ sở dữ liệu có 28241
trình tự SSRs đƣợc chuyển vào CSDL quan hệ và tích hợp vào website BUILDING
SSRs DATABASE of Citrus. Sau khi đƣợc loại bỏ các trình tự tạp, nhiễu và dấu
các trình tự ở các bào quan, trình tự lặp lại và trình tự vector, các trình tự ESTs
đƣợc phân nhóm thành 2 nhóm Contigs và Singletons. Việc nhóm các trình tự giúp
ích cho việc giảm bớt các trình tự dƣ thừa, kéo dài các EST-SSR và xác định các
trình tự bảo tồn. Kết quả là thêm 1071 primers đƣợc thiết kế cho các EST-SSR đƣợc

kéo dài. Ngoài ra, chúng tôi cũng xác định đƣợc 33 EST-SSRs tƣơng đồng gene
kháng virus Tristeza bằng công cụ BLAST với ngƣỡng e-value = 10-10


v

ABSTRACT
LUU TRAN CONG HUY, NONG LAM UNIVERSITY, DATA MINING
FOR DEVELOPING SIMPLE SEQUENCE REPEATS (SSR) MARKER IN
EXPRESSED SEQUENCE TAGS (ESTs) FROM CITRUS
Supervisor:
Dr Trần Thị Dung
Bsc Lƣu Phúc Lợi
The research was carried out at the department of biotechnology at Nong
Lam University.
Recent advances in genomic technologies have generated a vast amount of
publicly available expressed sequence tags (ESTs) in Citrus. These data can be
mined to identify Simple sequence repeats (SSRs) or microsatellites. These SSRs
are useful because of a broad range of application, such as genome mapping and
characterization, phenotype mapping, marker assisted selection of plant breeding,
additional map-based cloning of important genes. Moreover, this method of
developing SSR marker from ESTs is inexpensive comparing to the traditional
methods.
Methodology
1) We used perl script to receive EST sequences from database NCBI
2) Finded and separated SSRs include in ESTs database
3) We were learning about relationship database model to used to saved
nucleotide, SSRs citrus sequences data and created database contain them.
4) Finding SSR which are homologous with tristeza virus resistance gene.
5) Designed web that contain database control software to share information

with users
Results:
28,241 SSR-containing ESTs (EST-SSRs) were identified by analyzing
191,110 ESTs sequences belonging to Citrus in dbEST division of GenBank.
19,755 primers, which were filtered with repetition checking and BLAST checking,


vi

were designed in flanking regions of SSRs. These data were put into relational
database and integrated SSR finder tool into the BUILDING SSRs DATABASE of
Citrus Website. After cleaning, masking repeat, vector and organelle sequences, the
EST-SSR sequences and the related EST sequences without SSRs were assembled
into contigs and singletons, to reduce redundancy, to enlarge EST-SSRs for primer
designed and to develop consensus sequences. As a result, more 1071 primers were
design for these enlarged EST-SSRs. Using a stringent BLAST search with a
threshold e-value = 10-10 against typical pathogen resistance gene database in
Citrus, we identified 33 EST-SSRs which are homologous with tristeza virus
resistance gene.


vii

Mục Lục
LỜI CẢM ƠN ....................................................................................................iii
TĨM TẮT KHỐ LUẬN ................................................................................. iv
ABSTRACT ...................................................................................................... vi
DANH SÁCH CÁC TỪ VIẾT TẮT ................................................................ xi
Chƣơng 1 ............................................................................................................ 1
MỞ ĐẦU ............................................................................................................. 1

1.1 Đặt vấn đề
1.2.Mục tiêu của khóa luận
Chƣơng 2 ............................................................................................................ 3
TỔNG QUAN TÀI LIỆU ................................................................................... 3
2.1 Giớ thiệu về chi cam chanh ........................................................................... 3
2.1.1 Vị trí phân lọai ........................................................................................... 3
2.1.2 Đặc điểm .................................................................................................... 4

2.1.3 Sâu hại và bệnh tật .................................... 6
2.2 EST ............................................................................................................... 7
2.3.1 Sơ lƣợc về EST .......................................................................................... 7
2.3.2 Nguồn gốc của EST ................................................................................... 7
2.3.Sơ lƣợc về phƣơng pháp Microsatellite (SSR) ............................................. 8
2.3.1Những khái niệm về kỹ thuật microsatellite ............................................... 8
2.3.2 Giới thiệu chung ......................................................................................... 9
2.3.2.1 Tính chất.................................................................................................. 9
2.3.2.2 Khuếch đại của microsatellites ............................................................. 10
2.3.2.3 Những giới hạn của microsatellite ........................................................ 11
2.3.3 Các loại microsatellite ............................................................................. 12
2.3.4 Cơ chế hình thành microsatellite ............................................................. 12


viii

2.3.5 Vai trò của microsatellite ......................................................................... 13
2.4 Phƣơng pháp xác định microsatellite truyền thống..................................... 15
2.5 Phƣơng pháp phát hiện microsatellite sử dụng ........................................... 16
2.6 Ứng dụng ..................................................................................................... 18
2.7 Cơ sở dữ liệu sinh học ................................................................................. 18
2.7.1 NCBI ........................................................................................................ 19

2.7.1.1 Vài nét về NCBI .................................................................................... 19
3.1.1.2 Một số cơ sở dữ liệu trong NCBI .......................................................... 19
Chƣơng 3 ......................................................................................................... 20
VẬT LIỆU VÀ PHƢƠNG PHÁP .................................................................... 20
3.1 Các chƣơng trình và ngơn ngữ lập trình đƣợc sử dụng............................. 20
3.1.1 Hệ điều hành ............................................................................................ 20
3.1.2 Các chƣơng trình phân tích trình tự ......................................................... 20
3.1.2.1 Chương trình Perl ssrfinder_1 .................................................. 20
3.1.2.2 Chƣơng trình tìm kiếm các trình tự tƣơng đồng – BLAST .................. 22
3.1.2.3 Hệ quả trị CSDL quan hệ Microsoft ACEESS ..................................... 23
3.1.2.4 Egassembler .......................................................................................... 23
3.1.3 Apache web Server .................................................................................. 24
3.4 CÁC BƢỚC TIẾN HÀNH ......................................................................... 25
Chƣơng 4 .......................................................................................................... 37
KẾT QUẢ VÀ THẢO LUẬN .......................................................................... 37
4.1 Thu thập trình tự ESTs Citrus từ CSDL dbEST ....................................... 37
4.2 Loại các dữ liệu nhiễu và dƣ bằng công cụ EGassembler bao gồm các bƣớc sau:
........................................................................................................................... 38
4.2.1 Làm sạch trình tự ..................................................................................... 38
4.2.2 Dấu những vùng trình tự nhiễu của vector và adaptors ........................... 39
4.2.3 Dấu những vùng trình tự nhiễu của các bào quan .................................... 39


ix

4.3 Assembling .................................................................................................. 41
4.4 Tìm SSR: bằng SSRFinder v1.0 của Steven Schroeder .............................. 42
4.4.1 BLASTn: ................................................................................................. 43
4.5.Thiết kế và kiểm tra primer ......................................................................... 45
4.6 tBLASTx ..................................................................................................... 48

4.7. Đƣa tất cả các dữ liệu này vào CSDL quan hệ Microsoft ACCESS để dễ dàng
truy xuất thơng tin. ............................................................................................ 49
4.8 Tích hợp CSDL vừa xây dựng vào web thông qua Apache Server để chia sẽ
thông tin qua mạng. .......................................................................................... 49
4.8.1 Trang chủ (HOME PAGE) ...................................................................... 49
4.8.2 Trang cơ sở dữ liệu SSRs (SSRs PAGE) ................................................. 50
Chƣơng5 ........................................................................................................... 52
KẾT LUẬN VÀ ĐỀ NGHỊ ............................................................................... 52
5.1. Kết luận ...................................................................................................... 52
5.2. Đề nghị ....................................................................................................... 53
TÀI LIỆU THAM KHẢO ................................................................................. 54
Phụ Lục ............................................................................................................. 57


x

DANH SÁCH CÁC TỪ VIẾT TẮT

BLAST Basic Local Alignment Search Tool
CGI

Common Gateway Interface

CSDL Cơ sở dữ liệu
DBD

Database Driver

DBI


Database Interface

DNA

deoxyribonucleic acid

EST

Expressed Sequence Tag

HTML Hypertext Markup Language
HTTP Hypertext Transfer Protocol
NCBI

the National Center for Biotechnology Information

NIG

the National Institute of Genetics

NIH

the National Institutes of Health

NLM

the Nation Library of Medicine

Perl


Practical Extraction and Report Language

PHP

Hypertext Preprocessior

RDBMS

Relational Database Management System

SNP

Single Nucleotide Polymorphism

SSCP

Single- Strand Conformation Polymorphism

SSR

Simple Sequence Repeats

STS

Sequence Tagged Site


xi

DANH SÁCH CÁC BẢNG

Bảng 3.1 Sơ đồ tóm tắt quá trình thu nhận trình tự chính từ NCBI .................. 26
Bảng 3.2 : Từ khóa sử dụng để thu nhận trình tự trên NCBI ............................ 26
Bảng 3.3 Nội dung tblStrain ............................................................................. 34
Bảng 3. 4 Nội dung tblMotifLengthGroup ....................................................... 34
Bảng 3.5 Nội dung tblSSR ................................................................................ 34
Bảng 4.1 số lƣợng ESTs của từng loài thu nhận đƣợc từ NCBI ....................... 37
Bảng 4.2 Số trình tự bị lọai bỏ ở bƣớc 2.1 ....................................................... 38
Bảng 4.3 số trình tự bị lọai bỏ ở bƣớc 2.3 ....................................................... 39
Bảng 4.4 số trình tự bị lọai bỏ ở bƣớc 2.4 ....................................................... 39
Bảng 4.5 số lƣợng Contigs thu đƣợc ở mỗi lòai sau khi assembling ................ 41
Bảng 4.6 Tổng số lƣợng SSRs thu nhận đƣợc .................................................. 42
Bảng 4.7 Lƣợng trình tự ESTs và số primer mới đƣợc tạo thành ..................... 43
Bảng 4.8 Tổng số primer thiết kế đƣợc ............................................................. 45
Bảng 4.9 Tổng số Primer còn lại sau khi kiểm tra ............................................ 45
Bảng 4.10 Các trình tự tƣơng đồng với gene kháng virus tristeza.................... 48
Bảng 4.11: Các nhóm Strain id có trong cơ sở dữ liệu ..................................... 50
Bảng 4.12 Các nhóm Motif trong cơ sở dữ liệu................................................ 51


xii

DANH SÁCH CÁC HÌNH
Hình 2.1. CTV dƣới KHV điện tử ..................................................................... 6
Hình 2.2: Nguồn gốc của EST ............................................................................ 8
Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân ................................................. 12
Hình 2.4 Cơ chế trƣợt lỗi trong quá trình sao mã ............................................. 13
Hình 2.5: Phƣơng pháp phân lập microsatellite truyền thống .......................... 16
Hình 2.6 Tƣơng quan giữa NCBI (National Library of Medicine và NIH) ...... 19
Hình 3.1 : Danh sách các trình tự EST Citrus trên NCBI (nguồn
www.NCBI.nlm.nih.gov/genomes/plant/plantlist.html#est) ............................ 27

Hình 3.2 : Các bƣớc thực hiện của Egassembler .............................................. 29
Hình 3.3 phân biệt giữa Contig và Singleton .................................................... 30
Hình 3.4 nội dung tập tin “ssrout20030101.txt” ............................................... 31
Hình 3.5 nội dung tập tin “labdbout20030101.txt” ........................................... 31
Hình 3.6 Nội dung tập tin “new_ids20030101.txt” ......................................... 32
Hình 3.7 Trang web mẫu về trình tự microsatellite(Nguồn: ......................................................................................... 36
Hình 4.1: Sơ đồ so sánh lƣợng ESTs của từng lồi .......................................... 37
Hình 4.2: Bảng so sánh dữ liệu ESTs trƣớc và sau khi lọai nhiễu ................... 40
Hình 4.3: Bảng so sánh lƣợng Contigs và ESTs ............................................... 41
Hình 4.4: Biểu đồ so sánh lƣợng SSRs phân lập và lƣợng ESTs ban đầu ...42-43
Hình 4.5: Biểu đồ so sánh lƣợng noneprimers và ESTs, Primers mới ............ 44
Hình 4.6: Bảng so sánh lƣợng Primers trƣớc và sau khi kiểm tra .................... 46
Hình 4.7: Bảng so sánh tổng trình tự SSRs và Primers thiết kế đƣợc .............. 47
Hình 4.8 : Mối quan hệ giữa các bảng .............................................................. 49
Hình 4.9: Tổng quan về Website ...................................................................... 49
Hình 4.10 Trang cơ sở dữ liệu SSRs (All) ........................................................ 50
Hình 4.11 Trang cơ sở dữ liệu SSRs chọn lọc theo Strain Id “ST01” và “Motif
Length Group ID” là 3 ...................................................................................... 51


Chƣơng 1
MỞ ĐẦU
1.1 Đặt vấn đề
Công tác bảo tồn chọn giống ngày càng cần thiết do q trình thối hóa diễn
ra ngày càng nhanh và phức tạp vì vậy địi hỏi phải có nhiều cơng cụ, phƣơng pháp
đắc lực hỗ trợ. Hiện nay, SSR đã và đang là 1 trong những cơng cụ đắc lực phục vụ
cho qui trình này  việc phát triển maker SSR rất cần thiết
Tình hình bệnh ở cây trồng diễn biến ngày càng phức tạp, nghiêm trọng.
Chúng ta phải sử dụng các lọai marker khác nhau để chuẩn đốn, phát hiện bệnh
sớm nhằm tìm biện pháp khắc phục.Hiện nay, maker có độ tin cậy cao nhất là

Microsatellite.
SSR đƣợc phân lập theo phƣơng pháp truyền thống từ thƣ viện cDNA hay
thƣ viện Genomic rất tốn kém, do phải sàng lọc từ các mẫu dò một cách mị mẫm.
Trong khi đó, phƣơng pháp mới dùng để phân lập SSR từ nguồn dữ liệu ESTs có
chi phí thấp và tƣơng đối dễ thực hiện, do trình tự ESTs ln sẵn có và ta có thể sử
dụng miễn phí
Lƣợng trình tự EST đƣợc giải mã và cơng bố ngày càng nhiều, tính đến nay
có khỏang 46159508 trình tự EST đƣợc công bố (theo NCBI)
Hiện nay các cây thuộc họ chi cam chanh đƣợc quan tâm nghiên cứu nhiều
do những giá trị mà nó mang lại nhƣ giá trị thƣơng phẩm, dƣợc phẩm…
1.2.Mục tiêu của khóa luận
Xây dựng cơ sở dữ liệu Microsatellite để phục vụ cho việc tìm hiểu đa dạng
và quan hệ di truyền, phân biệt loài và cá thể, lập bản đồ di truyền, xác định gen,
chọn giống nhờ chỉ thị phân tử.


2

Vì vậy, khóa luận “KHAI THÁC DỮ LIỆU ESTs (EXPRESSED
SEQUENCE TAGs) Ở CHI CAM CHANH (CITRUS) CHO VIỆC PHÁT
TRIỂN MARKER PHÂN TỬ SSR (SIMPLE SEQUENCE REPEATS)” đƣợc
thực hiện với các mục tiêu lần lƣợt nhƣ sau:
1. Thu nhận trình tự EST của chi cam chanh từ CSDL ESTs đƣợc lấy tại
trang chính NCBI.
2. Dùng Egassembler để để phân tích làm sạch trình tự, dấu những vùng lập
lại, dấu những vùng trình tự nhiễu của vector và adaptors, dấu những vùng trình tự
nhiễu của các bào quan, sắp gióng cột và assembly các đọan ESTs
3. Dùng Perl script thu nhận các SSR có trong cơ sở dữ liệu ESTs vừa thu
đƣợc từ đó thiết kế mồi trên vùng FLANKING của SSRs
4. Kéo dài các EST-SSR và xác định các trình tự bảo tồn bằng cách thực hiện

BLAST trên các Contigs (thu nhận đƣợc bằng assembly ở Website Egassembler)
5. Tìm kiếm những SSR có độ tƣơng đồng cao so với các SSR có trong các
gene kháng bệnh ở thực vật
6. Xây dựng CSDL và cơng cụ để giúp ngƣời dùng có thể khai thác tốt dữ
liệu.
7. Dùng giao diện web để truy xuất thông tin về cơ sở dữ liệu và thực hiện
việc chia sẻ thơng tin đó, giúp cho việc tìm kiếm, quản lý thông tin đƣợc tốt hơn .


3

Chƣơng 2
TỔNG QUAN TÀI LIỆU
2.1 Giới thiệu về chi cam chanh
Chi Cam chanh (Citrus) là một chi thực vật có hoa trong họ Cửu lý hƣơng
(Rutaceae), có nguồn gốc từ khu vực nhiệt đới và cận nhiệt đới ở đông nam châu Á.
Các loại cây trong chi này là các cây bụi lớn hay cây thân gỗ nhỏ, cao tới 5-15 m
tùy loại, với thân cây có gai và các lá thƣờng xanh mọc so le có mép nhẵn. Hoa mọc
đơn hay thành ngù hoa nhỏ, mỗi hoa có đƣờng kính 2-4 cm với 5 (ít khi 4) cánh hoa
màu trắng và rất nhiều nhị hoa. Hoa thơng thƣờng có mùi thơm rất mạnh. Quả là
loại quả có múi, một dạng quả mọng đặc biệt, hình cầu hay cầu thn dài, chiều dài
4-30 cm và đƣờng kính 4-20 cm, bên trong quả khi bóc lớp vỏ và cùi sẽ thấy lớp vỏ
mỏng, dai, màu trắng bao quanh các múi bên trong chứa nhiều tép mọng nƣớc. Chi
này là quan trọng về mặt thƣơng mại do nhiều loài (hoặc cây lai ghép) đƣợc trồng
để lấy quả. Quả đƣợc ăn tƣơi hay vắt, ép lấy nƣớc.
2.1.1 Vị trí phân lọai
Giới

Plantae


Ngành

Magnoliophyta

Lớp

Magnoliopsida

Phân lớp Rosidae
Bộ

Sapindales

Họ

Rutaceae

Chi

Citrus


4

2.1.2 Đặc điểm
Quả của chi Citrus đáng chú ý vì mùi thơm của chúng, một phần là do các
terpen chứa trong lớp vỏ, và chủ yếu là do nó chứa nhiều nƣớc. Nƣớc quả có hàm
lƣợng axít citric cao, tạo ra hƣơng vị đặc trƣng của chúng. Chúng cũng là nguồn
cung cấp vitamin C và các flavonoit đáng chú ý.
Sự phân loại nội bộ trong chi này rất phức tạp và hiện nay ngƣời ta vẫn

khơng biết chính xác số lƣợng lồi có nguồn gốc tự nhiên, do nhiều lồi đƣợc coi là
có nguồn gốc lai ghép. Các loại cây trong chi Citrus đƣợc trồng có thể là con cháu
của chỉ 3 lồi tổ tiên. Hiện nay có hàng loạt các loại cây lai ghép tự nhiên hay do
con ngƣời ni trồng, bao gồm nhiều loại quả có giá trị thƣơng mại nhƣ cam ngọt,
chanh tây, bƣởi chùm, chanh ta, quít, bƣởi v.v. Các nghiên cứu gần đây cho rằng
các chi có quan hệ họ hàng gần nhƣ Fortunella, và có lẽ cả Poncirus, Microcitrus,
Eremocitrus, cần đƣợc gộp lại trong chi Citrus.

Citrus sinensis x Poncirus trifoliata

Citrus aurantium


5

Citrus Unshiu

Citrus x paradisi

Citrus Sinensis

Citrus Clementina


6

2.1.3 Sâu hại và bệnh tật
Bệnh do virus
Virus citrus là lồi rất nhỏ chỉ có thể nhân lên trong tế bào sống. Trong tế
bào của citrus, virus di chuyển theo dòng tế bào chất hoặc di chuyển theo dòng nhựa

nguyên và nhựa luyện của cây. Theo các mạch dẫn, virus đƣợc truyền trong cây từ
vùng này sang vùng khác và nhờ cầu nối nguyên sinh virus có thể di chuyển từ tế
bào này sang tế bào khác. Virus cũng có thể nhân lên trong cơ thể của aphid hoặc
một vài lồi khác làm mơi giới truyền bệnh (vectơ truyền bệnh). Khi cây nhiễm
virus, nó có thể là tác nhân nhiễm bệnh cho các cây khác. Bệnh virus thƣờng không
lây qua hạt. Một vài loài virus chỉ nhiễm trên một vài lồi citrus. Virus có thể nhiễm
vài tháng hoặc vài năm trƣớc khi có một vài triệu chứng xuất hiện.
Virus Tristeza (CTV)
Có nguồn gốc từ nhiều năm trƣớc ở Trung Quốc. Tristeza là bệnh tàn phá
rất lớn trên citrus ở Bắc và Nam Mỹ, có khoảng phân bố rất rộng trên thế giới, là
bệnh nguy hiểm ở Nhật Bản. Bệnh Tristeza đƣợc xác định là có hiện diện ở nƣớc ta.
Virus Tristeza dạng hình sợi dài (2 x 10 – 11 nm), tập trung và làm hỏng mạch dẫn
nhựa libe trong cây, xuống rể và làm suy dinh dƣỡng nhƣ rụng lá, chết đọt, lùn cây
và thƣờng thối rễ.

Hình 2.1. CTV dƣới KHV điện tử

Bệnh có thể lộ ra ở cây con mới trồng hay ở cây lớn bị suy dinh dƣỡng. Cây
có mang mầm bệnh có thể vẫn thấy khoẻ mạnh trong liếp ƣơm nhƣng sớm lộ triệu
chứng ngay sau khi trồng. Cây mang bệnh mãn tính sẽ bị lùn, phù gốc do mắt tháp
phát triển quá khổ.


7

Hầu hết các giống cam quýt đều có triệu chứng sọc lõm ở gỗ thân và cành
(stem pitting). Một dạng đặc trƣng của bệnh là triệu chứng tổ ong khi dùng cam
chua làm gốc ghép: khi tách vỏ ở vùng bên dƣới mắt tháp sẽ thấy nhiều lỗ nhỏ xếp
cụm trong gỗ.
Vector chính truyền bệnh do virus Tristeza là lồi aphid có tên Toxoptera

citricida Kirkaldy. Kiểm tra thấy rằng nếu có 5 aphid tấn cơng cây thì 50% cây sẽ bị
nhiễm và nếu có 15 aphid tấn cơng cây thì 70% cây sẽ bị nhiễm. Ngƣời ta cũng
nhận thấy rằng các type khác nhau của virus này đều gây bệnh đƣợc.
CTV nhiễm trên tất cả các loại (nhân giống và tháp ghép) của cây citrus. Nó
đƣợc tìm thấy trên tồn thế giới và có nhiều giống khác nhau, trong các type khác
nhau đó có các type tàn phá rất lớn. Bệnh chịu ảnh hƣởng bởi điều kiện môi trƣờng,
các dạng khác nhau của cây citrus và các nòi virus khác nhau.
Khi cây đƣợc ghép trên gốc kháng thì nó có khả năng phục hồi lại sau đó.
2.2 EST
2.3.1 Sơ lƣợc về EST
Expressed Sequence Tag là một phần nhỏ của toàn bộ gen mà nó có thể đƣợc
sử dụng để nhận biết những gen chƣa biết và xác lập vị trí của chúng trong bộ gen.
ESTs cung cấp một phƣơng pháp nghiên cứu nhanh chóng và khơng tốn kém
đối với việc khám phá ra các gen mới, tính bảo tồn của gen về biểu hiện và điều
khiển hoạt động, và xây dựng bản đồ di truyền.
2.3.2 Nguồn gốc của EST
ESTs là những mảnh nhỏ của cấu trúc DNA (thƣờng có chiều dài từ 200 đến
500 Nucleotide), chúng đƣợc hình thành bởi một phần hay toàn bộ cấu trúc của một
gen biểu hiện. Đó là sự kết hợp những phần nhỏ DNA của gen nằm trong các tế
bào, mô, cơ quan của những sinh vật khác nhau và sử dụng những “tags” này để
thiết lập một gen nằm ngồi vị trí của chromosome bằng cách bắt cặp với các cặp
base.
Đây là sự kết hợp khó khăn của những gen đã biết từ các bộ gen khác nhau
giữa các loài sinh vật và phụ thuộc vào kích thƣớc của bộ gen khi có mặt hay không


8

có mặt của các intron, sự can thiệp của cấu trúc DNA làm gián đoạn cấu trúc của
gen quy định protein.


Hình 2.2: Nguồn gốc của EST
2.3.Sơ lƣợc về phƣơng pháp Microsatellite (SSR)
2.3.1Những khái niệm về kỹ thuật microsatellite
Microsatellite: Một dạng của VNTR (variable number of tandem repeats)
(q.v.). Một đoạn DNA đƣợc mô tả đặc điểm bởi sự xảy ra của số lƣợng bản copy
biến thiên (từ một vài bản lên đến 30 hay nhiều hơn) của dãy trong vòng 5 hoặc số
bases ít hơn (đƣợc gọi là đơn vị lặp lại, q.v). Một microsatellite điển hình có đơn vị
lặp lại AC, xảy ra ở khoảng 100 000 vị trí khác nhau trong bộ genome động vật điển
hình. Ở bất kì một vị trí nào (locus), thƣờng xun có khoảng 5 – 7 “alleles” khác
nhau, mà mỗi alleles có thể nhận biết tuỳ thuộc vào số đơn vị lặp lại. Những alleles
này có thể phát hiện bởi PCR (q.v), sử dụng primers đƣợc thiết kế từ một dãy đơn
và cũng có trên cả mặt kia của microsatellite. Khi sản phẩm PCR đƣợc chạy trên gel
điện di, alleles đƣợc ghi nhận khác biệt về độ dài trong giá trị đến kích cỡ của đơn
vị lặp lại, e.g., nếu primers tƣơng ứng với dãy duy nhất trực tiếp trên cả 2 mặt của
microsatellite và là đoạn dài 20 base, và một cá thể là dị hợp tử cho một


9

microsatellite AC với một alleles bao gồm sự lặp lại 5 lần và một alleles khác lặp lại
6 lần, sự dị hợp sẽ tạo ra 2 bands trên gel, một band dài 20 + (2x5) +20 =50 bases,
và allele khác dài 20 + (2x6) + 20 = 60 bases. Microsatellites là một marker DNA
chuẩn: chúng đƣợc phát hiện dễ dàng bằng PCR, và chúng có khuynh hƣớng xác
định vị trí bằng nhau từ đầu đến cuối của genome. Hàng ngàn SSR đã đƣợc lập bản
đồ trong nhiều lồi khác nhau.
Tóm lại, microsatellite ngày nay trở thành một thuật ngữ chung nhất để miêu
tả các trình tự lặp lại ngắn và ngẫu nhiên, thay vì sử dụng các thuật ngữ STR (short
tandem repeats, Edward; 1991) hay VNTR (variable number of tandem repeats).
Microsatellite bao gồm các đoạn lặp lại ngắn từ 2 - 6 bp và kích thƣớc tại mỗi locus

là 20 - 100 bp. Microsatellite đƣợc tìm thấy trong tất cả cơ thể sống, đặc biệt là ở
những cơ thể sống có bộ gen lớn và phân bố đều trên genome.
Microsatellite có tính đa hình rất cao (đa hình theo chiều dài), là những
codominant-al hay al đồng trội (bao gồm 2 loại: al đồng hợp và al dị hợp), nó có các
tính chất cần thiết cho một marker. Tần số đột biến từ 104 - 5.10-6, nó tuân theo định
luật Mendel. Vị trí của microsatellite trên nhiễm sắc thể có thể đƣợc xác định bằng
PCR từ một lƣợng DNA rất nhỏ. Xác định microsatellite PCR trên một lồi nào đó
thì có thể áp dụng trên những lồi khác có quan hệ họ hàng.
2.3.2 Giới thiệu chung
2.3.2.1 Tính chất
Một ví dụ điển hình của microsatellite là sự lặp lại (CA)n, với n là sự biến
thiên giữa những alleles. Những markers này thƣờng hiện diện với mức độ cao của
hiện tƣợng đa hình, đặc biệt khi số lần lặp lại lớn hơn hoặc bằng 10. Trình tự đƣợc
lặp lại thƣờng đơn giản, bao gồm 2, 3 hoặc 4 nucleotides (tƣơng ứng với việc lặp lại
di-, tri-, và tetranucleotide), và có thể đƣợc lặp lại từ 10 đến 100 lần. Sự lặp lại của
nucleotide CA xảy ra rất thƣờng xuyên trong bộ gene ngƣời và các loài khác, và
đƣợc hiện diện trong khoảng vài ngàn bases pair. Nhƣ vậy có sự xuất hiện thƣờng
xuyên của nhiều alleles tại vị trí microsatellite, kiểu gene trong phả hệ thƣờng cung
cấp đầy đủ thông tin về di truyền, trong đó alleles đặc thù của tổ tiên có thể đƣợc


10

nhận biết dễ dàng. Bằng cách này, microsatellite là lý tƣởng để xác định nguồn gốc,
nghiên cứu di truyền quần thể và bản đồ tái tổ hợp. Nó cịn là marker phân tử dùng
để cung cấp đầu mối về những alleles có mối quan hệ gần nhau hơn.
Microsatellite có đƣợc tính hay thay đổi với tỉ lệ đột biến tăng dần so với
vùng trung tính khác của DNA. Tỉ lệ đột biến cao này có thể đƣợc giải thích bởi sự
bắt cặp sai trong bộ phận trƣợt (slipped strand mispairing - sự giữ khơng đúng mục
tiêu) trong suốt q trình sao chép DNA trên một chuỗi đơn xoắn kép. Sự đột biến

cũng xảy ra suốt quá trình tái tổ hợp trong quá trình giảm phân. Một vài lỗi sai mục
tiêu đƣợc sửa bởi cơ chế đọc và sửa trong nhân, thế nhƣng một vài đột biến có thể
khơng đƣợc sửa chữa. Kích thƣớc của đơn vị lặp lại, số lần lặp lại và sự hiện diện
của sự lặp lại khác nhau là tất cả các yếu tố, cũng nhƣ là tính thƣờng xuyên của sự
dịch mã trong khu vực của DNA lặp lại. Sự gián đoạn của microsatellites, có thể do
đột biến, có thể là nguyên nhân trong việc giảm sự đa hình. Tuy nhiên, cơ chế tƣơng
tự này thỉnh thoảng có thể dẫn đến sự khuếch đại khơng chính xác của
microsatellites; nếu sự sai mục tiêu xảy ra sớm trong suốt q trình PCR, thì chiều
dài khơng chính xác của microsatellites có thể đƣợc khuếch đại.
2.3.2.2 Khuếch đại của microsatellites
Microsatellites có thể đƣợc khuếch đại để nhận biết bằng việc sử dụng PCR,
sử dụng mẫu của những vùng lân cận (primer). DNA đƣợc biến tính ở nhiệt độ cao,
tách ra làm hai dãy, cho phép sự bắt cặp của primer và sự kéo dài của trình tự
nucleotide dọc theo chuỗi đối diện ở nhiệt độ thấp. Kết quả của q trình này là có
đủ hàm lƣợng DNA để có thể nhìn thấy đƣợc trên gel agarose hay arcrylamide, một
số lƣợng nhỏ DNA cần thiết cho việc khuếch đại kết hợp với chu trình nhiệt cách
hợp lí để tạo ra sự tăng lên theo số mủ trong đoạn đƣợc sao chép. Với sự phong phú
của kỹ thuật microsatellite, primer liên kết với vị trí microsatelltes thì đơn giản và
đƣợc sử dụng nhanh chóng, tuy nhiên sự phát triển của những primers nhƣ vậy
thƣờng là một quá trình tốn kém và đơn điệu.


11

2.3.2.3 Những giới hạn của microsatellite
Microsatellite đƣợc chứng tỏ là marker phân tử hữu hiệu, đặc biệt là trong
nghiên cứu quần thể, thế nhƣng chúng khơng phải là khơng có hạn chế.
Microsatellite đƣợc phát triển cho những chủng đặc trƣng có thể đƣợc ứng dụng
thƣờng xuyên với những chủng có mối quan hệ họ hàng gần nhau, tuy nhiên tỉ tệ
phần trăm vị trí di truyền đƣợc khuếch đại thành cơng có thể bị giảm bởi sự gia tăng

khoảng cách di truyền. Điểm đột biến trong vị trí bắt cặp của primer trong một lồi
nào đó có thể dẫn đến sự cố „alleles không giá trị‟ (null alleles), nơi mà primer
microsatellite khơng thể đáp ứng để khuếch đại trong thí nghiệm PCR. Null alleles
có thể đóng góp vào một vài hiện tƣợng. Sự phân kì trong trình tự ở vùng liên kết có
thể dẫn đến sự bắt cặp nghèo nàn của primer, đặc biệt ở vùng 3‟ nơi mà sự kéo dài
bắt đầu, sự khuếch đại ƣu tiên của vị trí alleles đặc thù do sự cạnh tranh tự nhiên
của PCR có thể dẫn đến việc cá thể dị hợp tử đƣợc ghi nhận từ đồng hợp tử (bộ
phận không có giá trị). Sự thất bại của phản ứng PCR có thể thu nhận kết quả khi sự
sai khác ở vị trí đặc thù đƣợc khuếch đại. Tuy nhiên, ảnh hƣởng sai khác của quần
thể nhỏ và khả năng của sự liên kết giới tính cũng cần đƣợc xem xét để không đƣa
ra giá trị sai của alleles không giá trị do sự tăng tính đồng hình trong phân tích quần
thể. Sự khác nhau trong kích thƣớc alleles cũng khơng phản ánh sự khác nhau thật
sự đột biến có thể có từ sự thêm vào hay mất đi của bases và tồn bộ microsatellite
có thể chịu sự nén chặt về chiều dài. Tỉ lệ đột biến thì khơng có tiêu chuẩn để đánh
giá. Vùng trung tính của một số vùng microsatellite cịn đang nghi vấn, có lẽ do sự
biến thiên tính trạng số lƣợng hoặc sự cố trong vùng exon của genes dƣới sự chọn
lọc. Khi sử dụng microsatellite để so sánh lồi, vị trí đồng hình có thể dễ dàng
khuếch đại trong những lồi có quan hệ, thế nhƣng số vị trí khuếch đại thành cơng
trong suốt phản ứng PCR có thể giảm do sự tăng khoảng cách di truyền giữa các
loài nghi vấn. Đột biến trong alleles microsatellite có thể bị ảnh hƣởng xấu trong
trƣờng hợp có một đoạn alleles lớn hơn chứa nhiều bases hơn, và do đó có thể đƣợc
dịch sai trong q trình phiên mã DNA. Một alleles nhỏ hơn tham gia vào việc làm
tăng kích thƣớc, trong khi một alleles lớn hơn tham gia để làm giảm kích thƣớc, khi


12

mà chúng có thể là nguyên nhân cho sự giới hạn trên về kích thƣớc, sự ép buộc này
đã đƣợc xác định nhƣng giá trị khẳng định là chƣa chuyên biệt. Nếu có một sự khác
biệt lớn về kích cỡ giữa alleles của cá thể, điều đó có thể làm tăng sự không bền

vững trong sự tái tổ hợp ở quá trình giảm phân. Trong tế bào khối u, nơi mà sự kiểm
soát trên phiên mã bị phá hủy, microsatellite có thể tăng thêm hay mất đi thƣờng
xuyên ở tỉ lệ đặc biệt cao trong mỗi chu kỳ nguyên phân. Do đó một dịng tế bào
khối u có thể chỉ ra những đặc điểm khác biệt di truyền từ những mơ kí chủ đó.
2.3.3 Các loại microsatellite
Căn cứ vào cấu tạo của đơn vị lặp lại (2-6 lần) chúng ta có :
Dinucleotide SSR (GT)6
GTGTGTGTGTGT
Trinucleotide SSR (CTG)4
CTGCTGCTGCTG
Tetranucleotide SSR (ACTC)4
ACTCACTCACTCACTC
Trinucleotide SSR xuất hiện ít hơn dinucleotide SSR khoảng 10 lần, và
tetranucleotide SSR còn hiếm hơn nữa (Ma và ctv., 1996).
2.3.4 Cơ chế hình thành microsatellite
Cơ chế đột biến hình thành microsatellite vẫn chƣa đƣợc hiểu biết một cách
đầy đủ. Tuy nhiên di truyền học và các nghiên cứu khác cho rằng cơ chế xuất hiện
và hình thành microsatellite là do 2 quá trình sau:
Quá trình bắt chéo lỗi trong quá trình giảm phân (unequal crossing- over
during meiosis)
.

Hình 2.3 Cơ chế bắt chéo lỗi trong giảm phân


13

Quá trình trƣợt lỗi trong sao mã (replication slippage)
Đây đƣợc coi là nguyên nhân chủ yếu và nó xảy ra trên mạch chậm (lagging
strand). Quá trình này liên quan đến quá trình trƣợt lỗi của enzyme polymerase trên

phân tử DNA mới tổng hợp. Sự trƣợt lỗi này tạo ra một chỗ phình nhất thời có thể
bị loại bỏ trong q trình sửa lỗi hoặc là có thể kéo dài thêm ở mạch đối diện tạo
thành một đoạn lặp lại dài hơn.

Hình 2.4 Cơ chế trƣợt lỗi trong quá trình sao mã
2.3.5 Vai trị của microsatellite
Rất nhiều microsatellite đã đƣợc tìm thấy ở vùng phía trên của các vùng khởi
đầu sao mã của vùng mang mã. Chức năng rõ rệt của những vùng nhƣ vậy vẫn còn
chƣa rõ ràng, mặc dù ngƣời ta tìm thấy chúng tồn tại giữa các vùng exon và có liên
quan tới các bệnh di truyền.
Microsatellite đƣợc dùng nhƣ một marker di truyền để nghiên cứu về di
truyền quần thể, quan hệ tiến hóa, lập bản đồ gen. Tuy nhiên có rất nhiều chứng cứ


×