Tải bản đầy đủ (.pdf) (146 trang)

Xác định và phân tích hoàn chỉnh trình tự hệ gen ty thể của 6 giống lợn bản địa tại một số tỉnh miền bắc việt nam

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.85 MB, 146 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Bùi Anh Tuấn

XÁC ĐỊNH VÀ PHÂN TÍCH HOÀN CHỈNH TRÌNH TỰ HỆ
GEN TY THỂ CỦA 6 GIỐNG LỢN BẢN ĐỊA TẠI MỘT SỐ
TỈNH MIỀN BẮC VIỆT NAM

LUẬN ÁN TIẾN SĨ SINH HỌC

Hà Nội - Năm 2020


BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ
-----------------------------

Bùi Anh Tuấn

XÁC ĐỊNH VÀ PHÂN TÍCH HOÀN CHỈNH TRÌNH TỰ HỆ
GEN TY THỂ CỦA 6 GIỐNG LỢN BẢN ĐỊA TẠI MỘT SỐ


TỈNH MIỀN BẮC VIỆT NAM
Chuyên ngành: Công nghệ sinh học
Mã sỗ: 94 20 20 1

LUẬN ÁN TIẾN SĨ SINH HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. GS.TS. Nghiêm Ngọc Minh
2. PGS.TS. Võ Thị Bích Thủy

Hà Nội - Năm 2020


i

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình do chính tôi thực hiện và một số kết quả
cùng cộng tác với các đồng nghiệp khác. Các số liệu, kết quả nêu trong luận án là
trung thực, một phần đã được công bố trên các tạp chí khoa học chuyên ngành với
sự đồng ý và cho phép của các đồng tác giả. Phần nội dung còn lại chưa được ai
công bố trong bất kỳ công trình nào khác.
Hà Nội, ngày

tháng

năm 2020

Tác giả


Bùi Anh Tuấn


ii

LỜI CẢM ƠN

Tôi xin được bày tỏ lòng biết ơn sâu sắc tới GS. TS. Nghiêm Ngọc Minh - Phó
Viện trưởng Viện Nghiên cứu hệ gen - Viện Hàn lâm Khoa học và Công nghệ Việt Nam
- Người thầy đã gieo mầm, định hướng nghiên cứu, tận tình hướng dẫn, giúp đỡ tôi
tháo gỡ những khó khăn trong suốt quá trình nghiên cứu và làm luận án.
Tôi cũng xin được bày tỏ lòng biết ơn sâu sắc đến PGS. TS. Võ Thị Bích
Thủy - Viện Nghiên cứu hệ gen - Viện Hàn lâm Khoa học và Công nghệ Việt Nam Người thầy đã sát sao dìu dắt, truyền lại cho tôi phương pháp mới về nghiên cứu phân
tích trình tự hệ gen ty thể cũng như niềm say mê nghiên cứu về Hệ gen học.
Trong suốt quá trình thực hiện Đề tài nghiên cứu, tôi đã nhận được sự giúp
đỡ tận tình về chuyên môn của các nhà khoa học, các cán bộ nghiên cứu công tác
tại Viện Nghiên cứu hệ gen - Viện Hàn lâm Khoa học và Công nghệ Việt Nam. Bằng
những tình cảm chân thành nhất, tôi xin trân trọng cảm ơn những sự giúp đỡ quý
báu đó.
Nhân dịp này, tôi xin chân thành cảm ơn Ban Giám đốc, tập thể cán bộ Học
viện Khoa học và Công nghệ - Viện Hàn lâm Khoa học và Công nghệ Việt Nam, Lãnh
đạo Khoa Công nghệ sinh học và các phòng ban nghiệp vụ trong Học viện đã giúp đỡ,
tạo điều kiện thuận lợi nhất cho tôi trong suốt quá trình học tập và tham gia nghiên cứu
đề tài luận án.
Nhân đây, tôi xin bày tỏ lòng biết ơn sâu sắc tới lãnh đạo Viện Khoa học
hình sự - Bộ Công an; lãnh đạo, đồng nghiệp tại Trung tâm Giám định Sinh học Viện Khoa học hình sự đã hết sức tạo điều kiện thuận lợi, giúp đỡ tôi trong công
việc học tập và tham gia nghiên cứu để hoàn thành luận án này.
Tôi xin gửi lời cám ơn thân ái tới gia đình, những người thân và bạn bè đã
luôn bên cạnh, yêu thương, khích lệ và ủng hộ tôi trong suốt thời gian qua.
Hà Nội, ngày tháng năm 2020

Tác giả
Bùi Anh Tuấn


iii

MỤC LỤC
LỜI CAM ĐOAN ....................................................................................................... i
LỜI CẢM ƠN ............................................................................................................ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIỆT TẮT ........................................... v
DANH MỤC CÁC BẢNG ....................................................................................... vi
DANH MỤC CÁC HÌNH .......................................................................................vii
MỞ ĐẦU .................................................................................................................... 1
Chương 1. TỔNG QUAN TÀI LIỆU ...................................................................... 4
1.1. Nguồn gốc, phân loại và quá trình thuần hóa lợn nhà ................................. 4
1.1.1. Nguồn gốc ............................................................................................................... 4
1.1.2. Phân loại .................................................................................................................. 5
1.1.3. Quá trình thuần hóa................................................................................................. 5
1.2. Đặc điểm và một số ứng dụng của hệ gen ty thể ........................................... 7
1.2.1. Đặc điểm cấu trúc hệ gen ty thể ở động vật có vú ................................................ 7
1.2.2. Một số ứng dụng của hệ gen ty thể ........................................................................ 9
1.3. Phát sinh chủng loại phân tử, xây dựng và phân tích cây phát sinh chủng
loại phân tử............................................................................................................ 11
1.3.1. Cây phát sinh chủng loại ...................................................................................... 11
1.3.2. Phân tích phát sinh chủng loại.............................................................................. 13
1.4. Tình hình nghiên cứu sử dụng mtDNA trên các giống lợn........................ 17
1.4.1. Nghiên cứu các giống lợn trên thế giới ............................................................... 17
1.4.2. Nghiên cứu giống lợn Việt Nam.......................................................................... 19
Chương 2. ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU ....................... 25

2.1. Đối tượng và địa điểm nghiên cứu ............................................................... 25
2.1.1. Đối tượng ................................................................................................................ 25
2.1.2. Địa điểm.................................................................................................................. 25
2.2. Hóa chất và thiết bị........................................................................................ 28
2.2.1. Hóa chất .................................................................................................................. 28
2.2.2. Thiết bị .................................................................................................................... 30
2.3. Phương pháp nghiên cứu .............................................................................. 30
2.3.2. Phương pháp tách chiết DNA tổng số ................................................................. 32
2.3.3. Khuếch đại mtDNA .............................................................................................. 33
2.3.4. Xác định trình tự hệ gen ty thể ............................................................................. 33
2.3.5. Nhóm phương pháp lắp ráp, dóng hàng trình tự, dự đoán và chú giải hệ gen.. 35


iv

2.3.6. Phân tích trình tự và phương pháp xác định mức độ tương đồng trình tự ........ 38
2.3.7. Phương pháp xây dựng cây và phân tích chủng loại phát sinh.......................... 39
Chương 3. KẾT QUẢ VÀ THẢO LUẬN ............................................................. 41
3.1. Chọn lựa, thu thập mẫu ................................................................................ 41
3.2. Trình tự hệ gen ty thể của 6 giống lợn bản địa ........................................... 45
3.2.1. Tách chiết DNA tổng số của 6 giống lợn nghiên cứu ........................................ 45
3.2.2. Khuếch đại phân đoạn hệ gen ty thể (mtDNA) của 6 giống lợn bằng PCR ..... 48
3.2.3. Xác định trình tự các phân đoạn DNA của hệ gen ty thể ................................... 49
3.3. Phân tích hệ gen ty thể .................................................................................. 53
3.3.1. Phân tích thành phần hệ gen ty thể ...................................................................... 53
3.3.2. Chú giải cấu trúc hệ gen ty thể ................................................................ 66
3.3.3. Cấu trúc thành phần của các gen RNA vận chuyển ........................................... 69
3.3.4. Phân tích cấu trúc bậc hai của các tRNA ............................................................ 70
3.4. So sánh đa hình trình tự ............................................................................... 82
3.4.1. Trình tự vùng D-loop............................................................................................ 74

3.4.2. Trình tự vùng mã hóa hệ gen ty thể ..................................................................... 80
3.5. Phân tích về quan hệ phát sinh chủng loại .................................................. 86
3.5.1. Phân tích cây phát sinh chủng loại dựa trên dữ liệu trình tự vùng D-loop ........... 87
3.5.2. Phân tích cây phát sinh chủng loại dựa trên dữ liệu trình tự hoàn chỉnh .............. 91
4.1. Kết luận .......................................................................................................... 99
4.2. Kiến nghị ........................................................................................................ 99
DANH MỤC CÁC CÔNG TRÌNH CỦA TÁC GIẢ .......................................... 100
TÀI LIỆU THAM KHẢO .................................................................................... 101
PHỤ LỤC ............................................................................................................... 110
Phụ lục 1 - Nguồn gốc, phân bố, đặc điểm ngoại hình, khả năng sinh
trưởng 6 giống lợn bản địa Việt Nam .................................................................... 110
Phụ lục 2 - Điện di đồ sản phẩm PCR sau tinh sạch của 6 giống lợn bản địa
Việt Nam ................................................................................................................ 113
Phụ lục 3 - Trình tự hoàn chỉnh hệ gen ty thể của 6 giống lợn bản địa Việt Nam... 118


v

DANH MỤC CÁC CHỮ VIẾT TẮT
BLAST

Basic local alignment search tool

DNA

Deoxyribonucleic acid

HV1, HV2

Hypervariable Segment 1, hypervariable Segment 2


Indel

Insertion or deletion

ITS

Internal transcribed spacer.

MCMC

Monte Carlo Markov Chain

mtDNA

Mitochondrial DNA

NCBI

National Center for Biotechnology Information

Nu

Nucleotide

OTU

Operational taxonomic unit

PCR


Polymerase chain reaction

rDNA

Ribosomal DNA

RNA

Ribonucleic acid

rRNA

Ribosome RNA

SD

Standard deviation

SNPs

Single nucleotide polymorphism

tRNA

Transfer RNA

UPGMA

Unweighted-pair group method with arithmetic mean



vi

DANH MỤC CÁC BẢNG
Bảng 1.1. Phân loại lợn nhà ........................................................................................ 5
Bảng 1.2. Các loại thay thế đơn phân trong phân tử DNA ....................................... 12
Bảng 1.3. Phân bố các giống lợn bản địa Việt Nam ................................................. 22
Bảng 2.1. Mã số truy cập dữ liệu trình tự hệ gen ty thể của các giống lợn Âu Á và
phân bố địa lý được sử dụng trong nghiên cứu ......................................................... 27
Bảng 2.2. Các cặp mồi được sử dụng cho PCR và vị trí các phân đoạn .................. 29
được khuếch đại ........................................................................................................ 29
Bảng 2.3. Thành phần phản ứng PCR ....................................................................... 33
Bảng 2.4. Thành phần phản ứng giải trình tự ........................................................... 34
Bảng 3.1. Kết quả khảo sát lông da của 6 giống lợn bản địa ................................... 43
Bảng 3.2. Kết quả khảo sát đặc khối lượng và kích thước của 6 giống lợn bản địa413
Bảng 3.3. Khảo sát đặc điểm hình dáng cơ thể của 6 giốn bản địa ......................... 43
Bảng 3.4. Kết quả định lượng và kiểm tra độ tinh sạch của DNA tổng số ............... 45
Bảng 3.5. Kết quả sau chỉnh sửa chuẩn bị cho lắp ráp ............................................. 50
Bảng 3.6. Kết quả lắp ráp hệ gen hoàn chỉnh 6 giống lợn bản địa Việt Nam.......... 51
Bảng 3.7. Tỷ lệ thành phần các loại base trong trình tự hệ gen ty thể của 6 giống
lợn bản địa Việt Nam. ............................................................................................... 53
Bảng 3.8. Thành phần trình tự của các nhóm lợn phân bố theo khu vực địa lý ....... 55
Bảng 3.9. Cấu trúc của hệ gen ty thể lợn Móng Cái ................................................. 59
Bảng 3.10. Cấu trúc của hệ gen ty thể lợn Mường Lay ............................................ 60
Bảng 3.11. Cấu trúc của hệ gen ty thể lợn Mường Khương ..................................... 70
Bảng 3.12. Cấu trúc của hệ gen ty thể lợn Hạ Lang ................................................. 62
Bảng 3.13 Cấu trúc của lợn Hương ........................................................................... 62
Bảng 3.14. Cấu trúc của hệ gen ty thể lợn Ỉ .............................................................. 64
Bảng 3.15. Thành phần nucleotide của 22 gen tRNA của hệ gen 6 giống lợn bản địa

Việt Nam ................................................................................................................... 69
Bảng 3.16. So sánh độ tương đồng giữa các trình tự vùng D-loop của 6 giống lợn
bản địa Việt Nam với các giống lợn trên thế giới ..................................................... 75
Bảng 3.17. Các vị trí SNP trình tự vùng D-loop của 6 giống lợn bản địa Việt Nam 77
Bảng 3.18. So sánh tương đồng các trình tự vùng mã hóa hệ gen ty thể của 6
giống lợn Việt Nam với các giống lợn trên thế giới ................................................ 81


vii

DANH MỤC CÁC HÌNH
Hình 1.1. Nguồn gốc thuần hóa lợn nhà ..................................................................... 4
Hình 1.2. Cấu trúc hệ gen ty thể ở động vật có vú .................................................... 8
Hình 1.3. Mô tả phương pháp neighbor-joining ....................................................... 15
Hình 2.1. Bản đồ địa điểm thu mẫu .......................................................................... 26
Hình 2.2. Sáu giống lợn bản địa Việt Nam được sử dụng trong nghiên cứu ................ 27
Hình 2.3. Sơ đồ tổng quát các bước nghiên cứu ....................................................... 30
Hình 2.4. Các bước lắp ráp hệ gen ty thể .................................................................. 35
Hình 3.1. A. Điện di đồ DNA tổng số của giống lợn Ỉ và Hạ Lang ............................. 47
Hình 3.1. B. Điện di đồ DNA tổng số của giống lợn Mường Lay và Hương ......... 47
Hình 3.1. C. Điện di đồ DNA tổng số tách chiết từ giống lợn Móng Cái và
Mường Khương ......................................................................................................... 48
Hình 3.2. Sản phẩm PCR sau tinh sạch đối với giống lợn Hương .............................. 49
Hình 3.3.A.B. Cấu trúc dạng vòng của hệ gen ty thể lợn Móng Cái,
lợn Mường Lay được xây dựng bởi phần mềm GenomeVx. .................................... 66
Hình 3.3.C.D. Cấu trúc dạng vòng của hệ gen ty thể lợn Mường Khương,
Hạ Lang được xây dựng bởi phần mềm GenomeVx. ............................................... 67
Hình 3.3.E.F. Cấu trúc dạng vòng của hệ gen ty thể lợn Hương và Ỉ được
xây dựng bởi phần mềm GenomeVx. ....................................................................... 68
Hình 3.4.A,B,C,D,E,F. Cấu trúc bậc hai của 22 loại tRNA được mã hóa trên

hệ gen ty thể lợn Móng Cái (A), Mường Lay (B), Mường Khương (C), Hạ Lang
(D), Hương (E) và Ỉ (F). ............................................................................................ 73
Hình 3.5. Vị trí khác biệt trên trình tự vùng D-loop của các giống lợn bản địa
Việt Nam và các giống lợn đã được công bố sau khi dóng hàng đa trình tự ............ 78
Hình 3.6. Một phần trình tự D-loop của lợn Ỉ và các giống lợn đã được công bố
sau khi tiến hành sắp xếp. ......................................................................................... 79
Hình 3.7. Biến thể trình tự tại vị trí nucleotide 2250 vùng mã hóa hệ gen ty thể
các giống lợn ............................................................................................................. 82
Hình 3.8. Biến thể trình tự tại vị trí nucleotide 11318 trình tự vùng mã hóa
hệ gen ty thể các giống lợn........................................................................................ 83
Hình 3.9. Một phần trình tự hoàn chỉnh của lợn Ỉ và các giống lợn đã được
công bố sau khi tiến hành sắp xếp. ............................................................................ 85
Hình 3.10. Cây phát sinh chủng loại vùng D-loop.................................................. 90
Hình 3.11. Cây phát sinh chủng loại của trình tự hoàn chỉnh ................................... 92


1
MỞ ĐẦU
Lợn nhà là loài vật có mối liên hệ lâu đời với con người, là một chi động vật
móng guốc có nguồn gốc ở đại lục Á - Âu. Ngành chăn nuôi lợn phát triển với
những xu hướng cải tạo năng suất, chất lượng của vật nuôi, nhiều giống lợn được
nhập nội để cải tiến các giống lợn địa phương cùng với việc khai thác theo kiểu tận
diệt đã tạo ra không ít áp lực đối với vấn đề bảo tồn nguồn gen bản địa. Bên cạnh
đó, hiện nay cũng có xu hướng quay lại chăn nuôi các giống lợn bản địa vì các ưu
điểm nổi trội: thịt ngon, ít bệnh tật, khả năng thích nghi cao, giá trị kinh tế lớn.
Việt Nam có khoảng 26 giống lợn bản địa, trong số đó có những giống thuộc
Danh mục nguồn gen vật nuôi quý hiếm cần được bảo tồn. Lợn Ỉ nguồn gốc ở tỉnh
Nam Định, ngày nay ít được nuôi do hiệu quả kinh tế không cao và đang đối diện
nguy cơ lớn tuyệt chủng. Đặc biệt, lợn Ỉ được đưa vào Danh mục nguồn gen vật
nuôi quý hiếm cần được bảo tồn. Lợn Móng Cái là giống lợn nội được hình thành

và phát triển lâu đời, xuất xứ từ thành phố Móng Cái, tỉnh Quảng Ninh, với khả
năng sinh sản khá cao. Lợn Mường Khương với ưu điểm thích ứng tốt trong điều
kiện tự nhiên, có chất lượng thịt thơm ngon và là một giống lợn gắn liền với đời
sống người H’Mông, thuộc tỉnh Lào Cai. Giống lợn Hương có lớp mỡ mang mùi
thơm tự nhiên, được nuôi rộng rãi ở địa bàn biên giới phía Bắc thuộc tỉnh Cao
Bằng. Lợn Mường Lay được chăn nuôi chủ yếu ở địa bàn thị xã Mường Lay, tỉnh
Điện Biên, đây là giống lợn phàm ăn, có tính kháng bệnh tốt. Lợn Hạ Lang cũng
phân bố ở tỉnh Cao Bằng, như các giống lợn bản địa khác, quần thể lợn Hạ Lang đang
ngày càng bị thu hẹp.
Hiện tại, các giống lợn bản địa đang giảm dần về số lượng, đang mất đi một
nguồn gen quý của địa phương và quốc gia. Để cứu vãn các giống lợn bản địa quý
hiếm, hiện các nhà khoa học đang cố gắng nỗ lực bảo tồn nguồn gen của chúng.
Đến nay, chưa có công trình nghiên cứu khoa học đầy đủ nào về hệ gen của các
giống lợn bản địa Việt Nam, nhằm làm sáng tỏ nguồn gốc và quan hệ phát sinh
chủng loại, phục vụ cho công tác bảo tồn nguồn tài nguyên quý hiếm này. Việc xây
dựng cơ sở dữ liệu phân tử về nguồn gen của các giống lợn này vẫn chưa được tiến
hành và khai thác một cách đầy đủ. Để giải quyết các vấn đề nêu trên, chúng tôi tiến
hành nghiên cứu đề tài: “Xác định và phân tích hoàn chỉnh trình tự hệ gen ty thể


2
của 6 giống lợn bản địa tại một số tỉnh Miền Bắc Việt Nam” với các mục tiêu và
nội dung sau:
Mục tiêu nghiên cứu:
- Thu được dữ liệu hoàn chỉnh hệ gen ty thể của sáu giống lợn bản địa Việt
Nam (lợn Ỉ, lợn Móng Cái, lợn Mường Lay, lợn Hương, lợn Mường Khương và lợn
Hạ Lang), đăng ký trên Ngân hàng gen.
- Xác định được thành phần, cấu trúc hệ gen ty thể, so sánh sự sai khác trình
tự, xác định đặc điểm di truyền đặc trưng của sáu giống lợn bản địa trên, qua đó
đóng góp vào cơ sở dữ liệu phục vụ công tác nhận dạng và bảo tồn.

- Xác định được mối quan hệ về di truyền, nhận định nguồn gốc, phát sinh
chủng loại của sáu giống lợn bản địa Việt Nam.
Nội dung nghiên cứu:
- Điều tra, khảo sát về giống, nơi cư trú, thu thập mẫu máu của của 6 giống
lợn bản địa nghiên cứu.
- Giải trình tự toàn bộ hệ gen ty thể của 6 giống lợn bản địa.
- Lắp ráp, xác định trình tự hoàn chỉnh toàn bộ hệ gen ty thể và chú giải.
- Phân tích thành phần, cấu trúc hệ gen.
- Nghiên cứu đa hình trình tự, so sánh trình tự hệ gen ty thể của 6 giống lợn
này với một số giống lợn ở Châu Á, Châu Âu.
- Xây dựng cây phát sinh chủng loại dựa trên trình tự vùng D-loop và trình tự
hoàn chỉnh của hệ gen ty thể, phân tích mối quan hệ nguồn gốc phát sinh chủng loại
giữa 6 giống lợn bản địa và một số giống lợn khác trên thế giới.
Đóng góp mới của luận án:
- Đã giải trình tự hoàn chỉnh hệ gen ty thể của sáu cá thể lợn bản địa Việt
Nam (lợn Ỉ, lợn Móng Cái, lợn Mường Khương, lợn Mường Lay, lợn Hương và lợn
Hạ Lang) dữ liệu đã công bố trên ngân hàng Genbank.
- Đã phân tích, chú giải, dự đoán cấu trúc chức năng hệ gen ty thể của sáu cá
thể lợn nghiên cứu.
- Xây dựng giả thuyết về nguồn gốc của giống lợn Hương và Hạ Lang có thể
là cùng một nguồn gốc.
Ý nghĩa khoa học và thực tiễn:
- Luận án có ý nghĩa thực tiễn trong việc xác định nguồn gốc di truyền của


3
sáu giống lợn bản địa sử dụng trong nghiên cứu. Kết quả của luận án là nguồn dữ
liệu quan trọng trong các nghiên cứu về phát sinh chủng loại, tiến hóa phân tử, cũng
như các nghiên cứu khác nhằm nhận diện, đánh giá và sử dụng giống lợn bản địa
Việt Nam, góp phần hiệu quả cho việc bảo tồn và sử dụng bền vững nguồn gen này.

- Các bài báo đăng tải trên các tạp chí khoa học - công nghệ quốc tế và trong
nước cùng với các trình tự hệ gen công bố trên Ngân hàng Gen (GenBank - NCBI)
là những tư liệu có giá trị tham khảo trong nghiên cứu và giảng dạy.
- Những kết quả của nghiên cứu đã đóng góp vào thư viện nguồn gen của
một số giống bản địa trong ngân hàng gen quốc gia và quốc tế. Luận án sẽ tạo tiền
đề cho phát triển các nghiên cứu tiếp theo trên các giống lợn bản địa, cũng như các
giống vật nuôi khác của Việt Nam.


4
Chương 1. TỔNG QUAN TÀI LIỆU
1.1.

Nguồn gốc, phân loại và quá trình thuần hóa lợn nhà

1.1.1. Nguồn gốc
Có quan điểm cho rằng giống lợn nhà hiện nay (S. scrofa) bắt nguồn từ hai
nhóm lợn rừng hoang dã là lợn rừng Châu Âu (S. scrofaferus) và lợn rừng Châu Á
(Sus orientalis, Sus cristatus, Sus vittatus), được con người thuần hoá trong thời
gian dài mà thành. Căn cứ vào hình dáng của tai, người ta chia cả hai nhóm lợn
nguyên thuỷ Châu Âu và Châu Á thành hai loại: Lợn tai dài và lợn tai ngắn. Các
giống lợn nhà nuôi hiện nay hình thành từ các giống lợn cổ đại trước kia thông qua
các phương pháp tạp giao khác nhau [1]. Nguồn gốc các giống lợn được tóm tắt ở
hình 1.1.
Đang
tiếp tục
~ 200 năm

~ 10.000 năm


Phân chia ~ 1,2 triệu năm

Hình thành loài Sus ~ 4-2 triệu năm

Hình 1.1. Nguồn gốc thuần hóa lợn nhà [2]
Lịch sử nguồn gốc của lợn nhà được cho là đã trải qua 5 sự kiện lớn: (1) Sự
hình thành loài Sus ở khu vực Đông Nam Á, (2) Quá trình phân ly thành hai dòng
Châu Âu và Châu Á, (3) Quá trình thuần hóa độc lập dẫn đến sự phân tách thành hai
nhánh Châu Âu và Châu Á, (4) Sự tạp giao giữa lợn nhà Châu Âu và Châu Á và (5)
là quá trình hình thành các giống lợn ngày nay [2].


5
1.1.2. Phân loại
Lợn nhà thường được cho là một phân loài từ tổ tiên hoang dã của chúng lợn rừng, chúng được đặt tên sinh học là S. scrofa domesticus [3]. Một số nhà phân
loại học lại cho rằng lợn nhà là một loài riêng và gọi tên chúng là Sus domesticus,
lợn rừng là S. scrofa [4]. Bảng 1.1 minh họa về cách phân loại khoa học lợn nhà thuộc
các đơn vị phân loại sau:
Bảng 1.1. Phân loại lợn nhà
Giới

Động vật (Animalia)

Ngành

Động vật có xương sống (Chordata)

Lớp

Động vật có vú (Mammalia)


Bộ

Guốc chẵn (Artiodactyla)

Họ

Lợn (Suidae)

Chi

Sus

Loài

S. scrofa

Phân loài

S. s. domesticus

Họ lợn bao gồm 3 họ phụ (Phacochoerinae warthogs, Suinae, Babyrouinae).
Các giống lợn được phân thành các giống lợn chính và phụ, có 25 giống lợn phụ và
4 giống lợn chính. 4 giống phụ trong 25 giống phụ đã được thuần hóa và đưa vào sử
dụng hiện nay đã cho thấy mối quan hệ họ hàng và nguồn gốc chung của các loại
giống lợn trên thế giới [5].
Trong loài Sus (bao gồm các chủng và thứ chủng) có nhiều đại diện rải rác
khắp các lục địa, chính là nguồn gốc trực tiếp của các giống lợn nguyên thủy còn
tồn tại cho đến ngày nay.
1.1.3. Quá trình thuần hóa

Tổ tiên xa xưa của lợn là lợn rừng, đã được săn bắn để cung cấp thực phẩm
cho cuộc sống của người nguyên thủy. Dần dần họ nhận ra thay vì săn bắn, việc
thuần hóa nuôi dưỡng lợn được tiến hành dễ dàng và thuận lợi hơn để cung cấp thực
phẩm cho con người. Quá trình thuần hóa và chăn nuôi lợn là quá trình phát triển
liên tục, phụ thuộc lớn vào sự lai tạo giữa lợn đã được thuần hóa với lợn rừng địa
phương, đặc biệt là lợn nái hoang dã. Nhiều loài lợn rừng tồn tại trên thế giới hiện nay
như loài lợn rừng Châu Phi (warthog) Phacochoreus africanus, lợn lùn (pigmy hog)
Porcula salvania và lợn nhỏ (pig-deer) Babyrousa babyrussa; nhưng chỉ có S.


6
scrofa (lợn rừng) là đã được thuần hóa. Do đó, tất cả các giống lợn hiện nay được coi
là các dạng của S. scrofa domestica [2].
Các bằng chứng về phát sinh chủng loại địa lý cho thấy quá trình thuần hóa
lợn diễn ra nhiều lần ở nhiều nơi trên thế giới. Về thời điểm thuần hóa, các nhà
khảo cổ học dựa vào những di chỉ khảo cổ (chủ yếu là xương sọ) đã cho rằng lợn
được thuần hóa vào khoảng 9000 năm về trước [6], thậm chí từ rất sớm vào khoảng
13.000 đến 12.700 năm trước Công nguyên ở Cận Đông [7]. Lợn nhà đã được xác
định có mặt ở đảo Síp từ khoảng 11.400 năm trước Công Nguyên, chúng được du
nhập từ đất liền, đồng nghĩa với việc chúng đã được thuần hóa trong đất liền
[8]. Cũng có nghiên cứu khẳng định sự thuần hóa lợn diễn ra một cách riêng biệt ở
Trung Quốc cách đây khoảng 8000 năm [1].
Về địa điểm thuần hóa, quá trình thuần hóa lợn diễn ra đầu tiên ở khu vực
Cận Đông và diễn ra lặp lại từ các quần thể lợn hoang dã ở từng khu vực khác nhau
trên thế giới [9]. Sau khi được thuần hóa, lợn được phân tán đến Châu Âu và đến
các vùng nội địa khác. Cũng có giả thuyết về sự thuần hóa lợn diễn ra ở một số
trung tâm thuần hóa lợn trên thế giới, đầu tiên có thể kể đến là lục địa Đông Nam
Á. Theo một nghiên cứu của Larson (2005), các giống lợn được thuần hóa bắt
nguồn từ các quần thể lợn hoang, tổ tiên của lợn ngày nay được xác định là lợn
rừng nguyên thủy và quê hương của chúng chính là vùng Đông Nam Á [10]. Sau

khi được thuần hóa ở Đông Nam Á, lợn theo con người đến các vùng khác
của lục địa Á Âu (Eurasia) và ra các đảo Thái Bình Dương [11]. Trong một nghiên
cứu khác, DNA của các giống lợn thuộc các hải đảo Thái Bình Dương và lợn không
lông ở Vanuatu đã được phân tích để khẳng định rằng, lợn tại các hải đảo này cũng
xuất phát và được thuần hóa từ lục địa Đông Nam Á (đặc biệt là từ Việt Nam)
khoảng 3000 năm trước đây [11]. Sau đó, chúng theo con người "di cư" ra khỏi lục
địa và đến các hải đảo như Vanuatu và Lưu Cầu.
Ở Trung Quốc, có công bố cho rằng những con lợn thuần hóa đầu tiên
tại vùng Jiahu ở thời kỳ Đồ đá mới [12]. Từ quá trình thuần hóa đầu tiên, lợn
đã trở thành vật nuôi chính ở Trung Quốc. Tập tục nuôi nhốt từ sớm của người
nông dân Trung Quốc làm cho quá trình thuần hóa lợn ở Trung Quốc diễn ra
nhanh hơn so với ở khu vực Tây Á, Châu Âu.


7
Nghiên cứu của Larson và cs (2007) cho rằng sự hiện diện tại Châu Âu của
lợn nhà có tổ tiên ở vùng Cận Đông vào thời kỳ Đồ đá mới [13]. Bằng chứng khảo
cổ học cũng chứng minh lợn nhà lần đầu được khai thác ở Bắc Âu vào khoảng 4100
năm trước Công Nguyên [14]. Ngay sau khi lợn có nguồn gốc Cận Đông được đưa
vào Châu Âu, những người nông dân đã kết hợp lợn rừng địa phương vào đàn lợn
của họ. Bắt đầu từ khoảng 7.000 năm trước, người Trung Á chuyển đến Châu Âu,
mang theo vật nuôi bản địa và cả cây trồng. Nhưng có thể cùng thời điểm ấy, lợn
rừng tại Châu Âu cũng được thuần hóa, khi đó lợn rừng bản địa Châu Âu nhanh
chóng thay thế sự có mặt của lợn nhà có nguồn gốc Cận Động trên phạm vi khắp
Châu Âu. Do đó, không phải con lợn nào có nguồn gốc Cận Đông cũng trở thành tổ
tiên của giống lợn Châu Âu ngày nay.
Công trình nghiên cứu dựa trên trình tự mtDNA của 48 giống lợn bản địa tại
Trung Quốc và Đông Nam Á cho thấy khoảng cách tiến hóa tương đương và tương
đối gần giữa lợn rừng Châu Âu với các giống lợn kiểu Âu và giống lợn kiểu Á, đưa
đến một luận điểm là lợn rừng Châu Âu có thể là tổ tiên của cả giống lợn nhà Châu

Âu và Châu Á [15]. Theo Kim và cs (2002), đa dạng di truyền ở lợn thương phẩm
lớn hơn trong các quần thể lợn rừng hiện nay. Các ghi chép lịch sử cho thấy lợn
Châu Á đã được đưa vào Châu Âu trong thế kỷ 18 và đầu thế kỷ 19 [15]. Thời điểm
này ở nước Anh, nhu cầu về thịt lợn tăng cao, các nhà lai tạo giống đã nhập khẩu
một số cá thể lợn của Trung Quốc và lai chúng với những con lợn Châu Âu. Đa
dạng di truyền lớn trong các giống lợn thương mại hiện nay là kết quả của phép lai
giữa lợn Châu Âu và lợn Trung Quốc trong khoảng 200 năm về trước. Các bằng
chứng phân tử về sự du nhập gen đã chỉ ra nguồn gốc lai của một số giống lợn Châu
Âu chính. Lợn thương phẩm của Châu Âu hiện đại có chứa DNA nguồn gốc từ lợn
Châu Á [15].
1.2. Đặc điểm và một số ứng dụng của hệ gen ty thể
1.2.1. Đặc điểm cấu trúc hệ gen ty thể ở động vật có vú
Ty thể là một bào quan dạng hình gậy hoặc hình hạt nằm trong nguyên sinh
chất của tế bào, có hệ di truyền độc lập và di truyền theo dòng mẹ. Hệ gen ty thể
của động vật có vú có cấu tạo DNA mạch vòng với kích thước tổng thể khoảng 16,6
kb mã hóa 13 chuỗi polypeptide. Hai sợi trên mạch kép của mtDNA được phân biệt
thành chuỗi nặng (H) và chuỗi nhẹ (L) dựa theo tỷ lệ thành phần bất đối xứng của


8
Guanine và Cytosine [16]. Bên cạnh các gen mã hóa protein, mtDNA cũng mã hóa
cho 22 tRNA và 2 rRNA (12S và 16S rRNAs). Các rRNA và 14 trong số 22 tRNA
được mã hóa bởi các gen nằm trên chuỗi H [17]. Các gen không chứa intron và
ngoại trừ một số vùng điều hòa bao gồm các promoter và điểm khởi đầu sao chép
trên chuỗi H [18]. Sơ đồ cấu trúc hệ gen ty thể ở động vật có vú được trình bày tại
hình 1.2.

Chuỗi H

mtDNA

genome
Chuỗi L

Hình 1.2. Cấu trúc hệ gen ty thể ở động vật có vú [19]
Trong nhiều trường hợp, một phần của bộ ba kết thúc tuy không được mã
hóa nhưng được tạo ra bởi quá trình gắn đuôi polyA sau phiên mã [20]. Mã di
truyền của mtDNA ở động vật có xương sống khác mã di truyền trong nhân. Cụ
thể, thay vì là một bộ ba kết thúc, bộ ba TGA mã hóa Tryptophan trong ty thể của
động vật có xương sống. Bộ ba ATA mã hóa Methinonine ở ty thể nhưng lại mã
hóa cho Isoleucine, và AGA hoặc AGG trong mã bộ ba của ty thể là bộ ba kết thúc
thay vì mã hóa Arginine [21].
So với hệ gen nhân, hệ gen ty thể chứa rất ít trình tự không mã hóa xen kẽ
với vùng mã hóa. Vùng D-loop nằm giữa gen tRNAPhe (gen MT-TK) và tRNAPro
(gen MT-TP) là vùng không mã hóa lớn nhất và có vai trò quan trọng trong điều
hòa quá trình sao chép và phiên mã của hệ gen ty thể, chứa promoter cho sự phiên
mã chuỗi H và chuỗi L, chứa điểm khởi đầu của quá trình sao chép. Hệ gen ty thể
sao chép độc lập với hệ gen nhân bằng một hệ thống riêng trong ty thể nhưng các
enzyme cho quá trình sao chép lại do hệ gen nhân mã hóa [18]. Quá trình phiên mã


9
và dịch mã của DNA ty thể lại được điều khiển bởi gen nhân. Hệ gen ty thể đƣợc
phiên mã từ một điểm khởi đầu nằm trên vùng D-loop, bản phiên mã sau đó được
endonuclease phân cắt để hình thành nên phân tử rRNA 12S và 16S, tRNA và
mRNA tiền thân. Phân tử mRNA hoàn thiện của ty thể không được gắn mũ nhưng
có đuôi polyA [22].
Vùng D-loop của hệ gen ty thể ở động vật có vú có mức độ bảo thủ nhất định
ở các vùng promoter và ba vùng CSB (Conserved Sequence Blocks). Các vùng
CSB được cho là có liên quan đến quá trình sao chép của mtDNA, đặc biệt vùng
CSB-I nằm ngay vị trí khởi đầu tổng hợp chuỗi H DNA. Vùng D-loop không mã

hóa cho bất kì một protein nào và có tốc độ tiến hóa cao hơn nhiều so với các khu
vực khác của hệ gen ty thể. Phần chính của vùng D-loop bao gồm các trình tự
không mã hóa và các vùng siêu biến (HV1 và HV2). Mặc dù tỉ lệ đột biến chung
trong các vùng siêu biến là cao hơn hẳn so với phần còn lại của mtDNA, tuy nhiên
một số vị trí nucleotide được xem là những điểm nóng (hot-spot) cho sự biến đổi.
Hai vùng HV1 và HV2 tương ứng ở khoảng vị trí 16024-16383 và 57-372 [18].
mtDNA có độ bảo tồn cao, dễ khuếch đại bởi tồn tại nhiều bản sao trong tế
bào, trình tự hệ gen ty thể có sự bảo thủ nhất định giữa các loài động vật, với ít sự
trùng lặp, không chứa intron, các vùng intergenic ngắn [23]. Đây là những đặc điểm
giúp mtDNA được ứng dụng trong nhận dạng cá thể, phân loại, phát sinh chủng loại
và xác định nguồn gốc.
1.2.2. Một số ứng dụng của hệ gen ty thể
1.2.2.1. Ứng dụng trong phân loại học và định danh loài
Hệ gen ty thể mặc dù có kích thước nhỏ so với kích thước toàn bộ hệ gen của
sinh vật nhưng nó lại được coi là một chỉ thị phân tử phổ biến ở động vật. Đã có rất
nhiều những nhà di truyền học quần thể và hệ thống học áp dụng các trình tự trên hệ
gen ty thể trong nghiên cứu. Một số nghiên cứu đã sử dụng các gen ty thể như là
những marker phân tử (DNA barcode). Bên cạnh gen 16S rRNA, 12S rRNA,
Cytochrome b,.. nhiều nghiên cứu đã xác định rằng gen ty thể cytochrome c oxidase
subunit I [24] có thể đóng vai trò cốt lõi như một hệ thống xác định sinh học phân
loại động vật [25]. Sự tiến hóa của gen COI cho phép phân biệt không chỉ giữa các
loài gần nhau, mà còn trong cùng một loài [26]. Trong phân loại phân tử hoặc định
danh sinh vật, trình tự DNA được sử dụng như “barcodes”, dùng để phân loại


10
nhóm. Một nghiên cứu tiêu biểu sử dụng gen COI trong định danh loài bò, lợn, gia
cầm là công trình của Spychaj và cs (2016). Nghiên cứu này đã phát triển một
phương pháp tự thiết kế mồi để khuếch đại trình tự gen COI để nhận dạng sản phẩm
thịt từ 3 loài động vật trên [27]. Cũng sử dụng đoạn gen COI, nhưng nhóm tác giả

Dawnay sử dụng cặp mồi phổ dụng để phân định loài gia súc và gia cầm [28]. Các
nghiên cứu đã cho thấy mtDNA trở thành một công cụ hữu hiệu trong việc định
danh sinh vật ở cấp độ loài hoặc dưới loài.
1.2.2.2. Ứng dụng trong nghiên cứu phát sinh chủng loại, xác định nguồn gốc
mtDNA có độ đa dạng cao trong quần thể tự nhiên do tỷ lệ đột biến lớn, trở
thành các bằng chứng cho lịch sử phát triển của quần thể.
Các kĩ thuật phân tích trình tự mtDNA để xác định mối quan hệ về phát sinh
chủng loại đã được sử dụng phổ biến dựa trên nguyên lý: thông tin về quá trình tiến
hóa có thể thu được qua phân tích dữ liệu về trình tự. Một số tác giả đã tiến hành so
sánh sự đa hình các trình tự để xác định mối quan hệ về tiến hóa giữa những cá thể
trong cùng loài hoặc các loài có quan hệ gần, thời gian phân ly ngắn [29, 15, 30].
Bên cạnh đó, mức độ đa dạng và tiểu cấu trúc địa lý trong một nhóm hay giữa các
nhóm cá thể sinh vật cũng sẽ được làm sáng tỏ [31]. Hệ gen ty thể của lợn (S.
scrofa) được giải trình tự hoàn chỉnh đầu tiên vào năm 1998 [32], là tiền đề cho các
công trình khoa học được tiến hành dựa trên những dữ liệu hoàn chỉnh hệ gen ty thể
của các giống lợn nhà và lợn rừng.
Ở mtDNA, sự tiến hóa đa dạng hơn so với DNA nhân [33, 34]. Sự tiến hóa
của mtDNA ở động vật có vú diễn ra trước hết từ sự thay thế các cặp base đơn, hơn
là việc tái sắp xếp các phân đoạn lớn của trình tự [18]. mtDNA di truyền theo dòng
mẹ, đơn bội và không tái tổ hợp [35]. Những đặc điểm trên đây khiến mtDNA là
một trong những chỉ thị phổ biến nhất được sử dụng nhằm xác định mối quan hệ
giữa các cá thể trong cùng loài và giữa các loài có mối quan hệ gần, thời gian phân
ly ngắn.
Đối với hệ gen ty thể, vùng D-loop được cho là vùng có nhiều sự biến đổi
hơn các vùng khác [36]. Trong suốt nhiều thập kỷ qua, vùng D-loop của hệ gen ty
thể đã được sử dụng trong các phân tích chủng loại phát sinh. Hai vùng siêu biến
(HV1 và HV2) được sử dụng nhiều cho nghiên cứu tiến hóa, xác định quan hệ huyết
thống dòng mẹ ở sinh vật nhân thực Eukaryotes và đặc biệt ở người [37, 38]. Thông



11
qua phân tích hệ gen ty thể ở các loài động vật có vú, sự phân ly về trình tự mtDNA
được xác định cứ mỗi 2 triệu năm diễn ra khoảng 2%, tương đương với tốc độ thay
thế nucleotide là 1x10-8 sự thay thế/vịtrí/năm ở mỗi giống [34]. Ở các loài gia súc
nói riêng, tốc độ thay thế các nucleotide ở vùng D-loop được cho là khoảng 1,5.10-7/vị
trí/năm [39]. Một số công trình nghiên cứu dựa trên độ đa hình trình tự vùng D-loop
nhằm xác định khoảng thời gian từ lúc phân ly thành các nhánh lợn Châu Âu và
Châu Á, qua đó đưa ra những đánh giá về phát sinh chủng loại [15, 40].
Tất cả những đặc điểm, cấu trúc, đặc tính sinh học đã giúp hệ gen ty thể trở
thành một chỉ thị phân tử phổ biến được sử dụng trong nghiên cứu đa dạng sinh học
và quan hệ phát sinh chủng loại cũng như xác định nguồn gốc tiến hóa.
1.3. Phát sinh chủng loại phân tử, xây dựng và phân tích cây phát sinh
chủng loại phân tử
Nghiên cứu về phát sinh chủng loại có thể sử dụng các bằng chứng về hình
thái từ những loài đang sống và dữ liệu hóa thạch hoặc dựa trên lượng dữ liệu
khổng lồ về phân tử [41]. Trong ngành phát sinh chủng loại phân tử, người ta
nghiên cứu mối quan hệ giữa các loài sinh vật thông qua các bằng chứng phân
tử, cụ thể là trình tự DNA và protein. Như vậy, sự khác biệt giữa các trình tự quy
định sự phân ly di truyền, được coi là kết quả của tiến hóa phân tử theo tiến trình
thời gian. Các mối quan hệ về tiến hóa được suy luận ra, chúng thường được biểu
diễn dưới dạng cây tiến hóa, qua đó có thể cung cấp các giả thuyết về những sự
kiện sinh học xảy ra trong quá khứ [42]. Tất cả các dạng sống đều có chung một
nguồn gốc tổ tiên và là một phần của cây sự sống. Hơn 99% các loài từng sống sót
đã bị tuyệt chủng [43], do đó, suy luận phát sinh chủng loại là suy luận các dữ kiện
trong quá khứ. Suy luận phát sinh chủng loại sử dụng các đặc điểm chung giữa hai
loài (có thể là đặc điểm hình thái hoặc đặc điểm ở cấp độ nhiễm sắc thể, các trình tự
phân tử). Phát sinh chủng loại cũng giúp ước lượng khoảng thời gian phân ly giữa
các sinh vật tính từ thời điểm chúng cùng chia sẻ một tổ tiên chung cuối cùng.
1.3.1. Cây phát sinh chủng loại
Cây phát sinh chủng loại nêu lên một giả thuyết về các sinh vật trên cây đã

có quan hệ họ hàng với nhau như thế nào [42]. Mỗi nhóm loài có thể có nhiều dạng
phát sinh, phải lựa chọn dạng phát sinh nào được coi là đúng nhất. Cách lựa chọn
phụ thuộc vào các phương pháp suy luận chứ không phải là quan sát hoặc tiến


12
hành thí nghiệm bởi những sự kiện phân chia trong tiến hóa đã xảy ra. Việc xây
dựng cây chỉ mang tính suy luận, ở đó biểu diễn các sự kiện trong quá khứ. Các
cây mô tả một chuỗi các sự kiện tiến hóa được suy luận từ các dữ liệu sẵn có, dựa
trên một số mô hình [42].
Có hai thông tin chính trong cây phát sinh chủng loại: thông tin về hình học
tô-pô và chiều dài nhánh. Hình học tô-pô của một cây xác định các mối quan hệ của
các thực thể được đại diện trên cây phát sinh. Chiều dài nhánh phản ánh mức độ
quan hệ của các đối tượng trên cây. Cây phát sinh là một biểu đồ bao gồm các
nhánh và các nút. Chỉ duy nhất một nhánh là nối giữa hai nút. Các nút đại diện cho
các đơn vị phân loại (các taxon mà cụ thể ở đây là các trình tự DNA hoặc protein),
nút là giao điểm hay điểm tận cùng của hai hoặc nhiều nhánh [44]. Một đơn vị phân
loại hoạt động [44] là một taxon hiện có có mặt ở một nút ngoài cùng hay còn gọi là
lá. Ở đây, các OTU sẽ là các chuỗi nucleic acid hoặc protein đang được phân tích
trên cây đó. Các nút phía trong đại diện cho các trình tự tổ tiên mà chúng ta có thể
suy ra nhưng hiếm khi có thể quan sát được (ví dụ như trường hợp trình tự DNA từ
các cơ thể đã tuyệt chủng). Một số OTU có thể được đổi chỗ cho nhau (chuyển đổi
hoặc xoay vị trí) mà không thay đổi trạng thái hình học tô-pô của cây. Nhìn chung,
các OTU hoặc các nhánh chia sẻ một nút tổ tiên gần nhất có thể xoay ngay trên nút đó [42].
Chiều dài nhánh cần phải được xác định khi dựng cây. Ở một số cây, chiều dài
nhánh đại diện cho số thay đổi nucleotide hoặc amino acid xảy ra trong nhánh đó (số
khác biệt trên mỗi vị trí). Định dạng cây này (phylogram) cho phép khảo sát rõ ràng
các mối quan hệ của các OTU khác nhau trong cây đó. Một số cây lại được vẽ không
theo tỷ lệ với số lượng thay đổi, dạng cây này (cladogram) biểu diễn các OTU thẳng
hàng theo chiều dọc, được áp dụng khi cây đó có rất nhiều OTU [40].

Xây dựng cây từ dữ liệu trình tự DNA thực chất là nghiên cứu sự thay thế trong
DNA qua phép dóng hàng, chẳng hạn như sự thay thế từng nucleotide đơn, sự thay thế
liên tiếp và sự thay thế ngẫu nhiên (được thể hiện tại bảng 1.2).
Bảng 1.2. Các loại thay thế đơn phân trong phân tử DNA[42]
Trình tự
tổ tiên
A
G
T

Trình tự phân rẽ
1

Trình tự phân rẽ
2

A
GC
T

A
GC
T

Các loại thay thế
AA
Thay thế song song
CC
TT Thay thế đơn nhất



13
Trình tự
tổ tiên
C
C
T
G
T
T
C
A
G

Trình tự phân rẽ
1

Trình tự phân rẽ
2

C
C
T
G
TA
TG
CG
A
GTG


CG
CTA
T
G
TC
T
CTG
A
G

Các loại thay thế
CG
CA
TT
GG
AC
GT
GG
AA
GG

Thay thế liên tiếp
Thay thế ngẫu nhiên
Thay thế trùng hợp
hội tụ
Thay thế hồi quy

1.3.2. Phân tích phát sinh chủng loại
Phân tích phát sinh chủng loại phân tử được chia làm năm bước: 1- thu nhận,
chọn lựa các trình tự để phân tích; 2 - dóng hàng đa trình tự của các trình tự nucleic

acid hay protein tương đồng; 3 - lựa chọn mô hình thống kê cho tiến hóa của
nucleotide hoặc amino acid; 4 - xây dựng cây; và 5 - phân tích cây.
1.3.2.1. Thu nhận trình tự, lựa chọn trình tự
Có thể thu nhận trình tự từ cơ sở dữ liệu HomoloGene của NCBI bao gồm hàng
ngàn họ protein của sinh vật nhân thực, hay các kết quả từ công cụ BLAST giúp lựa
chọn được các họ protein, được quan sát trong NCBI Protein hoặc NCBI Nucleotide.
Các trình tự có thể thu được từ cơ sở dữ liệu Viện Công nghệ tin sinh học Châu Âu
hoặc Ensembl. Cũng có thể thu nhận trình tự từ các cơ sở dữ liệu rộng lớn với định
dạng đầu ra FASTA (hoặc dóng hàng đa trình tự). Với RNA, các cơ sở dữ liệu này bao
gồm Rfam và Ribosomal Database. Với protein các cơ sở dữ liệu gồm Pfam và
InterPro.
1.3.2.2. Dóng hàng đa trình tự
Một họ gen (hoặc protein) được xác định bởi phép dóng hàng đa trình tự của
một nhóm các trình tự tương đồng (homologous). Dóng hàng đa trình tự là một tập
hợp của ba hay nhiều trình tự protein (hoặc nucleic acid) được dóng hàng từng phần
hoặc toàn bộ. Các đơn phân tương đồng được dóng hàng theo cột dọc suốt chiều dài
của trình tự. Các đơn phân được dóng hàng này là tương đồng theo ý nghĩa tiến hóa:
chúng được thu về từ một tổ tiên chung. Đây là bước then chốt trong phân tích phát
sinh chủng loại. Để chuẩn bị dóng hàng đa trình tự phục vụ phân tích phát sinh
chủng loại, các trình tự phải có chung nguồn gốc và tương đồng.
1.3.2.3. Lựa chọn mô hình thay thế trong chuỗi DNA và amino acid


14
Phân tích phát sinh chủng loại dựa trên các mô hình của sự thay thế trong
chuỗi DNA hoặc amino acid. Mô hình Jukes-Cantor mô tả quá trình tiến hóa bởi
những sự thay đổi các đơn phân trong một phép dóng hàng trình tự. Mô hình này
giả định rằng mỗi loại nucleotide có khả năng như nhau để chuyển thành 3 loại
còn lại và bốn loại có mặt với tỷ lệ bằng nhau, tỷ lệ của đồng hoán bằng với tỷ lệ
dị hoán. Trong mô hình hai thông số Kimura cũng mô tả sự thay đổi các đơn

phân nhưng thường thì dị hoán sẽ được chú trọng hơn về tính khả dĩ. Ở mô hình
Tamura giải thích cho sự đa dạng trong thành phần GC, đây là điển hình cho một
mô hình phức tạp hơn của sự thay thế nucleotide.
Trước khi chuỗi dữ liệu được tính toán và phân tích, chúng phải trải qua
quá trình kiểm tra dò tìm mô hình tiến hóa thích hợp.
1.3.2.4. Xây dựng cây
Có bốn phương pháp chính để dựng cây: dựa vào khoảng cách, maximum
parsimony, maximum likelihood và suy luận Bayes. Một trong những phần mềm
tiên tiến hiện nay là MrBayes được phát triển bởi John Huelsenbeck và Fredrik
Ronquist [45]. Công cụ này giúp suy luận dựa trên việc xác lập một phương
pháp phân tích Bayes và các phương pháp dựa trên mô hình để phân tích phát
sinh chủng loại. MrBayes lượng giá một phân bố xác suất tiên nghiệm, là khả
năng mà một cây tạo ra thỏa mãn dữ liệu quan sát.
- Nhóm phương pháp dựa trên khoảng cách
Phương pháp này sử dụng khoảng cách tiến hóa giữa các OTU để suy
luận lịch sử phát sinh loài. Nếu khoảng cách phân tử giữa các loài có sự gia
tăng không đổi theo thời gian, thì cặp loài nào có khoảng cách ngắn nhất sẽ có
chung tổ tiên gần nhất. Các cá thể cùng có một tổ tiên chung gần thì có sự
tương đồng với nhau hơn là những cá thể có chung tổ tiên ở xa hơn (lâu đời
hơn). Do đó, ta có thể suy luận các mối quan hệ tiến hóa từ các kiểu tương
đồng trong số các cá thể.
+ Phương pháp dựa trên khoảng cách UPGMA (Unweighted-Pair Group
Method with Arithmetic mean) được giới thiệu bởi Sokal và Michener [46].
Trong phương pháp này, dựa trên việc gom cụm các trình tự, mỗi trình tự được
xem nằm trong cụm của chính nó. Thông qua ma trận khoảng cách, có thể xác
định được chiều dài khoảng cách giữa mỗi đối tượng. Các taxon có khoảng cách
gần nhất sẽ nối lại với nhau và đặt tên cho một nút phía trong là. Cứ thế, xác


15

định các khoảng cách gần nhất tương ứng giữa các taxon, cuối cùng tất cả các
trình tự được kết nối lại trong một cây có gốc.
+ Tạo cây bằng nhóm phương pháp dựa trên khoảng cách - neighbor
joining:

Hình 1.3. Mô tả phương pháp neighbor-joining [47]
Phương pháp này sử dụng thuật toán khoảng cách được minh họa trên hình 1.3:
(a) các OTU trước hết được gom cụm trong một cây hình sao. Các lân cận được xác
định là các OTU được liên kết bởi một nút duy nhất ở bên trong của cây phân nhánh
không gốc. (b) hai OTU gần nhất được xác định, chẳng hạn là OTU số 1 và 2. Hai lân
cận này được nối với các OTU khác thông qua nhánh nội là XY. OTU được chọn là lân
cận sao cho tổng chiều dài nhánh là nhỏ nhất. Quá trình này được lặp lại cho đến khi
toàn bộ cây được tạo ra.
-

Nhóm phương pháp Maximum Parsimony
Phương pháp sử dụng nguyên lý suy luận phát sinh chủng loại dựa trên ít

nhất những biến đổi trong quá trình tiến hóa, nghĩa là cây tốt nhất là cây có chiều
dài nhánh ngắn nhất có thể [48].
-

Phương pháp Maximum Likelihood
Đây là một phương pháp được thiết kế để xác định kiểu hình học tô-pô cho

cây và chiều dài nhánh có tính khả dĩ cao nhất đối với tập hợp dữ liệu quan sát
được. Tính khả dĩ được tính toán cho mỗi đơn phân (residue) trong một phép dóng
hàng, bao gồm một vài mô hình của quá trình thay thế nucleotide hoặc amino acid.
Đây là phương pháp phải sử dụng dung lượng máy tính nhiều nhất và cũng là nhóm
phương pháp linh động nhất [49].

-

Nhóm phương pháp dựa trên lý thuyết Bayes
Suy luận Bayes thực chất là việc tính toán khả năng của một số dữ liệu đang

quan sát với một vài mô hình xác suất đã cho. Suy luận Bayes tìm kiếm xác suất của
một cây với điều kiện dựa trên những dữ liệu sẵn có (dựa trên sự quan sát một phép


16
dóng hàng đa trình tự nào đó) [50]. Ước lượng Bayes của phát sinh chủng loại được
chú trọng vào một đại lượng được gọi là phân bố xác suất tiên nghiệm của cây. Với
một cây đã cho, xác suất tiên nghiệm là xác suất để cây đúng, mục đích là tìm ra cây
có xác suất cao nhất. Suy luận Bayes trong nghiên cứu phát sinh chủng loại tương
tự như maximum likelihood bởi mỗi phương pháp đều tìm kiếm một đại lượng gọi
là tỷ lệ khả dĩ với dữ liệu điều kiện đang quan sát của cây. Khác biệt là việc xác
định các thông tin ban đầu và sử dụng thuật toán MCMC (Markov chain Monte
Carlo) để xác định phân phối xác suất hậu nghiệm. Nhóm phương pháp dựa trên
nguyên lý Bayes được coi là công cụ tiên tiến, khắc phục được một số hạn chế của
các phương pháp khác. Các nghiên cứu gần đây có xu hướng sử dụng phương pháp
Bayes nhiều hơn thay vì các phương pháp khác.
1.3.2.5. Hoàn thiện cây phát sinh chủng loại
-

Phân tích giá trị bootstrap
Sau khi dựng được một cây phát sinh chủng loại, cần đánh giá mức độ chính

xác, tin cậy và hiệu quả. Tính chính xác của cây được đánh giá bằng phương pháp
phổ biến nhất là phân tích bootstrap [51, 52]. Bootstrap mô tả độ mạnh về hình học
tô-pô của cây. Nghĩa là, với một trật tự phân nhánh cụ thể nào đó, xác định mức độ

tin cậy của thuật toán được sử dụng để dựng cây, để tìm ra trật tự phân nhánh sử
dụng các phép hoán vị ngẫu nhiên đối với các dữ liệu nguồn. Phân tích bootstrap
cho phép suy luận mức độ biến thiên trong một phân phối chưa biết mà dữ liệu
được rút ra từ đó [52]. Bootstrap là kĩ thuật xử lí thống kê các phép đo lường về độ
chính xác với các khoảng ước lượng về mẫu nghiên cứu. Cho phép sự ước lượng
các giá trị khác biệt trong một phân bố các mẫu nghiên cứu, qua đó kiểm định giả
thuyết trong thống kê bằng số lần thử lại (resampling) với sự thay thế từ nguồn dữ
liệu gốc.
Con số phần trăm thể hiện trên nhóm nào đó thể hiện trên cây gốc được cung
cấp dựa trên mức độ ủng hộ của bootstrap đối với hình học tô-pô của cây gốc. Giá
trị bootstrap lớn hơn 70% cung cấp giá trị ủng hộ cho việc tạo nhóm. Nếu nhìn vào
một nhóm (một nhóm trình tự có cùng tổ tiên) có giá trị ủng hộ bootstrap là 100%,
nghĩa là trong tất cả 500 phép bootstrap lặp lại, nhánh đó vẫ duy trì trạng thái (số
lượng, thành phần các trình tự vẫn không thay đổi trong nhánh). Nếu một nhánh chỉ
nhận được giá trị bootstrap là 52% ủng hộ, nghĩa là khoảng một nửa cơ hội một
trình tự thuộc nhánh lân cận với nhóm có giá trị bootstrap 52% là có khả năng thuộc


×