Tải bản đầy đủ (.pdf) (38 trang)

bài toán ước lượng hợp lý cực đại Áp dụng trên cây sinh loài nhỏ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (955.42 KB, 38 trang )

Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Trường Đại Học Bách Khoa

ĐẠI HỌC QUỐC GIA TP. HCM CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
----------------

Độc Lập - Tự Do - Hạnh Phúc
---oOo---

Tp. HCM, ngày . .05. . tháng . .11. . năm .2007.

NHIỆM VỤ LUẬN VĂN THẠC SĨ

BÙI VĂN ĐỒNG

Họ và tên học viên : Bùi Văn Đồng

Giới tính : Nam ;/ Nữ …

Ngày, tháng, năm sinh : 10/10/1969

Nơi sinh : Quảng Ngãi

Chuyên ngành : Khoa học Máy tính
Khoá : 2005
1- TÊN ĐỀ TÀI :

PHƯƠNG PHÁP ĐẠI SỐ
CHO BÀI TOÁN ƯỚC LƯỢNG HỢP
LÝ CỰC ĐẠI – ÁP DỤNG TRÊN CÂY


SINH LOÀI NHỎ
Chuyên ngành: Khoa học Máy tính

PHƯƠNG PHÁP ĐẠI SỐ CHO BÀI TOÁN ƯỚC LƯỢNG HỢP LÝ CỰC
ĐẠI – ÁP DỤNG TRÊN CÂY SINH LOÀI NHỎ
2- NHIỆM VỤ LUẬN VĂN :

3- NGÀY GIAO NHIỆM VỤ:
4- NGÀY HOÀN THÀNH NHIỆM VỤ:
5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : TS. Nguyễn Văn Minh Mẫn
Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành
thông qua.

LUẬN VĂN THẠC SĨ

CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN

(Họ tên và chữ ký)

QUẢN LÝ CHUYÊN NGÀNH
Họ tên và chữ ký)

TP. HỒ CHÍ MINH, tháng 11 năm 2007

TS. Nguyễn Văn Minh Mẫn

TS. Đinh Đức Anh Vũ



Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

LỜI CAM ĐOAN
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
TRƯỜNG ĐẠI HỌC BÁCH KHOA
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như
đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi
thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng
cấp ở trường này hoặc trường khác.

Cán bộ hướng dẫn khoa học : TS. Nguyễn Văn Minh Mẫn

Ngày 05 tháng 11 năm 2007
Bùi Văn Đồng

Cán bộ chấm nhận xét 1 :

Cán bộ chấm nhận xét 2 :

Luận văn thạc sĩ được bảo vệ tại
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày . . . . tháng . . . . năm . 2007 .

Bùi Văn Đồng

Trang 1



Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

Xin gởi lời cảm ơn chân thành và sâu sắc đến TS. Nguyễn Văn Minh Mẫn,
người Thầy đã tận tình hướng dẫn và tạo mọi điều kiện để tôi có thể hoàn thành luận
văn này.
Xin gởi lời cảm ơn đến các Thầy Cô đã dạy cho tôi trong thời gian qua. Tôi xin
cảm ơn các bạn đồng môn và đồng nghiệp đã quan tâm, chia sẻ trong suốt quá trình
học và làm luận văn.
Luận văn này như một món quà nhỏ đáp lại tình cảm của gia đình và bạn bè
thân thích.

Cây sinh loài mô tả lịch sử tiến hóa của một nhóm các loài với những đặc tính
khác nhau nhưng cùng có mối quan hệ họ hàng với nhau và cùng hình thành từ một tổ
tiên chung trong quá khứ. Đặc tính của mỗi loài được chúng ta quan tâm ở đây tương
ứng với các bộ gen. Gen là các chuỗi DNA được bao gồm từ các kí tự A, G, C và T
hợp thành. Cây sinh loài là một cây mà các nút lá (taxa) của nó có thể là các vật sống
hiện tại ngày nay, các nút trong của cây đó là các tổ tiên của các nút lá. Tái cấu trúc
cây sinh loài chính là tìm những gen phù hợp nhất để đưa vào các nút tổ tiên hoặc là
đưa ra một cây sinh loài phù hợp nhất để giải thích quá trình tiến hoá.
Tuy nhiên, việc nghiên cứu cây sinh loài cho nhiều hướng tiếp cận. Mỗi phương
pháp có những ưu điểm và khuyết điểm của nó. Phương pháp ước lượng hợp lý cực
đại được chọn ở đây là phương pháp phức tạp nhất nhưng lại là phương pháp cho kết
quả tin cậy nhất. Công cụ chính sử dụng trong phương pháp này là Đại số thống kê và

Đại số máy tính. Đó là những lãnh vực phát triển mạnh mẽ trong những năm gần đây.
Thống kê là ngành khoa học phân tích dữ liệu. Đối với các chuỗi DNA thì
thống kê sẽ xây dựng những mô hình quá trình phát sinh dữ liệu. Đưa ra những kết
luận chung về quá trình phát sinh đó. Mô hình thống kê là nguyên tắc cơ bản đối với
các gen. Đại số thống kê làm sáng tỏ cho những ý tưởng trọng tâm về phân tích dữ liệu
rời rạc nói riêng và phân tích chuỗi sinh học nói riêng.
Ước lượng hợp lý cực đại (Maximum Likelihood Estimation – MLE) được
công thức hoá trong Xác suất cổ điển, nó có tính chất của một ước lượng tốt. Phương
pháp MLE đánh giá những tham số của một mô hình thối lui. MLE dẫn đến việc giải
quyết là làm cực đại tích của những đa thức.
Đại số máy tính là một lãnh vực mới, nó cung cấp những nền tảng để giải bài
toán MLE trên máy tính.
Đề tài này tập trung vào việc nghiên cứu mô hình xác suất thống kê trên cây
sinh loài từ những dữ liệu là các gen của sinh vật sống. Sau đó sử dụng những nền tảng
toán học, đại số máy tính để giải quyết bài toán hợp lý cực đại của mô hình xác suất
trên. Mục tiêu cuối cùng là tìm một cây sinh loài thích hợp nhất để giải thích sự tiến
hoá. Những kết quả của luận văn đã làm như sau:
- Về phương pháp: Chọn phương pháp đáng tin cậy nhất là phương pháp ước
lượng hợp lý cực đại cho mô hình hóa bài toán. Giải phương trình hợp lý bằng
phương pháp tính toán đại số để tìm kết quả chính xác.
- Về tính toán: Viết một chương trình để mô hình hóa ước lượng hợp lý cực đại
trên cây sinh loài và chạy tìm nghiệm phương trình hợp lý trên một số cây sinh
loài nhỏ 3 và 4 taxa ở một số mô hình.

Bùi Văn Đồng

Trang 2

Bùi Văn Đồng


Trang 3


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

DANH MỤC BẢNG

DANH MỤC HÌNH

Bảng 1: Bảng biến thiên của hàm hợp lý.......................................................................27

Hình 1: Hai trường hợp xảy ra khi tung đinh bấm ........................................................26

Bảng 2: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình
móng (U68496, U68497, U68498).........................................................................55

Hình 2: Đồ thị của hàm hợp lý ......................................................................................27

Bảng 3: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình
lược với trường hợp ((U68496,(U68497, U68498))...............................................55

Hình 4: Mô tả xác suất chuyển đổi trạng thái của chuỗi “DNA”..................................32

Bảng 4: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình
lược với trường hợp ((U68498,(U68496, U68497))...............................................56

Hình 6: Một trong những cây sinh loài 4 taxa...............................................................35


Hình 3: Cây sinh loài của sự sống .................................................................................30
Hình 5: Cây sinh loài với các nút trong và xác suất chuyển đổi ...................................32
Hình 7: Cây sinh loài với dữ liệu trên nút lá và các khả năng xảy ra ở các nút tổ tiên.36
Hình 8: Cây sinh loài có gốc với 3 nút lá ......................................................................42
Hình 9: Sơ đồ khối chương trình tìm cấu trúc cây sinh loài .........................................53
Hình 10: Hai hình dạng cây 3 taxa có gốc.....................................................................55
Hình 11: Cây sinh loài 4 taxa hình móng ......................................................................68
Hình 12: Cây sinh loài 4 taxa hình cần trục ..................................................................68
Hình 13: Một số cây sinh loài 4 taxa.............................................................................68

Bùi Văn Đồng

Trang 4

Bùi Văn Đồng

Trang 5


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

MỤC LỤC

3.3.2.

LỜI CAM ĐOAN ..........................................................................................................1
LỜI CẢM ƠN ................................................................................................................2
TÓM TẮT LUẬN VĂN ................................................................................................3
DANH MỤC BẢNG ......................................................................................................4
DANH MỤC HÌNH .......................................................................................................5

MỤC LỤC ......................................................................................................................6
Chương 1. GIỚI THIỆU ĐỀ TÀI ................................................................................9
1.1.
1.2.

Giới thiệu .............................................................................................................. 9
Cấu trúc luận văn .............................................................................................. 10

Chương 2. CƠ SỞ LÝ THUYẾT VỀ CÁC CẤU TRÚC ĐẠI SỐ VÀ XÁC SUẤT
THỐNG KÊ ..............................................................................................12
2.1.
2.1.1.
2.1.2.
2.1.3.
2.1.4.
2.1.5.
2.1.6.
2.1.7.
2.1.8.

2.2.
2.2.1.
2.2.2.
2.2.3.
2.2.4.
2.2.5.
2.2.6.
2.2.7.

Một số cấu trúc đại số cơ bàn ........................................................................... 12

Lý thuyết nhóm.........................................................................................................12
Lý thuyết vành ..........................................................................................................13
Trường ......................................................................................................................14
Vành đa thức .............................................................................................................14
Ma trận......................................................................................................................15
Định thức ..................................................................................................................15
Không gian vector.....................................................................................................16
Đa tạp đại số .............................................................................................................18

3.1.1.
3.1.2.
3.1.3.

3.2.
3.2.1.
3.2.2.

3.3.
3.3.1.

Bùi Văn Đồng

4.1.
4.2.
4.3.
4.4.
5.1.
5.2.
5.2.1.
5.2.2.


5.3.
5.4.
5.5.
5.5.1.
5.5.2.
5.5.3.
5.5.4.
5.5.5.

5.6.

6.3.
6.4.
6.5.
6.6.

Giải bài toán ước lượng hợp lý cực đại............................................................ 26
Nguyên lý ước lượng hợp lý cực đại ........................................................................26
Logarit hàm hợp lý....................................................................................................26

Tổng quát hóa bài toán ước lượng hợp lý cực đại .......................................... 27
Ước lượng hợp lý cực đại trên mẫu quan sát ............................................................27

Trang 6

Dẫn nhập............................................................................................................. 37
Mô hình xác suất trên cây sinh loài..................................................................38
Mô hình bài toán cây sinh loài..................................................................................38
Nhóm Abel và sự liên hệ với các ma trận chuyển đổi ..............................................39


Biến đổi Fourier ................................................................................................. 40
Toạ độ Fourier ................................................................................................... 42
Áp dụng tìm bất biến trên một cây sinh loài ................................................... 42
Mô hình bài toán .......................................................................................................42
Các khả năng xảy ra trên các nút lá ..........................................................................43
Các lớp xác suất tương đương ..................................................................................43
Chuyển đổi Fourier ...................................................................................................44
Kết quả tìm được ......................................................................................................45

Những tính chất của thành phần bất biến....................................................... 46

Chương 6. GIẢI PHƯƠNG TRÌNH HỢP LÝ..........................................................47

Định nghĩa về xác suất..............................................................................................18
Xác suất có điều kiện ................................................................................................19
Đại lượng ngẫu nhiên và hàm phân phối ..................................................................20
Các đặc trưng của đại lượng ngẫu nhiên...................................................................20
Lý thuyết mẫu ...........................................................................................................21
Ước lượng tham số....................................................................................................22
Sơ lược về ước lượng hợp lý cực đại ........................................................................22

Đặt vấn đề .................................................................................................................25
Khái quát về ước lượng hợp lý cực đại.....................................................................25
Ví dụ về ước lượng hợp lý cực đại ...........................................................................26

Giới thiệu sơ lược về cây sinh loài ....................................................................30
Các nghiên cứu phát sinh sinh loài................................................................... 31
Mô hình ước lượng hợp lý cực đại trên cây sinh loài ..................................... 32
Mô hình tiến hóa ................................................................................................ 33


Chương 5. BẤT BIẾN TRÊN CÂY SINH LOÀI .....................................................37

6.1.
6.2.

Ước lượng hợp lý cực đại là gì? ........................................................................ 25

Một số phương pháp giải phương trình hợp lý .........................................................28

Chương 4. CÂY SINH LOÀI - MÔ HÌNH XÁC SUẤT THỐNG KÊ TRÊN CÂY
SINH LOÀI ...............................................................................................30

Các khái niệm về xác suất thống kê .................................................................18

Chương 3. ƯỚC LƯỢNG HỢP LÝ CỰC ĐẠI TRÊN MẪU QUAN SÁT............25
3.1.

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

6.2.1.
6.2.2.
6.2.3.

Quỹ tích hợp lý trên một đa tạp ....................................................................... 47
Ma trận Jacobi của các đa thức bất biến......................................................... 47
Gradient- Vector vận tốc...........................................................................................47
Ma trận Jacobi của các đa thức bất biến ...................................................................48
Không gian tiếp xúc..................................................................................................49


Bài toán cực trị điều kiện .................................................................................. 49
Bậc của hợp lý cực đại....................................................................................... 50
Các thuật toán .................................................................................................... 50
Áp dụng giải phương trình hợp lý.................................................................... 51

Chương 7. CHƯƠNG TRÌNH THỰC HIỆN ...........................................................53
7.1.
7.2.
7.3.

Sơ đồ khối chương trình.................................................................................... 53
Sơ lược về chương trình .................................................................................... 54
Kết quả chương trình ........................................................................................ 54

Chương 8. TỔNG KẾT – ĐÁNH GIÁ ......................................................................57
8.1.
8.2.
8.3.

Tổng kết .............................................................................................................. 57
Những đóng góp của luận văn .......................................................................... 57
Hướng phát triển ............................................................................................... 58

TÀI LIỆU THAM KHẢO...........................................................................................59

Bùi Văn Đồng

Trang 7



Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Phụ lục 1. Tập các xác suất trình bày ở chương 5....................................................60

Chương 1.

Phụ lục 2. Tập các dữ liệu kết quả thực hiện trình bày ở chương 6.......................62

GIỚI THIỆU ĐỀ TÀI

Phụ lục 3. Trích một số SourceCodes chương trình viết trên Singular .................64
Phụ lục 4. Một số kết quả chương trình trên cây sinh loài 4 taxa ..........................68
Phụ lục 5. Bảng đối chiếu Thuật ngữ Anh - Việt.....................................................69
Danh mục các tên.........................................................................................................70

Chương này giới thiệu chung về bối cảnh, mục tiêu và kết quả thu được của đề
tài. Cấu trúc nội dung của quyển thuyết minh được trình bày ở cuối chương.

1.1. Giới thiệu
Phát sinh sinh loài đó là tái tạo lịch sử tiến hóa dựa trên các phương pháp toán
học nhằm suy luận lịch sử tiến hóa sự sống trên hành tinh chúng ta. Việc tái cấu trúc
này liên quan đến việc nhận diện chỉ định những đặc tính đồng dạng (homologous
characters) được chia sẻ giữa các loài sinh vật khác nhau và suy luận cây phát sinh
sinh loài từ việc so sánh các đặc tính thông qua việc sử dụng các phương pháp tái cấu
trúc có độ tin cậy cao. Độ chính xác của quá trình suy luận vì thế phụ thuộc rất lớn vào
độ tin cậy của các mô hình dùng để đánh giá sự tiến hóa của các đặc tính này.
Trước đây việc tái tạo cây tiến hóa chủ yếu dựa trên phân tích hình thái và các
đặc tính siêu cấu trúc. Trong nửa cuối thập niên 1980 nguồn dữ liệu trình tự DNA gia

tăng cộng với sự phát triển ngành công nghệ thông tin, từ đó giúp nhà nghiên cứu có
được những công cụ mạnh mẽ và nhằm giải quyết vài bài toán phát sinh sinh loài đang
chưa có lời giải.
Trong việc suy luận phát sinh sinh loài có 2 bước cơ bản đó là:
- Chỉ định những đặc tính đồng dạng là những đặc tính chung truyền từ một tổ
tiên chung cho đến các thế hệ hiện tại.
- Tái cấu trúc cây tiến hóa bằng việc sử dụng các phương pháp thích hợp.
Các dạng đặc tính có thể sử dụng là cấu trúc hình thái, siêu cấu trúc của tế bào,
gene, trình tự DNA và protein miễn rằng chúng thỏa điều kiện là Đồng dạng.
Có 3 nhóm phương pháp thường được dùng để tái cấu trúc cây phát sinh sinh
loài từ một ma trận đặc tính:
- Nhóm các phương pháp khoảng cách (Distance methods): Khoảng cách chính
là khoảng cách tiến hóa giữa các cặp đối tượng đang được so sánh.
- Nhóm phương pháp hà tiện đến mức tối đa (Maximum parsimony - MP):
phương pháp này sẽ chọn lựa cây tiến hóa thỏa điều kiện là số lượng đặc tính bị biến
đổi phải thấp nhất để giải thích những dữ liệu đã quan sát được.
- Nhóm phương pháp hợp lý cực đại (Maximum Likelihood methods): nhóm
phương pháp này dựa trên một hàm toán học tính toán xác suất khả năng một cây tiến
hóa được tạo thành từ dữ liệu đã quan sát. Hàm này cho phép việc tích hợp các quá
trình tiến hóa của đặc tính thành mô hình xác suất. Phương pháp hợp lý cực đại chọn
lựa cây tiến hóa tối đa mà khi quan sát các dữ liệu dưới một mô hình nào đó có xác
xuất tối đa.
Trong các phương pháp giới thiệu ở trên thì phương pháp hợp lý cực đại là
phương pháp là phức tạp nhất và cho kết quả đáng tin cậy nhất. Vì những lý do trên,

Bùi Văn Đồng

Trang 8

Bùi Văn Đồng


Trang 9


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

trong dự án nghiên cứu này chúng tôi hướng vào kỹ thuật đại số tính toán cho vấn đề
ước lượng khả năng cực đại và áp dụng để tái cấu trúc cây sinh loài.
Xuất phát từ những thực tế trên, đề tài này đặt ra một số mục tiêu sau:
¾ Tìm hiểu mô hình xác suất thống kê trên cây sinh loài. Tìm hiểu phương pháp
hợp lý cực đại và áp dụng trên cây sinh loài.
¾ Tìm những phương pháp toán học thích hợp để giải bài toán ước lượng hợp lý
cực đại.
¾ Giải quyết cho trường hợp cây sinh loài 3 và 4 taxa.
¾ Tìm kiếm kết quả tương tự cho trường hợp 5 taxa.
¾ Hoàn thành một chương trình để kiểm nghiệm.
Sau đây là một số kết quả thu được của đề tài:
¾ Xây dựng được mô hình xác suất thống kê tổng quát trên cây sinh loài.
¾ Chỉ ra sự tương đồng của mô hình bài toán với một số cấu trúc đại số cơ bản, từ
đó tìm được thành phần bất biến trên cây sinh loài và giải bài toán.
¾ Xây dựng được một chương trình kiểm nghiệm.
¾ Chương trình đã giải quyết được bài toán MLE để tái cấu trúc cây sinh loài trên
một số cây sinh loài nhỏ 3 taxa và trường hợp đặc biệt với cây 4 và 5 taxa.

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

CHƯƠNG 5: BẤT BIẾN TRÊN CÂY SINH LOÀI
Trong chương này, giới thiệu tổng quát hóa mô hình xác suất thống kê trên sinh
loài. Chỉ ra cấu trúc nhóm Aben đối với các mô hình sử dụng để từ đó tìm thành phần
bất biến trên cây sinh loài.

CHƯƠNG 6: GIẢI PHƯƠNG TRÌNH HỢP LÝ
Chương này đưa ra phương pháp giải phương trình hợp lý dựa vào tính bất biến
của cây sinh loài và mẫu dữ liệu quan sát.
CHƯƠNG 7: CHƯƠNG TRÌNH THỰC HIỆN
Chương này trình bày chi tiết hiện thực của chương trình.
CHƯƠNG 8: TỔNG KẾT – ĐÁNH GIÁ
Chương này tổng kết lại những công việc đã làm được, sau đó nêu ra những
đóng góp và hướng phát triển của luận văn.

1.2. Cấu trúc luận văn
Nội dung luận văn được trình bày trong các chương sau:
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI
Chương này giới thiệu chung về bối cảnh, mục tiêu và kết quả thu được của đề
tài. Cấu trúc nội dung của quyển thuyết minh được trình bày ở cuối chương.
CHƯƠNG 2: CÁC CẤU TRÚC ĐẠI SỐ CƠ BẢN - CƠ SỞ LÝ THUYẾT VỀ
XÁC SUẤT THỐNG KÊ
Chương này giới thiệu các khái niệm cơ bản của toán học đại số và xác suất
thống kê được sử dụng vào các chương sau của đề tài. Các khái niệm về các cấu trúc
đại số như: nhóm, vành, trường, vành đa thức, ma trận, vectơ, …. Các khái niệm về
xác suất thống kê như: xác suất, đại lượng ngẫu nhiên và hàm phân phối, các đặc trưng
của các đại lượng ngẫu nhiên, lý thuyết mẫu,…và ước lượng hợp lý cực đại.
CHƯƠNG 3: ƯỚC LƯỢNG HỢP LÝ CỰC ĐẠI
Chương này chúng ta tìm hiểu kỹ hơn về MLE trên mô hình thống kê. Dẫn ra
một vài ví dụ về ước lượng hợp lý cực đại trên một số mẫu dữ liệu quan sát và giải bài
toán.
CHƯƠNG 4: CÂY SINH LOÀI – MÔ HÌNH XÁC SUẤT THỐNG KÊ TRÊN
CÂY SINH LOÀI
Chương này giới thiệu cây sinh loài, mô hình xác suất thống kê trên cây sinh
loài. Ngoài ra cũng giới thiệu một số mô hình thường sử dụng hiện nay trên cây sinh
loài như mô hình Neyman 2 trạng thái, Jukes – Cantor, Kimura với 2 và 3 tham số.


Bùi Văn Đồng

Trang 10

Bùi Văn Đồng

Trang 11


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Chương 2.

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Kerϕ := {x ∈ G : ϕ ( x ) = e, } = ϕ −1 (e, )

CƠ SỞ LÝ THUYẾT VỀ CÁC CẤU TRÚC ĐẠI
SỐ VÀ XÁC SUẤT THỐNG KÊ

Im ϕ := {ϕ ( x) : x ∈ G } = ϕ (G )
,

trong đó e là đơn vị trong G ' .
Các khái niệm cơ bản của đại số được trình bày ở phần đầu của chương này.
Tiếp theo đó là phần giới thiệu về những khái niệm về xác suất thống kê trong đó có
phần khái quát về ước lượng hợp lý cực đại.

Định nghĩa 6: Giả sử G là một nhóm. Một tập con không rỗng S ⊂ G được

gọi là một nhóm con của G nếu S khép kín đối với luật hợp thành trong G (tức là
xy ∈ S với mọi x, y ∈ S ) và khép kín đối với phép lấy nghịch đảo trong G (tức là

x −1 ∈ S với mọi x ∈ S ).

2.1. Một số cấu trúc đại số cơ bàn

2.1.2. Lý thuyết vành

2.1.1. Lý thuyết nhóm
Định nghĩa 1: Một nhóm là một cặp (G , ) trong đó G là một tập hợp không
rỗng và là một luật hợp thành trên G thỏa mãn 3 điều kiện sau:
(i)
Luật hợp thành là kết hợp, tức là:

( x y) z = x ( y z )

Định nghĩa 7: Ta gọi là vành mỗi tập hợp R ≠ ∅ cùng với hai phép toán hai
ngôi, gồm phép cộng

+:R× R → R
( x, y )
và phép nhân

với mọi x, y, z ∈ G .
(ii)
Có một phần tử e ∈ G , được gọi là phần tử trung lập, có tính chất

•: R× R → R
( x, y ) xy


x e=e x= x
với mọi x ∈ G . Phần tử e còn được gọi là phần tử đơn vị của G .
(iii) Với mọi x ∈ G , có một phần tử x , ∈ G , được gọi là nghịch đảo của x sao
cho

x x, = x, x = e
Nếu luật hợp thành

x+ y

đã rõ và không nhầm lẫn gì, người ta cũng nói G là một

thỏa mãn ba điều kiện sau đây:
(i)
R là một nhóm Abel đối với phép cộng.
(ii)
Phép nhân có tính kết hợp.
(iii) Phép nhân phân phối về hai phía đối với phép cộng:
(x + y)z = xz + yz, z(x + y) = zx + zy
với mọi x, y, z ∈ R .

nhóm.

Khi hai phép toán đều đã rõ, ta sẽ nói đơn giản: R là một vành.
Định nghĩa 2: Nhóm (G , ) được gọi là giao hoán (hay Abel) nếu:

Định nghĩa 8: Vành R được gọi là vành giao hoán nếu phép nhân của nó giao
hoán.


x y=y x
với mọi x, y ∈ G .
Định nghĩa 3: Giả sử G và G ' là các nhóm (với luật hợp thành viết theo lối
nhân). Một ánh xạ ϕ : G → G ' được gọi là một đồng cấu nhóm nếu:

Định nghĩa 9: Giả sử R là một vành. Tập con S ⊂ R được gọi là một vành con
của R nếu S là một nhóm con của nhóm cộng R và khép kín đối với phép nhân, tức là
x, y ∈ R kéo theo xy ∈ S .

ϕ ( xy ) = ϕ ( x)ϕ ( y )

(i)

Định nghĩa 10:
Một iđêan trái của vành R là một vành con A ⊂ R có tính hấp thụ đối với
phép nhân từ bên trái, tức là

Định nghĩa 4: Một đồng cấu nhóm đồng thời là một song ánh được gọi là một
đẳng cấu nhóm.

(ii)

Một iđêan phải của vành R là một vành con A ⊂ R có tính hấp thụ đối với
phép nhân từ bên phải, tức là

(iii)

Nếu vành con A ⊂ R vừa là một iđêan trái, vừa là một iđêan phải thì nó
được gọi là một iđêan (hai phía) của R.


với mọi x, y ∈ G .

ra ∈ A, ∀r ∈ R, ∀a ∈ A

Định nghĩa 5: Hạt nhân và ảnh của đồng cấu nhóm ϕ : G → G ' được định
nghĩa như sau:

Bùi Văn Đồng

Trang 12

ar ∈ A, ∀r ∈ R, ∀a ∈ A

Bùi Văn Đồng

Trang 13


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Định lí : Giả sử A là một iđêan của vành R, thì:
Lớp xy + A chỉ phụ thuộc vào các lớp x + A và y + A mà không phụ thuộc
vào sự lựa chọn của các phần tử x, y từ các lớp đó.
(ii)
X/A cùng với 2 phép toán

với các ci ≠ 0, i = 1,...., m và (ai1 ,..., ain ) ≠ (a j1 ,..., a jn ) khi i ≠ j . Ta gọi bậc của


(i)

( x + A, y + A)

x+ y+ A

( x + A, y + A)

xy + A

là một vành gọi là vành thương của R trên A.
Định nghĩa 11: Giả sử R là một vành (giao hoán và có đơn vị). Iđêan A của R
được gọi là nguyên tố nếu A ≠ R và với mọi x, y ∈ R , từ chỗ xy ∈ A suy ra hoặc
x ∈ A hoặc y ∈ A .

hạng tử ci x1ai1 ...xnain là tổng các số mũ đối với ẩn xi số mũ ai1 + ... + ain của các ẩn.
Bậc của đa thức (đối với toàn thể các ẩn) là số lớn nhất trong các bậc của các
hạng tử của nó. Đa thức 0 là đa thức không có bậc.
Nếu các hạng tử của f ( x1 , x2 ,..., xn ) có cùng bậc k thì f ( x1 , x2 ,..., xn ) gọi là
một đa thức thuần nhất cấp bậc k hay một dạng bậc k. Đặc biệt một dạng bậc nhất gọi
là dạng tuyến tính, một dạng bậc 2 gọi là dạng toàn phương, một dạng bậc 3 gọi là
dạng lập phương.
2.1.5. Ma trận
Một ma trận A là một bảng có m × n phần tử lấy ở vành R, viết như sau:

2.1.3. Trường
Định nghĩa 12:
Vành có đơn vị R được gọi là một thể nếu 1 ≠ 0 và mọi phần tử khác 0 trong
R đều khả nghịch, nói cách khác, nếu R \ {0} là một nhóm đối với phép
nhân.

(ii)
Mỗi thể giao hoán được gọi là một trường.
Chúng ta đã biết một số trường số quen thuộc như: Q, R, C .

⎡ a11 a12
⎢a
a22
A = ⎢ 21


⎣ am1 am 2

(i)

2.1.4. Vành đa thức
Định nghĩa 13: Vành P được gọi là vành đa thức của ẩn x lấy hệ tử trong A,
hay vắn tắt vành đa thức của ẩn x trên A, và kí hiệu là A[x]. Các phần tử của vành đó
gọi là đa thức của ẩn x lấy hệ tử trong A. Trong một đa thức

a1n ⎤
a2 n ⎥



amn ⎦

Các số aij được viết thành m dòng và n cột, chúng mang hai chỉ số: chỉ số i nói
lên dòng và j nói lên cột mà aij được đặt trong bảng. Mỗi aij được gọi là một thành
phần của ma trận. Một ma trận kiểu (m, n) là một ma trận có m dòng và n cột. Khi m =
n thì ta bảo ta có một ma trận vuông cấp n.

Ma trận chuyển vị của ma trận A được kí hiệu là AT được định nghĩa như sau:

f ( x ) = a0 x 0 + a1 x1 + ... + an x n

⎡ a11 a21
⎢a
a22
AT = ⎢ 12


⎣ an1 am 2

các ai , i = 0, 1,..., n gọi là các hệ tử của đa thức. Các ai x i được gọi là các hạng tử
của đa thức. Đa thức có tất cả hệ tử bằng 0 gọi là đa thức 0.
Định nghĩa 14: Giả sử A là một vành giao hoán có đơn vị. Ta đặt

A1 = A[ x1 ]

am1 ⎤
am 2 ⎥



anm ⎦

hay ma trận AT là ma trận A nhưng chuyển dòng thành cột và cột thành dòng.

An = An−1[ xn ]

2.1.6. Định thức


vành An = An −1[ xn ] kí hiệu là A[ x1 , x2 ,..., xn ] và gọi là vành đa thức của n ẩn
x1 , x2 ,..., xn lấy hệ tử trong vành A. Một phần tử của An gọi là một đa thức của n ẩn
x1 , x2 ,..., xn lấy hệ tử trong vành A, người ta kí hiệu bằng f ( x1 , x2 ,..., xn ) hay
g ( x1 , x2 ,..., xn ) …

Giả sử A là một ma trận vuông cấp n (n ≥ 1)

⎡ a11 a12
⎢a
a22
A = ⎢ 21


⎣ an1 an 2

Định nghĩa 15: Giả sử f ( x1 , x2 ,..., xn ) ∈ A[ x1 , x2 ,..., xn ] là một đa thức khác 0

f ( x1 , x2 ,..., xn ) = c1 x1a11 ...xna1n + ... + cm x1am1 ...xnamn

Bùi Văn Đồng

a1n ⎤
a2 n ⎥



ann ⎦

Định thức của ma trận A là gọi là det(A) hay | A | được định nghĩa như sau theo

cách triển khai theo dòng i:

Trang 14

Bùi Văn Đồng

Trang 15


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

det( A) = ai1 Ai1 + ai2 Ai2 + ... + ain Ain

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

n

trong đó Aij = (−1)i + j M ij với M ij là định thức cấp n -1 suy ra từ A bằng cách bỏ dòng
thứ i và cột thứ j. Aij được gọi là phần bù đại số của aij ta đi đến tính n định thức cấp
n-1. Ma trận có một phần tử thì định thức bằng chính phần tử đó.
2.1.7. Không gian vector
K là một trường, chủ yếu là Q, R, C , mà các phần tử kí hiệu là: λ , μ , ν ,... ,
E là một tập hợp mà các phần tử là x, y, z ,...

còn được viết là: x = ∑ λi xi ∈ E và gọi là tổ hợp tuyến tính của các vectơ
i =1

x1 , x2 , ..., xn với các hệ tử λ1 , λ2 , ..., λn . Trong trường hợp K là một trường số, các

λi sẽ gọi là hệ số thay cho hệ tử.


Hệ n vectơ x1 , x2 , ..., xn ( n ≥ 1) trong K không gian vectơ E gọi là độc lập
tuyến tính khi vectơ 0 chỉ có một biểu thị tuyến tính, đó là biểu thị tuyến tính tầm
thường, qua hệ vectơ đó. Vậy hệ x1 , x2 , ..., xn ( n ≥ 1) độc lập tuyến tính khi và chỉ
khi
n

Giả sử cho 2 phép toán:
- Phép cộng:

∑ λi xi = 0 kéo theo λ1 = λ2 =
i =1

E×E → E
( x, y )

Hệ vectơ x1 , x2 , ..., xn ( n ≥ 1) không độc lập tuyến tính thì gọi là phụ thuộc
tuyến tính.

x+ y


- Phép nhân: Một phần tử của K với một phần tử E:

Hạng của một hệ hữu hạn vectơ
Giả sử I là một tập hữu hạn và ∅ ≠ J ⊂ I . Giả sử cho hệ vectơ ( xi )i∈I trong Kkhông gian vector E. Hệ con ( x j ) j∈J gọi là một hệ con độc lập tuyến tính tối đại của

K×E→E
(λ , x )


λx

hệ đã cho nếu nó là một hệ độc lập tuyến tính và nếu thêm bất cứ vector xi (i ∈ I − J )
nào vào hệ con đó thì ta đều được một hệ phụ thuộc tuyến tính.

thỏa mãn các tính chất sau với mọi x, y ∈ E và mọi λ , μ ∈ K :
(i)
E cùng với phép cộng là một nhóm Abel.
(ii)
Phép nhân phân phối đối với phép cộng của trường K:

Cho hệ hữu hạn vector ( xi )i∈I trong K- không gian vector E. Người ta chứng
minh được rằng số phần tử của mọi hệ con độc lập tuyến tính tối đại của nó bằng nhau
và gọi là hạng của hệ vector đã cho. Hạng của vectơ (0) được coi bằng 0.

(λ + μ )x = λ x + μ x
(iii)

Phép nhân phân phối đối với phép cộng của E:

Hạng của ma trận

λ ( x + y) = λ x + λ y
(iv)

Phép nhân có tính kết hợp:

(v)

λ ( μ x) = (λμ ) x

1x = x , 1 là đơn vị của trường K.

Ma trận A có m dòng và n cột với aij ∈ K . Hạng của A là hạng của hệ vector
cột và người ta chứng minh nó cũng bằng hạng của vectơ dòng và bằng cấp cao nhất
của các định thức con khác 0 của nó.

Lúc đó ta bảo E cùng với hai phép toán: Cộng trong E và nhân đối với một phần
tử trong trường K, thỏa tính chất (i), (ii), (iii), (iv) và (v) là một không gian vector trên
trường K hay K – không gian vector (cũng gọi tắt là không gian vector khi không cần
chỉ rõ K). Các phần tử của E gọi là các vector; các phần tử của K gọi là vô hướng.
Phép toán + gọi là phép cộng vector, phép toán nhân với một phần tử của trường K
được gọi là phép nhân vector với vô hướng.
Độc lập tuyến tính và phụ thuộc tuyến tính
Giả sử x1 , x2 , ..., xn ( n ≥ 1) là n vectơ của K – không gian vector E và

λ1 , λ2 , ..., λn là n phần tử của trường K. Vectơ

x = λ1 x1 + λ2 x2 + ... + λn xn

Bùi Văn Đồng

... = λn = 0

Trang 16

Nếu A chứa một ma trận vuông cấp p có định thức khác 0, sao cho mọi ma trận
vuông cấp p+1 chứa nó có định thức bằng 0, thì ma trận có hạng là p.
Cơ sở và số chiều của một K – không gian vector
Ở đây chúng ta chỉ đề cập tới các không gian vector có hữu hạn chiều.
Giả sử E là một K – không gian vector. Giả sử tồn tại trong E một hệ vector độc

lập tuyến tính (e1 , e2 ,..., en ) sao cho mọi vector của E đều biểu thị tuyến tính qua hệ
đó. Lúc đó ta có thể nói hệ (e1 , e2 ,..., en ) là độc lập tuyến tính tối đại trong E.
Và ta nói (e1 , e2 ,..., en ) là một cơ sở của K – không gian vector E và số chiều
(hay vắn tắt là chiều) của E, kí hiệu là dim E, là số vectơ của cơ sở. Ta viết dim E = n;
và gọi E là K - không gian vector n chiều.

Bùi Văn Đồng

Trang 17


Phương pháp đại số cho bài tốn ước lượng hợp lý cực đại - Áp dụng trên cây sinh lồi nhỏ

2.1.8. Đa tạp đại số
Tập hợp tất cả các điểm ( z1 , z2 , ..., zn ) trong khơng gian phức n chiều thỏa
mãn hệ phương trình dạng Fi ( z1 , z2 , ..., zn ) = 0 (i = 1, 2,..., s ) trong đó Fi là các đa
thức của các biến số z j (j = 1,..., n)
Nếu các Fi đều là bậc nhất đối với tất cả các z j thì ta có đa tạp tuyến tính. Nếu
các hệ số của Fi là số hữu tỉ (thực, phức) thì ta có đa tạp đại số hữu tỉ (thực, phức).

Phương pháp đại số cho bài tốn ước lượng hợp lý cực đại - Áp dụng trên cây sinh lồi nhỏ

m
cũng thay đổi nhưng nó ln dao động quanh một số
n
m
càng gần số cố định đó. Số cố định ấy được gọi là
cố định nào đó, n càng lớn thì
n
Khi n thay đổi, tần suất


xác suất của biến cố A theo nghĩa thống kê. Trên thực tế khi n đủ lớn ta xấp xỉ P(A)
bởi

m
.
n

2.2. Các khái niệm về xác suất thống kê

P( A) ≈

2.2.1. Định nghĩa về xác suất

Một số tính chất của xác suất

1) Một số khái niệm
Trong xác suất thống kê, thực hiện một phép thử nghĩa là làm một thí nghiệm,
thực hiện một quan sát, thực hiện một cơng việc, một hành động nào đó.
- Phép thử mà ta khơng khẳng định được một cách chắc chắn kết quả của nó
trước khi thực hiện phép thử gọi là phép thử ngẫu nhiên.
- Các phép thử có thể xảy ra của phép thử gọi là các biến cố.
- Các biến cố khơng thể phân tích được nữa gọi là biến cố sơ cấp.
- Biến cố chắc chắn là biến cố nhất định xảy ra khi phép thử được thực hiện. Ta
kí hiệu biến cố chắc chắn là Ω .
- Biến cố khơng thể là biến cố khơng thể xảy ra khi phép thử được thực hiện. Ta
kí hiệu là Φ .
- Biến cố ngẫu nhiên là biến cố mà nó có thể xảy ra và cũng có thể khơng xảy ra
khi phép thử được thực hiện. ta thường kí hiệu biến cố ngẫu nhiên bởi các chữ
cái in hoa: A, B, C, …

2) Quan hệ giữa các biến cố
- Tổng của 2 biến cố: Tổng của 2 biến cố A và B là một biến cố được kí hiệu là
A ∪ B , sao cho biến cố tổng A ∪ B xảy ra khi và chỉ khi hoặc A xảy ra hoặc B
xảy ra.
- Tích của 2 biến cố: Tích của 2 biến cố A và B là một biến cố được kí hiệu là
A ∩ B hoặc AB, sao cho biến cố tích AB xảy ra khi và chỉ khi A xảy ra và B
xảy ra.

0 ≤ P ( A) ≤ 1
P (Φ ) = 0, P (Ω) = 1
2.2.2. Xác suất có điều kiện
1) Định nghĩa: Xác suất có điều kiện của biến cố A với điều kiện biến cố B đã xảy
ra là một con số khơng âm, được kí hiệu p( A / B) , nó biểu thị khả năng xảy ra biến cố
A trong tình huống biến cố B đã xảy ra.
2) Tính độc lập của các biến cố
Hai biến cố A và B gọi là độc lập với nhau nếu:

p( A / B) = P( A) hoặc p( B / A) = P( B) hoặc p( AB) = P ( A) P( B)
3) Cơng thức nhân xác suất:
Từ định nghĩa xác suất có điều kiện, với n biến cố A1 , A2 ,..., An ta có:

P ( A1 A2 ... An ) = P ( A1 ) P ( A2 / A1 ) P ( A3 / A1 A2 )...P ( An / A1 A2 ... An−1 )
4) Cơng thức xác suất đầy đủ và cơng thức Bayes
Giả sử B1 , B2 , , Bn là một nhóm đầy đủ các biến cố. Xét biến cố A sao cho A
xảy ra chỉ khi một trong các biến cố B1 , B2 , , Bn xảy ra. Khi đó

Định nghĩa xác suất dạng cổ điển

n


Xác suất của biến cố A là một số khơng âm, kí hiệu P(A). Biểu thị khả năng xảy
ra biến cố A và nó được xác định như sau:

P( A) =

Số trường hợp thuận lợi cho A

P( A) = ∑ P( Bi ) P ( A / Bi )
i =1

Cơng thức trên được gọi là cơng thức xác suất đầy đủ. Và

P ( Bk / A) =

Số trường hợp có thể xảy ra phép thử được thực hiện

Định nghĩa xác suất dạng thống kê

m
gọi là tần suất của biến cố A.
n

Bùi Văn Đồng

P ( Bk ) P ( A / Bk )
n

∑ P( Bi ) P( A / Bi )

k = 1, 2,..., n


i =1

Làm đi làm lại một phép thử nào đó n lần, thấy có m lần biến cố A xuất hiện thì
tỷ số

m
n

Trang 18

Cơng thức này được gọi là cơng thức Bayes.

Bùi Văn Đồng

Trang 19


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

2.2.3. Đại lượng ngẫu nhiên và hàm phân phối

2.2.5. Lý thuyết mẫu

1) Định nghĩa: Một đại lượng (hay một biến) nhận các giá trị của nó với xác suất
tương ứng nào đấy gọi là đại lượng ngẫu nhiên hay biến ngẫu nhiên.
Phân loại các đại lượng ngẫu nhiên: Căn cứ vào giá trị mà biến ngẫu nhiên nhận
ta phân các đại lượng ngẫu nhiên ra làm 2 loại chính: biến ngẫu nhiên rời rạc và biến
ngẫu nhiên liên tục. Tuy nhiên, với vấn đề quan tâm của đề tài, chúng ta chỉ xét đến
các biến ngẫu nhiên rời rạc.

2) Biến ngẫu nhiên rời rạc, bảng phân phối xác suất
Nếu tập các giá trị mà biến ngẫu nhiên nhận là một tập gồm một số hữu hạn
hoặc vô hạn nhưng đếm được, khi đó biến ngẫu nhiên gọi là biến ngẫu nhiên rời rạc.
Giả sử biến ngẫu nhiên

ξ

nhận các giá trị

P (ξ = xi ) = pi , ∀i = 1, 2, ...

x1 , x2 ,..., xn ,... và

Để mô tả biến ngẫu nhiên rời rạc ξ ta dùng bảng sau:

x1
P (ξ = xi ) p1
trong đó:

1) Mẫu ngẫu nhiên
Tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó. Ta gọi X i là việc
quan sát lần thứ i về biến ngẫu nhiên X. Khi đó ( X 1 , X 2 ,..., X n ) được gọi là mẫu ngẫu
nhiên, n gọi là cỡ mẫu (số lần quan sát). Như vậy mẫu ngẫu nhiên cỡ n thực chất là n
biến ngẫu nhiên độc lập, cùng phân phối như biến ngẫu nhiên X.
Ta gọi xi là kết quả quan sát được ở lần thứ i. Khi đó ( x1 , x2 ,..., xn ) là n giá trị
cụ thể ta quan sát được. Đó là giá trị cụ thể mà mẫu ngẫu nhiên ( X 1 , X 2 ,..., X n ) nhận.
2) Các đặc trưng mẫu
Giả sử ta cần nghiên cứu biến ngẫu nhiên X với EX, DX mà ta chưa biết và đang
phải đi tìm chúng. Ký hiệu μ = EX , σ 2 = DX .
Giả sử ( X 1 , X 2 ,..., X n ) là mẫu ngẫu nhiên được rút ra từ X. Ta xây dựng biến


x2 .... xn ....
p2 .... pn ....

ξ

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

ngẫu nhiên rời rạc X ' nhận n giá trị mẫu với xác suất đều

P( X ' = X i ) =

∑ pi = 1 .
i

Bảng với hai thông tin xác định biến ngẫu nhiên ξ được gọi là bảng phân phối
xác suất.

X = EX ' =

Do ( X 1 , X 2 ,..., X n ) là các biến ngẫu nhiên độc lập cùng phân phối như X nên

EX =

i

trong đó P (ξ = xi ) = pi , ∀i = 1, 2, ...

DX =


Ý nghĩa: Kỳ vọng của biến ngẫu nhiên là giá trị trung bình mà biến ngẫu nhiên
nhận hay là trọng tâm của phân phối xác suất.

1 n
1
DX σ 2
=
DX i = 2 .n.DX =
2 ∑
n
n
n i =1
n

s 2 = DX ' =

1 n
1 n
( X i − X ) 2 = ∑ X i2 − X 2

n i =1
n i =1

1 n
1
∑ E{( X i − μ ) − ( X − μ )} = n ∑ E ( X i − μ )2 − E ( X − μ )2 =
n i =1
i
DX n − 1 2
1

= .n.DX − DX = DX −
=
σ
n
n
n

Ý nghĩa: Phương sai của biến ngẫu nhiên là một số không âm dùng để đo mức
độ phân tán (mức độ tản mát) của các giá trị của biến ngẫu nhiên ξ xung quanh tâm
Eξ của nó. Dξ nhỏ thì độ phân tán nhỏ, độ tập trung lớn. Dξ càng lớn thì độ phân
tán càng cao.

Trang 20

1 n
1
∑ EX i = n nEX = μ
n i =1

Phương sai mẫu

Dξ = E (ξ − Eξ ) 2

Bùi Văn Đồng

1 n
∑ Xi
n i =1

kỳ vọng mẫu là một biến ngẫu nhiên. Do đó ta lại tìm kỳ vọng và phương sai của X


Eξ = ∑ xi pi

2) Phương sai: Phương sai của đại lượng ngẫu nhiên ξ là một con số không
âm, được kí hiệu là Dξ và được xác định như sau:

1
n

Kỳ vọng mẫu

2.2.4. Các đặc trưng của đại lượng ngẫu nhiên
1) Kỳ vọng: Kỳ vọng của đại lượng ngẫu nhiên ξ là một con số, được kí hiệu
là Eξ và được xác định như sau:

1
.
n

Es 2 =

Bùi Văn Đồng

Trang 21


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

2.2.6. Ước lượng tham số
Giả sử ta nghiên cứu biến ngẫu nhiên X và biết được phân phối X thuộc một họ

phân phối nào đó. Khi đó để xác định hoàn toàn phân phối của X ta phải xác định được
các giá trị tham ẩn mà phân phối đó nhận.

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Giả sử ( X 1 , X 2 ,..., X n ) là mẫu ngẫu nhiên cỡ n được rút ra từ ξ . Để cho gọn ta
kí hiệu mẫu ngẫu nhiên là vectơ X. Đối với mẫu X đã cho ta xác định hàm Lx (θ ) (hàm
của tham ẩn θ ) như sau:

Do đó bài toán đi tìm các ước lượng cho các tham ẩn của phân phối hoặc ước
lượng cho các số đặc trưng của biến ngẫu nhiên là bài toán rất cần thiết.
Giả sử θ là tham ẩn cần ước lượng. Với mẫu ngẫu nhiên ( X 1 , X 2 ,..., X n ) , ta
không thể ước lượng cho θ dựa vào mẫu ngẫu nhiên trên.
Ta sẽ dùng một hàm nào đó của mẫu, tức là một hàm nào đó của n biến

X 1 , X 2 ,..., X n để là ước lượng cho θ - Kí hiệu hàm đó là θ * ( X 1 , X 2 ,..., X n ) . Như vậy

θ * ( X 1 , X 2 ,..., X n ) là một biến ngẫu nhiên vì X 1 , X 2 ,..., X n là các biến ngẫu nhiên độc
lập, cùng phân phối. θ * ( X 1 , X 2 ,..., X n ) là ước lượng điểm vì với giá trị cụ thể của mẫu
thì θ * ( X 1 , X 2 ,..., X n ) nhận một giá trị cụ thể (một điểm) θ * ( x1 , x2 ,..., xn ) .
2) Ước lượng không chệch
Vì θ ( x1 , x2 ,..., xn ) là một biến ngẫu nhiên nên ta không thể đòi hỏi
θ * ( x1 , x2 ,..., xn ) đúng bằng giá trị θ cần tìm được. Lẽ tự nhiên ta đòi hỏi
*

n

i =1

i =1


Lx (θ ) được gọi là hàm hợp lý.
Ta lập phương trình hợp lý

1) Ước lượng điểm

n

Lx (θ ) = ∏ f ( X i ,θ ) = ∏ P(ξ = X i ,θ )

Trong trường hợp ta chưa biết được gì về phân phối của X, khi đó việc biết
được các số đặc trưng của X cũng cho ta nhiều thông tin giá trị.

hoặc phương trình tương đương

∂Lx (θ )
=0
∂θ

∂ ln Lx (θ )
=0
∂θ

Nghiệm của phương trình trên phụ thuộc vào mẫu ngẫu nhiên X, và ta cũng chỉ
xét những nghiệm như thế, được kí hiệu là θ * ( X ) . θ * ( X ) được gọi là ước lượng hợp
lý cực đại. Ước lượng hợp lý cực đại có các tính chất của một ước lượng tốt.
Nếu θ là tham số ẩn vectơ, chẳng hạn θ = (θ1 ,θ 2 ,...,θ r ) khi đó phương trình
hợp lý sẽ trở trở thành hệ phương trình:

⎧ ∂Lx (θ )


= 0 hoặc hệ tương đương
⎨ ∂θi
⎪i = 1,2,..., r


⎧ ∂ ln Lx (θ )

=0
⎨ ∂θi
⎪i = 1,2,..., r


Vì Lx (θ ) và ln Lx (θ ) có cùng điểm cực trị, mà hàm Lx (θ ) lại biểu diễn dưới

Eθ * ( x1 , x2 ,..., xn ) = θ

n

Ước lượng θ * ( x1 , x2 ,..., xn ) thỏa mãn hệ thức trên gọi là ước lượng không
chệch của θ .
Ta dùng X là ước lượng điểm cho EX , s 2 là ước lượng điểm cho DX .

dạng tích

∏ f ( X i ,θ ) , cho nên ta thay phương trình hợp lý bởi dạng tương đương để
i =1

giảm nhẹ khâu tính toán: Lấy đạo hàm và giải phương trình.
Ví dụ 1: Giả sử X = ( X 1 , X 2 ,..., X n ) là mẫu ngẫu nhiên, trong đó


2.2.7. Sơ lược về ước lượng hợp lý cực đại
Phần trên chúng ta đã đưa ra các ước lượng điểm cho kỳ vọng, phương sai.
Cách đưa ra như vậy có vẻ không được tự nhiên. Bây giờ chúng ta tìm hiểu một trong
các phương pháp tìm được kết quả đã đưa ra. Đó là phương pháp hợp lý cực đại. Nội
dung phương pháp như sau:
Ta xét biến ngẫu nhiên ξ và đối với nó ta xác định:

f ( x,θ ) = P (ξ = x,θ )

vôùi xaùc suaát p
⎧1
Xi = ⎨
⎩0 vôùi xaùc suaát q = 1 - p
Hãy chỉ ra hợp lý cực đại cho p (ở đây θ = p )
Ta có: f ( x, p ) = P{ξ = x, p} = p x (1 − p )1− x với x = 0 hoặc x = 1
Khi đó

θ là tham ẩn của phân phối của biến ngẫu nhiên ξ . Trước hết ta xét trường hợp θ là
tham ẩn một chiều.

n

n

n −∑ xi
n
n
∑ xi
Lx ( p ) = ∏ P{ξ = X i , p} =∏ p xi (1 − p1− xi ) = p i =1 (1 − p ) i =1 = p n. x (1 − p ) n−n. x

i =1

i =1

⇒ ln Lx ( p) = nX ln p + (n − nX )ln(1 − p)

Bùi Văn Đồng

Trang 22

Bùi Văn Đồng

Trang 23


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ



∂ ln Lx ( p) nX n − nX nX − np
=

=
=0
∂p
p
1− p
p (1 − p )

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ


Chương 3.

Vậy nghiệm của phương trình hợp lý:
n
1 n
m
X i = , vì m = ∑ X i chính là tổng số lần X i nhận giá trị 1 hay

n i =1
n
i =1
tổng số lần biến cố A, với p = P( A) , xuất hiện.

p* = X =

Ví dụ 2: Giả sử X = ( X 1 , X 2 ,..., X n ) là mẫu ngẫu nhiên rút ra từ phân phối
chuẩn N ( μ ,σ 2 ) . Hãy chỉ ra ước lượng hợp lý cực đại cho μ và σ 2 , ở đây

θ = ( μ ,σ 2 ) tham số ẩn hai chiều
1

f ( x ,θ ) = p ( x , θ ) =

− 2 ( x−μ )
1
e 2σ
σ 2π

2


1

n

− 2 ∑ ( xi − μ )
− 2 ( xi − μ )
1
1
Lx ( μ ,σ ) = ∏
e 2σ
e 2σ i =1
=
n
n
i =1 σ 2π
σ (2π )
1

n

2

2

3.1. Ước lượng hợp lý cực đại là gì?
MLE có thể được công thức hóa trong xác suất cổ điển với tên là Lý thuyết của
ước lượng. Khả năng cực đại là một phương pháp đánh giá những tham số một mô
hình thoái lui, từ đó giải quyết tốt cho những mẫu lớn. Từ chương trước cho thấy,
MLE dẫn đến việc giải quyết làm cực đại tích của những đa thức.


Vậy MLE là gì? Chúng ta lần lượt tìm hiểu những khái niệm và những mô hình
cho bài toán.
3.1.1. Đặt vấn đề

n
n
1 n
ln Lx ( μ ,σ 2 ) = − ln 2π − ln σ 2 − 2 ∑ ( X i − μ ) 2
2
2
2σ i =1

Chúng ta có một mô hình xác suất M của hiện tượng nào đó. Chúng ta biết
chính xác cấu trúc của M, nhưng không biết là những giá trị của những tham số xác
suất θ của nó. Mỗi sự hiện diện của M cho một sự quan sát x[i], tương ứng với phân
phối của M.

n

⎪ ∂ ln L ( μ ,σ 2 ) ∑ ( X i − μ )
x
⎪⎪
= i =1 2
=0
∂μ
σ


1 n

⎪ −n + 2 ∑ ( X i − μ )2 = 0
σ i =1
⎪⎩

Mục tiêu của chúng ta là với các mẫu x[1],…, x[N], ước lượng những tham số
xác suất θ từ quá trình phát sinh quan sát dữ liệu trên.
3.1.2. Khái quát về ước lượng hợp lý cực đại

Hàm khả năng (Likelihood Function) tương ứng với các mẫu x[1],…, x[N]
được cho bởi mô hình những tham số θ với mô hình xác xuất có điều kiện M, được
định nghĩa như sau:

Vậy ước lượng hợp lý cực đại cho μ là μ * = X , cho σ 2 = Dξ là

(σ 2 )* =

Chương này chúng ta tìm hiểu kỹ hơn về MLE trên mô hình thống kê. Dẫn ra
một vài ví dụ về ước lượng hợp lý cực đại trên một số mẫu dữ liệu quan sát và giải bài
toán.

MLE được ứng dụng rộng rãi trong cuộc sống hiện nay, không chỉ trong ngành
sinh học nói riêng mà còn nhiều ngành khác như: xử lý ngôn ngữ tự nhiên, điện tử
viễn thông, tài chính ngân hàng, …

Khi đó:
2

ƯỚC LƯỢNG HỢP LÝ CỰC ĐẠI TRÊN MẪU
QUAN SÁT


1 n
∑ ( X i − X )2 = s 2
n i =1

L(θ ) = P ( x[1],..., x[ N ] | θ , M )

Nhận xét: Qua 2 ví dụ trên chúng ta nhận lại được các ước lượng điểm đã nêu.
Chúng ta sẽ phân tích kỹ về ước lượng hợp lý cực đại với mẫu quan sát ở chương sau.

Điều kiện đặt ra cho những mô hình chúng ta sẽ xem xét cho những mẫu x[1],
x[2], …, x[N] là:
- Tập giá trị x[i] (i =1, …, N) được xác định.
- Sự phân bố của mỗi mẫu có khả năng xảy ra là như nhau.
- Mỗi mẫu được lấy độc lập với những mẫu trước đó.
Trong MLE chúng ta tìm kiếm tham số mẫu θ làm cho hàm trên đạt giá trị cực
đại. Hay là phải tìm một vectơ của những tham số θ mà được phát sinh từ bộ dữ liệu
đã cho.

Bùi Văn Đồng

Trang 24

Bùi Văn Đồng

Trang 25


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

3.1.3. Ví dụ về ước lượng hợp lý cực đại


Chúng ta sẽ bắt đầu với từ một ví dụ đơn giản nhất là đánh giá sự thiên lệch khi
tung một cây đinh bấm, sau đó đến những mô hình phức tạp hơn từ đó áp dụng MLE
tới phỏng đoán cây sinh loài.

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Công thức này thoạt nhìn không có vẻ đơn giản, nhưng thật ra nó rất dễ dàng
khi tính đạo hàm cho log likelihood trong trường hợp này cũng như nhiều trường hợp
khác.
Lấy đạo hàm và cho chúng bằng 0, chúng ta được:

l ' D (θ ) =
⇔θ =
Hình 1: Hai trường hợp xảy ra khi tung đinh bấm

NH

θ



NT
N (1 − θ ) − NTθ N H − ( N H + NT )θ
= H
=
=0
1−θ
θ .(1 − θ )
θ .(1 − θ )


NH
N H + NT
Bảng 1: Bảng biến thiên của hàm hợp lý

Đối với cây đinh, khi được tung lên khi rơi xuống nó có thể ở một trong hai
trường hợp sau (hình 1): Đầu (H) hoặc Đuôi (T), Chúng ta biểu thị bởi θ (chưa biết) là
xác suất P(H).
Cho một sự nối tiếp những mẫu quan sát D: x[1], x[2], …, x[N] mà chúng ta
muốn ước lượng P( H ) = θ và P(T ) = 1 − θ
Từ bộ mẫu dữ liệu quan sát trên ta có hàm khả năng là:
N

LD (θ ) = P( D | θ ) = ∏ P( x[i ])

với θ là nghiệm chúng ta cần tìm, phù hợp với những gì chúng ta mong muốn. Theo

i =1

Với ví dụ trên, giả sử dãy mẫu quan sát là H, T, T, H, H ta có hàm hợp lý:

LD (θ ) = θ .(1 − θ ).(1 − θ ).θ .θ

ví dụ trên nếu (NH, NT ) = (3, 2) và MLE tính được là

3
= 0.6 . Đồ thị của hàm hợp lý
5

cho ta thấy ở hình 2.


3.2. Giải bài toán ước lượng hợp lý cực đại
3.2.1. Nguyên lý ước lượng hợp lý cực đại
Chọn những tham số mà làm cực đại hàm khả năng.

Nguyên lý này được sử dụng rộng rãi trong việc ước lượng trong thống kê, cả
trong việc nhìn nhận của trực giác.

Hình 2: Đồ thị của hàm hợp lý

3.2.2. Logarit hàm hợp lý

Kỹ thuật khác để làm cho việc tính toán dễ hơn khi làm việc trên logarit hàm
likelihood hơn chính hàm likelihood. Lý do chính cho điều này bởi tính toán hơn là lý
thuyết. Nếu chúng ta nhân lên nhiều số rất nhỏ cùng nhau (ví dụ nhỏ hơn 0.0001) thì
chúng ta sẽ khó có thể biểu hiện số trên với một máy tính thông thường nào đó hiện
nay vì nó quá gần với 0. Tình trạng này thường xuất hiện trong việc tính toán xác suất,
khi chúng ta đang nhân những xác suất nhiều sự kiện hiếm có nhưng độc lập để tính
toán xác suất chung. Log của hàm likelihood thường đơn giản nhiều cho tính toán, và
chúng ta thấy nghiệm thỏa giá trị lớn nhất của hàm log likelihood cũng là nghiệm giá
trị lớn nhất của chính hàm likelihood. Với ví dụ ở 3.1.3, log likelihood là:

3.3. Tổng quát hóa bài toán ước lượng hợp lý cực đại
3.3.1. Ước lượng hợp lý cực đại trên mẫu quan sát

Nếu x là biến ngẫu nhiên với hàm phân bố:

f x[i ] (θ1,θ 2 , ...,θ K )
với θ1,θ 2 , ...,θ K là K tham số cần phải ước lượng, với dãy N mẫu độc lập là x[1],
x[2], ..., x[N]. Thì hàm likelihood được cho bởi tích sau:

N

lD (θ ) = ln LD (θ ) hay lD (θ ) = N H ln θ + NT ln(1 − θ )

LD (θ1,θ 2 , ...,θ K ) = ∏ f x[i ] (θ1,θ 2 , ...,θ K )
i =1

Bùi Văn Đồng

Trang 26

Bùi Văn Đồng

Trang 27


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

và hàm ln likelihood như sau:

trên những bài toán lớn. Nhược điểm lớn nhất của phương pháp này là tính tin cậy
không cao.

N

LD (θ ) = ∑ ln f x[i ] (θ1,θ1, ...,θ k )

D (θ ) = ln

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ


i =1

MLE của θ1,θ 2 , ...,θ K đạt được khi LD (θ ) hay D (θ ) là lớn nhất, chúng ta đã
biết xác định giá trị lớn nhất với D (θ ) dễ hơn với LD (θ ) , vậy MLE của θ1,θ 2 , ...,θ K
là giải hệ K phương trình sau:

∂( )
= 0, j = 1,2, ..., K
∂θ j
Ví dụ: Tung một con xúc sắc có K = 6 mặt, chúng ta muốn xác định những tham
số θ1 ,θ 2 ,...,θ K là xác suất của mặt có nút tương ứng 1, 2,…, K nhận được khi tung xúc
sắc. Từ quan sát ta có N1 , N 2 ,..., N K là số lượng tương ứng của từng mặt khi quan sát.

Phương pháp tính toán đại số: Ngược lại với phương pháp gần đúng trên,
phương pháp tính toán đại số hiện nay chỉ giải quyết được với những bài toán nhỏ,
nhưng cho kết quả chính xác. Với sự tiến bộ của khoa học kỹ thuật nói chung và ngành
máy tính cũng như lãnh vực đại số máy tính nói riêng, đã mở ra con đường cho hướng
tiếp cận này. Vì lý do trên phương pháp này được chọn sử dụng để giải quyết bài toán
ước lượng hợp lý cực đại - áp dụng trên cây sinh loài nhỏ.

Để hiểu rõ cây sinh loài, ước lượng hợp lý cực đại trên cây sinh loài chúng ta
tìm hiểu sơ qua cây sinh loài và mô hình xác suất thống kê trên cây sinh loài ở chương
sau.

Theo công thức hàm khả năng sẽ:
K

LD (θ ) = ∏θ j


Nj

j =1

và hàm ln likelihood tương ứng sẽ là:
K

lD (θ ) = ln LD (θ ) = ∑ N i ln(θi )
i =1

Sau khi giải hệ phương trình

∂(l )
= 0, j = 1,2,..., K
∂θ j
chúng ta được:

θk =

Nk

K

∑ Nl

với k =1, …, K

l =1

3.3.2. Một số phương pháp giải phương trình hợp lý


Theo trên, giải phương trình hợp lý làm cực đại phương trình:

L(θ ) = f1 (θ ) u1 f 2 (θ ) u2 ... f n (θ ) un với ui ∈

.

Hiện nay có hai hướng tiếp cận khác nhau để giải quyết bài toán này, trong mỗi
phương pháp có những ưu và khuyết điểm riêng của nó:
Phương pháp gần đúng: Giải phương trình hợp lý bằng phương pháp tìm kiếm
cục bộ, heuristics, …Ưu điểm của phương pháp này là nhanh chóng, có thể giải quyết

Bùi Văn Đồng

Trang 28

Bùi Văn Đồng

Trang 29


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Chương 4.
CÂY SINH LOÀI - MÔ HÌNH XÁC SUẤT
THỐNG KÊ TRÊN CÂY SINH LOÀI
Chương này giới thiệu cây sinh loài cũng mô hình xác suất thống kê trên cây
sinh loài. Ngoài ra cũng giới thiệu một số mô hình thường sử dụng hiện nay trên cây
sinh loài như mô hình Neyman 2 trạng thái, Jukes – Cantor, Kimura với 2 và 3 tham
số.


4.1. Giới thiệu sơ lược về cây sinh loài
Cây sinh loài (còn gọi là cây tiến hóa hay là cây chủng loài) mô tả lịch sử tiến
hóa của một nhóm các loài (species) với những đặc tính khác nhau nhưng cùng có mối
quan hệ họ hàng với nhau và cùng hình thành từ một tổ tiên chung trong quá khứ. Có
nhiều hướng nghiên cứu khác nhau để chứng minh đặc điểm phát sinh sinh loài này.
Trước hết, người ta có thể so sánh trình tự các đoạn DNA (thuộc sinh học phân
tử hay hệ gene học (genomics); hoặc so sánh các hóa thạch (fossil) hoặc các di chỉ
(record) của sinh vật cổ (thuộc khảo cổ học - paleontology).
Các nhà sinh học tổ chức và phân tích các mối quan hệ tiến hóa thông qua các
phương pháp khác nhau, bao gồm phân loại học (phylogenetics), ngoại hình học
(phenetics) và cladistics. Các sự kiện chính xảy ra trong quá trình tiến hóa của sự sống
được xây dựng thành biểu đồ thời gian của tiến hóa (evolutionary timeline) dựa trên
các hiểu biết hiện nay của khoa học. Hình 3 cho ta thấy hình dạng của cây sinh loài sự
sống trên hành tinh chúng ta.

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

4.2. Các nghiên cứu phát sinh sinh loài
Trong ngành sinh học, người ta nghiên cứu mối quan hệ giữa các loài sinh vật
thông qua các bằng chứng phân tử, cụ thể là trình tự DNA và protein. Như vậy sự khác
biệt giữa các trình tự (DNA) chỉ định sự phân kỳ di truyền như là kết quả của tiến hóa
phân tử theo tiến trình thời gian.
Các phương pháp dùng để nghiên cứu phát sinh sinh loài chủ yếu dựa trên một
sự giả định về các tiến trình tiến hóa ở mức phân tử thông qua việc quan sát phân tích
trình tự DNA hoặc protein. Bằng cách sử dụng công cụ máy tính, các chuỗi dữ liệu sẽ
được mô phỏng tiến trình tiến hóa và phân tích tiến trình phát sinh sinh loài. Giả sử là
chúng ta có một “cây tiến hóa đúng”, chúng ta có thể dùng nó để kiểm tra lại độ chính
xác, tính nhất quán khả năng tin cậy của những mô hình tiến hóa. Tuy nhiên khi sử
dụng các dữ liệu sinh học, cái gọi là cây tiến hóa có thể không bao giờ có, hoặc ít ra

cũng có thể nói là KHÔNG BIẾT. Do vậy người ta chấp nhận một cây tiến hóa được
dựng nên mà người ta tin là nó GIỐNG NHẤT với cây tiến hóa đúng.
Trong các bước trình tự cơ bản để cho một nghiên cứu phát sinh sinh loài thì
đánh giá sự phát sinh sinh loài cũng là một bước không thể bỏ qua. Sau đây là một số
phương pháp được sử dụng hiện nay:
Phương pháp Hà tiện tối đa (Maximum parsimony), một sự giả định cho rằng
cây tiến hóa tốt nhất mổ tả tiến trình tiến hóa tốt nhất chính là cây mô tả được các loài
ít thay đổi nhất tức là có ít đột biến nhất, cây vì thế có điểm thấp nhất (hà tiện) theo
một tiêu chuẩn định sẵn.
Phương pháp Khoảng cách (Distance method): Khác với phương pháp
parsimony có mô hình tiến hóa là một hàm ẩn, thì phương pháp khoảng cách lại có mô
hình tiến hóa là một hàm hiện. Trong phương pháp này từng cặp trình tự một sẽ được
so sánh thẳng hàng cặp đôi và ứng với từng cặp, khoảng cách di truyền sẽ được tính
toán. Do mô hình tiến hóa là một hàm hiện nên một trong số mô hình tiến hóa có thể
được chọn để tính toán khoảng cách di truyền giữa từng cặp taxa từ đó cho ra một ma
trận khoảng cách giữa tất cả các taxa. Và để có được cây tiến hóa, phương pháp phân
rã hình ngôi sao thường được sử dụng ví dụ phương pháp neighbor-joining(liên kết
cận kề). Do phương pháp neighbor-joining mà một trong những phương pháp nhanh
nhất để dò tìm cây tiến hóa nên nó thường được sử dụng để phân tích khối dữ liệu lớn
với nhiều taxa.
Phương pháp Hợp lý cực đại (Maximum Likelihood) là phương pháp tiêu tốn
nhiều thời gian nhất nhưng lại cho kết quả đáng tin cậy nhất. Mô hình tiến hóa dùng
trong phương pháp này cũng là một hàm hiện. Ứng với mỗi mô hình tiến hóa được
chọn, phương pháp này sẽ tính toán khả năng xác suất mà một cây tiến hóa có thể có
từ chuỗi trình tự phân tích. Cây tiến hóa có xác suất cao nhất là cây cuối cùng được
chọn.
Chúng ta tập trung vào phương pháp ML, để hiểu được điều này chúng ta bắt
đầu với những ví dụ cụ thể để mô hình hóa bài toán trên cây sinh loài.

Hình 3: Cây sinh loài của sự sống


Bùi Văn Đồng

Trang 30

Bùi Văn Đồng

Trang 31


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

4.3. Mô hình ước lượng hợp lý cực đại trên cây sinh loài
Cho S1, S2, …, SN là một dãy mẫu DNA mà chúng ta có. Để đơn giản, giả thiết
rằng mọi chuỗi trên có cùng chiều dài. Chúng ta muốn xác định những tham số của
một cây sinh loài thông qua dãy mẫu trên và làm cực đại khả năng có thể xảy ra.
Để giải bài toán này ta cần chỉ rõ một mô hình xác suất. Cho đơn giản, giả thiết
“DNA” của chúng ta chỉ có hai trạng thái X và Y. Cạnh e được gán xác suất pe , có
nghĩa là xác suất những thay thế (X ÙY) ngang qua e là pe (Hình 4).

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Bây giờ chúng ta không biết trạng thái ở tại nút trong, đồng thời cũng không
biết những tham số cạnh pe1 , pe2 , pe3 , pe4 , pe5 , pe5 , pe6 (Hình 5).
Hai hướng được đưa ra:
1. Cực đại qua những trạng thái của những nút bên trong.
2. Trung bình qua những trạng thái của những nút bên trong.

Trong cả hai trường hợp, chúng ta đều làm cực đại những tham số qua cạnh.
Trong hướng đầu tiên (trung bình, hoặc tổng những trạng thái những nút

trong) chúng ta đang tìm kiếm “thích hợp nhất” đặt trên những cạnh của cây.
Hướng này được gọi là cực đại khả năng cây sinh loài.

Trong hướng này ML có lẽ là phương pháp suy diễn rộng rãi nhất được sử dụng
hiện nay.

Hình 4: Mô tả xác suất chuyển đổi trạng thái của chuỗi “DNA”

Phải chăng cạnh e được gán xác suất pe , có nghĩa xác suất của những mẫu liên
quan thay thế ngang qua e, ví dụ XXYXYÙYXYXX được xác định rõ, và dễ dàng tính
toán hàm Likelihood cho mẫu này: pe2 (1 − pe )3 .
Qua bài toán trên có câu hỏi đặt ra như sau: Cái gì “hợp lý” mẫu trên? Có nghĩa
là tìm kiếm pe mà nó làm cực đại xác suất của các mẫu trên.
Mở rộng mô hình bài toán trên, mô hình mới của chúng ta sẽ gồm có một cây
thông thường, nhưng ngoài ra các cạnh được gán những xác suất thay thế.
Ví dụ ở đây, cây có 4 taxa. Những taxa này là sinh vật hoặc là gen, mỗi một
taxa được mô tả bởi chuỗi DNA:
Human: ATGGCTATTCTTATAGTACG
Mouse: BATCGCTAGTCTTATATTACA

Trong hướng thứ hai (làm cực đại qua những trạng thái của những nút
trong) Chúng ta đang tìm kiếm “thích hợp nhất” những trạng thái tổ tiên. Hướng
này được cực đại khả năng xảy ra ở tổ tiên (ancestral maximum likelihood -AML).

Hướng thứ hai cũng phải sử dụng phương pháp ML bởi vì mục tiêu cuối cùng
cũng phải là cực đại khả năng.

4.4. Mô hình tiến hóa
Trong sinh vật học, quá trính tiến hóa là một quá trình phức tạp. Trong quá
trình đó, các chuỗi gen phân kỳ từ cùng một tổ tiên. Nhưng vì sự đột biến và chia rẽ

của sự đột biến đó làm tiến hóa cộng đồng bởi sự chọn lọc. Kết quả là sự thay đổi
trạng thái của một nucleotide này thành một nucleotide khác ở những vị trí khác nhau.
Trong việc tái cấu trúc cây sinh loài, chúng ta cần phải chấp nhận mô hình với một số
giả định về quá trình cũng như trạng thái thay thế sau:
- Mô hình đơn giản nhất là mô hình mà trong đó khả năng của bất kỳ nucleotide
nào thay đổi thành bất kỳ nucleotide khác là bằng nhau.

Rate: TTCACTAGACCTGTGGTCCA
Chicken: TTGACCAGACCTGTGGTCCG

- Dự đoán khả năng rằng một nucleotide cụ thể ở một vị trí cụ thể sẽ thay đổi
thành một nucleotide xác định khác trong một khoảng thời gian, cái chúng ta cần biết
ở đây là tỷ lệ tức thời của sự thay đổi.
Ma trận tỷ lệ (hoặc ma trận Q) là ma trận vuông Q = ( qij ) , với chỉ mục hàng và
cột cho bởi ∑ = { A, C , G , T } . Chúng ta cũng có thể sử dụng ký tự nhị phân hoặc 20 kí
tự của amino axit cho tập ∑ . Ma trận tỷ lệ phải thỏa những yêu cầu sau:

qij ≥ 0 với i ≠ j

∑ qij = 0 cho tất cả i ∈∑ ,
j∈∑

qii < 0 với tất cả i ∈∑
Hình 5: Cây sinh loài với các nút trong và xác suất chuyển đổi

Bùi Văn Đồng

Trang 32

Bùi Văn Đồng


Trang 33


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Ma trận tỷ lệ có được từ ý nghĩa từ tỷ lệ tức thời của đột biến. Từ ma trận tỷ lệ
Q, chúng ta có thể tính được ma trận thay thế θ (t ) bởi hàm mũ theo công thức sau:


1
i!

θ (t ) = eQt = ∑ Qit i
i =0

i→

Phần tử của θ (t ) ở dòng i và cột j chính là xác suất mà sự thay đổi
→ j xảy ra trong một khoảng thời gian là t.

Mô hình đơn giản có một tham số và được biết là mô hình Jukes-Cantor với tỷ
lệ chuyển đổi từ một nucleotide này đến một nucleotide khác là bằng nhau như sau:

A
A ⎛ −3α
G ⎜⎜ α
Q=
C ⎜ α


T ⎝ α

G

α
−3α

α
α

C

T

α
α ⎞
α
α ⎟⎟
−3α α ⎟

α −3α ⎠

⎛1 + 3e

−4α t
1 ⎜ 1− e
θ (t ) = ⎜
4 1 − e −4α t

⎜ 1 − e −4α t



1− e

Khi t → ∞ thì P(ii ) (t ) →

1
1
và P(ij ) (t ) →
4
4

Điều này rõ ràng là phù hợp với thực tế của mô hình Jukes - Cantor, vì tại một
thời điểm tức thời việc giử nguyên trạng thái với xác suất rõ ràng là bằng 1 và chuyển
trạng thái này sang trạng thái khác là 0. Tương tự khi thời gian vô cùng lớn thì việc
chuyển đổi trạng thái từ một nucleotide này sang một nucleotide khác hay giữ nguyên
trạng thái là bằng nhau và bằng 0.25.
Hiện nay, ngoài mô hình Jukes-Cantor còn có một số mô hình khác thường sử
dụng như: Kimura-2, Kimura-3,…. Trong các mô hình này có sự khác nhau về tỉ lệ
thay đổi trạng thái giữa các cơ sở. Khi sử dụng mô hình tiến hóa để tái cấu trúc cây,
một là gán giá trị cụ thể cho tỉ lệ hoặc là ước lượng giá trị từ dữ liệu. Những mô hình
này hoàn toàn giả định rằng các tốc độ là như nhau ở tất cả các vị trí.
ML cố gắng suy ra một cây sinh loài bằng cách tìm ra cây mà cực đại khả năng
đối với dữ liệu mẫu.
Ví dụ: Dữ liệu mẫu ở đây là những chuỗi bằng nhau của nucleotides hoặc amino
acids (chiều dài mỗi chuỗi N=32):

Và ma trận thay thế tương ứng là:
−4α t


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

TCAAAAATGGCTTTATTCGCTTAATGCCGTTA
−4α t

1− e

−4α t

1 + 3e −4α t

1 − e −4α t

1 − e−4α t

1 + 3e−4α t

1 − e−4α t

1 − e −4α t

−4α t



1 − e−4α t ⎟

1 − e −4α t ⎟
1 + 3e −4α t ⎟⎠
1− e


TCCGTGATGGATTTATTTCTGCAATGCCTGTC
TTCGTGATGGATTTATTGTTGGTATGCCAGTC
TTCGTGACGGGTTTATCTTGGCAATGCCGGTC

Ma trận θ (t ) thỏa: các phần tử của ma trận đều lớn hơn hoặc bằng 0 và nhỏ hơn
hoặc bằng 1, tổng các phần tử trên một hàng bằng 1.
Chúng ta cần xác định tính hợp lý mô hình trên. Giả sử chúng ta có G ở vị trí
nào đó ở thời điểm t = 0, chúng ta hỏi rằng khả năng bao nhiêu ở đó vẫn là G vào thời
điểm t (kí hiệu P(GG ) (t ) ), và tương tự như vậy khả năng là bao nhiêu nếu như A thay

Chúng ta bắt đầu với một mô hình tiến hóa cho bởi ma trận θ (t ) và một giả
định một số hình dáng cây với chiều dài tương ứng.
Có 15 khả năng cho các dạng cây có gốc với 4 taxa, một trong những cây đó là
hình 6, trong đó các đỉnh ở lá tương ứng với các dữ liệu dóng theo cột được đánh dấu
đánh đậm trên 4 chuỗi trên.

thế vào vị trí đó (kí hiệu P(GA) (t ) ). Nếu tỉ lệ thay đổi là α trên đơn vị thời gian như mô
hình Jukes - Cantor trên, thì:

P(GG ) (t ) =

1
3
1 1
+ e-4α t và P(GA) (t ) = − e-4α t
4
4
4 4


Cũng theo mô hình Jukes-Cantor thì tất cả thay thế là như nhau, nên phát biểu
chung là:

P(ii ) (t ) =

Hình 6: Một trong những cây sinh loài 4 taxa

1
3
1 1
+ e-4α t và P(ij ) (t ) = − e-4α t
4
4
4 4

Chúng ta không biết các nucleotide ở nút X và Y, nhưng có 4 khả năng xảy ra
cho mỗi nút X và Y, vậy có có 16 trường hợp có thể xảy ra ở cây trên, một trong những
trường hợp đó là hình 7.

Ta thấy:
Khi t → 0 thì P(ii ) (t ) → 1 và P(ij ) (t ) → 0 ,

Bùi Văn Đồng

Trang 34

Bùi Văn Đồng

Trang 35



Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Chương 5.

Hình 7: Cây sinh loài với dữ liệu trên nút lá và các khả năng xảy ra ở các nút tổ tiên

Xác xuất cho sự kiện mà mẫu quan sát A ở gốc là PA, bằng tần suất xuất hiện
của A và thường được lấy bằng 0.25, giá trị này xác định được do thực nghiệm và độc
lập với mô hình.
Xác suất chuyển đổi từ A ở gốc đến G ở lá được tính toán từ ma trận θ (t ) và
chiều dài của nhánh từ A đến G là P( AG ) . Vậy xác suất của cây là:

BẤT BIẾN TRÊN CÂY SINH LOÀI

Theo chương trước chúng ta nhận thấy, giải bài toán cây sinh loài dẫn đến giải
một bài toán cực đại một phương trình phi tuyến rất nhiều ẩn. Việc làm này khó khả
thi ngay cả những cây sinh loài nhỏ. Người ta nhận thấy, đối với những mô hình
thường sử dụng, trên cây sinh loài tồn tại những thành phần bất biến. Đối với một cây
sinh loài cụ thể thành phần không đổi và không phụ thuộc vào mẫu dữ liệu quan sát.
Từ những thành phần bất biến này, thay vì giải bài toán trên các tham số thì ta giải bài
toán tương đương dựa trên các thành phần bất biến với sẽ đơn giản hơn. Trong chương
này tập trung vào việc tìm tất cả thành phần bất biến. Cuối chương có một ví dụ về bất
biến trên một cây sinh loài cụ thể.

5.1. Dẫn nhập
Mô hình thống kê đại số mà chúng ta đang xét trên cây sinh loài là một ánh xạ
có dạng:


f:

Ptree1 = PA . P( AG ) . P( AC ) . P( AT ) . P(TT ) . P(TT ) .
Bởi vì có 16 trường hợp như vậy, xác suất của cây được tính bằng tổng các khả
năng như sau:

Ptree _ i = Ptree1 + Ptree 2 +

+ Ptree16

Đây chỉ là xác suất cho cây với dữ liệu quan sát ở một vị trí i được đánh dấu
màu đậm ở các chuỗi trên.
Khả năng của toàn bộ dữ liệu mẫu ở tất cả các vị trí bằng tích các khả năng cho
mỗi một vị trí từ 1 đến N
N

PTREE = ∏ Ptree _ i

m

Sử dụng phương pháp hợp lý cực đại, với các chuỗi dữ liệu quan sát ta có
phương trình hợp lý tương ứng sau:

L = f1u1 ... f mum

Mục tiêu cuối cùng là làm cực đại hàm L trên bằng cách giải các phương trình
đạo hàm riêng của nó:

u ∂f


∑ fi ∂θi

Áp dụng phương pháp ML là tìm xác suất các Ptree _ i hay rõ hơn là tìm xác suất

i =0

i

= 0 với j = 1, .., d

Trang 36

(2)

j

Tuy nhiên, khi nghiên cứu bài toán trên cây sinh loài các đa thức f1 ,..., f m là
những phương trình phi tuyến với nhiều tham số θ1 , ...,θ d , cho nên việc giải bài toán
trên với việc giải hệ phương trình (2) là việc làm khó khả thi.
Một câu hỏi được đặt ra: các tập ảnh f1 ,..., f m như thế nào khi các

θ1 ,..., θ d chạy trên miền xác định của nó? Nếu chúng ta xác định được tập các ảnh
f1 ,..., f m thì thay vì giải quyết bài toán (1) trên các tham số θ1 ,..., θ d chúng ta chỉ xét
bài toán (1) trên các tọa độ f1 ,..., f m sẽ đơn giản hơn nhiều.
Ví dụ: Chúng ta xét các ví dụ với ánh xạ f :

Bùi Văn Đồng

(1)


trong đó u1 ,..., um là các số nguyên dương.

m

Tuy nhiên việc giải bài toán trên là việc giải một hệ thống phương trình phi
tuyến với nhiều ẩn số. Việc giải bằng tay là một điều không thể. Hướng giải quyết đưa
ra là chọn một phương pháp toán học thích hợp kết hợp những ứng dụng của đại số
máy tính hiện nay chúng ta có thể giải quyết bài toán trên với một số cây sinh loài nhỏ
với một số mô hình chuyển đổi thường sử dụng.Với cách tiếp cận như vậy chúng ta có
thể giải tìm nghiệm chính xác cho bài toán trên. Một trong những phương pháp đó là
tìm thành phần bất biến trên cây sinh loài sẽ giới thiệu ở chương sau.



ở đây không gian tổng quát trên trường số phức, tuy nhiên các toạ độ thực tế f1 ,..., f m
của hàm số là các đa thức có hệ số hữu tỷ, có nghĩa là f1 ,..., f m ∈ [θ1 ,...,θ d ] .

i =1

chuyển đổi trạng thái trên các nhánh của cây dựa theo tham số của ma trận θ (t ) trên
từng nhánh của cây sao cho xác suất PTREE đạt giá trị lớn nhất.

d

Bùi Văn Đồng

2




3

Trang 37


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

(i)
(ii)

Nếu f = (θ12 ,θ1θ 2 ,θ1θ 2 ) thì tập ảnh là nghiệm phương trình f 2 − f 3 = 0
Nếu

f = (θ

θθ θ

2
2
1 ,2 1 2 , 2 )

thì

tập

ảnh




nghiệm

phương

trình f 22 − 4 f1 f 3 = 0
(iii)

Nếu f = (θ15 + θ1θ 2 ,θ15 + θ 24 ,θ1θ 2 + θ 24 ) thì tập ảnh là nghiệm phương
trình 211 ( f1 + f 2 − f 3 ) 4 ( f 2 + f 3 − f1 ) 5 − ( f1 + f 3 − f 2 ) 20 = 0

Qua các ví dụ trên có nhận xét sau: Các đa thức f1 ,..., f m ở dạng những đơn thức
thì tập ảnh là nghiệm của những phương trình đơn giản, ngược lại thì là những phương
trình bậc rất lớn.

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

gần với thực tế thường sử dụng là: Phân phối π là phân phối đều và ma trận chuyển
trạng thái A(v) được sử dụng là mô hình Jukes - Cantor hay Kimura 2 và 3 trạng thái.
Với các giả thiết trên, các bất biến của cây sinh loài của mô hình là một đa thức
dựa trên các khả năng ở lá là pi1i2 ..i n và triệt tiêu với mọi sự chọn lựa tham số của mô
hình. Tập các đa thức là iđêan nguyên tố trên vành đa thức với các biến chưa
biết pi1i2 ...in . Mục tiêu chúng ta là tìm các iđêan này.
5.2.2. Nhóm Abel và sự liên hệ với các ma trận chuyển đổi

Ở mô hình Neyman trên 2 kí tự (k = 2) là mô hình với ma trận chuyển đổi

av ⎞
⎛1 − a v

A ( v ) = ⎜⎜

1 − a v ⎟⎠
⎝ av

Quay trở lại bài toán trên cây sinh loài chúng ta quan tâm, những đa thức
f1 ,..., f m đối với từng cây cụ thể có tính chất riêng của chúng. Tập hợp ảnh của những
f1 ,..., f m tức là tìm tất cả các phương trình quan hệ của chúng. Tập các phương trình
như thế được gọi là thành phần bất biến của cây sinh loài.

với av là xác suất được tạo ra bởi sự chuyển đổi giữa các trạng thái dọc theo cạnh từ
a(v) đến v.

Mục tiêu của phần này giới thiệu một phép biến đổi có tên là phép biến đổi
Fourier để tìm ra tất cả các bất biến trên một cây sinh loài cụ thể.

Mô hình Kimura với 3 tham số với k = 4 kí tự (đối với chuỗi DNA) có ma trận
chuyển đổi sau:

5.2. Mô hình xác suất trên cây sinh loài

A (v)

5.2.1. Mô hình bài toán cây sinh loài

Cho T là cây có gốc với n lá. Đặt V(T) là tập các nút của T. Với mỗi một
v ∈V (T ) , chúng ta kí hiệu biến Xv, mỗi biến này mang 1 trong k giá trị. Trong sinh
học, k hầu như có các giá trị 2, 4 và 20. Kí hiệu P(Xv = i) cho xác suất Xv mang trạng
thái i.
Mối quan hệ giữa các biến ngẫu nhiên Xv được xác định bởi cấu trúc của cây.
Đặt π là phân bố của biến Xr tại nút gốc r. Với mỗi một nút v ∈ V (T ) \ {r} , đặt a(v) là
nút cha duy nhất của v. Sự chuyển trạng thái từ a(v) đến v được cho bởi ma trận xác

suất chuyển đổi A(v) có kích cỡ k × k . Và xác suất phân bố ở mỗi một nút được tính
toán đệ quy như sau:

⎛1 − a v


=⎜
⎜⎜


i =1

Công thức này được suy ra từ phân bố trên tất cả biến ngẫu nhiên Xv. Chúng ta
gán nhãn các nút lá cho T bởi 1, 2, …, n và ta có xác suất phân bố các biến tại các lá:

pi1i2 ..i n = P( X 1 = i1 , X 2 = i2 ,..., X n = in )

Trang 38

av

bv
cv
1 − a v − bv − cv
av
1 − av

1 − a v − bv − c v

cv

bv

cv


bv


av

− bv − cv ⎟⎠

Chìa khóa đối với trạng thái các biến ngẫu nhiên X v là nhóm hữu hạn Abel (ví
dụ Z 2 = {0,1} hoặc Z 2 ⊕ Z 2 = {(0,0),(0,1),(1,0),(1,1)} với phép toán cộng trên các
tọa độ và mod cho 2). Giả sử rằng, chúng ta xem các cơ sở {A, G, C, T} như là các
phần tử của nhóm Abel, với phép toán được định nghĩa với bảng cộng sau:

k

Bùi Văn Đồng

av
bv
cv

Mô hình Kimura 2 tham số được định nghĩa như ma trận trên với bv = cv .
Tương tự, mô hình Jukes- Cantor với 4 kí tự, ma trận trên với av = bv = cv .

P ( X v = j ) = ∑ Aij( v ) .P ( X a ( v ) = i )


Trong các ứng dụng sinh học, người ta ước lượng có kn khả năng từ n chuỗi
bằng nhau trên k kí tự. Mục đích chúng ta là dựa vào n chuỗi bằng nhau đó, xác định
hình dáng cây sinh loài ở quá khứ mà khả năng xảy ra lớn nhất, nói cách khác là tái
cấu trúc cây sinh loài. Vậy đầu vào bài toán chúng ta chỉ có n mẫu dữ liệu, tức là n
chuỗi DNA tương ứng, các phân bố gốc π và ma trận chuyển trạng thái A(v) là chưa
biết. Tuy nhiên để đơn giản cho các bài toán, người ta đưa ra các mô hình đơn giản

− bv − c v

+
A

A
A

G C T
G C T

G
C
T

G
C
T

A
T
C


T
A
G

C
G
A

Nhóm trên đẳng cấu với nhóm Z 2 ⊕ Z 2 , tương ứng với AÙ(0,0), GÙ(0,1),
CÙ(1,0), TÙ(1,1).
Từ đó dễ thấy rằng, ma trận ở mô hình Kimura 3 tham số có tính chất tương
ứng với từng cặp cơ sở ( gi , g j ) . Mặt khác, chúng ta thấy rằng sự chuyển trạng thái từ

g i đến g j chỉ phụ thuộc vào hiệu gi − g j . Điều đó cũng đúng khi chúng ta xem xét

Bùi Văn Đồng

Trang 39


Phng phỏp i s cho bi toỏn c lng hp lý cc i - p dng trờn cõy sinh loi nh

i vi mụ hỡnh Jukes-Cantor. Vỡ th, ma trn chuyn i ca nhng mụ hỡnh ang
quan tõm khụng gỡ khỏc hn nhng ma trn trờn nhúm chỳng ta ang xột.

5.3. Bin i Fourier
t G l nhúm hu hn Abel vi phộp toỏn c vit nh l +. t
Y = {z C : z = 1} nh l vũng trũn n v trờn mt phng s phc. Chỳng ta thy
rng Y l mt nhúm Abel vi phộp toỏn nhõn thụng thng ca s phc. Nhng c
trng ca G l nhng ng cu nhúm t G vo Y . Ngha l : G Y l mt c

trng nu ( g1 + g 2 ) = ( g1 , g 2 ) cho tt c g1 , g 2 G . Nhng c trng l nhúm
Abel di phộp toỏn nhõn ca cỏc hm. Nhúm trờn c gi l nhúm i ngu ca
. Nhúm G v G
l mt ng cu. Cho g G v G
,
nhúm G v ký hiu bi G

Phng phỏp i s cho bi toỏn c lng hp lý cc i - p dng trờn cõy sinh loi nh

f1 * f 2 ( g ) = f1 * f2
1( ) = G nu = 1 (phn t n v trong G
) v 1( ) = 0 ngc li.

(iii)

Vớ d (Bin i Fourier cho nhng cõy n gin): Cho T = K1,n l cõy cú gc
v n lỏ. Kh nng xy ra ca mụ hỡnh c s nhúm c cho bi:
n

p( g1 ,..., g n ) = (h) f (i ) (h g i )
hG

chỳng ta ký hiu , g thay cho ( g ) . i ngu trc tip tng G n = in=1 G l ng

(h ) neỏu h1 = h2 = ... = hn
(h1,..., hn ) = 1

n di phộp ng cu cho bi ( ,..., ),( g ,..., g ) = , g .
cu G
i

1
1
n
n
i =1
n

T ú chỳng ta cú:

p( g1 ,..., g n ) =

(0 , 0) (0 ,1) (1, 0) (1,1)
1
1

1
-1

1
1

1
-1




1
1


1
-1

-1
-1

-1
1

n

( h1 ,...,hn )G n

~ (h1 ,..., hn ) f (i ) (hi g i )
i =1

n

q( 1 ,..., n ) = ~ ( 1 ,..., n ) f (i ) ( i )
i =1

bi cụng thc tớnh chp l c lp ca f(i) trong bin i Fourier. Mt khỏc

~ ( 1 ,..., n ) = ( g ,.., g
1

g, f (g)

n )G


n

( 1 ,..., n ), ( g1 ,..., g n ).~ ( g1 ,..., g n )

= gG 1 2 ... n ), g . ( g ) = ( 1 2 ... n )

gG

cho nờn

gi l bin i Fourier ca f.

n

Cho hai hm s f1 v f2 trờn G , tớnh chp f1*f2 ca chỳng l mt ỏnh x mi
c nh ngha nh sau:

( f1 * f 2 )( g ) = f1 (h) f 2 ( g h)
hG

B : Cho f1 v f2 l nhng hm s trờn nhúm hu hn Abel G n
hng.
l ng cu.
(i) Nhúm G v nhúm i ngu G
(ii) Bin i Fourier cú tớnh chp i vi phộp nhõn, ngha l

q( 1 ,..., n ) = ( 1 ,..., n ) f (i ) ( i )
i =1

Vớ d trờn l c s gii thiu s cn thit chng minh nhng kt qu tng

quỏt sau.

Mt s tớnh cht xung quanh v nhúm i ngu v bin i Fourier nh sau:

Bựi Vn ng



vỡ th p l chp ca hai hm s trờn G n . Bin i Fourier cho ra:

C c nh ngha:
Cho ỏnh x f : G C v ỏnh x f : G

f ( ) =

ngửụùc laùi

0

= {1, , , } , trong ú
Vớ d: Gi s rng G = Z 2 Z 2 . Thỡ ta cú th vit G
cho bi bng sau:
cỏc giỏ tr , g vi g G v G

1


i =1

Chỳng ta s bin i Fourier i vi nhng t hp ca xỏc sut trờn i vi

nhúm G n . lm iu ú, chỳng ta thay th phõn b gc : G R bi mt hm s
mi : G n R nh sau:

v 1 l hm

nh lý ([Evans and Speed, 1993]): Cho p ( g1 ,..., g n ) l phõn phi cú iu
kin ca mt mụ hỡnh c s nhúm i vi cõy sinh loi T c gii thiu phn trờn.
Thỡ bin i Fourier ca p cú dng

q ( 1 ,..., n ) = ( 1 ,..., n )



vV (T ) \{r }

f ( v ) (

l )

l ( v )

vi (v) l tp ca lỏ cú v nh l cha.

Trang 40

Bựi Vn ng

Trang 41



Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Thay thế tọa độ gốc pi1i2 ..i n bởi tọa độ Fourier qi1i2 ..i n , kết quả của qi1i2 ..i n là các

⎛ c0
⎜c
c=⎜ 1
⎜ c1

⎝ c1

đơn thức của các tham số.

5.4. Toạ độ Fourier
Mỗi một tọa độ Fourier của 2n hoặc 4n tọa độ được ký hiệu bởi qi1i2 ..i n . Chú ý,
với phân phối tại gốc là phân phối đều và mô hình chúng ta đang xét có cấu trúc nhóm
như Jukes-Cantor hay Kimura-2, Kimura-3, biến đổi Fourier từ pi1i2 ..i n theo qi1i2 ..i n và

pi1i2 ..i n =
qi1i2 ..i n =

∑χ

j1 ,..., jn

1
kn


(i1 )...χ (in )q j1... jn ,
jn

1

0
1

1
1
-1



5.5.2. Các khả năng xảy ra trên các nút lá

Lớp 1 có 4 toạ độ:

n

Ở đây χ i là đặc trưng của nhóm kết hợp đến phần tử thứ i của nhóm. Bảng đặc
trưng của nhóm chúng ta sử dụng là Z 2 và Z 2 ⊕ Z 2 sau:

0
1
1

(Với ma trận trên ta có ràng buộc c0+3c1=1).

Trong 64 toạ độ trên, thì chỉ có 4 lớp tương đương sau:


n

j1 ,..., jn

c1 ⎞
c1 ⎟⎟
c1 ⎟

c0 ⎠

5.5.3. Các lớp xác suất tương đương

∑ χ i ( j1 )...χ i ( jn ) p j ... j .
1

c1
c1
c0
c1

Như trên, vì cây có 3 lá, nên số trường hợp có thể xảy ra trên lá là 64 khả năng.
(Xem Phụ lục 1)

ngược lại theo định lý trên (ở phần 5.3) như sau:
j1

c1
c0
c1

c1

G

T

1
3
p AAA = pGGG = pCCC = pTTT = c03 + c13
4
4
Lớp 2 có 36 tọa độ:

A

C

A
C

1
1

1
-1

1
1

1

-1

= pCAA = pCAC = pCCA = pCCG = pCCT = pCGC = pCGG = pCTC = pCTT

G
T

1
1

1
-1

-1
-1

-1
1

= pTAA = pTAT = pTCC = pTCT = pTGG = pTGT = pTTA = pTTC = pTTG

p AAC = p AAG = p AAT = p ACA = p ACC = p AGA = p AGG = p ATA = p ATT
= pGAA = pGAG = pGCC = pGCG = pGGA = pGGC = pGGT = pGTG = pGTT

Nói cách khác, χ i ( j ) là chính là phần tử (i, j) tương ứng trong bảng đặc trưng
trên.

1
1
1

= c02c1 + c0c12 + c13
4
4
2
Lớp 3 có 24 tọa độ:

p ACG = p ACT = p AGC = p AGT = p ATC = p ATG = pCAG = pCAT = pCGA

5.5. Áp dụng tìm bất biến trên một cây sinh loài

= pCGT = pCTA = pCTG = pGAC = pGAT = pGCA = pGCT = pGTA = pGTC

5.5.1. Mô hình bài toán

Để làm rõ vấn đề trên chúng ta xem xét một cây sinh loài cụ thể sau: Cho cây
sinh loài có gốc với 3 lá với hình 8 sau:

3
1
= pTAC = pTAG = pTCA = pTCG = pTGA = pTGC = c0c12 + c13
4
4
Đặt p0 , p1, p2 là tổng các xác suất trong một lớp tương đương trên, ta có:

p0 = c03 + 3c13
Hình 8: Cây sinh loài có gốc với 3 nút lá

p1 = 9c02c1 + 9c0c12 + 18c13

Để đơn giản, giả sử mô hình chúng ta đang xét là mô hình Jukes – Cantor với 4

trạng thái. Ngoài ra, các kí tự tại nút gốc có phân phối đều, nói cách khác xác suất xuất
hiện các ký tự {A, G, C, T} tại gốc là bằng nhau và bằng 0.25.
Theo hình dáng cây trên, chúng ta có 3 cạnh bằng nhau, cho nên ma trận xác
xuất chuyển đổi như sau:

Bùi Văn Đồng

Trang 42

p2 = 18c0c12 + 6c13
Vậy ánh xạ chúng ta cần xem xét f :

d



m

, trong đó:

Trong đó d = 2 (c0 và c1) và cây có 3 lớp đại diện cho 64 khả năng xảy ra ở các
nút lá cho nên m = 3.
Bùi Văn Đồng

Trang 43


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Vì thế thực tế ánh xạ chúng ta đang xét đó là:


f:

2



q ATT

Sử dụng công thức chuyển đổi Fourier

1
kn

1
1
1
p0 - p1 + p2 =
18
18
6
1
1
1
= p0 + p1 p2 =
9
81
27

q ATC =


3

5.5.4. Chuyển đổi Fourier

qi1i2 ..i n =

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Tất cả q còn lại đều mang giá trị 0.

∑ χ i ( j1 )...χ i ( jn ) p j ... j .
1

n

j1 ,..., jn

1

n

Các q trên được chia thành 3 lớp tương đương:

ta được:

Lớp 1(có một tọa độ):

q AAA = p0 + p1 + p2 = c03 + 9c02c1 + 27c0c12 + 27c13
q AAG =


q AAA = p1 + p2 + p3 = c03 + 9c02c1 + 27c0c12 + 27c13

1
1
1
1
1
5
1
p0 + p1 p2 = c03 + c02c1 - c0c12 + c13
9
81
27
9
9
9
3

Lớp 2 (có 9 tọa độ):

q AAG = q AAC = q AAT = q AGA = q AGG = q ACA = q ACC = q ATA = q ATT

1
1
1
1
1
5
1

p0 + p1 p2 = c03 + c02c1 - c0c12 + c13
9
81
27
9
9
9
3
1
1
1
1 3 1 2 5 2 1 3
= p0 + p1 p2 = c0 + c0 c1 - c0c1 + c1
9
81
27
9
9
9
3

q AAC =

=

q AAT

Lớp 3 (có 6 tọa độ):

=


1
1
1
1
1
1
1
p0 - p1 + p2 = c03 - c02c1 + c0c12 - c13
6
18
18
6
2
2
6
1
1
1
1 3 1 2
1 2 1 3
=
p0 - p1 + p2 = c0 - c0 c1 + c0c1 - c1
18
18
2
2
6
6
6


q0 = p0 + p1 + p2 = c03 + 9c02c1 + 27c0c12 + 27c13

q1 = p0 +

q ACC
q ACT

5.5.5. Kết quả tìm được

Bất biến cần tìm là được:

q0 q22 - q13 = 0

1
1
1
1
1
5
1
= p0 + p1 p2 = c03 + c02c1 - c0c12 + c13
9
81
27
9
9
9
3
1

1
1 2 1 3
1
1 3 1 2
=
p0 - p1 + p2 = c0 - c0 c1 + c0c1 - c1
18
18
2
2
6
6
6

Hay bất biến cần tìm:

1
1
1
1
( p0 + p1 + p2 )( p0 - p1 + p2 ) 2 - ( p0 + p1 - p2 )3 = 0
3
3
9
3
8 2
16
4
80 3 8 2
4

4 3
2
2
⇔ p0 p2 p0 p1 + p0 p2 +
p1 - p1 p2 p1 p22 +
p2 = 0
3
27
9
729
81
27
27

1
1
1
1
1
5
1
p0 + p1 p2 = c03 + c02c1 - c0c12 + c13
9
81
27
9
9
9
3
1

1
1 2 1 3
1
1 3 1 2
= p0 - p1 + p2 = c0 - c0 c1 + c0c1 - c1
6
18
18
2
2
6
6

q ATA =
q ATG

Bùi Văn Đồng

1
1
p1 - p2 = c03 + c02c1 - 5c0c12 + 3c13
9
3

1
1
q2 = p0 - p1 + p2 = c03 - 3c02c1 + 3c0c12 - c13
3
3


1
1
1
1
1
5
1
p0 + p1 p2 = c03 + c02c1 - c0c12 + c13
9
81
27
9
9
9
3
1
1
1 2 1 3
1
1 3 1 2
=
p0 - p1 + p2 = c0 - c0 c1 + c0c1 - c1
6
18
18
2
2
6
6


q ACA =
q ACG

1
1
1
1
1
1
1
p1 - p2 + p3 = c03 - c02c1 + c0c12 - c13
6
6
18
18
6
2
2

Đặt q0 , q1 , q2 là tổng giá trị của từng lớp tương đương trên, thì

q AGC =
q AGT

1
1
1
1
1
5

1
p1 + p2 p3 = c03 + c02c1 - c0c12 + c13
9
81
27
9
9
9
3

q AGC = q AGT = q ACG = q ACT = q ATG = q ATC

1
1
1
1
1
5
1
p0 + p1 p2 = c03 + c02c1 - c0c12 + c13
9
81
27
9
9
9
3
1
1
1

1 3 1 2 5 2 1 3
= p0 + p1 p2 = c0 + c0 c1 - c0c1 + c1
9
81
27
9
9
9
3

q AGA =
q AGG

1 3 1 2
1
1
c0 - c0 c1 + c0c12 - c13
2
2
6
6
1 3 1 2 5 2 1 3
c0 + c0 c1 - c0c1 + c1
9
9
9
3

Trang 44


Bùi Văn Đồng

Trang 45


Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

Phương pháp đại số cho bài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ

5.6. Những tính chất của thành phần bất biến
Cũng theo các tác giả [Evans and Speed, 1993] thì với phép biến đổi Fourier
trên, chúng ta sẽ tìm được tất cả các thành phần bất biến trên cây sinh loài. Và một
điều quan trọng nữa là các thành phần bất biến trên là những đa thức thuần nhất.
Thành phần bất biến tầm thường nhất là ∑ pi = 1 mà ta đã biết. Những thành phần bất

Chương 6.

GIẢI PHƯƠNG TRÌNH HỢP LÝ

Chương này đưa ra phương pháp giải phương trình hợp lý dựa vào tính bất biến
của cây sinh loài và mẫu dữ liệu quan sát.

i

biến tìm được ở đây là dữ liệu đầu vào để giải trình hợp lý ở chương sau.

6.1.

Quỹ tích hợp lý trên một đa tạp
Chúng ta mô tả một mô hình thống kê là một tập con của:


Δ n = {( p0 , p1 ,..., pn ) ∈ R n+1 : p0 , p1,..., pn > 0 vaø p0 + p1 + ... + pn = 1}
giả sử rằng, mô hình được mô tả như là một tập nghiệm chứa trong Δ n bởi một hệ các
phương trình các đa thức thuần nhất với các biến chưa biết p0 , p1 ,..., pn . Các đa thức
được biết như là thành phần bất biến ở chương 5. Gọi V là tập của tất cả nghiệm phức
được cho bởi hệ các phương trình đa thức thuần nhất. Vấn đề cực đại hợp lý là tìm
những điểm p = ( p0 , p1 ,..., pn ) ở mô hình

V>0 = V ∩ Δ n
mà giải thích hợp lý nhất cho bởi véc tơ dữ liệu (u0 , u1 ,..., un ) ∈
quyết vấn đề tối ưu với ràng buộc sau:

n +1

. Nghĩa là giải

Cực đại hàm hợp lý L = p0u0 p1u1 ... pnun hay bài toán log tương đương
l = u0 log p0 + .... + un log pn với giả thuyết là p ∈ V>0 .
Tiếp cận của chúng ta là tìm tất cả các điểm tới hạn của hàm hợp lý cực đại L
và sau đó chọn những nghiệm thực dương, những điểm đó là cực trị địa phương.
Trong quá trình giải tìm cực đại hàm trên, chúng ta sẽ tìm tất cả điểm tới hạn trên đa
tạp phức V. Cho Vsin g ký hiệu những điểm kỳ dị của đa tạp V và tập Vreg := V \ Vsin g .
Đặt P là iđêan trên vành đa thức R[ p0 , p1 ,..., pn ] được sinh bởi các đa thức được xác
định bởi V, hay:

R[V ] = R[ p0 , p1 ,..., pn ]/ P
Định nghĩa: Cho U là một tập mở Vreg \ ℘( p0 . p1... pn (∑ pi )) của V . Quỹ tích

hợp lý Zu là tập các điểm p ∈U mà dL = 0 . Iđêan hợp lý I u ⊂ R[V ] là iđêan của tập
đóng của Zu trong V.


6.2.

Ma trận Jacobi của các đa thức bất biến

6.2.1. Gradient- Vector vận tốc

Cho f : n →
định nghĩa là vector:

Bùi Văn Đồng

Trang 46

Bùi Văn Đồng

khả vi. Khi đó gradient của f tại x, được ký hiệu gradf ( x) và

Trang 47


×