Học CỘNG
Quốc HOÀ
Gia XÃ
Thành
PhốNGHIÃ
Hồ Chí
Minh
ĐẠI HỌC QUỐC GIAĐại
TP. HCM
HỘI CHỦ
VIỆT
NAM
Trường
Đại
Học
Bách
Khoa
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Độc Lập - Tự Do - Hạnh Phúc
NHIỆM VỤ LUẬN VĂN THẠC sĩ
Họ và tên học viên : Bùi Văn Đồng
Giới tính : Nam 0/ Nữ □
Ngày, tháng, năm sinh : 10/10/1969
Nơi sinh : Quảng Ngãi
BÙI VĂN ĐÒNG
Chuyên ngành : Khoa học Máy tính
Khoá : 2005
PHƯƠNG PHÁP ĐẠI SỐ
CHO BÀI TOÁN ƯỚC LỨỢNG HỢP
LÝ cực ĐẠI - ÁP DỤNG TRÊN CAY
Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành
thông qua.
TS. Nguyễn Văn Minh Mần
TS. Đinh Đức Anh Vũ
CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI
Cán bộ chấm nhận xét 1 :
Cán bộ chấm nhận xét 2 :
Luận văn thạc sĩ được bảo vệ tại
HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC sĩ
TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày . . . . tháng . . . . năm . 2007 .
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như
đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi
thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng
cấp ở trường này hoặc trường khác.
Ngày 05 tháng 11 năm 2007
Bùi Văn Đồng
Bùi Vãn Đồng
Trang 1
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
LỚI CAM ƠN
Xin gởi lời cảm ơn chân thành và sâu sắc đến TS. Nguyễn Văn Minh Man,
nguời Thầy đã tận tình huớng dẫn và tạo mọi điều kiện để tôi có thể hoàn thành luận
văn này.
Xin gởi lời cảm ơn đến các Thầy Cô đã dạy cho tôi trong thời gian qua. Tôi xin
cảm ơn các bạn đồng môn và đồng nghiệp đã quan tâm, chia sẻ trong suốt quá trình
học và làm luận văn.
Luận văn này như một món quà nhỏ đáp lại tình cảm của gia đình và bạn bè
thân thích.
Bùi Vãn Đồng
Trang 2
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
TÓM TẮT LUẬN VĂN
Cây sinh loài mô tả lịch sử tiến hóa của một nhóm các loài với những đặc tính
khác nhau nhưng cùng có mối quan hệ họ hàng với nhau và cùng hình thành từ một tổ
tiên chung trong quá khứ. Đặc tính của mỗi loài được chúng ta quan tâm ở đây tương
ứng với các bộ gen. Gen là các chuỗi DNA được bao gồm từ các kí tự A, G, c và T
hợp thành. Cây sinh loài là một cây mà các nút lá (taxa) của nó có thể là các vật sống
hiện tại ngày nay, các nút trong của cây đó là các tổ tiẽn của các nút lá. Tái cấu trúc
cây sinh loài chính là tìm những gen phù hợp nhất để đưa vào các nút tổ tiên hoặc là
đưa ra một cây sinh loài phù hợp nhất để giải thích quá trình tiến hoá.
Tuy nhiên, việc nghiên cứu cây sinh loài cho nhiều hướng tiếp cận. Mỗi phương
pháp có những ưu điểm và khuyết điểm của nó. Phương pháp ước lượng họp lý cực
đại được chọn ở đây là phương pháp phức tạp nhất nhưng lại là phương pháp cho kết
quả tin cậy nhất. Công cụ chính sử dụng trong phương pháp này là Đại số thống kê và
Đại số máy tính. Đó là những lãnh vực phát triển mạnh mẽ trong những năm gần đây.
Thống kê là ngành khoa học phân tích dữ liệu. Đối với các chuỗi DNA thì
thống kê sẽ xây dựng những mô hình quá trình phát sinh dữ liệu. Đưa ra những kết
luận chung về quá trình phát sinh đó. Mô hình thống kê là nguyên tắc cơ bản đối với
các gen. Đại số thống kê làm sáng tỏ cho những ý tưởng trọng tâm về phân tích dữ liệu
rời rạc nói riêng và phân tích chuỗi sinh học nói riẽng.
Ước lượng hợp lý cực đại (Maximum Likelihood Estimation - MLE) được
công thức hoá trong Xác suất cổ điển, nó có tính chất của một ước lượng tốt. Phương
pháp MLE đánh giá những tham số của một mô hình thối lui. MLE dẫn đến việc giải
quyết là làm cực đại tích của những đa thức.
Đại số máy tính là một lãnh vực mới, nó cung cấp những nền tảng để giải bài
toán MLE trên máy tính.
Đe tài này tập trung vào việc nghiên cứu mô hình xác suất thống kê trên cây
sinh loài từ những dữ liệu là các gen của sinh vật sống. Sau đó sử dụng những nền tảng
toán học, đại số máy tính để giải quyết bài toán họp lý cực đại của mô hình xác suất
trên. Mục tiêu cuối cùng là tìm một cây sinh loài thích họp nhất để giải thích sự tiến
hoá. Những kết quả của luận văn đã làm như sau:
phương pháp: Chọn phương pháp đáng tin cậy nhất là phương pháp ước
lượng họp lý cực đại cho mô hình hóa bài toán. Giải phương trình họp lý bằng
phương pháp tính toán đại số để tìm kết quả chính xác.
- về tính toán: Viết một chương trình để mô hình hóa ước lượng hợp lý cực đại
trên cây sinh loài và chạy tìm nghiệm phương trình họp lý trên một số cây sinh
loài nhỏ 3 và 4 taxa ở một số mô hình.
về
Bùi Vãn Đồng
Trang 3
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
DANH MỤC BANG
Bảng 1: Bảng biến thiên của hàm họp lý................................................................................27
Bảng 2: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình
móng (U68496, U68497, U68498)...................................... .......................55
Bảng 3: Các mẫu và số lượng từng mẫu trên 3 chuỗi gen HIVenvSweden với cây hình
lược với trường hợp ((Ui68496,(U68497, U68498))............ .......................55
Bùi Vãn Đồng
Trang 4
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
DANH MỤC HÌNH
Hình 1: Hai trường họp xảy ra khi tung đinh bấm...................................................................26
Hình 2: Đồ thị của hàm họp lý................................................................................................27
Hình 3: Cây sinh loài của sự sống...........................................................................................30
Hình 4: Mô tả xác suất chuyển đổi trạng thái của chuỗi “DNA”.............................................32
Hình 5: Cây sinh loài với các nút trong và xác suất chuyển đổi..............................................32
Hình 6: Một trong những cây sinh loài 4 taxa.........................................................................35
Hình 7: Cây sinh loài với dữ liệu trẽn nút lá và các khả năng xảy ra ở các nút tổ tiên.36
Hình 8: Cây sinh loài có gốc với 3 nút lá................................................................................42
Bùi Vãn Đồng
Trang 5
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
MỤC LỤC
LỜI CAM ĐOAN.................................................................................................................. 1
LỜI CẢM ƠN....................................................................................................................... 2
TÓM TẮT LUẬN VĂN........................................................................................................ 3
DANH MỤC BẢNG............................................................................................................. 4
DANH MỤC HÌNH................................................................................................................... 5
MỤC LỤC 6
Chương 1. GIỚI THIỆU ĐÈ TÀI.............................................................................. 9
1.1.
Giói thiệu...................................................................................................... 9
1.2.
Cấu trúc luận văn...................................................................................... 10
Chương 2. cơ SỞ LÝ THUYẾT VỀ CÁC CẤUTRÚC ĐẠI SỐ VÀ XÁC SUẤT
THỐNG KÊ.............................................................................................. 12
2.1.
2.1.1.
2.1.2.
2.1.3.
2.1.4.
2.1.5.
2.1.6.
2.1.7.
2.1.8.
2.2.
2.2.1.
2.2.2.
2.2.3.
2.2.4.
2.2.5.
2.2.6.
2.2.7.
Một số cấu trúc đại số cơ bàn.................................................................... 12
Lý thuyết nhóm......................................................................................................... 12
Lý thuyết vành.......................................................................................................... 13
Trường......................................................................................................................14
Vành đa thức............................................................................................................. 14
Ma trận...................................................................................................................... 15
Định thức................................................................................................................... 15
Không gian vector..................................................................................................... 16
Đa tạp đại số.............................................................................................................. 18
Các khái niệm về xác suất thống kê.......................................................... 18
Định nghĩa về xác suất.............................................................................................. 18
Xác suất có điều kiện................................................................................................ 19
Đại lượng ngẫu nhiên và hàm phân phối................................................................... 20
Các đặc trưng của đại lượng ngẫu nhiên................................................................... 20
Lý thuyết mẫu........................................................................................................... 21
Ước lượng tham số.................................................................................................... 22
Sơ lược về ước lượng hợp lý cực đại........................................................................ 22
Chương 3. ƯỚC LƯỢNG HỢP LÝ cực ĐẠI TRÊNMẪU QUAN SÁT...............25
3.1.
3.1.1.
3.1.2.
Bùi Vãn Đồng
Ước lượng hợp lý cực đại là gì?................................................................ 25
Đặt vấn đề................................................................................................................. 25
Khái quát về ước lượng họp lý cực đại..................................................................... 25
Trang 6
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
3.3.2.
Một số phương pháp giải phương trình hợp lý........................................................ 28
Chương 4. CÂY SINH LOÀI - MÔ HÌNH XÁC SUẤT THÓNG KÊ TRÊN CÂY
SINH LOÀI................................................................................................30
4.1.
Giói thiệu sơ lược về cây sinh loài............................................................. 30
4.2.
Các nghiên cứu phát sinh sinh loài........................................................... 31
4.3.
Mô hình ước lượng họp lý cực đại trên cây sinh loài............................... 32
4.4.
Mô hình tiến hóa........................................................................................ 33
Chương 5. BẤT BIÉN TRÊN CÂY SINH LOÀI................................................... 37
5.1.
Dần nhập..................................................................................................... 37
5.2.
Mô hình xác suất trên cây sinh loài.......................................................... 38
5.2.1.
5.2.2.
Mô hình bài toán cây sinh loài................................................................................... 38
Nhóm Abel và sự liên hệ với các ma trận chuyển đổi............................................... 39
5.3.
Biến đổi Fourier......................................................................................... 40
5.4.
Toạ độ Fourier........................................................................................... 42
5.5.
Áp dụng tìm bất biến trên một cây sinh loài............................................42
5.5.1.
5.5.2.
5.5.3.
5.5.4.
5.5.5.
5.6.
Mô hình bài toán........................................................................................................ 42
Các khả năng xảy ra trên các nút lá........................................................................... 43
Các lóp xác suất tương đương................................................................................... 43
Chuyển đổi Fourier.................................................................................................... 44
Ket quả tìm được.......................................................................................................45
Những tính chất của thành phần bất biến................................................ 46
Chương 6. GIẢI PHƯONG TRÌNH HỢP LÝ........................................................ 47
6.1.
Quỹ tích họp lý trên một đa tạp................................................................ 47
6.2.
Ma trận Jacobi của các đa thức bất biến.................................................. 47
6.2.1.
6.2.2.
6.2.3.
Gradient- Vector vận tốc........................................................................................... 47
Ma trận Jacobi của các đa thức bất biến.................................................................... 48
Không gian tiếp xúc.................................................................................................. 49
6.3.
Bài toán cực trị điều kiện........................................................................... 49
6.4.
Bậc của họp lý cực đại............................................................................... 50
Bùi Vãn Đồng
Trang 7
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Phụ lục 1. Tập các xác suất trình bày ở chương 5................................................................. 60
Phụ lục 2. Tập các dữ liệu kết quả thực hiện trình bày ở chương 6....................................62
Phụ lục 3. Trích một số SourceCodes chương trình viết trên Singular...............................64
Phụ lục 4. Một số kết quả chương trình trên cây sinh loài 4 taxa........................................68
Bùi Vãn Đồng
Trang 8
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Chương 1. GIỚI THIỆU ĐÈ TÀI
Chương này giới thiệu chung về bối cảnh, mục tiêu và kết quả thu được của đề
tài. Cấu trúc nội dung của quyển thuyết minh được trình bày ở cuối chương.
1.1.
Giới thiệu
Phát sinh sinh loài đó là tái tạo lịch sử tiến hóa dựa trên các phương pháp toán
học nhằm suy luận lịch sử tiến hóa sự sống trên hành tinh chúng ta. Việc tái cấu trúc
này liên quan đến việc nhận diện chỉ định những đặc tính đồng dạng (homologous
characters) được chia sẻ giữa các loài sinh vật khác nhau và suy luận cây phát sinh
sinh loài từ việc so sánh các đặc tính thông qua việc sử dụng các phương pháp tái cấu
trúc có độ tin cậy cao. Độ chính xác của quá trình suy luận vì thế phụ thuộc rất lớn vào
độ tin cậy của các mô hình dùng để đánh giá sự tiến hóa của các đặc tính này.
Trước đây việc tái tạo cây tiến hóa chủ yếu dựa trên phân tích hình thái và các
đặc tính siêu cấu trúc. Trong nửa cuối thập niên 1980 nguồn dữ liệu trình tự DNA gia
tăng cộng với sự phát triển ngành công nghệ thông tin, từ đó giúp nhà nghiên cứu có
được những công cụ mạnh mẽ và nhằm giải quyết vài bài toán phát sinh sinh loài đang
chưa có lời giải.
Trong việc suy luận phát sinh sinh loài có 2 bước cơ bản đó là:
- Chỉ định những đặc tính đồng dạng là những đặc tính chung truyền từ một tổ
tiên chung cho đến các thế hệ hiện tại.
- Tái cấu trúc cây tiến hóa bằng việc sử dụng các phương pháp thích họp.
Các dạng đặc tính có thể sử dụng là cấu trúc hình thái, siêu cấu trúc của tế bào,
gene, trình tự DNA và protein miễn rằng chúng thỏa điều kiện là Đồng dạng.
Có 3 nhóm phương pháp thường được dùng để tái cấu trúc cây phát sinh sinh
loài từ một ma trận đặc tính:
- Nhóm các phương pháp khoảng cách (Distance methods): Khoảng cách chính
là khoảng cách tiến hóa giữa các cặp đối tượng đang được so sánh.
- Nhóm phương pháp hà tiện đến mức tối đa (Maximum parsimony - MP):
phương pháp này sẽ chọn lựa cây tiến hóa thỏa điều kiện là số lượng đặc tính bị biến
đổi phải thấp nhất để giải thích những dữ liệu đã quan sát được.
- Nhóm phương pháp họp lý cực đại (Maximum Likelihood methods): nhóm
phương pháp này dựa trên một hàm toán học tính toán xác suất khả năng một cây tiến
hóa được tạo thành từ dữ liệu đã quan sát. Hàm này cho phép việc tích họp các quá
trình tiến hóa của đặc tính thành mô hình xác suất. Phương pháp họp lý cực đại chọn
lựa cây tiến hóa tối đa mà khi quan sát các dữ liệu dưới một mô hình nào đó có xác
xuất tối đa.
Trong các phương pháp giới thiệu ở trên thì phương pháp họp lý cực đại là
phương pháp là phức tạp nhất và cho kết quả đáng tin cậy nhất. Vì những lý do trên,
Bùi Vãn Đồng
Trang 9
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
trong dự án nghiên cứu này chúng tôi hướng vào kỹ thuật đại số tính toán cho vấn đề
ước lượng khả năng cực đại và áp dụng để tái cấu trúc cây sinh loài.
Xuất phát từ những thực tế trên, đề tài này đặt ra một số mục tiêu sau:
> Tìm hiểu mô hình xác suất thống kê trên cây sinh loài. Tìm hiểu phương pháp
họp lý cực đại và áp dụng trên cây sinh loài.
> Tìm những phương pháp toán học thích họp để giải bài toán ước lượng họp lý
cực đại.
> Giải quyết cho trường họp cây sinh loài 3 và 4 taxa.
> Tim kiếm kết quả tương tự cho trường họp 5 taxa.
> Hoàn thành một chương trình để kiểm nghiệm.
Sau đây là một số kết quả thu được của đề tài:
> Xây dựng được mô hình xác suất thống kê tổng quát trên cây sinh loài.
> Chỉ ra sự tương đồng của mô hình bài toán với một số cấu trúc đại số cơ bản, từ
đó tìm được thành phần bất biến trên cây sinh loài và giải bài toán.
> Xây dựng được một chương trình kiểm nghiệm.
> Chương trình đã giải quyết được bài toán MLE để tái cấu trúc cây sinh loài trên
một số cây sinh loài nhỏ 3 taxa và trường họp đặc biệt với cây 4 và 5 taxa.
1.2.
Cấu trúc luận văn
Nội dung luận văn được trình bày trong các chương sau:
CHƯƠNG 1: GIỚI THIỆU ĐÈ TÀI
Chương này giới thiệu chung về bối cảnh, mục tiêu và kết quả thu được của đề
tài. Cấu trúc nội dung của quyển thuyết minh được trình bày ở cuối chương.
CHƯƠNG 2: CÁC CẤU TRÚC ĐẠI SỐ cơ BẢN - cơ SỞ LÝ THUYẾT VỀ
XÁC SUẤT THỐNG KÊ
Chuông này giới thiệu các khái niệm cơ bản của toán học đại số và xác suất
thống kê được sử dụng vào các chương sau của đề tài. Các khái niệm về các cấu trúc
Bùi Vãn Đồng
Trang 10
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
CHƯƠNG 5: BẤT BIỂN TRÊN CÂY SINH LOÀI
Trong chưong này, giới thiệu tổng quát hóa mô hình xác suất thống kê trên sinh
loài. Chỉ ra cấu trúc nhóm Aben đối với các mô hình sử dụng để từ đó tìm thành phần
bất biến trên cây sinh loài.
Bùi Vãn Đồng
Trang 11
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Chương 2. cơ SỜ LÝ THUYẾT VÈ CÁC CẤU TRÚC ĐẠI
SỐ VÀ XÁC SUẤT THỐNG KÊ
Các khái niệm cơ bản của đại số được trình bày ở phần đầu của chương này.
Tiếp theo đó là phần giới thiệu về những khái niệm về xác suất thống kê trong đó có
phần khái quát về ước lượng hợp lý cực đại.
2.1.
Một số cấu trúc đại số cơ bàn
2.1.1. Lý thuyết nhóm
Đinh nghĩa 1: Một nhóm là một cặp (ơ,o) trong đó ơlà một tập họp không
rỗng và o là một luật họp thành trên G thỏa mãn 3 điều kiện sau:
(i)
Luật họp thành là kết hợp, tức là:
(x° y)° z = x°(y° z)
với mọi x,y,z e G.
(ii)
Có một phần tử e e G, được gọi là phần tử trung lập, có tính chất
xo e = e° x = X
với mọi xeG. Phần tử e còn được gọi là phần tử đơn vị của G.
(iii) Với mọi xeG, có một phần tử X’ G G , được gọi là nghịch đảo của X sao
Neu luật họp thành o đã rõ và không nhầm lẫn gì, người ta cũng nói G là một
Đinh nghĩa 2: Nhóm (ơ,°)được gọi 1 à giao hoán (hay Abet) nếu:
x° y = y°x
với mọi X, y E G.
Đỉnh nghĩa 3: Giả sử G và G là các nhóm (với luật họp thành viết theo lối
nhân). Một ánh xạ
G được gọi là một đồng cấu nhóm nếu:
ọ(xy) = ọ{x)
với mọi X, y E G.
Đinh nghĩa 4: Một đồng cấu nhóm đồng thời là một song ánh được gọi là một
đẳng cấu nhóm.
Đinh nghĩa 5: Hạt nhân và ảnh của đồng cấu nhóm (p\G —» ơ được định
nghĩa như sau:
Bùi Vãn Đồng
Trang 12
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Ker(p\={xeG\ (p{x) = e'} = (p *(e’)
Im (p\={ (p{x) :JÍGƠ} = (p{G)
trong đó e là đon vị trong G .
Đinh nghĩa 6: Giả sử G là một nhóm. Một tập con không rỗng cG được
gọi là một nhóm con của G nếu s khép kín đối với luật họp thành trong G (tức là
xỵ E với mọi X, y E ) và khép kín đối với phép lấy nghịch đảo trong G (tức là
s
s
s với mọi X E s).
s
2.1.2. Lý thuyết vành
Định nghĩa 7: Ta gọi là vành mỗi tập họp R ^ 0cùng với hai phép toán hai
ngôi, gồm phép cộng
+
:RxR
-^R
(x,y)\-^x + y
và phép nhân
• :RxR^> R
(x,y)\-^xy
thỏa mãn ba điều kiện sau đây:
(i)
R là một nhóm Abel đối với phép cộng.
(ii)
Phép nhân có tính kết họp.
(iii) Phép nhân phân phối về hai phía đối với phép cộng:
(x + y)z = xz + yz, z(x + y) = zx + zy
với mọi x,y,z eR.
Khi hai phép toán đều đã rõ, ta sẽ nói đơn giản: R là một vành.
Đinh nghĩa 8: Vành R được gọi là vành giao hoán nếu phép nhân của nó giao
s
Đinh nghĩa 9: Giả sử R là một vành. Tập con cz R được gọi là một vành con
của R nếu là một nhóm con của nhóm cộng R và khép kín đối với phép nhân, tức là
X, yeR kéo theo x y e S .
s
Đinh nghĩa 10:
(i)
Một iđêan trái của vành R là một vành con Ả phép nhân từ bên trái, tức là
ra E Ẩ , V r e R,\/a e A
(ii)
Một iđêan phải của vành R là một vành con Ả phép nhân từ bên phải, tức là
ar G Ả, Vr G R, \/a G A
Bùi Văn Đồng
Trang 13
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Định lí: Giả sử A là một iđêan của vành R, thì:
Lớp xy + A chỉ phụ thuộc vào các lóp X + A và y + A mà không phụ thuộc
vào sự lựa chọn của các phần tử X, y từ các lóp đó.
(ii)
XIA cùng với 2 phép toán
(i)
(x + A, y + Á) I—ỳ X + y + A
(x + A, y + Á) I—> xy + A
là một vành gọi là vành thương của R trên A.
Đinh nghĩa 11: Giả sử R là một vành (giao hoán và có đơn vị). Iđêan A của R
được gọi là nguyên tố nếu A^ R và với mọi x,y eR, từ chỗ xy e A suy ra hoặc
xe A hoặc y e A.
2.1.3.
Trường
Đinh nghĩa 12:
(i)
Vành có đơn vị R được gọi là một thể nếu 1 ^ 0 và mọi phần tử khác 0 trong
R đều khả nghịch, nói cách khác, nếu R \ {0} là một nhóm đối với phép
nhân.
(ii)
Mỗi thể giao hoán được gọi là một trường.
Chúng ta đã biết một số trường số quen thuộc như: Q, R, c.
2.1.4. Vành đa thức
Định nghĩa 13: Vành p được gọi là vành đa thức của ẩn X lấy hệ tử trong A,
hay vắn tắt vành đa thức của ẩn X trên A, và kí hiệu là A[x]. Các phần tử của vành đó
gọi là đa thức của ẩn X lấy hệ tử trong A. Trong một đa thức
Bùi Văn Đồng
Trang 14
a
n
a
n\ am2 Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
l
l
m2
m\
a
với acác
0, 1=1,....,m và
n 1 Cị*
^ (dj ì ,...,dj n ) khi j. Ta gọi bậc của
hạng tô CịX^' 1 là tổng các số mũ đối với ẩn Xịsố mũ a n +... + d ịn của các ẩn.
Bậc của đa thức (đối với toàn thể các ẩn) là số lớn nhất trong các bậc của các
hạng tử của nó. Đa thức 0 là đa thức không có bậc.
Nếu các hạng tử của f (x ỉ ,x 2 ,...,x n ) có cùng bậc k thì f(x ỉ ,x 2 ,...,x n ) gọi là
một đa thức thuần nhất cấp bậc k hay một dạng bậc k. Đặc biệt một dạng bậc nhất gọi
là dạng tuyến tỉnh, một dạng bậc 2 gọi là dạng toàn phưong, một dạng bậc 3 gọi là
dạng lập phưong.
2.1.5. Ma trận
Một ma trận A là một bảng có m X n phần tử lấy ở vành R, viết như sau:
a , a o ••• a
mỉ m2
mn
Các số dịj được viết thành m dòng và n cột, chúng mang hai chỉ số: chỉ số i nói
lên dòng và j nói lên cột mà cLịj được đặt trong bảng. Mỗi dịj được gọi là một thành
phần của ma trận. Một ma trận kiểu (m, n) là một ma trận có m dòng và n cột. Khi m =
n thì ta bảo ta có một ma trận vuông cấp n.
Ma trận chuyển vị của ma trận A được kí hiệu là A T được định nghĩa như sau:
‘11
21
22
hay ma trận A T là ma trận A nhưng chuyển dòng thành cột và cột thành dòng.
2.1.6.
Định thức
Giả sử A là một ma trận vuông cấp n (n > 1)
‘11
‘12
‘21 “22
n2
Định thức của ma trận A là gọi là det(A) hay I AI được định nghĩa như sau theo
cách triển khai theo dòng /:
Bùi Vãn Đồng
Trang 15
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
det(^l) = aìtAu + a a A a +
trong đó Aịị = (~\y +J Mịj với Mịj là định thức cấp n -1 suy ra từ A bằng cách bỏ dòng
thứ ỉ và cột thứ j. Aịj được gọi là phần bù đại số của dịj ta đi đến tính n định thức cấp
n-ì. Ma trận có một phần tử thì định thức bằng chính phần tử đó.
2.1.7.
Không gian vector
K là một trường, chủ yếu là Q, R, c, mà các phần tử kí hiệu là: X, //, V,...,
E là một tập họp mà các phần tử là X, y, z,...
Giả sử cho 2 phép toán:
Phép cộng:
ExE E
(x,y)\-^x + y
-
và
Phép nhân: Một phần tử của K với một phần tử E:
KxE->E
(X,x) h-> Ẫx
thỏa mãn các tính chất sau với mọi X, y eEvầ mọi X, jU eK:
(i)
E cùng với phép cộng là một nhóm Abel.
(ii) Phép nhân phân phối đối với phép cộng của trường K:
(X + ju)x = Xx + JLIX
(iii) Phép nhân phân phối đối với phép cộng của E:
Ă(x + y) = Ảx + Ảy
(iv) Phép nhân có tính kết họp:
X (jLix) = (Ã//)x
(v) \x = X, 1 là đơn vị của trường K.
Lúc đó ta bảo E cùng với hai phép toán: Cộng trong E và nhân đối với một phần
tử trong trường K, thỏa tính chất (i), (ii), (iii), (iv) và (v) là một không gian vector trẽn
trường K hay K - không gian vector (cũng gọi tắt là không gian vector khi không cần
chỉ rõ K). Các phần tử của E gọi là các vector; các phần tử của K gọi là vô hướng.
Phép toán + gọi là phép cộng vector, phép toán nhân với một phần tử của trường K
được gọi là phép nhân vector với vô hướng.
Độc lập tuyến tính và phụ thuộc tuyến tính
Giả sử jCj, x 2 , ..., x n (n > 1) là n vectơ của K - không gian vector E và
Bùi Vãn Đồng
Trang 16
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
còn được viết là: X = V ẰịXị e E và gọi là tồ hợp tuyến tính của các vectơ
i=l
..., xn với các hệ tử Ẳ ì , Ẫ 2 , ..., Ẳ n . Trong trường hợp K là một trường số, các
Ằị sẽ gọi là hệ số thay cho hệ tử.
Hệ n vectơ Xj, x2, x n (n> 1) trong K không gian vecto E gọi là độc lập
tuyến tính khi vectơ 0 chỉ có một biểu thị tuyến tính, đó là biểu thị tuyến tính tầm
thường, qua hệ vectơ đó. Vậy hệ Xj, x2, ..., xn (n > ì)độc lập tuyến tính khi và chỉ
khi
= 0 kéo theo Ẳ Ỉ =Ẫ 2 = ... = Ẫ n — 0
Ĩ=1
Hệ vectơ Xj, x2, ..., xn (n> 1)không độc lập tuyến tính thì gọi là phụ thuộc
tuyến tinh.
Hạng của một hệ hữu hạn vectơ
Giả sử I là một tập hữu hạn và 0 ^ J cz /. Giả sử cho hệ vectơ (x.) ieI trong Kkhông gian vector E. Hệ con (Xj)j G j gọi là một hệ con độc lập tuyến tinh tối đại của
hệ đã cho nếu nó là một hệ độc lập tuyến tính và nếu thêm bất cứ vector Xị(iel — J)
nào vào hệ con đó thì ta đều được một hệ phụ thuộc tuyến tính.
Cho hệ hữu hạn vector (xỉ)/e/ trong K- không gian vector E. Người ta chứng
minh được rằng số phần tử của mọi hệ con độc lập tuyến tính tối đại của nó bằng nhau
và gọi là hạng của hệ vector đã cho. Hạng của vecto (0) được coi bằng 0.
Hạng của ma trận
Ma trận A có m dòng và n cột với dụ E K. Hạng của A là hạng của hệ vector
cột và người ta chứng minh nó cũng bằng hạng của vectơ dòng và bằng cấp cao nhất
của các định thức con khác 0 của nó.
Neu A chứa một ma trận vuông cấp p có định thức khác 0, sao cho mọi ma trận
Bùi Vãn Đồng
Trang 17
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
2.1.8. Đa tạp đại số
Tập họp tất cả các điểm (Zj, z2, ..., z n ) trong không gian phức n chiều thỏa
mãn hệ phuơng trình dạng F i (z ỉ , z 2 , ..., z n ) = 0 (ỉ = 1,2,...,5) trong đó Fị là các đa
thức của các biến số Z j (j = 1
Neu các Fị đều là bậc nhất đối với tất cả các
Zj
thì ta có đa tạp tuyến tính. Neu
các hệ số của Fị là số hữu tỉ (thực, phức) thì ta có đa tạp đại số hữu tỉ (thực, phức).
2.2.
2.2.1.
Các khái niệm về xác suất thống kê
Định nghĩa về xác suất
1) Một số khái niệm
Trong xác suất thống kê, thực hiện một phép thử nghĩa là làm một thí nghiệm,
thực hiện một quan sát, thực hiện một công việc, một hành động nào đó.
- Phép thử mà ta không khẳng định đuợc một cách chắc chắn kết quả của nó
truớc khi thực hiện phép thử gọi là phép thử ngẫu nhiên.
- Các phép thử có thể xảy ra của phép thử gọi là các biến co.
- Các biến cố không thể phân tích đuợc nữa gọi là biến co sơ cấp.
- Biến co chắc chắn là biến cố nhất định xảy ra khi phép thử đuợc thực hiện. Ta
kí hiệu biến cố chắc chắn là Q.
- Biến co không thể là biến cố không thể xảy ra khi phép thử đuợc thực hiện. Ta
kí hiệu là ® .
- Biến cổ ngẫu nhiên là biến cố mà nó có thể xảy ra và cũng có thể không xảy ra
khi phép thử đuợc thực hiện, ta thuờng kí hiệu biến cố ngẫu nhiẽn bởi các chữ
cái in hoa: A,B,C,...
2) Quan hệ giữa các biến cố
- Tống của 2 biển co: Tổng của 2 biến cố A và B là một biến cố đuợc kí hiệu là
duB, sao cho biến cố tổng duBxảy ra khi và chỉ khi hoặc A xảy ra hoặc B
xảy ra.
Bùi Vãn Đồng
Trang 18
= x,)
í
•••*» ••••
x2 .
p2 .
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
2.2.3. Đại lượng
9 \ngẫur nhiên
ĩf Ị, và hàm 9phân phối
1) Định nghĩa: Mộtr đại lượng (hay một biến) nhận các giá trị của nó với xác suất
thay
tân lượng
suât —ngẫu
cũng nhiên
thay đôi
nhung
luônnhiên.
dao động quanh một sô
tương ứng Khi
nào nđấy
gọiđôi,
là đại
hay
biến nó
ngẫu
n
,
m nhiên:>Căn cứ vào giá trị mà
, biến ngẫu nhiên nhận
Phân loại các đại lượng ngẫu
cô định nào đó, n càng lớn thì — càng gân sô cô định đó. Sô cô định ây được gọi là
ta phân các đại lượng ngẫu nhiên ra làm 2 loại chính: biếnnngẫu nhiên rời rạc và biến
ngẫu nhiên
liêncủa
tục.biến
Tuycố
nhiên,
vớinghĩa
vấn đề
quankê.
tâm
củathực
đề tài,
chúng
ta lớn
chỉ ta
xétxấp
đếnxỉ P(A)
xác suất
A theo
thống
Trên
tế khi
n đủ
các biến ngẫu nhiên rời rạc.
bởi —.
n
P(A)
2) Biến ngẫu nhiên ròi rac, bàng phân phối xác suất
Neu tập các giá trị mà biến ngẫu nhiên nhận là một tập gồm một số hữu hạn
trong đó: YjPi=l.
Một số tính chất của xác suất
0 < P(A) <ỉ 1
Bảng với hai thông tinP(xác định
biến=ngẫu
nhiẽn ệ được gọi là bảng phân phoi
= 0,^(0)
!
xác 2.2.2.
suất. Xác suất có điều kiện
1) Đinh nghĩa: Xác suất có điều kiện của biến cố A với điều kiện biến cố B đã xảy
2.2.4. Các đặc trưng của đại lượng ngẫu nhiên
ra là một con số không âm, được kí hiệu p(A/ B), nó biểu thị khả năng xảy ra biến cố
1) Kỳ vọng: Kỳ vọng của đại lượng ngẫu nhiên ệ là một con số, được kí hiệu
A trong tình huống biến cố B đã xảy ra.
là EẸ và được xác định như sau:
r ệ = Ỵlxipí
i
trong đó P(ệ = X.) = Pị,\/i = 1,2,...
Ỷ nghĩa: Kỳ vọng của biến ngẫu nhiên là giá trị trung bình mà biến ngẫu nhiên
nhận hay là trọng tâm của phân phối xác suất.
P(A) = ỵP(B l )P(A/B i )
2) Phương sai: Phương sai của đại
i=1lượng ngẫu nhiên Ẹ là một con số không
âm, được kí hiệu là D<Ẹ và được xác định như sau:
Công thức trẽn được gọi là công thức xác suất đầy đủ. Và
Dệ = E{ệP(B k )P(A/B k ) .
.
P(B /A) =
------— k = l,2,-,n
Ỷ nghĩa: Phương sait của biến ngẫu nhiên là một số không âm dùng để đo mức
ỵPÍB^PiA/B,)
độ phân tán (mức độ tản mát) của các giá trị của biến ngẫui=l
nhiên ệ xung quanh tâm
EẸ củaCông
nó. DẸ
nhỏ
thì
độ
phân
tán
nhỏ,
độ
tập
trung
lớn.
Dệ
càng lớn thì độ phân
thức này được gọi là công thức Bayes.
tán càng cao.
Bùi Văn
Vãn Đồng
Trang 19
20
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
2.2.5.
Lý thuyết mẫu
1) Mầu ngẫu nhiên
Tiến hành n quan sát độc lập về biến ngẫu nhiên X nào đó. Ta gọi X là việc
quan sát lần thứ i về biến ngẫu nhiênX. Khi đó (X Ị ,X 2 ,...,X n ) đuợc gọi là mẫu ngẫu
nhiên, n gọi là cỡ mẫu (số lần quan sát). Nhu vậy mẫu ngẫu nhiên cỡ n thực chất là n
biến ngẫu nhiên độc lập, cùng phân phối nhu biến ngẫu nhiên X.
Ta gọi Xị là kết quả quan sát đuợc ở lần thứ ỉ. Khi đó (x ỉ ,x 2 ,...,x n ) lần giá trị
cụ thể ta quan sát được. Đó là giá trị cụ thể mà mẫu ngẫu nhiên (X ỉ ,X 2 ,...,X n ) nhận.
pự = Xi) = X = EX' =-ỶX l
n
»Í=1
Do (X lĩ X 2 ,... ĩ X n )ìầ các biến ngẫu nhiên độc lập cùng phân phối nhưXnẽn
kỳ vọng mẫu là một biến ngẫu nhiên. Do đó ta lại tìm kỳ vọng và phưong sai của X
Kỳ vọng mẫu
EX = -ỶEX.
«tí »
=n
i2 = DX' = -ỹ(X,. - X) 2 =-ỶX 2 X 2
- ỲEịịX,
= -.n.DX
Phương
sai mẫu
n
Bùi Vãn Đồng
-JU)-(X-//)> =-ỵE(X,
E(X
nn
Trang 21
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
2.2.6. ước lượng tham số
Giả sử ta nghiên cứu biến ngẫu nhiên X và biết đuợc phân phối X thuộc một họ
phân phối nào đó. Khi đó để xác định hoàn toàn phân phối của Xta phải xác định đuợc
các giá trị tham ẩn mà phân phối đó nhận.
Trong truờng họp ta chua biết đuợc gì về phân phối của X, khi đó việc biết
đuợc các số đặc trung của X cũng cho ta nhiều thông tin giá trị.
Do đó bài toán đi tìm các uớc luợng cho các tham ẩn của phân phối hoặc uớc
luợng cho các số đặc trung của biến ngẫu nhiên là bài toán rất cần thiết.
1) Ước lượng điểm
Giả sử 6 là tham ẩn cần uớc luợng. Với mẫu ngẫu nhiên (X l ,X 2 ,...,X n ), ta
không thể uớc luợng cho 6 dựa vào mẫu ngẫu nhiên trên.
Ta sẽ dùng một hàm nào đó của mẫu, tức là một hàm nào đó của n biến
X x ,X 2 ,...,X n để là uớc luợng cho 6 - Kí hiệu hàm đó là Ớ*(X Ị ,X 2 ,...,X n). Nhu vậy
,X 2 ,...,X n ) là một biến ngẫu nhiên vì X x ,X 2f ...,X n là các biến ngẫu nhiên độc
lập, cùng phân phối, ỡ* (X x ,X 2 ,...,X n ) là uớc luợng điểm vì với giá trị cụ thể của mẫu
thì ỡ*(X x ,X 2 ,...,X n ) nhận một giá trị cụ thể (một điểm) 6*(Xj,x 2 ,...,x n) .
2) Ước lương không chêch
Vì ỡ*(x x ,x 2 ,...,x n ) là một biến ngẫu nhiên nên ta không thể đòi hỏi
6*(x x ,x 2 ,...,x n ) đúng bằng giá trị 6 cần tìm đuợc. Lẽ tự nhiên ta đòi hỏi
E0\x x ,x 2 ,...,x n ) = 0
Ước luợng 0*(x x ,x 2 ,...,x n)thỏa mãn hệ thức trên gọi là uớc luợng không
chệch của 6.
Ta dùng X là uớc luợng điểm cho EX, s 2 là uớc luợng điểm cho DX.
Bùi Vãn Đồng
Trang 22
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
Giả sử (X ỉ ,X 2 ,...,X n ) là mẫu ngẫu nhiên cỡ n được rút ra tò ệ .Để cho gọn ta
kí hiệu mẫu ngẫu nhiên là vectơX Đối với mẫuXđã cho ta xác định hàm L X (G) (hàm
của tham ẩn ớ) như sau:
LÁO) = I\f{x lt 0)=I x„e)
1=1
7=1
L x (G) được gọi là hàm họp lý.
Ta lập phương trình họp lý
hoặc phương trình tương đương
dL x (0)_
de
(0)_
=
0
=0
Nghiệm của phương trình trên phụ thuộc vào mẫu ngẫu nhiên X, và ta cũng chỉ
xét những nghiệm như thế, được kí hiệu là G*(X). G*(X) được gọi là ước lượng họp
lý cực đại. Ước lượng họp lý cực đại có các tính chất của một ước lượng tốt.
Nếu G là tham số ẩn vectơ, chẳng hạn G = (G ỉ ,G 2 ,...,G r )khi đó phương trình
họp lý sẽ trở trở thành hệ phương trình:
í a i n L^d)
ÔL X (Ỡ)
J
de ị
=0 hoặc hệ tương đương = 0
/ = l,2,...,r
Vì L x (G)vầ \nL x (G)cỏ cùng điểm cực trị, mà hàm L x (0) lại biểu diễn dưới
n
dạng tích Y\ f(Xị,G), cho nên ta thay phương trình họp lý bởi dạng tương đương để
7=1
giảm nhẹ khâu tính toán: Lấy đạo hàm và giải phương trình.
Vỉ dụ 1: Giả sử X = (X x ,X 2 ,...,X n ) là mẫu ngẫu nhiên, trong đó
[1
với xác suấtp
[o với xác suất q - ì - p
Hãy chỉ ra họp lý cực đại chop (ở đây e = p )
Ta có: /(x, p) = P{ệ = x,p} = p x (1 - PỸ x với X = 0 hoặc X = 1
Khi đó
n
L
x(p)=Ylp{ỉ=xi’P}=YỈPXi(ì-pỉ~Xi) = Pi=ì Q--P)
7=1
7=1
n
Í=1
=pnỵ(ì-pỴ~nỵ
=> lnL x (p) = nXlnp + (n- nX)ln(l - p)
Bùi Vãn Đồng
Trang 23
l
2ơ
-2(Xi-p)2
/=1
Phương pháp đại số cho hài toán ước lượng hợp lý cực đại - Áp dụng trên cây sinh loài nhỏ
ỡlnL x (p) _nX n-nX _ n X - n p _ Q
p1
ôp
p(ì-p)
Vậy nghiệm của phương trình họp lý:
*_1»m”,,
p = X = — V Xị = — , vì m = V Xị chính là tống số lần Xị nhận giá trị 1 hay
n
/=1
tổng số lần biến cố Ả, với p = P(A) , xuất hiện.
Fi' dụ 2: Giả sử X = ( X ị , X2,...,Xw)là mẫu ngẫu nhiên rút ra từ phân phối
chuẩn N ( p , ơ 2 ) . Hãy chỉ ra ước lượng họp lý cực đại cho p và ơ 2, ở đây
0 = ( p , ơ 2 ) tham số ẩn hai chiều
1
--3U-/')2
f ( x , ỡ ) = p(x,ỡ) = r— e 2(7
ơyỊ2 n
Khi đó:
L x (p,ơ ) - J Ị r—
ị=\ ơV 271
lơ
ta^O.CT2) = ~ln2a--|lncr2 --V£(4 - À>:
ỵ(X-M)
i-1
(//,g- ) = g
ôp
-n+2J ỵ ( x i M ỷ =0
ơ
2
;=1
(a ) * = t £ ( X , . - X )22 2=
=0
v/zạn xáí: Qua 2 ví dụ trên chúng ta nhận lại được các ước lượng điểm đã nêu.
Chúng ta sẽ phân tích kỹ về ước lượng họp lý cực đại với mẫu quan sát ở chương sau.
Bùi Vãn Đồng
Trang 24