Tải bản đầy đủ (.pdf) (68 trang)

Nghiên cứu và xây dựng một số thuật toán quy hoạch thực nghiệm tối ưu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (631.88 KB, 68 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Nguyễn Quang Đạt

NGHIÊN CỨU VÀ XÂY DỰNG MỘT SỐ THUẬT TOÁN
QUY HOẠCH THỰC NGHIỆM TỐI ƯU

LUẬN VĂN THẠC SĨ TOÁN HỌC

Hà Nội – 2016


ĐẠI HỌC QUỐC GIA HÀ NỘI
ĐẠI HỌC KHOA HỌC TỰ NHIÊN

NGUYỄN QUANG ĐẠT

NGHIÊN CỨU VÀ XÂY DỰNG MỘT SỐ THUẬT TOÁN
QUY HOẠCH THỰC NGHIỆM TỐI ƯU

Chuyên ngành : Cơ sở toán cho tin học
Mã số

: 60460110

LUẬN VĂN THẠC SĨ TOÁN HỌC

Cán bộhướng dẫn khoa học: TS. Nguyễn Hải Vinh

Hà nội – 2016




TÀI LIỆU THAM KHẢO
I.

Tiếng Anh

1.1.

Dette, H. and Haines, L. (1994). “E-optimal designs for linear and
nonlinear models with two parameters”, “Biometrika”
Dette, H. and Studden, W. J. (1993). “Geometry of E-optimality”, “Ann.
Statist”,
Elfving, G. (1952), “Optimum allocation in linear regression theory”.
“Ann. Math. Statist”.
Holger Dett, Viatcheslav B. Melas, Andrey Pepelyshev (2004), “Optimal
Designs for a class of nonlinear regression models”, St. Petersburg State
University, Russia.
Imhof, L. A. and Studden, W. J. (2001). “E-optimal designs for rational
models”. “Ann.Statist.”
Viatcheslav B. Melas (2006), “Functional Approach to Optimal
Experimental Design”, Springer Science+Business Media, Inc., USA.

1.2.
1.3.
1.4.

1.5.
1.6.


II.

Tiếng Nga

2.1.

Ф е д о р о в В. В. (1971), “Теория оптимального эксперимента
(планирование регрессионных экспериментов)”,изд-ва «Наука»,
Москва.

III. Tiếng Việt
3.1.
3.2.

Lưu Lan Hương (1985), “Ứng dụng phép quy hoạch trong bố trí thí
nghiệm”, luận án tốt nghiệp đại học, ĐH Tổng hợp, Hà Nội.
Phan Phương Loan, Bùi Minh Tâm, Phạm Thanh Liêm (2013) “Nghiên
cứu một số chỉ tiêu sinh lý cá rô biển”, Khoa Nông nghiệp và Tài nguyên
Thiên nhiên, Trường Đại học An Giang.


Mục lục
Mở đầu

2

Chương 1: Quy hoạch thực nghiệm tối ưu
1.1 Tổng quan . . . . . . . . . . . . . . . .
1.2 Các yêu cầu chung về sự đánh giá . . .
1.3 Mô hình tuyến tính . . . . . . . . . . .

1.3.1 Ví dụ về mô hình tuyến tính: . .
1.4 Tiêu chuẩn tối ưu . . . . . . . . . . . .
1.4.1 Chuẩn D: . . . . . . . . . . . .
1.4.2 Chuẩn G: . . . . . . . . . . . .
1.4.3 Chuẩn MV: . . . . . . . . . . .
1.4.4 Chuẩn c: . . . . . . . . . . . . .
1.4.5 Chuẩn E : . . . . . . . . . . . .

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.

.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.

Chương 2: Lớp mô hình hồi quy phi tuyến.
2.1 Thuật toán tối ưu cho lớp hàm hồi quy phi tuyến . . . . .

2.2 Lớp mô hình hồi quy phi tuyến dạng phân thức . . . . . .
2.2.1 Đánh giá các kết quả đo đạc . . . . . . . . . . . .
2.2.2 Phân tích tiệm cận theo mô hình tối ưu chuẩn E và
chuẩn c . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Mô hình hồi quy phi tuyến dạng phân thức hữu tỷ
2.3 Một số mô hình hồi quy phi tuyến dạng phân thức . . . .
2.3.1 Mô hình 1: . . . . . . . . . . . . . . . . . . . . . .
2.3.2 Mô hình 2: . . . . . . . . . . . . . . . . . . . . . .
2.4 Lưu đồ mô hình thuật toán: . . . . . . . . . . . . . . . .
Chương 3: Bài toán thực tế
3.1 Bài toán 1 . . . . . . . . . . . . . . . .
3.1.1 Thí nghiệm ban đầu . . . . . . .
3.1.2 Mô hình hóa bài toán . . . . . .
3.1.3 Giải bài toán . . . . . . . . . . .
3.1.4 Tổ chức thêm thí nghiệm lần thứ
3.1.5 Mô hình hóa và giải lần thứ 2 .
3.2 Bài toán 2 . . . . . . . . . . . . . . . .
3.2.1 Thí nghiệm ban đầu . . . . . . .
3.2.2 Mô hình hóa bài toán . . . . . .
3.2.3 Giải bài toán . . . . . . . . . . .
3.2.4 Tổ chức thêm thí nghiệm lần thứ
3.2.5 Mô hình hóa và giải lần thứ 2 .

1

. .
. .
. .
. .
2:

. .
. .
. .
. .
. .
2:
. .

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.

.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.


.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.

.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.

.
.

4
4
7
9
16
18
18
18
19
19
20

21
. 21
. 25
. 25
.
.
.
.
.
.

30
35
41
41

48
50

.
.
.
.
.
.
.
.
.
.
.
.

51
51
52
53
54
56
56
58
59
60
61
63
63



MỞ ĐẦU
Trước đây, các nhà khoa học, trong khi nghiên cứu, thường làm rất nhiều
thí nghiệm. Họ tiếp tục đùng thống kê để phân tích các kết quả thu được.
Tới thời điểm hiện tại, khoa học kỹ thuật đã phát triển rất mạnh. Những
thí nghiệm cho các chuyên ngành đã trở nên cực kỳ lớn và phức tạp. Sự
phát triển ngày một đi lên của khoa học - công nghệ đã gây ra một sự
gia tăng rất cao của chi phí cho các thí nghiệm. Chúng ta lấy đơn cử một
ví dụ như việc phát triển của vật lý nguyên tử hiện nay đòi hỏi phải xây
dựng một loạt các máy gia tốc không lồ, trị giá nhiều tỷ đô-la.
Các nhà khoa học và các nhà nghiên cứu buộc phải xoay theo một hướng
khác trong khoa học thông kê. Quy hoạch thực nghiệm tối ưu ra đời nhằm
đáp ứng yêu cầu của họ. Quy hoạch thực nghiệm tối ưu đã tối ưu hóa việc
lập kế hoạch tiến hành các thí nghiệm, từ đó có thể thu được nhiều kết
quả có giá trị nhất với một số ít nhất các thí nghiệm..
Đối với vấn đề tối ưu hóa thí nghiệm, hiện nay, trong quy hoạch thực
nghiệm tối ưu có hai xu hướng chính: một là lập kế hoạch tốt nhất cho
các thí nghiệm để tối ưu hóa các kết quả đầu ra, và hai là xây dựng kế
hoạch thực nghiệm tối ưu cho các thí nghiệm xác định mô hình nghiên cứu.
Trong xu hướng thứ nhất, việc chúng ta cần làm là tính toán các điều
kiện thí nghiệm, sao cho chúng ta có thể tìm được điều kiện tốt nhất để
khi làm thí nghiệm thì ta thu được kết quả tốí ưu nhất, tức là một kết quả
thu được nào đó của thí nghiệm nhận được phải là tối ưu nhất có thể. Ta
lấy một ví dụ đơn giản trong trường hợp này. Trong ngành hóa học - công
nghệ hiện đại, chúng ta đặt ra yêu cầu là phải nhận được sản phẩm ở mức
lớn nhất. Một phép tính toán và quy hoạch ở đây là phải tìm ra nhiệt độ
thích hợp, áp xuất thích hợp, tỷ lệ phần trăm các thành phần nguyên liệu,
v.v...
Xu hướng thứ hai, trong một số trường hợp, chúng ta lại phải tìm hiểu
một khía cạnh khác của thí nghiệm. Ta cần phải xác định xem một yếu tố

nào đó sẽ có ảnh hưởng như thế nào đối với các kết quả mà chúng ta sẽ
thu được ở trong thí nghiệm của chúng ta. Và từ đó có thể tìm ra được cơ
chế của thí nghiệm này. Lấy lại ví dụ bên trên, chúng ta cần phải xác định
xem các yếu tố bên ngoài như nhiệt độ, áp suất, v.v... sẽ có tác động ra
sao đối với kết quả của chúng ta (ta cần thu được nhiều sản phẩm nhất).
Ở đây, nếu như chúng ta viết lại nó trong ngôn ngữ của toán học, thì ta
2


có thể thấy rằng ta cần phải xây dựng mô hình như sau: cần phải tìm ra
một phương trình xác định các mối quan hệ giữa các đại lượng ban đầu
(các chất phản ứng, các yếu tố nhiệt độ, áp suất, thời gian, v.v...) với các
đại lượng của kết quả (ở đây là khối lượng sản phẩm thu được). Và cuối
cùng, chúng ta phải đưa ra được một mô hình toán học của thí nghiệm này.
Trong luận văn thạc sỹ này, bài toán được đặt ra là: chúng ta đã có
trước kết quả của một số thí nghiệm. Nhưng những kết quả của các thí
nghiệm cho trước đó là không đủ để tính toán ra (chứng thực) lý thuyết
mới mà chúng ta cần. Chúng ta phải làm thêm một số thí nghiệm nữa bên
cạnh các thí nghiệm trước. Yêu cầu của bài toán ở đây là hãy xác định kế
hoạch cho việc thực hiện thí nghiệm mới một cách tốt nhất.
Mục tiêu của học viên là nghiên cứu về lý thuyết của quy hoạch thực
nghiệm tối ưu, cùng với đó là áp dụng các lý thuyết vào trong bài toán
thực tế:
1. Tổng quan và thực trạng hiện nay của quy hoạch thực nghiệm tối ưu.
2. Nghiên cứu, chứng minh lý thuyết. Đưa ra cách xây dựng thuật toán.
3. Áp dụng vào bài toán thực tế.
Luận văn bao gồm các mục:
Chương 1: Tổng quan về quy hoạch thực nghiệm tối ưu.
1.1. Lớp mô hình đơn giản: lớp tuyến tính.
Chương 2: Lớp mô hình quy hoạch thực nghiệm tối ưu phi tuyến:

2.1. Lớp mô hình hồi quy phi tuyến dạng phân thức.
2.2. Một số các mô hình lý thuyết.
Chương 3: Nghiên cứu trên mô hình thực tế:
3.1. Bài toán 1.
3.2. Bài toán 2.

3


1
CHƯƠNG I: QUY HOẠCH THỰC NGHIỆM TỐI ƯU
1.1

Tổng quan

Bây giờ, chúng ta sẽ xem xét các mô hình toán học của các vấn đề, thiết
kế các thông số toán học cho các hiện tượng và làm sáng tỏ chúng. Chúng
ta đầu tiên sẽ đưa ra các cách để toán học hóa các số liệu trên.
Thông thường, các kết quả thu được trong thí nghiệm thường được phụ
thuộc vào một hoặc vài yếu tố, mà ở đây, ta gọi chúng là "biến kiểm soát",
hay các "biến đầu vào" (ta sau đây sẽ hầu như chỉ sử dụng tên "biến đầu
vào" trong các mô hình). Các biến này thay đổi tùy theo các thí nghiệm
của chúng ta. Ví dụ bên trên cho thấy ta có thể thay đổi nhiệt độ, áp suất,
thời gian, phần trăm hóa chất ban đầu, v.v... Mỗi một yếu tố này, ta đại
diện chúng bằng một biến số, ta sẽ được một vector như sau:
 
x1
x2 
x =  .. 
.

xk
Ở đây, mỗi biến x1 , ..., xk là một biến tương ứng với một yêu tố đầu vào
(nhiệt độ, áp suất, v.v...).
Một không gian k chiều ở đây, trong đó có xác định vector x, ta có thể
gọi là một không gian các yếu tố ban đầu. Tập hợp các điểm trong không
gian này, nơi mà các phép đo có thể được thực hiện (có thể làm thí nghiệm
tại các điểm này) được gọi là "miền kiểm tra", hay là "miền giá trị đầu
vào". Trong tài liệu này, chúng ta gọi miền này là X . Việc xác định các
giới hạn trong X là một vấn đề quan trọng trong kế hoạch tối ưu hóa của
chúng ta. Một số trường hợp, các giá trị giới hạn này phụ thuộc vào tính
chất của các biến đầu vào. Với ví dụ hóa học trên, ta có thể thấy áp suất
không thể là số âm, hay thành phần phần trăm các nguyên liệu ban đầu
luôn nằm trong khoảng 0% tới 100%. Trong một số các trường hợp nhỏ
hơn nữa - thường xảy ra hơn - đó là chúng ta còn cần xem xét các giá trị
của biến đầu vào còn có các giới hạn khác nữa, ví dụ như nhiệt độ phụ
thuộc vào nguồn nhiệt thí nghiệm cung cấp, nên không thể cao hơn một
giá trị nào đó, v.v... Chúng ta thậm chí còn có thể phải đưa ra các giới
hạn nhiều hơn nữa.
Trong trường hợp này, chúng ta cần phải đưa ra được một mô hình toán
học (ví dụ là một dạng hàm số) phụ thuộc vào các biến đầu vào, để có thể
4


thực hiện được việc tối ưu hóa thí nghiệm như ta cần. Ta sẽ giả sử rằng,
mối quan hệ này được xác định bởi một hàm số như sau:

E(y/x) = η(x)
trong đó, E(y/x) là giá trị mà ta thu được sau khi hoàn thành thí nghiệm.
Vì giá trị thu được phụ thuộc vào các biến đầu vào nên ta để x ở đây, đại
diện cho việc y của x nào. Còn hàm số η(x) là một hàm phụ thuộc vào các

tham số chưa biết θ1 , θ1 , ..., θm . Và trong trường hợp tổng quát, ta cũng
không biết được dạng của hàm số η(x) này, và sự phụ thuộc của các tham
số θ1 , θ1 , ..., θm trong hàm này.
Trong các trường hợp để tìm hiểu các mô hình toán học tối ưu mà ta
cần, chúng ta cần thếm một số các thông tin khác nữa. Và ở đây, ta có thể
chia bài toán tìm mô hình tối ưu này ra thành ba cấp độ cơ bản theo độ
khó của chúng:
Cấp độ 1: hàm số η(x) = η(x, θ) là một hàm số đã được biết trước.
Chúng ta cần xác định các tham số chưa biết θ:
 
θ1
 θ2 
θ =  .. 
.
θm
Cấp độ 2: hàm số η(x) là hàm có dạng sau:

η (x, θ )


η1 (x, θ1 )
2
2
η(x) =
..

.


ηv (x, θv )

kích thước của các vector θ1 , ..., θv thậm chí có thể khác nhau. Và chúng ta
cần phải xử lý các dữ liệu để xác định các hàm η1 (x, θ1 ), η2 (x, θ2 ), . . . ηv (x, θv ).
Sau đó tìm các tham số θ1 , θ1 , ..., θv chưa biết.
Cấp độ 3: hàm số η(x) là hoàn toàn chưa biết. Trong giới hạn của đồ
án này, chúng ta sẽ không đi sâu vào nghiên cứu bài toán ở mức độ khó này.
Mặc dù, cách phân chia trên chỉ là một cách phân chia cơ bản nhất,
và trong trường hợp thực tế, các bạn có thể gặp phải các vấn đề có mức
độ nằm trung gian ở giữa hai cấp trên. Khi đó, giải quyết bài toán theo
trường hợp nào là hoàn toàn tùy thuộc vào hoàn cảnh bài toán.

5


Việc thiết kế các mô hình toán học cho trường hợp thứ nhất đã được
giải quyết trên cơ bản vào tầm năm 1955 - 1960. Hiện nay, chúng ta chỉ
còn xem xét và giải quyết các trường hợp đặc biệt gặp phải mà thôi.
Với cấp độ thứ hai, các phương pháp giải quyết đã được đưa ra bắt đầu
từ những năm 1970, cho tới nay vẫn còn có một số vấn đề cần tiếp tục giải
quyết. Nó cần tới các nhà khoa học chuyên ngành, để họ đưa ra các thông
số dữ liệu và từng các mô hình nhỏ bên trong một mô hình lớn hơn. Bài
toán này đưa ra yêu cầu về việc thiết lập các hàm nhỏ bên trong một cách
tối ưu nhất. Điều này gần giống như việc chúng ta phải làm việc với n bài
toán cấp độ một.
Còn vấn đề về độ khó ở cấp độ ba thì cho tới nay, chúng ta vẫn chưa thể
hoàn toàn giải quyết trên phương pháp (tức là đưa ra một phương pháp
tổng quát nào đó). Tuy nhiên, hiện giải pháp phổ biến được đưa ra là có
thể sử dụng tính xấp xỉ.

6



1.2

Các yêu cầu chung về sự đánh giá

Bây giờ, chúng ta sẽ nêu ra các yêu cầu của việc toán học hóa này.
Kết quả thu được của các phép đo là không giống nhau trong các lần
đo. Chúng có những sự sai biệt nhỏ nào đó, dù được đo tại cùng một địa
điểm và trong các điều kiện như nhau. Ở đây, kết quả thu được như sau:

E(y/x) = η(x, θ)

(1.1)

trong đó, y là kết quả của các phép đo thực tế tại điểm x, còn η(x, θ) là
một hàm số mà dạng của nó đã được biết trước. Các tham số
 
θ1
 θ2 
θ =  .. 
.
θm
là những tham số chưa biết.
Còn E thì tương ứng với giá trị trung bình.
Giả sử bây giờ ta phân tích các dữ liệu chưa biết của θ, hay là các
giá trị cần biết của η(x, θ) trong một miền xác định X 0 nào đó. Từ các
kết quả thu được - trong một số các trường hợp có thể là sử dụng một
phương pháp đơn giản là lấy trung bình yist để tránh bị làm trở ngại
trong các phép tính. Nói chung là ta sẽ không sử dụng ngay các giá trị
thực sự đo được ở đây cho việc tính toán này (tức là không dùng ngay θist ).

Ở đây, như đã nói ở trên, ta sẽ dùng một số tạm gọi là lý tưởng θ˜, là 1
con số khá gần với các giá trị đo được θist . Tức là nó cũng vẫn phụ thuộc
vào những kết quả ta đo đươc, chứ không phải là lấy ngẫu nhiên hoàn
toàn.
θ˜ = Ψ(y1 /x1 , ..., yn /xn )
với yi là giá trị thực tế đo được tại điểm xi . Khi đó giá trị θ˜ được gọi là
đánh giá tại xi (đánh giá tại điểm).
Các thực nghiệm nhằm tìm ra các thông số (các giá trị) chưa biết này
ta sẽ gọi chúng là hồi quy. Việc tính toán và xác định này được gọi là phân
tích hồi quy.
Để có thể có được đánh giá tốt nhất cho toàn bài toán đã được đặt ra
thì các giá trị trên cần phải được tính ra đầy đủ.

7


Bắt đầu từ đây, chúng ta sẽ sử dụng khái niệm "Không lệch", "Chính
xác" và "Hiệu quả".
Không lệch
lệch: đánh giá θ˜ được gọi là "không lệch" khi:

˜ = θist
E[θ]
Chính xác
xác: đánh giá θ˜ được gọi là chính xác nếu như giới hạn của nó
khi N tiến tới rất trùng (hoặc rất gần) với giá trị chính xác (hội tụ tới giá
trị chính xác).

lim P [(θ˜N − θist )T (θ˜N − θist ) ≥ ε] = 0


N →∞

trong đó N có nghĩa là số mà sau chừng đó phép đo, ta thu được θ˜. Còn
ε là số dương bất kỳ. Giá trị P [A ≥ ε] là xác xuất mà A ≥ ε.
Hiệu quả
quả: đánh giá θ˜ không lệch bên trên được gọi là hiệu quả khi mà
bất đẳng thức sau xảy ra:


˜ ≤D θ
D(θ)

˜˜ là ma trận
˜ là ma trận hiệp biến của đánh giá θ˜, còn D(θ)
trong đó D(θ)
˜
hiệp biến tại bất kỳ đánh giá θ˜ khác.
Đối với mỗi hàm số η(x, θ) và mỗi giá trị kết quả đo đạc được p(y/x),
ta sẽ có "giá trị tốt nhất" θ˜.
Sự phụ thuộc vào hàm số η(x, θ) và p(y/x) là không phù hợp trong thực
tế (không tiện lợi). Thậm chí là bất tiện trong từng tình huống đo đạc dữ
liệu tại một điểm. Do vậy sẽ là vẫn có thể chấp nhận được khi ta sử dụng
một con số chưa chắc chính xác (tạm hy sinh tính chính xác của số liệu)
để có thể xây dựng thuật toán tối ưu mà ta cần. Sau này khi có thuật toán
cơ bản, ta có thể quay lại với các số liệu thực tế.
Sau đây sẽ là phần phân tích thuật toán và lập hàm số, mà trong đó
chúng ta chỉ dựa vào những số không có trong thực tế, hay nói cách khác
là chúng ta tạm thời chưa dùng tới các giá trị η(x, θ) và p(y/x).
Việc không phụ thuộc vào p(y/x) là rất quan trọng. Bởi vì trong thực
tế, các giá trị thu được thường khá là không có quy tắc.


8


1.3

Mô hình tuyến tính

Giả sử rằng η(x, θ) là hàm số tuyến tính đối với các biến số. Khi đó:

E(y/x) = η(x, θ) = θT f (x)

(1.2)

trong đó:



f1 (x)
f (x) =  ... 
fm (x)
là một hàm số đã biết.
Chúng ta cũng giả định rằng các điểm x1 , x2 , ..., xn được đo độc lập với
nhau, cho ra các giá trị kết quả là y1 , ..., yn với bình phương phương sai là
σ12 , ..., σn2 .
Như vậy ta có thể thấy rằng các giá trị thực nghiệm có thể được biểu
diễn như sau:
θ˜ = T y
(1.3)
trong đó, y là vertor cột chứa các giá trị yi đo đạc được.

 
y1
y =  ... 
yn
Còn T là một ma trận m × n nào đó.
Bây giờ ta cần tìm giá trị (ước đoán) tốt nhất θˆ có thể, tức là gần nhất
với giá trị chính xác θist , được gọi là "chính xác nhất", "hợp lý nhất", với
phương sai là nhỏ nhất trong tập các giá trị ược lượng unbiasedness mà
chúng ta có thể tính ra. Giá trị θˆ đó được gọi là ước lượng tuyến tính tốt
nhất (vì các hàm chúng ta đang xét là các hàm tuyến tính).
Nhưng trước khi làm các tính toán, chúng ta hãy quay lại một chút với
các định lý đã biết của lý thuyết xác xuất.
Định lý 1.3.1
1.3.1: Một giá trị của u được gọi là giá trị kết hợp của v nếu:

u = Lv

(1.4)

Khi đó:
u) và E(vv ) cũng có thể như thế:
(1) Giá trị trung bình của E(u

u) = L E(u
u)
E(u
(2) Ma trận hiệp biến
9

(1.5)



u) = E[u
u − E(u
u)] × [u
u − E(u
u)]T
D (u

D (vv ) = E[vv − E(vv )] × [vv − E(vv )]T
được liên hệ với nhau bởi hệ thức:

u) = LD (vv )L T
D (u

(1.6)

Chứng minh của định lý trên khá dễ dàng, ta có thể tự làm một cách
nhanh chóng.
Định lý 1.3.2: giá trị tối ưu của thực nghiệm tối ưu tuyến tính (theo
công thức (1.2)) đối với biến số θ được tính là:

θˆ = M −1Y

(1.7)

trong đó ma trận M bằng:
n

ωi f (xi )f T (xi )


M=

(1.8)

i=1

Còn giá trị của Y được tính bởi công thức:
n

Y=

ωi yi f (xi )

(1.9)

i=1

và ω là nghịch đảo của bình phương phương sai

ωi = σi−2
Khi đó, ma trận hiệp biến tại θˆ sẽ bằng:

ˆ = M −1
D (θ)

(1.10)

Trong quá trình chứng minh ta nhận được:


ˆ = M−1Mθist = θist
E(θ)
θist được gọi là ít bị xê dịch
Ma trận:
n

M=

ωi f (xi )f T (xi ) =

i=1

n

M (xi )
i=1

10


được gọi là ma trận Fisher.
Với việc xây dựng công thức tính tối ưu hóa giá trị thực nghiệm bên
trên, ma trận thu được rất thường hay gặp được ở trong lý thuyết thực
nghiệm và cả trong thực nghiệm thực tế. Ta có thể đánh dấu nó thành
dạng "quan trọng" trong các ma trận mà ta sử dụng.
Hệ quả 1.3.3.1: Ma trận thông tin Fisher thỏa mãn tính chất trên là
hoàn toàn xác định, và có thể tìm ra được:
Quả thực như vậy, ta có:
n


ωi f (xi )f T (xi ) = F F T

M=
i=1

Ta dễ thấy rằng, mỗi ma trận thỏa mãn hệ thức dạng AAT đều là ma
trận tồn tại (xác định).
Khi đánh giá tham số θ, là một giá trị dạng vector, thì nói chung, giá trị
thực nghiệm chính xác θ có thể đặc trưng cho tất cả các phần giá trị của ma
trận hiệp biến D (θˆ). Vì thế cho nên tất cả các giá trị thực nghiệm đối với
ˆ,
θ không những có thể dùng đối chiếu với các phần tử đường chéo Dαα (θ)
mà chúng ta có thể làm với những nâng cao của nó ở các phương pháp khác.
Ở đây, chúng ta được đưa tới hai phương pháp khác khá phổ biến để
đối chiếu với giá trị thực nghiệm.

˜ nếu như:
1. Giá trị thực nghiệm θ˜ tốt hơn so với giá trị thực nghiệm θ˜
˜
D (θ˜) = D (θ˜) + d
ở đây d là một ma trận dương xác định nào đó, hoặc có thể viết ở dạng
bất đẳng thức:
˜
D (θ˜) > D (θ˜)
Định nghĩa: "ma trận dương" ở trên là ma trận có tất cả các phần tử
không âm, đồng thời trong đó có ít nhất một phần tử dương.

˜
2. Giá trị thực nghiệm θ˜ tốt hơn so với giá trị thực nghiệm θ˜ nếu như:
˜˜ > |D (θ)|

˜
|D (θ)|
˜ được gọi là giá trị thực nghiệm hiệp biến suy rộng của θ˜.
Định thức |D (θ)|
11


Từ đinh lý (1.3.2)
(1.3.2), ta có thể trực tiếp suy ra rằng, giá trị thực nghiệm
tuyến tính tối ưu tính trên sẽ đúng với từ "tốt nhất", và về cả hai chuẩn E
và c đã cho. Một cách chặt chẽ hơn thì trong thực nghiệm đã chứng minh
rằng nó hoàn toàn đúng.
Ở trên ta nói về "hai chuẩn" E và c. Định nghĩa hai chuẩn này ta sẽ
trình bày tại phần 1.4
Hệ quả 1.3.3.2: Giá trị tuyến tính tối ưu là ma trận hiệp biến nhỏ nhất
có thể giữa những giá trị tuyến tính ít lệch chuẩn θ˜. Hay là:

ˆ
D (θ)

˜
D (θ)

Nói cách khác, giá trị tuyến tính tối ưu là hiệu quả nhất trong các lớp giá
trị tuyến tính ít lệch chuẩn.
Hệ quả 1.3.3.3: Định thức của ma trận hiệp biến của giá trị tuyến tính
tối ưu (1.7) là nhỏ nhất trong mọi giá trị tuyến tính ít lệch chuẩn.

ˆ < |D (θ)|
˜

|D (θ)|

(1.11)

Kết quả (1.11) được suy ra trực tiếp từ công thức (??). Điều này cũng chỉ
ra thêm hai hệ quả có ích nữa từ định lý (1.3.2)
Hệ quả 1.3.3.4: với một tổ hợp tuyến tính tùy ý t = C θ, ta gọi ˆt = C θˆ
là giá trị tuyến tính tối ưu nhất. Khi đó, ma trận giá trị thực nghiệm hiệp
biến ˆt tương đương với D (ˆt ) = CD (ˆt )C T .
Nếu như ta vẫn gọi ˜t là một giá trị tuyến tính ít lệch chuẩn bất kỳ đối
với tham số t, còn ˆt là giá trị tuyến tính tối ưu (cũng đối với tham số t) thì:

ˆ
1. D αα (θ)
ˆ
2. D (θ)

˜
D αα (θ)
˜
D (θ)

ˆ < |D (θ)|
˜
3. |D (θ)|
Chứng minh của hệ quả (1.3.3.4) này có thể hoàn toàn dễ dàng làm được
dựa vào định lý (1.3.1) và công thức (??). Thật vậy, áp dụng công thức
tính (1.6) cho cả 2 vế của công thức (??). Sau đó ta sử dụng định lý (1.3.2)
cùng với hai hệ quả (1.3.3.2) và (1.3.3.3)
(1.3.3.3), ta sẽ thu được những gì ta cần

chứng minh.

12


Trong một số trường hợp, các giá trị của ˆt có thể tính được, trong khi
mà ma trận thông tin ˆt = C θˆ là đặc biệt, không tầm thường và không thể
tính được.
Tồn tại một số phương pháp để có thể tính được các giá trị này và các
ma trận hiệp biến. Trong rất nhiều những bài toán thực tế, giá trị lớn nhất
thích hợp là sự mở rộng của công thức bên trên.
Cho M là một ma trận dương đã xác định nào đó. Khi đó:

t = lim C[M + αM]−1Y
α→0

D (ˆt ) = limC [M + αM ]−1C T
α→0

(1.12a)
(1.12b)

Hoàn toàn có thể kiểm tra lại rằng, giới hạn tương ứng không phụ thuộc
vào sự lựa chọn M .
Hệ quả 1.3.3.5: giá trị tuyến tính tối ưu, giá trị là đáp án cho η(x, θ) đối
với những điểm khảo sát (đo đạc) tùy ý x, sẽ được tính bằng công thức:

ηˆ(x, θ) = θf T (x)
Sự phân tán (phương sai) của ηˆ(x, θ) thì sẽ được tính bằng công thức:


ˆ (x)
d(x) = f T (x)D(θ)f
Hệ quả (1.3.3.5)
(1.3.3.5), theo thực chất, nó là phần đặc biệt của hệ quả (1.3.3.4)
với C = f T (x).
1

Từ đây trở về sau, chúng ta gọi hàm số d 2 (x) này là các Corridor errors.
Thực sự dễ dàng để có thể thấy, thực nghiệm thực tế tại bất kỳ điểm xi
nào cũng dẫn tới một vài các kết quả không phụ thuộc nhau yi1 , yi2 , ..., yiri
với phương sai (thực ra chúng ta dùng bình phương phương sai) σi−2 .
Thực ra thì với những giá trị đo đạc thực tế, những giá trị dùng cho
việc xây dựng giá trị tuyến tính tối ưu, chúng ta không cần thiết phải giữ
lại toàn bộ các giá trị thực nghiệm thu được yiri (với i=1..n). Chúng ta
chỉ cần có giá trị trung bình:

yi =

1
ri

ri

yir
r=1

Điều đó có thể trình bày và chứng minh cho khẳng định sau.

13



Hệ quả 1.3.3.6: nếu như tại một điểm xi (với i=1,...,n) chúng ta đo đạc
được các giá trị yi1 , yi2 , ..., yiri thì khi đó công thức tính giá trị tối ưu dành
cho θ là:
θˆ = M −1Y
trong đó ma trận M là không đặc biệt và bằng:
n

ωi f (xi )f T (xi )

M=

(1.13)

i=1

Còn giá trị của Y được tính bởi công thức:
n

Y=

ωi yi f (xi )
i=1

và công thức của ωi được tính theo:

ωi = ri σi−2 =

ri
σi−2


Quả thực, công thức (1.8) và (1.9) ở trong trường hợp này có thể viết theo
công thức:
n ri

M=

σi−2 f (xi )f T (xi )

i=1r=1

và khi đó thì ta có thể viết lại nó thành:
n

M=

ri σi−2 f (xi )f T (xi ) =

i=1

n

ωi f (xi )f T (xi )

i=1

Tương tự, Y cũng có như vậy:
n ri

Y=


σi−2 yir f (xi ) =

i=1r=1

n

ri σi−2

i=1

ri

ri−1 yir f (xi ) =

r=1

n

ωi yi f (xi )
i=1

So sánh biểu thức trên với biểu thức (1.13) ta sẽ thu được điều cần chứng
minh.
Công thức (1.13) đặc biệt hữu ích khi sử dụng đối với các bộ rất lớn các kết
quả thí nghiệm đo đạc, tránh khỏi những đầu vào cần thiết lớn cho máy
tính điện tử, tránh lãng phí bộ nhớ. Nói chung là rất tốt cho ngành tin học.
Bây giờ chúng ta sẽ xem xét tới một tính chất rất quan trọng của giá
trị tuyến tính tối ưu.


14


Định lý 1.3.3.4: Giá trị tuyến tính tối ưu θˆ là giá trị nhỏ nhất của trọng
số của phương sai.
n

ωi yi − f T (xi )θ

S (θ) =
i=1

15

2

(1.14)


1.3.1

Ví dụ về mô hình tuyến tính:

Đầu tiên, ta sẽ xem xét mô hình tuyến tính đơn giản như sau:

E(y/x) = θ1 + θ2 x
và khi tiến hành đo đạc thì kết quả đo lường ở các điểm x1 = −1, x2 = 0
và x3 = +1 có phương sai bằng σ12 = 8, σ22 = 68 và σ32 = 8.
Chúng ta xem xét và đánh giá đối với hai tham số θ1 và θ2 .
Khi đó, theo các định lý và bổ đề bên trên thì ta sẽ có:


1
f (x) = x

và ωi =

1
(với i = 1, 2, 3)
σi2

Và ta sẽ tính được ma trận hiệp biến như sau:
−1

3

ˆ =
D(θ)

ωi fi (xi )fiT (xi )
i=1
3

1
=
σ2
i=1 i

−1

1 1 x

i)
xi (

1 1 −1
6 1 0
1 1 1
=
+
+
8 −1 1
8 0 0
8 1 1
1 0
= 0 1
4

−1

−1

1 0
= 0 4
Như vậy, ta có thể chọn được mô hình tối ưu θˆ.
Chúng ta cũng có thể đánh giá hai giá trị θ1 và θ2 để nhận được θ˜ tại
điểm cực tiểu của dạng toàn phương theo công thức sau:
3

yi − (θ1 + θ2 x)

S(θ) =


2

i=1

Chúng ta cũng sẽ tính được ước lượng θ˜ của θ1 và θ2 dựa theo công thức
sau:
θ˜ = Ty
16


với giá trị của T được lấy:
T=

1
3

1
3

− 21 0

1
3
1
3

Dễ thấy ngay rằng, giá trị θ˜ bên trên là một giá trị không lệch. Thực
vậy, ta có:
F = (f (x1 ) f (x2 ) f (x3 ))

1 1 1
= −1 0 1
và khi đó, ta có:
1
3

T

TF =

1
3

− 12 0

1
3
1
3

1 −1
· 1 0
1 1

1 0 0
0 1 0
0 0 1

=
= I3


thỏa mãn điều kiện về tính không lệch.
Khi đó, ta có thể tính được ma trận hiệp biến D như sau:

˜ = TD(yy )TT =
D(θ)
=
=

1
3

1
3

− 12 0

1
3
1
2


1
1

8 0 0
3
2
· 0 86 0 ·  13 0 

1
1
0 0 8
3

2

52
27

0
0 4

˜ > D(θ)
ˆ.
Dễ dàng để có thể thấy được, D(θ)
Thay các giá trị của θˆ và θ˜ vào phương trình ban đầu của ta thì ta nhận
được hai phương trình sau:

d1 (x) = 1 + 4x2
52
d2 (x) =
+ 4x2
27

ứng với θˆ
ứng với θ˜

Với x bất kỳ, ta đều có:


d1 (x) < d2 (x)
17


1.4

Tiêu chuẩn tối ưu

Chúng tôi gọi mô hình ξ là không duy nhất nếu detM(ξ ) = 0. Một
mô hình như vậy tồn tại bởi giả định (e). Bây giờ, chúng ta sẽ chỉ xem xét
các trường hợp mà trong đó có thể ước lượng toàn bộ các thông số Θ1 , ...,
Θm . Ở đây, mô hình ở dạng không đặc biệt sẽ được chúng ta được xem xét.
Các phiên bản của định lý Gauss-Markov có giá trị đối với chúng.
Thông thường, không có mô hình ξˆ như vậy, và các ma trận:

ˆ − M −1 (ξ)
M −1 (ξ)

(1.15)

là không được xác định một cách rõ ràng, trong đó ξ là một mô hình tùy
ý. Vì vậy, một số hàm số của ma trận thông tin, những hàm số có ý nghĩa
thống kê tốt, được sử dụng làm các tiêu chuẩn tối ưu.
Bây giờ, chúng ta sẽ xem xét một số những tiêu chuẩn hay được sử dụng.

1.4.1

Chuẩn D:

Chuẩn D được cho trong công thức sau:

detM (ξ) → sup

(1.16)

ξ∈Ξ

(ở đây, các cực trị được lấy từ tất cả các mô hình gần đúng).
Nếu sai số được phân bố một cách bình thường thì tiêu chí này ứng
với việc yêu cầu giảm thiểu thể tích của "confidence ellipsoid" với một
confidence level xác định tùy ý nào đó đối với ước lượng.
Định nghĩa: Confidence ellipsoid có dạng:

˜
{θ;

ˆ T M −1 (θ˜ − θ)
ˆ
(θ˜ − θ)

c}

(1.17)

trong đó c là một hằng số (chỉ phụ thuộc vào confidence level ).
1.4.2

Chuẩn G:

Cho d(x, ξ) = f T (x)M −1 (ξ)f (x). Khi đó tối ưu chuẩn G được định
nghĩa bởi công thức:

maxd(x, ξ) → inf
(1.18)
x∈X

ξ

Chú ý rằng với định chuẩn của mô hình rời rạc ξ :
18


d(x, ξ) =

σ2
NV

(θˆT f (x))

với d(x, ξ) là bằng (tới độ chính xác không đổi nào đó) của phương sai
của một giá trị, được dự đoán bởi mô hình tại điểm x. Mô hình tối ưu
chuẩn G có nghĩa là giá trị nhỏ nhất trong những số lớn nhất (minimax),
hay là sự giảm thiểu ở mức tối đa các dự đoán sai.
1.4.3

Chuẩn MV:

Được định nghĩa trong công thức:
trM −1 (ξ) → inf

(1.19)


ξ

Chuẩn MV được dùng để giảm thiểu tổng của các phương sai của mức
ˆ.
tối thiểu của ước lượng Θ
1.4.4

Chuẩn c:

Chúng ta định nghĩa một giá trị sau:

Φc (ξ) =

T

1 c M (ξ)c



if c ∈ M (ξ)
overwise

(1.20)

trong đó c là một vector cho trước (đã biết), còn M − là một nghịch đảo
tổng quát của ma trận M , còn ký hiệu c ∈ M có nghĩa là c là một kết hợp
tuyến tính của các hàng của ma trận M .
Định nghĩa: ma trận nghịch đảo dạng tổng quát (hay suy rộng) của một
ma trận A được định nghĩa là một ma trận thỏa mãn công thức:


A = AA− AA
và khi đó nếu một hệ phương trình Ax = y có một nghiệm x
ˆ thì nghiệm

này sẽ có dạng x
ˆ = A y.
Một mô hình mà ở đó nó giảm thiểu giá trị của Φc (ξ) được gọi là mô
hình chuẩn c.
Ý nghĩa thống kê của tiêu chí này là việc giảm thiểu các sai số của ước
lượng tuyến tính tối ưu "không chệch" cho một sự tổ hợp tuyến tính đối
với các mô hình tham số τ = cT θ.

19


1.4.5

Chuẩn E:

Chuẩn E được xem xét với công thức:

λmin (M (ξ)) → sup
ξ

trong đó λmin (M ) là giá trị riêng nhỏ nhất của ma trận M = M (ξ).
Tối ưu theo chuẩn E là sự làm giảm thiểu nhất những giá trị tối đa
(maximum) của các trục của ellipsoid (1.17). Tiêu chí này được giới thiệu
trong sách của Ehrenf eld (năm 1955).
Chú ý rằng bởi vì:
T

λmin (M ) = min
c
Mc
T
c c=1

nên chuẩn E đảm bảo tìm ra giá trị nhỏ nhất trong những giá trị lớn nhất
của tổ hợp tuyến tính cT θ dưới giới hạn cT c = 1

20


2
CHƯƠNG II: LỚP MÔ HÌNH HỒI QUY PHI TUYẾN
2.1

Thuật toán tối ưu cho lớp hàm hồi quy phi tuyến

Đối với một lớp rộng các mô hình hồi quy phi tuyến, chúng ta sẽ xem xét
các mô hình tối ưu dạng chuẩn E và chuẩn c. Nó được chứng minh rằng
trong nhiều trường hợp, các mô hình tối ưu theo các tiêu chuẩn được tìm
thấy tại các điểm Chebyshev, là những điểm mà cực trị địa phương của
phương án xấp xỉ tốt nhất có được trong các lân cận xung quang ứng với
các hàm f0 ≡ 0 bởi một kết hợp tuyến tính chuẩn hóa của hàm hồi quy
trong mô hình tuyến tính tương ứng. Các lớp của mô hình bao gồm các
hàm hợp lý, các hàm logistic, các mô hình hàm mũ và các mô hình hàm
hồi quy hợp lý sẽ được giải quyết một cách rõ ràng trong nhiều trường hợp.
Mô hình hồi quy tuyến tính được sử dụng rộng rãi trong thực tế. Nó có
thể được dùng để mô tả sự phụ thuộc của một phản ứng đối với một biến
nào đó (xem các thí dụ trong Seber and Wild (1989) hoặc trong Ratkowsky

(1990)). Một sự lựa chọn thích hợp đối với các điều kiện thử nghiệm có thể
nâng cao thêm đáng kể chất lượng của các số liệu mà ta thu được. Và do
đó có rất nhiều những nhà khoa học đã tiến hành nghiên cứu, thảo luận,
giải quyết các vấn đề về việc tìm ra các mô hình thí nghiệm tối ưu nhất cho
các thí nghiệm, nhất là các thí nghiệm đối với mô hình hồi quy phi tuyến
tính. Ở đây chúng ta xem xét tới các nghiên cứu của Chernoff (1953) và
Melas (1978) trước (tham khảo các công trình của các tác giả này trước).
Sau đó, chúng ta có thể xem xét tiếp tới các công trình của Ford, Torsney
and Wu (1992), He, Studden and Sun (1996) và Dette, Haines and Imhof
(1999) để có thể có thêm các đánh giá mới nhất về các mô hình tối ưu địa
phương (cục bộ). Bởi vì các kết quả thu được từ một mô hình tối ưu địa
phương có sự phụ thuộc rất nhiều vào dự đoán ban đầu đối với các tham số
chưa biết, vì thế cho nên cấc tác giả của các công trình đã đề xuất một vài
những mô hình thay thế chấp nhận được. Bayesuan hay các mô hình tối ưu
thực tế đã được nghiên cứu bởi Pronzato and Walter (1985) và Chaloner
and Lanrtz (1989), hay Chaloner and Verdinelli (1995), hoặc nhiều những
công trình khác nữa. Các tác giả khác còn đề xuất các phương pháp như
phương pháp tuần tự, trong đó cập nhật thường xuyên các thông tin về
các tham số chưa biết (có thể xem các ví dụ trong Ford and Silvet (1980)
hay Wu (1985)). Hầu hết các tài liệu và các công trình nghiên cứu toán
học tập trung vào mô hình tối ưu chuẩn D (họ thường là có các cách tiếp
cận vấn đề và cách giải quyết vấn đề khác nhau), trong đó họ tối đa hóa
21


các yếu tố quyết định của ma trận thông tin Fisher cho các tham số trong
mô hình. Tuy nhiên thì cũng vẫn có ít nhiều sự chú ý tới các mô hình hồi
quy tuyến tính tối ưu chuẩn E trong lớp các mô hình hồi quy tuyến tính,
trong đó họ cố gắng nhiều nhất có thể để làm tối thiểu giá trị riêng của
ma trận thông tin Fisher (xem Dette and Haines (1994) hoặc Dette and

Wong (1999) với việc xử lý một số các trường hợp với các mô hình 2 tham
số). Bởi vì mô hình tối ưu địa phương là cơ sở cho tất cả các mô hình khao
học tiên tiến, vì vậy trong bài viết này, chúng ta sẽ nghiên cứu để thiết kế
nên một mô hình tối ưu địa phương chuẩn E cho một lớp các mô hình hồi
quy phi tuyến, được viết trong công thức sau:
s

Y =

k

ai hi (t) +
i=1

as+i ψ(t, bi ) + ε

(2.1)

i=1

Ở đây, ψ là một hàm số đã biết, còn các biến t là biến số biến thiên trong
khoảng I ⊂ R. ε là một sai số ngẫu nhiên với giá trị trung bình bằng 0 và
phương sai không đổi, còn các giá trị a1 , ..., as+k , b1 , ..., bk ∈ R là các tham
số chưa biết của mô hình.
Việc xem xét các loại mô hình gần đây đã được thúc đẩy trong công
trình nghiên cứu của Imhof and Studden (2001), họ đã quan tâm tới mô
hình hữu tỷ trong công thức:
s

Y =


k

ai t

i−1

+

i=1

as+i

t

b
i
i=1

(2.2)

trong đó t ∈ I, bi = bj (i = j) và biến bi ∈
/ I được cho là đã biết với mọi
i = 1, ..., k . Lưu ý rằng trong mô hình trên là một mô hình tuyến tính vì 2
tác giả trên (của nghiên cứu trên) giả định rằng các giá trị b đã được biết.
Những mô hình kiểu này rất phổ biến, được nhiều người biết tới vì chúng
có tính xấp xỉ khá tốt (xem Petrushev and Popov (1987), phần "một số
tính chất lý thuyết" và Dudzinski and Mykytowycz (1961), hoặc Ratkowsky
(1983), trang 120 có cho một số ứng dụng của mô hình này). Trong luận
văn này, chúng ta làm ngược lại so với Imhof và Studden (năm 2001), ta

coi không coi rằng các tham số b1 , ..., bk trong mô hình (2.1) là các tham
số đã biết, mà ta coi chúng là các tham số chưa biết, mà chúng chỉ có thể
được ước lượng ra từ các dữ liệu đã có trước đó. Hơn nữa, mô hình (2.1)
mà chúng ta xem xét ở đây bao gồm nhiều hàm hồi quy khác nữa.
Ví dụ trong thống kê môi trường, hoặc thống kê sinh thái, mô hình hàm
mũ với công thức a1 eb1 t + a2 eb2 t thường được sử dụng trong các thí nghiệm
22


×