Tải bản đầy đủ (.pdf) (51 trang)

Gradient suy rộng và ứng dụng vào bài toán tối ưu không trơn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (383.21 KB, 51 trang )

..

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC KHOA HỌC

ĐẶNG HIẾU TRỌNG

GRADIENT SUY RỘNG VÀ ỨNG DỤNG VÀO BÀI TỐN
TỐI ƯU KHƠNG TRƠN

LUẬN VĂN THẠC SỸ TOÁN HỌC

THÁI NGUYÊN - NĂM 2010

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC KHOA HỌC

ĐẶNG HIẾU TRỌNG

GRADIENT SUY RỘNG VÀ ỨNG DỤNG VÀO BÀI TỐN
TỐI ƯU KHƠNG TRƠN

LUẬN VĂN THẠC SỸ TOÁN HỌC

Chuyên ngành: TOÁN ỨNG DỤNG
Mã số: 60.46.36



Người hướng dẫn khoa học:
GS. TS. TRẦN VŨ THIỆU

THÁI NGUYÊN - NĂM 2010

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




i

Mục lục
Mở đầu

1

1 Gradient suy rộng
1.1 Định nghĩa và ký hiệu . . . . . . . . . . . . . . . . . . .
1.2 Một số tính chất cơ bản của gradient suy rộng . . . . . .

3
3
8

2 Một số phương pháp giải bài tốn tối ưu khơng trơn
2.1 Nội dung bài toán . . . . . . . . . . . . . . . . . . . . . .
2.2 Điều kiện tối ưu . . . . . . . . . . . . . . . . . . . . . . .
2.3 Một số phương pháp giải bài tốn tối ưu khơng trơn . . .

2.3.1 Phương pháp dưới gradient . . . . . . . . . . . .
2.3.2 Phương pháp siêu phẳng cắt . . . . . . . . . . . .
2.3.3 Phương pháp bó . . . . . . . . . . . . . . . . . .
2.3.4 Phương pháp miền tin cậy đối với hàm hợp không
trơn . . . . . . . . . . . . . . . . . . . . . . . . .
2.3.5 Phương pháp Newton không trơn . . . . . . . . .
Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Tài liệu tham khảo . . . . . . . . . . . . . . . . . . . . . . .

11
11
14
18
18
25
27

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên



30
38
46
47


ii

Lời cảm ơn

Bản luận văn này được hoàn thành tại trường Đại học Khoa Học Đại học Thái Nguyên dưới sự hướng dẫn trực tiếp của GS.TS. Trần Vũ
Thiệu Viện toán học - Viện KHCN Việt Nam. Tác giả xin bày tỏ lịng
kính trọng và biết ơn sâu sắc tới Thầy về sự hướng dẫn tận tình trong
suốt thời gian tác giả làm luận văn.
Tác giả xin bày tỏ lòng biết ơn tới các Thầy Cơ ở Viện tốn học - Viện
KHCN Việt Nam, Viện công nghệ thông tin, Khoa cơng nghệ thơng tin,
Khoa tốn và Phịng đào tạo sau đại học trường Đại học Khoa Học Đại học Thái Nguyên đã tận tình giảng dạy và tạo mọi điều kiện thuận
lợi cho tác giả trong quá trình học tập tại trường.
Tác giả xin gửi lời cảm ơn tới Ban giám đốc trung tâm Giáo dục
thường xuyên Hưng Hà - Thái Bình và các Thầy Cơ trong trung tâm đã
tạo điều kiện giúp đỡ tác giả trong suốt thời gian học.
Xin chân thành cảm ơn anh chị em học viên lớp cao học và các bạn
bè đồng nghiệp về những đóng góp q báu, sự giúp đỡ tận tình và sự
cổ vũ hết sức to lớn trong suốt quá trình học tập, nghiên cứu và làm
luận văn.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




1

Mở đầu
Hàm không trơn được hiểu là những hàm không khả vi. Vì thế những
hàm này cịn được gọi là những hàm khơng khả vi.
Bài tốn quy hoạch phi tuyến
min{f (x) : gi (x) = 0, i = 1, ..., p, gi (x) ≤ 0, i = p + 1, ..., m}
được gọi là bài tốn tối ưu khơng trơn nếu hàm mục tiêu f (x) hay một
trong các hàm ràng buộc gi (x) là một hàm không trơn.

Như chúng ta đã biết với bài toán tối ưu trơn, do các hàm khả vi có
rất nhiều tính chất đẹp, do đó các phương pháp giải đối với bài tốn
này đã được xây dựng và phát triển khá hoàn thiện. Nhưng với bài tốn
tối ưu khơng trơn thì việc xây dựng các phương pháp giải gặp rất nhiều
khó khăn, ngay cả những bài tốn trong R1 việc giải cũng khơng đơn
giản. Tuy nhiên, bài tốn tối ưu khơng trơn có tính ứng dụng thực tiễn
rất cao. Vì vậy, xây dựng phương pháp giải cho bài tốn tối ưu khơng
trơn thu hút rất nhiều người làm tốn quan tâm. Chính vì lẽ đó mà tác
giả đã chọn đề tài "Gradient suy rộng và ứng dụng vào bài tốn tối ưu
khơng trơn".
Mục đích của luận văn này là trình bày những kiến thức ban đầu về
tối ưu không trơn, đề cập tới điều kiên tối ưu không trơn và giới thiệu
một số phương pháp bằng số giải bài tốn tối ưu khơng trơn.
Luận văn được chia làm hai chương.
Chương 1: Gradient suy rộng
Trong chương này, tác giả trình bày một số khái niệm về hàm Lipschitz,
đạo hàm theo hướng, đạo hàm theo hướng Dini trên, đạo hàm suy rộng

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




2

theo hướng và các tính chất, khái niệm vi phân suy rộng, gradient suy
rộng. Các tính chất cơ bản của gradient suy rộng, mối liên hệ giữa vi
phân suy rộng và dưới vi phân.
Chương 2: Một số phương pháp giải tốn tối ưu khơng trơn.
Trong chương này, tác giả trình bày một số ví dụ về bài tốn tối ưu

khơng trơn và những khó khăn gặp phải khi giải bài toán này. Xây dựng
điều kiện cần và đủ tối ưu cho bài tốn tối ưu khơng trơn dựa trên tập
vi phân suy rộng. Trình bày một số phương pháp giải bài tốn như:
phương pháp dưới gradient, phương pháp bó, phương pháp siêu phẳng
cắt, phương pháp miền tin cậy đối với hàm hợp không trơn, phương
pháp Newton.
Bản luận văn này được hồn thành dưới sự hướng dẫn tận tình của
GS.TS Trần Vũ Thiệu. Tác giả hi vọng rằng một phần kiến thức nhỏ
của luận văn sẽ là tài liệu tham khảo cho các bạn sinh viên, những người
quan tâm yêu thích đề tài này.
Mặc dù tác giả đã cố gắng hết sức nhưng kết quả đạt được trong luận
văn còn rất khiêm tốn, trong quá trình viết luận văn cũng như xử lý
văn bản chắc chắn không tránh khỏi những sai sót nhất định, tác giả rất
mong nhận được những ý kiến đóng góp q báu của các Thầy Cơ và
các bạn bè đồng nghiệp để luận văn được hoàn thiện hơn.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




3

Chương 1
Gradient suy rộng
1.1

Định nghĩa và ký hiệu

Trước hết, chương này trình bày một số khái niệm và tính chất cơ

bản của gradient suy rộng đối với các hàm không trơn.
Định nghĩa 1.1. Cho X là một không gian Banach với chuẩn . được
xác định trên X. Giả sử Y là một tập con của X. Một hàm f : Y → R
được gọi là Lipschitz trên Y nếu f (x) thỏa mãn điều kiện
|f (x) − f (y)| ≤ K

x − y , ∀x, y ∈ Y ⊆ X.

(1.1)

Bất đẳng thức (1.1) gọi là điều kiện Lipschitz và K được gọi là hằng
số Lipschitz.
Ký hiệu B(x, ε) = {y| x − y ≤ ε} là hình cầu suy rộng tâm x bán
kính ε > 0.
Hàm f gọi là Lipschitz ở gần x nếu f thỏa mãn điều kiện Lipschitz
trên hình cầu B(x, ε) với một số ε > 0 nào đó.
Định nghĩa 1.2. Đạo hàm của hàm f theo phương d tại x ký hiệu là
f (x, d) và được định nghĩa là giới hạn
f (x, d) = lim
t↓0

f (x + td) − f (x)
t

nếu giới hạn này tồn tại.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





4

Có thể thấy một hàm có tính Lipschitz ở gần một điểm khơng nhất
thiết khả vi tại điểm đó và có thể khơng có đạo hàm theo hướng theo
nghĩa cổ điển vừa nêu.
Định nghĩa 1.3. Đạo hàm theo hướng Dini trên của f tại x theo hướng
d, ký hiệu là f (D) (x, d) được định nghĩa là giới hạn
f (D) (x, d) = lim sup
t↓0

f (x + td) − f (x)
t

nếu giới hạn này tồn tại.
Định nghĩa 1.4. Cho f là hàm Lipschitz ở gần x và d là một vecto bất
kì trong X. Đạo hàm suy rộng theo hướng của f tại x theo hướng d, ký
hiệu là f 0 (x, d) được định nghĩa là giới hạn
sup
f 0 (x, d) = lim
y→x
t↓0

f (y + td) − f (y)
t

trong đó y là vecto thuộc X và t là một số dương và t ↓ 0 được hiểu là t
đơn điệu giảm tới 0.
Vì đạo hàm suy rộng theo hướng do Clarke nêu ra nên đạo hàm
f 0 (x, d) còn được gọi là đạo hàm theo hướng Clarke.

Nhận xét 1.1. i) Nếu f (x) là một hàm Lipschitz địa phương thì đạo
hàm theo hướng có thể khơng tồn tại nhưng đạo hàm theo hướng Dini và
đạo hàm theo hướng Clarke ln tồn tại và ta có hệ thức
f (D) (x, d) ≤ f 0 (x, d), ∀x và d.
ii) Nếu f (x) là một hàm Lipschitz địa phương và tồn tại f (x, d) thì
f (x, d) = f (D) (x, d).
Nếu f (x, d) tồn tại tại x với mọi hướng d thì f gọi là khả vi theo
hướng tại x.
Nếu f khả vi theo hướng tại x và f (x, d) = f 0 (x, d) thì f gọi là chính
quy tại x.
Hàm f được gọi là hàm chính quy nếu nó chính quy khắp mọi nơi.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




5

Bổ đề 1.1. Nếu f (x) là hàm Lipschitz ở gần x thì
i) Hàm d → f 0 (x, d) là hàm thuần nhất dương, dưới cộng tính và thỏa
mãn điều kiện
|f 0 (x, d)| ≤ K d .
ii) f 0 (x, d) là hàm Lipschitz trên X theo d.
iii) f 0 (x, d) là nửa liên tục trên theo (x, d).
iv) f 0 (x, −d) = (−f )0 (x, d).
Chứng minh. i) Thật vậy, với λ > 0 ta có
f (y + λtd) − f (y)
t
t↓0

f (y + λtd) − f (y)
= λ lim
sup
y→x
λt
t↓0
f (y + ηd) − f (y)
sup
= λ lim
y→x
η
η↓0

f 0 (x, λd) = lim
sup
y→x

= λf 0 (x, d).
Vậy f 0 (x, d) là hàm thuần nhất dương.
Theo định nghĩa ta có
f (y + t(d1 + d2 )) − f (y)
t
t↓0
f (y + td1 + td2 ) − f (y + td2 )
≤ lim
sup
y→x
t
t↓0
f (y + td2 ) − f (y)

+ lim
sup
y→x
t
t↓0

f 0 (x, d1 + d2 ) = lim
sup
y→x

≤ f 0 (x, d1 ) + f 0 (x, d2 ).
Vậy f 0 (x, d) là dưới cộng tính.
f (y + td) − f (y)
t
t↓0
K y + td − y
≤ lim
t↓0
t
=K d

f 0 (x, d) = lim
sup
y→x

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





6

Suy ra |f 0 (x, d)| ≤ K d .
ii) Với d1 , d2 ∈ X, từ điều kiện Lipschitz ta thấy
f (y + td1 ) − f (y) ≤ f (y + td2 ) − f (y) + Kt

d1 − d2

.

(1.2)

Chia hai vế của (1.2) cho t > 0 ta được
f (y + td1 ) − f (y) f (y + td2 ) − f (y) + Kt

t
t

d1 − d2

.

Chuyển qua giới hạn hai vế ta nhận được
f 0 (x, d1 ) ≤ f 0 (x, d2 ) + K

d1 − d2

f 0 (x, d2 ) ≤ f 0 (x, d1 ) + K

d1 − d2


.

(1.3)

Tương tự, ta có
(1.4)

từ (1.3) và (1.4) suy ra
|f 0 (x, d1 ) − f 0 (x, d2 )| ≤ K

d1 − d2

.

Vậy, f 0 (x, d) là hàm Lipschitz với d.
iii) Giả sử {xk } và {dk } là các dãy thỏa mãn xk → x và dk → d, với mỗi
k tồn tại yk ∈ X và tk > 0 sao cho
yk − xk

1
+tk < .
k

Ta có
f 0 (xk , dk ) −

1
f (yk + tk dk ) − f (yk )


k
tk
f (yk + tk dk ) − f (yk + tk d) f (yk + tk d) − f (yk )

+
.
tk
tk

Suy ra
lim supf 0 (xk , dk ) ≤ f 0 (x, d).

k→∞

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




7

Vậy f 0 (x, d) là nửa liên tục trên.
iv) Ta có
f (y − td) − f (y)
t
t↓0
(−f )(u + td) − (−f )(u)
= lim
sup
u→x

t
t↓0

f 0 (x, −d) = lim
sup
y→x

= (−f )0 (x, d).

Bổ đề trên cho thấy f 0 (x, d) là một hàm thuần nhất dương và dưới
cộng tính, vì thế theo định lý Han-Banach sẽ tồn tại phiếm hàm tuyến
tính ξ : X → R sao cho f 0 (x, d) ≥ ξ, d với ∀d ∈ X và ξ bị chặn. Do đó
ξ thuộc khơng gian liên hợp X ∗ các phiếm hàm tuyến tính liên tục trên
X mà để cho tiện ta dùng các ký hiệu ξ, d hay d, ξ thay cho ký hiệu
ξ(d). Ta nêu ra định nghĩa sau:
Định nghĩa 1.5. Cho f (x) Lipschitz gần x, vi phân suy rộng (hay vi
phân Clarke) của f tại x là tập
∂f (x) = {ξ ∈ X ∗ |f 0 (x, d) ≥ ξ, d , ∀d ∈ X}
trong đó X ∗ là khơng gian liên hợp của X, ξ gọi là gradient suy rộng
của f tại x.
Chuẩn ξ ∗ trong không gian liên hợp X ∗ được định nghĩa là
ξ

∗=

sup{ ξ, d : d ∈ X, d ≤ 1.

Ví dụ 1.1. Để làm ví dụ, ta tính vi phân suy rộng của hàm giá trị tuyệt
đối trong trường hợp X = R. Xét hàm f (x) = |x|.
Hiển nhiên f (x) là Lipschitz.

Với mọi x > 0, ta có
f 0 (x, d) = lim
sup
y→x
t↓0

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

y + td − y
=d
t




8

từ đó,
∂f (x) = {ξ|d ≥ ξd, ∀d ∈ R} = {1}
Tương tự, với x < 0 ta có
∂f (x) = {−1}.
Với x = 0 ta có


d
0
f (0, d) =
−d

nếu d ≥ 0

nếu d < 0,

nghĩa là f 0 (x, d) = |d|. Vậy ∂f (0) gồm những ξ thỏa mãn |d| ≥ ξd, nghĩa
là ∂f (x) = [−1; 1]. Vì thế ta kết luận



{1}
khi x > 0


∂f (x) = {−1}
khi x < 0



[−1; 1] khi x = 0
Ta nhắc lại khái niệm quan trọng sau đây về hàm tựa.
Hàm tựa của tập Ω = ∅ của X là hàm
σΩ (ξ) : X ∗ → R ∪ {+∞}
được xác định theo công thức
σΩ (ξ) := sup{ ξ, x }.
x∈Ω

Từ định nghĩa 1.5 suy ra f 0 (x, .) là hàm tựa của ∂f (x).

1.2

Một số tính chất cơ bản của gradient suy rộng


Tính chất của gradient suy rộng và vi phân suy rộng được nêu trong
các bổ đề sau đây.
Bổ đề 1.2. Cho f (x) Lipschitz gần x. Khi đó,
i) ∂f (x) = ∅, là một tập lồi, compact yếu∗ của X ∗ và

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

ξ

∗≤

K với




9

∀ξ ∈ ∂f (x).
ii) Với mọi d ∈ X ta có
f 0 (x, d) = max { ξ, d }.
ξ∈∂f (x)

Chứng minh. i) Suy ra trực tiếp từ các nhận xét trước đây và từ bổ đề
1.1.
ii) Là cách diễn đạt khác của sự kiện nói rằng ∂f (x) theo định nghĩa là
tập lồi đóng yếu∗ và có hàm tựa là f 0 (x, d). Để chứng minh sự kiện này
một cách độc lập ta giả sử f 0 (x, d) > max { ξ, d } với một d nào đó
ξ∈∂f (x)
0


(f (x, d) khơng thể nhỏ hơn theo định nghĩa của dưới vi phân ∂f (x)).
Theo định lý Hahn-Banach tồn tại phiếm hàm tuyến tính ξ khơng vượt
q f 0 (x, .) và ξ(d) = f 0 (x, d) tại d. Suy ra ξ ∈ ∂f (x), nghĩa là có
f 0 (x, d) > ξ(d) = f 0 (x, d) và ta gặp mâu thuẫn. Vậy ta có điều phải
chứng minh.
Để ý rằng nếu f là hàm lồi thì các khái niệm đạo hàm suy rộng theo
hướng và gradient suy rộng trùng với khái niệm đạo hàm theo hướng và
dưới gradient đã được định nghĩa trong giải tích lồi.
Bổ đề 1.3. Nếu f (x) là hàm lồi và Lipschitz gần x thì vi phân suy
rộng ∂f (x) trùng với dưới vi phân tại x và đạo hàm suy rộng theo hướng
f 0 (x, d) trùng với đạo hàm theo hướng f (x, d) với mỗi d.
Chứng minh. Theo giải tích lồi thì f (x, d) tồn tại với mỗi d và f (x, d) là
hàm tựa của dưới vi phân tại x. Do đó, ta chỉ cần chứng minh f 0 (x, d) =
f (x, d). Ta có
f 0 (x, d) = lim

f (x + td) − f (x )
t
<εδ 0
sup

ε↓0 x −x

sup

trong đó δ > 0 là một số cho trước tùy ý. Do f (x) là hàm lồi nên hàm
g(t) =


f (x + td) − f (x )
t

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




10

khơng giảm. Vì thế
f 0 (x, d) = lim

f (x + td) − f (x )
.
ε
<εδ

sup

ε↓0 x −x

Do f (x) là hàm Lipschitz nên với bất kỳ x thuộc x + B(0, εδ) ta có
f (x + εd) − f (x ) f (x + εd) − f (x)
≤ 2δK,

ε
ε
do đó
f (x + εd) − f (x)

+ 2δK
ε↓0
ε
= f (x, d) + 2δK.

f 0 (x, d) ≤ lim

Do δ được chọn tùy ý nên f 0 (x, d) ≤ f (x, d). Vậy, f 0 (x, d) = f (x, d).
Bổ đề 1.4. Nếu f (x) Lipschitz gần x thì ξ ∈ ∂f (x) khi và chỉ khi
f 0 (x, d) ≥ ξ, d với mọi d ∈ X.
Ngoài ra, ∂f (x) có các tính chất sau
i)
∂f (x) =
∂f (y),
δ>0 y∈x+B(0,δ)

trong đó B(0, δ) = {x| x ≤ δ, ∀x ∈ X}. Nếu X hữu hạn chiều thì ∂f
nửa liên tục trên.
ii) Nếu fi (i = 1, 2, ..., m) là một số hữu hạn các hàm Lipschitz gần x thì
m

fi cũng Lipschitz gần x và
i=1
m

m

fi (x) ⊂



i=1

∂fi (x)
i=1

iii) Nếu f (x) = g(h(x)) và h(x) = (h1 (x), ..., hn (x))T với mỗi hi (x) là
Lipschitz gần x và g(x) là Lipschitz gần h(x) thì f (x) là Lipschitz gần
x và
n

αi ξi : ξi ∈ ∂hi (x), α ∈ ∂g(h)

∂f (x) ⊂ CO

h

= h(x)

i=1

trong đó CO là bao lồi compact yếu∗ .

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




11

Chương 2

Một số phương pháp giải bài tốn
tối ưu khơng trơn
2.1

Nội dung bài tốn

Xét bài tốn tối ưu khơng ràng buộc
min f (x)
x∈X

(2.1)

trong đó f (x) là một hàm khơng khả vi xác định trong không gian
Banach X và thỏa mãn điều kiện Lipschitz. Với bài tốn (2.1) có hai
khó khăn chính trong việc tìm nghiệm.
Thứ nhất, khơng thể dễ dàng đưa ra được tiêu chuẩn dừng quá trình
tìm nghiệm. Với bài tốn tối ưu trơn thì với x đủ gần điểm cực tiểu x∗
thì ∇f (x) rất nhỏ. Vì vậy,
∇f (x) ≤ ε

(2.2)

thường được sử dụng làm tiêu chuẩn dừng. Tuy nhiên, với hàm khơng
trơn thì khơng có kết quả tương tự.
Ví dụ 2.1. Xét bài tốn tối ưu đơn giản với hàm
f : R1 → R1 và f (x) = |x|.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





12

Khi đó, nếu x khơng phải là nghiệm cực tiểu của bài tốn thì f (x) khả
vi và ta có
|∂f (x)| = |∇f (x)| = 1.
Do đó, trong trường hợp này ta không thể dùng (2.2) làm tiêu chuẩn
dừng.
Thứ hai, nếu f (x) không khả vi mà ta sử dụng phương pháp hướng
giảm nhanh nhất với thủ tục tìm chính xác theo tia để giải (2.1) có thể
nhận được dãy {xk } hội tụ về điểm khơng dừng.
Ví dụ 2.2. Xét hàm f : R2 → R, x = (u, v)T và
1
1
f (x) = max[ u2 + (v − 1)2 ; u2 + (v − 1)2 ]
2
2
Giả sử dãy {xk } có dạng
2(1 + |εk |)
εk

xk =
trong đó εk = 0. Ta có,
∇f (xk ) =

2(1 + |εk |)
2(1 + |εk |)tk

= 2(1 + |εk |)


1
,
tk

trong đó tk = sign(εk ). Nếu ta sử dụng hướng đối gradient −∇f (xk ) ta
nhận được
xk+1 = xk + αk (−∇f (xk ))


|ε|
2(1 + )
 = 2(1 − |εk+1 |)
3
=
εk
εk+1

3
−εk
= 0. Ta giả sử rằng εk → 0. Khi đó, với điểm ban đầu
3
cho trước (2 + |δ|; δ)T , δ = 0, bằng phương pháp hướng giảm nhanh nhất
với thủ tục tìm chính xác theo tia dãy {xk } hội tụ về (2, 0)T . Nhưng rõ
ràng điểm (2, 0)T không phải là điểm dừng.
Bài tốn tối ưu có ràng buộc có dạng
với εk+1 =

min f (x)
x∈Y


Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

(2.3)




13

trong đó Y ⊆ X là một tập hay miền chấp nhận được. Ta định nghĩa
khoảng cách từ điểm x đến Y là
dist(x, Y ) = min
y∈Y

y−x

.

Theo lý thuyết hàm phạt, với những giả thiết thích hợp bài tốn (2.3)
tương đương với bài toán
min f (x) + σdist(x, Y )

(2.4)

x∈X

trong đó f (x) + σdist(x, Y ) là hàm khơng khả vi. Như vậy, bài tốn tối
ưu có ràng buộc khơng trơn được đưa về bài tốn tương đương khơng
ràng buộc khơng trơn. Điều này giải thích tại sao người ta lại hay quan

tâm nghiên cứu các bài toán tối ưu khơng ràng buộc khơng trơn cụ thể
là bài tốn (2.1).
Có nhiều ví dụ về bài tốn tối ưu khơng trơn chẳng hạn bài toán
minimax: min max fi (x.)
x∈X 1≤i≤m

Hơn nữa, để giải hệ phương trình phi tuyến
fi (x) = 0, i = 1, ..., m
ta thường tìm nghiệm của bài toán cực tiểu
min f (x) = min
x∈X

x∈X

f (x)

(2.5)

với chuẩn nào đó, trong đó f (x) = f (x) , f (x) = (f1 (x), ..., fm (x)) là
một hàm vecto từ X vào Rn . Rõ ràng bài toán (2.5) là bài tốn tối ưu
khơng trơn. Nói riêng, nếu . = . 1 thì đó là bài tốn tối ưu với
chuẩn L1 . Nếu . = . ∞ thì đó là bài tốn xấp xỉ Chebyshew.
Ví dụ 2.3 (Bài toán đối ngẫu). Xét bài toán



min f (x)





s.t. g (x) ≤ 0; i = 1, ..., m.
i
(P )


hj (x) = 0; j = 1, ..., p.





x ∈ C,

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




14

trong đó f, gi , i = 1, ..., m; hj , j = 1, ..., p là các hàm liên tục từ Rn → R
và C là tập con đóng của Rn .
Với bài tốn này, ta xây dựng hàm Lagrange

p
m

 L(x, λ, µ) = f (x) +
µj hj (x),

λi gi (x) +
j=1

i=1


 x ∈ C; λ ≥ 0; µ ∈ Rp .
Các vecto λ và µ gọi là nhân tử Lagrange suy rộng của bài toán (P ).
Nhờ có hàm này, ta có thể viết bài tốn (P ) dưới một dạng khác. Trước
hết chú ý rằng
∀x ∈ C, ∀(λ, µ), λ ≥ 0, inf L(x, λ, µ) ≤ L(x, λ, µ).
x∈C

Do đó, khi ta lấy supremum với (λ, µ), λ ≥ 0 và sau đó lấy infimum với
x ∈ C ta thu được các kết quả.
∀x ∈ C, sup inf L(x, λ, µ) ≤ sup L(x, λ, µ)
λ≥0 x∈C

λ≥0,µ


sup inf L(x, λ, µ) ≤ inf sup L(x, λ, µ).

λ≥0,µ x∈C

x∈C λ≥0,µ

Khi đó ta có
p


m

sup L(x, λ, µ) = sup f (x) +
λ≥0,µ

λ≥0,µ

λi gi (x) +
i=1

µj hj (x)
j=1


f (x) nếu g (x) ≤ 0, ∀i và h (x) = 0, ∀j
i
j
=
+∞ trong các trường hợp khác.

2.2

Điều kiện tối ưu

Mục này đề cập tới điều kiện tối ưu đối với cực tiểu của hàm Lipschitz.
Cho X là một không gian Banach với chuẩn . được định nghĩa
trên X. Xét hàm f : X → R.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





15

Định nghĩa 2.1. i) Ta nói x∗ ∈ X là điểm cực tiểu (cực tiểu chặt) của
f trên X nếu f (x∗ ) ≤ f (x), ∀x ∈ X (f (x∗ ) < f (x), ∀x ∈ X, x = x∗ ).
ii) x∗ ∈ X được gọi là điểm cực tiểu địa phương của f trên x nếu tồn tại
một lân cận U chứa x∗ để các bất đẳng thức trên thỏa mãn ∀x ∈ U ∩ X.
Bài tốn tìm cực đại của một hàm trên tập đã cho được phát biểu
một cách tương tự nhưng để ý
min f (x) = − max(−f (x))
x∈X

x∈X

Từ bổ đề 1.4. trực tiếp suy ra điều kiện cần cấp 1 sau đây.
Định lí 2.1. Nếu f (x) đạt cực tiểu (hay cực đại) địa phương tại x∗ và
f (x) Lipschitz gần x∗ thì
0 ∈ ∂f (x∗ )

Chứng minh. Do x∗ là điểm cực tiểu địa phương của f (x) nên theo định
nghĩa 1.5 thì với mọi d ∈ X ta có
f 0 (x∗ , d) ≥ 0.
Từ bổ đề 1.4 suy ra 0 ∈ ∂f (x∗ ).
Nếu x∗ là cực đại địa phương của f (x) thì x∗ là cực tiểu địa phương
của −f (x). Vì thế 0 ∈ ∂(−f )(x∗ ). Dễ thấy rằng với bất kỳ số s ta có
∂(sf )(x) = s∂f (x) cho nên với s = −1 ta có 0 ∈ ∂(−f )(x∗ ) = −∂f (x∗ ),
nghĩa là 0 ∈ ∂f (x∗ ). Định lý được chứng minh.
Định nghĩa 2.2. Điểm x∗ gọi là điểm dừng của hàm f nếu f có đạo

hàm theo mọi hướng tại x∗ và với mọi hướng d thì
f (x∗ , d) ≥ 0.
Điểm x∗ gọi là điểm dừng Dini của hàm f nếu với mọi d ta có
f (D) (x∗ , d) ≥ 0.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




16

Điểm x∗ gọi là điểm dừng Clarke của hàm f nếu với mọi d ta có
f 0 (x∗ , d) ≥ 0 tức là 0 ∈ ∂f (x∗ ).
Có thể thấy một điểm cực tiểu địa phương x∗ của một hàm Lipschitz
địa phương f luôn là điểm dừng Dini của hàm f . Nếu f khả vi theo
hướng tại x∗ thì x∗ cũng là một điểm dừng. Một điểm dừng Dini ln là
điểm dừng Clarke, nhưng khơng có điều ngược lại.
Định lý sau nêu một điều kiện đủ để một điểm x∗ là cực tiểu địa
phương của hàm f .
Định lí 2.2. Cho f (x) là hàm lồi và Lipschitz gần x∗ . Nếu 0 ∈ ∂f (x∗ )
thì x∗ là điểm cực tiểu của f (x).
Chứng minh. Do f (x) là hàm lồi và Lipschitz gần x∗ nên theo bổ đề 1.3
vi phân suy rộng và dưới vi phân của f tại x∗ là trùng nhau, tức là
{ξ ∈ X ∗ |f (z) − f (x∗ ) ≥ ξ, z − x∗ , ∀z ∈ X}
= {ξ ∈ X ∗ |f 0 (x∗ , d) ≥ ξ, d , ∀z ∈ X}.
Do 0 ∈ ∂f (x∗ ) nên ta có
f (z) − f (x∗ ) ≥ 0, z − x∗ = 0, ∀z ∈ X.
Suy ra f (z) ≥ f (x∗ ), ∀z ∈ X. Vậy x∗ là điểm cực tiểu của f (x).
Như vậy, nếu f (x) là hàm lồi và Lipschitz thì hệ thức 0 ∈ ∂f (x∗ ) là

điều kiện cần và đủ để x∗ là điểm cực tiểu của f (x). Hay điều kiện này
tương đương với
f 0 (x, d) ≥ 0, ∀d ∈ X.
Với hàm lồi và Lipschitz thì đạo hàm suy rộng theo hướng f 0 (x, d)
trùng với đạo hàm theo hướng f (x, d)
f (x, d) = lim
t↓0

f (x + td) − f (x)
.
t

Cần nhắc lại rằng các hàm lồi đều là Lipschitz trừ một số ngoại lệ.
Hơn nữa, ta còn có điều kiện đủ cho cực tiểu chặt như sau.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




17

Định lí 2.3. Cho f (x) là hàm lồi và Lipschitz gần x∗ . Nếu f (x, d) >
0, ∀d = 0, d ∈ X thì x∗ là điểm cực tiểu chặt của f (x), nghĩa là tồn tại
số δ > 0 sao cho
f (x) − f (x∗ ) > δ x − x∗
với mọi x đủ gần x∗ .
Chứng minh. Đặt
S = {d|d ∈ X, d = 1}.
Hiển nhiên S là một tập compact và đóng. Do f (x∗ , d) là dương trên S

và f (x∗ , d) liên tục (thực ra, f (x∗ , d) là hàm lồi thuần nhất dương theo
d) nên tồn tại δ > 0 sao cho
f (x∗ , d) ≥ 2δ, ∀d ∈ S.
Khi đó, với mỗi d ∈ S, tồn tại t(d) > 0 sao cho
f (x∗ + td) − f (x∗ ) ≥ td, ∀t ∈ [0, t(d)].
Do tính lồi và tính liên tục của f (x) nên có thể chỉ ra có một số ε > 0
sao cho
t(d) ≥ ε, ∀d ∈ S.
Do đó, với mọi x thỏa mãn

x − x∗ ≤ ε ta có

f (x) − f (x∗ ) ≥ δ

x − x∗ ,

đó là điều cần chứng minh.
Với hàm f (x) khơng lồi thì kết quả trên khơng cịn đúng nữa, như chỉ
ra ở ví dụ sau:
Ví dụ 2.4. Xét hàm f : R1 → R1

(−1)k+1 1 − 3x ; x ∈ 1 ; 1
2k+1
2k−1 2k
f (x) =
0;
x=0

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên





18

Ta thấy f (−x) = f (x), ∀x ∈ [−1; 0]. Rõ ràng f (x) Lipschitz trên đoạn
[−1; 1] và f 0 (x∗ ; ±1) = 3 > 0 tại x∗ = 0, nghĩa là có đạo hàm suy rộng
theo hướng bằng nhau f 0 (0, ±1) = 3. Nhưng x∗ = 0 không phải là điểm
cực trị của hàm f .

2.3

Một số phương pháp giải bài toán tối ưu không
trơn

2.3.1

Phương pháp dưới gradient

Phương pháp dưới gradient được suy rộng trực tiếp từ phương pháp
hướng giảm nhanh nhất bằng cách sử dụng hướng −gk trong đó gk ∈
∂f (xk ) để sinh ra dãy {xk }.
Cho f (x) là hàm lồi trên Rn và xét bài tốn cực tiểu khơng ràng buộc
dạng minn f (x). Ta đã biết hàm lồi và Lipschitz gần x thì khả vi hầu
x∈R

khắp nơi và
∂f (x) = convΩ(x)
trong đó convΩ là bao lồi của Ω và
Ω(x) = {g|g = lim ∇f (xi ), xi → x, ∃∇f (xi )}.

Phương pháp dưới gradient được mô tả như sau
Thuật toán 2.1. (Phương pháp dưới gradient.)
Bước 1. Chọn điểm ban đầu x1 ∈ Rn , đặt chỉ số bước lặp k := 1.
Bước 2. Tính f (xk ), gk ∈ ∂f (xk ).
Bước 3. Chọn độ dài bước αk > 0 và đặt
gk
xk+1 := xk − αk
.
gk 2
Đặt k := k + 1 và quay lại bước 2.
Như đã nêu ở mục trước phương pháp dưới gradient với thủ tục tìm
chính xác theo tia có thể sinh ra dãy {xk } hội tụ tới điểm khơng dừng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




19

Trong tối ưu khơng trơn thủ tục tìm gần đúng theo tia được hiểu là
tìm độ dài bước αk thỏa mãn
f (xk + αk dk ) ≤ f (xk ) + αk C1 dTk ∇f (xk ),
trong đó, c1 ∈ (0, 1) là một hằng số.
Với phương pháp hướng giảm nhanh nhất thì quy tắc trên trở thành
f (xk − αk ∇f (xk )) ≤ f (xk ) + αk C1

∇f (xk )

2


.

Tuy nhiên, khi f (x) khơng trơn thì với bất kỳ c1 ∈ (0, 1) và gk ∈
∂f (xk ) thì bất đẳng thức
f (xk − αk gk ) ≤ f (xk ) − αC1

gk

2

có thể khơng thỏa mãn với mọi α > 0. Do đó, việc tìm gần đúng theo
tia cũng không thực hiện được trong tối ưu không trơn.
Để ý là độ dài bước hằng số là khơng thích hợp, bởi vì hàm cần tìm
cực tiểu có thể khơng khả vi tại lời giải và khi đó dãy {gk } khơng nhất
thiết hội tụ tới 0, ngay cả khi {xk } hội tụ tới điểm tối ưu.
Quy tắc xác định αk trong phương pháp dưới gradient hoàn toàn khác
với cách xác định αk trong phương pháp hướng giảm nhanh nhất.
Mặc dầu thủ tục tìm chính xác và gần đúng theo tia dùng trong tối
ưu trơn không thể mở rộng một cách đơn giản cho trường hợp không
trơn, nhưng hướng đối dưới gradient vẫn là hướng tốt để cho điểm lặp
mới gần hơn với nghiệm cực tiểu cần tìm. Ta cần bổ đề sau.
Bổ đề 2.1. Giả sử f (x) là hàm lồi và tập
S ∗ = {x|f (x) = f ∗ = minn f (x)}
x∈R

không rỗng. Nếu xk ∈ S ∗ thì với mỗi x∗ ∈ S ∗ và gk ∈ ∂f (xk ) tồn tại số
Tk > 0 sao cho
gk
xk − α
− x∗ 2 < xk − x∗ 2

gk 2
với mọi α ∈ (0, Tk ).
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




20

Chứng minh. Với bất kỳ xk ta có
xk − α
= xk − x∗

2

+2α

gk
gk

− x∗
2

gk
gk

T

2
2


(x∗ − xk ) + α2 .

2

Do gk ∈ ∂f (xk ) và xk ∈ S ∗ nên ta có
gkT (x∗ − xk ) ≤ f (x∗ ) − f (xk ) < 0.
Đặt Tk = −2

gkT (x∗ − xk )
> 0 thì có thể viết lại đẳng thức trước đó
gk 2

thành
xk − α

gk
gk

− x∗

2
2=

2

xk − x∗

2
2


+α(α − Tk ).

Nếu 0 < α < Tk thì α(α − Tk ) < 0 và từ đó ta nhận được
xk − α
hay
xk − α

gk
gk
gk
gk

− x∗
2

− x∗

2
2<

2<

xk − x∗

xk − x∗

2
2


2

.

2

Bổ đề được chứng minh.
Bằng cách sử dụng tính chất trên đây của hướng dưới gradient ta có
thể chọn độ dài bước đủ nhỏ sao cho dãy {xk } càng gần hơn với nghiệm
cực tiểu cần tìm. Từ bổ đề trên ta có thể dễ dàng suy ra kết luận sau
đây của Shor.
Định lí 2.4. Giả sử f (x) là một hàm lồi và S ∗ là một tập không rỗng.
Với mỗi δ > 0 tìm được số r > 0 sao cho nếu áp dụng Thuật toán 2.1
với αk ≡ α ∈ (0, r) thì ta có
lim inf f (xk ) ≤ f ∗ +δ.
k→∞

Tuy nhiên, việc chọn độ dài bước bằng αk ≡ α có thể làm cho Thuật

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên




21

tốn 2.1 khơng hội tụ. Vì vậy, để khắc phục ta nên chọn αk thỏa mãn
điều kiện
αk > 0, lim αk = 0


(2.6)

k→∞



αk = ∞.

(2.7)

k=1

Với cách chọn αk như trên ta có định lý hội tụ sau.
Định lí 2.5. Giả sử f (x) là một hàm lồi và S ∗ là một tập khác rỗng
và bị chặn. Nếu αk thỏa mãn điều kiện (2.6)-(2.7) thì dãy {xk } sinh bởi
Thuật toán 2.1 sẽ thỏa mãn điều kiện
lim dist(xk , S ∗ ) = 0

k→∞

trong đó dist(xk , S ∗ ) = min



xk − x∗ .

x ∈S

Chứng minh. Do f (x) là hàm lồi nên tồn tại hàm liên tục δ(ε) sao cho
f (x) ≤ f ∗ + ε

với mọi x thỏa mãn dist(x, S ∗ ) ≤ δ(ε), trong đó δ(ε) > 0, ∀ε > 0. Với
mỗi k ta xác định
εk = f (xk ) − f ∗ ≥ 0.
Nếu εk > 0 thì
xk+1 − x∗
= xk − x∗
≤ xk − x∗

2
2
2

= xk − x∗

2

+αk2 − 2αk (xk − x∗ )T

gk
gk

2

gk
+αk2 − 2δ(εk )αk − 2αk xk − x∗ − δ(εk )
gk

2

gk

gk

2

+αk2 − 2δ(εk )αk .

Do đó,
[dist(xk+1 , S ∗ )]2 − [dist(xk , S ∗ )]2 ≤ −αk [2δ(εk ) − αk ].

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên

(2.8)




×