Tải bản đầy đủ (.pdf) (75 trang)

mô hình xác suất của dãy chỉ số sáng hàng ngày

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.91 MB, 75 trang )

TRƢỜNG ĐẠI HỌC CẦN THƠ
KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TOÁN

------------

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

MÔ HÌNH XÁC SUẤT CỦA
DÃY CHỈ SỐ SÁNG HÀNG NGÀY

GIÁO VIÊN HƢỚNG DẪN

SINH VIÊN THỰC HIỆN

TS. TRẦN VĂN LÝ

PHAN THỊ NGỌC NGÂN

Bộ môn Toán – Khoa KHTN

MSSV: 1117486
NGÀNH TOÁN ÚNG DỤNG K37

CẦN THƠ – 12/2014


LỜI CẢM ƠN


Trong suốt quá trình học tập và hoàn thành luận văn này, em đã đƣợc sự


hƣớng dẫn, giúp đỡ quý báu của Thầy Cô, anh chị và các bạn. Với lòng kính
trọng và biết ơn sâu sắc em xin đƣợc bày tỏ lời cảm ơn chân thành tới:
Thầy Trần Văn Lý, ngƣời Thầy đã tận tâm, nhiệt tình hƣớng dẫn, truyền
đạt những kinh nghiệm quý báu để em thực hiện luận văn này.
Em xin chân thành gửi lời cảm ơn quý Thầy, quý Cô trong Khoa Khoa
học Tự nhiên, trƣờng Đại học Cần Thơ đã truyền dạy kiến thức, kinh nghiệm,
kỹ năng cho em trong suốt 3 năm học vừa qua.
Em xin cảm ơn cô CVHT Lê Thị Mỹ Xuân đã tận tình hƣớng dẫn, động
viên và giúp đỡ em trong suốt thời gian học.
Xin cảm ơn các anh, chị đi trƣớc cùng các bạn đã luôn sát cánh bên tôi,
ủng hộ, giúp đỡ, chia sẻ những kinh nghiệm và giúp đỡ tôi trong thời gian làm
đề tài, cũng nhƣ những tháng ngày học đại học.
Em cũng không quên cảm ơn gia đình, đã luôn là chỗ dựa vững chắc cho
em, đã luôn hỗ trợ, động viên và tạo mọi điều kiện tốt nhất cho em trong suốt
thời gian qua.
Mặc dù, em đã cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình và
năng lực của mình, tuy nhiên luận văn không thể tránh khỏi những thiếu sót.
Em rất mong nhận đƣợc những đóng góp quý báu của quý Thầy, quý Cô và
các bạn để luận văn đƣợc hoàn thiện hơn.
Cuối cùng , em xin chúc Thầy Cô, anh chị và các bạn đạt nhiều sức khỏe
và thành công trong cuộc sống!

Cần Thơ, ngày

tháng 12 năm 2014

Sinh viên thực hiện
PHAN THỊ NGỌC NGÂN

i



DANH MỤC CÁC BẢNG
Trang
Bảng 1: Số liệu bức xạ đo đƣợc từ ngày 1/10/2013-17/10/2013 ...................... 28
Bảng 2: Số liệu bức xạ đo đƣợc từ ngày 17/10/2013-31/10/2013 .................... 29
Bảng 3: Số liệu chỉ số sáng hàng ngày của tháng 10/2013 ............................... 30
Bảng 4: Dữ liệu mô phỏng lần 1, N=2.............................................................. 50
Bảng 5: Dữ liệu mô phỏng lần 5, N=2.............................................................. 51
Bảng 6: Dữ liệu mô phỏng lần 10, N=2............................................................ 52
Bảng 7: Dữ liệu mô phỏng lần 1, N=4.............................................................. 54
Bảng 8: Dữ liệu mô phỏng lần 5, N=4.............................................................. 55
Bảng 9: Dữ liệu mô phỏng lần 10, N=4............................................................ 56
Bảng 10: Bảng giá trị của C ứng với mỗi cho  trƣớc. ................................. 58
Bảng 11: Các hàm hạt nhân thƣờng dùng......................................................... 62

ii


DANH MỤC CÁC HÌNH
Trang
Hình 1: Biểu đồ minh họa cho dãy chỉ số sáng hàng ngày tháng 10/2013 ...... 31
Hình 2: Biểu đồ thể hiện chỉ số sáng hàng ngày tháng 10/2013 ..................... 32
Hình 3: Biểu đồ thể hiện sự phát triển của ma trận xác suất chuyển A, N=2.. 38
Hình 4: Biểu đồ thể hiện sự phát triển của ma trận xác suất chuyển A, N=4.. 47
Hình 5: Biểu đồ mô phỏng lần thứ nhất dãy chỉ số sáng hàng ngày, N=2 ...... 50
Hình 6: Biểu đồ mô phỏng lần thứ 5 dãy chỉ số sáng hàng ngày, N=2 ........... 51
Hình 7: Biểu đồ mô phỏng lần thứ 10 dãy chỉ số sáng hàng ngày, N=2 ......... 52
Hình 8: Biểu đồ mô phỏng lần thứ nhất dãy chỉ số sáng hàng ngày, N=4 ...... 54
Hình 9: Biểu đồ mô phỏng lần thứ 5 dãy chỉ số sáng hàng ngày, N=4 ........... 55

Hình 10: Biểu đồ mô phỏng lần thứ 10 dãy chỉ số sáng hàng ngày, N=4 ....... 56
Hình 11: Đồ thị cdf của 2 mẫu dữ liệu, N=2 ................................................... 59
Hình 12: Đồ thị cdf của 2 mẫu dữ liệu, N=4 ................................................... 61
Hình 13: Đồ thị hàm hạt nhân với hằng số làm mịn h là chuẩn ...................... 65
Hình 14: Đồ thị hàm hạt nhân với hằng số làm mịn h nhỏ .............................. 66

iii


MỤC LỤC
LỜI CẢM ƠN.................................................................................................... i
DANH MỤC CÁC BẢNG ............................................................................... ii
DANH MỤC CÁC HÌNH ............................................................................... iii
MỤC LỤC ....................................................................................................... iv
LỜI MỞ ĐẦU................................................................................................... 1
1. LÝ DO CHỌN ĐỀ TÀI .............................................................................. 1
2. MỤC ĐÍCH NGHIÊN CỨU....................................................................... 1
3. PHƢƠNG PHÁP NGHIÊN CỨU .............................................................. 1
4. ĐỐI TƢỢNG NGHIÊN CỨU .................................................................... 2
5. CẤU TRÚC CỦA LUẬN VĂN ................................................................. 2
Chƣơng 1 MÔ HÌNH MARKOV ẨN VÀ CÁC VẤN ĐỀ LIÊN QUAN .... 3
1.1.XÍCH MARKOV ......................................................................................... 3
1.1.1.Các công thức tính xác suất liên quan .............................................. 3
1.1.1.1.Xác suất có điều kiện ................................................................... 3
1.1.1.2.Công thức nhân ............................................................................ 3
1.1.1.3.Công thức xác suất đầy đủ ........................................................... 3
1.1.2.Định nghĩa quá trình ngẫu nhiên ...................................................... 3
1.1.3.Định nghĩa xích Markov ................................................................... 4
1.1.4.Phƣơng trình Chapman-Kolmogorov ............................................... 6
1.1.5.Phân phối dừng ................................................................................. 7

1.1.6.Phân loại trạng thái xích Markov ..................................................... 8
1.1.6.1.Các trạng thái liên thông và sự phân lớp ..................................... 8
1.1.6.2.Chu kỳ của trạng thái ................................................................... 8
1.1.6.3.Trạng thái hồi quy và không hồi quy........................................... 9
1.1.6.4.Tiêu chuẩn hồi quy và không hồi quy ......................................... 9
1.2.QUÁ TRÌNH MARKOV ẨN ........................................................................ 10
1.2.1.Giới thiệu ........................................................................................ 10
iv


1.2.2.Xác suất của một quỹ đạo ............................................................... 12
1.3.CÁC VẤN ĐỀ LIÊN QUAN KHÁC ............................................................... 13
1.3.1.Phƣơng pháp Monte-carlo .............................................................. 13
1.3.2.Thuật toán EM (Expectation Maximization) ................................. 14
1.3.2.1.Kì vọng có điều kiện .................................................................. 14
1.3.2.2.Hàm hợp lí log-likelihood ......................................................... 15
1.3.2.3.Thuật toán .................................................................................. 16
Chƣơng 2 MÔ HÌNH MARKOV ẨN CHO DÃY CHỈ SỐ SÁNG ........... 17
2.1.BỨC XẠ MẶT TRỜI VÀ CHỈ SỐ SÁNG HÀNG NGÀY .................................... 17
2.1.1.Bức xạ mặt trời ............................................................................... 17
2.1.2.Bức xạ ngoài khí quyển .................................................................. 17
2.1.2.1.Bức xạ tiêu chuẩn ngoài khí quyển ........................................... 17
2.1.2.2.Bức xạ nằm ngang ngoài khí quyển .......................................... 17
2.1.3.Bức xạ toàn phần ............................................................................ 18
2.1.3.1.Bức xạ trực tiếp ......................................................................... 18
2.1.3.2.Bức xạ khuếch tán ..................................................................... 18
2.1.4.Chỉ số sáng hàng ngày .................................................................... 18
2.2.XÂY DỰNG MÔ HÌNH MARKOV ẨN CHO DÃY CHỈ SỐ SÁNG HÀNG NGÀY:
QUÁ TRÌNH TRẠNG THÁI ẨN, QUÁ TRÌNH QUAN SÁT ĐƢỢC (DÃY) ................ 23
2.2.1.Quá trình trạng thái ẩn .................................................................... 24

2.2.2.Quá trình quan sát đƣợc (dãy chỉ số sáng) ..................................... 24
2.3.ƢỚC LƢỢNG LỌC CÁC THAM SỐ CỦA MÔ HÌNH ....................................... 25
2.3.1.Ma trận chuyển xác suất ................................................................. 26
2.3.2.Trung bình ...................................................................................... 26
2.3.3.Độ lệch chuẩn ................................................................................. 26
Chƣơng 3 ƢỚC LƢỢNG THAM SỐ CỦA MÔ HÌNH TỪ DỮ LIỆU
THỰC ............................................................................................................. 28
3.1.CÁC DỮ LIỆU THỰC DÙNG ĐỂ ƢỚC LƢỢNG.............................................. 28
3.1.1.Nguồn dữ liệu ................................................................................. 28
3.1.2.Tính toán dữ liệu ............................................................................ 30
v


3.2.CHỌN SỐ TRẠNG THÁI CỦA MÔ HÌNH ...................................................... 31
3.3.ƢỚC LƢỢNG LỌC CÁC THAM SỐ CỦA MÔ HÌNH....................... 33
Chƣơng 4 ỨNG DỤNG CỦA MÔ HÌNH ................................................... 49
4.1.DỮ LIỆU MÔ PHỎNG VÀ TEST SO SÁNH PHÂN PHỐI CỦA DỮ LIỆU THỰC VÀ
DỮ LIỆU MÔ PHỎNG ....................................................................................... 49
4.1.1.Dữ liệu mô phỏng ........................................................................... 49
4.1.2.Test so sánh phân phối của dữ liệu thực và dữ liệu mô phỏng ...... 57
4.1.2.1.Kiểm định Kolmogorov-Smirnov test ....................................... 57
4.1.2.2.Tiến hành kiểm định trên Matlab .............................................. 58
4.2.ƢỚC LƢỢNG MẬT ĐỘ CHỈ SỐ SÁNG TỪ DỮ LIỆU MÔ PHỎNG .................... 61
4.2.1.Ƣớc lƣợng hạt nhân ........................................................................ 61
4.2.2.Ƣớc lƣợng với dữ liệu thực ............................................................ 63
PHẦN KẾT LUẬN ........................................................................................ 67
TÀI LIỆU THAM KHẢO ............................................................................. 68

vi



LỜI MỞ ĐẦU
1. LÝ DO CHỌN ĐỀ TÀI
Số liệu bức xạ theo giờ của một địa phƣơng là yêu cầu bắt buộc trong
việc thiết kế các hệ thống sử dụng năng lƣợng mặt trời, cũng nhƣ nghiên cứu
việc sử dụng những thiết bị này tại địa phƣơng đó. Ngoài ra, một số liệu bức
xạ theo giờ có độ tin cậy cao cũng giúp ích rất nhiều trong việc tính toán các
bài toán kĩ thuật trong các lĩnh vực nông nghiệp, năng lƣợng, môi trƣờng và
đặc biệt là trong lĩnh vực dự báo thời tiết. Tuy nhiên, trên thực tế việc thu thập
những số liệu này không phải là dễ dàng và tốn rất nhiều thời gian.
Ở các nƣớc phát triển, số liệu bức xạ theo giờ đƣợc đo đạt một cách có
hệ thống từ lâu và các trạm quan trắc có thể cung cấp số liệu bức xạ theo giờ
của từng vùng trong thời gian dài. Còn ở nƣớc ta, đa phần các trạm quan trắc
chỉ đo bức xạ 3 giờ 1 lần, trong các trạm khí tƣợng thủy văn khu vực phía nam
có trạm Cần Thơ đo bức xạ từ năm 2002 nhƣng do thiết bị trục trặc nên số liệu
không đầy đủ và việc đo đã ngừng lại sau một năm. Do đó, các số liệu này
không thể sử dụng trong việc nghiên cứu, thiết kế các thiết bị năng lƣợng mặt
trời cũng nhƣ các bài toán khác.
Với tình hình nhƣ trên thì việc giải quyết vấn đề thiếu số liệu bức xạ theo
giờ là rất cần thiết. Do đó, em chọn đề tài “Mô hình xác suất của dãy chỉ số
sáng hàng ngày” áp dụng trên số liệu đo đƣợc ở Cần Thơ cho luận văn của
mình. Luận văn đề cập đến việc sử dụng các mô hình thống kê toán học (cụ
thể là mô hình Markov ẩn) cho phép tạo ra chuỗi số liệu bức xạ theo ngày từ
những thông số đo dễ hơn hay ít tốn kém hơn nhƣ số giờ nắng. Từ đó, chúng
ta có thể dự đoán đƣợc dãy số liệu bức xạ trong tƣơng lai một cách dễ dàng.
2. MỤC ĐÍCH NGHIÊN CỨU
Tổng kết lý thuyết liên quan đến xích markov, tiêu chuẩn lựa chọn số
trạng thái và tiêu chuẩn Smirnov và ƣớc lƣợng các tham số trong xây dựng mô
hình Markov ẩn.
Ứng dụng các lý thuyết đã trình bày cho một số ứng dụng từ số liệu thực

cụ thể.
3. PHƢƠNG PHÁP NGHIÊN CỨU
Xử lý các số liệu thu đƣợc trên phần mềm Matlab.

1


Phân tích, tổng hợp và hệ thống hóa các tài liệu liên quan đến Mô hình
Markov ẩn.
Xây dựng mô hình xác suất cho dãy chỉ số sáng hàng ngày từ số liệu thu
thập.
4. ĐỐI TƢỢNG NGHIÊN CỨU
Đối tượng nghiên cứu: Mô hình Markov ẩn và dãy chỉ số sáng hàng ngày.
Phạm vi nghiên cứu: Các số liệu về số giờ nắng đƣợc thu thập ở Cần
Thơ.
5. CẤU TRÚC CỦA LUẬN VĂN
Luận văn gồm có phần mở đầu, phần nội dung và phần kết luận, trong đó
phần nội dung gồm có 4 chƣơng:
Chƣơng 1: Mô hình Markov ẩn và các vấn đề liên quan.
Giới thiệu tổng quan về mô hình Markov ẩn và tổng kết các lý thuyết
liên quan đến mô hình.
Chƣơng 2: Mô hình Markov ẩn cho dãy chỉ số sáng.
Giới thiệu sơ lƣợc về chỉ số sáng hàng ngày, các lý thuyết trong xây
dựng mô hình Markov ẩn và ƣớc lƣợng các thông số của mô hình.
Chƣơng 3: Ước lượng tham số của mô hình từ dữ liệu thực.
Phân tích, xử lý số liệu và tiến hành ƣớc lƣợng các thông số của mô hình
từ số liệu thực đã đƣợc xử lý. Từ đó, xây dựng mô hình xác suất cho dãy chỉ
số sáng hàng ngày.
Chƣơng 4: Ứng dụng của mô hình.
Mô phỏng dữ liệu từ các thông số đã tìm đƣợc ở Chƣơng 3, từ đó kiểm

tra phân phối của mẫu dữ liệu thực và mẫu dữ liệu mô phỏng. Ứng dụng mô
hình đã xây dựng cùng với các lý thuyết liên quan đến mô hình cho một mẫu
dữ liệu thực tế bất kỳ.

2


Chƣơng 1

MÔ HÌNH MARKOV ẨN
VÀ CÁC VẤN ĐỀ LIÊN QUAN
1.1. Xích Markov
1.1.1. Các công thức tính xác suất liên quan
1.1.1.1. Xác suất có điều kiện
a. Định nghĩa
Cho (  , 𝒜, P ) là một không gian xác suất, A 𝒜, P  A  0 . Xác suất
của biến cố B đƣợc tính khi biết biến cố A nào đó đã xảy ra đƣợc gọi là xác
suất có điều kiện, ký hiệu là P  B A và đƣợc xác định nhƣ sau:
P  B A 

P  A  B
P  A

.

b. Tính chất
(i)
0  P  B A  1 .
(ii)


P  A A  1 .

(iii)

P  A / B   1  P  A / B .

1.1.1.2. Công thức nhân
Giả sử Ai  𝒜, i  1, , n là các biến cố bất kỳ. Khi đó
P



n
i 1



Ai  P  A1  P  A2 A1 

P  An A1

An 1  .

1.1.1.3. Công thức xác suất đầy đủ
Giả sử không gian đƣợc biểu diễn với dạng tổng   H1  H 2 

 Hn

những biến cố xung khắc nhau từng đôi H1 , H 2 , , H n . Với A là biến cố bất kỳ
ta có công thức:

n

P  A   P  H i P  A H i  .
i 1

1.1.2. Định nghĩa quá trình ngẫu nhiên
Định nghĩa 1.1.2.1. (Quá trình ngẫu nhiên). Quá trình ngẫu nhiên, ký
hiệu  X t , t  T  , là tập hợp của các đại lƣợng ngẫu nhiên, nghĩa là với mỗi
t  T thì X t là một đại lƣợng ngẫu nhiên.
3


Chỉ số

t

đƣợc xem nhƣ thời gian và X t là trạng thái của quá trình tại

thời điểm t .
Tập T: tập chỉ số của quá trình.
 T đếm đƣợc: X t đƣợc gọi là quá trình rời rạc theo thời gian.
 T là một khoảng trên R: X t đƣợc gọi là quá trình liên tục theo thời
gian.
Định nghĩa 1.1.2.2. (Quá trình dừng). Quá trình  X t , t  T  là quá trình
dừng nếu  X t ,
1






, X tn cùng phân phối xác suất với X t1  h ,

X

 



d

, X tn  X t1  h ,

t1 ,



, Xtn  h , ký hiệu

, X tn  h .

với mọi cách chọn t1 , , tn  T , n  1 , và h sao cho t1  h, , tn  h  T
1.1.3. Định nghĩa xích Markov
Ta cần quan sát một thí nghiệm tại các thời điểm 0,1,

. Tại thời điểm n

bất kỳ thí nghiệm sẽ nhận đƣợc một trong k kết quả   s0 ,s1 , , sk  . Đặt
biến ngẫu nhiên X n là giá trị quan sát hiện tƣợng tại thời điểm n :
Xn :  




si

X n si 

(1.1)

X n là biến nhẫu nhiên rời rạc có bảng phân phối xác suất nhƣ sau

Xn



0

1

n0 n1

k

nk

Khi đó  X n : n  0 là quá trình ngẫu nhiên với thời gian rời rạc.
Định nghĩa 1.1.3.1. Với quá trình ngẫu nhiên  X n : n  0 nhƣ trên:
 Tập giá trị có thể của các biến ngẫu nhiên X n : S  0,1, , k gọi là
không gian trạng thái của quá trình.
 Véctơ xác suất n   n 0 , , nk  là phân phối xác suất của X n , còn

gọi là phân phối xác suất tại thời điểm n . 0   00 , , 0k  gọi là
phân phối xác suất tại thời điểm ban đầu (phân phối ban đầu).

4


Định nghĩa 1.1.3.2. (Xích Markov). Quá trình ngẫu nhiên  X n : n  0 ,
trong đó X n là biến ngẫu nhiên rời rạc có k trạng thái, tập các trạng thái
E  0;1;

; k  .  X n : n  0 gọi là xích Markov nếu:

X

n 1

 j X 0  i0 , X1  i1 ,

, Xn  i 

X

n 1

 j X n  i   pij

(1.2)

Nhận xét 1.1.3.3. Ta coi thời điểm n là hiện tại, n  1 là thời điểm tƣơng
lai còn 0,1, , n 1 là quá khứ:

 Xác suất có điều kiện của X n 1 nhận giá trị j khi cho trƣớc trạng thái
trong quá khứ của X 0 , X1 , , X n1 và trạng thái hiện tại của X n  i là
độc lập với các trạng thái trong quá khứ và phụ thuộc vào trạng thái
hiện tại. Nói cách khác, nếu biết trạng thái hiện tại thì quá khứ và
tƣơng lai độc lập với nhau.
 pij là xác suất chuyển từ trạng thái si đến s j tại một thời điểm bất kỳ
nên pij không phụ thuộc vào thời gian.


pij là xác suất chuyển từ trạng thái hiện tại i sang trạng thái tiếp theo

j nên pij  0 ,

p
jE

ij

 1.

Định nghĩa 1.1.3.4. (Xác suất một bước chuyển). Xác suất quá trình
chuyển từ trạng thái i sang trạng thái j sau một bƣớc chuyển:
pij 

X

n 1

 j Xn  i


Định nghĩa 1.1.3.5. (Ma trận xác suất một bước chuyển). Ma trận chứa
các xác suất chuyển pij
 p00
p
   10


 pk 0

p01
p11
pk1

p0 k 
p1k 


pkk 

được gọi là ma trận xác suất một bước chuyển của quá trình.

Định lý 1.1.3.6. Cho P là ma trận xác suất một bƣớc chuyển của quá
trình Markov, và n là véctơ phân phối xác suất của X n . Phân phối xác suất
của X n 1 :

n1  n.

5



Chứng minh. Gọi n1   n10 , n1 , , n1k  là véctơ phân phối xác suất
của X n 1 và n   n0 , n1 , , nk  là véctơ phân phối xác suất của X n . Theo
công thức xác suất đầy đủ ta có

 X n1  j    X n  0, X n1  j  
  X n  0   X n 1  j
 n 0 p0 j 

 X n  k , X n1  j 
X n  0     X n  k   X n 1 


j Xn  k 

 nk pkj

 n 

1.1.4 Phƣơng trình Chapman-Kolmogorov
Định nghĩa 1.1.4.1. (Xác suất chuyển sau u bước chuyển). Xác suất
chuyển từ trạng thái i sang trạng thái j sau u bƣớc chuyển ( u  0 )

X

piju  

n u

 j Xn  i ,


n  0, j  0.

Định lý 1.1.4.2. (Phương trình Chapman-Kolmogorov). Xác suất quá
trình chuyển từ trạng thái i sang trạng thái j sau n  m bƣớc:
pij n m   pik n  pkj m .
kE

Chứng minh.
piju v 



X



 X

u v

 X

u

u v

kE




kE



 j X 0  i  (Theo định nghĩa 1.1.3.1)

 j , Xu  k X 0  i 

 k X0  i

 X u v 

j, Xu  k , X 0  i  (Theo CTXSĐĐ)

 p  p  .
kE

u
ik

v
kj

Hệ quả 1.1.4.3. Cho u là ma trận xác suất u bước chuyển:
(i)
(ii)

1   .
u   u và u v   u v .


Chứng minh.
i) 1   là hiển nhiên
ii) Bởi vì u   u 11  u 11  u 1  u ,
Mà u v  u v   u v .
6


1.1.5 Phân phối dừng
Định nghĩa 1.1.5.1. (Phân phối dừng). Phân phối ban đầu 0 đƣợc gọi là
phân phối dừng nếu ta có n  0 với mọi n .
Nhận xét 1.1.5.2.
 Nghiệm không âm
01 

0   01 ,

, 0 k 

của

0  0

sao cho

 0 k  1 đƣợc gọi là phân phối dừng của xích Markov với ma

trận xác suất chuyển  .
 Để tìm phân phối dừng ta giải hệ phƣơng trình
 0   0 


01  02 

Định lý 1.1.5.3. Cho xích Markov

 0 k  1

 X n : n  0 với ma trận xác suất

 

chuyển P   pij  và ma trận xác suất chuyển sau n bƣớc là P n  pij n . Giả sử
rằng với mọi i, j  E tồn tại giới hạn

lim pij n    j
n 

và giới hạn này không phụ thuộc i . Khi đó



jE

j

 1 và  j   i pij .
iE

 Hoặc  j  0 với mọi j  E , hoặc
 Nếu



jE

j

 1 thì U   1 , 2 ,


jE

j

1.

 là phân phối dừng và phân phối dừng

là duy nhất. Nếu  j  0 với mọi j  E thì phân phối dừng không tồn
tại.
Định nghĩa 1.1.5.4. (Xích Markov ergodic). Xích Markov đƣợc gọi là
ergodic nếu từ một trạng thái si bất kỳ có thể chuyển sang trạng thái s j sau
một hoặc nhiều bƣớc.

Định nghĩa 1.1.5.5. (Xích Markov chính quy). Xích Markov đƣợc gọi là
sao cho pij n  0, i, j  E .

chính quy (regular) nếu tồn tại số n 

Nhận xét 1.1.5.6. Từ hai định nghĩa trên:
 Mọi xích Markov chính quy đều là xích Markov ergodic.
 Xích Markov ergodic không hẳn là xích Markov chính quy.


7


1.1.6 Phân loại trạng thái xích Markov
Để giải quyết đầy đủ hơn bài toán về sự tồn tại của phân phối dừng cũng
nhƣ bài toán về sự tồn tại của phân phối giới hạn, ta phân loại các trạng thái
của xích Markov nhƣ sau:
1.1.6.1. Các trạng thái liên thông và sự phân lớp
Định nghĩa 1.1.6.1.1. Ta nói rằng trạng thái i đến đƣợc trạng thái j và
ký hiệu i  j là nếu tồn tại n  0 sao cho pij n   0 (ta quy ƣớc pij 0  1 nếu
0
i  j và pij   0 nếu i  j ).

Hai trạng thái i và j đƣợc gọi là liên thông đƣợc với nhau nếu i  j và
j  i . Trong trƣờng hợp đó ta ký hiệu là i  j .

Tính chất 1.1.6.1.2.
(i)

i  i (vì pii   1 ).

(ii)

i  j thì j  i .

(iii)

i  j và j  k thì i  k .


0

Nhƣ vậy  là quan hệ tƣơng đƣơng trên không gian trạng thái E . Do
đó, theo quan hệ này không gian trạng thái E đƣợc chia thành các lớp rời
nhau. Hai trạng thái bất kỳ thuộc cùng một lớp thì liên thông đƣợc với nhau,
hai trạng thái bất kỳ thuộc hai lớp khác nhau thì không thể liên thông với
nhau.
Định nghĩa 1.1.6.1.3. Xích Markov đƣợc gọi là tối giản nếu hai trạng
thái bất kỳ của nó liên thông đƣợc với nhau.
1.1.6.2. Chu kỳ của trạng thái
Định nghĩa 1.1.6.2.1. Chu kỳ d  i  của trạng thái i là ước chung lớn
nhất của tất cả các số nguyên n  1 thỏa mãn điều kiện pii n  0 . Nếu pii n  0
đối với mọi n  1 thì ta quy ƣớc đặt d  i   0 .
Định lý 1.1.6.2.2. Nếu i  j thì d  i   d  j  .
Hệ quả 1.1.6.2.3. Các trạng thái thuộc cùng một lớp có cùng chu kỳ d
và d được gọi là chu kỳ của lớp.
Định nghĩa 1.1.6.2.4. Trạng thái i được gọi là không có chu kỳ nếu
d i   1 .

8


Định lý 1.1.6.2.5.
(i)

Nếu i có chu kỳ d  i  thì tồn tại số nguyên N phụ thuộc vào i sao
 nd i 
0.
cho với mọi n  N ta có pii


(ii)

 m nd i 
 m
 0 với mọi n đủ lớn.
Nếu p ji  0 thì p ji

1.1.6.3. Trạng thái hồi quy và không hồi quy
Giả sử  X n  là xích Markov. Xét trạng thái cố định i  E .
Ta đặt fij n  P  X n  j, X n1  j, , X1  j X 0  i , j  E
Khi đó, fij n  là xác suất để hệ xuất phát từ i lần đầu tiên chuyển sang j tại
thời điểm n (hoặc tại bƣớc thứ n ). Đặc biệt, fii n  là xác suất để hệ xuất phát
từ i lần đầu tiên trở về i tại thời điểm n (hoặc tại bƣớc thứ n ), n  1, 2,
1.1.6.4. Tiêu chuẩn hồi quy và không hồi quy
Định lý 1.1.6.4.1.
(i)

Trạng thái i là hồi quy khi và chỉ khi




n 1

pii n  .

hoặc tƣơng đƣơng, trạng thái i là không hồi quy nếu và chỉ nếu


 p   .

n 1

n
ii

(ii)

Nếu i  j và i hồi quy thì j  i và j cũng hồi quy.

(iii)

Nếu i  j và j hồi quy thì fij  1 .

(1.3)

Định lý 1.1.6.4.2. Nếu j không hồi quy thì với mọi i  E ta có


 p   .
n 1

n
ij

(1.4)

Đặc biệt

lim pij n  0, i  E.
n


(1.5)

Nhƣ vậy, fii là xác suất để hệ xuất phát từ i trở về i tại thời điểm hữu hạn nào
đó.

9


Định nghĩa 1.1.6.4.3.
(i). i đƣợc gọi là trạng thái hồi quy (hay trạng thái trở về) nếu fii  1 .
(ii). i đƣợc gọi là trạng thái không hồi quy (hay trạng thái di chuyển)
nếu fii  1 .
Định nghĩa 1.1.6.4.4. Giả sử i là trạng thái hồi quy. Ta có:
i). i là trạng thái dƣơng nếu i   .
ii). i là trạng thái không nếu i   .

 n
Với i   n0 nfii , đó là thời gian trung bình hệ trở lại i .

1.2. Quá trình Markov ẩn
1.2.1 Giới thiệu
Một trong những đặc trƣng của xích Markov là các trạng thái của quá
trình. Tùy thuộc vào một mô hình nào đấy ta sẽ có tập các trạng thái riêng
biệt. Mô hình Markov có hạn chế trong nhiều ứng dụng vì các trạng thái là các
giá trị “áp đặt sẵn”, không thay đổi, trong khi đối tƣợng thực tế thì giá trị trạng
thái có thay đổi theo thời gian. Để khắc phục tình trạng này, ngƣời ta mở rộng
mô hình Markov thành một mô hình khác đƣợc gọi là mô hình Markov ẩn
(Hidden Markov Model-HMM).
Mô hình Markov ẩn là mô hình thống kê trong đó hệ thống mô hình hóa

đƣợc cho là một quá trình Markov với các tham số không biết trƣớc, và nhiệm
vụ là xác định các tham số không biết trƣớc từ các tham số quan sát đƣợc. Các
tham số của mô hình đƣợc rút ra sau đó có thể sử dụng để thực hiện các phân
tích kế tiếp (thƣờng dùng cho các ứng dụng nhận dạng mẫu: nhận dạng giọng
nói, vân tay, biển số,…).
Gọi S là tập các trạng thái nhận đƣợc khi quan sát một quá trình
S  s1 , s2 , , sn  , và gọi P là tập các yếu tố sinh ra các trạng thái trong S
P   p1 , p2 ,

, pm 

Ta đặt ij  P  Pn1  j Pn  i  . Do ở đây ta có xét thêm yếu tố tạo ra các trạng
thái S , nên ta đặt
ei  b   P  Sn  b Pn  i 

là xác suất nhận được trạng thái b từ yếu tố i . Để dễ hình dung ta xét ví dụ
sau
10


Ví dụ 1.2.1.1 Trong một trò đỏ đen, có hai loại xúc sắc
 Một loại là xúc sắc cân đối- F .
 Một loại khác là xúc sắc không cân đối- L .
Xác suất nhận giá trị 1, 2, 3, 4, 5, 6 lần lƣợt là

1 1 1 1 1 1
; ; ; ; ; .
10 10 10 10 10 2

Nhà cái thƣờng dùng đổi qua lại giữa hai loại xúc sắc này theo xác suất

chuyển nhƣ sau:
F

L

F 0.95 0.05
L  0.1 0.9 

Tất nhiên là ngƣời chơi chỉ nhận đƣợc kết quả trên mặt xuất hiện chứ không
biết đƣợc xúc sắc này là F hay L . Cụ thể khi tung 4 lần một trong hai con
xúc sắc này ta đƣợc dãy kết quả
3

6

6

4 } trạng thái của quá trình









Yếu tố ẩn { F ; L ?  F ; L ?  F ; L ?  F ; L ?
Câu hỏi đƣợc quan tâm là dãy trạng thái 3 6 6 4 đƣợc ghi nhận từ những
xúc sắc nào (yếu tố ẩn nào)?

Ví dụ 1.2.1.2 Bạn thử hình dung thị trƣờng chứng khoán mỗi ngày có 3
trạng thái: tăng- u , giảm- d , không đổi- e . Có hai yếu tố ẩn trong nền kinh tế là
nền kinh tế tăng trƣởng- G , hay nền kinh tế không tăng trƣởng- B . Ở đây ta
thành lập đƣợc mô hình HMM nhƣ sau
 Có 3 trạng thái: u, d , e .
 Có 2 yếu tố ẩn: G, B .

Cụ thể chúng ta có kết quả của 4 ngày liên tiếp
u

u

d

u } trạng thái của quá trình









Yếu tố ẩn { G; B ?  G; B ?  G; B ?  G; B ?
Ở mỗi ngày chúng ta không biết nền kinh tế tăng trƣởng tốt hay không. Tuy
nhiên, chúng ta có thể thấy chỉ số chứng khoáng tăng, giảm hoặc không đổi.
11



1.2.2 Xác suất của một quỹ đạo
Giả sử sau bốn lần tung xúc sắc ta đƣợc kết quả

s

 3 6 6 4

khi cho biết trƣớc các yếu tố sinh ra dãy các trạng thái trên là M nhƣ sau
3

6

6

4











F




L



L

F

:M

P  s M   P  S1  6 S0  3 P  S2  6 S1  6  P  S3  4 S2  6 



1 1 1 1
  
6 2 2 6

Tuy nhiên, trong thực tế M là cái chúng ta cần tìm. Vậy vấn đề trong thực tế
cho dãy sau
3

6

6

4










?



?



?



?

:M

là các trạng thái 3;6;6;4 đƣợc sinh từ yếu tố nào ( F hay L ). Ở đây ta sẽ tìm
xác suất lớn nhất khi biết dãy các trạng thái quan sát đƣợc
PP S 

P  P, S 
PS 

Vì S quan sát đƣợc nên nó là hằng số, cho nên P  P S  lớn nhất khi và chỉ khi

P  P S  lớn nhất.

Phƣơng pháp này tuy đơn giản nhƣng có nhƣợc điểm là nếu quan sát
tăng lên (chẳng hạn 8 quan sát) thì lúc này ta cần tính đến 28  256 giá trị xác
suất P  P, S  , thêm vào đó các giá trị xác suất rất bé và sai số nhiều.
Để khắc phục nhƣợc điểm này ta sẽ xem xét thuật toán EM đƣợc trình
bày ở mục (1.3.2) kế tiếp.

12


1.3. Các vấn đề liên quan khác
1.3.1. Phƣơng pháp Monte-carlo
Phƣơng pháp Monte carlo là một lớp các thuật toán để giải quyết nhiều
bài toán thƣờng gặp bằng cách sử dụng các số ngẫu nhiên, ngƣợc lại với các
thuật toán tất định.
Thuật toán Monte carlo là phƣơng pháp tính bằng số hiệu quả cho nhiều
bài toán liên quan đến nhiều biến số mà không dễ dàng giải đƣợc bằng các
phƣơng pháp khác. Hiệu quả của phƣơng pháp này so với các phƣơng pháp
khác tăng lên khi số chiều của bài toán tăng.
Phƣơng pháp Monte carlo thƣờng đƣợc thực hiện lặp lại một số lƣợng
lớn các bƣớc đơn giản, song song với nhau, một phƣơng pháp phù hợp cho
máy tính. Kết quả của phƣơng pháp này càng chính xác khi số lƣợng lặp các
bƣớc tăng.
Để hiểu hơn về phƣơng pháp Monte carlo ta xét ví dụ sau.
Ví dụ 1.3.1.1. Mô phỏng phân phối đều trên  0,1
Sử dụng các hàm sinh ngẫu nhiên đã đƣợc cài đặt trên máy tính. Dù dùng bảng
số ngẫu nhiên hay sử dụng các hàm sinh số ngẫu nhiên đƣợc cài đặt trên máy
tính ta cũng lấy ra hoặc tính đƣợc liên tiếp các số ngẫu nhiên xi trong  0,1
với i  1, 2, , n .

1
đƣợc chia
k
n
 n
ra từ  0,1 là gần nhƣ nhau    . Với n lớn thì tần số đó càng sát gần . Vì
k
 k
vậy ta coi các giá trị phát sinh đƣợc là các thể hiện của biến ngẫu nhiên X

Tần số các giá trị này rơi vào k khoảng nhỏ với độ dài bằng nhau

tuân theo phân phối đều trên  0,1 . Trong trƣờng hợp cần mô phỏng biến Y
phân phối đều trên  a, b  ta có:

yi  a   b  a  xi
Chú ý rằng, để phát sinh các số ngẫu nhiên nhận giá trị nguyên 0,1, 2, , N chỉ
cần áp dụng công thức
Var Y  n   n1var Y  yi   N  1 xi  .



13


1.3.2. Thuật toán EM (Expectation Maximization)
Mô hình Markov ẩn tuy đơn giản nhƣng vấn đề ở chổ khó ƣớc lƣợng các
tham số trong mô hình. Trong luận văn này tôi trình bày thuật toán EM để ƣớc
lƣợng tham số mô hình khi và chỉ khi biết đƣợc dãy kết quả có đƣợc từ việc
quan sát. Giả sử ta có đƣợc dãy quan sát các trạng thái là x1 , x2 , , xn .

1.3.2.1. Kì vọng có điều kiện
a) Tích phân Radon-Nikodym
Định nghĩa: Cho X  L1 và M là một trƣờng-  -con của . Nếu X không
âm và khả tích thì chúng ta sử dụng Rando-Nikodym để suy ra sự tồn tại của
một độ đo biến ngẫu nhiên M , đƣợc kí hiệu bởi E  X M  , đƣợc xác định nhƣ
sau



A

XdP   E  X M  dP.
A

(1.6)

với mọi A  M .
E  X M  đƣợc gọi là xác suất có điều kiện của X cho bởi M.

b) Bất đẳng thức Jensen
Cho  , F , P  là một không gian xác suất và G là một trƣờng con của
F . Giả sử  : R  R là lồi và X là một biến ngẫu nhiên khả tích sao cho   X 

khả tích. Khi đó ta có

  E  X G    E   X  G  .

(1.7)

c) Công thức Bayes có điền kiện

Cho  , F , P  là một không gian xác suất và G  F là một trƣờng-  con. Giả sử P là một độ đo xác suất nào đó liên tục tuyệt đối đối với P , và
đạo hàm Radon-Nikodym dP / dP   . Khi đó nếu  là biến ngẫu nhiên khả
tích bất kì P thì

E  G    .
Trong đó


E 
  G  nếu E  G   0,


E 
 G 
14

(1.8)


  0 nếu E 
 G   0 .

1.3.2.2. Hàm hợp lí log-likelihood
Thuật toán EM cung cấp một phƣơng pháp số lặp đi lặp lại có thể đƣợc





sử dụng để tạo ra một dãy   p  , p  0 cho việc cập nhật ƣớc lƣợng ML của

vector tham số  . Trƣớc hết chúng ta xét hàm log-likelihood sau


dP 

 Ytime  .
  dP 


   log  E 

Nhờ vào tính đơn điệu của hàm loga nên giá trị cực đại của

(1.9)

   tƣơng

đƣơng với giá trị cực đại của L    , trong đó L    là hàm likelihood đƣợc
xác định nhƣ sau
 dP

L    E 
Ytime  .
 dP


Và  MLE  arg max L   là ƣớc lƣợng likelihood cực đại của  .
 

Giả sử


Py

kí hiệu sự hạn chế của P đến Ytime . Điều đó có thể đƣợc

chứng minh nhƣ sau

 dP 

dPy

E
Y

,

time
dPy
 dP

Khi đó

     

dPy
dPy
dPy
 log
 log
 log y ,

dP y
dP y
dP

     

 dP

 log E    Ytime  .
 dP




Theo bất đẳng thức Jensen thì



       E  log



dP 
Ytime  .
dP


15



Vì vậy, với mọi  ,    , ta nhận đƣợc

       Q  ,   .
Khi đó, nếu và chỉ nếu     thì hàm log-likelihood đƣợc định nghĩa nhƣ sau
, 
E  log time
Ytime  .

Q  ,  

dP 
dP

, 
với  time

(1.10)

.
Gtime

1.3.2.3. Thuật toán
 0
Thuật toán đƣợc bắt đầu với một tập tham số khởi điểm  , mỗi lần lặp
của thuật toán EM bao gồm 2 bƣớc sau

Bƣớc 1. E-Step (Expectation step): bƣớc này chúng ta sẽ tính kỳ vọng
của hàm hợp lý log-likelihood.
 p


Đặt    

và tính hàm giả log-likelihood





p
,   
Q  ,   p   E  p   log time
Ytime  .



Bƣớc 2. M-Step (Maximization step): ƣớc lƣợng giá trị tham số để cực
đại hóa các đại lƣợng ở E-step.

Tìm  

p 1





 arg max Q  ,   p  .
 

(1.11)


Lặp lại từ E-step với p  p  1 , đến khi điều kiện dừng ở (1.11) đƣợc
thỏa mãn thì thuật toán kết thúc.

16


Chƣơng 2

MÔ HÌNH MARKOV ẨN CHO DÃY CHỈ SỐ SÁNG
2.1. Bức xạ mặt trời và chỉ số sáng hàng ngày
2.1.1. Bức xạ mặt trời
Bức xạ mặt trời là vật phát ra từ mặt trời xuống mọi góc của không gian,
xuất hiện dƣới dạng các sóng điện từ. Bức xạ mặt trời này đƣợc hấp thụ, phản
xạ hoặc khuếch tán bởi các phần tử chất rắn tại bất kì vị trí nào của không
gian, đặc biệt là trái đất. Quá trình này dựa vào nhiều điều kiện môi trƣờng
nhƣ: thời tiết, khí hậu, sự ô nhiễm…Tia bức xạ đến tại bất kì điểm cho trƣớc
mang hình dạng khác nhau tùy thuộc vào vị trí địa lí của chúng, tọa độ thiên
văn, khoảng cách của chúng từ mặt trời, sự cấu thành của áp suất khí quyển và
địa hình địa phƣơng.
2.1.2. Bức xạ ngoài khí quyển
2.1.2.1. Bức xạ tiêu chuẩn ngoài khí quyển
Bức xạ tiêu chuẩn ngoài khí quyển, kí hiệu I 0 , là bức xạ mặt trời đến
đỉnh của khí quyển, còn đƣợc gọi là đỉnh của sự bức xạ khí quyển và đƣợc xác
định nhƣ sau
I 0  ICS . .

(2.1)

Trong đó

ICS  1367 W / m2  : là hằng số mặt trời.

 : là hệ số hiệu chỉnh của quỹ đạo trái đất, đƣợc xác định nhƣ sau
 2 nd
 365

  1  0.033cos 


.


(2.2)

(với nd là số ngày trong năm, nd  1 nếu là ngày 1/1, nd  365 nếu là ngày
31/12).
2.1.2.2. Bức xạ nằm ngang ngoài khí quyển
Tại thời điểm t của ngày, số lƣợng bức xạ tới cho mỗi đơn vị diện tích
của bề mặt nằm ngang theo hƣớng thiên đỉnh đƣợc gọi là bức xạ nằm ngang
ngoài khí quyển, và đƣợc kí hiệu hiệu là I t , đƣợc liên hệ với bức xạ tiêu chuẩn
ngoài khí quyển nhƣ sau
It  I 0cos z .

17

(2.3)


Với  z là góc đỉnh tại thời điểm t (góc giữa pháp tuyến tới bề mặt và hƣớng
của chùm tia trực tiếp), đƣợc tính nhƣ sau

cos  z  cos  cos  cos   sin  sin  .

(2.4)

Trong đó


 : là vĩ độ của địa điểm.



  23.45sin 



  15 12  Lat  : góc giờ.

 360  284  nd  
 , nd  1, 2,
365



,365 : góc lệch.

với Lat  Lst   Lstm  Lloc   Et là thời gian biểu kiến (“+” nếu là hƣớng tây, “-”
nếu là hƣớng đông), trong đó
Et  229.18  0.000075  0.001868cos   0.032077sin   0.014615cos 2  0.04089sin 2  .




2  nd  1
: góc ngày ( nd  1,365 ).
365

2.1.3. Bức xạ toàn phần
Bức xạ toàn phần, Gt , là tổng của chùm tia bức xạ trực tiếp I b và bức xạ
khuếch tán I d trên mặt phẳng nằm ngang.
Gt  Ib  I d .

(2.5)

2.1.3.1. Bức xạ trực tiếp
Bức xạ trực tiếp là bức xạ đi theo một đƣờng thẳng từ mặt trời đến mặt
đất. Đó là bức xạ đƣợc nhận từ mặt trời mà không bị tán xạ bởi khí quyển và
không bị bất cứ sự nhiễu nào.
Số lƣợng bức xạ trực tiếp đạt đƣợc ở bất kỳ bộ phận cụ thể nào của mặt
đất đƣợc xác định bởi vị trí của điểm, thời điểm của năm, hình dạng của bề
mặt…
2.1.3.2. Bức xạ khuếch tán
Sau khi bức xạ mặt trời đi vào bầu khí quyển của trái đất, một phần các
bức xạ này bị tán xạ và một phần bị hấp thụ. Bức xạ bị tán xạ này đƣợc gọi là
bức xạ khuếch tán. Một phần của bức xạ khuếch tán này một lần nữa đi trở lại
không gian và một phần xuống mặt đất.
2.1.4. Chỉ số sáng hàng ngày
Tỷ lệ của bức xạ toàn phần Gt đối với bức xạ nằm ngang ngoài khí
quyển I t đƣợc định nghĩa là chỉ số sáng và đƣợc ký hiệu là kt

18



×