Tải bản đầy đủ (.pdf) (33 trang)

ứng dụng phương pháp hồi quy bayes vào việc dự báo thời tiết

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.42 MB, 33 trang )

GVHD: TS. Hoàng Thị Lan Giao
HVTH: Nguyễn Thị Thu Hòa
TRƯỜNG ĐẠI HỌC LẠC HỒNG
KHOA CÔNG NGHỆ THÔNG TIN
  
ỨNG DỤNG PHƯƠNG PHÁP HỒI QUY BAYES
VÀO VIỆC DỰ BÁO THỜI TIẾT
NỘI DUNG CHÍNH
Phần I: Tổng quan về khai phá dữ liệu
Phần II: Giới thiệu chung về dự báo thời tiết
Phần III: Giới thiệu phương pháp học Bayes và phân
lớp Naive Bayes
Phần IV: Chương trình thực nghiệm và hướng phát triển

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1. Khái niệm khai phá dữ liệu
Là quá trình khai thác những thông tin tiềm ẩn
có tính dự đoán, những thông tin có nhiều ý nghĩa,
hữu ích từ những cơ sở dữ liệu lớn.
2. Kiến trúc của một hệ thống khai phá dữ liệu
3. Quy trình thực hiện khai phá dữ liệu
Xác định
dữ liệu
liên quan
Chuẩn bị
dữ liệu
Dữ liệu
trực tiếp
Thống kê,
báo cáo
Giải thuật


Data Mining
Tri thức
4. Một số phương pháp khai phá dữ liệu
a) Phân lớp bằng cây quyết định
Cây quyết định là cấu trúc biễu diễn dưới dạng
cây. Trong đó, mỗi nút trong (internal node) biễu
diễn một thuộc tính, nhánh (branch) biễu diễn giá trị
có thể có của thuộc tính, mỗi lá (leaf node) biểu
diễn các lớp quyết định và đỉnh trên cùng của cây
gọi là gốc (root). Cây quyết định có thể được dùng
để phân lớp bằng cách xuất phát từ gốc của cây và
di chuyển theo các nhánh cho đến khi gặp nút lá.
Trên cơ sở phân lớp này chúng ta có thể chuyển đổi
về các luật quyết định.


Xây dựng cây quyết định dựa trên thuật toán ID3
Thuật toán ID3 biểu diễn các khái niệm (concept) ở dạng
các cây quyết định (decision tree). Biểu diễn này cho phép
chúng ta xác định phân loại của một đối tượng bằng cách kiểm
tra các giá trị của nó trên một số thuộc tính nào đó.
Ý tưởng của thuật toán ID3:
ID3(D, target, Atts)
Trong đó:
D: tập dữ liệu huấn luyện đầu vào
Target: những thuộc tính mà giá trị được dự đoán bởi cây quyết
định
Atts: tập các thuộc tính cần kiểm thử trong quá trình xây dựng
cây
Kết quả trả về: 1 cây quyết định được xây dựng theo những giá

trị đầu vào


Ưu điểm của ID3
- Sử dụng thuật toán tìm kiếm leo đồi (hill -
climbing) dựa trên giá trị Gain để tìm kiếm các
thuộc tính trong toàn bộ cây quyết định
- Đầu ra (Output) chỉ là một giả thuyết đơn (1 kết
quả duy nhất)
- Không bao giờ gặp hiện tượng quay lui – tính hội
tụ cao
-
Khuyết điểm của ID3
- Chỉ thích hợp với mô hình có lượng dữ liệu ít, rời rạc
- Không thích ứng được với những tập dữ liệu tạp (dễ
phát sinh lỗi)
- Không hiệu quả khi xuất hiện những dữ liệu không
mong muốn
- Cây quyết định khi dựng ra vẫn còn có thể lớn, rườm
rà, chưa được tối ưu ở mức tối đa có thể

b) Phương pháp gom nhóm K - Means
Thuật toán K – Means chia dữ liệu thành k nhóm với k là một
số cho trước. Thuật toán này dùng giá trị trung bình của các điểm
trong cùng một nhóm làm tâm của nhóm đó.
Tiêu chuẩn để đánh giá trong giải thuật là hàm sai số bình
phương được định nghĩa như sau:


với x là các điểm thuộc nhóm C

i
và m
i
là giá trị trung bình của
nhóm C
i
Khoảng cách được sử dụng là khoảng cách Euclide:


với i = (x
i1
, …, x
iN
), j = (x
j1
, …, x
jN
) là hai điểm trong không gian N
chiều
2
1
||
i
k
i
i x C
E x m




2
1
( , ) | |
N
ik jk
k
d i j x x



GIỚI THIỆU CHUNG VỀ
DỰ BÁO THỜI TIẾT
1.Khái niệm về thời tiết và dự báo thời tiết
- Thời tiết
Là trạng thái khí quyển biểu hiện ở một khu vực
nhất định và trong một khoảng thời gian nhất định,
được đặc trưng bởi một số yếu tố khí tượng và hiện
tượng khí tượng điển hình.
- Dự báo thời tiết
Là thông báo trước tình hình thời tiết sẽ xảy ra
sau một khoảng thời gian và tại một khu vực địa lý
xác định.
2.Các nhân tố ảnh hưởng đến thời tiết
- Nhiệt độ không khí trung bình
Nhiệt độ không khí trung bình ngày được tính theo
phương pháp bình quân số học đơn giản từ kết quả của 4
lần quan trắc chính trong ngày tại các thời điểm 1h, 7h,
13h, 19h
- Độ ẩm không khí trung bình
Độ ẩm không khí tương đối trung bình ngày là bình

quân số học đơn giản từ kết quả 4 lần quan trắc chính
trong ngày tại các thời điểm 1h, 7h, 13h và 19h
- Mây
Không khí càng lên cao càng lạnh, đến độ cao
nào đó sẽ bão hòa hơi nước, tiếp tục lên cao, hơi nước
ngưng tụ thành những hạt nước nhỏ và nhẹ, các hạt
nước tụ thành đám gọi là mây.
- Mưa
Các hạt nước trong đám mây vận động, kết hợp
với nhau, ngưng tụ thêm, kích thước lớn hơn và rơi
xuống thành mưa.
3. Các phương pháp dự báo thời tiết
- Phương pháp dự báo thời tiết truyền thống – Phương
pháp Synốp
- Phương pháp dự báo số trị
- Phương pháp dự báo theo dấu hiệu địa phương
PHƯƠNG PHÁP HỌC BAYES VÀ
THUẬT TOÁN PHÂN LỚP NAIVE BAYES
1. Định lý Bayes
Định lý Bayes cho phép tính xác suất xảy ra
của một sự kiện ngẫu nhiên A khi biết sự kiện liên
quan B. Xác suất này được kí hiệu là P(A|B) và được
tính bởi công thức:


( | ) ( )
( | )
()
P B A P A
P A B

PB

2. Thuật toán phân lớp Naive Bayes
- Mỗi mẫu được biểu diễn bằng X=(x
1,
x
2,
…, x
n
) với
các thuộc tính a
1
, a
2
,…, a
n
-

Các lớp C
1
, C
2
, …, C
m
. Cho trước mẫu chưa biết X. X
được phân loại vào C
i
nếu và chỉ nếu:

Với (theo định lý Bayes)

- Phân lớp Naive Bayes giả định độc lập thuộc tính:


- Để phân lớp mẫu chưa biết X, ta tính P(X|C
i
)P(C
i
) cho
từng C
i
. NBC gán X vào lớp C
i
sao cho P(X|C
i
)P(C
i
) là
lớn nhất

( | ) ( | )
ij
P X C P X C
1,j m j i  
1
( | ) ( | )
n
i k i
k
P X C P X C




Ví dụ: xét bảng 1: bảng dữ liệu về thời tiết
N
g
à
y
Nhiệt
độ (t)
Độ
ẩm (t)
Lượng
mây (t)
Lượng
mưa (t)
Nhiệt
độ (s)
Độ
ẩm (s)
Lượng
mây (s)
Lượng
mưa (s)
1 26.2 77 27 0 25.4 76 9 0
2 25.4 76 9 0 25.4 73 30 0
3 25.4 73 30 0 24.6 79 30 0
4 24.6 79 30 0 24.9 76 30 0
5 24.9 76 30 0 25.5 78 20 0
6 25.5 78 20 0 25.0 75 35 0
7 25.0 75 35 0 24.1 73 35 0

8 24.1 73 35 0 24.3 68 34 0
9 24.3 68 34 0 23.8 76 33 0
10 23.8 76 33 0 24.5 76 33 0
11 24.5 76 33 0 25.3 75 25 0
12 25.3 75 25 0 25.4 76 36 0
13 25.4 76 36 0 25.9 75 17 0
14 25.9 75 17 0 26.3 77 32 16
15 26.3 77 32 16 25.7 82 24 0
16 25.7 82 24 0 25.6 81 30 0
17 25.6 81 30 0 25.7 81 10 0
18 25.7 81 10 0 27.1 75 22 0
19 27.1 75 22 0 26.9 73 9 0
20 26.9 73 9 0 26.0 69 20 0
21 26.0 69 20 0 24.7 71 20 0
22 24.7 71 20 0 25.9 73 36 0
23 25.9 73 36 0 25.7 74 17 0
24 25.7 74 17 0 25.3 81 30 71
25 25.3 81 30 71 25.3 75 32 0
26 25.3 75 32 0 25.3 72 30 0
27 25.3 72 30 0 25.0 77 39 0
28 25.0 77 39 0 27.2 72 30 0
29 27.2 72 30 0 26.2 77 14 0
30 26.2 77 14 0 25.4 78 30 0
31 25.4 78 30 0
25.7 74 22 0
-Biến nhiệt độ (kí hiệu ND), có các khoảng giá trị sau:
+ Thấp nếu ND nằm trong khoảng (0 – 25.5)
+ Trung bình nếu ND nằm trong khoảng (25.5 – 27.0)
+ Cao nếu ND (27.0 - + )
Tương tự ta có:

-Biến độ ẩm (kí hiệu ĐA):
+ Thấp nếu ĐA nằm trong khoảng (0 – 80)
+ Cao nếu ĐA nằm trong khoảng (80 - + )
-Biến lượng mây (kí hiệu MA):
+ Ít nếu MA nằm trong khoảng (0 – 20)
+ Nhiều nếu MA nằm trong khoảng (20 – 30)
+ Rất nhiều nếu MA nằm trong khoảng (30 - + )
-Biến lượng mưa (kí hiệu M):
+ Rải rác nếu M nằm trong khoảng (0 – 2)
+ Nhỏ nếu M nằm trong khoảng (2 – 50)
+ Lớn nếu M nằm trong khoảng (50 - + )






Sau khi phân lớp ta có bảng dữ liệu mới như sau:
Ngày
Nhiệt độ (t)
Độ ẩm (t)

Lượng mây (t)

Lượng mưa (t)
Nhiệt độ (s)
Độ ẩm (s)

Lượng mây (s)
Lượng mưa (s)


1 TB Thấp Nhiều Rải rác Thấp Thấp Ít Rải rác
2 Thấp Thấp Ít Rải rác Thấp Thấp Rất nhiều Rải rác
3 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
4 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
5 Thấp Thấp Rất nhiều Rải rác TB Thấp Nhiều Rải rác
6 TB Thấp Nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
7 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
8 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
9 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
10 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
11 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Nhiều Rải rác
12 Thấp Thấp Nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
13 Thấp Thấp Rất nhiều Rải rác TB Thấp Ít Rải rác
14 TB Thấp Ít Rải rác TB Thấp Rất nhiều Nhỏ
15 TB Thấp Rất nhiều Nhỏ TB Cao Nhiều Rải rác
16 TB Cao Nhiều Rải rác TB Cao Rất nhiều Rải rác
17 TB Cao Rất nhiều Rải rác TB Cao Ít Rải rác
18 TB Cao Ít Rải rác Cao Thấp Nhiều Rải rác
19 Cao Thấp Nhiều Rải rác TB Thấp Ít Rải rác
20 TB Thấp Ít Rải rác TB Thấp Nhiều Rải rác
21 TB Thấp Nhiều Rải rác Thấp Thấp Nhiều Rải rác
22 Thấp Thấp Nhiều Rải rác TB Thấp Rất nhiều Rải rác
23 TB Thấp Rất nhiều Rải rác TB Thấp Ít Rải rác
24 TB Thấp Ít Rải rác Thấp Cao Rất nhiều Lớn
25 Thấp Cao Rất nhiều Lớn Thấp Thấp Rất nhiều Rải rác
26 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
27 Thấp Thấp Rất nhiều Rải rác Thấp Thấp Rất nhiều Rải rác
28 Thấp Thấp Rất nhiều Rải rác Cao Thấp Rất nhiều Rải rác
29 Cao Thấp Rất nhiều Rải rác TB Thấp Ít Rải rác

30 TB Thấp Ít Rải rác Thấp Thấp Rất nhiều Rải rác
31 Thấp Thấp Rất nhiều Rải rác TB Thấp Nhiều Rải rác
Yêu cầu:
Áp dụng thuật toán Naive Bayes để phân
lớp cho một thể hiện mới sau đây:
<Cao, cao, ít, nhỏ>
trời có mưa hay không?
Thực hiện:
Bước 1: ta có 3 lớp C1 là mưa rải rác (RR), C2 là mưa
nhỏ, C3 là mưa lớn; tổng số mẫu là 31
-Số mẫu được phân lớp C1 là 29
xác suất mưa RR là : P(C1)=29/31=0.935
-Số mẫu được phân lớp C2 là 1
xác suất mưa nhỏ là: P(C2)=1/31=0.032
-Số mẫu được phân lớp C3 là 1
xác suất mưa lớn là: P(C3)=1/31=0.032
Ta lần lượt tính xác suất của các thuộc tính sau:
Nhiệt độ
Thấp|RR=17/29

TB|RR=12/29

Cao|RR=2/29

Thấp|nhỏ=17

TB|nhỏ=12

Cao|nhỏ=2


Thấp|lớn=17

TB|lớn=12

Cao|lớn=2

Độ ẩm
Thấp|RR=27/29

Cao|RR=4/29

Thấp|nhỏ=27

Cao|nhỏ=4

Thấp|lớn=27

Cao|lớn=4

Lượng mây
Ít|RR=6/29

Nhiều|RR=7/29

Rất nhiều|RR=18/29
Ít|nhỏ=6

Nhiều|mhỏ=7

Rất nhiều|nhỏ=18


Ít|lớn=6

Nhiều|lớn=7

Rất nhiều|lớn 18

Lượng mưa
RR|RR=29/29

Nhỏ|RR=1/29

Lớn|RR=1/29

RR|nhỏ=29

Nhỏ|nhỏ=1

Lớn|nhỏ=1

RR|lớn=29

Nhỏ|lớn=1

Lớn|lớn=1

×