Tải bản đầy đủ (.pptx) (46 trang)

Slide thuyết trình lý thuyết quyết định bayes

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.79 MB, 46 trang )

LÝ THUYẾT
QUYẾT ĐỊNH
BAYES

SVTH: Nhóm 3
GVHD: TS. Thái Bá Chiến

Chúng ta thảo luận về lý thuyết xác suất
như là khung cơ bản để đưa ra quyết định
trong điều kiện không chắc chắn. Trong phân
loại, ngun tắc Bayes được sử dụng để tính
tốn xác suất của các lớp. Chúng ta tổng quát
hóa để thảo luận về cách chúng ta có thể đưa ra
quyết định hợp lý giữa nhiều hành động để
giảm thiểu rủi ro dự kiến.

3.1 Giới thiệu

Lập trình máy tính để suy luận từ dữ liệu là sự kết hợp giữa thống kê và khoa
học máy tính, đến từ một quy trình khơng hồn tồn được biết đến thơng qua việc
mơ hình hóa quy trình như một quy trình ngẫu nhiên sử dụng lý thuyết xác suất để
phân tích nó
Ví dụ : Việc ném một đồng xu là một quy trình ngẫu nhiên chúng ta khơng thể dự
đốn ở mỗi lần ném liệu kết quả sẽ là mặt trước hay mặt sau, Nếu chúng ta áp
dụng vị trí ban đầu của nó, lực và hướng nơi bắt nó và cetera, kết quả chính xác
của lần ném có thể được dự đoán.

x = f(z)

Trong đó:
- x : cái quan sát được


- z : không cái quan sát được
- f : Hàm xác định kết quả từ phần kiến thức không thể quan sát được.

Vì khơng thể lập mơ hình theo cách này :
P(X =x)

x : một biến ngẫu nhiên được rút ra từ phân bố xác suất
(Nếu x = 1 ngửa hoặc x = 0 là sấp )

3.2 Phân loại

Trong đoạn văn trích từ sách, chúng ta đã
thảo luận về việc sử dụng định lý Bayes để xây
dựng mô hình đánh giá tín dụng trong ngân
hàng xem rủi ro khi họ trả lại khoản vay và ngân
hàng có lợi nhuận trong khi một số khách hàng
khác được xem là rủi ro cao khi họ không trả nợ.

Mục tiêu

Lọc được lớp "khách hàng rủi ro cao" để trong
tương lai có thể kiểm tra xem người đó có tuân
theo mô tả lớp hay không để chấp nhận hoặc từ

chối đơn đăng ký.

3.2 Phân loại

Chúng ta giả sử có hai thơng tin có thể quan sát được về khách hàng:
Thu nhập hàng năm và số tiết kiệm ( và )


Trong đó:
: Khách hàng rủi ro cao.

Khi có đơn đăng ký mới là ( = ) và ( = )
(Nếu (P(C=1|x1, x2) > 0.5) và từ chối nếu ngược lại)

3.3 Tổn thất và rủi ro

3.3.1 Tổn thất

Tổn thất là một giá trị đo lường mức độ thiệt hại hoặc mất mát
kinh tế, xã hội, hoặc cá nhân có thể phải chịu khi quyết định đưa
ra không chính xác

Trong đó: thường liên

: tổn thất kỳ vọng của một quyết định
: mọi khả năng của tham số mà chúng ta đang (quan sát
quan đến lớp ‘ rủi ro cao ’)
: tổn thất liên quan đến quyết định khi tham số là
: sác suất điều kiện của khi đã quan sát dữ liệu x

3.3.2 Rủi ro

Rủi ro là kỳ vọng (hay giá trị kỳ vọng) của tổn thất dưới điều kiện xác suất
của các giả thuyết.

Rủi ro được tính bằng cách tích của xác suất của mỗi kịch bản với tổn
thất tương ứng:


R

Trong đó :
Rrủi ro của bayes khi đưa ra quyết định
: hàm tổn thất

3.4 Hàm phân biệt

Được sử dụng trong bài toán phân loại giúp quyết định
xem một quan sát nào Đối với bài toán phân loại hai
lớp có thể được xây dựng để đánh giá giá trị của hàm
đối. Cụ thể, nếu giá trị lớn hơn một ngưỡng quan sát
được gán vào một lớp, ngược lại nếu nhỏ hơn thì
được gán vào lớp còn lại.

Giả sử có C lớp khác nhau và mỗi lớp có một hàm phân
phối có điều kiện P (X|Ci),với X là biến ngẫu nhiên đại
diện cho dữ liệu quan sát được đối với bài toán phân
loại, chúng ta muốn tính xác suất điều kiện P (C|X) tức là
xác suất để một quan sát thuộc về lớp C khi đã biết giá trị
của X.

Ví dụ thực tế :

Giả sử bạn là một nhà đầu tư và muốn đưa ra
quyết định về việc đầu tư vào một cổ phiếu. Bạn
có thể đặt ra các giả thuyết về tăng trưởng của
công ty và dựa vào dữ liệu thị trường để cập nhật
xác suất của mỗi giả thuyết. Tổn thất có thể được

đo lường bằng sự dao động của giá cổ phiếu, và
rủi ro là kỳ vọng của tổn thất dưới điều kiện xác
suất. Quyết định đầu tư của bạn có thể được đánh
giá bằng cách so sánh rủi ro của nhiều kịch bản
khác nhau.

3.4 Hàm phân biệt

 Được sử dụng trong bài toán phân loại giúp quyết
định xem một quan sát nào Đối với bài tốn phân
loại hai lớp có thể được xây dựng để đánh giá giá
trị của hàm đối.Cụ thể, nếu giá trị lớn hơn một
ngưỡng quan sát được gán vào một lớp, ngược lại
nếu nhỏ hơn thì được gán vào lớp cịn lại.

 Giả sử có C lớp khác nhau và mỗi lớp có một hàm
phân phối có điều kiện P (X|Ci), với X là biến ngẫu
nhiên đại diện cho dữ liệu quan sát được đối với
bài toán phân loại, chúng ta muốn tính xác suất
điều kiện P (C|X)tức là xác suất để một quan sát
thuộc về lớp C khi đã biết giá trị của X.

3.5 Lý thuyết hữu ích

Trong ngữ cảnh này, ngân hàng có thể có một hàm tiện ích cụ thể cho việc chấp
nhận hoặc từ chối một đơn vay dựa trên rủi ro dự kiến. Sự kết hợp giữa xác suất
và tiện ích được tính để đưa ra quyết định tối ưu. Điều này thường dẫn đến việc
đặt ra các câu hỏi như: "Đối với mỗi khách hàng, nếu chấp nhận đơn vay, ngân
hàng có thể có được một giá trị tiện ích là bao nhiêu?" hoặc "Nếu từ chỗi đơn vay,
ngân hàng có thể tránh được một khoản thiệt hại có giá trị là bao nhiêu?" Lý

thuyết tiện ích có thể giúp ngân hàng đưa ra quyết định dựa trên một sự cân nhắc
tổng thể giữa rủi ro và lợi nhuận mong đợi, đồng thời tạo ra một cơ sở quyết định
tối ưu dựa trên ước lượng xác suất và giá trị mong đợi.

3.5 Lý thuyết hữu ích

Giả sử có một ngân hàng đang sử dụng định lý
Bayes để đánh giá rủi ro của khách hàng khi cấp
vay. Mục tiêu của ngân hàng có thế là tối ưu hóa
một hàm tiện ích, thường được biểu diến như sau:

Trong đó:
- xác suất của khách hàng thuộc lớp dựa trên dữ
liệu quan sát được X (sử dụng định lý Bayes).
tiện ích hoặc giá trị mong đợi liên quan đến việc
chấp nhận khách hàng thuộc lớp .

3.6 Quy tắc hiệp hội

Quy tắc hiệp hội của định lý Bayes là một quy tắc toán học cho phép
chúng ta tính xác suất của một biến ngẫu nhiên dựa trên xác suất của các
biến ngẫu nhiên khác. Quy tắc này được biểu diễn bởi công thức sau:

P(A|B) =

Trong đó:
- A : biến ngẫu nhiên cần tính xác suất
- B : biến ngẫu nhiên được biết

Ví dụ:


Giả sử chúng ta có một hộp chứa 10 quả bóng,
trong đó có 7 quả màu đỏ và 3 quả màu xanh.
Chúng ta lấy ra một quả bóng một cách ngẫu
nhiên và thấy rằng nó có màu đỏ.

Chúng ta có thể sử dụng quy tắc hiệp hội của
định lý Bayes để tính xác suất rằng quả bóng
tiếp theo được lấy ra cũng có màu đỏ.

3.6 Quy tắc hiệp hội

Trong trường hợp này, biến ngẫu nhiên A là quả bóng tiếp theo được lấy ra
có màu đỏ, biến ngẫu nhiên B là quả bóng đầu tiên được lấy ra có màu đỏ.

P(A|B) = = =
=> Vậy xác suất rằng quả bóng tiếp theo được lấy ra cũng có màu đỏ là .

Quy tắc hiệp hội của định lý Bayes có nhiều ứng dụng thực tế trong các
lĩnh vực như phân tích dữ liệu, trí tuệ nhân tạo, và xử lý ngôn ngữ tự nhiên.

3.8 Ghi chú

Lịch sử phát triển của quyết định trong điều kiện không chắc chắn. Con
người đã sử dụng mọi nơi để tìm dấu hiệu giảm sự khơng chắc chắn, từ
thiên nhiên đến đối tượng hàng ngày. Lý thuyết xác suất chỉ xuất hiện
trong vài trăm năm và được đề cập đến sự đóng góp của các tác giả như
Laplace, Bernoulli. Các tác giả Russell và Norvig (1995) thảo luận về
giá trị thơng tin và đánh giá nó theo đơn vị tiền tệ. Quy tắc liên kết, được
sử dụng trong khai thác dữ liệu, đơn giản và quan trọng trong triển khai

trên cơ sở dữ liệu lớn. Các chương sau sẽ mở rộng về mơ hình đồ thị và
khái niệm biến ẩn.

BÀI TẬP CHƯƠNG 3

Câu 1 :Trong một bài toán hai lớp, tỷ lệ xác suất (likelihood ratio) được định nghĩa là

P(x | C₁): Xác ): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁): Xác
P(x | C₂): Xác ): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂): Xác
Hàm phân biệt dựa trên tỷ lệ xác suất là: [ \text{Hàm phân biệt} =

BÀI GIẢI

Câu 1. Tỷ số khả năng (Likelihood Ratio)
Tỷ số khả năng trong bài toán hai lớp được định nghĩa là:
Tỷ số khả năng = P(x | C₁): Xác ) / P(x | C₂): Xác )
Với:
P(x | C₁): Xác ): Xác suất của dữ liệu x xuất hiện cho biết lớp C₁): Xác là đúng.
P(x | C₂): Xác ): Xác suất của dữ liệu x xuất hiện cho biết lớp C₂): Xác là đúng.
Hàm phân biệt (Discriminant Function) dựa trên Tỷ số khả năng:
Hàm phân biệt có thể được viết dựa trên Tỷ số khả năng như sau:
Hàm phân biệt = log(Tỷ số khả năng) = log(P(x | C₁): Xác ) / P(x | C₂): Xác ))


×