Tải bản đầy đủ (.pdf) (89 trang)

TÌM HIỂU VỀ MẠNG BAYÉT VÀ ỨNG DỤNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.24 MB, 89 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

ĐỖ THỊ MINH HUYỀN

TÌM HIỂU VỀ MẠNG BAY - ÉT VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC

Hà Nội - Năm 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

ĐỖ THỊ MINH HUYỀN

TÌM HIỂU VỀ MẠNG BAY-ÉT VÀ ỨNG DỤNG

Chuyên ngành: Lý thuyết Xác suất và Thống kê Toán học
Mã số:

8460112.02
LUẬN VĂN THẠC SĨ KHOA HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC
TS. Trịnh Quốc Anh

Hà Nội - Năm 2019



Mục lục
Lời cảm ơn

3

Lời nói đầu

4

Chương 1. Kiến thức chuẩn bị

6

1.1

1.2

Lý thuyết đồ thị . . . . . . . . . . . . . . . . . . . . . . . . . . .

6

1.1.1

Định nghĩa đồ thị . . . . . . . . . . . . . . . . . . . . . .

6

1.1.2

Đường đi, Vết và Chu trình . . . . . . . . . . . . . . . .


7

Mạng nhân quả . . . . . . . . . . . . . . . . . . . . . . . . . . .

9

1.2.1

Suy luận không chắc chắn . . . . . . . . . . . . . . . . .

9

1.2.2

Các loại liên kết trong mạng nhân quả . . . . . . . . . .

12

1.2.3

d-tách biệt . . . . . . . . . . . . . . . . . . . . . . . . . .

15

1.2.4

Lớp Markov (Markov blanket) . . . . . . . . . . . . . . .

17


Chương 2. Giới thiệu về mạng Bay-ét
2.1

2.2

Mạng Bay-ét

19

. . . . . . . . . . . . . . . . . . . . . . . . . . . .

19

2.1.1

Định nghĩa mạng Bay-ét . . . . . . . . . . . . . . . . . .

19

2.1.2

Quy tắc chuỗi trong mạng Bay-ét . . . . . . . . . . . . .

21

2.1.3

Mối quan hệ của d - tách biệt và độc lập có điều kiện
trong mạng Bay-ét . . . . . . . . . . . . . . . . . . . . .


26

Cập nhật xác suất trong mạng Bay-ét . . . . . . . . . . . . . .

33

2.2.1

Phương pháp khử biến (Variable elimination) . . . . . .

33

2.2.2

Phương pháp dùng cây junction . . . . . . . . . . . . .

39

Chương 3. Thực hiện chạy thuật toán cây junction trên R với số
liệu thực tế

68

1


3.1

Mô tả dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . .


68

3.2

Phương pháp dùng cây junction . . . . . . . . . . . . . . . . . .

70

Kết luận

85

Tài liệu tham khảo

86

2


Lời cảm ơn
Lời đầu tiên, em xin gửi lời cảm ơn chân thành tới thầy hướng dẫn của em,
Tiến sĩ Trịnh Quốc Anh. Trong suốt quá trình làm luận văn, thầy đã luôn quan
tâm, giúp đỡ và hỗ trợ em trong việc đọc các tài liệu tham khảo, viết luận văn
và kiểm tra những sai sót trong luận văn. Em rất cảm ơn sự tận tình, thấu
hiểu và cổ vũ của thầy đã giúp em hoàn thành luận văn của mình.
Tiếp theo, em muốn gửi lời cảm ơn tới các thầy cô giáo trong khoa Toán Cơ - Tin học của trường Đại học Khoa học Tự nhiên - Đại học Quốc gia Hà
Nội. Các thầy cô không những giảng dạy và truyền đạt những kiến thức khoa
học vô cùng quý giá cho chúng em mà còn đưa cho chúng em những lời khuyên,
những bài học hữu ích trong cuộc sống. Em cũng chân thành cảm ơn sự động

viên, giúp đỡ của các bạn cùng lớp trong suốt hai năm qua.
Cuối cùng, em xin cảm ơn gia đình thân thương đã quan tâm, tạo điều kiện
và cổ vũ, động viên em để em hoàn thành luận văn của mình.
Hà Nội, ngày 26 tháng 02 năm 2019
Học viên
Đỗ Thị Minh Huyền

3


Lời nói đầu
Từ những năm đầu thập niên 80 của thế kỉ XX, Judea Pearl đã sáng tạo
ra mạng Bay-ét dựa trên quy tắc Bay-ét của nhà toán học người Anh Thomas
Bay-ét (1702 - 1761). Mạng Bay-ét là một mô hình đồ thị xác suất (Probabilistic Graphical Model) dùng để biểu diễn mối quan hệ xác suất giữa các biến
ngẫu nhiên và các độc lập có điều kiện thông qua một đồ thị có hướng không
có chu trình (Directed Acyclic Graph). Ta nói mạng Bay-ét có tính xác suất
vì mạng được xây dựng từ các phân bố xác suất và các quy tắc xác suất. Bên
cạnh đó, ta nói mạng Bay-ét có tính chất đồ thị bởi nó gồm tập đỉnh là các
biến ngẫu nhiên và tập cạnh có hướng là các mối quan hệ phụ thuộc giữa các
biến ngẫu nhiên đó dựa trên các xác suất có điều kiện giữa các biến. Phân bố
xác suất đồng thời của các biến được xác định bởi cấu trúc đồ thị của mạng.
Mạng Bay-ét được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau như kinh
tế, xã hội, y học, tin học, . . . với mục đích chính dùng để dự đoán, chẩn đoán,
lập luận, dự đoán chuỗi thời gian hay đưa ra những quyết định trong điều kiện
không chắc chắn.
Trong luận văn này, tôi sẽ trình bày những kiến thức cơ bản về mạng Bay-ét.
Luận văn được chia làm ba chương:
Chương 1. Kiến thức chuẩn bị. Chương này trình bày những khái niệm cơ
bản và tính chất của lý thuyết đồ thị, mạng nhân quả. Phần kiến thức này dựa
vào tài liệu tham khảo [1], [2], [3], [4], [6].

Chương 2. Giới thiệu về mạng Bay-ét. Chương này tập trung vào trình

4


bày mạng Bay-ét và hai phương pháp cập nhật lại xác suất của một biến ngẫu
nhiên X là phương pháp khử biến và phương pháp dùng cây junction. Trong
đó, tôi sẽ làm rõ định nghĩa của mạng Bay-ét, khái niệm d – tách biệt, và mối
quan hệ giữa d – tách biệt và các độc lập có điều kiện trong mạng Bay-ét. Phần
kiến thức này dựa vào các tài liệu tham khảo [4], [5], [6], [9].
Chương 3. Áp dụng: Thực hiện phương pháp cây junction cho bộ dữ liệu
thực tế.
Mặc dù đã hết sức cố gắng nhưng chắc chắn luận văn vẫn không tránh khỏi
những thiếu sót. Tôi rất mong nhận được những nhận xét, góp ý của quý thầy
cô và các bạn để luận văn được hoàn thiện hơn.
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 26 tháng 02 năm 2019
Học viên
Đỗ Thị Minh Huyền

5


Chương 1
Kiến thức chuẩn bị
Chương đầu tiên sẽ trình bày một số khái niệm cơ bản và tính chất của lý
thuyết đồ thị được sử dụng trong luận văn, mạng nhân quả và mạng Bay-ét.

1.1


Lý thuyết đồ thị

1.1.1

Định nghĩa đồ thị

Đồ thị là một cấu trúc rời rạc bao gồm một tập hợp các đỉnh và một tập
hợp các cạnh nối các đỉnh đó. Trong luận văn này, ta giả sử tập các đỉnh
là V = {A1 , . . . , An }. Mỗi cặp đỉnh Ai , Aj được liên kết với nhau bởi một
cạnh có hướng Ai → Aj hay Aj → Ai hoặc một cạnh vô hướng Ai − Aj với
Ai , Aj ∈ V, i = j. Ta cũng giả sử rằng với mỗi cặp đỉnh Ai , Aj , chỉ tồn tai duy
nhất một loại liên kết trong ba loại đó. Do đó, trong đồ thị không thể tồn tại
đồng thời hai kiểu liên kết Ai → Aj và Aj → Ai hay Ai → Aj và Ai − Aj . Kí
hiệu Ai → Aj tương đương với Aj ← Ai và kí hiệu Ai − Aj tương đương với
Aj − Ai . Ta kí hiệu Ai

Aj khi ta không quan tâm đến chiều liên kết (vô

hướng hay có hướng) của Ai và Aj .
Trong trường hợp hai đỉnh Ai và Aj liên kết với nhau theo kiểu Ai → Aj ,
ta nói rằng Ai là cha của Aj và Aj là con của Ai . Khi hai đỉnh Ai và Aj liên
kết với nhau theo kiểu Ai − Aj , ta nói rằng Ai là một lân cận của Aj và ngược
lại. Kí hiệu pa(A) là tập hợp các cha của đỉnh A.

6


Định nghĩa 1.1.1. (Đồ thị vô hướng). Một đồ thị G được gọi là vô hướng
nếu nó bao gồm tập các đỉnh V = {A1 , . . . , An } và một tập các cạnh E =
{Ai − Aj ; i, j ∈ {1, . . . , n}}.

Định nghĩa 1.1.2. (Đồ thị có hướng). Một đồ thị G được gọi là có hướng
nếu nó bao gồm một tập các đỉnh V = {A1 , . . . , An } và một tập cạnh E =
{Ai → Aj ; i, j ∈ {1, . . . , n}}.
1.1.2

Đường đi, Vết và Chu trình

Định nghĩa 1.1.3. (Đường đi). Ta nói rằng một dãy các đỉnh A1 , . . . , Ak
lập thành một đường đi trong đồ thị G nếu với mọi i = 1, k − 1, hai đỉnh Ai
và Ai+1 liên kết với nhau theo kiểu Ai → Ai+1 hoặc Ai − Ai+1 . Đỉnh A1 gọi là
đỉnh đầu, còn đỉnh Ak gọi là đỉnh cuối của đường đi.
Một đường đi gọi là có hướng nếu tồn tại một cạnh Ai → Ai+1 .
Định nghĩa 1.1.4. (Vết). Ta nói rằng một dãy các đỉnh A1 , . . . , Ak lập thành
một vết (trail) trong đồ thị G nếu với mọi i = 1, k − 1, hai đỉnh Ai và Ai+1
liên kết với nhau theo kiểu Ai

Aj .

Ví dụ 1.1.5. Cho một đồ thị G gồm 9 đỉnh A, B, C, D, E, F, G, H, I và tập
các cạnh của nó như hình sau.

Trong đồ thị G, ta thấy dãy A, C, D, E, I là một đường đi và do đó dãy này
cũng là một vết. Trong khi đó, dãy A, C, F, G, D là một vết nhưng không là
một đường đi do không có liên kết từ đỉnh G đến đỉnh D.

7


Định nghĩa 1.1.6. (Tổ tiên và Hậu duệ) Đỉnh A được gọi là một tổ
tiên (ancestor) của đỉnh B trong đồ thị G và đỉnh B được gọi là một hậu duệ

(descendant) của đỉnh A nếu tồn tại một đường đi có hướng A1 , . . . , Ak với
A = A1 và B = Ak .
Trong đồ thị G ở ví dụ 1.1.5, ta thấy F, G, I là hậu duệ của C. Tổ tiên của
C là A (thông qua đường đi A, C) và B (thông qua đường đi B, E, D, C).
Định nghĩa 1.1.7. (Thứ tự topo) Cho một đồ thị có hướng G = (V, E). Một
thứ tự các đỉnh A1 , . . . , An được gọi là một thứ tự topo tương ứng với đồ thị G
nếu mỗi khi ta có Ai → Aj ∈ E thì i < j.
Ở ví dụ 1.1.5, ta thấy dãy A, B, H, C, D, E, F, G, I là một thứ tự topo
tương ứng với đồ thị G đó. Chú ý rằng trong một đồ thị, tồn tại nhiều thứ tự
topo khác nhau. Ví dụ, ngoài thứ tự trên ta có một thứ tự topo khác tương
ứng với đồ thị G là A, H, B, E, D, C, F, G, I.

Định nghĩa 1.1.8. (Chu trình) Một chu trình là một đường đi A1 , . . . , Ak
trong đó A1 = Ak .
Một đồ thị được gọi là không có chu trình nếu nó không chứa bất kì chu trình
nào cả.
Đồ thị G trong ví dụ 1.1.5 là một đồ thị không có chu trình. Tuy nhiên, nếu
ta thêm một cạnh vô hướng A - E vào đồ thị G thì ta có một đường đi A, C,
D, E, A từ A vào chính nó. Khi đó, đồ thị G không còn là đồ thị không có chu
trình nữa. Tương tự, nếu ta thêm một cạnh có hướng E → A thì cũng tạo ta
một chu trình.
Định nghĩa 1.1.9. (Tập đầy đủ) Một tập các đỉnh được gọi là đầy đủ nếu
tất cả các đỉnh đều có liên kết đôi một với nhau.
Định nghĩa 1.1.10. (Clique) Một tập đầy đủ là một clique nếu nó không là
tập con của một tập đầy đủ khác (tập đầy đủ cực đại).
Định nghĩa 1.1.11. (Đỉnh đơn hình) Một đỉnh X được gọi là đỉnh đơn hình
nếu X thuộc vào một tập các lận cận đầy đủ.
8



Định nghĩa 1.1.12. (Cây) Cây là một đồ thị vô hướng liên thông không có
chu trình.

1.2

Mạng nhân quả

1.2.1

Suy luận không chắc chắn

Ví dụ 1.2.1. (Bài toán khởi động ô tô) Sáng nay, ô tô của tôi không khởi
động được. Tôi có thể nghe tiếng động cơ chạy nhưng không có gì xảy ra. Có
một vài nguyên nhân đối với vấn đề này. Vì tôi có thể nghe thấy tiếng động
cơ chạy nên vẫn có điện. Do đó, nguyên nhân cao nhất có thể xảy ra là do bị
trộm nhiên liệu tối qua hoặc bugi bị bẩn. Cũng có thể do bộ chế hòa khí bị bẩn
hoặc hệ thống đánh lửa bị hỏng hoặc vấn đề gì đó nghiêm trọng hơn. Để tìm ra
nguyên nhân, đầu tiên tôi nhìn vào đồng hồ nhiên liệu thì thấy còn một nửa
nhiên liệu. Do vậy, tôi quyết định đi làm sạch bugi.
Để máy tính thực hiện được kiểu suy luận tương tự vậy, ta cần có những
câu trả lời cho những câu hỏi như là:
- Điều gì khiến tôi kết luận rằng trong những nguyên nhân có thể xảy ra thì
"xăng bị trộm" và "bugi bẩn" là hai nguyên nhân có thể xảy ra nhất?
- Điều gì khiến tôi quyết định nhìn vào đồng hồ đo nhiên liệu và làm thế nào
có thể từ việc quan sát đồng hồ nhiên liệu khiến tôi kết luận về bugi vốn dường
như không liên quan?
Cụ thể hơn, ta cần các cách biểu diễn bài toán và các cách thể hiện suy luận
trong biểu diễn ấy sao cho máy tính có thể mô phỏng hoặc bắt chước được kiểu
suy luận này và có lẽ nó làm được tốt hơn và nhanh hơn con người.
Trong suy luận logic, ta sử dụng bốn kiểu liên kết logic là kết hợp, phân

tách, kéo theo và phủ định. Từ một tập hợp các khẳng định logic, ta có thể
suy ra những khẳng định mới. Khi ta phải giải quyết những sự kiện không
chắc chắn thì sẽ tốt hơn nếu ta có thể sử dụng những liên kết tương đương với
những sự kiện chắc chắn hơn là những giá trị thực được gán cho. Do đó, ta có
9


thể mở rộng các giá trị thực của các logic mệnh đề thành nhữn sự kiện chắc
chắn có giá trị từ 0 đến 1. Một chắc chắn 0 nghĩa là "chắc chắn không đúng"
và giá trị càng cao thì độ chắc chắn càng lớn. Chắc chắn 1 nghĩa là "chắc chắn
đúng".
Ví du, ta xem xét hai khẳng định logic sau: "Nếu tôi uống một tách cafe
vào giờ nghỉ giải lao thì tôi sẽ chắc chắn 0,5 tỉnh táo trong giờ học tiếp theo"
và "Nếu tôi đi bộ trong giờ nghỉ giải lao, tôi sẽ chắc chắn 0.8 tỉnh táo trong
giờ học tiếp theo". Câu hỏi đặt ra là tôi vừa đi bộ vừa uống cafe thì tôi sẽ chắc
chắn bao nhiêu tỉnh táo. Để trả lời câu hỏi này, ta cần một quy tắc làm thế
nào để kết hợp hai chắc chắn ấy. Nói cách khác, ta cần một hàm nhận hai chắc
chắn 0,5 và 0,8 và trả về một giá trị là kết quả của việc kết hợp hai khẳng định
ấy.
Tương tự với chuỗi khẳng định, "nếu a thì b với chắc chắn x" và "nếu b thì
c với chắc chắn y". Giả sử ta biết giá trị của a, vậy c là bao nhiêu.
Một cách để xây dựng tình huống cho bài toán suy luận không chắc chắn
là sử dụng một đồ thị biểu diễn mối quan hệ nhân quả giữa các sự kiện.
Ví dụ 1.2.2. (Bài toán khởi động ô tô rút gọn) Để đơn giản. ta giả
sử bài toán khởi động xe ô tô có bốn biến: biến "Nhiên liệu" nhận hai trạng
thái {còn, hết}, biến "Bugi" nhận hai trạng thái {sạch, bẩn}, biến "Đồng hồ
nhiên liệu" nhận ba trạng thái {đầy, một nửa, hết} và biến "Khởi động" nhận
hai trạng thái {có, không}. Ta biết rằng trạng thái của biến "Nhiện liệu" và
"Bugi" có ảnh hưởng nhân quả lên trạng thái của biến "Khởi động". Bên cạnh
đó, trạng thái của biến "Nhiên liệu" cũng có ảnh hưởng lên trạng thái của biến

"Đồng hồ nhiên liệu". Do đó, ta có thể biểu diễn bài toán bằng đồ thị sau.

10


Hình 1.1: Mối quan hệ nhân quả của các biến trong bài toán khởi động ô tô rút gọn.

Nếu ta thêm chiều từ thấp đến cao của các trạng thái là chiều dương vào
mỗi biến thì ta cũng có thể biểu diễn chiều của các ảnh hưởng. Với bài toán
trên, ta thấy tất cả các ảnh hưởng đều có chiều dương; nghĩa là độ chắc chắn
của các nguyên nhân càng di chuyển theo chiều dương thì độ chắc chắn của
các biến kết quả cũng di chuyển theo chiều dương.

Hình 1.2: Chiều ảnh hưởng của các biến trong bài toán khởi động ô tô rút gọn

Định nghĩa 1.2.3. (Mạng nhân quả) Mạng nhân quả là một đồ thị có
hướng không có chu trình G = (V, E) trong đó V là tập các biến và E là tập
các cạnh có hướng giữa các biến đó.
11


Một biến có thể có một tập các trạng thái đếm được hoặc liên tục, tuy nhiên
ta chỉ xem xét các biến có số trạng thái hữu hạn đếm được. Một biến chỉ lấy
chính xác một trong những trạng thái của nó.
Mạng nhân quả được sử dụng để theo dõi sự thay dổi của độ chắc chắn của
một biến ảnh hưởng như thế nào đến độ chắc chắn của các biến khác.
1.2.2

Các loại liên kết trong mạng nhân quả


1. Liên kết nối tiếp

Trong trường hợp này, biến A có ảnh hưởng đến biến B và biến B có ảnh
hưởng đến biến C. Hiển nhiên, bằng chứng về A sẽ ảnh hưởng đến độ chắc
chắn của B và khi đó sẽ ảnh hưởng đến độ chắc chắn của C. Tương tự,
bằng chứng về C sẽ ảnh hưởng đến độ chắc chắn của A thông qua B.
Ví dụ 1.2.4. Ta xét một mô hình nhân quả cho ba biến "Lượng mưa"
(không, ít, trung bình, nhiều), "Mực nước" (thấp, trung bình, cao) và "Lũ
lụt" (có, không).

Nếu ta không quan sát được mực nước thì khi biết có một trận lũ lụt sẽ
làm tăng niềm tin của ta rằng mực nước cao và từ đó nói cho ta biết về
lượng mưa. Mặt khác, nếu ta đã biết mực nước như thế nào thì khi biết
có trận lụt xảy ra sẽ không nói cho ta thông tin gì mới về lượng mưa.
12


2. Liên kết phân kỳ
Biến A có ảnh hưởng đến tất cả các con của A trừ phi ta biết trạng thái
của A. Nghĩa là, B, C, . . ., E là d- tách biệt khi cho trước A. Nếu A đã
biết trạng thái thì nó chặn sự truyền đạt thông tin giữa các con của nó.
Ví dụ 1.2.5. Ta xem xét một mô hình nhân quả thể hiện mối quan hệ
giữa ba biến "Giới tính" (nam, nữ), "Độ dài tóc" (dài, ngắn) và "Chiều
cao" (<168cm, ≤ 168cm).

Nếu ta không biết giới tính của một người thì khi nhìn thấy độ dài tóc sẽ
nói cho ta biết thêm về giới tính và từ đó sẽ cho ta biết về chiều cao của
người đó. Mặt khác, nếu ta biết người đó là nam thì độ dài tóc không cho
ta thông tin gì về chiều cao của anh ấy.
3. Liên kết hội tụ

13


Nếu ta không biết gì về biến A ngoài những suy luận từ hiểu biết về các
cha của nó B, C, . . ., E thì B, C, . . ., E độc lập với nhau: bằng chứng về
một trong các cha của A không ảnh hưởng đến độ chắc chắn của các cha
khác thông qua A. Kiến thức về một nguyên nhân có thể xảy ra của một
sự kiện không nói cho ta biết điều gì về những nguyên nhân khác. Tuy
nhiên, nếu ta biết được điều gì về các hệ quả thì thông tin về một nguyên
nhân có thể xảy ra có thể nói cho ta biết điều gì đó về những nguyên
nhân khác. Ví dụ trong bài toán khởi động ô tô ở trên: xe không khởi
động được và nguyên nhân tiềm ẩn bao gồm bugi bẩn và hết xăng. Nếu
ta biết rằng ô tô còn xăng thì độ chắc chắn về bugi bẩn sẽ tăng. Ngược
lại, nếu ta biết rằng ô tô đã hết xăng thì độ chắc chắn về bugi bẩn sẽ giảm.

Trong trường hợp ta biết được trạng thái của A hoặc trạng thái của một
hậu duệ của A thì B và C phụ thuộc vào nhau. Kí hiệu e là biến đã biết
trạng thái.

14


Ví dụ 1.2.6. Ta xét một mô hình nhân quả thể hiện mối quan hệ giữa bốn
biến "Khuẩn Salmonella", "Cúm", "Buồn nôn" và "Xanh xao". Khuẩn
Salmonella và cúm có thể gây ra tình trạng buồn nôn và từ đó khiến người
bệnh trở nên xanh xao.

Nếu ta không biết người bệnh có bị buồn nôn và xanh xao thì khi biết
người ấy nhiễm khuẩn Salmonella sẽ không nói cho ta biết người ấy có bị
cúm hay không. Tuy nhiên, nếu ta biết người bệnh bị xanh xao thì khi biết

người ấy không bị nhiễm khuẩn Salmonella sẽ khiến ta chắc chắn hơn về
việc người ấy bị cúm.
1.2.3

d-tách biệt

Định nghĩa 1.2.7. (d-tách biệt) Trong một mạng nhân quả, hai biến A và
B được gọi là d- tách biệt (d kí hiệu là có hướng - directed) nếu với mọi đường
15


đi giữa A và B, tồn tại một biến trung gian V (khác A và B) sao cho hoặc
- liên kết là nối tiếp hoặc phân kì và V đã biết trạng thái
hoặc
- liên kết là hội tụ và cả V và các hậu duệ của V đều không biết được trạng
thái.
Nếu A và B không là d - tách biệt thì ta gọi chúng là d - liên thông.
Ví dụ 1.2.8. Xét một mạng nhân quả với hai biến B và M đã biết trạng thái
của chúng.

Nếu A đã biết trạng thái thì nó có thể truyền thông tin đến D. Vì biến B bị
chặn nên bằng chứng không thể đi qua B vào E. Tuy nhiên, nó có thể đi vào
H và K. Vì biến con M của K đã biết trạng thái nên bằng chứng từ H có thể
truyền đến I và hơn nữa đến E, C, F, J và L. Do đó, đường đi A - D - H - K
- I - E - C - F - J - L là một đường đi d - liên thông. Vậy, biến A là d - tách
biệt chỉ với biến G.
Ví dụ 1.2.9. Ta xét thêm hai ví dụ sau:

16



Trong hình (a), tất cả biến lân cận C, D, G và H của E đều đã biết trạng thái
của chúng. Theo định nghĩa d - tách biệt, do A, C, E là liên kết nối tiếp và C
đã biết trạng thái nên E và A là d - tách biệt. Tương tự, E là B cũng là d tách biệt. Mặt khác, E, H, F tạo thành liên kết hội tụ và H đã biết trạng thái
nên E và F là d - liên thông.
Trong hình (b), ba biến lân cận B, C, D của F đã biết trạng thái. Ta thấy F là
d - tách biệt với tất cả ba biến chưa biết trạng thái còn lại là A, E, G.
Chú ý rằng mặc dù hai biến A và B là d - liên thông nhưng sự thay đổi niềm
tin của A không nhất thiết làm thay đổi niềm tin trong B. Để nhấn mạnh sự
khác biệt này, đôi khi ta nói rằng A và B là độc lập theo cấu trúc nếu A và B
là d - tách biệt.
Tuy nhiên, nếu A và B là d - tách biệt thì sự thay đổi độ chắc chắn của A
không có ảnh hưởng gì đến độ chắc chắn của B.
1.2.4

Lớp Markov (Markov blanket)

Định nghĩa 1.2.10. Lớp Markov của một biến A là tập hợp gồm các cha của
A, các con của A và các biến có chung với A một con.
Tính chất 1.2.11. Nếu tất cả các biến trong lớp Markov của biến A đều đã
biết trạng thái thì A là d - tách biệt với tất cả các biến còn lại trong mạng.
Chứng minh. Do mọi đường đi từ A đến các nút ngoài lớp Markov của nó là
liên kết nối tiếp hoặc phân kì và tất cả các nút trong lớp Markov của A đều
17


nhận được bằng chứng, nên theo định nghĩa, A là d - tách biệt với các nút
ngoài lớp Markov của nó.

Ví dụ 1.2.12. Ta xét một mạng nhân quả sau đây:


Lớp Markov của I là tập các biến {C, E, H, K, L}. Giả sử các biến trong lớp
Markov của I đều đã biết trạng thái. Ta thấy B, C, I tạo thành liên kết nối tiếp
và C đã biết trạng thái nên B và I là d - tách biệt. Bên cạnh đó, biến I và J
liên kết phân kì với nhau thông qua đường đi I-C-H-J và cả C và H đều đã biết
trạng thái nên I và J là d - tách biệt.

18


Chương 2
Giới thiệu về mạng Bay-ét
2.1

Mạng Bay-ét

2.1.1

Định nghĩa mạng Bay-ét

Định nghĩa 2.1.1. Một mạng Bay-ét là một mô hình xác suất đồ thị (G, Θ),
trong đó Θ là tập các tham số trong mạng, thỏa mãn đồng thời ba điều kiện
sau:
1. G = (V, E) là một đồ thị có hướng không có chu trình.
- V là tập các biến ngẫu nhiên {A1 , . . . , An }. Mỗi biến Ai có một tập hữu
hạn các trạng thái xung khắc lẫn nhau.
- E = (eij )i,j=1,n
¯ là một ma trận cỡ n × n, trong đó các phần tử eij được
xác định bởi


0 nếu Ai và Aj độc lập hoặc Ai là con của Aj
eij =
1 nếu i = j hoặc A là cha của A
i
j

(2.1)

2. Tại mỗi biến Ai được trang bị một bảng phân bố xác suất có điều kiện tương
ứng P (Ai |pa(Ai )). Nếu biến Ai không có cha thì P (Ai |pa(Ai )) = P (Ai ).
3. Phân bố xác suất đồng thời của n biến trong mạng được thể hiện qua công
thức

n

P (Ai |pa(Ai )).

P (A1 , . . . , An ) =
i=1

19

(2.2)


Khi cho trước một mạng Bay-ét cùng các xác suất có điều kiện P (Ai |pa(Ai ))
của từng biến Ai , i = 1, n, ta hoàn toàn có thể tính được các xác suất còn lại
trong mạng.
Ví dụ 2.1.2. Xét một mạng Bay-ét đơn giản gồm ba biến ngầu nhiên A, B và
C như sau:


Đây là một đồ thị có hướng có tập đỉnh

1

E=
0
0

V = {A, B, C} và tập cạnh

1 0

1 1

0 1

Cho trước ba xác suất có điều kiện ứng với từng biến là P(A), P(B|A) và
P(C|B). Phân bố xác suất đồng thời của ba biến là
P (A, B, C) = P (A)P (B|A)P (C|B).
Từ đây, ta hoàn toàn có thể tính được các xác suất còn lại của mạng dựa vào
P(A), P(B|A) và P(C|B). Thật vậy, ta có:
P (B) =

P (B, A) =
A

P (C) =

P (A)P (B|A),

A

P (C, B) =
B

P (B)P (C|B) =
B

P (A, B) P (A)P (B|A)
=
,
P (B)
P (B)
P (C, A, B)
P (C, A)
B
P (A|C) =
=
=
P (C)
P (C)

P (A)P (B|A)P (C|B),
B

A

P (A|B) =

P (A)P (B|A)P (C|A)

B

,
P (C)
P (C|B) P (A)P (B|A)
P (B, C) P (C|B)P (B)
A
P (B|C) =
=
=
,
P (C)
P (C)
P (C)
20


P (C, A)
P (C|A) =
=
P (A)
P (A, B|C) =
P (A, C|B) =
P (B, C|A) =
P (A|B, C) =
P (B|A, C) =

P (A, B, C)
P (C)
P (A, B, C)

P (B)
P (A, B, C)
P (A)
P (A, B, C)
P (B, C)
P (A, B, C)
P (A, C)

P (A, B, C)
B

P (A)
=
=
=
=
=

P (A)P (B|A)P (C|B)
=

B

P (A)

B

P (A)P (B|A)P (C|B)
,
P (C)

P (A)P (B|A)P (C|B)
,
P (B)
P (A)P (B|A)P (C|B)
= P (B|A)P (C|B),
P (A)
P (A)P (B|A)P (C|B) P (A, B)
=
= P (A|B),
P (C|B)P (B)
P (B)
P (A)P (B|A)P (C|B)
P (B|A)P (C|B)
=
,
P (A)P (B|A)P (C|B)
P (B|A)P (C|B)
B

P (C|A, B) =

P (B|A)P (C|B

=

B

P (A, B, C) P (A)P (B|A)P (C|B)
=
= P (C|B).

P (A, B)
P (A)P (B|A)

Định nghĩa của mạng Bay-ét không liên quan đến thuyết nhân quả và không
yêu cầu rằng các liên kết giữa các biến biểu diễn mối quan hệ nhân quả. Thay
vì vậy, ta yêu cầu các tính chất d - tách biệt phải đúng với cấu trúc của mạng.
Cũng có nghĩa là nếu A và B là d - tách biệt cho trước bằng chứng e thì
P (A|e) = P (A|B, e).
2.1.2

(2.3)

Quy tắc chuỗi trong mạng Bay-ét

Giả sử V = {A1 , . . . , An } là tập n biến ngẫu nhiên. Nếu ta truy cập vào
bảng xác suất đồng thời P (V ) = P (A1 , . . . , An ) thì ta cũng có thể tính được
các xác suất P (Ai ) và P (Ai |e) trong đó e là bằng chứng. Tuy nhiên, P(V) phát
triển theo cấp số mũ số các biến và V không nhất thiết phải rất lớn trước khi
bảng xác suất trở nên quá lớn. Do đó, ta cần tìm một biểu diễn chặt hơn cho
P(V), một cách lưu trữ thông tin mà từ đó P(V) có thể được tính toán nếu
cần thiết.
Mạng Bay-ét trên V là một cách biểu diễn như vậy. Đặt BN là một mạng
Bay-ét trên V và P(V) là một phân bố xác suất phản ánh các tính chất xác
định trên BN:
(i) P (Ai |pa(Ai )) ∀i = 1,¯n trong P(V) phải được xác định trong BN.
21


(ii) Nếu A và B là d - tách biệt trong BN cho trước tập C thì A và B là độc
lập có điều kiện cho trước C trong P(V).

Mệnh đề 2.1.3. (Quy tắc chuỗi tổng quát) Giả sử V = {A1 , . . . , An } là
tập các biến ngẫu nhiên. Khi đó phân bố xác suất đồng thời của P(V) là
P (V ) = P (An |X1 , . . . , An−1 )P (An−1 |A1 , . . . , An−2 ) . . . P (A2 |A1 )P (A1 ). (2.4)
Chứng minh. Áp dụng công thức xác suất có điều kiên, ta có:
P (V ) = P (A1 , . . . , An )
= P (An |X1 , . . . , An−1 )P (A1 , . . . , An−1 ),
P (A1 , . . . , An−1 ) = P (An−1 |A1 , . . . , An−2 )P (A1 , . . . , An−2 ),
..
.
P (A1 , A2 ) = P (A2 |A1 )P (A1 ).
Do đó,
P (V ) = P (An |A1 , . . . , An−1 )P (An−1 |A1 , . . . , An−2 ) . . . P (A2 |A1 )P (A1 ).
Định lý 2.1.4. (Quy tắc chuỗi cho mạng Bay-ét) Giả sử BN là một
mạng Bay-ét trên tập các biến ngẫu nhiên V = {A1 , . . . , An }. Khi đó BN xác
định một phân bố xác suất đồng thời duy nhất P(V) cho bởi công thức sau
n

P (Ai |pa(Ai )).

P (A1 , . . . , An ) =

(2.5)

i=1

trong đó P(V) phản ánh các tính chất của BN.
Chứng minh. Ta cần chứng minh ba ý sau:
(1) P(V) là một phân bố xác suất.
(2) P(V) phản ánh hai tính chất của mạng Bay-ét.
(3) Tính duy nhất của P(V).

(1) Để chứng minh P(V) là một phân bố xác suất, ta chứng minh ba điều
kiện:
i, 0 ≤ P (V ) ≤ 1. Điều này là hiển nhiên do mỗi xác suất 0 ≤ P (Ai |pa(Ai )) ≤ 1
22


với mọi i = 1,¯n.
...

ii,
A1 A2

P (A1 , . . . , An ) = 1.
An

Thật vậy, ta có:
...
A1 A2

P (A1 , . . . , An )
An

P (An |pa(An ))P (An−1 |pa(An−1 )) . . . P (A1 |pa(A1 ))

...

=
A1

A2


A1

A2

=

An

P (An |pa(An )) P (An−1 |pa(An−1 )) . . . P (A1 |pa(A1 ))

...
An


...

=
A1

A2


[1]P (An−1 |pa(An−1 )) . . . P (A1 |pa(A1 ))

An−1

. . . [1] . . . P (A2 |pa(A2 )P (A1 |pa(A1 )))

=

A1

A2

P (A2 |pa(A2 ) P (A1 |pa(A1 )))

=
A1

A2

[1]P (A1 |pa(A1 )))

=
A1

= 1.
iii, Giả sử Ai , Aj ∈ V và Ai ∩ Aj = ∅. Khi đó, P (Ai ∪ Aj ) = P (Ai ) + P (Aj ).
(2) Ta chứng minh P(V) phản ánh hai tính chất trong mạng Bay-ét BN.
i, P(V) phản ánh các xác suất có điều kiện trong BN.
ii, P(V) phản ánh các tính chất d - tách biệt.
Ta sẽ chứng minh ý (ii) bằng phương pháp quy nạp theo số biến n có trong V.
Khi mạng BN chỉ có một biến (n=1) thì mệnh đề hiển nhiên đúng.
Giả sử rằng với một mạng Bay-ét có n-1 biến và một phân bố P(V) xác định
bởi tích tất cả các xác suất có điều kiện, nếu A và B là d - tách biệt cho trước
C thì P (A|C) = P (A|B, C).
Ta sẽ chứng minh tính chất d - tách biệt này cũng đúng với mạng Bay-ét có n
biến.
23



×