Tải bản đầy đủ (.pdf) (184 trang)

(Luận án tiến sĩ) Khôi Phục Tính Nhất Quán Và Tích Hợp Tri Thức Sử Dụng Mô Hình Xác Suất

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.02 MB, 184 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

NGUYỄN VĂN THẨM

KHƠI PHỤC TÍNH NHẤT QN VÀ TÍCH HỢPTRI THỨC SỬ DỤNG MƠ HÌNH XÁC SUẤT

LUẬN ÁN TIỄN SĨ HỆ THỐNG THÔNG TIN

Hà Nội - 2021

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

NGUYỄN VĂN THẨM

KHƠI PHỤC TÍNH NHẤT QN VÀ TÍCH HỢPTRI THỨC SỬ DỤNG MƠ HÌNH XÁC SUẤT

Chuyên ngành Hệ thống thông tinMã số: 9480104.01

LUẬN ÁN TIỄN SĨ HỆ THỐNG THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:1. GS.TSKH Nguyễn Ngọc Thành2. TS Trần Trọng Hiếu

Hà Nội - 2021

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Tôi xin cam đoan luận án “Khôi phục tính nhất quán và tíchhợp tri thức sử dụng mơ hình xác suất ” là cơng trình nghiên cứu củariêng tơi. Các số liệu, kết quả được trình bày trong luận án là hoàn toàntrung thực và chưa từng được cơng bố trong bất kỳ một cơng trình nàokhác.

<small></small> Tơi đã trích dẫn đầy đủ các tài liệu tham khảo, cơng trình nghiên cứuliên quan ở trong nước và quốc tế. Ngoại trừ các tài liệu tham khảonày, luận án hồn tồn là cơng việc của riêng tơi.

<small></small> Trong các cơng trình khoa học được cơng bố trong luận án, tơi đã thểhiện rõ ràng và chính xác đóng góp của các đồng tác giả và những gìdo tơi đã đóng góp.

<small></small> Luận án được hồn thành trong thời gian tôi làm Nghiên cứu sinh tạiBộ môn Các Hệ thống Thông tin, Khoa Công nghệ Thông tin, TrườngĐại học Công nghệ, Đại học Quốc gia Hà Nội.

Tác giả:

Hà Nội:

i

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

LỜI CẢM ƠN

Trước hết, tôi muốn bày tỏ sự biết ơn vô hạn đến GS.TSKH.Nguyễn Ngọc Thành - Trường Đại học Công nghệ Wroclaw, Ba Lan. Thầyđã truyền cho tôi niềm đam mê nghiên cứu khoa học, ln tận tâm, độngviên, khuyến khích và hướng dẫn tận tình để tơi có thể đạt được nhữngthành cơng trong lĩnh vực nghiên cứu của mình. Tơi đã học hỏi được rấtnhiều điều từ GS.TSKH Nguyễn Ngọc Thành: về những cống hiến khôngbiết mệt mỏi của Thầy cho tri thức nhân loại, về tình u đất nước và cảnhững đóng góp cho q hương của Thầy.

Tơi cũng muốn bày tỏ lòng biết ơn sâu sắc tới TS. Trần Trọng Hiếu- Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội. Thầy không chỉhướng dẫn cho tôi những kiến thức về học thuật mà Thầy cịn ln đồnghành với tơi cả những khó khăn trên con đường nghiên cứu khoa học cũngnhư những khó khăn trong cuộc sống đời thường.

Tôi xin chân thành cảm ơn tới tập thể các thầy cô giáo, các nhàkhoa học thuộc Trường Đại học Cơng nghệ (đặc biệt là các thành viên củaPhịng thí nghiệm khoa học dữ liệu và công nghệ tri thức – DS và KTlab) -Đại học Quốc gia Hà Nội đã giúp đỡ về chuyên môn và tạo điều kiện thuậnlợi cho tôi trong suốt thời gian học tập và nghiên cứu. Trong đó, tơi xin trântrọng cảm ơn PGS.TS. Hà Quang Thụy, người Thầy đã ln có những gópý q báu cho tơi trong q trình tơi nghiên cứu tại Trường.

Tôi bày tỏ sự biết ơn đến Ban giám hiệu và Lãnh đạo Khoa Côngnghệ Thông tin - Trường Đại học Sư phạm Kỹ thuật Nam Định đã tạo mọiđiều kiện thuận lợi cho tơi trong q trình học tập và nghiên cứu; cảm ơncác đồng nghiệp Khoa Công nghệ Thông tin đã cổ vũ, động viên và sát cánhbên tơi trong suốt q trình học tập và nghiên cứu.

Tôi muốn cảm ơn đến tất cả những người bạn, các anh chị em NCS,những đồng nghiệp của tôi, và đặc biệt là gia đình Thầy Trần Trọng Hiếu.Những người đã ln chia sẻ với tơi những khó khăn, giúp đỡ tôi rất nhiềucả về tinh thần lẫn vật chất.

Cuối cùng, tơi xin bày tỏ lịng biết ơn vơ hạn đối với gia đình nộingoại hai bên của tơi, đã luôn ủng hộ tôi trong thời gian qua. Đặc biệt làmẹ tôi, vợ tôi Kiều Loan, hai con gái tôi Linh Giang và Hoài Giang, nhữngngười phụ nữ quan trọng đối với tơi, đã ln khắc phục mọi khó khăn trongcuộc sống, sát cánh, động viên và là hậu phương vững chắc để tơi có thểhồn thành được luận án này.

NCS. Nguyễn Văn Thẩm

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

TÓM TẮT

Trong quá trình phát triển của hệ thống dựa trên tri thức, tích hợp trithức được hiểu là q trình tạo ra một tri thức mới từ một tập các tri thứckhác nhau; trong đó giữa các tri thức đầu vào có thể không đầy đủ và khôngnhất quán với nhau, hoặc bản thân mỗi tri thức đầu vào cũng có thể khôngđầy đủ và tồn tại mâu thuẫn nội tại. Do đó, giải quyết tính khơng nhấtqn của cơ sở tri thức là một nhiệm vụ thiết yếu trước khi tiến hành tíchhợp các cơ sở tri thức. Đề xuất các cách tiếp cận để giải quyết bài tốn tíchhợp cơ sở tri thức trong môi trường xác suất là một nhiệm vụ trọng tâmtrong quá trình xây dựng một hệ thống dựa trên cơ sở tri thức xác suất.

Luận án đề xuất một sơ đồ nguyên lý chung của hệ thống tích hợp trithức xác suất. Từ sơ đồ nguyên lý chung này, luận án tiến hành đề xuất cácgiải pháp để thực hiện hai giai đoạn chính của sơ đồ ngun lý: Giai đoạnkhơi phục tính nhất qn trong cơ sở tri thức xác suất và giai đoạn tích hợpcác cơ sở tri thức xác suất. Nội dung của luận án được tóm tắt như sau:

(i) Khảo sát về các phương pháp xử lý tính khơng nhất qn và các phươngpháp tích hợp tri thức.

- Khảo sát và đánh giá các hệ thống tích hợp tri thức hiện có; đề xuấtmột sơ đồ nguyên lý chung của hệ thống tích hợp tri thức xác suất vàso sánh với hệ thống hiện có.

- Khảo sát và đánh giá một số phương pháp xử lý tính khơng nhấtqn và một số phương pháp tích hợp tri thức dạng lơgic, lơgic-xácsuất, xác suất.

(ii) Đề xuất phương pháp khơi phục tính nhất qn trong cơ sở tri thứcxác suất: Mơ hình khơi phục tính nhất quán của cơ sở tri thức xácsuất theo chuẩn và mơ hình khơi phục tính nhất qn của cơ sở trithức xác suất phi chuẩn;

- Phân loại, đánh giá và làm cho lớp độ đo không nhất quán thôngdụng nhất của cho cơ sở tri thức dạng lôgic, lôgic-xác suất phù hợpvới dạng xác suất bằng cách xem xét các tính chất kỳ vọng mà chúngcần phải thỏa mãn.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

- Đề xuất tốn tử khơi phục theo chuẩn và tốn tử khơi phục phi chuẩncho cơ sở tri thức dạng xác suất; xem xét và chứng minh một tập cáctính chất kỳ vọng mà các tốn tử khơi phục này nên thỏa mãn.- Phát biểu và chứng minh các bài tốn khơi phục tính nhất qn.- Đề xuất các thuật tốn khơi phục tính nhất quán; đánh giá độ phứctạp của các thuật toán bằng chứng minh tốn học; cài đặt, đánh giávà phân tích về độ tin cậy của các kết quả thu được cũng như chi phíthực hiện các thuật tốn trong các mơ hình đã đề xuất trên các bộthực nghiệm.

(iii) Đề xuất phương pháp tích hợp các cơ sở tri thức xác suất: Mơ hìnhtích hợp dựa theo khoảng cách và mơ hình tích hợp dựa trên giá trịxác suất.

Với cách tiếp cận dựa trên khoảng cách:- Khảo sát 21 hàm khoảng cách phân kỳ.

- Đề xuất các tốn tử tích hợp tri thức xác suất; xem xét và chứngminh một tập các tính chất kỳ vọng mà các tốn tử tích hợp tri thứcxác suất này nên thỏa mãn.

- Phát biểu và chứng minh các bài tốn tích hợp tri thức xác suất dựatrên khoảng cách.

- Đề xuất các thuật tốn tích hợp tri thức xác suất dựa trên khoảngcách; đánh giá độ phức tạp của các thuật toán bằng chứng minh tốnhọc; cài đặt, đánh giá và phân tích về độ tin cậy của các kết quả thuđược cũng như chi phí thực hiện các thuật tốn trong các mơ hình đãđề xuất trên các bộ thực nghiệm.

Với cách tiếp cận dựa trên giá trị xác suất:

- Đề xuất hai tốn tử tích hợp tri thức xác suất; xem xét một tập cáctính chất kỳ vọng mà hai tốn tử tích hợp tri thức xác suất này nênthỏa mãn.

- Đề xuất các thuật tốn tích hợp tri thức xác suất dựa trên giá trịxác suất; đánh giá độ phức tạp của các thuật tốn bằng chứng minhtốn học.

Từ khóa: Tích hợp tri thức, cơ sở tri thức xác suất, độ đo khơng nhấtqn, tốn tử khơi phục tính nhất qn, tốn tử tích hợp.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

Lời cam đoan i

1.1 Các phương pháp biểu diễn tri thức . . . 12

1.2 Biểu diễn CSTT xác suất . . . 14

2.1.1 Bài tốn xử lý tính khơng nhất qn . . . 28

2.1.2 Độ đo không nhất quán . . . 29

2.1.3 Các phương pháp xử lý tính khơng nhất quán . . . 32v

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

3.1.1 Các tính chất của các độ đo khơng nhất qn . . . 48

3.1.2 Lớp độ đo không nhất quán cơ sở . . . 50

3.1.3 Độ đo không nhất quán dựa theo chuẩn. . . 51

3.1.4 Độ đo không nhất quán phi chuẩn . . . 56

3.1.5 Các thuật tốn tính độ đo khơng nhất qn . . . 59

3.2 Khơi phục tính nhất qn của CSTT xác suất . . . 65

3.2.1 Mơ hình khơi phục tính nhất qn. . . 65

3.2.2 Các tính chất của tốn tử khơi phục tính nhất qn . 683.2.3 Lớp các tốn tử khơi phục tính nhất qn . . . 69

3.2.4 Thuật tốn tính giá trị xác suất của các RBXS trongCSTT xác suất . . . 80

3.2.5 Thuật tốn khơi phục tính nhất quán của CSTT xác suất 823.3 Kết luận chương . . . 85

Chương 4. PHƯƠNG PHÁP TÍCH HỢP CÁC CƠ SỞ TRITHỨC XÁC SUẤT 864.1 Phương pháp tích hợp các CSTT xác suất dựa trên khoảng cách 864.1.1 Mơ hình tích hợp các CSTT xác suất dựa trên khoảng cách 864.1.2 Véctơ xác suất thỏa mãn của CSTT xác suất . . . 88

4.1.3 Các tính chất của tốn tử tích hợp TTXS dựa trênkhoảng cách . . . 92

4.1.4 Lớp các bài tốn tích hợp dựa trên khoảng cách . . . . 94

4.1.5 Lớp toán tử tích hợp TTXS dựa trên khoảng cách . . 97

4.1.6 Thuật tốn tích hợp các CSTT xác suất dựa trên khoảngcách . . . 106

4.2 Phương pháp tích hợp các CSTT xác suất dựa giá trị xác suất 1104.2.1 Mơ hình tích hợp các CSTT xác suất dựa trên giá trịxác suất . . . 110

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

4.2.2 Các tính chất của tốn tử tích hợp TTXS dựa trên giá

4.3 Thực nghiệm tích hợp các cơ sở tri thức xác suất . . . 120

4.3.1 Mục đích và giả thiết thực nghiệm . . . 121

4.3.2 Cấu hình thực nghiệm . . . 122

4.3.3 Triển khai thực nghiệm . . . 124

4.3.4 Kết quả, ý nghĩa thực tiễn và phân tích. . . 125

4.4 Kết luận chương . . . 137

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 138DANH MỤC CÁC CƠNG TRÌNH KHOA HỌC 142TÀI LIỆU THAM KHẢO 143Phụ lục A 1A.1 Các hình vẽ . . . . 1

A.2 Các bảng tổng hợp kết quả tính tốn . . . . 3

A.3 Độ phức tạp của các thuật toán . . . 14

A.4 Bộ thực nghiệm . . . 20

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<small>Từ viết tắt</small> Tiếng Việt Tiếng Anh

THTT Tích hợp tri thức Merging KnowledgeRBXS Ràng buộc xác suất Probabilistic ConstraintTTXS Tri thức xác suất Probabilistic KnowledgeKCPK Khoảng cách phân kỳ Divergence Distance

theo chuẩn <sup>Norm Based Optimization</sup>ProblemsUNOP Bài toán tối ưu phi chuẩn Unnormalized Optimization

nhất quán <sup>Computing Inconsistency Mea-</sup>sureFPVPC Tìm giá trị xác suất của

các RBXS <sup>Finding the Probability Values</sup>of Probabilistic ConstraintsRCK Khơi phục tính nhất quán

của CSTT xác suất <sup>Restoring the Consistency of a</sup>Probabilistic Knowledge BaseFSPVK Tìm véctơ xác suất thỏa

mãn của một CSTTxác suất

Finding the Satisfying bility Vector of a ProbabilisticKnowledge Base

Proba-FPMV Tìm véctơ tích hợp xác

suất của một hồ sơ TTXS <sup>Finding Probability Merging</sup>Vector of a Probabilistic ledge Base Profile

Know-FCKM Tìm CSTT xác suất nhấtqn sau khi tiến trìnhtích hợp

Finding a Consistent listic Knowledge Base after theMerging Process

Constraintsviii

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Từ viết tắt Tiếng Việt Tiếng Anh

SUA Tính siêu cộng tính Super-Additivity

MIS Tính phân tách MI MIS-SeparabilityFCI Tính độc lập của ràng

buộc tự do <sup>Free-constraint independence</sup>SCI Tính độc lập của ràng

buộc an tồn <sup>Safe-constraint independence</sup>

SPR Tính bảo tồn cấu trúc Structure Presevation

vào cú pháp <sup>Irrelevance of Syntax</sup>NOD Tính phi độc tài Non-DictatorshipWIA Tính lựa chọn khơng phù

hợp yếu

Weak Irrelevant Alternatives

phù hợp <sup>Irrelevant Alternatives</sup>CP Tính nhất quán Consistency PrincipleSCP Tính nhất quán mạnh Strong ConsistencyEIP Tính bất biến rỗng Empty Invariance

PIP Tính bất biến dương Positive Invariance

SDP Tính bất đồng mạnh Strong disagreement

MVP Giá trị trung vị Mean Value Property

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

2.4 So sánh hệ chuyên gia dựa trên luật và dựa trên xác suất. . 42

2.5 So sánh giữa hệ thống THTT đề xuất với hệ thống THTT đãtồn tại . . . 46

3.1 Các độ đo không nhất quán cơ sở . . . 50

3.2 Mối liên hệ giữa các thuật tốn khơi phục tính nhất qn vớicác định lý xây dựng và độ phức tạp của các thuật toán . . . 84

3.3 So sánh các phương pháp khơi phục tính nhất qn trên mơhình xác suất . . . 84

4.1 Mối liên hệ giữa các thuật toán đề xuất với các định lý xâydựng và độ phức tạp của các thuật toán . . . 119

4.2 Số biến tối ưu hóa n, số ràng buộc m, ước tính hiệu suất chocác thuật tốn khác nhau . . . 122

4.3 Tập các sự kiện biểu diễn mối quan hệ giữa 3 dạng bệnh ungthư và 5 triệu chứng liên quan . . . 123

4.4 So sánh phương pháp THTT trên mơ hình xác suất . . . 136

A.1 Mối liên hệ giữa các độ đo KNQ của CSTT xác suất và cáctính chất kỳ vọng. . . 3

A.2 Các độ đo KNQ của CSTT xác suất <small>K1,K2,K3,K4</small> và<small>K5</small> . . 4

A.3 Các véctơ vi phạm <small>K1,K2,K3,K4,K5</small> theo p-norm . . . . 5

A.4 Xác suất mới của các RBXS trong <small>K1</small> và<small>K5</small> dựa trên bài tốntối ưu khơng ràng buộc . . . . 5

x

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

A.5 Các véctơ xác suất khôi phục thỏa mãn theo <small>1</small>-norm, <small>2</small>-norm,

A.8 Các véctơ xác suất thỏa mãn của <small>K1,K2,K3,K4,K5</small> . . . . 7

A.9 Mối liên hệ giữa các tốn tử tích hợp TTXS dựa trên khoảngcách và các tính chất kỳ vọng. . . 8

A.10Các véctơ tích hợp xác suất của <small>R</small> theo <small>1</small>-norm . . . . 9

A.11Các véctơ tích hợp xác suất của <small>R</small> theo <small>2</small>-norm . . . 10

A.12Các véctơ tích hợp xác suất của <small>R</small> theo <small>∞</small>-norm . . . 11

A.13Các véctơ tích hợp xác suất của <small>R</small> theo phi chuẩn . . . 12

A.14Cơ sở TTXS mới <small>K∗</small> sau khi tích hợp theo <small>1</small>-norm sử dụngcác hàm KCPK khác nhau . . . 12

A.15Cơ sở TTXS mới <small>K</small><sup>∗</sup> sau khi tích hợp theo <small>2</small>-norm sử dụngcác hàm KCPK khác nhau . . . 13

A.16Cơ sở TTXS mới <small>K</small> sau khi tích hợp theo <small>∞</small>-norm sử dụngcác hàm KCPK khác nhau . . . 13

A.17Cơ sở TTXS mới <small>K</small> sau khi tích hợp theo phi chuẩn sử dụngcác hàm KCPK khác nhau . . . 13

A.18CSTT xác suất <small>K0</small> sau khi sử dụng toán tử tích hợp TTXS<small>MMO</small> và <small>CMMO</small> . . . 14

A.19CSTT xác suất <small>K∗</small> sau khi giảm RBXS . . . 14

A.20Tri thức của các bác sĩ cho bộ Thực nghiệm 1 . . . 20

A.21Tri thức của các bác sĩ cho bộ Thực nghiệm 2 . . . 20

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

1 Thống kê cơng trình khoa học về xử lý tính KNQ và giải quyếtbài tốn tích hợp trong các hệ thống dựa trên tri thức trên

ScienceDirect giai đoạn 1997-2020. . . 5

2 Sơ đồ tổng quan về các giải pháp, các cơng cụ cho các mơhình THTT và hướng nghiên cứu của luận án. . . 7

3 Cấu trúc luận án. . . . 10

2.1 Sơ đồ nguyên lý của hệ thống dựa trên tri thức xác suất. . . 43

2.2 Tiến trình tích hợp các CSTT xác suất.. . . 44

3.1 Mơ hình tổng qt khơi phục tính nhất qn . . . 66

3.2 Mơ hình khơi phục tính nhất qn dựa theo chuẩn . . . 70

3.3 Mơ hình khơi phục tính nhất qn phi chuẩn . . . 77

4.1 Mơ hình tổng qt tích hợp các CSTT xác suất dựa theokhoảng cách . . . 87

4.2 Mơ hình tổng qt tích hợp các CSTT xác suất dựa theo giátrị xác suất . . . 111

4.3 So sánh chất lượng của các RBXS sau tiến trình tích hợp vớiThực nghiệm 1. . . . 127

4.4 So sánh chất lượng của các RBXS sau tiến trình tích hợp vớiThực nghiệm 2. . . . 128

4.5 So sánh kết quả tích hợp theo <small>1</small>-norm với các hệ số khác nhaucủa hàm KCPK A-Div, NA-Div cho Thực nghiệm 1. . . . 130

4.6 So sánh kết quả tích hợp theo <small>1</small>-norm với các hệ số khác nhaucủa hàm KCPK AI-Div, NAI-Div và C-Div cho Thực nghiệm 1.1314.7 So sánh kết quả tích hợp theo <small>1</small>-norm với các hệ số khác nhaucủa hàm KCPK D-Div, CS-Div và R-Div cho Thực nghiệm 1. 1324.8 Chi phí của các thuật tốn cho Thực nghiệm 1. . . . 133

4.9 Chi phí của các thuật toán cho Thực nghiệm 2. . . . 134

A.1 Mơ hình chung cho tiến trình THTT [60] . . . . 1

A.2 Các thành phần cơ bản của một hệ thống dựa trên tri thức [17] 2

xii

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Ký hiệu Diễn giải ý nghĩa

A<small>K</small> Ma trận đường chéo kép của <small>K</small>

<small>I(K)</small> Độ đo không nhất qn của CSTT <small>K</small>.

<small>⊕(ρ1, ρ2)</small> Tốn tử tích hợp trung vị của <small>ρ1, ρ2</small>

<sub>c</sub><small>(ρ1, ρ2)</small> Tốn tử tích hợp trung vị theo hệ số c của <small>ρ1, ρ2</small>

xiii

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Cơ sở nghiên cứu

Tích hợp tri thức (THTT - Knowledge Integration hoặc Merging ledge) là nhiệm vụ quan trọng khi ta muốn kết hợp một số hệ thống dựatrên tri thức (Knowledge-base System) lại thành một hay để làm cho chúngcó thể tương tác với nhau. Như vậy, THTT là một lĩnh vực nghiên cứu quantrọng trong quá trình xây dựng một hệ thống dựa trên tri thức. Hệ thốngdựa trên tri thức là một hệ thống được máy tính hóa tạo ra và sử dụng cơsở tri thức (CSTT - Knowledge Base) từ các nguồn dữ liệu và thông tinkhác nhau để giải quyết các vấn đề phức tạp. Tương tác giữa các hệ thốngdựa trên tri thức muốn thành công phụ thuộc nhiều vào sự nhất quán vềtri thức của các hệ thống này. THTT được hiểu là quá trình tạo ra mộtCSTT chung cho một tập hợp các CSTT có sẵn bằng việc kết hợp các phầnkhác nhau của tri thức mà trong đó các CSTT này có thể tồn tại sự khơngnhất qn (KNQ - Inconsistency)[60]. THTT là một nhiệm vụ khó khăn dosự KNQ của tri thức là khó xác định và giải quyết tính KNQ này cũng làmột vấn đề phức tạp (thường là bài toán NP-Complete) [60]. Tuy nhiên, sựtương tác giữa các hệ thống dựa trên tri thức không thể thực hiện được nếukhơng có khả năng tích hợp giữa các CSTT. Đây là một bài tốn khó và cónhiều vấn đề cần giải quyết. Vấn đề THTT được phát biểu như sau:

Know-Cho một tập hợp các CSTT, các CSTT này có thể mâu thuẫn với nhauhoặc bản thân mỗi CSTT cũng chứa mâu thuẫn, làm thế nào để xây dựngđược một CSTT chung đại diện tốt nhất cho CSTT đã cho ?

Các ứng dụng sử dụng tiến trình THTT rất nhiều và đa dạng [11]. Ngàynay, THTT được nghiên cứu rộng trong nhiều lĩnh vực của Khoa học máytính (Computer Science), Trí tuệ nhân tạo (Artificial Inteligence), Hệ thốngthơng minh hay hệ chuyên gia với các ứng dụng (Expert Systems with Ap-plications), Khoa học thơng tin, Tính tốn Neuron (Neurocomputing). Việc

1

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

kết hợp tri thức từ các nguồn khác nhau sẽ tạo ra các lợi ích như mang lạinhiều tri thức hơn, đạt được sự đồng thuận hoặc đạt được sự nhất trí. Tuynhiên, sự đánh đổi của việc kết hợp này là nó có thể tạo ra tính khơng chắcchắn (Uncertainty) của tri thức, và việc giải quyết sự không chắc chắn cũnglà một trong các mục đích chính của THTT.

Do sự đa dạng trong cách biểu diễn tri thức, các cách tiếp cận giải quyếttính KNQ và các phương pháp THTT cũng rất khác nhau để phù hợp chomỗi cách biểu diễn tri thức này. Các dạng tri thức đã và đang được cộngđồng nghiên cứu là: Tri thức lôgic cổ điển, tri thức lôgic khả năng, tri thứclôgic-xác suất, tri thức xác suất (TTXS - Probabilistic Knowledge).

Sự phát triển của các phương pháp xử lý tính KNQ

- Phương pháp loại bỏ cơng thức: Ý tưởng chính của phương pháp nàylà tìm cách loại khỏi CSTT các thông tin dư thừa sao cho các thông tin cịnlại phải nhất qn. Hai hướng chính của cách tiếp cận này là (i) loại bỏ đimột tập KNQ tối thiểu [7, 30, 33, 35–37, 72] và (ii) tìm một tập nhất quáncực đại [51]. Phương pháp loại bỏ công thức được sử dụng hiệu quả đối vớiCSTT dạng lôgic, lôgic khả năng bởi các CSTT dạng này đều được biểudiễn dựa trên các công thức trên một ngôn ngữ mệnh đề. Tuy nhiên, hạnchế của phương pháp này có thể làm mất đi một số cơng thức quan trọngtrong q trình xử lý tính KNQ. Hơn nữa, tính hữu hiệu của phương phápnày đối với CSTT xác suất chưa được nghiên cứu kỹ lưỡng.

- Phương pháp thay đổi cơng thức hay thay đổi định tính (QualitativeModification): Ý tưởng chính của phương pháp này là thay đổi cấu trúc cácthành phần của công thức trong CSTT sao cho thu được CSTT nhất quán.Cách tiếp cận này phù hợp với các dạng CSTT dạng lôgic-xác suất, xác suất[41, 73]. Tuy nhiên, việc thay đổi cấu trúc của cơng thức có thể dẫn đến sựKNQ về mặt định tính với các công thức khác nếu không xem xét kỹ lưỡngmối liên hệ giữa các công thức trong CSTT.

- Phương pháp thay đổi xác suất hay thay đổi định lượng (Quantitativemodification): Ý tưởng chính của phương pháp này là thay đổi giá trị xácsuất của ràng buộc xác suất (RBXS - Probabilistic Constraint) trong CSTTsao cho thu được CSTT nhất quán. Hai hướng tiếp cận chính của phươngpháp này là (i) tuân theo mơ hình Heuristic [30] và (ii) cực tiểu hóa độ đoKNQ để tìm được xác suất mới [21, 41, 63, 66, 68, 73, 76, 77]. Tuy nhiên,cách tiếp cận này mới chỉ dừng lại ở việc xử lý các CSTT dạng lôgic-xácsuất trên một ngôn ngữ mệnh đề.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Sự phát triển của các phương pháp tích hợp tri thức

- THTT dạng lôgic cổ điển và lôgic khả năng [7, 9, 34, 47, 48, 70, 71] đãđược nghiên cứu một cách kỹ lưỡng. Ý tưởng chính của phương pháp nàylà xây dựng một họ các toán tử tích hợp thơng qua việc tìm một tập thứ tựưu tiên bằng cách sử dụng hàm kết hợp hoặc hàm khoảng cách. Các kết quảđạt được rất hữu ích đối với các hệ thống hoạt động dựa trên tập luật. Gầnđây, có một cách tiếp cận khác đó là đi tìm tập tri thức đồng thuận dựatrên lý thuyết đồng thuận, hàm kết hợp và hàm khoảng cách [46,61, 80,90].Tuy nhiên, trong xu hướng công nghệ hiện tại, các hệ thống dựa trên tri thứcđang chủ yếu dựa vào dữ liệu lớn thì tiếp cận này khó có thể áp dụng được.Hơn nữa, theo Potyka [66], THTT dạng lôgic cổ điển có thể được coi là qtrình học rút ra kết luận suy diễn từ các giả định nhất quán. Tuy nhiên, cácgiá trị chân lý cổ điển đúng và sai thường không đủ cho các ứng dụng trongcác miền không chắc chắn. Lôgic-xác suất khắc phục nhược điểm này bằngcách biểu diễn các công thức theo xác suất, trong đó khi xác suất bằng 1 thìcơng thức đúng và khi xác suất bằng 0 thì cơng thức sai.

- THTT dạng lôgic-xác suất [67] cho phép sử dụng thế mạnh của lýthuyết xác suất trong việc giải quyết tính KNQ đồng thời vẫn giữ được khảnăng suy diễn lôgic. Tuy nhiên, các giải pháp cho bài tốn tích hợp trên mơitrường lơgic-xác suất vẫn cịn hạn chế vì cách tiếp cận này phải được xácđịnh bằng các hàm xác suất trên tập vũ trụ (Sample Space hoặc UniversalSet) và được xét trong môi trường ngôn ngữ mệnh đề nên sẽ bị ràng buộcbởi công thức lôgic. Hơn nữa, cũng rất khó xác định làm thế nào xác suấtmới trong các CSTT có thể được tính tốn bởi vì rất khó để tìm các hàm xácsuất thỏa mãn tất cả các RBXS trong CSTT. Mơ hình cũng sẽ khơng khảthi đối với các các bài tốn có khơng gian đầu vào lớn. Các cách tiếp cậnnày mới chỉ dừng lại ở việc giải quyết tính KNQ của các CSTT.

- THTT dạng xác suất: Biểu diễn tri thức bằng xác suất là cách làmthuận tiện và phổ biến hiện nay khi mà tri thức của các hệ thống thườngđược khai phá từ dữ liệu. Hai cách tiếp cận chính để giải quyết bài tốnTHTT đó là (i) tìm một phân phối xác suất liên hợp (Joint ProbabilityDistribution) từ tập các phân phối xác suất biểu diễn cho các TTXS đầuvào [5, 6, 84, 85, 87, 88, 91] và (ii) dựa trên giá trị xác suất của các RBXS[41–43, 50]. Với cách tiếp cận đi tìm một phân phối xác suất liên hợp thì cóba kỹ thuật được triển khai: sử dụng kỹ thuật lặp [84, 85, 91], sử dụng hàmứng viên (Candidacy Functions) [21] và sử dụng hàm khoảng cách phân kỳ(KCPK - Divergence Distance) [5, 6, 87, 88]. Tuy nhiên, các cách tiếp cậnnày yêu cầu các CSTT ban đầu phải đảm bảo tính nhất qn và có cùngmột cấu trúc.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Tại Việt Nam, qua khảo sát các cơng trình khoa học được cơng bố, THTTđang là một lĩnh vực nghiên cứu khá mới mẻ ở Việt Nam. TS. Trần ThanhLương, Trường Đại học Khoa học - Đại học Huế đã nghiên cứu về học kháiniệm cho các hệ thống thông tin dựa trên logic mô tả [3]. Các nghiên cứucủa GS.TS. Cao Hoàng Trụ - Trường Đại học Bách khoa - Đại học quốc giaHồ Chí Minh về khai thác và tích hợp thơng tin dựa trên ontology [15, 16].TS. Dương Trọng Hải - Trường Đại học Nguyễn Tất Thành nghiên cứu vềtích hợp ontology và ứng dụng [25, 26]. TS. Trương Hải Bằng - Trường Đạihọc Công nghệ Thông tin, Đại học Quốc Gia TP. Hồ Chí Minh nghiên cứuvề tích hợp ontology mờ trên cơ sở lý thuyết đồng thuận [1]. TS. NguyễnVăn Trung, Trường Đại học Khoa học - Đại học Huế nghiên cứu về một sốphương pháp xử lý tri thức KNQ trong ontology [4]. Nhóm nghiên cứu củaTS. Trần Trọng Hiếu - Đại học Quốc gia Hà Nội đã tập trung giải quyếtvấn đề THTT dạng lôgic cho các hệ thống dựa trên tri thức sử dụng cáckỹ thuật đàm phán và tranh luận [61, 80]. Gần đây, TS. Nguyễn Thị HồngKhánh, Trường Đại học Điện lực đã nghiên cứu về xử lý KNQ trong THTTdựa trên lơgic [2].

Chính vì lý do đó, xử lý tính KNQ (khơi phục tính nhất qn) là mộttrong các nhiệm vụ cần phải giải quyết trước khi tiến hành THTT trongcác hệ thống dựa trên tri thức. THTT là một chủ đề nghiên cứu, ứngdụng thu hút một cộng đồng nghiên cứu rộng rãi trên thế giới. Hình 1

tổng hợp số lượng cơng trình nghiên cứu được công bố trên rect () trong giai đoạn 1997-2020 cóchứa các cụ từ "Knowledge-base system", "Probabilistic knowledge", "In-consistent knowledge", "Consistency knowledge", "Merging knowledge orKnowledge Integration" trong tiêu đề, tóm tắt và danh sách từ khóa với chủđề cơng bố "Expert Systems with Applications", "Information Sciences","Neurocomputing", "Knowledge-Based Systems" và "Procedia ComputerScience".

ScienceDi-Động lực nghiên cứu

- Để có thể giải quyết được bài tốn tích hợp thì trước hết đảm bảo tínhnhất quán của các hệ thống dựa trên tri thức luôn là một trong các yêu cầuthiết yếu bởi vì nếu tính nhất qn khơng được đảm bảo thì hầu hết cáchệ thống này trở lên vơ ích. Bởi vì tầm quan trọng đó, rất nhiều các nghiêncứu đã quan tâm đến việc khơi phục tính nhất qn trong các hệ thống dựatrên tri thức. Các cách tiếp cận chính để khơi phục tính nhất qn của mộtCSTT là: Loại bỏ công thức, thay đổi công thức, thay đổi xác suất (thay đổi

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Hình 1: Thống kê cơng trình khoa học về xử lý tính KNQ và giảiquyết bài tốn tích hợp trong các hệ thống dựa trên tri thức trên

ScienceDirect giai đoạn 1997-2020.

xác suất khoảng, thay đổi xác suất điểm). Tuy nhiên, các phương pháp nàymới chỉ dừng lại ở việc xử lý tính KNQ của CSTT dạng lôgic cổ điển, lôgickhả năng, lôgic-xác suất, xác suất trên một ngơn ngữ mệnh đề. Hơn nữa,chưa có một mơ hình khơi phục tính nhất qn cũng như thuật tốn được đềxuất để giải quyết tính KNQ cho CSTT dạng xác suất trên tập các sự kiện.Đánh giá về tính tin cậy, tính đúng đắn cũng như đảm bảo các nguyên lýxác suất cơ bản khi thay đổi giá trị xác suất của các RBXS trong CSTT xácsuất cũng cần được xem xét và chứng minh.

- Khi tính nhất quán của các CSTT đầu vào trong hệ thống dựa trên trithức được đảm bảo thì tiến trình THTT mới có thể được tiến hành và đemlại hiệu quả cao về chất lượng tích hợp cũng như thỏa mãn các tính chất cơbản của nguyên lý tích hợp. Tùy vào mỗi dạng CSTT mà sẽ có các phươngpháp tích hợp phù hợp tương ứng. Với CSTT dạng xác suất, các cách tiếpcận giải quyết bài tốn THTT vẫn cịn tồn tại một số vấn đề. Thứ nhất, đầuvào và đầu ra của các CSTT xác suất được biểu diễn bằng các phân phối xácsuất, trong đó đầu vào của các CSTT xác suất phải nhất quán và có cùngcấu trúc. Thứ hai, chưa có một mơ hình cũng như thuật toán được đề xuấtđể giải quyết bài toán THTT xác suất trên tập các sự kiện. Thứ ba, với cáchtiếp cận dựa trên khoảng cách thì mới chỉ có một vài hàm khoảng cách được

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

nghiên cứu và áp dụng. Cuối cùng, đánh giá về tính tin cậy, tính đúng đắncũng như đảm bảo các nguyên lý tích hợp trên mơi trường xác suất cũng cầnđược xem xét và chứng minh. Như vậy, vẫn còn rất nhiều cơng việc phải đượcthực hiện trên mơ hình từ các góc độ lý thuyết, thực tiễn và thực nghiệm.

Do đó, để xây dựng được một hệ thống tích hợp các CSTT xác suất, luậnán cần khắc phục và cải thiện những vấn đề cịn tồn tại của các phươngpháp khơi phục tính nhất qn và tích hợp CSTT trong mơi trường xácsuất. Luận án sẽ tìm hiểu các cách tiếp cận để giải quyết tính KNQ củaCSTT trong mơi trường lơgic, lơgic-xác suất, lơgic khả năng. Từ đó, đề xuấtmơ hình, nền tảng tốn học và thuật tốn để giải quyết bài tốn khơi phụctính nhất qn của CSTT xác suất. Tiếp theo, luận án sẽ nghiên cứu cácphương pháp THTT hiện đã được phát triển để tìm ra giải pháp phù hợpcho bài tốn tích hợp các CSTT xác suất. Cuối cùng, dựa trên kết quả củacác thực nghiệm, luận án tiến hành phân tích, so sánh và đánh giá về chấtlượng của các kết quả thu được, thời gian thực hiện cũng như tham số thờigian CPU để giải lớp các bài tốn tối ưu trong tiến trình tích hợp các CSTTxác suất.

Tham gia vào dịng nghiên cứu về bài toán THTT, luận án tập trung vàoviệc đề xuất các giải pháp xử lý tính KNQ của CSTT và thiết kế các mơhình THTT trong mơi trường xác suất. Hình 2 thể hiện tổng quan về cácmơ hình THTT đã và đang được nghiên cứu trên thế giới; mỗi mơ hình cócác cách tiếp cận để giải quyết khơi phục tính nhất qn và phương pháp đểTHTT sử dụng các công cụ khác nhau. Các ô và đường đi màu xanh đậmtrong Hình 2 thể hiện các cách tiếp cận để giải quyết các câu hỏi nghiêncứu của luận án.

Mục đích, đối tượng, phạm vi, phương pháp nghiên cứu

Mục đích nghiên cứu:

Mục đích nghiên cứu tổng quát của luận án là đề xuất: Phương phápkhơi phục tính nhất quán của CSTT xác suất và phương pháp tích hợp cácCSTT xác suất. Mục đích nghiên cứu tổng quát này được chi tiết thành cácmục tiêu cụ thể sau đây:

Mục đích 1:

- Cung cấp một báo cáo tổng quan về các độ đo KNQ, các phương phápxử lý tính KNQ của CSTT, các phương pháp tích hợp các CSTT dạng lôgic,lôgic-xác suất, xác suất.

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<b><small>Lôgic </small></b>

<b><small>DẠNG CƠ S TRI THỵC </small></b>

<b><small>Xỏc sut </small></b>

<b><small>Lụgic-Xỏc sut </small></b>

<b><small>KHễI PHỵC TNH NHT QUN </small></b>

<b><small>PHNG PHP TCH HỵP Thay i </small></b>

<b><small>cụng thÿc </small></b>

<b><small>Thay đổi xác su¿t điểm </small></b>

<b><small>Thay đổi xác su¿t kho¿ng </small></b>

<b><small>Lo¿i bß cơng thÿc </small></b>

<b><small>Hàm kho¿ng cách </small></b>

<b><small>Hàm kết hợp </small></b>

<b><small>Tìm các phân bß xác su¿t </small></b>

<b><small>Tìm tập thÿ tÿ ±u tiên (Tiếp cận ngÿ nghĩa) </small></b>

<b><small>Tìm giá trị xác su¿t cÿa ràng bußc </small></b>

<b><small>Hàm kho¿ng cách phân kÿ </small></b>

<b><small>CễNG Cỵ </small></b>

<b><small>ò o khụng nht quỏn </small></b>

<b><small>Lý thuyt xỏc su¿t </small></b>

<b><small>Ph±¡ng pháp lặp </small></b>

<b><small>CH¯ƠNG 3 CH¯ƠNG 2 CH¯ƠNG 4 CH¯ƠNG 1 </small></b>

<b><small>Duyệt tri thÿc (Tiếp cận cú pháp) </small></b>

Mục đích 1 trả lời các câu hỏi nghiên cứu:

1. Làm sao để biểu diễn được tri thức dưới dạng xác suất ?

2. Làm sao để biết được một CSTT xác suất nhất quán hay không ?3. Một hệ thống dựa trên tri thức xác suất gồm những thành phần nào ?Mục đích 2: Xây dựng mơ hình khơi phục tính nhất quán của CSTTxác suất:

- Đánh giá, phân tích các độ đo KNQ. Từ đó, chọn và cải tiến lớp các độđo KNQ phù hợp với mơ hình xác suất bằng cách xem xét các tính chất kỳvọng của chúng cần phải thỏa mãn.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

- Đề xuất một họ mới các tốn tử khơi phục cho mơ hình xác suất; khảosát và phát triển một tập các tính chất kỳ vọng cho các tốn tử khơi phụcđược đề xuất.

- Biểu diễn mơ hình xây dựng cho cách tiếp cận thơng qua việc phát biểubài tốn khơi phục tính nhất quán của CSTT xác xuất.

- Xây dựng, đánh giá độ phức tạp và cài đặt thuật toán khơi phục tínhnhất qn.

Mục đích 2 trả lời các câu hỏi nghiên cứu:

4. Làm sao để đo tính KNQ của một CSTT xác suất ?

5. Làm sao để khôi phục được tính nhất quán của CSTT xác suất ?Mục đích 3: Xây dựng mơ hình tích hợp các CSTT xác suất:

- Đề xuất một họ mới các tốn tử tích hợp cho mơ hình xác suất; khảosát và phát triển một tập các tính chất kỳ vọng cho các tốn tử tích hợpđược đề xuất.

- Biểu diễn mơ hình xây dựng cho cách tiếp cận thông qua việc phát biểubài tốn tích hợp các CSTT xác xuất.

- Xây dựng, đánh giá độ phức tạp và cài đặt thuật tốn tích hợp cácCSTT xác xuất.

Mục đích 3 trả lời các câu hỏi nghiên cứu:

6. Làm sao có thể tích hợp được các CSTT xác suất thành một tri thứcchung đại diện tốt nhất ?

Đối tượng nghiên cứu: Đối tượng nghiên cứu của luận án là các kỹthuật biểu diễn tri thức, cơ sở tri thức được biểu diễn dưới dạng lôgic-xácsuất, các hàm KCPK, các độ đo KNQ, các phương pháp xử lý tính KNQ,các phương pháp THTT, các thuật tốn, các phương pháp giải bài toántối ưu.

Phạm vi nghiên cứu: Với giải thiết tri thức sẽ được biểu diễn dướidạng xác suất, phạm vi nghiên cứu của luận án là tập trung vào kỹ thuậtbiểu diễn tri thức, các phương pháp khơi phục tính nhất qn dựa trên độđo KNQ được giải bằng bài toán tối ưu, các phương pháp THTT trong môitrường xác suất; các kỹ thuật giải bài tốn quy hoạch tuyến tính và bàitốn tối ưu phi tuyến. Các phương pháp khơi phục tính nhất qn và cácphương pháp THTT được xem xét trên tập các sự kiện trong hồ sơ TTXS.Trong đó, miền dữ liệu mà luận án quan tâm tích hợp là các khảo sát về

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

việc đánh giá các dấu hiệu nhận biết việc mắc bệnh tim mạch và một sốbệnh ung thu của bệnh nhân.

Phương pháp nghiên cứu:

- Phương pháp phân tích, phân loại và tổng hợp lý thuyết: Phân tíchnguồn tài liệu và nội dung liên quan đến đề tài về các phương pháp biểudiễn tri thức hiện có, thế mạnh của các nguyên lý về xác suất, độ đo KNQ,lý thuyết quyết định, trí tuệ nhân tạo, duyệt tri thức, hàm KCPK, entropycực đại, các tiếp cận để đo tính KNQ và giải quyết tính KNQ, các phươngpháp THTT.

- Phương pháp thực nghiệm: Dựa trên các mơ hình và các thuật toánTHTT đã đề xuất, tiến hành cài đặt chương trình tích hợp. Các kết quảthực nghiệm thu được sẽ được dùng để khẳng định thêm về tính đúng đắnvà tính tin cậy của mơ hình lý thuyết.

Tính cấp thiết, ý nghĩa lý luận và thực tiễn củaluận án

Xu hướng chủ yếu của các hệ thống dựa trên tri thức hiện nay là đượcxây dựng để làm việc với dữ liệu lớn, từ nhiều nguồn khác nhau và nguồntri thức của các hệ thống này thường được biểu diễn dưới dạng xác suất.Việc tích hợp các CSTT của các hệ thống dựa trên tri thức mà trong đótri thức được biểu diễn dưới dạng các công thức lôgic hay khung tri thứcđã được nghiên cứu và đã được ứng dụng rộng rãi. Tuy nhiên, rất khó ápdụng các khung làm việc của tri thức được biểu diễn ở dạng này sang chocác CSTT dạng xác suất được. Do đó, việc xây dựng các khung làm việc đểtích hợp các CSTT xác suất là có tính thời sự, rất cần thiết và cần đượcđầu tư nghiên cứu.

Nội dung nghiên cứu của luận án có ý nghĩa quan trọng về khía cạnh:

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<b><small>Kết luận và hướng phát triển </small></b>

<small>Đề xuất mơ hình khơi phục tính nhất qn và mơ hình tích hợp các cơ sở tri thức xác suấtChương 1: </small>

<b><small>Kiến thức cơ sở </small></b>

<small>Chương 4: </small>

<b><small>Phương pháp tích hợp các cơ sở tri thức xác suất </small></b>

<small>Chương 3: </small>

<b><small>Phương pháp khơi phục tính nhất quán trong cơ sở tri thức xác suất </small></b>

<small>Chương 2: </small>

<b><small>Tổng quan về xử lý tính khơng nhất qn và tích hợp tri thức </small></b>

Hình 3: Cấu trúc luận án.

- Đối với yêu cầu của thực tiễn: Các kết quả nghiên cứu của luận án cóthể được ứng dụng rộng rãi trong các hệ hỗ trợ ra quyết định, các hệ thốngthương mại điện tử tự động, các hệ thống web hướng ngữ nghĩa, cũng nhưtrong các hệ chuyên gia nhằm tăng cường độ chính xác cho các hệ thốngchẩn đoán bệnh; các hệ thống dự báo thời tiết, dự báo kinh tế; các hệ thốngchống biến đổi khí hậu, phòng chống thiên tai và dịch bệnh; và các lĩnh vựckhác. Những hệ thống này phục vụ cho nhiều mặt của đời sống xã hội cũngnhư an ninh quốc phịng.

- Đối với lĩnh vực khoa học cơng nghệ liên quan: Các kết quả nghiên cứucủa luận án sẽ cung cấp các mơ hình lý thuyết, các kết quả đánh giá về tínhhợp lý, độ phức tạp tính tốn cho cộng đồng nghiên cứu và phát triển.

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

tri thức, phương pháp biểu diễn CSTT xác suất, phương pháp biểu diễntính KNQ của CSTT để giải quyết bài tốn khơi phục tính nhất qn trongCSTT xác suất ở Chương 3. Kế tiếp là các kiến thức về các hàm khoảngcách, hàm KHCP để xây dựng mơ hình tích hợp các CSTT xác suất vàtiến hành cài đặt thực nghiệm các phương pháp đề xuất ở Chương 3 vàChương 4.

Chương2Tổng quan về xử lý tính KNQ và tích hợp tri thức. Chương nàytrình bày các phương pháp để xử lý tính KNQ. Sau đó, sẽ trình bày về cácbài toán THTT và các phương pháp tiếp cận để tiến hành THTT. Phầncuối cùng, trình bày tổng quan về hệ thống THTT, tiến trình phát triển cáchệ thống tích hợp và một sơ đồ nguyên lý chung cho hệ thống THTT dựatrên TTXS.

Chương 3Phương pháp khơi phục tính nhất qn trong cơ sở tri thức xácsuất. Chương này trình bày lớp các độ đo KNQ cho CSTT xác suất; giớithiệu các bài tốn để tính các độ đo KNQ này. Dựa trên lớp độ đo KNQ,chương này sẽ trình bày hai mơ hình khơi phục tính nhất qn: Mơ hìnhkhơi phục theo chuẩn và mơ hình khơi phục phi chuẩn. Các định lý xây dựngvà các thuật toán xử lý tính KNQ cũng được trình bày trong chương này.

Chương 4 Phương pháp tích hợp các cơ sở tri thức xác suất. Chương nàyđề xuất hai phương pháp tích hợp các CSTT xác suất: Phương pháp dựatrên khoảng cách và phương pháp dựa trên giá trị xác suất. Lớp các toántử tích hợp xác suất cùng các tính chất mà chúng nên thỏa mãn dựa trênkhái niệm phân kỳ và dựa trên giá trị xác suất được giới thiệu. Bài tốntích hợp, các định nghĩa, định lý để xây dựng các thuật tốn tích hợp đượctrình bày trong chương này. Tiếp theo, chương này trình bày về bộ dữ liệuthực nghiệm, cấu hình hệ thống; phân tích, đánh giá kết quả thực nghiệmvề độ tin cậy của kết quả thu được cũng như hiệu suất thực hiện với cácthuật toán cơ sở đã được đề xuất trong Chương 3 và thuật tốn tích hợp.

Cuối cùng, phần Kết luận và hướng phát triển tổng hợp các kết quảnghiên cứu chính của luận án, nhận định về các hạn chế còn tồn tại củaluận án và thảo luận về các nghiên cứu trong tương lai từ các kết quả banđầu đã đạt được và các hạn chế được nhận diện.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

KIẾN THỨC CƠ SỞ

Chương này tìm câu trả lời cho câu hỏi nghiên cứu thứ 1 và thứ 2: "Làmsao để biểu diễn được tri thức dưới dạng xác suất ?" và "Làm sao để biếtđược một CSTT xác suất nhất quán hay không ?". Trong chương này, luậnán sẽ trình bày về những kiến thức cơ sở được sử dụng trong các chươngtiếp theo. Phần 1.1 giới thiệu các kỹ thuật biểu diễn tri thức và một bàitoán thực tế cần biểu diễn tri thức. Phần 1.2 giới thiệu về các khái niệmcơ bản của kỹ thuật biểu diễn TTXS. Phần 1.3 trình bày một số khái niệmvề hàm khoảng cách. Tuy nhiên, để tiến trình tích hợp thành cơng thì cầngiải quyết được tính KNQ của CSTT xác suất. Do đó, Phần 1.4 sẽ trìnhbày một số khái niệm để biểu diễn và xử lý tính KNQ của CSTT xác suất.Phần1.5 trình bày một số khái niệm cơ bản về các dạng ma trận của CSTTxác suất, các loại RBXS. Đây là hai nội dung quan trọng làm nền tảngđể thực hiện tiến trình tích hợp TTXS. Phần kiến thức cơ sở của luận ánđược trình bày trong các phần các khái niệm cơ bản trong các công trình[NVTham1-NVTham7].

1.1 Các phương pháp biểu diễn tri thức

Tri thức tồn tại dưới hai dạng cơ bản: Tri thức định lượng và tri thứcđịnh tính. Tri thức định lượng thường được gán với các loại heuristics khácnhau. Tri thức định tính chia làm ba loại: Tri thức mô tả, tri thức thủ tụcvà tri thức điều khiển. Phân biệt các loại tri thức là cơ sở để tìm đượcphương pháp biểu diễn tri thức phù hợp. Biểu diễn tri thức là phương phápmã hóa tri thức, nhằm lập ra các CSTT làm đầu vào cho các hệ thốngdựa trên tri thức. Các phương pháp chung để biểu diễn tri thức trong các

12

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

hệ thống dựa trên tri thức được trình bày chi tiết bởi Harmelen và cơngsự [82] bao gồm: Biểu diễn tri thức bằng lôgic mô tả (Description Logic),Biểu diễn tri thức bằng lôgic không đơn định (Nonmonotonic Logic), Biểudiễn tri thức bằng đồ thị khái niệm (Concept Graph), Biểu diễn tri thứcbằng bộ ba Đối tượng - thuộc tính - giá trị (Object – Attribute – Value(OAV)), Biểu diễn tri thức bằng luật sinh (Production Rule), Biểu diễn trithức bằng mạng ngữ nghĩa (Semantic Network), Biểu diễn tri thức bằngmạng Bayesian (Bayesian Network).

Để tiện cho việc minh họa cho các phần tiếp theo, luận án sử dụng ví dụsau đây:

Ví dụ 1.1. Một Bệnh viện thực hiện một cuộc khảo sát để đánh giá cácdấu hiệu nhận biết việc mắc bệnh tim mạch của bệnh nhân. Cuộc khảo sátđược thực hiện bằng cách thu thập các ý kiến của các chuyên gia là các bácsĩ tại các Bệnh viện. Hai dấu hiệu chính cần khảo sát liên quan đến bệnhtim mạch là: Khó thở và đau ngực. Các bác sĩ được yêu cầu đưa ra một sốnhận định (tri thức) về: Tỷ lệ bệnh nhân mắc bệnh tim, tỷ lệ bệnh nhân khóthở, tỷ lệ bệnh nhân đau ngực, tỷ lệ bệnh nhân mắc bệnh tim khi người nàycó triệu chứng khó thở, tỷ lệ bệnh nhân mắc bệnh tim khi người này có triệuchứng đau ngực, tỷ lệ bệnh nhân khó thở khi người này bị bệnh tim, tỷ lệbệnh nhân đau ngực khi người này bị bệnh tim. Mỗi bác sĩ sẽ đưa ra tri thứccủa mình, đó là các nhận định về tỷ lệ mắc bệnh tim liên quan đến hai triệuchứng khó thở và đau ngực. Tuy nhiên, mỗi bác sĩ sẽ đưa ra tri thức riêngcủa mình mà bản thân tri thức của chính mỗi bác sĩ cũng có thể KNQ. Mộtyêu cầu đặt ra của cuộc khảo sát là phải đưa ra được đánh giá chung về cácdấu hiệu nhận biết việc mắc bệnh tim mạch của bệnh nhân từ các tri thứccủa các bác sĩ. Mặc dù, tất cả các tri thức của các bác sĩ có thể nhất qn,nhưng khi tích hợp có thể dẫn đến một tri thức chung KNQ. Các vấn đề màcuộc khảo sát cần phải làm:

1. Làm sao để biểu diễn được tri thức của mỗi bác sĩ ?2. Làm sao để biết được tri thức của bác sĩ là KNQ ?

3. Làm sao để khơi phục được tính nhất qn của tri thức của bác sĩ ?4. Làm sao có thể tích hợp được tri thức của các bác sĩ thành một trithức chung đại diện tốt nhất ?

Để trả lời được các câu hỏi trên thì vấn đề đầu tiên cần phải làm đó làbiểu diễn tri thức của bác sĩ. Các kỹ thuật biểu diễn tri thức được trình bày

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

chi tiết bởi Harmelen và công sự [82] không phù hợp với tri thức này. Kỹthuật phù hợp cho tri thức dạng này đó là biểu diễn TTXS. Vấn đề biểudiễn tri thức cho mơ hình xác suất sẽ được trình bày chi tiết trong Phần1.2.

1.2 Biểu diễn CSTT xác suất

1.2.1 Sự kiện và xác suất

Đặt S là một khơng gian mẫu hữu hạn mà nó bao gồm tất cả các kếtquả có thể có của một thí nghiệm thống kê. Đặt E<small>= 2</small><sup>S</sup> <small>\</small>∅ là một tập hữuhạn các sự kiện, trong đó mỗi sự kiện là một tập con của không gian mẫuS. Chẳng hạn, nếu kết quả của một phép thử bao gồm việc xác định giớitính của trẻ sơ sinh thì S<small>= {g, t}</small>, trong đó kết quả <small>g</small> nghĩa là trẻ là gái và <small>t</small>

nghĩa là trẻ là trai. Nếu E <small>= {g}</small> thì E là sự kiện mà trẻ là gái. Tương tự,nếu E <small>= {t}</small> thì E là sự kiện mà trẻ là trai.

Với F<small>,</small>G <small>∈</small>E, giao của hai sự kiện F<small>,</small>G, kí hiệu bởi FG, là sự kiện chứatất cả các phần tử thuộc về đồng thời hai sự kiện F và G. Phủ định củaF , kí hiệu bởi F , trong đó F <small>= S \</small>F . Giả sử E<small>= {</small>E<small>1, . . . ,</small>E<small>n}</small>. Một hội đầyđủ <small>Θ</small> của E là một biểu diễn dạng <small>Θ = ˜</small>E<small>1</small>E<small>˜2. . . ˜</small>E<small>n</small> với E<small>˜i= {</small>E<small>i, ¯</small>E<small>i}</small>. Đặt

<small>Λ(</small>E<small>)</small> là tập tất cả các hội đầy đủ của E, do đó <small>Λ(</small>E<small>) = {Θ1, . . . ,Θ2n}</small>. Đặt

<small>Q =</small>E<small>∪ { ˜</small>E<small>i</small>E<small>˜j| ˜</small>E<small>i∈ {</small>E<small>i, ¯</small>E<small>i}, ˜</small>E<small>j∈ {</small>E<small>j, ¯</small>E<small>j},</small>và E<small>i6=</small>E<small>j∈</small>E<small>}</small>. Một hội đầy đủ

<small>Θ ∈ Λ(</small>E<small>)</small> thỏa U <small>∈ Q</small>, được kí hiệu bởi <small>Θ |=</small>U nếu và chỉ nếu U xuất hiệndương <small>Θ</small>. Đặt f<small>(</small>U<small>) = {Θ ∈ Λ(</small>E<small>) | Θ |=</small> U vàU <small>∈ Q}</small>. Đặt ~<small>E=| Λ(</small>E<small>) |</small> là sốlượng các hội đầy đủ của E. Đặt R<small>∗</small> là tập tất cả các giá trị thực không âm.Đặt R<sub>[0,1]</sub> là tập tất các giá trị thực từ 0 đến 1. Đặt R<small>n</small> là tập các véc-tơn-chiều có giá trị thực. Đặt R<small>n</small>

<small>= {(</small>p<small>1, . . . ,</small>p<small>m) ∈</small> R<sup>~</sup><small>E</small>

<small>i=1</small>p<small>i= 1}</small> là tập tấtcả các hàm xác suất ~<sub>E</sub>-chiều rời rạc trên E, trong đó mỗi p<small>i∈ ~</small>p <small>∈</small>P<small>~</small><sub>E</sub> tươngứng với <small>P(Θ) ∈P(</small>b E<small>)</small>.

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Đặt <small>~ω= (ω1, . . . , ω~</small><sub>E</sub><small>)T</small> là một véctơ cột, trong đó biến thành phần <small>ωi</small>

tương ứng với một xác suất <small>P(Θi)</small>.

Xác suất của một sự kiện E là tổng các trọng số của tất cả điểm mẫutrong E , kí hiệu <small>P(</small>E<small>)</small>. Do đó,

<small>0 ≤ P(</small>E<small>) ≤ 1</small> và<small>P(</small>S<small>) = 1</small> (1.1)Xác suất có điều kiện của sự kiện F , biết rằng sự kiện G đã xảy ra, kíhiệu <small>P (</small>F <small>|</small>G<small>)</small>, được định nghĩa như sau:

<small>P (</small>F <small>|</small>G<small>) =</small> <sup>P(</sup>FG<small>)</small>

<small>P(</small>G<small>)</small> <sup>= ρ</sup> miễn là <small>P(</small>G<small>) > 0</small> (1.2)Hai sự kiện F và G là độc lập nếu và chỉ nếu <small>P (</small>F <small>|</small>G<small>) = P(</small>F<small>)</small> hoặc

<small>P (</small>G<small>|</small>F<small>) = P(</small>G<small>)</small> giả sử tồn tại xác suất có điều kiện. Ngược lại, F và G làphụ thuộc.

Định lý 1.1 ([40, 86] ). Cho F<small>,</small>G <small>∈</small>E, hàm xác suất <small>P</small> thỏa mãn các luậtxác suất sau:

<small>∀</small>k <small>= 1,</small>n(P3) <small>P(</small>F<small>) =</small>

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

- Các xác suất của sự kiện: Xác suất bệnh nhân mắc bệnh tim được kíhiệu <sub>P(</sub>H<small>)</small>; xác suất bệnh nhân khó thở được kí hiệu là <sub>P(</sub>T<small>)</small>; xác suất bệnhnhân đau ngực được kí hiệu là <sub>P(</sub>D<small>)</small>.

- Các xác suất có điều kiện: Xác suất bệnh nhân có cảm giác khó thở khingười này mắc bệnh tim được kí hiệu là <sub>P (</sub>T<sub>|</sub>H<small>)</small>; xác suất bệnh nhân mắcbệnh tim khi người này có triệu chứng đau ngực được kí hiệu là <sub>P (</sub>H <sub>|</sub>D<small>)</small>.

1.2.2 Cơ sở tri thức xác suất

CSTT xác suất được định nghĩa bởi Potyka và Thimm [65, 66, 77] làmột tập các điều kiện được xem xét trên ngôn ngữ mệnh đề. Định nghĩavề CSTT xác suất trong luận án được xét trong ngữ cảnh xác suất, tức là,chúng được xét trên tập các sự kiện E.

Định nghĩa 1.3 ([66]). (Ràng buộc xác suất) Cho F<small>,</small>G <sub>∈</sub> E và <small>ρ∈</small> R<sub>[0,1]</sub>.Một RBXS là một biểu diễn dạng c<small>[ρ]</small>, trong đó c <small>= (</small>F <sub>|</sub>G<small>)</small>.

Một ràng buộc <small>(</small>F <sub>|</sub>G<small>) [ρ]</small> với ý nghĩa xác suất sự kiện F xảy ra với điềukiện sự kiện G đã xảy ra là<small>ρ</small>. Kí hiệu<sub>></sub> được dùng để thể hiện một sự kiệnkhông là sự kiện ràng buộc của sự kiện khác. Nếu F độc lập với G, tức G làlặp thừa, G <sub>≡ ></sub>, kí hiệu<small>(</small>F <sub>|>) [ρ]</sub> bởi<small>(</small>F<small>)[ρ]</small>. RBXS <small>(</small>F<small>)[ρ]</small>nghĩa là xác suấtcủa sự kiện F là <small>ρ</small>, tức là, <sub>P(</sub>F<small>) = ρ</small>. Điều này tương ứng với định nghĩa vềxác suất của một sự kiện [86].

Với c <small>= (</small>F <sub>|</sub>G<small>)</small> và G <sub>6≡ ></sub>, gọi <small>Left(</small>c<small>)</small> là hàm trả về sự kiện bên trái củac và <small>Right(</small>c<small>)</small> là hàm trả về sự kiện bên phải của c, tức là, <small>Left(</small>c<small>) =</small> F và

<small>Right(</small>c<small>) =</small>G. Cho hai RBXS c<small>1[ρ1],</small>c<small>2[ρ2]</small>.

- Hai RBXS c<small>1[ρ1],</small>c<small>2[ρ2]</small>là tương đương về cấu trúc, kí hiệu c<small>1[ρ1] ≈</small>c<small>2[ρ2]</small>,nếu và chỉ nếu <small>Left(</small>c<small>1) = Left(</small>c<small>2)</small> và <small>Right(</small>c<small>1) = Right(</small>c<small>2)</small>. Ngược lại, haiRBXS c<small>1[ρ1],</small>c<small>2[ρ2]</small> là khơng đương về cấu trúc, kí hiệu c<small>1[ρ1] 6≈</small>c<small>2[ρ2]</small>.

- Hai RBXS c<small>1[ρ1],</small>c<small>2[ρ2]</small> là tương đương một phần về cấu trúc, kí hiệuc<small>1[ρ1] '</small>c<small>2[ρ2]</small>, nếu và chỉ nếu<small>Left(</small>c<small>1) = Left(</small>c<small>2)</small>hoặc<small>Right(</small>c<small>1) = Right(</small>c<small>2)</small>.Ngược lại, hai RBXS c<small>1[ρ1]</small>và c<small>2[ρ2]</small> là không đương đương một phần về cấutrúc, kí hiệu c<small>1[ρ1] 6'</small>c<small>2[ρ2]</small>.

Định nghĩa 1.4 ([66]). (Cơ sở tri thức xác suất) CSTT xác suất <sub>K</sub> là mộttập hữu hạn các RBXS: <sub>K = {κ</sub><small>1, . . . , κh}</small>, trong đó <small>κi=</small>c<small>i[ρi], ∀</small>i <small>= 1,</small>h.

Đặt <small>¯</small>b<sub>K</sub><sub>=| K |=</sub>h là số lượng các RBXS trong <sub>K</sub>. Đặt K là tập tất cả cácCSTT xác suất. Đặt V là tập tất cả các véctơ xác suất của các RBXS trong

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

mỗi <sub>K ∈</sub> K. Đặt SC<sub>(K) =</sub> <sup></sup><small>κ1, . . . , κ¯</small><sub>b</sub><sub>K</sub>

là tập tất cả các RBXS xuất hiệntrong <sub>K</sub>. Đặt<small>~λ = (λ</small><sub>1</sub><small>, . . . , λ¯</small><sub>b</sub><sub>K</sub><small>)</small><sup>T</sup> là một véctơ cột, trong đó biến phụ<small>λ</small><sub>i</sub> tươngứng với RBXS <small>κi</small>. Đặt<small>~1 = (1, . . . , 1)T</small> là véctơ cột chỉ chứa<small>¯</small>b<sub>K</sub>phần tử 1. Đặt

<small>~0 = (0, . . . , 0)T</small> là véctơ cột chỉ chứa <small>¯</small>b<sub>K</sub> phần tử 0. Đặt <small>~</small><sub>K</sub><small>= (ρ1, . . . , ρ¯</small><sub>b</sub><sub>K</sub><small>)</small><sup>T</sup> làmột véctơ cột, trong đó một biến phụ <small>ρi</small> tương ứng với giá trị xác suất củaRBXS <small>κi</small>.

Trong một CSTT xác suất có thể tồn tại một số RBXS dư thừa. Việcloại bỏ các RBXS này không ảnh hưởng đến cấu trúc cũng như nội dungcủa CSTT xác suất. Định nghĩa 1.5 sau đây phát biểu rằng sau khi giảmmột số RBXS dư thừa trong CSTT xác suất thì số lượng các RBXS, cấutrúc của các RBSX, giá trị xác suất của các RBXS có thể bị thay đổi.Định nghĩa 1.5 ([40, 43]). (Luật giảm RBXS)

Cho CSTT xác suất <sub>K = {(</sub>F<small>1|</small>G<small>1)[ρ1], . . . , (</small>F<small>k|</small>G<small>k)[ρk]}</small>. Luật giảm cácRBXS trong <sub>K</sub> thành CSTT xác suất <sub>K</sub><small>∗= {(</small>F<small>∗</small>

<small>1)[ρ</small><sup>∗</sup><sub>1</sub><small>], . . . , (</small>F<small>∗</small>

<small>h)[ρ</small><sup>∗</sup><sub>h</sub><small>]</small> (1.3)Định lý 1.2 sau đây phát biểu rằng có thể loại bỏ một số RBXS dư thừatrong một CSTT xác suất bằng cách sử dụng Công thức (1.4).

Định lý 1.2 ([40, 43]). Cho F<small>,</small>G<small>,</small>H <sub>∈</sub>E và <small>ρ1, ρ2∈</small>R<sub>[0,1]</sub>.

<small>K : (</small>F <sub>|</sub>G<small>) [ρ1], (</small>H <sub>|</sub>F<small>) [ρ2]</small>

<small>(</small>H <sub>|</sub>G<small>) [</small><sup>1</sup><sub>2</sub><small>(2ρ1ρ2− ρ1+ 1)]</small> (1.4)Do tiến trình THTT thực chất là việc đi tìm một tri thức chung đại diệntốt nhất cho một tập hữu hạn các CSTT. Trong môi trường xác suất, vềmặt hình thức, một hồ sơ TTXS bao gồm các CSTT xác suất được xác địnhtrên cùng một tập hữu hạn các sự kiện. Định nghĩa hồ sơ TTXS được đềxuất như sau:

Định nghĩa 1.6. (Hồ sơ tri thức xác suất) Một hồ sơ TTXS (Probabilisticknowledge profile) <sub>R</sub> trên tập các sự kiện E là một bộ <sub>hB,</sub>E<small>i</small>, trong đó:

1. E<sub>= {</sub>E<small>1, . . . ,</small>E<small>n}</small> là một tập hữu hạn gồm n sự kiện.

2. <sub>B = {K</sub><small>1, . . . ,Km}</small> là một đa tập hữu hạn gồm m CSTT xác suất.Đặt ~<sub>B</sub> <sub>=| B |=</sub>m là số lượng các CSTT xác suất có trong <sub>B</sub>. Đặt B làmột tập gồm các đa tập hữu hạn các CSTT xác suất.

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

Ví dụ 1.3. Xét tiếp Ví dụ 1.2. Bệnh viện thực hiện thu thập tri thức từchín bác sĩ, mỗi bác sĩ được được gán một mã lần lượt là BS1, BS2, BS3,BS4, BS5, BS6, BS7, BS8, BS9. Sau khi khảo sát, Bệnh viện thu được trithức của các bác sĩ được thể hiện trong Bảng 1.1.

Bảng 1.1: Tri thức của các bác sĩRBXS BS1 BS2 BS3 BS4 BS5

1.3 Hàm khoảng cách

Phần này trình bày một số hàm khoảng cách (Distance Function) và hàmKCPK sẽ được sử dụng để xây dựng bài tốn khơi phục tính nhất qn củaCSTT xác suất và bài tốn tích hợp các CSTT xác suất ở các phần sau:Định nghĩa 1.7 ([81]). (Hàm khoảng cách)

Cho một tập các phần tử X bất kỳ, một hàm khoảng cách trên X là mộtánh xạ: d <small>:</small>X <sub>×</sub>X <sub>→</sub>R thỏa mãn các tính chất sau:

1. d<small>(</small>x<small>,</small>y<sub>) ≥ 0</sub>

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

2. d<small>(</small>x<small>,</small>y<small>) = 0</small> khi và chỉ khi x <small>=</small>y3. d<small>(</small>x<small>,</small>y<small>) =</small>d<small>(</small>y<small>,</small>x<small>)</small>

4. d<small>(</small>x<small>,</small>y<small>) +</small>d<small>(</small>y<small>,</small>z<sub>) ≥</sub>d<small>(</small>x<small>,</small>z<small>)</small> trong đó x<small>,</small>y<small>,</small>z <sub>∈</sub>X .

Nếu một hàm khoảng cách chỉ thỏa mãn tính chất (1)-(3) thì nó đượcgọi là một hàm bán khoảng cách (Semi-distance). Nếu một hàm khoảngcách thỏa mãn cả bốn tính chất thì nó được gọi là một Metric. Như vậy,hàm khoảng cách là một hàm xác định khoảng cách giữa từng cặp phần tửđiểm của một tập hợp. Trong khi đó, với P là một <small>σ</small>-algebra trên X , độđo (Measure) là một hàm trên P: <small>µ:</small> P

<small>→</small> R thỏa mãn ba tính chất: (i)khơng âm, tức <small>µ(</small>E<sub>) ≥ 0</sub> với E trong P; (ii) tập rỗng, tức <small>µ(</small>∅<small>) = 0</small>; (iii)cộng tính đếm được, tức <small>µ(</small>F<sub>∞</sub>

<small>[ρ</small><sub>b</sub><small>¯</small><sub>K</sub><small>]}</small>. Đặt<small>~</small>z <small>= (</small>z<small>1, . . . ,</small>z<small>¯</small><sub>b</sub><sub>K</sub><small>)T</small>, trongđó z<small>i= P(</small>F<small>i</small>G<small>i) − ρiP(</small>G<small>i)</small> với <small>(</small>F<small>i|</small> G<small>i)[ρi] ∈ K</small>. Hàm khoảng cách từ mộthàm xác suất đến một CSTT xác suất theo p-norm (p <sub>≥ 1</sub>) được định nghĩanhư sau:

<small>(K) =1, . . . ,</small>z<small>¯</small><sub>b</sub><sub>K</sub> <sub>p</sub> <small>=</small> <sup>p</sup>

P<small>(</small>E<small>) ×</small>P<small>(</small>E<small>) →</small>R<small>∗</small> thỏa mãn các điều kiện sau:

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

Trước hết, ta xem xét tính nhất quán của các CSTT xác suất thông quađịnh nghĩa dưới đây:

Định nghĩa 1.11 ([66]). Hàm xác suất <sub>P ∈</sub> <sub>P(</sub>b E<small>)</small> thỏa mãn một RBXS

<small>(</small>F <sub>|</sub>G<small>) [ρ]</small>, kí hiệu <sub>P |= (</sub>F <sub>|</sub>G<small>) [ρ]</small>, nếu và chỉ nếu <sub>P(</sub>FG<sub>) = ρP(</sub>G<small>)</small>.

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Như vậy, <sub>P |= (</sub>F<small>)[ρ]</small>, nếu và chỉ nếu <sub>P(</sub>F<small>) = ρ</small>.

Định nghĩa 1.12 ([66]). Một hàm xác suất <sub>P</sub> thỏa mãn <sub>K</sub>, kí hiệu <sub>P |= K</sub>,nếu và chỉ nếu <sub>P |= κ ∀ κ ∈ K</sub>. Khi đó, kí hiệu f<sub>(K) = {P ∈</sub><sub>P(</sub>b E<small>) | P |= K}</small>

là một tập tất cả các hàm xác suất thoả mãn <sub>K</sub>.

cho <small>P(P) > 0˜</small> chỉ với hữu hạn <sub>P ∈</sub>P<small>~</small><sub>E</sub>. Đặt <sub>Λ(</sub><small>˜</small> <sub>E</sub><sub>)</sub> là tập tất cả các hàm xácsuất <small>P˜</small>, được định nghĩa bởi <sub>Λ(</sub><small>˜</small> <sub>E</sub><small>) = { ˜P(P) | ˜P(P) > 0, P ∈</small>P<small>(</small>E<small>)}</small>. Xác suấtcủa ràng buộc <small>κ</small> mà thỏa mãn <small>κ</small> được định nghĩa như sau:

Định nghĩa 1.13 ([66]). (CSTT xác suất nhất quán) Một CSTT xác suất

<small>K</small> là nhất quán, kí hiệu <sub>K 6|= ⊥</sub>, nếu và chỉ nếu f<sub>(K) 6=</sub> ∅. Ngược lại, <sub>K</sub> làkhơng nhất qn, kí hiệu <sub>K |= ⊥</sub>.

Trong trường hợp các CSTT xác suất là KNQ, việc đánh giá mức độKNQ của các CSTT xác suất này là rất cần thiết. Việc này địi hỏi phảitính được độ đo tính KNQ cho các CSTT xác suất. Định nghĩa1.14sau đâyđược đề xuất để biểu diễn độ đo KNQ của CSTT xác suất.

Định nghĩa 1.14. (Độ đo KNQ) Cho <sub>R = hB,</sub>E<small>i</small> là một hồ sơ TTXS. Độđo KNQ <sub>I</sub> của <sub>K ∈ B</sub> trên E là một hàm <sub>I :</sub> K <small>→</small>R<small>∗</small> sao cho <sub>I(K) = 0</sub> nếuvà chỉ nếu f<sub>(K) 6=</sub>∅, <sub>K ∈</sub>K.

Một CSTT xác suất là nhất quán nếu có ít nhất một thể hiện thỏa mãntất cả các cơng thức của nó.

Cần quan tâm đến việc xác định tính nhất quán cho một CSTT xác suấtcụ thể, CSTT xác suất <sub>K</sub> là nhất qn nếu có ít nhất một hàm xác suất<sub>P</sub><sub>K</sub>sao cho <sub>P |= K</sub> hoặc KNQ nếu khơng có <sub>P</sub> nào sao cho <sub>P |= K</sub>.

Ví dụ 1.4. Xét các CSTT xác suất trong Ví dụ 1.3. Thấy rằng f<sub>(K</sub><small>1) =</small> ∅bởi vì <sub>P |= h(</sub>H<small>)[0.7], (</small>T <sub>|</sub>H<sub>)[0.5]i</sub> dẫn đến <sub>P(</sub>T<sub>) ≥ 0.7 × 0.5 = 0.35</sub> mà có thểkhơng thỏa mãn đồng thời <sub>P(</sub>T<small>) = 0.3</small>. Do đó, <sub>K</sub><small>1|= ⊥</small>. Tương tự, <sub>K</sub><small>5|= ⊥</small>,tức là <sub>I(K</sub><small>1) 6= 0</small> và <sub>I(K</sub><small>5) 6= 0</small>. Tuy nhiên, ta có f<sub>(K</sub><small>2) =</small>f<small>(K3) =</small>f<small>(K4) 6=</small> ∅nên <sub>K</sub><small>26|= ⊥</small>, <sub>K</sub><small>36|= ⊥</small>, <sub>K</sub><small>46|= ⊥</small>, tức là <sub>I(K</sub><small>2) = I(K3) = I(K4) = 0</small>.

Nếu một CSTT xác suất <sub>K</sub> không nhất quán thì có thể định nghĩa cáctập con KNQ tối thiểu của <sub>K</sub> như sau:

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

Định nghĩa 1.15 ([13]). (Tập con KNQ tối thiểu). Một tập các RBXS

<small>M</small><sup>i</sup> <small>⊆ K</small> là tập con KNQ tối thiểu nếu <sub>M</sub><small>i</small>

<small>M</small><sup>c</sup> <small>⊆ K</small>là tập con nhất quán cực đại nếu <sub>M</sub><small>c</small>

SCC<small>(K) = {κ ∈ K | κ |= ⊥}</small> (1.10)Định nghĩa 1.18 ([13]). (Ràng buộc tự do). Một RBXS <small>κ∈ K</small> là ràng buộctự do nếu và chỉ nếu <small>κ6∈ M</small><sup>i</sup> với mọi <sub>M</sub><small>i</small>

<small>∈</small> SMI<small>(K)</small>. Khi đó, tập tất cả cácràng buộc tự do của <sub>K</sub> được định nghĩa như sau:

Fc<small>(K) = {κ ∈ K | κ 6∈ M</small><sup>i</sup><small>,∀ M</small><sup>i</sup> <small>∈</small>SMI<small>(K)}</small> (1.11)Có thể dễ dàng thấy ràng Fc<sub>(K) =</sub><sup>S</sup><sub>M</sub><small>i∈SMI(K)M</small><sup>i</sup>

Đặt App<sub>(=)</sub> là một tập các sự kiện xuất hiện trong <sub>=</sub>. Trong đó, <sub>=</sub> làmột CSTT xác suất <sub>K</sub>, một RBXS <small>κ</small> hoặc một hội đầy đủ <small>Θ</small>.

Định nghĩa 1.19 ([13]). (Ràng buộc an toàn). Một RBXS <small>κ∈ K</small> là ràngbuộc an toàn trong <sub>K</sub> nếu và chỉ nếu App<sub>(κ) ∩</sub>App<small>(K\{κ}) =</small> ∅. Khi đó, tậptất của các ràng buộc an tồn của <sub>K</sub> được định nghĩa như sau:

Sc<small>(K) = {κ ∈ K |</small>App<small>(κ) ∩</small>App<small>(K\{κ}) =</small>∅<small>}</small> (1.12)Định nghĩa 1.20. (Hồ sơ tri thức xác suất nhất quán) Một hồ sơ TTXS

<small>R = hB,</small>E<small>i</small> được gọi là hồ sơ tri thức nhất quán nếu và chỉ nếu <sub>∀ K</sub><small>i∈ B :Ki6|= ⊥</small>.

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

1.5 Mơ hình đặc trưng

Để xây dựng mơ hình giải quyết bài tốn khơi phục tính nhất qn củaCSTT xác suất và bài tốn tích hợp các CSTT xác suất thì cần phải xâydựng được mơ hình đặc trưng của CSTT xác suất. Mơ hình đặc trưng củamỗi CSTT xác suất được xác định bằng các ma trận đặc trưng, ma trậnhệ số không âm, ma trận hệ số dương, ma trận đường chéo kép, hàm đặctrưng. Định nghĩa 1.21 đề xuất sau đây để biểu diễn hàm chỉ thể hiện mốiliên hệ giữa các sự kiện và một hội đầy đủ.

Định nghĩa 1.21. (Hàm chỉ - Indicate function) Hàm chỉ <small>δ: Q × Λ(</small>E<small>) →</small>

<small>Θj|Θj|=Gi</small>x<small>j</small> nếu <small>κi∈ K</small> và <small>κi</small> = <small>(</small>F<small>i|</small>G<small>i) [ρi].</small> (1.14)Định nghĩa 1.23đề xuất sau đây để biểu diễn các dạng ma trận của mộtCSTT xác suất.

Định nghĩa 1.23. Đặt <sub>R = hB,</sub>E<small>i</small> là một hồ sơ TTXS. Ma trận đặc trưngcủa <sub>K ∈ B</sub> trên E được định nghĩa như sau:

<small>K= (</small>a<small>ij) ∈</small>R<sup>¯</sup><sup>b</sup><small>K×~E</small> (1.15)Ma trận hệ số không âm của <sub>K ∈ B</sub> trên E được định nghĩa như sau:

<small>ij) ∈</small>R<sup>¯</sup><sup>b</sup><small>K×~E</small> (1.16)Ma trận hệ số không dương của <sub>K ∈ B</sub> trên E được định nghĩa như sau:

C<sub>K</sub><sup>E,−</sup><small>= (</small>c<small>−</small>

<small>ij) ∈</small>R<sup>¯</sup><sup>b</sup><small>K×~E</small> (1.17)

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

Ma trận đường chéo kép của <sub>K ∈ B</sub> trên E được định nghĩa như sau:

A<sub>K</sub> <small>= (¯</small>a<small>ij) ∈</small>R<sup>¯</sup><sup>b</sup><small>K×2¯bK</small> (1.18)trong đó a<small>ij= δ (</small>F<small>i</small>G<small>i,Θj) (1 − ρi) − δ</small> F<small>i</small>G<small>i,Θj</small>

<small>1</small> nếu i <small>=</small>j và i <small>= 1, ¯</small>b<sub>K</sub>

<small>−1</small> nếu j <sub>−</sub>i <small>= ¯</small>b<sub>K</sub> và j <small>= ¯</small>b<sub>K</sub><small>+ 1, 2¯</small>b<sub>K</sub>

<small>0</small> ngược lại

Về mặt hình thức, a<small>ij</small> có thể là <sub>1 − ρ</sub><small>i,−ρi</small> hoặc 0 phụ thuộc vào việc F<small>i</small>G<small>i</small>

thỏa mãn <small>ρi</small>, F<small>i</small>G<small>i</small> thỏa mãn <small>ρi</small> hoặc khơng tính được.Đặt <small>~</small>a<small>j</small> là véctơ cột thứ j của A<small>E</small>

Ví dụ 1.5. Xét CSTT xác suất <sub>K</sub><small>1</small> trong Ví dụ 1.3. Theo Định nghĩa 1.21

và Định nghĩa 1.23, ta có: a<small>11= δ (</small>H<small>,</small>HTD<sub>) (1 − 0.7) − δ ¯</sub>H<small>,</small>HTD<sup></sup><small>0.7 =0.3</small>; Tương tự, a<small>12=</small> a<small>13=</small> a<small>14= 0.3</small>, a<small>21=</small> a<small>22=</small> a<small>25=</small> a<small>26= 0.7</small>,a<small>31=</small> a<small>33=</small> a<small>35=</small> a<small>37= 0.55</small>, a<small>41=</small> a<small>43= 0.5</small>, a<small>51=</small> a<small>53= 0.36</small>; a<small>15=δ</small> H<small>, ¯</small>H TD<sup></sup><sub>(1 − 0.7) − δ ¯</sub>H<small>, ¯</small>H TD<sup></sup><sub>0.7 = −0.7</sub>; Tương tự, a<small>16=</small>a<small>17=</small>a<small>18=−0.7</small>, a<small>23=</small> a<small>24=</small> a<small>27=</small> a<small>28= −0.3</small>, a<small>32=</small> a<small>34=</small> a<small>36=</small> a<small>38= −0.45</small>,a<small>42=</small> a<small>44= −0.5</small>, a<small>55=</small> a<small>57= −0.64</small>; Ta có a<small>45= δ</small> HT<small>, ¯</small>H TD<sup></sup><sub>(1 − 0.5) −</sub>

<small>δ</small> H T<small>¯, ¯</small>H TD<sup></sup><small>0.5 = 0</small>; Tương tự, a<small>46=</small>a<small>47=</small>a<small>48=</small>a<small>52=</small>a<small>54=</small>a<small>56=</small>a<small>58= 0</small>.Do đó, ta có:

<small>0.30.30.30.3−0.7−0.7−0.7−0.70.70.7 −0.3−0.30.70.7−0.3−0.30.55 −0.45 0.55 −0.450.55 −0.450.55 −0.450.5−0.50.5−0.500000.3600.360 −0.640 −0.640</small>



</div>

×