Tải bản đầy đủ (.pdf) (89 trang)

Ứng dụng lý thuyết Bayes trong phân lớp để xây dựng hệ thống hỗ trợ chẩn đoán bệnh viêm phế quản

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.44 MB, 89 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

TRỊNH QUỐC VIỆT

ỨNG DỤNG LÝ THUYẾT BAYES
TRONG PHÂN LỚP ĐỂ XÂY DỰNG
HỆ THỐNG HỖ TRỢ CHẨN ĐOÁN
BỆNH VIÊM PHẾ QUẢN

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2017


ii

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA

TRỊNH QUỐC VIỆT

ỨNG DỤNG LÝ THUYẾT BAYES
TRONG PHÂN LỚP ĐỂ XÂY DỰNG
HỆ THỐNG HỖ TRỢ CHẨN ĐOÁN
BỆNH VIÊM PHẾ QUẢN

Chuyên ngành: Khoa học máy tính
Mã số:

60.48.01.01



LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS. VÕ TRUNG HÙNG

Đà Nẵng - Năm 2017


i

LỜI CAM ĐOAN

Tôi xin cam đoan :

Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực
tiếp của PGS.TS. Võ Trung Hùng;
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và trung thực tên
tác giả, tên công trình, thời gian, địa điểm công bố;
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu
hoàn toàn trách nhiệm.

Tác giả

Trịnh Quốc Việt


ii

TRANG TÓM TẮT
ỨNG DỤNG LÝ THUYẾT BAYES TRONG PHÂN LỚP ĐỂ XÂY DỰNG HỆ THỐNG

HỖ TRỢ CHẨN ĐOÁN BỆNH VIÊM PHẾ QUẢN
Tóm tắt – Với thuật toán phân lớp Bayes áp dụng trong các trường hợp tính xác suất
cao nhất để phân lớp cho đối tượng. Trong đề tài này áp dụng thuật toán để hỗ trợ chẩn đoán
bệnh viêm phế quản nhầm giúp các bác sĩ không chuyên khoa, bác sĩ chưa có kinh nghiêm
trong việc khám và chửa bệnh viêm phế quản hoặc trường hợp bác sĩ không có mặt một cách
nhanh chống, kịp thời và chính xác. Hệ thống hoạt động dựa vào máy suy diễn và tập luật đã
được thu thập từ tri thức chuyên gia để đưa ra kết quả chẩn đoán. Tri thức của chuyên gia đã
trãi qua nhiều năm kinh nghiệm nghiên cứu về bệnh viêm phế quản. Tất cả các tri thức thu
thập được từ các bệnh án của các bệnh nhân và có sự góp ý của các chuyên gia (các bác sĩ
chuyên khoa Hô – Hấp) hoàn toàn chính xác, đáng tin cậy. Đề tài cũng đã tìm giải pháp cho
việc tin học hóa các vấn đề về chẩn đoán bệnh trên thực tế, tạo điều kiện thuận lợi cho việc
khám chữa bệnh, giúp bảo vệ sức khỏe và nâng cao chất lượng sống của cộng đồng.
Từ khóa – Phân lớp Bayes, Chẩn đoán bệnh, Viêm phế quản, hỗ trợ bác sĩ, tin học hóa chẩn
đoán bệnh
BAYES 'THEORETICAL APPROACHES IN CLASSIFICATION FOR THE
PREPARATION OF DIABETIC ADMINISTRATION SUPPORT SYSTEM
Abstract - With the Bayesian classifier algorithm applied in the highest probability cases to
classify objects. In this topic, algorithms are used to assist in the diagnosis of bronchitis. It is
used to help non-specialists, doctors who are not experienced in bronchitis examination and
treatment, or who do not have a doctor. Quick, timely and accurate way. The inference system
and the rule set were collected from expert knowledge to provide diagnostic results. Expert
knowledge has many years of experience in the study of bronchitis. All the knowledge gained
from the patients' medical records and the opinions of the experts (the respiratory physicians)
are completely accurate and reliable. The subject has also found a solution for the
computerization of the problems of disease diagnosis in practice, facilitate the medical
examination and treatment, help protect health and improve the quality of life of the
community.
Keywords - Bayesian class, Diagnosis, bronchitis, doctor support, computerization diagnosis



iii

MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................. i
TRANG TÓM TẮT .........................................................................................................ii
MỤC LỤC ..................................................................................................................... iii
DANH MỤC CÁC BẢNG ............................................................................................. vi
DANH MỤC CÁC HÌNH .............................................................................................vii
MỞ ĐẦU ......................................................................................................................... 1
1. Lí do chọn đề tài ....................................................................................................... 1
2. Mục tiêu đối tượng của đề tài................................................................................... 2
3. Ý nghĩa khoa học và thực tiễn.................................................................................. 3
4. Nội dung, phương pháp nghiên cứu ......................................................................... 4
4.1. Các nội dung nghiên cứu ................................................................................... 4
4.2. Các phương pháp nghiên cứu ............................................................................ 5
CHƯƠNG 1. CƠ SỞ LÝ THUYẾT ................................................................................ 6
1.1. Cơ sở tri thức ......................................................................................................... 6
1.2. Các phương pháp biểu diễn tri thức ...................................................................... 7
1.2.1. Biểu diễn tri thức bằng logic .......................................................................... 7
1.2.2. Biểu diễn tri thức bằng hệ luật dẫn ................................................................ 9
1.2.3. Biểu diễn tri thức bằng Frame...................................................................... 10
1.2.4. Biểu diễn tri thức bằng mạng ngữ nghĩa ...................................................... 13
1.2.5. Biểu diễn tri thức bằng mạng các đối tượng tính toán ................................. 14
1.3. Hệ chuyên gia ...................................................................................................... 15
1.3.1. Định nghĩa .................................................................................................... 15
1.3.2. Cơ sở tri thức của hệ chuyên gia .................................................................. 18
1.3.3. Cấu trúc một hệ chuyên gia .......................................................................... 20
1.3.4. Quy trình xây dựng hệ chuyên gia ................................................................ 21
1.3.5. Những thuận lợi và khó khăn của hệ chuyên gia.......................................... 21
1.4. Phương Pháp Phân Loại Naïve Bayes ................................................................ 22

1.4.1. Khái niệm về phân lớp .................................................................................. 22
1.4.2. Phương pháp phân lớp Naïve Bayes ............................................................ 23
1.4.3. Thuật toán Naïve Bayes ................................................................................ 24
CHƯƠNG 2. THIẾT KẾ CƠ SỞ TRI THỨC VÀ BỘ SUY DIỄN .............................. 26
2.1. Giới thiệu hệ thống.............................................................................................. 26


iv

2.1.1. Mục đích, đối tượng sử dụng ........................................................................ 26
2.1.2. Chức năng của hệ thống ............................................................................... 26
2.1.2.1. Yêu cầu chức năng ................................................................................. 26
2.1.2.2 .Yêu cầu phi chức năng ........................................................................... 27
2.2. Tri thức về viêm phế quản .................................................................................. 27
2.2.1. Định nghĩa về viêm phế quản ....................................................................... 27
2.2.2. Nguyên nhân của viêm phế quản .................................................................. 27
2.2.2.1. Viêm phế quản cấp ................................................................................. 27
2.2.2.2. Viêm phế quản mạn................................................................................ 28
2.2.3. Triệu chứng của viêm phế quản.................................................................... 30
2.2.3.1. Viêm phế quản cấp ................................................................................. 30
2.2.3.2. Viêm phế quản mạn................................................................................ 30
2.3. Mô hình biểu diễn tri thức viêm phế quản .......................................................... 32
2.4. Tổ chức và lưu trữ tri thức lên máy tính ............................................................. 38
2.5. Quy trình chẩn đoán viêm phế quản ................................................................... 40
2.5.1. Khám lâm sàng ............................................................................................. 40
2.5.2. Khám cận lâm sàng ...................................................................................... 40
2.5.3. Quy trình chẩn đoán lâm sàng, cận lâm sàng .............................................. 41
2.6. Thuật giải trong chẩn đoán viêm phế quản ......................................................... 42
2.6.1. Ý tưởng .......................................................................................................... 42
2.6.2. Thuật giải ...................................................................................................... 43

CHƯƠNG 3. CÀI ĐẶT VÀ KIỂM THỬ ..................................................................... 45
3.1. Sơ lược hệ thống ................................................................................................. 45
3.2. Các Mô-đun của hệ thống ................................................................................... 57
3.3. Nền tảng công nghệ sử dụng ............................................................................... 66
3.4. Cài đặt hệ thống .................................................................................................. 67
3.4.1. Các chức năng của hệ thống ........................................................................ 67
3.4.2. Các thành phần của hệ thống ....................................................................... 67
3.4.2.1. Form chính của hệ thống ........................................................................ 67
3.4.2.2. Form đăng nhập hệ thống ....................................................................... 68
3.4.2.3. Form cập nhật thông tin về triệu chứng lâm sàng và cận lâm sàng ....... 68
3.4.2.4. Form cập nhật thông tin về danh sách các loại bệnh.............................. 69
3.4.2.5. Form cập nhật thông tin về luật .............................................................. 69
3.4.2.6. Form chẩn đoán chọn dữ liệu bình thường ............................................ 69
3.4.2.7. Form chẩn đoán chọn dữ liệu có định hướng ......................................... 70
3.4.2.8. Form chi tiết tỷ lệ bệnh .......................................................................... 70


v

3.5. Kiểm thử hệ thống ............................................................................................... 71
KẾT LUẬN VÀ KIẾN NGHỊ ....................................................................................... 72
1. Kết quả đạt được .................................................................................................... 72
2. Một số hạn chế ....................................................................................................... 72
3. Hướng phát triển .................................................................................................... 72
TÀI LIỆU THAM KHẢO ............................................................................................. 73
QUYẾT ĐỊNH GIAO ĐỀ TÀI.
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC
PHẢN BIỆN.



vi

DANH MỤC CÁC BẢNG
Số hiệu
bảng

Tên bảng

Trang

Thống kê các bệnh mắc cao nhất toàn quốc

1

2.2.

Phân biệt khí phế thủng và viêm phế quản mạn

31

2.3.

Phân biệt viêm phế quản mạn và giãn phế nang

32

3.1.

Thống kê kết quả thử nghiệm


71

1.


vii

DANH MỤC CÁC HÌNH
Số
hiệu
hình
1.1.
1.2.
1.3.
1.4.
1.5.
2.1.
2.2.
2.3.
2.4.
2.5.
3.1.
3.2.
3.3.
3.4.
3.5.
3.6.
3.7.
3.8.
3.9.

3.10.
3.11.
3.12.
3.13.
3.14.
3.15.
3.16.
3.17.
3.18.
3.19.

Tên hình
Mô hình đồ thị biểu diễn tri thức nhờ mạng ngữ nghĩa
Mô hình đồ thị thêm vào các nút và cung biểu diễn tri thức nhờ
mạng ngữ nghĩa
Các thành phần của hệ chuyên gia
Cơ chế hoạt động của hệ chuyên gia
Cấu trúc của hệ chuyên gia
Tỉ lệ tử vong theo số điếu thuốc lá hút
Tỉ lệ tử vong do viêm phế quản theo tuổi
Tỉ lệ tử vong giữa nam và nữ do viêm phế quản
Sơ đồ chẩn đoán bệnh
Sơ đồ giải thuật
Hình Mô hình tổng thể hệ thống
Sơ đồ giải thuật thêm luật vào hệ thống
Sơ đồ giải thuật sửa luật vào hệ thống
Sơ đồ giải thuật xóa luật vào hệ thống
Sơ đồ giải thuật thêm triệu chứng vào hệ thống
Sơ đồ giải thuật sửa triệu chứng trong hệ thống
Sơ đồ giải thuật xóa triệu trong hệ thống

Sơ đồ giải thuật thêm bệnh vào hệ thống
Sơ đồ giải thuật sửa bệnh trong hệ thống
Sơ đồ giải thuật xóa bệnh trong hệ thống
Sơ đồ giải thuật đăng nhập vào hệ thống
Màn hình Form chính của hệ thống
Màn hình đăng nhập
Màn hình cập nhật triệu chứng
Màn hình cập nhật bệnh
Màn hình cập nhật thông tin về luật
Màn hình hỗ trợ chẩn đoán
Màn hình hỗ trợ chẩn đoán có định hướng
Màn hình chi tiết tỷ lệ bệnh

Trang
13
14
16
17
20
28
29
29
42
43
45
57
58
59
60
61

62
63
64
65
66
67
68
68
69
69
70
70
70


1

MỞ ĐẦU
1. Lí do chọn đề tài
Hàng năm trên thế giới có hơn 4 triệu người tử vong do các bệnh liên quan
đến đường hô hấp, trong đó phổ biến nhất là viêm phế quản (Bronchitis). Viêm phế
quản là bệnh thường gặp ở trẻ em, bất kể lứa tuổi nào và thời tiết nào, đặc biệt là
trẻ ở thành thị cũng như ở các nơi tập trung dân cư đông đúc thì tỉ lệ bệnh còn cao
hơn. Thế giới hiện có khoảng 300 triệu người mắc viêm phế quản và khoảng
250.000 trường hợp tử vong vì viêm phế quản mỗi năm. Tỷ lệ mắc viêm phế quản
ước tính khoảng 6-8% ở người lớn và khoảng 10-12% ở trẻ em dưới 15 tuổi. Ở
Việt Nam, các nghiên cứu cho thấy, tỷ lệ mắc viêm phế quản dao động từ 1,1% ở
Đà Lạt cho tới cao nhất là 5,5% ở cư dân một số khu vực Hà Nội[2]. Theo bảng
thống kê năm 2013 của bộ y tế ta có số liệu sau:
Bảng 1. Thống kê các bệnh mắc cao nhất toàn quốc

Tên Bệnh

Số ca mắc (đơn vị tính: trên 10000 dân)

Viêm họng và viêm amidan

644.18

Viêm phế quản

394.15

Các bệnh viêm phổi

545.33

Viêm đường hô hấp trên

267. 36

Chính vì vậy, hiểu biết một số nguyên nhân và cách đề phòng của căn bệnh này
sẽ làm giảm thiểu số ca bệnh, đề phòng được các biến chứng và nâng cao chất lượng
cuộc sống. Đồng thời cũng làm giảm nguy cơ dẫn đến các biến chứng do bệnh này gây
ra như hen phế quản, ung thư phế quản, viêm phổi, áp xe phổi, suy hô hấp cấp….
Để áp dụng công nghệ thông tin vào giải quyết vấn đề trên, ta cần có một hệ
thống thu thập tri thức về các triệu chứng và dấu hiệu nhận biết viêm phế quản, sau đó
tổ chức, biểu diễn tri thức này bằng lý thuyết Bayes trong phân lớp để xây dựng hệ
chuyên gia chẩn đoán bệnh viêm phế quản. Chính vì vậy, sau khi tham khảo ý kiến của
các chuyên gia về công nghệ thông tin và y khoa, tôi đã chọn nghiên cứu hướng đề tài:



2

“Ứng dụng Lý thuyết Bayes trong phân lớp để Xây dựng Hệ thống hỗ trợ Chẩn đoán
bệnh Viêm phế quản”.
Chương trình dựa trên tri thức của các bác sĩ chuyên khoa Nội - Hô hấp tại phòng
khám đa khoa trường ĐH Trà Vinh có kiến thức chuyên sâu, có kinh nghiệm lâm sàng
về viêm phế quản để phân tích những dấu hiệu, triệu chứng nhằm đưa ra chẩn đoán
chính xác để có cách điều trị nhanh chóng và kịp thời. Chương trình có giao diện thân
thiện, dễ sử dụng, thể hiện được sự tương tác với người dùng như trong quy trình chẩn
đoán bệnh thực tế tại các bệnh viện hay phòng khám. Đồng thời chương trình cũng có
ý nghĩa quan trọng trong việc giúp các bác sĩ không chuyên nội hô hấp có thể đưa ra
những chẩn đoán chính xác và nhanh chóng trong tình huống chưa có bác sĩ chuyên
khoa kịp thời.
2. Mục tiêu đối tượng của đề tài
Từ nhu cầu thực tiễn trong cuộc sống về khám chữa bệnh cộng với những động
lực đã nêu trên, đề tài mong muốn ứng dụng công nghệ thông tin vào lĩnh vực y khoa
và đặc biệt là chuyên khoa hô hấp để chẩn đoán bệnh viêm phế quản. Đề tài cũng sẽ
tìm hiểu và nghiên cứu về các mô hình biểu diễn tri thức và những phương pháp, kĩ
thuật xây dựng hệ chuyên gia để vận dụng vào việc xây dựng hệ hỗ trợ chẩn đoán bệnh
một cách tự động. Như vậy, đề tài hướng tới việc xây dựng một hệ hỗ trợ chẩn đoán
bệnh viêm phế quản có cơ sở tri thức từ các bác sĩ chuyên khoa Nội - Hô hấp để hỗ trợ
cho các bác sĩ chưa có nhiều kinh nghiệm hoặc các bác sĩ không chuyên về Nội - Hô
hấp có thể tham khảo kinh nghiệm chẩn đoán và điều trị của các bác sĩ chuyên khoa
nhằm đưa ra những quyết định chính xác trong trường hợp chưa có bác sĩ chuyên khoa
kịp thời.
Hệ hỗ trợ chẩn đoán này đáp ứng một số yêu cầu từ ý kiến của chuyên gia, có
giao diện mang tính tương tác và hệ thống thử nghiệm trên các bệnh án thực tế. Hệ
thống có cơ sở tri thức từ các chuyên gia cấp cao để hỗ trợ cho bác sĩ chưa có nhiều
kinh nghiệm hay các bác sĩ tuyến huyện. Có thể nói, đây là một chương trình có tính

ứng dụng thực tế cao. Cụ thể, dữ liệu vào ra của hệ chẩn đoán như sau:
 Input:
- Một số triệu chứng của bệnh nhân có nghi ngờ viêm phế quản


3

- Một số xét nghiệm cận lâm sàng cần thiết như chụp X- Quang, xét
nghiệm máu (chủ yếu về số lượng bạch cầu và tốc độ máu lắng), xét nghiệm
cấy đàm (tìm virus), xét nghiệm dịch màn phổi (tìm khuẩn lao), soi phế quản.
 Output:
Đưa ra cho người dùng kết luận bệnh từ những triệu chứng đầu vào kết
hợp với bộ suy diễn của chương trình.
Phạm vi nghiên cứu
Đề tài thu thập tri thức từ các chuyên gia, các triệu chứng trong việc chẩn đoán
thực tế và dấu hiệu nhận biết bệnh viêm phế quản. Đồng thời cũng thu thập thêm các
triệu chứng từ các tài liệu Y khoa có sự giám sát của chuyên gia:
- Nghiên cứu tri thức và kinh nghiệm thực tế của các bác sĩ chuyên khoa
để thu thập, xây dựng và biểu diễn tri thức về bệnh viêm phế quản lên máy tính.
- Xây dựng hệ chẩn đoán nhằm hỗ trợ các bác sĩ không chuyên trong việc
đưa ra các kết luận về tình trạng bệnh để có phương pháp điều trị phù hợp.
Chương trình hỗ trợ cho các bác sĩ không thuộc chuyên khoa Nội – Hô hấp, các
bác sĩ đa khoa tuyến huyện chưa có kiến thức chuyên sâu về bệnh viêm phế quản.
Chương trình hỗ trợ bác sĩ trong việc kết luận bệnh.
3. Ý nghĩa khoa học và thực tiễn
3.1. Ý nghĩa khoa học
Đề tài nghiên cứu và áp dụng những phương pháp, kĩ thuật xử lý của chuyên
ngành công nghệ thông tin vào y khoa, từ đó ứng dụng vào hệ chuyên gia để hỗ trợ
chẩn đoán bệnh như sau:
- Thu thập cơ sở tri thức y khoa về viêm phế quản

- Biểu diễn cơ sở tri thức đã thu thập.
- Thiết kế mô hình cơ sở tri thức phù hợp.
- Xây dựng phần mềm trên cơ sở tri thức đã có.
Như vậy, thông qua ứng dụng này có một số đóng góp về mặt kĩ thuật biểu diễn
tri thức và suy luận. Dựa trên cơ sở kĩ thuật ứng dụng chương trình giải quyết những
vấn đề về nghiên cứu tri thức thực tế từ chuyên gia cấp cao về bệnh viêm phế quản để


4

xây dựng mô hình biểu diễn tri thức và đưa ra những kết quả chẩn đoán cho bệnh nhân
viêm phế quản. Đề tài đã đưa ra một mô hình tri thức áp dụng phương pháp thiết kế hệ
cơ sở tri thức dựa vào hệ chuyên gia, phương pháp biểu diễn và kĩ thuật xử lý tri thức
phức tạp trong lĩnh vực y khoa là một đóng góp về mặt khoa học của đề tài.
3.2. Ý nghĩa thực tiễn
Vấn đề chẩn đoán và điều trị bệnh viêm phế quản đã được các bác sĩ chuyên khoa
áp dụng thường xuyên trong việc khám bệnh thực tế tại bệnh viện. Tuy nhiên việc đưa
tri thức của các chuyên gia này vào mô hình biểu diễn tri thức để ứng dụng nó trong
tin học thì chưa được tiến hành, vì vậy việc ứng dụng công nghệ tri thức để biểu diễn
và ứng dụng vào lĩnh vực y khoa để xây dựng một hệ thống chẩn đoán tự động có ý
nghĩa thực tiễn rất lớn.
Đề tài này mang tính ứng dụng thực tế rất cao do nhu cầu của con người cần có
một chương trình hỗ trợ cho việc chẩn đoán và phát hiện bệnh sớm để kịp thời chữa
trị. Trong khi làm ứng dụng này, tôi đã nghiên cứu tìm hiểu một số phương pháp, kĩ
thuật để thiết kế chương trình nhằm xây dựng một hệ chuyên gia phù hợp hơn so với
chương trình ứng dụng thông thường. Sử dụng mô hình mới để xây dựng một hệ
chuyên gia hỗ trợ cho việc chẩn đoán bệnh trong lĩnh vực Y khoa là một công cụ giúp
nâng cao hiệu quả công việc và mang tính thực tiễn rất cao.
4. Nội dung, phương pháp nghiên cứu
4.1. Các nội dung nghiên cứu

Nội dung nghiên cứu của đề tài được chia ra làm 5 chương như sau:
 Chương 1: Cơ sở lý thuyết để thực hiện đề tài: gồm các kiến thức lý thuyết về
hệ chuyên gia, các cơ sở tri thức, các phương pháp biểu diễn tri thức, các mô hình
biểu diễn tri thức, các kĩ thuật suy diễn trong việc xây dựng một hệ chuyên gia
 Chương 2: Thiết kế cơ sở tri thức và bộ suy diễn: thu thập tri thức về bệnh viêm
phế quản, xây dựng mô hình tri thức thu thập được, tổ chức và lưu trữ tri thức đã có
lên máy tính và xây dựng thuật giải theo quy trình chẩn đoán viêm phế quản thực tế.
 Chương 3: Cài đặt và kiểm thử: trên cơ sở tri thức đã tổ chức, tiến hành xây
dựng hệ chẩn đoán và thử nghiệm trên các mẫu bệnh án đã thu thập.


5

 Kết luận và hướng phát triển: trình bày những kết quả đạt được của đề tài cũng
như những mặt hạn chế cần khắc phục, phát triển.
4.2. Các phương pháp nghiên cứu
Đề tài này sẽ kết hợp hai phương pháp nghiên cứu:
 Phương pháp phân tích, tổng hợp: thu thập tri thức từ các hồ sơ bệnh án về bệnh
viêm phế quản tại phòng khám đa khoa trường ĐH Trà Vinh, đồng thời cũng thu thập
tri thức từ các bác sĩ chuyên khoa Nội - Hô hấp của bệnh viện để phân tích và xử lý
dữ liệu. Ngoài việc đọc các tài liệu chuyên ngành công nghệ thông tin để tìm hiểu
cách biểu diễn tri thức và các phương pháp suy diễn còn đọc thêm các tài liệu chuyên
ngành y để có kiến thức về bệnh viêm phế quản.
 Nghiên cứu thuật toán Bayes trong phân lớp: nghiên cứu cách biểu diễn tri thức
để xây dựng kho tri thức cho phù hợp với thuật toán Bayes trong phân lớp (Naïve
Bayes classifiers).


6


Chương 1. CƠ SỞ LÝ THUYẾT
1.1. Cơ sở tri thức
Tri thức[1]là những gì mà một người có thể biết và hiểu được. Tri thức có thể
được phân loại thành tri thức có cấu trúc hoặc không có cấu trúc, tri thức rõ ràng hay
tri thức ngụ ý, không rõ ràng. Những gì mà chúng ta biết được thường là các tri thức rõ
ràng. Tri thức không có cấu trúc mà vẫn hiểu được, nhưng không được phát biểu rõ
ràng là các tri thức ngầm ý, tri thức không rõ. Khi tri thức được tổ chức để có thể chia
sẻ thì lúc đó tri thức được gọi là tri thức có cấu trúc. Để có thể chuyển đổi từ tri thức
không rõ ràng sang tri thức rõ ràng thì tri thức đó cần phải được cấu trúc hóa và định
dạng lại. Tri thức có thể được phân loại thành các loại như sau:
- Tri thức thủ tục: trong thực tế, nhiều bài toán mà ta có thể gặp là các bài
toán mà tri thức không đơn thuần là khái niệm hay mô tả mà là một hành động
hay một công thức, thủ tục. Ta gọi các tri thức như vậy là các tri thức thủ tục
(diễn tả các vấn đề được giải quyết).
- Tri thức mô tả: cho biết một vấn đề được thấy như thế nào.
- Tri thức Meta: diễn tả tri thức về tri thức.
- Tri thức may rủi: diễn tả các luật may rủi dẫn dắt quá trình suy lý. Tri
thức này có được dựa trên kinh nghiệm tích lũy nên còn gọi là hueristic.
- Tri thức cấu trúc: mô tả mô hình tri thức tổng quát của chuyên gia về
một vấn đề.
Tùy thuộc vào ứng dụng cụ thể mà tri thức được biểu diễn theo những phương
thức khác nhau. Ứng với mỗi dạng biểu diễn đó có một cơ chế để xử lý tri thức đó. Hệ
cơ sở tri thức là một tập hợp các cơ sở lập luận, các luật, các quy trình, thủ tục được tổ
chức thành một lược đồ. Đó là tập hợp của tất cả các thông tin cũng như tất cả các kiến
thức về một lĩnh vực cụ thể nào đó.
Quá trình thu thập tri thức được gọi là quá trình rút trích tri thức và định dạng
tri thức được thực hiện từ nhiều nguồn khác nhau, đặc biệt là từ các chuyên gia trong
các lĩnh vực cụ thể. Công việc này là một trong những bước quan trọng và thường mất
rất nhiều thời gian cũng như công sức trong quá trình xây dựng một hệ cơ sở tri thức
được sử dụng trong hệ chuyên gia. Trong quá trình phát triển một hệ chuyên gia, các



7

kỹ sư tri thức, những nhà chuyên môn trong lĩnh vực trí tuệ nhân tạo, có nhiệm vụ thu
thập tri thức từ các chuyên gia thuộc lĩnh vực chuyên ngành. Sau đó “sao chép” các tri
thức đó vào cơ sở tri thức và diễn đạt các tri thức đó dưới dạng có thể dùng được trong
hệ chuyên gia.
1.2. Các phương pháp biểu diễn tri thức
1.2.1. Biểu diễn tri thức bằng logic
Dựa vào các khái niệm cơ bản về logic mệnh đề và logic vị từ, với một số bài
toán, các trạng thái được mô tả qua các biểu thức logic. Sử dụng các ký hiệu để mô tả
tri thức. Mỗi ký hiệu nhằm diễn tả một khái niệm nào đó trong lĩnh vực đang xét, và
mỗi ký hiệu này mang 2 giá trị luận lý là đúng hoặc sai. Khi đó bài toán được phát
biểu dưới dạng: Chứng minh: Từ GT1 GT2 … GTm suy ra một trong các kết luận:
KL1, …,KLn . Ở đây: GTi, KLj là các biểu thức logic (mệnh đề hoặc vị từ).
Các phép toán logic được sử dụng phổ biến của dạng là: and (^), or (v), not (~)
và phép kéo theo (→), tương đương (≡). Ví dụ: Tri thức “nếu trời mưa và xe máy hư
thì đi xe buýt” được biểu diễn là: s^p → r, trong đó s diễn tả khái niệm trời mưa, p
diễn tả khái niệm xe hư, r là đi xe buýt. Như vậy mô hình cho phương pháp này bao
gồm: tập các ký hiệu và tập các luật để diễn đạt các sự kiện và luật trong hệ cơ sở tri
thức.
Phương pháp suy luận trong các biểu diễn này là sử dụng suy diễn tiến, suy
diễn lùi hoặc kết hợp cả hai. Phương pháp suy diễn tiến là suy dẫn từ giả thuyết đi đến
kết luận và suy diễn lùi là truy ngược từ kết luận trở về giả thuyết.
Cho bài toán suy diễn: Tập luật R={Ri: nếu l(Ri) thì r(Ri), i=1,2,..., n}
Ghi chú:

l(Ri): vế trái luật Ri
r(Ri): vế phải luật Ri




Thuật giải suy diễn tiến

- Đầu vào: Tập giả thiết G và tập kết luận K.
- Đầu ra: thành công hay thất bại
Bước 1: GT ← G
Bước 2: Nếu K

G thì dừng thành công. Ngược lại, chuyển sang bước 3


8

Bước 3: Từ R chọn luật Ri sao cho l(Ri)

G.

GT ← GT r(Ri)
Quay lại bước 2
Nếu không chọn được Ri thì dừng thất bại
 Thuật giải suy diễn lùi
- Đầu vào: Tập giả thiết G và tập kết luận K.
- Đầu ra: thành công hay thất bại
Bước 1: O ← K: // O là tập các sự kiện kết luận cần chứng minh
Bước 2: nếu O

G thì dừng thành công, ngược lại qua bước 3


Bước 2: chứng minh tất cả các sự kiện giả thiết của một luật nào đó trong G
mà có kết luận K
Mô hình biểu diễn này rất khó áp dụng trong thực tế vì các phát biểu (sự kiện)
được mô tả quá đơn giản, và giá trị của các phát biểu này là đúng, sai. Trong khi đó tri
thức của mỗi lĩnh vực thì phức tạp và mô tả trong tri thức là đa dạng.
 Logic vị từ và logic mệnh đề có các ưu điểm sau:
- Là ngôn ngữ biểu diễn kiểu mô tả.
- Có khả năng suy diễn đối với các cơ chế quen thuộc: Pronens&Tollens.
- Khá trực quan với người sử dụng.
- Khá gần gũi về cú pháp với các lệnh lập trình logic, chẳng hạn như
PROLOG.
- Có thể dùng để mô tả cấu trúc mô hình và xử lý động mô hình.
- Có thể kiểm tra tính mâu thuẫn trong cơ sở tri thức.
- Tính mô đun cao, do vậy các tri thức có thể them bớt sửa đổi khá độc lập
với nhau và các cơ chế suy diễn.
 Một số điểm yếu của logic:
- Mức độ hình thức hóa cao, dẫn tới khó hiểu ngữ nghĩa của các vị từ khi
xét chương trình.


9

- Năng xuất xử lý thấp. Một trong những khó khăn cơ bản của quá trình
suy diễn là cơ chế hợp và suy diễn vét cạn.
- Do các tri thức được biểu diễn nhờ các vị từ, nên ưu thế sử dụng cấu trúc
dữ liệu không được khai thác triệt để.
1.2.2. Biểu diễn tri thức bằng hệ luật dẫn
Một hệ luật dẫn được mô tả dưới dạng nếu <giả thiết> thì <kết luận>. Đây là
dạng biểu diễn tri thức rất phổ biến. Mô hình biểu diễn tri thức dạng này thường bao
gồm: tập các ký hiệu mô tả các sự kiện (có cấu trúc đơn giản) và tập luật dẫn. Trong

đó phần giả thiết và kết luận của luật là tập các sự kiện. Mỗi sự kiện được mô tả có cấu
trúc đơn giản như (tên đối tượng – thuộc tính – giá trị). Ví dụ: quả cam – màu vàng.
Mô hình biểu diễn tri thức dạng này có những ưu điểm là dễ hiểu, dễ giải thích
vì các khái niệm được mô tả có cấu trúc tương đối đơn giản. Có thể xây dựng cơ chế
suy luận dễ dàng bằng cách áp dụng phương pháp suy diễn tiến hay lùi. Ngoài ra, các
luật được biểu diễn theo mô hình này thường độc lập nhau nên việc cập nhật luật, hiệu
chỉnh và bảo trì hệ thống thuận lợi. Tuy nhiên, từ những đặc điểm trong các biểu diễn
tri thức dạng này tạo nên ưu điểm thì nó cũng tạo ra các khuyết điểm sau: Chính vì các
sự kiện có cấu trúc đơn giản, trong khi tri thức của một số lĩnh vực lại trừu tượng và
phức tạp, các khái niệm của lĩnh vực có quan hệ ràng buộc lẫn nhau nên mô hình biểu
diễn này không thể hiện được hết tất cả những yếu tố trừu tượng đó.
 Ưu điểm:
- Cách biểu diễn khá đơn giản và trực quan.
- Có thể suy diễn theo chiến lược khác nhau: suy diễn tiến, suy diễn lùi và
suy diễn hỗn hợp.
- Khá gần gũi về cú pháp.
- Có thể kiểm tra tính mâu thuẫn giữa các luật.
- Tính mô đun cao, có nghĩa là việc thêm, sửa đổi hoặc loại bỏ các luật
hoàn toàn không có ảnh hưởng tới các luật khác và cơ chế suy diễn.
 Nhược điểm:
- Năng xuất xử lý thấp.


10

- Không sử dụng được các cấu trúc dữ liệu.
1.2.3. Biểu diễn tri thức bằng Frame
Frame là một cấu trúc dữ liệu chứa đựng tất cả những tri thức liên quan đến một
đối tượng cụ thể nào đó. Frames có liên hệ chặt chẽ đến khái niệm hướng đối tượng
(thực ra Frame là nguồn gốc của lập trình hướng đối tượng). Ngược lại với các phương

pháp biểu diễn tri thức đã được đề cập đến, frame “đóng gói” toàn bộ một đối tượng,
tình huống hoặc cả một vấn đề phức tạp thành một thực thể duy nhất có cấu trúc. Một
frame bao hàm trong đó một khối lượng tương đối lớn tri thức về một đối tượng, sự
kiện, vị trí, tình huống hoặc những yếu tố khác. Do đó, frame có thể giúp ta mô tả khá
chi tiết một đối tượng.
Dưới một khía cạnh nào đó, người ta có thể xem phương pháp biểu diễn tri thức
bằng frame chính là nguồn gốc của ngôn ngữ lập trình hướng đối tượng. Ý tưởng của
phương pháp này là “thay vì bắt người sử dụng các công cụ phụ như dao mở để đồ
hộp, ngày nay các hãng sản xuất đồ hộp thường gắn kèm các nắp mở đồ hộp ngay bên
trên vỏ lon. Như vậy, người dùng sẽ không bao giờ phải lo lắng đến việc tìm một thiết
bị để mở đồ hộp nữa”. Cũng vậy, ý tưởng chính của frame (hay của phương pháp lập
trình hướng đối tượng) là khi biểu diễn một tri thức, ta sẽ “gắn kèm” những thao tác
thường gặp trên tri thức này. Chẳng hạn như khi mô tả khái niệm về hình chữ nhật, ta
sẽ gắn kèm cách tính chu vi, diện tích.
Frame thường được dùng để biểu diễn những tri thức “chuẩn” hoặc những tri
thức được xây dựng dựa trên những kinh nghiệm hoặc các đặc điểm đã được hiểu biết
cặn kẽ. Bộ não của con người chúng ta vẫn luôn “lưu trữ” rất nhiều các tri thức chung
mà khi cần, chúng ta có thể “lấy ra” để vận dụng nó trong những vấn đề cần phải giải
quyết. Frame là một công cụ thích hợp để biểu diễn những kiểu tri thức này.
Phương pháp biểu diễn tri thức bằng Frame có tất cả các tính chất vốn có của
một ngôn ngữ biểu diễn tri thức. Nghĩa là nó có thể biểu diễn tri thức ở góc độ giao
diện người-máy, góc độ mô tả mô hình, điều khiển hệ thống. Đồng thời nó cũng là một
cơ sở cho phương pháp xử lý thông tin mới – hướng đối tượng. Nếu phương pháp nhờ
logic và mạng ngữ nghĩa dùng để biểu diễn tri thức mô tả và phương pháp luật sản
xuất dùng để biểu diễn tri thức thủ tục thì các Frame là kết hợp của cả 2 dạng biểu


11

diễn: mô tả và thủ tục. Frame tận dụng các ưu điểm của luật sản xuất, vị từ, cũng như

mạng ngữ nghĩa.
Cấu trúc của Frame: Mỗi một frame mô tả một đối tượng (object). Một frame bao
gồm 2 thành phần cơ bản là slot và facet. Một slot là một thuộc tính đặc tả đối tượng
được biểu diễn bằng frame. Ví dụ: trong frame mô tả xe hơi, có hai slot là trọng lượng
và loại máy. Mỗi slot có thể chứa một hoặc nhiều facet. Các facet (đôi lúc gọi là slot
“con”) đặc tả một số thông tin hoặc thủ tục liên quan đến thuộc tính được mô tả bởi
slot.
- Facet có nhiều loại khác nhau, sau đây là một số facet thường gặp.
- Value (giá trị): chi biết giá trị của thuộc tính đó (như xanh, đỏ, tím, vàng
nếu slot là màu xe)
- Dafault (giá trị mặc định): hệ thống sẽ tự động sử dụng giá trị trong facet
này nếu slot là rỗng (nghĩa là chẳng có đặc tả nào!). Chẳng hạn trong frame về
xe, xét slot về số lượng bánh. Slot này sẽ có giá trị 4. Nghĩa là, mặc định một
chiếc xe hơi sẽ có 4 bánh.
- Range (miền giá trị): (tương tự như kiểu biến), cho biết giá trị slot có thể
nhận những loại giá trị gì (như số nguyên, số thực, chữ cái...)
- If added: mô tả một hành động sẽ được thi hành khi một giá trị trong slot
được thêm vào (hoặc được hiệu chỉnh). Thủ tục thường là viết dưới dạng một
script.
- If needed: được sử dụng khi slot không có giá trị nào. Facet mô tả một
hàm để tính ra giá trị của slot.
Trong thực tế, một hệ thống trí tuệ nhân tạo thường sử dụng nhiều frame được
liên kết với nhau theo một cách nào đó. Một trong những điểm thú vị của frame là tính
phân cấp. Đặc tính này cho phép kế thừa các tính chất giữa các frame. Hình sau đây
cho thấy cấu trúc phân cấp của các loại hình học cơ bản. Gốc của cây ở trên cùng
tương ứng với mức độ trừu tượng cao nhất. Các frame nằm ở dưới cùng (không có
frame con nào) gọi là lá. Những frame nằm ở mức thấp hơn có thể thừa kế tất cả
những tính chất của những frame cao hơn. Các frame cha sẽ cung cấp những mô tả
tổng quát về thực thể. Frame có cấp càng cao thì mức độ tổng quát càng cao. Thông



12

thường, frame cha sẽ bao gồm các định nghĩa của các thuộc tính. Còn các frame con sẽ
chứa đựng giá trị thực sự của các thuộc tính này.
Ví dụ về một Frame mô tả tập HOCSINH
Frame HOCSINH
IS-A FART-OF: NGUOI-DI-HOC
A KIND OF: (HOC_SINH_CO_SO,
HOC_SINH_TRUNG_HOC)
Cân nặng: 10-60 kg
Chiều cao: 80-170 cm
Có râu: không
Nói tiếng: Việt/Anh/Pháp
Cấu trúc này cho ta một khung dữ liệu để khoanh vùng các đối tượng là học sinh.
Trường hợp gặp một người cao 180 cm, nặng 45 kg ta có thể khẳng định rằng đó
không phải học sinh, vì không thỏa mãn các ràng buộc đã có.
 Ưu điểm:
- Đáp ứng tất cả các yêu cầu về biểu diễn tri thức.
- Cho phép người sử dụng khá tự do khi biểu diễn tri thức.
- Frame không chỉ sử dụng để mô tả tri thức mà còn được dùng thể hiện
các thuật toán suy dẫn.
- Tận dụng được những điểm mạnh của biểu diễn thủ tục và mô tả.
- Quá trình xử lý trên các Frame độc lập theo nghĩa kế thừa thông tin,
không nhất thiết phải tuần tự.
 Nhược điểm:
- Phương pháp biểu diễn quá phức tạp và cồng kềnh.
- Phương pháp biểu diễn Frame tiện lợi đối với kỹ sư xử lý tri thức cũng
như người sử dụng có trình độ cao, nhưng là sự quá tải đối với những người sử
dụng thông thường.



13

- Các giá trị của slot có thể gán qua thực hiện các thủ tục, điều này làm
cho việc thu nạp và cập nhật tri thức trở nên phức tạp và làm khả năng mềm
dẻo, phù hợp với những thay đổi của môi trường bên ngoài bị giảm xuống.
- Do cấu trúc của Frame nên khi biểu diễn cần phải sử dụng các biện pháp
khá cầu kỳ. Vì vậy làm mất đi tính trực quan trong phương pháp biểu diễn.
- Đối với các bài toán phức tạp thì việc mô tả và điều khiển hệ thống sử
dụng Frame sẽ phức tạp lên rất nhiều so với các phương pháp biểu diễn khác.
1.2.4. Biểu diễn tri thức bằng mạng ngữ nghĩa
Trong phương pháp này, người ta sử dụng một đồ thị gồm các nút và các cung
nối các nút để biểu diễn tri thức. Nút dùng để thể hiện các đối tượng, thuộc tính của
đối tượng và giá trị của thuộc tính. Còn cung dùng để thể hiện các quan hệ giữa các
đối tượng. Các nút và các cung đều được gắn nhãn.
Ví dụ: để thể hiện tri thức “sẻ là một loài chim có cánh và biết bay”, người ta vẽ
một đồ thị (xem hình 1.1):

Hình 1.1. Mô hình đồ thị biểu diễn tri thức nhờ mạng ngữ nghĩa
Dựa vào mạng ngữ nghĩa ta nhận biết tri thức một cách trực quan giúp thiết kế
các xử lý như: thêm bớt các khái niệm/đối tượng, tìm kiếm thông tin. Bằng cách thêm
vào đồ thị nút mới và các cung mới người ta có thể mở rộng một mạng ngữ nghĩa. Các
cung mới được thêm thể hiện các đối tượng tương tự (với các nút đã có trong đồ thị),
hoặc tổng quát hơn. Chẳng hạn để thể hiện “chim là một loài động vật đẻ trứng” và
“cánh cụt là loài chim biết lặn”, người ta vẽ thêm (xem hình 1.2):


14


Hình 1.2. Mô hình đồ thị thêm vào các nút và cung biểu diễn tri thức nhờ mạng
ngữ nghĩa
Cơ chế thực hiện theo thuật toán “loang” như sau:
- Bước 1: Kích hoạt các nút ứng với giả thiết cho ban đầu (những yếu tố
đã có giá trị).
- Bước 2: Lặp lại bước sau cho đến khi kích hoạt tất cả các đỉnh ứng với
các yếu tố cần tính (thành công) hoặc không thể kích hoạt được bất kỳ đỉnh nào
nữa (thất bại).
Mô hình mạng ngữ nghĩa rất linh động, ta dễ dàng thêm các đỉnh hoặc cung để
bổ sung thêm tri thức. Cách biểu diễn tri thức dạng đồ thị nên rất dễ hiểu. Ngoài ra so
với cách biểu diễn này giữa các đỉnh còn thể hiện mối quan hệ “kế thừa” nếu thông
qua quan hệ “là”. Cùng với những ưu điểm trên thì cách biểu diễn này khá trừu tượng
và khái quát, trong áp dụng phải phát triển các mô hình tri thức cụ thể hơn.
1.2.5. Biểu diễn tri thức bằng mạng các đối tượng tính toán
Một mạng tính toán còn gọi là mạng đối tượng tính toán (ký hiệu O). Một mạng
các đối tượng tính toán bao gồm: Tập các đối tượng tính toán O = {O1, O2,..., On} và
tập các quan hệ giữa các đối tượng tính toán F = {f1, f2, ..., fn}.
Đặt M(fi) = Tập các biến có liên quan với nhau bởi quan hệ fi.

M là tập hợp những biến được xem xét trên mạng, kể cả các biến thuộc tập M(f )
Mi = M ∩ M(Oi) , i = 1, 2, ..., m.


15

Theo các ký hiệu trên, Mi là tập hợp các biến của đối tượng Oiđuợc xem xét trên
mạng các đối tượng tính toán. Ngoài ra ta còn có:

Hay M(O)


M

M(F).

Mô hình biểu diễn tri thức dạng này cho phép ta thực hiện tính toán các biến
của một hay nhiều đối tượng dựa trên tập biến của các đối tượng khác. Mạng tính toán
cho ta thấy được cấu trúc nội bộ bên trong của một mạng. Nhưng nếu xét trên bài toán
có nhiều mạng tính toán thì mô hình này chưa thể hiện một cách đầy đủ các quan hệ
liên kết giữa các mạng tính toán này.
 Ưu điểm:
- Cho phép biểu diễn một cách trực quan các sự kiện và mối quan hệ giữa
chúng.
- Tính mô đun cao, theo nghĩa các tri thức thêm vào hoàn toàn độc lập với
các tri thức cũ.
- Là ngôn ngữ biểu diễn dạng mô tả.
- Có thể áp dụng một số cơ chế trên mạng: Cơ chế truyền và thừa hưởng
thông tin giữa các đối tượng.
 Nhược điểm:
- Không có một phương thức suy diễn chung cho mọi loại mạng ngữ
nghĩa.
- Khó kiểm soát được quá trình cập nhật tri thức, dễ dẫn đến mâu thuẫn
trong cơ sở tri thức.
1.3. Hệ chuyên gia
1.3.1. Định nghĩa
Theo E.Feigenbaum: “Hệ chuyên gia (Expert System) là một chương trình máy
tính thông minh sử dụng tri thức (knowledgea) và các thủ tục suy luận (inference


16


procedures) để giải những bài toán tương đối khó khăn đòi hỏi những chuyên gia mới
giải được” [3].
Hệ chuyên gia là một hệ thống tin học có thể mô phỏng (emulates) năng lực
quyết đoán (decision) và hành động (making ability) của một chuyên gia (con người).
Hệ chuyên gia là một trong những lĩnh vực ứng dụng của trí tuệ nhân tạo (Artificial
Intelligence). Hệ chuyên gia sử dụng tri thức của chuyên gia để giải quyết các vấn đề
(bài toán) khác nhau thuộc mọi lĩnh vực.
Tri thức (knowledge) trong hệ chuyên gia phản ánh sự tinh thông tích tụ từ sách
vở, tạp chí, từ các chuyên gia hay các nhà bác học. Các thuật ngữ hệ chuyên gia, hệ
thống dựa trên tri thức (knowledge – based system) hay hệ chuyên gia dựa trên tri thức
(knowledge – based expert system) thường có cùng nghĩa.
Một hệ chuyên gia bao gồm ba thành phần chính là cơ sở tri thức (CSTT knowledge base), máy suy diễn hay mô-tơ suy diễn (inference engine) và hệ thống
giao tiếp với người sử dụng (userinterface). Cơ sở tri thức chứa các tri thức để từ đó
máy suy diễn tạo ra câu trả lời cho người sử dụng qua hệ thống giao tiếp.
Người sử dụng (user) cung cấp sự kiện (facts) là những gì đã biết, đã có thật
hay những thông tin có ích cho hệ chuyên gia và nhận được những câu trả lời là những
lời khuyên hay những gợi ý đúng đắn (expertise).

Hình 1.3. Các thành phần của hệ chuyên gia
Hoạt động của một hệ chuyên gia dựa trên cơ sở tri thức được minh họa như
sau:


×