B ộ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC s ư PHẠM HÀ NỘI 2
•
•
•
•
LÊ XUÂN CHUNG
VÈ MỘT PHƯƠNG PHÁP ĐÁNH GIÁ TRI THỨC
TRONG HỆ C ơ SỞ TRI THỨC MỜ
Chuyên ngành: ЮЮА HỌC MÁY TÍNH
Mã số: 60 48 01 01
Tóm tắt luận văn thạc sĩ máy tính
HẢ N ộ ĩ, 2015
B ộ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC s ư PHẠM HÀ NỘI 2
•
•
•
•
LÊ XUÂN CHUNG
VÈ MỘT PHƯƠNG PHÁP ĐÁNH GIÁ TRI THỨC
TRONG HỆ C ơ SỞ TRI THỨC MỜ
Chuyên
ngành: KHOA HỌC MÁY TÍNH
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ MÁY TÍNH
Người hướng dẫn khoa học: PGS.TS. Lê Bá Dũng
Hà nội, năm 2015
1
L Ờ I CẢM ƠN
Đầu tiên tôi xin gửi lời cảm ơn sâu sắc nhất tới thầy PGS.TS Lê Bá Dũng Viện Công nghệ thông tin - Viện khoa học và công nghệ Việt Nam đã tận tình
hướng dẫn, chỉ bảo cho tôi trong suốt quá trình tôi làm luận văn.
Tôi xin chân thành căm ơn các thày cô trường Đại học sư phạm Hà Nội 2,
các thầy cô Viện Công nghệ thông tin - Viện khoa học và công nghệ Việt
Nam đã truyền đạt những kiến thức và giúp đỡ tôi trong suốt quá trình học
của mình.
Tôi cũng xin gửi lời cảm ơn tới các đồng nghiệp, gia đình và bạn bè những
người đã động viên tạo mọi điều kiện giúp đỡ tôi trong suốt hai năm học.
Mặc dù đã hết sức cố gắng với tất cả sự nỗ lực của bản thân, nhưng chắc
luận văn vẫn còn những thiếu sót. Kính mong nhận được những ý kiến đóng
góp của quý Thày, Cô và bạn bè đồng nghiệp.
Tôi xin chân thành cảm ơn!
2
LỜI CAM ĐOAN
Tôi xin cam đoan toàn bộ nội dung trong luận văn này do tôi tự nghiên cứu,
đọc, dịch tài liệu, tổng hợp và thực hiện, đây là công trình nghiên cứu của tôi
dưới sự hướng dẫn khoa học của thầy PGS.TS Lề Bá Dũng. Các số liệu, kết
quả trong luận văn là trung thực, rõ ràng. Trong luận văn tôi có sử dụng một
số tài liệu tham khảo như đã trình bày trong phần tài liệu tham khảo. Tôi xin
chịu trách nhiệm với những nội dung được viết trong luận văn này
Hà Nội, ngày 25 tháng 04 năm 2015
Người viết luận văn
Lê Xuân Chung
3
MỤC LỤC
LỜI CẢM Ơ N .......................................................................................................... 1
LỜI CAM Đ O A N ...................................................................................................2
MỤC L Ụ C ...............................................................................................................3
DANH MỤC CÁC BẢNG.....................................................................................6
DANH MỤC CÁC HÌNH V Ẽ ............................................................................... 7
DANH MỤC CÁC TỪ VIẾT TẮ T.......................................................................8
I. MỞ Đ Ầ U .............................................................................................................9
1. LÍ DO CHỌN ĐỀ T À I....................................................................................9
2. MỤC ĐÍCH NGHIÊN c ứ u ......................................................................... 10
3. N H Ệ M VỤ NGHIÊN c ứ u ......................................................................... 10
4. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN c ứ u ......................................... 10
5. PHƯƠNG PHÁP NGHIÊN c ứ u ............................................................. 10
II. NỘI DUNG......................................................................................................11
CHƯƠNG 1: GIỚI THIỆU VỀ HỆ c ơ SỞ TRI THỨC.............................11
1.1 G iớ i t h iệ u v ề h ệ c ơ s ở t r i t h ứ c .......................................................................11
1.1.1 D ữ liệu, thông tin và tri thức.............................................................. 11
1.1.2. Các thành phần của hệ cơ sở tri thức................................................ 13
1.2 CÔNG NGHỆ CỦA XỬ LÝ TRI THỨC...................................................................... 15
1.2.1 Thu thập...............................................................................................18
1.2.2 Biểu diễn...............................................................................................19
1.3 B iê u d iễ n t h e o l u ậ t ...............................................................................................21
1.3. ỉ Biểu diễn tri thức dưới dạng luật dẫn xuất....................................... 21
1.3.2 Biếu diễn tri thức dưới dạng mạng ngữ nghĩa................................. 27
1.3.3 Biếu diễn tri thức dưới dạng khung...................................................29
1.3.4 Biếu diễn tri thức dưới dạng mệnh đề logic......................................31
4
1.3.5 Biểu diễn tri thức bằng bộ ba: Đổi tượng - Thuộc tỉnh - Giá tr ị. 32
1.4 KÉT LUẬN CHƯƠNG ..................................................................................................33
CHƯƠNG 2: PHƯƠNG PHÁP ĐÁNH GIÁ TRI THỨC TRONG HỆ c ơ
•
SỞ TRI THỨC MỜ...........................................................................................34
2.1 K iê m t r a t ín h đ à y đ ủ , t o à n v ẹ n t r o n g h ệ c ơ s ở t r i t h ứ c m ờ ... 34
2.1.1 Tằng quan về tri thức mờ................................................................. 34
2.1.2 Hệ cơ sở tri thức................................................................................52
2.1.3 Các vẩn đề trì thứ c........................................................................... 53
2.2 TỐI ư u TRONG HỆ c ơ SỞ TRI THỨC....................................................................54
2.2.1 Luật dư thừa...................................................................................... 57
2.2.2 Luật xung đột..................................................................................... 58
2.2.3 Luật g ộ p .............................................................................................58
2.2.4 Luật tạo ra hình vòng.......................................................................58
2.2.5 Phần điều kiện không cần thiết........................................................59
2.2.6 Luật cụt...............................................................................................59
2.2.7 Thiếu luật............................................................................................60
2.2.8 Luật không đạt...................................................................................61
2.3. KÉT LUẬN CHƯƠNG........................................................................................... 61
CHƯƠNG 3: XÂY DƯNG HÊ CSTT CHO HÊMỜ TRONG ĐIỀU
•
•
•
KHIỂN NHIỆT Đ ộ .......................................................................................... 62
3.1 H ệ t r i t h ứ c m ờ x â y DựNG TỪ CÁC CHUYÊN GIA......................................62
3 .2 H ệ l u ậ t q u a p h ư ơ n g p h á p đ á n h g i á ...........................................................62
3.2.1 Tính đầy đủ........................................................................................ 63
3.2.2 Tỉnh chỉnh x á c ...................................................................................64
3.2.3 Tỉnh nhất quán...................................................................................64
3.3 T h ử n g h iệ m s ử d ụ n g h ệ t r i t h ứ c ĐÉ x â y DựNG CHƯƠNG TRÌNH ĐO
VÀ ĐIỀU KHIÊN NHIỆT Đ ộ ...................................................................................................6 6
5
3.3.1 Các chức năng của chương trình.......................................................66
3.3.2 Giao diện chương trình....................................................................... 67
III. KẾT LU Â N ................................................................................................... 74
1. KẾT QUẢ THU ĐƯỢC................................................................................74
2. HƯỚNG NGHIÊN c ứ u TIẾP THEO ..................................................... 74
IV. DANH MỤC CÁC TÀI LIỆU THAM K H Ả O ....................................... 76
y . D ự KIẾN CÔNG VIỆC................................................................................78
6
DANH MỤC CÁC BẢNG
■
Bảng 1.1 Chân trị với các giá trị đúng sai............................................................. 33
Bảng 3.1: Cơ sở luật - Các luật ngôn ngữ............................................................ 67
Bang 3.2: Bảng hệ luật mới.................................................................................. 74
7
DANH MỤC CÁC HÌNH VẼ
■
Hình 1.1 Thành phần của một hệ tri thức
Hình 1.2 Định nghĩa hẹp quy trình công nghệ của xử lý tri thức
13
16
Hình 1.3 Định nghĩa rộng của quá trình công nghệ xử lý của tri thức
Hình 1.4 Chẩn đoán tính trạng máy tính
17
25
Hình 1.5 Biểu diễn mạng ngữ nghĩa
Hình 1.6 Mô hình phát triển mạng ngữ nghĩa
Hình 1.7 Các bước thực hiện phép toán trên mạng ngữ nghĩa
Hình 1.8 Cấu trúc Frame
Hình 1.9 Nhiều mức của khung mô tả quan hệ phức tạp hơn
Hình 1.10 Mối quan hệ giữa O-A-V
Hình 2.1 Hàm phụ thuộc Ha (x) của tập kinh điển А
Hình 2.2 Hàm liên thuộc Ц в ( х ) của tập “mờ” в
27
28
29
30
31
32
34
35
Hình 2.3
Hình 2.4
Hình 2.5
Hình 2.6
Hình 2.7
36
37
38
39
40
Độ cao, miền xác định và miền tin cậy của tập mờ
Hàm liên thuộc của hợp hai tập mờ có cùng cơ sở
Giao của hai tập mờ cùng cơ sở
Tập bù Ac của tập mờ А
Tập mờ điểm trung bình
Hình 2.8 Các loại hàm thành viên số mờ
Hình 2.9 Phân loại hàm thành viên mờ
Hình 2.10 Số mờ hình thang
Hình 2.11 Số mờ hình tam giác
45
45
46
46
Hình 2.12 Những tập mờ thuộc ngôn ngữ biến nhiệt độ
Hình 2.13 Sự mâu thuẫn cú pháp trongluật cơ sở
Hình 3.1 Hiệu đầu vào của hệ tri thức mờ
Hình 3.2 Hệ thống 25 luât, 2 đầu vào, 1 đầu ra, 25 luật
Hình 3.3 Hàm thuộc của các tập mờ đối với biến e(t)
Hình 3.4 Hàm thuộc của các tập mờ đối với biến c(t)
Hình 3.5 Hàm thuộc của các tập mờ đối YỚi biến u
Hình 3.6 Mặt quan hệ vào ra tương ứng với hệ luật
Hình 3.7 Tín hiệu ra tiệm cận với tín hiệu yêu cầu
48
57
65
68
68
69
69
69
73
8
DANH MỤC CÁC TỪ VIẾT TẮT
■
AI
KBS
CSTT
ES
N
p
ZE
NL
NM
NS
PL
PM
PS
Artificial Intelligence
Trí tuệ nhân tạo
Knowledge-Based Systems
Hệ cơ sở tri thức
Cơ Sở Tri Thức
Hệ chuyên gia
Negative
Cực âm
Positive
Cực dương
Zero
Negative Large
Cực âm lớn
Negative Medium
Cực âm trung bình
Negative Small
Cực âm nhỏ
Positive Large
Cực dương lớn
Positive Medium
Cực dương trung bình
Positive Small
Cực dương nhỏ
9
I. MỞ ĐẦU
1. Lí do chon đề tài
Con người giao tiếp bằng ngôn ngữ tự nhiên, mà bản chất của ngôn ngữ tự
nhiên là mơ hồ và không chính xác. Tuy vậy, trong hàu hết tình huống, con
người vẫn hiểu những điều mà người khác muốn nói với mình. Khả năng hiểu
và sử dụng đúng ngôn ngữ tự nhiên, thực chất là hiểu và xử lý đúng thông tin
không chính xác chứa trong đó, có thể coi là thước đo mức độ hiểu biết, thông
minh của con người. Con người cũng luôn mơ ước máy tính, người bạn,
người giúp việc đắc lực của mình, ngày càng thông minh và hiểu biết hơn. Vì
vậy, nhu cầu làm cho máy tính hiểu và xử lý được những thông tin không
chính xác, xấp xỉ, áng chừng là một nhu cầu bức thiết.
Logic mờ ra đời đã cung cấp một công cụ hữu hiệu để nghiên cứu và xây
dựng các hệ thống có khả năng xử lý thông tin không chính xác. Nhờ có logic
mờ mà con người xây dựng được những hệ điều khiển có tính linh động rất
cao. Chúng có thể hoạt động tốt ngay trong điều kiện có nhiều nhiễu hoặc
những tình huống chưa được học trước. Nhờ có logic mờ mà con người xây
dựng được những hệ chuyên gia có khả năng suy luận như những chuyên gia
hàng đầu và có khả năng tự hoàn thiện thông qua việc thu nhận tri thức mới.
Ngôn ngữ là công cụ để con người mô tả các sự vật, hiện tượng trong thế
giới thực và dựa trên nó để tư duy, lập luận đưa ra những nhận định, quyết
định nhằm phục vụ cho cuộc sống. Từ các tiền đề đúng đắn, các luật suy diễn
vững chắc sinh ra những kết luận mới, đảm bảo là đúng đắn. Tuy nhiên trong
thực tế, có rất nhiều tình huống chúng ta phải rút ra những kết luận tốt từ
những bằng chứng được xác định nghèo nàn và không chắc chắn thông qua
việc sử dụng những suy diễn không vững chắc [1,2,5]. Đây không phải là một
nhiệm vụ không thể thực hiện được, trái lại đã có rất nhiều thành công trong
hầu hết mọi khía cạnh của cuộc sống: Chẳng hạn như phát biểu những chẩn
10
đoán y học đúng đắn và đề xuất cách điều trị từ những triệu chứng không rõ
ràng; phân tích những trục trặc của xe ô tô từ những biểu hiện của nó
[4,10,15]... Như vậy có hai loại thông tin không chắc chắn: một là dữ liệu ban
đầu được cho là không chắc chắn, không đủ, không đáng tin cậy... hai là luật
mà sử dụng để suy luận không họp logic, suy luận ngược từ kết luận về điều
kiện.
Với những vấn đề nêu trên và theo gợi ý của giáo viên hướng dẫn, em xin
chọn đề tài: “về một phương pháp đánh giá tri thức trong hệ cơ sở tri thức
m ờ”
2. Mục đích nghiên cứu
Đánh giá được tri thức trong hệ cơ sở tri thức mờ.
Tạo ra các thông tin có độ chính xác cao.
3. Nhiệm vụ nghiên cứu
Nghiên cứu lý thuyết về hệ cơ sở tri thức, công nghệ xử lý của tri thức và
các phương pháp biểu diễn tri thức.
Nghiên cứu tính đày đủ, nhất quán trong hệ cơ sở tri thức mờ.
Xây dựng hệ cơ sở tri thức cho hệ mờ.
4. Đổi tượng và phạm vi nghiên cứu
Tri thức trong hệ cơ sở tri thức mờ.
Phương pháp đánh giá tri thức trong hệ sơ sở tri thức mờ.
5. Phương pháp nghiền cứu
Phương pháp nghiên cứu chính là tìm hiểu các tài liệu, bài báo về hệ cơ sở
tri thức, logic mờ. Tìm hiểu về các vấn đề tối ưu luật trong hệ cơ sở tri thức từ
đó rút ra được hệ luật mới đáp ứng yêu cầu.
Tìm hiểu hệ tri thức mờ xây dựng từ các chuyên gia
11
II.
NÔI DUNG
Chương 1: Giới thiệu về hệ cơ sở tri thức
1.1 Giói thiêu về hê cơ sở tri thức
•
•
1.1.1 Dữ liệu, thông tin và tri thức
1.1.1.1 D ữ liệu
Dữ liệu là các con số, ký hiệu mà máy tính có thể lưu trữ, biểu diễn, xử lý.
Dữ liệu có thể xem là những ký hiệu hoặc tín hiệu mang tính rời rạc và không
có cấu trúc, ý nghĩa rõ ràng [2,4,8]. Khi dữ liệu được tổ chức lại có cấu trúc
hơn, được xử lý và mang đến cho con người những ý nghĩa, hiểu biết nào đó
thì khi đó nó trở thành thông tin. Nói khác đi, từ dữ liệu và xử lý dữ liệu con
người có được thông tin.
1.1.1.2 Thông tin
Thông tin là những gì con người thu nhận được từ dữ liệu và xử lý dữ liệu
nhằm tạo ra sự hiểu biết, tạo ra các tri thức và những nhận thức tốt hơn về tự
nhiên và xã hội. Nói cách khác, thông tin là dữ liệu đã qua xử lý, đối chiếu và
trở nên có ý nghĩa đối với người dùng.
Thông tin là sự phản ánh sự vật, sự việc, hiện tượng của thế giới khách
quan và các hoạt động của con người trong đời sống xã hội. Điều cơ bản là
con người thông qua việc cảm nhận thông tin làm tăng hiểu biết cho mình và
tiến hành những hoạt động có ích cho cộng đồng.
Thông tin được lưu trữ trên nhiều dạng vật liệu khác nhau như được khắc
trên đá, được ghi lại trên giấy, trên bìa, trên băng từ, đĩa từ... Ngày nay, thuật
ngữ "thông tin" (information) được sử dụng khá phổ biến. Thông tin chính là
tất cả những gì mang lại hiểu biết cho con người. Con người luôn có nhu cầu
thu thập thông tin bằng nhiều cách khác nhau: đọc báo, nghe đài, xem truyền
hình, giao tiếp với người khác...Thông tin làm tăng hiểu biết của con người, là
nguồn gốc của nhận thức và là cơ sở của quyết định [2,4,8].
12
Môi trường vận động thông tin là môi trường truyền tin, nó bao gồm các
kênh liên lạc tự nhiên hoặc nhân tạo như sóng âm, tia sáng, dây dẫn, sóng âm
thanh, sóng hình... Kênh liên lạc thường nối các thiết bị của máy móc với
nhau hay nối với con người. Con người có hình thức liên lạc tự nhiên và cao
cấp là tiếng nói, từ đó nghĩ ra chữ viết. Ngày nay nhiều công cụ phổ biến
thông tin đã xuất hiện: bút viết, máy in, điện tín, điện thoại, phát thanh, truyền
hình, phim ảnh Y.v.
1.1.1.3 Tri thức
Tri thức là kết tinh, cô đọng, chắt lọc của thông tin. Tri thức hình thành từ
quá trình xử lý thông tin mang lại. Tri thức (iknowledge) bao gồm những dữ
kiện, thông tin, sự mô tả hay kỹ năng có được nhờ trải nghiệm hay thông qua
giáo dục. Tri thức có thể chỉ sự hiểu biết về một đối tượng, về mặt lý thuyết
hay thực hành. Nó có thể ẩn hiện, chẳng hạn những kỹ năng hay năng lực thực
hành, hay tường minh như những hiểu biết lý thuyết về một đối tượng; nó có
thể ít nhiều mang tính hình thức hay có tính hệ thống [3,4,9].
Tri thức có 2 dạng tồn tại chính là tri thức hiện và tri thức ẩn:
Tri thức hiện là những tri thức được giải thích và mã hóa dưới dạng văn
bản, tài liệu, âm thanh, phim, ảnh,... thông qua ngôn ngữ có lời hoặc không
lời, nguyên tắc hệ thống, chương trình máy tính, chuẩn mực hay các phương
tiện khác. Đây là những tri thức đã được thể hiện ra ngoài và dễ dàng chuyển
giao, thường được tiếp nhận qua hệ thống giáo dục và đào tạo chính quy.
Tri thức ẩn là những tri thức thu được từ sự trải nghiệm thực tế, dạng tri
thức này thường ẩn trong mỗi cá nhân và rất khó “mã hóa” và chuyển giao,
thường bao gồm: niềm tin, giá trị, kinh nghiệm, bí quyết, kỹ năng...
VD: Trong bóng đá, các cầu thủ chuyên nghiệp có khả năng cảm nhận
bóng rất tốt. Đây là một dạng tri thức ẩn, nó nằm trong mỗi cầu thủ. Nó không
13
thể “mã hóa” thành văn bản, không thể chuyển giao, mà người ta chỉ có thể có
bằng cách tự mình luyện tập.
1.1.2. Các thành phần của hệ cơ sở tri thức
Các thành phần chính của một hệ thống dựa trên tri thức thông thường là:
Cơ sở tri thức, Động cơ suy diễn, Cơ chế giải thích và Giao diện người dùng
như thể hiện trong hình. Một lợi thế của kiến trúc hệ thống dựa trên tri thức là
thường xuyên nhất của các thành phần ngoại trừ các cơ sở tri thức có thể được
miền độc lập. Một vỏ hệ thống chuyên gia tái sử dụng có thể sử dụng cho sự
phát triển của hệ thống mới. Một vỏ hệ thống chuyên gia điển hình có đã là
một động cơ suy luận chức năng và giao diện người dùng, và chỉ có kiến thức
cơ bản cần phải được phát triển (Liebowitz năm 1995; Edman, 2001; Turban,
2007;. Aniba et al, 2008) [5,11,15]
Kiến thức chuyên gia
Người dùng
Hình 1.1 Thành phần của một hệ tri thức
a. Động cơ suy diễn
Là phương pháp vận dụng tri thức trong cơ sở tri thức để giải quyết vấn đề.
Các cơ sở tri thức đều có động cơ suy diễn để tiến hành các suy diễn nhằm tạo
ra các tri thức mới dựa trên các sự kiện, tri thức cung cấp từ ngoài vào và tri
14
thức có sẵn trong hệ cơ sở tri thức. Động cơ suy diễn thay đổi theo độ phức
tạp của cơ sở tri thức. Hai kiểu suy diễn chính trong động cơ suy diễn là suy
diễn tiến và suy diễn lùi.
Các hệ cơ sở tri thức làm việc theo cách được điều khiển bởi dữ liệu (data
driven) sẽ dựa vào các thông tin sẵn có và sinh ra các sự kiện mới được suy
diễn. Do vậy không thể đoán được kết quả, cách tiếp cận này được sử dụng
cho các bài toán diễn dịch với mong muốn của người sử dụng là hệ cơ sở dữ
liệu sẽ cung cấp các sự kiện mới. Ngoài ra còn có cách điều khiển theo mục
tiêu nhằm hướng đến các kết luận đã có và đi tìm các dẫn chứng để kiểm định
tính đúng đắn của kết luận đó.
b. Cơ sở tri thức
Là tập hợp các tri thức liên quan đến vấn đề mà chương trình quan tâm giải
quyết. Lưu trữ, biểu diễn các tri thức mà hệ đảm nhận, làm cơ sở cho các hoạt
động của hệ. Cơ sở tri thức bao gồm các sự kiện (facts) và các lụật (rules).
c. Cơ chế giải thích
Một lợi thế của hệ thống dựa trên tri thức so với các hệ thống hỗ trợ quyết
định khác là khả năng để giải thích cho người sử dụng như thế nào và lý do
tại sao hệ thống đến các kết quả nhất định (Abraham, 2005). Nhiều cơ chế
giải thích được mở rộng, ví dụ: cho phép người dùng nhận được giải thích lý
do tại sao câu hỏi được yêu cầu và cung cấp truy cập kiến thức miền sâu cho
người sử dụng. Cơ chế giải thích có thể tạo ra giải thích dựa trên những kiến
thức trong các cơ sở tri thức (Edman, 2001). Vì vậy, cơ chế giải thích mở
rộng các hệ thống dựa trên tri thức, không chỉ để cung cấp ra quyết định hỗ
trợ mà còn cho phép người dùng tìm hiểu bằng cách sử dụng hệ thống.
d. Giao diện người dùng
Giao diện người dùng điều khiển hộp thoại giữa người sử dụng và hệ thống
(Aniba và cộng sự, 2008). Hiện nay phổ biến với chuyên ngành phần mềm
15
giao diện người dùng cho việc thiết kế, cập nhật và sử dụng các hệ thống dựa
trên tri thức (Abraham, 2005).
e. Lợi ích của hệ thống tri thức
Từ một quan điểm về tầm nhìn của tổ chức, có nhiều lí do để thực hiện một
hệ thống dựa trên tri thức. Lí do quan trọng nhất là để cung cấp một cơ chế
bảo vệ hoặc tài liệu kiến thức và kinh nghiệm của một công ty, vì vậy điều
này sẽ không bị mất khi các cá nhân rời bỏ tổ chức. Lí do quan trọng khác để
sử dụng các hệ thống dựa trên tri thức là:
+ Một chuyên gia - Nếu kỹ năng không có sẵn, hiếm hoặc đắt.
+ Một cách để đào tạo công nhân/ nhân viên.
+ Một cách để cải thiện năng xuất, tiết kiệm chi phí và thời gian.
+ Một công cụ cho việc hỗ trợ tạo quyết định.
1.2 Công nghệ của xử lý tri thức
Công nghệ của xử lý tri thức (Knowledge Engineering): là các phương
pháp, kỹ thuật được các kỹ sư tri thức (Knowledge engineers) dùng để xây
dựng những hệ thống thông minh như: Hệ chuyên gia, hệ cơ sở tri thức, hệ hỗ
trợ quyết định [15].
Quá trình thiết kế và phát triển các hệ thống tri thức, chẳng hạn như một
KBS, được gọi là kiến thức kỹ thuật (Durkin, 1994). Nó có thể được nhìn từ
một không gian thu hẹp và một viễn cảnh rộng lớn. Theo góc nhìn hẹp, kiến
thức kỹ thuật được giới hạn ở những bước cần thiết để xây dựng các hệ thống
dựa trên tri thức (tức là kiến thức thu nhận, biểu diễn tri thức, xác nhận kiến
thức, suy luận, và giải thích/biện minh), như thể hiện trong hình 1.2. Các quan
điểm rộng mô tả toàn bộ quá trình phát triển và duy trì bất kỳ hệ thống thông
minh, như thể hiện trong hình 1.3 (Turban, 2011).
16
vấn đề cơ hội
Giải pháp
Hình 1.2: Định nghĩa hẹp quy trình công nghệ của xử lý tri thức
17
Hình 1.3: Định nghĩa rộng của quá trình công nghệ xử lý của tri thức
Cả hai hình 1.2 và 1.3 được hiểu như là sự phát triển theo chuỗi tuần tự.
Trong thực tế, mặc dù các giai đoạn phát triển thường được thể hiện song
song. Do đó quá trình phát triển của một hệ cơ sở tri thức được lặp lại và gia
tăng. Như vậy một thông tin mới xuất hiện trong quá trình phát triển gần như
chắc chắn cần cải tiến sớm hơn. Hệ thống phát triển dần từ một hệ thống có
khả năng tăng lên nhờ sự cải thiện về kiến thức và kỹ năng giải quyết vấn đề.
18
1.2.1 Thu thập
Nhu cầu tìm kiếm các tri thức từ dữ liệu của một lĩnh vực cụ thể là một nhu
cầu bắt buộc khi xây dựng các hệ cơ sở tri thức. Một số bài toán đã có sẵn tri
thức, tuy nhiên có nhiều lĩnh vực rất khó phát hiện các tri thức. Do vậy cần
phát triển các kỹ thuật cho phép tiếp nhận tri thức từ dữ liệu. Máy học là một
trong các nghiên cứu giúp tạo ra tri thức từ dữ liệu.
Thu thập tri thức là bộ sưu tập, chuyển giao và chuyển đổi tri thức từ các
nguồn tri thức đến một chương trình máy tính. Tri thức có thể được lấy từ các
nguồn như sách vở, cơ sở dữ liệu, hình ảnh ...Tri thức mua lại từ các chuyên
gia của con người đặc biệt, thường được gọi là tri thức mở. Người tương tác
với các chuyên gia để gợi mở tri thức của họ được gọi là một kỹ sư tri thức.
Các yếu tố sau góp phần vào sự khó khăn trong việc mua lại tri thức từ các
chuyên gia và chuyển giao của nó với một máy tính:
- Các chuyên gia có thể không biết làm thế nào để nói lên tri thức của họ.
- Các chuyên gia có thể nói lên tri thức không chính xác.
- Các chuyên gia có thể không có thời gian hoặc không sẵn lòng cộng tác.
- Tính phức tạp của kiểm thử hoặc tinh chỉnh kiến thức là rất cao.
- Phương pháp gợi mở kiến thức có thể được định nghĩa chưa mềm dẻo.
- Các nhà phát triển hệ thống có ý định thu thập tri thức từ một nguồn
nhưng các kiến thức liên quan có thể được tích lũy từ nhiều nguồn khác nhau.
- Tri thức thu thập được có thể không đầy đủ.
- Tri thức thu thập được có thể không tương ứng.
- Những khó khăn để nhận biết kiến thức đặc thù khi nó trộn lẫn với dữ
liệu không liên quan.
- Các chuyên gia có thể thay đổi hành vi của họ khi họ bị quan sát hoặc
được phỏng vấn.
19
-
Các yếu tố giao tiếp giữa con người có vấn đề có thể ảnh hưởng đến kỹ sư
tri thức và chuyên gia.
1.2.2 Biểu diễn
a. Khái niệm về biểu diễn tri thức
Là phương pháp mã hoá tri thức, nhằm thành lập cơ sở tri thức cho các
hệ thống dựa trên tri thức. Trong tin học biểu diển tri thức là một phương
pháp mã hóa tri thức sao cho máy tính có thể xử lí được chúng. Cũng như
dữ liệu có nhiều cách khác nhau để biểu diễn tri thức trong máy tính. Tuy
nhiên ta phải chọn một phương pháp nào phù họp để đưa lên máy tính.
Các công cụ cho việc biểu diễn tri thức đơn giản như:
- Các cấu trúc dữ liệu cơ bản: Dãy danh sách, tập hợp, mẫu, ...
- Các cấu trúc dữ liệu trừu tượng: ngăn xếp, hàng đợi.
- Các mô hình toán học: đồ thị, cây, ...
- Các mô hình đối tượng.
- Các ngôn ngữ đặc tả tri thức.
Ví dụ: Kiến thức về một hình chữ nhật cần thiết cho việc giải bài toán có
thể được biểu diễn gồm:
Một tập họp các biến thực, mỗi biến đại diện cho một yếu tố của hình
chữ nhật như chiều dài, chiều rộng.
Một tập họp các công thức liên quan đến tính toán trên các yếu tố của
hình chữ nhật.
b. Vấn đề biểu diễn tri thức
Biểu diễn tri thức đóng vai trò quan trọng trong thiết kế và xây dựng
một hệ giải toán thông minh và các hệ chuyên gia. Phương pháp biểu diễn
tri thức thích hợp sẽ tạo nên một hệ thống có giá trị sử dụng cao. Xây dựng
và phát triển các phương pháp biểu diễn tri thức là một hướng nghiên cứu
20
quan trọng đối với các nhà nghiên cứu trí tuệ nhân tạo. Suy diễn tự động để
giải quyết các bài toán dựa trên tri thức cũng là một vấn đề rất quan trọng.
Các phương pháp suy diễn tự động vận dụng kiến thức đã biết trong quá
trình lập luận giải quyết vấn đề, trong đó quan trọng nhất là các chiến lược
điều khiển giúp phát sinh các sự kiện mới từ các sự kiện đã có. Xây dựng
và phát triển các phương pháp biểu diễn tri thức là một hướng nghiên cứu
quan trọng cho các nhà nghiên cứu về Trí tuệ nhân tạo.
c. Các loại tri thức
Dựa vào cách thức con người giải quyết vấn đề, các nhà nghiên cứu đã
xây dựng các kỹ thuật để biểu diễn các dạng tri thức khác nhau trên máy
tính. Mặc dù vậy, không một kỹ thuật riêng lẻ nào có thể giải thích đầy đủ
cơ chế tổ chức tri thức trong các chương trình máy tính. Để giải quyết vấn
đề, chúng ta càn chọn dạng biểu diễn thích hợp nhất. Sau đây là các dạng
biểu diễn tri thức thường gặp:
+ Tri thức thủ tục: Mô tả cách thức giải quyết một vấn đề, loại tri thức
này đưa ra giải pháp để thực hiện một công việc nào đó. Các dạng tri thức
thủ tục tiêu biểu thường là các luật, chiến lược ...
+ Tri thức khai báo: Cho biết một vấn đề được thấy như thế nào, loại tri
thức này bao gồm các phát biểu đơn giản, dưới dạng các khẳng định logic
đúng hoặc sai. Tri thức khai báo cũng có thể là một danh sách các khẳng
định nhằm mô tả đầy đủ hơn về đối tượng hay một khái niệm nào đó.
+ Siêu tri thức: mô tả tri thức về tri thức, loại tri thức này giúp lựa chọn
tri thức thích hợp nhất trong số các tri thức khi giải quyết một vấn đề. Các
chuyên gia sử dụng tri thức này để điều chỉnh hiệu quả giải quyết vấn đề
bằng cách hướng các lập luận về miền tri thức có khả năng hơn cả.
21
+ Tri thức heuristic: là một dạng tri thức cảm tính. Các tri thức thuộc
loại này thường có dạng ước lượng, phỏng đoán và thường được hình thành
thông qua kinh nghiệm.
+ Tri thức có cấu trúc: mô tả tri thức theo cấu trúc. Loại tri thức này mô
tả mô hình tổng quan hệ thống theo quan điểm chuyên gia, bao gồm khái
niệm, khái niệm con và các đối tượng. Diễn tả chức năng và mối liên hệ
giữa các tri thức theo cấu trúc xác định.
1.3 Biểu diễn theo luật
Biểu diễn tri thức là cách thể hiện các mô tả về thế giới bên ngoài dưới
dạng sao cho các máy thông minh có thể đưa đến các kết luận về thế giới
xung quanh nó, trên cơ sở một cách hình thức các mô tả này [2,3,5]. Thời
gian đầu các nghiên cứu về tri thức còn ít. Tuy nhiên đến đầu thập niên 80 các
nhà nghiên cứu dần hội tụ tại các điểm khá chung và hiện nay tồn tại một số
các phương pháp biểu diễn tri thức cơ bản sau:
+ Biểu diễn tri thức dưới dạng luật dẫn xuất (luật sinh).
+ Biểu diễn tri thức dưới dạng mạng ngữ nghĩa.
+ Biểu diễn tri thức dưới dạng các khung.
+ Biểu diễn tri thức dưới dạng mệnh đề logic.
+ Biểu diễn tri thức bằng bộ ba: Đối tượng - Thuộc tính - Giá trị
1.3.1 Biểu diễn tri thức dưới dạng luật dẫn xuất
Phương pháp biểu diễn tri thức bằng luật dẫn xuất được phát minh bởi
Newell và Simon, đây là một kiểu biểu diễn tri thức có cấu trúc. Ý tưởng cơ
bản là tri thức có thể được cấu trúc bằng một cặp điều kiện - hành động:
"NẾU điều kiện xảy ra THÌ hành động sẽ được thi hành". Chẳng hạn: NẾU
đèn giao thông là xanh THÌ bạn được đi, NÊU bạn bị cảm cúm Thì đến bác sỹ
khám ... [2,4]
22
Luật là cấu trúc tri thức dùng để liên kết thông tin đã biết với các thông tin
khác giúp đưa ra các suy luận, kết luận từ những thông tin đã biết. Trong hệ
thống dựa trên các luật, người ta thu thập các tri thức lĩnh vực trong một tập
và lưu chúng trong cơ sở tri thức của hệ thống. Hệ thống dùng các luật này
cùng với các thông tin trong bộ nhớ để giải bài toán. Việc xử lý các luật trong
hệ thống dựa trên các luật được quản lý bằng một module gọi là bộ suy diễn.
Ngày nay, các luật dẫn xuất đã trở nên phổ biến và được áp dụng rộng rãi
trong nhiều hệ thống trí tuệ nhân tạo khác nhau. Luật dẫn xuất có thể là một
công cụ mô tả để giải quyết các vấn đề thực tế thay cho các kiểu phân tích vấn
đề truyền thống. Trong trường hợp này, các luật được dùng như là những chỉ
dẫn, nhưng rất hữu ích để trợ giúp cho các quyết định trong quá trình tìm
kiếm, từ đó làm giảm không gian tìm kiếm. Luật dẫn xuất có thể được dùng
để bắt chước hành vi của những chuyên gia. Theo cách này, luật dẫn xuất
không chỉ đơn thuần là một kiểu biểu diễn tri thức trong máy tính mà là một
kiểu biễu diễn các hành vi của con người.
Một cách tổng quát luật dẫn xuất có dạng như sau:
Pi aP2 /\P3
a
P
4 ... Pn -> Q
Trong đó:
Pi, p2, P n : logic vị từ
Q là những biểu thức logic.
Trong ngôn ngữ lập trình, mỗi một luật dẫn xuất là một câu lệnh.
IF (Pi AND p2 AND .. AND Pn) THEN Q.
Trong lý thuyết hiểu ngôn ngữ tự nhiên, mỗi luật dẫn xuất là một phép
dịch:
ONE —>một.
TWO -> hai.
JANUARY -> tháng một
23
Để biễu diễn một tập luật dẫn xuất, người ta thường phải chỉ rõ hai thành
phần chính sau :
(1) Tập các sự kiện F(Facts)
F= {f1;f2. . . f n}
(2) Tập các quy tắc R(Rules) áp dụng trên các sự kiện dạng như sau:
f i Af2 ..Afn->q
Trong đó, các fĩ,q đều thuộc F
Ví dụ : Cho 1 cơ sở tri thức được xác định như sau :
Các sự kiện : A, B, c , D, E, F, G, H, к
Tập các quy tắc hay luật dẫn xuất (rule)
R l: A->E
R2: B->D
R3: H->A
R4: E AG ->c
R5: E л К -> В
R6: D л E A К -> С
R7: G л К AF->A
+ Cơ chế suy luận trên các luật sinh
Suy diễn tiến (forward chaining): là lập luận từ các sự kiện, sự việc để rút
ra các kết luận [1,7,8].
Ví dụ: Nếu thấy trời mưa trước khi ra khỏi nhà (sự kiện) thì phải lấy áo
mưa (kết luận).
Trong phương pháp này, người sử dụng cung cấp các sự kiện cho hệ
chuyên gia để hệ thống (máy suy diễn) tìm cách rút ra các kết luận có thể. Kết
luận được xem là những thuộc tính có thể được gán giá trị. Trong số những
kết luận này, có thể có những kết luận làm người sử dụng quan tâm, một số
khác không nói lên điều gì, một số khác có thể vắng mặt.