Tải bản đầy đủ (.pdf) (85 trang)

(Luận văn thạc sĩ) tính độ tương tự và áp dụng trong lập luận theo tình huống

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (29.65 MB, 85 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI
* H Ọ• C CƠNG NGHỆ


--------- /b*

—------ -

ĐÕ VẢN CHIẾU

T ÍN v H

Đ ộ

T Ư Ơ N G
L U Ậ N

T ự

V À

T H E O

Á P

D Ụ N G

T ÌN H

T R O N G



L Ậ P

H U Ĩ N G

Ngành: Cơng nghệ thôns, tin
Mâ sổ: 1.01.10

LUẬN VÃN THẠC s ĩ

NGƯỜI HƯỚNG DÀN KHOA HỌC:
T S . N g u y ề n V iệ t H à

Hà N ộ i - 2 0 0 5


T ín h đ ộ t ư ơ n g t ự v à í m g d ụ n g t r o n g C B R

M

ụ c

1 '1 /2 0 0 6

l ụ c

Danh m ục hình v ẽ ............................................................................................................................ 5
Danh m ục bảng b iể u ................................... ..................................................................................6
K ý h iệ u v à t ừ v i ế t t á t ............................................................................................................. 7
M ở đ ầ u .........v ...................... ...................................................... ......... .........................................8


Chương 1 : Tổ n g quan về lập luận theo tình h u ố n g ............................................ 11
1.1. G iới t h i ệ u ......................................................................................................................11
1.2. C ác k h ái n iệ m c ơ b ả n ............................................................................................. 12
1.2.1 K hái n iệ m C B R ............................ ......................................................................... 12
1.2.2 C h u trìn h lập lu ậ n th e o tìn h h u ố n g ................................................................. 13
1.2.3 B iểu d iễ n ca lậ p l u ậ n ............................................................................................15
1.2.4 T ìm k iế m c a lậ p lu ậ n tư ơ n g t ự .........................................................................15
1.2.4.1 T ìm k iế m g ầ n n h ấ t ........................................................................................16
1.2.4.2 T im k iế m q u i n ạ p .......................................................................................... 17
1.2.5 H iệụ ch in h lời g i ả i .................................................................................................18
1.3 Ư u đ iể m của C B R ..................................................................................................... 19
1.4 M ộ t số ứ n g d ụ n g đ iể n h ìn h c ủ a C B R ...................................... .........................21
1.5 V ấn đề tín h đ ộ tư ơ n g tự g iữ a c á c c a lậ p lu ậ n tro n g h ệ th ố n g C B R ....22
1.6 K ế t lu ậ n ......................................................................................................................... 23

Chương 2: C á c phương pháp tín h toán độ đo tương t ự .................................24
2.1 Đ ộ tư ơ n g t ự ..................................................................................................................24
2.1.1 K h o ả n g c á c h ..................................... ....................................................................... 25
2.1.2 M ối q u an h ệ g iữ a tư ơ n g tự v à b ấ t tư ơ n g t ự ................................................. 26
2.2 T ại sao c h ú n g ta c ầ n đ o tư ơ n g tự ..................................................................... 26
2.3 Đ o độ tư ơ n g tự h o ặ c b ấ t tư ơ n g t ự .....................................................................27
2.4 T ín h độ tưcm g tự h o ặ c b ấ t tư ơ n g tự ch o c á c b iế n n h ị p h â n ...................... 28
2.4.1 H ệ sổ đ ố i sá n h đ ơ n g i ả n ..................................................................................... 29
2.4.2 H ệ sổ J a c c a r d ........................................................................................................... 30
2.4.3 K h o ả n g cách H a m m in g .......................................................................................30
2.5 T ín h độ tưcm g tự h o ặ c b ấ t tư ơ n g tự c h o c á c b iế n đ ịn h d a n h /p h ạ m trù
.................................!.....................................T......................... ......... .................. .................31
2.5.1 G án m ỗ i g iá trị c ủ a p h ạ m trù n h ư là m ộ t b iế n g iả n h ị p h â n ................. 33
2.5.2 G á n m ồ i g iá trị c ủ a p h ạ m trù v à o tro n g m ộ t số b iế n g ià n h ị p h â n ...35

2.6 T ín h độ tưcm g tự h o ặ c b ấ t tư ơ n g tự c h o c á c b iế n có th ứ t ự .....................37
2.6.1 S ự c h u y ể n đ ổ i h ạ n g đ ư ợ c c h u ẩ n h ó a .............................................................40
2.6.2 K h o ả n g cách S p e a r m a n .......................................................................................41
2.6.3 K h o ả n g cách F o o tr u le .......................................................................................... 41
2.6.4 K h o ả n g cách K e n d a ll...................................... .....................................................42

T ran g 2


T ín h đ ộ tư ơ n g tự v à ícn g d ụ n g t r o n g C B R

1 /1 /2 0 0 6

2.6.5 K h o ả n g cách C a y le y .......................................................................................... 42
2.6.6 K h o ả n g cách H a m m in g cho b iến th ứ t ự ..................................................... 43
2.6.7 K h o ả n g cách UI a m ............................................................................................ 44
2.7 T ín h độ tư ơ ng tự hoặc b ấ t tư ơ n g tự cho các b iế n định lư ợ n g ............ 44
2.7.1 K h o ả n g cách E u c lid e a n ....................................................................................45
2.7.2 K h o ả n g cách C ity b l o c k .................................................................................. 45
2 .7.3 K h o ả n g cách C h e b y s h e v ................................................................................. 46
2.7.4 K h o ả n g cách M in k o w s k i................................................................................. 46
2.7.5 K h o ản g cách C a n b e rra ......................................................................................46
2.7.6 K h o ản g cách B ray C urtis (k h o ản g cách S o re n s e n )..................................47
2.7.7 P h ân cách góc (A n g u la r se p a ra tio n )............................................................. 47
2.7.8 H ệ số tư ơ n g liê n (C o rrela tio n c o e f fic ie n t).................................................48
2.8 T ín h đ ộ bất tưcm g tự g iữ a hai n h ó m ...............................................................48
2.9 C h u ẩn h ó a độ tư ơ n g tự h o ặc b ấ t tư ơ n g t ự .....................................................48
2.10 K ế t h ợ p kiểu hỗ n h ợ p c ủ a các b i ế n ............................................................... 54
2.11 K ế t lu ậ n ........................ ............................................................................................ 55


Chương 3. T ố i ưu trọng số cho hàm tính độ tương tự giữa các ca lập
luận trong C B R .................. .......................................................................................................56
3.1 G iớ i th iệu bài to án tối ư u ......................................................................................56
3.2 C ác p h ư ơ n g p háp tính độ tư ơ n g tự giữa các ca lập luận tro n g C B R ..60
3.3 T ối ư u trọng số cho hàm tính độ tư ơ ng tự g iữ a các ca lập lu ận ừ o n g
C B R ................................ ................................... . ................................................. . .61
3.3.1 X ây dự ng hàm m ục tiêu đ án h g iả dự a trê n các đ án h g iá d ạn g sổ của
chuyên g ia ......................................................................................................................... 62
3.3.2 X ây đ ự n g hàm m ục tiê u đ án h g iá d ự a trên các đ ản h g iá m ờ c ủ a
chuyên g ia ......................................................................................................................... 63
3 .3 .2 .1 . Sổ h ó a đánh £ iá c ủ a các ch u y ên g ia v ê đ ộ tư ơ ng tự g iữ a c ác ca
lập lu ận Ư ong tập huấn l u y ệ n ............................................................................... 63
3 .3 .2 .2 X ây dự ng hàm m ục tiê u đ á n h g iá .........................................................64
3.4. C á c p h ư ơ n g p h áp tối th iể u h àm m ụ c tiê u ....................................................66
3.4.1 S ử d ụ n g ph ư ơ n g pháp g iả m G rad ien t tối th iể u h àm m ục t i ê u .......... 66
3.4.2 S ử d ụ n g giải th u ậ t di tru y ê n tô i th iêu h àm m ụ c t i ê u ............................68
3.5 K ết lu ậ n ................................................................................................................... 70

Chương 4. T h ự c nghiệm ......................................................................................................71
4.1 T hự c nghiệm trên hệ th ố n g ước lượ ng chi phí phần m ề m .......................71
4.1.1 H ệ th ố n g ướ c lư ợ ng chi phí p h ầ n m ề m .......................................................71
4.1.1.1 B iểu diễn dự á n ........................................................................................... 71
4.1.1.2 T ìm kiếm dự án tư ơ ng t ự ........................................................................ 73
4.1.2 K ết quà th ự c n g h iệ m .v ...................................................................................... 74
4.2 T h ự c nghiệm trên hệ thổng g iả lậ p ................................................................ 76

T ran g 3


T ín h đ ộ t ư ơ n g t ự và ứ n g d ụ n g t r o n g C B R


1 /1 /2 0 0 6

4.2.1 H ệ th ổ n g g iả lậ p ................................................................................................... 77
4.2.2 K ế t q u ả thực n g h iệ m .......................................................................................... 78
4.3 K ết lu ậ n .......................................................................................................................79

K ế t lu ậ n ............................................................................................................................................ 80
T à i liệu tham k h ả o .................................................................................................................... 82

T ran g 4


T ín h đ ộ t ư ơ n g t ự và ứ n g d ụ n g t r o n g C B R

D a n h

m u c

h ìn h

1 /1 /2 0 0 6

v ẽ

H ìn h 1.1 - C h u trình “ 4 lạ i” c ủ a C B R . .....................................................................14
H ìn h 1.1 - S ự tư ơ n g tự g iữ a c ác n g ô i s a o . ............................................ -................24
H ỉnh 2.2 - M ộ t ví dụ g án g iá trị b iế n p h ạ m trù. ......................................................34
H ìn h 2.3 - V í dụ p h ép g á n g iả b iế n n h ị p h â n . ......................................................... 36
H ình 2.4 - Đ ồ th ị h àm ỏ trư ờ n g h ợ p 1, ........................................................................50

H ình 2.5 - Đ ồ thị b iểu d iễ n h à m ỗ với trư ờ n g h ợ p 2 . ............................................51
H ình 3.1 - Đ ặ c tả các c a lập lu ậ n v ề h ỏ n g x e (C A S E 1 v à C A S E 2). ------58
H ỉnh 3.2 - Đ ặc tả bài to án m ớ i. ----------------------------------------------------------------58
H ình 3.3 - Q u á trình tín h độ tưomg tự g iữ a các ca lập l u ậ n ............................... 59
H ình 4 . 1 - T ín h độ tư ơ n g tự g iữ a hai c a lậ p lu ậ n 2 4 v à 25. ..............................74

T ran g 5


T ín h đ ộ tư ơ n g t ự r à ứ n g d ụ n g t r o n g C B R

D a n h

m ụ c

b ả n g

Ị/ỉ/2 0 0 6

b iể u

B ảng 4 .1 - C ác thuộc tín h và m iề n g iá trị củ a c h ú n g .............................................. 72
B àn g 4.2 - T ập các ca lập luận h u â n lu y ệ n .............................................................. 755
B ảng 4.3 - C ác đánh g iá của c h u y ê n g i a ..................................................................755
B ản g 4 .4 - K ế t quả th ự c h iện g ià i th u ậ t di t m y ề n ................................................ 766
B ảng 4.5- C ơ sở dừ liệ u các ca lậ p luận giả l ậ p ....................................................777
B ảng 4.6 - M ột số kết quả sau 100 thế h ệ ...............................................................788
B ảng 4.7- G iá trị đánh giá g iả l ậ p ..............................................................................788

T ran g 6



Tính độ tương tự xà ứng dụng trong CBR

i /1/2006

Ký hiệu và từ viết tắt
Bàng từ viết tắt

Từ viêt tăt

Từ hoăc
cum
từ



Từ tiếng Anh

Lập luận theo tình huống

CBR

Case-based Reasoning

Cơ sờ dữ liệu

CSDL

Case base


Từ khóa
Lập luận theo tinh huống, chuyên gia, hàm đánh giá, hàm tương tự,
biến mờ, tối ưu trọng sổ.

Trang 7


Tính độ tương lự vờ img dụng trong CBR

1/1/2006

Mỏ’ đàu
Trong vài thập niên trở lại đây, khi công nghệ thông tin đã được ứng
dụng trong hầu hết các lĩnh vực cùa cuộc sống, hệ chuyên gia đã trờ thành
huớng nghiên cứu được quan tâm rất nhiều trong khoa học máy tính và cơng
nghệ tri thức tại các viện nghiên cứu, các trường đại học và các trung tâm
côns nghệ thông tin trong nước cũng như ngồi nước. Trong q trình phát
triển đó, hàng loạt các nghiên cửu, các đề xuất được thử nghiệm vả ứng dụng
thành công trong đời sống như hệ chun gia chẩn đốn bệnh rvíYCIN[3], hệ
ừợ giúp khách hàDg SMART[2]... đã cho thấy việc nghiên cứu và xây dựng
các hệ chuyên gia là vấn đề cấp thiết và có tính thực tế cao.
Xây dựng các hệ chun gia cho tới ngày nay đã có nhiều hướng tiếp
cận dựa theo nền tảng cơng nghệ tri thức, trong đó có hai hướng tiếp cận là
lập luận dựa trên luật (Rule-based Reasoning), như hệ chuyên gia
DENDRAL[6] phục vụ nghiên cứu vơi trụ, PROPECTOR[5,19] trợ giúp tìm
khống sản, và lập luận dựa trên tình huống (Case-based Reasoning - CBR),
như hệ trợ giúp khách hàng SMART[2] của Compaq, được lựa chọn sừ dụng
nhiều nhất.
Trong dó, hướng tiếp cận dựa trên luật đã được phát triển rất sớm, nó

đà có đầy đủ nền tảng toán học cho việc nghiên cứu và xây đựng các hệ
chun gia, và nó cũng đã thành cơng trong việc đưa ra một số ứng dụng vào
trong thực tế. Các hệ chuyên gia như MYCIN[3,7], DENDRAL[6], là một
minh chứng cho điều này.
Bên cạnh đó, hướng tiếp cận theo tình huống tuy ra đời không lâu
nhưng cũng đã khẳng định được sức mạnh của mình, rất nhiều các ứng dụng
đã được đưa ra và thực tế đã chỉ ra ràng hướng tiếp cận này là đúng đẳn, khắc

Trang 8


Tính độ tương tự và ieng dụng trong CBR

1/1/2006

phục được các nhược điểm của tiếp cận dựa trên luật. Đó là, phải xây đựng
các luật suy diễn trong khi miền tri thức rất khó thành lập quy tẳc luật, khó
tìm lời giải nhanh khi số lượng cảc luật rất lớn, đòi hỏi sự cộng tác chặt chè
giữa chuyên gia và nhà tin học... Khi giải một bài tốn, CBR tìm kiếm bài
tốn tương tự nhất với nó trong cơ sờ trí thức. Sau đó, CBR tiến hành hiệu
chinh lời giải vừa tim được sao cho thực sự phù hợp với bài tốn cần giải. Lời
giải mới được tạo ra có thể được cập nhật vào cơ sở tri thức để sử dụng trong
tương lai. Có bốn vấn đề chính cần được giải quyết trong CBR là tìm kiếm lại
(Retrieve), sử dụng lại (Reuse), xem xét lại (Revise) và lưu lại (Retain) lời
giải.
Một trong nhừng vấn đề khó khăn nhất và sẽ ảnh hường trực tiếp tới
chất lượng cùa hệ thống lả vấn đề tính độ tương tự trong giai đoạn tìm kiếm
lại bởi đây là giai đoạn đầu tiên trong chuỗi hoạt động cùa hệ thống CBR. Ý
thức được vấn đề này có tầm quan trọng rất lớn khơng chi trong thực tế xây
dựng mà còn trong nghiên cứu lâu dài, chúng tơi đã chọn hướng nghiên cứu

tính tốn độ tương tự và tối ưu bộ trọng số cho hàm tỉnh độ tương tự trong
CBR cho đề tài luận văn của minh. Luận văn được xây dựng dựa trên nền một
sổ nghiên cửu chính trong lĩnh vực tính tốn độ tương tự, đưa ra các phương
pháp tính độ tương tự có được thể áp dựng Ưong CBR, đồng thời, với mục
đích nâng cao chất lượng hệ thổng, chúng tơi đưa ra hướng tiếp cận cho tối ưu
bộ trọng số trong hàm tính độ tương tự. Việc tối ưu được thực hiện dựa trên
các đảnh giá của chuyên gia về độ tương tự giữa các ca lập luận, đưa ra một
hàm đánh giá thể hiện sai số giữa các đánh giá này và hàm tính độ tương tự,
từ đỏ tìm ra được bộ trọng số sao cho hàm đánh giá có giá trị nhỏ nhất (tức là
sai sổ ít nhất).

Trang 9


Tính độ tương tự và ứng dụng trong CBR

1/1/2006

Các kết quả thực nghiệm kiểm chứng phươne pháp cũng được đưa ra
để chứng minh tính đúng đắn của hướng tiếp cận.
Luận văn được tổ chức thành 4 chương như sau:
Chương I trình bày về tổng quan hệ thống CBR từ các khái niệm cơ
bản tới cách thức xây dựng một hệ thống dựa trên kinh nghiệm. Chương này
cũng đưa ra sự so sánh giữa hai hướng tiếp cận là dựa fren luật và dựa trên
tình huống, những ưu nhược điểm của cả hai hướng tiếp cận này.
Chương 2 trình bày về tổng quan tính độ tương tự, đưa ra các cách tính
độ tương tự đã được nghiên cứu và cách sử dụng chúng trong các trường hợp
khác nhau, ứng dụng các cách tính trên ứong tính độ tương tự trong các hệ
thống CBR,
Chương 3 trình bày về phương pháp tối ưu tính độ tương tự cho các ca

lập luận trong CBR. Chương này đưa ra cách thức xây dựng hàm đánh giá để
từ đó tỉm ra bộ trọng sổ tốt nhất thông qua các giải thuật tối ưu. Hai giải thuật
tối ưu thông dụng !à giải thuật đi truyền và dốc Gradient cũng được trinh bày
nhàm đưa ra một cái nhìn toàn diện về phương pháp này.
Chương 4 đưa ra hệ thống thực nghiệm chứng minh tính đúng đắn cùa
phương pháp tối ưu. Chương này đưa ra ứng dụng cho hệ thống ước lượng
chi phí phần mềm để tối ưu bộ trọng số và một hệ thống già lập để khẳng định
lại tính đúng của phương pháp. Các kết quả cuối chương sẽ chi rõ tính đúng
đắn này.
Phần kết luận đưa ra tổng kểt các kết quả luận văn đã đạt được đồng
thòi cũng đưa ra những hạn chế và hướng nghiên cứu tiếp theo của luận văn
này.

Trang 10


Tính độ tương tự và ứng dụng (rong CBR

1/1/2006

Chưig 1: Tổng quan về lập luận theo tình
huống
1.1. G iớ i thiệu
Xây dựng hệ tri thức và lập luận tự động luôn là vấn đề thu hút sự quan
tâm của nhiều nhà nghiên cứu. Phưcmg pháp tiếp cận truyền thống dựa trên
luật (rule-based reasoning) đã đem lại những thành công đảng kể và được ứng
dựng rộng rãi trong nhiều hệ thống như hệ chẩn đốn bệnh MYCIN [3,7], hệ
phân tích hóa học DENDRAL [6,8], hệ tư vấn thăm dị khống sản
PROSPECTOR [10]... Tuy nhiên, việc xây dựng các hệ thống lập luận dựa
trên luật thường gặp phải các khó khăn sau:

• Phải xây dựng được các luật suy diễn từ các quy tắc thực tế hoặc tổng
quát hóa từ các trường hợp cụ thể. Cồng việc này rất khó khi miền bài
tốn khơng rõ ràng hay thường xun thay đổi.
• Việc chuyển hóa các luật thuộc miền bài tốn thành các luật của hệ
thống đòi hòi sự cộng tác chặt chẽ giữa các nhà chuyên môn và người
xâv đựng hệ thống (kỳ sư ưi thức).
• Hệ thống lập luận dựa trên luật áp dụng một dãy các luật để tim lời giải.
Khi số lượng luật của hệ thống rất lớn hay bài tốn phức tạp, chúng ta
khó có thể tìm được lời giải trong khoảng thời gian cho phép.
• Các luật trong hệ thống luật có quan hệ mắt xích với nhaunên

việc

thêm, bớt hoặc sửa luật là hết sức khó khăn.
Vi nhừng nhược điểm trên mà các hệ thong dựa trên luật khỏ đáp ứng
được cho các bài tốn có miền tri thức rộng, tri thức chưa rõ ràng hay có khà
năng thay đổi.

Trang 11


Tính độ tương tự và ícng dụng trong CBR

1/1/2006

Trong thực tế, con người khi đứng truớc mồi bài toán cụ thể họ thường
không dùng các quy tắc (luật) để suy diễn ra lời giãi. Nếu trong quá khứ họ đã
gặp tình huổng tương tự thì họ sẽ tìm cách dùng lại lời giải trong quá khứ
[1,8,17].
Trên cơ sở đó, Roger Schank đã đề xuất phương pháp lập luận theo


tình huống (Case-Based Reasoning - CBR'), phương pháp giải quyết vấn đề
bầng cách áp dụng lời giải của các bài toán cũ để giải một bài tốn mới tương
tự với nó [13]. Năm 1983, Janet Kolodner đă phát triền hệ thổng CBR đầu
tiên có tên là CYRUS [17] tại trưcmg đại học Yale. CYRUS chửa dữ kiện về
các chuyến công du và các cuộc họp của bộ trường ngoại giao Hoa Kỳ Cyrus
Vance, nó cho phép người dùng hỏi các câu hịi về các sự kiện này. Từ đó đến
nay, phương pháp này đã có những bước tiến đáng kể và được úng dụng rộng
rãi trong nhiều sàn phẩm thực tế [13,14,15],
Chương này trình bày những kiến thức tổng quan về CBR và chi ra một
sổ lĩnh vực mà CBR có thể ứng dụng hiệu quả.

1.2. C á c kh ái niệm cơ bản
1.2.1 Khái niệm C B R
Riesbeck và Schank định nghĩa CBR như sau [20]:
Lập luận theo tình huống (Case-Based Reasoning - CBR) là phương
pháp giải quyết vấn đề dựa trên việc áp dụng lời giài của bài toán cũ vào bài
tốn mới có dữ kiện tương tự.
Khi giài một bài tốn, CBR tìm kiếm bài tốn tương tự nhất với nó
trong cơ sở tri thức. Sau đó, CBR tiến hành hiệu chỉnh lịri giâi vừa tìm được
sao cho thực sự phù hợp với bài toán cần giải. Lời giải mới được tạo ra có thể

Trang 12


Tính độ tương tự và img dụng trong CBR

1/1/2006

được cập nhật vào cơ sờ tri thức để sử dụng trong tương lai. Ngoài ra trong

CBR, bên cạnh các ca lập luận cịn có thể có các luật tạo nên tri thức nền
(general knowledge) hỗ trợ cho tim kiếm và hiệu chinh lời giải.
Đcm vị tri thức của một hệ thổng CBR là các bài toán đã được giải
trong quá khứ. Mỗi đơn vị tri thức được mô tả gồm: đặc tả bài toán (problem
description) và lời giải (solution). Ta gọi mỗi đơn vị tri thức là một

ca

lập

luận (case).

1.2.2 Chu trình ỉập luận theo tình huống
Một cách tổng quát, CBR hoạt động theo chu trình “4 lại”1 với 4 pha (
hình 1.1) [1,15]:


Tìm kiếm lại (Retrieve) một hoặc nhiều ca lập luận tương tự.

• Sử dụng lại (Reuse) lời giải của các ca lập luận cũ cho ca lập luận mới.
• Xem xét lại (Revise) lời giài.
• Liru lại (Retain) ca lập luận mới.
Trước một bài toán mới, hệ thống sẽ tìm kiểm lại một hoặc một vài ca
lập luận íucmg tự với bài toán từ tập các ca lập luận đã có. Nếu lời giải của ca
lập luận tim được phù hợp với bài toán mới thi sẽ được sử dụng lại ngay.
Ngược lại, hệ thống sẽ tim cách hiệu chinh lòi giài cũ để đưa ra một lời giải
mới. Việc hiệu chinh phụ thuộc nhiều vào miền ứng đụng và mỗi hệ thống
CBR sẽ có một cơ chế hiệu chinh riêng. Quá trình xem xét lại lời giải sẽ xác
minh xem lời giải có thực sự phù hợp khi áp dụng vào thực tế hay không.
Việc xác minh thường được thực hiện thông qua một hệ thống giả lập môi


1Nguyên gồc tiếng Anh: “4 REs”.

Trang 13


ì/ì/2006

Tỉnh độ tương tự và ứng dụng trong CBR

trường đế kiểm chứng lcri giải hoặc do naười dùng trực tiếp kiểm tra và hiệu
chỉnh. Cuối củng nếu cẩn thiết hệ thống sẽ lưu lại ca lập luận mới để phục vụ
cho việc giài cảc bài toán tương tự trong tương lai. Đe hoạt động có hiệu q,
cà bốn q trình trẽn đều cẩn sừ dụng tri thức nền về miền bài tốn.

Bài tốn mói
Đ ộ tư ơ n g tự
KIÉM

AI

Sự lưu Ịạl

DỤNG
LẠI

Sựthlch nghi
Lirl glảl đ ư ợ c
thÀm tV nh


Sự thẳm
ơịnh

Lời glảl đề xuất

Hình 1.1 - Chu trình “4 lai” của CBR.
CBR đang được nghiên cứu và ứng dụng rộng rãi, đặc biệt là với
những hệ chuyên gia cần tới các tri thức dạng kinh nghiệm. Có thể kể đến
một số nghiên cứu điển hình như hệ chuyên gia tạo cơng thức món ăn Trung
Hoa CHEF [11], chẩn đốn bệnh PROTOS [5,19], giải quyểt xung đột quốc
tế MEDIATOR [22], tư vấn luật HYPO [4], CBR cũng đã được ứng dụng
hiệu quả trong công nghiệp và kinh doanh như hệ trợ giúp khách hàng
SMART [2] của Compaq, hệ trợ giúp thiết kế CLAVIER [12] cùa Lockheed,
hệ hỗ trợ quản lý chất lượng phần mềm SQƯAD [16] của NEC.

Trang 14


Tỉnh độ tương tự và úng dụng (rong CBR

ỉ / ỉ /2 0 0 6

1.2.3 Biểu diễn ca lập luận
Đơn vị tri thức của một hệ thống CBR là các ca lập luận (case). Các ca
lập luận được biểu diễn như thế nào sẽ quyết định hiệu quà tìm kiếm, hiệu
chinh và mờ rộn2 cơ sở tri thức sau này. Biểu diễn các ca lập luận bao gồm
lựa chọn cấu trúc, nội dung và cách thức tích hợp từng ca lập luận riêng vào
cơ sờ tri thức. Nói chung, vì CBR được sử dụng cho từng bài toán đặc thù nên
cách biểu diễn các ca lập luận ờ các hệ thống khác nhau thường không giổng
nhau. Tuy nhiên, một cách tổng quát bao giờ một ca lập luận cũng được mơ tả

là một bộ gồm: đặc tà bài tốn và lời giải.
* Đặc tả bài tốn (problem description'): Mơ tả các điều kiện, trạng thái
làm xuẩt hiện ca lập luận. Trạng thái ờ đây có thể bao gồm cả mơ tả ngữ
cảnh bài tốn.
• Lời giải (solution)'. Lời giải của bài tốn được mơ tả trong đặc tả bài
tốn.
Cũng có thể nhìn nhận cơ sờ tri thức theo hai khơng gian: khơng gian
đặc tà bài tốn và khơng gian lời giải. Tồn tại một ánh xạ liên kết các phần tử
của hai miền này với nhau. Thơng thường thì ánh xạ đó sẽ là 1-1 nhưng điều
này khơng phải là bắt buộc vì một bài tốn có thể có nhiều lịi giải và ngược
lại.

1.2.4 Tìm kiếm ca lập luận tương tự
Độ tương tự giữa các ca lập luận là một khái niệm quan trọng trong
CBR. Nó là một khái niệm trừu tượng, dùng để chỉ mức độ giống nhau giữa
các ca lập luận. Chúng ta hy vọng là nếu hai ca lập luận có đặc tả bài tốn
tươne tự nhau thi lời giải cùa chúng cũng tương tự nhau. Tùy thuộc vào từng


Tính đ ộ tương tự và ímg dụng trong C B R

1 /1 /2 0 0 6

ứna dụng cụ thể ta mới có cách hiểu chinh xác về khái niệm này. Chúng ta có
thê tính độ tươna tụ theo các từ khóa, theo các thuộc tính, ... của các ca lập
luận. Tuy nhiên, các thuộc tính khác nhau thường có tầm quan trọng khác
nhau.
Một cách hình thức ta tính độ tương tự bằng hàm tính độ tương tụ (sim)
được mơ tả như sau:
sim: CASE


X

CASE — [0 .. 1]

Chúng ta qiú ước là nếu hàm sim trả lại giá trị 0 thi hai ca lập luận hoàn
toàn khác nhau, hàm sim trả lại 1 thi hai ca lập luận hoàn toàn giống nhau.
Quá trình tim kiếm sỗ ưả về một hoặc một vài ca lập luận có đặc tả bài
tốn tương tự với bài toán đã cho. Các phương pháp tim kiếm có vai trị rất
quan trọng bời vi một hệ thống CBR chi có thể mờ rộng được nếu các thuật
tốn tìm kiếm cho phép xử lý đối với một tập lớn các ca lập luận. Hiện nay,
có nhiều phương pháp tìm kiếm mỗi phương pháp thích hợp với một dạng bài
tốn riêng. Có hai phương pháp được sừ dụng phổ biến là:
• Tìm kiếm gần nhất (Nearest Neighbour Retrieval).
• Tìm kiếm quy nạp (Inductive Retrieval).

1.2.4.1 Tim kiếm gần nhất
Tim kiểm gần nhất (Nearest Neighbour Retrieval) là phương pháp trực
quan nhất và cũne được dùng nhiều nhất trong các hệ CBR. Phương pháp này
tìm kiểm ca lập luận thơng qua đánh giá độ tương tự (similarity) giữa các ca
lập luận. Trước tiên, hệ thống tính độ tương tự cục bộ giữa từng thuộc tính
của các ca lập luân. Kết quả thu được sẽ được nhân với một trọng sổ tùy

Trang 16


Tính độ tương lự và ứng dụng trong CBR

1 /1 /2 0 0 6


thuộc vào mức độ ưu tiên của các thuộc tính. Cuối cùng tính độ tương tự
chung cho toàn bộ ca lập luận. Một cách tổng quát, độ tưomg tự được tính
theo cơng thức sau [15]:

SIM(7’15) =—---—-----

-

(1.1)

j- l

trong đó:
-

T là ca lập luận đang xét.

-

S'

-

n là số lượng các thuộc tính.

-

sim, là hàm tính độ tương tự giữa hai thuộc tính / của ca lập luận T và

là ca lập luận được so sánh.


s.
-

Wị trọng số xác định độ ưu tiên của thuộc tính /.

1.2.4.2Tìm kiếm qui nạp
Kỹ thuật tim kiếm quy nạp (Inductive Retrieval) dựa theo ý tưởng của
phương pháp học máy (Machine Learning): xây đựng cây quyết định từ dữ
liệu đã có. Trong hệ thong CBR, thuật tốn quy nạp (ID3)sẽ phân tích cơ sở
tri thức và dựa trên đặc điểm các thuộc tính để chia các ca lập luận thànhcác
lớp. Từ đây chúne ta sẽ thu được một cây quyết định cho phép xác định các
ca lập luận tương tự. Phương pháp này có ưu điềm là khơng phải duyệt tồn
bộ ca sờ tri thức khi tim kiếm ca lập luận tương tự nhưng có nhược điểm là
mồi lần thêm mới một ca lập luận thi phài xây đựng lại cây quyết định.
ĐA« HỌC QUỐC GIA HÁ NỘI
■RUNG TĂM THÒNG UN THƯ VIỂN

v l \ . f í ị m

____ ’
Trang 17


Tinh độ tương tự và ứng dụng trong CBR

1/1/2006

1.2.5 Hiệu chỉnh lòi giải
Sau khi ca lập luận tương tự đã được tim kiếm, hệ thống sẽ tim cách áp

dụng lời eiài của ca lập luận cũ cho ca lập luận mới. Tuy nhiên, các ca lập
luận tìm kiếm đuợc chi là các ca lập luận tương tự nên việc quá trình hiệu
chinh lời giải là tối cần thiết để có được một lời giải đủng và phù hợp với ngữ
cảnh của bài toán mới. Việc hiệu chinh lời giải như thế nào là vấn để khó nhẩt
và địi hịi hệ thống CBR phải là hệ thổng “thông minh”. Hệ thống sẽ tìm và
đảnh giá lời giải cũ để áp dụng cho ca lập luận mới. Trên cơ sở áp dụng một
số quy tắc, hệ thống sẽ đưa ra lời giải mới thích hợp. Thơng thường có bốn
cách hiệu chinh sau:
• Hiệu chình thế: Đây đơn giản chì là phép thế một vài điểm cùa lời giải
cũ để tạo ra lời giài mới. Phép thế đơn giản nhất và được sử dụng tương
đối phồ biến là thế theo từ khóa. Khi đó, sự sai khác về từ khóa của đặc
tả bài tốn sẽ được hiệu chỉnh ở phần lời giải.
• Hiệu chình biến đổi: Biến đồi lời giải cũ dựa ừên một số các công thức
và quy tắc để sinh ra lời giải mới. Phép biến đồi này có thể là thêm, xóa
thuộc tính hoặc kết hợp các lời giải để tạo ra một lời giải hợp lý nhất.
• Hiệu chinh theo miền bài toán: Sử dụng các quy tắc riêng cùa miền bài
toán để hiệu chỉnh. Các quy tắc hiệu chinh này không thuộc loại hiệu
chỉnh thế hay hiệu chỉnh biến đồi mà có thể làm thay đổi tồn bộ cấu
trúc của lời giài cũ. Phưomg pháp này đôi khi địi hịi có sự tác động từ
phía người đủng.
• Hiệu chinh ỉặp lại luật suy diễn: Lặp lại các quy tấc suy diễn sinh ra lời
giài cũ (hoặc một phần lời giài cũ) để suy ra lời giải cho ca lập luận mới.

Trang 18


Tỉnh độ tương tự và irng dụng trong C-BR

1/1/2006


Mặc đủ hiệu chinh lài giải là bước tối cần thiết trong CBR nhưng lại rất
khỏ thực hiện. Việc hiệu chinh đòi hịi phải có một sự hiểu biết sâu sắc về
miền tri thức (các luật) trong khi CBR lại thường sừ dụng cho các bài tốn có
đặc tả khơng tường minh. Vì vậy, ữong thực tế, rất nhiều hệ thống CBR bỏ
qua việc hiệu chinh ca lập luận hoặc chỉ dừng lại ờ mức hỗ trợ hiệu chình bán
tự động thơng qua tương tác với người sử dụng [9].

1.3 Ưu điểm của C B R
Như đã trình bày ở trên, trong thực tế con người thường giải quyết vấn
đê bầng một cơ chế có nhiều điểm tương đồng với CBR. CBR có các ưu điểm
cơ bản sau:

Khả năng thu thập tri thức: Phương pháp CBR lập luận theo các ca
lập luận cụ thể nên khơng cần phải hình thức và tổng quát hóa tri thức thành
các luật như phương pháp lập luận dựa trên luật. Do đó việc thu thập tri thức
trở nên dễ đàng hơn và sẽ giảm được chi phí phát triển hệ thống.

Khả năng biểu diễn trỉ thức: Khác với lập luận theo luật chi giới hận
cho một dạng tri thức tổng quát có cấu trúc xác định, do chỉ giải quyết vói
từng trường hợp cụ thề nên CBR có thể mơ tả tri thức ở nhiều dạng khác
nhau. Trong hệ thống ngồi tri thức mơ tả các ca lập luận cịn có hệ thống chi
sổ (schema index, vocabulary index), cách tỉnh độ tương tự, các chiển lược
hiệu chinh. Vì thế, người phát triển có thể linh hoạt chọn cách biểu diễn tri
thức phù hợp nhất.
Khả năng duy trì tri thức: Trong thực tế, các bài tốn khơng phải bao
giờ cũng bất biến dẫn tới cơ sờ tri thức luôn phải biến đồi. Trong các hệ lập
luận theo luật truyền thống, các luật thường tổng quát và phụ thuộc chặt chẽ
ỉẫn nhau nên việc thêm hay sửa các luật thường gặp khó khăn. Ngược lại,

Trang 19



Tính độ lương tự và img dụng trong CBR

1/1/2006

CBR chi lưu các ca lập luận cụ thê độc lập với nhau nên việc mở rộng và
hiệu chinh cơ sờ tri thức sẽ dễ dàng hơn. Ngoài ra, do tri thức được biểu diễn
trực quan nên neười dùng có thể tự duy trì hệ thống mà khơng cần tới các kỹ
sư tri thức.

Tăng hiệu quả giâi quyết bài toán: Tái sử dụng lời giải đã có sẽ hiệu
quả hơn nhiều so với việc giài lại một bài tốn mà trước đó đã được ai đó đã
giải. Ngồi ra, trong CBR, chúng ta cũng dễ dàng lưu lại các ca lập luận thất
bại (khơng có lời giải hay khơng giải được bằng vốn tri thức hiện có) nên
tránh được các tình huống đi vào ngõ cụt trong tìm kiếm lời giải.

Tăng chất lượng lịi giải: Lời giải cho các bài tốn với các khái niệm
không rõ ràng được biểu diễn bằng các ca lập luận cụ thể sẽ dễ hiểu và chính
xác hơn so với việc biểu diễn bằng một chuỗi các luật suy diễn trừu tượng.
Trong CBR, lời giải phàn ánh rơ ràng, trực quan điểu gì sẽ xảy ra (hoặc
khơng thể xảy ra) trong một ca lập luận.

Được người dùng chấp nhận: vấn đề quan trọng nhất đổi với một hệ
chuyên gia là phải được người dùng chấp nhận, tức là người đùng phải có
cách nào đó để tin vào tính đúng đẳn của lời giải. Mạng nơ-ron cùng đưa ra
quyết định nhưng người dùng thường không thể hiểu được q trình này.
Người dùng thơng thường cững rất khỏ lý giải một chuỗi các luật được áp
dụng trong các hệ lập luận theo luật. Với CBR lời giải được đưa ra dựa vào
thực tế các ca lập luận đã có nên lời giải được mô tà rõ ràng và lý do mà hệ

thống đưa ra lòi giài cùng dễ hiểu.

Trang 20


Tính độ íưcmg tự và ứng dụng trong CBR

l/ỉ/2006

1.4 M ột số ứng dụng điển hình của C B R
CBR đang được nghiẻn cứu và ứng dụng rộng rãi trong nhiều lĩnh vực,
đặc biệt là với nhữn2 hệ chuyên gia cần tới các tri thức dạng kinh nghiệm.
Dưới đây, chúng tơi giới thiệu một sổ ứne dụng điển hình.
Hệ ượ giúp thiết kế CLAVIER [12] của công ty Lockheed: CLAVIER
được phát triển từ năm 1987 và được đưa vào sừ dụng tại công ty Lockheed
nãm 1990. CLAVIER chứa hơn 150 ca lập luận về các cách sắp xếp thành
công các chi tiết máy trong lò hấp. Mỗi ca lập luận chứa các thông tin về cách
sắp xếp bao gồm: tên cùa các thành phần, các bảng mà các thành phần được
gắn trên nó, vị trí của các thành phẩn, mối quan hệ về vị trí giữa các thành
phần, các thơng tin về trạng thái của nồi hấp như: thời gian bất đầu và kết
thúc, áp xuất và nhiệt độ cùa nồi hấp. Trước một đanh sách các thành phần
cần lắp ráp thành một sàn phẩm, CLAVIER tim kiếm ca lập luận cỏ chứa đầy
đù các thành phần có độ ưu tiên cao, có thể chứa các thành phần có độ ưu tiên
vừa và độ ưu tiên thấp. Trong ca lập luận tương tự nhất, nếu có thành phần
khơng tồn tại trong các thành phần cần lắp ráp thi thay thế nó bàng một thành
phẩn tương tự với nó nhất. Cuối cùng, CLAVIER đưa ra các bản thiết kế về
sản phẩm cần lắp ráp cho các kỹ sư thẩm định.
Hệ trợ giúp khách hàng SMART [2] của công ty Compaq: SMART
được Compaq phát triển để cung cấp địch vụ trợ giúp khách hàng. SMART
tích hợp với hệ thống đăng nhập và hệ thống dẫn đường cuộc gọi của

Compaq. Mồi ca lập luận của SMART mô tả một cuộc gọi của khách hàng và
trả lời của các kỹ sư về vấn đề khách hàng hòi. Khi nhận được một cuộc gọi
từ khách hàng, nhân viên phục vụ cập nhật các thông tin về cuộc gọi vào hệ
thong, SMART sẽ tim cuộc gọi tương tự nhất với cuộc gọi hiện tại trong tất
cà các cuộc gọi mà nó đã xử lý trong quá khứ. Tiếp theo SMART hiệu chinh

Trang 21


Tính độ tươìĩg tự và ímg dụng trong CBR

l/ì/2006

cuộc gọi cho phủ hợp với ngữ cảnh mới và đưa ra lời giải đáp cho cuộc gọi.
Căn cứ vào lời giải mà SMART đưa ra, nhân viên phục vụ trả lời cho khách
hàng. Sau khi được triền khai, SMART xử ỉý thành công khoảng 85-95% các
cuộc gọi. Thời gian SMART xử lý một cuộc gọi không quá hai phút.
Hệ chuyên gia chẩn đoán bệnh PROTOS [5, 19]: PROTOS được phát
triển bời Ray Bareiss and Bruce Porter trong lĩnh vực chần đoán các bệnh
khiếm thính. PROTOS chứa 200 ca lập luận về bệnh án (các triệu chứng lâm
sàng, tiểu sử bệnh, kết quả xét nghiệm, kết luận bệnh và phác đồ điều trị) của
các bệnh nhân. Các ca lập luận thuộc 24 loại khác nhau từ một chuyên khoa
nghe nói. Trước các thông tin về bệnh nhân như: các triệu chứng lâm sàng,
tiểu sử bệnh, các kết quả xét nghiệm), PROTOS tìm kiếm các ca lập luận
tương tự nhất và sừ đụng chẩn đoán trong các ca lập luận này để chẩn đoán
cho bệnh nhân. Sau khi PROTOS được huấn luyện bời 200 ca lập luận trên,
nó chẩn đốn với độ chính xác rất cao (gần 100%).

1.5 V ấn đề tính độ tương tự giữa các ca lập luận trong hệ
thống C B R

Bên cạnh các ưu điểm nói trên, thì khi triển khai các hệ thống CBR
cũng còn gặp một số vấn đề rẩt khó giải quyết. Một trong sổ các vấn đề đó là
tính độ tương tự giữa các ca lập luận. Ta đã biết rằng giai đoạn tìm kiếm lại là
giai đoạn đầu tiên trong chu trình lập luận theo tình huống. Trong chu trinh
này, phần quan trọng và chù yéu nhất là tính độ tương tự của ca lập luận mới
với các ca lập luận trong cơ sở dừ liệu đề tìm ra các ca lập luận có độ tương tự
với nó nhất để phục vụ cho các giai đoẹn tiếp theo. Do đó, chi cần một sai sót
nhỏ trong cơng việc này cũng kéo theo cả hệ thống mất tính chính xác, vì thế
cơng việc này ln được cân nhẳc và thực hiện bời các chuyên gia cỏ kiến
thức chun mơn sâu về lĩnh vực đó.

Trang 22


Tính độ tươnọ, tự và ứng dụng trong CBR

ỉ/ì/2006

Việc tinh độ tương tự khơng chì ứng dụng trong CBR mà còn ứng dụng
trons rất nhiều lĩnh vực khoa học khác nhau. Nhàm giúp các nhà phát triển hệ
thón2 CBR cũng như các lĩnh vực liên quan khác, chương hai của luận vần sẽ
đẻ cập chi tiết về các cách tính này.

1.6 K ết luận

Trong chương này, chúng tơi đã trình bày một cách khái quát về
phương pháp lập luận theo tình huống (CBR) cũng như các ưu điểm của nỏ
trong phát triển hệ thống so với cách tiếp cận dựa trên luật. CBR đưa ra lời
giải cho bài toán mới bàng cách tìm cách tái sử dụng lời giải của bài tốn cũ
tương tự. C'BR thích hợp với các bàí tốn có miền tri thức rộng hay tri thức

chưa ổn định. Tuy nhiên, phương pháp này không phải là một công cụ vạn
năns thay thế cho các phương pháp dựa trên luật truyền thống. Khi bài toán
đã tồn tại các luật chặt chẽ hay đồi hỏi lời giải phải đúng đắn về logic thì các
phương pháp dựa trên luật vẫn là một lựa chọn tốt. Một hướng nghiên cứu
hiện nay là xây dựng các hệ thống lai phổi hợp CBR với lập luận dựa trên
luật.

Trang 23


Tính độ tương tự và ứng dụng trong CBR

1/1/2006

Chương 2: Các phương pháp tính tốn độ đo
tưcmg tự
Tính độ tương tự là một bài toán được ứng dựng trong rất nhiều các
ngành khoa học khác nhau cả về tự nhiên lẫn xã hội. Trong chương này,
chúng ta sẽ tìm hiểu các tri thức cơ bản về cách tính độ tưcmg tự cho các kiểu
dữ liệu khác nhau như kiểu định danh, thứ tự và định lượng,... và tiến xa hơn
là từ dữ liệu 2 chiều tới N chiều. Các tri thức này về độ tương tự và bất tương
tự là rất cần thiết cho các lĩnh vực như: khai phá tri thức, nhận dạng mẫu, trí
tuệ máy, trí tuệ nhân tạo và các hệ thống đa tác tử. Tuy nhiên, ứng dụng
không chi giới hạn trong lĩnh vự khoa học mảy tính. Các lĩnh vực khác về
khoa học tự nhiên và xã hội cũng như cơ khí máy và thống kê đã được áp
dụng dựa trên các tri thức đơn giản về tính độ tương tự này.

2.1 Đ ộ tương tự
Giả thiết rằng chúng ta có bốn ngơi sao như trong hình dưới đây.
Những cái nào trong chúng là tương tự nhau? cái nào là khác nhau?


Hlnh 2.1 - Sự tương tự giữa các ngơi sao.
Chúng ta có thể nói, A là tương tự với c. A, B và c có cùng kích cỡ,
trong khi A, c và D có cùng màu. Kích cỡ và màu sắc là các ví dụ của các
đặc tnmg có thể đo đạc.

Trang 24


Tinh độ tương lự và img dụng trong CBR

1/1/2006

Độ tương tự (Similarity) là rất khó đo lường. Độ tương tự là một số
phan ảnh cường độ quan hệ giừa hai đối tượng hoặc hai đặc trưng, số này
thường lấy trons khoảng từ -1 tới +1 hoặc được chuẩn hóa là từ 0 tới 1 [23].
Nếu độ tương tự giừa đặc trưng i và j được biểu diễn bời s,j, chúng ta có thể
đo sổ tương tự trong một sổ cách phụ thuộc độ đo (hoặc kiểu dữ liệu) mà
chúng ta có.
Khoảng cách đo độ bất tương tự (độ khác biệt). Độ khác biệt đo sự
khác nhau giữa hai đổi tượng dựa trên một vài đặc trưng. Độ khác biệt có thể
cũng được xem như là độ đo của sự hỗn ỉoạn (disorder•) gíừa hai đối tượng.
Nhừng đặc trưng này có thể được biểu diễn như tọa độ cùa đối tượng trong
khơng gian các đặc trưng. Có nhiều kiểu khoảng cách và độ tương tự. Mỗi độ
tương tự hoặc bất tương tự có các đặc tính riêng của nó.

2.1.1 Khoảng cách
Khoảng cách là một biến định lượng thịa mãn ít nhất ba điều kiện đầu
trong các điều kiện sau [23]:
d,j>0 khoảng cách ln lớn hom 0

dij =0 khồng cách bầng 0 khi và chi nó đo khồng cách tới chinh nó
dịj = dji khoảng cách là đôiư xứng
d,j < dlk + dkj khoáng cách thỏa mãn bất đẳng thức tam giác
Khoảng cách cũng được gọi là độ đo metric nếu ứiỏa mãn tất cả bốn
điểu kiện trên. Vì thế, bời vỉ bất đẳng thức tam giác (điều kiện 4), không phải
tất cả khoảng cách là metric, nhưng tất cả metric đều là khoảng cách.

Trang 25


×