Tải bản đầy đủ (.docx) (41 trang)

Báo cáo hệ chuyên gia Dự báo thời tiết ID3

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (865.02 KB, 41 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN
------------

BÀI TẬP LỚN
HỆ CHUYÊN GIA

ĐỀ TÀI: Dự báo bão sử dụng cây quyết đinh ID3.

Giảng viên hướng dẫn: Cô Lê Thị Thủy.
Nhóm thực hiện:

Nhóm 7.

Lớp:

ĐH HTTT1_K8.

Hà Nội 2016


TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI

KHOA CÔNG NGHỆ THÔNG TIN
------------

BÀI TẬP LỚN
HỆ CHUYÊN GIA

ĐỀ TÀI:Dự báo bão sử dụng cây quyết đinh ID3


Giảng viên hướng dẫn: Cô Lê Thị Thủy.
Nhóm thực hiện: Nhóm 7.
Lớp: ĐH HTTT1_K8.
THÀNH VIÊN TRONG NHÓM:
1.
2.
3.
4.

Đặng Xuân Thiên.
Nguyễn Thị Thơm.
Trần Thị Hương.
BoBBi.

Hà Nội 2016

Chương 1: Khái Niệm Cơ Bản Về Dự Báo Bão


I.

Tổng Quan Về Bão
Bão là trạng thái nhiễu động của khí quyển và là một loại thời tiết cực
đoạn.
Ở Việt Nam, thuật ngữ "bão" thường được hiểu là bão nhiệt đới, là
hiện tượng thời tiết đặc biệt nguy hiểm chỉ xuất hiện trên các vùng
biến nhiệt đới, thường có gió mạnh và mưa lớn. Tuy thế, thuật ngữ này
rộng hơn bao gồm cả các cơn dông và các hiện tượng khác hiếm gặp ở
Việt Nam như bão tuyết, bão cát, bão bụi...
Bão là xoáy thuận quy mô synop (500-1000 km) không có front, phát

triển trên miền biển nhiệt đới hay cận nhiệt đới ở mực bất kỳ và có
hoàn lưu xác định.
Trong không gian ba chiều, bão là một cột xoáy khổng lồ, ở tầng thấp
(khoảng 0-3km) không khí nóng ẩm chuyển động xoắn trôn ốc ngược
chiều kim đồng hồ (ở Bắc Bán Cầu) hội tụ vào tâm, chuyển động
thẳng đứng lên trên trong thành mắt bão và toả ra ngoài ở trên đỉnh
theo chiều ngược lại. Ở chính giữa trung tâm của cơn bão không khí
chuyển động giáng xuống, tạo nên vùng quang mây ở mắt bão
Các thành phần chính của bão bao gồm các dải mưa ở rìa ngoài, mắt
bão nằm ở chính giữa và thành mắt bão nằm ngay sát mắt bão.
Giá trị khí áp nhỏ nhất tại tâm bão và tăng dần ra phía rìa bão. Càng
vào gần tâm, cường độ gió bão càng mạnh, khu vực tốc độ gió mạnh
nhất cách tâm bão khoảng vài chục km. Vào vùng mắt bão gió đột
ngột yếu hẳn, tốc độ gió gần bằng không. Khi qua khỏi vùng mắt bão
gió lại đột ngột mạnh lên nhưng có hướng ngược lại, đây chính là tính
chất ảnh hưởng nguy hiểm nhất của bão.


II.

Bão nhiệt đới

Các cơn bão thường hình thành khi một tâm áp thấp phát triển với một
hệ thống áp cao xung quanh nó. Sự kết hợp của các lực đối nghịch có
thể sinh ra gió và hình thành các đám mây bão, chẳng hạn mây vũ tích.
Một định nghĩa khí tượng chặt về một cơn bão là có cấp gió Beauifort
lớn hơn hoặc bằng 10, (89 km/h). Ở Việt Nam, gió xoáy có cấp
Beaufort từ 6 đến 7 trên một diện rộng gọi là áp thấp nhiệt đới. Gió
xoáy từ cấp 8 trở lên trên một diện rộng, có thể kèm theo mưa lớn gọi
chung là bão.

Ngoài thang sức gió Beauifort , còn dùng các thang khác như thang
bão Saffir-Simpson. Ở Việt Nam, do hầu như không có bão mạnh đến
mức cần sử dụng thang bão Saffir-Simpson, nên người ta chỉ cần sử
dụng thang sức gió Beaufort để mô tả sức mạnh của chúng là đủ. Các
thang sức gió giúp phân loại bão theo cường độ gió kéo dài, theo áp
suất tâm bão, theo mức độ tàn phá, mức độ gây ngập lụt...
III.

Cấp độ bão nhiệt đới và ảnh hưởng

Thang bão Saffir-Simpson là thang phân loại bão được sử dụng nhiều
nhất cho các xoáy thuận nhiệt đới ở Tây bán cầu có cường độ vượt quá
cường độ của các áp thấp nhiệt đới và các trận bão nhiệt đới. Thang


này chia các cơn bão thành 5 cấp được phân biệt theo cường độ sức
gió kéo dài của nó. Để phân loại như là một cơn bão, một xoáy thuận
nhiệt đới phải có sức gió kéo dài tối đa ít nhất là 33 mét trên giây; hay
119 kilômét trên giờ. Cao nhất trong thang bão này là cấp 5 là các cơn
bão có sức gió trên 69 m/s; 249 km/h).
Cấp 1:119-153km/h. Không có thiệt hại thực sự cho các cấu trúc xây
dựng. Thiệt hại chủ yếu cho nhà cửa di động không néo chặt, cây cối
và bụi rậm. Thiệt hại nhỏ cho cầu cảng và có thể gây ngập lụt.
Cấp 2: 154-177 km/h. Làm hư hỏng một số mái nhà, cửa và cửa sổ.
Thiệt hại đáng kể cho cây trồng, nhà cửa có cấu trúc kém. Có thể gây
ngập lụt cầu cảng và những tàu thuyền nhỏ không cột bảo vệ có thể bị
gẫy.
Cấp 3: 178-209 km/h. Một số thiệt hại cấu trúc của nhà cửa nhỏ và các
công trình xây dựng khác, một số màn cửa (bằng nhôm) bị gẫy. Nhà
cửa di động bị phá sập. Ngập lụt ven biển phá hủy các kết cấu xây

dựng nhỏ, các công trình xây dựng lớn bị hư hại bởi các mảnh vụn do
ngập lụt tạo ra.
Cấp 4:210247 km/h, các màn cửa gẫy đổ nhiều hơn, các mái của các
ngôi nhà nhỏ bị phá hỏng. Xói mòn mạnh ven biển. Ngập lụt trong đất
liền.
Cấp 5: ≥ 250 km/h. Các ngôi nhà nhỏ và công trình xây dựng công
nghiệp bị cuốn bay mái. Các công trình nhỏ bị cuốn bay, thiệt hại nặng
nề cho các công trình lớn. Ngập lụt gây thiệt hại cho các tầng thấp của
mọi công trình ven biển. Có thể phải di tản.
IV.

Nguồn gốc của Bão nhiệt đới

Nhờ sự đối lưu đã nói ở trên mà không khí nóng ẩm từ bề mặt của đại
dương không ngừng bay lên trên cao ngưng và tạo thành các đám mây
giông và mưa. Hơi ấm khi đông đặc như vậy tỏa nhiệt làm ấm không
khí xung quanh khiến chúng nhẹ đi và bốc lên cao. Lớp không khí ấm
và ẩm hơn từ sát bề mặt đại dương sẽ tràn tới choán chỗ. Chu trình bốc
hơi và ngưng tụ này mỗi lúc một gia tăng khiến không khí ẩm và nóng
từ mặt biển bị hút lên mỗi lúc một nhiều và mạnh hơn. và gây ra luồng
gió xoáy.


Nhưng để luồng mây giông và gió xoáy trên biển phát triển thành bão
cần kết hợp với một số điều kiện khác. Lốc xoáy sinh ra do các luồng
gió hội tụ gặp nhau và đẩy không khí nóng ẩm lên trên cao càng làm
gia tăng tốc độ bốc hơi và sinh ra gió càng mạnh. Trong khi đó, nếu có
gió thổi qua ở độ cao cao hơn (lên đến 9.000 mét) hơi nóng bốc lên từ
trung tâm luồng xoáy sẽ bị thổi đi và vì thế sẽ giúp duy trì sự bốc hơi
liên tục của luồng khí ấm và ẩm và bão được hình thành. Thậm chí

chênh lệch áp suất của không khí ở độ cao trên 9.000 mét và mặt biển
cũng loại bỏ nhiệt từ không khí nóng bốc lên khiến, đẩy không khí và
chu kỳ bốc hơi càng mạnh thúc đẩy sức mạnh của cơn bão.
V.

Cấu Trúc Của Một Cơn Bão Nhiệt Đới


Bão chỉ hình thành ở khu vực biển ấm ở vùng nhiệt đới nơi nhiệt độ
nước thấp nhất là 27 độ C. Chúng cần không khí ẩm và gió hội tụ gần
xích đạo để hoạt động.
- Mắt bão: là vùng áp suất thấp tương đối yên bình nằm ở trung tâm
cơn bão.
- Rìa mắt bão: vùng sát mắt bão, nơi gió xoáy mạnh nhất
- Vòng mưa: dải mây xoay quanh phía ngoài mắt bão mang mưa. Đây
là kết quả quá trình bốc hơi và ngưng tụ trước kia đã hình thành nên
cơn bão.
Vòng xoay của một cơn bão là hệ quả của lực Coriolis, một hiện tượng
tự nhiên làm các dòng chảy và vật chuyển động bị lệch phải ở Bắc bán
cầu và lệch trái ở Nam bán cầu. Vì vậy, ở Bắc bán cầu, gió bị lệch
sang bên phải và làm các cơn bão ở Bắc bán cầu xoay ngược chiều
kim đồng hồ và ngược lại ở Nam bán cầu. Lực Coriolis cũng làm ảnh
hưởng đên hướng di chuyển
của bão. Các cơn bão có xu hướng quẹo phải (theo chiều kim đồng hồ)
ở Bắc bán cầu và quẹo trái (ngược chiều kim đồng hồ) ở Nam bán cầu.
Một cơn bão thường được hình thành từ những rối loạn mây giông
nhiệt đới trên biển. Hầu hết những rối loạn này sẽ suy yếu và tan dần,
những một số sẽ phát triển thành bão sau này. Trong những trường
hợp này, như đã đề cập đến gió xoáy ở trên, những đám mây giông ở
khu vực nhiễu loạn tỏa nhiệt khi bốc hơi và ngưng tụ. Điều này làm

cho mật độ không khí bên trong nhiễu loạn giảm đi qua đó làm giảm
áp lực bề mặt. Tốc độ gió tăng lên khi không khí lạnh hơn đổ dồn tới
choán chỗ lớp không khí ấm đã bốc lên cao. Dưới tác động Coriolis,
nhiễu loạn khí bắt đầu xoay vòng. Hơn nữa đây là vùng có khí ấp thấp
nên càng hút không khí từ cùng có áp suất cao, khiến sức gió ngày
càng gia tăng, giống như nước lũ đổ vào chỗ trũng.
VI.

Vòng Đời Của Bão

Mỗi cơn bão rất khác nhau về kích thước vật lý. Một số cơn bão rất
nhỏ chỉ có vài dải mây và mưa bao quanh. Nhưng cũng có những cơn
bão khác rộng hơn bao phủ cả vùng rộng lớn diện tích tới hàng trăm
hàng ngàn dặm. Các cấp độ của bão được chia ra làm nhiều loại tùy
theo mỗi nước nhưng cơ bản được chia ra làm ba cấp độ như sau:
- Áp thấp nhiệt đới: có tốc độ gió xoáy nhỏ hơn 61 km/giờ.


- Bão nhiệt đới: tốc độ gió từ 62-118 km/giờ
- Siêu bão: tốc độ gió vượt 120 km/h

Bão không phải là một sinh vật sống, nhưng nó cần được cung cấp khí
ấm và ẩm. Và nếu một khi nhiễu động nhiệt đới tìm đủ nguồn "thức
ăn" này và gặp những điều kiện thuận lợi về gió và áp suất, chúng ta sẽ
thấy một con quái vật trên biển cả. Quá trình để một nhiễu động nhiệt
đới phát triển thành bão có thể mất chỉ vài tiếng đồng hồ cho tới vài
ngày.
Tuy nhiên cơn bão cũng có thể nhanh chóng suy yếu nếu không tìm
được nhiệt ẩm để gia tăng sức mạnh. Khi một cơn bão di chuyển vào
vùng nước lạnh ở một vĩ độ cao hơn, áp lực sẽ giảm đi, sức gió cũng

suy giảm. Bên cạnh đó khi đổ bộ, sự ngưng tụ và bốc hơi yếu đi, và
kết hợp với ma sát ở mặt đất cũng khiến bão suy giảm sức mạnh nhanh
chóng thành một vùng áp thấp nhiệt đới và có thể biến mất sau đó một
vài ngày.
VII.

Phân Loại Bão Nhiệt Đới


Bão có thể gây ra thiệt hại to lớn cho những nơi mà chúng quét qua. Vì
vậy các nhà khoa học đã xây dựng hệ thống phân loại và thang đo để
có thể đưa ra dự báo cũng như làm căn cứ để giới chức quản lý cùng
người dân có những biện pháp chủ động phòng chống kịp thời. Hiện
nay có hai thang đo sức mạnh của bão Thang đo sức gió Beaufort và
thang bão thang bão Saffir-Simpson. Việt Nam hiện đang sử dụng
thang đo Beaufort.


VIII.

Theo Dõi Và Cách Đặt Tên Bão

Để giám sát và theo dõi sự phát triển và hành trình di chuyển của một
cơn bão, khí tượng học dựa trên cảm biến từ xa bằng vệ tinh, cũng như
dữ liệu thu thập được bởi máy bay trang bị đặc biệt. Dưới mặt đất, có
một mạng lưới các trung tâm khí tượng khu vực dưới sự chỉ đạo Tổ
chức Khí tượng Thế giới, có nhiệm vụ theo dõi và thông báo về các
hiện tượng thời tiết cực đoan. Vệ tinh thời tiết sử dụng cảm biến để thu
thập thông tin về cơn bão, theo dõi đám mây và mô hình tuần hoàn của
không khí, trong khi radar đo lường tốc độ mưa gió, và lượng mưa.

Cảm biến hồng ngoại cũng phát hiện sự khác biệt nhiệt độ quan trọng
trong cơn bão, cũng như chiều cao đám mây. Dựa dữ liệu hiện tại và
thống kê dữ liệu quá khứ, các nhà khoa học có thể dự báo đường đi và
cường độ trước khi bão đổ bộ vào đất liền.


Từ cách đây vài trăm năm, các cư dân của vùng Tây Ấn đã đặt tên cho
bão theo tên thánh của ngày cơn bão đó đổ bộ vào đất liền. Nếu một
cơn bão khác cũng xảy ra trùng vào ngày tháng nói trên nhưng ở năm
khác thì được gán thêm số chỉ thứ tự. Trong Thế chiến II, các nhà khí
tượng học chỉ cho cơn bão tên nam tính. Tuy nhiên trong những năm
1950, các cơn bão bắt đầu được đặt tên theo thứ tự bảng chữ cái và tên
phụ nữ. Tới cuối thập niên 1970, giới khí tượng đã thay thế cách đặt
tên cũ bằng hệ thống tên mới đan xen giữa tên nam giới và nữ giới để
tránh sự phản đối về phân biệt giới và hệ thống này vẫn đượcTổ chức
khí tượng Thế giới (WMO) áp dụng cho đến ngày nay.
Theo hệ thống này, cơn bão đầu tiên trong mùa sẽ được đặt tên bắt đầu
bằng kí tự A, cơn bão thứ hai có tên bắt đầu bằng kí tự B và tiếp tục
với các cơn bão khác. Vì các cơn bão ảnh hưởng đến nhiều nơi trên thế
giới, danh sách tên được đề cử từ các nước khác nhau và khác nhau
theo khu vực. Ở khu vực Tây bắc Thái Bình Dương (Việt Nam nằm
trong khu vực này) khi các cơn bão hình thành sẽ được Trung tâm Bão
nhiệt đới Tokyo thuộc cơ quan khí tượng Nhật Bản đặt tên. Ngoài ra,
nếu một cơn bão gây ra thiệt hại đáng kể, quốc gia bị ảnh hưởng bởi
cơn bão này có thể yêu cầu tổ chức WMO rút tên gọi trong bản sanh
sách tên ít nhất là 10 năm. Điều này giúp tránh nhầm lẫn, để đơn giản
hóa lịch sử và việc lưu giữ hồ sơ.


Chương 2: Hệ chuyên gia

I. Tổng

quan

1. Hệ chuyên gia là gì ?
• Hệ chuyên gia là một hệ thống chương trình máy tính chứa các thông

tin, tri thức và các quá trình suy luận về một lĩnh vực cụ thể nào đó để
giải quyết các vấn đề khó hoặc hóc búa đòi hỏi sự tinh thông đầy đủ
của các chuyên gia con người đối với các giải pháp của họ. Nói một
cách khác hệ chuyên gia là dựa trên tri thức của các chuyên gia con
người giỏi nhất trong lĩnh vực quan tâm.
 Tri thức của hệ chuyên gia bao gồm các sự kiện và các luật. Các

sự kiện được cấu thành bởi một số nhiều các thông tin, được thu
thập rộng rãi, công khai và được sự đồng tình của các chuyên
gia con người trong lĩnh vực. Các luật biểu thị sự quyết đoán
chuyên môn của các chuyên gia trong lĩnh vực.
 Mức độ hiệu quả của một hệ chuyên gia phụ thuộc vào kích

thước và chất lượng của cơ sở tri thức mà hệ đó có được.
 Mỗi hệ chuyên gia chỉ đặc trưng cho một lĩnh vực vấn đề nào

đó, như y học, tài chính, khoa học hay công nghệ, vv…, mà
không phải là cho bất cứ một lĩnh vực vấn đề nào.


Ví dụ : hệ chuyên gia về lĩnh vực y học để phát hiện các
căn bệnh lây nhiễm sẽ có nhiều tri thức về một số triệu
chứng lây bệnh, lĩnh vực tri thức y học bao gồm các căn

bệnh, triệu chứng và chữa trị.


• Hoạt động của một hệ chuyên gia dựa trên tri thức được minh họa như

sau:

Hệ thống giao tiếp
Cơ sở tri thức
Người sử dụng
Máy suy diễn

2. Đặc trưng và ưu điểm của hệ chuyên gia
4 đặc trưng cơ bản:
• Hiệu quả cao: Khả năng trả lời với mức độ tinh thông bằng hoặc cao

hơn so với chuyên gia (người) trong cùng lĩnh vực.
• Thời gian trả lời thỏa đáng: Thời gian trả lời hợp lý, bằng hoặc nhanh

hơn so với chuyên gia (người) để đi đến cùng một quyết định.
• Độ tin cậy cao: Không thể xảy ra sự cố hoặc giảm sút độ tin cậy khi sử

dụng.
• Dễ hiểu: Hệ chuyên gia giải thích các bước suy luận một cách dễ hiểu

và nhất quán.
Những ưu điểm của hệ chuyên gia :
• Phổ cập: Là sản phẩm chuyên gia, được phát triển không ngừng với hiệu

quả sử dụng không thể phủ nhận.

• Giảm giá thành.
• Giảm rủi ro: Giúp con người tránh được rủi ro trong các môi trường

nguy hiểm.


• Tính thường trực: Bất kể lúc nào cũng có thể khai thác sử dụng. Trong

khi con người có thể mệt mỏi, nghỉ ngơi hay vắng mặt.
• Đa lĩnh vực: Chuyên gia về nhiều lĩnh vực khác nhau và được khai thác

đồng thời bất kể thời gian sử dụng.
• Độ tin cậy.
• Khả năng giảng giải: Câu trả lời với mức độ tinh thông được giảng giải

rõ ràng, chi tiết, dễ hiểu.
• Khả năng trả lời nhanh.
• Tính ổn định, suy luận có lý và đầy đủ mọi lúc mọi nơi.
• Trợ giúp thông minh như một người hướng dẫn.
• Có thể truy cập như là một cơ sở dữ liệu thông minh.

3. Các lĩnh vực ứng dụng của hệ chuyên gia
Tính đến thời điểm này, hàng trăm hệ chuyên gia đã được xây dựng và báo
cáo thường xuyên trong các tạp chí, sách báo và hội thảo khoa học. Ngoài ra còn
các hệ chuyên gia được sử dụng trong các công ty, các tổ chức quân sự mà
không được công bố vì lí do bảo mật.
Dưới đây là một số lĩnh vực ứng dụng diện rộng của các hệ chuyên gia:


Lĩnh vực

Cấu hình

Ứng dụng diện rộng
Tập hợp thích đáng những thành phần của một hệ thống theo cách riêng

Chẩn đoán

Lập luận dựa trên những chứng cứ quan sát được

Truyền đạt

Dạy học kiểu thông minh sao cho sinh viên có thể hỏi

Giải thích

Giải thích những dữ liệu thu nhận được

Kiểm tra

So sánh dữ liệu thu lượm được với chuyên môn để đánh giá hiệu quả

Lập kế hoạch

Lập kế hoạch sản xuất theo yêu cầu

Dự đoán

Dự đoán hậu quả từ một tình huống xảy ra

Chữa trị


Chỉ định cách thụ lý một vấn đề

Điều khiển một quá trình, đòi hỏi diễn giải, chẩn đoán, kiểm tra, lập kế hoạch, dự đoán và c
Điều khiển

4. Cấu trúc của hệ chuyên gia
Một hệ chuyên gia kiểu mẫu gồm các thành phần cơ bản sau :


Chuyên gia con người

Bộ thu nạp tri thức

Người sử dụng

Giao diện người, máy

Bộ
giải thích

Mô tơ suy diễn
Suy diễn

Điều khiển

Cơ sở tri thức

Bộ nhớ làm việc




Giao diện người, máy : Thực hiện giao tiếp giữa hệ chuyên gia và người
sử dụng. Nhận các thông tin từ người dùng (các câu hỏi, các yêu cầu về
lĩnh vực) và đưa ra các lời khuyên, các câu trả lời, các giải thích về lĩnh
vực đó.



Bộ giải thích : Giải thích các hoạt động của hệ khi có yêu cầu của người
sử dụng.



Bộ thu nạp tri thức : Làm nhiệm vụ thu nhận tri thức từ chuyên gia con
người, từ kỹ sư tri thức và cả người sử dụng thông qua các câu hỏi và yêu
cầu của họ, sau đó lưu trữ vào cơ sở tri thức.




Cơ sở tri thức : Lưu trữ, biểu diễn các tri thức trong lĩnh vực mà hệ đảm
nhận, làm cơ sở cho các hoạt động của hệ. Cơ sở tri thức bao gồm các sự
kiện và các luật.



Mô tơ suy diễn : Làm nhiệm vụ sử lý và điều khiển các tri thức được biểu
diễn trong cơ sở tri thức nhằm đáp ứng các câu hỏi, các yêu cầu của người
sử dụng.


(*) Để thực hiện được các công việc của các thành phần trên trong cấu trúc hệ
chuyên gia phải có một hệ điều khiển và quản lý việc tạo lập, tích lũy tri thức
cho lĩnh vực hệ đảm nhận gọi là “Hệ quản trị cơ sở tri thức”. Hệ quản trị cơ sở
tri thức thực chất là quản lý và điều khiển công việc của Bộ thu nạp tri thức, Bộ
giải thích, Mô tơ suy diễn. Nó phải đảm bảo các yêu cầu :


Giảm dư thừa tri thức, dữ liệu.



Tính nhất quán và phi mâu thuẫn của tri thức.



Tính toàn vẹn và an toàn.



Giải quyết các vấn đề cạnh tranh.



Chuyển đổi tri thức.



Ngôn ngữ xử lý tri thức.


5. Một số mô hình kiến trúc hệ chuyên gia
a) Mô hình J.L.Ermine

b) Mô hình C.Ernest :


c) Mô hình E.V.Popov :

II.

Cơ sở tri thức


1. Phân biệt tri thức và dữ liệu
Chúng ta có thể dựa vào một số đặc trưng sau để phân biệt qui ước tri thức
và dữ liệu :
• Khả năng tự giải thích nội dung : Dữ liệu đưa vào máy tính không tự

giải thích nổi, đôi khi còn được mã hóa cho ngắn gọn để dễ cài đặt
trong máy. Chỉ có người lập trình đó mới có thể hiểu được nội dung, ý
nghĩa của dữ liệu, nhưng tri thức có thể tự giải thích nội dung của
mình với người sử dụng bất kỳ.
• Tính cấu trúc : Một trong những đặc tính cơ bản của hoạt động nhận

thức của con người đối với thế giới xung quanh là khả năng phân tích
cấu trúc của các đối tượng. Tri thức được đưa vào máy cũng cần có
khả năng tạo ra được một sự phân cấp giữa các khái niệm và mối quan
hệ giữa chúng.
• Tính liên hệ : Ngoài các quan hệ về cấu trúc trong mỗi tri thức (khái


niệm, quá trình, hiện tượng, sự kiện) giữa các đơn vị tri thức còn có
nhiều mối liên hệ khác (không gian, thời gian, nhân quả…). Một số
nghiên cứu đã chỉ ra số các liên hệ cơ bản giữa các sự kiện xấp xỉ 200
lần. Một cơ sở tri thức được kết hợp với số liên hệ cơ bản này có thể
mô tả và biểu diễn được hầu hết mọi vấn đề mà chúng ta quan tâm.
• Tính chủ động :
o Như chúng ta đã thấy, dữ liệu có vai trò bị động vì nó phụ thuộc

vào sự khai thác của chương trình cụ thể.
o Trong xã hội loài người khi hoạt động bất kỳ ở đâu và ở trong

lĩnh vực nào thì con người bao giờ cũng bị điều khiển bằng
chính tri thức (vốn hiểu biết) của mình. Nhờ có tri thức mà con
người đã hình thành mục tiêu và các hành vi để thực hiện mục
tiêu đó. Quá trình này luôn đi kèm với sự bổ sung tri thức và
khắc phục sự mâu thuẫn giữa các tri thức để đi đến hoàn thiện
dần cơ sở tri thức trong mỗi người.


o Đối với các tri thức biểu diễn trong máy cũng vậy, chúng chủ

động hướng người sử dụng biết khai thác tri thức. Đó chính là
quá trình kích hoạt tri thức được thể hiện trong các hệ chuyên
gia được xây dựng trên các cơ sở tri thức biểu diễn ở mức cao
có khả năng tiếp nhận, tinh chế, tự hoàn thiện ngay trong quá
trình hoạt động của hệ. Tính chủ động của tri thức còn thể hiện
sinh động thông qua các ngôn ngữ lập trình trí tuệ nhân tạo như
Lisp, Prolog…ở đó không còn có sự phân biệt rõ ràng giữa dữ
liệu và thủ tục.
2. Phân loại tri thức

Tri thức tồn tại dưới 2 dạng cơ bản :
 Tri thức định lượng.
 Tri thức định tính.

Tri thức định lượng thường gắn với các loại kinh nghiệm khác nhau. Ở
đây chúng ta xét về tri thức định tính.
Tri thức định tính được chia thành 3 loại :
 Tri thức mô tả.
 Tri thức thủ tục.
 Tri thức điều khiển.
a) Tri thức mô tả :

Cho những thông tin về một sự kiện, hiện tượng hay quá trình mà không
đưa ra thông tin về cấu trúc bên trong cũng như phương pháp sử dụng bên trong
của tri thức đó.
Ví dụ : Khẳng định “Việt Nam là đất nước tươi đẹp”. Đây là một khẳng
định bất biến, không phụ thuộc vào tình huống, không gian và thời gian. Các tri
thức phụ thuộc không gian và thời gian đòi hỏi những mô hình biểu diễn đặc
biệt, cho phép thể hiện các tương quan giữa các sự kiện, quá trình không gian và
thời gian.


Ngoài ra các tri thức mô tả còn cho phép miêu tả các mối liên hệ, các
ràng buộc giữa các đối tượng, các sự kiện và các quá trình. Ví dụ : “Tôi muốn
mua bút” miêu tả mối quan hệ giữa đối tượng “tôi” và “bút” thông qua quan hệ
“muốn mua”.
b) Tri thức thủ tục :

Cho ta những phương pháp cấu trúc tri thức, ghép nối và suy diễn các tri
thức mới từ những tri thức đã có. Các tri thức loại này tạo nên cơ sở của kỹ nghệ

xử lý tri thức
Một số thủ tục tri thức cơ bản :
 Tổng hợp tri thức : Suy diễn, Quy diễn, Quy nạp.
 Học tự động : 2 cách suy diễn logic thường được sử

dụng trong các hệ thống là
o Modus Ponens
A, A → B
B

Nghĩa là nếu A đúng, A suy ra B thì B cũng đúng
o Modus Tollens
− B, A → B
−A

Nghĩa là nếu B sai, A suy ra B thì A cũng sai
c) Tri thức điều khiển :

Dùng để điều khiển, phối hợp các nguồn tri thức thủ tục và tri thức mô
tả khác nhau.
3. Các cấp độ tri thức
a) Tri thức động phụ thuộc vào tình huống không gian và thời gian :
Các tri thức mô tả, tri thức thủ tục, tri thức điều khiển không phụ thuộc
vào yếu tố không gian, thời gian được gọi là tri thức tĩnh. Các tri thức loại này
tạo nên phần lõi trong các cơ cấu trí thức. Nguồn các cơ cấu trí thức này thường


phát sinh từ các tài liệu chuyên môn các nguyên lý chung của khoa học. Ví dụ :
“Nếu một đường thẳng vuông góc với một trong hai đường thẳng song song thì
nó vuông góc với đường thẳng còn lại”.

Tuy vậy, có những tri thức lại phụ thuộc vào yếu tố lịch sử,thông qua
các tham số thời gian và không gian có thể xuất hiện tường minh hoặc không
tường minh trong các phát biểu. Chẳng hạn, phát biểu : “Việt Nam không phải
là thành viên của tổ chức WTO” chỉ đúng ở thời điểm trước năm 2008, còn hiện
nay Việt Nam đã gia nhập tổ chức WTO. Chính yếu tố đó, mà quá trình suy diễn
trong các cơ sở tri thức được phụ thuộc không gian, thời gian có thể giao hoán
hay không giao hoán bộ phận, đơn điệu hay không đơn điệu.
b) Tri thức bất định, tri thức không đầy đủ :
Trong nhiều trường hợp các tri thức có thể đúng hoặc sai. Tuy vậy trong
thực tế ta gặp phải các phát biểu không phải lúc nào cũng xác định được chúng
đúng hay sai. Ví dụ : “Trời có thể mưa”, trong trường hợp này không thể quyết
định 100% là trời mưa hay không mưa ; Các tri thức không chính xác là các
mệnh đề phát biểu mà giá trị chân lý của chúng không thể chỉ ra một cách chính
xác, tương ứng với thang đo quy ước. Ví dụ : “Anh ta cao khoảng 1m70”.
Cũng có thể xuất hiện các tri thức không đầy đủ trong các phát biểu, các
mô tả. Ví dụ : “Thông thường nếu anh ta đi thì nói chung chị ấy cũng đi” , đây
là phát biểu bất định, song chỉ có tác dụng nếu biết được một chút về sự kiện
“anh ta có đến hay không”.
Nói chung, các tri thức bất định, không chính xác và không đầy đủ xuất
hiện là do trong các phát biểu, người ta sử dụng các yếu tố ngôn ngữ không rõ
ràng, như : có thể, có lẽ, khoảng, nói chung…Một trong những cách tiếp cận để
xử lý các loại tri thức trên là sử dụng cách tiếp cận lý thuyết mờ. Các lý thuyết
lập luận xấp xỉ đã và đang được quan tâm, nghiên cứu rất nhiều.
4. Giải thuật quy nạp cây quyết định ID3
a. Giới thiệu


Giải thuật quy nạp cây ID3 (gọi tắt là ID3) là một giải thuật học đơn giản nhưng
tỏ ra thành công trong nhiều lĩnh vực. ID3 là một giải thuật hay vì cách biểu
diễn tri thức học được của nó, tiếp cận của nó trong việc quản lý tính phức tạp,

heuristic của nó dùng cho việc chọn lựa các khái niệm ứng viên, và tiềm năng
của nó đối với việc xử lý dữ liệu nhiễu.
ID3 biểu diễn các khái niệm (concept) ở dạng các cây quyết định (decision tree).
Biểu diễn này cho phép chúng ta xác định phân loại của một đối tượng bằng
cách kiểm tra các giá trị của nó trên một số thuộc tính nào đó.
Như vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các ví dụ
rèn luyện (training example) hay còn gọi là dữ liệu rèn luyện (training data).
Hay nói khác hơn, giải thuật có:


Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính mô tả
một tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó.



Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong
tập dữ liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp
trong tương lai.
Ví dụ, chúng ta hãy xét bài toán phân loại xem ta ‘có đi chơi tennis’ ứng với
thời tiết nào đó không. Giải thuật ID3 sẽ học cây quyết định từ tập hợp các ví dụ
sau:


Hình 4.1
Tập dữ liệu này bao gồm 14 ví dụ. Mỗi ví dụ biểu diễn cho tình trạng thời tiết
gồm các thuộc tính quang cảnh, nhiệt độ, độ ẩm và gió; và đều có một thuộc
tính phân loại ‘chơi Tennis’ (có, không). ‘Không’ nghĩa là không đi chơi tennis
ứng với thời tiết đó, ‘Có’ nghĩa là ngược lại. Giá trị phân loại ở đây chỉ có hai
loại (có, không), hay còn ta nói phân loại của tập ví dụ của khái niệm này thành
hai lớp (classes). Thuộc tính ‘Chơi tennis’ còn được gọi là thuộc tính đích

(target attribute).
Mỗi thuộc tính đều có một tập các giá trị hữu hạn. Thuộc tính quang cảnh có ba
giá trị (âm u, mưa, nắng), nhiệt độ có ba giá trị (nóng, mát, ấm áp), độ ẩm có hai
giá trị (cao, TB) và gió có hai giá trị (mạnh, nhẹ). Các giá trị này chính là ký
hiệu (symbol) dùng để biểu diễn bài toán.
Từ tập dữ liệu rèn luyện này, giải thuật ID3 sẽ học một cây quyết định có khả
năng phân loại đúng đắn các ví dụ trong tập này, đồng thời hy vọng trong tương
lai, nó cũng sẽ phân loại đúng các ví dụ không nằm trong tập này.
Các nút trong cây quyết định biểu diễn cho một sự kiểm tra trên một thuộc tính
nào đó, mỗi giá trị có thể có của thuộc tính đó tương ứng với một nhánh của
cây. Các nút lá thể hiện sự phân loại của các ví dụ thuộc nhánh đó, hay chính là
giá trị của thuộc tính phân loại.


Sau khi giải thuật đã quy nạp được cây quyết định, thì cây này sẽ được sử dụng
để phân loại tất cả các ví dụ hay thể hiện (instance) trong tương lai. Và cây
quyết định sẽ không thay đổi cho đến khi ta cho thực hiện lại giải thuật ID3 trên
một tập dữ liệu rèn luyện khác.
Ứng với một tập dữ liệu rèn luyện sẽ có nhiều cây quyết định có thể phân loại
đúng tất cả các ví dụ trong tập dữ liệu rèn luyện. Kích cỡ của các cây quyết định
khác nhau tùy thuộc vào thứ tự của các kiểm tra trên thuộc tính.
Vậy làm sao để học được cây quyết định có thể phân loại đúng tất cả các ví dụ
trong tập rèn luyện? Một cách tiếp cận đơn giản là học thuộc lòng tất cả các ví
dụ bằng cách xây dựng một cây mà có một lá cho mỗi ví dụ. Với cách tiếp cận
này thì có thể cây quyết định sẽ không phân loại đúng cho các ví dụ chưa gặp
trong tương lai. Vì phương pháp này cũng giống như hình thức ‘học vẹt’, mà
cây không hề học được một khái quát nào của khái niệm cần học. Vậy, ta nên
học một cây quyết định như thế nào là tốt?
Occam’s razor và một số lập luận khác đều cho rằng ‘giả thuyết có khả năng
nhất là giả thuyết đơn giản nhất thống nhất với tất cả các quan sát’, ta nên luôn

luôn chấp nhận những câu trả lời đơn giản nhất đáp ứng một cách đúng đắn dữ
liệu của chúng ta. Trong trường hợp này là các giải thuật học cố gắng tạo ra cây
quyết định nhỏ nhất phân loại một cách đúng đắn tất cả các ví dụ đã cho. Trong
phần kế tiếp, chúng ta sẽ đi vào giải thuật ID3, là một giải thuật quy nạp cây
quyết định đơn giản thỏa mãn các vấn đề vừa nêu.
b. Giải thuật ID3 xây dựng cây quyết định từ trên–xuống
ID3 xây dựng cây quyết định (cây QĐ) theo cách từ trên xuống. Lưu ý rằng đối
với bất kỳ thuộc tính nào, chúng ta cũng có thể phân vùng tập hợp các ví dụ rèn
luyện thành những tập con tách rời, mà ở đó mọi ví dụ trong một phân vùng
(partition) có một giá trị chung cho thuộc tính đó. ID3 chọn một thuộc tính để
kiểm tra tại nút hiện tại của cây và dùng trắc nghiệm này để phân vùng tập hợp
các ví dụ; thuật toán khi đó xây dựng theo cách đệ quy một cây con cho từng
phân vùng. Việc này tiếp tục cho đến khi mọi thành viên của phân vùng đều
nằm trong cùng một lớp; lớp đó trở thành nút lá của cây.
Vì thứ tự của các trắc nghiệm là rất quan trọng đối với việc xây dựng một cây
QĐ đơn giản, ID3 phụ thuộc rất nhiều vào tiêu chuẩn chọn lựa trắc nghiệm để
làm gốc của cây. Để đơn giản, phần này chỉ mô tả giải thuật dùng để xây dựng
cây QĐ, với việc giả định một hàm chọn trắc nghiệm thích hợp. Phần kế tiếp sẽ
trình bày heuristic chọn lựa của ID3.
Ví dụ, hãy xem xét cách xây dựng cây QĐ của ID3 trong hình sau từ tập ví dụ
rèn luyện trong hình 4.1 ở trên:


×