Tải bản đầy đủ (.pdf) (83 trang)

Ra quyết định với thông tin không chắc chắn bằng việc ứng dụng cây quyết định

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.03 MB, 83 trang )




ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ





VŨ THỊ PHƯƠNG THẢO




RA QUYẾT ĐỊNH VỚI THÔNG TIN KHÔNG CHẮC CHẮN BẰNG VIỆC ỨNG
DỤNG CÂY QUYẾT ĐỊNH








LUẬN VĂN THẠC SĨ











Hà Nội - 2011

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ





VŨ THỊ PHƯƠNG THẢO




RA QUYẾT ĐỊNH VỚI THÔNG TIN KHÔNG CHẮC CHẮN BẰNG
VIỆC ỨNG DỤNG CÂY QUYẾT ĐỊNH




Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05




LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐỖ VĂN THÀNH











Hà Nội - 2011

3
MỤC LỤC
MỞ ĐẦU 6
CHƯƠNG 1: TỔNG QUAN VỀ MÔ HÌNH CÂY QUYẾT ĐỊNH VÀ
THÔNG TIN KHÔNG CHẮC CHẮN 9
1.1 Tổng quan về mô hình cây quyết định 9
1.1.1 Giới thiệu cây quyết định 9
1.1.2 Các kiểu cây quyết định 12
1.1.3 Ưu điểm của cây quyết định 13
1.1.4 Nhược điểm của cây quyết định 13
1.1.5 Ứng dụng của cây quyết định 14
1.1.6 Xây dựng và ứng dụng cây quyết định 15
1.2 Tổng quan về thông tin không chắc chắn 22
1.2.1 Khái niệm 22

1.2.2 Phân loại sự không chắc chắn 23
1.2.3 Ứng dụng thông tin không chắc chắn 23
1.2.4 Đo lường không chắc chắn 24
1.2.5 Biểu diễn thông tin không chắc chắn 25
1.3 Kết luận chương 1. 33
CHƯƠNG 2
CÔNG CỤ HỖ TRỢ XÂY DỰNG MÔ HÌNH CÂY QUYẾT ĐỊNH VÀ KẾ
HOẠCH SẢN XUẤT KINH DOANH DOANH NGHIỆP 35
2.1 Ra quyết định với thông tin không chắc chắn bằng ứng dụng mô hình
cây quyết định 35
2.1.1 Khái niệm về ra quyết định 35
2.1.2 Phân loại quyết định 35
2.1.3 Ra quyết định trong quản lý 36
2.1.4 Quá trình ra quyết định của nhà quản trị doanh nghiệ p 38
2.1.5 Ra quyết định trong điều kiện không chắc chắn 39
2.2 Công cụ hỗ trợ xây dựng mô hình cây quyết định 41
2.2.1 Giới thiệu PrecisionTree 41
2.3 Kế hoạch phát triển sản xuất, kinh doanh của doanh nghiệp 44
2.3.1. Khái niệm về kế hoạch sản xuất kinh doanh 44
2.3.2 Lợi ích của việc lập kế hoạch sản xuất kinh doanh 45
2.3.3 Quy trình của việc lập kế hoạch sản xuất kinh doanh: 46
2.3.4 Phân loại hoạt động lập kế hoạch 48
2.3.5 Các yếu tố tác động đến hoạt động lập kế hoạch 50

2
2.4 Một số nội dung chủ yếu cần ra quyết định khi lập kế hoạch phát triển
sản xuất, kinh doanh của doanh nghiệp 53
2.4.1 Căn cứ vào kết quả điều tra nghiên cứu thị trường 54
2.4.2 Căn cứ vào kết quả phân tích và dự báo về tình hình sản xuất kinh
doanh, về khả năng nguồn lực có thể khai thác. 54

2.4.3 Căn cứ vào chủ trương, đường lối, chính sách phát triển kinh tế xã hội
của Đảng và Nhà nước 54
2.5 Kết luận chương 2 54
CHƯƠNG 3
RA QUYẾT ĐỊNH VỚI THÔNG TIN KHÔNG CHẮC CHẮN TRONG LẬP KẾ
HOẠCH SẢN XUẤT KINH DOANH DOANH NGHIỆP 56
3.1 Lược sử vấn đề nghiên cứu 56
3.2. Xác định vấn đề nghiên cứu 57
3.3. Dữ liệu phục vụ lập kế hoạch sản xuất kinh doanh của doanh nghiệp 58
3.3.1 Dữ liệu phục vụ lập kế hoạch sản xuất kinh doanh: 58
3.3.2 Đánh giá về kế hoạch sản xuất kinh doanh hiện nay của công ty 58
3.4. Ứng dụng mô hình cây quyết định trong công tác lập kế hoạch sản xuất
kinh doanh 63
3.3.1 Ứng dụng mô hình cây quyết định trong việc ra quyết định với thông
tin không chắc chắn 63
3.5. So sánh với cây quyết định khác 72
3.6 Kết luận chương 3 75
KẾT LUẬN 76
TÀI LIỆU THAM KHẢO 77



4
DANH MỤC HÌNH
Hình 1: Cây quyết định cho bài toán 10
Hình 2: Hàm Entropy của Shanon 11
Hình 3: Cây quyết định hỗ trợ ra quyết định 11
Hình 4: Phân loại tƣ duy của sự không chắc chắn 23.
Hình 5: Giá đỡ, nhân và biên của tập mờ 33
Hình 6: Cây quyết định cho bài toán ra quyết định trong điều kiện không

chắc chắn 40
Hình 7: Giới thiệu về thanh công cụ của PrecisionTree 41
Hình 8: Khởi tạo cây quyết định bằng PrecisionTree 42
Hình 9: Thiết lập nút trên cây quyết định bằng PrecisionTree 42
Hình 10: Thiết lập giá trị cho nút trên cây quyết định bằng PrecisionTree 43
Hình 11: Kết quả mô hình cây quyết định cho bài toán 1 63
Hình 12: Thao tác thực hiện xây dựng cây quyết định cho bài toán 2 66
Hình13: Kết quả mô hình cây quyết định cho bài toán 2 67
Hình 14: Kết quả mô hình cây quyết định cho bài toán 3 70

5

DANH MỤC BẢNG
Bảng 1: Các tình huống ƣớc lƣợng lợi nhuận 39
Bảng 2: Chỉ tiêu chính thức năm 2006 58
Bảng 3: Số liệu chi phí phát triển sản phẩm trên thị trƣờng thử nghiệm 62
Bảng 4: Dữ liệu bài toán 2 65
Bảng 5: Dữ liệu bài toán 3 69
Bảng 6: Kế hoạch sản xuất cho một sản phẩm tại xí nghiệp 1 71


6
MỞ ĐẦU
Lập kế hoạch phát triển sản xuất kinh doanh là một trong những hoạt động rất
quan trọng của doanh nghiệp. Thực tiễn cho thấy trong bối cảnh hoạt động của nền
kinh tế thị trƣờng có sự hội nhập kinh tế toàn cầu ngày càng sâu rộng, cạnh tranh ngày
càng sâu sắc nhƣ ở nƣớc ta hiện nay thì việc lập kế hoạch sản xuất kinh doanh doanh
nghiệp càng trở lên quan trọng và trở thành yếu tố có ý nghĩa quyết định đến sự thành
công hay thất bại của doanh nghiệp.
Để nâng cao chất lƣợng kế hoạch sản xuất kinh doanh doanh nghiệp điều quan

trọng là doanh nghiệp cần nắm bắt đầy đủ, kịp thời và xử lý, khai thác có hiệu quả các
thông tin liên quan đến hoạt động sản xuất kinh doanh của doanh nghiệp, đến thị
trƣờng tiêu thụ sản phẩm hàng hoá và dịch vụ do doanh nghiệp tạo ra.
Quá trình toàn cầu hoá và thông tin hoá diễn ra mạnh mẽ đã làm công tác lập kế
hoạch phát triển sản xuất kinh doanh doanh nghiệp ngày càng phức tạp. Trong quá
trình lập kế hoạch, các doanh nghiệp phải xử lý một số lƣợng rất lớn thông tin, trong
số đó có nhiều thông tin đƣợc biết không chắc chắn, để rút ra những tri thức mới và ra
quyết định từ những tri thức này. Nhƣ vậy ngày càng có nhiều thông tin với tốc độ
thay đổi rất nhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang
tính chất định tính cần phải trả lời dựa trên một khối lƣợng dữ liệu khổng lồ đã có, đặc
biệt trong đó có nhiều dữ liệu không chắc chắn.
Các phƣơng pháp quản trị và khai thác, phân tích dữ liệu truyền thống đã không
đáp ứng đƣợc thực tế bùng nổ của thông tin và dữ liệu, đòi hỏi phải có phƣơng pháp,
kỹ thuật mới để tổng hợp, lƣu trữ, xử lý và khai thác thông tin, dữ liệu. Lĩnh vực phát
hiện tri thức từ các cơ sở dữ liệu đã đƣợc hình thành, trong đó khai phá dữ liệu (data
mining) đƣợc xem là trung tâm của lĩnh vực nghiên cứu và ứng dụng này.
Hiện tại, ngƣời ta đã xây dựng đƣợc khá nhiều kỹ thuật khai phá dữ liệu nhƣ
phân cụm phân lớp dữ liệu, mạng nơtron, giải thuật di truyền, luật kết hợp, mạng
Bayes, Trong các kỹ thuật này cây quyết định đƣợc coi là công cụ mạnh và phổ biến
nhất, nó đặc biệt thích hợp cho những vấn đề khai phá dữ liệu nhằm hỗ trợ quá trình ra
quyết định.
Cây quyết định thực chất là công cụ hỗ trợ quyết định, có thể biểu diễn dữ liệu
phức tạp theo một cấu trúc đơn giản hơn rất nhiều dƣới dạng cây. Cây quyết định cũng
có thể đƣợc sử dụng để xử lý thông tin không chắc chắn.
Luận văn này nằm trong hƣớng khảo cứu, ứng dụng cây quyết định trong việc
xử lý thông tin không chắc chắn nhằm rút ra tri thức mới, phục vụ ra quyết định trong
quá trình lập kế hoạch phát triển sản xuất kinh doanh của doanh nghiệp.
Không kể các phần mở đầu, kết luận, mục lục, danh mục bảng, hình và tài liệu
tham khảo, luận văn gồm 3 chƣơng nội dung chính, trong đó:


7
Chƣơng 1: Tổng quan về mô hình cây quyết định và thông tin không chắc chắn
sẽ giới thiệu một số khái niệm và vấn đề chung nhất về những vấn đề này. Cụ thể
Chƣơng I sẽ giới thiệu khái niệm về cây quyết định, phân loại cây quyết định, ƣu
nhƣợc điểm của cây quyết định trong việc giải quyết bài toán về phân loại, ra quyết
định và phƣơng pháp xây dựng cây quyết định. Chƣơng 1 cũng giới thiệu khái niệm,
phân loại, cách biểu diễn và ứng dụng của thông tin không chắc chắn. Đó là những
kiến thức cơ bản nhất, làm cơ sở để tìm khảo cứu và ứng dụng mô hình cây quyết định
trong việc xử lý thông tin không chắc chắn nhằm hỗ trợ quá trình lập kế hoạch phát
triển sản xuất kinh doanh doanh nghiệp ở các chƣơng tiếp sau.
Chƣơng 2: Công cụ hỗ trợ xây dựng mô hình cây quyết định và lập kế hoạch
sản xuất kinh doanh doanh nghiệp sẽ trình bầy tóm lƣợc nội dung và quá trình ra quyết
định với thông tin không chắc chắn; giới thiệu PrecisionTree 5.7, là công cụ đƣợc luận
văn sử dụng để xây dựng cây quyết định nhằm xử lý thông tin không chắc chắn, hỗ trợ
quá trình ra quyết định trong việc lập kế hoạch. Chƣơng này cũng trình bày khái niệm,
lợi ích, quy trình, phân loại các hoạt động lập kế hoạch, các yếu tố chính tác động đến
hoạt động lập kế hoạch và một số nội dung chủ yếu cần đƣợc ra quyết định trong quá
trình lập kế hoạch sản xuất kinh doanh của doanh nghiệp.
Nhƣ đã biết, công việc của các nhà lập kế hoạch trƣớc hết phải đánh giá đƣợc
tính chất và mức độ không chắc chắn của môi trƣờng kinh doanh để xác định giải pháp
phản ứng của doanh nghiệp, xây dựng và triển khai các kế hoạch thích hợp. Luận văn
khảo cứu quá trình lập kế hoạch sản xuất kinh doanh doanh nghiệp và đề xuất ứng
dụng mô hình cây quyết định trong quá trình đó.
Chƣơng 3: Ra quyết định với thông tin không chắc chắn trong lập kế hoạch sản
xuất kinh doanh của doanh nghiệp sẽ trình bầy việc ứng dụng mô hình cây quyết định
trong lập kế hoạch sản xuất kinh doanh dựa trên tập dữ liệu giả định và trên tập dữ liệu
thực tế đƣợc thu thập từ Công ty cổ phần May Thăng Long.


8


9
CHƢƠNG 1: TỔNG QUAN VỀ MÔ HÌNH CÂY QUYẾT ĐỊNH VÀ
THÔNG TIN KHÔNG CHẮC CHẮN
Chƣơng này giới thiệu tổng quan về mô hình cây quyết định và thông tin không
chắc chắn. Luận văn trƣớc hết trình bày lý thuyết chung nhất về cây quyết định nhƣ
giới thiệu cây quyết định, phân loại, xây dựng và ứng dụng của cây quyết định. Sau đó
trình bày về thông tin không chắc chắn, gồm khái niệm cơ bản, các cách biểu diễn
thông tin không chắc chắn với lý thuyết xác suất, định lý Bayes, lý thuyết về yếu tố
chắc chắn Standford và tập mờ.
1.1 Tổng quan về mô hình cây quyết định
1.1.1 Giới thiệu cây quyết định
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive
model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tƣợng tới các kết luận
về giá trị mục tiêu của sự vật/hiện tƣợng
[3,12]
. Mỗi một nút trong (internal nút) tƣơng
ứng với một biến; đƣờng nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho
biến đó. Mỗi nút lá đại diện cho giá trị dự báo của biến mục tiêu, cho trƣớc các giá trị
của các biến đƣợc biểu diễn bởi đƣờng đi từ nút gốc tới nút lá đó. Kỹ thuật học máy
dùng trong cây quyết định đƣợc gọi là học bằng cây quyết định, hay chỉ gọi với cái tên
ngắn gọn là cây quyết định.
Học bằng cây quyết định là phƣơng pháp thông dụng trong khai phá dữ liệu.
Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân
loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây
quyết định có thể đƣợc học bằng cách chia tập hợp nguồn thành các tập con dựa theo
một kiểm tra giá trị thuộc tính. Quá trình này đƣợc lặp lại một cách đệ qui cho mỗi tập
con dẫn xuất. Quá trình đệ qui hoàn thành khi không thể tiếp tục thực hiện việc chia
tách đƣợc nữa, hay khi một phân loại đơn có thể áp dụng cho từng phần tử của tập con
dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random forest) sử dụng một số cây quyết

định để có thể cải thiện tỉ lệ phân loại
[12]
.
Hình 1 dƣới đây thể hiện mô hình cây quyết định có cấu trúc dạng cây ở đó:
- nút lá đƣợc gán nhãn tƣơng ứng với lớp của dữ liệu,
- nút trong đƣợc tích hợp với điều kiện kiểm tra để rẽ nhánh.




10

Hình 1: Cây quyết định cho tập dữ liệu weather
Mô hình cây quyết định trong hình 1 đƣợc xây dựng từ việc học trên tập dữ liệu
weather
[3, 12]
để dự báo chơi hay không chơi golf (yes hay no) dựa trên các thuộc tính
outlook, temperature, humidity và windy. Mô hình rất dễ hiểu bởi vì ta có thể rút trích
luật quyết định tƣơng ứng với nút lá có dạng IF-THEN đƣợc tạo ra từ việc thực hiện
AND trên các điều kiện theo đƣờng dẫn từ nút gốc đến nút lá. Các luật quyết định dễ
hiểu với ngƣời sử dụng.
Giải thuật học cây quyết định gồm 2 bƣớc lớn: xây dựng cây (Top-down), cắt
nhánh (Bottom-up) để tránh học vẹt. Quá trình xây dựng cây đƣợc làm nhƣ sau:
- Bắt đầu nút gốc, tất cả các dữ liệu học ở nút gốc,
- Nếu dữ liệu tại 1 nút có cùng lớp thì nút đƣợc cho là nút lá, nhãn của nút lá là
nhãn của các phần tử trong nút lá (hay luật bình chọn số đông nếu nút lá có chứa các
phần tử có lớp khác nhau),
- Nếu dữ liệu ở nút quá hỗn loạn (các phần tử có lớp rất khác nhau) thì nút đƣợc
cho là nút trong, tiến hành phân hoạch dữ liệu một cách đệ quy bằng việc chọn 1 thuộc
tính để thực hiện phân hoạch tốt nhất có thể.

Quá trình xây dựng cây chủ yếu phụ thuộc vào việc chọn thuộc tính tốt nhất để
phân hoạch dữ liệu. Chọn thuộc tính phân hoạch tốt theo nghĩa, cho ra kết quả là cây
nhỏ nhất. Việc lựa chọn này dựa vào các heuristics: chọn thuộc tính sinh ra các nút
thuần khiết nhất.
Giải thuật học cây quyết định tiêu biểu C4.5 của Quinlan
[12]
sử dụng entropy của
Shannon để đánh giá sự hỗn loạn thông tin. Theo nhƣ hình 2, độ hỗn loạn đạt cực đại
khi phân phối xác suất của lớp bằng nhau (bài toán 2 lớp, thì giá trị 0.5). Nhƣng nếu tỉ
lệ dữ liệu đã biết là lệch nhau, chẳng hạn ta có 10% là lớp dƣơng (pos) và 90% là lớp
âm (neg), thì tại một nút khi phân hoạch, độ hỗn loạn nên đạt cực đại khi biết xác suất
của lớp dƣơng là 0.1 chứ không phải là 0.5. Đây là yếu điểm của việc dùng hàm
entropy khi xử lý dữ liệu không cân bằng về lớp, trong khi thực tế, dữ liệu thƣờng mất
cân bằng. Vì lý do đó những

11







Hình 2: Hàm entropy của Shannon
năm gần đây ngƣời ta tập trung nghiên cứu đề xuất thay thế hàm phân hoạch cây quyết
định entropy bằng bằng hàm khoảng cách Kolmogorov-Smirnov để xử lý tốt hơn cho
dữ liệu không cân bằng
[10-11]
.
Có thể nói cây quyết định đƣợc mô tả nhƣ là sự kết hợp của các kỹ thuật toán

học và tính toán nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một tập dữ liệu
cho trƣớc. Cây quyết định giúp biến một biểu diễn dữ liệu phức tạp thành một cấu trúc
đơn giản hơn rất nhiều. Các cây quyết định thƣờng đƣợc sử dụng trong hoạt động
nghiên cứu và ứng dụng nhƣ trong phân tích quyết định, giúp xác định một chiến lƣợc
có khả năng đạt đƣợc một mục tiêu hay không,
Mô hình cây quyết định hỗ trợ quá trình ra quyết định là mô hình cây quyết định
ở đó có phƣơng tiện để tính toán xác suất có điều kiện và/hoặc mô tả việc thực hiện ra
quyết định
[14]
.
Ví dụ, một tổ chức tín dụng xác định đối tƣợng khách hàng cho vay nhƣ sau:
Nếu khách hàng có dƣ nợ tại tổ chức lớn hơn hoặc bằng một giá trị nào đó (n) theo quy
định thì không cho vay, trong trƣờng hợp ngƣợc lại, nếu khách hàng có thu có khả
năng trả nợ thì mới cho vay.
Cây quyết định có thể đƣợc tạo ra nhƣ sau:

Hình 3: Cây quyết định hỗ trợ ra quyết định


12
Trong cây này:
- Gốc: là nút trên cùng của cây, từ đó sinh ra các nhánh.
- Nút trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình tròn).
- Nhánh: biểu diễn các kết quả của kiểm tra trên nút trong (cạnh).
- Nút lá: biểu diễn lớp hay sự phân phối lớp (hình tam giác).
Để ra quyết định với mẫu dữ liệu thu đƣợc, giá trị các thuộc tính của mẫu đƣợc
đƣa vào kiểm tra trên cây quyết định. Mỗi mẫu tƣơng ứng có một đƣờng đi từ gốc đến
lá và biểu diễn dự báo giá trị để có quyết định cuối cùng cho dữ liệu mẫu.
1.1.2 Các kiểu cây quyết định
Theo tiêu chí phân loại dựa vào giá trị thuộc tính của cây, cây quyết định đƣợc

chia thành 2 loại chính:
1.1.2.1 Cây hồi quy: ƣớc lƣợng các hàm giá có giá trị là số thực thay vì đƣợc sử
dụng cho các nhiệm vụ phân loại.
Giá trị thuộc tính liên tục A cần đƣợc rời rạc hóa trong cây quyết định. Với các
cách tiếp cận thông thƣờng: ta coi thuộc tính chỉ có một cách rời rạc trong khoảng [ -
∞,t] , [t,+∞] . Cần lựa chọn ngƣỡng t: để với mỗi trƣờng hợp của t tính toán độ tăng
thông tin của A do sự rời rạc của t. Chọn t với độ tăng thông tin lớn nhất (t có thể biến
đổi với các trƣờng hợp của A trên cây). Các giá trị của t đƣợc xem xét: giá trị của A
trong một số trƣờng hợp của dữ liệu
[3,8].

Nói cách khác với thuộc tính liên tục (thuộc tính dạng số) thì tập giá trị là
không xác định trƣớc. Chính vì vậy, trong quá trình phát triển cây, cần sử dụng kiểm
tra dạng nhị phân: value(A) ≤ θ. Với θ là hằng số ngưỡng đƣợc lần lƣợt xác định dựa
trên từng giá trị riêng biệt hay từng cặp giá trị liền nhau (theo thứ tự đã sắp xếp) của
thuộc tính liên tục đang xem xét trong tập dữ liệu
[8].

1.1.2.2 Cây phân loại
Nếu biến phụ thuộc nhận giá trị phân loại, tức giá trị biểu trƣng (symbol) đƣợc
sắp thứ tự. Chẳng hạn nhƣ: giới tính (nam hay nữ), kết quả của một trận đấu (thắng
hay thua), trình độ học lực (xuất sắc, giỏi, khá, trung bình, yếu) Khi đó các thuộc
tính có giá trị rời rạc
[3, 12].

Một cây quyết định phân loại là một mô hình phân loại (bộ phân loại) cho một
biến lớp T khi biết các thuộc tính A. Để phân lớp mẫu dữ liệu chƣa biết, giá trị các
thuộc tính của mẫu đƣợc đƣa vào kiểm tra trên cây quyết định. Mỗi mẫu tƣơng ứng có
một đƣờng đi từ gốc đến lá và lá biểu diễn dự báo giá trị phân lớp mẫu đó.
Ngoài hai loại trên, một cây quyết định có thể đƣợc thể hiện gọn nhƣ một sơ đồ

ảnh hƣởng, tập trung sự chú ý vào các vấn đề và mối quan hệ giữa các sự kiện.

13
1.1.3 Ƣu điểm của cây quyết định
So với các phƣơng pháp khai phá dữ liệu khác, cây quyết định là phƣơng pháp
có một số ƣu điểm chính sau:
- Cây quyết định dễ hiểu. Ngƣời ta có thể hiểu mô hình cây quyết định sau khi
đƣợc giải thích ngắn.
- Việc chuẩn bị dữ liệu cho một cây quyết định là đơn giản hoặc không cần
thiết, trong khi các kỹ thuật khác thƣờng đòi hỏi phải chuẩn hóa dữ liệu, tạo thêm các
biến giả và loại bỏ các giá trị khuyết thiếu.
- Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và dữ liệu có giá trị là
tên thể loại (giá trị phân loại). Các kỹ thuật khác thƣờng chuyên để phân tích các bộ dữ
liệu chỉ gồm một loại biến. Chẳng hạn, các luật quan hệ chỉ có thể dùng cho các biến
tên, trong khi mạng nơ-ron chỉ có thể dùng cho các biến có giá trị bằng số.
- Cây quyết định là một mô hình hộp trắng. Nếu có thể quan sát một tình huống
cho trƣớc trong một mô hình, thì có thể dễ dàng giải thích điều kiện đó bằng logic
Boolean. Mạng nơ-ron là một ví dụ về mô hình hộp đen, do lời giải thích cho kết quả
quá phức tạp để có thể hiểu đƣợc.
- Có thể thẩm định mô hình cây quyết định bằng các kiểm tra thống kê. Điều
này làm cho ta có thể tin tƣởng vào mô hình.
- Cây quyết định có thể xử lý tốt một lƣợng dữ liệu lớn trong thời gian ngắn. Có
thể dùng máy tính cá nhân để phân tích các lƣợng dữ liệu lớn trong một thời gian đủ
ngắn để cho phép các nhà chiến lƣợc đƣa ra quyết định dựa trên phân tích cây quyết
định
[3-12]
.
1.1.4 Nhƣợc điểm của cây quyết định
Cây quyết định khó giải quyết đƣợc những vấn đề có dữ liệu phụ thuộc thời
gian liên tục, không thích hợp lắm với những bài toán với mục tiêu là dự báo giá trị

của các thuộc tính nhƣ lãi suất ngân hàng, tín dụng, ….
[3]
* Dễ xẩy ra lỗi khi có quá nhiều lớp
Một số cây quyết định chỉ thao tác với những lớp giá trị nhị phân dạng đúng/sai
hay chấp nhận/từ chối. Số khác lại có thể chỉ định các bản ghi vào một số lớp bất kỳ,
nhƣng dễ xảy ra lỗi khi số mẫu dùng để xây dựng mô hình ứng với một lớp là nhỏ.
Điều này xẩy ra càng thƣờng xuyên hơn với những cây có nhiều tầng hay có nhiều
nhánh trên một nút.
* Chi phí tính toán để xây dựng mô hình cây quyết định cao:
Quá trình phát triển cây quyết định đắt về mặt tính toán. Vì cây quyết định có
rất nhiều nút trong trƣớc khi đi đến lá cuối cùng. Tại từng nút, cần tính một độ đo (hay
tiêu chuẩn phân chia) trên từng thuộc tính, với thuộc tính liên tục phải thêm thao tác

14
xắp xếp lại tập dữ liệu theo thứ tự giá trị của thuộc tính đó. Sau đó mới có thể chọn
đƣợc một thuộc tính phát triển và tƣơng ứng là một phân chia tốt nhất. Một vài thuật
toán sử dụng tổ hợp có trọng số các thuộc tính kết hợp với nhau để phát triển cây quyết
định. Quá trình cắt cụt cây cũng “đắt” vì nhiều cây con ứng cử viên phải đƣợc tạo ra
và so sánh.
1.1.5 Ứng dụng của cây quyết định
Một trong những ứng dụng của cây quyết định là đƣợc sử dụng để phân lớp dữ
liệu. Tuy có nhiều kỹ thuật phân lớp khác đã đƣợc đề xuất nhƣ: phân lớp Bayes, phân
lớp K - hàng xóm gần nhất, mạng nơron, phân tích thống kê,…, nhƣng phân lớp cây
quyết định vẫn đƣợc coi là công cụ mạnh, phổ biến và đặc biệt thích hợp cho khai phá
dữ liệu
[4].

1.1.5.1 Sử dụng để phân lớp dữ liệu
Để phân lớp mẫu dữ liệu chƣa biết, giá trị các thuộc tính của mẫu đƣợc đƣa vào
kiểm tra trên cây quyết định. Mỗi mẫu tƣơng ứng có một đƣờng đi từ gốc đến lá và lá

biểu diễn dự báo giá trị phân lớp mẫu đó.
Cây quyết định có khả năng sinh ra các quy tắc có thể chuyển đổi đƣợc sang
các luật suy diễn, hoặc các câu lệnh SQL.
Thậm chí với những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn và
phức tạp, việc đi theo bất cứ đƣờng nào trên cây là dễ dàng theo nghĩa phổ biến và rõ
ràng. Do vậy sự giải thích cho bất cứ một sự phân lớp hay dự báo nào đều tƣơng đối
minh bạch.
Cây quyết định dễ dàng tính toán trong khi phân lớp. Mặc dù cây quyết định có
thể chứa nhiều định dạng, nhƣng trong thực tế, các thuật toán sử dụng để tạo ra cây
quyết định thƣờng tạo ra những cây với số phân nhánh thấp và các kiểm thử đơn giản
tại từng nút. Những kiểm thử điển hình là: so sánh số, xem xét phần tử của một tập
hợp, và các phép kết nối đơn giản. Khi thực thi trên máy tính, những kiểm thử này
chuyển thành các phép toán trên các hàm logic và số nguyên, là những toán hạng thực
thi nhanh và không đắt. Đây là một ƣu điểm quan trọng bởi trong môi trƣờng thƣơng
mại, các mô hình dự báo thƣờng đƣợc sử dụng để phân lớp hàng triệu thậm trí hàng tỉ
bản ghi.
Cây quyết định xử lý “tốt” nhƣ nhau với thuộc tính liên tục và thuộc tính rời
rạc. Tuy rằng với thuộc tính liên tục cần nhiều tài nguyên tính toán hơn. Những thuộc
tính rời rạc đã từng gây ra vấn đề với mạng nơtron và các kỹ thuật thống kê lại thực sự
dễ dàng thao tác với các tiêu chuẩn phân chia trên cây quyết định: mỗi nhánh tƣơng
ứng với từng phân tách tập dữ liệu theo giá trị của thuộc tính đƣợc chọn để phát triển
tại nút đó. Các thuộc tính liên tục cũng dễ dàng phân chia bằng việc chọn ra một số gọi
là ngƣỡng trong tập các giá trị đã sắp xếp của mỗi thuộc tính này. Sau khi chọn đƣợc
ngƣỡng tốt nhất, tập dữ liệu phân chia theo kiểm thử nhị phân của các ngƣỡng này.

15
Cây quyết định thể hiện rõ ràng những thuộc tính tốt nhất. Các thuật toán xây
dựng cây quyết định đƣa ra thuộc tính mà phân chia tốt nhất tập dữ liệu huấn luyện bắt
đầu từ nút gốc của cây. Từ đó có thể thấy những thuộc tính nào là quan trọng nhất cho
việc dự báo hay phân lớp.

1.1.5.2 Sử dụng trong các mô hình dự báo
Cây quyết định có thể xử lý tốt các thuộc tính có giá trị liên tục. Do đó có thể
đƣợc sử dụng để xây dựng mô hình với các hàm nhận giá trị liên tục.
Đối với hoạt động sản xuất kinh doanh doanh nghiệp, một mô hình dự báo cần
có khả năng dự báo đƣợc lƣợng tiền tiêu dùng của các khách hàng tiềm năng dựa trên
những thông tin về thu nhập và nghề nghiệp của khách hàng. Hay nhờ các luật về xu
hƣớng mua hàng của khách hàng trong siêu thị, thông qua mô hình dự báo các nhân
viên kinh doanh có thể ra những quyết sách đúng đắn về lƣợng mặt hàng cũng nhƣ
chủng loại bày bán. Cây quyết định thƣờng đƣợc ứng dụng trong phƣơng pháp (mô
hình) dự báo định lƣợng có khả năng dự báo nhƣ trên.
1.1.5.3 Sử dụng để biểu diễn các vấn đề ra quyết định
Dựa trên việc xử lý các thông tin thu thập đƣợc, cây quyết định đƣợc sử dụng
để biểu diễn các vấn đề ra quyết định. Khi đó cần chọn một mô hình toán học trong
phƣơng pháp định lƣợng để đánh giá vấn đề đó. Việc chọn lựa mô hình đƣợc dựa vào
sự hiểu biết, vào thông tin ít hay nhiều về khả năng xuất hiện các trạng thái của hệ
thống.
1.1.6 Xây dựng và ứng dụng cây quyết định
Xây dựng và ứng dụng cây quyết định là quá trình nhiều bƣớc gồm: tạo lập, cắt
tỉa cây quyết định, sau đó trích rút ra các luật, sử dụng các thủ tục suy diễn để rút ra tri
thức thu đƣợc. Sau đây luận văn trình bày về các quá trình trên.
1.1.6.1 Thủ tục tạo lập cây quyết định
Quá trình tạo cây quyết định gồm hai giai đoạn
[3, 12]

* Giai đoạn thứ nhất phát triển cây quyết định:
Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy nạp
theo cách thức chia để trị cho tới khi đạt đƣợc cây quyết định với tất cả các lá đƣợc
gán nhãn lớp.
Thuật toán xây dựng cây quyết định
Luận văn trình bày giải thuật quy nạp xây dựng cây quyết định ID3 (gọi tắt là

ID3) là một giải thuật học đơn giản nhƣng rất thành công trong nhiều lĩnh vực. ID3 là
một giải thuật hay vì cách biểu diễn tri thức học đƣợc của nó, vì cách tiếp cận của nó
trong việc quản lý tính phức tạp, vì cách sử dụng phƣơng pháp heuristic để chọn lựa
các ứng viên, và tiềm năng của nó đối với việc xử lý dữ liệu nhiễu
[3, 12].


16
ID3 biểu diễn các khái niệm ở dạng cây quyết định. Biểu diễn này cho phép
chúng ta xác định phân loại của một đối tƣợng bằng cách kiểm tra các giá trị của nó
trên một số thuộc tính nào đó.
Nhƣ vậy, nhiệm vụ của giải thuật ID3 là học cây quyết định từ một tập các mẫu
huấn luyện (training example) và còn đƣợc gọi là dữ liệu huấn luyện (training data).
Nói khác hơn, giải thuật có:
Đầu vào: Một tập hợp các mẫu. Mỗi mẫu bao gồm các thuộc tính mô tả một
tình huống, hay một đối tƣợng nào đó, và một giá trị phân loại của nó.
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các mẫu trong tập dữ
liệu huấn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chƣa gặp trong tƣơng
lai.
ID3 xây dựng cây quyết định theo cách từ trên xuống. Lƣu ý rằng đối với bất
kỳ thuộc tính nào, chúng ta cũng có thể phân vùng tập hợp các mẫu huấn luyện thành
những tập con tách rời, mà ở đó mọi mẫu trong một phân vùng (partition) có một giá
trị chung cho thuộc tính đó. ID3 chọn một thuộc tính để kiểm tra tại nút hiện tại của
cây và dùng trắc nghiệm này để phân vùng tập hợp các mẫu; thuật toán khi đó xây
dựng theo cách đệ quy một cây con cho từng phân vùng. Công việc này tiếp tục cho
đến khi mọi thành viên của phân vùng đều nằm trong cùng một lớp; lớp đó trở thành
nút lá của cây.
Vì thứ tự của các trắc nghiệm là rất quan trọng đối với việc xây dựng một cây
quyết định, ID3 phụ thuộc rất nhiều vào tiêu chuẩn chọn lựa trắc nghiệm để làm gốc
của cây.

* ID3 xây dựng cây quyết định theo giải thuật sau:
Function induce_tree(tập_mẫu, tập_thuộc_tính)
begin
if mọi mẫu trong tập_mẫu đều nằm trong cùng một lớp
then
return một nút lá đƣợc gán nhãn bởi lớp đó
else if tập_thuộc_tính là rỗng then
return nút lá đƣợc gán nhãn bởi tuyển của tất cả các lớp trong
tập_mẫu else
begin
chọn một thuộc tính P, lấy nó làm gốc cho cây hiện tại;
xóa P ra khỏi tập_thuộc_tính;
với mỗi giá trị V của P

17
begin
tạo một nhánh của cây gán nhãn V;
Đặt vào phân_vùng
V
các ví dụ trong tập_mẫu có giá
trị V tại thuộc tính P;
Gọi induce_tree(phân_vùng
V
, tập_thuộc_tính), gắn
kết quả vào nhánh V
end
end
end

Sau khi xây dựng đƣợc cây quyết định, bƣớc tiếp theo là cắt tỉa nhánh của cây.

* Giai đoạn thứ hai cắt, tỉa bớt các cành nhánh trên cây quyết định:
Giai đoạn này nhằm mục đích đơn giản hóa và khái quát hóa từ đó làm tăng độ
chính xác của cây quyết định bằng cách loại bỏ sự phụ thuộc vào mức độ lỗi (noise)
của dữ liệu huấn luyện mang tính chất thống kê, hay những biến đổi mà có thể là đặc
tính riêng biệt của dữ liệu huấn luyện. Giai đoạn này chỉ truy cập dữ liệu trên cây
quyết định đã đƣợc phát triển trong giai đoạn trƣớc.
Có rất nhiều biến đổi khác nhau trong thuật toán cây quyết định, mặc dù vậy
chúng vẫn tuân theo những bƣớc cơ bản sau :
- Cây đƣợc thiết lập từ trên xuống dƣới và theo cách thức chia để trị.
- Ở thời điểm bắt đầu, các mẫu huấn luyện nằm ở gốc của cây.
- Thuộc tính đƣợc phân loại (rời rạc hóa các thuộc tính dạng phi số )
- Chọn một thuộc tính để phân chia thành các nhánh. Thuộc tính đƣợc chọn dựa
trên các loại tiêu chuẩn.
- Tiếp tục lặp lại việc xây dựng cây quyết định cho các nhánh.
Điều kiện để dừng việc phân chia:
+ Tất cả các mẫu rơi vào một nút thuộc về cùng một lớp (nút lá)
+ Không còn thuộc tính nào có thể dùng để phân chia mẫu nữa
+ Không còn lại mẫu nào tại nút.
Có 3 loại tiêu chuẩn hay chỉ số để xác định thuộc tính tốt nhất phát triển nhánh
tại mỗi nút.

18
- Chỉ số Gini (hay Gini-index)
[8]
: Loại tiêu chuẩn này lựa chọn thuộc tính làm
cực tiểu hóa độ bất định của mỗi phân chia. Các thuật toán sử dụng này là CART,
SLIQ, SPRINT.
- χ
2
- bảng thống kê các sự kiện xảy ra ngẫu nhiên: χ

2
đo độ tƣơng quan giữa
từng thuộc tính và nhãn lớp. Sau đó lựa chọn thuộc tính có độ tƣơng quan lớn nhất
[1]
.
- Tăng thêm thông tin (Information gain)
[12]
: Khác với Gini-index, tiểu chuẩn
này sử dụng hàm entropy để đo độ bất định của một phân chia và lựa chọn thuộc tính
theo mức độ cực đại hóa chỉ số entropy. Các thuật toán sử dụng tiêu chuẩn này là ID3,
C4.5.
Khái niệm entropy của một tập S đƣợc định nghĩa trong Lý thuyết thông tin
[15]

là số lƣợng mong đợi các bít cần thiết để mã hóa thông tin về lớp của một thành viên
rút ra một cách ngẫu nhiên từ tập S. Trong trƣờng hợp tối ƣu, mã có độ dài ngắn nhất.
Theo lý thuyết thông tin, mã có độ dài tối ƣu là mã gán –log
2
(p(v)) bits cho thông điệp
có xác suất là p(v).
Entropy(S ) =



Vv
vpvp ))((log*)(
2
với V là tập các giá trị.
Trong trƣờng hợp S là tập mẫu, thì thành viên của S là một mẫu, mỗi mẫu thuộc
một lớp hay có một giá trị phân loại.

Entropy có giá trị nằm trong khoảng [0 1],
Entropy(S) = 0: tập mẫu S chỉ gồm các mẫu thuộc cùng một loại, hay S là thuần
nhất.
Entropy(S) = 1: tập ví dụ S có các mẫu thuộc các loại khác nhau với độ pha rộn
là cao nhất.
0 < Entropy(S) < 1: tập ví dụ S có số lƣợng mẫu thuộc các loại khác nhau là
không bằng nhau.
Entropy là một số đo đo độ pha trộn của một tập mẫu, Gain(S, A) là định nghĩa
độ đo hiệu suất phân loại các mẫu của một thuộc tính. Phép đo này gọi là lƣợng thông
tin thu đƣợc, là lƣợng giảm entropy mong đợi gây ra bởi việc phân chia các mẫu theo
thuộc tính này
Một cách chính xác hơn, Gain(S,A) của thuộc tính A, trên tập S, là sự giảm
đƣợc kỳ vọng về entropy do sắp xếp theo thuộc tính A và đƣợc định nghĩa nhƣ sau:
)(
||
||
)(),(
)(
v
AValuesv
v
SEntropy
S
S
SEntropyASGain




Trong đó Values(A) là tập hợp có thể có các giá trị của thuộc tính A, và S

v

tập con của S chứa các mẫu có thuộc tính A mang giá trị v.
1.1.6.2 Ứng dụng trích rút luật từ cây quyết định

19
Tri thức trong cây quyết định có thể đƣợc chiết xuất và trình bày dƣới dạng các
luật phân loại IF-THEN. Một luật tƣơng ứng với một đƣờng đi từ gốc tới một nút lá.
Mỗi cặp thuộc tính - giá trị dọc theo đƣờng đi tạo thành một liên kết trong tiền đề luật
(IF), nút lá là lớp dự báo, thiết lập nên mệnh đề kết quả luật (THEN), các luật IF-
THEN là các tri thức thu đƣợc từ việc xây dựng cây quyết định.
Một luật có thể đƣợc tỉa bớt bằng cách gỡ bỏ một số điều kiện trong tiền đề luật
mà không làm ảnh hƣởng nhiều đến độ chính xác của luật. Đối với mỗi lớp, các luật
trong phạm vi một lớp có thể đƣợc sắp xếp theo độ chính xác của chúng. Do đó rất dễ
xảy ra hiện tƣợng một mẫu kiểm định sẽ không thỏa bất kỳ một tiền đề luật nào.
Ví dụ: Các luật đƣợc sinh ra từ cây quyết định ví dụ hình 3 là
IF „Nợ >n‟ THEN “Không cho vay”
IF „Nợ <n‟ AND „Thu nhập < T‟ THEN “Không cho vay”
IF „Nợ <n‟ AND „Thu nhập >T‟ THEN “Cho vay”
Các luật IF – THEN có các ƣu điểm sau đây:
- Mỗi luật IF – THEN mô tả một phần nhỏ tƣơng đối độc lập của tri thức.
- Có thể thêm và cơ sở tri thức các luật mới, hoặc loại bỏ một số luật cũ mà
không ảnh hƣởng nhiều tới các luật khác.
- Các hệ tri thức với cơ sở tri thức gồm các luật IF – THEN có khả năng đƣa ra
lời giải thích cho các quyết định của hệ.
Ngôn ngữ bao gồm các luật IF- THEN, là ngôn ngữ phổ biến nhất để biểu diễn
tri thức. Các câu Horn (mang tên nhà logic Alfred Horn, năm 1951) đƣợc viết dƣới
dạng: IF P
1
and and P

n
THEN Q
Nếu P
1
và P
2
và P
n

thì Q
Các P
i
(i = 1, , n) đƣợc gọi là các điều kiện, Q đƣợc gọi là kết luận của luật.
Theo logic vị từ thì các câu Horn có dạng:
QPP
n

1

trong đó các P
i
(i = 1, , n) và Q là các câu phần tử.
Không phải mọi công thức đều có thể biểu diễn dƣới dạng hội của các câu
Horn. Tuy nhiên trong các ứng dụng, cơ sở tri thức thƣờng là một tập nào đó các câu
Horn (tức là một tập nào đó các luật if-then).
Các luật IF – THEN là dạng biểu diễn tự nhiên của tri thức. Bằng cách sử dụng
các luật IF – THEN chúng ta có thể biểu diễn đƣợc một số lƣợng lớn tri thức của con
ngƣời về tự nhiên, về xã hội, kinh nghiệm của con ngƣời trong nhiều lĩnh vực ứng
dụng khác nhau, và có thể thực hiện các thủ tục suy diễn hiệu quả.


20
Luật suy diễn
Một công thức H đƣợc xem là hệ quả logic (logical consequence) của một tập
công thức G ={G
1
, ,G
m
} nếu trong bất kỳ minh họa nào mà {G
1
, ,G
m
} đúng thì H
cũng đúng, hay nói cách khác bất kỳ mô hình nào của G cũng là mô hình của H
[4]
.
Khi có một cơ sở tri thức, ta muốn sử dụng các tri thức trong cơ sở này để suy
ra tri thức mới mà nó là hệ quả logic của các công thức trong cơ sở tri thức. Điều đó
đƣợc thực hiện bằng cách sử dụng các luật suy diễn (rule of inference). Luật suy diễn
giống nhƣ một thủ tục mà chúng ta sử dụng để sinh ra một công thức mới từ các công
thức đã có. Một luật suy diễn gồm hai phần: một tập các điều kiện và một kết luận.
Các hệ tri thức mà cơ sở tri thức bao gồm các luật sẽ đƣợc gọi là các hệ dựa trên
luật. Một khi chúng ta đã lƣu trữ một cơ sở tri thức, chúng ta cần có thủ tục lập luận để
rút ra các kết luận từ cơ sở tri thức. Trong các hệ dựa trên luật, có hai phƣơng pháp
luận lập luận cơ bản: Lập luận tiến, và lập luận lùi
Lập luận tiến
Tƣ tƣởng cơ bản của lập luận tiến là áp dụng luật suy diễn Modus Ponens tổng
quát. Trong mỗi bƣớc của thủ tục lập luận tiến, ngƣời ta xét một luật trong cơ sở luật.
Đối sánh mỗi điều kiện của luật với các sự kiện trong cơ sở sự kiện, nếu tất cả các điều
kiện của luật đều đƣợc thoả mãn thì sự kiện trong phần kết luận của luật đƣợc xem là
sự kiện đƣợc suy ra. Nếu sự kiện này là sự kiện mới (không có trong bộ nhớ làm việc),

thì nó đƣợc đặt vào bộ nhớ làm việc. Quá trình trên đƣợc lặp lại cho tới khi nào không
có luật nào sinh ra các sự kiện mới.
Nhƣ vậy quá trình lập luận tiến là quá trình xem xét các luật. Với mỗi luật, ta đi
từ phần điều kiện tới phần kết luận của luật, khi mà tất cả các điều kiện của luật đều
đƣợc làm thoả mãn (bởi các sự kiện trong cơ sở sự kiện), thì ta suy ra sự kiện trong
phần kết luận của luật
Quá trình lập luận tiến không định hƣớng tới giải quyết một vấn đề nào cả,
không định hƣớng tới tìm ra câu trả lời cho một câu hỏi nào cả. Lập luận tiến chỉ là
quá trình suy ra các sự kiện mới từ các sự kiện trong bộ nhớ làm việc.
Lập luận lùi
Trong lập luận lùi, ngƣời ta đƣa ra các giả thuyết cần đƣợc đánh giá. Sử dụng lập
luận lùi, giả thuyết đƣa ra hoặc là đƣợc chứng minh, hoặc là bị bác bỏ (bởi các sự kiện
trong bộ nhớ làm việc). Lập luận lùi cho phép ta tìm ra các phép thế biến mà giả thuyết
đƣa ra trở thành đúng (là hệ quả logic của cơ sở tri thức). Do đó trong hệ dựa trên luật
chúng ta có thể sử dụng lập luận lùi để tìm ra các câu trả lời cho các câu hỏi đƣợc đặt
ra bởi ngƣời sử dụng.

21
Lập luận lùi nhằm chứng minh một giả thuyết, chính vì thế mà lập luận lùi còn
đƣợc gọi là lập luận định hƣớng mục đích. Sau này có thể sử dụng lập luận lùi để tìm
ra các câu trả lời cho các câu hỏi của ngƣời sử dụng
Quá trình lập luận lùi diễn ra nhƣ sau: Ta đối sánh giả thuyết đƣa ra với các sự
kiện trong bộ nhớ làm việc. Nếu có các câu mô tả sự kiện và giả thuyết trùng nhau qua
một phép thế nào đó, thì ta xem nhƣ giả thuyết là đúng. Nếu không có sự kiện nào
khớp với giả thuyết, thì ta đối sánh giả thuyết với phần kết luận của các luật. Với mỗi
luật mà kết luận của luật khớp với giả thuyết, ta đi lùi lại phần điều kiện của luật. Các
điều kiện này của luật đƣợc xem nhƣ các giả thuyết mới. Với giả thuyết mới, ta lặp lại
quá trình trên.
Nếu tất cả các giả thuyết đƣợc sinh ra trong quá trình phát triển các giả thuyết bởi
các luật đƣợc chọn thích hợp đều đƣợc thoả mãn (đều có trong bộ nhớ làm việc) thì giả

thuyết đã đƣa ra đƣợc xem là đúng. Ngƣợc lại, dù ta áp dụng luật nào để phát triển các
giả thuyết cũng dẫn tới các giả thuyết không có trong bộ nhớ làm việc và không thể
quy giả thuyết này về các giả thuyết mới khác, thì giả thuyết đã đƣa ra đƣợc xem là sai
Sau đây là thủ tục suy diễn lùi. Trong thủ tục này, Hyp và  là các biến địa
phƣơng trong thủ tục. Giá trị ban đầu của Hyp là danh sách các giả thuyết ban đầu
(biểu diễn câu hỏi đƣợc đặt ra), còn giá trị ban đầu của  là phép thế rỗng.
[4]
procedure Backward_Chaining (Hyp, );
begin
H  giả thuyết đầu tiên trong danh sách Hyp;
for mỗi luật R = (Conds, Q) do
if H hợp nhất với Q bởi phép thế 
1
then
1. Loại H khỏi danh sách Hyp;
2. Thêm các điều kiện của luật Conds vào danh sách Hyp;
3. áp dụng phép thế 
1
vào các giả thuyết trong danh sách Hyp;
4. Lấy hợp thành của các phép thế  và 
1
để nhận đƣợc phép thế  mới,
tức là   
1
;
if Hyp = [ ] then cho ra 
else Backward_Chaining (Hyp, );
end;
Trong thủ tục lập luận lùi, mỗi  đƣợc cho ra là một phép thế biến làm cho giả
thuyết ban đầu trở thành đúng, tức là (Hyp)  = H

1
  H
m
 là đúng (là hệ quả

22
logic của cơ sở tri thức). Do đó mỗi phép thế biến  đƣợc cho ra bởi thủ tục là một câu
trả lời cho câu hỏi đặt ra.
Nhƣ vậy, các thuộc tính để xây dựng cây quyết định có thể là thông tin chắc
chắn, hoặc không chắc chắn. Trong luận văn này, đề cập tới ứng dụng của cây quyết
định khi thuộc tính là thông tin không chắc chắn. Phần tiếp theo sẽ tìm hiểu về vấn đề
này.
1.2 Tổng quan về thông tin không chắc chắn
Sự không chắc chắn là một thuật ngữ đƣợc sử dụng theo những cách khác nhau
trong một số lĩnh vực, bao gồm vật lý, triết học, thống kê, kinh tế, tài chính, bảo hiểm,
tâm lý học, xã hội học, kỹ thuật, và khoa học thông tin. Áp dụng đối với dự báo của
các sự kiện trong tƣơng lai, các phép đo vật lý đã đƣợc thực hiện, hoặc chƣa biết.
1.2.1 Khái niệm
Sự không chắc chắn: là trạng thái có hiểu biết hạn chế về những hiện tƣợng tự
nhiên-kinh tế -xã hội, không thể mô tả chính xác tình trạng hiện hành cũng nhƣ kết quả
trong tƣơng lai của chúng
[1,7]
.
Sự không chắc chắn đơn giản là nói về thiếu sự chắc chắn hoàn toàn. Không
chắc chắn là một trạng thái của kiến thức mà việc đánh giá chính xác trạng thái của
một hiện tƣợng (quá khứ, hiện tại hoặc tƣơng lai) là không thể. Điều này là phù hợp
với tất cả các quan điểm suy nghĩ về sự không chắc chắn trong các lý thuyết khoa học
hiện hành bao gồm lý thuyết xác suất, khoa học quyết định, thống kê, lý thuyết thông
tin và vật lý,
Tính không chắc chắn có thể xuất hiện từ nhiều nguồn, có thể do chính bản thân

sự kiện, hiện tƣợng mà về bản chất không thể mô tả chính xác chúng bởi các mô hình
đơn định. Tính không chắc chắn có thể xuất hiện do sự hiểu biết không đầy đủ về vấn
đề đang xét. Ngay cả khi có thể mô tả chính xác, đơn định một quá trình, một hiện
tƣợng tự nhiên-kinh tế-xã hội nào đó, nhƣng nếu mô tả đầy đủ và chính xác thì sẽ rất
phức tạp, độ phức tạp của tính toán, lập luận sẽ rất cao. Trong các trƣờng hợp đó, có
thể mô tả xấp xỉ bằng cách sử dụng tính không chắc chắn để đơn giản cho việc tính
toán, suy diễn.
Rủi ro là tình trạng không chắc chắn mà một số sự kiện, hiện tƣợng có thể phải
chịu những tác dụng không mong muốn hoặc bị thiệt hại đáng kể.
Trong hoạt động sản xuất kinh doanh doanh nghiệp, đo lƣờng rủi ro là một tập
hợp các phép đo sự không chắc chắn có thể gây ra những thiệt hại, và độ lớn của
những thiệt hại này cũng bao gồm mức lỗ trong các biến. Một cách khái quát đo lƣờng
rủi ro chỉ đơn giản là một phép đo của sự không chắc chắn cùng với chuyển nhƣợng bị
mất (hoặc thiệt hại) cho mỗi tình trạng không chắc chắn.

23
Trong đời sống thực, nhất là trong hoạt động sản xuất kinh doanh doanh nghiệp
nguyên tắc phân loại sự không chắc chắn còn bao gồm một ý nghĩa rộng hơn của sự
không chắc chắn, cụ thể nó còn đƣợc tiếp cận từ quan điểm đạo đức.
1.2.2 Phân loại sự không chắc chắn
Sự không chắc chắn có thể đƣợc chia thành các bộ phận đƣợc xác định rõ và
không rõ nét, gồm đối tƣợng và chủ thể không chắc chắn. Không chắc chắn cũng đƣợc
xác định có thể đƣợc phân tích với lý thuyết xác suất. Sự thiếu rõ ràng có thể đƣợc
chia thành đặc trƣng không và bất hòa. Đặc trƣng không thể đƣợc phân tích với lý
thuyết khả năng và bất hòa có thể đƣợc phân tích với bản thể học.

















Hình 4 : Phân loại tƣ duy của sự không chắc chắn

1.2.3 Ứng dụng thông tin không chắc chắn
Trên thực tế có rất nhiều lĩnh vực có sử dụng các thông tin không chắc chắn vào
giải quyết vấn đề nhƣ:
- Sự không chắc chắn đƣợc tham gia vào tất cả các đo lƣờng, chẳng hạn nhƣ đo
khoảng cách, nhiệt độ, mức độ phụ thuộc vào công cụ hoặc kỹ thuật đƣợc sử dụng để
làm cho đo lƣờng. Sự không chắc chắn đƣợc sử dụng trong khoa học và ký hiệu kỹ
thuật. Tƣơng tự nhƣ vậy, không chắc chắn đƣợc truyền qua tính toán bằng giá trị tính
toán có một số mức độ của sự không chắc chắn phụ thuộc vào những điều không chắc
chắn của các giá trị đo và các công thức đƣợc đƣợc sử dụng trong tính toán.

Không chắc chắn
(uncertainty)
Đối tƣợng không chắc chắn
(objective uncertainty)
Chủ thể không chắc chắn
(subjective uncertainty)


Nhận thức không chắc chắn
(epistemological uncertainty)
Bản thế không chắc chắn
(ontological uncertainty)
Đạo đức không chắc
chắn
( moral uncertainty)
Quy tắc không chắc chắn
(rule uncertainty)
Tri thức hƣớng dẫn quyết định
(knowledge guided decision)
Lý trí hƣớng dẫn quyết định
(Quasi-rational decision)
Quy tắc hƣớng dẫn quyết định
(rule guided decision)
Trực giác hƣớng dẫn quyết định
(intuition guiđe decision)

24
- Sự không chắc chắn đƣợc sử dụng thiết kế các trò chơi, đáng chú ý nhất là trò
chơi về cờ bạc, nơi mà “cơ hội” là trọng tâm trò chơi.
- Trong khoa học, dự báo các sự kiện trong tƣơng lai nên đƣợc hiểu là có một
loạt các giá trị dự kiến, giá trị không chắc chắn.
- Trong dự báo thời tiết hiện nay bao gồm dữ liệu về mức độ sự không chắc
chắn trong thông tin để dự báo thời tiết.
- Sự không chắc chắn thƣờng là một yếu tố quan trọng trong kinh tế. Theo nhà
kinh tế Frank Knight, nó là khác nhau từ nguy cơ, nơi có một xác suất cụ thể đƣợc gán
cho mỗi kết quả (nhƣ khi lật một đồng xu công bằng). Không chắc chắn liên quan đến
một tình huống có xác suất không rõ, trong khi xác suất ƣớc tính của các kết quả có
thể không cần phải thêm với sự thống nhất.

- Trong tinh thần kinh doanh: sản phẩm mới, dịch vụ, các công ty và thậm chí
cả thị trƣờng thƣờng đƣợc tạo ra trong trƣờng hợp không dự toán xác suất.
- Trong đánh giá rủi ro và quản lý rủi ro.
1.2.4 Đo lƣờng không chắc chắn
Đo lƣờng không chắc chắn là một khái niệm trung tâm xác định số lƣợng phân
tán hợp lý của thuộc tính đến một kết quả đo lƣờng. Nhƣ vậy không chắc chắn cũng có
thể đƣợc gọi là một phép đo lỗi. Trong cuộc sống hàng ngày, đo lƣờng không chắc
chắn thƣờng là tiềm ẩn, trong khi đối với bất kỳ việc sử dụng chính thức, một tuyên bố
rõ ràng nào cũng không đảm bảo sự cần thiết của việc đo. Việc đo lƣờng không chắc
chắn không đảm bảo cho các phép đo của nhiều dụng cụ đo lƣờng khác (nhƣ cân, dao
động, lực lƣợng thiết bị cảm, thƣớc kẻ, nhiệt kế, v.v.) thƣờng đƣợc trình bày trong đặc
điểm kỹ thuật của nhà sản xuất .
Trong đo lƣờng, vật lý và kỹ thuật, sự không chắc chắn hoặc “lề” của lỗi đo
lƣờng đƣợc ghi bằng cách đƣa ra một loạt các giá trị có khả năng gửi kèm theo các giá
trị đích thực. Điều này có thể đƣợc biểu hiện bằng các thanh lỗi trên một đồ thị, hoặc
bằng các ký hiệu sau :
- đo giá trị ± không chắc chắn
- đo giá trị + không chắc chắn (- không chắc chắn)
- đo giá trị (không chắc chắn)
Trong thực tế thông thƣờng, để đo lƣờng sự không chắc chắn ngƣời ta thực hiện
lặp đi lặp lại một cách đo lƣờng với lƣợng thời gian đủ cần thiết để có đƣợc một ƣớc
lƣợng tốt về độ lệch chuẩn của các giá trị đo. Sau đó, bất kỳ giá trị đo lƣờng khác nào
cũng có một không chắc chắn bằng độ lệch chuẩn.

×