TÌM HIỂU VỀ CÂY QUYẾT ĐỊNH TRONG HỆ TRỢ GIÚP QUYẾT ĐỊNH

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (349.82 KB, 13 trang )

Mục Lục
Trang

I. TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH

2

1.Giới thiệu chung
2.Các kiểu cây quyết định

3

3.Ví dụ về cây quyết định
4.Ưu điểm của cây quyết định

6

II. CẤU TRÚC CỦA CÂY QUYẾT ĐỊNH

7

1. Gới thiệu chung
2. Suy diễn trên cây quyết định

9

III.Kết Luận

13

1

Nội Dung
I.TỔNG QUAN VỀ CÂY QUYẾT ĐỊNH
1.Giới thiệu chung
Trong lý thuyết quyết định, một cây quyết định là một đồ thị của các
quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài
nguyên).
Cây quyết định là cấu trúc biểu diển dưới dạng cây. Trong đó, mỗi nút
trong biểu diễn một thuộc tính, nhánh có thể biểu diễn giá trị có thể có
của thuộc tính, mỗi lá biểu diễn các lớp quyết định và đỉnh trên cùng của
cây gọi là gốc. Cây quyết định được dùng để phân lớp bằng cách xuất
phát từ gốc của cây và di chuyển theo các nhánh cho đến khi gặp nút lá.
Trên cơ sở phân lớp này chúng ta có thể chuyển đổi các luật về cây
quyết định.
Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được
mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ đưa ra
quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây.
Tạo ra cây quyết định chính là quá trình phân tích cơ sở dữ liệu, phân
lớp và đưa ra dự đoán. Cây quyết định được tạo thành bằng cách lần lượt
chia một tập dữ liệu thành các tập dữ liệu con, mỗi tập dữ liệu con được
tạo thành chủ yếu từ các phần tử của cùng một lớp. Lựa chọn thuộc tính
để tạo nhánh thông qua Entropy và Gain.
Học bằng cây quyết định cũng là một phương pháp thông dụng trong
khai phá dữ liệu, khi đó cây quyết định mô tả cấu trúc cây, trong đó, các
lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của
thuộc tính dẫn tới phân loại đó. Một cây quyết định có thể được học
2

bằng cách chia tập hợp nguồn thành các tập con dựa thó một kiểm tra
giá trị thuộc tính. Qúa trình này được lặp đi lặp lại một cách đệ quy cho
mỗi tập con dẫn xuất, quá trình đệ quy hoàn thành khi không thể tiếp tục
việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng cho
từng phần tử của tập con dẫn xuất.
Cây quyết định có thể được mô tả như là sự kết hợp của các kĩ thuật tính
toán và toán học nhằm hỗ trợ việc mô tả, phân loại và tổng quát hóa một
tập dữ liệu cho trước.
Dữ liệu được cho dưới dạng các bản ghi có dạng:(x,
y)=(x1,x2,x3....xn,y), biến phụ thuộc vào y mà chúng ta cần tìm hiểu,
phân loại hay tổng quát hóa x1,x2,x3... là các biến giúp ta thực hiện
công việc đó.
2.Các kiểu cây quyết định
- Cây hồi quy: ước lượng các hàm có giá trị thay vì được sử dụng cho
các nhiệm vụ phân loại(ví dụ: ước tính giá trị của một ngôi nhà)
_Cây phân loại: nếu y là một biến phân loại như : giới tính(nam hay nữ),
kết quả của một trận thi đấu..
3.Ví dụ về cây quyết định
Chúng ta xét ví dụ sau:
Mr Hùng quản lý một câu lạc bộ golf. Anh đang muốn biết có những ai
đến chơi và những ai không đến chơi, có ngày thì mọi người đến chơi rất
đông, nhưng có ngày thì lại rất ít . Mr Hưng cần tối ưu hóa mục tiêu mỗi
ngày của nhân viên bằng cách dựa theo thông tin dự báo thời tiết để
đoán xem khi nào người ta đến chơi golf và khi nào không đến chơi.
Trong 2 tuần Mr Hùng đã thu thập thông tin về:
3

Quang cảnh, nẳng, mưa, nhiểu mây. Nhiệt độ , độ ẩm. Gio mạnh hay
không.

Mr Hung thu được một bộ dữ liệu như sau:
DỮ LIỆU CHƠI GOLF
CÁC BIẾN ĐỘC LẬP

BIẾN PHỤ THUỘC

Qang cảnh

Nhiệt độ

Độ ẩm

Gío

Chơi

Nắng

Nóng

Cao

Nhẹ

Không

Nắng

Nóng

Cao

Mạnh

Không

Âm u

Nóng

Cao

Nhẹ

Có

Mưa

Âm áp

Cao

Nhẹ

Có

Mưa

Mát

Trung bình

Nhẹ

Có

Mưa

Mát

Trung bình

Mạnh

Không

Âm u

Mát

Trung bình

Mạnh

Có

Nắng

Ấm áp

Cao

Nhẹ

Không

Nắng

Mát

Trung bình

Nhẹ

Có

Mưa

Ấm áp

Trung bình

Nhẹ

Có

Nắng

Âm áp

Trung bình

Mạnh

Có

Âm u

Âm áp

Cao

Nhẹ

Có

Âm u

Âm áp

Cao

Mạnh

Có

Mưa

Ấm áp

Cao

Mạnh

Không

Sau đó người ta đưa ra mô hình cây để giải quyết bài toán của Mr Hưng
như sau:

4

Cây quyết định là một mô hình dữ liêu phân bố của nhãn lớp theo các
thuộc tính dùng để dự đoán. Nút gốc đại diện cho toàn bộ dữ liệu, thuật
5

toán cây phân loại nhằm phát hiện ra rằng cách tốt nhất để giải thích các
biến phụ thuộc chơi, là sử dụng quang cảnh. Phân loại theo giá trị của
biến quang cảnh ta có 3 nhóm sau:Người chơi golf khi trời nắng, nhóm
chơi khi trời nhiều mây, nhóm chơi khi trời mưa.
Kết luận: nếu trời nhiều mây tức là âm u, người ta luôn luôn chơi golf,
và có một số người đi chơi golf khi trời mưa.
Tiếp theo, ta lại chia nhóm trời nắng thành 2 nhóm con, ta thấy rằng
khách hàng không muốn chơi nếu nhiệt độ cao.
Cuối cùng ta chia nhóm trời mưa thành hai và thấy rằng khách hàng sẽ
không chơi vào hôm trời mưa và có gió.
4.Ưu điểm của cây quyết định
-Cây quyết định dể hiểu: người ta có thể hiểu mô hình quyết định sau
khi được giải thích ngắn.

-Việc chuẩn bị dữ liệu cho cây quyết định là cơ bản hoặc không cần
thiết, các kỹ thuật khác cũng đòi hỏi chuẩn hóa dữ liệu, cần tạo các biến
phụ và loại bỏ các giá trị rỗng.
-Cây quyết định có thể xử lý các dữ liêu có hằng số va dữ liệu có giá trị
là tên thể loại, các kỹ thuật khác thường xuyên để phân tích các bộ dữ
liệu chỉ gồm một loại biến.Chẳng hạn các quy luật quan hệ chỉ dùng cho
các biến tên, trong khi mạng nơ-ron chỉ có thể dùng cho các biến có gí
trị hằng số.
-Cây quyết định là một mô hình hộp trắng, mạng nơ-ron là một ví dụ về
mô hình hộp đen do lời giải thích cho kết quả phức tạp có thể hiểu được
-Có thể thẩm định mô hình bằng cách kiểm tra thống kê. Điều này làm
cho người ta có thể tin tưởng vào mô hình.
6

-Cây quyết định có thể xử lý một lượng dữ liệu lớn trong thời gian ngắn,
có thể dùng máy tính cá nhân để phân tích các lượng dữ liệu lớn nhất
trong một thời gian ngắn để đưa ra chiến lược quyết định dựa trên phân
tích của cây quyết định.

II. CẤU TRÚC CỦA CÂY QUYẾT ĐỊNH
1. Gới thiệu chung
Cây quyết định là một cấu trúc được sử dụng để chia liên tiếp một tập
các bản ghi lớn thành các tập các bản ghi con nhỏ hơn bằng cách áp
dụng một chuỗi các luật đơn giản. Với mỗi phép chia liên tiếp các tập
con thi được trong tập kết quả này sẽ càng giống nhau. Nó có cấu trúc
gồm 4 thành phần như sau:
-Nhánh: Là một biến cố hay chiến lược nối 2 Nút hay 1 Nút và Kết
quả.
-Nút quyết định: là 1 điểm trên cây được biểu diễn bằng hình vuông và

từ đó sẽ phát xuất nhiều nhánh. Mỗi nhánh từ nút quyết định là một
chiến lược khả dĩ sẽ được người ra quyết định xem xét.
-Biến cố: là một điểm trên cây quyết định được biểu diễn bằng hình tròn
và từ đó cũng sẽ phát xuất nhiều nhánh, mỗi nhánh là một biến cố có thể
xảy ra.
-Kết quả: là một chuỗi chiến lược và biến cố tạo thành một đường duy
nhất trên cây quyết định từ điểm đầu đến điểm cuối.

7

Nút đầu tiên của cây sẽ bắt đầu bằng Quyết định thứ 1: Chọn Chiến lược
1 hay Chiến lược 2.
Theo sau sự chọn chiến lược là một Biến cố ngẫu nhiên: Biến cố 1 hoặc
Biến cố 2.

8

Lúc này người ra quyết định sẽ đứng giữa một trong 4 nút quyết định và
phải thực hiện Quyết định thứ 2: Chọn Chiến lược 3 hoặc Chiến lược 4.
Sau quyết định thứ 2 này là 1 biến cố ngẫu nhiên thứ 2: Biến cố 3 và
Biến cố 4.
Tuỳ theo con đường đã chọn, 1 trong 16 kết quả sẽ là Kết quả cuối cùng
(từ CP1 đến CP16).
Ví dụ: Như trên hình vẽ, con đường gồm: Chiến lược 1, Biến cố 2,
Chiến lược 3, Biến cố 4 sẽ dẫn đến Kết quả CP6.
Quyết định tối ưu: cho loại bài toán này là chọn một bộ chiến lược duy
nhất cho giá trị kỳ vọng tốt nhất ứng với nút đầu tiên. Lời giải này giả
định có thể ấn định giá trị kỳ vọng ở từng nút biến cố và người ra quyết

định sẽ thực hiện một quyết định phức tạp dựa trên nhiều biến cố ngẫu
nhiên.
2. Suy diễn trên cây quyết định
Để trình bày cách giải các bài toán quyết định dựa trên sơ đồ cây quyết
định, ta khảo sát bài toán sau:
‒ Giả sử một Công ty có trụ sở đặt tại Tp Hồ Chí Minh muốn kinh
doanh máy vi tính ra miền Bắc hoặc miền Trung.
Nếu kinh doanh ra miền Trung, Công ty sẽ không có đối thủ cạnh tranh
và nhu cầu cho thị trường này khoảng 100, 200, 300 bộ/tháng.
Nếu kinh doanh ra miền Bắc thì có thể bị cạnh tranh và nhu cầu cho thị
trường này chỉ có thể là 0, 100, 200 bộ/tháng.
Số lượng máy vi tính dự định kinh doanh là 200 bộ/tháng.
Giả định giá mua (đầu vào) của một bộ máy vi tính là 3.000.000 đ, giá
bán là 5.000.000 đ.
9

Hình 3.6 sau đây là sơ đồ cây quyết định của bài toán:

Qua kinh nghiệm nhiều năm kinh doanh ở thị trường này, người ra quyết
định sẽ ra một số xác suất cho từng biến cố khả dĩ.
10

Người ra quyết định sẽ dùng giá trị kỳ vọng (EMV) làm tiêu chuẩn
quyết định. Do vậy, ta cần tính giá trị kỳ vọng của 2 chiến lược khả dĩ là
kinh doanh máy tính ra miền Bắc hay ra miền Trung.
Lưu ý:
Trong lý thuyết xác suất, giá trị kỳ vọng hay giá trị mong đợi, hoặc trung
bình (mean) của một biến ngẫu nhiên là trung bình có trọng số của tất cả

11

các giá trị có thể của biến đó, hay là được tính bằng tổng các tích giữa
xác suất xảy ra của mỗi giá trị có thể của biến với giá trị đó.
Nếu X là một biến ngẫu nhiên rời rạc với các giá trị x1 , x2 ,.. và các xác
suất tương ứng là p1 , p2 ... với tổng bằng 1, thì giá trị kỳ vọng E[X] có
thể được tính bằng tổng của chuỗi: E[X] = ∑pixi .
Ta có:
EMV(S1: Kinh doanh ra miền Trung)= 0,5(100.000.000)+0,4(400.000.000) + 0,1(600.000.000) = 170.000.000 đ.
Đối với kinh doanh ra miền Bắc, đầu tiên ta tính EMV của 2 biến cố “có
đối thủ” và “không có đối thủ” như sau:
EMV(E1: Có đối thủ) = 0,1(-600.000.000) + 0,5(-100.000.000) +
0,4(400.000.000) = 50.000.000 đ
EMV(E2: không có đối thủ) = 0,4(100.000.000) + 0,5(400.000.000) +
0,1(600.000.000) = 300.000.000 đ.
Do vậy:
EMV(S2: Kinh doanh ra miền Bắc) = = 0,3(50.000.000) +
0,7(300.000.000) = 225.000.000 đ
Quyết định tối ưu sẽ theo hướng S2 vì mang lại kết quả cao hơn S1. –
Phương pháp phân tích sử dụng trong bài toán cây quyết định là phương
pháp “suy diễn lùi”. Theo đó, để thẩm định một chiến lược nhất thiết
phải khảo sát tất cả chiến lược và biến cố đi sau và cùng xuất phát từ
chiến lược đó.
Do vậy, các biến cố khả dĩ và nút quyết định sau cùng nhất sẽ được phân
tích trước nhất. Sau đó sẽ lần ngược lên các nút trước để hướng về nút
đầu tiên. Dùng kỹ thuật này, ta sẽ thiết lập các lựa chọn tối ưu cho từng
kết quả bằng cách duyệt trên sơ đồ cây.

12

III.Kết Luận
Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được
mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ đưa ra
quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây.
Qua phần tìm hiểu về cây quyết định các thành viên trong nhóm đã
nắm bắt và hiểu về tổng quan của cây quyết định, các định nghĩa, các
kiểu cây quyết định và các ưu nhược điểm của cây quyết định, các
thành phần cấu trúc của cây quyết định gồm 4 thành phần:
- Nhánh
-Nút quyết định
-Biến cố
-Kết quả
Trong quá trình làm bài Phần bài làm của nhóm chúng em vẫn còn
nhiều thiếu sót kính mong thầy đưa ra nhận xét để cho bài tập được hoàn
thiện hơn, e xin chân thành cảm ơn

13

TÌM HIỂU VỀ CÂY QUYẾT ĐỊNH TRONG HỆ TRỢ GIÚP QUYẾT ĐỊNH

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về