Tải bản đầy đủ (.docx) (40 trang)

HỆ HỖ TRỢ QUYẾT ĐỊNH( Ứng dụng thuật toán Naive Bayes trong giải quyết bài toán chuẩn đoán bệnh tiểu đường )

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (828.83 KB, 40 trang )

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
======***======

BÁO CÁO THỰC NGHIỆM
HỌC PHẦN: HỆ HỖ TRỢ QUYẾT ĐỊNH

Đề tài: Ứng dụng thuật toán Naive Bayes trong

giải quyết bài tốn chuẩn đốn bệnh tiểu đường
GVHD:
Nhóm:
Thành viên nhóm:

Lớp: 20221IT6058002

Khố:14

Hà Nội, 2022

MỤC LỤC


LỜI NÓI ĐẦU..................................................................................................1
CHƯƠNG I: LÝ THUYẾT HỆ HỖ TRỢ RA QUYẾT ĐỊNH.........................2
1.1. Ra quyết định...............................................................................................2
1.2. Hệ hỗ trợ ra quyết định................................................................................3
1.3. Quá trình ra quyết định của hệ hỗ trợ ra quyết định....................................4
1.4. Kiến trúc chung hệ hỗ trợ ra quyết định......................................................6
1.5. Mơ hình ra quyết định..................................................................................6
1.6. Mục đích xây dựng hệ hỗ trợ ra quyết định.................................................7


1.7. Tính cần thiết của hệ hỗ trợ ra quyết định...................................................8
1.8. Phạm vi ứng dụng của hệ hỗ trợ ra quyết định............................................8
1.9. Môi trường ra quyết định.............................................................................9
1.10. Các yếu tố ảnh hưởng đến ra quyết định.................................................10
CHƯƠNG II: ỨNG DỤNG THUẬT TOÁN NAIVE BAYES TRONG GIẢI
QUYẾT BÀI TOÁN CHUẨN ĐOÁN BỆNH TIỂU ĐƯỜNG......................12
2.1. Tổng quan về Naive Bayes.......................................................................12
2.1.1. Thuật toán Naive Bayes..............................................................12
2.1.2. Hoạt động của Naive Bayes.......................................................18
2.1.3. Đặc điểm của Naive Bayes.........................................................19
2.1.4. Ưu và nhược điểm của Naive Bayes..........................................19
2.1.5. Ứng dụng của thuật toán phân loại Naive Bayes.......................20
2.1.6. Các loại mơ hình của Nạve Bayes.............................................21
2.2. Tổng quan về đề tài....................................................................................22
2.2.1. Tính cấp thiết việc xây dựng đề tài............................................22
2.2.2. Mục đích.....................................................................................23
2.2.3. Ý nghĩa khoa học........................................................................24
2.2.4. Ý nghĩa thực tiễn........................................................................24
2.3. Phân tích bài tốn.......................................................................................24
2.3.1. Tạo bảng csdl dạng CSV............................................................24
2.3.2. Xử lý dữ liệu...............................................................................25


CHƯƠNG III: XÂY DỰNG CHƯƠNG TRÌNH...........................................28
3.1. Chương trình mã code................................................................................28
3.2. Chạy và hiển thị kết quả.............................................................................29
KẾT LUẬN.....................................................................................................35
4.1. Những kỹ năng học được trong quá trình thực hiện đề tài....................35
4.2. Bài học kinh nghiệm.............................................................................35
4.3. Hướng phát triển...................................................................................35

TÀI LIỆU THAM KHẢO...............................................................................36


1
LỜI NÓI ĐẦU
Trong những năm gần đây, cùng với chức năng khai thác có tính chất
tác nghiệp, việc khai thác các cơ sở dữ liệu phục cụ các yêu cầu trợ giúp
quyết định ngày càng có ý nghĩa và quan trọng và là nhu cầu to lớn trong mọi
lĩnh vực hoạt động kinh doanh, quản lý kinh tế cũng như nghiên cứu khoa
học, thống kê tình hình phát triển các hội, dân số… Dữ liệu được lưu trữ và
thu nhập ngày càng nhiều nhưng người ra quyết định lại cần những thông tin
dưới dạng “tri thức” rút ra từ những nguồn dữ liệu đó hơn là chính những dữ
liệu đó cho việc ra quyết định.
Quá trình ra quyết định cần có nhiều phương pháp hỗ trợ, trong số
những phương pháp đó thì Dự báo, dự đốn là một phương pháp được sử
dụng phổ biến và kết quả chính là đầu vào cần thiết trong quá trình đưa ra ý
kiến chủ quan chung sau khi thảo luận.
Với đề tài “Ứng dụng thuật toán Naive bayes trong giải quyết bài toán
chuẩn đoán bệnh tiểu đường” nhóm em đã tạo ra một cơng cụ chuẩn đốn
bệnh tốt hơn, chính xác hơn để ứng dụng tốt cho các cơng tác y học.
Để hồn thành được đề tài lớn này, chúng em xin được gửi lời cảm ơn
chân thành nhất đến thầy giáo ThS. Trần Thanh Hùng đã giúp đỡ và đưa ra
những lời góp ý bổ ích cho chúng em trong q trình nghiên cứu đề tài này.
Nhóm 3 đã cố gắng hồn thiện báo cáo bài tập lớn một cách tốt nhất
trong khả năng của mình, tuy nhiên khơng thể tránh được những thiếu sót.
Chúng em rất mong nhận được sự góp ý của các thầy cơ để đề tài này của
nhóm được hồn thiện hơn.
Nhóm em xin chân thành cảm ơn!



2

CHƯƠNG I: LÝ THUYẾT HỆ HỖ TRỢ RA QUYẾT ĐỊNH
1.1. Ra quyết định

1.1.1. Khái niệm
“Ra quyết định là một quá trình lựa chọn có ý thức giữa hai hoặc nhiều
phản ánh để chọn ra một phản ánh và phản ánh này sẽ tạo ra được một kết quả
mong muốn trong các điều kiện ràng buộc đã biết”.
- Quyết định có thể là nhận thức ở dạng mô tả
- Quyết định có thể là nhận thức ở dạng q trình
- Quyết định có thể là một hoạt động giàu ý thức
- Quyết định có thể là những thay đổi trạng thái kiến thức
1.1.2. Vai trò
Tại sao phải hỗ trợ ra quyết định?
- Nhu cầu hỗ trợ ra quyết định:
 Ra quyết định luôn cần xử lý kiến thức;
 Kiến thức là nguyên liệu và thành phẩm của ra quyết định, cần
được sở hữu hoặc tích lũy bởi người ra quyết định.
- Giới hạn về nhận thức: trí nhớ con người là có hạn trong khi con
người có vơ vàn các mối quan hệ cần phải nhớ ra quyết định.


3
- Giới hạn về kinh tế: vấn đề kinh tế cho dự án ln có hạn nên để có
một dự án thành cơng thì phải có kế hoạch sử dụng kinh phí hợp lý.
- Giới hạn về thời gian: một dự án khơng thể kéo dài mà phải có kế
hoạch thực hiện trong một khoảng thời gian nhất định, như vậy cần
có kế hoạch phân cơng cơng việc phù hợp để kịp tiến độ, đảm bảo
chất lượng.

- Áp lực cạnh tranh: kế hoạch và chiến lược thực hiện dự án hợp lý,
chính xác ln tạo nên thế mạnh cho doanh nghiệp trong cuộc cạnh
tranh.
Bản chất của hỗ trợ ra quyết định:
- Quyết định có cấu trúc đến phi cấu trúc;
- Cung cấp thông tin, tri thức;
- Thể hiện qua tương tác người – máy;
- Thể hiện qua mô phỏng
1.2. Hệ hỗ trợ ra quyết định
1.2.1. Khái niệm
Trong thập niên 1970, Scott Morton đưa ra khái niệm đầu tiên về hệ hỗ
trợ ra quyết định (Decision Support Systems – DSS). Ông định nghĩa DSS là
hệ thống dựa trên máy tính, có tính tương tác, giúp các nhà ra quyết định
dùng dữ liệu và mơ hình để giải quyết các bài tốn phi cấu trúc.
DSS kết hợp trí lực của con người với năng lực của máy tính để cải tiến
chất lượng của quyết định. Đây là các hệ dựa vào máy tính hỗ trợ cho người
ra quyết định giải các bài toán nửa cấu trúc (Keen and Scott Morton, 1978).
DSS là tập các thủ tục dựa trên mơ hình nhằm xử lý dữ liệu và phán
đoán của con người để giúp nhà quản lý ra quyết định (Little, 1970).
Nhu cầu về DSS: Những năm 1980, 1990 điều tra các công ty lớn cho thấy:


4
- Kinh tế thiếu ổn định
- Khó theo dõi vận hành của doanh nghiệp
- Cạnh tranh gay gắt
- Bộ phận IT quá bận, không giải quyết được các yêu cầu quản lý
- Cần phân tích lợi nhuận, hiệu quả và thơng tin chính xác, mới, kịp
thời
- Giảm giá phí hoạt động

- Xu hướng tính tốn của người dùng
1.2.2. Vai trị hệ hỗ trợ ra quyết định
Lý do sử dụng DSS:
- Cải thiện tốc độ tính tốn;
- Tăng năng suất của cá nhân liên đới;
- Cải tiến kỹ thuật trong việc lưu trữ, tìm kiếm, trao đổi dữ liệu trong
và ngồi tổ chức theo hướng nhanh và kinh tế;
- Nâng cao chất lượng của các quyết định đưa ra;
- Tăng cường năng lực cạnh tranh của tổ chức;
- Khắc phục khả năng hạn chế của con người trong việc xử lý và lưu
chứa thông tin.
Các hỗ trợ từ DSS:
- Cung cấp thông tin trạng thái và dl thô
- Khả năng phân tích tổng qt
- Mơ hình biểu diễn (cân đối tài chính), mơ hình nhân quả (dự báo,
chuẩn đốn)
- Đề nghị giải pháp, đánh giá
- Chọn lựa giải pháp
1.3. Quá trình ra quyết định của hệ hỗ trợ ra quyết định


5
1.3.1. Phân loại quyết định
Có thể phân ra 4 loại quyết định sau:
- Quyết định có cấu trúc (Structured Decision): các quyết định mà
người ra quyết định biết chắc chắn đúng.
- Quyết định khơng có cấu trúc (Nonstructured Decision): các quyết
định mà người ra quyết định biết là có nhiều câu trả lời gần đúng và
khơng có cách nào tìm ra câu trả lời chính xác nhất.
- Quyết định đệ quy (Recurring Decision): các quyết định lặp đi, lặp

lại
- Quyết định không đệ quy (Nonrecurring Decision): các quyết định
không xảy ra thường xuyên.
1.3.2. Các giai đoạn của quá trình ra quyết định
Theo Simon, các giai đoạn của quá trình ra quyết định gồm các pha:
- Tìm hiểu - bài tốn dẫn đến quyết định;
- Thiết kế - phân tích và xây dựng các diễn trình hành động;
- Chọn lựa - chọn một diễn trình trong tập diễn trình;
- Thực hiện - thực hiện các quyết định để có được kết quả.


6

1.4. Kiến trúc chung hệ hỗ trợ ra quyết định


7

Trong đó:
- Quản trị dữ liệu: bao gồm các CSDL chứa dữ liệu liên quan đến một
tìnhhuống và được quản lý bởi phần mềm là hệ quản trị CSDL (quản
lý và khai thác).
- Quản trị mơ hình: cho phép khai thác và quản lý các mơ hình định
lượng (xử lý) khác nhau, cung cấp khả năng phân tích cho hệ thống.
- Quản trị đối thoại: cung cấp giao diện cho người dùng để liên lạc và
ra lệnh cho Hệ hỗ trợ quyết định.
- Quản trị tri thức: hoạt động như 1 thành phần độc lập, hoặc có thể trợ
giúp cho bất kỳ 1 hệ thống nào trong 3 hệ thống nói trên.
1.5. Mơ hình ra quyết định
Mơ hình ra quyết định là một lĩnh vực khoa học quản trị nhằm tìm ra

phương pháp tối ưu hoặc hiệu quả nhất của việc sử dụng các nguồn lực có hạn
để có thể đạt được các mục tiêu của một cá nhân hoặc một doanh nhiệp đưa


8
ra. Vì lý do này, mơ hình ra quyết định thường được hiểu với một nghĩa khác
là Tối ưu hóa.
Mơ hình ra quyết định thường chỉ áp dụng hai giai đoạn đầu của tiến
trình ra quyết định đó là các tình huống quản lý và đưa ra các quyết định còn
lại các bước thực hiện quyết định và đo lường kết quả đạt được khi ra quyết
định thì khơng được đề cập đến.

Triết lý về ra quyết định mỗi cách tiếp cận đối với các vấn đề khác
nhau, phụ thuộc rất nhiều vào môi trường xung quanh, nền tảng kiến thức,
kinh nghiệm, trạng thái tâm lý.
Có nhiều mơ hình ra quyết định, nổi bật nhất là:
- Mơ hình tỷ lệ: xem ra quyết định là một q trình có cấu trúc, rút gọn
bài toán thành lập các tham số đo được.
- Mơ hình tổ chức: quan tâm nhiều đến các chính sách, định hướng
tiếp theo, quan tâm nhiều tới việc định tính.
- Mơ hình chính trị: kết quả của liên kết nhóm, thể hiện các khả năng
cá nhân.
1.6. Mục đích xây dựng hệ hỗ trợ ra quyết định
Mục đích chính của việc sử dụng DSS là trình bày thơng tin cho khách
hàng một cách dễ hiểu. Một DSS rất hữu ích vì nó có thể được lập trình để tạo
nhiều loại báo cáo, tất cả dựa trên thông số kĩ thuật của người dùng.
DSS trợ giúp các hoạt động ra quyết định. Hệ thống này có rất nhiều ưu
điểm nổi trội, cung cấp cho người dùng những thông tin hữu ích một cách linh
hoạt.



9
Cung cấp các công cụ trợ giúp việc phát triển và cải thiện các mơ hình
nhận thức (về nhân và quả) của người ra quyết định bằng cách cung cấp dữ
liệu nhanh, đúng & áp dụng các mơ hình tốn học.
1.7. Tính cần thiết của hệ hỗ trợ ra quyết định
- Nghiên cứu và hoạch định tiếp thị: Chính sách giá cho kháchhàng,
dự báo sản phẩm tiêu thụ…
- Hoạch định chiến lược và vận hành: Theo dõi, phân tích và báo cáo
về xu hướng thị trường…
- Hỗ trợ bán hàng: Chi tiết và tổng hợp tình hình bán hàng, so sánh và
phân tích xu hướng bán hàng…
1.8. Phạm vi ứng dụng của hệ hỗ trợ ra quyết định
Ở đâu:
- Ở các quyết định hàng ngày.
- Các quyết định có tính chiến thuật:chọn 1 phương sách thích hợp để
đáp ứng 1 mục tiêu nào đó như chuẩn bị ngân sách, quản lý tài chính.
- Các quyết định có tính chiến lược:quyết định chính sách dài hạn, đầu
tư dài hạn, tổ chức lại cơ quan, chiến lược tiếp thị.
Khi nào:
- Tài chính: mua trang thiết bị, phần mềm.
- Tổ chức: thích hợp.
- Hiệu quả và rủi ro: giảm rủi ro, không phải là hồn vốn
Các loại bài tốn áp dụng:
- Đơn giản.
- Có nhiều phương án chọn hơn, hàm đánh giá đơn giản.
- Phức tạp: đa chỉ tiêu.
- Rất phức tạp: vượt quá khả năng xử lý của con người.



10
Như thế nào:
- Thân thiện với người sử dụng về giao diện.
- Tính cập nhật thường xuyên cập nhật trong môi trường biến động.
- Độ chi tiết đảm bảo yêu cầu người sử dụng.
- Tần suất sử dụng cao, tính thuận tiện: mềm dẻo, thiết kế tốt
1.9. Môi trường ra quyết định
Các yếu tố tác động: trực tiếp dễ nhìn ra, dễ lượng hố, dễ nhìn, dễ
hiểu, dễ cấu trúc hoá.
Các yếu tố về tổ chức tác động đến mọi bài tốn quyết định:
- Chính sách: luật, mệnh lệnh, quan hệ, vay, trả.
- Cấu trúc tổ chức: cách quản lý, cách điều hành, quy chế.
- Uy tín của tổ chức có thể lượng hố.
- Con người trong tổ chức: hành vi văn hoá, thái độ nhân cách.
Các yếu tố ngoại cảnh:
- Tình hình kinh tế.
- Tình hình thị trường.
- Tình hình mơi trường.
- Pháp luật: chính sách có thể thay đổi cịn pháp luật khó thay đổi.
- Sự chấp nhận của khách hàng.
Các yếu tố thông tin:
- Khả năng liên lạc.
- Độ bảo mật của thông tin.
- Độ tin cậy của thơng tin: sự chính xác, mức độ cập nhật của
thông tin.
- Các giải pháp thông tin tổng hợp, đa dạng, tỉ mỉ chi tiết.
- Giá cả của thông tin: thu nhập, truyền, xử lý.


11

Các mục tiêu về quản lý:
- Sự vận hành: kinh tế, hiệu quả, chất lượng, an toàn.
- Định lượng hay định tính.
- Mức độ rõ ràng của mơi trường ra quyết định: rõ, ẩn hay mờ.
Phân loại môi trưởng ra quyết định:
- Môi trường truy nhập được và không truy nhập được.
- Môi trường tất định, không tất định.
- Môi trường tĩnh, động.
- Môi trường chắc chắn, không chắc chắn.
1.10. Các yếu tố ảnh hưởng đến ra quyết định
Trực tiếp, dễ nhìn thấy, dễ hiểu như là:
-

Hạn chế về tài nguyên (ràng buộc ngân sách, khả năng phát triển
sản xuất,...)

-

Điều kiện vật lý (các tham số đo, các khoảng cách liên hệ,...)

-

Các tham số chức năng ảnh hưởng đến hiệu quả (tỷ lệ sản xuất,
độ tin cậy của nhà cung cấp, chất lượng sản phẩm, tay nghề nhân
công, tỷ lệ sai hỏng, chỉ số kinh tế,...

Các yếu tố tổ chức:
-

Chính sách: các luật mệnh lệnh, các quan hệ, sự vay trả, sự định

hướng thực hiện.

-

Cấu trúc: vị trí địa lý, cách quản lý, nghiên cứu – phát triển, cách
điều hành (tập trung, phân cấp, ma trận).

-

Hình ảnh (uy tín): uy tín xã hội (cơng cộng), uy tín kinh doanh
(thỏa mãn khách hàng, đảm bảo tài chính), uy tín trong nội bộ
(không mâu thuẫn).


12
-

Con người: điều kiện xã hội, ý thức chấp hành, hành vi văn hóa,
thái độ, nhân cách.

Các yếu tố ngoại cảnh:
-

Pháp luật, các quy định cần tuân thủ (thời gian sản xuất, môi
trường sản xuất, luật chất thải, giới hạn giá cả, xuất khẩu,...)

-

Kinh tế: sự đầu tư tài chính, giá cả, thuế.


-

Môi trường: thời tiết, yếu tố địa lý, thiên tai.

-

Thị trường: sự cạnh tranh, phát triển công nghệ mới.

-

Đòi hỏi của khách hàng, nhu cầu của khách hàng.

Yếu tố thông tin:
-

Khả năng thông tin: độ bảo mật, khả năng truyền thông, phương
tiện lưu trữ, nguồn, kênh thông tin (bên trong, bên ngồi).

-

Độ tin cậy: sự chính xác, cập nhật, chuẩn mực.

-

Giải pháp: thông tin tỉ mỉ, tổng hợp, đa dạng.

-

Giá cả: cho thu thập, chuẩn bị, kiểm tra, bảo hành thơng tin, cả
về thời gian tính và địi hỏi phần cứng.



13

CHƯƠNG II: ỨNG DỤNG THUẬT TOÁN NAIVE BAYES TRONG
GIẢI QUYẾT BÀI TOÁN CHUẨN ĐOÁN BỆNH TIỂU ĐƯỜNG
2.1. Tổng quan về Naive Bayes
2.1.1. Thuật toán Naive Bayes
Naive Bayes Classification (NBC) là một thuật toán dựa trên định lý
Bayes về lý thuyết xác suất để đưa ra các phán đoán cũng như phân loại dữ
liệu dựa trên các dữ liệu được quan sát và thống kê. Naive Bayes
Classification là một trong những thuật toán được ứng dụng rất nhiều trong
các lĩnh vực Machine learning dùng để đưa các dự đốn chính xác nhất dự
trên một tập dữ liệu đã được thu thập, vì nó khá dễ hiểu và độ chính xác cao.
Nó thuộc vào nhóm Supervised Machine Learning Algorithms (thuật tốn học
có hướng dẫn), tức là máy học từ các ví dụ từ các mẫu dữ liệu đã có.
2.1.1.1. Định luật Bayes
Định luật Bayes được phát biểu như sau:
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu
nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất này được ký hiệu
là P(A|B), và đọc là “xác suất của A nếu có B”. Đại lượng này được gọi xác
suất có điều kiện hay xác suất hậu nghiệm vì nó được rút ra từ giá trị được
cho của B hoặc phụ thuộc vào giá trị đó.
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:
- Xác suất xảy ra A của riêng nó, khơng quan tâm đến B. Kí hiệu
là P(A) và đọc là xác suất của A. Đây được gọi là xác suất biên duyên
hay xác suất tiên nghiệm, nó là “tiên nghiệm” theo nghĩa rằng nó
khơng quan tâm đến bất kỳ thơng tin nào về B.



14
- Xác suất xảy ra B của riêng nó, khơng quan tâm đến A. Kí hiệu
là P(B) và đọc là “xác suất của B”. Đại lượng này còn gọi là hằng số
chuẩn hóa (normalising constant), vì nó ln giống nhau, không phụ
thuộc vào sự kiện A đang muốn biết.
- Xác suất xảy ra B khi biết A xảy ra. Kí hiệu là P(B|A) và đọc là “xác
suất của B nếu có A”. Đại lượng này gọi là khả năng (likelihood) xảy
ra B khi biết A đã xảy ra. Chú ý không nhầm lẫn giữa khả năng xảy ra
B khi biết A và xác suất xảy ra A khi biết B.
2.1.1.2. Thuật tốn phân lớp Nạve Bayes
a. Định lý bayes:

Cơng thức Bayes tổng quát


15

Trong đó ta gọi A là một chứng cứ (evidence) (trong bài toán phân lớp
A sẽ là một phần tử dữ liệu), B là một giả thiết nào để cho A thuộc về một lớp
C nào đó. Trong bài tốn phân lớp chúng ta muốn xác định giá trị P(B/A) là
xác suất để giả thiết B là đúng với chứng cứ A thuộc vào lớp C với điều kiện
ra đã biết các thông tin mô tả A. P(B|A) là một xác suất hậu nghiệm (posterior
probability hay posteriori probability) của B với điều kiện A.
Giả sử tập dữ liệu liệu khách hàng của chúng ta được mơ tả bởi các
thuộc tính tuổi và thu nhập, và một khách hàng X có tuổi là 25 và thu nhập là
2000$. Giả sử H là giả thiết khách hàng đõ sẽ mua máy tính, thì P(H|X) phản
ánh xác xuất người dùng X sẽ mua máy tính với điều kiện ta biết tuổi và thu
nhập của người đó.
Ngược lại P(H) là xác suất tiền nghiệm (prior probability hay priori
probability) của H. Trong ví dụ trên, nó là xác suất một khách hàng sẽ mua

máy tính mà không cần biết các thông tin về tuổi hay thu nhập của họ. Hay
nói cách khác, xác suất này không phụ thuộc vào yếu tố X. Tương tự, P(X|H)
là xác suất của X với điều kiện H (likelihood), nó là một xác suất hậu nghiệm.
Ví dụ, nó là xác suất người dùng X (có tuổi là 25 và thu nhập là $200) sẽ mua
máy tính với điều kiện ta đã biết người đó sẽ mua máy tính. Cuối cùng P(X)


16
là xác suất tiền nghiệm của X. Trong ví dụ trên, nó sẽ là xác xuất một người
trong tập dữ liệu sẽ có tuổi 25 và thu nhập $2000.
Posterior = Likelihood * Prior / Evidence
b. Phân lớp Naive Bayes
Bộ phân lớp Naive bayes hay bộ phân lớp Bayes (simple byes
classifier) hoạt động như sau:
Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần tử dữ liệu X được
biểu diễn bằng một vector chứa n giá trị thuộc tính A1, A2,...,An = {x1,x2,...,xn}
Giả sử có m lớp C1, C2,..,Cm. Cho một phần tử dữ liệu X, bộ phân lớp sẽ
gán nhãn cho X là lớp có xác suất hậu nghiệm lớn nhất. Cụ thể, bộ phân lớp
Bayes sẽ dự đoán X thuộc vào lớp Ci nếu và chỉ nếu:
P(Ci|X) > P(Cj|X) (1<= i, j <=m, i != j)
Giá trị này sẽ tính dựa trên định lý Bayes.
Để tìm xác suất lớn nhất, ta nhận thấy các giá trị P(X) là giống nhau với
mọi lớp nên khơng cần tính. Do đó ta chỉ cần tìm giá trị lớn nhất của P(X|C i)
* P(Ci). Chú ý rằng P(Ci) được ước lượng bằng |D i|/|D|, trong đó Di là tập các
phần tử dữ liệu thuộc lớp C i. Nếu xác suất tiền nghiệm P(C i) cũng khơng xác
định được thì ta coi chúng bằng nhau P(C1) = P(C2) = ... = P(Cm), khi đó ta chỉ
cần tìm giá trị P(X|Ci) lớn nhất.
Khi số lượng các thuộc tính mơ tả dữ liệu là lớn thì chi phí tính tồn
P(X|Ci) là rất lớn, dó đó có thể giảm độ phức tạp của thuật tốn Naive Bayes
giả thiết các

thuộc tính độc lập nhau. Khi đó ta có thể tính:
P(X|Ci) = P(x1|Ci)...P(xn|Ci)
Ví dụ 1:


17
Phân các bệnh nhân thành 2 lớp ung thư và không ung thư. Giả sử xác
suất để một người bị ung thư là 0.008 tức là P(cancer) = 0.008; và
P(nocancer) = 0.992. Xác suất để bệnh nhân ung thư có kết quả xét nghiệm
dương tính là 0.98 và xác suất để bệnh nhân khơng ung thư có kết quả dương
tính là 0.03 tức là P(+/cancer) = 0.98, P(+/nocancer) = 0.03. Bây giờ giả sử
một bệnh nhân có kết quả xét nghiệm dương tính. Ta có:
P(+/canncer)P(cancer) = 0.98 * 0.008 = 0.0078
P(+/nocancer)P(nocancer) = 0.03 * 0.992 = 0.0298
Như vậy, P(+/nocancer)P(nocancer) >>
P(+/cancer)P(cancer).
Do đó ta xét đốn rằng, bệnh nhân là khơng ung thư.
Ví dụ 2:
Cơ sở dữ liệu khách hàng:
ID Tuổi

Thu nhập

Sính viên Đánh giá tín dụng

Mua máy tính

1

youth


high

no

fair

no

2

youth

high

no

excellent

no

3

middle

high

no

fair


yes

4

senior

medium

no

fair

yes

5

senior

low

yes

fair

yes

6

senior


low

yes

excellent

no

7

middle

low

yes

excellent

yes

8

youth

medum

no

fair


yes

9

youth

low

yes

fair

yes

10 senior

medium

yes

fair

yes

11 youth

medium

yes


excellent

yes

12 middle

medium

no

excellent

yes



×