MỤC LỤC
TRANG PHỤ BÌA
LỜI CAM ĐOAN
LỜI CẢM ƠN
MỤC LỤC
MỞ ĐẦU 1
CHƢƠNG I: KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC 3
1.1. Khai phá dữ liệu 3
1.1.1. Khái niệm 3
1.1.2. Khai phá dữ liệu và phát hiện tri thức 4
1.1.3. Quá trình phát hiện tri thức từ cơ sở dữ liệu 4
1.1.3.1. Xác định bài toán 5
1.1.3.2. Thu thập và tiền xử lý 5
1.1.3.3. Khai phá dữ liệu và rút ra các tri thức 6
1.1.3.4. Phát biểu và đánh giá kết quả 6
1.1.3.5. Sử dụng tri thức đã phát hiện 6
1.2. Các phƣơng pháp khai phá dữ liệu 7
1.2.1. Phƣơng pháp quy nạp . 7
1.2.2. Cây quyết định và luật 7
1.2.3. Khai phá luật kết hợp 8
1.2.3.1. Giới thiệu 8
1.2.3.2. Các khái niệm cơ bản 8
1.2.3.3. Thuật toán khai phá dữ liệu bằng luật kết hợp 9
1.2.4. Mạng Neuron 11
1.2.5. Giải thuật di truyền 11
1.3. Ứng dụng của khai phá dữ liệu 12
CHƢƠNG II: HỆ HỖ TRỢ RA QUYẾT ĐỊNH VÀ MÔ HÌNH HỖ TRỢ
QUYẾT ĐỊNH 13
2.1. Hệ hỗ trợ ra quyết định 13
2.1.1. Khái niệm 13
2.1.2. Các thành phần của hệ hỗ trợ ra quyết định 14
2.1.3. Phân loại hệ hỗ trợ ra quyết định 15
2.2. Mô hình hỗ trợ quyết định 17
2.2.1. Vai trò các mô hình toán học 17
2.2.2. Các mô hình toán học hỗ trợ ra quyết định 18
2.3. Vận dụng phƣơng pháp toán học để phân lớp dữ liệu 19
2.3.1. Khái niệm về phân lớp 19
2.3.2. Các bƣớc chính để giải quyết bài toán phân lớp 20
2.3.3. Phƣơng pháp phân lớp Naive Bayesian 21
2.3.3.1. Định lý Bayes 21
2.3.3.2. Mô hình Phân lớp Naive Bayes (NBC) 22
2.3.3.3. Các bƣớc thực hiện thuật toán Naive Bayes 23
2.3.3.4. Thuật toán phân loại KQHT Naive Bayes 27
2.3.3.5. Một số ƣu điểm của phƣơng pháp Naive Bayes 28
CHƢƠNG III: PHÂN TÍCH HỒI QUY 29
3.1. Khái niệm phân tích hồi quy 29
3.1.1. Khái niệm 29
3.1.2. Một số dạng hàm cơ bản trong phân tích hồi quy 29
3.1.3. Mô hình hồi quy đơn 31
3.2. Phân tích phƣơng sai hồi quy 33
3.3. Hồi quy tuyến tính đa biến 35
3.3.1. Mô hình hồi quy 35
3.3.2. Phƣơng trình hồi quy 35
3.3.3. Phân tích phƣơng sai hồi quy 36
3.4. Phân tích hồi quy tuyến tính trong SPSS 37
3.4.1. Phân tích hồi quy tuyến tính đơn biến trong SPSS 39
3.4.2. Phân tích hồi quy tuyến tính đa biến trong SPSS 40
CHƢƠNG IV: BÀI TOÁN VÀ CHƢƠNG TRÌNH ỨNG DỤNG PHÂN LỚP
BAYES ĐỂ DỰ ĐOÁN KẾT QUẢ HỌC TẬP 43
4.1. Bài toán 43
4.3. Chƣơng trình ứng dụng 50
4.3. Kết quả thực nghiệm 53
KẾT LUẬN 54
DANH SÁCH CÁC TỪ VIẾT TẮT
DANH SÁCH CÁC HÌNH
DANH SÁCH CÁC BẢNG
TÀI LIỆU THAM KHẢO
-1-
MỞ ĐẦU
Khai phá dữ liệu (Data mining) là một lĩnh vực khoa học tiềm năng, mang lại
nhiều lợi ích thiết thực. Mục đích của việc khai phá dữ liệu là tìm ra đƣợc mối
tƣơng quan tiềm ẩn trong cơ sở dữ liệu mà các phƣơng pháp phân tích dữ liệu
truyền thống chƣa làm đƣợc hay xử lý chƣa thật sự tốt. Trong đó, khai phá dữ liệu
và phát hiện tri thức đã trở thành một lĩnh vực nghiên cứu sôi động, thu hút sự quan
tâm của rất nhiều ngƣời trên khắp các lĩnh vực khác nhau nhƣ các hệ cơ sở dữ liệu,
thống kê, chiết xuất thông tin, nhận dạng, học máy, trí tuệ nhân tạo, v.v . . .
Việc nghiên cứu khai phá dữ liệu trong lĩnh vực giáo dục đào tạo vẫn còn
chƣa đƣợc quan tâm đúng mức. Trƣớc đây, có một số nhà nghiên cứu đã sử dụng hồ
sơ học sinh, sinh viên, đặc biệt là thông tin về điểm để dự báo kết quả học tập toàn
khoá hoặc từng giai đoạn. Một số phƣơng pháp dự báo thƣờng đƣợc sử dụng: Đại
số và logic, Hồi quy tuyến tính, Cây quyết định (Decision Tree), mạng Bayes
(Bayesian Network),… Hồi quy Bayes đƣợc áp dụng cho bài toán dự đoán dùng
công thức Bayes để phân lớp, phƣơng pháp này mang lại nhiều kết quả khả quan.
Đây là phƣơng pháp học phân lớp có giám sát và dựa trên xác suất.
Kết quả học tập đƣợc xem là mức độ thành công trong học tập của học sinh
khi xem xét trong mối quan hệ với mục tiêu đã xác định, các chuẩn kiến thức và kỹ
năng đạt đƣợc so với công sức và thời gian mà ngƣời học bỏ ra.
Dựa vào các kỹ thuật nghiên cứu trên, tôi đã quyết định chọn đề tài:
“Dự đoán kết quả học tập của sinh viên trường nghề sử dụng phương pháp Hồi
quy Bayes” luận văn đã kết hợp kỹ thuật phân lớp Naive Bayes và hệ hỗ trợ ra
quyết định dự đoán kết quả cuối cùng của của sinh viên trƣờng nghề. Kết quả học
tập của học sinh đƣợc đánh giá và xếp loại theo các thứ hạng khác nhau và sau đó
sử dụng phƣơng pháp hồi quy để phân tích các yếu tố ảnh hƣởng đến kết quả học
tập của sinh viên.
Luận văn gồm có 4 chƣơng:
Chương 1: Khai phá dữ liệu và phát hiện tri thức
Chương 2: Hệ hỗ trợ ra quyết định và mô hình hỗ trợ quyết định
-2-
Chương 3: Phân tích hồi quy
Chương 4: Bài toán và chƣơng trình ứng dụng phân lớp bayes để dự đoán kết
quả học tập
-3-
CHƢƠNG I
KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC
1.1. Khai phá dữ liệu
Ƣớc tính cứ khoảng 20 tháng, lƣợng thông tin trên thế giới lại tăng gấp đôi.
Chính vì vậy, lƣợng dữ liệu mà con ngƣời thu thập và lƣu trữ đƣợc trong các kho dữ
liệu là rất lớn, nhiều khi vƣợt quá khả năng quản lý. Thời gian này, ngƣời ta bắt đầu
đề cập đến khái niệm khủng hoảng phân tích dữ liệu tác nghiệp để cung cấp thông
tin với yêu cầu chất lƣợng ngày càng cao cho những ngƣời ra quyết định trong các
tổ chức tài chính, thƣơng mại, khoa học, Đúng nhƣ John Naisbett đã cảnh báo
“Chúng ta đang chìm ngập trong dữ liệu mà vẫn đói tri thức”.
Với một khối lƣợng dữ liệu tăng nhanh và khổng lồ nhƣ vậy, rõ ràng các
phƣơng pháp thủ công truyền thống áp dụng để phân tích dữ liệu sẽ không hiệu quả,
tốn kém và dễ dẫn đến những sai lệch. Do đó để có thể khai phá hiệu quả các cơ sở
dữ liệu lớn cần phải có những kỹ thuật mới, đó là các kỹ thuật khai phá dữ liệu
(Data Mining).
Khai phá dữ liệu là một lĩnh vực khoa học khá mới, nhằm tự động hóa khai
thác những thông tin, tri thức hữu ích, tiềm ẩn trong các cơ sở dữ liệu cho các tổ
chức, doanh nghiệp, từ đó thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh
của tổ chức, doanh nghiệp này. Các kết quả nghiên cứu cùng với những ứng dụng
thành công trong khai phá dữ liệu, khám phá tri thức cho thấy khai phá dữ liệu là
một lĩnh vực khoa học tiềm năng, mang lại nhiều lợi ích, đồng thời có ƣu thế hơn
hẳn so với các công cụ phân tích dữ liệu truyền thống. Hiện nay, khai phá dữ liệu
đƣợc ứng dụng rộng rãi trong các lĩnh vực nhƣ: Phân tích dữ liệu hỗ trợ ra quyết
định, điều trị y học, tin-sinh học, thƣơng mại, tài chính, bảo hiểm, text mining, web
mining .
Do sự phát triển nhanh chóng về phạm vi áp dụng và các phƣơng pháp tìm
kiếm tri thức, nên đã có nhiều quan điểm khác nhau về khai phá dữ liệu [7].
1.1.1. Khái niệm
Khai phá dữ liệu [7] là quá trình trích xuất các thông tin có giá trị tiềm ẩn bên
trong lƣợng lớn dữ liệu đƣợc lƣu trữ trong các cơ sở dữ liệu, kho dữ liệu… Hiện
-4-
nay, ngoài thuật ngữ khai phá dữ liệu, ngƣời ta còn dùng một số thuật ngữ khác có ý
nghĩa tƣơng tự nhƣ: khai phá tri thức từ cơ sở dữ liệu (knowlegde mining from
databases), trích lọc dữ liệu (knowlegde extraction), phân tích dữ liệu/mẫu
(data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data
dredging). Nhiều ngƣời coi khai phá dữ liệu là một thuật ngữ thông dụng khác là
khám phá tri thức trong cơ sở dữ liệu (Knowlegde Discovery in Databases – KDD)
là nhƣ nhau.
1.1.2. Khai phá dữ liệu và phát hiện tri thức
Yếu tố thành công trong nhiều hoạt động là biết sử dụng thông tin có hiệu quả.
Điều đó có nghĩa là từ các dữ liệu có sẵn phải tìm ra những thông tin tiềm ẩn mà
trƣớc đó chƣa đƣợc phát hiện, tìm ra những xu hƣớng phát triển và những yếu tố tác
động lên chúng. Thực hiện công việc đó chính là quá trình phát hiện tri thức trong
cơ sở dữ liệu mà trong đó kỹ thuật cho phép ta lấy đƣợc các tri thức chính ra từ kỹ
thuật khai phá dữ liệu.
Nếu quan niệm tri thức là mối quan hệ của các mẫu giữa các phần tử dữ liệu
thì quá trình phát hiện tri thức chỉ toàn bộ quá trình chiết xuất tri thức từ cơ sở dữ
liệu, trong đó trải qua nhiều giai đoạn khác nhau nhƣ: Tìm hiểu và phát hiện vẫn đề,
thu thập và tiền xử lý dữ liệu, phát hiện tri thức, minh hoạ và đánh giá tri thức đã
phát hiện và đƣa kết quả vào thực tế.
Khai phá dữ liệu có những điểm khác nhau về mặt ngữ nghĩa so với phát
hiện tri thức từ cơ sở dữ liệu nhƣng thực tế ta thấy khai phá dữ liệu là chỉ một
giai đoạn phát hiện tri thức trong một chuỗi các giai đoạn quá trình phát hiện tri
thức trong cơ sở dữ liệu. Tuy nhiên đây là giai đoạn đóng vai trò chủ chốt và là
giai đoạn chính tạo nên tính đa ngành của phát hiện tri thức trong cơ sở dữ liệu.
1.1.3. Quá trình phát hiện tri thức từ cơ sở dữ liệu
Phát hiện tri thức từ cơ sở dữ liệu là một quá trình có sử dụng nhiều phƣơng
pháp và công cụ tin học nhƣng vẫn là một quá trình mà trong đó con ngƣời làm
trung tâm. Do đó nó không phải là một hệ thống phân tích tự động mà là một hệ
thống bao gồm nhiều hoạt động tƣơng tác thƣờng xuyên giữa con ngƣời và cơ sở dữ
liệu, tất nhiên là với sự hỗ trợ của các công cụ tin học.
-5-
Nguồn [7]
Hình 1.1: Quá trình phát hiện tri thức từ cơ sở dữ liệu
1.1.3.1. Xác định bài toán
Đây là một quá trình mang tính định hình với mục đích xác định đƣợc lĩnh vực
yêu cầu phát hiện tri thức và xây dựng bài toán tổng kết. Trong thực tế các cơ sở dữ
liệu đƣợc chuyên hoá và phân chia theo các lĩnh vực khác nhau nhƣ: Sản phẩm,
kinh doanh, tài chính, v.v…Với mỗi tri thức phát hiện đƣợc có thể có giá trị trong
lĩnh vực này nhƣng lại không mang nhiều ý nghĩa với một lĩnh vực khác. Vì vậy
việc xác định lĩnh vực và định nghĩa bài toán giúp định hƣớng cho giai đoạn tiếp
theo thu thập và tiền xử lý dữ liệu.
1.1.3.2. Thu thập và tiền xử lý
Các cơ sở dữ liệu thu đƣợc thƣờng chứa rất nhiều thuộc tính nhƣng lại không
đầy đủ, không thuần nhất, có nhiều lỗi và các giá trị đặc biệt. Vì vậy giai đoạn thu
thập và tiền xử lý dữ liệu trở nên rất quan trọng trong quá trình phát hiện tri thức từ
cơ sở dữ liệu. Có thể nói giai đoạn này chiếm từ 70%-80% giá thành trong toàn bộ
bài toán.
Ngƣời ta chia giai đoạn và tiền xử lý dữ liệu nhƣ: Gom dữ liệu, chọn dữ liệu,
làm sạch, mã hoá dữ liệu, làm giàu, đánh giá và trình diễn dữ liệu.
-6-
1.1.3.3. Khai phá dữ liệu và rút ra các tri thức
Là trích ra các mẫu hoặc các mô hình ẩn dƣới các dữ liệu, giai đoạn này rất
quan trọng bao gồm các công đoạn nhƣ: chức năng, nhiệm vụ và mục đích của khai
phá dữ liệu, dùng phƣơng pháp khai phá nào? Thông thƣờng các bài toán khai phá
dữ liệu bao gồm: Các bài toán mang tính mô tả – đƣa ra tính chất chung của dữ liệu,
bài toán dự báo – bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu hiện có.
1.1.3.4. Phát biểu và đánh giá kết quả
Các tri thức phát hiện từ cơ sở dữ liệu cần đƣợc tổng hợp dƣới dạng các báo
cáo phục vụ cho các mục đích hỗ trợ các quyết định khác nhau.
Do nhiều phƣơng pháp khai thác có thể đƣợc áp dụng nên các kết quả có mức độ
tốt, xấu khác nhau. Việc đánh giá các kết quả thu đƣợc là cần thiết, các tri thức phát
hiện từ cơ sở dữ liệu cần đƣợc tổng hợp dƣới dạng các báo cáo phục vụ cho các mục
đích hỗ trợ các quyết định khác nhau.
Do nhiều phƣơng pháp khai thác có thể đƣợc áp dụng nên các kết quả có mức độ
tốt, xấu khác nhau. Việc đánh giá các kết quả thu đƣợc là cần thiết, giúp tạo cơ sở cho
những quyết định chiến lƣợc. Thông thƣờng, chúng đƣợc tổng hợp, so sánh bằng các
biểu đồ và đƣợc kiểm nghiệm.
1.1.3.5. Sử dụng tri thức đã phát hiện
Củng cố, tinh chế các tri thức đã đƣợc phát hiện. Kết hợp các tri thức thành hệ
thống. Giải quyết các xung đột tiềm tàng trong tri thức khai thác đƣợc. Sau đó tri
thức đƣợc chuẩn bị sẵn sàng cho ứng dụng.
Các kết quả của quá trình phát hiện tri thức có thể đƣợc đƣa vào ứng dụng
trong những lĩnh vực khác nhau. Do các kết quả có thể là các dự báo hoặc các mô tả
nên chúng có thể đƣợc đƣa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá
quá trình này [7].
-7-
1.2. Các phƣơng pháp khai phá dữ liệu
1.2.1. Phƣơng pháp quy nạp
Một cơ sở dữ liệu là một kho thông tin nhƣng các thông tin quan trọng hơn
cũng có thể đƣợc suy diễn từ kho thông tin đó. Có hai kỹ thuật chính để thực hiện
việc này là suy diễn và quy nạp.
Phương pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông
tin trong cơ sở dữ liệu. Phƣơng pháp suy diễn dựa trên các sự kiện chính xác
để suy ra các tri thức mới từ các thông tin cũ. Mẫu chiết xuất đƣợc bằng cách
sử dụng phƣơng pháp này thƣờng là các luật suy diễn.
Phương pháp quy nạp: Phƣơng pháp quy nạp suy ra các thông tin đƣợc sinh ra
từ cơ sở dữ liệu. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ
không phải bắt đầu với các tri thức đã biết trƣớc. Các thông tin mà phƣơng pháp
này đem lại là các thông tin hay các tri thức cấp cao diễn tả về các đối tƣợng
trong cơ sở dữ liệu. Phƣơng pháp này liên quan đến việc tìm kiếm các mẫu
trong CSDL. Trong khai phá dữ liệu, quy nạp đƣợc sử dụng trong cây quyết
định và tạo luật.
1.2.2. Cây quyết định và luật
Cây quyết định: Cây quyết định là một mô tả tri thức dạng đơn giản nhằm
phân các đối tƣợng dữ liệu thành một số lớp nhất định. Các nút của cây đƣợc gán
nhãn là tên các thuộc tính, các cạnh đƣợc gán các giá trị có thể của các thuộc tính,
các lá mô tả các lớp khác nhau. Các đối tƣợng đƣợc phân lớp theo các đƣờng đi trên
cây, qua các cạnh tƣơng ứng với các giá trị, thuộc tính của đối tƣợng tới lá.
Tạo luật: Các luật đƣợc tạo ra nhằm suy diễn một số mẫu dữ liệu có ý nghĩa
về mặt thống kê. Các luật có dạng Nếu P thì Q, với P là mệnh đề đúng với một phần
trong CSDL, Q là mệnh đề dự đoán.
Cây quyết định và luật có ƣu điểm là hình thức mô tả đơn giản, mô hình suy
diễn khá dễ hiểu đối với ngƣời sử dụng. Tuy nhiên, giới hạn của nó là mô tả cây và
luật chỉ có thể biểu diễn đƣợc một số dạng chức năng và vì vậy giới hạn về cả độ
chính xác của mô hình.
-8-
1.2.3. Khai phá luật kết hợp
1.2.3.1. Giới thiệu
Khai phá luật kết hợp [8]: Là tìm các mẫu phổ biến, sự kết hợp, sự tƣơng
quan, hay các cấu trúc nhân quả giữa các tập đối tƣợng trong các cơ sở dữ liệu giao
tác, cơ sở dữ liệu quan hệ, và những kho thông tin khác.
1.2.3.2. Các khái niệm cơ bản
- Gọi I = {I
1
, I
2
, , I
m
} là tập m thuộc tính riêng biệt, mỗi thuộc tính gọi là
một mục.
- Gọi D là một cơ sở dữ liệu chứa n giao dịch, trong đó mỗi bản ghi T là một
giao dịch và chứa các tập mục, X I. T đƣợc gán nhãn với một định danh
duy nhất.
- Ta nói rằng, một giao dịch T D hỗ trợ một tập X I nếu nó chứa tất cả
các mục của X.
- Một tập mục X đƣợc gọi là tập mục k phần tử (k-itemset) nếu lực lƣợng của
X bằng k (tức là |X|=k).
Định nghĩa 1: Độ hỗ trợ của X, ký hiệu support(X), là tỷ lệ phần trăm của các giao
dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là:
Định nghĩa 2: Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các mục,
X, Y I và
- X đƣợc gọi là tiên đề .
- Y đƣợc gọi là hệ quả của luật.
Hai thông số quan trọng của luật kết hợp là độ hỗ trợ (support) và độ tin cậy
(confidence).
Định nghĩa 3: Độ hỗ trợ (support) của luật kết hợp X => Y là tỷ lệ phần trăm giữa
số lƣợng các giao dịch chứa cả X và Y với tổng số các giao dịch có trong cơ sở dữ
liệu. Đơn vị tính %.
-9-
Ý nghĩa của độ hỗ trợ và độ tin cậy:
- Độ hỗ trợ của luật biểu diễn "sức mạnh" của luật. Luật có ảnh hƣởng nhƣ
thế nào trong toàn bộ hệ thống.
- Độ tin cậy biểu diễn mức độ "đúng" của quy tắc X =>Y
1.2.3.3. Thuật toán khai phá dữ liệu bằng luật kết hợp
Giới thiệu bài toán
Bài toán đƣợc phát biểu: Cho một cơ sở dữ liệu giao dịch D, tìm tất cả các luật
kết hợp với độ hỗ trợ tối thiểu minsup và độ tin cậy tối thiểu minconf.
Bài toán đƣợc chia làm hai bài toán nhỏ:
[BT1] Tìm tất cả các tập mục có độ hỗ trợ lớn hơn hay bằng minsup cho
trƣớc (tập mục phổ biến).
[BT2] Sử dụng các tập mục phổ biến để sinh ra các luật kết hợp với độ tin
cậy minconf cho trƣớc [8].
Thuật toán Apriori [8]
Đầu vào: CSDL giao dịch D và ngƣỡng phổ biến minsup
Đầu ra: FIs chứa tất cả các tập phổ biến của D
Mã giả:
Gọi C
k
: Tập các ứng viên có kích thƣớc k
L
k
: Các tập phổ biến có kích thƣớc k
-10-
Ví dụ:
Cho CSDL dƣới đây, minsup = 50%, confsup = 60%. Tìm luật kết hợp
TID
Tập các mục trong giao dịch
1
Bánh mì, Bơ, Trứng
2
Bơ, Sữa, Trứng
3
Bơ
4
Bánh mì, Bơ
C1:
Tập mục
Độ hỗ trợ
Bánh mì
50%
Bơ
100%
Trứng
50%
Sữa
25%
L1: loại bỏ tập mục có sup<50%
Tập mục
Độ hỗ trợ
Bánh mì
50%
Bơ
100%
Trứng
50%
Kết nối L1 & L1 ta đƣợc C2:
Tập mục
Độ hỗ trợ
Bánh mì, Bơ
50%
Bánh mì, Trứng
0%
Trứng, Bơ
50%
Loại bỏ tập mục có sup < 50%
Ta đƣợc C2:
Tập mục
Độ hỗ trợ
Bánh mì, Bơ
50%
Trứng, Bơ
50%
-11-
Kết nối L2 & L2 ta đƣợc . Ta đƣợc tập mục thƣờng xuyên thỏa mãn
minsup=50% là: X={{Bánh mì, Bơ};{Bơ};{Trứng};{Bánh mì, Bơ};{Trứng, Bơ}}.
1.2.4. Mạng Neuron
Mạng Neuron là tiếp cận tính toán mới liên quan tới việc phát triển cấu trúc
toán học và khả năng học. Các phƣơng pháp là kết quả của việc nghiên cứu mô hình
học của hệ thống thần kinh con ngƣời.
Mạng Neuron có thể đƣa ra ý nghĩa từ các dữ liệu phức tạp hoặc không chính
xác và có thể đƣợc sử dụng để chiết xuất các mẫu và phát hiện ra các xu hƣớng quá
phức tạp mà con ngƣời cũng nhƣ các kỹ thuật máy tính khác không thể phát hiện
đƣợc. Khi đề cập đến khai thác dữ liệu, ngƣời ta thƣờng đề cập nhiều đến mạng
Neuron. Tuy mạng Neuron có một số hạn chế gây khó khăn trong việc áp dụng và
phát triển nhƣng nó cũng có những ƣu điểm đáng kể.
Nguồn [7]
Hình 1.2: Thể hiện sơ đồ khai phá dữ liệu bằng mạng Neuron
Một trong số những ƣu điểm phải kể đến của mạng Neuron là khả năng tạo ra
các mô hình dự đoán có độ chính xác cao, có thể áp dụng đƣợc cho rất nhiều loại
bài toán khác nhau, đáp ứng đƣợc nhiệm vụ đặt ra của khai phá dữ liệu nhƣ phân
lớp, gom nhóm, mô hình hóa, dự báo các sự kiện phụ thuộc vào thời gian, v.v.
1.2.5. Giải thuật di truyền
Giải thuật di truyền, nói theo nghĩa rộng là mô phỏng lại hệ thống tiến hóa
trong tự nhiên, chính xác hơn đó là giải thuật chỉ ra tập các cá thể đƣợc hình thành,
đƣợc ƣớc lựợng và biến đổi nhƣ thế nào? Ví dụ nhƣ xác định xem làm thế nào để
Dữ liệu
Mô hình mạng
Neuron
Mẫu chiết xuất
đƣợc
-12-
lựa chọn các cá thể tạo giống và lựa chọn các cá thể nào sẽ bị loại bỏ. Giải thuật
cũng mô phỏng lại yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để có thể
giải quyết nhiều bài toán thực tế khác nhau.
Giải thuật di truyền là một giải thuật tối ƣu hóa. Nó đƣợc sử dụng rất rộng rãi
trong việc tối ƣu hóa các kỹ thuật khai phá dữ liệu trong đó có kỹ thuật mạng
Neuron. Sự liên hệ của nó với các quá trình khai phá dữ liệu. Ví dụ nhƣ trong kỹ
thuật cây quyết định, tạo luật. Nhƣ đã đề cập ở phần trƣớc, các luật mô hình hóa dữ
liệu chứa các tham số đƣợc xác định bởi các giải thuật phát hiện tri thức.
1.3. Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều ngành học khác nhƣ: Hệ
CSDL, thống kê, trực quan hoá.v.v. Hơn nữa, tuỳ vào cách tiếp cận đƣợc sử dụng,
khai phá dữ liệu còn có thể áp dụng một số kỹ thuật nhƣ mạng nơron, lý thuyết tập
thô, tập mờ, biểu diễn tri thức, v.v.
Phƣơng pháp hệ chuyên gia: Phƣơng pháp này khác với khai phá dữ liệu ở chỗ
các ví dụ của chuyên gia thƣờng ở mức cao hơn nhiều so với các dữ liệu trong
CSDL, và chúng thƣờng chỉ bao hàm đƣợc các trƣờng hợp quan trọng. Hơn nữa các
chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện đƣợc.
Phƣơng pháp thống kê: là một trong những nên tảng lý thuyết của khai phá dữ
liệu, nhƣng khi so sánh hai phƣơng pháp với nhau ta có thể thấy các phƣơng pháp
thống kê còn tồn tại một số điểm yếu mà khai phá dữ liệu khắc phục đƣợc.
Với nhƣng ƣu điểm đó, khai phá dữ liệu hiện đang đƣợc áp dụng một cách
rộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau nhƣ: Marketing, tài
chính, ngân hàng và bảo hiểm, khoa học, y tế, an ninh, internet.v.v. rất nhiều tổ
chức và công ty lớn trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt
động sản xuất kinh doanh của mình và thu đƣợc những lợi ích to lớn [7].
-13-
CHƢƠNG II
HỆ HỖ TRỢ RA QUYẾT ĐỊNH VÀ MÔ HÌNH
HỖ TRỢ QUYẾT ĐỊNH
2.1. Hệ hỗ trợ ra quyết định
2.1.1. Khái niệm
Trong thập niên 1970, Scott Morton đƣa ra khái niệm đầu tiên về hệ hỗ trợ ra
quyết định (Decision Support Systems - DSS). Ông định nghĩa DSS nhƣ là những
hệ thống máy tính tƣơng tác nhằm giúp những ngƣời ra quyết định sử dụng dữ liệu
và mô hình để giải quyết các vấn đề không có cấu trúc.
Hệ hỗ trợ quyết định - HHTQĐ là các hệ dựa trên máy tính, có tính tƣơng tác,
giúp các nhà ra quyết định dùng dữ liệu và mô hình để giải quyết các bài toán phi
cấu trúc (S. Morton, 1971).
HHTQĐ kết hợp trí lực của con ngƣời với năng lực của máy tính để cải tiến
chất lƣợng của quyết định. Đây là các hệ dựa vào máy tính hỗ trợ cho ngƣời ra
quyết định giải các bài toán nửa cấu trúc (Keen and Scott Morton, 1978).
HHTQĐ là tập các thủ tục dựa trên mô hình nhằm xử lý dữ liệu và phán đoán
của con ngƣời để giúp nhà quản lý ra quyết định (Little, 1970) [6].
+ Thuận lợi của hệ HHTQĐ [6]
Tăng số phƣơng án xem xét, so sánh, phân tích độ nhạy, hiệu quả.
Hiểu rõ các quan hệ nghiệp vụ trong toàn hệ thống tốt hơn
Đáp ứng nhanh trƣớc các tình huống không mong đợi, dễ điều chỉnh và
thay đổi khi cần thiết.
Có thể thực hiện các phân tích phi chính qui
Học tập và hiểu biết thêm các nguồn tài nguyên chƣa đƣợc tận dụng
Cải thiện những cách thực hiện truyền thống
Kiểm soát kế hoạch, tiêu chuẩn hoá các thủ tục tính toán
Tiết kiệm chi phí cho các thủ tục hành chính
Quyết định tốt hơn
Tinh thần đồng đội tốt hơn
-14-
Tiết kiệm thời gian
Dùng các nguồn dữ liệu tốt, có chọn lọc.
+ Các hỗ trợ mong đợi từ HHTQĐ
Thông tin trạng thái và dữ liệu thô
Khả năng phân tích tổng quát
Mô hình biểu diễn (cân đối tài chính), mô hình nhân quả (dự báo, chẩn
đoán).
Đề nghị giải pháp, đánh giá.
Chọn lựa giải pháp
2.1.2. Các thành phần của hệ hỗ trợ ra quyết định
Một Hệ hỗ trợ ra quyết định gồm có bốn thành phần chính:
Phân hệ Quản lý dữ liệu
Phân hệ Quản lý mô hình
Phân hệ Quản lý dựa vào kiến thức
Phân hệ Quản lý giao diện ngƣời dùng
Tuy nhiên không phải hệ hỗ trợ ra quyết định nào cũng có đầy đủ những
thành phần trên.
Nguồn [6]
Hình 2.1: Mô hình hệ hỗ trợ ra quyết định
-15-
Phân hệ quản lý dữ liệu (Data Management) gồm một cơ sở dữ liệu
(database) chứa các dữ liệu cần thiết của tình huống và đƣợc quản lý bởi một hệ
quản trị cơ sở dữ liệu (DBMS – Data Base Management System). Phân hệ này có
thể đƣợc kết nối với nhà kho dữ liệu của tổ chức (Data Warehouse) – là kho chứa
dữ liệu của tổ chức có liên quan đến vấn đề ra quyết định. Thực hiện công việc lƣu
trữ các thông tin của hệ và phục vụ cho việc lƣu trữ, cập nhật, truy vấn thông tin.
Phân hệ quản lý mô hình (Model Management) còn đƣợc gọi là hệ quản trị cơ
sở mô hình (MBMS – Model Base Management System) là gói phần mềm gồm các
thành phần về thống kê, tài chính, khoa học quản lý hay các phƣơng pháp định
lƣợng nhằm trang bị cho hệ thống năng lực phân tích, cũng có thể có các ngôn ngữ
mô hình hóa. Thành phần này có thể kết nối với các kho chứa mô hình của tổ chức
hay ở bên ngoài. Bao gồm các mô hình ra quyết định (DSS models) và việc quản lý
các mô hình này. Một số ví dụ của các mô hình này bao gồm: Mô hình nếu thì, Mô
hình tối ƣu, Mô hình tìm kiếm mục đích, Mô hình thống kê, v.v
Phân hệ quản lý dựa vào kiến thức có thể hỗ trợ các phân hệ khác hay hoạt
động độc lập nhằm đƣa ra tính thông minh của quyết định đƣa ra. Nó cũng có thể
đƣợc kết nối với các kho kiến thức khác của tổ chức.
Phân hệ giao diện người dùng (User Interface Management) giúp ngƣời sử
dụng giao tiếp với và ra lệnh cho hệ thống.
2.1.3. Phân loại hệ hỗ trợ ra quyết định
Hệ hỗ trợ ra quyết định đƣợc phân loại dựa trên nhiều tiêu chí. Hiện nay, vẫn
chƣa có cách phân loại thống nhất. Sau đây là 2 cách phổ biết nhất:
Theo DSS- Glossary:
Có tất cả 5 loại Hệ hỗ trợ ra quyết định:
- Hƣớng giao tiếp (Communication – Drive DSS)
- Hƣớng dữ liệu (Data-Driven DSS)
- Hƣớng tài liệu (Document-Driven DSS)
- Hƣớng tri thức (Knowledge-Driven DSS)
- Hƣớng mô hình (Model-Driven DSS)
-16-
Hƣớng giao tiếp: Hệ hỗ trợ ra quyết định sử dụng mạng và công nghệ viễn
thông để liên lạc và cộng tác. Công nghệ viễn thông bao gồm Mạng cục bộ (LAN –
Local Area Network), mạng diện rộng (WAN), Internet, ISDN, mạng riêng ảo …
là then chốt trong việc hỗ trợ ra quyết định. Các ứng dụng của hệ hỗ trợ ra quyết
định hƣớng giao tiếp là phần mềm nhóm (Groupware), hội thảo từ xa
(Videoconferencing), bản tin (Bulletin Boards) ….
Hƣớng dữ liệu: Hệ hỗ trợ ra quyết định dựa trên việc truy xuất và xử lý dữ
liệu. Phiên bản đầu tiên đƣợc gọi là Hệ chỉ dành cho việc truy xuất dữ liệu
(Retrieval-Only DSS), kho dữ liệu (DatawareHouse) là một cơ sở dữ liệu tập trung
chứa thông tin từ nhiều nguồn đồng thời sẵn sàng cung cấp thông tin cần thiết cho
việc ra quyết định, OLAP có nhiều tính năng cao cấp vì cho phép phân tích dữ liệu
nhiều chiều.
Hƣớng tài liệu: Hệ hỗ trợ ra quyết định dựa trên việc truy xuất và phân tích
các văn bản, tài liệu …. Trong một công ty, có thể có rất nhiều văn bản nhƣ chính
sách, thủ tục, biên bản cuộc họp, thƣ tín… Internet cho phép truy xuất các kho tài
liệu lớn nhƣ kho văn bản, hình ảnh, âm thanh…. Một công cụ tìm kiếm hiệu quả là
một phần quan trọng đối với các hệ hỗ trợ ra quyết định dạng này.
Hƣớng tri thức: Hệ hỗ trợ ra quyết định có thể đề nghị và đƣa ra những
tƣvấn cho ngƣời ra quyết định. Những hệ này là các hệ chuyên gia với một kiến
thức chuyên ngành cụ thể, nắm vững các vấn đề trong chuyên ngành đó và có kỹ
năng để giải quyết những vấn đề này. Các công cụ khai thác dữ liệu cũng có thể
dùng để tạo ra các hệ dạng này.
Theo Holsapple và Whinston (1996):
Phân ra 6 loại hệ hỗ trợ ra quyết định:
- Hƣớng văn bản (Text-Oriented DSS)
- Hƣớng cơ sở dữ liệu (Database-Oriented DSS)
- Hƣớng bảng tính (Spreasheet-Oriented DSS)
- Hƣớng ngƣời giải quyết (Solver-Oriented DSS)
- Hƣớng luật (Rule-Oriented DSS)
- Hƣớng kết hợp (Compound DSS)
-17-
Hƣớng văn bản: Thông tin (bao gồm dữ liệu và kiến thức) đƣợc lƣu trữ dƣới
dạng văn bản. Vì vậy hệ thống đòi hỏi lƣu trữ và xử lý các văn bản một cách hiệu
quả. Các công nghệ mới nhƣ hệ quản lý văn bản dựa trên web, Intelligent Agents
có thể đƣợc sử dụng cùng với hệ này.
Hƣớng cơ sở dữ liệu: Cơ sở dữ liệu đóng vai trò chủ yếu trong hệ này. Thông
tin trong cơ sở dữ liệu thƣờng có cấu trúc chặt chẽ, có mô tả rõ ràng. Hệ này cho
phép ngƣời dùng truy vấn thông tin dễ dàng và rất mạnh về báo cáo.
Hƣớng bảng tính: Một bảng tính là một mô hình để cho phép ngƣời dùng
thực hiện việc phân tích trƣớc khi ra quyết định. Bảng tính có thể bảo gồm nhiều
mô hình thống kê, lập trình tuyến tính, mô hình tài chính… Bảng tính phổ biến nhất
đó là Microsoft Excel. Hệ này thƣờng đƣợc dùng rộng rãi trong các hệ liên quan tới
ngƣời dùng cuối.
Hƣớng ngƣời giải quyết: Một trợ giúp là một giải thuật hay chƣơng trình để
giải quyết một vấn đề cụ thể chẳng hạn nhƣ tính lƣợng hàng đặt tối ƣu hay tính toán
xu hƣớng bán hàng. Một số trợ giúp khác phức tạp nhƣ là tối ƣu hóa đa mục tiêu.
Hệ này bao gồm nhiều trợ giúp nhƣ vậy.
Hƣớng luật: Kiến thức của hệ này đƣợc mô tả trong các quy luật thủ tục hay
lí lẽ. Hệ này còn đƣợc gọi là hệ chuyên gia. Các quy luật này có thể là định tính hay
định lƣợng. Ví dụ nhƣ hƣớng dẫn giao thông trên biển, trên bộ…
Hƣớng kết hợp: Một hệ tổng hợp có thể kết hợp hai hay nhiều hơn trong số
năm hệ trên.
2.2. Mô hình hỗ trợ quyết định
2.2.1. Vai trò các mô hình toán học
Một hệ hỗ trợ quản trị cung cấp việc hỗ trợ ra quyết định với thông tin và tri
thức đƣợc trích rút ra từ dữ liệu thông qua việc áp dụng các mô hình toán học và các
giải thuật. Trong một vài trƣờng hợp, hành động này có thể giảm bớt việc tính tổng
và phần trăm, đƣợc biểu diễn bởi các đồ thị đơn giản, trong khi đó những phân tích
thí nghiệm yêu cầu việc phát triển tối ƣu hóa nâng cao và mô hình máy học.
-18-
2.2.2. Các mô hình toán học hỗ trợ ra quyết định
Các mô hình toán học chính cho việc ra quyết định bao gồm:
- Mô hình dự báo (predictive model)
- Mô hình tự học và nhận mẫu
- Mô hình tối ƣu (optimazation models)
- Mô hình quản lý dự án (project management models)
- Mô hình phân tích nguy cơ (risk analysis models)
- Mô hình đƣờng đợi (waitiong line models)
Mô hình dự báo: Mô hình này đƣợc sử dụng nhiều đáng kể trong cách hệ
thống hỗ trợ quản trị, cũng nhƣ đối với mô hình tối ƣu, yêu cầu dữ liệu đầu vào có
liên quan tới các sự kiện trong tƣơng lai.
Mô hình máy học và nhận biết mẫu: Mục tiêu của mô hình này là phát triển
khả năng thông minh hiểu và có khả năng trích ra tri thức từ các kinh nghiệm cũ và
sử dụng lại trong tƣơng lai. Mô hình này đƣợc sử dụng để phát triển các thuật toán
hiệu quả cho việc thực hiện nhiệm vụ trên.
Mô hình tối ƣu: Nhiều tiến trình ra quyết định đƣa ra bởi các công ty hay tổ
chức phức tạp thƣờng theo hƣớng: đƣa ra một vấn đề đƣợc định nghĩa rõ ràng,
ngƣời ra quyết định sẽ đƣa ra một tập các quyết định, giải pháp và sau đó là quá
trình đánh giá hiệu quả, so sánh chọn ra giải pháp tốt nhất. Mô hình phù hợp với các
tiến trình ra quyết định mà bị giới hạn bởi tài nguyên sử dụng, và chúng cần phải sử
dụng một cách hợp lý nhất. Tài nguyên ở đây có thể là con ngƣời, sản phẩm,
nguyên liệu, các thành phần, nhân tố tài chính.
Mô hình quản lý dự án: Một dự án là một tập phức tạp các hoạt động có liên
quan với nhau đƣợc đƣa ra nhằm mục đích hƣớng tới một mục tiêu nhất định đƣợc
đặt ra, nó có thể một sản phẩm công nghiệp, một hệ thống thông tin, sản phẩm mới
hoặc một cấu trúc tổ chức mới, phụ thuộc vào các miền ứng dụng khác nhau. Quá
trình thực thi một dự án yêu cầu tới các kế hoạch và các tiến trình kiểm soát từng
hoạt động độc lập cũng nhƣ tài nguyên về con ngƣời, kỹ thuật và tài chính cần thiết
để đạt đƣợc mục đích cuối cùng.
-19-
Mô hình phân tích nguy cơ: Ngƣời ra quyết định đƣợc yêu cầu chọn lựa một
hƣớng đi trong một số hƣớng có sẵn mà không có các thông tin về ảnh hƣởng của
các các chọn này tới sự việc có thể xảy ra trong tƣơng lai.
Mô hình đƣờng đợi: Mục đích của lý thuyết hàng đợi là điều tra hiện tƣợng
tắc nghẽn xảy ra khi nhu cầu và khả năng cung cấp của một dịch vụ ngẫu nhiên
trong hoạt động hàng ngày.
2.3. Vận dụng phƣơng pháp toán học để phân lớp dữ liệu
Các giải thuật đƣợc đề cập bao gồm: Cây quyết định (decision trees), Phân lớp
sử dụng Naive Bayes.
2.3.1. Khái niệm về phân lớp
Phân lớp [3] là một trong những kỹ thuật phổ biến nhất của học máy và khai
phá dữ liệu. Đây là một tiến trình xử lý nhằm xếp các mẫu dữ liệu hay các đối tƣợng
vào một trong các lớp đã đƣợc định nghĩa trƣớc. Cách sắp xếp này dựa vào giá trị
của các thuộc tính của một mẫu dữ liệu hay đối tƣợng. Sau khi đã xếp tất cả các đối
tƣợng biết trƣớc vào các lớp tƣơng ứng, lúc này mỗi lớp đƣợc đặc trƣng bởi tập các
thuộc tính của các đối tƣợng chứa trong lớp đó.
Thông thƣờng, các bộ phân lớp có thể học dựa trên các mẫu dữ liệu huấn
luyện. Dữ liệu dùng để huấn luyện này bao gồm các thông tin về x và y cho mỗi
điểm dữ liệu (data-point), trong đó x là một vector chứa các đặc trƣng của mẫu dữ
liệu vày biểu thị một nhóm các nhãn phân lớp. Những nhãn phân lớp này chỉ có thể
nhận một số hữu hạn các giá trị.
Có nhiều cách để biểu diễn một mô hình phân lớp và có nhiều thuật toán giải
quyết vấn đề này. Các thuật toán phân lớp tiêu biểu bao gồm: mạng neuron, cây
quyết định, mạng Bayes v.v.
Tất cả các mô hình phân lớp dựa trên những thuật toán kể trên đều có khả
năng phân lớp cho các mẫu dữ liệu mới dựa vào những mẫu tƣơng tự đã đƣợc học.
-20-
Ví dụ ứng dụng bài toán dự đoán kết quả học tập sinh viên cuối khóa đậu
hay rớt.
Tiếp cận:
- Thuộc tính: thông tin về điểm môn học.
- Lớp: tính chất kết quả học tập là đậu hay rớt.
- Xây dựng mô hình để dự đoán kết quả.
2.3.2. Các bƣớc chính để giải quyết bài toán phân lớp
Bƣớc 1: Học (Training). Mục đích của bƣớc này là xây dựng một mô hình xác
định một tập các lớp dữ liệu. Mô hình này đƣợc xây dựng bằng cách phân tích các
bộ dữ liệu của một cơ sở dữ liệu, mỗi bộ dữ liệu đƣợc xác định bởi giá trị của các
thuộc tính. Giả sử mỗi bộ dữ liệu đã thuộc về một trong các lớp đã đựơc định nghĩa
trƣớc, điều này đƣợc xác định bởi một trong các thuộc tính, gọi là thuộc tính phân
lớp. Trong ngữ cảnh của bài toán phân lớp, mỗi bộ dữ liệu đƣợc xem nhƣ là một
mẫu, một ví dụ, hay một đối tƣợng. Những bộ dữ liệu đƣợc phân tích để xây dựng
mô hình phân lớp đƣợc lấy từ trong tập dữ liệu học hay dữ liệu huấn luyện.
Những bộ dữ liệu riêng lẻ tạo thành tập dữ liệu huấn luyện còn gọi là những
mẫu huấn luyện (training samples) và đƣợc chọn ngẫu nhiên từ một kho các mẫu.
Bƣớc này đƣợc xem là học có giám sát, ngƣợc lại với học có giám sát là học không
có giám sát (unsupervised learing), tiêu biểu là bài toán gom cụm (clustering) trong
đó các lớp mà các mẫu huấn luyện thuộc về là không biết trƣớc và số lớp dữ liệu
cũng không đƣợc biết trƣớc.
Mô hình phân lớp đƣợc đƣa ra sau khi đã phân tích xong tập dữ liệu huấn
luyện thƣờng có dạng là những quy tắc phân lớp, cây quyết định hay các công thức
toán học.
Bƣớc 2: Phân lớp (classification). Bƣớc này sử dụng mô hình phân lớp đã
đƣợc xây dựng ở bƣớc 1 để kiểm tra, đánh giá và thực hiện phân lớp.
Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định
tới sự thành công của mô hình phân lớp. Do vậy chìa khóa của vấn đề phân lớp dữ
liệu là tìm ra đƣợc một thuật toán phân lớp nhanh, hiệu quả, có độ chính xác cao và
có khả năng mở rộng đƣợc.
-21-
Bƣớc đầu tiên là đánh giá độ chính xác của mô hình phân lớp bằng cách sử
dụng một tập các mẫu đã đƣợc phân lớp để kiểm tra gọi là bộ thử (test set). Những
mẫu này đƣợc chọn ngẫu nhiên và độc lập với các mẫu đã đƣợc học ở bƣớc 1 gọi là
mẫu thử (test sample).
Nếu độ chính xác của một mô hình là chấp nhận đƣợc, thì mô hình đó có thể
đƣợc sử dụng để phân lớp những bộ dữ liệu mới hoặc những mẫu dữ liệu mà giá trị
nhãn phân lớp là chƣa biết.
Có nhiều vấn đề mà bộ phân lớp cần quan tâm và giải quyết, một trong các
vấn đề đó là:
Tốc độ: Trong một số tình huống, tốc độ phân lớp đƣợc xem nhƣ là yếu
tốquan trọng. Khi đó, một bộ phận phân lớp với độ chính xác 92% có thể ƣa chuộng
hơn bộ phân lớp có độ chính xác 95% nhƣng chậm hơn 100 lần trong lần kiểm tra.
Dễ hiểu: Bộ phân lớp dễ hiểu sẽ tạo cho ngƣời sử dụng tin tƣởng hơn vào hệ
thống, đồng thời cũng giúp cho ngƣời dùng tránh đƣợc việc hiểu nhầm kết quả của
một luật đƣợc đƣa ra bởi hệ thống.
Thời gian để học: Điều này yêu cầu hệ thống phải học nhanh một luật phân
lớp hoặc nhanh chóng điều chỉnh một luật đã đƣợc học cho phù hợp thực tế [3].
2.3.3. Phƣơng pháp phân lớp Naive Bayesian
2.3.3.1. Định lý Bayes
Định lý Bayes [1],[3] cho phép tính xác suất xảy ra của một sự kiện ngẫu
nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất này đƣợc ký hiệu là
P(A|B), và đọc là "xác suất của A nếu có B". Đại lƣợng này đƣợc gọi xác suất có
điều kiện vì nó đƣợc rút ra từ giá trị đƣợc cho của B hoặc phụ thuộc vào giá trị đó.
Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc vào 3 yếu tố:
Xác suất xảy ra A của riêng nó, không quan tâm đến B, kí hiệu là P(A) và
đọc là xác suất của A. Đây đƣợc gọi là xác suất biên duyên hay xác suất tiên
nghiệm (prior), nó là "tiên nghiệm" theo nghĩa rằng nó không quan tâm đến
bất kỳ thông tin nào về B.
-22-
Xác suất xảy ra B của riêng nó, không quan tâm đến A, kí hiệu là P(B) và
đọc là "xác suất của B". Đại lƣợng này còn gọi là hằng số chuẩn hóa
(normalising constant), vì nó luôn giống nhau, không phụ thuộc vào sự kiện
A đang muốn biết.
Xác suất xảy ra B khi biết A xảy ra, kí hiệu là P(B|A) và đọc là "xác suất của
B nếu có A". Đại lƣợng này gọi là khả năng (likelihood) xảy ra B khi biết A
đã xảy ra. Chú ý không nhầm lẫn giữa khả năng xảy ra A khi biết B và xác
suất xảy ra A khi biết B.
Khi biết ba đại lƣợng trên, xác suất của A khi biết B cho bởi công thức:
(1)
Từ đó dẫn tới:
Khi có n giả thuyết thì:
A
i
A
i
A
i
P
B
A
j
P(A
)
n
j=1
2.3.3.2. Mô hình Phân lớp Naive Bayes (NBC)
Mô hình phân lớp Bayes [1],[3] đƣợc áp dụng nhiều nhất trong thực tế là mô
hình phân lớp Naive Bayes.
Phân lớp Naive Bayes ra đời giúp cho việc tính đơn giản hơn dựa trên việc
ứng dụng lý thuyết Bayes. Tính toán các xác suất đó với giả thiết là các thuộc tính
độc lập với nhau (không phụ thuộc nhau).
Cho {C1, C2,… Cn} là phân hoạch của không gian mẫu C (đƣợc xem là các
lớp Ci). Không gian thể hiện X bao gồm tất cả các thể hiện đƣợc mô tả trên tập
thuộc tính (a1, a2, …an) và hàm đích f(x) có thể nhận bất kỳ giá trị nào trong C
(f(x)=Ci | i=1,…,n). Không gian thể hiện X đƣợc xem là các ví dụ học. Khi có một
thể hiện mới với bộ giá trị <a1, a2,…,an>, bộ phân lớp sẽ dự đoán giá trị hàm đích
f(x) hoặc lớp cho thể hiện mới này (f(x){C1, C2,… Cn}).
Cách tiếp cận Bayes để phân lớp một thể hiện mới là lấy giá trị đích có xác
suất cao nhất Cmax của thể hiện này. Hay nói cách khác, định lý Bayes đƣợc sử
-23-
dụng để chọn giả thuyết có xác suất cao nhất từ tập mẫu huấn luyện, giả thuyết này
đƣợc gọi là giả thuyết cực đại xác suất hậu nghiệm MAP – Maximum A Posterior:
C
MAP
= max P(c
i
| a
1
,a
2
,…a
n
) (2)
Sử dụng định lý Bayes- Công thức (1) – Áp dụng vào (2), ta có:
(3)
(Cùng mẫu số
nên ta bỏ qua so sánh mẫu)
Các P(c
i
) đƣợc tính bằng cách đếm số lần có mặt của giá trị đích c
i
trong tập
dữ liệu học. Tuy nhiên để tính
, bộ phân lớp Naive Bayes dựa trên
việc đơn giản hóa các giả định ban đầu là các giá trị thuộc tính độc lập điều kiện với
giá trị đích cho trƣớc.
Nói cách khác, xác suất của một thể hiện quan sát đƣợc <
> trên
mỗi lớp c
i
sẽ là tích của các khả năng của từng thuộc tính riêng biệt trên c
i
Công thức (3) đƣợc viết lại:
(4)
Bộ phân lớp Naive Bayes liên quan đến một bƣớc học mà trong đó
và
đƣợc ƣớc đoán dựa trên tần số xuất hiện của chúng trên toàn bộ
tập dữ liệu học. Tập dự đoán này tƣơng ứng với kết luận học đƣợc, kết quả của bộ
phân lớp trong công thức (4) đƣợc sử dụng để phân lớp thể hiện mới này.
2.3.3.3. Các bƣớc thực hiện thuật toán Naive Bayes
Bƣớc 1: Huấn luyện Naive Bayes (dựa vào tập dữ liệu), tính
và
.