Tải bản đầy đủ (.pdf) (32 trang)

DỰ ĐOÁN KẾT QUẢ HỌC TẬP CỦA SINH VIÊN TRƢỜNG NGHỀ SỬ DỤNG PHƢƠNG PHÁP HỒI QUY BAYES

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.04 MB, 32 trang )

TRƢỜNG ĐẠI HỌC LẠC HỒNG

DỰ ĐOÁN KẾT QUẢ HỌC TẬP
CỦA SINH VIÊN TRƢỜNG NGHỀ
SỬ DỤNG PHƢƠNG PHÁP HỒI QUY BAYES

GIÁO VIÊN HƢỚNG DẪN:
TS. HOÀNG THỊ LAN GIAO
HỌC VIÊN THỰC HIỆN:
VÕ THỊ NGỌC LIÊN

Đồng Nai, tháng 09/2013

1


NỘI DUNG TRÌNH BÀY
I.

Tổng quan khai phá dữ liệu và phát hiện tri thức

II.

Hệ hỗ trợ ra quyết định và mô hình hỗ trợ quyết định

III. Phân tích hồi quy

IV. Dự đoán kết quả học tập dựa vào lý thuyết phân lớp

Naive Bayes


2


TỔNG QUAN KHAI PHÁ DỮ LIỆU VÀ
PHÁT HIỆN TRI THỨC

3


Giới thiệu về khai phá dữ liệu (KPDL)


Khai phá tri thức từ một lượng lớn dữ liệu



Sử dụng dữ liệu lịch sử để khám phá những qui tắc và cải
thiện những quyết định trong tương lai

4


Quy trình phát hiện tri thức
Bước 1: Hình thành, xác định,
định nghĩa bài toán
Bước 2: Thu thập, tiền xử lý
dữ liệu
Bước 3: Khai phá dữ liệu rút ra
tri thức
Bước 4: Phân tích và kiểm định

kết quả
Bước 5: Sử dụng tri thức phát hiện
được

Hình 1: Quy trình phát hiện tri thức

5


HỆ HỖ TRỢ RA QUYẾT ĐỊNH
VÀ MÔ HÌNH HỖ TRỢ QUYẾT ĐỊNH

6


Hệ hỗ trợ ra quyết định
HHTQĐ là những hệ thống máy tính tương tác nhằm giúp
những người ra quyết định sử dụng dữ liệu và mô hình để giải
quyết các vấn đề không có cấu trúc.

Các thành phần của hệ hỗ trợ ra quyết định






Phân hệ Quản lý dữ liệu
Phân hệ Quản lý mô hình
Phân hệ Quản lý dựa vào kiến thức

Phân hệ Quản lý giao diện người dùng

7


Vận dụng phƣơng pháp toán học để phân lớp dữ liệu
 Khái niệm về phân lớp


Tiến trình xử lý nhằm xếp các mẫu dữ liệu hay các đối
tượng vào một trong các lớp đã được định nghĩa trước.



Kỹ thuật phổ biến nhất của học máy và khai phá dữ liệu.

8


 Các bƣớc chính để giải quyết bài toán phân lớp

Bước 1: Học (Training): xây dựng mô hình phân lớp
Bước 2: Phân lớp (classification): Bước này sử dụng mô hình
phân lớp đã được xây dựng ở bước 1 để kiểm tra,
đánh giá và thực hiện phân lớp.
 Các kỹ thuật phân lớp

– Phương pháp dựa cây quyết định
– Phương pháp dựa trên luật
– Phương pháp Naive Bayes

– Mạng Neuron
– …
9


 Phƣơng pháp phân lớp Naive Bayes


Định lý Bayes
Tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự
kiện liên quan B đã xảy ra.


Xác suất này được ký hiệu là P(A|B)



Đọc là "xác suất của A nếu có B".

10


Theo định lí Bayes, xác suất xảy ra A khi biết B sẽ phụ thuộc
vào 3 yếu tố:


P(A): Xác suất xảy ra A của riêng nó




P(B): Xác suất xảy ra B của riêng nó.



P(B|A): Xác suất xảy ra B khi biết A xảy ra

Khi biết ba đại lƣợng trên, xác suất của A khi biết B cho bởi
công thức:
P B A P(A)
P AB =
P(B)

11


Mô hình phân lớp Naive Bayes (NBC)


Mỗi mẫu được biểu diễn bằng X=(x1,x2,…,xn) với các thuộc
tính a1, a2, …, an.



Các lớp {C1, C2,…,Cm} cho trước mẫu. NBC gán X vào Ci
nếu P(X|Ci)>P(X|Cj) với 1 ≤ j ≤ m, j # i (theo định lý Bayes).



Để phân lớp mẫu chưa biết X, ta tính P(X|Ci)P(Ci) cho từng
Ci. NBC gán X vào lớp Ci sao cho P(X|Ci)P(Ci) là lớn nhất.


12


Thuật toán Naive Bayes
Áp dụng trong bài toán phân loại, các dữ kiện gồm có:
- D: tập dữ liệu huấn luyện đã được vector hóa 𝑥 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 )
- Ci: phân lớp i, với i = {1,2,…,m}.
- Các thuộc tính độc lập điều kiện đôi một với nhau.
Theo định lý Bayes:
P(X|Ci )P(Ci )
P Ci X =
P(X)
Theo tính chất độc lập điều kiện:
n

P X Ci =

P x k Ci
k=1

Trong đó:
- 𝑃(𝑥𝑘 |𝐶𝑖 ) xác suất thuộc tính thứ k mang giá trị xk khi đã biết X
thuộc phân lớp i.
13


Các bƣớc thực hiện thuật toán phân lớp Naive Bayes



Bước 1: Huấn luyện Naive Bayes (dựa vào tập dữ liệu), tính

P(Ci)và P(Xk|Ci).


Bước 2: Phân lớp Xnew=(x1,x2,…xn). Xnew ta cần tính xác
suất thuộc từng phân lớp khi đã biết trước Xnew. Xnew được
gán vào lớp có xác suất lớn nhất theo công thức:
𝑛

max 𝑃(𝐶𝑖 )
𝐶𝑖 ∈𝐶

𝑃 𝑥𝑘 𝐶𝑖
𝑘=1

14


Ví dụ: Tập dữ liệu mẫu về kết quả học tập của sinh viên
TT Nơi ở

Điểm vào

1

Nông thôn

2


Gtinh

Kết quả

Trung bình Thấp

Nữ

Rớt

Thành thị

Cao

Trung bình

Nam

Đậu

3

Nông thôn

Thấp

Trung bình

Nam


Rớt

4

Thành thị

Trung bình

Trung bình

Nữ

Đậu

5

Thành thị

Trungbình

Cao

Nữ

Đậu

6

Nông thôn


Cao

Nam

Đậu

7

Nông thôn

Trungbình

Cao

Nữ

Đậu

8

Thành thị

Thấp

Thấp

Nam

Rớt


Cao

Kinh tế

Yêu cầu: Phân lớp cho một thể hiện mới sau đây

X=<Nông thôn, thấp, trung bình, nam> (kết quả là Đậu (Đ) hay
Rớt (R)).
15


Thực hiện:
Bước 1: Ta có 2 lớp Đ=“Đậu”, R= “Rớt”, tổng số mẫu =8


Số mẫu được phân lớp Đ là 5  Xác suất Đậu: P(Đ)=5/8



Số mẫu được phân lớp R là 3  Xác suất Rớt: P(R) =3/8

Đặt X1(lớp Đ) = P Đ

iP

X i Đ và X2 (lớp R) = P R

iP

Xi R




X1 = P(Đ).P(Noio = Nongthon|Đ).P(Diemvao = thap|Đ).
P(Kinhte = trungbinh|Đ). P(Gioitinh = Nam|Đ)



X2 = P(R).P(Noio = Nongthon|R).P(Diemvao = thap|R).
P(Kinhte = trungbinh|R). P(Gioitinh = Nam|R)

16


Ta lần lượt tính xác suất của các thuộc tính sau:
P(Thành thị| Đ) =3/5
P(Nông thôn| Đ) =2/5
P(Cao| Đ)
=2/5
P(Trung bình| Đ)=3/5
P(Thấp| Đ)
=0/5
P(Cao| Đ)
=3/5
P(Trung bình| Đ)=2/5
P(Thấp| Đ)
=0/5
P(Nam| Đ)
P(Nữ| Đ)


=2/5
=3/5

Nơi ở
P(Thành thị| R) =1/3
P(Nông thôn| R) =2/3
Điểm vào
P(Cao| R)
=0/3
P(Trung bình| R)=1/3
P(Thấp| R)
=2/3
Kinh tế
P(Cao| R)
=0/3
P(Trung bình| R)=1/3
P(Thấp| R)
=2/3
Gtinh
P(Nam| R)
=2/3
P(Nữ| R)
=1/3

17


Bước 2: Phân lớp cho mẫu mới
X <Nông thôn, thấp, trung bình, nam>


Vậy X1(lớp Đ) = 5/8*2/5*0/5*2/5*2/5 = 0
X2(lớp R) = 3/8*2/3*1/3*1/3*2/3 = 0.0123
CNB = max (X1(lớp Đ) ; X2(lớp R)) = X2(lớp R)
 X thuộc lớp Rớt nghĩa là với sinh viên sống Nông thôn , điểm
vào thấp, kinh tế gia đình là Trung bình và giới tính là nam

thì kết quả là Rớt.

18


Một số ƣu điểm của phƣơng pháp Naive Bayes


Tính xác suất rõ ràng cho các giả định.



Kết hợp nhiều dự đoán của nhiều giả định.



Các thuộc tính trong tập mẫu học phải độc lập với điều kiện.



Độ chính xác thuật toán phân lớp phụ thuộc nhiều vào tập
dữ liệu học ban đầu.

19



PHÂN TÍCH HỒI QUY

20


Khái niệm phân tích hồi qui
Phân tích hồi quy là tìm mối quan hệ phụ thuộc của một biến,
được gọi là biến phụ thuộc vào một hoặc nhiều biến khác.

Ví dụ
Khi chúng ta cố gắng giải thích tiêu dùng của mọi người,
chúng ta có thể sử dụng biến giải thích là thu nhập và độ tuổi.

21


Mô hình hồi quy đơn
Phương trình hồi quy đơn biến (đường thẳng) có dạng tổng quát:
Y=a+bX

Trong đó:
Y: là biến số phụ thuộc;
X: là biến số độc lập;
a: là tung độ gốc hay nút chặn;
b: độ dốc hay hệ số góc.

22



Mô hình hồi qui tuyến tính đa biến
Mô hình hồi qui tuyến tính nhiều chiều có dạng :
Y = α + 𝛽1 X1 + 𝛽2 X2 + … + 𝛽𝑘 Xk + U


Y (biến phụ thuộc): chỉ tiêu phân tích



α ( biến độc lập): hệ số chặn.



β: hệ số ước lượng.



Xi các yếu tố ảnh hưỏng đến năng suất.Với i chạy từ 1 đến k.



U là sai số

23


DỰ ĐOÁN KẾT QUẢ HỌC TẬP
DỰA VÀO LÝ THUYẾT
PHÂN LỚP NAIVE BAYES


24




Bài toán
Dựa vào thông tin dữ liệu đầu vào là:


Điểm trung bình của các học kỳ



Thông tin cá nhân: Nơi ở, giới tính, kinh tế gia đình…

Dự đoán kết quả cuối cùng của sinh viên sẽ đạt đƣợc trong
quá trình đào tạo.

25


×