ĐỒ ÁN LẬP TRÌNH TÍNH TOÁN
ĐỀ TÀI :TÌM MÔ HÌNH HÓA DỮ LIỆU BẰNG PHƯƠNG PHÁP
BÌNH PHƯƠNG TỐI THIỂU VÀ THUẬT TOÁN GIẢM GRADIENT
SINH VIÊN :NGUYỄN THỊ NGA
HOÀNG THỊ XOAN
LỚP:18TCLC-NHẬT
CƠ SỞ LÝ THUYẾT
• Hồi quy tuyến tính là 1 phương pháp tuyến tính để “mô hình hóa dữ liệu “ mối quan hệ giữa biến độc lập
và biến phụ thuộc .
• Để dự đoán các giá trị như dân số,
Giá nhà, ,cân năng,tiền điện ,..Vv
• Tính tổng khoảng cách giữa giá trị dự đoán và giá trị thực tế Y của từng điểm dữ liệu sao cho
nhỏ nhất .
• Chúng ta sẽ sử dụng 2 phương pháp bình phương tối thiểu và phương pháp giảm gradient
PHƯƠNG PHÁP BÌNH TỐI THIỂU
• Phương
trình hồi quy tuyến tính có dạng )== +=
• Đặt X= là ma trận với mỗi hàng là một input (hàng i ứng với)
• Đặt y= là vector các output
=
• L’() =0
=
KẾT QUẢ PHƯƠNG PHÁP BÌNH PHƯƠNG TỐI THIỂU
Kết quả dự đoán của 10 mẫu dữ liệu
Kết quả dự đoán của 15 mẫu dữ liệu
PHƯƠNG PHÁP GIẢM GRADIENT
• Thuật toán gradient là phương pháp tìm nghiệm gần đúng bằng phương pháp.
• Ứng dụng vào bài toán hồi quy tuyến tính
ta tìm giá trị cực tiểu của hàm mất mát:
L(w) =
Minh họa về Gradient
THUẬT TOÁN GRADIENT
• Bước 1: + Khởi tạo vòng lặp với ( và learning rate(α) bất kì.
+ Giới hạn lặp N, giới hạn dưới .
• Bước 2: Thực hiện lặp:
• Bước 3: Thuật toán dừng lại khi L(w) thay đổi rất nhỏ (<< ).
GIỚI HẠN DƯỚI KHÁC NHAU
• Từ dữ liệu ở bảng 1 ta lập được bảng so sánh kết quả với các khác nhau:
1e-1
1e-3
1e-6
1e-9
1e-12
w0
- 1.80080
- 3.72836
- 3.99190
- 4.00146
- 4.00180
w1
1.59245
2.92507
3.00287
3.00166
3.00155
Dữ liệu
ε càng bé thì độ chính xác của thuật toán càng cao
ĐIỂM KHỞI TẠO KHÁC NHAU
w0 = w1 = -10
w0 = w1 = 0
Không ảnh hưởng lớn đến tốc độ hội tụ cuả bài toán
LEARNING RATE KHÁC NHAU
= 1e-5, w0 = w1 = 0, = 1e-6
= 6, w0 = w1 = 0, = 1e-6
Ảnh hưởng rất lớn đến tốc độ hội tụ của thuật toán
KẾT LUẬN CHUNG
Bình phương tối thiểu
Giảm gradient
Ưu điểm
Nhược điểm
+ Kết quả đạt chính xác tuyệt + Độ phức tạp tăng theo kích
đối
thước dữ liệu do phép nghich đảo
ma trận
+ Cài đặt dễ theo công thức
=
+ Không có nghiệm nếu ma
trận ) không khả đảo
+ Độ phức tạp tăng tuyến
tính theo kích thước dữ liệu
+ Đạt chính xác xấp xỉ ,phụ thuộc
vào
+ Luôn tìm được nghiệm nếu + Cài đặt phức tạp hơn vì là thuật
chọn Learning rate () phù
toán lặp
hợp
CẢM ƠN ĐÃ LẮNG NGHE