Tải bản đầy đủ (.pdf) (62 trang)

Nghiên cứu mạng nơ ron và ứng dụng trong bài toán dự báo tuyển sinh trường THPT lê quý đôn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (936.2 KB, 62 trang )

I HC THI NGUYấN
TRƯờNG ĐạI HọC CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG

NGUYN TH TH

NGHIấN CU MNG N RON V ỨNG DỤNG
TRONG BÀI TOÁN DỰ BÁO TUYỂN SINH
TRƯỜNG THPT LÊ Q ĐƠN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUN - 2020


I HC THI NGUYấN
TRƯờNG ĐạI HọC CÔNG NGHệ THÔNG TIN Và TRUYềN THÔNG

NGUYN TH TH

NGHIấN CU MNG N RON V ỨNG DỤNG
TRONG BÀI TOÁN DỰ BÁO TUYỂN SINH
TRƯỜNG THPT LÊ Q ĐƠN
Chun ngành: Khoa học máy tính
Mã số: 8.48.01.01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Giáo viên hướng dẫn: TS.Nguyễn Đình Dũng

THÁI NGUYÊN - 2020



i

LỜI CẢM ƠN
Luận văn này được hoàn thành tại Trường Đại học Công nghệ Thông tin
và Truyền thông dưới sự hướng dẫn của TS. Nguyễn Đình Dũng. Tác giả xin
bày tỏ lịng biết ơn tới các thầy cơ giáo thuộc Trường Đại học Công nghệ
Thông tin và Truyền thông, các thầy cô giáo thuộc Viện Công nghệ Thông tin
– Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã tạo điều kiện, giúp đỡ
tác giả trong quá trình học tập và làm luận văn tại Trường, đặc biệt tác giả xin
bày tỏ lịng biết ơn tới TS. Nguyễn Đình Dũng đã tận tình hướng dẫn và cung
cấp nhiều tài liệu cần thiết để tác giả có thể hồn thành luận văn đúng thời
hạn.
Xin chân thành cảm ơn anh chị em học viên cao học và bạn bè đồng nghiệp
đã trao đổi, khích lệ tác giả trong q trình học tập và làm luận văn tại Trường Đại
học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên.
Cuối cùng tác giả xin gửi lời cảm ơn đến gia đình, những người đã ln
bên cạnh, động viên và khuyến khích tơi trong q trình thực hiện đề tài.
Thái Ngun, ngày 10 tháng 04 năm 2020
Học viên cao học

Nguyễn Thị Thơ


ii

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này do chính tơi thực hiện, dưới sự hướng
dẫn khoa học của TS. Nguyễn Đình Dũng, các kết quả lý thuyết được trình
bày trong luận văn là sự tổng hợp từ các kết quả đã được cơng bố và có trích

dẫn đầy đủ, kết quả của chương trình thực nghiệm trong luận văn này được
tác giả thực hiện là hoàn toàn trung thực, nếu sai tơi hồn tồn chịu trách
nhiệm.
Thái Ngun, ngày 10 tháng 04 năm 2020
Học viên

Nguyễn Thị Thơ


iii

MỤC LỤC
LỜI CẢM ƠN ............................................................................................................ i
LỜI CAM ĐOAN ..................................................................................................... ii
MỤC LỤC ................................................................................................................ iii
DANH MỤC CÁC TỪ VIẾT TẮT ..........................................................................v
DANH MỤC CÁC HÌNH ẢNH ............................................................................. vi
DANH MỤC BẢNG BIỂU .................................................................................... vii
MỞ ĐẦU ....................................................................................................................1
1. Tính khoa học và cấp thiết của đề tài ......................................................................1
2. Đối tượng và phạm vi nghiên cứu của đề tài ..........................................................1
3. Phương pháp luận nghiên cứu .................................................................................2
4. Nội dung và bố cục của luận văn ............................................................................2
CHƯƠNG 1. TỔNG QUAN BÀI TOÁN DỰ BÁO TUYỂN SINH......................4
1.1 Tổng quan về dự báo .............................................................................................4
1.1.1 Khái niệm về dự báo ..........................................................................................4
1.1.2 Mục đích của dự báo ..........................................................................................5
1.1.3 Những thách thức trong phân tích dự báo ..........................................................5
1.1.4 Phân loại các dự báo...........................................................................................6
1.1.5 Đánh giá mơ hình dự báo ...................................................................................9

1.2 Dự báo dữ liệu chuỗi thời gian ..............................................................................9
1.2.1 Giới thiệu ............................................................................................................9
1.2.2 Một số phương pháp dự báo chuỗi thời gian ...................................................10
1.3 Bài toán dự báo tuyển sinh ..................................................................................17
1.4 Kết luận chương .................................................................................................18
CHƯƠNG 2. MẠNG NƠ RON NHÂN TẠO VÀ BÀI TOÁN DỰ BÁO ...........19
2.1 Các khái niệm chung về mạng nơron ..................................................................19
2.1.1 Mạng nơron sinh học........................................................................................19
2.1.2 Mạng nơron nhân tạo .......................................................................................20
2.1.3 Mơ hình tốn học và kiến trúc mạng nơron .....................................................22


iv

2.1.4 Phân loại mạng nơ ron .....................................................................................25
2.1.5 Huấn luyện mạng nơron ...................................................................................26
2.2 Mạng nơron MLP và ứng dụng trong bài toán dự báo .......................................28
2.2.1 Kiến trúc mạng .................................................................................................28
2.2.2 Huấn luyện mạng .............................................................................................29
2.2.3 Các yếu tố ảnh hưởng đến hoạt động của mạng MLP .....................................32
2.2.4 Ưu nhược điểm và một số vấn đề của mạng nơron nhiều lớp .........................34
2.3 Một số hướng nghiên cứu về bài toán dự báo tuyển sinh sử dụng mạng nơ ron 34
2.3.1 Các nghiên cứu trên thế giới ............................................................................35
2.3.2 Các nghiên cứu trong nước ..............................................................................36
2.4 Xây dựng mơ hình dự báo tuyển sinh sử dụng mạng nơ ron MLP .....................37
2.4.1 Mơ tả bài tốn...................................................................................................37
2.4.2 Các bước thực hiện...........................................................................................37
2.5 Kết luận chương ..................................................................................................38
CHƯƠNG 3. XÂY DỰNG CHƯƠNG TRÌNH MƠ PHỎNG DỰ BÁO
TUYỂN SINH ỨNG DỤNG MẠNG NƠ RON MLP ..................................39

3.1 Giới thiệu về Trường THPT Lê Quý Đơn ...........................................................39
3.2 Phát biểu bài tốn ................................................................................................40
3.3 Xây dựng phần mềm mô phỏng ..........................................................................43
3.3.1 Môi trường cài đặt ............................................................................................43
3.3.2 Cài đặt các chức năng con ................................................................................43
3.3.3 Kết quả hoạt động ............................................................................................44
3.4 Một số kết quả kiểm thử......................................................................................46
3.5 Đánh giá hoạt động của mơ hình dự báo sử dụng mạng MLP với một số mơ
hình khác ..........................................................................................................48
3.6 Kết luận chương ..................................................................................................50
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .............................................................51
TÀI LIỆU THAM KHẢO ......................................................................................52


v

DANH MỤC CÁC TỪ VIẾT TẮT
Từ hoặc

Từ tiếng Anh

cụm từ

Từ tiếng Việt

ANN

Artificial Neural Network

Mạng nơron nhân tạo


AR

Autoregressive

Tự hồi quy

BP

Back Propagation

Lan truyền ngược

MA

Moving Average

Đường trung bình di động

MAE

Mean Absolute Error

Sai số tuyệt đối

MSE

Mean Square Error

Sai số trung bình


MLP

Multilayer Neural Network

Mạng nơron nhiều lớp

NƠRON

Neural

Tế bào thần kinh

OUTPUTNODE Output Node

Số nơron lớp ra

GA

Genetic Algorithm

Giải thuật di truyền

EP

Evolutionary Programming

Lập trình tiến hóa



vi

DANH MỤC CÁC HÌNH ẢNH
Hình 1.1. Dự báo định tính và định lượng ..................................................................7
Hình 1.2. Phân loại các phương pháp dự báo chuỗi thời gian ..................................10
Hình 2.1. Cấu trúc cơ bản của nơron sinh học ..........................................................19
Hình 2.2. Nơron nhân tạo ..........................................................................................21
Hình 2.3. Mơ hình tốn học mạng nơron nhân tạo ...................................................22
Hình 2.4. Nơron 1 đầu vào với hàm hoạt hố là hàm hardlimit ...............................24
Hình 2.5. Phân loại mạng nơ ron [18] .......................................................................26
Hình 2.6. Học có giám sát .........................................................................................26
Hình 2.7. Học khơng có giám sát ..............................................................................27
Hình 2.8. Học tăng cường .........................................................................................27
Hình 2.9. Mạng Perceptron đa lớp (MLP) ................................................................28
Hình 2.10. Cực trị địa phương và tồn cục ...............................................................33
Hình 3.1. Giao diện chương trình chính....................................................................44
Hình 3.2. Nhập dữ liệu dự báo ..................................................................................44
Hình 3.3. Nhập tham số dự báo.................................................................................45
Hình 3.4. Luyện mạng nơ ron ...................................................................................45
Hình 3.5. Chạy kết quả dự báo ..................................................................................46
Hình 3.6. Một số kết quả dự báo với các phương pháp dự báo khác nhau ...............48


vii

DANH MỤC BẢNG BIỂU
Bảng 2.1. Một số dạng hàm hoạt hóa trong mạng nơron nhân tạo ...........................25
Bảng 3.1. Cơ sở vật chất của Trường THPT Lê Quý Đôn........................................39
Bảng 3.2. Dữ liệu tuyển sinh của Trường THPT Lê Quý Đôn .................................40
Bảng 3.3. Bảng dữ liệu học (với n=6, s=3) ...............................................................42

Bảng 3.4. Các module chính của chương trình .........................................................43
Bảng 3.5. Kết quả thử nghiệm khi số nơ ron lớp ẩn thay đổi ...................................47
Bảng 3.6. Kết quả thử nghiệm khi thời gian quan sát trước thay đổi .......................47
Bảng 3.7. Kết quả thử nghiệm một số phương pháp dự báo.....................................49


1

MỞ ĐẦU
1. Tính khoa học và cấp thiết của đề tài
Trong bối cảnh ứng dụng công nghệ thông tin ngày càng tăng, dữ liệu phát
sinh từ hoạt động quản lý, kinh doanh, sản xuất của các công ty, tổ chức ngày càng
nhiều. Các công ty, tổ chức cần phải nhanh chóng đưa ra các quyết định bằng cách
xử lý nhiều yếu tố với quy mơ và tính phức tạp ngày càng tăng. Để có quyết định
chính xác nhất, người quản lý thường thực hiện việc dự đoán hay phân loại vấn đề
cần giải quyết trước khi ra quyết định. Ngoài việc dựa trên các yếu tố liên quan trực
tiếp đến vấn đề, người ra quyết định còn dựa trên kinh nghiệm bản thân và thơng tin
có được từ các hoạt động trước đó. Dẫn đến một nhu cầu thực tế là cần có các phương
pháp khai phá dữ liệu thu thập được để làm căn cứ ra quyết định [4] .
Trong thực tế cuộc sống, công tác dự báo được ứng dụng rộng rãi ở hầu hết
các lĩnh vực như: Dự báo giá xăng dầu, dự báo chứng khoán, dự báo thời tiết… Cơng
tác dự báo nhằm mục đích dự báo trước sự thay đổi của đối tượng được dự báo dựa
trên cơ sở nghiên cứu các quy luật của đối tượng dự báo [9] .
Những năm gần đây ngành giáo dục cũng bắt đầu chú trọng đến công tác dự
báo nhằm đưa ra được những chính sách đúng đắn nhất. Có rất nhiều tác giả đã đi
vào nghiên cứu dự báo các lĩnh vực khác nhau của giáo dục như: Dự báo nhu cầu
giáo viên, dự báo tỉ lệ học sinh đỗ tốt nghiệp, dự báo tỉ lệ học sinh đỗ Đại học…
Chính vì thấy được lợi ích của việc dự báo trong giáo dục nên em chọn đề tài:
“Nghiên cứu mạng nơ ron và ứng dụng trong bài tốn dự báo tuyển sinh Trường
THPT Lê Q Đơn” để giúp đưa ra được những chính sách đúng đắn nhất trong thời

gian tới cho trường của mình.
2. Mục tiêu, đối tượng và phạm vi nghiên cứu của đề tài
Mục tiêu của đề tài là ứng dụng thử nghiệm phương pháp dự báo dùng mạng
nơ ron trong bài toán tuyển sinh tại trường THPT Lê Quý Đôn.


2
Đối tượng nghiên cứu là mạng nơ ron nhân tạo, mạng nơ ron lan truyền thẳng
và thuật toán lan truyền ngược. Phạm vi nghiên cứu là ứng dụng mạng nơ ron nhân
tạo cho bài tốn dự báo nói chung và dự báo tuyển sinh trường THPT Lê Q Đơn
nói riêng.
3. Phương pháp luận nghiên cứu
- Phương pháp nghiên cứu lý thuyết: Tổng hợp, nghiên cứu các tài liệu về bài
toán dự báo, mạng nơ ron nhân tạo; Tìm hiểu các kiến thức liên quan. Ứng dụng mạng
nơ ron nhân tạo, mạng nơ ron lan truyền thẳng và thuật toán lan truyền ngược vào bài
toán dự báo tuyển sinh trường THPT Lê Quý Đôn
- Phương pháp nghiên cứu thực nghiệm: Sau khi nghiên cứu lý thuyết, luận
văn sẽ tập trung vào xây dựng phần mềm mô phỏng mạng nơ ron: phân tích, thiết
kế phần mềm hướng đối tượng với các tính năng cho phép người sử dụng thực hiện
giải bài toán tuyển sinh bằng mạng nơ ron nhân tạo; Đánh giá kết quả sau khi thử
nghiệm
- Phương pháp trao đổi khoa học: Thảo luận, seminar, lấy ý kiến chuyên gia.
4. Nội dung và bố cục của luận văn
Ngoài phần mở đầu, kết luận và hướng phát triển, luận văn được bố cục thành
ba chương chính như sau:
Chương 1: Tổng quan về bài toán dự báo tuyển sinh
- Nghiên cứu về bài toán dự báo, các phương pháp dự báo. Đi sâu vào các
phương pháp dự báo chuỗi thời gian và khả năng áp dụng cho bài toán dự báo tuyển
sinh
Chương 2. Mạng nơ ron nhân tạo và bài toán dự báo

- Nghiên cứu về mạng nơron nhân tạo, tập trung vào mạng nơron truyền thẳng
nhiều lớp (MLP), chương này cung cấp chi tiết các vấn đề về quá trình huấn luyện và
thuật toán học của mạng MLP với trọng tâm là thuật toán lan truyền ngược sai số.
Nghiên cứu về việc ứng dụng mạng MLP trong dự báo chuỗi thời gian, xây dựng mơ
hình mạng nơ ron MLP cho bài tốn dự báo tuyển sinh


3
Chương 3. Xây dựng chương trình mơ phỏng dự báo tuyển sinh ứng dụng
mạng nơ ron MLP
- Chương này giới thiệu về số liệu thu thập được, xây dựng chương trình thử
nghiệm dự báo số học sinh tuyển sinh vào trường THPT Lê Quý Đôn. Đối sánh kết
quả đạt được với một số phương pháp truyền thống. Từ đó chứng minh khả năng ứng
dụng phương pháp sử dụng mạng nơ ron MLP vào dự báo chuỗi thời gian.


4

-

CHƯƠNG 1
TỔNG QUAN BÀI TOÁN DỰ BÁO TUYỂN SINH
1.1 Tổng quan về dự báo
1.1.1 Khái niệm về dự báo
Trong thực tế, nhiều khi chúng ta thường phải đưa ra các quyết định liên quan
đến những sự việc sẽ xảy ra trong tương lai. Để cho các quyết định này có độ tin cậy
và đạt hiệu quả cao, cần thiết phải tiến hành công tác dự báo. Điều này sẽ càng quan
trọng hơn đối với một nền kinh tế thị trường, mang tính chất cạnh tranh cao. Dự báo
là khoa học và là nghệ thuật tiên đoán những sự việc sẽ xảy ra trong tương lai [4]
Tính khoa học của dự báo thể hiện ở chỗ khi tiến hành dự báo ta căn cứ trên

các số liệu phản ảnh tình hình thực tế ở hiện tại, quá khứ, căn cứ vào xu thế phát triển
của tình hình, dựa vào các mơ hình tốn học để dự đốn tình hình cơ bản sẽ xảy ra
trong tương lai. Nhưng các dự đoán này thường sai lệch hoặc thay đổi nếu xuất hiện
các tình huống kinh tế, tình huống quản trị khơng hồn tồn phù hợp với mơ hình dự
báo.
Tính nghệ thuật của dự báo là dựa trên những kinh nghiệm thực tế và khả năng
phán đoán của các chuyên gia để đưa ra được những dự đốn với độ chính xác cao
nhất.
Vì vậy, cần kết hợp chặt chẽ giữa các kết quả dự báo với kinh nghiệm và tài
nghệ phán đoán của các chuyên gia, các nhà quản trị mới có thể đạt được các quyết
định có độ tin cậy cao hơn. Mặt khác các kỹ thuật dự báo khác nhau thường cho ta
các kết quả dự báo có khi khác xa nhau. Chưa có một kỹ thuật nào tổng quát có thể
dùng cho mọi trường hợp cần dự báo. Vì vậy đối với một số vấn đề quan trọng và
phức tạp, nhất là khi dự báo dài hạn người ta thường dùng một số kỹ thuật dự báo rồi
căn cứ vào độ lệch chuẩn để chọn lấy kết quả thích hợp.


5
1.1.2 Mục đích của dự báo
Đưa ra được quyết định chính xác, nhất quán: Phân tích dự báo sẽ cung cấp
thông tin chi tiết về đối tượng dự báo từ đó sẽ đưa ra được các hành động chiến lược.
Phân tích dự báo được thực hiện liên tục và cho kết quả đáng tin cậy nhờ có sự hỗ trợ
của kỹ thuật. Các quyết định sẽ được đưa ra một cách nhất qn, cơng bằng chứ khơng
phải dựa trên tính chủ quan của con người [11] .
Giải quyết công việc nhanh hơn: Dự báo sẽ trả lời các câu hỏi phức tạp và xử
lý chúng với độ chính xác cao trong khoảng thời gian ngắn. Có những quyết định
trước đây phải mất hàng giờ hoặc vài ngày thì nhờ có sự hỗ trợ của khoa học chỉ còn
vài phút hoặc vài giây.
Giảm chi phí do giảm rủi ro: Với sự hiểu biết về đối tượng giúp các nhà lãnh
đạo đánh giá được chính xác những rủi ro và giảm tổn thất.

1.1.3 Những thách thức trong phân tích dự báo
Mục đích của dự báo là để giúp cải tiến về hiệu quả, hỗ trợ ra quyết định của
các nhà lãnh đạo. Tuy nhiên, khơng phải lúc nào dự báo cũng chính xác, một số yếu
tố ảnh hưởng đế độ chính xác của dự báo là: Trở ngại trong quản lý, dữ liệu, xây dựng
mơ hình và q trình triển khai [9] .
Những trở ngại trong quản lý: Thông thường để triển khai mơ hình dự báo địi
hỏi có sự chuyển đổi về các nguồn lực cho tổ chức nên cần có sự hỗ trợ từ các nhà
lãnh đạo để chuyển các mơ hình từ nghiên cứu sang vận hành.
Những trở ngại về dữ liệu: Các mơ hình thường u cầu dữ liệu dưới dạng một
bảng hoặc bảng có chứa hàng và cột (dữ liệu hai chiều). Nếu dữ liệu được lưu trữ
trong các cơ sở dữ liệu thì cần phải kết nối các cơ sở dữ liệu để tạo ra một bảng.
Trở ngại trong việc xây dựng mơ hình: Trở ngại lớn nhất là q tải, tức là mơ
hình q phức tạp và yêu cầu phải ghi nhớ dữ liệu huấn luyện. Hai trở ngại với mơ
hình là: Thứ nhất mơ hình thực hiện kém với dữ liệu mới và việc giải thích mơ hình
khơng đáng tin cậy. Thứ hai, các nhà xây dựng mơ hình q tham vọng vào mơ hình


6
được xây dựng trên dữ liệu có sẵn trong khoảng thời gian nhất định. Cách tốt nhất để
khắc phục là xây dựng một mơ hình đơn giản sau đó có thể được cải tiến sau khi chạy
thử nghiệm.
Trở ngại trong triển khai mơ hình:Thơng thường các mơ hình khơng q phức
tạp về mặt tính tốn. Tuy nhiên, các mơ hình phải được kiểm tra bởi hệ thống hoạt
động và đưa ra dự đốn phù hợp với hệ thống đó.
1.1.4 Phân loại các dự báo
1.1.4.1 Căn cứ vào thời đoạn dự báo
- Dự báo ngắn hạn thời đoạn dự báo thường khơng q 3 tháng, ít khi đến 1
năm. Loại dự báo này cần cho việc mua sắm, điều độ công việc, phân giao nhiệm vụ,
cân đối các mặt trong quản trị tác nghiệp.
- Dự báo trung hạn thời đoạn dự báo thường từ 3 tháng đến 3 năm, loại dự báo

này cần thiết cho việc lập kế hoạch bán hàng, kế hoạch sản xuất, dự trù tài chính tiền
mặt và làm căn cứ cho các loại kế hoạch khác.
- Dự báo dài hạn thời đoạn dự báo từ 3 năm trở lên. Loại dự báo này cần cho
việc lập các dự án sản xuất sản phẩm mới, các định điểm cho các cơ sở mới, lựa chọn
các dây chuyền công nghệ, thiết bị mới, mở rộng doanh nghiệp hiện có hoặc thành
lập doanh nghiệp mới.
1.1.4.2 Căn cứ vào nội dung công việc cần dự báo
- Dự báo kinh tế: Dự báo kinh tế cho các cơ quan nghiên cứu, cơ quan dịch vụ
thông tin, các bộ phận tư vấn kinh tế nhà nước thực hiện. Những chỉ tiêu này có giá
trị lớn trong việc hỗ trợ, tạo tiền đề cho công tác dự báo trung hạn, dài hạn của các
doanh nghiệp.
- Dự báo kỹ thuật công nghệ: Dự báo này đề cập đến mức độ phát triển khoa
học kỹ thuật công nghệ trong tương lai. Loại này rất quan trọng đối với các ngành có
hàm lượng kỹ thuật cao như năng lượng nguyên tử, tàu vũ trụ, dầu lửa, máy tính,


7
nghiên cứu không gian, điện tử… Dự báo kỹ thuật, công nghệ thường do các chuyên
gia trong các lĩnh vực đặc biệt thực hiện.
- Dự báo nhu cầu sản phẩm: Thực chất của dự báo nhu cầu là dự kiến, tiên
đoán về doanh số bán ra của doanh nghiệp. Loại dự báo này rất được các nhà quản trị
sản xuất quan tâm. Dự báo nhu cầu giúp cho các doanh nghiệp xác định được chủng
loại và số lượng sản phẩm, dich vụ mà họ cần tạo ra trong tương lai. Thông qua dự
báo nhu cầu các doanh nghiệp sẽ quyết định được quy mô sản xuất, hoạt động của
công ty, là cơ sở để dự kiến về tài chính, tiếp thị, nhân sự.
1.1.4.3 Căn cứ theo các phương pháp dự báo

Hình 1.1.Dự báo định tính và định lượng
Các phương pháp dự báo được chia thành 2 phương pháp là phương pháp định
tính và phương pháp định lượng [6] .

Phương pháp định tính: Hay cịn gọi là phương pháp dự báo chuyên gia
(phương pháp Delphi) là phương pháp thu thập và xử lý những đánh giá dự báo bằng
cách tập hợp và hỏi ý kiến các chuyên gia giỏi thuộc một lĩnh vực hẹp của khoa học
- kỹ thuật hoặc sản xuất.
Phương pháp chuyên gia dựa trên cơ sở đánh giá tổng kết kinh nghiệm, khả
năng phản ánh tương lai một cách tự nhiên của các chuyên gia giỏi và xử lý thống kê
các câu trả lời một cách khoa học. Nhiệm vụ của phương pháp là đưa ra những dự
báo khách quan về tương lai phát triển của khoa học kỹ thuật hoặc sản xuất dựa trên
việc xử lý có hệ thống các đánh giá dự báo của các chuyên gia.


8
Phương pháp chuyên gia được áp dụng đặc biệt có hiệu quả trong các trường
hợp sau đây:
- Khi đối tượng dự báo có tầm bao quát lớn phụ thuộc nhiều yếu tố mà hiện tại
cịn chưa có hoặc thiếu những cơ sở lý luận chắc chắn để xác định.
- Trong điều kiện cịn thiếu thơng tin và những thống kê đầy đủ, đáng tin cậy
về đặc tính của đối tượng dự báo.
- Trong điều kiện có độ bất định lớn của đối tượng dự báo, độ tin cậy thấp về
hình thức thể hiện, về chiều hướng biến thiên về phạm vi cũng như quy mô và cơ
cấu.
- Khi dự báo trung hạn và dài hạn đối tượng dự báo chịu ảnh hưởng của nhiều
nhân tố, phần lớn là các nhân tố rất khó lượng hố đặc biệt là các nhân tố thuộc về
tâm lý xã hội (thị hiếu, thói quen, lối sống, đặc điểm dân cư...) hoặc tiến bộ khoa học
kỹ thuật. Vì vậy trong quá trình phát triển của mình đối tượng dự báo có nhiều đột
biến về quy mô và cơ cấu mà nếu không nhờ đến tài nghệ của chun gia thì mọi sự
trở nên vơ nghĩa.
Trong điều kiện thiếu thời gian, hoàn cảnh cấp bách phương pháp chuyên gia
cũng được áp dụng để đưa ra các dự báo kịp thời.Quá trình áp dụng phương pháp
chuyên gia có thể chia làm ba giai đoạn lớn:

- Lựa chọn chuyên gia
- Trưng cầu ý kiến chuyên gia;
- Thu thập và xử lý các đánh giá dự báo.
Chuyên gia giỏi là người thấy rõ nhất những mâu thuẫn và những vấn đề tồn
tại trong lĩnh vực hoạt động của mình, đồng thời về mặt tâm lý họ luôn luôn hướng
về tương lai để giải quyết những vấn đề đó dựa trên những hiểu biết sâu sắc, kinh
nghiệm sản xuất phong phú và linh cảm nghề nghiệp nhạy bén.
Phương pháp định lượng: Các phương pháp dự báo định lượng đều dựa trên
cơ sở Tốn học, Thống kê. Hình 1.1 mơ tả việc phân loại các phương pháp dự báo
định lượng theo các tiêu chí sau:


9
- Để dự báo nhu cầu tương lai, không xét đến các nhân tố ảnh hưởng khác ta
có thể dùng các phương pháp dự báo theo dãy số thời gian.
- Khi cần xét đến các nhân tố khác ảnh hưởng đến nhu cầu (ngồi thời gian) ta
có thể dùng các phương pháp dự báo dựa trên mối liên hệ tương quan.
1.1.5 Đánh giá mơ hình dự báo
Để đánh giá độ chính xác của mơ hình dự báo luận văn sử dụng hai đánh giá
sau: Sai số bình phương trung bình (Mean Square Error):
MSE 



1 n
 Qi  Qi
n i 1




2

(1.1)

Sai số phần trăm tuyệt đối trung bình (Mean Absolute Error)
MAPE 

1 n Qi  Qi
.100%

n i 1 Qi

(1.2)

Trong đó:
Qi Giá trị dự báo sinh ra bởi mơ hình tại mẫu dữ liệu thứ i
Qi : Giá trị quan sát tại mẫu dữ liệu thứ i

n: chiều dài chuỗi dự đoán
1.2 Dự báo dữ liệu chuỗi thời gian
1.2.1 Giới thiệu
Để thực hiện bài toán dự báo tuyển sinh, việc lựa chọn các mơ hình dự báo
dựa trên dự báo số liệu chuỗi thời gian được cho là phù hợp hơn cả. Vì vậy, phần này
của chương sẽ tập trung phân tích một số phương pháp dự báo chuỗi thời gian cơ bản
để làm căn cứ lựa chọn thiết kế hệ thống dự báo tuyển sinh.
Phương pháp dự báo theo dãy số thời gian được xây dựng trên một giả thiết
về sự tồn tại và lưu lại các nhân tố quyết định đại lượng dự báo từ quá khứ đến tương
lai. Trong phương pháp này đại lượng cần dự báo được xác định trên cơ sở phân tích
chuỗi các số liệu thống kê được trong quá khứ.



10
Như vậy thực chất của phương pháp dự báo theo dãy số thời gian là kéo dài
quy luật phát triển của đối tượng dự báo đã có trong quá khứ và hiện tại sang tương
lai với giả thiết quy luật đó vẫn cịn phát huy tác dụng.
Các yếu tố đặc trưng của dãy số theo thời gian gồm:
- Tính xu hướng: Tính xu hướng của dịng nhu cầu thể hiện sự thay đổi của
các dữ liệu theo thời gian (tăng, giảm...)
- Tính mùa vụ: Thể hiện sự dao động hay biến đổi dữ liệu theo thời gian được
lặp đi lặp lại theo những chu kỳ đều đặn do sự tác động của một hay nhiều nhân tố môi
trường xung quanh như tập quán sinh hoạt, hoạt động kinh tế xã hội... Ví dụ: Nhu cầu
dịch vụ bưu chính viễn thơng không đồng đều theo các tháng trong năm.
- Biến đổi có chu kỳ: Chu kỳ là yếu tố lặp đi lặp lại sau một giai đoạn thời
gian. Ví dụ: Chu kỳ sinh học, chu kỳ phục hồi kinh tế...
- Biến đổi ngẫu nhiên: Biến đổi ngẫu nhiên là sự dao động của dòng nhu cầu
do các yếu tố ngẫu nhiên gây ra, khơng có quy luật.

Hình 1.2.Phân loại các phương pháp dự báo chuỗi thời gian
1.2.2 Một số phương pháp dự báo chuỗi thời gian
Các mơ hình dựa báo chuỗi thời gian được mơ tả trong Hình 1.2. Trong thời
điểm ban đầu, việc giải bài toán dự báo chuỗi thời gian, dự báo được thực hiện bằng
phương pháp làm trơn và ngoại suy chuỗi dữ liệu thời gian thông qua việc làm khớp


11
toàn cục (global fit) trên miền thời gian. Sau này, phương pháp nói trên được thay thế
bởi sự xuất hiện các mơ hình chuỗi thời gian tuyến tính (linear) với các đặc điểm tích
cực dễ hiểu để phân tích dữ liệu và rất dễ để thực hiện. Điểm chưa tốt là chúng làm
việc không hiệu quả với các chuỗi thời gian phi tuyến (non-linear). Do vậy, nhờ có
những tiến bộ trong học máy, các mơ hình phi tuyến dần được nghiên cứu và áp dụng

đối với các chuỗi thời gian phi tuyến tính, với mức độ phức tạp cao
1.2.2.1 Một số phương pháp dự báo chuỗi thời gian đơn giản
 Phương pháp trung bình giản đơn (Simple Average)
Phương pháp trung bình giản đơn là phương pháp dự báo trên cơ sở lấy trung
bình của các dữ liệu đã qua, trong đó các nhu cầu của các giai đoạn trước đều có trọng
số như nhau, nó được thể hiện bằng cơng thức:
Ft 

1 n
 X t i
n i 1

(1.3)

Trong đó: Ft - Nhu cầu dự báo cho thời điểm t
X t i - Giá trị thực ở thời điểm t-i

n- Số thời điểm quan sát
Phương pháp này san bằng được tất cả mọi sự biến động ngẫu nhiên của đại
lượng dự báo, vì vậy nó là mơ hình dự báo rất kém nhạy bén với sự biến động của đại
lượng dự báo. Phương pháp này phù hợp với đại lượng dự báo đều, ổn định, sai số sẽ
rất lớn nếu ta gặp đại lượng dự báo có tính chất thời vụ hoặc đại lượng dự báo có tính
xu hướng.
 Phương pháp trung bình động
Trong trường hợp khi nhu cầu có sự biến động, trong đó thời gian gần nhất có
ảnh hưởng nhiều nhất đến kết quả dự báo, thời gian càng xa thì ảnh hưởng càng nhỏ
ta dùng phương pháp trung bình động sẽ thích hợp hơn.
Phương pháp trung bình động dùng kết quả trên cơ sở thay đổi liên tục khoảng
thời gian trước đây cho dự báo giai đoạn tiếp theo:



12
Khi sử dụng phương pháp trung bình động địi hỏi phải xác định n sao cho sai
số dự báo là nhỏ nhất, đó chính là cơng việc của người dự báo, n phải điều chỉnh
thường xuyên tuỳ theo sự thay đổi tính chất của đại lượng dự báo. Để chọn n hợp lý
cũng như để đánh giá mức độ chính xác của dự báo người ta căn cứ vào sai lệch tuyệt
đối trung bình (MAE).
 Phương pháp trung bình động có trọng số
Đây là phương pháp bình qn nhưng có tính đến ảnh hưởng của từng giai
đoạn khác nhau đến nhu cầu, thông qua việc sử dụng các trọng số.
Ft  i 1 X t it i
n

(1.4)

Trong đó: Ft - Nhu cầu dự báo cho thời điểm t
X t i - Mức nhu cầu thực ở thời điểm t-i

n- Số thời điểm quan sát
t i - Trọng số ở thời điểm t-i
t i được lựa chọn bởi người dự báo dựa trên cơ sở phân tích tính chất của dịng

nhu cầu, thoả mãn điều kiện:



n
i 1

t i  1 và 0  t i  1


(1.5)

Trong phương pháp trung bình động có trọng số, độ chính xác của dự báo phụ
thuộc vào khả năng xác định được các trọng số phù hợp. Thực tế chỉ ra rằng, nhờ điều
chỉnh thường xun hệ số t i của mơ hình dự báo, phương pháp trung bình động có
trọng số mang lại kết quả dự báo chính xác hơn phương pháp trung bình động.
Các phương pháp trung bình giản đơn, trung bình động, trung bình động có
trọng số đều có các đặc điểm sau:
- Khi số quan sát n tăng lên, khả năng san bằng các giao động tốt hơn, nhưng
kết quả dự báo ít nhạy cảm hơn với những biến đổi thực tế của nhu cầu.


13
- Dự báo thường không bắt kịp nhu cầu, không bắt kịp xu hướng thay đổi nhu
cầu.
- Đòi hỏi phải ghi chép số liệu đã qua rất chính xác và phải đủ lớn.
- Để dự báo nhu cầu ở kỳ t chỉ sử dụng n mức nhu cầu thực gần nhất từ kỳ
t-1 trở về trước còn các số liệu từ kỳ n+1 trở đi trong quá khứ bị cắt bỏ, nhưng
thực tế và lý luận không ai chứng minh được rằng các số liệu từ kỳ n +1 trở về trước
hồn tồn khơng ảnh hưởng gì đến đại lượng cần dự báo.
 Phương pháp san bằng hàm mũ giản đơn
Để khắc phục những hạn chế của các phương pháp trên, người ta đề xuất sử
dụng phương pháp san bằng hàm mũ giản đơn để dự báo. Đây là phương pháp dễ sử
dụng nhất, nó cần ít số liệu trong quá khứ. Theo phương pháp này:
Ft  Ft 1 + (Xt 1  Ft 1 )

(1.6)

Trong đó: Ft - Nhu cầu dự báo cho thời điểm t

Ft 1 - Nhu cầu dự báo cho thời điểm t-1
X t 1 - Mức nhu cầu thực ở thời điểm t-1

 - Hệ số san bằng mũ

Thực chất là dự báo mới bằng dự báo cũ cộng với khoảng chênh lệch giữa nhu
cầu thực và dự báo của kỳ đã qua, có điều chỉnh cho phù hợp.
Hệ số  trong mơ hình dự báo thể hiện tầm quan trọng hay mức độ ảnh hưởng
của số liệu hiện tại đến đại lượng dự báo. Hệ số  càng lớn mơ hình càng nhạy bén
với sự biến động của dòng nhu cầu. Nếu chọn α = 0,7, thì chỉ cần 3 số liệu đầu tiên
đã tham gia 97,3% vào kết quả dự báo.
Hệ số  chọn càng nhỏ mơ hình dự báo càng kém nhạy bén hơn với sự biến
đổi của dòng nhu cầu. Nếu chọn α = 0,2 thì giá trị hiện tại chỉ tham gia 20% vào kết
quả dự báo, tiếp đó là 16%... và 5 số liệu mới nhất chiếm khoảng 67%, dãy số còn lại
từ kỳ thứ 6 trong quá khứ về vô cùng chiếm 33% kết quả dự báo.


14

1.2.2.2 Dự báo chuỗi thời gian sử dụng mơ hình hồi quy tuyến tính
 Mơ hình tự hồi quy (AR)
Trong mơ hình tự hồi quy, chuỗi thời gian  X t  được mơ tả bởi phương trình sau:
X t  1 X t 1 +2 X t 2  ...  1 X t  p   t

(1.7)

Trong đó:
i ,1 p là các tham số của mơ hình
 t :nhiễu trắng (white noise)


Phương trình (1.7) được gọi là phương trình biểu diễn của mơ hình tự hồi quy
bậc p (Ký hiệu là AR(p)).
 Mơ hình trung bình di động (MA)
Chuỗi thời gian  X t  được gọi là quá trình trung bình di động bậc q (ký hiệu là
MA(q)) nếu như mỗi quan sát X t của quá trình MA(q) được viết dưới dạng như sau:
X t   t  1 t 1  2 t 2  ...  q t q

(1.8)

Với  t  là một quá trình nhiễu trắng (white noise) với trung bình bằng 0,
i:1  q là các tham số của mơ hình. Phương trình (1.8) trên cho thấy mơ hình MA

hoạt động mà khơng cần thơng tin phản hồi. Có nhiều chuỗi thời gian được làm khớp
dựa hoàn toàn trên các thông tin phản hồi, điều này được thực hiện thơng qua mơ
hình tự hồi quy AR.
 Mơ hình tự hồi quy và trung bình trượt (ARMA)
Các chuỗi thời gian đơi khi khơng thể mơ hình hóa được bằng MA hay AR do
chúng có đặc tính của cả hai q trình này. Khi đó, để biểu diễn, người ta sử dụng mơ
hình ARMA, là pha trộn của cả hai mơ hình MA và AR.
Khi đó, q trình ARMA(p,q) được mơ tả như sau:


15

X t  1 X t 1 +2 X t 2  ...  1 X t  p   t  1 t 1  2 t 2  ...  q t q

(1.9)

Lúc này, việc dự báo có thể thực hiện được nhờ xác định p và q. Việc xác định
này được thực hiện bởi người thực hiện dự báo thơng qua kinh nghiệm. Trong đó, p

được xác định dựa trên việc vẽ các hàm tự tương quan một phần (partial
autocorrelation functions), đồng thời q được xác định thông qua các hàm tự tương
quan (autocorrelation functions). Điều quan trọng là các mơ hình này có thể giải thích
được kết quả dự báo thơng qua các cơng cụ trình diễn trên máy tính.
1.2.2.3 Dự báo chuỗi thời gian sử dụng mơ hình phi tuyến tính
Để mơ tả các q trình phi tuyến tính, các mơ hình này giả thiết dữ liệu chuỗi
thời gian là phi tuyến tính. Điều này phù hợp với thực tế rằng các chuỗi thời gian
khơng thể biết trước chúng có đặc tính là tuyến tính hay phi tuyến tính. Tuy nhiên,
đặc điểm của mơ hình này là sử dụng rất nhiều tham số xây dựng mơ hình và do đó,
rất khó giải thích q trình xác định các tham số của mơ hình. Vì đặc tính này, các
mơ hình phi tuyến tính được coi như quá trình hộp đen.
Dưới đây trình bày một số mơ hình tiêu biểu sử dụng để dự báo dữ liệu chuỗi
thời gian, theo [3] .
 Mơ hình Markov ẩn (Hidden Markov Model)
Mơ hình Markov ẩn (HMM) cũng được sử dụng để dự báo dữ liệu chuỗi thời
gian. Tuy vậy, mơ hình này khơng thích hợp để giải quyết các vấn đề liên quan đến
dữ liệu liên tục. Do vậy, các mơ hình HMM đã được hiệu chỉnh để sử dụng trong giải
quyết bài toán dự báo chuỗi thời gian. Theo đó, mơ hình tốn học của nó trở nên quá
phức tạp để áp dụng thuật toán forward-backward xác định các tham số, độ phức tạp
của giải thuật này là O(N2), nên rất khó mở rộng cho các tập dữ liệu kích thước lớn.
Cũng có vài phương pháp khác khơng thơng dụng để dự báo phi tuyến. Một
trong số đó được gọi phương pháp Analogues. Cách tiếp cận này khá đơn giản và chỉ
có vài tham số tự do nhưng chỉ áp dụng cho các chu kỳ thời gian ngắn.
 Dự báo chuỗi thời gian mờ


16
Để vượt qua được những khó khăn của mơ hình tuyến tính, gần đây nhiều tác
giả đã sử dụng mơ hình chuỗi thời gian mờ. Khái niệm tập mờ được Zadeh đưa ra từ
năm 1965 và ngày càng tìm được ứng dụng trong nhiều lĩnh vực khác nhau nhất là

trong điều khiển và trí tuệ nhân tạo. Trong lĩnh vực phân tích chuỗi thời gian, Song
và Chissom đã đưa ra khái niệm chuỗi thời gian mờ không phụ thuộc vào thời gian
(chuỗi thời gian dừng) và phụ thuộc vào thời gian (không dừng) để dự báo. Chen đã
cải tiến và đưa ra phương pháp mới đơn giản và hữu hiệu hơn so với phương pháp
của Song và Chissom. Trong phương pháp của mình, thay vì sử dụng các phép tính
tổ hợp Max-Min phức tạp, Chen đã tính tốn bằng các phép tính số học đơn giản để
thiết lập các mối quan hệ mờ. Phương pháp của Chen cho hiệu quả cao hơn về mặt
sai số dự báo và giảm độ phức tạp của thuật tốn.
Từ các cơng trình ban đầu về chuỗi thời gian mờ được xuất hiện năm 1993,
hiện nay mơ hình này đang được sử dụng để dự báo trong rất nhiều lĩnh vực của kinh
tế hay xã hội như giáo dục để dự báo số sinh viên nhập trường hay trong lĩnh vực dự
báo thất nghiệp, dân số, chứng khoán và trong đời sống như dự báo mức tiêu thụ điện,
hay dự báo nhiệt độ của thời tiết...
Tuy nhiên xét về độ chính xác của dự báo, các thuật toán trên cho kết quả chưa
cao. Để nâng cao độ chính xác của dự báo, một số thuật tốn cho mơ hình chuỗi thời
gian mờ liên tiếp được đưa ra. Chen cũng đã sử dụng mơ hình bậc cao của chuỗi thời
gian mờ để tính tốn. Sah và Degtiarev thay vì dự báo chuỗi thời gian đã sử dụng
chuỗi thời gian là hiệu số bậc nhất để nâng cao độ chính xác và làm giảm độ phi
tuyến. Đây cũng là một phương pháp hay được sử dụng trong mơ hình Box-Jenkins
để loại bỏ tính khơng dừng của chuỗi thời gian. Huarng đã sử dụng các thơng tin có
trước trong tính chất của chuỗi thời gian như mức độ tăng giảm để đưa ra mơ hình
heuristic chuỗi thời gian mờ.
 Dự báo chuỗi thời gian sử dụng mạng nơron nhân tạo
Mơ hình mạng nơron là mơ hình có khả năng “học” từ các dữ liệu quá khứ, có
thể cập nhật các tham số. Vì vậy nếu lựa chọn được các tham số tối ưu thì nó sẽ là


×