Tải bản đầy đủ (.pdf) (103 trang)

ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU SẢN XUẤT KINH DOANH CHO VNPT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.87 MB, 103 trang )


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ






Hoàng Tuấn Ninh








ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU
SẢN XUẤT KINH DOANH CHO VNPT













LUẬN VĂN THẠC SĨ














HÀ NỘI – 2009




ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ







Hoàng Tuấn Ninh







ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU
SẢN XUẤT KINH DOANH CHO VNPT




Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05





LUẬN VĂN THẠC SĨ



NGƯỜI HƯỚNG DẪN KHOA HỌC






TS.Đỗ Văn Thành



HÀ NỘI - 2009
- i -



LỜI CAM ĐOAN

Tôi xin cam đoan nội dung bản luận văn chưa từng được công bố hay
xuất bản dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một
công trình nghiên cứu nào.
Toàn bộ ứng dụng thử nghiệm đều do tôi tự thiết kế và xây dựng.
Nếu sai tôi xin hoàn toàn chịu trách nhiệm.
Hà Nội, ngày tháng năm 2009
Người thực hiện đề tài



Hoàng Tuấn Ninh


- ii -




LỜI CẢM ƠN

Tôi xin chân thành cảm ơn thầy giáo TS. Đỗ Văn Thành,Trung tâm Thông
tin và Dự báo Kinh tế - Xã hội, Bộ Kế hoạch và Đầu tư đã tận tình hướng dẫn
và có nhiều chỉ dẫn quí báu cho tôi hoàn thành khoá luận này.
Tôi xin chân thành cảm ơn các thầy, cô trong Đại học Công nghệ cũng
như các thầy cô giảng dạy ở Đại học Quốc Gia Hà Nội đã truyền đạt cho tôi
những kiến thức bổ ích trong thời gian học tập tại trường.
Tôi cũng xin gửi lời cảm ơn tới các chuyên viên của Tập đoàn Bưu chính
Viễn thông Việt Nam đã cung cấp số liệu cho tôi để thực hiện luận văn này.
Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình và bạn bè, những
người đã giúp đỡ, động viên tôi rất nhiều trong suốt quá trình học tập và làm
luận văn.
Do thời gian và kiến thức có hạn, khoá luận không tránh khỏi những thiếu
sót nhất định. Tôi rất mong nhận được sự góp ý của thầy cô giáo và các bạn.
Tôi xin chân thành cảm ơn !
- iii -



TÓM TẮT NỘI DUNG LUẬN VĂN

Luận văn được trình bày làm 3 chương chính với các nội dung như sau:
Chương I: Khảo cứu các phương pháp dự báo số liệu
Chương này giới thiệu các kiến thức tổng quan về dự báo và giới thiệu
một số phương pháp dự báo định lượng chính như: Hồi quy tuyến tính, Hồi quy
phi tuyến, phương pháp chuỗi thời gian, phương pháp phân lớp dữ liệu…
Chương II: Dự báo định lượng bằng phương pháp mạng nơron nhân tạo
Chương này tập trung giới thiệu về việc dự báo định lượng bằng phương

pháp mạng nơron nhân tạo, thuật toán lan truyền ngược sai số và phương pháp
thiết kế mạng nơron nhân tạo.
Chương III: Dự báo kết quả hoạt động SXKD của VNPT bằng phương
pháp mạng nơron nhân tạo
Chương này sẽ trình bày bài toán dự báo kết quả thực hiện SXKD của
VNPT, đề xuất giải pháp dự báo định lượng để giải quyết bài toán, sau đó ứng
dụng phương pháp mạng nơron nhân tạo để dự báo kết quả. Cuối cùng là kết quả
thử nghiệm với số liệu SXKD của VNPT, đánh giá kết quả và một số đề xuất,
khuyến nghị.
- iv -



MỤC LỤC


MỤC LỤC iv
DANH SÁCH HÌNH VẼ vi
DANH SÁCH BẢNG BIỂU vii
BẢNG THUẬT NGỮ viii
MỞ ĐẦU ix
CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ HOẠT ĐỘNG
SẢN XUẤT KINH DOANH DOANH NGHIỆP 11
1. Tổng quan các phương pháp dự báo 11
1.3. Dự báo định lượng bằng các phương pháp hồi quy 16
1.3.1.Hồi quy tuyến tính và hồi quy bội 16
1.1.2. Hồi quy phi tuyến tính 17
1.4. Dự báo số liệu bằng các phương pháp chuỗi thời gian 18
1.4.1. Khái niệm chuỗi thời gian 18
1.4.2. Phân tích, dự báo chuỗi thời gian 19

1.4. Dự báo bằng phương pháp phân lớp dữ liệu 21
1.4.1. Phương pháp phân lớp dữ liệu 21
1.4.2. Độ chính xác phân lớp 21
CHƯƠNG 2. DỰ BÁO ĐỊNH LƯỢNG BẰNG PHƯƠNG PHÁP MẠNG NƠRON
NHÂN TẠO 24
2.1. Mạng nơron nhân tạo 24
1). Khái quát về mạng nơron 24
2.2 . Mô hình của mạng nơron nhân tạo 25
2.4. Thuật toán lan truyền ngược sai số 30
2.5. Thiết kế mạng nơron 32
1) Bước 1: Lựa chọn biến 33
2). Bước 2: Thu thập dữ liệu 34
3). Bước 3: Tiền xử lý dữ liệu 34
4). Bước 4: Xác định tập huấn luyện, tập kiểm tra và đánh giá 37
5). Bước 5: Xác định mô hình mạng nơron 38
6). Bước 6: Xác định hàm đánh giá sai số 43
7). Bước 7: Huấn luyện mạng nơron 43
8). Bước 8: Thực thi 48
CHƯƠNG 3. DỰ BÁO KẾT QUẢ HOẠT ĐỘNG SXKD CHO VNPT BẰNG
PHƯƠNG PHÁP MẠNG NƠRON NHÂN TẠO 50
- v -



3.1. Xác định bài toán dự báo kết quả hoạt động sản xuất kinh doanh của VNPT
50
3.2. Xác định hệ thống chỉ tiêu cần được phân tích, dự báo về kết quả SXKD 50
3.2.1. Phân tích quy trình nghiệp vụ báo cáo số liệu tại VNPT 50
3.2.2. Xác định hệ thống chỉ tiêu cần được phân tích và dự báo 52
3.3. Giải pháp dự báo định lượng kết quả SXKD của VNPT 58

3.3.1. Mô hình tổng thể hệ thống thông tin phục vụ dự báo định lượng 58
3.3.2. Giới thiệu tập số liệu và vấn đề tiền xử lý số liệu 61
3.3.3. Phương pháp mạng nơrontrong dự báo số liệu SXKD tại VNPT 62
3.3.4. Phần mềm công cụ hỗ trợ dự báo 63
3.4. Ứng dụng mạng Nơron để dự báo số liệu SXKD cho VNPT 72
3.4.1. Xác định các biến dự báo 72
3.4.2. Thu thập dữ liệu 72
3.4.3. Tiền xử lý dữ liệu 72
3.4.4. Trích chọn dữ liệu – Xây dựng tập huấn luyện 74
3.4.5. Xác định mô hình mạng nơron 76
3.4.6. Xác định hàm đánh giá sai số 79
3.4.7. Huấn luyện mạng nơ ron 79
3.4.8. Dự báo số liệu 81
3.5. Kết quả thử nghiệm 82
a. Thử nghiệm với số liệu điện thoại cố định 83
b. Thử nghiệm với dữ liệu mạng Internet 86
c. Thử nghiệm với dữ liệu mạng di động 87
3.6. Thiết kế Phần mềm dự báo số liệu SXKD cho VNPT 88
3.6.1. Sơ đồ phân rã chức năng 88
3.6.2. Biểu đồ ngữ cảnh 88
3.6.3. Sơ đồ phân rã chức năng 89
3.6.4. Sơ đồ quan hệ 90
3.6.5. Thiết kế dữ liệu logic 91
3.6.6. Thiết kế chức năng xem số liệu 95
3.6.7. Thiết kế chức năng xây dựng mô hình 96
3.6.8. Thiết kế chức năng dự báo số liệu 96
3.6.9. Thiết kế chức năng Cập nhật tập huấn luyện 97
KẾT LUẬN 98
TÀI LIỆU THAM KHẢO 100


- vi -



DANH SÁCH HÌNH VẼ


Hình 1. Các phương pháp dự báo hoạt động SXKD doanh nghiệp 16
Hình 2. Đánh giá độ chính xác của bộ phân lớp bằng phương pháp holdout 22
Hình 3. Mô hình phi tuyến của một nơron 26
Hình 4. Kết quả biến đổi afine của ngưỡng 27
Hình 5. Hai mô hình phi tuyến của nơron 28
Hình 6. Chuyển đổi logarit của số liệu buôn bán lúa gạo theo tháng 36
Hình 7. Phương pháp kiểm tra cửa sổ trượt 38
Hình 8. Hai phương pháp chia tỉ lệ thông dụng trên tập dữ liệu S&P500 42
Hình 9. Đồ thị lỗi của quá trình huấn luyện và kiểm tra mạng nơron 45
Hình 10. Giản đồ biểu diễn một mặt phẳng lỗi của mạng nơron 47
Hình 11. Mô hình Hệ thống dự báo số liệu 58
Hình 12. Mô hình Trích chọn dữ liệu 59
Hình 13. Mô hình Làm sạch, chuẩn hóa dữ liệu 60
Hình 14. Xây dựng mô hình dữ liệu 60
Hình 15. Mô hình Dự báo giá trị mới 61
Hình 16. Màn hình chương trình YALE 64
Hình 17. Mô hình xử lý một cây toán tử của Yale 69
Hình 18. Màn hình chương trình WEKA 70
Hình 19. Cấu trúc kho dữ liệu SXKD của VNPT 73
Hình 20. Biểu đồ ngữ cảnh Hệ thống Dự báo số liệu 89
Hình 21. Sơ đồ quan hệ dữ liệu của Hệ thống Dự báo số liệu 90
Hình 22. Biểu đồ luồng dữ liệu cho chức năng xem số liệu 95
Hình 23. Biểu đồ luồng dữ liệu cho chức năng xây dựng mô hình 96

Hình 24. Biểu đồ luồng dữ liệu cho chức năng dự báo số liệu 96
Hình 25. Biểu đồ luồng dữ liệu cho chức năng Cập nhật tập huấn luyện 97


- vii -



DANH SÁCH BẢNG BIỂU


Bảng 1. So sánh YALE và WEKA 71
Bảng 2. Kết quả dự báo chỉ tiêu m420 tháng 8 từ số liệu tháng 7 83
Bảng 3. Kết quả dự báo chỉ tiêu m420 tháng 10 từ số liệu tháng 7 83
Bảng 4. Kết quả dự báo chỉ tiêu m420 tháng 9 từ số liệu tháng 7 83
Bảng 5. Kết quả dự báo chỉ tiêu m410 tháng 8 từ số liệu tháng 7 83
Bảng 6. Kết quả dự báo chỉ tiêu m410 tháng 9 từ tháng 7 84
Bảng 7. Kết quả dự báo chỉ tiêu m410 tháng 10 từ tháng 7 84
Bảng 8. Kết quả dự báo chỉ tiêu m425 tháng 8 từ tháng 7 84
Bảng 9. Kết quả dự báo chỉ tiêu m425 tháng 9 từ tháng 7 84
Bảng 10. Kết quả dự báo chỉ tiêu m425 tháng 10 từ tháng 7 85
Bảng 11. Kết quả dự báo chỉ tiêu m425 tháng 11 từ tháng 7 85
Bảng 12. Kết quả dự báo chỉ tiêu m425 tháng 12 từ tháng 7 85
Bảng 13. Độ chính xác trung bình theo chu kỳ 86
Bảng 14. Độ chính xác trung bình theo chỉ tiêu 86




- viii -




BẢNG THUẬT NGỮ

Từ viết tắt Tiếng Anh Tiếng Việt
ARIMA
AutoRegressive Integrated
Moving Average
Tích hợp trung bình trượt tự hồi
qui
CSDL Cơ sở dữ liệu
DM Data mart Kho dữ liệu chủ đề
DW Data warehouse Kho dữ liệu
KDD
Knowlegde Discovery in
Databases
Khám phá tri thức trong CSDL
KPDL Khai phá dữ liệu
MLP Multilayer Perceptron Mạng nơron đa lớp
SARIMA
Seasonal AutoRegressive
Integrated Moving Average
Tích hợp trung bình trượt tự hồi
qui theo mùa vụ
VNPT
Vietnam Posts and
Telecomunications Coporation
Tập đoàn Bưu chính Viễn
thông Việt Nam





- ix -



MỞ ĐẦU
Trong nền kinh tế tri thức, ưu thế cạnh tranh luôn thuộc về những doanh
nghiệp nắm bắt đầy đủ, kịp thời và khai thác có hiệu quả thông tin. Các doanh
nghiệp thành công trên thế giới đều đã và đang không ngừng đầu tư cho công cụ
quản lý tri thức của mình ở nhiều cấp độ khác nhau, ở mức thấp là các công cụ
báo cáo, phân tích tình hình tài chính… dựa vào thông tin từ phần mềm kế toán
và ở mức độ cao là ứng dụng công nghệ Khai phá dữ liệu nhằm khai thác các
kho dữ liệu giúp nhà quản lý phân tích về giá thành, thị trường và khách hàng,…
Công nghệ Khai phá dữ liệu có thể được triển khai nhanh chóng dựa trên nền
tảng phần cứng và phần mềm sẵn có đáp ứng yêu cầu khai thác thông tin của
doanh nghiệp, nâng cao hiệu quả sử dụng thông tin từ nguồn tài nguyên sẵn có
và mang lại lợi ích to lớn cho doanh nghiệp.
Tại Việt Nam, hiện tại đã có nhiều tổ chức, doanh nghiệp trong nước nhận
thức được tầm quan trọng và lợi ích của công nghệ Khai phá dữ liệu. Một số tổ
chức, doanh nghiệp đã xây dựng các kho dữ liệu lưu trữ toàn bộ thông tin của tổ
chức, doanh nghiệp như: Kho dữ liệu của Kho bạc nhà nước, Kho dữ liệu Ngân
sách nhà nước của Bộ Tài chính, Kho dữ liệu của Ngân hàng Nhà nước… Tuy
nhiên, việc khai thác dữ liệu từ kho tài nguyên đồ sộ này vẫn chưa đạt hiệu quả
mong muốn do chưa phát triển được công cụ phù hợp, chưa trích chọn và phân
tích được những dữ liệu xác đáng. Để đạt được những thông tin mong muốn từ
những nguồn dữ liệu lớn đòi hỏi phải có những đổi mới về mặt kỹ thuật.
Là một trong những doanh nghiệp đi đầu trong việc đẩy mạnh khai thác

và sử dụng thông tin hỗ trợ hoạt động quản lý điều hành và sản xuất kinh doanh,
Tập đoàn Bưu chính Viễn thông Việt Nam (VNPT) đã có một số phần mềm ứng
dụng hỗ trợ quản lý điều hành sản xuất kinh doanh như: Hệ thống Báo cáo
nhanh, Hệ thống báo cáo tài chính, Hệ thống quản lý tài sản, Hệ thống quản lý
dự án Internet trường học… Sự ra đời của “Hệ thống phần mềm báo cáo số liệu
và thông tin phục vụ quản lý, điều hành sản xuất kinh doanh tại Cơ quan Tập
đoàn” (Hệ thống VRS) đã giúp đáp ứng được nhu cầu báo cáo thông tin một
cách thống nhất, hệ thống, chính xác và cập nhật, thay thế hiệu quả cho phương
thức báo cáo, tổng hợp số liệu bằng giấy tờ. Đồng thời Hệ thống VRS được đưa
vào sử dụng đã cung cấp một khối lượng thông tin lớn khó có thể xử lý bằng
những phương pháp thủ công hiện có, từ đó đặt ra nhu cầu về một hệ thống phần
mềm có thể hỗ trợ xử lý hiệu quả những thông tin này.
- x -



Đề tài “Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu
SXKD cho VNPT” được phát triển nhằm mục đích hỗ trợ phân tích, tổng hợp và
xử lý kho dữ liệu, thông tin một cách tự động, chính xác và có thể được tích hợp
với các ứng dụng hỗ trợ quản lý sản xuất kinh doanh đang hoạt động khác. Kết
quả nghiên cứu của đề tài sẽ hỗ trợ tích cực cho công tác xử lý số liệu và dự báo
tình hình SXKD của Tập đoàn, đồng thời góp phần đẩy mạnh công tác ứng dụng
công nghệ thông tin vào các hoạt động quản lý điều hành sản xuất kinh doanh tại
Cơ quan Tập đoàn.

Hà Nội 10-2009
Người thực hiện đề tài

- 11 -




CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ
HOẠT ĐỘNG SẢN XUẤT KINH DOANH DOANH NGHIỆP

1. Tổng quan các phương pháp dự báo
Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT và ngành công
nghiệp phần cứng đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ
thống thông tin tăng lên một cách nhanh chóng. Bên cạnh đó việc tin học hoá
một cách mạnh mẽ các hoạt động sản xuất, kinh doanh cũng như nhiều lĩnh vực
hoạt động khác đã tạo ra một lượng dữ liệu lưu trữ khổng lồ. Hàng triệu CSDL
đã được sử dụng trong các hoạt động sản xuất, kinh doanh, quản lí , trong đó có
nhiều CSDL cực lớn cỡ Gigabyte, thậm chí là Terabyte. Sự bùng nổ này đã dẫn
tới một yêu cầu cấp thiết là cần có những kĩ thuật và công cụ mới để tự động
chuyển đổi lượng dữ liệu khổng lồ kia thành các tri thức có ích. Từ đó, các kĩ
thuật Khai phá dữ liệu đã ra đời và trở thành một lĩnh vực thời sự của nền CNTT
thế giới hiện nay.
1.1. Tổng quan về dự báo
* Dự báo là gì?
Dự báo là một nhận định về tương lai. Những nhận định này có thể có nền
tảng vững chắc hoặc có thể thiếu những nền tảng cơ sở thuyết phục; chúng có
thể chính xác hoặc không chính xác trong từng trường hợp cá biệt hoặc tính
trung bình; chúng có thể chi tiết hoặc không chi tiết; chúng có thể dựa trên mô
hình hoặc mang tính thông tin. Các dự báo được đưa ra bằng những phương
pháp với hệ hàng trăm phương trình ước lượng kinh tế lượng được kiểm định
chặt chẽ cho tới những phương pháp gần như không có một cơ sở nào để quan
sát được. Do vậy, dự báo là một chủ đề rất rộng. Trong lịch sử, hầu hết các
phương pháp mà con người nghĩ ra về hoạt động “tiên đoán” tương lai có thể
mang lại điều gì đều đã được thử nghiệm.
* Có thể dự báo những gì?

Bởi vì dự báo chỉ đơn giản là một nhận định về tương lai nên chúng ta có thể
dự báo bất kỳ điều gì, có thể là dự báo lạm phát chỉ số giá tiêu dùng của tháng
tới, dự báo thời tiết ngày mai, mực nước biển tính trung bình dâng cao thêm bao
nhiêu sau 20 năm nữa hoặc dân số của trái đất vào ngày hôm đó hay như giá trị
của chỉ số VN index tại thời điểm đầu năm 2010. Chúng ta không khẳng định
rằng các kết quả dự báo nhất thiết là hữu ích.
* Mức độ tin cậy của chúng ta đối với các dự báo là như thế nào?
- 12 -



Mức độ tin cậy của dự báo phụ thuộc vào cơ sở xây dựng dự báo này tốt đến
mức độ nào? Những dự báo đơn thuần sẽ không mang lại độ tin cậy cao, những
dự báo dựa trên các cách tiếp cận đã được kiểm định đúng đắn có thể mang lại
nhiều hy vọng hơn. Thật không may là ngay cả khi nó được dựa trên những cách
tiếp cận này thì dường như vẫn chưa đủ. Tương lai quá bất định chính là khó
khăn của dự báo. Có hai điều trái ngược nhau mà ta có thể vận dụng từ câu nói
của Maxine Singer rằng: "Bởi vì những thứ mà chúng ta không biết rằng chúng
ta không biết nên tương lai rất khó đoán định. Nhưng một vài bước phát triển có
thể dự báo được, hoặc ít nhất là có thể tưởng tượng được dựa trên những gì
chúng ta đã biết".
* Tính chất của dự báo
- Dự báo mang tính xác suất: Mỗi đối tượng dự báo đều vận động theo một
quy luật hay một quỹ đạo nhất định nào đó, đồng thời trong quá trình phát triển
nó luôn luôn chịu sự tác động của môi trường hay yếu tố bên ngoài. Bản thân
môi trường hay các yếu tố tác động không phải đứng im mà luôn luôn trong
trạng thái vận động và phát triển không ngừng. Chính vì điều này nên dự báo
không thể hoàn toàn chính xác mà chỉ mang tính xác suất.
- Dự báo mang tính đa phương án: Mỗi dự báo được thực hiện dựa trên
những tập hợp các giả thiết nhất định - dự báo có điều kiện. Tập hợp các giả

thiết như vậy gọi là phông dự báo. Do vậy dự báo có thể được tiến hành trên các
phông dự báo khác nhau do những nguyên nhân chủ quan và khách quan khác
nhau dẫn tới có nhiều phương án dự báo khác nhau.
* Chức năng của dự báo
- Chức năng tham mưu: Trên cơ sở đánh gíá thực trạng, phân tích xu hướng
vận động và phát triển trong quá khứ, hiện tại và tương lai, dự báo sẽ cung cấp
thông tin cần thiết, khách quan làm căn cứ cho việc ra quyết định quản lý và xây
dựng chiến lược, kế hoạch phát triển sản xuất kinh doanh, Người quản lý và
hoạch định chiến lược, kế hoạch có nhiệm vụ phải lựa chọn trong số các phương
án có thể có, tìm ra các phương án có tính khả thi cao nhất, có hiệu quả cao nhất.
Để thực hiện tốt chức năng này dự báo phải thực sự đảm bảo tính khách quan,
khoa học và tính độc lập tương đối với các cơ quan quản lý và hoạch định chính
sách.
- Chức năng khuyến nghị hay điều chỉnh: Với chức năng này dự báo tiên
đoán các hậu quả có thể nảy sinh trong quá trình thực hiện nhằm giúp doanh
- 13 -



nghiệp kịp thời điều chỉnh mục tiêu cũng như cơ chế tác động quản lý để đạt
hiệu quả kinh tế - xã hội cao nhất.
1.2. Phương pháp luận tổng quát về dự báo
Để thiết lập một dự báo, về cơ bản, chúng ta có các bước tiến hành sau đây:
a) Xác định vấn đề dự báo và mốc thời gian xa nhất của dự báo
b) Hiểu vấn đề cần được dự báo, xây dựng hệ thống mô tả vấn đề cần được
dự báo và nhận ra những biến số then chốt của hệ thống;
c) Thu thập các số liệu cần thiết phục vụ cho dự báo và Đề xuất các giả thiết
xuất phát của dự báo;
d) Tiến hành dự báo và kiểm nghiệm tính đúng đắn của dự báo
f) Ứng dụng kết quả dự báo

* Xác định vấn đề dự báo:
Công việc đầu tiên là phát biểu vấn đề cần được dự báo một cách rõ ràng và
chính xác. Điều này dường như là đương nhiên nhưng thật ra sự nhấn mạnh tầm
quan trọng của nó là rất cần thiết vì rất có thể xảy ra tình trạng vấn đề đặt ra lúc
đầu, đến một giai đoạn nào đó của quá trình dự báo, lại bắt đầu được nhận thức
là chưa đủ rõ ràng, các công việc tiếp theo do đó không thể đặt ra một cách cụ
thể để có thể được giải quyết, và chúng ta lại phải quay trở lại việc xác định vấn
đề.
Một vấn đề khác là cần xác định mốc thời gian xa nhất của dự báo. Có nhiều
nhân tố chi phối sự lựa chọn này, như thời hạn ra quyết định, khả năng quyết
định và các phương tiện hành động, v.v Không có một phương pháp xác định
nào có thể giúp ta làm tốt việc này. Kinh nghiệm thực tiễn và sự nhạy cảm là
những yếu tố có thể đóng góp vào sự lựa chọn tối ưu. Các dự báo đã có về các
vấn đề khác nhau rõ ràng là một nguồn tham khảo quan trọng.
Xét một số dự báo lớn được đưa ra trong mấy năm gần đây, thí dụ như
"Theo dõi tương lai, nghiên cứu về các kịch bản của nền kinh tế thế giới, 1990-
2015" của Cục Kế hoạch Trung ương của Hà Lan, "Dự án 2025" do hãng Coates
& Jarratt, Inc. biên soạn, các báo cáo "Trạng thái tương lai" công bố hàng năm
từ 1997 của "Dự án Thiên niên kỷ" thuộc Hội đồng Đại học Liên Hợp quốc.
Trong các dự báo này, mốc thời gian xa nhất của dự báo được lựa chọn là
khoảng 25 năm. Một số dự báo khác, thí dụ như "Tương lai của nước Anh năm
2010" của hãng Applied Futures công bố năm 1989, "Nước Anh năm 2010" của
Policy Studies Institute công bố năm 1991, "Nền an ninh của châu Âu năm
- 14 -



2010" của P. Leclerc và B. Gentric năm 1991, mốc thời gian xa nhất dự báo
được lựa chọn là 20 năm. Song lại có những dự báo có mốc thời gian hơn, tới 40
năm, thí dụ như "Nhà ở năm 2030" do Trung tâm Khoa học và Kỹ thuật về Nhà

ở và Cục Môi trường và Quản lý Năng lượng của Pháp xây dựng trong thời gian
1991-93.
* Hiểu vấn đề cần được dự báo, xây dựng hệ thống và phát hiện các biến số
then chốt
Công việc tiếp theo là xác định trạng thái của hệ thống mô tả vấn đề cần
được dự báo, cụ thể là tìm ra tất cả các biến số có ảnh hưởng đến vấn đề được
nghiên cứu hoặc chịu ảnh hưởng của vấn đề được nghiên cứu, phân tích các
quan hệ giữa các biến số đó, và cuối cùng thu gọn phạm vi của hệ thống về một
số biến số có tính chất cơ bản - các biến số then chốt.
Có thể giao việc lập danh mục các biến số xác định trạng thái của hệ cho
một người. Song để tránh sự chủ quan quá đáng, công việc này nên được tiến
hành bởi một nhóm công tác có tính chất đa ngành và sử dụng các cách làm như
gửi bảng câu hỏi để lấy ý kiến, phỏng vấn chuyên gia, v.v
Để phân tích các quan hệ giữa các biến số, phương pháp thường được sử
dụng là phân tích cấu trúc gồm ba bước cơ bản như sau:
ˉ Thống kê các biến số;
ˉ Lập ma trận phân tích cáu trúc và đồ thị độ phát động - mức phụ thuộc;
ˉ Phát hiện các biến số then chốt.
* Thu thập dữ liệu phục vụ dự báo và đề xuất các giả thiết/giả thuyết cho dự báo
Thu thập dữ liệu là một công việc rất nặng nề vì đối với mỗi biến số, ta cần
phải trả lời 3 câu hỏi sau đây:
Diễn biến của biến số trong quá khứ ?
Xu hướng phát triển của biến số đó trong tương lai ?
Những điểm uốn hay gián đoạn có thể có làm thay đổi xu hướng phát triển
của biến số ?
Để trả lời các câu hỏi này, ta cần xem xét 5 vấn đề sau đây:
Xác định những chỉ tiêu có thể sử dụng một cách thích hợp để mô tả diễn
biến của biến số được xét. Thí dụ như để mô tả mức sống của dân cư, có thể xét
khả năng sử dụng chỉ tiêu tổng sản phẩm trong nước (GDP) hay tổng sản phẩm
xã hội (GNP); để đánh giá năng lực đổi mới công nghệ của một quốc gia, có thể

- 15 -



sử dụng chỉ tiêu số sáng chế đăng ký; để đánh giá mức độ chuyển đổi cơ cấu lao
động có thể sử dụng chỉ tiêu số lượng lao động được đào tạo nghề theo các
ngành kinh tế, để đánh giá nguồn nhân lực chất lượng cao có thể sử dụng chỉ
tiêu số lượng và chất lượng đào tạo từ bậc cao đẳng, đại học trở lên, v.v
Xét khả năng có được dữ liệu (định tính cũng như định lượng), độ tin cậy
của chúng và, nếu có thể, mức độ cân đối cần phải có.
Xác định các chuỗi thời gian (các giá trị của chỉ tiêu sắp xếp theo trình tự
thời gian) cần theo dõi. Điều này có ý nghĩa quan trọng vì chuỗi thời gian của
một biến số kinh tế - xã hội nào đó là phản ánh quy luật biến đổi của biến số đó
trong quá khứ và hiện tại, nếu chuỗi thời gian đủ dài ta mới có căn cứ để ngoại
suy hay dự báo giá trị của biến số đó trong tương lai.
Để hình thành các giả thiết/giả thuyết cho dự báo: cần giải thích các diễn
biến trong quá khứ; nói cách khác, tìm hiểu nguyên nhân của các hệ quả đã quan
sát được. Rõ ràng là sự giải thích nguyên nhân không đúng sẽ dẫn đến những dự
báo vô lý. Thí dụ như có rõ những nguyên nhân đã dẫn đến tốc độ tăng trưởng
cao của nền kinh tế Việt Nam trong mấy năm vừa qua, chúng ta mới có thể có
được những dự báo đáng tin về tốc độ này trong những năm sắp tới, chưa nói
những điều chỉnh cần thiết do sự thay đổi của những nhân tố bên ngoài.
Đề xuất các giả thiết về sự phát triển của các biến số trong tương lai; nói
riêng, về khả năng xuất hiện những điểm uốn hay gián đoạn so với xu hướng "tự
nhiên" và, nếu có thể, xác suất xuất hiện các điểm uốn hay gián đoạn đó.
* Tiến hành dự báo và kiểm nghiệm kết quả dự báo
Trong phần lớn các trường hợp rất cần phải kiểm nghiệm kết quả dự báo so
với thực tế. Nó là cơ sở để chấp nhận dự báo và ứng dụng vào thực tiễn.
* Ứng dụng dự báo
Mục đích cuối cùng của dự báo là nhằm phục vụ quá trình xây dựng chiến

lược, kế hoạch sản xuất kinh doanh và phục vụ quá trình ra quyết định, điều
hành, quản lý của người lãnh đạo doanh nghiệp
Hiện tại có rất nhiều pháp dự báo về hoạt động sản xuất kinh doanh khác
nhau (xem hình 1). Phân tiếp theo của Chương này chỉ giới thiệu tóm tắt một số
phương pháp dự báo định lượng điển hình cho doanh nghiệp.

- 16 -




Hình 1.
Các phương pháp dự báo hoạt động SXKD doanh nghiệp

1.3. Dự báo định lượng bằng các phương pháp hồi quy
1.3.1.Hồi quy tuyến tính và hồi quy bội
Hồi quy tuyến tính: Đây là dạng đơn giản nhất trong các phương pháp hồi quy.
Ở dạng này, dữ liệu được mô hình hoá theo đường thẳng. Theo mô hình này,
một biến ngẫu nhiên Y (biến trả lời - response variable) sẽ được tính bằng một
hàm tuyến tính của một biến ngẫu nhiên X khác (biến dự báo – predictor
variable) theo công thức[8]:
Y =  + X
trong đó độ biến thiên của Y là không đổi,  và  gọi là các hệ số hồi quy. Các
hệ số này có thể được tính ra bằng phương pháp bình phương tối thiểu. Cho n
mẫu hay điểm dữ liệu dưới dạng (x
1
, y
1
), (x
2

, y
2
),…, (x
n
, y
n
), các hệ số hồi quy
có thể được ước lượng bằng phương pháp trên theo phương trình:







n
i
i
n
i
ii
xx
yyxx
1
2
1
)(
))((




xy


- Làm trơn hàm mũ
- Trung bình trượt tích hợp
tự hồi qui (ARIMA) và
ARIMA theo mùa vụ;
- Mô hình tự hồi quy véc tơ
VAR, ….
-
PHƯƠNG PHÁP
DỰ BÁO
PHƯƠNG PHÁP
ĐỊNH TÍNH
PHƯƠNG PHÁP
ĐỊNH LƯỢNG
Các mô
hình
nhân quả
Các mô hình
chuỗi thời gian
-

L
ấy ý kiến của ban l
ãnh
đ
ạo


- Lấy ý kiến của bộ phận bán
hàng
-Phương pháp lấy ý kiến của
người tiêu dùng
-Phương pháp chuyên gia
-Hồi quy
-Phân lớp
-Phân tích tương
quan,
-….
- 17 -



ở đây
x
là giá trị trung bình của x
1
, x
2
,…, x
n
và y là giá trị trung bình của
y
1
,y
2
,…,y
n
.

Hồi quy bội: là mở rộng của hồi quy tuyến tính với nhiều hơn một biến dự báo.
Nó cho phép biến trả lời được mô hình hoá như là một hàm tuyến tính của một
véc tơ nhiều chiều. Một ví dụ cho hồi quy bội với 2 biến dự báo X
1
và X
2
là:
Y =  + 
1
X
1
+ 
2
X
2

Các hệ số , 1, 2 vẫn có thể tính được bằng phương pháp bình phương tối
thiểu.
1.3.2. Hồi quy phi tuyến tính
Với hồi quy tuyến tính, chúng ta đã có thể mô hình hoá những dữ liệu tuyến
tính. Nhưng với dữ liệu không tuyến tính thì như thế nào ? Dưới đây là một số
dạng hồi quy phi tuyến thường được sử dụng :
- Hồi quy theo hàm log: logY = a + b * X


Cho thấy xu thế tăng (hoặc giảm) theo tốc độ tăng %.
- Hồi quy theo hàm parabol: Y = a + b * X + c * X
2

Cho thấy xu thế lúc đầu tăng (hoặc giảm) chậm, song về sau thì mạnh hơn


- 18 -



- Hồi quy theo hàm tăng trưởng (hàm logistic): Y=[a/(1+e(a-bX))]+b
Xu thế này có hình chữ S, tức là lúc đầu tăng chậm (đường cong không
dốc nhiều), sau đó tăng mạnh (đường cong dốc), sau đó lại tăng chậm lại (tiến
đến mức bão hoà)


- Hồi quy theo hàm vòng đời: Y=a/[1+e(a-bX)+f(d-cX)]
Xu thế hàm vòng đời tương tự với xu thế hàm tăng trưởng ở 3 giai đoạn
đầu (lúc đầu tăng chậm, sau tăng mạnh, sau tăng chậm lại), song khác với xu thế
hàm tăng trưởng ở giai đoạn tiếp theo là hàm tăng trưởng tiến đến mức bão hoà,
còn hàm vòng đời sau đó suy giảm.


1.4. Dự báo số liệu bằng các phương pháp chuỗi thời gian
1.4.1. Khái niệm chuỗi thời gian
Chuỗi dữ liệu phụ thuộc thời gian được chia làm hai loại [3]:
- Chuỗi dữ liệu phụ thuộc thời gian được quan sát, đo đạc trong khoảng thời
gian rời rạc: Các quan sát được thực hiện tại các thời điểm tách biệt, chúng
thường là các quan sát được đo tại các mốc thời gian cách đều nhau, ví dụ chuỗi
thời gian được đo theo tuần, quý, tháng, năm, ….
- 19 -



- Chuỗi dữ liệu liên tục theo thời gian: Các quan sát được đo trong khoảng thời

gian liên tục, ví dụ chuỗi dữ liệu đo nhiệt độ trong ngày (nhiệt kế).
Như vậy: Chuỗi thời gian là một tập giá trị các quan sát của biến ngẫu nhiên,
ký hiệu là }{
t
z ,
1, ,n
t

là số các quan sát, đo được trong các khoảng thời gian
t
như nhau (hàng năm, quý, tháng, tuần, ngày …) và được xếp theo thứ tự thời
gian.
Ví dụ: Tổng giá trị sản xuất Tổng giá trị hàng tồn kho, nguyên liệu nhập về,
chi phí quản lý, …, của một doanh nghiệp theo từng tháng chính là các chuỗi
thời gian như vậy.
1.4.2. Phân tích, dự báo chuỗi thời gian
Quá trình phân tích, dự báo chuỗi thời gian }{
t
z là để tìm ra các mô hình,
luật ẩn trong nó, việc này được thực hiện trên các quan sát mẫu, gồm có những
bước sau[1]:
Bước 1: Nhận dạng các thành phần ẩn tồn tại trong chuỗi thời gian
- Thành phần xu thế (Trend - T): Thể hiện chiều hướng biến động tăng hoặc
giảm của các hiện tượng nghiên cứu trong thời gian dài.
- Thành phần chu kỳ (Period - P): Thể hiện biến động của hiện tượng được lặp
lại với chu kỳ nhất định, thường kéo dài từ 2 đến 10 năm.
- Thành phần mùa vụ (Seasonal - S): Biểu hiện sự tăng hoặc giảm mức độ của
hiện tượng ở một số thời điểm (tháng, quý, năm) nào đó được lặp đi lặp lại qua
nhiều năm.
- Thành phần ngẫu nhiên (Irregular - I): Thể hiện những biến động không có

qui luật và hầu như không dự báo hoặc quan sát được trong của hiện tượng đang
nghiên cứu.
Những thành phần này kết hợp với nhau trong chuỗi thời gian bằng nhiều
cách thức khác nhau, chẳng hạn chuỗi thời gian
t
z được mô tả là tích các thành
phần, ISPTz
t




gọi là mô hình tích, hoặc ISPTz
t




gọi là mô
hình tổng, hoặc kết hợp cả hai ISPTz
t




. Do vậy, để phân tích và
nghiên cứu hành vi cũng như dự báo biến động của chuỗi thời gian thì cần thiết
phải ước lượng được các thành phần nói trên trong chuỗi thời gian và cách thức
kết hợp chúng với nhau trong chuỗi.
Bước 2: Làm trơn số liệu

- 20 -



Tuỳ theo mô hình dự báo áp dụng mà cần thiết tiến hành bước làm trơn số
liệu hay không. Trong trường hợp mô hình dự báo áp dụng cần quá trình làm
trơn số liệu ta tiến hành loại trừ được thành phần xu thế và mùa vụ trong chuỗi
thời gian. Chuỗi thu được sau cùng không còn chứa các thành phần đó (chuỗi
được làm trơn) sẽ khiến cho việc phân tích, dự báo dễ dàng hơn.
Bước 3: Chọn lựa, ước lượng và đánh giá mô hình
Chọn lựa mô hình trong lớp các mô hình, sao cho mô hình được lựa chọn là
“tốt nhất” trong số các mô hình ứng cử và nó cũng phải đơn giản và có thể hiểu
được dễ dàng. Sau đó thực hiện ước lượng các tham số, phần dư cho mô hình
vừa chọn lựa và chúng phải thỏa mãn các tiêu chí kiểm định, đánh giá. Mô hình
ước lượng được đánh giá là hợp lý khi đó sẽ sinh ra chuỗi “gần giống” với
chuỗi dữ liệu quan sát thực.
Bước 4: Dự báo
Dựa trên mô hình thực hiện dự báo giá trị tương lai cho chuỗi thời gian,
phân tích sự phù hợp của giá trị dự báo cả về mặt thực nghiệm và lý thuyết. Xác
định độ chệch giữa giá trị dự báo với giá trị quan sát thực và khoảng tin cậy của
dự báo tức là giới hạn mà giá trị quan sát thực sẽ nằm trong.
Bước 5: Ứng dụng mô hình dự báo vào trong thực tế
Trên cơ sở các dự báo về các giá trị tương lai của hiện tượng nghiên cứu đề
ra các quyết định kinh doanh hoặc chính sách. Đồng thời gộp thêm các giá trị
quan sát mới vào chuỗi dữ liệu quan sát nhằm mục đích hiệu chỉnh lại mô hình
để đưa ra dự báo tốt hơn.
Chất lượng của dự báo phụ thuộc vào nhiều yếu tố chẳng hạn sự phức tạp
của chuỗi thời gian khi thực hiện phân tích, tác động của nhiều yếu tố bất
thường không thể lường trước được khi tiến hành dự báo, ngoài ra độ chính xác
cũng còn phụ thuộc phần lớn vào khoảng cách xa gần của dự báo (dự báo gần

thì cho độ chính xác của dự báo tốt hơn so với dự báo xa).
Hiện tại có nhiều mô hình phân tích và dự báo chuỗi thời gian, trong đó
những mô hình điển hình là: Mô hình làm trơn hàm mũ chuỗi thời gian, bao
gồm [4]:
- Mô hình làm trơn hàm mũ bậc1, bậc 2 và bậc 3 (còn gọi là mô hình Holt –
Winter). Trong mô hình Holt-Winter còn có mô hình Holt-Winter mùa vụ nhân
và Holt-Winter mùa vụ cộng.
- 21 -



- Mô hình trung bình trượt tích hợp trung bình trượt tự hồi quy là mô hình tổ
hợp của 3 quá trình: sai phân (hay tích hợp), Trung bình trượt và Tự hồi quy.
Mô hình phát triển từ ARIMA để dự báo cho chuỗi thời gian có yếu tố mùa vụ
được gọi là mô hình SARIMA.
- Mô hình tự hồi quy véc tơ VAR, thực chất đó là tổ hợp của các mô hình
Trung bình trượt và Tự hồi quy cho nhiều chuỗi thời gian, nói cách khác mô
hình VAR là một hệ gồm nhiều phương trình của nhiều chuỗi thời gian có liên
quan với nhau về trể, ở đó mỗi phương trình có dạng của mô hình Trung bình
trượt kết hợp với mô hình Tự hồi quy.
1.4. Dự báo bằng phương pháp phân lớp dữ liệu
1.4.1. Phương pháp phân lớp dữ liệu
Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử
dụng mô hình để phân lớp dữ liệu [12].
Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu.
Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là
thuộc tính lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện
(training data set). Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác
định trước khi xây dựng mô hình, vì vậy phương pháp này còn được gọi là học
có thầy (supervised learning) khác với phân cụm dữ liệu là học không có thầy

(unsupervised learning).
Bước 2: sử dụng mô hình để phân lớp dữ liệu. Trước hết chúng ta phải tính độ
chính xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được
sử dụng để dự báo nhãn lớp cho các mẫu dữ liệu khác trong tương lai.
Các kỹ thuật phân lớp dữ liệu chủ yếu để dự báo số liệu gồm có: phân lớp
theo phương pháp Bayes, phân lớp theo cây quyết định, phân lớp theo phương
pháp máy vector hỗ trợ (SVM), phân lớp theo phương pháp mạng nơron, thuật
toán di truyền, thuật toán người lãng riềng gần nhất, …
1.4.2. Độ chính xác phân lớp
Ước lượng độ chính xác của mô hình phân lớp là một bước quan trọng cho
phép người dùng đánh giá được dữ liệu được phân lớp trong tương lai của họ sẽ
chính xác đến đâu. Ngoài ra độ chính xác này còn có thể dùng làm tiêu chí để so
sánh các bộ phân lớp khác nhau[12].
Để ước lượng độ chính xác của mô hình phân lớp, chúng ta có 1 số phương
pháp như holdout hay k-fold cross-validation, bootstrapping, leave-one-out…
- 22 -



- Phương pháp holdout: trong phương pháp này, tập dữ liệu ban đầu sẽ được
chia ngẫu nhiên ra làm 2 tập: tập huấn luyện và tập kiểm thử. Tập huấn luyện
được dùng để xây dựng mô hình còn tập kiểm thử được dùng để ước lượng độ
chính xác. Sơ đồ phương pháp này được thể hiện trong hình dưới.

Hình 2.
Đánh giá độ chính xác của bộ phân lớp bằng phương pháp
holdout
- Phương pháp k-fold cross-validation: trong phương pháp này, tập dữ liệu
ban đầu sẽ được chia thành k tập con (fold), thường là với kích thước bằng nhau.
Bước huấn luyện và bước kiểm thử sẽ được thực hiện làm k lần. Tại mỗi lần lặp

thứ i, tập con S
i
sẽ được dùng làm tập kiểm thử còn các tập con còn lại sẽ được
dùng làm tập huấn luyện. Độ chính xác sẽ được tính bằng tổng số các trường
hợp phân loại đúng trong k lần chia cho tổng số mẫu trong tập dữ liệu ban đầu.
Để tăng độ chính xác của phương pháp phân lớp, người ta đưa ra một số kỹ
thuật như: Bagging và boosting. Tư tưởng chính của kỹ thuật bagging là thay vì
xây dựng một bộ phân lớp, chúng ta sẽ xây dựng k bộ phân lớp từ tập dữ liệu
ban đầu, với mỗi mẫu mới cần phân lớp, mỗi bộ phân lớp sẽ có 1 kết quả dự báo
và nhãn nào được dự báo nhiều nhất bởi các bộ phân lớp sẽ được gán cho mẫu
mới. Kỹ thuật boosting tương tự kỹ thuật bagging nhưng mỗi mẫu học sẽ được
gán thêm 1 trọng số để giúp các bộ phân loại xây dựng sau tránh các lỗi mà các
bộ phân loại trước gặp phải.

KẾT LUẬN CHƯƠNG 1
Trong chương 1, luận văn đã trình bày một cách tổng quan về dự báo và các
phương pháp dự báo. Các phương pháp dự báo bao gồm các phương pháp dự
báo định tính và các phương pháp dự báo định lượng. Trong phương pháp định
lượng gồm có phương pháp (mô hình) chuỗi thời gian và mô hình nhân quả.
Luận văn này đã giới thiệu một cách tóm tắt quy trình các bước phân tích, dự
Tập huấn
luyện
Tập kiểm
thử
Dữ liệu
Bộ phân
lớp
Đánh giá
độ chính xác
- 23 -




báo bằng mô hình chuỗi thời gian và 3 mô hình chuỗi thời gian điển hình nhất
đang được ứng dụng hiện nay là mô hình làm trơn hàm mũ chuỗi thời gian, mô
hình trung bình trượt tích hợp tự hồi quy và mô hình tự hồi quy véc tơ.
Trong mô hình nhân quả, luận văn đã giới thiệu nhanh các mô hình hồi quy
tuyến tính và phi tuyến, và phương pháp dự báo bằng phân lớp dữ liệu. Phương
pháp dự báo phân lớp dữ liệu sẽ là đối tượng nghiên cứu chính của luận văn này.
Trong chương tiếp theo, luận văn sẽ tập trung trình bày phương pháp phân
lớp dữ liệu sử dụng mạng nơron nhân tạo để dự báo định lượng.

















×