Tải bản đầy đủ (.pdf) (14 trang)

Áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (292.36 KB, 14 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Hoàng Tuấn Ninh

ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU
SẢN XUẤT KINH DOANH CHO VNPT

LUẬN VĂN THẠC SĨ

HÀ NỘI – 2009


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

Hoàng Tuấn Ninh

ÁP DỤNG CÁC KỸ THUẬT PHÂN LỚP
DỮ LIỆU, HỒI QUY ĐỂ DỰ BÁO SỐ LIỆU
SẢN XUẤT KINH DOANH CHO VNPT
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60 48 05

LUẬN VĂN THẠC SĨ

NGƢỜI HƢỚNG DẪN KHOA HỌC

TS.Đỗ Văn Thành



HÀ NỘI - 2009


LỜI CAM ĐOAN
Tôi xin cam đoan nội dung bản luận văn chưa từng được công bố hay xuất
bản dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một công
trình nghiên cứu nào.
Toàn bộ ứng dụng thử nghiệm đều do tôi tự thiết kế và xây dựng.
Nếu sai tôi xin hoàn toàn chịu trách nhiệm.
Hà Nội, ngày

tháng

năm 2009

Người thực hiện đề tài

Hoàng Tuấn Ninh


LỜI CẢM ƠN
Tôi xin chân thành cảm ơn thầy giáo TS. Đỗ Văn Thành,Trung tâm Thông
tin và Dự báo Kinh tế - Xã hội, Bộ Kế hoạch và Đầu tư đã tận tình hướng dẫn và
có nhiều chỉ dẫn quí báu cho tôi hoàn thành khoá luận này.
Tôi xin chân thành cảm ơn các thầy, cô trong Đại học Công nghệ cũng như
các thầy cô giảng dạy ở Đại học Quốc Gia Hà Nội đã truyền đạt cho tôi những
kiến thức bổ ích trong thời gian học tập tại trường.
Tôi cũng xin gửi lời cảm ơn tới các chuyên viên của Tập đoàn Bưu chính
Viễn thông Việt Nam đã cung cấp số liệu cho tôi để thực hiện luận văn này.

Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình và bạn bè, những người
đã giúp đỡ, động viên tôi rất nhiều trong suốt quá trình học tập và làm luận văn.
Do thời gian và kiến thức có hạn, khoá luận không tránh khỏi những thiếu
sót nhất định. Tôi rất mong nhận được sự góp ý của thầy cô giáo và các bạn.
Tôi xin chân thành cảm ơn !


TÓM TẮT NỘI DUNG LUẬN VĂN
Luận văn được trình bày làm 3 chương chính với các nội dung như sau:
Chương I: Khảo cứu các phương pháp dự báo số liệu
Chương này giới thiệu các kiến thức tổng quan về dự báo và giới thiệu một
số phương pháp dự báo định lượng chính như: Hồi quy tuyến tính, Hồi quy phi
tuyến, phương pháp chuỗi thời gian, phương pháp phân lớp dữ liệu…
Chương II: Dự báo định lượng bằng phương pháp mạng nơron nhân tạo
Chương này tập trung giới thiệu về việc dự báo định lượng bằng phương
pháp mạng nơron nhân tạo, thuật toán lan truyền ngược sai số và phương pháp
thiết kế mạng nơron nhân tạo.
Chương III: Dự báo kết quả hoạt động SXKD của VNPT bằng phương pháp
mạng nơron nhân tạo
Chương này sẽ trình bày bài toán dự báo kết quả thực hiện SXKD của
VNPT, đề xuất giải pháp dự báo định lượng để giải quyết bài toán, sau đó ứng
dụng phương pháp mạng nơron nhân tạo để dự báo kết quả. Cuối cùng là kết quả
thử nghiệm với số liệu SXKD của VNPT, đánh giá kết quả và một số đề xuất,
khuyến nghị.


MỤC LỤC

MỤC LỤC ......................................................................................................................6
DANH SÁCH HÌNH VẼ ...............................................................................................9

DANH SÁCH BẢNG BIỂU ........................................................................................10
BẢNG THUẬT NGỮ ..................................................................................................11
MỞ ĐẦU ...........................................................................Error! Bookmark not defined.
CHƢƠNG 1. KHẢO CỨU CÁC PHƢƠNG PHÁP DỰ BÁO VỀ HOẠT ĐỘNG SẢN
XUẤT KINH DOANH DOANH NGHIỆP....................Error! Bookmark not defined.
1. Tổng quan các phƣơng pháp dự báo .........................Error! Bookmark not defined.
1.3. Dự báo định lượng bằng các phương pháp hồi quy .Error! Bookmark not defined.
1.3.1.Hồi quy tuyến tính và hồi quy bội ...................Error! Bookmark not defined.
1.1.2. Hồi quy phi tuyến tính ....................................Error! Bookmark not defined.
1.4. Dự báo số liệu bằng các phương pháp chuỗi thời gianError! Bookmark not defined.
1.4.1. Khái niệm chuỗi thời gian ..............................Error! Bookmark not defined.
1.4.2. Phân tích, dự báo chuỗi thời gian ..................Error! Bookmark not defined.
1.4. Dự báo bằng phương pháp phân lớp dữ liệu ...........Error! Bookmark not defined.
1.4.1. Phương pháp phân lớp dữ liệu ......................Error! Bookmark not defined.
1.4.2. Độ chính xác phân lớp ...................................Error! Bookmark not defined.
CHƢƠNG 2. DỰ BÁO ĐỊNH LƢỢNG BẰNG PHƢƠNG PHÁP MẠNG NƠRON
NHÂN TẠO ......................................................................Error! Bookmark not defined.
2.1. Mạng nơron nhân tạo ...............................................Error! Bookmark not defined.
1). Khái quát về mạng nơron ...........................................Error! Bookmark not defined.
2.2 . Mô hình của mạng nơron nhân tạo .....................Error! Bookmark not defined.
2.4. Thuật toán lan truyền ngược sai số ..........................Error! Bookmark not defined.
2.5. Thiết kế mạng nơron .................................................Error! Bookmark not defined.
1)
Bước 1: Lựa chọn biến ...................................Error! Bookmark not defined.
2). Bước 2: Thu thập dữ liệu ....................................Error! Bookmark not defined.
3). Bước 3: Tiền xử lý dữ liệu ..................................Error! Bookmark not defined.
4). Bước 4: Xác định tập huấn luyện, tập kiểm tra và đánh giáError! Bookmark not
defined.
5). Bước 5: Xác định mô hình mạng nơron..............Error! Bookmark not defined.
6). Bước 6: Xác định hàm đánh giá sai số ...............Error! Bookmark not defined.

7). Bước 7: Huấn luyện mạng nơron .......................Error! Bookmark not defined.
8). Bước 8: Thực thi .................................................Error! Bookmark not defined.


CHƢƠNG 3. DỰ BÁO KẾT QUẢ HOẠT ĐỘNG SXKD CHO VNPT BẰNG
PHƢƠNG PHÁP MẠNG NƠRON NHÂN TẠO .........Error! Bookmark not defined.
3.1. Xác định bài toán dự báo kết quả hoạt động sản xuất kinh doanh của VNPT
...........................................................................................Error! Bookmark not defined.
3.2. Xác định hệ thống chỉ tiêu cần đƣợc phân tích, dự báo về kết quả SXKDError!
Bookmark not defined.
3.2.1. Phân tích quy trình nghiệp vụ báo cáo số liệu tại VNPTError! Bookmark not
defined.
3.2.2. Xác định hệ thống chỉ tiêu cần được phân tích và dự báoError! Bookmark not
defined.
3.3. Giải pháp dự báo định lƣợng kết quả SXKD của VNPT .... Error! Bookmark not
defined.
3.3.1. Mô hình tổng thể hệ thống thông tin phục vụ dự báo định lượng ......... Error!
Bookmark not defined.
3.3.2. Giới thiệu tập số liệu và vấn đề tiền xử lý số liệu ........ Error! Bookmark not
defined.
3.3.3. Phương pháp mạng nơrontrong dự báo số liệu SXKD tại VNPT ......... Error!
Bookmark not defined.
3.3.4. Phần mềm công cụ hỗ trợ dự báo ..................Error! Bookmark not defined.
3.4. Ứng dụng mạng Nơron để dự báo số liệu SXKD cho VNPTError! Bookmark not
defined.
3.4.1. Xác định các biến dự báo ...............................Error! Bookmark not defined.
3.4.2. Thu thập dữ liệu .............................................Error! Bookmark not defined.
3.4.3. Tiền xử lý dữ liệu............................................Error! Bookmark not defined.
3.4.4. Trích chọn dữ liệu – Xây dựng tập huấn luyệnError! Bookmark not defined.
3.4.5. Xác định mô hình mạng nơron .......................Error! Bookmark not defined.

3.4.6. Xác định hàm đánh giá sai số ........................Error! Bookmark not defined.
3.4.7. Huấn luyện mạng nơ ron................................Error! Bookmark not defined.
3.4.8. Dự báo số liệu ................................................Error! Bookmark not defined.
3.5. Kết quả thử nghiệm ..................................................Error! Bookmark not defined.
a.
Thử nghiệm với số liệu điện thoại cố định .....Error! Bookmark not defined.
b.
Thử nghiệm với dữ liệu mạng Internet ...........Error! Bookmark not defined.
c.
Thử nghiệm với dữ liệu mạng di động ............Error! Bookmark not defined.
3.6. Thiết kế Phần mềm dự báo số liệu SXKD cho VNPTError! Bookmark not defined.
3.6.1. Sơ đồ phân rã chức năng ...............................Error! Bookmark not defined.
3.6.2. Biểu đồ ngữ cảnh ...........................................Error! Bookmark not defined.
3.6.3. Sơ đồ phân rã chức năng ...............................Error! Bookmark not defined.
3.6.4. Sơ đồ quan hệ .................................................Error! Bookmark not defined.


3.6.5. Thiết kế dữ liệu logic ......................................Error! Bookmark not defined.
3.6.6. Thiết kế chức năng xem số liệu ......................Error! Bookmark not defined.
3.6.7. Thiết kế chức năng xây dựng mô hình ...........Error! Bookmark not defined.
3.6.8. Thiết kế chức năng dự báo số liệu .................Error! Bookmark not defined.
3.6.9. Thiết kế chức năng Cập nhật tập huấn luyện.Error! Bookmark not defined.
KẾT LUẬN ......................................................................Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO ...........................................................................................12


DANH SÁCH HÌNH VẼ
Hình 1. Các phương pháp dự báo hoạt động SXKD doanh nghiệp .......... Error!
Bookmark not defined.
Hình 2. Đánh giá độ chính xác của bộ phân lớp bằng phương pháp holdoutError!

Bookmark not defined.
Hình 3. Mô hình phi tuyến của một nơron ....... Error! Bookmark not defined.
Hình 4. Kết quả biến đổi afine của ngưỡng ..... Error! Bookmark not defined.
Hình 5. Hai mô hình phi tuyến của nơron ........ Error! Bookmark not defined.
Hình 6. Chuyển đổi logarit của số liệu buôn bán lúa gạo theo tháng ....... Error!
Bookmark not defined.
Hình 7. Phương pháp kiểm tra cửa sổ trượt ..... Error! Bookmark not defined.
Hình 8. Hai phương pháp chia tỉ lệ thông dụng trên tập dữ liệu S&P500 Error!
Bookmark not defined.
Hình 9. Đồ thị lỗi của quá trình huấn luyện và kiểm tra mạng nơron ...... Error!
Bookmark not defined.
Hình 10. Giản đồ biểu diễn một mặt phẳng lỗi của mạng nơron ............. Error!
Bookmark not defined.
Hình 11.

Mô hình Hệ thống dự báo số liệu..... Error! Bookmark not defined.

Hình 12.

Mô hình Trích chọn dữ liệu ............. Error! Bookmark not defined.

Hình 13.

Mô hình Làm sạch, chuẩn hóa dữ liệuError! Bookmark not defined.

Hình 14.

Xây dựng mô hình dữ liệu ............... Error! Bookmark not defined.

Hình 15.


Mô hình Dự báo giá trị mới ............. Error! Bookmark not defined.

Hình 16.

Màn hình chương trình YALE ......... Error! Bookmark not defined.

Hình 17. Mô hình xử lý một cây toán tử của Yale ........ Error! Bookmark not
defined.
Hình 18.

Màn hình chương trình WEKA........ Error! Bookmark not defined.

Hình 19.

Cấu trúc kho dữ liệu SXKD của VNPTError! Bookmark not defined.


Hình 20. Biểu đồ ngữ cảnh Hệ thống Dự báo số liệu .... Error! Bookmark not
defined.
Hình 21. Sơ đồ quan hệ dữ liệu của Hệ thống Dự báo số liệuError! Bookmark
not defined.
Hình 22. Biểu đồ luồng dữ liệu cho chức năng xem số liệu . Error! Bookmark
not defined.
Hình 23. Biểu đồ luồng dữ liệu cho chức năng xây dựng mô hình ......... Error!
Bookmark not defined.
Hình 24. Biểu đồ luồng dữ liệu cho chức năng dự báo số liệuError! Bookmark
not defined.
Hình 25. Biểu đồ luồng dữ liệu cho chức năng Cập nhật tập huấn luyện Error!
Bookmark not defined.


DANH SÁCH BẢNG BIỂU
Bảng 1. So sánh YALE và WEKA ................... Error! Bookmark not defined.
Bảng 2. Kết quả dự báo chỉ tiêu m420 tháng 8 từ số liệu tháng 7 ............ Error!
Bookmark not defined.
Bảng 3. Kết quả dự báo chỉ tiêu m420 tháng 10 từ số liệu tháng 7 .......... Error!
Bookmark not defined.
Bảng 4. Kết quả dự báo chỉ tiêu m420 tháng 9 từ số liệu tháng 7 ............ Error!
Bookmark not defined.
Bảng 5. Kết quả dự báo chỉ tiêu m410 tháng 8 từ số liệu tháng 7 ............ Error!
Bookmark not defined.
Bảng 6. Kết quả dự báo chỉ tiêu m410 tháng 9 từ tháng 7Error! Bookmark not
defined.
Bảng 7. Kết quả dự báo chỉ tiêu m410 tháng 10 từ tháng 7Error! Bookmark not
defined.
Bảng 8. Kết quả dự báo chỉ tiêu m425 tháng 8 từ tháng 7Error! Bookmark not
defined.


Bảng 9. Kết quả dự báo chỉ tiêu m425 tháng 9 từ tháng 7Error! Bookmark not
defined.
Bảng 10. Kết quả dự báo chỉ tiêu m425 tháng 10 từ tháng 7Error! Bookmark
not defined.
Bảng 11. Kết quả dự báo chỉ tiêu m425 tháng 11 từ tháng 7Error! Bookmark
not defined.
Bảng 12. Kết quả dự báo chỉ tiêu m425 tháng 12 từ tháng 7Error! Bookmark
not defined.
Bảng 13. Độ chính xác trung bình theo chu kỳ Error! Bookmark not defined.
Bảng 14. Độ chính xác trung bình theo chỉ tiêuError! Bookmark not defined.



BẢNG THUẬT NGỮ
Từ viết tắt
ARIMA

Tiếng Anh
AutoRegressive Integrated
Moving Average

Tiếng Việt
Tích hợp trung bình trượt tự hồi
qui
Cơ sở dữ liệu

CSDL
DM

Data mart

Kho dữ liệu chủ đề

DW

Data warehouse

Kho dữ liệu

KDD

Knowlegde Discovery in

Databases

Khám phá tri thức trong CSDL
Khai phá dữ liệu

KPDL
MLP

Multilayer Perceptron

Mạng nơron đa lớp

SARIMA

Seasonal AutoRegressive
Integrated Moving Average

Tích hợp trung bình trượt tự hồi
qui theo mùa vụ

VNPT

Vietnam Posts and
Telecomunications Coporation

Tập đoàn Bưu chính Viễn
thông Việt Nam


TÀI LIỆU THAM KHẢO

A - Sách tham khảo
Tiếng Việt
[1] Tạ Mạnh Cường (2006), Dự báo chuỗi dữ liệu phụ thuộc thời gian theo mùa
vụ bằng mô hình Holt-Winters, Luận văn Ths, ĐH Công nghệ - ĐHQGHN.
[2] Nguyễn Khắc Minh (2002), Các phương pháp phân tích và dự báo trong
kinh tế. NXB Khoa học và kỹ thu, ật Hà Nội,.
[3] Trần Văn Thái (2005), Phát hiện tri thức theo mùa từ cơ sở dữ liệu chuỗi
thời gian, Luận văn Ths, ĐH Công nghệ - ĐHQGHN.
[4] Đỗ Văn Thành (2007), Giải pháp dự báo ngắn hạn về tăng trưởng kinh tế
Việt Nam.

Tiếng Anh
[5] C.C.Klimasauskas (1993), Applying neural network, in R.R. Trippi and E.
Turban, eds., Neural Network in Finance and Investing: Using Artificial
Intelligence to Improve Real World Performance, Chicago.
[6] Christopher M. Bishop (1995), Neural Networks for Pattern Recognition.
Clarendon Press, Oxford.
[7] Danielle Graupe (2007), Principles of Artificial Neural Networks. World
Scientific.
[8] David Hand, Heikki Mannila, Padhraic Smyth (2001). Principles of Data
Mining. The MIT Press.
[9] G.J.Deboeck, Ed (1994), Trading on the Edge: Neural, Genetic and Fuzzy
Systems for Chaotic Financial Markets. Wiley, NewYork.
[10] Icebeling Kaastra, Milton Boyd (1995), Designing a neural network for
forcasting finacial and economic time series.


[11] J.O.Katz (April 1992), Developing neural network forcasters for trading,
Technical Analysis of Stocks and Commodities.
[12] Jiawei Han and Michelle Kamber (2001), Data Mining: Concepts and

Techniques. Morgan Kaufmann.
[13] Joseph P.Bigus (1996), Data Mining Process with Neural Networks.
McGraw-Hill.
[14] Peter Cabena, Pablo Hadjinian, Rolf Stadler, Jaap Verhees, Alessandro
Zanasi (1998), Discovering Data Mining, From Concept to Implementation.
Prentice Hall Ptr.
[15] T. Masters (1993), Pratical Neural Networks Recipes in C++, Academic
Press, NewYork.

B - Địa chỉ web
[16] Tài
liệu
của
phần
mềm
/>
nguồn

mở

Weka:

[17] Tài liệu của phần mềm nguồn mở Yale: />[18] www.forecast.umkc.edu



×