0
ĐẠI HỌC THÁI NGUN
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG
NGUYỄN ĐỨC CHÍ
“
NGHIÊN CỨU PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG DỰ BÁO NGUỒN GỖ NGUN LIỆU
CHO SẢN XUẤT TẠI NHÀ MÁY GIẤY BÃI BẰNG”
Chun ngành : Khoa học máy tính
Mã số : 60 48 01
LUẬN VĂN THẠC SỸ
NGƯỜI HƯỚNG DẪN KHOA HỌC: GS.TS NGUYỄN THANH THỦY
GS.TS Nguyễn Thanh Thủy
Thái ngun, tháng 12/2013
Số hóa bởi Trung tâm Học liệu –ĐHTN />1
LỜI CAM ĐOAN
Tơi xin cam đoan:
Những nội dung trong luận văn này là do tơi thực hiện dưới sự hướng
dẫn trực tiếp của thầy giáo Giáo sư, Tiến sĩ Nguyễn Thanh Thủy.
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tác giả,
tên cơng trình, thời gian, địa điểm cơng bố.
Mọi sao chép khơng hợp lệ, vi phạm quy chế đào tạo hay gian lận tơi
xin hồn tồn chịu trách nhiệm./.
Thái Ngun, tháng 12 năm 2013
Tác giả luận văn
Nguyễn Đức Chí
Số hóa bởi Trung tâm Học liệu –ĐHTN />2
LỜI CẢM ƠN
Trước hết, tơi xin bày tỏ lòng biết ơn sâu sắc tới tập thể các Giáo sư,
Tiến sĩ, giảng viên thuộc Viện Cơng nghệ Thơng tin – Viện Hàn lâm Khoa
học và Cơng nghệ Việt Nam; Trường Đại học Cơng nghệ Thơng tin và
Truyền thơng – Đại học Thái Ngun đã tận tình giảng dạy, truyền đạt kiến
thức cho tơi trong suốt thời gian học tập vừa qua. Tơi xin bày tỏ lòng biết ơn
tới GS.TS Nguyễn Thanh Thủy người đã tận tình hướng dẫn, chỉ bảo và chia
sẻ những tài liệu rất hữu ích để tơi hồn thành luận văn.
Xin chân thành cảm ơn lãnh đạo trường Đại học Cơng nghệ thơng tin
và Truyền thơng – Đại học Thái Ngun đã tạo điều kiện giúp đỡ tơi về mọi
mặt trong suốt thời gian học tập tại trường cũng như trong thời gian thực hiện
luận văn.
Tơi xin bày tỏ lòng biết ơn sâu sắc đến gia đình, người thân, bạn bè,
đồng nghiệp những người ln động viên, khuyến khích và giúp đỡ để tơi có
thể hồn thành tốt nội dung nghiên cứu./.
Thái Ngun, tháng 12 năm 2013
Tác giả luận văn
Nguyễn Đức Chí
Số hóa bởi Trung tâm Học liệu –ĐHTN />i
MỤC LỤC
I. CHƯƠNG I: TỔNG QUAN VỀ DỰ BÁO DỮ LIỆU 3
1.1 Khái niệm về dự báo. 3
1.2 Một số đặc điểm của dự báo. 3
1.3 Các phương pháp dự báo. 4
1.3.1 Phương pháp dự báo định tính (phán đốn) 5
1.3.2 Phương pháp dự báo định lượng. 8
1.3.3 Quy trình dự báo. 11
1.4 Kết luận: 11
II. CHƯƠNG 2: KHAI PHÁ DỮ LIỆU VÀ CÁC ỨNG DỤNG CHO 12
DỰ BÁO DỮ LIỆU 12
2.1. Khai phá dữ liệu: 12
2.1.1 Phát hiện tri thức và khai phá dữ liệu. 12
2.1.2 Q trình phát hiện tri thức từ cơ sở dữ liệu. 12
2.2. Các phương pháp dự báo dữ liệu: 14
2.2.1 Các phương pháp trực quan 14
2.3.1 Chuỗi thời gian
thự
c
19
2.3.2. Thành phần xu hướng dài
hạn
20
2.3.3 Thành phần
mùa
21
2.3.4. Thành phần chu
kỳ
21
2.3.5. Thành phần bất
thường
21
2.3.6 Khai phá tri thức trên cơ sở dữ liệu chuỗi thời gian. 21
2.4 Các ứng dụng cho dự báo dữ liệu: 22
III. CHƯƠNG 3: MƠ HÌNH ARIMA, PHẦM MỀM EVIEWS 24
3.1 Mơ hình ARIMA 24
3.1.1 Lập mơ hình AR, MA và ARIMA với dữ liệu chuỗi thời gian. 24
3.1.2 Xem xét tính dừng của chuỗi quan sát 27
3.1.3 Các bước lặp trong phương pháp luận Box-Jenkins (BJ) 28
3.2 Phần mềm Eviews 28
3.3 Áp dụng cho bài tốn dự báo gỗ ngun liệu 30
3.3.1 Dữ liệu cho dự báo 30
3.3.2 Mơ hình ARIMA cho dự báo ngun liệu gỗ 31
3.4 Các đánh giá sau dự báo 36
KẾT LUẬN 37
HƯỚNG NGHIÊN CỨU TIẾP THEO 39
DANH MỤC TÀI LIỆU THAM KHẢO 40
Số hóa bởi Trung tâm Học liệu –ĐHTN />ii
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
Các ký hiệu,
chữ viết tắt
Nội dung
KPDL Khai phá dữ liệu
CNTT Cơng nghệ thơng tin
ARIMA Autoregresssive Intergrated Moving Avegage
AR Autoregresssive
MA Moving Avegage
Số hóa bởi Trung tâm Học liệu –ĐHTN />iii
DANH MỤC CÁC BẢNG
Bảng Nội dung Trang
1.1 Một số phương pháp dự báo phổ biến 4
3.1 Các dữ liệu đầu vào cho dự báo 26
22
Số hóa bởi Trung tâm Học liệu –ĐHTN />iv
DANH MỤC CÁC HÌNH (HÌNH VẼ, ẢNH CHỤP, ĐỒ THỊ…)
Hình Nội dung Trang
2.1 Quy trình phát hiện tri thức từ cơ sở dữ liệu 9
2.2 Minh họa chuỗi thời gian 14
2.3 Đồ thị minh họa thành phần xu hướng dài hạn 16
3.1 Giao diện chương trình Eviews 25
3.2 Giao diện làm việc với workfile khởi tạo các biến 25
3.3 Giao diện nhập số liệu vào chương trình eviews 27
3.4 Tương quan lượng gỗ tự cấp và mua ngồi 28
3.5
3.6
Ước lượng ARIMA(1,0,1) với tucap và muangoai 29
3.7 Biểu đồ tương quan lượng giấy và bột giấy sản xuất được 29
3.8 So sánh lượng ngun liệu cho sản xuất và xuất khẩu 30
3.9 So sánh lượng giấy và bột giấy đã sản xuất 30
3.10 Ước lượng hồi quy lượng giấy và bột giấy đã sản xuất 31
Số hóa bởi Trung tâm Học liệu –ĐHTN />1
MỞ ĐẦU
Tổng cơng ty giấy Việt Nam hiện nay là một trong những đơn vị lớn
trong cả nước về sản xuất bột giấy và giấy. Đặc biệt sản phẩm giấy Bãi Bằng
(sản xuất tại Nhà máy giấy Bãi Bằng) của Tổng cơng ty là thương hiệu nổi
tiếng đã được người tiêu dùng trong nước biết đến từ lâu và tin dùng.
Trong q trình phát triển và hoạt động, giấy Bãi Bằng đã nhiều lần
nâng cấp thiết bị và mở rộng sản xuất. Năm 2003 đã đầu tư thành cơng Dự án
mở rộng cơng ty giấy Bãi Bằng giai đoạn I, nâng cơng suất sản xuất bột giấy
từ 48.000 tấn/năm lên 71.000 tấn/năm và cơng suất sản xuất giấy từ 50.000
tấn/năm lên 100.000 tấn/năm. Tiếp theo thành cơng của dự án đầu tư giai
đoạn I, Tổng cơng ty giấy Việt Nam đã lập dự án đầu tư giai đoạn II - dây
chuyền bột giấy tẩy trắng 250.000 tấn/năm, dự án giấy nhà máy giấy Thanh
Hố - dây chuyền sản xuất giấy in/viết 100.000 tấn/năm, năm 2010 Tổng
cơng ty đã đầu tư nâng cơng suất sản xuất giấy lên 120.000 tấn/năm, tiếp
nhận dự án nhà máy bột giấy Phương Nam – tỉnh Long An và một số dự án
khác. Tuy nhiên, trong đó có các dự án hoặc là đã dừng lại, hoặc là chưa
thành cơng hay triển vọng sinh lời khi đưa vào sản xuất còn hạn chế. Ngun
nhân là thiếu sự nghiên cứu, phân tích đầy đủ về thị trường đầu vào và đầu ra
của các sản phẩm trong các dự án đầu tư, cũng như cơng nghệ phù hợp với
điều kiện sản xuất ở Việt Nam.
Trong khi Tổng cơng ty chưa thành cơng trong các dự án đầu tư ngành giấy
thì Việt Nam lại đang được coi là nước thu hút đầu tư ngành giấy, trong đó
các cơng ty giấy của Nhật Bản, Trung Quốc, Thái Lan… đã và đang đầu tư
lớn vào Việt Nam. Các cơng ty trong nước cũng đang mở rộng sản xuất, xúc
tiến đầu tư. Tổng cơng ty giấy Việt Nam đang đứng trước nguy cơ tụt hậu so
với các cơng ty sản xuất giấy khác ngay tại Việt Nam.
Số hóa bởi Trung tâm Học liệu –ĐHTN />2
Mặc dù nhiều dự án đầu tư đã và đang được tiến hành, hầu hết các cơng ty và
các dự án giấy tại Việt Nam mới chỉ đầu tư và sản xuất được giấy in, giấy
viết, một phần nhỏ giấy in báo, giấy vàng mã, giấy các tơng sóng ở quy mơ
nhỏ, đa số khơng có xử lý mơi trường, chưa sản xuất được các loại giấy cao
cấp như giấy bao bì tráng phủ, giấy kraft tẩy trắng hoặc khơng tẩy trắng, giấy
làm lớp mặt thùng có lớp sóng,…
Mặt khác, tuy các điều kiện về kinh tế và dân số của Việt Nam vẫn tăng
trưởng đều đặn, sự phát triển của cơng nghệ thơng tin và các cơng nghệ mới
đã làm cho nhu cầu giấy in báo tại Việt Nam giảm sút rõ rệt, nhu cầu giấy
in/viết khơng còn tăng mạnh và chịu sự cạnh tranh khốc liệt từ giấy ngoại
nhập, các loại sách điện tử, những lý do này làm cho các thị trường giấy in
báo, giấy in/viết của Tổng cơng ty Giấy Việt Nam khơng còn là cơ hội đầu tư
nữa.
Trong điều kiện mơi trường kinh doanh như vậy, Tổng cơng ty giấy Việt Nam
đã nhận thấy sự cần thiết và cơ hội đầu tư sản xuất sản phẩm giấy cao cấp
khác để cạnh tranh. Cùng với việc nghiên cứu thị trường và cơng nghệ sản
xuất giấy trước khi đi đến quyết định đầu tư cần phải nghiên cứu và dự báo rõ
ràng nguồn ngun liệu cho việc sản xuất mang tính ổn định lâu dài. Việc tự
lực được nguồn ngun liệu là quyết định được lợi thế cạnh tranh lớn trên thị
trường.
Mục đích bài luận văn là tìm hiểu một số phương pháp khai phá, phân
tích dữ liệu từ các số liệu thực tế được tổng hợp và ứng dụng cho bài tốn dự
báo nguồn ngun liệu cho sản xuất của nhà máy giấy Bãi Bằng – Tổng cơng
ty Giấy Việt Nam.
Số hóa bởi Trung tâm Học liệu –ĐHTN />3
NỘI DUNG
I. CHƯƠNG I: TỔNG QUAN VỀ DỰ BÁO DỮ LIỆU
1.1 Khái niệm về dự báo.
Dự báo là biện pháp lập luận khoa học tiên đốn những sự việc sẽ xảy
ra trong tương lai, trên cơ sở phân tích, tổng hợp về các dữ liệu đã thu thập
được. Khi tiến hành dự báo cần căn cứ vào việc thu thập, xử lý số liệu trong
q khứ và hiện tại để xác định xu hướng vận động của các hiện tượng trong
tương lai nhờ vào một số mơ hình tốn học (Định lượng). Tuy nhiên dự báo
cũng có thể là một dự đốn chủ quan hoặc trực giác về tương lai (Định tính)
và để dự báo định tính được chính xác hơn, cần phải loại trừ những tính chủ
quan của người dự báo.
Dù định nghĩa có sự khác biệt nào đó, nhưng đều thống nhất về cơ bản
là dự báo bàn về tương lai, nói về tương lai. Dự báo trước hết là một thuộc
tính khơng thể thiếu của tư duy của con người, con người ln ln nghĩ đến
ngày mai, hướng về tương lai. Trong thời đại cơng nghệ thơng tin và tồn cầu
hóa, dự báo lại đóng vai trò quan trọng hơn khi nhu cầu về thơng tin thị
trường, tình hình phát triển tại thời điểm nào đó trong tương lai càng cao. Dự
báo được sử dụng trong nhiều lĩnh vực khác nhau, mỗi lĩnh vực có một u
cầu về dự báo riêng nên phương pháp dự báo được sử dụng cũng khác nhau.
1.2 Một số đặc điểm của dự báo.
Tính khơng chính xác của dự báo: Dù phương pháp chúng ta sử dụng là
gì thì ln tồn tại yếu tố khơng chắc chắn cho đến khi thực tế diễn ra.
Ln có điểm mù trong các dự báo: Khơng phải cái gì cũng có thể dự
báo được nếu chúng ta thiếu hiểu biết về vấn đề cần dự báo.
Số hóa bởi Trung tâm Học liệu –ĐHTN />4
Dự báo cung cấp kết quả đầu vào cho các nhà hoạch định chính sách
trong việc đề xuất các chính sách phát triển: Chính sách mới sẽ ảnh hưởng
đến tương lai, vì thế cũng sẽ ảnh hưởng đến độ chính xác của dự báo.
1.3 Các phương pháp dự báo.
Hiện nay trên thế giới rất nhiều phương pháp dự báo được sử dụng, tuy
nhiên có 9 phương pháp dự báo được áp dụng phổ biến là:
STT Nội dung
1 Phương pháp tiên đốn (Genius forecasting)
2 Phương pháp ngoại suy xu hướng (Tren extrapolation)
3 Phương pháp chun gia (Consensus)
4 Phương pháp mơ phỏng (Mơ hình hóa - Simulation)
5 Phương pháp ma trận trác động qua lại (Cross-Impact matrix method)
6 Phương pháp kịch bản (Scenario)
7 Phương pháp cây quyết định (Decision trees)
8 Phương pháp dự báo tổng hợp/ luật kết hợp (Combining methods)
9 Phương pháp chuỗi thời gian (Time series)
Bảng 1.1: Một số phương pháp dự báo phổ biến
Tuy nhiên, theo cách phân loại tại Việt Nam các phương pháp dự báo
thường được chia thành 2 nhóm chính là phương pháp định tính và phương
pháp định lượng.
Số hóa bởi Trung tâm Học liệu –ĐHTN />5
1.3.1 Phương pháp dự báo định tính (phán đốn)
Phương pháp này dựa trên cơ sở phân tích những yếu tố liên quan, và
những ý kiến về các khả năng có liên hệ của những yếu tố liên quan này trong
tương lai. Phương pháp định tính có liên quan đến mức độ phức tạp khác
nhau, từ việc khảo sát ý kiến được tiến hành một cách khoa học để nhận biết
các sự kiện tương lai hay từ ý kiến phản hồi của một nhóm đối tượng hưởng
chịu tác động nào đó.
Phán đốn đơn độc (unaided judgment): Việc dự báo bởi các chun
gia thường sử dụng các phán đốn đơn độc thì hấu hết chính xác trong các
tình huống sau:
- Xảy ra tương tự như yếu tố khác mà chun gia đã làm dự báo
- Bao gồm mối quan hệ đơn giản và dễ hiểu
- Khơng bị ảnh hưởng bởi sự thay đổi lớn
- Khơng bao hàm các xung đột
Và các chun gia dự báo:
- Khơng chệch.
- Có thơng tin mà những nơi khác khơng có.
- Chấp nhận độ chính xác, thời gian và thơng tin phản hồi về dự
báo của họ.
Số hóa bởi Trung tâm Học liệu –ĐHTN />6
Phán đốn thị trường: Việc phán đốn thị trường phải dựa vào những
thơng tin thị trường trong q khứ ở một thời gian dài và phán đốn những gì
sắp xảy ra đối với thị trường tương lai. Tuy nhiên, thị trường khơng đơn gian
như những thống kê đơn thuần mà nó bao gồm rất nhiều những giao dịch
“ngầm” mà chúng ta khơng thể dễ dàng có được những thơng tin này. Do vậy,
việc phán đốn giá cả trong một thị trường là hết sức phức tạp và có nhiều
những thay đổi khơng được như kỳ vọng của các nhà nghiên cứu.
Phương pháp Delphi: Phương pháp chun gia Delphi là phương pháp
chủ yếu dựa trên ý kiến của các chun gia hàng đầu trong mỗi lĩnh vực. Theo
Green, Armstrong và Graefe (2007) cho rằng phương pháp Delphi hấp dẫn
các nhà quản lý bỏi vì tính dễ hiểu và sự hỗ trợ dự báo của các chun gia.
Theo Green và các cơng sự (2007) đã đưa ra tám thuận lợi của phương pháp
Delphi trong dự báo thị trường: (1) Áp dụng rộng hơn, (2) Dễ hiểu, (3) Có thể
trả lời các câu hỏi phức tạp, (4) Khả năng duy trì bảo mật, (5) Tránh nhiều
thao tác, (6) Phát hiện nhiều kiến thức mới, và (7) Ít người tham gia.
Cấu trúc tương tự: Phương pháp cấu trúc tương tự vượt qua được
những yếu tố chệch và khơng đáng tin cậy của những thơng tin. Phương pháp
cấu trúc tương tự đặc biệt thích hợp khi cầu bị ảnh hưởng bởi những hành
động cạnh tranh, chính phủ, hoặc nhóm lợi ích giống như mơi trường và
những hành động tự phát.
Lý thuyết trò chơi: Lý thuyết trò chơi nghiên cứu vấn đề ra quyết định
của nhiều người, nhiều doanh nghiệp ở các mức độ khác nhau. Có rất nhiều
bài viết nói về các lý thuyết trò chơi và đưa ra những áp dụng thực tiễn và chỉ
ra rằng lý thuyết trò chơi khơng đơn thuần là lý thuyết mà thực tế còn là
Số hóa bởi Trung tâm Học liệu –ĐHTN />7
những cơng cụ hữu hiệu trong phân tích kinh tế và xác định chiến lược kinh
doanh.
Phân rã và xây dựng phán đốn: Để có thể dự báo chính xác hơn có
thể phân rã vấn đề cần dự báo thành nhiều dự báo thành phần. Trên cơ sở dựa
vào những dự báo thành phần để thu được dự báo tồn bộ cho vấn đề cần dự
báo. Bởi vì, dự báo một vấn đề gộp khó khăn hơn rất nhiều khi chúng ta phân
rã vấn đề đó thành nhiều vấn để nhỏ để có thể đưa ra những phương pháp dự
báo thích hợp cho từng vấn đề nhỏ.
Xây dựng phán đốn thường được sử dựng trong những trường hợp mà
dữ liệu khơng có hoặc dữ liệu khơng thể ước lượng được bằng mơ hình kinh
tế lượng. Theo nghiên cứu của Goodwin và các cộng sự (2011) chỉ ra rằng
xây dựng phán đốn khơng cải thiện được độ chính xác của dự báo khi những
dấu hiệu tiềm năng có thể xảy ra và nó khơng rõ ràng khi các chun gia đánh
giá thơng tin mà khơng có sẵn mơ hình hoặc kiến thức mà khơng thể kết hợp
thơng tin vào mơ hình hoặc những biến có thể có tự tương quan.
Phương pháp hệ thống chun gia: Phương pháp hệ thống chun gia
được xây dựng dựa trên cấu trúc thi hành dự báo của một nhóm chun gia.
Theo nghiên cứu của Collopy, Adya và Armstrong (2001) chỉ ra rằng phương
pháp hệ thống chun gia chính xác hơn phương pháp phán đốn độc đốn.
Tuy nhiên, phương pháp này phải chịu một mức chi phí cho các chun gia là
khá cao mà với mức chi phí này có thể xây dựng được một phương pháp dự
báo thích hợp hơn.
Mơ phỏng tương tác: Phương háp mơ phỏng tương tác thường được sử
dụng khi chúng ta có ít hoặc khơng đủ dữ liệu để làm các dự báo và những
Số hóa bởi Trung tâm Học liệu –ĐHTN />8
nhà quyết sách kỳ vọng rằng có thể đốn được những ảnh hưởng của những
chính sách hoặc những chiến lược sẽ được thực thi trong tương lai.
Phương pháp điều tra chọn mẫu kết hợp với kinh nghiệm thực tế: Để
dự báo trước một vấn đề chúng ta có thể thực hiện một cuộc điều tra chọn
mẫu với độ tin cậy của mẫu có thể chấp nhận được. Với kết quả của mẫu thu
được kết hợp với kinh nghiệm thực tế trong lĩnh vực cần được dự báo để đưa
ra kết quả dự báo có tính chính xác cao hơn. Phương pháp này còn được gọi
là phương pháp “Phòng thí nghiệm”, tức là việc điều tra chọn một mẫu nhỏ
nhưng phải có tính khái qt cho tồn bộ mẫu lớn để khi áp dụng kết quả thu
được sẽ khơng bị sai lệch so với thực tế thực thi
.
1.3.2 Phương pháp dự báo định lượng.
Phương pháp dự báo định lượng dựa trên các số liệu q khứ, những số
liệu này giả sử có liên quan đến tương lai và có thể tìm thấy được. Tất cả các
mơ hình dự báo theo định lượng có thể sử dụng thơng qua chuỗi thời gian và
các giá trị này được quan sát đo lường các giai đoạn theo từng chuỗi.
Phép ngoại suy: Phương pháp này dựa vào dữ liệu q khứ để dự báo
như phương pháp san mũ hoặc phương pháp chuỗi thời gian. Theo nghiên cứu
của Makridakis và các cộng sự (1984), nếu dữ liệu chuỗi có dạng năm thì việc
loại bỏ ảnh hưởng của yếu tổ mùa vụ sẽ thu được kết quả dự báo chính xác
hơn. Tuy nhiên, phương pháp dự báo này sẽ khơng đánh giá được yếu tố ảnh
hưởng bên ngồi, ví dụ như ảnh hưởng của suy thối tài chính đến thị trường.
Phân tích định lượng: Một vài dữ liệu định lượng được sử dụng để dự
báo trong những tình huống tương tự có thể sử dung phương pháp ngoại suy.
Vì vậy dư liệu định lượng là quan trọng trong mục tiêu được xem xét và dữ
Số hóa bởi Trung tâm Học liệu –ĐHTN />9
liệu tượng tự để xây dựng các hệ số hoặc ngoại suy xu hướng trung bình cho
từng trường hợp cụ thể.
Ngun tắc dự báo cơ bản (RBF): Ngun tắc dự báo cơ bản (RBF) để
xác định đặc trung của một chuỗi số liệu, theo nghiên cứu cảu Armstrong,
Adya và Collopy (2001) chỉ ra rằng có 28 đặc trưng chủ yếu dựa trên bao số
liệu, số quan sat, tính mùa vụ và các điểm nằm ngồi (outliers). Có 99
ngun tắc của RBF thường được dùng để điều chỉnh dữ liệu để ước lượng
cho các mơ hình ngắn và dài hạn và thường được sử dụng hỗn hợp cho hai
loại mơ hình này. Thêm vào đó, RBF hữu dụng khi nội dung của kiến thức có
khả năng, mơ hình chính xác của chuỗi, xu hướng và dự báo cần chuỗi số liệu
ít nhất là sáu năm hoặc hơn.
Mơ hình mạng Nơ-ron: Mạng nơ ron được xây dựng dựa trên chuỗi
thời gian phi tuyến. Mặc dù mơ hình mạng Nơ-ron có thể khớp với dữ liệu
tương đối tốt nhưng có một khó khăn trong mơ hình là chúng ta khơng có một
lý giải kinh tế thật sự rõ ràng nào. Theo Enders (2004), do dù mơ hình mạng
Nơ-ron có thể nới rộng ra các chuỗi tự hồi quy bậc cao hơn nên mơ hình này
có số lượng tham số rất lớn và do vậy sẽ ln gặp phải nguy cơ phù hợp thái
q với dữ liệu. Nếu có q nhiều nút được sử dụng thì thành phần nhiễu của
dữ liệu sẽ được khớp tương đối chính xác. Việc R2 có xu hướng tiến tới 1 khi
n tăng khơng phải là điều tốt nếu như mục tiêu của chúng ta là dự báo các giá
trị tương lai của chuỗi.
Mơ hình nhân quả: Mơ hình nhân quả bao gồm mơ hình gốc sử dụng
phân tích hồi quy, phương pháp chỉ số và phương pháp phân khúc. Theo
nghiên cứu của Armstrong (1985) và Allen và Fildes (2001) cho thấy rằng mơ
hình nhân quả dự báo chính xác hơn từ việc ngoại suy biến phụ thuộc khi dự
Số hóa bởi Trung tâm Học liệu –ĐHTN />10
báo sự thay đổi lớn và có thể dự báo được ảnh hưởng chính sách của những
kế hoạch hoặc những quyết định chính sách.
Mơ hình nhân quả hữu dụng trong trường hợp: (1) tồn tại mối quan hệ
nhân quả mạnh, (2) các mối quan hệ trực tiếp đã biết, (3) có sự khác biệt lớn
giữa các biến thay thế, và (4) sự khác nhau thay thế có thể được biết hoặc
được kiểm sốt để dự báo chính xác hơn.
Mơ hình hồi quy hay mơ hình kinh tế lượng được xây dựng dựa trên
ước lượng các hệ số của mơ hình nhân quả từ chuỗi số liệu q khứ.
Mơ hình chỉ số thích hợp trong trường hợp dữ liệu ít, có thể các biến
nhân quả là quan trọng và đã có cơ sở lý thuyết chắc chắn từ trước cho những
ảnh hưởng của các biến nhân quả.
Mơ hình phân đoạn: Mơ hình phân đoạn là việc phân chia vấn đề
thành những phần độc lập và sử dụng dữ liệu để dự báo cho mỗi phần này rồi
sau đó kết hợp các phần lại để được một dự báo. Để có thể sử dụng được mơ
hình phân đoạn chúng ta cần phải xác định các biến nhân quả quan trọng của
mơ hình và xác định được mối quan hệ giữa biến độc lập và biến phu thuộc
một cách chính xác.
Tuy vậy, để nâng cao độ chính xác của dự báo thơng thường khi dự báo
người ta thường hay kết hợp cả hai phương pháp trên. Bên cạnh đó, đơi khi
vấn đề cần dự báo khơng thể thực hiện được thơng qua một phương pháp dự
báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phương pháp nhằm mơ tả đúng
bản chất sự việc cần dự báo.
Số hóa bởi Trung tâm Học liệu –ĐHTN />11
1.3.3 Quy trình dự báo.
Thơng thường trong các dự báo về kinh tế, quy trình dự báo được chia
thành các bước sau. Các bước này bắt đầu và kết thúc với sự trao đổi giữa
người sử dụng và người làm dự báo.
Bước 1. Xác định mục tiêu dự báo
Bước 2. Lựa chọn đối tượng cần dự báo
Bước 3. Xác định khoảng thời gian dự báo
Bước 4. Lựa chọn mơ hình dự báo
Bước 5. Thu thập số liệu và tiến hành dự báo
Bước 6. Phê chuẩn mơ hình dự báo
Bước 7. Tiến hành dự báo
Bước 8. Áp dụng kết quả dự báo.
1.4 Kết luận:
Tìm hiểu cơ bản về khái niệm dự báo dữ liệu, một số đặc điểm của dự
báo dữ liệu và một số phương pháp chính để dự báo.
Số hóa bởi Trung tâm Học liệu –ĐHTN />12
II. CHƯƠNG 2: KHAI PHÁ DỮ LIỆU VÀ CÁC ỨNG DỤNG CHO
DỰ BÁO DỮ LIỆU
2.1. Khai phá dữ liệu:
Khai phá dữ liệu (KPDL) là lĩnh vực kết hợp nhiều biện pháp kỹ thuật
với nhau và là một q trình xử lý dữ liệu, trích xuất tri thức từ lượng lớn dữ
liệu và là q trình tìm ra những thơng tin ẩn, hữu ích, chưa được biết trước
từ dữ liệu.
2.1.1 Phát hiện tri thức và khai phá dữ liệu.
Việc thu thập và lưu trữ các kho chứa dữ liệu khổng lồ dẫn tới một u
cầu cấp thiết là cần có những kỹ thuật và cơng cụ mới để tự động chuyển đổi
lượng dữ liệu khổng lồ thành các tri thức có ích. Do vậy, khai phá dữ liệu
nhằm phát hiện các tri thức mới giúp ích cho hoạt động của con người đã trở
thành một lĩnh vực quan trọng của ngành Cơng nghệ thơng tin.
2.1.2 Q trình phát hiện tri thức từ cơ sở dữ liệu.
Thơng tin là một khái niệm trừu tượng, được thể hiện dưới nhiều dạng
thức khác nhau. Thơng tin có thể được phát sinh, lưu trữ, biến đổi trong
những vật mang tin. Dữ liệu là sự biểu diễn thơng tin và được thể hiện bằng
các tín hiệu vật lý. Dữ liệu là một dãy các bit các số, sử dụng các bit để đo
lường các thơng tin và xem nó như là các dữ liệu đã được lọc bỏ các phần dư
thừa, được rút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu.
Có thể xem tri thức như là các thơng tin tích hợp, bao gồm các sự kiện và
các mối quan hệ giữa chúng. Các mối quan hệ này có thể được hiểu ra, có thể
được phát hiện, hoặc có thể được học.
Số hóa bởi Trung tâm Học liệu –ĐHTN />13
Mục đích của phát hiện tri thức và khai phá dữ liệu là tìm ra các mẫu và các
mơ hình đang tồn tại trong các cơ sở dữ liệu nhưng vẫn còn bị che khuất bởi
các khối dữ liệu. Q trình phát hiện tri thức được mơ tả tóm tắt như sau:
Hình 2.1: Quy trình phát hiện tri thức từ cơ sở dữ liệu
Ý nghĩa các bước:
+ Lựa chọn dữ liệu liên quan đến bài tốn quan tâm
+ Làm sạch dữ liệu (tiền xử lý)
+ Chuyển đổi dữ liệu về dạng phù hợp, thuận lợi cho việc khai phá.
+ Trích xuất, chọn lựa ra các dữ liệu mẫu
+ Đánh giá mẫu
+ Sử dụng tri thức khai phá được.
Trong thực tế, thuật ngữ khai phá dữ liệu được sử dụng phổ biến hơn là khai
phá tri thức trong cơ sở dữ liệu. Tùy theo hướng ứng dụng mà người ta chia
khai phá dữ liệu ra làm nhiều q trình trong đó gồm nhiều bước nhỏ.
Số hóa bởi Trung tâm Học liệu –ĐHTN />14
2.2. Các phương pháp dự báo dữ liệu:
2.2.1 Các phương pháp trực quan
Quan sát các hoạt động khơng theo chủ quan: Kỹ thuật khai phá dữ liệu
trực quan cung cấp cho người khai phá khả năng đầy đủ để quan sát các hoạt
động mà khơng theo định kiến cá nhân nào cả. Điều đó có nghĩa là ta khơng
cần phải biết là cần phải tìm kiếm cái gì trong thời gian sáp tới. Hơn thế, bạn
có thể bắt dữ liệu chỉ ra cho bạn thấy cái gì là quan trọng.
Trực quan và đòi hỏi của nhận thức: Có thể sự mở rộng lớn nhất trong
việc sử dụng trực quan trong các phương pháp khai phá dữ liệu là phương
pháp trực quan cốt để làm nổi bật khả năng nhận thức, kinh nghiệm của con
người có thể làm tốt và một số cơng việc khác lại làm rất tốt. Việc lựa chọn
phương pháp nghiên cứu thường phải có sự cân nhắc về kiểu xử lý thơng tin
mà người đó đòi hỏi trong suất q trình nghiên cứu.
Vẽ sơ đồ dữ liệu trên lược đồ trực quan: Khi đưa dữ liệu vào trong một
mơi trường trực quan, bạn phải quyết định làm sao để trình bày dữ liệu theo
một kiểu cách có ý nghĩa. Hoạt động này tập trung vào sử dụng những thuộc
tính của các phần tử dữ liệu đã được định nghĩa trong mơ hình để xác định
làm sao thơng tin sẽ được nhìn thấy và cảm nhận. bạn có thể chọn những giải
thuật xác định vị trí như gộp nhóm, phân cụm, …
2.2.2 Các phương pháp truyền thống
a. Phương pháp thống kê: Trong phương pháp này, ta sử dụng những
thơng tin được thống kê để suy luận và miêu tả xa hơn trong phân tích dữ liệu.
Trong hệ thống hỗ trợ quyết định thì việc dùng phương pháp thống kê là rất
phổ biến.
Số hóa bởi Trung tâm Học liệu –ĐHTN />15
b. Phương pháp cây quyết định và luật
Cây quyết định là cơng cụ phân tích để khám phá ra các luật và mối
quan hệ bằng phương pháp phân tích thống kê phân chi thành các phần nhỏ
các thơng tin chứa trong tập dữ liệu.
Cây quyết định là một mơ tả tri thức dạng đơn giản nhằm phân các đối
tượng dữ liệu thành một số lớp nhất định. Các nút của cây được gán nhãn là
tên các thuộc tính, các cạnh được gán các giá trị cụ thể các thuộc tính, các lá
miêu tả các lớp khác nhau. Các đối tượng được phân lớp theo các đường đi
trên cây, các cạnh tương ứng với giá trị các thuộc tính của đối tượng tới lá.
c. Sử dụng các luật kết hợp
Những luật kết hợp được dẫn xuất ra từ sự phân tích các thơng tin trùng
hợp. Phương pháp luật kết hợp này cho phép khám phá những tương quan,
hoặc những biến cố trong giao dịch là các sự kiện.
Các luật kết hợp là một dạng biểu diễn tri thức, hay chính xác hơn là
dạng mẫu của hình thành tri thức. Phương pháp này nhằm phát hiện ra các
mối quan hệ kết hợp giữa các hình thành phần dữ liệu trong cơ sở dữ liệu.
Mẫu đầu ra của giải thuật khai phá dữ liệu là các tập luật kết hợp tìm được.
d. Mạng Nơron
Mạng nơron là một hệ thống bao gồm rất nhiều phần tử xử lý đơn giản
cùng hoạt động song song. Tính năng hoạt động của hệ thống này phụ thuộc
vào cáu trúc của hệ thống, vào cường độ liên kết giữa các phần tử trong hệ
thống và dựa vào q trình xử lý bên trong các phần tử đó. Hệ thống này có
thể học từ các dữ liệu có khả năng tổng qt hóa các dữ liệu đó.
Số hóa bởi Trung tâm Học liệu –ĐHTN />16
e. Giải thuật di truyền
Giải thuật di truyền được phát triển mơ phỏng lại hệ thống tiến hóa
trong tự nhiên, chính xác hơn đó là giải thuật chỉ ra tập các cá thể được hình
thành, được ước lượng và biến đổi như thế nào. Giải thuật cũng mơ phỏng lại
yếu tố gen trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyết
nhiều bài tốn thực tế khác nhau. Giải thuật di truyền dựa trên ba cơ chế cơ
bản: Chọn lọc, tương giao chéo và đột biến.
2.2.3 Các phương pháp khác
a. Phân nhóm và phân đoạn
Phương pháp phân nhóm và phân đoạn là những kỹ thuật phân chia dữ
liệu sao cho mỗi phần hoặc một nhóm giống nhau theo một tiêu chuẩn nào đó.
b. Phương pháp suy diễn và quy nạp
Một cơ sở dữ liệu là một kho thơng tin những các thơng tin quan trọng
hơn cũng có thể được suy diễn từ kho thơng tin đó. Có hai kỹ thuật chính để
thực hiện việc này là suy diễn và quy nạp.
Phương pháp suy diễn: Nhằm rút ra những thơng tin là kết quả logic
của các thơng tin trong cơ sở dữ liệu, dựa trên các quan hệ trong dữ liệu.
Phương pháp quy nạp: Nhằm suy ra các thơng tin được sinh ra từ cơ sở
dữ liệu.
Số hóa bởi Trung tâm Học liệu –ĐHTN />17
c. Các phương pháp dựa trên mẫu
Sử dụng các mẫu miêu tả từ cơ sơ dữ liệu để tạo nên mọt mơ hình dự
đốn các mẫu mới dằng cách rút ra các thuộc tính tương tự như các mẫu đã
biết trong mơ hình. Ở đây, nhiệm vụ chính là phải xác định được độ giống
nhau, tương đồng giữa các mẫu, sau đó mới rạo ra mẫu dự đốn.
2.3. Cơ sở dữ liệu chuỗi thời gian
Chuỗi thời gian là một tập hợp các quan sát Xt được ghi nhận tại một
thời điểm t, theo một trình tự thời gian nhất định. Cơng việc dự đốn dựa trên
cơ sở dữ liệu chuỗi thời gian được gọi là dự đốn chuỗi thời gian. Việc tìm
kiếm các mẫu thích hợp trong dữ liệu tuần tự theo thời gian (Time Series Data
– TSD) là rất quan trọng cho các ứng dụng trong hầu hết các lĩnh vực khoa
học như tìm kiếm âm điệu, tìm các các mẫu chứng khốn trong q khứ để có
thể dự đốn khuynh hướng giá trong tương lai, số lượng sản phẩm bán ra, dự
báo mức độ ơ nhiễm mơi trường hay dự báo thời tiết… Dữ liệu tuần tự theo
thời gian thường có nhiều trong các lĩnh vực khác nhau nên có nhiều dạng
khác nhau. Xét về mặt tốn học thì chúng đều như nhau là mỗi chuỗi thời gian
biểu diễn các giá trị của một biến thực theo các khoảng thời gian bằng nhau.
Do đó khái niệm về chuỗi thời gian tương đối rộng nên có thể áp dụng các kỹ
thuật khám phá tri thức trên chuỗi thời gian để xây dựng các ứng dụng trong
các lĩnh vực khác nhau.
Trong các bài tốn dự báo nói chung và các bài tốn dự báo dữ liệu
thường được biểu diễn dưới dạng chuỗi thời gian. Trong các dạng dữ liệu
được phân tích thì dữ liệu chuỗi thời gian ln thuộc tốp đầu về tính phổ biến.
Số hóa bởi Trung tâm Học liệu –ĐHTN />18
Có thể chia các phương pháp phân tích chuỗi thời gian (Time series) ra
làm hai loại. Tập trung các tính chất, hành vi tổng qt của chuỗi thời gian và
nghiên cứu các tính chất có tính cục bộ, địa phương trên chuỗi thời gian
(thơng qua các dãy con, các mẫu tuần hồn, đoạn lặp phổ biến, các luật liên
kết các mẫu đặc trưng trong chuỗi thời gian . . .).
Định nghĩa 1:
- Cho chuỗi thời gian X=(x1, x2, . . ., xn) là một tập n giá trị xi được
ghi nhận trên các khoảng thời gian bằng nhau của một biến thực và được sắp
theo thứ tự thời gian.
- Cơ sở dữ liệu chuỗi thời gian là một tập rất lớn các chuỗi thời gian,
trong đó mỗi mẫu tin là một chuỗi thời gian T={Xi}, (i=1 n).
Chuỗi thời gian có thể biểu diễn các đối tượng khác nhau trong nhiều
lĩnh vực, tuy nhiên chúng đều có nhiều tính chất giống nhau. Có thể biểu diễn
một chuỗi thời gian trên biểu đ
ồ sau:
Hình 2.2 Minh họa chuỗi thời gian
Số hóa bởi Trung tâm Học liệu –ĐHTN />