Tải bản đầy đủ (.pdf) (76 trang)

Cơ sở dữ liệu ngoại suy và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.56 MB, 76 trang )




1

LỜI CẢM ƠN


Luận văn đƣợc hoàn thành dƣới sự hƣớng dẫn của tiến sĩ Đỗ Năng Toàn -Viện
Công nghệ Thông tin thuộc Viện Khoa học và Công nghệ Việt Nam.
Tác giả xin bày tỏ lòng biết ơn sâu sắc đến các thầy, về sự hƣớng dẫn tận tình
và đầy lòng nhân hậu trong quá trình học tập, nghiên cứu.
Tác giả xin bày tỏ lòng biết ơn đến Ban lãnh đạo Trung tâm Thông tin- Tƣ liệu
Dầu khí đã tận tình động viên, tạo điều kiện giúp đỡ tác giả trong thời gian học tập.
Tác giả xin bày tỏ lòng biết ơn sâu sắc đến Trƣờng Đại học Công nghệ- Đại
học Quốc gia Hà nội, Viện Công nghệ Thông tin- Viện Khoa học và Công nghệ
Việt Nam đã tạo điều kiện thuận lợi trong thời gian học tập và
nghiên cứu.
Tác giả xin gửi lời cám ơn chân thành đến những ngƣời thân trong gia đình
bạn bè và đồng nghiệp về những sự quan tâm, động viên và giúp đỡ trong thời
gian qua.
Hà nội tháng 10-2006




2



MỤC LỤC



MỞ ĐẦU 3
1. Tính thời sự, ý nghĩa thực tiễn của đề tài 3
2. Mục đích, cấu trúc của luận văn 4
Chƣơng 1: TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU “NGOẠI SUY” 6
1. Khái niệm cơ sở dữ liệu “ngoại suy” 6
2. Tính chất của cơ sở dữ liệu “ngoại suy” 8
3. Các bƣớc cần thực hiện để xây dựng cơ sở dữ liệu “ngoại suy” 9
4. Chức năng vai trò của cơ sở dữ liệu “ngoại suy” 11
4.1. Chức năng của cơ sở dữ liệu “ngoại suy” 11
4.2. Vai trò của cơ sở dữ liệu “ngoại suy” 12
Chƣơng 2: MỘT SỐ PHƢƠNG NGOẠI SUY DỮ LIỆU 15
1. Ngoại suy dữ liệu dựa vào mô hình hồi quy tuyến tính 15
1.1. Mô hình hồi quy tuyến tính cổ điển 15
1.2. Ƣớc lƣợng bình phƣơng cực tiểu 16
1.2.1. Tính chất ƣớc lƣợng bằng phƣơng pháp bình phƣơng cực tiểu 17
1.2.2. Định lý Gauss về ƣớc lƣợng bình phƣơng cực tiểu 18
1.2.3. Hệ số xác định R 18
1.2.4. Khoảng tin cậy các hệ số hồi quy
i

18
1.2.5. Kiểm định các giả thiết về hệ số hồi quy 19
1.2.6. Ƣớc lƣợng hàm hồi quy tuyến tính 21
1.3. Kiểm tra sự phù hợp của mô hình 21
1.3.1. Tiêu chuẩn F 21
1.3.2. Khảo sát các phần dƣ 21
1.4. Tóm tắt các bƣớc tiến hành phân tích hồi quy 22
1.5. Hệ thống các mô hình hồi quy tuyến tính bội 22
1.5.1. Mô hình hồi quy với nhiều biến phụ thuộc 22

1.5.2. Ƣớc lƣợng tham số chƣa biết của mô hình 24
1.6. Hồi quy và tƣơng quan tuyến tính bội 25
1.6.1. Ngoại suy với một biến phụ thuộc 25
1.6.2. Ngoại suy với nhiều biến phụ thuộc 27
1.7. Mô hình hồi quy phi tuyến 29
2. Ngoại suy bằng phƣơng pháp làm trơn 31
2.1. Các kỹ thuật làm trơn thƣờng dùng 31
2.2. Trung bình trƣợt đơn 31
2.3. Trung bình trƣợt kép 33
2.4. Làm trơn đơn mũ 34
2.5. Làm trơn mũ kép 36
3. Ngoại suy dữ liệu dựa trên phân tích chuỗi thời gian 38
3.1. Đại cƣơng về chuỗi thời gian 38
3.1.1. Khái niệm về chuỗi thời gian 38
3.1.2. Mục tiêu của việc phân tích chuỗi thời gian 39
3.2. Quá trình dừng và phân tích hệ số tƣơng quan 41
3.2.1. Khái niệm về quá trình dừng 41



3



3.2.2. Các quá trình tuyến tính 43
3.2.3. Hệ số tƣơng quan và tự tƣơng quan mẫu 43
3.2.4. Hệ số tự tƣơng.quan riêng 46
3.3. Ngoại suy dữ liệu dựa trên chuỗi thời gian ARMA 47
3.3.1. Khái niệm về chuỗi thời gian dừng 47
3.3.2. Chuỗi thời gian ARMA 51

3.3.3. Ngoại suy dữ liệu trên quá trình ARMA 54
3.3.4. Kiểm tra tính phù hợp của mô hình 64
Chƣơng 3: ỨNG DỤNG 66
1. Cơ sở dữ liệu trạng thái 66
1.1. Cơ sở dữ liệu thời gian 66
1.2. Cơ sở dữ liệu ngoại suy qua trạng thái 69
2. Ứng dụng 69
2.1. Bài toán 69
2.2. Ngoại suy dựa vào chuỗi thời gian 70
2.3. Chƣơng trình quản trị cơ sở dữ liệu International Revenue 73
KẾT LUẬN 75
TÀI LIỆU THAM KHẢO 76



4



MỞ ĐẦU
1. Tính thời sự, ý nghĩa thực tiễn của đề tài
Khái niệm dự báo đã tồn tại từ rất lâu trong đời sống xã hội. Tuy nhiên, trong
buổi đầu nó còn mang nặng tính thần bí, vô căn cứ, chỉ sau này khi mà các môn
khoa học tự nhiên phát triển thì dự báo mới thực sự đƣợc coi trọng và những hoạt
động dự báo đƣợc diễn ra trên một cơ sở khoa học vững chắc.
Ngày nay, việc đoán trƣớc các xu thế tƣơng lai đóng vai trò cực kỳ quan
trọng trong việc hoạch định các chính sách kinh tế-xã hội cho hoạt động của các tập
đoàn, các công ty nhỏ , vừa, lớn và thậm chí cả những quốc gia hùng mạnh . Việc
đánh giá các diễn biến tƣơng lai của đối tƣợng phải dựa trên các số liệu thực tế
trong các chu kỳ thời gian trƣớc đó và hiện tại . Nhƣng trong nhiề u trƣờng hợ p các

số liệu chƣa thể cập nhậ t đế n thời điể m hiện thời , song nhu cầu bắt buộc lại cầ n kế t
quả để đánh giá quá trình hoạt động . Ví dụ: Việc tính toán thanh toán khấu trừ khi
thực hiện gọi điện thoại giữa các vùng chẳng hạn. Cuộc điện thoại đƣợc gọi từ Việt
Nam sang Mỹ thì Việt Nam thu tiền cƣớc trong khi Mỹ vẫn phải chịu phí tổn đƣờng
truyền và ngƣợc lại nếu cuộc điện thoại gọi từ Mỹ về Việt Nam thì Mỹ lại là ngƣời
thu tiền. Vấn đề đặt ra là cần phải tính toán khấu trừ giữa việc gọi đi và gọi đến.
Tuy nhiên, các số liệu thực tế thƣờng có đƣợc chậm, có khi là cả quý. Số liệu thật
có chậm một quý và việc thanh toán thì lại chậm thêm mất một quý nữa. Trong khi
chúng ta lại luôn cần biết thông tin về kinh doanh tại thời điểm hiện tại để có kế
hoạch, định hƣớng kinh doanh chẳng hạn nhƣ thuê thêm hay bớt đi đƣờng truyền .
Từ đó dẫ n đế n một tấ t yế u nảy sinh là phải tính toán dựa trên các số liệu ngoại suy
(extrapolate data) để phục vụ nhu cầu đánh giá và quyết định.
Việc dự báo cho các mục tiêu đơn và cụ thể đã đƣợc thực hiện nhiều song
việc sản sinh ra tập hợp các số liệu mới bằng cách sử dụng các thuật toán ngoại suy,
dựa trên các dữ liệu đã thu thập trong quá khứ, hiện tại và tổ chức thành một cơ sở
dữ liệu gọi là cơ sở dữ liệu “ngoại suy” thì ít và có thể nói là chƣa có tài liệu nào đề
cập đến, cho dù đã có rất nhiều dạng cấu trúc dữ liệu đã đƣợc tạo dựng.
2. Mục đích, cấu trúc của luận văn
Sử dụng các kỹ thuật ngoại suy dữ liệu nhằm ứng dụng vào các mục đích dự
báo đã đƣợc sử dụng nhiều trong các đơn vị hành chính cũng nhƣ các doanh nghiệp
thông qua các mô hình, các phƣơng pháp toán học. Việc tổ chức có tính chất hệ
thống cho các dữ liệu ngoại suy nhằm xây dựng các cơ sở dữ liệu mà thực tiễn đặt



5



ra đang là nhu cầu cấp thiết nhƣng những tài liệu có tính chất hệ thống về vấn đề đặt

ra vẫn đang là một phần thiếu vắng.
Xuất phát từ thực tế đó, mục tiêu của luận văn là nghiên cứu các phƣơng
pháp ngoại suy dữ liệu, trên cơ sở đó đề xuất một giải pháp cho việc xây dựng cơ sở
dữ liệu cho các giá trị ngoại suy dựa trên các mô hình toán học và giải quyết một
vấn đề thực tế nhờ ứng dụng mô hình đề xuất này. Với mục tiêu cụ thể nhƣ sau:
Nghiên cứu tổng quan về ngoại suy dữ liệu và cơ sở dữ liệu nhằm thừa kế
các kết quả và cải tiến cho phù hợp với các dữ liệu chính xác và dữ liệu dự báo.
Tìm hiểu các mô hình toán học và các phƣơng pháp ngoại suy dữ liệu dựa
trên mô hình.
Đề xuất một bài toán ứng dụng thực tế có sử dụng một phƣơng pháp ngoại
suy cụ thể và cài đặt.
Cấu trúc của luận văn gồm 76 trang chia thành 3 chƣơng, phần mở đầu, phần
kết luận và tài liệu tham khảo đƣợc cấu trúc nhƣ sau:
Chƣơng 1: Tổng quan về cơ sở dữ liệu “ngoại suy” (8 trang)
Trình bày tổng quan về các mô hình cơ sở dữ liệu, về dữ liệu ngoại suy. Sau
đó nêu lên vai trò của việc tổ chức dữ liệu ngoại suy trong việc tổ chức và quản lý
dữ liệu.
Chƣơng 2: Một số phƣơng pháp ngoại suy dữ liệu (51 trang)
Chƣơng này trình bày các khái niệm và các kỹ thuật ứng với ba phƣơng pháp
chính thƣờng đƣợc sử dụng trong việc ngoại suy dữ liệu, đó là: Mô hình hồi quy và
phƣơng pháp ngoại suy dựa vào mô hình hồi quy. Quá trình làm trơn và ngoại suy
dựa trên làm trơn. Chuỗi thời gian và ngoại suy dữ liệu dựa trên chuỗi thời gian.
Chƣơng 3: Ứng dụng (9 trang)
Trình bày việc tổ chức dữ liệu ngoại suy thành cơ sở dữ liệu dựa trên việc
gán trạng thái thời gian cho các bản ghi. Trên cơ sở đó cài đặt ứng dụng cụ thể liên
quan đến việc thao tác với các dữ liệu ngoại suy.






6



Chƣơng 1
TỔNG QUAN VỀ CƠ SƠ DỮ LIỆU “NGOẠI SUY”
1. Khái niệm cơ sở dữ liệu “ngoại suy”
Bản thân thuật ngữ cơ sở dữ liệu “ngoại suy” đã nói lên thuộc tính không thể
thiếu đƣợc của bộ não con ngƣời: đó là sự phản ánh vƣợt trƣớc, sự cố gắng hƣớng
tới một tƣơng lai ngày một tốt đẹp hơn. Những cố gắng ban đầu đƣợc thể hiện dƣới
hình thức là ƣớc đoán, những hy vọng thiếu căn cứ, những ƣớc muốn viển vông
không tƣởng, những tính toán ƣớc lƣợng thiếu cơ sở khoa học và mang nặng tính
kinh nghiệm.[1]
Từ cổ xƣa việc dự báo đã đƣợc áp dụng trong cuộc sống hàng ngày, nhƣng
mang nặng màu sắc thần bí tôn giáo, thể hiện ở các câu tiên tri, lời bói toán. Ngay
từ thời cổ Hy Lạp ngƣời ta đã phân chia các lĩnh vực dự báo thành:
Các hiện tƣợng tự nhiên nhƣ: thời tiết, nhật thực, nguyệt thực…
Các hiện tƣợng xã hội: Sự xuất hiện và kết thúc các cuộc chiến tranh, sự
hƣng thịnh hay suy vong của một thể chế chính trị…
Các hiện tƣợng về đời sống xã hội nhƣ khả năng giàu có, bệnh tật, sinh tử, về
sự phát đạt của một dòng họ…
Suốt nhiều thế kỷ trƣớc dự báo không đƣợc vận dụng một cách khoa học và
không có tính tích cực, bởi vì đây là thời kỳ lý thuyết tôn giáo không tƣởng và triết
học duy tâm chiếm vai trò thống trị trong tƣ duy nhận thức thế giới, giai cấp thống
trị đã lợi dụng nó làm công cụ thống trị và mê hoặc ngƣời dân nghèo khổ. Đến thế
kỷ XVI, XVII khi mà các môn khoa học tự nhiên nhƣ toán học, hóa học , vật lý học
và thiên văn học đã phát triển, các dự báo có tính chất khoa học mới dần dần xuất
hiện. Tuy nhiên, lúc đầu các dự báo với độ chính xác cao thƣờng đƣợc áp dụng vào
trong vật lý cổ điển, hóa học và đặt trong phạm vi không gian và thời gian rất khắt

khe. Sau đó, sự xuất hiện nhiều dự báo mà hiện tƣợng dự báo rất phức tạp, chịu sự
tác động của nhiều nhân tố: tiến bộ khoa học–kỹ thuật, sự phát triển kinh tế-xã hội,
chính trị, sự thay đổi về tâm lý và chuẩn mực đạo đức xã hội, đòi hỏi dự báo phải
vận dụng các phƣơng pháp thống kê xác suất (dự báo với mức độ tin cậy nào đó chứ
không hoàn toàn chính xác). [1]



7



Học thuyết của C.Mác đã mở ra một khả năng mới vế sự tiên đoán có tính
khoa học về các hình thái kinh tế - xã hội. Mác và Ăng nghen là ngƣời đầu tiên đề
ra và giải thích một cách sâu sắc rằng mâu thuẫn chính là động lực phát triển của
mọi hình thái kinh tế - xã hội và sự tất yếu khách quan của việc chuyển từ hình thái
kinh tế - xã hội này sang hình thái kinh tế xã - hội khác tiến bộ hơn. Hai ông cho
rằng các hiện tƣợng kinh tế - xã hội vận động và phát triển theo thời gian: hiện tại
bao giờ cũng mang dấu vết trong quá khứ còn tƣơng lai do quá khứ và hiện tại phát
triển tạo thành. Khi liên hệ một cách thận trọng với kinh nghiệm của quá khứ để rút
ra bài học sâu sắc từ thực tế sinh động, không thể phủ nhận đƣợc những tiên đoán
thiên tài của Lênin, một di sản có tính chất kinh điển. Ông đã tổng quát hóa các
khuynh hƣớng phát triển của các hiện tƣợng phức tạp nhất trong các lĩnh vực chính
trị, kinh tế, xã hội và khoa học để tập chung đầu tƣ cho kế hoạch điện khí hóa Nhà
nƣớc Xô Viết đầu tiên. [2]
Nhƣ vậy, dự báo đã từ thần bí kinh nghiệm phát triển thành một môn khoa
học độc lập. Ngày nay vai trò của dự báo ngày càng đƣợc khẳng định và tăng lên
đáng kể trong mọi lĩnh vực và cấp độ của đời sống xã hội. Đó là do quy mô của nền
kinh tế ngày càng lớn, cấu trúc của nền kinh tế xã hội ngày càng phức tạp. Việc
tổng hợp các nhân tố ảnh hƣởng đến quá trình phát triển nền kinh tế quốc dân, việc

vạch ra các luận chứng để xây dựng chiến lƣợc, quy hoạch và kế hoạch phát triển,
việc lựa chọn các phƣơng án để phát triển khả năng thực hiện các mục tiêu kinh tế -
xã hội ngày càng tăng lên.
Nhƣ vậy có thể hiểu cơ sở dữ liệu “ngoại suy” là một cơ sở dữ liệu gắn với
chuỗi thời gian thực, đƣợc cài đặt các thuật toán ngoại suy nhằm sản sinh ra bộ dữ
liệu mới (dữ liệu ngoại suy) có căn cứ khoa học mang tính chất xác suất về mức độ,
nội dung, các mối quan hệ, trạng thái, xu hƣớng phát triển của đối tƣợng nghiên cứu
hoặc về cách thức và thời hạn đạt đƣợc các mục tiêu nhất định đã đề ra trong
tƣơng lai.
Tiên đoán là hình thức phản ánh vƣợt trƣớc về thời gian hiện thực khách
quan, đó là kết quả nhận thức chủ quan của con ngƣời dựa trên cơ sở nhận thức quy
luật khách quan trong sự vận động và phát triển của sự vật và hiện tƣợng. có thể
phân biệt 3 loại tiên đoán:
Tiên đoán không khoa học: đó là các tiên đoán không có cơ sở khoa học,
thƣờng dựa trên các mối quan hệ có tính tƣởng tƣợng, không hiện thực, đƣợc cấu
trúc một cách giả tạo, hoặc những phát hiện có tính chất bất chợt. Các hình thức nhƣ



8



bói toán, tiên tri, các luận điệu tuyên truyền của các thế lực thù địch,… thuộc loại
tiên đoán này.
Tiên đoán kinh nghiệm: các tiên đoán hình thành qua kinh nghiệm thực tế
dựa vào các mối quan hệ qua lại thƣờng xuyên trong thực tế hoặc tƣởng tƣợng mà
không dựa trên cơ sở phân tích cấu trúc lý thuyết, nghiên cứu quy luật hay đánh giá
kinh nghiệm. Loại tiên đoán này ít nhiều có cơ sở song lại không giải thích đƣợc sự
vận động của đối tƣợng và đa số mới chỉ dừng lại ở mức độ định tính.

Tiên đoán khoa học: đây là tiên đoán dựa trên việc phân tích mối quan hệ
qua lại giữa các đối tƣợng trong khuôn khổ của một hệ thống lý luận khoa học nhất
định. Nó dựa trên việc phân tích tính quy luật phát triển của đối tƣợng dự báo và các
điều kiện ban đầu với tƣ cách nhƣ là các giả thiết. Tiên đoán khoa học là kết quả
của sự kết hợp giữa những phân tích định tính và những phân tích định lƣợng các
quá trình cần dự báo. Chỉ có dự báo khoa học mới đảm bảo độ tin cậy cao và là cơ
sở vững chắc cho việc thông qua các quyết định quản lý khoa học. [2]
Ngoại suy dữ liệu bao giờ cũng có thời gian xác định hay tầm xa của ngoại
suy. Tầm xa ngoại suy dữ liệu là khoảng cách thời gian tối đa từ hiện tại đến thời
điểm sản sinh dữ liệu ngoại suy. Khoảng cách này phụ thuộc vào nhiều nhân tố: sự
thay đổi của dữ liệu ngoại suy, mức độ ổn định của các nhân tố ảnh hƣởng, độ dài
thời kỳ tiền sử v.v…
2. Tính chất của cơ sở dữ liệu “ngoại suy”
Ngoại suy dữ liệu mang tính xác suất. Mỗi đối tƣợng dữ liệu ngoại suy đều
vận động theo một quy luật nào đó, một quỹ đạo nhất định nào đó, đồng thời trong
quá trình phát triển nó luôn luôn chịu sự tác động của môi trƣờng, hay các yếu tố
bên ngoài. Bản thân môi trƣờng hay các yếu tố tác động cũng không phải là đứng
im mà luôn luôn trong trạng thái vận động và phát triển không ngừng, về phía chủ
thể dữ liệu ngoại suy, những thông tin hiểu biết về đối tƣợng ở tƣơng lai bao giờ
cũng nghèo nàn hơn hiện tại. Vì vậy dù các thuật toán ngoại suy có hoàn thiện, có
tin cậy đến đâu cũng không thể chắc chắn rằng các dữ liệu ngoai suy là hoàn toàn
chính xác. Hay nói một cách khác ngoại suy dữ liệu bao giờ cũng mang tính
xác suất. [1]
Ngoại suy dữ liệu là đáng tin cậy. Ngoại suy mang tính xác suất nhƣng
đáng tin cậy vì nó dựa trên những cơ sở lý luận và phƣơng pháp luận khoa học. Đó
là phép biện chứng duy vật và lịch sử, hệ thống các lý luận về khoa học, về kinh tế
và xã hội. Phƣơng pháp và công cụ xử lý thông tin ngày càng hiện đại. Xét về mặt




9



bản chất, ngoại suy dữ liệu là sự phản ảnh vƣợt trƣớc, là những giả thiết về sự phát
triển của dữ liệu ngoại suy trong tƣơng lai đƣợc đƣa ra trên cơ sở nhận thức các quy
luật phát triển và những điều kiện ban đầu với tƣ cách là những giả thiết. Theo đà
phát triển của khoa học kỹ thuật, trình độ nhận thức quy luật và các điều kiện ban
đầu ngày càng đƣợc hoàn thiện thì độ tin cậy của dữ liệu ngoại suy cũng không
ngừng đƣợc nâng cao độ tin cậy.[1]
Ngoại suy dữ liệu mang tính đa kết quả. Mỗi phƣơng pháp ngoại suy đƣợc
thực hiện trên những giả thiết nhất định – ngoại suy có điều kiện. Tập hợp các giả
thiết nhƣ vậy gọi là phông dữ liệu ngoại suy. Ngoại suy có thể đƣợc tiến hành trên
các phông dữ liệu ngoại suy khác nhau, do những nguyên nhân chủ quan và khách
quan khác nhau và vì vậy có thể có nhiều kết quả ngoại suy khác nhau. Tính đa kết
quả một mặt là thuộc tính khách quan của dữ liệu ngoại suy, nhƣng mặt khác lại là
phù hợp với yêu cầu của công tác quản lý, nó làm cho việc ra quyết định cũng nhƣ
chỉ đạo thực hiện quyết định quản lý trở nên linh hoạt hơn, dễ thích nghi với sự biến
đổi vô cùng phức tạp của tình hình thực tế. [1]
3. Các bƣớc thực hiện để xây dựng cơ sở dữ liệu “ngoại suy”
Thông thƣờng các thủ tục để xây dựng cơ sở dữ liệu “ngoại suy” bao gồm
các bƣớc sau đây: [2]
Bƣớc 1: Xác định mục tiêu bài toán.
Bƣớc đầu tiên của công tác xây dựng cơ sở dữ liệu “ngoại suy” là làm rõ mục
tiêu của nó. Ba mục tiêu chính cần xác định là:
Xác định đối tƣợng: Nhu cầu về thuê bao điện thoại, nhu cầu về nhà ở, nhu
cầu nghề nghiệp, lƣợng nƣớc về trong hồ chứa, thời tiết, tỷ giá cổ phiếu v.v…
Khu vực dự báo: Theo địa dƣ (một tỉnh, khu vực, toàn quốc v.v…) hay khu
vực xã hội (ngành công nghiệp, khu vực dịch vụ, v.v…) Khu vực dự báo có thể là
thu hẹp trong một vùng nông thôn hay một lĩnh vực cụ thể nào đó nhƣ tỷ giá đồng

đô la Mỹ và đồng Việt nam.
Khoảng thời gian dự báo: 1 năm, 5 năm, 10 năm….
Bƣớc 2: Phân tích các yếu tố ảnh hƣởng
Đại lƣợng biến đổi theo thời gian có thể thực hiện trên tiền đề là quan hệ
giữa đại lƣợng này và các yếu tố quyết định các giá trị của đại lƣợng này trong quá
khứ, về cơ bản không thay đổi cho đến thời điểm cần xác định trong tƣơng lai. Do



10



đó, các điều kiện bên trong (hệ thống giá, cơ cấu giá, cơ chế vận hành điều tiết lũ
v.v…) cùng các điều kiện bên ngoài (kế hoạch phát triển vùng, bảo đảm tính bền
vững của môi trƣờng v.v…) phải đƣợc xét đến.
Bƣớc 3: Thu thập phân loại dữ liệu
Trong nghiên cứu các yếu tố ảnh hƣởng trực tiếp đến đối tƣợng, cần phải thu
thập những số liệu về yếu tố đó, sau đó sắp xếp phân loại chúng để xử lý.
Chẳng hạn, dữ liệu cần cho việc xác định nhu cầu điện thoại có thể bao gồm:
Dân số, hộ gia đình
Số văn phòng các công ty, cơ quan đoàn thể
Tốc độ tăng thu nhập
Các kế hoạch phát triển đô thị
Nhu cầu điện thoại các năm qua
Các dữ liệu trên cần đƣợc sắp xếp theo thời gian, vùng địa dƣ hay
ngành nghề.
Bƣớc 4: Phân tích xu hƣớng tiến triển của đại lƣợng
Xu hƣớng tiến triển đƣợc phân tích trên bình diện sau:
Các số liệu của thời gian trƣớc đó.

Cơ cấu phát triển của hệ
Nguồn tác động đến quá trình phát triển
Xem xét đặc trƣng của khu vực
So sánh các vùng khác
Bƣớc 5: Xác định mô hình kỹ thuật ngoại suy sẽ sử dụng trong quá trình tính
toán, lựa chọn cơ sở dữ liệu cài đặt
Ngoại suy chuỗi thời gian
Quá trình làm trơn
Phân tích hồi quy
Các phƣơng pháp khác (so sánh, chuyên gia v.v…)
Phƣơng pháp và mô hình đƣợc chọn tƣơng ứng với đặc điểm của đối tƣợng
và yếu tố liên quan, ứng với các dữ liệu có thể thu thập đƣợc. Để đạt đƣợc giá trị có



11



độ tin cậy cao, điều quan trọng là phải lựa chọn đƣợc phƣơng pháp thích hợp, khả
thi nhất và chọn ra phƣơng pháp tính toán tin cậy và tối ƣu.
Bƣớc 6: Kiểm tra tính phù hợp của mô hình
Bƣớc 7: Xác định các giá trị dữ liệu ngoại suy và cập nhật dữ liệu thích hợp
vào cơ sở dữ liệu: Kết hợp kết quả thu đƣợc ở bƣớc 5 và phân tích thực hiện ở bƣớc
2 và 4 xác định dữ liệu kết quả thích hợp nhất để cập nhật vào cơ sở dữ liệu.
4. Chức năng vai trò của cơ sở dữ liệu “ngoại suy”
4.1. Chức năng của cơ sở dữ liệu “ngoại suy”
Ngoại suy dữ liệu dựa trên sự phản ánh một hình thức nhận thức thế giới,
nhận thức xã hội. Nó có hai chức năng cơ bản:
Chức năng tham mƣu: trên cơ sở đánh giá thực trạng, phân tích xu hƣớng

vận động và phát triển trong quá khứ, hiện tại và tƣơng lai, ngoại suy dữ liệu sẽ
cung cấp thông tin dữ liệu cần thiết, khách quan làm căn cứ cho việc ra quyết định
quản lý và xây dựng chiến lƣợc, kế hoạch hóa các chƣơng trình, dự án,…ngƣời
quản lý và hoạch định chiến lƣợc, ngƣời lập kế hoạch có nhiệm vụ lựa chọn trong
số các phƣơng án có thể có, tìm ra các phƣơng án có tính khả thi cao nhất, có hiệu
quả nhất. Để thực hiện tổ chức năng này, dữ liệu ngoại suy phải thật sự đảm bảo
đƣợc tính khách quan, khoa học và tính độc lập tƣơng đối với các cơ quan quản lý
và hoạch định chính sách. [2]
Chức năng khuyến nghị hay điều chỉnh: Với chức năng này dữ liệu ngoại
suy cung cấp thông tin, để tiên đoán các hậu quả có thể nảy sinh trong quá trình
thực hiện các chính sách kinh tế - xã hội, nhằm giúp các cơ quan chức năng kịp thời
điều chỉnh mục tiêu cũng nhƣ các cơ chế tác động quản lý để đạt đƣợc hiệu quả
kinh tế - xã hội cao nhất.
Với hai chức năng đó, nếu xét trong quan hệ kế hoạch thì dữ liệu ngoại suy
bao gồm hai loại: dữ liệu ngoại suy cung cấp thông tin dự báo trƣớc kế hoạch và dữ
liệu ngoại suy cung cấp thông tin dự báo sau kế hoạch. Dự báo trƣớc kế hoạch là
tiền đề khoa học đảm bảo tính khả thi của kế hoạch, còn dự báo sau kế hoạch giúp
cho quá trình chỉ đạo thực hiện kế hoạch đạt hiệu quả cao nhất. [2]



12



4.2. Vai trò của cơ sở dữ liệu “ngoại suy”
Cơ sở dữ liệu ngoại suy có vai trò quan trọng trong quá trình ra quyết định
quản lý. Theo nghĩa chung nhất, quản lý là sự tác động liên tục có tổ chức, có chủ
đích vào đối tƣợng quản lý bằng các hệ thống biện pháp kinh tế, xã hội, các biện
pháp hành chính …, nhằm tạo điều kiện thuận lợi thúc đẩy sự phát triển sản xuất,

tiến bộ xã hội.Kết quả của hoạt động quản lý là các quyết định quản lý. Cơ chế ra
quyết định bao gồm ba bƣớc: [2]
 Thu thập thông tin về đối tƣợng quản lý
 Xây dựng mô hình thống kê thực nghiệm và thông tin tiền nghiệm
 So sánh cân nhắc đƣa ra quyết định
Trong các bƣớc của quá trình ra quyết định quản lý thì vấn đề xây dựng mô
hình là khâu cơ bản nhất, sở dĩ nhƣ vậy là vì qúa trình đi đến một quyết định quản
lý đòi hỏi phải mô hình hóa các mối quan hệ trong quá trình vận động và phát triển
của đối tƣợng quản lý, cho phép liên kết các môi quan hệ không những theo chiều
dọc mà còn theo chiều ngang, cho phép liên hệ từ quá khứ đến hiện tạivà sang
tƣơng lai. Xét về mặt thời gian các mô hình nhƣ vậy đều mang ý nghĩa dự báo.
Hƣớng sử dụng cơ sở dữ liệu ngoại suy để xây dựng mô hình dự báo trong
hoạt động quản lý là rất quan trọng, nó tạo điều kiện không những cung cấp thông
tin tƣơng lai mà còn có khả năng làm chủ công tác quản lý. Nhờ có cơ sở dữ liệu
ngoại suy mà việc xây dựng mô hình dự báo có thể tăng cƣờng khả năng quản lý
một cách khoa học:
Giúp nhận thức sâu sắc hơn các quy luật khách quan, tránh đƣợc chủ quan
duy ý chí
Mô hình hóa đề cập một cách toàn diện các mối quan hệ kinh tế- xã hội.
Cho phép định lƣợng đƣợc các mối quan hệ bằng cách áp dụng các phƣơng
pháp khoa học nhƣ toán, thống kê, …
Trong nền kinh tế thị trƣờng, việc xây dựng cơ sở dữ liệu ngoại suy nhằm
cung cấp các dữ liệu ngoại suy từ các dữ liệu trong quá khứ là vô cùng quan
trọng,bởi lẽ nó cung cấp các thông tin cần thiết nhằm phát hiện và bố trí sử dụng
các nguồn lực trong tƣơng lai một cách có căn cứ thực tế. Với cơ sở dữ liệu ngoại
suy, những dữ liệu ngoại suy đƣa ra cho phép các nhà hoạch định chính sách có
những quyết định về đầu tƣ, các quyết định về sản xuất, về tiết kiệm và tiêu dùng,




13



các chính sách tài chính, chính sách kinh tế vĩ mô. Việc xây dựng cơ sở dữ liệu
ngoại suy và cung cấp dữ liệu ngoại suy không chỉ tạo cơ sở khoa học cho việc
hoạch định chính sách, xây dựng chiến lƣợc phát triển, cho các quy hoạch tổng thể
mà còn cho phép xem xét khả năng thực hiện kế hoạch và hiệu chỉnh kế hoạch. Mối
quan hệ giữa cơ sở dữ liệu ngoại suy và kế hoạch hóa đƣợc biểu thị qua sơ đồ dƣới
đây:

Hình 1.1: Mối quan hệ giữa cơ sở dữ liệu ngoại suy với công tác lập kế
hoạch và ra quyết định quản lý

Trong quản lý vĩ mô, việc sản sinh dữ liệu ngoại suy là hoạt động gắn liền
với công tác hoạch định và chỉ đạo thực hiện chiến lƣợc kinh doanh của doanh
nghiệp. Các doanh nghiệp không thể không tổ chức thực hiện tốt công tác dự báo
nếu họ muốn đứng vững trong kinh doanh.
Chức năng đầu tiên của quản lý trong doanh nghiệp là xác định mục tiêu của
doanh nghiêp dài hạn và ngắn hạn. Doanh nghiệp phải lập kế hoạch để thực hiện
những mục tiêu đó, tổ chức tốt các nguồn nhân lực và vật tƣ để thực hiện kế hoạch,
Những thuận lợi
về nguồn lực
Sự Phân Bổ
Nguồn Lực và
Cam Kết
Mục tiêu, Mục
đích,
Quyết định
Các hạn chế

Sự thực hiện
và chính sách
điều chỉnh
Lập kế
hoạch
Mục tiêu
của quản lý
Cơ sở dữ liệu
ngoại suy



14



điều chỉnh kế hoạch cũng nhƣ kiểm soát các hoạt động để tin chắc rằng tất cả diễn
ra theo đúng kế hoạch. Phân tích kinh tế và dự báo đƣợc tiến hành trong tất cả các
bƣớc của quản lý doanh nghiệp, nhƣng trƣớc hết là trong việc xác định mục tiêu và
hoạch định các kế hoạch dài hạn và ngắn hạn.
Trong việc xác định mục tiêu, mỗi doanh nghiệp phải quyết định hàng hóa và
dịch vụ nào sẽ đƣợc sản xuất và bán ra, mức giá sản phẩm và dịch vụ, vùng tiêu thụ,
thị trƣờng tiềm năng về sản phẩm đó. Thị phần mà doanh nghiệp thực tế có thể hy
vọng chiếm đƣợc, hiệu suất vốn doanh nghiệp có thể kỳ vọng…những mục tiêu nhƣ
vậy chỉ có thể trở thành hiện thực nếu doanh nghiệp đã phân tích các xu thế của nền
kinh tế, đã có đầy đủ các cơ sở để dự báo về nhu cầu sản phẩm của mình cả trong
dài hạn và ngắn hạn, chi phí các nhân tố sản xuất…Nhƣ vậy các dự báo về thị
trƣờng, giá cả, tiến bộ khoa học và công nghệ, nguồn nhân lực, sự thay đổi của các
nguồn đầu tƣ vào, đối thủ cạnh tranh,… có tầm quan trọng sống còn đối với doanh
nghiệp. Ngoài ra các dữ liệu ngoại suy cung cấp những thông tin cho phép phối hợp

hành động giữa các bộ phận trong doanh nghiệp. [1]



15



Chƣơng 2
MỘT SỐ PHƢƠNG NGOẠI SUY DỮ LIỆU

1. Ngoại suy dữ liệu dựa vào mô hình hồi quy tuyến tính
Phân tích hồi quy là một phƣơng pháp phân tích thống kê dự đoán các giá trị
của một hoặc một số biến phụ thuộc (biến đáp ứng) theo một tập các biến độc lập
(các biến dùng để ngoại suy). Nó cũng đƣợc vận dụng đánh giá hiệu quả tác động
của biến độc lập đối với biến phụ thuộc. [4]
1.1. Mô hình hồi quy tuyến tính cổ điển[4]
Giả sử
k
XX , ,
1
là các biến độc lập dùng để ngoại suy và
Y
là biến phụ
thuộc cần ngoại suy. Sự phụ thuộc của biến
Y
theo
k
XX , ,
1

nói chung là rất phức
tạp. Tuy nhiên trong một số trƣờng hợp sự phụ thuộc là tƣơng đối đơn giản. Mô
hình hồi quy tuyến tính cổ điển khẳng định rằng
Y
phụ thuộc tuyến tính và các
i
X

(nghĩa là
Y
là biểu thức bậc nhất của
k
XX , ,
1
) và sai số

. Nhƣ vậy:



kk
XXY
110
(2.1)
trong đó
ki
i
 0,

là các hệ số chƣa biết

Bây giờ ta tiến hành n quan sát độc lập đồng thời kể từ k+1 biến
k
XX , ,
1
,.
Giả sử các số liệu quan sát tuân theo mô hình sau:

1111101



kk
xxy


2221102



kk
xxy
(2.2)
……………………………….

nnkknn
xxy


110


trong đó
ni

, ,
thỏa mãn 3 điều kiện sau:
1)
0)( 
j
E

(việc đo đạc không chịu sai lệch hệ thống)
2)
2
)(


j
D
(phƣơng sai không đổi hay là độ chuẩn xác đo đạc nhƣ nhau)



16



3)
0),cov( 
ji


với mọi
nji  1
(các sai lệch từng bƣớc không ảnh
hƣởng đến nhau)
Mô hình (2.2) có thể viết dƣới dạng ma trận nhƣ sau:




















































nknknn
k
k
n

xxx
xxx
xxx
y
y
y












2
1
1
0
21
22221
11211
2
1
1
1
1


Hoặc đơn giản hơn

 XY
(2.3)
Với













nknn
k
k
xxx
xxx
xxx
X





21
22221
11211
1
1
1
đƣợc gọi là ma trận thiết kế
     
T
n
T
k
T
n
yyyY

, ,,;, ,,;, ,,
211021


1)
0)( 

E
(2.4)
2)
n
T
IE


 )()cov(

1.2. Ƣớc lƣợng bình phƣơng cực tiểu [5]
Một bài toán trƣớc tiên đặt ra là hãy dựa trên ma trận X và véc tơ của các giá
trị quan sát hãy uớc lƣợng véc tơ tham số


2

.
Nếu chúng ta sử dụng b là giá trị thử của

thì giữa các quan sát và
jkkj
xbxb 
11
sẽ bị một độ lệch
) (
110 jkkjj
xbxbby 
. Nói chung độ lệch này
sẽ khác 0
Phƣơng pháp ƣớc luợng bình phƣơng tối thiểu là hãy chọn giá trị véc tơ b
sao cho




n
j

T
jkkjj
XbYXbYxbxbbybS
1
2
110
min)()() ()(
(2.5)
Đại lƣợng

ˆ
làm cực tiểu hóa phiếm hàm S(b) đƣợc gọi là ƣớc lƣợng bình
phƣơng cực tiểu của

, còn

njxxy
jkkjjj
 1),
ˆ

ˆˆ
(
ˆ
110

(2.6)




17



Gọi là phần dƣ của phép hồi quy. Trong trƣờng hợp này, vì biểu thức theo
k
XX , ,
1
là tuyến tính, nên phƣơng trình

kk
XXY

ˆ

ˆˆ
ˆ
110

(2.7)
Đƣợc gọi là phƣơng trình hồi quy tuyến tính mẫu. Ta có kết quả sau: đặt

jkkjj
xxy

ˆ

ˆˆ
ˆ
110


(2.8)

T
n
yyY )
ˆ
, ,
ˆ
(
ˆ
1


Mệnh đề 2.1: Nếu ma trận thiết kế X không ngẫu nhiên có hạng
nk 1
thì
ước lượng bình phương cực tiểu có dạng:

YXXX
TT 1
)(
ˆ



(2.9)
Khi đó
HYYXXXXY
T


1
)(
ˆ
ˆ

(2.10)
Trong đó
TT
XXXXH
1
)(


cấp n x n (2.11)

YHIYY
n
)(
ˆ
ˆ


(2.12)
Thỏa mãn
0
ˆ


T

X

)0
ˆ
ˆ
(,0
ˆ
ˆ


TTT
XY
(2.13)
Tổng phần dư

ˆ
ˆˆˆ
1
2
XYYY
TTT
n
j
j



(2.14)
Từ công thức (2.12), (2.13) và (2.14) ta nhận đƣợc



ˆˆ
ˆˆ
1
2 TT
n
j
j
T
YYyYY 


hoặc



n
j
j
n
j
j
n
j
j
yy
1
2
1
2

1
2
ˆ
ˆ

(2.15)
Đẳng thức này gọi là phân tích tổng bình phƣơng. Nó chính là “đẳng thức
Pitago” trong không gian Hilbert của các biến ngẫu nhiên bình phƣơng khả tích.
1.2.1. Tính chất ƣớc lƣợng bằng phƣơng pháp bình phƣơng cực tiểu [5]
Ƣớc lƣợng

ˆ
là ƣớc lƣợng không lệch với

12
)()cov(;)
ˆ
(

 XXE
T

(2.16)
Phần dƣ

ˆ
có tính chất

ˆ
=0 (điều này cũng tƣơng đƣơng với

T
YY
ˆˆ

)

)()
ˆ
cov(;0)
ˆ
(
2
HIE 

(2.17)



18





n
j
T
knkn
1
22

)1/(
ˆ
)1/(
ˆˆ
ˆ

là ƣớc lƣợng không lệch của
2
ˆ

, tức

22
ˆ
)
ˆ
(

E
.

ˆ


ˆ
là không tƣơng quan

0)
ˆ
,

ˆ
cov(;0)
ˆ
,
ˆ
cov(
2


(2.18)
1.2.2. Định lý Gauss về ƣớc lƣợng bình phƣơng cực tiểu [5]
Trong mô hình tuyến tính cổ điển (2.3) và (2.4) các hạng đầy đủ
nk 1
thì
ƣớc lƣợng

kk
T
cccc

ˆ

ˆˆˆ
1100

(2.19)
Của
kk
T
ccc



00
là ƣớc lƣợng không chệch với phƣơng sai bé nhất
so với bất kỳ ƣớc lƣợng tuyến tính không lệch dạng
nn
T
yayaYa 
11

Nếu thêm giả thiết rằng

có phân bố chuẩn
),0(
2
nn
IN

thì

ˆ
T
c
là một ƣớc
lƣợng không chệch với phƣơng sai cực tiểu của

T
c
so với bất kỳ ƣớc lƣợng không
chệch nào khác.

1.2.3. Hệ số xác định R [4]
Đại lƣợng:
2
2
ˆ
2
1
2
1
22
2
2
2
)(
)(
ˆ
)(
ˆ
)(
ˆˆ
y
y
n
j
n
j
T
s
s
yny

yny
ynYY
ynYY
R 








(2.20)
Gọi là bình phƣơng của hệ số xác định, đó là tỷ lệ biến thiên của biến
j
y

đƣợc giải thích bởi các biến
jkj
xx , ,
1

Do đó từ (2.15)

 
)1(1)(
ˆ
2222
1
2

1
2
RnsRyny
y
n
j
n
j










(2.21)
Ta nhận đƣợc phƣơng trình để tính sai số bình phƣơng trung bình
1.2.4. Khoảng tin cậy các hệ số hồi quy
i

[4]
Trong phần này ta xét mô hình hồi quy cổ điển (2.7), (2.8) với giả thiết thêm
rằng: các
j

cũng phân bố chuẩn
),0(

2

N
và độc lập, tức là
T
n
), ,,(
21



phân bố chuẩn
),0(
2
nn
IN





19



Mệnh đề 2.2:
1)

ˆ
có phân bố chuẩn

))(,(
12
1


XXN
T
k


2)
2
1
2
2
2
ˆ
ˆ
)1(







n
j
kn
có phân bố

2

với n-k-1 bậc tự do
3)

ˆ

2

là độc lập
Mệnh đề 2.3: Xét mô hình hồi quy tuyến tính cổ điển

 XY
với X có
bậc là
nk 1


có phân bố chuẩn
),0(
2
nn
IN

. Khi đó miền tin cậy đồng thời
mức

1
của


xác định bởi

)(
ˆ
)1()
ˆ
()
ˆ
(
1,1
2



knk
TT
FkXX
(2.22)
Trong đó
)(
1,1

 knk
F
là phân vị trên mức

của phân bố F với k+1, n-k-1
bậc tự do. Nói cách khác, với độ tin cậy

1

giá trị

phải nằm trong Elíppsoid
)(
ˆ
)1()
ˆ
()
ˆ
(
1,1
2



knk
TT
FkxXXx

Hơn nữa khoảng tin cậy đồng thời mức

1
của các
ki
i
 0,

được xác
định bởi các mút:
)()1)(

ˆ
(
ˆ
ˆ
1,1



knkii
FkD
(2.23)
Trong đó
)
ˆ
(
ˆ
i
D

ký hiệu phần tử thứ i trên đường chéo chính của ma trận
12
)(
ˆ

XX
T

và là ước lượng không chệch của
)
ˆ

(
i
D


Mệnh đề 2.4: Giả sử










)1(2
1
k
t
kn

là phân vị trên mức
)1(2 k

của phân
bố Student với n-k-1 bậc tự do. Khi đó đồng thời ta có các khoảng tin cậy của
i



với mức tin cậy

1
cho bởi các đầu mút:

)
ˆ
(
ˆ
)1(2
ˆ
1 ikni
D
k
t














(2.24)

1.2.5 Kiểm định giả thiết về hệ số hồi quy [4]
Xét mô hình hồi quy tuyến tính trong (2.1) Trong khi thiết lập mô hình, ta giả
thiết tất cả các biến độc lập
k
XXX ,,
21
đều tham gia vào phƣơng trình hồi quy.
Song trên thực tế có một số biến độc lập không tham gia vào phƣơng trình hồi quy,



20



tức là các hệ số của nó trong phƣơng trình bằng 0. Tuy nhiên, các giá trị ƣớc lƣợng
của nó có thể khác 0. Vậy khi nào các hệ số ƣớc lƣợng đƣợc xem là bằng 0 thực sự?
Điều này dẫn ta đến bài toán kiểm định giả thiết:

0:
10

 kp
H


(0<p<k) (2.25)
Với đối thiết
 
kpiK , ,1: 

sao cho
0
i


Giả thiết
0
H
có nghĩa là các biến độc lập
kpp
XXX , ,,
21 
không tham gia
vào biểu thức trong (2.1) ngƣợc lại đối thiết K nói rằng có ít nhất một trong các biến
này quả thực cần tính trong mô hình. Tổng quát hơn ta xét bài toán kiểm định giả
thiết dạng













aC

accc
accc
accc
pkkkpkpkpk
kk
kk




,11,00,
22121020
11111010




(2.26)
Trong đó
 
ij
cC 
cấp
 
T
pk
aaaakpk

 , ,,);1)((
21


Ta giả thiết rằng ma trận C của các hệ số của k-p tổ hợp tuyến tính này có
hạng k-p.
Giả thiết
0
H
xác định bởi (2.25) là trƣờng hợp đặc biệt của giả thiết (2.26)
với

 
 
T
pk
aIC 0, ,0,0;0
100000
010000
001000






















Xét giả thiết
aCH 

:
0
(đã cho) (2.27)
Và có

có phân bố chuẩn
),0(
2
n
IN

.

ˆ
có phân bố chuẩn
))(,(
12
1



XXN
T
k

nên

ˆ
là ƣớc lƣợng không chệch với phƣơng sai nhỏ nhất của

C


ˆ
C
theo phân bố chuẩn
T
k
EXEXXEXYEY ), ,()(),(
1


. Vì vậy, ta sẽ
bác bỏ giả thiết
aCH 

:
0
nếu a nằm ngoài elippsoid tin cậy của


C
:
Quy tắc kiểm định bác bỏ: Bác bỏ giả thiết
0:
0


CH
nếu

)()(
ˆ
/
ˆ
))()(
ˆ
(
1,
211




knpk
TT
FpkCCXXCC
(2.28)




21



1.2.6. Ƣớc lƣợng hàm hồi quy tuyến tính [4]
Bài toán đặt ra là hãy ƣớc lƣợng hàm hồi quy tuyến tính

kk
XXXYE

 )|(
110

Tại điểm
), ,,1(
00
1
0
k
XXX 
tức là ƣớc lƣợng tổ hợp tuyến tính sau:


T
kk
XXXXXYE
000
110
0
)|( 

(2.29)
Theo định lý Gauss

ˆ
0
T
X
là ƣớc lƣợng tuyến tính với phƣơng sai cực tiểu.
Nếu

có phân bố chuẩn
),0(
2
n
IN

thì

ˆ
0
T
X
có phân bố chuẩn
))(,(
01020
XXXXXN
T
TT



do đó khoảng tin cậy mức

1
của

0
X
chính là:

010
1
0
)(
2
ˆ
XXXXtX
T
T
kn
T













(2.30)
hoặc
)
ˆ
(
ˆ
2
ˆ
0
1
0



T
kn
T
XDtX








(2.31)
1.3. Kiểm tra sự phù hợp của mô hình

Xét mô hình hồi quy tuyến tính (2.2). Mô hình hồi quy tuyến tính sẽ phù hợp
với dãy số liệu dạng quan sát sai số
i

quả thật chỉ do các yếu tố ngẫu nhiên tạo
nên, tức là dãy biến ngẫu nhiên độc lập, cùng phân phối. Vì mô hình đang xét có
phân phối chuẩn nên ta cần kiểm tra xem các sai số có phân bố chuẩn
),0(
2
n
IN


hay không? Đề kiểm tra giả thiết đó ngƣời ta thƣờng xét các tiêu chuẩn sau đây: [4]
1.3.1 Tiêu chuẩn F
Xét đại lƣợng:
)1(
)1(
2
2
Rk
Rkn
F



(2.32)
Mệnh đề 3.1: Nếu sai số

có phân bố chuẩn

),0(
2
n
IN

và nếu
ki
i
 1;0

thì F cho bởi (2.32) có phân bố F với k và n-k-1 bậc tự do.
Từ mệnh đề này ta đưa ra quy tắc: Nếu F qua lớn hoặc F gần 0 ta cần bác bỏ
giả thiết

có phân bố chuẩn
),0(
2
n
IN

hoặc bác bỏ
ki
i
 1;0


1.3.2 Khảo sát các phần dƣ [5]
Nhƣ trong mệnh đề (2.1) ta đã biết phần dƣ:

)(

ˆ
ˆ
HIYY 




22



Và nếu giả thiết
0
H
rằng

có phân bố chuẩn
),0(
2
n
IN

là đúng thì

ˆ
cũng
có phân bố chuẩn
))(,0(
2
HIN 


.
Phân bố Student với n-k-2 bậc tự do. Vậy tiêu chuẩn với mức ý nghĩa


bác bỏ
0
H
nếu








2
2

kn
tT

1.4. Tóm tắt các bƣớc tiến hành phân tích hồi quy [4]
Việc phân tích hồi quy tuyến tính đƣợc thực hiện theo các bƣớc sau:
Bƣớc 1: Xác định các ƣớc lƣợng

ˆ
bằng phƣơng pháp bình phƣơng cực
tiểu. Tức là giải phƣơng trình chuẩn dƣới đây:

YXXX
TT


ˆ

Bƣớc 2: Tính các phần dƣ

ˆ
ˆ
ˆ
XYYY 
tính

ˆ
)(
ˆ
1
2
1
2 TT
n
j
j
n
j
j
YXy 




Tính hệ số xác định R từ phƣơng trình
)1(
ˆ
22
1
2
Rns
y
n
j
j





Bƣớc 3: Kiểm định sự phù hợp của mô hình. Sử dụng tiêu chuẩn F để kiểm
tra giả thiết
0
1

k


. Dùng tiêu chuẩn T để kiểm tra giả thiết

có phân bố
chuẩn
),0(

2
n
IN

hay không. Nếu mô hình đã xây dựng tỏ ra là mô hình hồi quy
tuyến tính cổ điển thì có thể chuyển sang bƣớc 4
Bƣớc 4: Xác định khoảng tin cậy của các hệ số hồi quy
Bƣớc 5: Kiểm định các
i

có khác không hay không với i=1,2…,k
Bƣớc 6: Dùng phƣơng trình hồi quy tuyến tính mẫu:

kk
XXY

ˆˆˆ
ˆ
110
 
. Để xác định giá trị ngoại suy của
00
110
0
)|(
kk
XXXXYE

 
và giá trị

)(
0
XY
.
1.5. Hệ thống các mô hình hồi quy tuyến tính bội
1.5.1 Mô hình hồi quy với nhiều biến phụ thuộc [4]
Nhiều lúc, cùng một biến dự báo
k
XXX , ,,
21
ta quan tâm nhiều biến phụ
thuộc. Trong phần này ta xem xét mối quan hệ tuyến tính giữa m biến phụ thuộc
m
YYY , ,,
21
với cùng bộ các biến ngoại suy
k
XXX , ,,
21
nhƣ mô hình dƣới đây:



23




mkkmmmm
kk

kk
XXY
XXY
XXY









110
22112022
11111011

(2.33)
Trong đó véc-tơ sai số
 
T
m

, ,
1


 )cov(,0)(

E

. Nhƣ vậy
),cov(
jiij


có thể khác không khi
ji 
.
Bây giờ giả sử ta có n quan sát
njyyyxxx
jmjjjkjj
1),, ,,,, ,,(
2121
về véc

), ,,,, ,,(
2121 mk
YYYXXX
sai số quan sát thứ j sẽ là
 
T
m

, ,
1

trong đó
mixxy
jkkijiiijij
 1); (

110

.
Giả sử
 
T
jmjj
yyY , ,
1

là quan sát thứ j về các biến đáp ứng
 
T
m
YY , ,
1
còn
 
T
niiii
yyyY , ,,
21)(

là các quan sát của biến phụ thuộc
miY
i
1;
đặt
 
)()2()1(

21
22221
11211
)(
m
nmnn
m
m
mn
YYY
yyy
yyy
yyy
Y 

















































121
11211
00201
1
221
111
)1(
;
1
1
1
kmkk
m
m
nkn
k
k
kn
xx
xx
xx
X














 
)()2()1(
21
22221
11211
)(
m
nmnn
m
m
mn



























Khi đó mô hình hồi quy tuyến tính của các số đo đƣợc biểu diễn bởi phƣơng
trình ma trận sau: (chú ý rằng
)()1()()1(
, ,,, ,
mm
YY

là véc-tơ cột của ma trận Y và




 XY
(2.34)
Với giả thiết sau đây về sai số:

mijIE

nijjij
, ,2,1,;),cov(,0)(
)()()(


(2.35)



24



Tức là với cùng thứ tự quan sát các sai số
li


)( ji
lj


có tƣơng quan
nhƣng thứ tự quan sát khác nhau
)(, jl
jili


không tƣơng quan với nhau; trong đó



 
ij


là các ma trận của các tham số chƣa biết.
1.5.2. Ƣớc lƣợng các tham số chƣa biết của mô hình [4]
Đầu tiên ta xét một mô hình riêng lẻ

miXY
iii
 1;
)()()(

(2.36)
Với
niii
I

)cov(
)(
(2.37)
Bằng phƣơng pháp bình phƣơng cực tiểu ta nhận đƣợc dạng ƣớc lƣợng

)(
1
)(
)(
ˆ
i
TT

i
YXXX



(2.38)
Tập hợp các
)(
ˆ
i

dƣới dạng ma trận ta đƣợc:
 
 
)()2()1(
1
)()2()1(
)(
ˆˆˆˆ
m
TT
m
YYYXXX 



(2.39)
Hay cách gọn hơn
YXXX
TT 1

)(




Bây giờ ta chọn ma trận các tham số là
 
)()2()1( m
bbbb 
và xét ma trận
các phần dƣ Y-Xb. Khi đó:













)()()()(
)()()()(
)()(
)()()()()1()1()()(
)()()1()1()1()1()1()1(
mm

T
mm
T
mm
mm
TT
T
XbYXbYXbYXbY
XbYXbYXbYXbY
XbYXbY



Nhƣ vậy sử dụng các ƣớc lƣợng bằng phƣơng pháp bình phƣơng cực tiểu đối với
mô hình (2.36) ta đƣợc
Các giá trị ngoại suy:
YXXXXXY
TT 1
)(
ˆ
ˆ



(2.40)
Các phần dƣ:
YXXXXYYY
TT 1
)(
ˆ

ˆ




Từ
0)((
1

 TTTTT
XXXXXXIX
ta thu đƣợc

0
ˆ
ˆ
,0
ˆ


TT
YX
(2.41)
Và triển khai:

ˆˆ
ˆˆ
)
ˆ
()

ˆ
ˆ
(
TTTT
YYYYYY 
(2.42)
Từ đó, ta cũng có:

ˆˆ
ˆˆ
ˆˆ
XXYYYYYY
TTTTTT

(2.43)



25



Mệnh đề 6.1: Ước lượng
 
)()2()1(
ˆˆˆˆ
m


xác định bởi (2.37) và (2.38)

có tính chất sau:

)()(
)
ˆ
(
ii
E


(hoặc tương đương

)
ˆ
(E
) (2.44)

1
)()(
)(
ˆ
,
ˆ
cov(

 XX
T
ijji



Phần dư
 

ˆ
ˆˆˆˆ
)()2()1(
XY
m
 
thỏa mãn điều kiện sau:

0
ˆ
(
)(

i
E

(2.45)

ijj
T
i
knE

)1()
ˆ
,
ˆ

(
)()(


Tức là:









ˆˆ
1
1
T
kn
E
(2.46)


ˆ
không tương quan với

ˆ

1.6. Hồi quy và tƣơng quan tuyến tính bội
1.6.1. Ngoại suy với một biến phụ thuộc [4]

Khác với phần trƣớc, trong phần này ta xét cả biến đáp ứng Y và biến giải
thích
T
k
XXX ), ,(
1

đều là các biến ngẫu nhiên. Giả sử, véc tơ trung bình của
T
k
XXY ), ,,(
1


và ma trận hiệp phƣơng sai là

. Ta đƣa vào ký hiệu sau:

T
k
EXEXXEXYEY ), ,()(),(
1




)var();var( XY
XXYY




T
YXXYYX
YXXY  ),cov();,cov(

Khi đó ta có phân chia các ma trận sau:

























XXXY
YXYY
X
Y



 ;




Giả thiết rằng
krank
XX
 )(
xét bài toán ngoại suy tuyến tính biến Y theo X:

XbbXbXbbY
T
kk

0110

~
(2.47)
Sai số ngoại suy sẽ là:
XbbYYY
T


0
~

(2.48)
Sai số bình phƣơng trung bình là:
2
0
2
)()( XbbYEE
T


(2.49)

×