Tải bản đầy đủ (.docx) (70 trang)

Luận văn ứng dụng mạng rron nhân tạo dự báo dân số

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (629.31 KB, 70 trang )

LỜI CAM ĐOAN

Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn
trực tiếp của thầy giáo hướng dẫn PGS.TS. Nguyễn Quang Hoan
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tác giả, tên
công trình, thời gian, địa điểm công bố.
Hưng Yên, ngày tháng 6 năm 2017
TÁC GIẢ LUẬN VĂN

Bùi Khắc Trúng

1


LỜI CẢM ƠN

Trong suốt quá trình làm luận văn tôi đã nhận được sự giúp đỡ và cộng tác
nhiệt tình của nhiều tập thể và cá nhân trong và người trường Đại học Sư phạm Kỹ
thuật Hưng Yên. Đến nay luận văn đã hoàn thành, tôi xin được bày tỏ lòng biết ơn
sâu sắc tới PGS.TS. Nguyễn Quang Hoan đã tận tình trực tiếp hướng dẫn, chỉ bảo
và cung cấp những tài liệu rất hữu ích để tôi có thể hoàn thành luận văn.
Tôi xin cảm ơn các Thầy giáo, Cô giáo tại khoa Công nghệThông tin, phòng Đào
tạo sau Đại học trường Đại học Sư phạm Kỹ thuật Hưng Yên đã tạo điều kiện giúp
đỡ tôi về mọi mặt trong suốt quá trình thực hiện luận văn.
Hưng Yên, ngày tháng 6 năm 2017
TÁC GIẢ LUẬN VĂN

Bùi Khắc Trúng

MỤC LỤC



2


DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
TT TÊN VIẾT TẮT

1

1ANN

TÊN ĐẦY ĐỦ
Artificial Neural Network

DIỄN GIẢI
Mạng nơron nhân tạo

3


2

BP

BackproPagation Algorithm

Thuật toán lan truyền ngược

3


DAG

DirectedAcyclic Graph

Đồ thị không chu trình, có hướng

4

ML

Maximum Likelihood

Tiêu chuẩn cựcđại

5

MLP

Multilayer LayerPerceptron

Mạng nơron Perceptron nhiều lớp

6

MSE

Mean Square Error

Sai số quân phương


7

MAE

Mean Absolute Error

Sai số tuyệt đối

8

NB

Naïve Bayes

Naïve Bayes

9

NBC

NaiveBayesClassifier

Bộ phân lớpNaïve Bayes

10

RMSE

Root Mean Square Error


Sai số quân phương trung bình

11

PAS

Population Analysis
Spreadsheets

Các bảng tính phân tích dân số

4


DANH MỤC HÌNH VẼ, ĐỒ THỊ

DANH MỤC CÁC BẢNG BIỂU

5


MỞ ĐẦU

1. LÝ DO CHỌN ĐỀ TÀI
Trong điều kiện cách mạng khoa học kỹ thuật hiện nay, dự báo là nhiệm vụ rất quan
trọng trong mọi lĩnh vực hoạt động của đời sống xã hội. Vì vậy khoa học dự báo
ngày càng mở rộng và phát triển. Dự báo có thể đơn giản nhưng cũng có thể rất
phức tạp. Sự đơn giản hay phức tạp là tùy thuộc vào mục đích yêu cầu, mức độ
chính xác và tỉ mỉ của dự báo.
Dân số vừa là chủ thể, vừa là khách thể của xã hội, vừa là người tổ chức thực hiện

các mặt hoạt động của đời sống xã hội, vừa là yếu tố chủ yếu quyết định mọi mặt
hoạt động, vừa là động lực, vừa là mục tiêu của các hoạt động kinh tế - xã hội. Do
đó quy mô, cơ cấu và chất lượng dân số có ảnh hưởng rất lớn đến mọi hoạt động
của đời sống xã hội và dự báo dân số là công việc không thể thiếu được của bất kì
một quốc gia, ngành hoặc địa phương nào.
Dự báo dân số là việc tính toán (xác định) dân số trong tương lai dựa vào những giả
thiết nhất định về sinh, chết và di dân. Dự báo dân số không đơn giản chỉ để trả lời
câu hỏi dân số của một vùng, một nước vào thời gian nào đó trong tương lai sẽ là
bao nhiêu, nó còn bao gồm hàng loạt vấn đề về mối quan hệ và tác động qua lại
giữa các yếu tố của dân số và giữa dân số với phát triển. Dựa vào kết quả dự báo
xác định khoảng cách giữa khả năng và mong muốn của các hiện tượng dân số, từ
đó đề xuất các biện pháp điều chỉnh phù hợp, là cơ sở để xây dựng các chính sách
dân số.
Dân số ảnh hưởng trực tiếp đến sự phát triển kinh tế, xã hội. Dự báo dân số
là phương pháp khoa học cho công tác quy hoạch mang lại hiệu quả cao
Mỹ Hào có lợi thế giao thông, có các khu công nghiệp phụ cận phát triển rầm rộ,
kéo theo mật độ dân số ngày càng tăng. Trước tình hình đó, việc phân luồng dân cư,

6


cơ sở hạ tầng phải bắt kịp với tình hình gia tăng dân số thị xã trong tương lai. Chính
vì vậy, để giải quyết được vấn đề quy hoạch chung của Mỹ Hào, việc dự báo dân số
trong ngắn hạn và dài là hết sức cần thiết. Phân tích và đánh giá đúng số liệu thống
kê sẽ là một bước đi bền vững trong tương lai. Do đó, dự báo dân số Mỹ Hào trước
khi trở thành thị xã dựa trên công nghê tiên tiến mạng nơron nhân tạo với mong
muốn giải quyết được bài toán trên.
2. MỤC TIÊU NGHIÊN CỨU
Mục tiêu nghiên cứu của đề tài là dự báo dân số huyện Mỹ Hào đến 2020 sử
dụng công cụ mạng nơron nhân tạo, một trong những công cụ tiên tiến thay cho

những phương pháp dự báo kinh điển.
Chương trình sẽ thử nghiệm dựa trên các tập dữ liệu được thống kê tư năm
2010 đến 2016, để dự báo đến năm 2020.
Phương pháp thử nghiệm được đánh giá và so sánh với các phương pháp dự
báo khác.
3. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
-

Đối tượng dự báo là dân số huyện Mỹ Hào.
Nghiên cứu các yếu tố ảnh hưởng trực tiếp đến sự phát triển dân số gồm:
• Tỷ lệ sinh
• Tỷ lệ tử
• Số nhập cư
• Số di cư
• Thu nhập
• Tốc độ đô thị hóa
• Nhóm tuổi sinh sản
• Tuổi thọ trung bình
• Cùng với số liệu thực tế được thống kê ở Mỹ Hào trong những năm gần
-

đây đề tàidự kiến sử dụng thuật toán lan truyền ngược.
Số liệu dân số hiện có từ 2010–2015 của huyện Mỹ Hào vào công tác dự báo
đến 2020 (cố gắng thu thập thêm trước 2010).
Đảm bảo sai số trong phạm vi chấp nhận được.
7


4. PHƯƠNG PHÁP NGHIÊN CỨU
-


Nghiên cứu, tìm hiểu các kết quả của các phương pháp dự báo dân số.
Lựa chọn mô hình, thiết kế mạng lan truyền ngược cho dự báo dân số.
Thống kê, thu thập, phân tích dữ liệu cho bài toán.
Đánh giá tiêu chí để dự báo dân số.
So sánh kết quả dự báo dân số với các phương pháp dự báo khác.
Đề xuất những nghiên cứu, đánh giá và kêt luận.
Dự kiến thử nghiệm bài toán dự báo dân số ngắn hạn của Mỹ Hào

5. Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI
Đề tài cho thấy khả năng ứng dụng của mạng nơron trong việc dự báo nói chung và
bài toán dự báo dân số nói riêng có độ chính xác cao; kết quả có thể ứng dụng được
trong thực tế
6. BỐ CỤC CỦA LUẬN VĂN
Nội dung của luận văn được tổ chức thành ba chương có nội dung như sau:
Chương 1. Tổng quan về phương pháp dự báo và phương pháp dự báo áp dụng cho
bài toán dự báo dân số
Chương 2. Cơ sở lý thuyết và thuật toán lan truyền ngược
Chương 3. Ứng dụng mạng nơron lan truyền ngược vào bài toán dự báo dân số
Kết luận và hướng nghiên cứu tiếp theo của bài toán.

8


CHƯƠNG I
TỔNG QUAN VỀ BÀI TOÁN DỰ BÁO
1.1.

GIỚI THIỆU CHUNG
Dự báo là sử dụng thông tin hiện có một cách hiệu quả để định hướng các họat


động tương lai nhằm đạt được mục đích, yêu cầu của một tổ chức nào đó.
Dự báo dân số là tiên đoán, ước lượng, có đánh giá sai lệch các sự kiện xảy ra
trong tương lai là vấn đề được quan tâm do kết quả dự báo tác động đến đời sống
hàng ngày của mỗi chúng ta.
Trong một tổ chức sản xuất, dự báo thường dùng để dự đoán doanh thu, chi phí,
lợi nhuận, giá cả, thay đổi công nghệ, và đặc biệt là nhu cầu. Hầu hết các công ty
không bao giờ chờ cho đến khi nhận được đơn đặt hàng rồi mới bắt đầu hoạch định
sản xuất, thu mua nguyên vật liệu. Khách hàng thường ít khi chịu chờ các nhà sản
xuất đáp ứng yêu cầu, nên để tăng thế cạnh tranh, nhà sản xuất phải làm đáp ứng
nhu cầu của khách hàng nhanh chóng. Để thực hiện được điều này, nhà sản xuất
phải dự báo nhu cầu tốt.
Dự báo đã được manh nha từ trước, song nó chỉ thực sự phát triển vào cuối thế
kỷ 19 trong một số ngành như hàng hải, nông nghiệp. Nhiều kỹ thuật dự báo ngày
nay đã bắt đầu phát triển vào thế kỷ 19 [6].
Dự báo thường gồm các vấn đề sau:
-

Đối tượng và đơn vị dự báo
Chiều dự báo
Phương pháp dự báo
Thời gian và chu kỳ dự báo
Độ chính xác dự báo
Báo cáo đặc biệt
Mô hình và điều chỉnh mô hình dự báo.

Đối tượng dự báo có thể là dân số, thời tiết, chỉ số chứng khoán, một vật tư,
hay sức tiêu thụ một sản phẩm v.v…
Chiều dự báo là trên xuống hay dưới lên. Dự báo từ trên xuống bắt đầu từ dự
báo các chỉ số kinh tế như tổng sản phẩm quốc gia, thu nhập đầu người, sau đó là dự

9


báo cho một ngành công nghiệp mà tổ chức đang tham gia, dự báo cho thị phần của
tổ chức, tiếp theo là dự báo cho một dòng sản phẩm và cuối cùng là dự báo cho từng
sản phẩm. Dự báo từ dưới lên là dự báo theo chiều ngược lại.
Phương pháp dự báo dựa vào dữ kiện chia thành phương pháp định tính và
phương pháp định lượng. Phương pháp định lượng bao gồm Phương pháp phân tích
theo chuỗi thời gian và Phương pháp nguyên nhân.
Thời gian dự báo bao gồm nhiều chu kỳ dự báo. Chu kỳ dự báo có thể là
tuần, tháng, hay quí. Thời gian dự báo có thể là ngắn hạn, trung hạn hay dài hạn. Dự
báo ngắn hạn có thời gian thường không quá 3 tháng, dùng cho nhà quản lý cấp
thấp trong hoạch định mua sắm, lên lịch sản xuất, điều độ công việc, phân công
nhiệm vụ,… Dự báo ngắn hạn thường sử dụng phương pháp chuỗi thời gian, hoặc
đôi khi dùng phương pháp nguyên nhân. Dự báo trung hạn có thời gian thường từ 3
tháng đến 2 năm, dùng cho nhà quản lý cấp trung trong hoạch định sản xuất và phân
phối hoặc đánh giá mức độ tồn kho cần thiết. Dự báo trung hạn có thể sử dụng
phương pháp chuỗi thời gian, phương pháp nguyên nhân và cả phương pháp định
tính. Dự báo dài hạn thường có thời gian trên2 năm, dùng cho nhà quản lý cấp cao
trong hoạch định chiến lược cũng như đánh giá các mục tiêu dài hạn, tham gia vào
thị trường mới, phát triển kỹ thuật mới hoặc các điều kiện mới, thiết kế mạng lưới
sản xuất kinh doanh. Dự báo dài hạn thường sử dụng phương pháp nguyên nhân và
phương pháp định tính.

1.2.

QUY TRÌNH THỰC HIỆN DỰ BÁO
Dự báo là một quá trình phức tạp nhưng về cơ bản qui trình có thể thực hiện

theo các bước sau:


Bắt đầu

Lập kế hoạch
10



Chuẩn bị dữ liệu

Lựa chọn mô hình

Tiến hành dự báo

Trình bày kết quả dự báo

Theo dõi kết quả dự báo

Kết thúc
Hình 1.1 Quy trình thực hiện dự báo

Bước 1: Lập kế hoạch
Khâu đầu tiên trong quy trình dự báo là lập kế hoạch. Khi lập kế hoạch thì
việc trước tiên là xác định mục tiêu. Xác định mục tiêu là xác định xem kết quả dự
báo sẽ được sử dụng như thế nào. Mục tiêu chung của dự báo là để lập kế hoạch và
có những quyết định hành động hợp lý. Mục tiêu của dự báo dân số là giúp các địa
phương được tầm nhìn và quyết sách hợp lý trong việc đề ra các định hướng trong
tương lai. Khi các mục tiêu tổng quát đó rồi, ta phải xác định xem cần phải dự báo
những thông tin gì. Trong khuôn khổ luận văn này, nội dung dự báo ở đây là dân số.
Cũng nằm trong bước lập kế hoạch, ta cần xác định khoảng thời gian dự báo là gì.

Bước 2: Thu thập dữ liệu
Bước tiếp theo trong quy trình dự báo là thu thập số liệu. Hình dưới mô tả
từng bước trong quá trình thu thập số liệu:

11


Số liệu từ các nguồn dữThu
liệuthập và phân loại và xử lý số liệu Dữ liệu đầu vào

Hình 1.2 Qui trình thu thập số liệu

Mặc dù dữ liệu là cần thiết cho hệ thống để dự báo, tuy nhiên ta cũng cần
xem xét đến các yếu tố khác của dữ liệu như nguồn cung cấp, các bước phân loại,
đánh giá, xử lý dữ liệu trước khi sử dụng. Trong luận văn này sử dụng nguồn dữ
liệu trực tiếp từ đơn vị. Do vậy, về cơ bản dữ liệu là chính xác.
Bước 3: Lựa chọn mô hình dự báo
Sau khi xác định nội dung dự báo, việc tiếp theo cần làm là xác đinh độ dài
dự báo: dự báo dài hạn hay dự báo ngắn hạn và tính cấp thiết của dự báo.
Việc quyết định xem mô hình dự báo nào là thích hợp liên quan đến nhiều
yếu tố: dữ liệu đầu vào, các yêu cầu về thời gian, yêu cầu về kết quả đầu ra, tài
nguyên sẵn có v.v...
Quy trình lựa chọn mô hình dự báo có thể được lựa chọn dựa trên một số
chiến lược dự báo như sau:
− Tiền định (Deterministic): Dựa trên mối quan hệ mật thiết giữa hiện tại và tương lai.
Các mô hình Chuỗi thời gian (Time Series) thích hợp với chiến lược này.
− Triệu chứng (Symptomatic): Dựa trên những dấu hiệu hiện tại để dự báo cho tương
lai.
− Hệ thống (Systematic): Dựa trên ý tưởng cho rằng xu hướng phát triển trong tương
lai sẽ tuân thủ theo một quy tắc nào đó, chẳng hạn các lý thuyết về kinh tế - xã hội.


12


Nhận định và đánh giá chung
Xác định vấn đề dự báo cụ thể
Xác định yêu cầu về đầu ra
Xác định chiến lược dự báo
Xác định đầu vào
Xác định tập các mô hình sơ bộ
Lựa chọn mô hình

Hình 1.3 Quy trình lựa chọn mô hình dự báo

Bước 4: Tiến hành dự báo
Sau khi đã lập xong kế hoạch dự báo, chuẩn bị đầy đủ dữ liệu dự báo cũng
như lựa chọn được mô hình dự báo phù hợp ta tiến hành dự báo dựa trên dữ liệu và
mô hình dự báo đã chọn.
Bước 5: Trình bày kết quả dự báo
Khi dự báo thành công thì công việc tiếp theo là tìm cách trình bày kết quả dự
báo đó một cách hợp lý. Có nhiều cách trình bày kết quả dự báo như: Có thể thông
qua bảng biểu, đồ thị hay hình ảnh minh họa, có thể trình bày ở dạng viết hoặc dạng
nói, trình bày tại một vị trí hay trên các phương tiện thông tin đại chúng,… Dù bằng
cách này hay cách khác thì những kết quả dự báo phải đảm bảo ngắn gọn, rõ ràng,
thể hiện được sự tin cậy của dự báo và phải bằng ngôn ngữ mà người nghe hiểu
được.
Bước 6: Theo dõi kết quả dự báo
Khi đã thu được kết quả dự báo thì cần phải theo dõi sự đáng tin cậy của kết quả
13



dự báo này. Muốn làm được điều đó cần tính độ lệch giữa giá trị dự báo với giá trị
thực và phải thống nhất được sự sai lệch trong phạm vi cho phép. Độ sai lệch giữa kết
quả dự báo và số liệu thực là bao nhiêu thì phụ thuộc vào sự thống nhất giữa người sử
dụng và người xây dựng chương trình dự báo. Đây là công việc rất quan trọng khi
tiến hành xây dựng bài toán dự báo.
1.3.

PHƯƠNG PHÁP DỰ BÁO
Có nhiều học giả có cách phân loại phương pháp dự báo khác nhau. Tuy nhiên

theo học giả Gordon, trong 2 thập kỷ gần đây, có 8 phương pháp dự báo được áp
dụng rộng rãi trên thế giới bao gồm:
Bảng 1.1 Tổng hợp phương pháp dự báo thường dùng

Tuy nhiên, theo cách phân loại tại Việt Nam, các phương pháp dự báo thường chia
thành 2 nhóm chính là phương pháp định tính và phương pháp định lượng.
1.3.1. Phương pháp dự báo định lượng
Phương pháp định tính dựa trên cơ sở nhận xét của những yếu tố liên quan,
những ý kiến về các khả năng có liên hệ của những yếu tố liên quan này trong
tương laithì phương pháp định lượng ngược lại dựa trên các dữ kiện định lượng.
Mô hình dự báo định lượng dựa trên số liệu quá khứ, những số liệu này giả sử
có liên quan đến tương lai và có thể tìm thấy được. Tất cả các mô hình dự báo theo

14


định lượng có thể sử dụng thông qua chuỗi thời gian và các giá trị này được quan
sát đo lường các giai đoạn theo từng chuỗi.
Phương pháp định lượng chia làm 2 loại:

-

Phương pháp phân tích theo chuỗi thời gian
Phương pháp nguyên nhân

Phương pháp phân tích theo chuỗi thời gian dựa trên số liệu quá khứ theo thời
gian của đại lượng cần dự báo. Phương pháp nguyên nhân dựa trên quan hệ giữa đại
lượng cần dự báo và các đại lượng khác có thể đo lường được.
Tuy nhiên, hiện nay thông thường khi dự báo người ta thường hay kết hợp cả
phương pháp định tính và định lượng để nâng cao mức độ chính xác của dự báo.
Bên cạnh đó, vấn đề cần dự báo đôi khi không thể thực hiện được thông qua một
phương pháp dự báo đơn lẻ mà đòi hỏi kết hợp nhiều hơn một phương pháp nhằm
mô tả đúng bản chất sự việc cần dự báo.
Luận văn này sử dụng phương pháp dự báo định lượng và cụ thể là mạng
nơron lan truyền ngược để dự báo dân số Mỹ Hào. Đây là phương pháp kết hợp cả
hai loại phương phápphân tích theo chuỗi thời gian vàphương pháp nguyên nhân.
1.3.2. Phương pháp dựa luật
Các phương pháp ngoại suy truyền thống có giới hạn chính là bỏ qua tri thức
của người quản lý về các tình huống. Dự báo dựa trên luật là một kiểu của hệ thống
chuyên gia, đưa ra các vấn đề bằng cách chuyển các tri thức về dự báo thành một
tập các luật. Các luật này sử dụng tri thức chuyên gia và các đặc trưng của dữ liệu
cùng với một số phương pháp ngoại suy đơn giản để thực hiện dự báo.
1.3.3. Phương pháp dự báo sử dụng mạng nơron nhân tạo
Phương pháp dự báo sử dụng mạng nơron nhân tạo là phương pháp dự báo
sử dụng mô hình có khả năng “học” từ các dữ liệu quá khứ, có thể cập nhật các
tham số. Nếu lựa chọn được các tham số tối ưu thì đó là mô hình xấp xỉ rất tốt
đường cong dịch chuyển của đối tượng cần dự báo. Kết quả dự báo cũng có độ
chính xác cao. Đây là mô hình được lựa chọn cho bài toán dự báo nhiệt độ của luận
văn, cụ thể các vấn đề liên quan đến mạng nơron sẽ được trình bày trong chương 2.


15


1.4.

CÁC PHƯƠNG PHÁP DỰ BÁO DÂN SỐ

Có nhiều phương pháp dự báo dân số khác nhau. Việc lựa chọn phương pháp dự
báo này hay khác tuỳ thuộc vào mục tiêu cần đạt được, nguồn số liệu có thể có và
thời hạn dự báo.
Các phương pháp dự báo dân số thường được áp dụng rộng rãi là dự báo dựa vào
các biểu thức toán học và phương pháp dự báo thành phần.
1.4.1. Phương pháp dự báo dựa vào các biểu thức toán học
Phương pháp này còn được gọi là phương pháp dự báo tổng hợp hoặc ngoại
suy theo mô hình xu thế.
Dự báo dân số bằng các biểu thức toán học được tiến hành qua các bước sau:
-

Sắp xếp số liệu dân số quá khứ theo dãy số với hai tiêu thức: thời gian và số
lượng dân tương ứng. Dựa vào dãy số liệu này có thể diễn tả xu hướng biến
động dân số. Xây dựng hàm số diễn tả sự tăng trưởng dân số.

-

Định dạng hàm số. Có rất nhiều hàm số và cần phải lựa chọn hàm số thích
hợp biểu diễn sự tăng trưởng dân số của địa phương (quốc gia). Để xác định
dạng hàm số có nhiều cách, nhưng thường dùng cách biểu diễn trên đồ thị và
phương pháp phân tích toán học.

-


Ước lượng giá trị các tham số của hàm số.

-

Tiến hành dự báo: xác định số dân tại thời điểm dự báo. Có rất nhiều biểu
thức toán học để dự báo dân số như hàm số tuyến tính, hàm số gia tăng theo
cấp số nhân, hàm luỹ thừa biến đổi, hàm logicstic. Dựa vào số liệu thu được
ở các bước trên để xây dựng các giả thiết về xu thế biến động dân số và xác
định dạng của hàm dự báo đơn giản cần áp dụng để tính toán.

1.4.2. Dự báo dân số bằng phương pháp thành phần
Trong Dân số học có phương trình cân bằng dân số là:

16


Pt = P0 + (B – D) + (I – O).
trong đó:
B và D: số trẻ em sinh ra và số người chết đi trong thời gian từ năm gốc đến năm dự
báo.
I và O: số người chuyển đến và chuyển đi trong khoảng thời gian đó.
Như vậy, dân số của năm dự báo (Pt) do ba bộ phận cấu thành: Dân số gốc (P0),
biến động tự nhiên (B-D) và biến động cơ học (I-O). Muốn xác định dân số năm dự
báo phải xác định được các bộ phận cấu thành đó, phải dự báo biến động tự nhiên
và biến động cơ học. Phương pháp này đã có từ khá lâu, nhưng chỉ từ những năm
60, nhờ áp dụng công nghệ máy tính mới nên có thể tính toán nhanh và ngày càng
phổ biến rộng rãi.
Dự báo dân số bằng phương pháp này, các dữ liệu dân số gốc không chỉ có quy
mô mà còn phải biết cơ cấu (đặc biệt cơ cấu về tuổi và giới). Phải xác định được số

lượng trẻ em sinh ra từ năm gốc đến năm dự báo (dựa vào tỷ suất sinh hoặc các
bảng sinh sản) và số người chết đi trong khoảng thời gian đó (dựa vào hệ số sống
trong các bảng sống). Biết các nhân tố ảnh hưởng đến biến động dân số (kể cả biến
động tự nhiên và biến động cơ học)[3].
1.4.3. Các phần mềm sử dụng trong dự báo dân số
Hiện nay, với sự tiến bộ của công nghệ thông tin, công việc dự báo dân số được tiến
hành thuận lợi hơn rất nhiều nhờ các phần mềm chuyên dụng.
Spectrum: Spectrum là một bộ công cụ phần mềm lồng ghép tất cả các mô
hình chính sách đã có trước đây vào chung một công cụ. Tùy theo nhu cầu sử dụng,
Spectrum được thiết kế riêng rẽ. Tuy nhiên, về tổng thể Spectrum bao gồm các
thành tố: Demproj, People và PAS.

17


Demproj: viết tắt từ Demographic Projection (dự báo nhân khẩu học), do
nhóm Tương lai, Hoa kỳ xây dựng dựa theo phương pháp thành phần, tối đa có thể
dự báo tới 150 năm, khá phổ biến và tiện ích, dễ sử dụng. Ưu điểm của Demproj là
dự báo cho từng tuổi đơn giản, so sánh một lúc nhiều dự án có cùng thời kỳ dự
báo,được ứng dụng rộng rãi trong việc lồng ghép các biến dân số vào nhiều nhu cầu
dự báo khác nhau về kinh tế, giáo dục, y tế, nông nghiệp và đô thị. Tuy nhiên, hạn
chế của Demproj là chỉ có thể tiến hành các dự báo đơn cấp. Do vậy, trong nhiều
trường hợp, việc sử dụng các dự báo chi tiết về nhân khẩu học, đặc biệc là các cấp
vùng/địa phương (khống chế bởi cấp trên) được thực hiện trên một công cụ dự báo
khác. Đó là PEOPLE.
PEOPLE: cũng dựa theo phương pháp thành phần và được sử dụng để dự
báo đa cấp. Đồng thời có các bảng tính xây dựng giả thiết đơn giản. Hạn chế của
PEOPLE là nhập số liệu đầu vào để lấy kết qủa theo tuổi rất phức tạp, không tạo
được cùng một lúc các dự báo khác nhau. Do vậy, việc lựa chọn sử dụng chương
trình dự báo nào tùy thuộc vào yêu cầu của hoạch định/điều chỉnh chính sách.

PAS: viết tắt từ “Các bảng tính phân tích dân số” (Population Analysis
Spreadsheets) dùng trong Excel là công cụ ứng dụng đơn giản và cho kết quả tin
cậy, hỗ trợ cho việc hiệu chỉnh số liệu đầu vào, các tính toán gián tiếp, xây dựng các
giả thiết,.v.v. Chương trình do Trung tâm các chương trình quốc tế, thuộc Văn
phòng Tổng điều tra Hoa kỳ xây dựng, đang được sử dụng rộng rãi trên thế giới
1.5.

CÁC CHỈ TIÊU ĐÁNH GIÁ KẾT QUẢ DỰ BÁO
Để đánh giá chất lượng của một phương pháp dự báo người ta thường dựa vào

sai số dự báo của phương pháp đó. Sai số dự báo là sai lệch giữa giá trị thực và giá
trị dự báo nhằm đánh giá chất lượng hay sự phù hợp của mô hình dự báo. Sai số dự
báo cũng nhằm giúp điều chỉnh các thông số của mô hình dự báo.
-

Sai số quân phương (Mean Square Error)

18


(1.1)
-

Sai số căn quân phương (Root Mean Square Error)
(1.2)

-

Sai số tuyệt đối (Mean Absolute Error)
(1.3)


Trong đó:
- : Giá trị tính toán tại thời điểm i
- :Giá trị thực đo tại thời điểm i
- : Số lượng thời điểm i
Tuy các chỉ số trong các công thức từ (1.1) đến (1.3) là trực quan và dễ dàng
tính toán song trong nhiều trường hợp khi dung lượng dữ liệu lớn hay dữ liệu có độ
biến động cao thì các chỉ số này trở nên quá thô sơ. D.R. Legates và G.J. McCabe
Jr. [2] trình bày về chỉ số hiệu quả - E (Coefficient of Efficiency) và chỉ số xác định R2 (Coefficient of Determination) tuy có độ phức tạp tính toán cao hơn song khắc
phục được các hạn chế của các chỉ số.
(1.4)
(1.5)
Các chỉ số và có thể được dùng theo cách kết hợp hoặc riêng rẽ. Phương pháp
tốt là phương pháp nhận được giá trị của các chỉ số này lớn.Trong luận văn này, học
viên sử dụng hai chỉ số: chỉ số sai số căn quân phương - RMSE và chỉ số xác định R2 để đánh giá độ chính xác của dự báo [5].
1.6.

KẾT LUẬN CHƯƠNG I
Bài toán dự báo là bài toán rất quan trọng trong việc xây dựng chiến lược phát

triển cho mỗi cấp, mỗi ngành, mỗi tổ chức, mỗi cá nhân, … Có nhiều phương pháp
19


dự báo khác nhau, mỗi phương pháp đều có ưu điểm và nhược điểm về độ phức tạp
tính toán, về mức đô chính xác, về tính khách quan.Việc ứng dụng mạng nơron trong
việc giải bài toán dự báo tỏ ra có nhiều ưu điểm vì mạng nơron là một mô hình tính
toán mềm dẻo, chấp nhận sai sót, dễ thích nghi.
Sau khi xây dựng mô hình dự báo, cần đánh giá mô hình ngay mà không đợi
đến khi có thể so sánh kết quả dự báo với những gì đã xảy ra trong thực tế. Không

có phương pháp chung để đánh giá kết quả dự báo mà tuỳ theo mô hình dự báo, tùy
theo lĩnh vực ứng dụng của mô hình mà chọn chỉ số hoặc nhóm chỉ số để đánh giá.

20


CHƯƠNG 2.
CƠ SỞ LÝ THUYẾT

2.1.

NGHIÊN CỨU VỀ MẠNG NƠRON NHÂN TẠO
Mạng nơron nhân tạo được coi là một công cụ mạnh để giải quyết các bài

toán có tính phi tuyến, phức tạp và đặc biệt trong các trường hợp mà mối quan hệ
giữa các quá trình không dễ thiết lập một cách tường minh. Có nhiều loại mạng
nơron khác nhau trong đó mạng nơron truyền thẳng nhiều lớp là một trong những
mạng nơron thông dụng nhất. Đã có nhiều nghiên cứu sử dụng mạng nơron truyền
thẳng nhiều lớp trong bài toán dự báo và đã chứng tỏ đây là hướng tiếp cận rất hiệu
quả. Trong chương này học viên sẽ tìm hiểu những kiến thức về mạng nơron nhân
tạo, mạng nơron truyền thẳng nhiều lớp, thuật toán lan truyền ngược và khả năng
ứng dụng của chúng trong bài toán dự báo.
2.1.1. Giới thiệu về mạng nơron nhân tạo
Định nghĩa: Mạng nơron nhân tạo, Artificial NơronNetwork (ANN) gọi tắt
là mạng nơron, nơron network, là một mô hình xử lý thông tin phỏng theo cách thức
xử lý thông tin của các hệ nơron sinh học. Nó được tạo lên từ một số lượng lớn các
phần tử (gọi là phần tử xử lý hay nơron) kết nối với nhau thông qua các liên kết (gọi
là trọng số liên kết) làm việc như một thể thống nhất để giải quyết một vấn đề cụ thể
nào đó.
Một mạng nơron nhân tạo được cấu hình cho một ứng dụng (nhận dạng mẫu,

phân loại dữ liệu ...) thông qua một quá trình họctừ tập các mẫu huấn luyện. Về bản
chất học chính là quá trình hiệu chỉnh trọng số liên kết giữa các nơron.
2.1.2. Lịch sử phát triển của mạng nơron nhân tạo
Năm 1943, McCulloch và Pitts đã đưa ra khả năng liên kết và một số liên kết
cơ bản, của mạng nơron.
Năm 1949, Hebb đã đưa ra các luật thích nghi trong mạng nơron.
Năm 1958, Rosenblatt đưa ra cấu trúc Perceptron.

21


Năm 1969, Minsky và Papert phân tích sự đúng đắn của Perceptron, họ đã
chứng minh các tính chất và chỉ rõ các giới hạn của một số mô hình.
Năm 1976, Grossberg dựa vào tích chất sinh học đã đưa ra một số cấu trúc
của hệ động học phi tuyến với các tính chất mới.
Năm 1982, Hoppfield đã đưa ra mạng học phi tuyến với các tính chất mới.
Rumelhart đưa ra mô hình song song (Parallel Distributer Processing) và một số
kết quả và thuật toán. Thuật toán học lan truyền ngược (Back Propagation Learning
Rule) được Rumelhart, Hinton, Williams (1986) đề xuất luyện mạng nơ ron nhiều
lớp.Những năm gần đây, nhiều tác giả đã đề xuất nhiều loại cấu trúc mạng nơ ron
mới[2]
2.1.3. Nơron sinh học và nơron nhân tạo
Nơron sinh học
Qua quá trình nghiên cứu về bộ não, người ta thấy rằng: bộ não con người bao
gồm khoảng 1011 nơron tham gia vào khoảng 1015 kết nối trên các đường truyền.
Mỗi đường truyền này dài khoảng hơn một mét. Các nơron có nhiều đặc điểm
chung với các tế bào khác trong cơ thể, ngoài ra chúng còn có những khả năng mà
các tế bào khác không có được, đó là khả năng nhận, xử lý và truyền các tín hiệu
điện hóa trên các đường mòn nơron, các con đường này tạo nên hệ thống giao tiếp
của bộ não.


Hình 2.1 Cấu trúc của một nơron sinh học điển hình

22


Mỗi nơron sinh học có 3 thành phần cơ bản:
-

Các nhánh vào hình cây
Thân tế bào
Sợi trục ra

Các nhánh hình cây truyền tín hiệu vào đến thân tế bào. Thân tế bào tổng hợp
và xử lý cho tín hiệu đi ra. Sợi trục truyền tín hiệu ra từ thân tế bào này sang nơron
khác. Điểm liên kết giữa sợi trục của nơron này với nhánh hình cây của nơron khác
gọi là Synapse. Liên kết giữa các nơron và độ nhạy của mỗi Synapse được xác định
bởi quá trình hóa học phức tạp. Một số cấu trúc của nơron được xác định trước lúc
sinh ra. Một số cấu trúc được phát triển thông qua quá trình học. Trong cuộc đời cá
thể, một số liên kết mới được hình thành, một số khác bị hủy bỏ.
Như vậy nơron sinh học hoạt động theo cách thức sau: nhận tín hiệu đầu vào,
xử lý các tín hiệu này và cho ra một tín hiệu output. Tín hiệu output này sau đó
được truyền đi làm tín hiệu đầu vào cho các nơron khác.
Dựa trên những hiểu biết về nơron sinh học, con người xây dựng nơron nhân
tạo với hy vọng tạo nên một mô hình có sức mạnh như bộ não.
Nơron nhân tạo
Có khá nhiều mô hình toán học cho nơron. Trong luận văn này, học viên
trình bày mô hình thông dụng nhất, dùng một hàm truyền kết nối các đầu vào để
tạo ra đầu ra.


Hình 2.2 Cấu trúc nơron nhân tạo

23


Công việc cơ bản của một nơron nhân tạo là cộng các mức kích hoạt ở đầu
vào rồi tạo một mức tác động ở đầu ra nếu tổng các mức kích hoạt ở đầu vào lớn
hơn một giá trị ngưỡng nào đó. Toàn bộ công việc này được được thực hiện qua các
thành phần của nơron bao gồm:
- Tập các đầu vào: Là các tín hiệu vào (Input Signals) của nơron, các tín hiệu này
thường được đưa vào dưới dạng một vector N chiều.
- Tập các liên kết: Mỗi liên kết được thể hiện bởi một trọng số (gọi là trọng số liên
kết – Synaptic weight). Trọng số liên kết giữa tín hiệu vào thứ j với nơron k
thường được kí hiệu là wjk. Thông thường, các trọng số này được khởi tạo một
cách ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên tục trong quá
trình học mạng.
- Bộ tổng (Summing function): Thường dùng để tính tổng của tích các đầu vào với
trọng số liên kết của nó. Bộ tổng hợp các liên kết đầu vào của một phần tử nơron có
thể mô tả như sau:
(2.1)
Trong đó:
• : tổng tất cả các đầu vào mô tả toàn bộ thế năng tác động ở thân
nơron.
• : các đầu vào ngoài; ; là số lượng đầu vào mô tả tín hiệu vào từ các
đầu nhạy thần kinh hoặc từ các nơron khác đưa vào.
• : trọng số liên kết vào ngoài, là hệ số mô tả mức độ liên kết giữa các

-

đầu vào ngoài tới nơron hiện tại; là số đầu vào.

• : hằng số, còn gọi là ngưỡng, xác định ngưỡng kích thích hay ức chế.
Ngưỡng (còn gọi là một độ lệch): Ngưỡng này thường được đưa vào như một thành

-

phần của hàm truyền.
Hàm truyền (Transfer Function): Hàm này được dùng để giới hạn phạm vi đầu ra
của mỗi nơron. Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng đã cho. Thông
thường, phạm vi đầu ra của mỗi nơron được giới hạn trong đoạn hoặc . Các hàm
truyền rất đa dạng, có thể là các hàm tuyến tính hoặc phi tuyến. Việc lựa chọn hàm
truyền nào là tuỳ thuộc vào từng bài toán và kinh nghiệm của người thiết kế mạng.

24


Một số hàm truyền thường sử dụng trong các mô hình mạng nơron được đưa ra
trong
Bảng 2.1 Một số hàm kích hoạt thường dùng trong các mô hình nơ ron

TT Tên hàm
1

Bước nhảy đơn
vị

2

Hàm dấu (sgn)

3


Hàm đồng nhất

Công thức tương ứng

Đặc tính

Hàm tuyến
4

tính bão hoà
đối xứng

5

6

Hàm Sigmoid
Lưỡng cực

1- e- x
f ( x) =
1+ e- x

Hàm Sigmoid
Đơn cực

Phần này sử dụng hàm quan hệ cho đầu ra , để chặn tín hiệu ở đầu ra. Các hàm đầu
ra thông thường là các hàm có giới hạn ngưỡng phù hợp với đặc điểm đầu ra của
nơron sinh vật. Hàm dạng này thể hiện đặc điểm kích hoạt hay ức chế của một

nơron.
25


×