Tải bản đầy đủ (.pdf) (86 trang)

Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.93 MB, 86 trang )

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN HÙNG CƯỜNG

ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG
GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên – 5/2016


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN HÙNG CƯỜNG

ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG
GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN

Chuyên ngành

: Khoa học máy tính

Mã số

: 60 48 01 01


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học
Tiến sĩ: Nguyễn Việt Anh

Thái Nguyên – 5/2016


LỜI CAM ĐOAN

Em xin cam đoan đây là công trình nghiên cứu của riêng em.
Các số liệu, trong luận văn được sử dụng từ nguồn số liệu được điều tra
trong nghiên cứu khảo sát mẫu tại các hộ gia đình thực hiện năm 2014. Kết
quả nghiên cứu này chưa được sử dụng trong bất kể nghiên cứu nào khác.
Thái Nguyên, tháng 5 năm 2016
TÁC GIẢ

Nguyễn Hùng Cường


i

MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT .......................................... iii
DANH MỤC CÁC BẢNG ............................................................................ iv
DANH MỤC CÁC HÌNH VẼ ........................................................................ v
LỜI NÓI ĐẦU .............................................................................................. vi
CHƯƠNG 1 TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG
XÂY DỰNG MÔ HÌNH DỰ BÁO GIAO THÔNG ................... 1
1.1. Tìm hiểu về khai phá dữ liệu ................................................................... 1

1.1.1. Khái niệm về khai phá dữ liệu .......................................................... 1
1.1.2. Một số kỹ thuật khai phá dữ liệu ....................................................... 3
1.1.3. Một số phương pháp khai phá dữ liệu ............................................... 3
1.1.4. Một số công cụ hỗ trợ khai khá dữ liệu ............................................. 5
1.2. Ứng dụng khai phá dữ liệu trong dự báo giao thông ................................ 5
1.2.1. Khái niệm dự báo ............................................................................. 5
1.2.2. Ứng dụng khai phá dữ liệu trong dự báo giao thông ......................... 7
1.2.3. Mô hình dự báo giao thông phục vụ quy hoạch ................................ 7
1.2.4. Mô hình dự báo giao thông 4 bước: .................................................. 8
CHƯƠNG 2 XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO
THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN ĐỐI VỚI HÀ
NỘI............................................................................................ 16
2.1. Xây dựng mô hình dự báo ..................................................................... 16
2.1.1. Dữ liệu xây dựng mô hình .............................................................. 16
2.1.2. Lý thuyết về mô hình hồi quy tuyến tính ........................................ 16
2.2. Thông tin dữ liệu cần thu thập xây dựng mô hình .................................. 17
2.2.1. Thông tin số liệu thống kê .............................................................. 17
2.2.2. Thông tin dữ liệu từ điều tra hộ gia đình ......................................... 19
2.3. Trích chọn thông tin và xây dựng mô hình dự báo................................. 23
2.3.1. Xây dựng mô hình phát sinh, thu hút chuyến đi .............................. 23
2.3.1.1. Xây dựng mô hình phát sinh chuyến đi ........................................ 25
2.3.1.2. Xây dựng mô hình thu hút chuyến đi ........................................... 28
2.3.2. Xây dựng mô hình phân bổ chuyến đi............................................. 30
2.3.3. Xây dựng mô hình phân chia phương tiện ...................................... 34


ii

CHƯƠNG 3 KIỂM ĐỊNH TRÊN SỐ LIỆU HIỆN TRẠNG VÀ DỰ BÁO .. 40
3.1. Kiểm định trên số liệu hiện trạng ........................................................... 40

3.1.1 Kiểm định mô hình phát sinh chuyến đi........................................... 40
3.1.2 Kiểm định mô hình thu hút chuyến đi .............................................. 40
3.1.3 Kiểm định mô hình phân bổ chuyến đi ............................................ 42
3.1.4 Kiểm định mô hình phân chia phương tiện ...................................... 43
3.2. Sử dụng mô hình cho dự báo tương lai .................................................. 45
3.2.1 Dự báo phát sinh, thu hút chuyến đi năm 2020 ................................ 46
3.2.2 Dự báo phân bổ chuyến đi năm 2020 ............................................... 47
3.2.3 Dự báo lưu lượng phương tiện năm 2020 ........................................ 47
KẾT LUẬN ................................................................................................... 48
KIẾN NGHỊ ................................................................................................... 49
TÀI LIỆU THAM KHẢO ............................................................................... 50
PHỤ LỤC ................................................................................................... 52
Phụ lục 1: Code chương trình trên ngôn ngữ R............................................. 52
Phụ lục 2: Mẫu điều tra hộ gia đình .............................................................. 60
Phụ lục 3: Kết quả dự báo phân bổ chuyến đi năm 2020 .............................. 72
Phụ lục 4: Kết quả dự báo lưu lượng giao thông phân theo phương tiện năm
2020 ............................................................................................................. 73


iii

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Từ viết tắt
A
Bike
Bus
CSDL
Car
G

I
Item
J
KPDL
Moto
PCU
VOC
VOT

Tiếng Anh
Attraction
Bicycle
Bus
Database
Car
Generate
Origin (i)
Item
Destination (j)
Knowledge Discoversy
and Data Mining
Motobike
Passenger Car Unit
Value Of Cost
Value Of Time

Tiếng Việt
Thu hút chuyến đi
Xe đạp
Xe bus công cộng

Cơ sở dữ liệu
Xe con
Phát sinh chuyến đi
Vùng đi (i)
Khoản mục
Vùng đến (j)
Khai phá đữ liệu
Xe máy
Đơn vị quy đổi về xe con
Chi phí cho sử dụng phương tiện
Chi phí thời gian người sử dụng


iv

DANH MỤC CÁC BẢNG

Bảng 2. 1: Thống kế số lượng các chỉ tiêu theo phường ......................................... 18
Bảng 2. 2: Chỉ tiêu về số chuyến đi bình quân trong ngày...................................... 19
Bảng 2. 3: chỉ tiêu về số km bình quân phương tiện và chi phí .............................. 19
Bảng 2. 4: Chỉ tiêu về thu nhập và sở hữu phương tiện .......................................... 19
Bảng 2. 5: Số chuyến đi phân theo mục đích chuyến đi ......................................... 20
Bảng 2. 6: Số chuyến đi phân theo loại hình phương tiện ...................................... 22
Bảng 3. 1: Kết quả kiểm định mô hình phát sinh, thu hút ....................................... 41
Bảng 3. 2: Kết quả kiểm định mô hình phân bổ chuyến đi ..................................... 42
Bảng 3. 3: Kết quả kiểm định mô hình phân chia phương tiện ............................... 43
Bảng 3. 4: Dân số, số lao động và học sinh, sinh viên năm 2020 ........................... 45
Bảng 3. 5: Kết quả dự báo số chuyến đi phát sinh và thu hút năm 2020 ................. 46
Bảng 3. 6: Kết quả phân bổ chuyến đi năm 2020 ................................................... 47
Bảng 3. 7 Tổng hợp dự báo lưu lượng theo loại hình phương tiện năm 2020 ......... 47



v

DANH MỤC CÁC HÌNH VẼ
Hình 1. 1: Tiến trình phát hiện tri thức..................................................................... 1
Hình 1. 2: Phát sinh và thu hút chuyến đi................................................................. 9
Hình 1. 3: Phân bổ chuyến đi ................................................................................... 9
Hình 1. 4: Phân chia phương tiện ........................................................................... 10
Hình 1. 5: Mô phỏng chi phí tăng lên khi khối lượng được phân bổ....................... 11
Hình 1. 6: Vận tốc giảm dần khi khối lượng tăng dần ............................................ 11
Hình 1. 7: Mô hình dự báo 4 bước ......................................................................... 12
Hình 2. 1. Mô hình hồi quy tuyến tính ................................................................... 17
Hình 2. 2: Đánh giá độ tương quan của các chỉ tiêu đầu vào .................................. 24
Hình 2. 3: Thông số đánh kết quả phân tích mô hình phát sinh .............................. 26
Hình 2. 4: Thông số đánh giá kết quả phân tích mô hình phát sinh khi thêm HSDC..... 27
Hình 2. 5: So sánh mối tương quan của mô hình phát sinh trước và sau khi
thêm HSDC ........................................................................................ 27
Hình 2. 6: Thông số đánh giá kết quả phân tích mô hình thu hút............................ 28
Hình 2. 7: Thông số đánh giá kết quả phân tích mô hình thu hút khi thêm HSDC........ 29
Hình 2. 8: So sánh mối tương quan của mô hình thu hút trước và sau khi thêm
HSDC ................................................................................................ 30
Hình 2. 9: Mối tương quan số chuyến đi và cự ly vận chuyển ................................ 31
Hình 2. 10: Thông số đánh giá, phân tích mô hình phân bổ chuyến đi ................... 32
Hình 2. 11: Thông số đánh giá, phân tích mô hình phân bổ chuyến đi khi có
biến giả .............................................................................................. 33
Hình 2. 12: Số liệu thực tế với số liệu lý thuyết khi có và không có biến giả.......... 34
Hình 2. 13: Thông số đánh giá kết quả về độ thỏa dụng đối với xe đạp.................. 36
Hình 2. 14: Thông số đánh giá kết quả về độ thỏa dụng đối với xe máy................. 37
Hình 2. 15: Thông số đánh giá kết quả về độ thỏa dụng đối với xe con .................. 37

Hình 2. 16: Thông số đánh giá kết quả về độ thỏa dụng đối với xe bus .................. 38


vi

LỜI NÓI ĐẦU

Quy hoạch mạng lưới giao thông có vai trò hết sức quan trọng trong
quy hoạch thành phố. Dự báo lưu lượng giao thông là cơ sở cho việc quy
hoạch mạng lưới giao thông, nhằm đáp ứng tốt nhất nhu cầu đi lại trong hiện
tại và trong tương lai.
Hiện nay để dự báo giao thông người ta thường tiến hành điều tra, khảo
sát bằng các biện pháp như phỏng vấn, đếm xe để xây dựng ma trận nhu cầu
đi lại trong hiện tại rồi dùng một số kỹ thuật dự báo như hệ số đàn hồi, tốc độ
tăng trưởng để dự báo nhu cầu đi lại trong tương lai.
Việc sử dụng hệ số đàn hồi hoặc tốc độ tăng trưởng thường mang tính
xu thế chung, có thể không phản ánh chính xác được nhu cầu đi lại cho một
vùng cũng như loại hình phương tiện đi lại của vùng đó đặc biệt là khi cơ cấu
chuyến đi thay đổi và hành vi, thói quen sử dụng phương tiện thay đổi.
Nhằm hạn chế bớt sai số trong việc dự báo nhu cầu giao thông, luận
văn đề xuất ứng dụng một số kỹ thuật Khai phá dữ liệu trong việc xây dựng
mô hình dự báo lưu lượng giao thông theo loại hình phương tiện dựa trên dữ
liệu khảo sát thực tế. Dữ liệu khảo sát bao gồm các thông tin về nơi đi, nơi
đến; chi phí, thời gian, cự ly, mục đích chuyến đi; đặc điểm nghề nghiệp, tuổi,
giới tính của người có chuyến đi v.v..
Nghiên cứu này nhằm xây dựng mô hình dự báo theo hướng tiếp cận
hiện đại mà các nước phát triển cũng như các nước đang phát triển hiện đang
sử dụng là phương pháp dự báo 4 bước.
Dự báo sẽ là cơ sở hỗ trợ cho việc hoạch định của các nhà quản lý về
chính sách đầu tư phát triển cơ sở hạ tầng phù hợp nhu cầu của người dân.



vii

Với ý nghĩa và tầm quan trọng đó, em lựa chọn đề tài “ Ứng dụng một
số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao
thông theo loại hình phương tiện” với mục đích tìm hiểu và ứng dụng được
một số kỹ thuật khai phá dữ liệu vào bài toán trên từ nguồn số liệu điều tra hộ
gia đình được thực hiện năm 2014 tại thành phố Hà Nội, Việt Nam.
Luận văn gồm 3 chương với các nội dung cơ bản sau
Chương 1: Trình bầy khái quát về dự báo và ứng dụng khai phá dữ liệu
trong xây dựng mô hình dự báo giao thông.
Chương 2: Trình bầy các kỹ thuật khai phá dữ liệu trong xây dựng mô
hình dự báo lưu lượng giao thông từ bước 1 đến bước 3 trong bài toán dự báo
4 bước để xác định loại hình phương tiện đối với thủ đô Hà Nội.
Chương 3: Thử nghiệm trên bộ dữ liệu thực nghiệm năm 2014 và đưa
ra kết quả dự báo cho năm 2020.
Qua luận văn này, em xin chân thành cảm ơn TS. Nguyễn Việt Anh –
Viện Công nghệ thông tin đã tận tình giúp đỡ, hướng dẫn em nghiên cứu và
hoàn thành luận văn này. Em cũng xin cảm ơn các thầy cô đã giảng dạy em
trong hai năm học vừa qua. Xin cảm ơn các đồng nghiệp đã giúp đỡ cung cấp
dữ liệu, tài liệu trong quá trình nghiên cứu luận văn.
Mặc dù đã hết sức cố gắng, song do thời gian và kinh nghiệm nghiên
cứu còn hạn chế nên không thể tránh khỏi những thiếu sót, em mong nhận
được sự góp ý của các thầy cô và bạn bè đồng nghiệp để nghiên cứu được
hoàn thiện hơn.


1


CHƯƠNG 1
TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG XÂY
DỰNG MÔ HÌNH DỰ BÁO GIAO THÔNG
1.1. Tìm hiểu về khai phá dữ liệu
1.1.1. Khái niệm về khai phá dữ liệu
Khai phá dữ liệu là một bước trong quá trình phát hiện tri thức tiềm ẩn
trong cơ sở dữ liệu bằng các thuật toán khai thác dữ liệu theo các phương
pháp cụ thể để tìm ra các mẫu hoặc các mô hình trong dữ liệu nhằm trợ giúp
nhanh cho người ra quyết định hoặc dự báo.
Phát hiện tri thức trong cơ sở dữ liệu (KKD-Knowleadge Discovery in
Database) [2], [5] được thực hiện qua tiến trình gồm các bước:
Nghiên cứu và đặt bài toán
Tạo và thu nhập dữ liệu đầu vào
Tiền xử lý dữ liệu: làm sạch, mã hóa
Trích chọn, chuyển đổi dữ liệu

Khai phá dữ liệu: tìm kiếm tri thức
Kiểm định, đánh giá

Sử dụng tri thức
Hình 1. 1: Tiến trình phát hiện tri thức


2

Bước 1: Nhằm tìm hiểu lĩnh vực ứng dụng từ đó hình thành nên bài
toán cần giải, xác định các nhiệm vụ cần phải hoàn thành. Tạo tiền đề cho
việc hình thành nên dữ liệu cần thu thập
Bước 2: Mục tiêu là tìm kiếm thu thập dữ liệu sẵn có hoặc tạo mới
theo yêu cầu của bài toán đã đặt ra nhằm có được nguồn dữ liệu thích hợp

với mục đích ứng dụng và bản chất của dữ liệu.
Bước 3: Là thu thập và xử lý thô, (tiền xử lý dữ liệu) nhằm loại bỏ
nhiễu, xử lý việc dữ liệu bị thiếu, bị thừa hoặc không có thông tin.
Bước 4: Là quá trình lựa chọn các thuộc tính cần thiết phù hợp cho
việc phân tích lấy từ CSDL để sử dụng xây dựng mô hình, thuật toán. Sau đó
dữ liệu được chuyển đổi hoặc hợp nhất thành một thể thích hợp phù hợp cho
việc khai phá. Bước này thường chiếm nhiều thời gian nhất.
Bước 5: Đây là bước quan trọng nhất nhằm rút ra các tri thức. Quá
trình này thực hiện bằng các thuật toán để xây dựng mô hình đủ độ tin cậy
theo yêu cầu, mục đích đã đặt ra.
Bước 6: Bước này nhằm đánh giá lại kết quả tìm kiếm tri thức dựa
trên một số tiêu chí, chỉ tiêu đánh giá.
Bước 7: Hiểu tri thức đã tìm được, làm sáng tỏ các mô tả và dự đoán.
Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được
lấy trung bình trên tất cả các lần thực hiện.
Như vậy khai phá dữ liệu là một bước quan trọng nhất trong qui trình
phát hiện tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới
một số qui định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc
các mô hình trong dữ liệu. Nói một cách khác, mục đích của phát hiện tri thức
và khai phá dữ liệu chính là tìm ra các mẫu và/hoặc các mô hình đang tồn tại
trong các cơ sở dữ liệu.


3

Để khai khá dữ liệu người ta cần sử dụng đến kỹ thuật, phương pháp
và công cụ trong khai phá dữ liệu.
1.1.2. Một số kỹ thuật khai phá dữ liệu
Theo nguyên lý chúng, khi sử dụng phương thức KPDL để giải quyết
một vấn đề cụ thể, cần phải hình dung ra loại vấn đề là gì. Có thể tổng kết

thành hai loại chính liên quan đến các đối tượng của KPDL:
+ Kỹ thuật khai phá dữ liệu mô tả: Nhằm mô tả các tính chất hoặc các
đặc trưng của CSDL hiện có. Kỹ thuật này bao gồm các phương pháp như
Phân Cụm, phân tích luật kết hợp.
+ Kỹ thuật khai phá dữ liệu dự đoán: Nhằm đưa ra các dự đoán dựa
vào các suy diễn trên dữ liệu hiện thời. Kỹ thuật này bao gồm các phương
pháp như Phân lớp, phân nhóm, hồi quy.
1.1.3. Một số phương pháp khai phá dữ liệu
+ Phương pháp phân lớp (classification & prediction):
Là quá trình xây dựng một mô hình mô tả dữ liệu được phân chia như
thế nào, nói cách khác là quá trình xây dựng mô hình mô phỏng bằng cách
gán các đối tượng dữ liệu vào các lớp đã xác định. Mục tiêu của thuật toán
phân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính
phân lớp. Như thế quá trình phân lớp có thể sử dụng mối quan hệ này để dự
báo cho các mục mới.
Phân lớp dữ liệu dựa trên 4 thành phần cơ bản là: Lớp, dự đoán, tập dữ
liệu được huấn luyện, tập dữ liệu kiểm thử
Đặc trưng của tiến trình phân lớp gồm những điểm sau:
Đầu vào: Dữ liệu đào tạo chứa những đối tượng với thuộc tính của nó,
với một số thuộc tính đã được gán nhãn
Đầu ra: Mô hình được gán bởi những nhãn cụ thể cho mỗi đối tượng
dựa trên những thuộc tính khác.


4

Mô hình sử dụng để dự đoán những lớp mới, những đối tượng chưa biết
thì tập dữ liệu kiểm thử cũng dùng để xác định độ chính xác của mô hình.
Khi một mô hình phân loại được xây dựng nó sẽ phải so sánh với những
mô hình khác để lựa chọn mô hình tốt nhất. Liên quan đến việc so sánh giữa các

mô hình phân loại sẽ có một số thành phần cần được tính đến như: Khả năng dự
đoán, tốc độ, độ mạnh mẽ, độ mềm dẻo, tính diễn giải, độ đơn giản.
+ Phương pháp phân cụm (Clustering):
Là việc mô tả chung để chia một tập dữ liệu thành các cụm (nhóm),
loại mô tả dữ liệu. Các nhóm có thể tách nhau hoặc phân cấp hay gối lên
nhau. Có nghĩa là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác
nhưng phải đảm bảo các đối tượng thuộc 1 cụm là tương tự nhau, đối tượng ở
cụm này sẽ ít tương tự với đối tượng ở cụm khác.
+ Phương pháp hồi quy (Regression) :
Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự
đoán có giá trị thực. Phân tích hồi quy sẽ xác định được định lượng quan hệ
giữa các biến và biến phụ thuộc vào giá trị của những biến khác.
Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau chính
là ở chỗ thuộc tính để dự báo là liên tục còn phân lớp dữ liệu là dự đoán các
giá trị rời rạc.
+ Phương pháp phân tích luật kết hợp(Association Rule)
Là tiến trình xác định những luật phụ thuộc giữa những nhóm khác
nhau, là việc phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong
cơ sở dữ liệu. Là công việc khám phá các luật kết hợp từ những mẫu thường
xuyên hoặc dựa trên ràng buộc.
Mục đích của luật kết hợp là tìm ra sự kết hợp hay tương quan giữa
các items. Những luật kết hợp này có dạng XY.
+ Phương pháp mẫu tuần tự (Sequential Pattern mining)


5

Là việc xác định những mẫu mà sự xuất hiện của chúng trong CSDL
thỏa mãn ngưỡng tối thiểu. Luật tuần tự được sinh ra từ mẫu tuần tự, biểu
diễn mối quan hệ giữa hai loại sự kiện này sẽ xảy ra sau loạt sự kiện kia.

1.1.4. Một số công cụ hỗ trợ khai khá dữ liệu
+ Regretion trong Excel
+ R (www.r-project.org)
+ Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/)
+ Weka (www.cs.waikato.ac.nz/ml/weka)
+ YALE (rapid-i.com)
+ KNIME (www.knime.org)
+ Orange (www.ailab.si/orange)
1.2. Ứng dụng khai phá dữ liệu trong dự báo giao thông
1.2.1. Khái niệm dự báo
Dự báo là một môn khoa học nghiên cứu và tiên đoán những sự việc
sẽ xảy ra trong tương lai trên cơ sở phân tích khoa học về các dữ liệu thu thập
được. Khi tiến hành dự báo cần căn cứ vào việc thu thập và xử lý số liệu trong
quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng trong
tương lai nhờ vào một số mô hình toán học.
Căn cứ vào độ dài và thời gian dự báo người ta có thể phân thành 3
loại là dự báo ngắn hạn, trung hạn và dài hạn.
+ Dự báo ngắn hạn: là những dự báo có thời gian dự báo < 3 năm,
thường dùng để lập các kế hoạch ở tầm vi mô, trong khoảng thời gian ngắn
phục vụ cho công tác chỉ đạo, điều hành kịp thời.
+ Dự báo trung hạn: là những dự báo có thời gian dự báo từ 3 đến 5
năm, thường dùng để lập kế hoạch trung hạn ở tầm vi mô và vĩ mô.


6

+ Dự báo dài hạn: là những dự báo có thời gian dự báo trên 5 năm,
phục vụ cho những dự báo cho những mục tiêu, chiến lược trong thời gian dài
ở tầm vĩ mô.
Dự báo nói chung thường tuân theo 5 quy trình sau:

Xác định mục tiêu dự báo; Xác định loại dự báo; Lựa chọn mô hình
dự báo; Thu thập số liệu, tiến hành dự báo; Ứng dụng kết quả dự báo; Theo
dõi kết quả dự báo.
Để tiến hành dự báo nói chung, hiện nay trên thế giới và tại Việt Nam
người ta chia thành 2 nhóm dự báo là dự báo định tính và dự báo định lượng
+ Dự báo định tính: Dự báo thuộc nhóm này là những dự đoán chủ
quan hoặc trực giác về tương lai bằng cách dựa vào suy đoán, cảm nhận.
+ Dự báo định lượng: Dựa vào các số liệu thống kê và thông qua các
công thức toán học được thiết lập để dự báo nhu cầu cho tương lai. Khi dự
báo nhu cầu tương lai, nếu không xét đến các nhân tố ảnh hưởng khác có thể
dùng các phương pháp dự báo theo dãy số thời gian. Nếu cần ảnh hưởng của
các nhân tố khác đến nhu cầu có thể dùng các mô hình hồi quy tương quan.
Tuy nhiên trong thực tế trong một số trường hợp cụ thể người ta sẽ sử
dụng kết hợp cả hai phương pháp nói trên bằng phương pháp tổng hợp.
Bảng 1. 1: Một số phương pháp dự báo
Phương pháp dự báo định tính

Phương pháp dự báo định lượng

 Tiên đoán (Genius forcasting)

 Hệ số đàn hồi

 Chuyên gia (Consensus methods)

 Nội suy xu hướng (Trens interpolation)

 Kịch bản (Scenario)

 Ngoại suy xu hướng (Trens extrapolation)

 Mô phỏng, mô hình hóa (Stimulation)
 Cây quyết định (Decisison trees)
 Ma trận tác động qua lại (Cross-impact
matrix method)
 Tổng hợp (Combining methods).


7

Trong các phương pháp dự báo nói trên thì các phương pháp dự báo
như: Ngoại suy xu hướng, Mô phỏng, mô hình hóa, Cây quyết định là kết quả
của việc ứng dụng kỹ thuật khai phá dữ liệu.
1.2.2. Ứng dụng khai phá dữ liệu trong dự báo giao thông
Trong dự báo giao thông, người ta thường sử dụng phương pháp dự
báo theo tốc độ tăng trưởng, hệ số đàn hồi. Phương pháp này dựa vào chuỗi
số liệu thống kê về số lượng phương tiện qua các năm hoặc chuỗi số liệu đếm
xe trên một số tuyến đường qua các năm để làm căn cứ dự báo cho tương lai.
Hiện nay có rất nhiều nghiên cứu cũng như ứng dụng khai phá dữ liệu
đối với dự báo giao thông trên hệ thống cơ sở dữ liệu giao thông thông minh
(ITS) bằng kỹ thuật khai phá dữ liệu như mạng Nơ ron (Neural Network),
logic mờ, sử dụng cây quyết định hoặc hồi quy phi tuyến.
Tuy nhiên phương pháp sử dụng được khai thức từ dữ liệu ITS mới
chỉ đáp ứng được một phần yêu cầu của các nhà quy hoạch, phương pháp này
không trả lời được một cách đầy đủ và chính xác đối với mục tiêu quy hoạch
giao thông là trong tương lai khi mở thêm một tuyến đường mới hay một
phương thức vận tải mới thì có đáp ứng đủ nhu cầu hay không. Do vậy người
ta đã tiến hành thêm phương pháp dự báo dựa trên số liệu phỏng vấn hộ gia
đình về dữ liệu hành trình các chuyến đi hàng ngày của các thành viên trong
gia đình trên cơ sở mẫu điều tra và sử dụng một số công cụ khai phá dữ liệu
để tiến hành xây dựng mô hình dự báo giao thông gọi là dự báo giao thông 4

bước để phục vụ cho mục tiêu quy hoạch.
1.2.3. Mô hình dự báo giao thông phục vụ quy hoạch
Quy hoạch mạng lưới giao thông là quy hoạch mạng giao thông đường
bộ trên phạm vi một vùng lãnh thổ địa lý của một quốc gia, một thành phố
hoặc một vùng, đối với mạng lưới giao thông nhằm mục tiêu chuẩn bị các


8

phương tiện và cung cấp dịch vụ cho nhu cầu giao thông để đảm bảo nhu cầu
đi lại được nhanh chóng, tiện lợi và an toàn.
Trong khuôn khổ nghiên cứu của luận văn em đi vào nghiên cứu xây
dựng mô hình dự báo giao thông phục vụ cho mục tiêu Quy hoạch mạng lưới
đường bộ trong thành phố Hà Nội.
1.2.4. Mô hình dự báo giao thông 4 bước:
Mô hình dự báo giao thông 4 bước đã được nghiên cứu và thử nghiệm
ở các nước Châu âu từ đầu những năm 1990, đến nay mô hình đã và đang
được nhiều nước tiên tiến trải qua nhiều thử nghiệm và ứng dụng thành công
với phương pháp xây dựng hoàn chỉnh gọi là mô hình 4 bước trong đó mỗi
bước được thực hiện dự báo bằng một mô hình riêng, đầu ra của bước dự báo
trước sẽ là đầu vào của bước dự báo tiếp theo.
Cơ sở của việc áp dụng mô hình là sự lựa chọn rời rạc các yếu tố về
hành vi thực hiện chuyến đi của các cá nhân trên cơ sở điều tra mẫu trong
vùng nghiên cứu với các thông tin về chuyến đi trong ngày như phương tiện
sử dụng, mục đích, thời gian, chi phí chuyến đi sẽ được kết hợp cùng các yếu
tố tự nhiên và xã hội như dân số, số lao động, số học sinh, sinh viên...
Dưới đây em xin trình bầy các công thức để xây dựng mô hình dự báo
4 bước trong giao thông vận tải đang áp dụng trong các nghiên cứu, tính toán
để dự báo lưu lượng giao thông.
Bước 1: Mô hình phát sinh, thu thút chuyến đi

Mô hình này nhằm trả lời câu hỏi có bao nhiêu chuyến đi xuất phát từ
vùng i và có bao nhiêu chuyến đi sẽ đến vùng j.

Gi = a1 x1 +a 2 x2 +a3 x 3 +...+a i x i +c
Trong đó:

Gi là tổng số chuyến đi bắt đầu từ vùng i
c,a1,a2,a3,ai: là các hệ số cần xác định

(CT1)


9

x1,x2,x3,xi: là các thuộc tính lựa chọn như dân số, số lao
động, số học sinh, sinh viên...của vùng i.

Aj = a 1 x1 +a2 x2 +a 3x3 +...+a jx j +c
Trong đó:

(CT2)

Aj là tổng số chuyến đi từ các vùng khác đến vùng j
c,a1,a2,a3,ai: là các hệ số cần xác định
x1,x2,x3,xj: là các thuộc tính lựa chọn như dân số, số lao
động, số học sinh, sinh viên ... của vùng j.

Hình 1. 2: Phát sinh và thu hút chuyến đi

Bước 2: Mô hình phân bổ chuyến đi

Mô hình này nhằm xác định và trả lời cho câu hỏi có bao nhiêu chuyến
đi xuất phát từ vùng i để đi đến vùng j.

Tij 
Trong đó:

Gi  A j

(CT3)

D ij

Tij là tổng số chuyến đi từ i đến j
Dij là trở kháng từ trung tâm vùng i đến trung tâm vùng j

(Trở kháng có thể là thời gian hoặc khoảng cách từ vùng i đến vùng j)

Hình 1. 3: Phân bổ chuyến đi


10

Bước 3: Mô hình phân chia phương tiện sử dụng
Mô hình này nhằm trả lời câu hỏi với tổng số chuyến đi từ vùng i đến
vùng j người ta sử dụng phương tiện nào: Xe đạp, xe máy, xe con, xe bus.

Pk 
Trong đó:

Pk

1  Pk

(CT4)

Pk là xác suất sử dụng phương tiện k
1 - Pk là xác suất không sử dụng phương tiện k.
Xe máy:20
Xe con: 10
Xe đạp: 5

Hình 1. 4: Phân chia phương tiện

Trong hình 1.3, tổng khối lượng của vùng i cần phát là 100 chuyến đi,
trong đó vùng j tiếp nhận 35 chuyến đi, vùng j +1 tiếp nhận 25 chuyến đi và
vùng j +2 tiếp nhận 40 chuyến đi.
Trong hình 1.4 khi phân chia phương tiện đảm nhận xác định cho vùng i
đến vùng j thì phương xe máy đảm nhận 20 chuyến, xe con 10 chuyến và xe
đạp 5 chuyến.
Bước 4: Phân bổ trên mạng lưới vận tải
Đây là quá trình nhằm xác định chuyến đi từ vùng i đến vùng j của
phương tiện k đi trên đường (cung) nào.
Bước này là bài toán cơ bản trong CNTT bằng thuật toán tìm kiếm trên
đồ thị bằng kỹ thuật tìm kiếm đường đi có chi phí thấp nhất kết hợp với tri


11

thức bổ sung. Tri thức bổ sung ở đây là sau mỗi lần cung r đã có giá trị sử
dụng, thì chi phí trên cung sẽ tăng lên so với những cung chưa được sử dụng.
Mỗi cung trên đồ thị được mô phỏng tương ứng với một doạn đường

trong thực tế (xác định bởi 2 nút giao). Năng lực của một cung được tính toán
trên cơ sở các thông số đầu vào của mạng lưới đường bộ trong thực tế như:
chiều rộng, chiều dài, vận tốc theo đơn vị quy đổi gọi là PCU (Passenger Car - Unit)

Hình 1. 5: Mô phỏng chi phí tăng lên khi khối lượng được phân bổ

Nguyên tắc xác định chi phí của một cung phụ thuộc vào năng lực của
mỗi cung đã được sử dụng bao nhiêu, khi giá trị một cung (khối lượng) càng
tiến đến gần năng lực thì vận tốc giảm đi, dẫn đến chi phí tăng lên. Mối quan
hệ này được gọi là đường cong QV (Quantity- Velocity)

Hình 1. 6: Vận tốc giảm dần khi khối lượng tăng dần

Ví dụ trong hình 1.5 (bên trái), sau khi đã có khối lượng phân bổ chuyến
đi từ vùng số 1 đến vùng số 2 thì chi phí trên cung (1,2) tăng lên, khi phân bổ
khối lượng từ vùng số 1 đến vùng số 3 sẽ không lựa chọn cung (1,2) để đi mà
lựa chọn cung (1,5) và (5,3) với chi phí thấp hơn. Cứ như vậy, quá trình phân


12

bổ sẽ lựa chọn những cung có chi phí thấp nhất để phân bổ khối lượng từ
vùng 1 đến vùng 10. Hình 1.5 (bên trái) mô phỏng chi phí trong lần phân bổ
của vùng 1 cho tất cả các vùng khác, và bên phải mô phỏng chi phí trong lần
phân bổ của vùng số 2 đến các vùng khác.
Trong khuôn khổ nghiên cứu của luận văn này em sử dụng số liệu từ ma
trận đi lại của Hà nội năm 2014, ma trận này đã được nhân mẫu từ số liệu
điều tra của 18.000 hộ gia đình cũng như các bước xử lý khác
Kết quả nghiên cứu của luận văn đi sâu vào việc ứng dụng một số kỹ
thuật khai phá dữ liệu trong quá trình xây dựng mô hình dự báo giao thông từ

bước 1 đến bước 3 bằng việc sử dụng một số kỹ thuật khai phá dữ liệu để tìm
một số luật suy diễn, lựa chọn các thuộc tính bên ngoài và thuộc tính sẵn có
trong dữ liệu kết hợp với kỹ thuật sử dụng biến giả nhằm xây dựng mô hình
đạt được kết quả tốt nhất bằng ngôn ngữ R kết hợp với Excel trong quá trình
tổng hợp các bảng kết quả và các hình vẽ minh họa.
Mô hình 4 bước được khái quát theo sơ đồ sau:
Yếu tố KTXH

Phát sinh/Thu hút
chuyến đi
Phân bổ chuyến đi

Trở kháng cự ly

Phân chia phương tiện

Mạng lưới
giao thông

Phân bổ vận tải

Hình 1. 7: Mô hình dự báo 4 bước


13

Hiện nay có nhiều đơn vị như Trường Đại học và Viện Nghiên cứu
ngoài việc ứng dụng họ đã xây dựng một số các Modul phần mềm để mô
phỏng, dự báo giao thông nhằm hỗ trợ cho công việc tính toán như:
+ Cube là phần mềm mô phỏng và dự báo giao thông do Công ty

Citilabs của Hoa Kỳ nghiên cứu, phát triển và đang được sử dụng phổ biến tại
các nước Châu Âu, Châu Mỹ, Châu Úc, Châu Á, trong đó có Việt Nam.
+ Visum, Visim là phần mềm mô phỏng, dự báo giao thông vĩ mô và
vi mô do công ty PTV của CHLB Đức nghiên cứu,phát triển và cũng đang
được sử dụng phổ biến tại các nước Châu Âu, Châu Á, trong đó có Việt Nam.
+ Strada là phần mềm mô phỏng, dự báo giông thông do Công ty Jica
của Nhật Bản nghiên cứu, phát triển, hiện được sử dụng nhiều tại các nước
Châu Á, trong đó có Việt Nam.
Đối với Việt Nam, việc triển khai áp dụng theo mô hình dự báo này
đã và đang được các tổ chức, đơn vị tư vấn nước ngoài và trong nước nghiên
cứu áp dụng đối với dự báo giao thông phục vụ mục tiêu quy hoạch giao
thông mang tính chất trên phạm vi lớn của toàn quốc gia hay một vùng hoặc
một tuyến đường cụ thể.
Việc sử dụng phần mềm đã được xây dựng sẵn hiện nay chủ yếu được
các chuyên gia nước ngoài sử dụng và phân tích trong quá trình nghiên cứu
một dự án cụ thể. Tại Việt nam cũng đã có một số chương trình hợp tác đào
tạo, chuyển giao để ứng dụng, tuy nhiên việc khó khăn đối với người sử dụng
là hoàn toàn không chủ động được được trong việc lựa chọn các thông tin khi
xây dựng mô hình, một phần do chưa hiểu được bản chất các thuộc tính và
quy luật của dữ liệu nên khi sử dụng các phần mềm có sẵn thường gặp khó
khăn trong việc xử lý thuộc tính dữ liệu đầu vào để cho ra một kết quả hợp lý
và tốt nhất.


14

Trong quá trình tìm hiểu trước khi làm luận văn với đề tài này, em đã
tham khảo một số bài viết về mô hình tính toán dự báo trong giao thông vận
tải và nhận thấy rằng, đây thực chất là quá trình tìm kiếm và khai phá dữ liệu
để tìm ra những quy luật chung nhất về số lượng chuyến đi và lựa chọn loại

phương tiện để thực hiện chuyến đi của một nhóm đối tượng được gom nhóm
theo vùng địa lý và vùng nghiên cứu.
Việc sử dụng kết quả từ mô hình này sẽ được sử dụng để nhà quản lý
quyết định các chính sách để giảm ùn tắc giao thông, điều chính giá cước, phí
lưu thông như trong báo cáo năm 2015 của Tiến sĩ Vũ Anh Tuấn [6], tài liệu
giới thiệu về phương pháp tính trên cơ sở mô hình dự báo 4 bước trong giao
thông và đưa ra khả năng lựa chọn phương tiện trong tương lai nhằm mục
đích đánh giá tác động chính sách quản lý.
Việc ứng dụng mô hình dự báo 4 bước còn được sử dụng để tính toán
tác động khí thải của các phương tiện giao thông phác thải ra môi trường
[16], trong nội dung tài liệu này cũng nói đến việc sử dụng mô hình 4 bước để
tính toán thị phần phương tiện, trên cơ sở đó xác định được khí thải của các
loại phương tiện gây ô nhiễm.Tài liệu cũng đề cập đến môi trường của giao
thông liên tỉnh (giữa các thành phố trong cả nước) và môi trường giao thông
nội đô của 2 thành phố lớn là Hà Nội và TP. Hồ Chí Minh.
Mô hình 4 bươc cũng được sử dụng ở một số các nước khác như:
Nghiên cứu mô hình giao thông 4 bước trong giao thông vận tải thành
phố Dhaka, Bangladesh [10], nội dung tài liệu đã nêu chi tiết từng bước tiến
hành xây dựng mô hình để tính toán mật độ của các tuyến đường trong thành
phố với 76 phường được phân thành 10 vùng nghiên cứu để phân tích, và xây
dựng mô hình dự báo cũng như các kết quả tính toán cụ thể.
Báo cáo về tình hình giao thông vận tải ở Jakarta [7], nội dung báo
cáo nhằm nghiên cứu nâng cao hiệu quả năng lượng trong giao thông vận tải.


15

Báo cáo của Hiệp hội vận tải Châu âu tại Hà Lan [9] đã đưa ra một số
thuộc tính lựa chọn thông tin trong mô hình hồi quy để dự báo lựa chọn
phương tiện cho thành phố Lyon, Pháp. Nội dung bài báo cáo tại hội nghị về

giao thông Châu Âu tổ chức tại Stransbourg, Pháp [11] cũng nghiên cứu và
đưa ra mô hình phân chia phương tiện là bước thứ 3 trong mô hình 4 bước.
Bài giới thiệu về mô hình nhu cầu vận tải của tổ chức Kittenson &
Associate, INC [12]. Bài viết giới thiệu về mô hình nhu cầu vận tải của Viện
nghiên cứu Công nghệ Massachusetts [14] đã giới thiệu về cơ sở dữ liệu từ
điều tra hộ gia đình, được phân tích theo mục đích chuyến đi và hành vi
chuyến đi để sử dụng làm cơ sở tính toán trong mô hình 4 bước.
Ngoài việc tìm hiểu từ những bài nghiên cứu, em đã tìm hiểu những
bài giảng về giao thông vận tải đặc biệt là những mô hình dự báo trong giao
thông vận tải như chương 9 trong giáo trình giới thiệu về giao thông vận tải
trong khóa học trực tuyến của tổ chức NPTEL tại Ấn độ [15]. Phương pháp
mô hình hóa vận tải của trường đại học Imperial, Anh [8].
Bài giảng giới thiệu về mô hình 4 bước với phần chương 3 của Sở
Xây dựng và Kỹ thuật môi trường kết hợp cùng Viện Giao thông Vận tải
nghiên cứu Đại học California [13] đã giới thiệu về khái niệm và các công
thức tính toán của từng bước cùng kết quả tính toán từ bước 1 đến bước 4.
Giáo trình về quy hoạch mạng lưới đường sử dụng trong trường đại
học bách khoa thành phố Hồ Chí Minh [3] của TS. Chu Công Minh đã giới
thiệu tổng quát về các mô hình tính toán dự báo trong giao thông vận tải và
giới thiệu khá sâu vào mô hình tính toán dự báo theo mô hình 4 bước.
Bài báo giới thiệu về quy trình dự báo nhu cầu đi lại phục vụ cho công
tác quy hoạch giao thông được áp dụng rộng rãi ở các nước phát triển [1] của
PGS.TS Bùi Xuân Cậy.


×