Tải bản đầy đủ (.pdf) (98 trang)

Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.93 MB, 98 trang )

..

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN HÙNG CƯỜNG

ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
TRONG XÂY DỰNG MƠ HÌNH DỰ BÁO LƯU LƯỢNG
GIAO THƠNG THEO LOẠI HÌNH PHƯƠNG TIỆN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Số hóa bởi Trung tâm Học liệu – ĐHTN



Thái Nguyên – 5/2016


ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

NGUYỄN HÙNG CƯỜNG

ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU
TRONG XÂY DỰNG MƠ HÌNH DỰ BÁO LƯU LƯỢNG
GIAO THƠNG THEO LOẠI HÌNH PHƯƠNG TIỆN

Chun ngành



: Khoa học máy tính

Mã số

: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học
Tiến sĩ: Nguyễn Việt Anh

Số hóa bởi Trung tâm Học liệu –Thái
ĐHTNNguyên – 5/2016


LỜI CAM ĐOAN

Em xin cam đoan đây là cơng trình nghiên cứu của riêng em.
Các số liệu, trong luận văn được sử dụng từ nguồn số liệu được điều tra
trong nghiên cứu khảo sát mẫu tại các hộ gia đình thực hiện năm 2014. Kết
quả nghiên cứu này chưa được sử dụng trong bất kể nghiên cứu nào khác.
Thái Nguyên, tháng 5 năm 2016
TÁC GIẢ

Nguyễn Hùng Cường


i


MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ............................................ iii
DANH MỤC CÁC BẢNG .............................................................................. iv
DANH MỤC CÁC HÌNH VẼ .......................................................................... v
LỜI NĨI ĐẦU ................................................................................................. vi
CHƯƠNG 1 TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG
XÂY DỰNG MÔ HÌNH DỰ BÁO GIAO THƠNG .................... 1
1.1. Tìm hiểu về khai phá dữ liệu ..................................................................... 1
1.1.1. Khái niệm về khai phá dữ liệu ............................................................ 1
1.1.2. Một số kỹ thuật khai phá dữ liệu......................................................... 3
1.1.3. Một số phương pháp khai phá dữ liệu ................................................ 3
1.1.4. Một số công cụ hỗ trợ khai khá dữ liệu .............................................. 5
1.2. Ứng dụng khai phá dữ liệu trong dự báo giao thông ................................. 5
1.2.1. Khái niệm dự báo ................................................................................ 5
1.2.2. Ứng dụng khai phá dữ liệu trong dự báo giao thơng .......................... 7
1.2.3. Mơ hình dự báo giao thông phục vụ quy hoạch.................................. 8
1.2.4. Mô hình dự báo giao thơng 4 bước: .................................................... 8
CHƯƠNG 2 XÂY DỰNG MƠ HÌNH DỰ BÁO LƯU LƯỢNG GIAO
THƠNG THEO LOẠI HÌNH PHƯƠNG TIỆN ĐỐI VỚI HÀ
NỘI ............................................................................................... 16
2.1. Xây dựng mơ hình dự báo........................................................................ 16
2.1.1. Dữ liệu xây dựng mơ hình ................................................................ 16
2.1.2. Lý thuyết về mơ hình hồi quy tuyến tính .......................................... 17
2.2. Thơng tin dữ liệu cần thu thập xây dựng mơ hình ................................... 18
2.2.1. Thơng tin số liệu thống kê................................................................. 18
2.2.2. Thông tin dữ liệu từ điều tra hộ gia đình .......................................... 19
2.3. Trích chọn thơng tin và xây dựng mơ hình dự báo .................................. 24
2.3.1. Xây dựng mơ hình phát sinh, thu hút chuyến đi ............................... 24
2.3.1.1. Xây dựng mơ hình phát sinh chuyến đi ......................................... 26
2.3.1.2. Xây dựng mơ hình thu hút chuyến đi ............................................. 29

Số hóa bởi Trung tâm Học liệu – ĐHTN




ii

2.3.2. Xây dựng mơ hình phân bổ chuyến đi .............................................. 32
2.3.3. Xây dựng mơ hình phân chia phương tiện ........................................ 36
CHƯƠNG 3 KIỂM ĐỊNH TRÊN SỐ LIỆU HIỆN TRẠNG VÀ DỰ BÁO ... 43
3.1. Kiểm định trên số liệu hiện trạng ............................................................. 43
3.1.1 Kiểm định mơ hình phát sinh chuyến đi ............................................ 43
3.1.2 Kiểm định mơ hình thu hút chuyến đi ............................................... 43
3.1.3 Kiểm định mơ hình phân bổ chuyến đi .............................................. 45
3.1.4 Kiểm định mơ hình phân chia phương tiện ........................................ 46
3.2. Sử dụng mơ hình cho dự báo tương lai .................................................... 48
3.2.1 Dự báo phát sinh, thu hút chuyến đi năm 2020 ................................. 49
3.2.2 Dự báo phân bổ chuyến đi năm 2020 ................................................ 50
3.2.3 Dự báo lưu lượng phương tiện năm 2020 .......................................... 51
KẾT LUẬN ....................................................................................................... 52
KIẾN NGHỊ ....................................................................................................... 53
TÀI LIỆU THAM KHẢO ................................................................................... 54
PHỤ LỤC ....................................................................................................... 56
Phụ lục 1: Code chương trình trên ngơn ngữ R .............................................. 56
Phụ lục 2: Mẫu điều tra hộ gia đình ................................................................ 64
Phụ lục 3: Kết quả dự báo phân bổ chuyến đi năm 2020 ............................... 77
Phụ lục 4: Kết quả dự báo lưu lượng giao thông phân theo phương tiện năm
2020 ................................................................................................................. 79

Số hóa bởi Trung tâm Học liệu – ĐHTN





iii

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Từ viết tắt
A
Bike
Bus
CSDL
Car
G
I
Item
J
KPDL
Moto
PCU
VOC
VOT

Tiếng Anh
Attraction
Bicycle
Bus
Database
Car

Generate
Origin (i)
Item
Destination (j)
Knowledge Discoversy
and Data Mining
Motobike
Passenger Car Unit
Value Of Cost
Value Of Time

Số hóa bởi Trung tâm Học liệu – ĐHTN

Tiếng Việt
Thu hút chuyến đi
Xe đạp
Xe bus công cộng
Cơ sở dữ liệu
Xe con
Phát sinh chuyến đi
Vùng đi (i)
Khoản mục
Vùng đến (j)
Khai phá đữ liệu
Xe máy
Đơn vị quy đổi về xe con
Chi phí cho sử dụng phương tiện
Chi phí thời gian người sử dụng





iv

DANH MỤC CÁC BẢNG

Bảng 2. 1: Thống kế số lượng các chỉ tiêu theo phường...........................................18
Bảng 2. 2: Chỉ tiêu về số chuyến đi bình quân trong ngày .......................................20
Bảng 2. 3: chỉ tiêu về số km bình quân phương tiện và chi phí ................................20
Bảng 2. 4: Chỉ tiêu về thu nhập và sở hữu phương tiện ............................................20
Bảng 2. 5: Số chuyến đi phân theo mục đích chuyến đi ...........................................21
Bảng 2. 6: Số chuyến đi phân theo loại hình phương tiện ........................................23
Bảng 3. 1: Kết quả kiểm định mơ hình phát sinh, thu hút ........................................44
Bảng 3. 2: Kết quả kiểm định mô hình phân bổ chuyến đi .......................................45
Bảng 3. 3: Kết quả kiểm định mơ hình phân chia phương tiện ................................47
Bảng 3. 4: Dân số, số lao động và học sinh, sinh viên năm 2020 .............................48
Bảng 3. 5: Kết quả dự báo số chuyến đi phát sinh và thu hút năm 2020 ..................49
Bảng 3. 6: Kết quả phân bổ chuyến đi năm 2020 .....................................................50
Bảng 3. 7 Tổng hợp dự báo lưu lượng theo loại hình phương tiện năm 2020 ..........51

Số hóa bởi Trung tâm Học liệu – ĐHTN




v

DANH MỤC CÁC HÌNH VẼ
Hình 1. 1: Tiến trình phát hiện tri thức ....................................................................... 1
Hình 1. 2: Phát sinh và thu hút chuyến đi ................................................................... 9

Hình 1. 3: Phân bổ chuyến đi .................................................................................... 10
Hình 1. 4: Phân chia phương tiện .............................................................................. 10
Hình 1. 5: Mơ phỏng chi phí tăng lên khi khối lượng được phân bổ ........................ 11
Hình 1. 6: Vận tốc giảm dần khi khối lượng tăng dần .............................................. 12
Hình 1. 7: Mơ hình dự báo 4 bước ............................................................................ 13
Hình 2. 1. Mơ hình hồi quy tuyến tính ......................................................................17
Hình 2. 2: Đánh giá độ tương quan của các chỉ tiêu đầu vào ...................................26
Hình 2. 3: Thơng số đánh kết quả phân tích mơ hình phát sinh ...............................27
Hình 2. 4: Thơng số đánh giá kết quả phân tích mơ hình phát sinh khi thêm HSDC .....28
Hình 2. 5: So sánh mối tương quan của mơ hình phát sinh trước và sau khi
thêm HSDC ...........................................................................................29
Hình 2. 6: Thơng số đánh giá kết quả phân tích mơ hình thu hút .............................30
Hình 2. 7: Thơng số đánh giá kết quả phân tích mơ hình thu hút khi thêm HSDC ........31
Hình 2. 8: So sánh mối tương quan của mơ hình thu hút trước và sau khi thêm
HSDC ....................................................................................................31
Hình 2. 9: Mối tương quan số chuyến đi và cự ly vận chuyển .................................33
Hình 2. 10: Thơng số đánh giá, phân tích mơ hình phân bổ chuyến đi ....................34
Số hóa bởi Trung tâm Học liệu – ĐHTN




vi

Hình 2. 11: Thơng số đánh giá, phân tích mơ hình phân bổ chuyến đi khi có
biến giả ..................................................................................................35
Hình 2. 12: Số liệu thực tế với số liệu lý thuyết khi có và khơng có biến giả ..........36
Hình 2. 13: Thông số đánh giá kết quả về độ thỏa dụng đối với xe đạp...................38
Hình 2. 14: Thơng số đánh giá kết quả về độ thỏa dụng đối với xe máy .................39
Hình 2. 15: Thơng số đánh giá kết quả về độ thỏa dụng đối với xe con...................40

Hình 2. 16: Thơng số đánh giá kết quả về độ thỏa dụng đối với xe bus ...................40

LỜI NÓI ĐẦU

Quy hoạch mạng lưới giao thơng có vai trị hết sức quan trọng trong
quy hoạch thành phố. Dự báo lưu lượng giao thông là cơ sở cho việc quy
hoạch mạng lưới giao thông, nhằm đáp ứng tốt nhất nhu cầu đi lại trong hiện
tại và trong tương lai.
Hiện nay để dự báo giao thông người ta thường tiến hành điều tra, khảo
sát bằng các biện pháp như phỏng vấn, đếm xe để xây dựng ma trận nhu cầu
đi lại trong hiện tại rồi dùng một số kỹ thuật dự báo như hệ số đàn hồi, tốc độ
tăng trưởng để dự báo nhu cầu đi lại trong tương lai.
Việc sử dụng hệ số đàn hồi hoặc tốc độ tăng trưởng thường mang tính
xu thế chung, có thể khơng phản ánh chính xác được nhu cầu đi lại cho một

Số hóa bởi Trung tâm Học liệu – ĐHTN




vii

vùng cũng như loại hình phương tiện đi lại của vùng đó đặc biệt là khi cơ cấu
chuyến đi thay đổi và hành vi, thói quen sử dụng phương tiện thay đổi.
Nhằm hạn chế bớt sai số trong việc dự báo nhu cầu giao thông, luận
văn đề xuất ứng dụng một số kỹ thuật Khai phá dữ liệu trong việc xây dựng
mơ hình dự báo lưu lượng giao thơng theo loại hình phương tiện dựa trên dữ
liệu khảo sát thực tế. Dữ liệu khảo sát bao gồm các thông tin về nơi đi, nơi
đến; chi phí, thời gian, cự ly, mục đích chuyến đi; đặc điểm nghề nghiệp, tuổi,
giới tính của người có chuyến đi v.v..

Nghiên cứu này nhằm xây dựng mơ hình dự báo theo hướng tiếp cận
hiện đại mà các nước phát triển cũng như các nước đang phát triển hiện đang
sử dụng là phương pháp dự báo 4 bước.
Dự báo sẽ là cơ sở hỗ trợ cho việc hoạch định của các nhà quản lý về
chính sách đầu tư phát triển cơ sở hạ tầng phù hợp nhu cầu của người dân.
Với ý nghĩa và tầm quan trọng đó, em lựa chọn đề tài “ Ứng dụng một
số kỹ thuật khai phá dữ liệu trong xây dựng mơ hình dự báo lưu lượng giao
thơng theo loại hình phương tiện” với mục đích tìm hiểu và ứng dụng được
một số kỹ thuật khai phá dữ liệu vào bài tốn trên từ nguồn số liệu điều tra hộ
gia đình được thực hiện năm 2014 tại thành phố Hà Nội, Việt Nam.
Luận văn gồm 3 chương với các nội dung cơ bản sau
Chương 1: Trình bầy khái quát về dự báo và ứng dụng khai phá dữ liệu
trong xây dựng mơ hình dự báo giao thơng.
Chương 2: Trình bầy các kỹ thuật khai phá dữ liệu trong xây dựng mơ
hình dự báo lưu lượng giao thông từ bước 1 đến bước 3 trong bài toán dự báo
4 bước để xác định loại hình phương tiện đối với thủ đơ Hà Nội.

Số hóa bởi Trung tâm Học liệu – ĐHTN




viii

Chương 3: Thử nghiệm trên bộ dữ liệu thực nghiệm năm 2014 và đưa
ra kết quả dự báo cho năm 2020.
Qua luận văn này, em xin chân thành cảm ơn TS. Nguyễn Việt Anh –
Viện Công nghệ thông tin đã tận tình giúp đỡ, hướng dẫn em nghiên cứu và
hồn thành luận văn này. Em cũng xin cảm ơn các thầy cô đã giảng dạy em
trong hai năm học vừa qua. Xin cảm ơn các đồng nghiệp đã giúp đỡ cung cấp

dữ liệu, tài liệu trong quá trình nghiên cứu luận văn.
Mặc dù đã hết sức cố gắng, song do thời gian và kinh nghiệm nghiên
cứu còn hạn chế nên khơng thể tránh khỏi những thiếu sót, em mong nhận
được sự góp ý của các thầy cơ và bạn bè đồng nghiệp để nghiên cứu được
hồn thiện hơn.

Số hóa bởi Trung tâm Học liệu – ĐHTN




1

CHƯƠNG 1
TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG XÂY
DỰNG MƠ HÌNH DỰ BÁO GIAO THƠNG
1.1. Tìm hiểu về khai phá dữ liệu
1.1.1. Khái niệm về khai phá dữ liệu
Khai phá dữ liệu là một bước trong quá trình phát hiện tri thức tiềm ẩn
trong cơ sở dữ liệu bằng các thuật toán khai thác dữ liệu theo các phương
pháp cụ thể để tìm ra các mẫu hoặc các mơ hình trong dữ liệu nhằm trợ giúp
nhanh cho người ra quyết định hoặc dự báo.
Phát hiện tri thức trong cơ sở dữ liệu (KKD-Knowleadge Discovery in
Database) [2], [5] được thực hiện qua tiến trình gồm các bước:
Nghiên cứu và đặt bài toán
Tạo và thu nhập dữ liệu đầu vào
Tiền xử lý dữ liệu: làm sạch, mã hóa
Trích chọn, chuyển đổi dữ liệu

Khai phá dữ liệu: tìm kiếm tri thức

Kiểm định, đánh giá

Sử dụng tri thức
Hình 1. 1: Tiến trình phát hiện tri thức
Số hóa bởi Trung tâm Học liệu – ĐHTN




2

Bước 1: Nhằm tìm hiểu lĩnh vực ứng dụng từ đó hình thành nên bài
tốn cần giải, xác định các nhiệm vụ cần phải hoàn thành. Tạo tiền đề cho
việc hình thành nên dữ liệu cần thu thập
Bước 2: Mục tiêu là tìm kiếm thu thập dữ liệu sẵn có hoặc tạo mới
theo yêu cầu của bài toán đã đặt ra nhằm có được nguồn dữ liệu thích hợp
với mục đích ứng dụng và bản chất của dữ liệu.
Bước 3: Là thu thập và xử lý thô, (tiền xử lý dữ liệu) nhằm loại bỏ
nhiễu, xử lý việc dữ liệu bị thiếu, bị thừa hoặc khơng có thơng tin.
Bước 4: Là q trình lựa chọn các thuộc tính cần thiết phù hợp cho
việc phân tích lấy từ CSDL để sử dụng xây dựng mơ hình, thuật tốn. Sau đó
dữ liệu được chuyển đổi hoặc hợp nhất thành một thể thích hợp phù hợp cho
việc khai phá. Bước này thường chiếm nhiều thời gian nhất.
Bước 5: Đây là bước quan trọng nhất nhằm rút ra các tri thức. Quá
trình này thực hiện bằng các thuật tốn để xây dựng mơ hình đủ độ tin cậy
theo yêu cầu, mục đích đã đặt ra.
Bước 6: Bước này nhằm đánh giá lại kết quả tìm kiếm tri thức dựa
trên một số tiêu chí, chỉ tiêu đánh giá.
Bước 7: Hiểu tri thức đã tìm được, làm sáng tỏ các mơ tả và dự đốn.
Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được

lấy trung bình trên tất cả các lần thực hiện.
Như vậy khai phá dữ liệu là một bước quan trọng nhất trong qui trình
phát hiện tri thức gồm có các thuật tốn khai thác dữ liệu chuyên dùng dưới
một số qui định về hiệu quả tính tốn chấp nhận được để tìm ra các mẫu hoặc
các mơ hình trong dữ liệu. Nói một cách khác, mục đích của phát hiện tri thức
và khai phá dữ liệu chính là tìm ra các mẫu và/hoặc các mơ hình đang tồn tại
trong các cơ sở dữ liệu.
Số hóa bởi Trung tâm Học liệu – ĐHTN




3

Để khai khá dữ liệu người ta cần sử dụng đến kỹ thuật, phương pháp
và công cụ trong khai phá dữ liệu.
1.1.2. Một số kỹ thuật khai phá dữ liệu
Theo nguyên lý chúng, khi sử dụng phương thức KPDL để giải quyết
một vấn đề cụ thể, cần phải hình dung ra loại vấn đề là gì. Có thể tổng kết
thành hai loại chính liên quan đến các đối tượng của KPDL:
+ Kỹ thuật khai phá dữ liệu mô tả: Nhằm mơ tả các tính chất hoặc các
đặc trưng của CSDL hiện có. Kỹ thuật này bao gồm các phương pháp như
Phân Cụm, phân tích luật kết hợp.
+ Kỹ thuật khai phá dữ liệu dự đoán: Nhằm đưa ra các dự đoán dựa
vào các suy diễn trên dữ liệu hiện thời. Kỹ thuật này bao gồm các phương
pháp như Phân lớp, phân nhóm, hồi quy.
1.1.3. Một số phương pháp khai phá dữ liệu
+ Phương pháp phân lớp (classification & prediction):
Là quá trình xây dựng một mơ hình mơ tả dữ liệu được phân chia như
thế nào, nói cách khác là quá trình xây dựng mơ hình mơ phỏng bằng cách

gán các đối tượng dữ liệu vào các lớp đã xác định. Mục tiêu của thuật tốn
phân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính
phân lớp. Như thế q trình phân lớp có thể sử dụng mối quan hệ này để dự
báo cho các mục mới.
Phân lớp dữ liệu dựa trên 4 thành phần cơ bản là: Lớp, dự đoán, tập dữ
liệu được huấn luyện, tập dữ liệu kiểm thử
Đặc trưng của tiến trình phân lớp gồm những điểm sau:
Đầu vào: Dữ liệu đào tạo chứa những đối tượng với thuộc tính của nó,
với một số thuộc tính đã được gán nhãn

Số hóa bởi Trung tâm Học liệu – ĐHTN




4

Đầu ra: Mơ hình được gán bởi những nhãn cụ thể cho mỗi đối tượng
dựa trên những thuộc tính khác.
Mơ hình sử dụng để dự đốn những lớp mới, những đối tượng chưa biết
thì tập dữ liệu kiểm thử cũng dùng để xác định độ chính xác của mơ hình.
Khi một mơ hình phân loại được xây dựng nó sẽ phải so sánh với những
mơ hình khác để lựa chọn mơ hình tốt nhất. Liên quan đến việc so sánh giữa các
mơ hình phân loại sẽ có một số thành phần cần được tính đến như: Khả năng dự
đốn, tốc độ, độ mạnh mẽ, độ mềm dẻo, tính diễn giải, độ đơn giản.
+ Phương pháp phân cụm (Clustering):
Là việc mô tả chung để chia một tập dữ liệu thành các cụm (nhóm),
loại mơ tả dữ liệu. Các nhóm có thể tách nhau hoặc phân cấp hay gối lên
nhau. Có nghĩa là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác
nhưng phải đảm bảo các đối tượng thuộc 1 cụm là tương tự nhau, đối tượng ở

cụm này sẽ ít tương tự với đối tượng ở cụm khác.
+ Phương pháp hồi quy (Regression) :
Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự
đốn có giá trị thực. Phân tích hồi quy sẽ xác định được định lượng quan hệ
giữa các biến và biến phụ thuộc vào giá trị của những biến khác.
Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau chính
là ở chỗ thuộc tính để dự báo là liên tục còn phân lớp dữ liệu là dự đốn các
giá trị rời rạc.
+ Phương pháp phân tích luật kết hợp(Association Rule)
Là tiến trình xác định những luật phụ thuộc giữa những nhóm khác
nhau, là việc phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong
cơ sở dữ liệu. Là công việc khám phá các luật kết hợp từ những mẫu thường
xuyên hoặc dựa trên ràng buộc.
Số hóa bởi Trung tâm Học liệu – ĐHTN




5

Mục đích của luật kết hợp là tìm ra sự kết hợp hay tương quan giữa
các items. Những luật kết hợp này có dạng XY.
+ Phương pháp mẫu tuần tự (Sequential Pattern mining)
Là việc xác định những mẫu mà sự xuất hiện của chúng trong CSDL
thỏa mãn ngưỡng tối thiểu. Luật tuần tự được sinh ra từ mẫu tuần tự, biểu
diễn mối quan hệ giữa hai loại sự kiện này sẽ xảy ra sau loạt sự kiện kia.
1.1.4. Một số công cụ hỗ trợ khai khá dữ liệu
+ Regretion trong Excel
+ R (www.r-project.org)
+ Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/)

+ Weka (www.cs.waikato.ac.nz/ml/weka)
+ YALE (rapid-i.com)
+ KNIME (www.knime.org)
+ Orange (www.ailab.si/orange)
1.2. Ứng dụng khai phá dữ liệu trong dự báo giao thông
1.2.1. Khái niệm dự báo
Dự báo là một mơn khoa học nghiên cứu và tiên đốn những sự việc
sẽ xảy ra trong tương lai trên cơ sở phân tích khoa học về các dữ liệu thu thập
được. Khi tiến hành dự báo cần căn cứ vào việc thu thập và xử lý số liệu trong
quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng trong
tương lai nhờ vào một số mô hình tốn học.
Căn cứ vào độ dài và thời gian dự báo người ta có thể phân thành 3
loại là dự báo ngắn hạn, trung hạn và dài hạn.

Số hóa bởi Trung tâm Học liệu – ĐHTN




6

+ Dự báo ngắn hạn: là những dự báo có thời gian dự báo < 3 năm,
thường dùng để lập các kế hoạch ở tầm vi mô, trong khoảng thời gian ngắn
phục vụ cho công tác chỉ đạo, điều hành kịp thời.
+ Dự báo trung hạn: là những dự báo có thời gian dự báo từ 3 đến 5
năm, thường dùng để lập kế hoạch trung hạn ở tầm vi mô và vĩ mô.
+ Dự báo dài hạn: là những dự báo có thời gian dự báo trên 5 năm,
phục vụ cho những dự báo cho những mục tiêu, chiến lược trong thời gian dài
ở tầm vĩ mơ.
Dự báo nói chung thường tuân theo 5 quy trình sau:

Xác định mục tiêu dự báo; Xác định loại dự báo; Lựa chọn mơ hình
dự báo; Thu thập số liệu, tiến hành dự báo; Ứng dụng kết quả dự báo; Theo
dõi kết quả dự báo.
Để tiến hành dự báo nói chung, hiện nay trên thế giới và tại Việt Nam
người ta chia thành 2 nhóm dự báo là dự báo định tính và dự báo định lượng
+ Dự báo định tính: Dự báo thuộc nhóm này là những dự đốn chủ
quan hoặc trực giác về tương lai bằng cách dựa vào suy đoán, cảm nhận.
+ Dự báo định lượng: Dựa vào các số liệu thống kê và thơng qua các
cơng thức tốn học được thiết lập để dự báo nhu cầu cho tương lai. Khi dự
báo nhu cầu tương lai, nếu không xét đến các nhân tố ảnh hưởng khác có thể
dùng các phương pháp dự báo theo dãy số thời gian. Nếu cần ảnh hưởng của
các nhân tố khác đến nhu cầu có thể dùng các mơ hình hồi quy tương quan.
Tuy nhiên trong thực tế trong một số trường hợp cụ thể người ta sẽ sử
dụng kết hợp cả hai phương pháp nói trên bằng phương pháp tổng hợp.
Bảng 1. 1: Một số phương pháp dự báo
Phương pháp dự báo định tính

Số hóa bởi Trung tâm Học liệu – ĐHTN

Phương pháp dự báo định lượng




7

 Tiên đoán (Genius forcasting)

 Hệ số đàn hồi


 Chuyên gia (Consensus methods)

 Nội suy xu hướng (Trens interpolation)

 Kịch bản (Scenario)

 Ngoại suy xu hướng (Trens extrapolation)
 Mô phỏng, mơ hình hóa (Stimulation)
 Cây quyết định (Decisison trees)
 Ma trận tác động qua lại (Cross-impact
matrix method)
 Tổng hợp (Combining methods).

Trong các phương pháp dự báo nói trên thì các phương pháp dự báo
như: Ngoại suy xu hướng, Mô phỏng, mơ hình hóa, Cây quyết định là kết quả
của việc ứng dụng kỹ thuật khai phá dữ liệu.
1.2.2. Ứng dụng khai phá dữ liệu trong dự báo giao thông
Trong dự báo giao thông, người ta thường sử dụng phương pháp dự
báo theo tốc độ tăng trưởng, hệ số đàn hồi. Phương pháp này dựa vào chuỗi
số liệu thống kê về số lượng phương tiện qua các năm hoặc chuỗi số liệu đếm
xe trên một số tuyến đường qua các năm để làm căn cứ dự báo cho tương lai.
Hiện nay có rất nhiều nghiên cứu cũng như ứng dụng khai phá dữ liệu
đối với dự báo giao thông trên hệ thống cơ sở dữ liệu giao thông thông minh
(ITS) bằng kỹ thuật khai phá dữ liệu như mạng Nơ ron (Neural Network),
logic mờ, sử dụng cây quyết định hoặc hồi quy phi tuyến.
Tuy nhiên phương pháp sử dụng được khai thức từ dữ liệu ITS mới
chỉ đáp ứng được một phần yêu cầu của các nhà quy hoạch, phương pháp này
khơng trả lời được một cách đầy đủ và chính xác đối với mục tiêu quy hoạch
giao thông là trong tương lai khi mở thêm một tuyến đường mới hay một
phương thức vận tải mới thì có đáp ứng đủ nhu cầu hay không. Do vậy người

ta đã tiến hành thêm phương pháp dự báo dựa trên số liệu phỏng vấn hộ gia

Số hóa bởi Trung tâm Học liệu – ĐHTN




8

đình về dữ liệu hành trình các chuyến đi hàng ngày của các thành viên trong
gia đình trên cơ sở mẫu điều tra và sử dụng một số công cụ khai phá dữ liệu
để tiến hành xây dựng mơ hình dự báo giao thông gọi là dự báo giao thông 4
bước để phục vụ cho mục tiêu quy hoạch.
1.2.3. Mô hình dự báo giao thơng phục vụ quy hoạch
Quy hoạch mạng lưới giao thông là quy hoạch mạng giao thông đường
bộ trên phạm vi một vùng lãnh thổ địa lý của một quốc gia, một thành phố
hoặc một vùng, đối với mạng lưới giao thông nhằm mục tiêu chuẩn bị các
phương tiện và cung cấp dịch vụ cho nhu cầu giao thông để đảm bảo nhu cầu
đi lại được nhanh chóng, tiện lợi và an tồn.
Trong khn khổ nghiên cứu của luận văn em đi vào nghiên cứu xây
dựng mô hình dự báo giao thơng phục vụ cho mục tiêu Quy hoạch mạng lưới
đường bộ trong thành phố Hà Nội.
1.2.4. Mơ hình dự báo giao thơng 4 bước:
Mơ hình dự báo giao thông 4 bước đã được nghiên cứu và thử nghiệm
ở các nước Châu âu từ đầu những năm 1990, đến nay mơ hình đã và đang
được nhiều nước tiên tiến trải qua nhiều thử nghiệm và ứng dụng thành cơng
với phương pháp xây dựng hồn chỉnh gọi là mơ hình 4 bước trong đó mỗi
bước được thực hiện dự báo bằng một mơ hình riêng, đầu ra của bước dự báo
trước sẽ là đầu vào của bước dự báo tiếp theo.
Cơ sở của việc áp dụng mơ hình là sự lựa chọn rời rạc các yếu tố về

hành vi thực hiện chuyến đi của các cá nhân trên cơ sở điều tra mẫu trong
vùng nghiên cứu với các thông tin về chuyến đi trong ngày như phương tiện
sử dụng, mục đích, thời gian, chi phí chuyến đi sẽ được kết hợp cùng các yếu
tố tự nhiên và xã hội như dân số, số lao động, số học sinh, sinh viên...

Số hóa bởi Trung tâm Học liệu – ĐHTN




9

Dưới đây em xin trình bầy các cơng thức để xây dựng mơ hình dự báo
4 bước trong giao thơng vận tải đang áp dụng trong các nghiên cứu, tính tốn
để dự báo lưu lượng giao thơng.
Bước 1: Mơ hình phát sinh, thu thút chuyến đi
Mơ hình này nhằm trả lời câu hỏi có bao nhiêu chuyến đi xuất phát từ
vùng i và có bao nhiêu chuyến đi sẽ đến vùng j.

Gi = a 1 x1 +a 2 x2 +a 3 x3 +...+a ix i+c
Trong đó:

Gi là tổng số chuyến đi bắt đầu từ vùng i
c,a1,a2,a3,ai: là các hệ số cần xác định
x1,x2,x3,xi: là các thuộc tính lựa chọn như dân số, số lao
động, số học sinh, sinh viên...của vùng i.

Aj = a 1 x1 +a 2 x2 +a 3 x 3 +...+a jx j+c
Trong đó:


(CT1)

(CT2)

Aj là tổng số chuyến đi từ các vùng khác đến vùng j
c,a1,a2,a3,ai: là các hệ số cần xác định
x1,x2,x3,xj: là các thuộc tính lựa chọn như dân số, số lao
động, số học sinh, sinh viên ... của vùng j.

Hình 1. 2: Phát sinh và thu hút chuyến đi

Bước 2: Mơ hình phân bổ chuyến đi
Mơ hình này nhằm xác định và trả lời cho câu hỏi có bao nhiêu chuyến
đi xuất phát từ vùng i để đi đến vùng j.

Tij 

Gi  A j

Số hóa bởi Trung tâm Học liệu – ĐHTN

(CT3)

Dij



10

Trong đó:


Tij là tổng số chuyến đi từ i đến j
Dij là trở kháng từ trung tâm vùng i đến trung tâm vùng j

(Trở kháng có thể là thời gian hoặc khoảng cách từ vùng i đến vùng j)

Hình 1. 3: Phân bổ chuyến đi

Bước 3: Mơ hình phân chia phương tiện sử dụng
Mơ hình này nhằm trả lời câu hỏi với tổng số chuyến đi từ vùng i đến
vùng j người ta sử dụng phương tiện nào: Xe đạp, xe máy, xe con, xe bus.

Pk 
Trong đó:

Pk
1  Pk

(CT4)

Pk là xác suất sử dụng phương tiện k
1 - Pk là xác suất không sử dụng phương tiện k.
Xe máy:20

Xe máy: 20
Xe con: 10
Xe đạp: 5

Hình 1. 4: Phân chia phương tiện
Số hóa bởi Trung tâm Học liệu – ĐHTN





11

Trong hình 1.3, tổng khối lượng của vùng i cần phát là 100 chuyến đi,
trong đó vùng j tiếp nhận 35 chuyến đi, vùng j +1 tiếp nhận 25 chuyến đi và
vùng j +2 tiếp nhận 40 chuyến đi.
Trong hình 1.4 khi phân chia phương tiện đảm nhận xác định cho vùng i
đến vùng j thì phương xe máy đảm nhận 20 chuyến, xe con 10 chuyến và xe
đạp 5 chuyến.
Bước 4: Phân bổ trên mạng lưới vận tải
Đây là quá trình nhằm xác định chuyến đi từ vùng i đến vùng j của
phương tiện k đi trên đường (cung) nào.
Bước này là bài toán cơ bản trong CNTT bằng thuật tốn tìm kiếm trên
đồ thị bằng kỹ thuật tìm kiếm đường đi có chi phí thấp nhất kết hợp với tri
thức bổ sung. Tri thức bổ sung ở đây là sau mỗi lần cung r đã có giá trị sử
dụng, thì chi phí trên cung sẽ tăng lên so với những cung chưa được sử dụng.
Mỗi cung trên đồ thị được mô phỏng tương ứng với một doạn đường
trong thực tế (xác định bởi 2 nút giao). Năng lực của một cung được tính tốn
trên cơ sở các thơng số đầu vào của mạng lưới đường bộ trong thực tế như:
chiều rộng, chiều dài, vận tốc theo đơn vị quy đổi gọi là PCU (Passenger Car - Unit)

Hình 1. 5: Mơ phỏng chi phí tăng lên khi khối lượng được phân bổ

Số hóa bởi Trung tâm Học liệu – ĐHTN





12

Nguyên tắc xác định chi phí của một cung phụ thuộc vào năng lực của
mỗi cung đã được sử dụng bao nhiêu, khi giá trị một cung (khối lượng) càng
tiến đến gần năng lực thì vận tốc giảm đi, dẫn đến chi phí tăng lên. Mối quan
hệ này được gọi là đường cong QV (Quantity- Velocity)

Hình 1. 6: Vận tốc giảm dần khi khối lượng tăng dần

Ví dụ trong hình 1.5 (bên trái), sau khi đã có khối lượng phân bổ chuyến
đi từ vùng số 1 đến vùng số 2 thì chi phí trên cung (1,2) tăng lên, khi phân bổ
khối lượng từ vùng số 1 đến vùng số 3 sẽ không lựa chọn cung (1,2) để đi mà
lựa chọn cung (1,5) và (5,3) với chi phí thấp hơn. Cứ như vậy, quá trình phân
bổ sẽ lựa chọn những cung có chi phí thấp nhất để phân bổ khối lượng từ
vùng 1 đến vùng 10. Hình 1.5 (bên trái) mơ phỏng chi phí trong lần phân bổ
của vùng 1 cho tất cả các vùng khác, và bên phải mô phỏng chi phí trong lần
phân bổ của vùng số 2 đến các vùng khác.
Trong khuôn khổ nghiên cứu của luận văn này em sử dụng số liệu từ ma
trận đi lại của Hà nội năm 2014, ma trận này đã được nhân mẫu từ số liệu
điều tra của 18.000 hộ gia đình cũng như các bước xử lý khác
Kết quả nghiên cứu của luận văn đi sâu vào việc ứng dụng một số kỹ
thuật khai phá dữ liệu trong quá trình xây dựng mơ hình dự báo giao thơng từ
bước 1 đến bước 3 bằng việc sử dụng một số kỹ thuật khai phá dữ liệu để tìm
một số luật suy diễn, lựa chọn các thuộc tính bên ngồi và thuộc tính sẵn có
trong dữ liệu kết hợp với kỹ thuật sử dụng biến giả nhằm xây dựng mơ hình

Số hóa bởi Trung tâm Học liệu – ĐHTN





13

đạt được kết quả tốt nhất bằng ngôn ngữ R kết hợp với Excel trong quá trình
tổng hợp các bảng kết quả và các hình vẽ minh họa.
Mơ hình 4 bước được khái quát theo sơ đồ sau:
Yếu tố KTXH

Phát sinh/Thu hút
chuyến đi
Phân bổ chuyến đi

Trở kháng cự ly

Phân chia phương tiện

Mạng lưới
giao thơng

Phân bổ vận tải

Hình 1. 7: Mơ hình dự báo 4 bước

Hiện nay có nhiều đơn vị như Trường Đại học và Viện Nghiên cứu
ngoài việc ứng dụng họ đã xây dựng một số các Modul phần mềm để mô
phỏng, dự báo giao thông nhằm hỗ trợ cho cơng việc tính tốn như:
+ Cube là phần mềm mô phỏng và dự báo giao thông do Công ty
Citilabs của Hoa Kỳ nghiên cứu, phát triển và đang được sử dụng phổ biến tại
các nước Châu Âu, Châu Mỹ, Châu Úc, Châu Á, trong đó có Việt Nam.

+ Visum, Visim là phần mềm mô phỏng, dự báo giao thông vĩ mô và
vi mô do công ty PTV của CHLB Đức nghiên cứu,phát triển và cũng đang
được sử dụng phổ biến tại các nước Châu Âu, Châu Á, trong đó có Việt Nam.
+ Strada là phần mềm mơ phỏng, dự báo giông thông do Công ty Jica
của Nhật Bản nghiên cứu, phát triển, hiện được sử dụng nhiều tại các nước
Châu Á, trong đó có Việt Nam.

Số hóa bởi Trung tâm Học liệu – ĐHTN




14

Đối với Việt Nam, việc triển khai áp dụng theo mơ hình dự báo này
đã và đang được các tổ chức, đơn vị tư vấn nước ngoài và trong nước nghiên
cứu áp dụng đối với dự báo giao thông phục vụ mục tiêu quy hoạch giao
thơng mang tính chất trên phạm vi lớn của toàn quốc gia hay một vùng hoặc
một tuyến đường cụ thể.
Việc sử dụng phần mềm đã được xây dựng sẵn hiện nay chủ yếu được
các chuyên gia nước ngồi sử dụng và phân tích trong q trình nghiên cứu
một dự án cụ thể. Tại Việt nam cũng đã có một số chương trình hợp tác đào
tạo, chuyển giao để ứng dụng, tuy nhiên việc khó khăn đối với người sử dụng
là hồn tồn khơng chủ động được được trong việc lựa chọn các thông tin khi
xây dựng mơ hình, một phần do chưa hiểu được bản chất các thuộc tính và
quy luật của dữ liệu nên khi sử dụng các phần mềm có sẵn thường gặp khó
khăn trong việc xử lý thuộc tính dữ liệu đầu vào để cho ra một kết quả hợp lý
và tốt nhất.
Trong quá trình tìm hiểu trước khi làm luận văn với đề tài này, em đã
tham khảo một số bài viết về mơ hình tính tốn dự báo trong giao thông vận

tải và nhận thấy rằng, đây thực chất là quá trình tìm kiếm và khai phá dữ liệu
để tìm ra những quy luật chung nhất về số lượng chuyến đi và lựa chọn loại
phương tiện để thực hiện chuyến đi của một nhóm đối tượng được gom nhóm
theo vùng địa lý và vùng nghiên cứu.
Việc sử dụng kết quả từ mơ hình này sẽ được sử dụng để nhà quản lý
quyết định các chính sách để giảm ùn tắc giao thơng, điều chính giá cước, phí
lưu thơng như trong báo cáo năm 2015 của Tiến sĩ Vũ Anh Tuấn [6], tài liệu
giới thiệu về phương pháp tính trên cơ sở mơ hình dự báo 4 bước trong giao
thơng và đưa ra khả năng lựa chọn phương tiện trong tương lai nhằm mục
đích đánh giá tác động chính sách quản lý.
Số hóa bởi Trung tâm Học liệu – ĐHTN




×