Tải bản đầy đủ (.pdf) (3 trang)

Xử lý dữ liệu thiếu trong các chuyến bay chặng Hà Nội - TPHCM của Vietnam Airlines

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (160.01 KB, 3 trang )

Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3

XỬ LÝ DỮ LIỆU THIẾU TRONG CÁC CHUYẾN BAY
CHẶNG HÀ NỘI - TPHCM CỦA VIETNAM AIRLINES

2

Tạ Anh Tuấn1 , Nguyễn Thanh Tùng2
1
Lớp Cao học 24CNTT - Trường Đại học Thủy lợi, e-mail:
Khoa Công nghệ thông tin - Trường Đại học Thủy lợi, e-mail:

trong nhiều nhiệm vụ quản lý. Vì vậy, nâng
cao chất lượng dữ liệu để có một bảng dữ
Hãng hàng không Quốc gia Việt Nam (tên liệu FIMS sạch và đầy đủ là cơ sở của nhiều
giao dịch tiếng Anh là Vietnam Airlines, viết
quyết định về các chuyến bay. Trong bài báo
tắt là VNA). VNA là hãng hàng không quốc
ngắn này, chúng tôi sử dụng một số phương
gia của nước Cộng hòa xã hội chủ nghĩa Việt
pháp học máy thống kê để điền dữ liệu thiếu
Nam, là thành phần nịng cốt của Tổng cơng cho chặng bay Hà Nội - TPHCM.
ty Hàng không Việt Nam. VNA có các
đường bay đến khu vực Đơng Nam Á, Đơng 2. PHƯƠNG PHÁP VÀ KẾT QUẢ
Á, châu Âu và châu Đại Dương, hiện đang
NGHIÊN CỨU
khai thác nhiều đường bay thường lệ tới
nhiều điểm nội địa và nhiều điểm đến quốc tế
Vấn đề đặt ra ở đây là điền giá trị thiếu của
với trên 400 chuyến bay mỗi ngày (khoảng một biến số trong một bảng có rất nhiều biến
14000 chuyến bay mỗi năm) với gần 100 số khác. Nguyên lý chung của giải pháp này


máy bay các loại Boeing và Airbus.
là lời giải sẽ dựa vào việc xác định quy luật
FIMS của VNA chứa cơ sở dữ liệu của biến số ta quan tâm (như xác định phân
(CSDL) tổng hợp các thông tin liên quan bố xác suất) trong mối liên quan của biến số
đến các hoạt động bay của VNA và do vậy này với ngữ cảnh (các biến số khác). Ý tưởng
là một CSDL cơ bản và thiết yếu của VNA. cơ bản của chúng tôi về giải pháp như sau.
Đại thể, mỗi chuyến bay của VNA được mơ
Về bản chất đây là bài tốn dự đốn giá trị
tả trên một dòng của CSDL FIMS với của một biến liên tục. Ý tưởng cơ bản là khai
khoảng 300 biến số (thuộc tính), mơ tả thơng thác tối đa sự tương tự của các chuyến bay
tin về máy bay, chuyến bay, tổ lái, sân bay, đối với chuyến bay có giá trị thiếu và tính giá
thời tiết, cất cánh, hạ cánh, lượng nhiên liệu
theo yêu cầu của phi công (FUEL_ORDER), trị dự đốn dựa vào các kỹ thuật thích hợp.
- Phân chia các chuyến bay thành các
lượng nhiên liệu do hệ thống dề xuất
nhóm theo các thuộc tính: kiểu máy bay,
(FUEL_BLOCK), v.v.
Một trong các vấn đề của FIMS là làm thế tuyến bay (các điểm đi điểm đến cụ thể theo
nào để điền dữ liệu thiếu cho các chặng bay. các tuyến trong và ngoài nước), thời tiết, v.v.
Đây cũng là bài toán quan trọng được VNA (gọi tắt là nhóm bay). Việc dự đốn giá trị
đề cập đến. Do nhiều nguyên nhân, từ máy thiếu của một chuyến bay về cơ bản dựa theo
móc đến con người, dữ liệu của FIMS được nhóm bay của chuyến bay đó. Các kỹ thuật
biết chưa hồn tồn chính xác, có nhiễu và dự đoán sau được áp dụng, và kết quả cuối có
cịn nhiều ơ của CSDL chưa có dữ liệu thêm tổ hợp của các dự đoán.
(missing values). Việc điền dữ liệu thiếu là
- Dự đoán 1: Theo giá trị trung bình của
thiết yếu để có thơng tin FIMS đáng tin cậy biến số trong nhóm bay.
1. GIỚI THIỆU CHUNG

190



Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3

- Dự đoán 2: Theo giá trị xuất hiện nhiều
nhất của biến số trong nhóm bay.
- Dự đốn 3: Theo kết quả của phương
pháp random forest regression.
- Dự đoán 4: Theo quan hệ của biến đang
xét với các biến liên quan (nếu tồn tại các
quan hệ này).
Trong khuôn khổ của bài báo ngắn này,
chúng tơi sử dụng gói MICE [3] kết hợp với
randomForest trên môi trường R [1, 2]. Dữ
liệu thực nghiệm gồm 59 bản ghi với 15 biến
ghi lại các quan sát chặng bay Hà Nội TPHCM năm 2016 của tàu bay VNA390
(VNA392_HANSGN_2016).
Trong Hình 1, nửa trái thể hiện tần xuất
của toàn bộ dữ liệu trống trong tập dữ liệu
huấn luyện, nửa bên phải hiển thị vị trí các
giá trị trống của các biến. Hình 2 hiển trị
trực quan vị trí các bản ghi của các biến
chứa giá trị trống (các dịng màu đỏ). Ta có
thể hình dung được tỷ lệ và vị trí dữ liệu
trống trong bảng dữ liệu của chặng bay năm
2016 của tàu VNA392.

Trong Hình 3 và Hình 4, ta thấy tỷ lệ diễn
giải của mơ hình hồi quy RF trên tập dữ liệu
VNA392_HANSGN_2016 dùng phương

pháp 2 điền missing value có kết quả tốt hơn
(95.81%, MSE=48570.17 lít dầu) so với
phương pháp 1 dùng mean (90.76,
MSE=106361.9 lít dầu).

Hình 3. Lỗi training của thuật tốn RF
trên tập VNA392_HANSGN_2016
khi điền giá trị trống (Na) bằng mean
Type of random forest: regression
Number of trees: 1000
No. of variables tried at each split: 2
Mean of squared residuals: 106361.9
% Var explained: 90.76

Hình 1. Tỷ lệ các số liệu trống
trong dữ liệu chặng bay Hà Nội - TPHCM

Hình 4. Lỗi training của thuật tốn RF
trên tập VNA392_HANSGN_2016 khi
điền giá trị trống (Na) sử dụng RF và MICE
Hình 2. Tỷ lệ các số liệu trống
của các thuộc tính

Mean of squared residuals: 48570.17
% Var explained: 95.81

191


Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3


3. KẾT LUẬN

4. TÀI LIỆU THAM KHẢO

Trong bài báo ngắn này, chúng tơi đã trình [1] L. Breiman, “Random forests ,” Machine
learning, vol. 45, no. 1, pp. 5–32, 2001.
bày bài toán điền số liệu trống vào CSDL
[2]
A. Liaw and M. Wiener. randomForest 4.6FIMS của VNA. Chúng tôi thử nghiệm cách
7. R package, 2012.
điền thông thường bằng giá trị trung bình,
cách kết hợp MICE và RF. Kết quả thực [3] Buuren, S. van, and Karin GroothuisOudshoorn. "mice: Multivariate imputation
nghiệm cho thấy các phương pháp tiên tiến
by chained equations in R." Journal of
như RF cho kết quả tốt hơn góp phần nâng
statistical software (2010): 1-68.
cao chất lượng CSDL, phục vụ công tác
thống kê, dự báo của VNA tốt hơn.

192



×