Tải bản đầy đủ (.pdf) (48 trang)

đề tài dự đoán khả năng hủy chuyến bay của các hãng hàng không ở hoa kỳ bằng công cụ azure machine learning

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.45 MB, 48 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<small>1 </small>

<b> </b>TỔNG LIÊN ĐOÀN LAO ĐỘNG VIỆT NAM

<b> </b>TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

<b>KHOA QUẢN TRỊ KINH DOANH </b>

<b>BÁO CÁO CUỐI KỲ 50% </b>

<b>MÔN HỌC: ỨNG DỤNG PHÂN TÍCH DỮ LIỆU LỚN TRONG QUẢN LÝ </b>

<b>ĐỀ TÀI: DỰ ĐOÁN KHẢ NĂNG HỦY CHUYẾN BAY CỦA CÁC HÃNG HÀNG KHÔNG Ở HOA KỲ BẰNG CÔNG CỤ AZURE MACHINE LEARNING </b>

<b>Giảng viên hướng dẫn: Ths. PHẠM NGỌC BẢO DUY Nhóm sinh viên thực hiện: </b>

<b>1. NGUYỄN THỊ THIỆT 71505338 </b>

<b>2. MẠCH KHẢ TÚ 71506266 </b>

<b>3. HỨA CHÍ HÙNG 71505164 </b>

<b>4. VŨ MINH TẤN LỘC 71705364 5. NGUYỄN TRUNG QUỐC HÙNG 71705051 </b>

<b>TP HCM, THÁNG 09 NĂM 2021 </b>

<b>BẢNG ĐÁNH GIÁ MỨC ĐỘ </b>ĐÓNG GÓP TỪ<b>NG THÀNH VIÊN </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<small>2 </small>STT Họ và tên Mã s sinh viên ố Công vi c thệ ực hiện Mức độ đóng

góp 1 Nguyễn Thị Thi t ệ 71505338 Nội dung Chương 1,2,3

Nghiên cứu và tham gia chạy mơ hình.

100%

Nghiên c u và tham gia ứchạy mơ hình.

100%

3 Mạch Kh Tú ả 71506266 Tổng h p, ch nh s a báo ợ ỉ ửcáo

Nghiên c u và tham gia ứchạy mơ hình.

100%

4 Nguyễn Trung Qu c ốHùng

71705051 Nội dung Chương 5 Nghiên c u và tham gia ứchạy mơ hình.

100%

5 Vũ Minh Tấn Lộc 71705364 Đóng gói sản phẩm Azure

Nghiên cứu và tham gia chạy mơ hình.

100%

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>MỤC LỤC </b>

BẢNG ĐÁNH GIÁ MỨC ĐỘ ĐÓNG GÓP TỪNG THÀNH VIÊN 2

2.2.2. Các dịch v甃⌀ của Azure mang đ Ān. 7 2.2.3. Lợi ích của Azure Machine Learning. 8 2.2.4. Các thuật toán trong Azure Machine Learning 9 2.3. Cơ sở lí thuy Āt Key Paper 10 - Tên bài báo: A Classification Prediction Analysis of Flight Cancellation Based on Spark 10

2.4. Mơ hình đề xuất lựa chọn 11

2.4.2. Logistic Regression 11

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU 13

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>DANH M C B NG BI U, HÌNH V </b>ỤẢỂẼ

1.Biểu đồ:

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>LỜI CAM ĐOAN </b>

Tôi xin cam đoan số liệu và k Āt quả nghiên cứu trong báo cáo đề tài “Dự đoán khả năng hủy chuy Ān bay của các hãng hàng không ở Hoa Kỳ bằng công c甃⌀ Azure Machine Learning” là trung thực và khơng có bất kỳ sự sao chép hay sử d甃⌀ng để bảo vệ một học vị nào. Tất cả những sự giúp đỡ cho việc xây dựng cơ sở lý luận cho bài nghiên cứu đều được trích dẫn đầy đủ và ghi rõ nguồn gốc rõ ràng và được phép công bố.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>LỜI GI I THI</b>Ớ <b>ỆU </b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI 1.1. Lý do ch</b>ọn đề<b> tài. </b>

<b>1.1.1. B ối c nh nghiên c u </b>ả ứ

- Năm 2020, đại dịch Covid-19 đã khi Ān mức tăng trưởng của nhiều nền kinh t Ā trên toàn cầu bị suy giảm mạnh chưa từng thấy trong nhiều thập kỷ qua. Dù các nền kinh t Ā đã có sự ph甃⌀c hồi mạnh mẽ trong quý III/2020, tuy nhiên con đường

-phối tại nhiều quốc gia, nhưng số ca mắc mới vẫn gia tăng vào dịp cuối năm, đặc biệt khi xuất hiện bi Ān thể của Covid 19. Hầu h Āt các tổ chức quốc t Ā đều có -chung nhận định, kinh t Ā tồn cầu khó có thể ph甃⌀c hồi trong ngắn hạn mà sẽ phải mất nhiều năm.

- Theo số liệu của một số viện nghiên cứu kinh t Ā trên th Ā giới, mức độ tăng trưởng

-trung bình của kinh t Ā th Ā giới trong các năm trước và kinh t Ā th Ā giới cần thời

khi dịch bệnh bùng phát và lây lan. Những nền kinh t Ā lâu nay chưa giải quy Āt được các vấn đề và bất cập mang tính cơ cấu cũng như ph甃⌀ thuộc nhiều nhất vào ngành dịch v甃⌀ thì đều bị ảnh hưởng tiêu cực nặng nề nhất.

- Các doanh nghiệp hàng không trên khắp th Ā giới bị ảnh hưởng nặng nề bởi 19 vì hầu h Āt các chuy Ān du lịch hàng không t Ā quốc đã ngừng hoạt động. Tuy nhiên, một khi cơn bão k Āt thúc, nhu cầu đi lại bằng đường hàng không dự ki Ān sẽ tăng cao khi mọi người đổ xô trở lại các kỳ nghỉ ở nước ngồi. Các hãng hàng khơng có thể chuẩn bị những gì để tạo cho mình một lợi th Ā cạnh tranh khi đám đông cuối cùng đã đ Ān? Để giải đáp vấn đề kinh doanh này, một mơ hình phân loại được tạo ra từ dữ liệu từ Kaggle để xác định các y Āu tố quan trọng dẫn đ Ān việc hủy chuy Ān bay của các hãng hàng khơng để có k Ā hoạch cho sự ph甃⌀c hồi kinh t Ā toàn cầu nói chung và ngành hàng khơng nói riêng.

<b>Covid-1.1.2. Lý do ch</b>ọn đề<b> tài </b>

Dự đoán rằng hiện nay hiện tượng hoãn, hủy chuy Ān bay ngày càng trở nên nghiêm trọng. Chuy Ān bay bị hỗn và việc hủy chuy Ān khơng chỉ gây lãng phí nguồn lực vận tải mà cịn ảnh hưởng đ Ān k Ā hoạch đi lại của hành khách, làm tăng sự bất mãn của hành khách và tỷ lệ phàn nàn. Việc hành khách khơng hài lịng và không tin tưởng vào các hãng hàng không gây thiệt hại nghiêm trọng cho danh ti Āng công ty của các hãng hàng khơng và sau đó ảnh hưởng đ Ān lịng trung thành của hành khách. Do đó, dựa trên thông tin của bộ dữ liệu chuy Ān bay ở Hoa Kỳ

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

vào năm 2016, nhóm đã chọn đề tài “Dự đốn khả năng hủy chuyến bay của

<b>các hãng hàng không ở Hoa Kỳ bằng công cụ Azure Machine Learning”. 1.2. M甃⌀c tiêu nghiên c</b>ứu và ý nghĩa nghiên cứ<b>u. </b>

- Nghiên cứu này nhằm chỉ ra các y Āu tố chính dẫn đ Ān khả năng hủy chuy Ān bay của các hãng hàng không ở Hoa Kỳ. Dựa vào thông tin, tính chất của bi Ān, xác định mức độ liên quan của chúng đ Ān hủy chuy Ān bay của hãng hàng không. Đồng thời, thông qua việc khai thác dữ liệu, chạy bộ dữ liệu của hàng không Hoa Kỳ, nhóm dự đốn một chuy Ān bay có khả năng bị hủy hay không trước khi thông tin đ Ān khách hàng.

- So sánh và lựa chọn phương pháp dự đốn bằng cơng c甃⌀ Azure Machine Learning tối ưu nhất để sử d甃⌀ng dự báo.

- Đưa ra k Āt luận và hàm ý quản trị nhằm giúp nhà hoạch định đưa ra các giải pháp tối ưu hóa cho các chuy Ān bay.

<b>1.3. Câu h i nghiên c u </b> ứ

- Các y Āu tố nào ảnh hưởng đ Ān hủy chuy Ān bay của các hãng hàng không? - Mức độ tác động của các y Āu tố gây hủy chuy Ān bay của các hãng hàng không? - Mơ hình, phương pháp dự đốn nào phù hợp xác định các y Āu tố ảnh hưởng khả

năng hủy chuy Ān bay của các hãng hàng không?

<b>1.4. Đối tưng và ph愃⌀m vi nghiên cứu </b>

- Đối tượng nghiên cứu: Các hãng hàng không ở Hoa Kỳ và các y Āu tố ảnh hưởng đ Ān hủy chuy Ān bay của các hãng hàng không.

- Phạm vi nghiên cứu: Bộ dữ liệu các chuy Ān bay ở Hoa Kỳ năm 2016 gồm 1.048.576 mẩu dữ liệu.

<b>1.5. ngh a nghiên c u. </b>Ý ĩ ứ

- Ý nghĩa khoa học: Bằng nghiên cứu của bản thân và nghiên cứu mang tính chất khoa học, nhóm mong muốn chứng minh được y Āu tố có ảnh hưởng đ Ān việc hủy chuy Ān bay của hãng hàng không.

- Ý nghĩa thực tiễn: Dự đoán được việc hủy chuy Ān bay của các hãng hàng khơng có thể giúp các nhà hoạch định nắm được lịch trình, đánh giá khả năng đáp ứng, tần suất bay của các hãng hàng không giúp phản ứng kịp thời trước những tình huống bất ngờ. Bên cạnh đó đưa ra các giải pháp và hoạch định chi Ān lược giúp giảm thiểu y Āu tố tác động gây ảnh hưởng chuy Ān bay.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

● Chương 5: K Āt luận và hàm ý quản trị

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<b>CHƯƠNG 2: CƠ SỞ LÝ THUYẾT VÀ MƠ HÌNH NGHIÊN CỨU 2.1. Azure Machine Learning </b>

2.1.1. Định nghĩa

- Azure là một nền tảng điện tốn đám mây và một cổng thơng tin trực tuy Ān, cho phép bạn truy cập và quản lý các dịch v甃⌀, cũng như tài nguyên đám mây do Microsoft cung cấp. Các dịch v甃⌀ và tài nguyên này bao gồm lưu trữ và chuyển đổi dữ liệu, tùy thuộc vào yêu cầu. Để có quyền truy cập vào các tài nguyên và dịch v甃⌀ này, tất cả những gì bạn cần là k Āt nối Internet đang hoạt động và khả năng k Āt nối với Azure Portal.

- Azure Machine Learning Studio là một dịch v甃⌀ tiên đoán dựa trên ứng d甃⌀ng web qua Internet mà qua đó cung cấp một trải nghiệm tinh gọn cho các nhà khoa học dữ liệu từ tất cả các cấp độ kỹ năng. Nó có tính năng dễ sử d甃⌀ng, kéo và thả giao diện để xây dựng các mơ hình Machine Learning.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>2.2.2. Các d ch v</b>ị <b>甃⌀ ủa Azure mang đ Ān. c</b>

- Computer services: Cung cấp sức mạnh xử lý cần thi Āt để dịch v甃⌀ đám mây có thể chạy.

- Virtual machine: cho phép bạn tạo, triển khai và quản lý VM trên môi trường đám mây Azure.

- Web sites: cung cấp khả năng quản lý website cho bạn. bạn có thẻ tạo mới hoặc di chuyển 1 website có sẵn lên cloud.

- Cloud services: cho phép bạn xây dựng và triển khai các ứng d甃⌀ng đảm bảo tính HA và có khả năng mở rộng với hầu h Āt các ngơn ngữ lập trình.

- Mobile service: cung cấp giải pháp chìa khóa trao tay cho phép bạn xây dựng, triển khai và lưu trữ dữ liệu cho thi Āt bị di động.

- Network services: Cung cấp các tùy chọn khác nhau để Azure cung cấp giải pháp đ Ān người sử d甃⌀ng và datacenter.

- Virtual network: cho phép bạn xử lý các đám mây công cộng như phần mở rộng là của datacenter tại chỗ.

- Traffic manager: cho phép bạn định tuy Ān lưu lượng người dùng theo 3 cách: hiệu suất tốt nhất, theo round Robin or cấu hình failover.

- Data services: Cung cấp những cách khác nhau để bạn lưu trữ, quản lý, bảo vệ, phân tích và báo cáo dữ liệu kinh doanh.

- Data management: cho phép bạn lưu trữ dữ liệu kinh doanh trong SQL database or với các VM SQL Server sử d甃⌀ng Azure SQL Database.

- Business Analytics: cho phép dễ dàng phát hiện và làm giàu dữ liệu bằng cách sử d甃⌀ng Microsoft SQL Server Reporting và Analysis Services hoặc Microsoft

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Hình 4.3: Số liệu k Āt quả dự đốn của mơ hình TWO - CLASS BOOSTED DECISION TREE

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

Hình 4.4: Số liệu k Āt quả dự đốn của mơ hình TWO - CLASS LOGISTIC REGRESSION

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

Hình 4.5: Số liệu k Āt quả dự đốn của mơ hình TWO – CLASS SUPPORT VECTOR MACHINE (SVM)

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Hình 4.6: Số liệu k Āt quả dự đốn của mơ hình TWO – CLASS BAYES POINT MACHINE

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

- Dưới đây là bảng so sánh k Āt quả chỉ số AUC giữa các thuật toán: Decision Tree Logistic

Regression

Support Vector Machine

Naive Bayes

K Āt quả cho thấy thuật tốn Decision Tree có hiệu quả tốt nhất, có giá trị AUC là 0.901. Tương tự, nhóm quy Āt định Decision Tree là thuật toán phù hợp nhất để dự đoán hủy các chuy Ān trong số 4 thuật tốn. Do đó, cần dự đốn chính xác để mọi chuy Ān bay bị hủy b tránh sự bất tiện cho việc đi lại của khách hàng và lợi nhuận của các hang bay bị thiệt hại nghiêm trọng. Để tránh một loạt các sự cố, thì hủy chuy Ān bay sớm là sự lựa chọn tốt nhất.

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

<b>4.2. Test </b>

<b>4.2.1. API - Web Service Set Up </b>

Sau khi hoàn tất chạy tất cả 4 mơ hình dự đốn hủy của các chuy Ān bay, nhóm chọn SELECT COLUMN IN DATASET b đi bi Ān CANCELLED để máy dự báo.

Hình 4.7: Giao diện loại b bi Ān CANCELLED để dự báo

Ti Āp đó, nhóm chọn chức năng PREDICTIVE WEB SERVICE để tạo API, lưu mô hình lên Cloud để sử d甃⌀ng cho những lần sau. Mơ hình sẽ được x Āp gọn lại và lưu trữ lên Cloud.

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

Hình 4.8: Giao diện sau khi đã tải lên Web service

</div><span class="text_page_counter">Trang 42</span><div class="page_container" data-page="42">

Sau đó nhóm ấn vào Test Preview để thử nghiệm máy

Hình 4.10a: Giao diện Test Endpoint (Scored Labels: 0)

</div><span class="text_page_counter">Trang 43</span><div class="page_container" data-page="43">

Hình 4.10b: Giao diện Test Endpoint (Scored Labels: 1)

K Āt quả dự đốn cho thấy chuy Ān bay khơng Hủy là Scored Labels: 0 còn Hủy là Scored Labels: 1

</div><span class="text_page_counter">Trang 44</span><div class="page_container" data-page="44">

<b>4.2.3 S d</b>ử 甃⌀<b>ng các d li u th</b>ữ ệ <b>ực để test độ chính xác </b>

<small>MONTH </small>

<small>DAY_OF_MONTH </small>

<small>DAY_OF_WEEK </small>

<small>ORIGIN DEST CRS_DEP_TIME </small>

<small>DISTANCE </small>

<small>Carrier_Mean_Distance </small>

<small>Origin_Taxiout </small>

<small>Origin_Delay </small>

<small>K Āt Quả </small>

</div><span class="text_page_counter">Trang 45</span><div class="page_container" data-page="45">

gập ghềnh, với ti Ān trình ph甃⌀c hồi ph甃⌀ thuộc vào tốc độ triển khai vaccine, khả năng ti Āp cận vốn, chính sách và sự khó lường của loại virus,… mà người ta chưa hiểu rõ.

N Āu trong quá khứ, đi máy bay được xem như một việc trọng đại, mang lại giá trị lớn lao cho hành khách (như du lịch, tham quan hoặc đi cơng tác) thì thời điểm hiện tại, đi máy bay lại thường đi kèm với những vấn đề tiêu cực. Đó là sự trì hỗn bay, vấn đề về an ninh và sự xuống cấp của các dịch v甃⌀ hàng khơng. Sự trì hoãn bay gây ra nhiều hệ quả nghiêm trọng. Về phía khách hàng, một mặt, việc hỗn, hủy chuy Ān bay làm lãng phí thời gian quý báu của hành khách dẫn đ Ān giảm sự hài lòng. Bamford và Xystouri (2005) cho rằng, trì hỗn bay là một trong ba vấn đề thường xuyên bị khi Āu nại của hành khách. Kim và Park (2016) cho rằng điều này sẽ gây nên cảm xúc tiêu cực, tăng cường truyền miệng tiêu cực và giảm ý định mua. Mặt khác, nó cũng có ảnh hưởng lớn và lãng phí đ Ān việc phân bổ các nguồn lực. Các hãng hàng không, để gia tăng sức mạnh cạnh tranh của họ, n Āu khơng phải có giá rẻ nhất, thì cần cung cấp dịch v甃⌀ đảm bảo và phù hợp để thu hút khách hàng m甃⌀c tiêu.

Nhận thấy điều n y nhà óm đưa ra ý tưởng và sử d甃⌀ng phân loại máy tính để dự đốn. Cho dù các chuy Ān bay bị hủy hoặc bị hoãn, chúng ta có thể ti Āt kiệm nguồn lực và giảm bớt sự lo lắng của hành khách. Vì th Ā, việc sự đoán được đánh giá sẽ giúp cho ngành kinh doanh n y tr nên thu n l i v h p dà ở ậ ợ à ấ ẫn hơn. Để ự đoán đượ d c khả năng hủy chuy n bay Āhay không, b i nghiên c u tham kh o v d li u c c chuy n bay c a Hoa K v à ứ ả ề ữ ệ á Ā ủ ì ì đây là một trong những thị trường hàng không dân d甃⌀ng lớn nhất trên th Ā giới, trị giá đ Ān 179 tỷ đô la Mỹ (Euromonitor, 2018) và sử d甃⌀ng các mơ hình máy học: Logistic Regression, Support Vector Machine, Bayes Point Machine v Boosted Decision Tree. Sau khi th c à ựhiện d ự đoán s ẽ đưa ra so sánh giữa b n mơ hố ình để xem x t mô h nh n o s d é ì à ẽ ự đốn khả năng hủy chuy Ān bay tốt hơn để đem lại hiệu suất cho việc kinh doanh hàng không.

Logistic Regression là phương pháp hồi quy thông d甃⌀ng nh t, p dấ á 甃⌀ng cho các bi Ān m甃⌀c tiêu không ph i l biả à Ān định lượng liên t甃⌀c. Đượ ức ng d甃⌀ng r ng r i trong nhi u ng nh ộ ã ề àvà l nh v c kh c nhau, mĩ ự á ột số v dí 甃⌀ như: Dự báo khả năng trả nợ của khách hàng, khả năng rời dịch v甃⌀ của khách hàng,… Nhưng đối với dữ liệu phi tuy Ān tính, các dữ liệu phức tạp thì sẽ khó khăn trong việc thi Āt k Ā và cần phải xử lí trước dữ liệu một cách cẩn

</div><span class="text_page_counter">Trang 46</span><div class="page_container" data-page="46">

thận, xuyên suốt trước khi đào tạo mơ hình để ngăn chặn những dữ liệu gây nhiễu khi Ān quá trình đào tạo và thực nghiệm bị gián đoạn.

Support Vector Machine là một kĩ thuật phân lớp khá phổ bi Ān, SVM thể hiện được nhiều ưu điểm trong số đó có việc tính tốn hiệu quả trên các tập dữ liệu lớn. Ngồi ra cịn có khả năng xử lý khơng gian số chiều cao, tính linh hoạt giữa các phương pháp tuy Ān tính và phi tuy n t nh tĀ í ừ đó khi n cho hi u su t phân lo i lĀ ệ ấ ạ ớn hơn. Nhưng chưa thể ệ hi n rõ tính x c suá ất. Việc phân lớp của SVM chỉ là việc cố gắng tách các đối tượng vào hai lớp được phân tách bởi siêu phẳng SVM. Điều này chưa giải thích được xác suất xuất hiện của một thành viên trong một nhóm là như th Ā nào.

Bayes Point Machine là một thuật tốn học có giám sát, dựa trên định lý Bayes và được sử d甃⌀ng để giải các bài toán phân loại. Nó chủ y Āu được sử d甃⌀ng trong phân loại văn bản bao gồm một tập dữ liệu đào tạo chiều cao. Nó là một bộ phân loại theo xác suất, có nghĩa là nó dự đốn trên cơ sở xác suất của một đối tượng . Một số ví d甃⌀ phổ bi Ān của Thuật tốn Bayes là lọc thư rác, phân tích tình cảm và phân loại các bài báo. Nó là sự lựa chọn phổ bi Ān nhất cho các bài toán phân loại văn bản, một trong những thuật toán ML nhanh và dễ dàng để dự đốn một lớp tập dữ liệu. Nó có thể được sử d甃⌀ng cho Phân loại Nhị phân cũng như Đa lớp. Nó hoạt động tốt trong các dự đoán Đa lớp so với các Thuật toán khác. Tuy nhiên tất cả các đối tượng địa lý là độc lập hoặc khơng liên quan, vì vậy nó khơng thể tìm hiểu mối quan hệ giữa các đối tượng địa lý. Bên cạnh đó, mơ h nh Decision ìTree được đánh giá cao hơn với tính chính xác của mơ hình. Trong q trình chạy mơ hình, Decision Tree là một thuật tốn học có giám sát hiệu quả nhất. Nó áp d甃⌀ng cho các danh m甃⌀c và đầu vào liên t甃⌀c (đặc điểm) và các bi Ān đầu ra (dự đốn). Phương pháp dựa trên cây chia khơng gian đối tượng thành một loạt các hình chữ nhật và sau đó gán một mơ hình đơn giản cho mỗi hình chữ nhật. Về mặt khái niệm, chúng đơn giản và hiệu quả. Tuy nhiên thu t to n n y ch hoậ á à ỉ ạt động hi u qu trên b d liệ ả ộ ữ ệu đơn giản c t bi n d ó í Ā ữliệu liên h v i nhau, v ệ ớ à ngượ ạc l i n u p dung cho b d li u ph c tĀ á ộ ữ ệ ứ ạp. Điều này đòi h i phức tạp hơn về ứ s c m nh tạ ính to n, yêu c u bá ầ ộ d li u phữ ệ ải được chu n b ho n h o, ẩ ị à ảchất lượng t t phố ải được cân đối theo các l p, c c nh m trong bi n mớ á ó Ā 甃⌀c tiêu,… Ngoài ra, biĀn m甃⌀c tiêu ph i c cả ó ác giá ị “rời rạc” ễ nh n bi tr d ậ Āt, không được quá đa dạng, v ph i à ảc甃⌀ thể. V thu t to n Decision Tree không h tr k thu t hay kh ì ậ á ỗ ợ ỹ ậ ả năng “truy vấn ngược” mà chỉ phân nh nh liên tá 甃⌀ ực d a trên c c công th c phân nhá ứ ánh cho đ Ān khi thấy được k Āt quả sau c ng nên ch ng ta kh ph t hiù ú ó á ện được c c l i á ỗ ở đâu n Āu có sai sót. Tóm lại, đối

</div>

×