Tải bản đầy đủ (.pdf) (159 trang)

dự báo chi phí xây dựng nhà xưởng và các hạng mục phụ trợ bằng các mô hình học máy

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.13 MB, 159 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ĐẠI HỌC QUỐC GIA TP. HCM

<b>TRƯỜNG ĐẠI HỌC BÁCH KHOA </b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI

<b>TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM </b>

4. Phản biện 1: PGS.TS Lương Đức Long 5. Phản biện 2: TS. Phạm Hải Chiến

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

<b>KHOA KỸ THUẬT XÂY DỰNG </b>

ĐẠI HỌC QUỐC GIA TP.HCM <b>CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM </b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>I. TÊN ĐỀ TÀI: </b>

DỰ BÁO CHI PHÍ XÂY DỰNG NHÀ XƯỞNG VÀ CÁC HẠNG MỤC PHỤ TRỢ BẰNG CÁC MƠ HÌNH HỌC MÁY (PREDICTING THE COST OF CONSTRUCTING A FACTORY ALONG WITH ITS SUPPORTING ITEMS USING MACHINE LEARNING MODELS)

<b>II. NHIỆM VỤ VÀ NỘI DUNG: </b>

- Thu thập và phân tích các yếu tố tác động đến chi phí của việc xây dựng nhà xưởng cũng như các cơng trình phụ trợ liên quan.

- Thu thập dữ liệu về các yếu tố ảnh hưởng, sau đó áp dụng và phát triển các mơ hình học máy để dự báo chi phí xây dựng nhà xưởng và các hạng mục phụ trợ. Tiến hành phân tích và so sánh giữa các mơ hình, xác định mơ hình hiệu quả nhất, từ đó rút ra những nhận xét cũng như kết luận.

<b>III. NGÀY GIAO NHIỆM VỤ : 17/09/2023 </b>

<b>IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 18/12/2023 V. CÁN BỘ HƯỚNG DẪN : </b>

- Cán bộ hướng dẫn 1 : PGS.TS. Trần Đức Học

- Cán bộ hướng dẫn 2 : TS. Phạm Nguyễn Linh Khánh

<i> Tp. HCM, ngày . . . . tháng .. . . năm 2024 </i>

<b>KHOA KỸ THUẬT XÂY DỰNG </b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<small>ii </small>

<b>LỜI CẢM ƠN </b>

Trong hành trình chinh phục kiến thức tại khóa học cao học 2021-2023, tôi đã nhận được vô vàn sự giúp đỡ, hỗ trợ và chia sẻ từ quý thầy cô. Đầu tiên, tơi xin bày tỏ lịng biết ơn sâu sắc đến Thầy PGS.TS. Trần Đức Học và Thầy TS. Phạm Nguyễn Linh Khánh, những người thầy đã tận tình hướng dẫn, giúp đỡ tơi trong suốt q trình nghiên cứu và hồn thành luận văn này.

Tơi cũng xin gửi lời cảm ơn chân thành đến các thầy cô giáo bộ môn, những người đã không ngần ngại truyền đạt kiến thức quý báu và kinh nghiệm thực tế, giúp tôi vững vàng hơn trên con đường học vấn

Đặc biệt, tôi xin gửi lời cảm ơn tới ông Hà Phúc Quang, Tổng giám đốc công ty TNHH xây dựng thương mại dịch vụ Hồng Tín. Sự hỗ trợ nhiệt tình và việc cung cấp dữ liệu quý giá từ ông đã là nguồn động viên lớn lao, giúp tôi hồn thành luận văn một cách tốt nhất.

Khơng thể khơng nhắc đến những anh chị cùng khóa và đồng nghiệp tại cơng ty, những người đã ln sẵn lịng chia sẻ kinh nghiệm và hỗ trợ em trong suốt q trình học tập và nghiên cứu.

Cuối cùng, tơi xin dành lời cảm ơn sâu sắc nhất đến cậu Tín và gia đình, những người ln âm thầm đứng sau hỗ trợ, là nguồn động lực cho tôi trong mọi hồn cảnh, giúp tơi vượt qua mọi khó khăn và thách thức.

Lịng biết ơn của tơi khơng thể diễn đạt hết bằng lời, nhưng xin được gửi gắm qua những dòng này, như một lời tri ân sâu sắc nhất đến tất cả những ai đã đồng hành cùng tơi trên hành trình này.

<i>TP. Hồ Chí Minh, ngày 24 tháng 12 năm 2023 </i>

<b>Phạm Tấn Dũng</b>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<small>iii </small>

<b>TÓM TẮT </b>

Trong bối cảnh nhu cầu xây dựng nhà xưởng đang ngày một tăng trưởng mạnh mẽ, việc xác định chính xác chi phí xây dựng trở nên cực kỳ quan trọng. Theo truyền thống, các phương pháp ước lượng chi phí thường dựa vào kinh nghiệm cá nhân và tính tốn thủ cơng, tuy nhiên, chúng ta giờ đây đang chứng kiến sự chuyển mình sang các phương pháp hiện đại hơn, nhất là với sự hỗ trợ của công nghệ. Nghiên cứu này không chỉ phân tích sâu về các yếu tố ảnh hưởng đến chi phí xây dựng nhà xưởng và các hạng mục phụ trợ mà còn mở rộng khả năng tiếp cận thơng qua việc áp dụng bốn mơ hình học máy tiên tiến: XGBOOST, Decision Tree, Random Forest, và SVR (Support Vector Regression).

Qua việc phân tích dữ liệu từ 150 cơng trình, nghiên cứu đã xác định 10 yếu tố đầu vào quan trọng là diện tích, kết cấu khung, khoảng cách, loại hạng mục, chiều cao, tiến độ cơng trình, số tầng, cũng như giá thép tấm, cốt thép, và bê tơng. Phát hiện chính từ nghiên cứu này cho thấy SVR và XGBOOST là hai mơ hình hứa hẹn nhất trong việc dự đốn chi phí, mang lại hiệu quả cao.

Những đóng góp từ nghiên cứu này không chỉ giúp các chủ đầu tư và nhà thầu có cái nhìn tồn diện hơn về chi phí xây dựng, mà cịn hỗ trợ họ trong việc lập kế hoạch tài chính một cách hiệu quả và chính xác hơn. Hơn nữa, kết quả nghiên cứu còn mở ra hướng đi mới cho các nghiên cứu tiếp theo trong lĩnh vực ước lượng chi phí xây dựng, đặc biệt trong việc áp dụng các công nghệ học máy tiên tiến, góp phần vào sự thành cơng và phát triển bền vững của ngành xây dựng.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<small>iv </small>

<b>ABSTRACT </b>

In the context of the increasingly strong growth in the demand for industrial construction, accurately determining construction costs has become extremely important. Traditionally, cost estimation methods have relied on personal experience and manual calculations. However, we are now witnessing a shift towards more modern methods, particularly with the support of technology. This study not only provides a deep analysis of the factors affecting the cost of industrial construction and auxiliary items but also expands the approachability by applying four advanced machine learning models: XGBOOST, Decision Tree, Random Forest, and SVR (Support Vector Regression).

Through the analysis of data from 150 projects, the study identified 10 important input factors: area, frame structure, distance, type of item, height, project progress, number of floors, as well as the price of steel plates, rebar, and concrete. The main findings of this research indicate that SVR and XGBOOST are the two most promising models in cost prediction, offering high efficiency.

The contributions of this study not only help investors and contractors gain a more comprehensive view of construction costs but also support them in effectively and accurately planning the financial aspects of projects. Furthermore, the results pave the way for future research in the field of cost estimation, especially in the application of advanced machine learning technologies, contributing to the success and sustainable development of the construction industry.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<small>v </small>

<b>LỜI CAM ĐOAN </b>

Tôi xác nhận rằng Luận văn thạc sĩ này là kết quả của quá trình nghiên cứu và thực hiện độc lập của tôi, dưới sự hướng dẫn của PGS.TS. Trần Đức Học và TS. Phạm Nguyễn Linh Khánh.

Luận văn này chỉ bao gồm các tài liệu tham khảo đã được trích dẫn một cách rõ ràng. Tôi xác nhận rằng, ngoại trừ các tài liệu tham khảo đó, khơng có phần nào của luận văn này đã từng được công bố hoặc sử dụng để nhận bằng cấp ở cơ sở giáo dục nào khác. Tất cả các sản phẩm hoặc nghiên cứu của người khác được trích dẫn trong luận văn này đều tuân thủ đúng các quy định về trích dẫn.

Cuối cùng, luận văn này chưa từng được nộp để nhận bất kỳ bằng cấp nào tại bất kỳ trường đại học hay cơ sở đào tạo nào khác.

Tp. Hồ Chí Minh, ngày 24 tháng 12 năm 2023

<b>Học viên thực hiện luận văn </b>

<b>Phạm Tấn Dũng </b>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<small>vi </small>

<b>MỤC LỤC </b>

<b>CHƯƠNG I: TỔNG QUAN ... 1 </b>

<b>1.1. Tính cấp thiết của đề tài: ... 1 </b>

<b>1.1.1. Tình hình ngành xây dựng hiện nay:... 1 </b>

<b>1.1.2. Sự ra đời của trí tuệ nhân tạo, mơ hình máy học (Machine Learning): ... 7 </b>

<b>1.2. Mục tiêu nghiên cứu: ... 10 </b>

<b>1.3. Đối tượng nghiên cứu: ... 11 </b>

<b>1.4. Phạm vi nghiên cứu: ... 11 </b>

<b>CHƯƠNG II: CƠ SỞ LÝ THUYẾT ... 12 </b>

<b>2.1. Khái niệm: ... 12 </b>

<b>2.1.1. Support Vector Machine (SVM) ... 15 </b>

<b>2.1.2. Linear Regression (hồi quy tuyến tính) ... 16 </b>

<b>2.1.3. Mạng thần kinh nhân tạo (Artificial Neural Network - ANN)... 17 </b>

<b>2.1.4. Decision Tree (DT) ... 18 </b>

<b>2.1.5. Random Forest (RF) ... 20 </b>

<b>2.1.6. XGBOOST (Extreme Gradient Boosting) ... 21 </b>

<b>2.2. Các hàm và phương pháp phổ biến trong Machine Learning: ... 23 </b>

<b>2.2.1. Hàm Mất Mát (Loss Functions): ... 25 </b>

<b>2.2.2. Hàm Kích Hoạt (Activation Functions): ... 27 </b>

<b>2.2.3. Thuật tốn Tối Ưu Hóa (Optimization Algorithm): ... 31 </b>

<b>2.2.4. Chuẩn Hóa (Normalization): ... 34 </b>

<b>2.2.5. Khoảng Cách (Distance Metrics): ... 36</b>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<small>vii </small>

<b>2.3. Các nghiên cứu trước đây sử dụng các thuật toán học máy trong dự báo </b>

<b>chi phí xây dựng:... 38 </b>

<b>CHƯƠNG III: QUY TRÌNH NGHIÊN CỨU ... 51 </b>

<b>3.1. Phương pháp nghiên cứu: ... 51 </b>

<b>3.2. Thu thập dữ liệu: ... 52 </b>

<b>3.2.1. Thiết kế bảng câu hỏi: ... 52 </b>

<b>3.2.2. Kích thước và phương pháp lấy mẫu: ... 53 </b>

<b>4.2. Phân tích thơng tin đối tượng khảo sát: ... 67 </b>

<b>4.3. Phân tích số liệu thu thập ... 72 </b>

<b>4.4. Dữ liệu đầu vào cho mơ hình ... 80 </b>

<b>5.2. Phân tích giá trị dự đốn và thực tế trên mơ hình SVR ... 111 </b>

<b>5.2.1. Biểu đồ Box plot: ... 111</b>

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<small>viii </small>

<b>5.2.2. Biểu đồ Scatter plot: ... 114 </b>

<b>CHƯƠNG VI: KẾT LUẬN ... 117 </b>

<b>4.1. Kết luận: ... 117 </b>

<b>4.2. Ý nghĩa của nghiên cứu: ... 117 </b>

<b>4.3. Hạn chế của nghiên cứu: ... 117 </b>

<b>4.4. Đề xuất hướng nghiên cứu tiếp theo: ... 118 </b>

<b>CHƯƠNG VII: TÀI LIỆU THAM KHẢO ... 120 </b>

<b>PHỤ LỤC 1: BẢNG CÂU HỎI KHẢO SÁT ... 126 </b>

<b>PHỤ LỤC 2: DANH SÁCH CHUYÊN GIA ... 131 </b>

<b>PHỤ LỤC 3: BẢNG DỮ LIỆU ĐÃ CHUẨN HÓA VÀ KẾT QUẢ DỰ ĐỐN CHI PHÍ VỚI MƠ HÌNH SVR ... 133 </b>

<b>LÝ LỊCH TRÍCH NGANG ... 144 </b>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<small>ix </small>

<b>DANH MỤC HÌNH ẢNH </b>

Hình 2.1 Nhà máy bê tơng Hồng Tín Bình Phước ... 12

Hình 2.2 Support Vector Machine (SVM), nguồn: Internet of Things, 2022 ... 15

Hình 2.3 Mơ hình hổi quy tuyến tính (Linear Regression Model), Nguồn: TOOLBOX<small>TM</small> ... 16

Hình 2.4 Mạng thần kinh nhân tạo (Artificial Neural Network - ANN), Nguồn: zilliz.com ... 18

Hình 2.5 Mơ tả một cây quyết định liên quan đến việc chơi golf và các yếu tố có thể ảnh hưởng đến việc bạn sẽ chơi dưới hay trên chuẩn (par), Nguồn: mastersindatascience ... 19

Hình 2.6 Mơ hình Rừng ngẫu nhiên (Random Forest), Nguồn: humg.edu.vn ... 21

Hình 2.7 Hàm ReLU ... 28

Hình 2.8 Hàm Sigmoid ... 29

Hình 2.9 Ví dụ về đầu vào và đầu ra của hàm softmax, Nguồn: machinelearningcoban.com ... 30

Hình 3.1 Quy trình nghiên cứu ... 51

Hình 4.1 Biểu đồ trịn theo số năm làm việc ... 67

Hình 4.2 Biểu đồ tròn theo chức danh nghề nghiệp ... 68

Hình 4.3 Biểu đồ trịn theo đơn vị cơng tác ... 69

Hình 4.4 Biểu đồ trịn theo chun mơn ... 69

Hình 4.5 Biểu đồ trịn theo loại dự án tham gia ... 70

Hình 4.6 Biểu đồ trịn về quy mơ dự án ... 71

Hình 4.7 Biểu đồ scatter giữa diện tích và chi phí ... 84

Hình 4.8 Biểu đồ liên hệ giữa diện tích, loại khung và chi phí ... 85

Hình 4.9 Biểu đồ liên hệ giữa diện tích, loại hạng mục và chi phí ... 86

Hình 4.10 Biểu đồ cột thể hiện trung bình chi phí/m<small>2</small> theo loại khung ... 86

Hình 4.11 Biểu đồ cột thể hiện chi phí/m<small>2</small> và đơn giá bê tơng theo khoảng cách .... 87

Hình 4.12 Biểu đồ cột thể hiện trung bình chi phí/m<small>2</small> theo loại hạng mục ... 89

Hình 4.13 Biểu đồ scatter giữa chiều cao và chi phí ... 90

Hình 4.14 Biểu đồ scatter giữa tiến độ và chi phí ... 91

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

<small>x </small>

Hình 4.15 Biểu đồ scatter giữa tiến độ, loại khung và chi phí ... 92

Hình 4.16 Biểu đồ scatter giữa tiến độ, loại hạng mục và chi phí ... 93

Hình 4.17 Biểu đồ cột trung bình chi phí trung bình/m<small>2</small> theo loại mái ... 94

Hình 4.18 Biểu đồ cột trung bình chi phí trung bình/m<small>2</small> theo loại số tầng ... 95

Hình 4.19 Biểu đồ scatter giữa đơn giá thép tấm và chi phí/m<small>2</small> ... 95

Hình 4.20 Biểu đồ scatter giữa đơn giá cốt thép và chi phí/m<small>2</small> ... 96

Hình 4.21 Biểu đồ scatter giữa đơn giá bê tông và chi phí/m<small>2</small> ... 96

Hình 4.22 Biểu đồ scatter giữa tải trọng cầu trục và chi phí/m<small>2</small> ... 98

Hình 4.23 Biểu đồ tương quan giữa các biến ... 100

Hình 5.1 Biểu đồ thể hiện chỉ số RMSE của các thuật toán theo hai tập Huấn luyện và Kiểm tra ... 108

Hình 5.2 Biểu đồ thể hiện chỉ số MAE của các thuật toán theo hai tập Huấn luyện và Kiểm tra ... 109

Hình 5.3 Biểu đồ thể hiện chỉ số R<small>2</small> của các thuật toán theo hai tập Huấn luyện và Kiểm tra ... 110

Hình 5.4 Biểu đồ Boxplot chênh lệch chi phí trên hai tập Kiểm tra và Huấn luyện ... 111

Hình 5.5 Biểu đồ scatter giữa chi phí thực tế và chi phí dự đốn ... 114

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<small>xi </small>

<b>DANH MỤC BẢNG BIỂU </b>

Bảng 2.1: Các hàm và phương pháp trong học máy ... 23

Bảng 2.2: Tóm tắt các thuật toán Machine Learning riêng biệt trong các giai đoạn khác nhau của dự án xây dựng ... 42

Bảng 2.3: Chỉ số phân tích cho các mơ hình khác nhau ... 47

Bảng 3.1: Các phương pháp chọn mẫu ... 54

Bảng 3.2: Đánh giá độ tin cậy theo Cronbach’s Alpha ... 58

Bảng 4.1: Các nhân tố ảnh hưởng đến chi phí xây dựng nhà xưởng và các hạng mục phụ trợ. ... 65

Bảng 4.2: Các chỉ số thống kê mô tả theo các biến. ... 72

Bảng 4.3: Các chỉ số thống kê mô tả sau khi loại bỏ các biến. ... 74

Bảng 4.4: Thống kê độ tin cậy ... 75

Bảng 4.5: Hệ số tương quan biến tổng và Cronbach’s Alpha giữa các biến. ... 76

Bảng 4.6: Thống kê độ tin cậy sau khi loại bỏ các biến không phù hợp ... 77

Bảng 4.7: Hệ số tương quan biến tổng, Cronbach’s Alpha và giá trị Mean sau khi loại các biến không phù hợp. ... 78

Bảng 4.8: Thứ tự các biến sau khi được sắp xếp theo giá trị mean. ... 79

Bảng 4.9: Thể hiện tóm tắt dữ liệu, với 5 cột kí hiệu mã hóa, tên biến quan sát, kiểu dữ liệu, mô tả giá trị và đơn vị ... 82

Bảng 4.10: Các biến sau khi loại bỏ hai biến “loại mái” và “tải trọng cầu trục”... 98

Bảng 4.11: Biến siêu tham số cho từng thuật tốn học máy (Machine Learning) .. 105

Bảng 5.1: Tóm tắt các chỉ số đánh giá của các thuật toán. ... 107

Bảng 5.2: Thông số cho biểu đồ boxplot hình 5.4 ... 112

Bảng 5.3: So sánh thơng số giữa hai tập huấn luyện và kiểm tra ... 114

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<small>xii </small>

<b>DANH MỤC CÁC TỪ VIẾT TẮT </b>

CBR: Case-Based Reasoning - Lập luận theo tình huống ANN: Artificial Neural Network - Mạng nơ-ron nhân tạo RF: Random Forest - Rừng ngẫu nhiên

ML: Machine Learning - Học máy

RBF: Radial Basis Function - Hàm cơ sở hướng tâm

DLNN: Deep Learning Neural Network - Mạng nơ-ron học sâu GB: Gradient Boosting - Tăng cường độ dốc

CatBoosting: Categorical Boosting - Tăng cường theo hạng mục

SHLFFNN: Hidden Layer Feedforward Neural Network - Mạng nơ-ron tiến hóa với các lớp ẩn

CART: Classification and Regression Tree - Cây phân loại và hồi quy KNN: K-Nearest Neighbors

GAM: Generalized Additive Model - Mơ hình cộng gộp tổng qt PSO: Particle Swarm Optimization - Tối ưu hóa đàn hạt

CWA: Connection Weights Algorithm - Thuật toán trọng số kết nối DBM: Deep Boltzmann Machine - Máy Boltzmann

NAL: Neuro-adaptive Learning - Học thích nghi thần kinh BA: Bootstrap Aggregating - Tổng hợp Bootstrap

RA: Regression Analysis - Phân tích hồi quy XG boost: eXtreme Gradient Boosting

SVM: Support Vector Machine - Máy vector hỗ trợ MLP: Multilayer Perceptron - Perceptron đa lớp

ANFIS: Adaptive Neuro Fuzzy Inference System - Hệ thống suy luận mờ thần kinh thích nghi

RF (ET): Random Forest with Extra Tree - Rừng ngẫu nhiên với cây quyết định AB: Adaptive Boosting - Tăng cường thích ngh

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<small>xiii </small>LR: Linear Regression - Hồi quy tuyến tính

ELM: Extreme Learning Machine - Máy học cực đoan

MARS: Multivariate Adaptive Regression Spline - Spline hồi quy thích nghi đa biến MLR: Multivariate Linear Regression - Hồi quy tuyến tính đa biến

BPNN: Backpropagation Neural Network - Mạng nơ-ron lan truyền ngược GPR: Gaussian Process Regression - Hồi quy quá trình Gaussian

SVR: Support Vector Regression - Hồi quy vector hỗ trợ

FALCON: Fuzzy Adaptive Learning Control Network - Mạng kiểm sốt học thích nghi mờ

OLS: Ordinary Least Square - Bình phương nhỏ nhất thơng thường DE: Differential Evolution - Tiến hóa vi phân

RMSE: Root Mean Square Error - Sai số bình phương trung bình cộng. MAE: Mean Absolute Error - Sai số tuyệt đối trung bình

R2: Coefficient of Determination - Hệ số xác định Overfitting: Quá khớp

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<small>PHẠM TẤN DŨNG - 2170245 1 </small>

<b>CHƯƠNG I: TỔNG QUAN 1.1. Tính cấp thiết của đề tài: </b>

<b>1.1.1. Tình hình ngành xây dựng hiện nay: </b>

Trong thập kỷ qua, ngành xây dựng ở Việt Nam đã chứng kiến sự phát triển mạnh mẽ và không ngừng nghỉ. Từ các cơng trình cơ bản như nhà ở, trường học, đến những dự án lớn như cầu đường, nhà xưởng, hay các khu cơng nghiệp, mỗi cơng trình đều mang đến cho ngành xây dựng những thách thức mới và cơ hội phát triển. Trong bối cảnh này, việc ước tính chi phí xây dựng trở thành một yếu tố quan trọng, đóng vai trị quyết định đến sự thành cơng của mỗi dự án. Theo Gwang Hee Kim và cộng sự (2013) [52] việc ước tính chi phí xây dựng khơng chỉ đơn thuần là việc tính tốn số liệu, nó cịn liên quan đến việc đánh giá và dự báo các yếu tố ảnh hưởng đến chi phí, từ giá vật liệu xây dựng, tiền cơng, chi phí quản lý dự án, đến các rủi ro không lường trước được. Sự chính xác trong việc ước tính chi phí xây dựng có thể giúp ngăn ngừa sự lệch pha giữa dự toán và thực tế, đảm bảo hiệu quả đầu tư và tối thiểu hóa rủi ro tài chính. Trong một thị trường cạnh tranh khốc liệt như Việt Nam, việc này càng trở nên quan trọng.

Đối với việc xây dựng nhà xưởng, nhu cầu về việc ước tính chi phí càng được đặt lên hàng đầu. Nhà xưởng là một phần quan trọng của nền kinh tế, đặc biệt là trong bối cảnh cơng nghiệp hóa, hiện đại hóa đang diễn ra mạnh mẽ ở Việt Nam. Các nhà xưởng khơng chỉ địi hỏi sự tn thủ nghiêm ngặt các quy định về an toàn lao động và mơi trường, mà cịn cần phải đáp ứng nhu cầu sử dụng hiệu quả, từ việc tối ưu hóa khơng gian, năng lượng, đến việc chịu đựng được áp lực từ các hoạt động sản xuất. Do đó, việc ước tính chi phí xây dựng nhà xưởng địi hỏi sự thận trọng và chun mơn cao. Ngồi ra, với sự gia tăng của công nghệ và sự đổi mới trong ngành xây dựng, việc ước tính chi phí xây dựng nhà xưởng cũng phải thích ứng với những thay đổi này. Ngày nay, không chỉ là việc xây dựng một khuôn viên để hoạt động sản xuất, nhà xưởng cũng cần phải tận dụng tối đa các tiến bộ trong công nghệ, từ việc sử dụng năng lượng tái tạo, hệ thống quản lý thông minh, đến việc tối ưu hóa hiệu quả vận hành và bảo dưỡng. Tất cả những yếu tố này đều tạo ra một nhu cầu mạnh mẽ về việc

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<small>PHẠM TẤN DŨNG - 21702452 </small>ước tính chi phí xây dựng nhà xưởng một cách chính xác và chuyên nghiệp. Để đáp ứng nhu cầu này, các chuyên gia trong ngành xây dựng cần có kiến thức sâu rộng, từ việc hiểu rõ về quy trình xây dựng, đánh giá vật liệu, đến việc áp dụng các phương pháp và cơng cụ ước tính hiện đại.

Chính vì vậy, tầm quan trọng của việc ước tính chi phí xây dựng, cụ thể là xây dựng nhà xưởng ở Việt Nam hiện nay không thể phủ nhận. Đây là yếu tố quyết định đến sự thành công của dự án và thậm chí là sự phát triển bền vững của ngành xây dựng nói chung. Việc này địi hỏi sự nâng cao năng lực của các nhân viên trong ngành, cũng như việc đầu tư vào công nghệ và phương pháp tiên tiến, nhằm cung cấp những ước lượng chi phí chính xác và hiệu quả.

Hiện nay, tại Việt Nam các phương pháp ước tính chi phí xây dựng thường được áp dụng, bao gồm:

<b>a. Phương pháp thể tích: </b>

Phương pháp đơn vị thể tích, cịn được gọi là phương pháp tính theo khối, là một cách tiếp cận thơng dụng trong ước lượng chi phí xây dựng. Phương pháp này dựa trên việc xác định tổng thể tích của cơng trình xây dựng và nhân với một đơn giá tiêu chuẩn để có được một ước lượng tổng thể của chi phí xây dựng.[25]

Dưới đây là các bước chính trong việc ứng dụng phương pháp này:

- Xác định tổng thể tích của cơng trình: Cách xác định thể tích của một cơng trình được quy định bởi các tổ chức nghề nghiệp (như là Royal Institute of British Architecs – RIB) hoặc quốc gia cụ thể. RIB quy định:

<b>Thể tích một cơng trình (</b><small>m3</small><b>) = Dài (m) x Rộng (m) x Cao (m) </b> (1.1) - Tìm đơn giá tiêu chuẩn: Đơn giá này thường được lấy từ dữ liệu của các dự án

xây dựng tương tự trong quá khứ, hoặc từ các nguồn thông tin công nghiệp.

<b>- Tính tốn chi phí tổng thể: Nhân tổng thể tích của cơng trình với đơn giá tiêu </b>

chuẩn để có được một ước lượng chi phí tổng thể.

<b>Chí phí xây dựng = Thể tích cơng trình (</b><small>m3</small>) x giá thành của một <small>m3</small>(đ/<small>m3</small>) (1.2)

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

<small>PHẠM TẤN DŨNG - 21702453 </small>

<i>*Ưu điểm:<small> </small></i>

<b>- Đơn giản và nhanh chóng: Phương pháp này yêu cầu ít thông tin chi tiết và ít công </b>

sức tính toán so với một số phương pháp ước lượng chi phí khác.

<b>- Tốt cho giai đoạn sơ bộ: Đây là một cách tốt để có được một ước lượng sơ bộ về </b>

chi phí xây dựng ở giai đoạn đầu của dự án, khi thơng tin chi tiết có thể chưa được biết.

<b>- Dễ so sánh: Khi được sử dụng như một chuẩn mực, phương pháp này có thể giúp </b>

so sánh chi phí của các dự án xây dựng khác nhau.

<i>*Nhược điểm: </i>

<b>- Ít chính xác: Do phương pháp này dựa trên ước lượng sơ bộ và giả định rằng tất cả </b>

các cơng trình có cùng một đơn giá cho mỗi đơn vị thể tích, nó có thể khơng chính xác đối với các dự án có đặc điểm khác nhau hoặc đối với các dự án phức tạp.

<b>- Không xem xét các yếu tố đặc biệt: Phương pháp này không xem xét các yếu tố </b>

đặc biệt hoặc không thông thường trong quá trình xây dựng, như yêu cầu về chất lượng cao, vị trí địa lý, hoặc yếu tố thời gian.

<b>- Đơn giá có thể lỗi thời: Đơn giá tiêu chuẩn cần được cập nhật thường xuyên để </b>

phản ánh đúng chi phí xây dựng hiện tại. Nếu khơng, ước lượng có thể bị sai lệch.

<b>b. Phương pháp diện tích sàn: </b>

Phương pháp diện tích sàn là một phương pháp ước lượng chi phí xây dựng rất phổ biến. Theo Lưu Trường Văn (2014) [25] phương pháp này dựa trên việc nhân diện tích sàn tổng cộng của cơng trình xây dựng với một đơn giá tiêu chuẩn (thường được đưa ra dưới dạng chi phí cho mỗi mét vng).

Dưới đây là các bước chính để thực hiện phương pháp diện tích sàn:

<b>- Xác định diện tích sàn tổng cộng của cơng trình: </b>

<b>Tổng diện tích sàn của tất cả các tầng = Diện tích mặt sàn sử dụng + Các loại </b>

diện tích khác đi kèm (mái, sân, phần móng, tầng hầm…) (1.3)

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

<small>PHẠM TẤN DŨNG - 21702454 </small>

<b>- Tìm đơn giá tiêu chuẩn: Đơn giá này thường được lấy từ dữ liệu của các dự án </b>

xây dựng tương tự trong quá khứ, hoặc từ các nguồn thơng tin cơng nghiệp.

<b>- Tính tốn chi phí tổng thể: Nhân diện tích sàn tổng cộng của cơng trình với </b>

đơn giá tiêu chuẩn để có được một ước lượng chi phí tổng thể.

<b>Tổng chi phí = Tổng diện tích sàn x giá thành 1</b><small>m2</small>sàn (1.4) Giống như phương pháp đơn vị thể tích, phương pháp diện tích sàn cung cấp một ước lượng sơ bộ và nên được sử dụng như một cơng cụ hữu ích trong giai đoạn đầu của q trình ước lượng chi phí, nhưng khơng nên là nguồn thông tin duy nhất được sử dụng để đưa ra quyết định cuối cùng về chi phí xây dựng.[25]

Phương pháp này có ưu và nhược điểm tương tự như phương pháp thể tích.

<b>c. Phương pháp SEM (Storey Enclosure Method) </b>

Phương pháp Ước lượng SEM (Storey Enclosure Method) trong xây dựng là một phương pháp đánh giá chi phí theo tỷ lệ đơn, nhưng khơng được sử dụng rộng rãi trong thực tiễn. Phương pháp này bao gồm việc tính tốn diện tích của tường ngồi, sàn và mái, sau đó nhân chúng với một hệ số trọng lượng thích hợp [25]. Các bước chính và đặc điểm của SEM bao gồm:

Hệ số Trọng lượng: Áp dụng các hệ số trọng lượng khác nhau cho các phần khác nhau của tòa nhà. Ví dụ, tầng hầm được nhân với 3, tầng trệt với 2, và tầng một với 2.15, mỗi tầng tiếp theo tăng thêm 0.15. Diện tích mái được đo theo chiếu dựng và được trọng lượng là 1. Diện tích tường tầng hầm (từ tầng hầm đến mặt sàn tầng trệt) được nhân với 2, và diện tích tường trên mặt đất (từ tầng trệt đến trần tầng cao nhất) cũng được trọng lượng, khơng trừ diện tích cửa sổ.

Ưu điểm: SEM tính tốn sự khác biệt về hình dạng kế hoạch, tổng diện tích sàn, vị trí dọc của các tầng, chiều cao tổng thể, chiều cao từng tầng, và chi phí bổ sung cho việc cung cấp diện tích sàn sử dụng dưới mặt đất. Nó cung cấp một tỷ lệ đơn và cho phép thêm chi phí của cơng trình bên ngồi.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

<small>PHẠM TẤN DŨNG - 21702455 </small>Nhược điểm: Một trong những hạn chế chính của phương pháp này là thiếu dữ liệu lịch sử có sẵn. Nó ít hữu ích khi xem xét yêu cầu của khách hàng và kiến trúc sư, khó đánh giá tác động của những thay đổi về thông số kỹ thuật, và thiếu một phương pháp đo lường chuẩn.

Ban đầu, SEM nhằm mục đích khắc phục những hạn chế của các phương pháp ước lượng tỷ lệ đơn khác bằng cách tính tốn sự biến đổi về hình dạng kế hoạch và chiều cao tầng. Tuy nhiên, nó khơng bao giờ được các chun gia xây dựng hoàn toàn áp dụng do yêu cầu nhiều tính tốn hơn và khó khăn trong việc rút ra tỷ lệ từ dữ liệu lịch sử.

<b>d. Phương pháp phân tích chi phí phần tử (Elemental Cost Analysis) </b>

Phương pháp này bắt đầu bằng việc tham khảo chi phí từ các dự án tương tự đã thực hiện trước đó, sử dụng phương pháp phân tích chi phí phần tử theo quy chuẩn của Royal Institution of Chartered Surveyors (RICS). Chi phí dự án được ước lượng dựa trên diện tích bề mặt hoặc diện tích sàn, sau đó chia nhỏ thành các chi phí cho từng phần tử chính và phụ. Sự phân chia này giúp điều chỉnh dễ dàng hơn cho những khác biệt trong thiết kế của dự án mới so với dữ liệu từ các dự án cũ [25]. Điểm nổi bật của phương pháp này là việc đã xác lập mối quan hệ rõ ràng giữa các phần tử của dự án và chi phí liên quan, qua đó hỗ trợ người thiết kế trong việc đánh giá và quản lý chi phí một cách chính xác.

Chi phí cho mỗi phần tử được thể hiện theo 3 cách: ❖ Tổng chi phí

❖ Chi phí trên m<small>2</small> T/A (A = diện tích sàn hoặc khơng gian sàn) ❖ Chi phí đơn vị phần tử T/q (q = số lượng phần tử)

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

<small>PHẠM TẤN DŨNG - 21702456 </small>Ví dụ:

<i>Phân tích cơng trình hiện hữu: </i>

Tổng chi phí phần tử

Chi phí/m<small>2</small> Số đơn vị phần tử chính

Giá đơn vị phần tử chính

Tổng chi phí cơng trình mới (sàn) = 900m<small>2 </small>* $64/m<small>2</small> = $57,600

Thực hiện tương tự cho các phần tử khác, tổng chi phí của dự án bằng tổng các chi phí các phần tử đó.

<b>e. Phương pháp ước lượng thừa số (Factory Estimating) </b>

Phương pháp này rất hiệu quả cho các dự án có chi phí lớn ở một số thành phần cụ thể, chẳng hạn như nhà máy lọc dầu hay nhà máy tinh chế kim loại. Trong phương pháp này, các chi phí cho mỗi thành phần của dự án được xác định dựa trên "chi phí nổi trội" (predominant cost), thường là chi phí mua sắm thiết bị. Dựa vào giả định rằng tỷ lệ giữa chi phí từng thành phần và chi phí nổi trội trong dự án mới sẽ tương tự như trong các dự án đã thực hiện trước đó, người ta có thể ước lượng nhanh chóng và chính xác chi phí của dự án cơng nghiệp mới [25]. Việc sử dụng dữ liệu từ

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<small>PHẠM TẤN DŨNG - 21702457 </small>các dự án tương tự hiện hữu giúp cung cấp một cơ sở để ước lượng chi phí một cách hiệu quả, đồng thời đảm bảo độ chính xác chấp nhận được cho việc ước lượng.

<i>Một chi phí thành phần = Thừa số tương ứng của dự án hiện hữu * Chi phí mua </i>

<b>f. Phương pháp ước lượng phần trăm (Percentages Estimating) </b>

❖ Dựa vào dữ liệu quá khứ, tính tỷ lệ % của từng công việc so với tổng chi phí [25]. ❖ Dựa vào dữ liệu quá khứ, xác định tỷ lệ % giữa chi phí mua sắm máy móc thiết

bị và tổng chi phí (gọi là phần trăm của thiết bị) [25].

❖ Dựa vào dữ liệu q khứ, tính tốn tổng chi phí của dự án mới (TCPM) = Chi phí thiết bị của dự án mới / phần trăm của thiết bị [25].

❖ Tính chi phí từng cơng việc của dự án mới = tỷ lệ % của từng công việc * TCPM [25].

Trên thực tế, việc lựa chọn phương pháp ước tính chi phí xây dựng phụ thuộc vào nhiều yếu tố khác nhau, bao gồm độ phức tạp của dự án, kinh nghiệm và kiến thức của người ước tính, cũng như thời gian và nguồn lực có sẵn. Một số yếu tố khác cũng có thể ảnh hưởng, chẳng hạn như loại cơng trình (nhà ở, văn phịng, cơng nghiệp, vv.), vị trí địa lý, và các yếu tố kinh tế và chính trị.

<b>1.1.2. Sự ra đời của trí tuệ nhân tạo, mơ hình máy học (Machine Learning): </b>

Trí tuệ nhân tạo (AI) đã trở thành một phần không thể thiếu của cuộc sống hiện đại, từ khi lần đầu tiên được giới thiệu vào những năm 1950 [62]. AI là một nhánh của khoa học máy tính liên quan đến việc tạo ra hệ thống hoặc phần mềm có khả năng thực hiện các tác vụ mà thường địi hỏi trí thơng minh của con người, như học, hiểu, suy nghĩ, và nhận biết. Trí tuệ nhân tạo (AI) đã đánh dấu một cột mốc quan trọng trong lịch sử công nghệ và mang lại nhiều lợi ích to lớn cho nhiều lĩnh vực trong xã hội. Sự ra đời của AI đã mở ra những cánh cửa mới cho khả năng tưởng tượng và ứng dụng của con người.

Trước hết, trong lĩnh vực y tế, AI đã thúc đẩy sự tiến bộ trong chẩn đoán và điều trị bệnh. Các hệ thống AI có khả năng phân tích dữ liệu y khoa, nhận diện triệu

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

<small>PHẠM TẤN DŨNG - 21702458 </small>chứng bệnh và đưa ra các đề xuất điều trị chính xác. Điều này giúp cung cấp chẩn đốn nhanh chóng, đúng đắn và đảm bảo tốt nhất cho bệnh nhân, cũng như tăng khả năng dự đoán và phòng ngừa các bệnh lý.

Trong lĩnh vực giao thơng, AI đã đóng góp quan trọng trong việc cải thiện an toàn và hiệu quả. Các hệ thống giao thông thông minh dựa trên AI giúp giám sát luồng giao thông, phát hiện kẹt xe và tạo ra các phương án điều chỉnh thông minh để giảm thiểu tắc nghẽn. Đồng thời, các công nghệ tự lái dựa trên AI đang trở thành xu hướng, giúp giảm nguy cơ tai nạn và nâng cao trải nghiệm người dùng.

AI đã tạo ra những bước tiến lớn trong lĩnh vực cơng nghiệp, đóng góp vào sự tự động hóa và tối ưu hóa các quy trình sản xuất. Sự kết hợp giữa AI và robot công nghiệp đã tạo ra sự linh hoạt và hiệu quả, từ việc lắp ráp, kiểm tra chất lượng đến quản lý kho hàng. Điều này giúp tăng năng suất, giảm lãng phí và đảm bảo chất lượng sản phẩm.

Trong lĩnh vực tài chính và kinh doanh, AI đã giúp tạo ra sự hiệu quả và chính xác trong q trình phân tích dữ liệu và quyết định. Các thuật tốn AI có khả năng dự báo xu hướng thị trường, tối ưu hóa quản lý rủi ro và tìm kiếm cơ hội đầu tư tiềm năng. Đồng thời, AI cũng giúp tăng cường trải nghiệm khách hàng thông qua chatbot, hệ thống tư vấn và phân loại khách hàng.

Trong lĩnh vực giáo dục, AI đã tạo ra những trải nghiệm học tập cá nhân hóa và hiệu quả hơn. Các hệ thống học tập dựa trên AI có thể đánh giá năng lực, quản lý tiến trình học tập và cung cấp các tài liệu giảng dạy phù hợp với từng học viên. Điều này giúp tăng cường hiệu quả học tập, khuyến khích sự sáng tạo và đáp ứng nhu cầu học tập đa dạng.

Trí tuệ nhân tạo (AI) đã mở ra những cánh cửa mới trong việc giải quyết các vấn đề phức tạp và đa dạng, trong đó có lĩnh vực dự báo chi phí xây dựng. Sự tiên tiến của AI, đặc biệt là qua mơ hình học máy (Machine Learning - ML), cung cấp một phương pháp hiệu quả để xử lý và phân tích lượng lớn dữ liệu, từ đó đưa ra các dự đốn chính xác và đáng tin cậy.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<small>PHẠM TẤN DŨNG - 21702459 </small>Thứ nhất, ML mang lại khả năng xử lý dữ liệu lớn một cách hiệu quả. Trong ngành xây dựng, có hàng tấn dữ liệu từ các dự án trước đây, bao gồm thông tin về chi phí ngun vật liệu, lao động, máy móc, và thời gian hoàn thành dự án. Việc sắp xếp và phân tích dữ liệu này bằng tay sẽ tốn rất nhiều thời gian và công sức. Tuy nhiên, với ML, tồn bộ q trình này có thể được tự động hóa, giúp tiết kiệm thời gian và nguồn lực đáng kể. (Tom M. Mitchell, 1997) [29]

Thứ hai, ML cho phép đưa ra dự báo chính xác hơn. Các mơ hình học máy có thể học từ lỗi trong dự đoán trước đây và tự điều chỉnh để cải thiện độ chính xác (Tom M. Mitchell, 1997) [29]. Điều này không chỉ giúp giảm thiểu rủi ro của việc vượt quá ngân sách, mà còn giúp các nhà thầu lên kế hoạch tài chính một cách hiệu quả hơn.

Thứ ba, ML có thể giúp phát hiện các xu hướng và mơ hình khơng rõ ràng trong dữ liệu, điều mà con người có thể khơng nhận ra (Andriy Burkov, 2019) [7]. Điều này có thể giúp dự đốn được các yếu tố tiềm ẩn có thể ảnh hưởng đến chi phí xây dựng, như sự biến đổi giá nguyên vật liệu, hoặc sự thay đổi trong quy định chính sách xây dựng.

Trên cơ sở các ưu điểm này, việc sử dụng ML trong việc dự báo chi phí xây dựng nhà xưởng là một đề xuất hợp lý. Nhà xưởng thường có nhiều yếu tố tương tự nhau, từ vị trí xây dựng, nguyên vật liệu sử dụng, đến thiết kế cơ bản. Điều này tạo ra một lượng dữ liệu lớn và nhất quán, điều rất thích hợp cho việc huấn luyện các mơ hình ML. Ngồi ra, ML cũng có thể giúp dự đốn các chi phí tiềm ẩn mà những người ước tính chi phí theo cách truyền thống có thể bỏ sót. Tuy nhiên, việc sử dụng mơ hình học máy cũng cịn đối mặt với một số thách thức và khó khăn. Một trong số đó là việc thu thập và quản lý dữ liệu đầu vào. Để có thể đưa ra dự báo chi phí chính xác, cần phải có một nguồn dữ liệu đầu vào đầy đủ, chính xác và đáng tin cậy. Ngồi ra, việc sử dụng mơ hình học máy cịn địi hỏi sự hiểu biết về thuật tốn và cơng nghệ từ phía các chun gia xây dựng, đồng thời cần có sự hỗ trợ từ các chun gia trong lĩnh vực mơ hình học máy. Việc đào tạo và giáo dục các chuyên gia về mơ hình học máy là một vấn đề quan trọng để đảm bảo tính chun mơn và chất lượng của dự án.

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<small>PHẠM TẤN DŨNG - 217024510 </small>Để giải quyết các thách thức này, các chuyên gia xây dựng và chuyên gia Machine Learning (mơ hình học máy) cần hợp tác chặt chẽ để tìm ra những giải pháp phù hợp và đưa ra các quyết định thông minh. Các công ty xây dựng cần đầu tư vào nghiên cứu và phát triển các giải pháp mơ hình học máy để cải thiện độ chính xác của dự báo chi phí, tăng tính linh hoạt trong quản lý dự án và giảm thiểu thời gian và chi phí.

Trong tương lai, việc sử dụng mơ hình học máy trong dự báo chi phí xây dựng nhà xưởng và các hạng mục phụ trợ sẽ trở thành một xu hướng tất yếu. Nó sẽ đem lại nhiều lợi ích cho các cơng ty xây dựng và chủ đầu tư, giúp tăng tính hiệu quả và nâng cao chất lượng của các dự án xây dựng. Tuy nhiên, để sử dụng nó hiệu quả, cần có sự hợp tác chặt chẽ giữa các chuyên gia xây dựng và chun gia mơ hình học máy, đảm bảo tính chun mơn và chất lượng của dự án, và đáp ứng các yêu cầu của thị trường trong thời đại số hóa ngày càng phát triển.

<b>1.2. Mục tiêu nghiên cứu: </b>

Mục tiêu của nghiên cứu trong việc áp dụng các mơ hình học máy (ML) để dự báo chi phí xây dựng nhà xưởng là tạo ra một mơ hình dự báo chính xác và đáng tin cậy, giúp nhà thầu và nhà quản lý dự án lên kế hoạch ngân sách một cách hiệu quả. Để đạt được mục tiêu này, các bước sau được thực hiện:

<b>- Xác định các nhân tố ảnh hưởng tới chi phí: Mục tiêu ban đầu là xác định các </b>

yếu tố quan trọng và ảnh hưởng đến chi phí xây dựng nhà xưởng, bao gồm diện tích, vị trí địa lý, đặc điểm cơng trình, loại ngun vật liệu, cũng như các yếu tố khác có thể ảnh hưởng đến quy mô và phức tạp của dự án.

<b>- Thu thập dữ liệu: Để xây dựng mơ hình dự báo chi phí q trình thu thập dữ </b>

liệu từ các dự án xây dựng nhà xưởng trước đây là cần thiết. Dữ liệu này bao gồm thông tin chi tiết về các yếu tố ảnh hưởng đến chi phí và giá trị thực tế của dự án.

<b>- Xây dựng các mơ hình học máy: Sử dụng các phương pháp học máy và thuật </b>

toán, mục tiêu là xây dựng một mơ hình dự báo chi phí xây dựng dựa trên dữ liệu thu thập được. Các mơ hình này có thể bao gồm các kỹ thuật như học có

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

<small>PHẠM TẤN DŨNG - 217024511 </small>giám sát, học không giám sát, hoặc kết hợp cả hai để tạo ra dự báo chính xác và linh hoạt.

<b>- Đánh giá và lựa chọn mơ hình phù hợp nhất: Mục tiêu cuối cùng là đánh giá </b>

hiệu suất của các mơ hình và lựa chọn mơ hình phù hợp nhất cho việc dự báo chi phí xây dựng nhà xưởng. Các tiêu chí đánh giá bao gồm độ chính xác, độ tin cậy và khả năng mở rộng của mơ hình.

<b>1.3. Đối tượng nghiên cứu:</b>

<b>- Dữ liệu liên quan đến xây dựng nhà xưởng và các hạng mục phụ trợ: Bao gồm </b>

các thơng tin về quy mơ, vị trí, thiết kế, vật liệu, thi công, giám sát và các thông tin khác liên quan đến xây dựng nhà xưởng và các hạng mục phụ trợ.

<b>- Các yếu tố ảnh hưởng đến chi phí xây dựng: Bao gồm các yếu tố về lao động, </b>

vật liệu, thiết bị, vận chuyển, khí hậu, thị trường, chính sách và các yếu tố khác có thể ảnh hưởng đến chi phí xây dựng.

<b>- Các phương pháp và công nghệ trí tuệ nhân tạo: Bao gồm các phương pháp và </b>

cơng nghệ trí tuệ nhân tạo như học máy, mạng nơ-ron nhân tạo, học sâu, các giải thuật tối ưu, v.v. được áp dụng để dự báo chi phí xây dựng nhà xưởng và các hạng mục phụ trợ.

<b>- Các chuyên gia trong lĩnh vực xây dựng: Những chuyên gia trong lĩnh vực xây </b>

dựng có kinh nghiệm và kiến thức về các yếu tố ảnh hưởng đến chi phí xây dựng cũng là đối tượng nghiên cứu quan trọng trong đề tài này. Các chuyên gia này có thể được tham gia đưa ra các thơng tin phục vụ cho việc xây dựng mơ hình dự báo.

<b>1.4. Phạm vi nghiên cứu: </b>

Thời gian thực hiện nghiên cứu 6 tháng.

Không gian: Công ty xây dựng chuyên về nhà xưởng tại Tp. HCM, Bình Dương.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

<i><small>Hình 2.1 Nhà máy bê tơng Hồng Tín Bình Phước </small></i>

Đầu tiên, khi xây dựng một nhà xưởng, phần chính cần xem xét là khơng gian làm việc. Kích thước và cấu trúc của khơng gian này phụ thuộc vào loại hình sản xuất, quy mơ doanh nghiệp, số lượng nhân viên và loại máy móc sử dụng. Khơng gian làm việc cần rộng rãi, thống đãng, đảm bảo ánh sáng đủ và có hệ thống thơng gió tốt để tạo môi trường làm việc thoải mái, an tồn cho cơng nhân. Tiếp theo, phần quan trọng thứ hai là hệ thống điện và cung cấp năng lượng. Hệ thống này phải đủ mạnh để cung cấp điện cho tất cả các máy móc và thiết bị, đồng thời đảm bảo an toàn, tránh nguy cơ cháy nổ do chập điện. Bên cạnh đó, việc lựa chọn nguồn năng lượng thân thiện với môi trường như điện mặt trời, gió cũng đang trở nên phổ biến. Hạng mục thứ ba đó là hệ thống quản lý chất thải. Trong quá trình sản xuất, việc sinh ra chất thải không thể tránh khỏi. Hệ thống quản lý chất thải giúp xử lý và loại bỏ chất

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

<small>PHẠM TẤN DŨNG - 217024513 </small>thải một cách an tồn, khơng gây ơ nhiễm mơi trường. Cuối cùng, nhà xưởng cũng cần có các khu vực phụ trợ như khu vực để nghỉ ngơi, ăn uống, vệ sinh cho công nhân. Đây không chỉ là yêu cầu về quy định pháp luật mà cịn góp phần nâng cao hiệu suất làm việc và tạo môi trường làm việc lành mạnh, tôn trọng quyền lợi của công nhân.

Nhà xưởng không chỉ là nơi để sản xuất sản phẩm, mà cịn là nơi mà cơng nhân dành phần lớn thời gian hàng ngày để làm việc. Việc xây dựng và quản lý nhà xưởng cần đặc biệt chú trọng đến việc tạo ra một môi trường làm việc hiệu quả, an toàn và thoải mái. Điều này yêu cầu một sự cân nhắc kỹ lưỡng về không gian làm việc, hệ thống điện, quản lý chất thải và các khu vực phụ trợ. Hơn nữa, các yếu tố như tiếng ồn, độ ẩm, nhiệt độ cũng cần được quan tâm. Việc kiểm soát những yếu tố này giúp đảm bảo sức khỏe của nhân viên và tăng hiệu suất làm việc. Bên cạnh đó, nhà xưởng cũng cần tuân thủ các quy định về an tồn lao động, phịng cháy chữa cháy, bảo vệ môi trường. Nhà xưởng cũng cần được bảo dưỡng định kỳ để đảm bảo hoạt động ổn định và phịng tránh các rủi ro có thể xảy ra.

Nhắc đến nhà xưởng thì hạng mục phụ xung quanh nó cũng góp phần quan trọng khơng kém. Hạng mục phụ của nhà xưởng là các cơng trình, thiết bị và tiện ích hỗ trợ khơng trực tiếp liên quan đến q trình sản xuất chính trong nhà xưởng, nhưng lại đóng vai trị quan trọng trong việc tạo điều kiện làm việc an toàn, tiện nghi và hiệu quả. Các hạng mục phụ này thường bao gồm:

<b>- Nhà vệ sinh và nhà tắm: Bao gồm các cơng trình như nhà vệ sinh, nhà tắm, </b>

phịng vệ sinh và phòng tắm cho nhân viên trong nhà xưởng. Điều này đảm bảo rằng nhân viên có điều kiện vệ sinh cá nhân tốt và thoải mái trong quá trình làm việc.

<b>- Nhà ăn nhân viên: Là một khu vực được dành riêng để nhân viên trong nhà </b>

xưởng có thể ăn uống và nghỉ ngơi trong khoảng thời gian giải lao. Nhà ăn thường bao gồm khu vực ăn uống, bếp và các tiện ích khác để phục vụ nhân viên.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<small>PHẠM TẤN DŨNG - 217024514 </small>

<b>- Khu vực nghỉ giải lao: Đây là khu vực được thiết kế để nhân viên có thể nghỉ </b>

ngơi và giải lao trong khoảng thời gian nghỉ giữa ca làm việc. Khu vực này có thể bao gồm các khu vực ghế ngồi, khu vực xanh, hoặc các tiện ích giải trí khác như phòng chơi game, phòng gym.

<b>- Khu vực tiếp khách: Đối với những nhà xưởng có quy mơ lớn hoặc có nhu </b>

cầu tiếp đón khách hàng, khu vực tiếp khách được thiết kế để chào đón và tiếp đón khách hàng. Điều này có thể bao gồm khu vực tiếp tân, phòng họp và khu vực chờ.

<b>- Khu vực bảo vệ và an ninh: Bao gồm các cơng trình như nhà bảo vệ, hàng </b>

rào, hệ thống camera an ninh và các biện pháp bảo vệ khác để đảm bảo an toàn và bảo vệ tài sản của nhà xưởng.

<b>- Ký túc xá nhân viên: Đối với những nhà xưởng có đội ngũ nhân viên từ xa, </b>

ký túc xá nhân viên cung cấp nơi ở cho nhân viên trong khoảng thời gian làm việc.

<b>- Khu vực bảo trì và sửa chữa: Bao gồm các phịng bảo trì, phịng sửa chữa </b>

và khu vực để lưu trữ các công cụ, vật liệu và linh kiện cần thiết để bảo trì và sửa chữa thiết bị trong nhà xưởng.

<b>- Hệ thống điện, nước và thoát nước: Bao gồm hệ thống điện chiếu sáng, hệ </b>

thống cung cấp nước sạch và hệ thống thoát nước để đảm bảo nguồn điện, nước và xử lý nước hiệu quả trong nhà xưởng.

Các hạng mục phụ này đóng vai trị quan trọng trong việc tạo mơi trường làm việc an tồn, tiện nghi và hiệu quả cho nhân viên trong quá trình hoạt động của nhà xưởng.

Với sự phát triển của công nghệ, các nhà xưởng ngày nay đang ngày càng trở nên thông minh hơn với việc áp dụng các giải pháp tự động hóa, robot hóa, IoT, AI... giúp tăng cường hiệu suất, giảm thiểu lỗi và tiết kiệm chi phí. Như vậy, nhà xưởng khơng chỉ đóng vai trị quan trọng trong việc sản xuất hàng hóa mà cịn góp phần tạo ra mơi trường làm việc chất lượng cho công nhân. Việc thiết kế và quản lý nhà xưởng

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

<small>PHẠM TẤN DŨNG - 217024515 </small>đúng cách sẽ đóng một vai trị quan trọng trong sự thành công của một doanh nghiệp công nghiệp.

<b>2.1.1. Support Vector Machine (SVM) </b>

Support Vector Machine (SVM) là một mơ hình học máy được sử dụng chủ yếu cho các bài tốn phân loại. Nó hoạt động dựa trên nguyên lý tạo ra một "siêu phẳng" (hyperplane) trong không gian nhiều chiều của dữ liệu, với mục tiêu là tối ưu hóa sự phân chia giữa các lớp dữ liệu. Cụ thể, SVM tìm cách tối ưu hóa khoảng cách giữa siêu phẳng và điểm dữ liệu gần nhất từ mỗi lớp, đây được gọi là "margin".

Trong không gian hai chiều, siêu phẳng này trở thành một đường thẳng, chia mặt phẳng thành hai khu vực, mỗi khu vực đại diện cho một lớp. Mục đích của SVM là xác định đường thẳng này sao cho nó có khoảng cách lớn nhất đến điểm gần nhất của mỗi lớp. Điều này giúp đảm bảo rằng SVM phân loại dữ liệu mới một cách chính xác. SVM là một thuật tốn phân loại nhị phân, nghĩa là nó phân loại dữ liệu vào một trong hai lớp. Trong quá trình học có giám sát, thuật tốn SVM sử dụng một tập hợp dữ liệu đã được gán nhãn (labeled data) để học cách xây dựng mơ hình phân loại. Một khi mơ hình được xây dựng, nó có thể sử dụng để phân loại dữ liệu mới vào một trong hai thể loại đã được học. (Quản Thành Thơ, 2020) [58]

Với những dữ liệu phức tạp không thể được phân loại chính xác chỉ bằng một đường thẳng, SVM sử dụng kỹ thuật gọi là "kernel trick" để chuyển đổi dữ liệu vào một không gian nhiều chiều hơn, nơi việc tìm siêu phẳng tối ưu trở nên khả thi hơn [58].

<i><small>Hình 2.2 Support Vector Machine (SVM), nguồn: Internet of Things, 2022 </small></i>

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

<small>PHẠM TẤN DŨNG - 217024516 </small>

<b>2.1.2. Linear Regression (hồi quy tuyến tính) </b>

Hồi quy tuyến tính là một trong những kỹ thuật phân tích dự đốn cơ bản và rất phổ biến. Nó tập trung vào hai khía cạnh chính:

<i><b>- Đánh Giá Tính Phù Hợp của Biến Độc Lập: Xác định xem liệu nhóm các biến </b></i>

độc lập có khả năng dự đốn đáng tin cậy biến phụ thuộc hay không. Điều này bao gồm việc kiểm tra mức độ mà các biến độc lập giải thích được sự biến đổi của biến phụ thuộc [58].

<i><b>- Tác Động của Các Biến Độc Lập: Phân tích xem những biến nào có ảnh hưởng </b></i>

đáng kể đến biến phụ thuộc và ảnh hưởng đó diễn ra như thế nào. Mục tiêu là xác định mối quan hệ giữa các biến và hiểu rõ hơn về cách chúng tác động lẫn nhau [58].

<i><small>Hình 2.3 Mơ hình hổi quy tuyến tính (Linear Regression Model), Nguồn: TOOLBOXTM</small></i>

Ba ứng dụng chính của hồi quy tuyến tính bao gồm:

<b>- Xác định Mức Độ Ảnh Hưởng của Các Biến Dự Đoán: Đánh giá cách các biến </b>

độc lập ảnh hưởng đến biến phụ thuộc, giúp hiểu rõ mối quan hệ giữa chúng.

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

<small>PHẠM TẤN DŨNG - 217024517 </small>

<b>- Dự Đoán Ảnh Hưởng của Sự Thay Đổi Giá Trị: Dự đoán sự thay đổi kết quả </b>

của biến phụ thuộc khi có sự biến đổi trong các biến độc lập. Điều này hữu ích trong việc đánh giá tác động của sự thay đổi các yếu tố đầu vào.

<b>- Dự Đoán Xu Hướng và Giá Trị Tương Lai: Sử dụng phân tích hồi quy để dự </b>

đốn sự thay đổi trong tương lai, như dự đoán giá cả sản phẩm dựa trên các yếu tố thị trường. Đây là ứng dụng phổ biến trong lĩnh vực kinh tế và tài chính. Hồi quy tuyến tính là một cơng cụ mạnh mẽ giúp hiểu và dự đoán mối quan hệ giữa các biến, hỗ trợ trong việc ra quyết định dựa trên dữ liệu.

<b>2.1.3. Mạng thần kinh nhân tạo (Artificial Neural Network - ANN) </b>

Mạng Nơ-ron Nhân Tạo (ANN) là một mơ hình máy tính được phát triển dựa trên cấu trúc và chức năng của hệ thần kinh não người. ANN bắt chước cách thức học và xử lý thông tin của não bộ, thông qua việc sử dụng các đơn vị tính tốn được gọi là "nơ-ron nhân tạo"(Artificial Neural) hoặc "nút"(Node). Các nơ-ron này được kết nối với nhau bởi các liên kết có trọng số, mỗi nơ-ron nhận thông tin từ các nơ-ron khác, xử lý thơng tin đó dựa trên trọng số và hàm kích hoạt rồi chuyển tiếp kết quả đến các nơ-ron tiếp theo [59].

Cấu trúc của ANN bao gồm ba lớp chính:

<b>- Lớp Đầu Vào (Input Layer): Nhận dữ liệu đầu vào và chuyển tiếp nó tới các </b>

lớp tiếp theo mà không thực hiện xử lý nào đáng kể.

<b>- Các Lớp Ẩn (Hidden Layers): Được tạo bởi một hoặc nhiều lớp nơ-ron, nơi </b>

xử lý thơng tin thơng qua các trọng số và hàm kích hoạt để tạo ra các đặc trưng phức tạp từ dữ liệu đầu vào.

<b>- Lớp Đầu Ra (Output Layer): Tạo ra kết quả cuối cùng của mạng, dựa trên </b>

thông tin được xử lý từ các lớp trước.

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

<small>PHẠM TẤN DŨNG - 217024518 </small>

<i><small>Hình 2.4 Mạng thần kinh nhân tạo (Artificial Neural Network - ANN), Nguồn: zilliz.com </small></i>

ANN học từ dữ liệu bằng cách điều chỉnh trọng số liên kết giữa các nơ-ron thông qua q trình học có giám sát, thường sử dụng thuật toán lan truyền ngược để giảm thiểu sai số giữa kết quả dự đoán và giá trị thực tế. ANN được áp dụng rộng rãi trong các lĩnh vực như nhận dạng mẫu, dự đốn, phân loại, xử lý ngơn ngữ tự nhiên, và tự động hóa. Với khả năng xử lý thông tin phức tạp và khả năng học tập, ANN trở thành công cụ không thể thiếu trong trí tuệ nhân tạo và khoa học máy tính.

<b>2.1.4. Decision Tree (DT) </b>

Cây quyết định (Decision Tree) là một mơ hình học máy thuộc loại học có giám sát, hiệu quả cho cả phân lớp (classification) và hồi quy (regression), nhưng thường được ưa chuộng hơn trong bài toán phân lớp. Trong tài liệu này, chúng ta tập trung vào việc sử dụng cây quyết định cho phân lớp.

Cây quyết định được biểu diễn như một lưu đồ (flowchart) với cấu trúc hình cây, bao gồm các thành phần chính sau:

<b>- Leaf Node (Nút lá): Đây là các nút khơng có con, thường được biểu diễn bằng </b>

hình trịn, chứa nhãn lớp mà dữ liệu được phân loại vào, dựa trên các thuộc tính đã được phân tích.

<b>- Internal Node (Nút nội bộ): Là các nút có ít nhất hai con, biểu diễn bằng hình </b>

chữ nhật, đại diện cho một tiêu chí hoặc thuộc tính cần đánh giá. Các thuộc tính này có thể ở dạng rời rạc (categorical) hoặc liên tục (continuous).

<b>- Root Node (Nút gốc): Là nút đầu tiên trong cây, khơng có nút cha. </b>

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

<small>PHẠM TẤN DŨNG - 217024519 </small>

<b>- Branch (Nhánh): Là đường nối các nút, thể hiện giá trị của thuộc tính. Con </b>

đường từ nút gốc qua các nút nội bộ và các nhánh tới nút lá thể hiện quy tắc phân loại.

<i><small>Hình 2.5 Mơ tả một cây quyết định liên quan đến việc chơi golf và các yếu tố có thể ảnh hưởng đến việc bạn sẽ chơi dưới hay trên chuẩn (par), Nguồn: mastersindatascience </small></i>

Xây dựng cây quyết định trên dữ liệu huấn luyện bao gồm việc xác định các câu hỏi và thứ tự của chúng. Các câu hỏi thường được đặt cho từng thuộc tính riêng lẻ hoặc một kết hợp của chúng, nhưng phổ biến nhất là cách tiếp cận đơn giản, tập trung vào mỗi thuộc tính riêng biệt. Câu hỏi thường ở dạng: "Thuộc loại nào?" cho thuộc tính rời rạc hoặc "Nằm trong ngưỡng nào?" cho thuộc tính liên tục. Thứ tự của các câu hỏi được sắp xếp để quá trình dự đốn sau này diễn ra chính xác và nhanh chóng nhất có thể. (Quản Thành Thơ, 2020) [58]

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

<small>PHẠM TẤN DŨNG - 217024520 </small>

<b>2.1.5. Random Forest (RF) </b>

Rừng ngẫu nhiên, hay random forest, là một phương pháp học máy dưới sự giám sát, hiệu quả trong cả hai loại bài toán: phân loại và hồi quy. Mơ hình này bao gồm nhiều cây quyết định, mỗi cây được tạo ra từ một tập dữ liệu huấn luyện ngẫu nhiên, dựa trên dữ liệu gốc. Dự đoán của rừng ngẫu nhiên được thực hiện bằng cách lấy ý kiến đa số từ các cây quyết định.

Vận hành của rừng ngẫu nhiên có thể so sánh với một quy trình quyết định nhóm, nơi mỗi thành viên (tương ứng với mỗi cây quyết định) mang lại kinh nghiệm và quan điểm riêng từ tập dữ liệu huấn luyện khác nhau. Phương pháp "bỏ phiếu" để chọn dự đoán phổ biến nhất giúp rừng ngẫu nhiên đạt kết quả chính xác hơn so với một cây quyết định đơn lẻ, đồng thời giảm thiểu vấn đề overfitting. [58]

………

Yếu tố "ngẫu nhiên" trong mơ hình này được thể hiện qua hai cách chính:

Quyết định 1 Quyết định 1 Quyết định 1

Bỏ phiếu

Quyết định cuối cùng

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

<small>PHẠM TẤN DŨNG - 217024521 </small>

<b>- Sử dụng phương pháp bootstrapping để tạo ra các tập dữ liệu huấn luyện mới </b>

từ tập dữ liệu ban đầu, nơi một số điểm dữ liệu được chọn lặp lại, tạo nên sự đa dạng trong tập huấn luyện của mỗi cây.

<b>- Chọn ngẫu nhiên một tập con các thuộc tính để phân chia ở mỗi node trên cây </b>

quyết định. Thơng thường, số lượng thuộc tính được chọn bằng căn bậc hai của tổng số thuộc tính, ví dụ với 16 thuộc tính, mỗi node sẽ xem xét 4 thuộc tính ngẫu nhiên cho việc phân chia.

<i><small>Hình 2.6 Mơ hình Rừng ngẫu nhiên (Random Forest), Nguồn: humg.edu.vn </small></i>

<b>2.1.6. XGBOOST (Extreme Gradient Boosting) </b>

"Weak learners" là một thuật ngữ được sử dụng trong lĩnh vực học máy, đặc biệt là trong ngữ cảnh của các thuật toán tăng cường (boosting algorithms). Một weak learner là một mơ hình học máy có khả năng phân loại hoặc dự đốn chỉ hơi tốt hơn ngẫu nhiên, nghĩa là hiệu suất của nó chỉ cao hơn một chút so với việc đưa ra dự đoán

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

<small>PHẠM TẤN DŨNG - 217024522 </small>bằng cách "đốn mị". Trong thuật tốn tăng cường, nhiều weak learners được kết hợp lại để tạo thành một "strong learner" - một mơ hình có khả năng dự đốn hoặc phân loại chính xác cao. Điều này được thực hiện bằng cách cho mỗi weak learner "bỏ phiếu" và sau đó kết hợp các phiếu bầu này để đưa ra dự đoán cuối cùng. Mỗi weak learner thường được huấn luyện trên các phần khác nhau của dữ liệu hoặc được huấn luyện để chú trọng vào các mẫu mà các learners trước đó đã dự đốn sai. [38]

XGBoost (XGB) được biết đến là một phương pháp học tuần tự, cung cấp kết quả tiên tiến nhất cho các ứng dụng học máy (ML) trong nhiều lĩnh vực. Về mặt khái niệm, mơ hình boosting là một chuỗi các weak learners (ví dụ, các cây quyết định - Decision Trees, DTs) được thêm vào liên tiếp trong bộ ensemble (kết hợp nhiều mơ hình học máy) để nâng cao khả năng dự đốn của mơ hình. XGBoost giải quyết nguy cơ overfitting (quá khớp) cao và chi phí tính tốn của Gradient Boosting (GB) bằng cách thêm các tham số điều chuẩn vào hàm mục tiêu ban đầu, điều này giúp kiểm soát độ phức tạp của mơ hình và sử dụng thuật tốn phân bố quantile trọng số xấp xỉ để học cây gần đúng. Điều này làm cho XGBoost không chỉ hiệu quả về mặt tính tốn mà cịn giúp tăng cường khả năng chống lại overfitting, một vấn đề thường gặp trong các mơ hình máy học truyền thống. Sự kết hợp giữa các weak learners trong một cách tiếp cận tuần tự, cùng với việc sử dụng các kỹ thuật điều chuẩn và học gần đúng, đã biến XGBoost thành một trong những công cụ học máy mạnh mẽ và linh hoạt nhất hiện nay. [38]

Các đặc điểm chính của XGBOOST là:

<i><b>- “Boosting”: XGBoost là một phương pháp của "boosting", nghĩa là nó kết hợp </b></i>

nhiều mơ hình yếu (thường là cây quyết định) thành một mơ hình mạnh mẽ. Trong XGBoost, các mơ hình được xây dựng tuần tự, với mỗi mơ hình tiếp theo cố gắng khắc phục các lỗi của mơ hình trước.

<i><b>- Tối Ưu Hóa Gradient: XGBoost áp dụng tối ưu hóa gradient (một vector chứa </b></i>

tất cả các đạo hàm riêng của một hàm số tại một điểm cụ thể) để giảm thiểu sai số trong quá trình huấn luyện, tối ưu hóa hiệu suất của mơ hình.

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

<small>PHẠM TẤN DŨNG - 217024523 </small>

<i><b>- Regularization: Một trong những ưu điểm của XGBoost là nó bao gồm cả </b></i>

regularization (một kỹ thuật được sử dụng để ngăn chặn việc mô hình quá khớp với dữ liệu huấn luyện – L1 và L2), giúp ngăn chặn hiện tượng overfitting, làm cho mơ hình ổn định và chính xác hơn.

<i><b>- Hiệu Suất Cao: XGBoost được thiết kế để hiệu quả về mặt tài nguyên và thời </b></i>

gian tính tốn. Nó tận dụng tối đa phần cứng và có thể chạy nhanh trên cả máy tính cá nhân và các hệ thống phân tán lớn.

<i><b>- Xử Lý Dữ Liệu Thiếu Sót: XGBoost có khả năng tự động xử lý các giá trị thiếu </b></i>

trong dữ liệu, làm giảm nhu cầu cho việc tiền xử lý dữ liệu phức tạp.

<i><b>- Đa Dạng Ứng Dụng: Nó được ứng dụng trong nhiều lĩnh vực khác nhau như </b></i>

tài chính, y học, sinh học, và nhiều ngành cơng nghiệp khác, nhờ khả năng dự đốn chính xác và hiệu quả cao.

<b>2.2. Các hàm và phương pháp phổ biến trong Machine Learning: </b>

Trong lĩnh vực học máy (Machine Learning), có một số hàm và phương pháp phổ biến được sử dụng rộng rãi cho các mục đích khác nhau, từ xử lý dữ liệu, huấn luyện mơ hình, đến đánh giá hiệu suất. Dưới đây là một số hàm và phương pháp trong ML phổ biến:

<i>Bảng 2.1: Các hàm và phương pháp trong học máy </i>

<b>1. Hàm mất mát (Loss Functions) </b>

Mean Squared Error (MSE) Hồi quy tuyến tính và hồi quy đa biến

Cross-Entropy Loss Mạng nơ-ron ANN, Convolutional Neural Networks (CNNs)

Hinge Loss

Sử dụng trong Support Vector Machine (SVM) cho bài toán

phân loại

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

<small>PHẠM TẤN DŨNG - 217024524 </small>

<b>2. Hàm kích hoạt (Activation Functions) </b>

ReLU Phổ biến trong mạng ron sâu, CNNs và mạng ron truy hồi (Recurrent Neural Networks - RNNs) Sigmoid Sử dụng ở lớp đầu ra của các mô hình phân loại nhị

nơ-phân

Softmax Sử dụng ở lớp đầu ra của các mơ hình phân loại đa lớp

<b>3. Thuật tốn tối ưu hóa (Optimization Algorithm) </b>

Gradient Descent

Được sử dụng trong hầu hết các mơ hình học máy, đặc biệt là trong mạng nơ-ron sâu

Stochastic Gradient Descent (SGD)

Adam (Adaptive Moment Estimation)

<b>4. Chỉ số đánh giá (Evaluation Metrics) </b>

Độ chính xác (Accuracy) Được sử dụng trong hầu hết các thuật toán phân loại Precision và Recall Sử dụng trong các bài tốn phân loại, đặc biệt hữu ích

trong các tình huống có dữ liệu khơng cân đối hoặc khi chi phí của các loại lỗi khác nhau.

F1 Score

<b>5. Chuẩn hóa (Normalization) </b>

Standardization

(Z-score Normalization)

Có thể được sử dụng trước khi đưa dữ liệu vào hầu hết các mơ hình học máy, bao gồm hồi quy tuyến tính, SVM, và mạng nơ-ron.

Min-Max Scaling

<b>6. Khoảng cách (Distance Metrics) </b>

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

<small>PHẠM TẤN DŨNG - 217024525 </small>Euclidean Distance Thường được sử dụng trong thuật toán phân cụm như

K-Means hoặc trong các thuật toán phân loại dựa trên khoảng cách như K-Nearest Neighbors (KNN). Manhattan Distance

<b>2.2.1. Hàm Mất Mát (Loss Functions): 2.2.1.1. Hàm MSE (Mean Squared Error) </b>

Hàm Mean Square Error (MSE), hay cịn gọi là lỗi trung bình bình phương, là một hàm mất mát (loss function) phổ biến trong học máy, đặc biệt trong các bài toán hồi quy (regression). MSE đo lường mức độ chênh lệch giữa các giá trị dự đốn của mơ hình và giá trị thực tế. Cơng thức của MSE là trung bình của bình phương các sai số giữa dự đốn và thực tế. [59]

Công thức của MSE là:

1 ( - )

<i><small>nii</small></i>

<i>MSE<sub>n</sub>y y</i>

Trong đó:

• n là số lượng mẫu dữ liệu

• yi là giá trị thực tế của mẫu thứ i •

<i>y</i>

<small> là giá trị dự đoán của mẫu thứ i </small>

MSE cung cấp một chỉ số định lượng cho việc đánh giá chất lượng của mơ hình học máy: một giá trị MSE thấp cho thấy mơ hình có khả năng dự đốn chính xác hơn so với một giá trị MSE cao. Hàm này đặc biệt hữu ích trong các tình huống mà bạn muốn trừng phạt các dự đoán sai lệch lớn, bởi vì các sai số lớn được làm tăng cường do tính chất bình phương trong cơng thức.

<b>2.2.1.2. Hàm Cross-Entropy: </b>

Hàm mất mát Cross Entropy, còn được gọi là log loss, là một hàm mất mát phổ biến sử dụng trong các bài toán phân loại (classification) trong học máy, đặc biệt

</div>

×