Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.35 MB, 61 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<b>TRƯỜNG ĐẠI HỌC VĂN LANGKHOA QUẢN TRỊ KINH DOANH</b>
<b>BÁO CÁO CUỐI KÌ</b>
<b>TÊN ĐỀ TÀI: </b>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><b>NHẬN XÉT CỦA GIẢNG VIÊN</b>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><b>LỜI CẢM ƠN</b>
Lời đầu tiên nhóm xin gửi lời cảm ơn chân thành và sâu sắc tới các Cô Bùi Tuyết Anh khoa Quản trị kinh doanh trường Đại học Văn Lang đã tạo điều kiện cho chúng em có cơ hội được học tập mơn Phân Tích Kinh Doanh, và đã tận tình giảng dạy, dành thời gian, công sức và tâm huyết để giảng dạy và hướng dẫn nhóm thực hiện nghiên cứu này. Nhờ sự hướng dẫn tận tình của cơ, nhóm đã có cơ hội được tiếp cận với những kiến thức cũng như những kỹ năng cần thiết để áp dụng phân tích dữ liệu vào thực tế.
Mơn Phân Tích Kinh Doanh là một mơn học có tính ứng dụng thực tế cao, nhưng cũng đòi hỏi nhiều kiến thức và kỹ năng, đặc biệt là khả năng suy nghĩ, phân tích logic và tự nghiên cứu. Tuy nhiên, nhóm chúng em nhận thấy đây là một mơn học vơ cùng bổ ích và thực tế, bởi nó giúp chúng em mở rộng tư duy, định hướng các phương pháp làm việc và nghiên cứu mới trong tương lai, bắt kịp xu hướng thay đổi nhanh chóng của thế giới. Trong q trình thực hiện bài báo cáo, nhóm chúng em đã cố gắng hết sức để thu thập và phân tích dữ liệu một cách chính xác và khách quan. Tuy nhiên, do giới hạn về thời gian và nguồn lực, bài báo cáo của chúng em vẫn còn một số thiếu sót. Vì vậy, nhóm chúng em rất mong nhận được sự góp ý và đánh giá chân thành của cơ để bài nghiên cứu được hồn thiện hơn, có giá trị về mặt lý luận và thực tiễn, cũng như là nguồn tham khảo bổ ích cho nhóm trong tương lai. Nhóm chúng em xin chân thành cảm ơn các cô đã dành thời gian và công sức để giảng dạy và hướng dẫn nhóm. Chúng em sẽ tiếp tục cố gắng học tập và nghiên cứu, để có thể ứng dụng những kiến thức đã học vào thực tế, góp phần phát triển kinh tế - xã hội.
Chúng em xin chân thành cảm ơn!
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><b>Mức độhồnthành</b>
1 Hồng Thuỵ Vy 2173401011172
Tìm hiểu bài tốn dự đốn giá xe ơ tơ, tìm hiểu các mơ hình Machine Learning
2 <sup>Phạm Trường</sup>
Nghiên một số bài báo liên quan dự đốn giá xe ơ tơ và tìm hiểu các mơ hình hồi quy
3 <sup>Nguyễn Tấn</sup>
Thành <sup>2173401011180</sup>
Triển khai mơ hình Machine Learning lên Azure và trực quan hóa dữ liệu trên Colab
Kiều Trang <sup>2173401011250</sup>
Thực hiện Deploy mơ hình trên Azure và test dữ liệu, tìm hiểu các hệ số lỗi
5 Hồ Huỳnh Nhi 2173401011145
Thực hiện Deploy mơ hình trên Azure và test dữ liệu, tìm hiểu
các hệ số lỗi
6 Phạm Thị Thảo 2173401011147 <sup>Viết báo cáo, nhật xét và đánh</sup>
giá mơ hình, từ đó tổng kết lại. <sup>100%</sup>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><b>DANH MỤC HÌNH ẢNH</b>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><b>DANH MỤC BẢNG BIỂU</b>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><b>MỤC LỤC</b>
<b>CHƯƠNG 1: GIỚI THIỆU...</b>
1.1 Giới thiệu đề tài...
1.2 Mục tiêu nghiên cứu...
1.3 Phạm vi nghiên cứu...
<b>CHƯƠNG 2: CƠ SỞ LÝ THUYẾT...</b>
2.1 Đôi nét về machine learning...
2.2 Workflow trong Machine Learning...
2.3 Giới thiệu phương pháp hồi quy trong Machine Learning...
2.4 Giới thiệu một số thuật toán tối ưu hóa...
<b>CHƯƠNG 3: MƠ TẢ DỮ LIỆU...</b>
3.1 Mơ tả dữ liệu...
3.2 Đặc điểm và nội dung của bộ dữ liệu...
3.3 Trực quan hóa dữ liệu...
<b>CHƯƠNG 4: PHÂN TÍCH DỮ LIỆU...</b>
4.1 Linear Regression...
4.2 Gradient Boosting Regression...
4.3 Đánh giá mơ hình...
<b>CHƯƠNG 5: THẢO LUẬN VÀ KẾT LUẬN...</b>
<b>TÀI LIỆU THAM KHẢO...</b>
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><b>TĨM TẮT BÀI BÁO</b>
Các cơng ty trong ngành cơng nghiệp xe hơi trực tuyến đang sử dụng kỹ thuật học máy để đưa ra các ước tính về giá trị của các loại xe ô tô. Nghiên cứu "Dự Đốn Giá Xe Ơ Tơ Bằng Mơ Hình Hồi Quy tại Mỹ" nhằm xác định những yếu tố có ảnh hưởng đáng kể đến giá của các loại xe ô tô tại thị trường Mỹ. Dữ liệu được thu thập từ lịch sử giao dịch mua bán xe ô tô trong khoảng thời gian từ tháng 5 năm 2014 đến tháng 5 năm 2015.
Bằng cách áp dụng các mơ hình học máy phổ biến như Linear Regression, Bayesian Linear Regression, Random Forest Regression và Gradient Boosted Decision Trees, nhóm nghiên cứu đã xây dựng một mơ hình dự đốn giá xe ô tô tại Mỹ. Qua việc sử dụng các phần mềm như Azure Machine Learning và Google Colaboratory, nhóm đã tinh chỉnh và huấn luyện các mơ hình này một cách hiệu quả.
Kết quả nghiên cứu đã xác định được các yếu tố quan trọng ảnh hưởng đến giá của xe ơ tơ tại Mỹ, có thể bao gồm các thông số kỹ thuật, thương hiệu, tuổi đời, điều kiện của xe, và các yếu tố khác có thể ảnh hưởng đến giá trị của xe.
Từ kết quả này, nhóm nghiên cứu đề xuất một mơ hình dự đốn chính xác nhất để hỗ trợ ngành cơng nghiệp xe ơ tơ. Mơ hình này có thể giúp các doanh nghiệp trong lĩnh vực xe ơ tơ dự đốn giá trị của xe dựa trên các thông số cụ thể của từng chiếc xe, hoặc có thể hỗ trợ chính sách định giá của các nhà sản xuất và đại lý xe ô tô.
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">Nghiên cứu này hy vọng rằng thông qua việc xác định các yếu tố quyết định giá trị xe ô tô, sẽ giúp cải thiện dự đốn giá của các loại xe khơng chỉ tại Mỹ mà còn ở các thị trường xe ô tô khác trên thế giới. Bài báo cũng nhấn mạnh vào việc phân tích các hạn chế của nghiên cứu và đề xuất những hướng đi tiếp theo và giải pháp áp dụng cho ngành công nghiệp xe ô tô.
Một công ty ô tô Trung Quốc Geely Auto mong muốn thâm nhập thị trường Hoa Kỳ bằng cách thành lập đơn vị sản xuất của họ ở đó và sản xuất ô tô tại địa phương để cạnh tranh với các đối tác Hoa Kỳ và Châu Âu. Họ đã ký hợp đồng với một công ty tư vấn ô tô để hiểu các yếu tố ảnh hưởng đến việc định giá ô tô. Cụ thể, họ muốn hiểu các yếu tố ảnh hưởng đến giá ô tô tại thị trường Mỹ, vì những yếu tố đó có thể rất khác so với thị trường Trung Quốc. Công ty muốn biết: Những biến số nào có ý nghĩa quan trọng trong việc dự đốn giá ơ tơ, những biến đó mô tả giá của một chiếc ô tô tốt như thế nào
Dựa trên nhiều cuộc khảo sát thị trường khác nhau, công ty tư vấn đã thu thập được một bộ dữ liệu lớn về các loại ô tô khác nhau trên thị trường Mỹ
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><i>Hình 1.1 Bảng so sánh doanh số bán xe mới của một số khu vực trên thế giới năm 2022 </i>
Dự đoán giá xe là một nhiệm vụ không hề đơn giản, bởi nó phụ thuộc vào rất nhiều yếu tố tác động. Các yếu tố như số cửa trên xe, chiều cao, chiều rộng và xe sử dụng nhiên liệu gì hoặc các yếu tố khác đều ảnh hưởng đến giá xe. Do đó, sử dụng các mơ hình machine learning và các phương pháp dự đốn trở thành một cơng cụ mạnh mẽ giúp cung cấp thông tin quan trọng cho người dự định mua và bán xe. Điều này giúp họ đưa ra quyết định thông minh, dựa trên dữ liệu và thơng tin chính xác, trong bối cảnh thị trường định giá xe phức tạp và biến đổi liên tục.
Từ những vấn đề trên, nhóm quyết định chọn đề tài “Nghiên cứu mơ hình dự đốn xe tại Mỹ” làm đề tài báo cáo của nhóm.
<b>1.2 Mục tiêu nghiên cứu</b>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">Mục tiêu nghiên cứu của chúng ta sẽ dự đốn giá xe ơ tơ, giá xe là biến liên tục vì vậy chúng ta sẽ sử dụng mơ hình hồi quy trong Machine Learning. Bằng các mơ hình nhóm đã tìm hiểu được như Linear Regression, Bayesian Linear Regression, Boosted Decision Tree Regression, Random Forest Regression. Chúng ta sẽ giải quyết được mục tiêu nghiên cứu chính của là dự đốn giá xe tại Mỹ thông qua các yếu tố ảnh hưởng tới giá xe bằng cơng cụ Azure Machine Learning để tìm ra mơ hình tốt nhất, và từ đó chúng ta cũng có thể tìm ra những thuộc tính quan trọng ảnh hưởng tới việc dự đoán giá xe. Từ những mục tiêu đó nhóm đặt ra những câu hỏi cần phải trả lời như sau:
❖ Q1: Những yếu tố nào có thể được sử dụng để dự đốn giá của xe ô tô tại Mỹ? ➢ Đặc điểm kỹ thuật: Mơ hình xe, cơng nghệ, thơng số động cơ.
➢ Thị trường: Tình trạng cung cầu, xu hướng tiêu dùng, mức độ cạnh tranh. ➢ Vị trí: Các yếu tố địa lý, đặc điểm vùng miền ảnh hưởng đến giá xe.
❖ Q2: Mơ hình nào sẽ dự đốn giá xe tốt nhất dựa trên các thuộc tính của xe đã chọn? ➢ Từ danh sách các mơ hình như Linear Regression, Bayesian Linear
Regression, Boosted Decision Tree Regression, Random Forest Regression, chúng ta sẽ đánh giá mơ hình nào phù hợp nhất với dữ liệu về giá xe tại Mỹ. ➢ Có thể so sánh độ chính xác của các mơ hình để xác định mơ hình nào dự
đốn chính xác hơn.
❖ Q3: Lọc ra những yếu tố quan trọng nhất trong việc dự đốn giá xe để cải thiện mơ hình dự đoán.
➢ Sử dụng kỹ thuật feature importance hoặc các phương pháp tương tự để xác định những yếu tố ảnh hưởng lớn nhất đến giá xe.
➢ Thử lại mô hình với chỉ những yếu tố quan trọng nhất này để xem liệu mơ hình có cải thiện độ chính xác hay không.
➢ Sử dụng kỹ thuật feature importance hoặc các phương pháp tương tự để xác định những yếu tố ảnh hưởng lớn nhất đến giá xe.
➢ Thử lại mơ hình với chỉ những yếu tố quan trọng nhất này để xem liệu mơ hình có cải thiện độ chính xác hay khơng.
<b>1.3 Đối tượng, phạm vi nghiên cứu</b>
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><b>- Đối tượng nghiên cứu: Dự đoán giá xe ô tô tại thị trường Mỹ- Phạm vi nghiên cứu: </b>
❖ Phạm vi của nghiên cứu này bao gồm việc dự đốn, xác định và phân tích những yếu tố có ảnh hưởng đáng kể đến giá của các loại xe ô tô. Điều này được thực hiện thơng qua việc áp dụng các mơ hình học máy phổ biến như: Linear Regression, Bayesian Linear Regression, Random Forest Regression và Gradient Boosted Decision Trees.
❖ Bộ dữ liệu giá xe tại thị trường Mỹ được sử dụng để thực hiện mơ hình. Bộ dữ liệu bao gồm 205 dịng và 26 trường dữ liệu bao gồm:
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Nghiên cứu dự đốn giá xe ơ tơ là một lĩnh vực nghiên cứu có giá trị, có thể mang lại những đóng góp đáng kể cho những người mua ô tô, doanh nghiệp bán xe ô tô và cụ thể hơn như trong phần đặt vấn đề đã đề cập, một công ty Trung Quốc Geely Auto mong muốn thâm nhập thị trường Hoa Kỳ bằng cách thành lập đơn vị sản xuất của họ ở đó và sản xuất ô tô tại địa phương để cạnh tranh với các đối tác Hoa Kỳ và Châu Âu. Họ mong muốn hiểu các yếu tố ảnh hưởng đến việc định giá ơ tơ. Việc dự đốn chính xác giá ô tô tại Mỹ có thể đóng góp một số phần như:
<b>Đối với người mua xe ô tô:</b>
<b>Quyết định thông minh: Dự án cung cấp dữ liệu và thơng tin chính xác về giá xe ơ</b>
tơ dựa trên các yếu tố như thương hiệu, thông số kỹ thuật, vị trí và điều kiện vận hành. Người mua có thể sử dụng thông tin này để đưa ra quyết định mua xe thông minh hơn, tiết kiệm thời gian và tiền bạc.
<b>Hiểu rõ giá trị: Dự án giúp người mua hiểu rõ hơn về giá trị thực của một chiếc xe ơ</b>
tơ. Thơng qua các mơ hình dự đốn, họ có thể đánh giá liệu giá cả đề xuất có phản ánh đúng giá trị thực của xe hay khơng, từ đó tăng khả năng đàm phán và hỗ trợ quyết định mua xe.
<b>Đối với người bán xe ô tô:</b>
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14"> <b>Xác định giá bán hợp lý: Dự án cung cấp các yếu tố quan trọng ảnh hưởng đến giá</b>
xe ơ tơ. Người bán có thể dựa vào thông tin này để xác định mức giá bán hợp lý, tăng khả năng thu hút người mua và nhanh chóng bán xe.
<b>Nâng cao hiệu suất bán hàng: Hiểu rõ hơn về yếu tố quyết định giá xe giúp người</b>
bán điều chỉnh chiến lược bán hàng, tối ưu hóa giá cả và tăng cơ hội bán thành công.
<b>Đối với ngành công nghiệp ô tô:</b>
<b>Cải thiện dịch vụ và trải nghiệm khách hàng: Cung cấp thông tin chính xác về giá</b>
cả giúp ngành cơng nghiệp ơ tô cải thiện dịch vụ, tăng cường trải nghiệm mua bán
<b>của khách hàng. </b>
<b>Áp dụng công nghệ học máy trong thị trường: Dự án thể hiện sức mạnh của học</b>
máy trong việc dự đoán và ước lượng giá cả, tạo đà để áp dụng công nghệ này rộng rãi trong ngành công nghiệp ô tô để cải thiện quy trình kinh doanh và mua bán.
<b>Lập kế hoạch tồn kho: Phân tích dự đốn có thể giúp các đại lý ơ tơ ước tính nhu</b>
cầu và tối ưu hóa lượng xe tồn kho của họ. Nếu một số mẫu xe nhất định được dự đoán sẽ bán chạy trong mùa giải sắp tới, đại lý có thể dự trữ trước nhiều xe hơn. <b>Lập kế hoạch vòng đời của mơ hình: Phần mềm phân tích có thể phân tích dữ liệu</b>
về giá trong suốt vịng đời của các mẫu xe và xác định thời điểm tối ưu để làm mới và cập nhật mẫu xe. Điều này có thể tối đa hóa lợi nhuận của một mơ hình trước khi loại bỏ hoặc thay thế nó
Thị trường ô tô đã qua sử dụng là thị trường rất lớn và quan trọng đối với các nhà sản xuất ô tô. Thị trường xe cũ cũng rất có thể liên quan đến doanh số bán xe mới. Việc bán ô tô đã qua sử dụng tại cửa hàng bán lẻ ô tô mới và xử lý các khoản hoàn trả cho thuê cũng như trả lại đội xe từ các công ty cho thuê ô tô địi hỏi các nhà sản xuất ơ tơ phải tham gia vào thị trường ô tô đã qua sử dụng.
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">Các nhà sản xuất ô tô phải đối mặt với một số vấn đề trên thị trường xe đã qua sử dụng. Tình trạng lộn xộn sâu sắc trên thế giới, vấn đề chung là ngày càng nhiều người, sự cạnh tranh ngày càng tăng từ các nhà sản xuất khác và xu hướng sử dụng ô tô điện tử chỉ là một số yếu tố gây khó khăn cho việc bán xe đã qua sử dụng trên thị trường ô tô đã qua sử dụng, làm giảm tỷ suất lợi nhuận bán hàng. Do đó, các nhà sản xuất ơ tơ cần có hệ thống hỗ trợ quyết định tốt để duy trì lợi nhuận của việc kinh doanh ô tô. Thành phần cốt lõi của hệ thống như vậy là mơ hình dự đốn ước tính giá bán dựa trên thuộc tính của xe và các yếu tố khác. Mặc dù các nghiên cứu trước đây đã khám phá mơ hình thống kê về chi phí bán lại nhưng rất ít nghiên cứu đã cố gắng dự đốn chi phí bán lại với độ chính xác tối đa để hỗ trợ việc ra quyết định. Kết quả là, câu trả lời cho các câu hỏi sau đây khơng rõ ràng:
➢ Giá bán lại có thể dự đốn được như thế nào
➢ Độ chính xác tương đối của các phương pháp dự báo khác nhau và liệu một số phương pháp có đặc biệt hiệu quả hay không
➢ Với việc các cơ quan nghiên cứu thị trường chuyện ước tính giá trị cịn lại, việc các nhà sản xuất ô tô đầu tư vào mơ hình dự đốn chi phí bán lại của họ có hợp lý khơng?
Mục đích của cơng việc này là cung cấp câu trả lời chính xác hơn cho những câu hỏi đó. Dự án hiện tại thuộc danh mục Hồi quy. Dự án này chủ yếu là dự đoán giá của chiếc xe đã qua sử dụng. Trong cuộc sống ngày nay, mọi người đều muốn có một chiếc ô tô, nhưng vấn đề là ngân sách, vì vậy, trong dự án này, hãy xây dựng một mơ hình lấy các thông số nhất định làm đối số và đưa ra kết quả hoặc dự đoán giá của chiếc ô tô dựa trên các thông số đã cho. Mục tiêu của dự án này là xây dựng một mô hình máy học lấy các tính năng của ơ tơ làm đầu vào và dự đốn chi phí của chiếc ô tô. So sánh các mô hình hồi quy học máy được sử dụng nhiều nhất, ít sai sót hơn và dự đốn giá trị chính xác hơn của giá ô tô.
<b>2.1.1. Ảnh hưởng của dự đoán giá xe </b>
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">Tầm quan trọng của việc dự đoán chính xác giá trị của các xe ơ tơ đã qua sử dụng không thể phủ nhận. Công ty định giá xe ô tô VinEval đã cảm nhận một tác động đáng kể từ việc dự đốn khơng chính xác giá trị thực của những chiếc xe này. Điều này không chỉ ảnh hưởng đến hoạt động kinh doanh trực tiếp mà cịn gây ra những đợt dao động khơng ổn định trong lòng tin của khách hàng và thị trường nói chung. Sự khơng chính xác trong dự đốn giá xe đã tạo ra những khó khăn khơng đáng có trong việc cung cấp thơng tin chính xác và đáng tin cậy
Ảnh hưởng trực tiếp:
➢ Dự đoán sai giá của chúng tôi đã gây thất vọng cho cả người mua và người bán. Khi giá dự đoán cao hơn giá thực tế, người mua cảm thấy không công bằng và từ chối giao dịch, trong khi người bán khơng hài lịng với giá mà chúng tơi đưa ra. Ngược lại, nếu giá dự đoán thấp hơn giá thực, chúng tơi đang góp phần vào việc bán xe với giá không tương xứng với giá trị thực tế.
Ảnh hưởng gián tiếp:
➢ Dự đốn khơng chính xác cũng đã làm giảm niềm tin của cả người mua và người bán vào khả năng dự báo của chúng tôi. Điều này đã tạo ra sự không ổn định trong thị trường mà chúng tôi hoạt động, khiến cho các bên liên quan khơng cịn tin tưởng vào khả năng dự báo chính xác của chúng tơi.
➢ Các dự đốn khơng chính xác của chúng tơi cũng đã ảnh hưởng đến dự báo thị trường, gây khó khăn trong việc cung cấp thơng tin chính xác và đáng tin cậy về giá trị cịn lại của xe ơ tơ đã qua sử dụng."
➢ Điều này chỉ ra rằng việc dự đoán sai giá xe đã qua sử dụng không chỉ ảnh hưởng đến quyết định mua bán trực tiếp mà còn tác động lớn đến niềm tin và minh bạch trong thị trường tổ chức hoạt động.
<b>2.1.2. Các yếu tố ảnh hướng đến dự đốn giá xe</b>
Ngồi những yếu tố mà dữ liệu chúng ta đang có, hiện nay cơng tác nghiên cứu về các yếu tố ảnh hưởng tới dự đốn giá xe đã được nhiều nhà nghiên cứu tìm hiểu, nhóm tác giả nhận thấy có 2 yếu tố chính ảnh hưởng đến quyết định này là: Yếu tố cá nhân và Yếu tố tổ chức.
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">Yếu tố cá nhân:
➢ Kỹ năng và kinh nghiệm: Kỹ năng và kinh nghiệm của người dự đoán rất quan trọng. Sự hiểu biết sâu rộng về thị trường ô tô, kiến thức chuyên môn về các yếu tố ảnh hưởng đến giá xe, cũng như khả năng phân tích dữ liệu là yếu tố quyết định.
➢ Đánh giá và nhận xét: Khả năng đánh giá các thông số kỹ thuật, trạng thái vận hành của xe, và đưa ra nhận định chính xác về giá trị thực của xe là yếu tố quan trọng trong việc đưa ra dự đốn.
<b>➢ Tính khách quan: Sự khách quan trong việc đánh giá và dự đoán giá trị xe cũng như</b>
khả năng kiểm sốt cảm xúc để khơng để những yếu tố cá nhân ảnh hưởng quá mức đến quyết định.
Yếu tố tổ chức:
➢ Hệ thống dữ liệu và cơng nghệ: Cơng ty hoặc tổ chức có hệ thống dữ liệu tốt và sử dụng công nghệ hiện đại có thể tận dụng dữ liệu lớn để phân tích và dự đốn giá trị xe ơ tơ dựa trên các thơng số cụ thể. Tổ chức có uy tín và sự chun nghiệp cao thường có khả năng thu hút nguồn lực, dữ liệu tốt hơn và sự tin cậy cao hơn từ khách hàng. Điều này cũng tạo nên sự ổn định và niềm tin trong các dự đốn của họ.
➢ Quy trình và phương pháp làm việc: Các tổ chức thường có các quy trình chuẩn hóa và phương pháp làm việc cụ thể để dự đoán giá xe. Sự hệ thống và chuẩn mực giúp đảm bảo tính nhất quán và chính xác trong dự đoán.
<b>2.2 Các nghiên cứu liên quan</b>
Dưới đây sẽ là một số nghiên cứu liên quan tới việc dự đoán giá xe ô tô.
➢ Tên bài báo: "Predicting the Prices of Used Cars using Machine Learning for Resale" by Fahad Rahman Amik et al. (2021)
Bài viết này khám phá việc ứng dụng các mơ hình học máy để dự đốn giá ô tô đã qua sử dụng ở Bangladesh. Các tác giả so sánh hiệu suất của các mơ hình học máy khác nhau, bao gồm Công cụ hồi quy rừng ngẫu nhiên, Công cụ hồi quy cây bổ sung, Cơng cụ hồi quy đóng bao, Cây quyết định và phương pháp XG Boost. Họ nhận thấy rằng phương pháp XG Boost mang lại những dự đốn chính xác nhất.
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">➢ Tên bài báo: "Machine Learning Modeling to Estimate Used Car Prices" by Hankar Mustapha, Marouane Birjali (2023). Bài viết này đề xuất một mơ hình học máy để ước tính giá xe ơ tơ đã qua sử dụng.
Các tác giả sử dụng bộ dữ liệu về giá ô tô đã qua sử dụng từ một trang web thương mại điện tử của Đức và đào tạo các mơ hình học máy khác nhau, bao gồm hồi quy tuyến tính, hồi quy tuyến tính bội và hồi quy tăng cường độ dốc. Họ nhận thấy rằng hồi quy tăng cường độ dốc mang lại độ chính xác tốt nhất.
➢ Tên bài báo: "Prediction of prices for used car by using regression models" by Nitis Monburinon; Prajak Chertchom; Thongchai Kaewkiriya; Suwat Rungpheung; Sabir Buya; Pitchayakit Boonpou (2018).
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">Trong nghiên cứu này, các tác giả đã tiến hành một nghiên cứu so sánh về hiệu suất mơ hình dựa trên hồi quy. Dữ liệu được sử dụng trong nghiên cứu này được lấy từ trang thương mại điện tử của Đức và sau đó chuẩn bị dữ liệu được xử lý bằng ngôn ngữ lập trình python. Kết quả là, dữ liệu cuối cùng có 304.133 hàng và 11 thuộc tính. Tác giả đã kiểm tra dữ liệu bằng cách sử dụng hồi quy tuyến tính bội, hồi quy rừng ngẫu nhiên và cây hồi quy tăng cường độ dốc trên tập dữ liệu cụ thể đó. Mỗi mơ hình được đánh giá bằng cách sử dụng cùng một dữ liệu thử nghiệm. Sau đó, các kết quả được so sánh bằng cách sử dụng sai số MAE làm chiêu chí. Với mơ hình gradient boosted regression trees cho hiệu suất cao nhất chỉ với MAE = 0,28. Tiếp theo là random forest regression với MAE = 0,35 lỗi và multiple linear regression với MAE = 0,55.
Từ vào những bài báo đã được đề cập như trên, nhóm sẽ dựa vào bài báo "Prediction of prices for used car by using regression models" của nhóm tác giả Nitis Monburinon; Prajak Chertchom; Thongchai Kaewkiriya; Suwat Rungpheung; Sabir Buya; Pitchayakit Boonpou (2018) để thực hiện cho đồ án của nhóm.
<b>2.3 Phần mềm thực hiện triển khai mơ hình2.3.1 Azure Machine Learning</b>
Phần mềm Azure Machine Learning được Microsoft phát triển là một dịch vụ dựa trên cloud cung cấp bộ công cụ và tính năng tồn diện để xây dựng, triển khai và quản lý các mơ hình machine learning. Nó được thiết kế để nhiều người dùng sử dụng, từ các nhà khoa học và nhà phát triển dữ liệu đến người dùng doanh nghiệp có ít hoặc khơng có kinh nghiệm triển khai các mơ hình dự báo.
Dưới đây là các tính năng chính có trong Azure Machine Learning:
Chuẩn bị và xử lý trước dữ liệu: Azure Machine Learning cung cấp nhiều công cụ khác nhau để chuẩn bị dữ liệu như upload dữ liệu bằng máy local, online hoặc từ database. Azure có thể xử lý trước dữ liệu, bao gồm làm sạch dữ liệu, kỹ thuật tính năng và chuẩn hóa dữ liệu.
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"> Huấn luyện và thử nghiệm mơ hình: Tool Azure Machine Learning hỗ trợ nhiều thuật toán học máy, bao gồm học có giám sát, học khơng giám sát và học tăng cường. Nó cũng cung cấp các cơng cụ để điều chỉnh siêu tham số và lựa chọn mơ hình để chúng ta có khả năng sử dụng mơ hình tốt hơn.
Triển khai và quản lý mơ hình: Azure Machine Learning giúp dễ dàng triển khai các mơ hình machine learning vào thực tế. Nó cũng cung cấp các công cụ để theo dõi và quản lý các mô hình theo thời gian.
MLOps: Azure Machine Learning cung cấp một bộ tính năng MLOps giúp tự động hóa vịng đời máy học. Điều này bao gồm các tính năng để kiểm sốt phiên bản, khả năng tái tạo, tích hợp liên tục và phân phối liên tục (CI/CD).
Lợi ích của việc sử dụng Azure Machine Learning:
Giảm thời gian xây dựng mơ hình: Azure Machine Learning có thể giúp chúng ta xây dựng, triển khai và quản lý các mơ hình machine learning nhanh chóng và hiệu quả hơn.
Giảm chi phí: Chúng ta có thể giảm chi phí xây dựng và triển khai các mơ hình machine learning bằng cách cung cấp cơ sở hạ tầng có khả năng mở rộng và linh hoạt.
Tăng năng suất: Bên cạnh đó Azure Machine Learning có thể giúp chúng ta tăng năng suất của các nhà khoa học và nhà phát triển dữ liệu bằng cách cung cấp cho họ môi trường tự phục vụ để xây dựng và triển khai các mơ hình. Và chúng ta cũng có thể cải thiện khả năng quản trị các mơ hình học máy bằng cách cung cấp các công cụ để giám sát, kiểm tra và theo dõi các mơ hình.
Từ những đặc điểm đó của Azure Machine Learning chúng ta có thể dễ dàng triển khai nhiều dự án khác nhau.
<b>2.3.2 Google Colaboratory</b>
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">Google Colaboratory, còn được gọi là Colab. Google Colab là tài liệu cho phép bạn viết, chạy và chia sẻ mã Python trong trình duyệt của mình. Đây là phiên bản của Jupyter Notebook dựa trên đám mây miễn phí cho phép bạn viết và thực thi mã Python trong trình duyệt của mình. Nó cung cấp quyền truy cập vào các tài nguyên điện tốn mạnh mẽ, bao gồm GPU và TPU mà khơng yêu cầu bạn cài đặt bất kỳ phần mềm nào hoặc thiết lập bất kỳ cơ sở hạ tầng nào. Colab đặc biệt phù hợp với machine learning, khoa học dữ liệu và giáo dục. Các tính năng mạnh mẽ của Google Colaboratory có thể bao gồm:
Khơng cần thiết lập: Colab là dịch vụ dựa trên đám mây nên khơng cần cài đặt hoặc định cấu hình phần mềm. Tất cả những gì bạn cần là một trình duyệt web và tài khoản Google. Trong thời đại các mô hình Deep Learning phát triển mạnh mẽ, việc setup cấu hình cũng là một điều khó khăn, vì có thể phiên bản của thư viện này lại không khớp với phiên bản với thư viện khác. Vì vậy chúng gây cho ta mất nhiều thời gian khi xây dựng mô hình.
Cấu hình mạnh mẽ: Colab cung cấp quyền truy cập vào các tài nguyên điện toán mạnh mẽ, bao gồm cả GPU và TPU, có thể tăng tốc đáng kể các nhiệm vụ khoa học dữ liệu và học máy của chúng ta. Colab cung cấp miễn phí GPU và TPU cho chúng ta sử dụng, tuy nhiên để có thể sử dụng một cách mạnh mẽ hơn chúng ta có thể dùng phiên bản Colab Pro hoặc Colab Pro Puls, khi đó chúng ta sẽ có một cấu hình mạnh mẽ hơn.
Sử dụng dễ dàng: Google Colab có thể dễ dàng được chia sẻ với người khác, khiến đây trở thành công cụ cộng tác tuyệt vời. Sổ ghi chép Colab hỗ trợ định dạng văn bản đa dạng thức nên bạn có thể dễ dàng thêm hình ảnh, video và nội dung đa phương tiện khác vào sổ ghi chép của mình.
<b>2.4 Đơi nét về mơ hình Machine Learning</b>
Học máy (Machine Learning) là một lĩnh vực AI từng là thành phần chính của các giải pháp số hóa đã thu hút được nhiều sự cơng nhận trong lĩnh vực kỹ thuật số. Machine Learning được sử dụng ở mọi nơi, từ tự động hóa và thực hiện các nhiệm vụ nặng nề đến cung cấp những hiểu biết thông minh trong mọi ngành để hưởng lợi từ nó.
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">Thế giới hiện nay đã sử dụng những thiết bị phù hợp với những vấn đề này. Ví dụ: thiết bị theo dõi thể dục đeo được như Smart Band hay trợ lý nhà thơng minh như Alexa, Google Home. Tuy nhiên, cịn có nhiều ví dụ khác về học máy đang được sử dụng. Trong dự án này, nhiệm vụ là tìm ra giá của một chiếc ô tô. Tập dữ liệu về ơ tơ được lấy từ Kaggle, trong đó tập dữ liệu chứa các trường dữ liệu mô tả ô tơ. Nhiệm vụ của chúng ta là tìm ra biến nào có ý nghĩa quan trọng trong việc dự đốn giá của một chiếc ô tô và mức độ quan trọng của các biến này trong việc dự đoán giá ô tô.
Các thuật toán ML được đào tạo trên lượng lớn dữ liệu và chúng có thể được sử dụng để giải quyết nhiều vấn đề, bao gồm:
Classification: Xác định danh mục hoặc lớp dữ liệu, chẳng hạn như lọc thư rác hoặc nhận dạng hình ảnh.
Regression: Dự đoán các giá trị liên tục, chẳng hạn như dự đốn giá xe ơ tơ hoặc giá cổ phiếu.
Clustering: Nhóm các điểm dữ liệu thành các cụm dựa trên sự giống nhau của chúng. Anomaly detection: Xác định các điểm dữ liệu bất thường hoặc ngoại lệ.
Recommendation systems: Các mơ hình Machine Learning có thể đề xuất sản phẩm, phim hoặc các mặt hàng khác cho người dùng.
Bên cạnh đó mơ hình Machine Learning cũng được chia thành nhiều loại, chúng ta sẽ xem mô tả dưới đây:
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">Hình: Các loại mơ hình trong Machine Learning
Sau khi hiểu rõ mục tiêu, lý do chọn đề tài và một số cơ sở lý thuyết, trong chương này nhóm sẽ mơ tả ngắn gọn về tập dữ liệu bao gồm phương pháp tìm kiếm tập dữ liệu, đặc điểm, đặc điểm của từng biến trong tập dữ liệu và các bước thực hiện xử lý tập dữ liệu trước khi phân tích mơ hình nghiên cứu của đề tài. Đồng thời, nhóm cũng sẽ trình bày phương pháp nghiên cứu sử dụng mơ hình hồi quy với 4 thuật tốn: Linear Regression, Bayesian Linear Regression, Boosted Decision Tree Regression, Random Forest Regression. Để xử lý và trực quan hóa dữ liệu, chúng ta sẽ sử dụng studio Azure Machine Learning, nơi cung cấp giao diện thân thiện với người dùng để nhập dữ liệu, tính năng tiền xử lý, định cấu hình mơ hình học máy và phân tích hiệu suất mơ hình. Chúng ta chọn nền tảng này do tính linh hoạt của nó trong việc so sánh nhiều phương pháp hồi quy và giám sát chặt chẽ các số liệu như R^2 hoặc MAE (Mean Absolute Error) trong quá trình đào tạo để cải thiện độ chính xác của dự đốn.
</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24"><b>3.1. Quy trình nghiên cứu</b>
Để xây dựng mơ hình dự đốn một cách hiệu quả, nhóm của chúng tơi đã xây dựng một quy trình nghiên cứu trong đó mơ tả trình tự các bước chính xác cần thực hiện để định hướng quy trình phát triển mơ hình của chúng tơi, giảm thiểu những sai sót tiềm ẩn và nhầm lẫn khơng cần thiết trong quá trình triển khai. Cụ thể chúng ta sẽ triển khai mơ hình với quy trình như sau:
Thu thập và chuẩn bị dữ liệu
Thu thập dữ liệu đầu vào có liên quan (biến dự đốn) và dữ liệu mục tiêu (nhãn), ví dụ trong trường hợp giá xe biến mục tiêu là “price”, biến dự đoán là các thông tin của chiếc xe
Kiểm tra các loại và định dạng dữ liệu - làm sạch và chuẩn hóa nếu cần thiết Xử lý các giá trị bị thiếu - gán, xóa mẫu hoặc mơ hình dưới dạng biến bổ sung Xác định và loại bỏ các ngoại lệ nếu thích hợp
Phân tích dữ liệu
Sử dụng số liệu thống kê tóm tắt và trực quan hóa để hiểu các mối quan hệ trong dữ liệu
Xác định các biến dư thừa hoặc các biến khơng liên quan đến mục tiêu, ví dụ như trong dữ liệu chúng ta có hai cột id và date khơng cần sử dụng tới vì vậy chúng ta sẽ xóa nó đi
Xác định phân phối dữ liệu - chuyển đổi các biến lệch nếu cần
Kiểm tra các vấn đề như tính khơng đồng nhất có thể ảnh hưởng đến việc lựa chọn mơ hình
Chia dữ liệu thành các tập huấn luyện, xác thực và kiểm tra Huấn luyện mơ hình
Đưa tập dữ liệu đã chuẩn bị vào kiến trúc mơ hình đã chọn
Điều chỉnh các siêu tham số (tốc độ học tập, lớp, nút, v.v.) để tối ưu hóa hiệu suất Ngăn chặn việc bị overfitting thông qua việc dừng sớm, chính quy hóa, bỏ học,
v.v.
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25"> Đánh giá mơ hình
Đánh giá dự đốn về tập dữ liệu xác thực chưa thấy trong suốt quá trình đào tạo Sau khi đào tạo, báo cáo hiệu suất trên tập dữ liệu thử nghiệm riêng biệt
Sử dụng các số liệu như RMSE, MAE, R2, MAPE để định lượng độ chính xác của dự đốn, bài tốn của chúng ta là hồi quy vì vậy chúng ta sẽ sử dụng những độ lỗi này
Sử dụng ma trận nhầm lẫn, độ chính xác, thu hồi, v.v. cho các nhiệm vụ phân loại Giải thích và chẩn đốn
Kiểm tra nội bộ mơ hình để hiểu các mối quan hệ đã học
Xác định tầm quan trọng của trường dữ liệu đối với dự đốn mơ hình Kiểm tra phần dư để tìm lỗi hệ thống
Phân tích các trường hợp dự đốn sai để cải thiện mơ hình Vận hành
Thực hiện suy luận mơ hình trong ứng dụng với các điểm kiểm tra cần thiết Giám sát hiệu suất mơ hình định kỳ trên hệ thống trực tiếp
Đào tạo lại mô hình khi có dữ liệu bổ sung để tránh trơi dữ liệu.
Sau đây chúng ta sẽ có biểu đồ mơ tả về quy trình thực hiện mơ hình Machine Learning của chúng ta như sau:
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26"><i>Hình 3.1 Quy trình thực hiện nghiên cứu (Nguồn: ReasearchGate: Steps carried out in the machinelearning process)</i>
<b>3.2 Giới thiệu về bộ dữ liệu3.2.1 Khái quát bộ dữ liệu</b>
Trong bài báo cáo này, nhóm đã tìm kiếm trên nhiều nguồn và thu thập được bộ dữ liệu nguyên bản từ website www.kaggle.com. Bộ dữ liệu này mô tả một công ty ô tô Trung Quốc mong muốn thâm nhập thị trường Mỹ bằng cách thành lập đơn vị sản xuất của họ ở đó và sản xuất ơ tơ tại địa phương để cạnh tranh với các đối tác Mỹ và châu Âu. Họ đã ký hợp đồng với một công ty tư vấn ô tô để hiểu các yếu tố ảnh hưởng đến việc định giá ô tô. Cụ thể, họ muốn hiểu các yếu tố ảnh hưởng đến giá ô tô tại thị trường Mỹ, vì những yếu tố đó có thể rất khác so với thị trường Trung Quốc. Vì vậy chúng ta sẽ lập một mơ hình dự đốn giá xe ơ tơ ở Mỹ và tìm hiểu những đặc điểm nào ảnh hưởng tới giá xe.
</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27"><i>Hình 3.2: Tóm tắt bộ dữ liệu giá xe ô tô Mỹ được trực quan hóa trên Azure MachineLearning Tool</i>
Chúng ta hy vọng có thể dự đốn giá ơ tơ với độ chính xác ít nhất 80-95% và hiểu được yếu tố nào dẫn đến giá ô tô tăng cao, từ đó giúp người dân và người bán hiểu được yếu tố nào ảnh hưởng đến giá ô tô nhiều nhất. Bộ dữ liệu bao gồm 26 trường dữ liệu về đặc điểm của một chiếc ô tô và 205 chiếc ô tô được thu thập từ nguồn dữ liệu mở trên kaggle “Carprice_Assignment.csv”. Tổng bộ dữ liệu có hơn 60 nghìn lượt tải xuống và hơn 400 bài viết Notebook về kaggle, cho thấy đây là nguồn dữ liệu đáng tin cậy. Nếu thành cơng, mơ hình này có thể giúp cả người mua và người bán đưa ra quyết định sáng suốt hơn về giá ô tô dựa trên đặc tính kỹ thuật của nó.
<b>3.2.2 Nội dung bộ dữ liệu</b>
Trong phần này chúng ta sẽ tìm hiểu thơng tin của tập dữ liệu gốc và tìm hiểu xem nên chọn trường dữ liệu nào để huấn luyện mơ hình một cách phù hợp nhất. Đầu tiên Chúng tơi sẽ mơ tả dữ liệu chứa thơng tin gì: Tập dữ liệu “Carprice_Assignment.csv” cung cấp thông số kỹ thuật chi tiết và giá của 205 mẫu ô tô.
</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">1 car_ID Số ID duy nhất cho mỗi chiếc xe Numeric
2 symboling Xếp hạng rủi ro (3 = rủi ro, -2 = khá an toàn)
4 fueltype Loại nhiên liệu (diesel, gas) Categorical
7 carbody Loại thân xe (hatchback, sedan, v.v.) Categorical
8 drivewheel Cấu hình bánh lái (4wd, fwd, rwd) Categorical
9 enginelocation Vị trí của động cơ (phía trước, phía
11 carlength Chiều dài của xe tính bằng inch Numeric
12 carwidth Chiều rộng của xe tính bằng inch Numeric
13 carheight Chiều cao của xe tính bằng inch Numeric
14 curbweight Trọng lượng của xe tính bằng pound Numeric
</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">16 cylindernumber Số lượng xi lanh Numeric
17 enginesize Kích thước của động cơ tính bằng lít Numeric
18 fuelsystem Loại hệ thống nhiên liệu (mpfi, 2bbl, v.v.)
23 peakrpm Số vòng quay cực đại mỗi phút của
25 highwaympg Hiệu quả sử dụng nhiên liệu trên đường cao tốc tính bằng dặm trên
26 price Giá bán lẻ của xe tính bằng đơ la Mỹ Numeric
</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">Bảng 3.1 Mô tả các cột trong bộ dữ liệu giá xe ô tô
Sau khi hiểu được các cột dữ liệu chúng ta cũng đoán được một số cột dữ liệu sẽ quan trọng trọng việc dự đoán giá xe ô tô như fuelsystem, carbody, enginetype, cylindernumber…Tuy nhiên chúng ta sẽ xem xét rằng những trường dữ liệu này có thực sự quan trọng hay khơng, hoặc chúng có thể tác động yếu. Để hiểu được dữ liệu nhiều hơn chúng ta sẽ tiến hành trực quan hóa các trường dữ liệu.
<b>3.2.3 Trực quan hóa dữ liệu</b>
Trực quan hóa tập dữ liệu ơ tô là bước quan trọng đầu tiên để khám phá mối quan hệ tiềm năng giữa các biến số và xác định các yếu tố dự báo đầy hứa hẹn về giá. Trước khi xây dựng mơ hình, đồ thị cho phép chúng ta nhanh chóng đánh giá các mối tương quan, phân phối, ngoại lệ và dị thường một cách trực quan. Chúng ta sẽ tạo các biểu đồ kiểm tra tác động của các biến số liên tục như chiều dài cơ sở, mã lực, quãng đường lên giá bằng cách sử dụng biểu đồ. Trực quan hóa tương tác thậm chí có thể được tích hợp vào phân tích kết quả mơ hình sau này để thêm bối cảnh và tính minh bạch cho người dùng. Trực quan hóa hiệuquả sẽ làm nổi bật câu chuyện của dữ liệu, nêu bật các yếu tố chính ảnh hưởng đến việc định giá và xây dựng trực giác về hiệu suất của mơ hình.
<b>3.2.3.1 Phân phối về giá của ô tô</b>
Đầu tiên chúng ta sẽ xem xét giá của ô tô đang được phân bổ như thế nào bằng hiểu đồ histogram.
</div>