Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.85 MB, 30 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<i><b>Người hướng dẫn: GV Phạm Thái Kỳ TrungNgười thực hiện: Chung Vinh An - 520H0600 </b></i>
<b>Huỳnh Anh Khoa - 520H0465Huỳnh Hữu Minh - 520H0473</b>
<b>THÀNH PHỐ HỒ CHÍ MINH, NĂM 2023</b>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><b>LỜI CẢM ƠN</b>
Để có thể hồn thành được bài báo cáo q trình 2 của mơn học này, trước tiên chúng em xin trân trọng cảm ơn Thầy Phạm Thái Kỳ Trung, người đã tận tình hướng dẫn và đồng hành cùng chúng em trong suốt quá trình thực hiện bài báo cáo cuối kỳ. Với vốn kiến thức quan trọng chúng em đã tiếp thu được trong cả q trình học tập khơng chỉ là nền tảng cho quá trình nghiên cứu bài báo cáo mà cịn là bước đệm để chúng em có thể vững bước trong tương lai. Em kính chúc thầy thật nhiều sức khỏe và tiếp tục thành công trong sự nghiệp giảng dạy cao quý.
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><b>LỜI CAM ĐOAN</b>
Chúng em xin cam đoan Báo cáo quá trình 2 do nhóm em nghiên cứu và thực hiê Kn. Chúng em đã kiểm tra dữ liệu theo quy định hiện hành. Kết quả Báo cáo quá trình là trung thực và không sao chép từ bất kỳ báo cáo của nhóm khác. Các tài liê Ku được sP dụng trong Báo cáo q trình có nguồn gốc, xuất xứ rQ ràng.
<b>(Ký và ghi rõ họ tên)</b>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><b>PHẦN NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊNPhần nhận xét của Giảng viên</b>
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><b>MỤC LỤC</b>
<b>LỜI CẢM ƠN...</b>
<b>LỜI CAM ĐOAN...</b>
<b>PHẦN NHẬN XÉT VÀ ĐÁNH GIÁ CỦA GIẢNG VIÊN...</b>
<b>MỤC LỤC...</b>
<b>BÁO CÁO Q TRÌNH 2...1</b>
<b>1. Xác định bài tốn liên quan đến Business cần để phân tích...1</b>
<b>1.1. Thơng tin chung...1</b>
<b>1.2. Phân loại...1</b>
<b>1.3. Thị trường...1</b>
<b>1.4. Xu hướng...2</b>
<b>2. Dữ liệu liên quan đến business dùng để nghiên cứu...3</b>
<b>3. Lựa chọn 2 mô hình phù hợp để phân tích...5</b>
<b>3.1. K-Nearest Neighbors...5</b>
<b>3.2. Random Forest...6</b>
<b>4. Demo và trực quan hóa dữ liệu...7</b>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><b>BÁO CÁO Q TRÌNH 2</b>
<b>1. Xác định bài tốn liên quan đến Business cần để phân tích: Xu hướng rượu</b>
vang trên thế giới.
<b>1.1. Thông tin chung</b>
Rượu vang là sản phẩm được làm từ nho, nơi đường trong nho được lên men và chuyển đổi thành cồn trong quá trình ủ. Với lịch sP hình thành và phát triển từ hàng ngàn năm trước đây. Từ việc được coi là một loại đồ uống xa xỉ và chỉ dành cho những người quý tộc, đến hiện nay, rượu vang đã trở thành một phần không thể thiếu của nền văn hóa ẩm thực và đồ uống của nhiều quốc gia trên thế giới.
<b>1.2. Phân loại</b>
Rượu vang được phân thành rượu đỏ, rượu trắng, rượu hồng, và nhiều loại khác nhau với đa dạng hương vị, chất lượng và giá thành.
<small></small> Vang trắng thơng thường, Champagne, vang sủi: 10-12%, trong đó Moscato thường có thể chỉ ở 5-7%, Riesling của Đức có thể gặp những dịng 8-9%, và vang trắng Chardonnay có thể lên đến 13-14%.
<small></small> Vang đỏ thường có độ cồn từ 12-15%, trong đó vang Bourgogne và Bordeaux từ 12-14%, các dòng vang ở California (Mỹ), Chile, Argentina thường có độ cồn cao từ 13.4-15.5%. Vang từ nho phơi khơ Amarone, Recioto của vùng Valpolicella ở Bắc Ý có độ cồn cao từ 15-16%.
<b>1.3. Thị trường</b>
Thế giới:
- Năm 2022, tổng sản lượng rượu vang trên toàn cầu đạt gần 26 tỷ lít, trong đó Ý chiếm đến 5 tỷ lít, dẫn đầu danh sách. Các quốc gia tiếp theo trong danh sách sản xuất nhiều rượu vang gồm có Tây Ban Nha, Pháp, Mỹ và Trung Quốc. Mỹ
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">và Pháp là hai quốc gia tiêu thụ nhiều rượu vang nhất với lượng tiêu thụ lần lượt là 3,4 tỷ lít và 2,5 tỷ lít.
- Xuất khẩu rượu vang tồn cầu đạt mức kỷ lục 37,6 tỷ euro (32,7 tỷ bảng Anh, 40,5 tỷ USD) vào năm 2022. Tăng 9% vào năm 2021 do giá trung bình tăng mạnh.
Việt Nam:
- Tổng giá trị rượu vang nhập khẩu vào Việt Nam năm 2022 đạt 97 triệu USD, tăng 53,5% so với năm 2021. Theo thống kê rượu vang Pháp chiếm tổng sản lượng rượu vang ở thị trường Việt Nam tiếp theo đó là rượu vang Chile, Ý và các nước khác.
<b>1.4. Xu hướng</b>
Trong quá khứ, xu hướng sP dụng rượu vang thường được nghĩ ngay đến vang đỏ. Tuy nhiên, từ những năm 1995, xu hướng tiêu thụ rượu vang đã thay đổi mạnh mẽ. Khi đó, mỗi 100 chai rượu vang được tiêu thụ, có 80% là vang đỏ, 15% là vang trắng và 4% là vang sủi.
Hiện nay trên thị trường Việt Nam, rượu vang đỏ vẫn được ưa chuộng nhất bởi người tiêu dùng thường là nam giới, họ thích hương vị đậm đà và nồng độ cao.
Ngoài ra, ở các vùng nổi tiếng trên thế giới như Bordeaux, Burgundy, Tuscany, Piedmont và California, người dùng sẽ nhận thấy độ cồn của phần lớn các chai vang đều ở mức 13-14%, một số ít chai vang cao cấp ở California hoặc vang châu Âu trong niên vụ ấm như 2015 có thể lên đến 15-15.5% nhưng khơng phải số nhiều. Thực tế, tại các thị trường châu Âu, Mỹ, xu hướng của người tiêu dùng am hiểu là lựa chọn vang có độ cơ đọng, phức hợp, tinh tế, và độ cồn nhẹ nhàng hơn.
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"> Thị trường rượu vang tăng cường đặc biệt được thúc đẩy bởi xu hướng tiêu thụ rượu ngày càng tăng ở các nước đang phát triển. Đồng thời, sự gia tăng nhu cầu tiêu thụ rượu vang ở các thị trường châu Á, nơi người dùng thích uống vang với độ cồn cao hơn.
<b>2. Dữ liệu liên quan đến business dùng để phân tích:</b>
Bộ dữ liệu được sP dụng để phân tích có liên quan đến cái biến thể màu đỏ và trắng của rượu vang. Các bộ dữ liệu này có thể được xem là các tác vụ phân loại hoặc hồi quy. Các hạng được sắp xếp theo thứ tự và khơng cân bằng (ví dụ: có nhiều loại rượu có chất lượng bình hơn các loại rượu vang xuất sắc và kém chất lượng).
Các thuật tốn phát hiện ngoại lệ có thể được sP dụng để dò ra một vài loại rượu vang có chất lượng xuất sắc và kém chất lượng. Ngồi ra, các biến đầu vào có thể khơng hồn tồn liên quan. Vì vậy, việc thP nghiệm các phương pháp để lựa chọn và phân loại đặc điểm có thể rất thú vị.
Thơng tin thuộc tính:
- Các biến đầu vào (dựa trên các xét nghiệm hóa lý): 6. free sulfur dioxide 7. total sulfur dioxide 8. density
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">9. pH 10. sulfates 11. alcohol
- Biến đầu ra (dựa trên dữ liệu cảm quan): 12. quality (score between 0 and 10)
<i>(Hình ảnh khái quát của tập dữ liệu)</i>
<b>3. Lựa chọn 2 thuật tốn phù hợp để phân tích</b>
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10"><i><b>3.1. K-Nearest Neighbors</b></i>
K-Nearest Neighbors (KNN) là một trong những thuật tốn học máy có giám sát đơn giản nhất được sP dụng nhiều trong khai phá dữ liệu và học máy. KNN hoạt động dựa trên ý tưởng rằng những dữ liệu tương tự nhau sẽ tồn tại
gần nhau trong một khơng gian. Khi mơ hình gặp một điểm dữ liệu khơng được gắn nhãn, nó sẽ đo khoảng cách đến K láng giềng gần nhất, từ đó đặt tên, và sau đó điểm dữ liệu khơng được gắn nhãn sẽ được phân loại là thuộc về lớp có nhiều cá thể huấn luyện nhất trong số K láng giềng gần nhất. KNN có thể được sP dụng cho cả bài toán phân loại và hồi quy. Trong bài
toán phân loại, một đối tượng được phân loại bằng cách bầu chọn của các láng giềng của nó, với đối tượng được gán vào lớp phổ biến nhất trong số K láng giềng gần nhất. Trong bài tốn hồi quy, đầu ra là giá trị thuộc tính cho đối tượng. Giá trị này là trung bình của các giá trị của K láng giềng gần nhất. Một điểm đáng chú ý là KNN thuộc loại “lazy learning”, có nghĩa là nó chỉ
lưu trữ tập dữ liệu huấn luyện thay vì trải qua một giai đoạn huấn luyện. Điều này cũng có nghĩa là tất cả các tính tốn xảy ra khi một phân loại hoặc dự đốn đang được thực hiện.
Tuy nhiên, KNN cũng có một số hạn chế. Khi tập dữ liệu tăng lên, KNN trở nên ngày càng không hiệu quả, làm giảm hiệu suất mơ hình tổng thể. Nó thường được sP dụng cho các hệ thống đề xuất đơn giản, nhận dạng mẫu, khai thác dữ liệu, dự đoán thị trường tài chính, phát hiện xâm nhập và nhiều hơn nữa
<b>Ứng dụng của KNN:</b>
<b>Phân loại: KNN được sP dụng để phân loại dữ liệu vào các nhóm khác</b>
nhau dựa trên các đặc trưng của chúng. Ví dụ, trong phân loại email là spam hay khơng spam, thuật tốn KNN có thể xác định xem một email có thuộc vào nhóm spam hay không dựa trên nội dung và cấu trúc của email đó.
<b>Phân loại hình ảnh: Trong lĩnh vực nhận dạng hình ảnh, KNN được sP</b>
dụng để phân loại các hình ảnh vào các nhãn tương ứng. Ví dụ, KNN có
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">thể xác định xem một hình ảnh có chứa một đối tượng nhất định (ví dụ: xe hơi, con mèo) hay không dựa trên các đặc trưng của hình ảnh đó. <b>Gợi ý: KNN cũng được sP dụng trong các hệ thống gợi ý, chẳng hạn như</b>
gợi ý sản phẩm trong một cPa hàng trực tuyến. Thuật tốn KNN có thể đề xuất các sản phẩm tương tự dựa trên sở thích và hành vi của người dùng. <b>Dự đốn: KNN cũng có thể được sP dụng để dự đoán một giá trị số trong</b>
một tập dữ liệu. Ví dụ, KNN có thể dự đốn giá trị nhà dựa trên các thuộc tính của các căn nhà khác trong khu vực đó.
<b>Nén dữ liệu: KNN cũng có thể được sP dụng để nén dữ liệu. Bằng cách</b>
xác định các điểm dữ liệu gần nhất với một điểm dữ liệu mới, ta có thể giảm số lượng dữ liệu cần lưu trữ trong một tập dữ liệu lớn.
<i><b>3.2. Random Forest</b></i>
<small></small> Random Forest là một thuật tốn học máy có giám sát, được sP dụng rộng rãi để phân loại hoặc dự đoán một biến mục tiêu dựa trên một hoặc nhiều biến đầu vào.
<small></small> Cấu trúc của Random Forest gồm nhiều cây quyết định, mỗi cây được xây dựng dựa trên một thuật toán ngẫu nhiên. Mỗi cây quyết định trong Random Forest được xây dựng từ một tập con ngẫu nhiên của dữ liệu huấn luyện và sP dụng một tập con ngẫu nhiên của các thuộc tính. <small></small> Khi dự đốn, mỗi cây quyết định trong Random Forest đưa ra một dự
đoán độc lập và kết quả cuối cùng được quyết định bằng cách bầu chọn hoặc lấy trung bình của các dự đoán từ tất cả các cây. Điều này giúp giảm thiểu hiện tượng overfitting (quá khớp), một vấn đề thường gặp khi sP dụng một cây quyết định duy nhất.
<small></small> Random Forest có thể được sP dụng cho cả bài toán phân loại (classification) và hồi quy (regression). Nó cũng có thể xP lý dữ liệu thiếu và dữ liệu bị lỗi.
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><small></small> Tuy nhiên, Random Forest cũng có một số hạn chế. Khi tập dữ liệu tăng lên, Random Forest trở nên ngày càng không hiệu quả, làm giảm hiệu suất mô hình tổng thể
<b>Random Forest được ứng dụng trong nhiều lĩnh vực:</b>
<b>Ngân hàng: Random Forest được sP dụng để xác định rủi ro cho vay.</b>
<b>Phân loại và hồi quy: Random Forest có thể được sP dụng cho cả các bài</b>
toán phân loại và hồi quy.
<b>Khai phá dữ liệu: Random Forest được sP dụng để phân tích và hiểu dữ liệu.</b>
<b>Máy thị giác: Random Forest cũng được sP dụng trong lĩnh vực nhận dạng</b>
hình ảnh
<b>4. Demo và trực quan hóa dữ liệu</b>
- SP dụng cơng cụ KNIME Analytics Platform
- Konstanz Information Miner (KNIME) là công cụ Data Analyst phân tích, báo cáo và tích hợp dữ liệu nguồn mở được xây dựng để phân tích quy trình làm việc dựa trên GUI. KNIME có 2 sản phẩm chính là KNIME Analytics Platform và KNIME Server. Trong đó KNIME Analytics Platform là một nguồn mở được sP dụng để làm sạch và thu thập dữ liệu. Nó giúp mọi người truy cập các thành phần có thể tái sP dụng và tạo Data Science workflows.
- 2 thuật toán được dùng để phân tích: K-Nearest Neighbors và Random Forest
KNN có khả năng dự đoán loại rượu dựa trên các đặc trưng của rượu vang. Điều này có thể hữu ích để phân loại rượu vang vào các danh mục như loại vang đỏ, vang trắng, hay các loại vang khác nhau. Đồng thời, được sP dụng để phân cụm các loại rượu vang dựa trên đặc trưng để nhóm các loại có các đặc tính tương tự vào các cụm, giúp hiểu rQ hơn về sự tương đồng giữa chúng. Thuật tốn này có thể linh hoạt với các loại đặc trưng khác nhau, bao gồm cả các thông số về hóa học, độ cồn, acid, và nhiều yếu tố khác, giúp trong việc xác định những yếu tố nào đóng góp nhiều vào tính chất của rượu vang.
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">+ Tổng quan của mơ hình khi áp dụng thuật tốn KNN để phân tích và dự đốn xu hướng:
Gồm 3 xu hướng:
<b>Xu hướng rượu vang đỏ chất lượng cao xuất hiện</b>
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai có trong tệp
Row Filter <sup>Lọc ra dữ liệu rượu vang đỏ</sup>
Rule Engine
Lọc các giá trị và thêm chúng vào cột “red_high_quality” với quy tắc chuẩn:
1: Quality phải đạt từ 6 đến 9 2: Nồng độ cồn bắt đầu tự mức 12
Chia tập dữ liệu thành hai phần: 1: 80% cho dữ liệu huấn luyện 2: 20% cho dữ liệu kiểm tra
K Nearest Neighbor
Dùng thuật toán để dự đoán xu hướng rượu vang đỏ có chất lượng cao xuất hiện
Color Manager
Dùng để hỗ trợ quản lý, đặt và tùy chỉnh các giá trị màu sắc dành cho các phần tP rượu vang đỏ chất lượng cao và các thành phần rượu vang còn lại trong tệp dữ liệu
Pie/Donut Chart (JavaScript)
Thể hiện kết quả rượu vang đỏ chất lượng cao lọc được thơng qua biểu đồ trịn sau q trình phân tích
Dùng để đánh giá độ chính xác và hiển thị kết quả hiệu suất của mơ hình học máy bằng cách so sánh dự
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">- Kết quả: Các kết quả của mơ hình được thể hiện qua số liệu và biểu đồ: Qua số liệu được thể hiện trên biểu đồ tròn sau khi được phân tích, có thể nhận thấy trong tệp dữ liệu có 8% rượu vang đỏ đạt chất lượng cao và 92% các loại cịn lại. Hiệu suất và độ chính xác so với giá trị thực thế là hơn 90%.
<b>Xu hướng rượu vang trắng chất lượng cao xuất hiện</b>
</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">Node Tên gọi Tính năng
Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai
Chia tập dữ liệu thành hai phần: 1: 80% cho dữ liệu huấn luyện 2: 20% cho dữ liệu kiểm tra
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">K Nearest Neighbor
Dùng thuật toán để dự đốn xu hướng rượu vang trắng có chất lượng cao xuất hiện
Color Manager
Dùng để hỗ trợ quản lý, đặt và tùy chỉnh các giá trị màu sắc dành cho các phần tP rượu vang trắng chất lượng cao và các thành phần rượu vang còn lại trong tệp dữ liệu
Pie/Donut Chart (JavaScript)
Thể hiện kết quả rượu vang trắng chất lượng cao lọc được thơng qua biểu đồ trịn sau q sánh dự đốn của mơ hình với giá trị thực tế trong tập dữ liệu kiểm thP
- Kết quả: Các kết quả của mơ hình được thể hiện qua số liệu và biểu đồ: Qua số liệu được thể hiện trên biểu đồ trịn sau khi được phân tích, có thể nhận thấy trong tệp dữ liệu có 16% rượu vang trắng đạt chất lượng cao và 84% các loại cịn lại. Hiệu suất và độ chính xác so với giá trị thực thế là hơn 87%.
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18"> <b>Xu hướng rượu vang chất lượng thấp xuất hiện</b>
</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">Node Tên gọi Tính năng
Kiểm tra giá trị bị thiếu, các hàng trống và kiểu dữ liệu bị sai có trong tệp
Rule Engine
Lọc các giá trị và thêm chúng vào cột “low_wine_quality” với quy tắc không chuẩn: Quality phải từ mức 5 trở xuống
Chia tập dữ liệu thành hai phần: 1: 80% cho dữ liệu huấn luyện 2: 20% cho dữ liệu kiểm tra
K Nearest Neighbor
Dùng thuật toán để dự đoán xu hướng rượu vang chất lượng thấp xuất hiện
Color Manager Dùng để hỗ trợ quản lý, đặt và tùy chỉnh các giá trị màu sắc dành cho các phần tP rượu vang chất lượng thấp và các thành phần rượu vang khác trong tệp
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">dữ liệu
Pie/Donut Chart (JavaScript)
Thể hiện kết quả rượu vang chất lượng thấp lọc được thông qua biểu đồ trịn sau q trình sánh dự đốn của mơ hình với giá trị thực tế trong tập dữ liệu kiểm thP
- Kết quả: Các kết quả của mơ hình được thể hiện qua số liệu và biểu đồ: Qua số liệu được thể hiện trên biểu đồ tròn sau khi được phân tích, có thể nhận thấy trong tệp dữ liệu có 36% rượu vang chất lượng thấp và 64% các loại rượu vang còn lại. Hiệu suất và độ chính xác so với giá trị thực thế là trên 75%.
</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21"> <b>Random Forest</b>
Random Forest có khả năng thực hiện cả nhiệm vụ phân loại (classification) và dự đoán (regression), phù hợp cho các loại bài toán khác nhau, bao gồm việc phân loại loại rượu vang hoặc dự đoán các đặc điểm của chúng. Thuật toán này có khả năng xP lý một lượng lớn các đặc trưng (features) mà khơng cần q trình giảm chiều dữ liệu. Điều này làm cho nó phù hợp cho các tập dữ liệu có nhiều đặc trưng đa dạng, như là thông tin về các yếu tố của rượu vang.
+ Tổng quan của mơ hình khi áp dụng thuật tốn Random Forest để phân tích và dự đốn xu hướng:
</div>