Tải bản đầy đủ (.pdf) (27 trang)

tiểu luận nhập môn phân tích dữ liệu đề tài dự đoán chất lượng rượu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.22 MB, 27 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ĐẠI HỌC QUỐC GIA HÀ NỘI

<b>TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN</b>

<b>TIỂU LUẬN</b>

<b>MƠN: Nhập mơn phân tích dữ liệu</b>

Đề tài: Dự đốn chất lượng rượu

<b>Giảng viên :</b> Vũ Ngọc Bình

<b>Nhóm 7</b> : Nguyễn Ngọc AnhPhạm Anh DuyTrần Xuân HuyĐặng Quang LộcHà Phương ThảoHoàng Thị Thu TrangNguyễn Vũ Việt TúLê Thanh TùngNguyễn Minh Xuân

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>Hà Nội, ngày 7 tháng 6 năm 2022</b>

<b>LỜI MỞ ĐẦU</b>

Phân tích dữ liệu từ lâu đã là cơng việc cơ bản, cần thiết trong cơng việc, trongcuộc sống. Nhờ có việc phân tích dữ liệu, phân tích các con số, ta có thể khám phánhững thơng tin, đưa ra các kết luận, dự đốn để có những chiến lược, kế hoạch hợp lý.Như trong quá trình sản xuất rượu, từ những số liệu về các thành phần trong rượu, ta cóthể phân tích và dự đốn chất lượng rượu, từ đó cải thiện chất lượng sản phẩm, nângcao sản xuất, đem lại hiệu quả cho các cơ sở sản xuất, cho các doanh nghiệp.

Vì thế, nhóm em đưa ra đề tài này nhằm xây dựng mơ hình dự đốn chất lượngrượu dựa trên dữ liệu về các thành phần hoá lý trong rượu như: SO2, độ cồn, độ đặc,…và những thơng tin khác.

Đề tài cũng có thể là tài liệu tham khảo khơng chỉ để dự đốn chất lượng rượu, màcịn dự đốn hay phân tích được dữ liệu ở các lĩnh vực khác nhau trong cuộc sống, cơngviệc, giúp chúng ta có thể tiết kiệm được thời gian, tiền bạc mà đem lại hiệu quả cao,năng suất cao.

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>MỤC LỤC</b>

Lời mở đầu...2

I. Sơ lược về đề tài...4

II. Phân tích chi tiết...4

III. Kết luận...23

Lời cảm ơn...24

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>I.Sơ lược về đề tài:</b>

1. Đối tượng nghiên cứu: dự đoán chất lượng rượu.

2. Phạm vi nghiên cứu: rượu vang đỏ “Vinho Verde” của Bồ Đào Nha.3. Phương pháp nghiên cứu: Xây dựng mơ hình Random Forest.

<b>II. Phân tích chi tiết: </b>

1. Tóm tắt về công việc nghiên cứu:

a.

EDA:

- Viết tắt của Exploratory data analysis, hay khám phá dữ liệu, là một cách tiếp cậnphân tích các dữ liệu để tóm tắt các đặc điểm chính của chúng, thường sử dụng đồhoạ thống kê và các phương pháp trực quan hoá dữ liệu khác.

- Nhiệm vụ chính:

+ Tìm hiểu về kích thước dữ liệu.+ Ý nghĩa của từng trường dữ liệu.+ Kiểu dữ liệu của môi trường.+ Phân phối xác xuất của từng trường:

Mọi giá trị trong cột bằng nhau: ví dụ, trong 1 cột nào đó của dataset cómọi giá trị bằng nhau, cột này khơng mang lại ý nghĩa dự đốn nên ta cóthể xố nó đi.

Có q nhiều giá trị bị khuyết: nếu ý nghĩa của 1 cột không quan trọng, cóthể xố nó đi. Nếu nó quan trọng, ta phải có những chiến lược phù hợp.

Xuất hiện giá trị khơng hợp lệ: ví dụ, trong cột “Tuổi” có giá trị âm hoặclớn hơn 200, khả năng cao chúng là giá trị khơng hợp lệ. Ta có thể gán lạichúng về giá trị hợp lệ gần nhất hoặc coi nó như giá trị bị khuyết.

Xuất hiện giá trị ngoại lệ: là những giá trị cao hơn hoặc thấp hơn nhiều sovới các giá trị khác trong dữ liệu, ta cần có cách xử lý đặc biệt.

+ Mối tương quan giữa các trường dữ liệu.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

b.

Random Forest (Rừng ngẫu nhiên):

- Là 1 phương pháp sơ đồ cây, ta sẽ xây dựng nhiều cây quyết định bằng thuật toánDecision Tree, tuy nhiên mỗi cây quyết định sẽ khác nhau (có yếu tố random). Sauđó kết quả dự đốn được tổng hợp từ các cây quyết định.

c.

Tóm tắt về dataset:

- Theo tác giả của tập dữ liệu này, do các vấn đề về quyền riêng tư và vấn đề hậucần, ta chỉ có các biến số hố lý (đầu vào – inputs) và cảm quan (đầu ra – output).Ví dụ: khơng có dữ liệu về loại nho, nhãn hiệu rượu vang, giá bán rượu vang,… - Các loại rượu được sắp xếp theo thứ tự và không cân bằng, ví dụ: có nhiều loại

rượu bình thường hơn là loại xuất sắc hay kém.

- Như tác giả đề xuất, ta phân loại rượu theo điểm chất lượng: từ 7 trở lên đượcphân loại “tốt/1”, cịn lại là “khơng tốt/0”

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

2. Tổng quan về dataset:

- Đầu tiên ta load những thư viện cần thiết: ggplot2, ggthemes, corrplot, reshape2,dplyr và randomForest:

- Tiếp theo ta lấy dữ liệu từ dataset:

- Tạo biến cho biết rượu có tốt hay không:

- Hiển thị ngắn gọn nội dung của dataset:

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

- Dùng hàm summary(): tóm tắt các giá trị nhỏ nhất, giá trị đầu tiên, giá trị trungbình, giá trị thứ 3, giá trị tối đa:

- Chúng ta có thể thấy dữ liệu đầu vào là khơng cân bằng, với khoảng 13,57% trongsố 1599 loại rượu được coi là tốt.

3. Exploratory Data Analysis: Khám phá dữ liệu

a.

Correlation of Variables: xét sự tương quan giữa các biến:

- Sử dụng hàm plot() để hiển thị Scatterplot Matrix của biến redwine, là một dạngbiểu đồ thể hiện sự tương quan, liên quan tới nhau giữa các biến số (ở đây là các tiêuchí ảnh hưởng đến chất lượng rượu).

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

- Dùng hàm corrplot(cor()): hiển thị Correlation Heatmap (bản đồ nhiệt tương quan),dựa trên màu của các ô có thể thấy sự liên quan lẫn nhau giữa các biến số, và sự chặtchẽ của các mối quan hệ này. Nhìn vào góc dưới bên phải, ta có thể thấy Alcohol(nồng độ cồn) có sự tương quan chặt chẽ nhất với chất lượng rượu.

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

b.

Wine quality: chất lượng rượu

- Sự phân bổ theo điểm chất lượng rượu vang đỏ: + Dùng hàm ggplot(): vẽ biểu đồ với package ggplot2+ aes(x=quality): chọn quality làm trục x

+ geom_bar(): vẽ biểu đồ cột

+ Từ biểu đồ có thể thấy rượu phần lớn là rượu không tốt, hầu hết là rượu có chấtlượng ở mức 5 và 6, cũng có rượu ở mức 3 và 4 nhưng khá ít. Rượu tốt ít hơn rấtnhiều, phần lớn ở mức 7.

- Sự phân bổ theo chất lượng (tốt/không tốt) rượu vang đỏ:

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

+ Dùng hàm ggplot(): vẽ biểu đồ với package ggplot2+ aes(x=goodwine): chọn rượu tốt làm trục x+ geom_bar(): vẽ biểu đồ cột

+ Ta thấy gần 1500 rượu vang đỏ trong dữ liệu là rượu không tốt, chỉ có chưa tới250 rượu tốt.

c.

Physiochemical Properties and Wine Quality: các đặc tính hố lý và chất lượng rượu- Có 11 thành phần hố học trong dataset, ta sẽ xem xét sự tương quan giữa 11 thành

phần này đối với chất lượng rượu. - Tóm tắt chung:

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

+ Ggplot(): vẽ biểu đồ với package ggplot2+ Aes(x=fixed.acidity): chọn độ axit làm trục x

+ Geom_density(alpha=0.25): vẽ đường mật độ phân bố. Alpha đề cập đến độ mờcủa màu, giá trị nằm trong khoảng từ 0 đến 1, với các giá trị thấp hơn tương ứngvới các màu trong suốt hơn.

+ geom_vline(): vẽ thêm đường kẻ thẳng dọc trên biểu đồ, color: màu của đường kẻ,linetype="dashed": đường nét đứt, lwd: chiều rộng của đường.

- Ta cùng xem qua 11 biểu đồ: + Độ axit và chất lượng rượu:

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

+ Tính axit bay hơi yếu và chất lượng rượu:

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

+ Axit citric và chất lượng rượu:

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

+ Lượng đường dư và chất lượng rượu:

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

+ Clorua và chất lượng rượu:

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

+ Sunfua dioxit tự do và chất lượng rượu:

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

+ Tổng lượng sunfua dioxit và chất lượng rượu:

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

+ Độ đặc và chất lượng rượu:

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

+ Độ Ph và chất lượng rượu:

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

+ Sunfat và chất lượng rượu:

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

+ Độ cồn và chất lượng rượu:

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

- Nhận xét: Các đồ thị ở trên cho thấy rằng các loại rượu vang ngon và khơng tốt cósự phân bố rất giống nhau về các đặc tính hóa lý tương ứng của chúng. Các thuộctính nổi bật nhất mà chúng ta có thể quan sát là Sulphates và độ cồn của rượu.

d.

Predictive Modelling (Binary Classification): Mơ hình dự đốn

- Dùng hàm randomforest làm mơ hình cơ sở để dự đoán chất lượng của một loạirượu

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

- Độ chính xác của mơ hình ở mức 92%, là khá tốt. Tuy nhiên, sự dự đốn rượukhơng tốt cao hơn rượu tốt rất nhiều.

e.

Variable Importance: sự quan trọng của các thành tố

- Dùng package ggplot2 để vẽ biểu đồ thể hiện và xếp hạng sự ảnh hưởng của cácthành tố trong rượu đến chất lượng của nó.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

- Nhận xét: Kết quả của mơ hình randomforest đã trùng khớp với thông tin từ các biểuđồ trên, cho thấy mức độ sunphat có ảnh hưởng lớn thứ 2 đến chất lượng rượu, xếpsau nồng độ cồn.

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<b>LỜI CẢM ƠN</b>

Trong quá trình nghiên cứu đề tài "Dự đốn chất lượng rượu", nhóm em đã nhậnđược sự giúp đỡ của thầy cô giáo trường Đại học khoa học Tự nhiên – Đại học Quốc giaHà Nội cùng các bạn và các anh chị.

Nhóm em xin chân thành cảm ơn đến Giảng viên Vũ Ngọc Bình – phụ trách bộ mơnNhập mơn phân tích dữ liệu – người trực tiếp hướng dẫn và giúp đỡ nhóm em nghiên cứuđề tài.

Nhóm em xin chân thành cảm ơn nhà trường đã cung cấp cho nhóm tài liệu để cóthê hồn thành bài tiểu luận này.

Nhóm xin chân thành cảm ơn các bạn cùng lớp và các anh chị trong khoa đã hỗ trợvà góp ý để nhóm hồn thành tốt bài tiểu luận này.

Có lẽ kiến thức là vô hạn mà sự tiếp nhận kiến thức của bản thân mỗi con người làkhác nhau và luôn tồn tại sự hạn chế nhất định. Do đó, trong q trình hồn thành bài tiểuluận này, chắc chắn sẽ khơng tránh khỏi nhiều thiếu sót. Bản thân nhóm em rất mongnhận được những góp ý dến từ thầy để bài tiểu luận của nhóm sẽ được hồn thiện hơnnữa.

Nhóm xin chúc thầy ln mạnh khỏe, thành công trên con đường giảng dạy và sẽđạt được nhiều thành tích xuất sắc.

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

<b>NHẬN XÉT CỦA GIÁO VIÊN</b>

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

...Bảng đánh giá về mức độ hồn thành cơng việc của các thành viên:

</div>

×