Tải bản đầy đủ (.docx) (18 trang)

Tiểu luận môn lập trình python cho phân tích dữ liệu đề tài phân tích dữ liệu chất lượng rượu vang đỏ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (430.48 KB, 18 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<small>NGÂN HÀNG NHÀ NƯỚC VIỆT NAMBỘ GIÁO DỤC VÀ ĐÀO TẠO</small>

<b><small>TRƯỜNG ĐẠI HỌC NGÂN HÀNG THÀNH PHỐ HỒ CHÍ MINHBộ mơn Kinh tế</small></b>

<b>BÀI TIỂU LUẬN</b>

<b>MƠN: LẬP TRÌNH PYTHON CHO PHÂN TÍCH DỮ LIỆUĐề tài: Phân tích dữ liệu chất lượng rượu vang đỏ</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<small>Chương 2: Dữ liệu và nội dung... 4</small>

<i><b><small>2.1</small></b></i> <small>Xem thông tin cơ bản của dữ liệu...4</small>

<i><b><small>2.2</small></b></i> <small>Xem một số dòng đầu tiên của dữ liệu...4</small>

<i><b><small>2.3</small></b></i> <small>Mô tả thống kê của dữ liệu...4</small>

<i><b><small>2.4</small></b></i> <small>Trực quan hóa dữ liệu...7</small>

<small>Chương 3: Cơng cụ... 9</small>

<i><b><small>3.1</small></b></i> <small>Tổng quan về Python...9</small>

<i><b><small>3.2</small></b></i> <small>Thư viện NumPy:...10</small>

<i><b><small>3.3</small></b></i> <small>Thư viện Pandas...10</small>

<i><b><small>3.4</small></b></i> <small>Thư viện Matplotlib:...10</small>

<small>Chương 4: Kết quả và thảo luận... 11</small>

<small>Chương 5: Kết luận... 11</small>

<small>TÀI LIỆU THAM KHẢO... 12</small>

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Chương 1: Mục tiêu và phạm vi

<i><b><small>1.1</small></b></i><small> Giới thiệu</small>

Trong lĩnh vực sản xuất và tiêu thụ rượu vang, việc đánh giá chất lượng của sản phẩm là rất quan trọng. Trong tiểu luận này, chúng ta sẽ phân tích dữ liệu về chất lượng rượu vang đỏ để hiểu sâu hơn về các yếu tố ảnh hưởng đến chất lượng của rượu vang.

<i><b><small>1.2</small></b></i> <small>Mục tiêu</small>

 Phân tích cấu trúc dữ liệu: Xác định và mơ tả các biến trong tập dữ liệu.

 Phân tích thống kê cơ bản: Khám phá và mô tả dữ liệu bằng các thống kê cơ bản.  Trực quan hóa dữ liệu: Sử dụng biểu đồ để hiểu sâu hơn về phân phối và mối quan

hệ giữa các biến.

<i><b><small>1.3</small></b></i><small> Phạm vi</small>

Dự án sẽ tập trung vào tập dữ liệu về chất lượng rượu vang đỏ từ một nguồn cụ thể. Phạm vi của dự án bao gồm:

 Tập dữ liệu Red Wine Quality sẽ được sử dụng.  Các biến số hoặc yếu tố cụ thể sẽ được phân tích.

 Các phương pháp phân tích hoặc mơ hình hóa cụ thể sẽ được áp dụng.  Các giả định hoặc hạn chế sẽ được xác định.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

Chương 2: Dữ liệu và nội dung

<i><b><small>2.1</small></b></i><small> Xem thông tin cơ bản của dữ liệu</small>

Tập dữ liệu chứa 1599 mẫu với 12 biến, bao gồm 10 biến đo lường và 2 biến phân loại. Tất cả các biến đều khơng có giá trị null.

<i><b><small>2.2</small></b></i><small> Xem một số dịng đầu tiên của dữ liệu</small>

Các dòng đầu tiên của dữ liệu cho thấy các mẫu với các giá trị của các biến như fixed acidity, volatile acidity, citric acid, alcohol và quality.

<i><b><small>2.3</small></b></i><small> Mô tả thống kê của dữ liệu</small>

<b>Thực nghiệm:</b>

<small>1</small>

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<class 'pandas.core.frame.DataFrame'> RangeIndex: 1599 entries, 0 to 1598 Data columns (total 12 columns):

# Column Non-Null Count Dtype --- --- --- ---

0 fixed acidity 1599 non-null float64 1 volatile acidity 1599 non-null float64 2 citric acid 1599 non-null float64 3 residual sugar 1599 non-null float64 4 chlorides 1599 non-null float64 5 free sulfur dioxide 1599 non-null float64 6 total sulfur dioxide 1599 non-null float64

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

7 density 1599 non-null float64 8 pH 1599 non-null float64 9 sulphates 1599 non-null float64 10 alcohol 1599 non-null float64 11 quality 1599 non-null int64 dtypes: float64(11), int64(1)

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

 <b>Trung bình fixed acidity: 8.32</b>

 <b>Trung bình volatile acidity: 0.53</b>

 <b>Trung bình citric acid: 0.27</b>

 <b>Trung bình alcohol: 10.42</b>

 <b>Chất lượng trung bình của rượu vang: 5.64</b>

<i><b><small>2.4</small></b></i><small> Trực quan hóa dữ liệu</small>

 Biểu đồ phân phối chất lượng rượu vang: Biểu đồ countplot cho thấy phân phối không đồng đều của chất lượng rượu vang, với số lượng lớn rượu vang có chất lượng trung bình.

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

 Heatmap tương quan giữa các biến: Heatmap cho thấy một số tương quan giữa các biến đo lường như alcohol và chất lượng rượu vang.

<small>1</small>

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

Chương 3: Công cụ

<i><b><small>3.1</small></b></i><small>Tổng quan về Python</small>

Python là một ngơn ngữ lập trình thơng dịch, được phát triển bởi Guido van Rossum và ra mắt lần đầu vào năm 1991. Được thiết kế với sự tập trung vào đơn giản, dễ đọc và dễ học, Python đã trở thành một trong những ngơn ngữ lập trình phổ biến nhất trên thế giới.

Các đặc điểm của Python:

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

1. Ngôn ngữ đa mục đích: Python được sử dụng cho nhiều mục đích khác nhau, từ phát triển web, xử lý dữ liệu, đến máy học và trí tuệ nhân tạo.

2. Cú pháp đơn giản: Python có cú pháp đơn giản và gần gũi với ngôn ngữ tự nhiên, giúp người lập trình dễ dàng đọc và viết mã.

3. Thư viện phong phú: Python có một hệ sinh thái thư viện phong phú, bao gồm các thư viện như NumPy, Pandas, Matplotlib cho phân tích dữ liệu, TensorFlow, PyTorch cho máy học và trí tuệ nhân tạo, Flask, Django cho phát triển web, và nhiều thư viện khác nữa. 4. Hỗ trợ đa nền tảng: Python có thể chạy trên nhiều hệ điều hành khác nhau như Windows, Linux, macOS, cũng như các nền tảng di động như Android và iOS.

5. Cộng đồng lớn và hỗ trợ tốt: Python có một cộng đồng lập trình viên lớn, cung cấp nhiều tài liệu học tập, hỗ trợ và tham khảo.

6. Mã nguồn mở: Python là một ngôn ngữ mã nguồn mở, cho phép người dùng sửa đổi, phân phối và sử dụng miễn phí.

<b>• Ưu điểm của Python</b>

- Cú pháp đơn giản, dễ đọc - Bố cục trực quan, dễ hiểu

- Mã ngắn gọn hơn so với các NNLT khác - Có các bộ thư viện chuẩn, module ngoài - Chạy được trên nhiều nền tảng

- Cộng đồng lập trình lớn, hệ thống thư viện đầy đủ, mã nguồn chia sẻ nhiều và phong phú

<small>1</small>

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<b>• Nhược điểm của Python</b>

- Chương trình chạy chậm

- Giao tiếp khó khăn với thư viện viết bằng NNLT khác khăn với thư viện - Yếu trong hỗ trợ tính tốn trên di tính tốn trên di động

- Cách viết khối lệnh dễ gây nhầm lẫn - Gỡ lỗi đòi hỏi kinh nghiệm

- Ít hỗ trợ các cơ sở dữ liệu

Trong Python, có rất nhiều thư viện được phát triển để hỗ trợ các nhiệm vụ khác nhau trong phát triển phần mềm, khoa học dữ liệu, machine learning, và nhiều lĩnh vực khác. Một số thư viện phổ biến và hữu ích trong Python:

<i><b>3.2</b></i><small> Thư viện NumPy: NumPy là một thư viện cơ bản cho tính tốn khoa học và tính tốn</small>

số học trong Python. Nó cung cấp các cấu trúc dữ liệu mảng nhiều chiều (arrays) và một loạt các chức năng để làm việc với chúng.

<i><b>3.3</b></i><small> Thư viện Pandas</small><b>: Pandas là một thư viện mạnh mẽ cho phân tích và xử lý dữ liệu. Nó</b>

cung cấp các cấu trúc dữ liệu dễ sử dụng như DataFrame và Series, cho phép người dùng thực hiện các thao tác như lọc, sắp xếp, và biến đổi dữ liệu một cách hiệu quả.

<i><b>3.4</b></i><small>Thư viện Matplotlib: Matplotlib là một thư viện vẽ đồ thị mạnh mẽ trong Python, cho </small>

phép người dùng tạo ra các biểu đồ 2D đẹp mắt như đồ thị đường, histogram, biểu đồ phân tán, và nhiều loại biểu đồ khác.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

 <b>Trong code trên, chúng em đã sử dụng các thư viện Python sau:</b>

- pandas (imported as pd): Được sử dụng để làm việc với dữ liệu dạng bảng và chuỗi thời gian thông qua các cấu trúc dữ liệu như DataFrame và Series.

- matplotlib.pyplot (imported as plt): Được sử dụng để tạo và hiển thị các biểu đồ, đồ

 Trung bình fixed acidity: 8.32  Trung bình volatile acidity: 0.53  Trung bình citric acid: 0.27  Trung bình alcohol: 10.42

 Chất lượng trung bình của rượu vang: 5.64

 Heatmap cho thấy một số tương quan giữa các biến đo lường như alcohol và chất lượng rượu vang.

<small>1</small>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Chương 5: Kết luận

 Phân tích dữ liệu chất lượng rượu vang đỏ đã cung cấp cái nhìn tổng quan về cấu trúc và phân phối của dữ liệu.

 Sử dụng các biểu đồ và phân tích thống kê, chúng ta có thể hiểu rõ hơn về mối quan hệ giữa các biến và chất lượng rượu vang.

 Tiếp theo, có thể thực hiện các phân tích chi tiết hơn để đưa ra các nhận định và khuyến nghị cụ thể cho ngành công nghiệp rượu vang.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

TÀI LIỆU THAM KHẢO

UC Irvine Machine Learning Repository . Available at: . Available at:

×