Tải bản đầy đủ (.docx) (24 trang)

bài toán phân loại rượu vang

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 24 trang )

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC MỎ ĐỊA CHẤT

TRÍ TUỆ NHÂN TẠO+BTL
KHOA HỌC MÁY TÍNH

BÀI LÀM KIỂM TRA ĐIỂM B

Đề bài: Nghiên cứu ứng dụng mạng nơron cho bài toán phân loại
rượi

Sinh viên thực hiện:

Giảng viên hướng dẫn:

Nguyễn Văn Linh

GV.THS Đặng Hữu Nghị

MSV:1921050355

HÀ NỘI


Mục Lục:
I)Tìm hiểu giải thuật mơ hình Neural Networks được sử dụng trong bài toán. 3
A. Perceptrons cơ bản..........................................................................................3
B. Kiến trúc mạng Neural nhân tạo....................................................................4
C. Kiến trúc mạng Neural MLP (Multi-layer Perceptron):.............................5
II. Mơ tả bài tốn thực nghiệm:.............................................................................6
III. Mơ tả về tệp dữ liệu thực nghiệm về phân loại chất lượng của rượu vang: 8


6) Kết luận:.............................................................................................................24
7) Tài liệu tham khảo:...........................................................................................24

1921050355-Nguyễn Văn Linh

2


I)Tìm hiểu giải thuật mơ hình Neural Networks được sử dụng trong
bài tốn.
Ngày nay, khơng chỉ dừng lại ở mức nghiên cứu lý thuyết, các nghiên cứu ứng
dụng mạng nơron để giải quyết các bài toán thực tế được ứng dụng rộng rãi trong
nhiều lĩnh vực khác nhau.
Các ứng dụng mạng nơron ra đời ngày càng nhiễu và ngày càng hoàn thiện hơn.
Việc ứng dụng mạng nơron để đánh giá cắm quan trong thực phẩm là một vấn để
mới và chưa có nhiều ứng dụng tại Việt Nam. Tuy nhiên phương pháp này khi thực
nghiệm chương trình thì tốn nhiều thời gian để huấn luyện và cho ra kết quả dự
báo với độ chính xác chưa cao. Từ những vấn để nêu trên, trong nghiên cứu này tác
giả trình bày một cách tiếp cận mới là kết hợp kỹ thuật gom cụm và mạng nơron để
đánh giá cảm quan trong thực phẩm. Dữ liệu sẽ được tiến hành gom cụm dùng giải
thuật K-Means, tiếp theo huấn luyện dữ liệu trên từng cụm dùng giải thuật lan
truyền ngược. Với phương pháp mới này thì kết quả dự báo các chỉ số đánh giá
cảm quan trong thực phẩm sẽ chính xác hơn và giầm thời gian huấn luyện.

A. Perceptrons cơ bản
Một mạng Neural được cấu thành bởi các Neural đơn lẻ được gọi là
các perceptron. Nên trước tiên ta tìm hiểu xem perceptron là gì đã rồi tiến tới mơ
hình của mạng Neural sau. Neural nhân tạo được lấy cảm hứng từ Neural sinh học
như hình sau:


1921050355-Nguyễn Văn Linh

3


Hình 1:Cấu tạo mạng Neural

Quan sát hình ảnh trên, ta có thể thấy một Neural có thể nhận nhiều đầu vào và
cho ra một kết quả duy nhất. Mơ hình của perceptron cũng tương tự như vậy.
Một perceptron sẽ nhận một hoặc nhiều đầu x vào dạng nhị phân và cho ra một
kết quả oo dạng nhị phân duy nhất. Các đầu vào được điều phối tầm ảnh hưởng bởi
các tham số trọng lượng tương ứng w của nó, cịn kết quả đầu ra được quyết định
dựa vào một ngưỡng quyết định b nào đó.

B. Kiến trúc mạng Neural nhân tạo
Mạng Neural là sự kết hợp của của các tầng perceptron hay còn được gọi là
perceptron đa tầng (multilayer perceptron) như hình vẽ bên dưới

1921050355-Nguyễn Văn Linh

4


Hình 2:Kiến trúc mạng neural nhân tạo
Một mạng Neural sẽ có 3 kiểu tầng:


Tầng vào (input layer): Là tầng bên trái cùng của mạng thể hiện cho các đầu
vào của mạng.




Tầng ra (output layer): Là tầng bên phải cùng của mạng thể hiện cho các đầu
ra của mạng.



Tầng ẩn (hidden layer): Là tầng nằm giữa tầng vào và tầng ra thể hiện cho
việc suy luận logic của mạng.

Lưu ý rằng: một Neural chỉ có 1 tầng vào và 1 tầng ra nhưng có thể có nhiều tầng
ẩn.
Trong mạng Neural, mỗi nút mạng là một sigmoid Neural nhưng hàm kích hoạt
của chúng có thể khác nhau. Tuy nhiên trong thực tế người ta thường để chúng
cùng dạng với nhau để tính toán cho thuận lợi. Ở mỗi tầng, số lượng các nút mạng
(Neural) có thể khác nhau tuỳ thuộc vào bài toán và cách giải quyết. Nhưng thường
khi làm việc người ta để các tầng ẩn có số lượng Neural bằng nhau. Ngoài ra, các
Neural ở các tầng thường được liên kết đôi một với nhau tạo thành mạng kết nối
đầy đủ (full- connected network).

C. Kiến trúc mạng Neural MLP (Multi-layer Perceptron):
Mơ hình mạng nơron được sử dụng rộng rãi nhất là mơ hình mạng nhiều tầng
truyền thẳng (MLP: Multi Layer Perceptron). Một mạng MLP tổng quát là mạng
có n (n≥2) tầng (thơng thường tầng đầu vào khơng được tính đến): trong đó gồm
một tầng đầu ra (tầng thứ n) và (n-1) tầng ẩn.

1921050355-Nguyễn Văn Linh

5



Hình 3:Mạng Neural MLP
Kiến trúc của một mạng MLP tổng qt có thể mơ tả như sau:


Đầu vào là các vector (x1, x2, …, xp) trong không gian p chiều, đầu ra là các
vector (y1, y2, …, yq) trong không gian q chiều. Đối với các bài toán phân
loại, p chính là kích thước của mẫu đầu vào, q chính là số lớp cần phân loại.



Mỗi neural thuộc tầng sau liên kết với tất cả các nơron thuộc tầng liền trước
nó.



Đầu ra của neural tầng trước là đầu vào của nơron thuộc tầng liền sau nó.

Hoạt động của mạng MLP như sau: tại tầng đầu vào các neural nhận tín hiệu vào
xử lý (tính tổng trọng số, gửi tới hàm truyền) rồi cho ra kết quả (là kết quả của hàm
truyền); kết quả này sẽ được truyền tới các neural thuộc tầng ẩn thứ nhất; các
nơron tại đây tiếp nhận như là tín hiệu đầu vào, xử lý và gửi kết quả đến tầng ẩn
thứ 2. Quá trình tiếp tục cho đến khi các neural thuộc tầng ra cho kết quả.

II. Mơ tả bài tốn thực nghiệm:
Trong bài báo cáo này, ta sẽ khám phá tạp dữ liệu về rượu:
Đầu tiên, chúng tơi thực hiện phân tích dữ liệu mơ tả và khám phá. Tiếp theo,
chúng ta chạy giảm kích thước với các thuật toán PCA và TSNE để kiểm tra chức
năng của chúng. Cuối cùng, một bộ phân loại rừng ngẫu nhiên được triển khai, so


1921050355-Nguyễn Văn Linh

6


sánh các giá trị tham số khác nhau để kiểm tra xem tác động của bộ phân loại đến
kết quả như thế nào.
Trong các điểm trước, ta thấy tất cả các biến trong tập dữ liệu, ngoại trừ biến mục
tiêu, là số liên tục. Khơng có giá trị nào bị thiếu trong bất kỳ biến nào. Từ các giá
trị thống kê cơ bản, ta có thể thấy rằng khơng có biến nào tn theo phân phối
chuẩn, vì khơng có biến nào có trung bình là 0 và độ lệch chuẩn 1. Trong biểu đồ,
ta có thể quan sát cách biến rượu có phân bố tập trung nhiều hơn hoặc ít hơn, với
hầu hết các biến các bản ghi có giá trị từ 12 đến 14 độ, đối với color_intensity và
magie, ta quan sát thấy sự phân bố của chúng bị lệch sang trái.
Ta có thể quan sát rằng biến có thể xác định rõ nhất loại rượu là biến rượu, vì theo
biểu đồ, các loại rượu có ít trùng nhau hơn theo lượng rượu, chúng ta thấy loại 0 và
1 được phân biệt rõ ràng như thế nào trong một số các dãy. Đối với cường độ màu,
nó cũng sẽ cho phép chúng ta có được sự phân loại, mặc dù có thể quan sát thấy sự
chồng chéo nhiều hơn của các biểu đồ. Magnesium dường như là biến ít xác định
loại rượu nhất vì các biểu đồ khá trùng lặp trong hầu hết các biểu đồ.
Ta có thể thấy mối tương quan của rượu với Magnesium thấp như thế nào có thể
thấy ở hướng thấp của các điểm trong biểu đồ này. Chúng ta cũng có thể quan sát
thấy rất ít định hướng trong biểu đồ Magnesium với color_intensity, tương ứng với
chỉ số tương quan rất thấp được tìm thấy trước đây. Mặt khác, mối tương quan của
rượu với color_intensity là cao nhất cũng như có thể thấy ở mức độ cao hơn của
biểu đồ chấm của nó, mặc dù khơng có mối tương quan cao. Chúng ta có thể thấy
mối tương quan của rượu với Magnesium thấp như thế nào có thể thấy ở hướng
thấp của các điểm trong biểu đồ này. Chúng ta cũng có thể quan sát thấy rất ít định
hướng trong biểu đồ Magnesium với color_intensity, tương ứng với chỉ số tương
quan rất thấp được tìm thấy trước đây. Mặt khác, mối tương quan của rượu với

color_intensity là cao nhất cũng như có thể thấy ở mức độ cao hơn của biểu đồ
chấm của nó, mặc dù khơng có mối tương quan cao.
Trong trường hợp được hiển thị, cả PCA và TNSE đều cho thấy sự cải thiện trong
mơ hình, cả hai đều hoạt động theo cách tương tự, điều này phù hợp với đồ thị của
bài tập . Cần lưu ý rằng kết quả này có được bằng cách thực hiện liên tục thuật tốn
TSNE kể từ nó chứa một thành phần ngẫu nhiên, cũng như các khu rừng ngẫu
nhiên. Tham số random_state được sử dụng để có thể lặp lại kết quả trong các lần
thực thi khác nhau của thuật toán.

1921050355-Nguyễn Văn Linh

7


Tiếp theo, chúng ta sẽ kiểm tra các thông số n_estimators, max_depth và
min_samples_split với các giá trị khác nhau, để thấy rõ mục đích và ảnh hưởng của
chúng đến kết quả, chúng tôi sẽ lưu tất cả các kết quả dự đoán hiệu quả trên dữ liệu
thử nghiệm và huấn luyện, đồng thời hiển thị một biểu đồ. Để thấy rõ hơn sự cải
tiến của nó, chúng ta sẽ kiểm tra trên tập dữ liệu mà khơng giảm kích thước vì nó
khơng phải là mơ hình tốt nhất, vì vậy chúng ta có thể kiểm tra mức độ cải thiện
của mơ hình với mỗi tham số.

III. Mơ tả về tệp dữ liệu thực nghiệm về phân loại chất lượng của
rượu vang:
a) Hai bộ dữ liệu có liên quan đến các biến thể màu đỏ và trắng của rượu vang
"Vinho Verde" của Bồ Đào Nha. Do các vấn đề về quyền riêng tư và hậu cần, chỉ
có các biến số hóa lý (đầu vào) và cảm quan (đầu ra) (ví dụ: khơng có dữ liệu về
loại nho, nhãn hiệu rượu, giá bán rượu, v.v.).
Các tập dữ liệu này có thể được xem như các nhiệm vụ phân loại hoặc hồi quy. Các
lớp được sắp xếp theo thứ tự và không cân bằng (ví dụ: có nhiều loại rượu bình

thường hơn loại xuất sắc hoặc kém). Các thuật toán phát hiện ngoại lệ có thể được
sử dụng để phát hiện một số loại rượu ngon hoặc kém. Ngồi ra, chúng tơi khơng
chắc liệu tất cả các biến đầu vào có liên quan hay khơng. Vì vậy, có thể thú vị khi
thử nghiệm các phương pháp lựa chọn tính năng.
b) Số thuộc tính gồm: 12 loại
Các biến đầu vào (dựa trên các phép thử hóa lý):
1 - độ axit cố định
2 - độ axit dễ bay hơi
3 - axit xitric
4 - đường dư
5 - clorua
6 - lưu huỳnh đioxit tự do
7 - tổng lưu huỳnh đioxit
8 - tỷ trọng
9 - pH
10 - sunfat
11 - rượu
Biến đầu ra (dựa trên dữ liệu cảm quan):

1921050355-Nguyễn Văn Linh

8


12 - chất lượng (điểm từ 0 đến 10)
c) Số mẫu
gồm: 1600mẫu + 6498 mẫu= 8098 mẫu
d) bài thực nghiệm thuộc loại: phân loại theo mơ hình mạng nơron(Neural
Networks)
e) địa chỉ website tải tệp dữ liệu:

Rượi vang :( )

4. Thực nghiệm:
Khai báo thư viện:

-Tải tập dữ liệu:

1921050355-Nguyễn Văn Linh

9


-In tập dữ liệu ra màn hình:

-Tìm kiếm các giá trị bị thiếu và rỗng:

-Xem tần suất mục tiêu biến đổi:

1921050355-Nguyễn Văn Linh

10


-Kiểm tra bằng đồ thị:

-hiển thị dữ liệu:

-Hiển thị biểu đồ:

1921050355-Nguyễn Văn Linh


11


-Phân tích biểu đồ rượu:

-Phân tích biểu đồ color-intensity:

1921050355-Nguyễn Văn Linh

12


-Biểu đồ rượu với giá trị trung bình và lệch chuẩn:

1921050355-Nguyễn Văn Linh

13


-Biểu đồ color-intensity với giá trị trung bình và độ lệch chuẩn:

-Biểu đồ magnesium với giá trị trung bình và độ lệch chuẩn:

1921050355-Nguyễn Văn Linh

14


-Bảng tương quan:


1921050355-Nguyễn Văn Linh

15


-Biểu đồ điểm phân tán:

1921050355-Nguyễn Văn Linh

16


1921050355-Nguyễn Văn Linh

17


1921050355-Nguyễn Văn Linh

18


1921050355-Nguyễn Văn Linh

19


-Giá trị trung bình và độ lệch chuẩn:
-Mean: 0,94

-Standard Dev:0.03

1921050355-Nguyễn Văn Linh

20


-Giá trị trung bình và độ lệch chuẩn:
-Mean:0.94
Standard Dev:0.03

1921050355-Nguyễn Văn Linh

21


-Độ chính xác :98%

1921050355-Nguyễn Văn Linh

22


1921050355-Nguyễn Văn Linh

23


-Độ chính xác đạt được:
+Thơng qua kết quả đạt được độ chính xác 98%


6) Kết luận:
Bài báo đã phân tích được tẳm quan trọng của cảm quan trong phẩm mới và sự
khó khăn trong việc đánh giá cảm. Nghiên cứu các điểm mạnh, điểm yếu của mạng
ndron và kết hợp với kỹ thuật gom cụm K-Means để giải quyết bài toán đánh giá
cảm quan thực phẩm.
Đổng thời qua việc tiến hành thử nghiệm thu được những giá tị dự báo. có độ
chính xác khá cao (vào khoảng 98%), cho thấy tính tu việt của việc ứng dụng kỹ
thuật gom cụm và mạng ndron để đánh giá cảm quan thực phẩm. Từ đó mở ra một
hướng đi khả quan cho việc ứng dụng máy học vào giải quyết bài toán đánh giá
cảm quan trong thực phẩm.
Việc ứng dụng nơron kết hợp với phân cụm để giải bài toán đánh giá cảm quan
thực phẩm là một phương pháp mới mang tính khả quan cao. Quá trình cài đặt
chương trình đánh giá cẩm quan đã thụ được một số kết quả nhất định

7) Tài liệu tham khảo:
/> /> />
1921050355-Nguyễn Văn Linh

24



×