Tải bản đầy đủ (.docx) (12 trang)

Sử dụng phần mềm Weka và Ngôn ngữ R để giải quyết bài toán phân lớp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (674.7 KB, 12 trang )

SỬ DỤNG PHẦN MỀM WEKA VÀ NGÔN NGỮ R GIẢI QUYẾT BÀI TOÁN PHÂN
LỚP
* Nội dung thực hiện
I. Giới thiệu chức năng của phần mềm Weka (Chức năng Classify – phân
lớp)
1. Giới thiệu chức năng Classify
- Là một trong các chức năng của phần Explorer;
- Hỗ trợ người dùng huấn luyện và kiểm chứng các mô hình phân l ớp hay th ực
hiện hồi quy.
2. Mô tả chức năng Classify ( được thực hiện qua 5 bước)
- B1: Tại tab Preprocess, chọn tập dữ liệu và thực hiện tiền xử lý dữ li ệu
- B2: Chọn thuật toán phân lớp xác định tham số
- B3: Chọn kiểu test và tập dữ liệu test nếu cần
- B4: Tiến hành phân lớp dữ liệu
- B5: Ghi nhận kết quả

H1: Chọn tab Preprocess để đọc dữ liệu vào chương trình Weka

1


H2:Chọn tab Classify để phân lớp

H3: Chọn thuật toán và điều chỉnh tham số

2


H4: Chọn kiểu test

H5: Chọn Start để chạy thuật toán phân lớp



3


H6: Bảng lưu thông tin ngày giờ và thuật toán

H7: Bảng ghi kết quả

4


II. Sử dụng phần mềm Weka áp dụng giải quyết bài toán phân lớp (ch ương
4 và 5) với dữ liệu tùy chọn của Việt Nam
1. Mô tả
- Nguồn dữ liệu:
/>- Nội dung dữ liệu:
+ Dữ liệu cho thấy vị trí của trung tâm ki ểm tra và phòng ng ừa COVID-19, các
trạm kiểm soát tại các thành phố lớn ở Việt Nam. Đi ều này đặc bi ệt quan tr ọng
để giúp mọi người và chính quyền có thể ki ểm soát sự lây lan của bệnh dịch. Các
thành phố lớn như Hà Nội và Hồ Chí Minh là nơi tri ển khai nhanh nhất trung
tâm xét nghiệm và các trạm kiểm tra và ki ểm soát COVID-19. D ữ li ệu sẽ đ ược
cập nhật liên tục ở các địa phương khác nhau.
+ Dữ liệu gồm có 9 thuộc tính (STT, Name, Location, Trajectory, Area, Contigious
zone, Type, Province, Reference) và 121 bản ghi
2. Đọc dữ liệu vào chương trình Weka
- Chạy phần mềm Weka, sau đó truy xuất đến tập tin ngu ồn (Tên tập tin ngu ồn:
station_test_covid19_en-sheet1)
- Ta chọn tab Classify để phân lớp
- Sau đó chọn thuật toán phân lớp (REPTree) trên chính tập hu ấn luy ện (Use
training set

- Ta chạy thuật toán phân lớp, kết quả như sau:

5


Hình 1: Bảng kết quả
- Phân tích kết quả:
+ Phần Run information thông tin về mô hình học, tên quan hệ, s ố mẫu, thu ộc
tính và kiểu test. Cụ thể, thuật toán sử dụng là REPTTree, tên quan hệ là d ữ li ệu
về vị trí của trung tâm kiểm tra và phòng ngừa COVID-19, s ố mẫu 121, s ố thu ộc
tính 09, kiểu test sẽ được đánh giá trên dữ liệu huấn luyện (Hình 1).
+ REPTree: đưa ra 1 cây: On the Thang Long bridge (80/79) [41/40], do d ữ li ệu
nhỏ nên thời gian xây dựng mô hình nhanh (0,02 giây) (Hình 2).

Hình 2
+ Evaluation on training set: ta biết kiểu test là đánh giá dựa trên tập hu ấn luy ện
(Hình 3).
+ Summary: Tổng kết lại số liệu thống kê cho bi ết độ chính xác của b ộ phân l ớp
theo một kiểu test cụ thể như: số mẫu phân lớp đúng (Correctly Classified
Instances): 2, số mẫu phân lớp sai (Incorrectly Classified Instances): 119 và các
giá trị về độ đo lỗi (Hình 3).

6


Hình 3
+ Detailed Accuracy By Class: cho ta biết độ chính xác của từng phân l ớp (Hình
4).

Hình 4

+ Confusion Matrix: Cho ta biết bao nhiêu mẫu đ ược gán vào t ừng l ớp. Các ph ần
tử của ma trận thể hiện số mẫu test có lớp thật sự là dòng và l ớp d ự đón là c ột
(Hình 5).

Hình 5

7


SỬ DỤNG PHẦN MỀM R GIẢI QUYẾT BÀI TOÁN PHÂN LỚP
* Nội dung thực hiện
I. Giới thiệu chức năng của phần mềm R (Chức năng Classify – phân lớp)
Giới thiệu R Phân tích số liệu và biểu đồ thường được tiến hành bằng các phần
mềm thông dụng như SAS, SPSS, Stata, Statistica, và S-Plus. Đây là những ph ần
mềm được các công ti phần mềm phát triển và giới thiệu trên thị trường
khoảng ba thập niên qua, và đã được các trường đại học, các trung tâm nghiên
cứu và công ti kĩ nghệ trên toàn thế giới sử dụng cho giảng dạy và nghiên cứu.
Nhưng vì chi phí để sử dụng các phần mềm này tuơng đối đắt tiền (có khi lên
đến hàng trăm ngàn đô-la mỗi năm), một số trường đại học ở các nước đang
phát triển (và ngay cả ở một số nước đã phát triển) không có khả năng tài chính
để sử dụng chúng một cách lâu dài. Do đó, các nhà nghiên cứu th ống kê trên th ế
giới đã hợp tác với nhau để phát triển một phần mềm mới, với chủ trương mã
nguồn mở, sao cho tất cả các thành viên trong ngành th ống kê học và toán h ọc
trên thế giới có thể sử dụng một cách thống nhất và hoàn toàn mi ễn phí. Năm
1996, trong một bài báo quan trọng về tính toán thống kê, hai nhà thống kê h ọc
Ross Ihaka và Robert Gentleman [lúc đó] thuộc Trường đại học Auckland, New
Zealand phát hoạ một ngôn ngữ mới cho phân tích thống kê mà họ đặt tên là R
[1]. Sáng kiến này được rất nhiều nhà thống kê học trên thế giới tán thành và
tham gia vào việc phát triển R. Cho đến nay, qua chưa đầy 10 năm phát tri ển,
càng ngày càng có nhiều nhà thống kê học, toán học, nghiên cứu trong mọi lĩnh

vực đã chuyển sang sử dụng R để phân tích dữ liệu khoa học. Trên toàn cầu, đã
có một mạng lưới hơn một triệu người sử dụng R, và con số này đang tăng rất
nhanh. Có thể nói trong vòng 10 năm nữa, vai trò của các phần mềm thống kê
thương mại sẽ không còn lớn như trong thời gian qua nữa. Vậy R là gì? Nói m ột
cách ngắn gọn, R là một phần mềm sử dụng cho phân tích th ống kê và vẽ bi ểu
đồ. Thật ra, về bản chất, R là ngôn ngữ máy tính đa năng, có thể sử dụng cho
nhiều mục tiêu khác nhau, từ tính toán đơn giản, toán học gi ải trí (recreational
mathematics), tính toán ma trận (matrix), đến các phân tích th ống kê phức tạp.
Vì là một ngôn ngữ, cho nên người ta có thể sử dụng R để phát tri ển thành các
phần mềm chuyên môn cho một vấn đề tính toán cá biệt. Vì thế, những ai làm
nghiên cứu khoa học, nhất là ở các nước còn nghèo khó như nước ta, cần phải
học cách sử dụng R cho phân tích thống kê và đồ thị. Bài viết ngắn này sẽ hướng
dẫn bạn đọc cách sử dụng R. Tôi giả định rằng bạn đọc không biết gì về R,
nhưng tôi kì vọng bạn đọc biết qua về cách sử dụng máy tính.

8


II. Sử dụng phần mềm R áp dụng giải quyết bài toán phân lớp (chương 4
và 5) với dữ liệu tùy chọn của Việt Nam
1. Mô tả
- Nguồn dữ liệu:
/>+ Dữ liệu được lấy 25 dòng đầu tiên và 2 cột: Nhiệt độ và Năm để phân l ớp
nhóm lạnh và không lạnh trên nước Việt Nam

Dữ liệu khi được down về
2. Đọc dữ liệu vào chương trình R
- Ta cần sử dụng thư viện
+ library(ggplot2)
+ library(cowplot)

+ library(randomForest)

9


Tiếp theo: Gọi dữ liệu sau khi trích 25 dòng đầu và 3 cột
Trong đó cột thứ 3 nếu nhiệt độ từ 19 độ trở xuống thì là 1(lạnh), ngược lại
0(không lạnh) được đặt tên là QĐ

10


Đường dẫn đến dữ liệu

Đặt tên 3 cột cho dữ liệu
11


Sau khi kiểm tra kiểu dữ liệu, ta đổi ki ểu dữ liệu sang ki ểu chúng ta th ấy phù
hợp

TÀI LIỆU THAM KHẢO:
- Nguyễn Văn Tuấn – “Phân tích số liệu và biểu đ ồ b ằng R”
- INTRODUCTION TO DATA MINING COPYRIGHT @2006 BY PEARSON
EDUCATION

12




×