Cách sử dụng rapidminer

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (855.45 KB, 9 trang )

ỨNG DỤNG RAPIDMINER TRONG XÂY DỰNG MÔ HÌNH QSAR
RapidMiner là phần mềm mã nguồn mở miễn phí dùng cho việc khai phá dữ liệu ứng dụng trong
xử lý, phân tích ,đánh giá và xây dựng mô hình.
RapidMiner được sử dụng sau các bước tối thiểu hóa năng lượng và tính toán thông số mô tả phân
tử.
Phiên bản phần mềm được sử dụng trong bài này là phiên bản RapidMiner Community Edition
5.2.003.
1. Nhập dữ liệu
- Cách 1: File  Import Data
- Cách 2: Operators  Import  Data
2. Xử lý dữ liệu nhập
Data Import Wizard
Step 3: Cột Annotation, chọn giá trị cho hàng tiêu đề là Name.
Step 4: Cột compound, chọn attribute là id, Cột pIC
50
, chọn attribute là label. Bỏ chọn các
cột không cần thiết.
Chọn nơi lưu CSDL.
3. Phân chia cơ sở dữ liệu thành tập training và tập testing
- Nhập CSDL vào Process
- Thêm Split Validation vào chuỗi, chọn split ratio là 0.8 (tập training chứa 80% số
chất trong CSDL)
- Thêm chuỗi thực thi vào trong Split Validation:
o Traning
 Thêm lệnh xuất ra file chứa tập training
 Thêm 1 model (Validation yêu cầu 1 model trong nó), trong ví dụ là
Lazy Modeling k-NN
o Testing
 Thêm lệnh xuất ra file chứa tập testing
 Thêm Apply Model
 Thêm Performance

- Run

4. Lọc thô thông số mô tả
o Loại các thông số có hầu hết các giá trị bằng 0 (80%)
o Loại bỏ các thông số mô tả có độ lệch chuẩn  0.5
 Remove Useless Attributes, numerical min deviation: 0.5
o Loại bỏ bớt các thông số mô tả có tương quan  0.9
 Remove Correlated Attributes, correlation: 0.9
 Attribute order: random
o Loại các thông số mô tả có tương quan với pIC
50
 0.07
 Weight by Correlation, squared correlation
 Select by Weights, weight relation: greater, weight: 0.07
5. Chuẩn hóa lại các giá trị thông số mô tả theo tỷ lệ trong khoảng 0-1 (Normalize)
- Normalize, method: range transformation, max: 1, min: 0

6. Lựa chọn thông số mô tả theo thuật toán
(to be continue…)
7. Xây dựng mô hình SVM để dự đoán hoạt tính
- Tối ưu hóa các thông số cho mô hình SVM
Các giá trị cần tối ưu với SVR là C, gamma, epsilon
o Nhập dữ liệu tập training
o Thêm Optimize Parameters (Grid)
 Thêm X-Validation, number of validation: 5, samling type: shuffled
sampling
 Thêm Support Vector Machine (LibSVM)
o svm-type: epsilon-SVR
o kernel type: rbf (rbf sẽ cho kết quả chính xác hơn)
o Chọn calculate confidences để tính giá trị hoạt tinh dự

đoán
 Thêm Apply Model
 Thêm Performance (Regression), chọn root mean square
error
 Thêm Log, chọn file lưu kết quả, chỉnh sửa Log bằng Edit List,
thêm các cột C, gamma, epsilon, performance
 Chỉnh sửa Optimize Paremeters Setting
 SVMLib  C, chọn các giá trị từ 50 đến 1000 (tùy chỉnh)
 SVMLib  gamma, chọn các giá trị từ 0.001 đến 0.1 (tùy
chỉnh)
 SVMLib  epsilon, chọn các giá trị từ 0.001 đến 0.1 (tùy
chỉnh).
Lưu ý: Càng nhiều steps thì sẽ đánh giá càng lâu (tổ hợp)
o Run
o Kết quả xuất ra sẽ cho ta biết giá trị nào là tốt nhất

- Ta xây dựng mô hình trên tập training với các thông số đã được tối ưu

8. Đánh giá mô hình

- Áp dụng mô hình trên tập Testing để dự đoán hoạt tính
o Apply model trên tập Testing
o Áp dụng tương tự như tập training

- Đánh giá chéo mô hình sử dụng X-Validation: Có thể sử dụng phương pháp LOO hay
phương pháp đánh giá 5 lần hay 10 lần.

Cách sử dụng rapidminer

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về