Tải bản đầy đủ (.pdf) (7 trang)

Nghiên cứu, xây dựng phương pháp trích chọn đặc trưng dựa trên giải thuật phân lớp random forest

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (314.22 KB, 7 trang )

Nghiên cứu, xây dựng phương pháp trích chọn
đặc trưng dựa trên giải thuật phân lớp Random
Forest

Nguyễn Cương

Trường Đại học Công nghệ
Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: TS. Nguyễn Hà Ham
Năm bảo vệ: 2010

Abstract: Luận văn trình bày một cách tổng quan về khai phá dữ liệu và chọn lựa
thuộc tính nói chung, sau đó đi sâu vào nghiên cứu giải thuật phân lớp thuộc tính
random forest. Đề xuất một phương pháp học máy dựa trên việc cải tiến giải thuật
phân lớp Random Forest nhằm tăng hiệu quả phân lớp của giải thuật. Sau cùng, luận
văn trình bày kết quả cài đặt, thử nghiệm đối với phương pháp học máy đề xuất, đưa
ra các kết quả đánh giá tính hiệu quả của giải thuật trước và sau khi cải tiến, cmột số
nhận xét, đánh giá về kết quả thực nghiệm này.

Keywords: Dữ liệu; Giải thuật phân lớp; Khai phá dữ liệu; Công nghệ thông tin

Content
Tổng quan

1.1. Phát hiện tri thức và khai phá dữ liệu
Từ thập niên 80 của thế kỷ trước với xuất hiện của máy tính và sau đó là sự phát triển
mạnh mẽ của công nghệ thông tin và truyền thông, thì nhu cầu lưu trữ dữ liệu và trao đổi
thông tin trong xã hội loài người ngày càng tăng lên mạnh mẽ. Tuy nhiên, đi cùng với lượng
dữ liệu và thông tin ngày càng khổng lồ mà chúng ta có được thì việc biến đổi những dữ liệu
sẵn có đó thành tri thức trở thành một đòi hỏi tất yếu trong đời sống hàng ngày. Từ nhu cầu
thực tế trên, đòi hỏi chúng ta phải tìm kiếm và ứng dụng các kỹ thuật nhằm “khai phá” những


thông tin hữu ích, những tri thức có ích từ những nguồn dữ liệu khồng lồ hiện có.
Phát hiện tri thức và khai phá dữ liệu (KDD) là những công việc liên quan đến việc trích,
lọc những thông tin có ích từ các nguồn dữ liệu [1]. Khai phá dữ liệu là một tập các kỹ thuật
được sử dụng một cách tự động nhằm tìm kiếm, phát hiện và đưa ra những mối quan hệ phức
tạp trong một tập dữ liệu lớn.
Khai phá dữ liệu chủ yếu tập trung vào 3 nhiệm vụ chính sau:
Giảm chiều dữ liệu: Giảm chiều dữ liệu là việc làm giảm chiều của không gian tìm kiếm
dữ liệu, giảm chi phí thu thập và lưu trữ dữ liệu, nâng cao hiệu quả của việc khai phá dữ liệu

2
và làm đơn giản hóa các kết quả khai phá dữ liệu. Trong nhiệm vụ làm giảm chiều dữ liệu
chúng ta cần xem xét hai khái nhiệm sau:
 Trích chọn thuộc tính (Feature Extraction): Trích chọn thuộc tính là việc tìm ra một
tập thuộc tính mới từ tập thuộc tính ban đầu nhằm nâng cao hiệu suất tính toán và độ
chính xác phân lớp. Các kỹ thuật trích chọn thuộc tính thường liên quan đến các phép
biến đổi phi tuyến (non-linear). Linear discriminant analysis (LDA) và principal
components analysis (PCA) là hai kỹ thuật phổ biến dùng trong trích chọn thuộc tính.
 Chọn lựa thuộc tính (Feature Selection): Chọn lựa thuộc tính là việc chọn ra một tập
thuộc tính con từ tập thuộc tính ban đầu sao cho các tập thuộc tính con này thể thể
hiện tốt nhất chức năng của một hệ thống quy nạp, chẳng hạn như một hệ thống phân
lớp. Việc tìm kiếm một tập con thuộc tính tối ưu thường là rất khó và rất nhiều các vấn
đề của chọn lựa thuộc tính là thuộc về lớp các bài toán NP-hard. Tuy nhiên, chọn lựa
thuộc tính lại được sử dụng rộng rãi trong giảm chiều dữ liệu vì các kết quả dựa trên
các thuộc tính được chọn lựa từ tập thuộc tính ban đầu thường dễ dàng lý giải hơn so
với một tập các thuộc tính được biến đổi từ tập thuộc tính ban đầu.
Phân cụm và phân lớp: Phân lớp và phân cụm là hai nhiệm vụ có mối quan hệ tương đối
gần nhau trong khai phá dữ liệu. Một lớp là một tập các đối tượng có cùng một số đặc điểm
hoặc mối quan hệ nào đó, tất cả các đối tượng trong lớp này được phân vào trong cùng một
lớp tên nhằm mục đích là để phân biệt với các lớp khác. Một cụm là một tập các đối tượng
tương tự nhau về mặt vị trí. Các cụm thường được được tạo ra nhằm mục đích để sau đó tiến

hành phân lớp các đối tượng.
Một tập dữ liệu với các lớp tên, phân tích dữ liệu nhằm mục đích xây dựng một bộ phân
lớp, bộ phân lớp này đóng vai trò như một “người dự đoán” một đối tượng mới xuất hiện sẽ
thuộc về lớp nào. Mô hình phân lớp được xây dựng dựa trên các dữ liệu sẵn có. Tiếp theo tiến
hành dự đoán, phân lớp các đối tượng dựa vào mô hình máy học được xây dựng ở bước trên.
Ví dụ, trong hoạt động của ngân hàng các thông tin cá nhân cũng và các hành vi tiêu dùng của
khách hàng được thu thập nhằm xây dựng một mô hình phân lớp cho những khách hàng mới
vào các lớp: có rủi ro tín dụng thấp, rủi ro tín dụng trung bình và rủi ro tín dụng cao. Trong
trường hợp khác, chỉ có một số thông tin cơ bản về những khách hàng tiềm năng như: tuổi,
trình độ chuyên môn và thu nhập. Chúng ta có thể sử dụng một số kỹ thuật phân cụm nhằm
nhóm các đối tượng này vào các cụm theo một số tiêu chí về độ tương đồng nào đó, sau đó
tiến hành dán nhãn cho các cụm được phân: mức độ rủi ro thấp, mức độ rủi trung bình và mức
độ rủi ro cao dựa vào các tiêu chí kinh doanh.
Nhìn chung, phân cụm thường được triển khai để xử lý với các dữ liệu không có lớp nhãn.
Một số phương pháp phân lớp tiến hành phân cụm các đối tượng vào các nhóm nhỏ trước khi
tiến hành phân lớp, chẳng hạn như trong mạng neural RBF (radial basis function).
Trích chọn luật: Trích chọn luật tìm kiếm và đưa ra dữ liệu bằng cách tất cả các dữ liệu
được đưa ra dựa trên các suy diễn/các quyết định mà các suy diễn/quyết định này được xây
dựng từ các tri thức thu thập được từ dữ liệu đó. Đối với người sử dụng các kết quả của khai
phá dữ liệu họ chỉ mong muốn có một cách giải thích đơn giản là tại sao có các kết quả phân
lớp đó, thuộc tính nào ảnh hưởng đến kết quả khai phá dữ liệu…Tuy nhiên, bằng các tham số
phân lớp rất khó để có thể diễn giải các tri thức đó theo cách mà người sử dụng có thể dễ dàng
hiểu được. Do đó, trích chọn ra các luật IF-THEN để đưa ra các thông tin có giá trị là một
cách diễn giải đơn giản và dễ hiểu nhất đối với người sử dụng.

3
Trích chọn luật có thể được nhóm vào hai kiểu chính. Một kiểu liên quan đến việc tìm ra
mối quan hệ giữa các thuộc tính đầu vào và các lớp nhãn ở đầu ra trong tập dữ liệu đã được
gán nhãn. Kiểu trích chọn luật còn lại là việc khai phá các luật quan hệ (accosiation rule), đây
là việc tìm ra các mối quan hệ giữa các thuộc tính trong tập dữ liệu và điều này hoàn toàn

không phụ thuộc vào lớp nhãn ở đầu ra. Các kỹ thuật trích chọn ra luật quan hệ thường được
ứng dụng nhằm tìm kiếm các mối liên hệ giữa các đối tượng trong dữ liệu phiên. Khai phá các
luật quan hệ có thể được áp dụng để phân tích hành vi khách hàng trong siêu thị. Ví dụ một
khách hàng mua bơ cũng sẽ mua bánh mì với một xác suất nhất định nào đó.
Khai phá dữ liệu thường được xem như là một bước đơn lẻ trong chu trình phát hiện tri
thức và khai phá dữ liệu. Các bước khác trong chu trình này bao gồm: a) Kho dữ liệu, b) chọn
lựa các dữ liệu đích, c) làm sạch dữ liệu, d) giảm chiều dữ liệu, e) chọn lựa mô hình phù hợp,
f) khai phá dữ liệu, g) nhận xét và trình bày kết quả, h) kiểm tra các kết quả có được. Một
cách đơn giản có thể hiểu như sau: kho dữ liệu cho phép dữ liệu được thu thập từ nhiều nguồn
dữ liệu khác nhau và ở nhiều định dạng khác nhau và nguồn dữ liệu này được sử dụng trong
một ứng dụng cụ thể; chọn lựa các dữ liệu đích nhằm tạo ra một dữ liệu cụ thể dùng cho ứng
dụng; làm sạch số liệu nhằm loại bỏ nhiễu và các giá trị bất thường; giảm chiều dữ liệu nhằm
chuyển dữ liệu thành một dạng dữ liệu phù hợp với ứng dụng; chọn lựa mô hình là chọn một
giải thuật phù hợp; khai phá dữ liệu nhằm tìm ra các thông tin cần quan tâm; nhận xét và trình
bày kết quả là việc giải thích các kết quả có được; kiểm tra các kết quả có được là việc chuyển
các kết quả thành một dạng có thể kiểm tra lại và sử dụng lại.
Hình 1.1 thể hiện các bước trong một chu trình phát hiện tri thức và khai phá dữ liệu

Hình 1. 1: Mô hình chu trình phát hiện tri thức và khai phá dữ liệu
Nếu xem xét các bước của chu trình khai phá dữ liệu trong ngữ cảnh của chọn lựa thuộc
tính, chúng có thể được tổng hợp thành 4 bước cơ bản sau: 1) Kho dữ liệu (Data warehousing)
- dữ liệu từ các nguồn khác nhau được tổng hợp, lưu trữ lại, 2)Tiền xử lý (Pre-processing)
(các bước b, c, và d) – chọn lựa các dữ liệu phù hợp cho một ứng dụng cụ thể, 3) Khai phá dữ
liệu (Data ming) (các bước e và f) – một giải thuật phai phá dữ liệu được chọn lựa và áp dụng
trên bộ số liệu thu được ở bước 2, 4) Hậu xử lý (Post-processing) (các bước g và h) – Các tri
thức thu được từ bước 3 được chọn lựa, nhóm… sao cho chúng có thể dễ dàng hiểu và sử
dụng.
Hình 1.2 dưới đây [2] thể hiện sự phát của khai phá dữ liệu trong những năm gần đây :

4


Hình 1. 2: Sự phát triển của khai phá dữ liệu trong những năm gần đây

1.2. Chọn lựa thuộc tính (CLTT) và vai trò của CLTT trong KDD
Hiện nay có rất nhiều phương thức được sử dụng trong khai phá dữ liệu như phân lớp, ước
lượng, phân cụm khái niệm và số, mối quan hệ, phân tích tuần tự…tuy nhiên đại bộ phận các
phương thức này đều gặp vấn đề khi dữ liệu quá lớn hoặc quá nhỏ. Một điều hiển nhiên rằng
dữ liệu sẽ không bao giờ là quá nhiều, nếu tất cả các dữ liệu là phù hợp. Tuy nhiên, trên thực
tế điều này là rất ít khi có được bởi vì thông thường các dữ liệu thường được thu thập cho một
mục đích chung nào đó hơn là được thu thập cho một mục đích riêng biệt, cụ thể. Do vậy, đối
với một nhiệm vụ khai phá dữ liệu cụ thể, nếu số lượng các dữ liệu không phù hợp là lớn thì
dữ liệu này sẽ ảnh hưởng rất lớn đến kết quả cũng như tốc độ thực hiện của việc khai phá dữ
liệu trên. Đối với những trường hợp này, thì việc áp dụng một thuật toán chọn lựa thuộc tính
để loại bỏ các dữ liệu không phù hợp là hết sức cần thiết. Trong trường hợp khác, chúng ta có
thể gặp các vấn đề liên quan đến thiếu dữ liệu như: (i) các dữ liệu hiện có chỉ chiếm một phần
rất nhỏ trong yêu cầu dữ liệu cần thiết để thực hiện một giải thuật phai phá dữ liệu nào đó
nhằm tìm ra một tri thức hữu ích; (ii) hoặc số lượng thuộc tính là rất lớn tuy nhiên số lượng
thực thể (bản ghi) lại nhỏ. Trên thực tế, khi chúng ta có quá ít dữ liệu hoặc quá nhiều thực thể
thì lựa chọn thuộc tính có thể cung cấp cho chúng ta một giải thuật khai phá dữ liệu chỉ tập
trung vào các thuộc tính liên quan. Do đó, các vấn đề đặt ra ở trên có thể được giải quyết
trong điều kiện “tốt nhất” có thể có được.
Thông thường có hai câu hỏi được đặt ra đối với việc chọn lựa thuộc tính là 1) Kết quả
của chọn lựa thuộc tính là gì ?; 2) Tại sao cần chọn lựa thuộc tính ?. Trước đây, câu trả lời cho
hai câu hỏi này chỉ đơn giản là: “muốn có một tập dữ liệu có số lượng thuộc tính nhỏ hơn”.
Tuy nhiên, ngày nay câu trả lời cho hai câu hỏi trên lại hết sức đa dạng, câu trả lời có thể là:
tôi muốn 1) cải thiện hiệu năng (tốc độ học, độ chính xác, hoặc đơn giản hóa các luật); 2) trực
quan hóa dữ liệu để chọn lựa một mô hình phù hợp cho dữ liệu đó; hoặc/và để giảm chiều dữ
liệu cũng như loại bỏ nhiễu trong dữ liệu hiện có…
Từ những quan sát trên về chọn lựa thuộc tính chúng ta có nhận xét sau: Chọn lựa thuộc
tính là một quá trình để tìm ra một tập con tốt nhất các thuộc tính theo một số tiêu chí nào đó.

Ứng dụng của trích chọn thuộc tính là hữu ích đối với cả ba bước của chu trình phát hiện tri
thức: tiền sử lý, khai phá và hậu sử lý. Cũng cần lưu ý là cả ba bước trên đều quan trọng như
nhau đối với sự thành công của phát hiện tri thức và khai phá dữ liệu. Bước một đảm bảo rằng
dữ liệu được cung cấp cho bước hai tốt về chất lượng và phù hợp về số lượng, bước hai đảm

5
bảo rằng khai phá dữ liệu được thực hiện một cách hiệu quả và hiệu nghiệm, bước ba đưa ra
các kết quả tin cậy và đầy đủ như người sử dụng mong muốn. Chọn lựa thuộc tính đóng vai
trò như là một công cụ quan trọng trong khai phá dữ liệu và là thể hiện của khoảng cách giữa
sự xuất hiện các vấn đề mới và sự xuất hiện các lĩnh vực mới. Một số vấn đề mà trước đây
không thể giải quyết được trong thống kê nay đã giải quyết được bởi học máy, và khai phá dữ
liệu xuất hiện như một lĩnh vực mới chỉ quan tâm đến việc xử lý các vấn đề chưa xử lý được
trong thống kê và học máy. Các công cụ mới được phát triển ngày càng nhiều, tuy nhiên mỗi
công cụ lại có những hạn chế rất định do đó chúng ta mong muốn có thể “nối” được những
công cụ này để tận dụng được “sức mạnh” của chúng. Chọn lựa thuộc tính có thể được xem
như là một bộ công cụ đặc biệt để “nối” và cải thiện hiệu năng của các công cụ hiện có. Xem
xét hai thành phần chính của phát hiện tri thức là các giải thuật khai phá và tập dữ liệu, các
công cụ có rất nhiều cho cả hai thành phần này. Chọn lựa thuộc tính là các công cụ thao tác
dữ liệu làm cho dữ liệu phù hợp với giải thuật khai phá mà không thay đổi bản chất của dữ
liệu và là một công cụ hữu hiệu cho việc cải tiến các phương thức khai phá dữ liệu.
1.3. Chọn lựa thuộc tính và bài toán phân lớp
Nhiệm vụ cơ bản của việc phân lớp là phân chia một tập các đối tượng thành n-hữu hạn
lớp đã biết trước. Tập đối tượng cần phân lớp được đặc trưng bởi một tập các thuộc tính chứa
các thông tin cần thiết liên quan đến các lớp, trong đó mỗi tập các thuộc tính được đại diện
bởi một tập các thuộc tính – giá trị. Với một tập dữ liệu bao gồm một tập các đối tượng đã
được phân lớp (thường gọi là tập tập huấn) nhiệm vụ đặt ra là từ tập huấn luyện cho trước xây
dựng một bộ phân lớp cho các dữ liệu tương tự. Vấn đề đặt ra đối với bài toán phân lớp là số
lượng các thuộc tính có thể rất lớn do những lý do sau:
 Dữ liệu được thu thập không đơn giản chỉ phục vụ cho một tác nghiệp cụ thể chẳng hạn
như khai phá dữ liệu. Do đó, đối với một ứng dụng cụ thể bộ dữ liệu có thể có rất nhiều

các thuộc tính thừa hoặc không phù hợp.
 Đôi khi thậm chí nếu chúng ta biết các thuộc tính được thiết kế cho một tác nghiệp cụ
thể thì thuộc tính nào là thuộc tính có liên quan thường không được biết. Điều này là do
bản chất của nghiên cứu. Chúng ta tiến hành thực nghiệm và thu thập số liệu vì chúng ta
muốn biết nhiều hơn lĩnh vực mà chúng ta muốn tìm hiểu và chúng ta thông thường
không có một ý niệm chính xác về các thuộc tính cần thiết. Do đó, chúng ta phải tìm các
thuộc tính cần thiết nhiều nhất mà chúng ta có thể nghĩ đến thậm chí chúng có thể là các
thuộc tính dư thừa hoặc không liên quan. Chúng ta chỉ có thể biết được thuộc tính nào là
liên quan sau khi chúng ta nghiên cứu bộ số liệu đã được thu thập.
 Một tác nghiệp có thể yêu cầu dữ liệu từ nhiều nguồn khác nhau. Nếu dữ liệu từ mỗi
nguồn là lớn thì sau khi nối các nguồn dữ liệu trên chúng ta sẽ có một bộ dữ liệu khổng
lồ. Nếu chúng ta biết được các thuộc tính liên quan thì chúng ta có thể giải quyết được
vấn đề trên nhưng trên thực tế chúng ta thường không biết trước các thuộc tính nào là
thuộc tính liên quan.
Các thuộc tính không liên quan hoặc thừa có thể có những ảnh hưởng tiêu cực đối với các
giải thuật phân lớp: (1) Có nhiều thuộc tính thông thường có nghĩa là cần nhiều thực thể, vì
vậy chúng ta cần đảm bảo các ràng buộc thống kê giữa các thực thể trong các lớp khác nhau,
(2) Các thuộc tính/dữ liệu thừa hoặc không liên quan có thể là nguyên nhân dẫn đến việc học
của giải thuật không được chính xác hoặc dẫn đến hiện tượng overfitting trong mô hình, (3)

6
Thêm vào đó với sự có mặt của dữ liệu thừa hoặc dữ liệu không liên quan có thể làm cho bộ
phân lớp trở lên phức tạp hơn. Điều này là gây ra những khó khăn không cần thiết cho chúng
ta trong việc diễn giải các kết quả học được từ tập huấn luyện.
Do chúng ta không biết được thuộc tính nào là liên quan trước khi chúng ta tiến hành thu
thập dữ liệu, và các thuộc tính thừa hoặc không liên quan thường gây ra những ảnh hưởng tiêu
cực đối với các giải thuật phân lớp, do đó chúng ta cần giải quyết vấn này đối với các bài toán
phân lớp. Về cơ bản, chúng ta chỉ muốn lựa chọn các thuộc tính liên quan đến ứng dụng của
chúng ta nhằm mục đích sao cho ứng dụng của chúng có được hiệu quả tốt nhất với các đo
lường, tính toán là ít nhất, nói một cách đơn giản chúng ta mong muốn có một đầu vào cho

mô hình là đơn giản nhất có thể nhưng lại cho kết quả ở đầu ra là tốt nhất có thể. Sử dụng
trích chọn thuộc tính trong phân lớp cho ta những lợi thế sau:
 Dữ liệu ít hơn do đó giải thuật phân lớp có thể học nhanh hơn;
 Độ chính xác cao hơn do đó bộ phân lớp có thể cho những kết quả phân lớp tốt;
 Các kết quả đơn giản hơn do đó các kết quả này có thể hiểu được dễ dàng hơn;
 Ít thuộc tính hơn do đó trong các vòng thu thập số liệu sau, nếu có thể chúng ta có thể
tiết kiệm được nhiều nguồn lực do việc loại bỏ các thuộc tính thừa và không liên quan.
Trong các chương tiếp theo chúng ta sẽ đi vào tìm hiểu sâu các đặc điểm của trích chọn
thuộc tính, một số giải thuật phân lớp được sử dụng phổ biến trong trích chọn thuộc tính và đi
sâu tìm hiểu giải thuật phân lớp Random Forest.

References
Tài liệu Tiếng Việt
[1] Nam, N. H. (2009). "Tối ưu hóa KPCA bằng GA để chọn các thuộc tính đặc
trưng nhằm tăng hiệu quả phân lớp của thuật toán Random Forest." Tạp chí Khoa
học ĐHQGHN, Khoa học Tự nhiên và Công nghệ 25(2009): tr 84-93.
[2] Tuấn, N. V, Phân tích số liệu và tạo biểu đồ bằng R-Hướng dẫn thực hành, NXB
KHKT, 2007.
Tài liệu Tiếng Anh
[1] L. NikhilR.Pal, Advanced Techniques in Knowledge Discovery and DataMining:
Springer, 2005.
[2] X. F. Lipo Wang, Data Mining with Computational Intelligence: Springer, 2005.
[3] H. M. Huan Lui, Feature Selection for Knowledge Discovery and Data mining:
Kluwer Acadamic Publishers, 2007.
[4] S. IsabelleGuyon, MasoudNikraveshandLoftiA.Zadeh, Feature Selection: Springer,
2006.
[5] E. F. Ian H.Witten, Data Mining: Practical Machine Learning Tools and Techniques,
Second Edition ed.: Morgan KauFmann Publishers, 2005.
[6] The Top Ten Algorithms in Data Mining: Chapman & Hall/CRC, 2009.
[7] L. Breiman, "Random Forests," Machine Learning Journal Paper, vol. 45, 2001.

[8] A. C. Leo Breiman. Random Forests. Available:

[9] H. Liu and H. Motoda, Computational Method of Feature Selection: Chapman &
Hall/CRC, 2008.
[10] P. I.Good, Resampling Methods: A Practical Guide to Data Analysis, Third Edition
ed.: Birkhauser, 2006.

7
[11] B. Efron, The Jackknife, the Bootstrap and Other Resampling Plans 6ed.: Capital City
Press, 1994.
[12] M. K. Jiawei Han, Data Mining:Concepts and Techniques, Second Edition ed.: Diane
Cerra, 2006.
[13] T N. V. Ha-Nam Nguyen
1,
Syng-Yup Ohn
1
,Young-Mee Park
2
, Mi Young Han
3
, and
Chul Woo Kim
4
. (2006) Feature Elimination Approach Based on Randon Forest for
Cancer Diagnosis. MICAI 2006: Advances in Artificial Intelligence.
[14] N. J. Marina Sokolova
1,
and Stan Szpakowicz
3
, "Beyond Accuracy, F-score and ROC:

a Family of Discriminant Measures for Performance Evaluation," Australian Artificial
Intelligence, 2006.
[15] (2003, Dataset for Seventeenth Annual Conference on Neural Information Processing
Systems. Available:
[16] L. Rokach. (2008 )Genetic Algorithm-based Feature Set Partitioning for Classification
Problems. Pattern Recognition. 1693-1717 Available:

[17] M. W. a. X. C. Heping Zhang*. (2009) Software Willows: a memory efficient tree and
forest construction package. BMC Bioinformatics. Available:

[18] P. Spector, Data Manipulation with R: Springer, 2008.
[19] M. T. Pascal Poncelet, Florent Masseglia, Data Mining Patterns: New Methods and
Applications: InformatIon science reference, 2008.
[20] T. H. Jerome Friedman, Robert Tibshirani, The Elements of Statistical Learning: Data
Mining, Inference and Prediction: Spinger, 2008.
[21] C. V. Giovanni Felici, Mathematical Methods for Knowledge Discovery and Data
Mining: Information science reference, 2008.
[22] W. M. a. S. Kally, "An Optimum Random Forest Model for Prediction of Genetic
Susceptibility to Complex Diseases," in Advances in Knowledge Discovery and Data
Mining. vol. Volume 4426/2007, ed: Springer Berlin / Heidelberg, 2007, pp. 193-204.
[23] D. Larose, Data mining methods and models: Willey-Interscience 2006.
[24] F. Livingston, "Implementation of Breiman's Random Forest Machine Learning
Algorithm " Machine Learning Journal Paper, 2005.
[25] M. G. Dan Steinberg, N. Scott Cardell, A Brief Overview to RandomForests: Salford
Systems, 2004.
[26] L. Torgo, Data Mining with R: learning by case studies: LIACC-FEP, 2003.
[27] A. Miller, Subset Selection in Regression, 2 ed.: Chapman & Hall/CRC, 2002.
[28] L. Breiman. (2002, Manual On Setting Up, Using, And Understanding Random
Forests V3.1. Available:


[29] A. D. Gordon, Classification, 2nd Edition ed.: Chapman & Hall/CRC, 1999.
[30] B. Efron, The Jackknife, the Bootstrap and other Resampling Plans: Capital City
Press, 1982.
[31] X. Su. Bagging and Random Forests. Available:



×