Nghiên cứu ảnh hưởng của kỹ thuật tiền xử lý lên hiệu năng trong các phương pháp phân loại dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (749.02 KB, 74 trang )

ðại Học Quốc Gia TP. Hồ Chí Minh
TRƯỜNG ðẠI HỌC BÁCH KHOA
---------o0o----------

TRẦN ðĂNG QUANG

NGHIÊN CỨU ẢNH HƯỞNG CỦA KỸ THUẬT TIỀN XỬ LÝ
LÊN HIỆU NĂNG TRONG CÁC PHƯƠNG PHÁP PHÂN
LOẠI DỮ LIỆU

Chuyên ngành: Khoa học máy tính

LUẬN VĂN THẠC SĨ

TP. Hồ Chí Minh, Tháng 12 – 2008

CƠNG TRÌNH ðƯỢC HỒN THÀNH TẠI
TRƯỜNG ðẠI HỌC BÁCH KHOA
ðẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học : TS. NGUYỄN ðỨC CƯỜNG

Cán bộ chấm nhận xét 1 :

Cán bộ chấm nhận xét 2 :

Luận văn thạc sĩ ñược bảo vệ tại HỘI ðỒNG CHẤM BẢO VỆ LUẬN VĂN
THẠC SĨ
TRƯỜNG ðẠI HỌC BÁCH KHOA, ngày tháng năm 200

LỜI CAM ðOAN
Tơi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các cơng trình khác như đã ghi rõ
trong luận văn, các cơng việc trình bày trong luận văn này là do chính chúng tơi thực hiện
và chưa có phần nội dung nào của luận văn này ñược nộp ñể lấy một bằng cấp ở trường
này hoặc trường khác.
Ngày 30 tháng 11 năm 2008

Trần ðăng Quang

LỜI CẢM ƠN
Tơi xin gửi lời cảm ơn đến gia đình, những người ln sát cánh, động viên, và tạo
mọi điều kiện tốt nhất để tơi có thể học tập và hồn tất được luận văn tốt nghiệp này.
Xin chân thành cảm ơn thầy TS. Nguyễn ðức Cường, ñã nhiệt tình hướng dẫn tơi
hồn thành tốt luận văn này.
Xin chân thành biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả q thầy cơ tại
trường ðại học Bách khoa, đặc biệt là các thầy cơ trong khoa Khoa học và Kỹ thuật Máy
tính.

TĨM TẮT
Hiện nay trữ lượng thơng tin gia tăng một cách nhanh chóng và được lưu trữ thành
những khối dữ liệu lớn. Quá trình phân loại dữ liệu (Data Classification) trên các tập dữ
liệu lớn sẽ tốn rất nhiều thời gian ñể cho ra kết quả. ðể giải quyết vấn ñề này cần phải
tổng hợp hay tóm tắt dữ liệu (Data Summarization), biến dữ liệu lớn thành dữ liệu nhỏ
hơn. Luận văn này khảo sát và ñề xuất các phương pháp lựa chọn dữ liệu kết hợp với các
giải thuật gom nhóm (Data Clustering) nhằm tìm ra phương pháp Data Summarization
hiệu quả ñể nâng cao hiệu suất cho các tác vụ Data Classification. Các phương pháp lựa
chọn ñược hiện thực trong luận văn là: lựa chọn ngẫu nhiên (Random), lựa chọn theo tỷ lệ
các giá trị của thuộc tính lớp (Rate of class attribute values), lựa chọn theo các thuộc tính

có độ lợi cao nhất (Gain of attributes), lựa chọn các phần tử gần khu vực tâm của mỗi
nhóm bằng khoảng cách Euclidean (Euclidean Distance). Các phương pháp ñược ño ñạc,
khảo sát với 9 tập dữ liệu thự tế: splice, mushroom, kr-vs-kp, anneal, hypothyroid 1,
hypothyroid 2, kropt, census-income, covtype.

ABSTRACT
Nowaday information expands very fast and become really huge datasets. Data
Classification process on those ones will take a long runtime. It’s actual issue. There is
one method to resolve that problem, that is Data Summarization. It reduces big data to the
smaller one and then the reduced data will be classified. This thesis proposes and surveys
four selection method associate with Data Clustering algorithms to find out the positive
Data Summarization to improve the efficiency of Data Classification operations. They are
Random select, Rate of class attribute values, Gain of attributes, Euclidean Distance
methods. The survey is practical with nine real datasets: splice, mushroom, kr-vs-kp,
anneal, hypothyroid 1, hypothyroid 2, kropt, census-income, covtype.

MỤC LỤC
DANH MỤC HÌNH............................................................................................................. v
DANH MỤC BẢNG ......................................................................................................... vii
CHƯƠNG 1 GIỚI THIỆU .................................................................................................. 1
1.1 Sơ lược về ñề tài ......................................................................................................... 1
1.2 Phạm vi đề tài và các cơng việc cần làm .................................................................... 2
1.3 Nội dung thực hiện ..................................................................................................... 4
CHƯƠNG 2 CÁC NGHIÊN CỨU LIÊN QUAN............................................................... 5
2.1 ðiều khiển hiệu quả các thành phần dư thừa trong dữ liệu nhiều chiều .................... 5
2.2 Lấy mẫu có định hướng bằng cách phân mảnh dữ liệu .............................................. 6
2.2.1 Dựa vào thông tin về lớp ñể phân mảnh dữ liệu rồi tiến hành lấy mẫu (Stratified
Sampling) ....................................................................................................................... 6

2.2.2 Dựa vào giá trị entropy ñể phân mảnh rồi tiến hành lấy mẫu............................... 6
2.2.3 Dựa vào sự khác biệt về thuộc tính để phân mảnh ............................................... 7
2.3 Kỹ thuật xử lý dữ liệu nhiều chiều ............................................................................. 8
2.3.1 Kiểm tra ñường biên vật lý ................................................................................... 8
2.3.2 Lọc các giá trị trung bình .................................................................................... 10
2.3.3 Khử các giá trị nhiễu ........................................................................................... 10
2.3.4 Xóa bỏ các thành phần bên ngồi đường biên dựa vào giá trị α-Stable
Distribution .................................................................................................................. 11
CHƯƠNG 3 CƠ SỞ LÝ THUYẾT................................................................................... 13
3.1 Những phương pháp, giải thuật cơ bản..................................................................... 13

ii

3.1.1 Phương pháp thống kê ........................................................................................ 13
3.1.2 Mất hay thiếu dữ liệu .......................................................................................... 15
3.1.3 Thuộc tính mang giá trị số (giá trị liên tục) ........................................................ 15
3.1.4 Phương pháp chia ñể trị ...................................................................................... 17
3.1.4.1 Xây dựng cây quyết ñịnh dựa vào ñộ lợi thông tin ....................................... 17
3.1.4.2 Xây dựng cây quyết ñịnh dựa vào tỷ lệ ñộ lợi thông tin............................... 19
3.1.5 Phương pháp dùng giải thuật bao phủ ................................................................ 20
3.1.6 Mô hình tuyến tính.............................................................................................. 21
3.1.7 Phương pháp đo khoảng cách ............................................................................. 22
3.2 Các cách ñánh giá, ño lường ñáng tin cậy ................................................................ 23
3.2.1 Kiểm tra chéo ...................................................................................................... 23
3.2.2 Leave-one-out ..................................................................................................... 23
3.2.3 Bootstrap ............................................................................................................. 24
3.3 Gom nhóm dữ liệu .................................................................................................... 25
3.3.1 Gom nhóm theo cấp bậc ..................................................................................... 26
3.3.2 Gom nhóm theo phạm vi bao phủ....................................................................... 28

3.3.3 Gom nhóm bằng cách phân mảnh....................................................................... 30
3.3.4 Sơ lược các giải thuật gom nhóm khác ............................................................... 32
CHƯƠNG 4 ðỀ XUẤT CÁC PHƯƠNG PHÁP THU GỌN DỮ LIỆU.......................... 34
4.1 Chọn ngẫu nhiên theo tỷ lệ trên thuộc tính lớp ........................................................ 34
4.2 Chọn theo độ lợi thơng tin với thông số tỷ lệ phần trăm của các giá trị thuộc tính . 34
4.3 Chọn theo tỷ lệ độ lợi thông tin với thông số tỷ lệ phần trăm của các giá trị thuộc
tính .................................................................................................................................. 36

iii

4.4 Chọn theo sự phân mảnh trên từng thuộc tính – Ưu tiên thuộc tính ít bị phân mảnh36
4.5 Chọn theo sự phân mảnh trên từng cặp thuộc tính – Ưu tiên thuộc tính ít bị phân
mảnh................................................................................................................................ 37
4.6 Phân mảnh dữ liệu theo từng bộ giá trị các thuộc tính rồi tiến hành thu gọn........... 38
4.7 Chia dữ liệu thành nhiều mảnh nhỏ theo nhiều cấp – Ưu tiên chọn giá trị gần với giá
trị tâm của mỗi mảnh ...................................................................................................... 39
4.8 Chọn theo tỷ lệ độ lợi thơng tin và giá trị trung bình của các thuộc tính ................. 40
4.9 Tiêu chí đánh giá các phương pháp khảo sát............................................................ 40
CHƯƠNG 5 HIỆN THỰC ................................................................................................ 41
5.1 Giải thích một số đối tượng chính được sử dụng trong thư viện Weka ................... 41
5.1.1 Gói weka.classifiers ............................................................................................ 41
5.1.2 Gói weka.clusters ................................................................................................ 42
5.2 Hiện thực................................................................................................................... 42
5.2.1 Cách gom nhóm .................................................................................................. 42
5.2.2 Cách lựa chọn các phần tử ñể thu gọn tập dữ liệu .............................................. 43
5.2.2.1 Chọn ngẫu nhiên............................................................................................ 43
5.2.2.2 Chọn dựa vào tỷ lệ xuất hiện của các giá trị của thuộc tính lớp ................... 43
5.2.2.3 Chọn dựa vào thuộc tính có độ lợi cao nhất.................................................. 43
5.2.2.4 Chọn dựa vào khoảng cách Eclidean ............................................................ 43

5.2.3 Giao diện của chương trình................................................................................. 44
5.3 ðánh giá kết quả bằng thực nghiệm ......................................................................... 46
5.3.1 Các tập dữ liệu ñược khảo sát ............................................................................. 47
5.3.2 Biểu ñồ ñộ chính xác trung bình giữa các phương pháp lựa chọn...................... 47

iv

5.3.3 Biểu đồ thời gian thực thi trung bình q trình phân loại dữ liệu giữa cách làm
trực tiếp và cách làm trên dữ liệu ñã ñược thu gọn...................................................... 51
CHƯƠNG 6 KẾT LUẬN .................................................................................................. 58
6.1 Kết quả của ñề tài...................................................................................................... 58
6.1.1 Về mặt độ chính xác............................................................................................ 58
6.1.2 Về mặt thời gian thực thi .................................................................................... 58
6.2 Kết luận và hướng phát triển .................................................................................... 59
TÀI LIỆU THAM KHẢO ................................................................................................. 60

v

DANH MỤC HÌNH
Hình 2.1 Sự khác biệt giữa việc lấy mẫu ngẫu nhiên và lấy mẫu theo cây kd-tree..............8
Hình 2.2 Dữ liệu gốc và dữ liệu sau khi xử lý đường biên vật lý [11].................................9
Hình 2.3 Tín hiệu trước và sau khi xử lý bằng phương pháp khử các giá trị nhiễu...........11
Hình 2.4 Dữ liệu dạng heavy tails [11] ..............................................................................12
Hình 3.1 Cây quyết ñịnh ñơn giản với gốc là các thuộc tính .............................................18
Hình 3.2 Cây quyết định đầy đủ cho dữ liệu thời tiết ........................................................19
Hình 3.3 Khơng gian bao phủ của tập luật [3] ...................................................................21
Hình 3.4 Dữ liệu được phân mảnh theo tập luật [3]...........................................................21
Hình 3.5 Các phương pháp đo khoảng cách [7] .................................................................26

Hình 3.6 Gom nhóm theo cấp bậc (Hierarchical Clustering) [7] .......................................27
Hình 3.7 Ba loại liên kết giữa các Cluster [7] ....................................................................27
Hình 3.8 Gom nhóm theo mật độ bao phủ (Density-based Clustering) [7] .......................28
Hình 3.9 Minh họa kết quả phân nhóm dữ liệu bằng giải thuật OPTICS [7].....................30
Hình 3.10 Minh họa các bước của giải thuật K-Means [7] ................................................31
Hình 4.1 Chọn ngẫu nhiên theo tỷ lệ 1/5 trên thuộc tính lớp .............................................34
Hình 4.2 Cây quyết định theo độ lợi thơng tin với thơng số tỷ lệ ......................................35
Hình 4.3 Minh họa sự phân mảnh dữ liệu trên từng thuộc tính .........................................36
Hình 4.4 Minh họa sự phân mảnh dữ liệu trên từng cặp thuộc tính...................................38
Hình 4.5 Chia dữ liệu thành nhiều mảnh nhỏ.....................................................................39
Hình 5.1 Giao diện chính của chương trình khảo sát .........................................................45

vi

Hình 5.2 Giao diện của chức năng minh họa tập dữ liệu bằng hình ảnh............................46
Hình 5.3 Biểu đồ độ chính xác trung bình giữa các phương pháp lựa chọn ......................48
Hình 5.4 Biểu đồ độ chính xác trung bình giữa các phương pháp lựa chọn ứng với từng
phương pháp phân loại .......................................................................................................49
Hình 5.5 Biểu đồ độ chính xác trung bình giữa các phương pháp lựa chọn ứng với từng
phương pháp gom nhóm.....................................................................................................50
Hình 5.6 Biểu đồ độ chính xác trung bình giữa các phương pháp lựa chọn ứng với 3
phương pháp gom nhóm XMeans, XMeans 1-phase, XMeans 2-phase ............................51
Hình 5.7 Biểu đồ thời gian thực thi trung bình giữa các phương pháp lựa chọn ...............52
Hình 5.8 Biểu đồ thời gian thực thi trung bình giữa các phương pháp lựa chọn được tiến
hành với phương pháp gom nhóm SimpleKMeans 1-phase ..............................................54
Hình 5.9 Biểu ñồ thời gian thực thi trung bình giữa các phương pháp lựa chọn với q
trình phân loại dữ liệu được tiến hành bằng các giải thuật đơn giản..................................55
Hình 5.10 Biểu ñồ thời gian thực thi trung bình giữa các phương pháp lựa chọn với q
trình phân loại dữ liệu được tiến hành bằng các giải thuật phức tạp..................................55

Hình 5.11 Biểu ñồ thời gian thực thi trung bình giữa các phương pháp lựa chọn với
phương pháp gom nhóm SimpleKMeans 1-phase và các giải thuật phân loại:
RBFNetwork, Logistic, NBTree.........................................................................................56
Hình 5.12 Biểu đồ thời gian thực thi trung bình giữa các phương pháp lựa chọn với
phương pháp gom nhóm SimpleKMeans 1-phase và giải thuật phân loại:
MultilayerPerceptron ..........................................................................................................57

vii

DANH MỤC BẢNG
Bảng 3.1 Dữ liệu về thời tiết với các thuộc tính mang giá trị rời rạc [3] ...........................13
Bảng 3.2 Thống kê tỷ lệ xuất hiện của các phần tử theo thuộc tính [3] .............................14
Bảng 3.3 Dữ liệu về thời tiết có chứa thuộc tính số [3]......................................................16
Bảng 3.4 Thống kê tỷ lệ xuất hiện của các phần tử theo thuộc tính [3] .............................16
Bảng 3.5 Cách tính tỷ lệ độ lợi [3] .....................................................................................20
Bảng 5.1 Các tập dữ liệu ñược dùng ñể khảo sát ...............................................................47
Bảng 5.2 Việc thiết ñặt các thông số k, N, D theo số lượng phần tử n của tập nguồn.......53

1

CHƯƠNG 1
GIỚI THIỆU
1.1 Sơ lược về đề tài
Trữ lượng thơng tin gia tăng một cách chóng mặt trong thời đại ngày nay. Thơng tin
được lưu trữ thành những khối dữ liệu khổng lồ làm cho các giải thuật phân loại dữ liệu
(Data Classification) gặp một số khó khăn. Thời gian thực thi để cho ra kết quả thường
khá lâu, có thể là vài ngày, vài tháng hoặc vài năm. Từ đó dẫn đến một hướng tiếp cận
mới: đó là tìm cách giản lược bớt dữ liệu ñể thành lập dữ liệu có kích thước nhỏ hơn

nhưng vẫn thể hiện rõ bản chất của dữ liệu gốc, sau đó mới tiến hành khảo sát, ño ñạc dữ
liệu. Như thế hiệu suất của việc phân loại dữ liệu sẽ ñược cải thiện và cách làm này gọi
chung là sự tổng kết, tổng hợp hay tóm tắt dữ liệu (Data Summarization).
Có nhiều cách Data Summarization. ðơn giản nhất là lấy mẫu (Sampling). Phương
pháp này khơng xét đến bản chất của dữ liệu nên thường có độ chính xác khơng cao và
chỉ phù hợp trong một số ít trường hợp. Phương pháp thứ hai là gom các phần tử có đặc
điểm khá giống nhau vào từng nhóm nhỏ (Data Clustering). Phương pháp này có khảo sát
ñến bản chất của dữ liệu cũng như mật ñộ phân bố của các phần tử trong dữ liệu nên cho
kết quả tốt hơn và phù hợp với nhiều loại thơng tin. ðó là hai phương pháp thơng dụng,
ngồi ra cịn có một số phương pháp đặc thù khác chỉ ñược áp dụng với từng kiểu dữ liệu
cụ thể.
Phạm vi của ñề tài này là nghiên cứu và ñề xuất các phương thức lựa chọn dữ liệu
nhằm tìm ra phương pháp Data Summarization hiệu quả ñể cải thiện hiệu suất cho tác vụ
Data Classification. ðể hiện thực ñiều này chúng ta cần phải tiến hành phân tích, khảo sát
và kiểm nghiệm trên nhiều phương pháp và giải thuật. Một số giải thuật ñược áp dụng
rộng rãi hiện nay như: Hierarchical Clustering, Density-based Clustering, Partitional
Clustering và một số phương pháp khác như: Probabilistic Clustering, Grid Clustering,
Artificial Intelligence, .v.v.

2

Tại sao chúng ta quan tâm ñến vấn ñề này ? Thử tưởng tượng với những ứng dụng có
ý nghĩa về mặt thời gian, chẳng hạn như chương trình dự báo thời tiết, chương trình về
quân sự hay chương trình tổng hợp các giao dịch trong ngày của một mạng lưới bán hàng
lớn. Chúng cần phải phân tích một khối lượng dữ liệu ñồ sộ trong một khoảng thời gian
rất ngắn. Với các chương trình này hiệu suất được ưu tiên hàng ñầu. Muốn vậy bắt buộc
phải giản lược bớt thơng tin. Khi đó độ chính xác sẽ giảm xuống. Vì vậy cần phải có
những phương pháp, hướng tiếp cận mới nhằm tối ưu q trình Data Summarization sao
cho độ chính xác của kết quả phân tích là chấp nhận ñược.

1.2 Phạm vi ñề tài và các công việc cần làm
Hình 1.1 minh họa hai hướng triển khai Data Classification. Một là làm trực tiếp từ
dữ liệu nguyên thủy. Hai là tìm cách đơn giản dữ liệu đầu vào bằng q trình Data
Summarization, sau đó mới tiến hành Classification. ðề tài sẽ ñi theo hướng thứ hai.

3

1
Classification
(J48, M5, …)

Original Data

2

Results

Accuracy ?

Data Summarization
Pre-Analyzing
(Sampling, K-Means, EM…)

Reduced
Data

Data Simplying

How ?

1.Cách hiện
thực thơng
thường
2.Cách hiện
thực mới để
gia tăng hiệu
suất thực thi

Hình 1.1 Hai phương pháp phân loại dữ liệu
Về cơ bản quá trình Data Summarization gồm có hai bước chính. Một là phân tích dữ
liệu (Pre-Analyzing). Hai là đơn giản hay thu gọn dữ liệu (Data Simplying). Ở bước một
có nhiều phương pháp phân tích, điển hình như: Sampling, K-Means, EM,…. chúng ta sẽ
tiến hành khảo sát chúng. Ở bước hai ngoài việc khảo sát các phương pháp hiện nay ñề tài
sẽ ñề xuất một số phương thức mới và tiến hành ño ñạc tính hiệu quả của các phương thức
ñã ñề xuất. Các cơng việc quan trọng phải làm:
• Tìm hiểu các giải thuật, phương pháp về Sampling, Clustering.
• Tự đề suất các phương pháp về Data Simplying

4

• Tiến hành đo đạc, kiểm thử các phương pháp này thông qua các tập dữ liệu thực
tế và thư viện Weka
• Tổng kết, nhận xét ưu khuyết điểm của từng phương pháp và nêu ra hướng khắc
phục

1.3 Nội dung thực hiện
Hầu hết các giải thuật về Sampling và Clustering phổ biến hiện nay đã được hiện thực

với gói thư viện Weka tại địa chỉ [12]. Chúng ta có thể tham khảo và sử dụng lại gói thư
viện này trong q trình kiểm thử để đo đạt thời gian và ñộ chính xác của các phương
thức ñã ñề xuất nhằm tìm ra giải phát tối ưu.

5

CHƯƠNG 2
CÁC NGHIÊN CỨU LIÊN QUAN
2.1 ðiều khiển hiệu quả các thành phần dư thừa trong dữ liệu nhiều chiều
Nghiên cứu này ñược ñề xuất bởi Lei Yu và Huan Liu [8]. Tác giả ñưa ra những lý
thuyết ñể phân tích sự tương quan, tính tốn giá trị trọng số của các thuộc tính nhằm xác
định mức độ quan trọng của các thuộc tính. Tìm ra thuộc tính khơng cần thiết hay thuộc
tính dư thừa và tiến hành loại trừ các thuộc tính này để giản lược bớt thơng tin nhằm làm
tăng tốc độ xử lý và độ chính xác cho việc phân tích dữ liệu.
Về cơ bản, một đặc ñiểm hay thuộc tính của tập dữ liệu ñược xem là tốt nếu nó liên
quan đến thuộc tính lớp của dữ liệu đó và nó cũng phải có ý nghĩa với những thuộc tính
tốt khác. Khi đó các thuộc tính tốt này sẽ giữ vai trị quan trọng đối với các tác vụ phân
loại dữ liệu (Classification Tasks)
Trước ñây việc tính tốn giá trị tương quan này địi hỏi các thuộc tính phải mang giá
trị số. Tuy nhiên với phương pháp của Lei Yu và Huan Liu thì khơng bắt buộc điều này vì
việc tính tốn được thực hiện trên các lý thuyết về thông tin bởi giá trị entropy. Giá trị
entropy của một biến X ñược ñịnh nghĩa như sau:

H(X) = - ∑ P(x i ) log 2 (P(x i ))
i

Và giá trị entropy của biến X sau khi ñạt ñược giá trị của biến Y

H(X|Y) = - ∑ P(yi ) ∑ P(x i |yi ) log 2 (P(x i |yi ))

j

i

Với P(xi) là xác suất của tất cả các giá trị của biến X, P(xi|yi) là xác suất của biến X
sau khi biến Y ñã xảy ra.
ðộ lợi thông tin của biến X so với biến Y
IG (X|Y) = H(X) - H(X|Y)

6

Khi đó thuộc tính Y sẽ tương quan với thuộc tính X nhiều hơn là tương quan với
thuộc Z nếu IG(X|Y) > IG(Z|Y)
Có thể dùng độ lợi thơng tin để ño lường sự tương quan của hai thuộc tính. Tuy nhiên
tác giả cho rằng độ lợi này nghiên về phía về những thuộc tính có nhiều giá trị hơn do ñó
ñã chọn giải pháp cân ñối giá trị entropy của hai thuộc tính để tính độ tương quan. Cơng
thức tính như sau:

SU (X,Y) = 2

IG (X|Y)
H(X) + H(Y)

2.2 Lấy mẫu có định hướng bằng cách phân mảnh dữ liệu
Huan Liu, Hongjun Lu, Hiroshi Motoda và Lei Yu [9] [10] ñã ñề xuất các phương
pháp sau:
2.2.1 Dựa vào thông tin về lớp ñể phân mảnh dữ liệu rồi tiến hành lấy mẫu
(Stratified Sampling)
Dữ liệu ñược phân chia thành những mảnh nhỏ dựa theo giá trị của thuộc tính lớp rồi

mới tiến hành lấy mẫu. Nếu thuộc tính lớp của dữ liệu có j giá trị c1, c2, …,cj; thì dữ liệu
sẽ ñược tách thành j mảnh. Mỗi mảnh sẽ ñồng nhất nhau về thuộc tính lớp. ðộ phức tạp
của giải thuật là O(jN) (N là số phần tử của dữ liệu) [10].
Phương pháp này là một cải tiến của việc lấy mẫu một cách tự do, ngẫu nhiên từ tập
dữ liệu gốc. Tuy nhiên về cơ bản nó vẫn là phương pháp đơn giản và khơng có gì đặc sắc
2.2.2 Dựa vào giá trị entropy ñể phân mảnh rồi tiến hành lấy mẫu
Về lý thuyết giá trị entronpy trong các tác vụ phân loại dữ liệu được tính theo các
mảnh dữ liệu của thộc tính lớp [10]
j

entropy (p1 ,p 2 ,...,p j ) = - ∑ pi log pi
i=1

7

Xét một thuộc tính bất kì Ai với q giá trị, phân tách dữ liệu theo Ai ta có q mảnh. Khi
đó giá trị entropy của thuộc tính Ai như sau:
q

entropy Ai =

w
∑
0=1

q

0

* entropy0 (p1, p2, ..., pj),

w
∑
0 =1

0

=1

Tác giả nhận xét rằng các mảnh đồng nhất (pure partition) thì có giá trị entropyo()
bằng 0, như thế để phân tách dữ liệu thành nhiều mảnh ñồng nhất cần phải ñạt ñược giá trị
entropyAi nhỏ nhất và ñề suất việc lập lại nhiều lần quá trình phân tách dữ liệu cho ñến khi
tất cả các mảnh ñều ñồng nhất hoặc ñộ ñồng nhất của các mảnh không thể tăng lên ñược
nữa.
So với phương pháp 1 (đã được nói ở mục trước), phương phát phân mảnh này ñạt
ñược ñộ ñồng nhất cao hơn vì nó áp dụng lý thuyết entropy. Tuy nhiên ñộ phức tạp của nó
cũng khá cao O(k N logN) với k là số thuộc tính của dữ liệu [10].
2.2.3 Dựa vào sự khác biệt về thuộc tính để phân mảnh
Hai phương pháp ở mục trước là tìm cách đưa các phần tử giống nhau vào cùng một
mảnh dữ liệu thì ở phương pháp này tác giả đề suất cách làm khác: phân tách các phần tử
theo sự khác biệt của chúng.
ðầu tiên tiến hành xây dựng cây kd-tree từ dữ liệu gốc (kd-tree tương tự như cây nhị
phân nhưng sử dụng k thuộc tính của dữ liệu làm các cấp bậc). Thuộc tính được chọn
trước tiên nếu sự khác biệt dữ liệu trên chiều của nó là lớn nhất. Giá trị trung bình của
thuộc tính này sẽ được sử dụng để phân chia dữ liệu thành 2 phần có kích thước bằng
nhau. Hai phần đó được đưa vào nhánh bên trái và nhánh bên phải của cây. Cứ như thế
tiếp tục cho tới các cấp tiếp theo của cây. Cây kd-tree có thể xem là cây cân bằng.
Sau khi cây xây dựng xong sẽ tiến hành việc lấy mẫu trên tập các nốt lá của cây.

8

Hình 2.1 Sự khác biệt giữa việc lấy mẫu ngẫu nhiên và lấy mẫu theo cây kd-tree
Phương pháp này cũng là một ñề xuất mới trong việc phân mảnh dữ liệu tuy nhiên
với những dữ liệu mà khơng có sự khác biệt thơng tin rõ rệt trong từng thuộc tính thì việc
chọn lựa thộc tính làm nút gốc ở các cấp của cây gặp vấn ñề. Mặt khác ñộ phức tạp của
giải thuật xây dựng cây kd-tree cũng khá cao O(k N logN) [9].

2.3 Kỹ thuật xử lý dữ liệu nhiều chiều
Tiêu biểu là các nghiên cứu của Anthony Quinn và Ludvik Tesar [11] với các phương
pháp ñề xuất sau:
2.3.1 Kiểm tra ñường biên vật lý
Dữ liệu nhiều chiều là dữ liệu có rất nhiều thuộc tính ví dụ thơng tin của người khám
bệnh tổng quát sẽ có các thuộc tính sau: nồng độ hồng cầu, bạch cầu, trữ lượng mỡ, nhịp
tim, số lần thở trong một phút, phổi, thận, gan, mật, nước tiểu .v.v. Mỗi thuộc tính sẽ có
các giá trị biên bao gồm cận biên dưới và cận biên trên ký hiệu là ξ và ψ. Hai giá trị này
sẽ do chúng ta quy ñịnh. Như thế những dữ liệu nào có thuộc tính nằm trong khoảng cận

9

biên dưới và cận biên trên của nó được xem là nằm trong khoảng ñường biên quy ñịnh: ξ
≤ yt ≤ ψ
Khi đó ta có hai cách chọn. Cách thứ nhất là chọn những phần tử nằm trong ñường
biên. Cách thứ hai là chọn những phần tử nằm dưới hoặc nằm trên đường biên. Những
phần tử khơng được chọn có thể xem như là dữ liệu bị sai lệch, gây nhiễu, chúng sẽ bị
loại bỏ và ñược sử dụng trong phần nội suy

Hình 2.2 Dữ liệu gốc và dữ liệu sau khi xử lý ñường biên vật lý [11]

10

2.3.2 Lọc các giá trị trung bình
Có hai cách tính giá trị trung bình là mean và median [11]. ðể dễ hiểu ta lấy ví dụ
sau: giả sử cần tính nhiệt độ trung bình của 10 đối tượng trong một căn phịng, hầu hết
chúng đều có nhiệt độ từ 20 ñến 25◦C, tuy nhiên có một phần tử ñặc biệt có nhiệt độ 350
◦C. Khi đó giá trị trung bình mean là 55 (giá trị trung bình của tất cả các phần tử) nhưng
giá trị median chỉ là 23 (giá trị trung bình của nửa cao hơn và nửa thấp hơn). Trong
trường hợp này giá trị median phản ánh nhiệt ñộ trung bình của các phần tử tốt hơn giá trị
mean.
Cơng thứ tính hai giá trị này

mt =

dt =

y t - w + 1 + ... + y t
w

y t - [(w - 1) / 2] + y t - [w / 2]
2

Giá trị mean là mt và median là dt. Với ω là ñộ lớn của vùng cửa sổ cần tính giá trị
trung bình.
Tác giả đề suất giải thuật lọc dựa trên giá trị trung bình theo tiêu chí sau:

st L ≤ yt - mt
Với st là ñộ lệch chuẩn khi ño lường các giá trị yt-ω+1, …,yt. L ñược giả sử là một giá

trị ngưỡng. Nếu bất ñẳng thức thỏa mãn thì giá trị yt được xem như giá trị nằm ngồi
vùng cho phép và được thay thế bằng giá trị mt
Hoàn toàn tương tự cho giá trị median dt

st L ≤ yt - d t
2.3.3 Khử các giá trị nhiễu
Phương pháp này ñược áp dụng với dữ liệu là các tín hiệu với tần số khác nhau. ðầu
tiên là tiến hành lọc các tín hiệu với tần số cao, sau đó là lọc với tần số thấp theo tỷ lệ 2:1

11

thay thế hai giá trị tần số của hai phần tử liền kề bằng tần số trung bình của chúng, cứ như
thế lặp lại nhiều lần. Về cơ bản ñây là giải thuật ñơn giản dữ liệu bằng cách lấy giá trị
trung bình của 2 phần tử kề nhau

yout
=
t

1 in
(y + yint-1 )
2 t

Hình 2.3 Tín hiệu trước và sau khi xử lý bằng phương pháp khử các giá trị nhiễu
2.3.4 Xóa bỏ các thành phần bên ngồi đường biên dựa vào giá trị α-Stable
Distribution
Giải thuật này chủ yếu dựa trên quan điểm cho rằng với những dữ liệu có phần cuối
kéo dài khá giống nhau một cách nặng nề, gọi theo thuật ngữ là “heavy tails”, “long tails”
hay “power-law tails” thì có thể được thay thế bằng một phần tử khác ñược lấy ngẫu

nhiên từ những vùng khác trong tập dữ liệu

12

Hình 2.4 Dữ liệu dạng heavy tails [11]
Giải thuật này gặp phải vấn đề khi thực hiện việc tính tốn ñộ dày hay ñộ ñậm ñặc
của các phần tử trong dữ liệu. Việc tính tốn này rất phức tạp và không hiệu quả.

Nghiên cứu ảnh hưởng của kỹ thuật tiền xử lý lên hiệu năng trong các phương pháp phân loại dữ liệu

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về