Tải bản đầy đủ (.pdf) (92 trang)

Nghiên cứu một số kĩ thuật khai phá dữ liệu không gian sử dụng cây quyết định

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.31 MB, 92 trang )

Số hóa bởi trung tâm học liệu
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG





CAO VĂN NGUYÊN



NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI
PHÁ DỮ LIỆU KHÔNG GIAN SỬ DỤNG
CÂY QUYẾT ĐỊNH


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH










Thái Nguyên - 2013
Số hóa bởi trung tâm học liệu
ĐẠI HỌC THÁI NGUYÊN


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN & TRUYỀN THÔNG





CAO VĂN NGUYÊN


NGHIÊN CỨU MỘT SỐ KỸ THUẬT KHAI
PHÁ DỮ LIỆU KHÔNG GIAN SỬ DỤNG
CÂY QUYẾT ĐỊNH
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01


LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS. ĐẶNG VĂN ĐỨC







Thái Nguyên – 2013

i


Số hóa bởi trung tâm học liệu

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành nhất tới PGS. TS Đặng Văn Đức - người đã
hướng dẫn, chỉ bảo tận tình, cung cấp tài liệu và phương pháp luận nghiên cứu khoa
học để tôi hoàn thành bản luận văn này.
Tôi xin bày tỏ lòng cảm ơn sâu sắc tới thầy cô, bạn bè cùng khóa, cùng lớp đã
giúp đỡ tôi trong suốt những năm học qua.
Xin cảm ơn gia đình, bạn bè, những người luôn khuyến khích, động viên và giúp
đỡ tôi trong mọi hoàn cảnh khó khăn.
Tôi xin cảm ơn các thầy cô trong trường Đại học Công nghệ thông tin và Truyền
thông, Đại học Thái Nguyên đã hết sức tạo điều kiện cho tôi trong quá trình học và
làm luận văn này.
Luận văn được hoàn thành trong thời gian hạn hẹp nên không thể tránh được
những thiếu sót. Tôi xin cảm ơn thầy cô, bạn bè, đồng nghiệp đã có những ý kiến đóng
góp chân thành cho nội dung của luận văn, để tôi có thể tiếp tục đi sâu tìm hiểu về lĩnh
vực này trong tương lai.

Thái Nguyên, 11/2013
Cao Văn Nguyên

ii

Số hóa bởi trung tâm học liệu

LỜI CAM ĐOAN

Tôi xin cam đoan kết quả đạt đƣợc trong luận văn là sản phẩm của riêng cá nhân
tôi, không sao chép lại của ngƣời khác. Trong toàn bộ nội dung luận văn, những điều

đã đƣợc trình bày hoặc là của riêng cá nhân tôi hoặc là đƣợc tổng hợp từ nhiều nguồn
tài liệu. Tất cả các nguồn tài liệu tham khảo đƣợc dùng đều có xuất xứ rõ ràng, đƣợc
trích dẫn hợp pháp.
Tôi xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỉ luật theo quy định
cho lời cam đoan của mình.

Thái Nguyên, 11/2013
Cao Văn Nguyên

iii

Số hóa bởi trung tâm học liệu

MỤC LỤC
TRANG
Trang phụ bìa
Lời cảm ơn i
Lời cam đoan ii
Mục lục iii
Danh mục các ký hiệu, các chữ viết tắt iv
Danh mục các bảng vi
Danh mục các hình (hình vẽ, ảnh chụp, đồ thị ) vii
MỞ ĐẦU 1
CHƢƠNG I TỔNG QUAN VỀ DỮ LIỆU KHÔNG GIAN VÀ KHAI PHÁ DỮ LIỆU 3
1.1. Tổng quan về dữ liệu không gian địa lý 3
1.1.1. Một số khái niệm 3
1.1.2. Mô hình dữ liệu Vector 5
1.1.3. Quan hệ không gian giữa các đối tƣợng địa lý 8
1.2. Khai phá dữ liệu 8
1.2.1. Định nghĩa khai phá dữ liệu 8

1.2.2. Nhiệm vụ chính trong khai phá dữ liệu 9
1.2.3. Các phƣơng pháp khai phá dữ liệu 11
1.3. Cây quyết định 13
1.3.1. Khái niệm 13
1.3.2. Ƣu điểm và nhƣợc điểm của cây quyết định 14
1.3.3. Xây dựng cây quyết định 14
CHƢƠNG 2 KHAI PHÁ DỮ LIỆU KHÔNG GIAN SỬ DỤNG CÂY QUYẾT ĐỊNH 18
2.1. Phân lớp dữ liệu 18
2.2. Cây quyết định ứng dụng trong phân lớp dữ liệu 20
2.2.1. Thuật toán ID 3 21
2.2.2. Thuật toán C4.5 28
2.3. Xây dựng cây quyết định trong khai phá dữ liệu không gian 34
2.3.1. Tƣ tƣởng xây dựng thuật toán 34
2.3.2. Thuật toán cây quyết định không gian mở rộng từ ID3 36
2.3.3. Ví dụ xây dựng cây quyết định không gian 38
2.3.4. Tìm hiểu, đề xuất phân lớp dữ liệu không gian sử dụng cây quyết định 43
CHƢƠNG 3 CÀI ĐẶT CHƢƠNG TRÌNH THỬ NGHIỆM 55
3.1. Giới thiệu 55
3.2. Lựa chọn công nghệ 55
3.3. Dữ liệu thử nghiệm 56
iv

Số hóa bởi trung tâm học liệu

3.4. Thiết kế chƣơng trình 59
3.5. Cài đặt chƣơng trình 60
3.6. Đánh giá kết quả thử nghiệm 61
KẾT LUẬN 68
TÀI LIỆU THAM KHẢO 69
PHỤ LỤC 70


v

Số hóa bởi trung tâm học liệu

DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

CSDL
Cơ sở dữ liệu
GIS
Geographic information system
Object ID
Identifier of objects
SDT
Spatial Decision Tree
SJI
Spatial Join Index
SJR
Spatial Join Relation
SpatRel
Spatial Relation
SpatMes
Spatial Measure
SQL
Structured Query Language


vi

Số hóa bởi trung tâm học liệu


DANH MỤC CÁC BẢNG
Bảng 1.1: Topology vùng 6
Bảng 1.2: Topology nút 6
Bảng 1.3: Topology cung 6
Bảng 1.4: Dữ liệu tọa độ cung 7
Bảng 1.5: Mô tả dữ liệu đặc trƣng cấu trúc Spaghetti 7
Bảng 2.1: Dữ liệu thời tiết 24
Bảng 2.2: So sánh Gain của các thuộc tính tại nút gốc 24
Bảng 2.3: So sánh Gain trong nhánh "Quang cảnh" = "Nắng" 25
Bảng 2.4: So sánh Gain trong nhánh "Quang cảnh" = "Mƣa" 26
Bảng 2.5: Dữ liệu thời tiết xét thuộc tính độ ẩm dạng số 31
Bảng 2.6: Bảng tính Gain 32
Bảng 2.7: Dữ liệu thời tiết xét thuộc tính ngày 33
Bảng 2.8: Bảng quan hệ không gian 40
Bảng 2.9: Bảng quan hệ không gian và độ đo không gian 45
Bảng 2.10: Bảng quan hệ không gian đã lƣợc thuộc tính Object ID 48
Bảng 2.11: Bảng quan hệ không gian: khoảng cách đến sông gần nhất 49
Bảng 2.12: Bảng quan hệ không gian rút gọn (đầu vào thuật toán) 50
Bảng 3.1: Bảng dữ liệu đầu vào 62
Bảng 3.2: Tính Gain cho các thuộc tính dự đoán tại nút gốc 64
Bảng 3.3: Tính Gain các thuộc tính dự đoán nhánh BTScover="Low" 65
Bảng 3.4: Tính Gain các thuộc tính dự đoán nhánh Density="Medium" 66
Bảng 3.5: Tính Gain các thuộc tính dự đoán nhánh Density="Low" 66










vii

Số hóa bởi trung tâm học liệu

DANH MỤC CÁC HÌNH

Hình 1.1: Đối tƣợng dữ liệu cơ bản điểm, đƣờng vùng 4
Hình 1.2: Biểu diễn đối tƣợng bằng mô hình dữ liệu Raster 4
Hình 1.3: Bản đồ minh họa cấu trúc Topology 5
Hình 1.4: Minh họa dữ liệu Spaghetti 7
Hình 1.5: Các bƣớc của quá trình khai phá dữ liệu 8
Hình 1.6: Cây quyết định 13
Hình 2.1: Phân lớp sử dụng thuộc tính "Quang cảnh" 25
Hình 2.2: Phân nhánh "Quang cảnh" = "Nắng" 25
Hình 2.3: Cây nhánh "Quang cảnh" = "Nắng" 26
Hình 2.4: Cây quyết định tính toán từ thuật toán ID3 26
Hình 2.5: Xác định giá trị phân chia kiểu số 32
Hình 2.6: Chỉ mục kết nối không gian 36
Hình 2.7: Các Layer dự báo cháy rừng 40
Hình 2.8: Layer mục tiêu và Layer phủ bề mặt và mật độ dân số 41
Hình 2.9: Cây quyết định không gian 43
Hình 2.10: Mô tả Object ID các Layer 45
Hình 2.11: Quan hệ không gian giữa Layer mục tiêu và các Layer mô tả 45
Hình 2.12: Thống kê Layer phủ bề mặt theo loại phủ bề mặt 47
Hình 2.13: Thống kê Layer mật độ dân số theo loại mật độ dân số 51
Hình 2.14: Thống kê Layer khoảng cách đến sông gần nhất 52
Hình 2.15: Phân lớp Layer phủ bề mặt theo loại phủ bề mặt 52

Hình 2.16: Nhánh Dryland forest - thống kê Layer mật độ dân số 53
Hình 2.17: Nhánh Dryland forest - thống kê khoảng cách đến sông gần nhất 53
Hình 3.1: Bản đồ các trạm BTS trên địa bàn tỉnh Vĩnh Phúc 56
Hình 3.2: Khoảng cách đến BTS gần nhất 57
Hình 3.3: Bản đồ BTS và các điểm mục tiêu 58
Hình 3.4: Mô tả cấu trúc dữ liệu trạm BTS 59
Hình 3.5: Mô tả cấu trúc dữ liệu bệnh viện, trƣờng học, công sở 59
Hình 3.6: Mô tả cấu trúc dữ liệu vùng dân cƣ 60
Hình 3.7: Phần mềm ArcMap và ArcCatalog biên tập dữ liệu GIS 60
Hình 3.8: Mô tả kết quả chạy chƣơng trình 61
Hình 3.9: File dữ liệu Excel biểu diễn bảng dữ liệu đầu vào 62
Hình 3.10: Kết quả trên phần mềm Weka 63
Hình 3.11: Thống kê Tuple tại các nhánh BTScover 64
Hình 3.12: Thống kê Tuple tại nhánh BTScover="Low" và xét Density 65
Hình 3.13: Biểu diễn kết quả dƣới dạng cây quyết định 66

1

Số hóa bởi trung tâm học liệu

MỞ ĐẦU

1. Đặt vấn đề
Những tiến bộ trong công nghệ CSDL và kỹ thuật thu thập dữ liệu nhƣ đọc mã số
mã vạch, viễn thám, ghi nhận thông tin từ các vệ tinh,… đã tạo ra một lƣợng lớn thông
tin, dữ liệu. Việc dữ liệu tăng lên nhanh với quy mô lớn đòi hỏi phải đƣợc khai phá để
trích chọn ra các tri thức hữa ích phục vụ cho công tác chuyên môn. Chính điều này đã
dẫn đến sự ra đời của lĩnh vực khai phá dữ liệu hay khai phá tri thức trong các CSDL.
Khai phá tri thức trong các CSDL có thể đƣợc định nghĩa là khai phá tri thức đáng
quan tâm, tiềm ẩn và chƣa biết trƣớc trong các CSDL. Khai phá dữ liệu là sự kết hợp

của một số lĩnh vực bao gồm học máy, các hệ thống CSDL, thể hiện dữ liệu, thống kê
và lý thuyết thông tin.
Đã có nhiều nghiên cứu về khai phá dữ liệu trong các CSDL quan hệ và giao
dịch, nhƣng đối với các CSDL không gian vấn đề khai phá dữ liệu vẫn còn là những
thách thức cần đƣợc giải quyết.
Dữ liệu không gian là dữ liệu liên quan đến các đối tƣợng trong không gian. Một
CSDL không gian lƣu trữ các đối tƣợng không gian bao gồm các kiểu dữ liệu không
gian và các quan hệ không gian giữa các đối tƣợng. Dữ liệu không gian mang thông tin
hình học và khoảng cách thƣờng đƣợc tổ chức theo các cấu trúc chỉ mục không gian và
truy cập bằng các phƣơng pháp truy cập không gian. Chính các đặc trƣng khác biệt
này của các CSDL không gian đã đặt ra nhiều trở ngại nhƣng cũng mang đến nhiều cơ
hội cho khai phá tri thức từ CSDL không gian. Khai phá dữ liệu không gian hay khai
phá tri thức trong CSDL không gian là trích trọn ra các tri thức tiềm ẩn, các quan hệ
không gian hay các mẫu chƣa rõ lƣu trữ trong các CSDL không gian.
Các nghiên cứu trƣớc đây về học máy, các hệ thống CSDL và thống kê đã đặt
nền móng cho nghiên cứu khai phá tri thức trong các CSDL. Và những tiến bộ của các
CSDL không gian nhƣ cấu trúc dữ liệu không gian, lập luận không gian, tính toán hình
học,… đã mở đƣờng cho khai phá dữ liệu không gian. Trở ngại lớn nhất trong khai phá
dữ liệu không gian là hiệu quả của các thuật toán khai phá dữ liệu không gian do lƣợng
dữ liệu không gian thƣờng có quy mô lớn, các kiểu dữ liệu không gian và các phƣơng
pháp truy cập không gian phức tạp.
Các phƣơng pháp khai phá dữ liệu không gian tập trung theo ba hƣớng chính là
khai phá luật kết hợp không gian, phân lớp dữ liệu không gian và phân cụm dữ liệu
không gian. Với mong muốn nghiên cứu về phân lớp dữ liệu không gian sử dụng cây
quyết định, luận văn đi sâu tìm hiểumột lĩnh vực nhỏ đó là phân lớp dữ liệu không
gian sử dụng cây quyết định.
2

Số hóa bởi trung tâm học liệu


2. Mục tiêu của luận văn
- Nghiên cứu một số kỹ thuật phân lớp dữ liệu quan hệ dựa trên cây quyết định:
phƣơng pháp Hunt, thuật toán ID3, thuật toán C4.5.
- Nghiên cứu thuật toán cây quyết định ID3 mở rộng cho dữ liệu không gian. Học
viên đề xuất giải pháp khai phá dữ liệu không gian sử dụng cây quyết định ID3, so
sánh đánh giá giá kỹ thuật mới với thuật toán cây quyết định ID3 mở rộng cho dữ liệu
không gian.
- Nghiên cứu đề xuất dữ liệu thử nghiệm, giải pháp công nghệ cài đặt chƣơng
trình thử nghiệm.
3. Tóm tắt nội dung luận văn
Luận văn đƣợc tổ chức nhƣ sau:
Chƣơng 1: Chƣơng này là cơ sở lý thuyết, giới thiệu khái quát về dữ liệu không
gian, khai phá dữ liệu và cây quyết định.
Chƣơng 2: Trình bày những vấn đề cơ bản về phân lớp dữ liệu, giới thiệu thuật
toán ID3, C4.5 áp dụng cho dữ liệu quan hệ, giới thiệu thuật toán cây quyết định
không gian mở rộng từ ID3, đề xuất một giải pháp phân lớp dữ liệu không gian sử
dụng cây quyết định ID3.
Chƣơng 3: Mô tả bài toán thực tế, xây dựng dữ liệu thử nghiệm, thiết kế chƣơng
trình, cài đặt thuật toán và đánh giá kết quả thử nghiệm thuật toán phân lớp dữ liệu
không gian sử dụng cây quyết định ID3.
Kết luận tóm lƣợc lại những vấn đề đã trình bày và một số hƣớng phát triển
trong tƣơng lai.

3

Số hóa bởi trung tâm học liệu

CHƢƠNG I
TỔNG QUAN VỀ DỮ LIỆU KHÔNG GIAN VÀ KHAI PHÁ DỮ LIỆU


1.1. Tổng quan về dữ liệu không gian địa lý
1.1.1. Một số khái niệm
- Đối tƣợng địa lý: Trên bản đồ, các đối tƣợng nhƣ trạm xe bus, bến tàu, trạm
xăng là các thực thể dữ liệu quản lý, còn đƣợc gọi là đối tƣợng địa lý. Một trạm xăng
trên bản đồ là một thể hiện cụ thể của đối tƣợng địa lý trạm xăng.
- Dữ liệu địa lý và cơ sở dữ liệu địa lý: Dữ liệu địa lý là thông tin về các đối tƣợng địa lý
đƣợc mã hóa trong máy tính.Cơ sở dữ liệu địa lý là một tập hợp các dữ liệu địa lý có
chuẩn cấu trúc đƣợc lƣu trữ trên máy tính và các thiết bị lƣu trữ thông tin khác, có thể
thỏa mãn yêu cầu khai thác thông tin đồng thời của nhiều ngƣời sử dụng hay nhiều
chƣơng trình ứng dụng với nhiều mục đích khác nhau.
- Dữ liệu không gian và dữ liệu phi không gian: Một đối tƣợng địa lý chứa các
thông tin dữ liệu không gian và dữ liệu phi không gian.
+ Dữ liệu không gian: Dữ liệu không gian đƣợc sử dụng theo nghĩa rộng bao
gồm các điểm đa chiều, các đƣờng thẳng, hình khối, và các đối tƣợng hình học nói
chung. Mỗi đối tƣợng này chiếm một vùng không gian đƣợc đặc trƣng bởi hai thuộc
tính vị trí và biên. Trong luận văn, khái niệm dữ liệu không gian đƣợc hiểu đơn giản
hơn, dữ liệu không gian mô tả các đối tƣợng địa lý đƣợc thể hiện dƣới dạng hình học,
đƣợc quản lý bằng hình thể và đƣợc biểu diễn dƣới ba dạng đối tƣợng cơ bản là điểm,
đƣờng, vùng.
+ Dữ liệu phi không gian: Một đối tƣợng địa lý ngoài các thuộc tính không gian
còn có các thông tin thuộc tính khác. Ví dụcon đƣờng có thể có các thông tin nhƣ tên
đƣờng, độ rộng, chất liệu làm đƣờng, đơn vị quản lý, thời gian đƣa vào sử dụng, Các
thuộc tính này gọi là các thông tin thuộc tính phi không gian (dữ liệu phi không gian).
Dữ liệu phi không gian đôi khi gọi tắt là dữ liệu thuộc tính.
- Hệ thống GIS: Khi đề cập đến dữ liệu địa lý, hệ thống thông tin địa lý
(Geographic Information System - gọi tắt là GIS) thƣờng đƣợc nhắc đến bởi GIS sử
dụng dữ liệu địa lý. GIS đƣợc hình thành vào những năm 1960 và phát triển mạnh
trong 10 năm lại đây. Xét dƣới góc độ hệ thống, GIS có thể đƣợc hiểu nhƣ một hệ
thống gồm các thành phần: phần cứng, phần mềm, dữ liệu và con ngƣời (ngƣời dùng
và các quy định, chính sách liên quan đến duy trì, phát triển hệ thống).

- Các phƣơng pháp mô hình hóa đối tƣợng địa lý (mô hình dữ liệu địa lý):
4

Số hóa bởi trung tâm học liệu

Mô hình dữ liệu địa lý là mô hình dữ liệu sử dụng trong hệ thống thông tin địa lý,
là sự hình dung thế giới giới thực đƣợc sử dụng trong GIS để tạo các bản đồ, trình diễn
các truy vấn giữa ngƣời và máy và thực hiện các phép xử lý, phân tích.
Có nhiều mô hình dữ liệu đƣợc sử dụng trong hệ thống thông tin địa lý,tuy nhiên,
phổ biến nhất trong biểu diễn thành phần không gian của thông tin địa lý là hai mô
hình dữ liệu cơ bản Vector và Raster.
+ Mô hình dữ liệu Vector: sử dụng các đƣờng hay điểm, đƣợc xác định tƣờng
minh bằng các tọa đọa x, y của chúng trên bản đồ.
Điểm: Dùng cho tất cả các đối tƣợng không gian đƣợc biểu diễn nhƣ một cặp tọa độ
(x, y). Ngoài giá trị tọa độ (x, y), điểm còn thể hiện kiểu điểm, màu, hình dạng và dữ liệu
thuộc tính đi kèm. Do đó, trên bản đồ điểm có thể đƣợc biểu hiện bằng ký hiệu hoặc văn
bản.
Hình 1.1: Đối tượng dữ liệu cơ bản Điểm, Đường, Vùng
Đƣờng: Dùng để biểu diễn tất cả các thực thể có dạng tuyến, đƣợc tạo nên từ hai
hoặc nhiều hơn cặp tọa độ (x, y). Ngoài tọa độ, đƣờng còn có thể bao hàm cả góc quay
tại đầu mút.
Vùng: là một đối tƣợng hình học hai chiều. Vùng có thể là một đa giác đơn giản
hay tập hợp của nhiều đa giác đơn giản. Do một vùng đƣợc cấu tạo từ nhiều đa giác
nên cấu trúc dữ liệu của đa giác phải ghi lại đƣợc sự thể thiện của các thành phần này
và các phần tử cấu tạo nên đa giác.
Hình 1.2: Biểu diễn đối tượng bằng mô hình dữ liệu Raster
+ Mô hình dữ liệu Raster: Sử dụng tập hợp các ô. Cấu trúc đơn giản nhất là mảng
gồm các ô của bản đồ. Mỗi ô trên bản đồ đƣợc biểu diễn bởi tổ hợp tọa độ (hàng, cột)
và một giá trị biểu diễn kiểu hoặc thuộc tính của ô đó trên các bản đồ. Trong cấu trúc
này, mỗi ô tƣơng ứng là một điểm. Khái niệm đƣờng là một dạng của các ô liền nhau

5

Số hóa bởi trung tâm học liệu

có cùng giá trị biểu diễn. Miền là một nhóm các ô liền nhau có cùng một giá trị biểu
diễn.
1.1.2. Mô hình dữ liệu Vector
Mô hình dữ liệu Vector đƣợc sử dụng để miêu tả các đối tƣợng đƣợc xác định chính
xác vị trí, kích thƣớc và hình dạng. Dữ liệu Vector có khả năng phân giải cao và in ấn xuất
bản tƣơng tự nhƣ bản đồ làm bằng tay. Dữ liệu Vector cần ít không gian lƣu trữ và duy trì
mối quan hệ hình học dễ dàng. Hai loại cấu trúc đƣợc biết đến trong mô hình dữ liệu
Vector là cấu trúc Spaghetti và cấu trúc Topology. Cấu trúc Spaghetti ra đời trƣớc và
đƣợc sử dụng cho đến ngày nay ở một số các phần mềm GIS nhƣ phần mềm Arcview
GIS, ArcGIS, MapInfo,… Cấu trúc Topology ra đời trên nền tảng của mô hình dữ liệu
cung – nút.
- Cấu trúc Topology:
Trong GIS, khi biết hình dạng hình học, vị trí, kích thƣớc và hệ tọa độ của đối
tƣợng chỉ mới đáp ứng đƣợc tính đầy đủ của dữ liệu GIS. Topology thể hiện mối quan
hệ hoặc sự liên kết giữa các đối tƣợng trong không gian.Trong cấu trúc Topology, các
đối tƣợng địa lý đƣợc mô tả trong bốn bảng. Ba bảng đầu lƣu trữ các phần tử không
gian vùng, nút, cung. Bảng thứ tƣ lƣu trữ tọa độ nút đầu, nút cuối và đỉnh.
Cho bản đồ nhƣ hình sau:
Hình 1.3: Bản đồ minh họa cấu trúc Topology
Bảng Topology vùng xác định những cung làm đƣờng biên của vùng, phần bên
ngoài bản đồ cũng đƣợc xem nhƣ một vùng không xác định cung đƣờng biên.


6

Số hóa bởi trung tâm học liệu


Bảng 1.1: Topology vùng
Topology vùng
Vùng
Cung
A
a1, a5, a3
B
a2, a5, 0, a6, 0, a7
C
a7
D
a6
E
vùng ngoài
Bảng Topology nút xác định mỗi nút thuộc những cung nào.
Bảng 1.2: Topology nút
Topology nút
Nút
Cung
N1
a1, a3, a4
N2
a1, a2, a5
N3
a2, a3, a5
N4
a4
N5
a6

N6
a7
Bảng Topology cung xác định quan hệ của nút và vùng với cung.
Bảng 1.3: Topology cung
Topology cung
Cung
Nút đầu
Nút cuối
Vùng trái
Vùng phải
a1
N1
N2
E
A
a2
N2
N3
E
B
a3
N3
N1
E
A
a4
N4
N1
A
A

a5
N3
N2
A
B
a6
N5
N5
B
B
a7
N6
N6
B
C
Từ 3 bảng này, có thể phân tích các quan hệ của các phần tử trong bản đồ.
Bảng thứ tƣ lƣu trữ tọa độ của các cung bằng cách lƣu trữ tọa độ của các nút và
đỉnh của cung, để từ đó vị trí của mỗi phần tử trên bản đồ đƣợc liên hệ với thế giới
thực. Cấu trúc Topology rất thích hợp với những toán tử phân tích không gian, nhất là
những bài toán kề và kết nối. Trong đó, cấu trúc Topology định rõ các liên kết.




7

Số hóa bởi trung tâm học liệu

Bảng 1.4: Dữ liệu tọa độ cung
Dữ liệu tọa độ cung

Cung
Nút đầu (x, y)
Đỉnh Vertex (x, y)
Nút cuối (x, y)
a1
40, 60
70, 60
70, 50
a2
70, 50
10, 70; 10, 10
10, 25
a3
10, 25
10, 60
40, 60
a4
40, 60
30, 50
30, 40
a5
10, 25
20, 27; 30, 30; 50, 32
70, 50
a6
30, 20

30, 20
a7
55, 27

55, 15; 40, 15; 45, 27
55, 27
- Cấu trúc Spaghetti: về bản chất cấu trúc này, điểm và đƣờng đƣợc biểu diễn
đơn thuần là vị trí, hầu nhƣ không có mô tả rõ ràng cấu trúc Topology.
Trong cấu trúc dữ liệu Spaghetti, đơn vị cơ sở là các cặp tọa độ trên một không
gian địa lý xác định. Do đó, mỗi đối tƣợng điểm đƣợc xác định bằng một cặp tọa độ
(x, y); mỗi đối tƣợng đƣờng đƣợc biểu diễn bằng một chuỗi những cặp tọa độ (x
i
, y
i
);
mỗi đối tƣợng vùng đƣợc biểu diễn bằng một chuỗi những cặp toạ độ (x
j
, y
j
) với điểm
đầu và điểm cuối trùng nhau. Minh họa cho dữ liệu Spaghetti nhƣ hình vẽ sau:

Hình 1.4:Minh họa dữ liệu Spaghetti
Bảng mô tả đặc trƣng của cấu trúc Spaghetti
Bảng 1.5: Mô tả dữ liệu đặc trưng cấu trúc Spaghetti
Đặc trƣng
Vị trí
Điểm A
(x
A
, y
A
)
Điểm B

(x
B
, y
B
)
Cung AB
(x
A
, y
A
), (x
B
, y
B
)
Vùng a
(x
A
, y
A
), (x
a1
, y
a1
), …, (x
a5
, y
a5
) , (x
B

, y
B
), (x
A
, y
A
)
Vùng b
(x
A
, y
A
), (x
b1
, y
b1
), (x
b2
, y
b2
), (x
b3
, y
b3
) , (x
B
, y
B
), (x
A

, y
A
)
8

Số hóa bởi trung tâm học liệu

Đặc điểm: Cấu trúc Spaghetti không ghi nhận đặc trƣng kề nhau của hai vùng kề
nhau, nghĩa là tại hai vùng kề nhau sẽ có hai cạnh chung kề nhau, cạnh chung của hai
vùng kề nhau là hai cạnh độc lập nhau. Ở thí dụ trên vùng a và vùng b có chung cạnh AB.
1.1.3. Quan hệ không gian giữa các đối tượng địa lý
Có ba kiểu quan hệ không gian chính là: quan hệ khoảng cách, quan hệ hƣớng và
quan hệ Topo.
Quan hệ khoảng cách dựa trên khoảng cách Euclid giữa 2 đối tƣợng địa lý.
Quan hệ hướng thể hiện vị trí của đối tƣợng này so với các đối tƣợng khác trong
quan hệ không gian.
Quan hệ Topo có kiểu đặc trƣng điển hình là giao giữa hai đối tƣợng địa lý và
chúng bất biến trên các phép biến đổi hình học nhƣ quay và co giãn. Có nhiều phƣơng
pháp để xác định các quan hệ Topo giữa các điểm, đƣờng, vùng. Hầu nhƣ, chúng đều
dựa trên mô hình giao nhau nhƣ: bên trong và đƣờng bao hoặc bên trong, bên ngoài và
đƣờng bao. Phép giao là sự phối hợp của các toán tử logic và( ) và hoặc( ). Các mô
hình giao nhau xác định 8 quan hệ Topo nhị phân là: cắt(crosses), chứa(contains),
trong(within), bao(covers), bao bở(-coveredBy), trùng(equals), không nối(disjoint),
chồng(overlaps).
1.2. Khai phá dữ liệu
1.2.1. Định nghĩa khai phá dữ liệu
Khai phá dữ liệu đƣợc dùng để mô tả quá trình phát hiện ra tri thức trong CSDL.
Khai phá dữ liệu làm giảm chi phí về thời gian so với phƣơng pháp truyền thống trƣớc
kia (ví dụ nhƣ phƣơng pháp thống kê).
Quy trình phát hiện tri thức thƣờng tuân theo các bƣớc sau:


Hình 1.5: Các bước của quá trình khai phá dữ liệu
9

Số hóa bởi trung tâm học liệu

- Bƣớc thứ nhất: Hình thành, xác định và định nghĩa bài toán. Là tìm hiểu lĩnh
vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn thành.
Bƣớc này sẽ quyết định cho việc rút ra đƣợc các tri thức hữu ích và cho phép chọn các
phƣơng pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ
liệu.
- Bƣớc thứ hai: Thu thập và tiền xử lý dữ liệu. Là thu thập và xử lý thô, còn đƣợc
gọi là tiền xử lý dữ liệu nhằm loại bỏ nhiễu (làm sạch dữ liệu), xử lý việc thiếu dữ liệu
(làm giàu dữ liệu), biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết, bƣớc này thƣờng
chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức. Do dữ liệu đƣợc
lấy từ nhiều nguồn khác nhau, không đồng nhất, có thể gây ra các nhầm lẫn. Sau bƣớc
này, dữ liệu sẽ nhất quán, đầy đủ, đƣợc rút gọn và rời rạc hoá.
- Bƣớc thứ ba: Khai phá dữ liệu, rút ra các tri thức. Là khai phá dữ liệu, hay nói
cách khác là trích ra các mẫu hoặc/và các mô hình ẩn dƣới các dữ liệu. Giai đoạn này
rất quan trọng, bao gồm các công đoạn nhƣ: chức năng, nhiệm vụ và mục đích của
khai phá dữ liệu, dùng phƣơng pháp khai phá nào? Thông thƣờng, các bài toán khai
phá dữ liệu bao gồm: các bài toán mang tính mô tả - đƣa ra tính chất chung nhất của
dữ liệu, các bài toán dự báo - bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu
hiện có. Tùy theo bài toán xác định đƣợc mà ta lựa chọn các phƣơng pháp khai phá dữ
liệu cho phù hợp.
- Bƣớc thứ tƣ: Là hiểu tri thức đã tìm đƣợc, đặc biệt là làm sáng tỏ các mô tả và
dự đoán. Các bƣớc trên có thể lặp đi lặp lại một số lần, kết quả thu đƣợc có thể đƣợc
lấy trung bình trên tất cả các lần thực hiện.
- Bƣớc thứ năm: Sử dụng các tri thức phát hiện đƣợc. Là hiểu tri thức đã tìm
đƣợc, đặc biệt là làm sáng tỏ các mô tả và dự đoán.

Các bƣớc trên có thể lặp đi lặp lại một số lần, kết quả thu đƣợc có thể đƣợc lấy
trung bình trên tất cả các lần thực hiện. Các kết quả của quá trình phát hiện tri thức có
thể đƣợc đƣa và ứng dụng trong các lĩnh vực khác nhau. Do các kết quả có thể là các
dự đoán hoặc các mô tả nên chúng có thể đƣợc đƣa vào các hệ thống hỗ trợ ra quyết
định nhằm tự động hoá quá trình này.
1.2.2. Nhiệm vụ chính trong khai phá dữ liệu
Nhiệm vụ chính trong khai phá dữ liệu bao gồm : Phân lớp, Hồi qui, Phân nhóm,
Tổng hợp, Mô hình hoá sự phụ thuộc và Phát hiện sự biến đổi và độ lệch.
- Phân lớp (phân loại - Classification)
Là việc xác định một ánh xạ để ánh xạ các mẫu dữ liệu thỏa mãn ràng buộc nào đó
vào cùng một lớp, do đó dữ liệu sẽ đƣợc phân thành các lớp có thể giao nhau hoặc không.
10

Số hóa bởi trung tâm học liệu

Mục tiêu của thuật toán phân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự
báo và thuộc tính phân lớp. Nhƣ thế quá trình phân lớp có thể sử dụng mối quan hệ
này để dự báo cho các mục mới. Các kiến thức đƣợc phát hiện biểu diễn dƣới dạng các
luật theo cách sau: “Nếu các thuộc tính dự báo của một mục thoả mãn điều kiện của
các tiền đề thì mục nằm trong lớp chỉ ra trong kết luận”.
- Hồi qui (regression)
Là việc dùng một hàm dự báo để từ các mẫu dữ liệu đã có hàm dự báo sẽ cho
một giá trị thực. Nhiệm vụ của hồi quy tƣơng tự nhƣ phân lớp, điểm khác nhau chính
là ở chỗ thuộc tính để dự báo là liên tục chứ không phải rời rạc. Việc dự báo các giá trị
số thƣờng đƣợc làm bởi các phƣơng pháp thống kê cổ điển, chẳng hạn nhƣ hồi quy
tuyến tính. Tuy nhiên, phƣơng pháp mô hình hoá cũng đƣợc sử dụng, ví dụ: cây quyết
định.
Ứng dụng của hồi quy: dự báo thời tiết, ƣớc lƣợng sác xuất ngƣời bệnh có thể
chết bằng cách kiểm tra các triệu chứng; dự báo nhu cầu của ngƣời dùng đối với một
sản phẩm, kháng sản,…

- Phân nhóm (clustering)
Là việc mô tả chung để tìm ra các tập hay các nhóm, loại mô tả dữ liệu. Các
nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau. Có nghĩa là dữ liệu có thể vừa
thuộc nhóm này lại vừa thuộc nhóm khác. Các ứng dụng khai phá dữ liệu có nhiệm vụ
phân nhóm nhƣ phát hiện tập các khách hàng có phản ứng giống nhau trong CSDL
tiếp thị; xác định các quang phổ từ các phƣơng pháp đo tia hồng ngoại, … Liên quan
chặt chẽ đến việc phân nhóm là nhiệm vụ đánh giá dữ liệu, hàm mật độ xác suất đa
biến/ các trƣờng trong CSDL.
- Tổng hợp (summarization)
Là công việc liên quan đến các phƣơng pháp tìm kiếm một mô tả tập con dữ liệu.
Kỹ thuật tổng hợp thƣờng áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo
cáo tự động.
Nhiệm vụ chính là sản sinh ra các mô tả đặc trƣng cho một lớp. Mô tả loại này là
một kiểu tổng hợp, tóm tắt các đặc tính chung của tất cả hay hầu hết các mục của một
lớp. Các mô tả đặc trƣng thể hiện theo luật có dạng sau: “Nếu một mục thuộc về lớp đã
chỉ trong tiền đề thì mục đó có tất cả các thuộc tính đã nêu trong kết luận”. Lƣu ý rằng
luật dạng này có các khác biệt so với luật phân lớp. Luật phát hiện đặc trƣng cho lớp
chỉ sản sinh khi các mục đã thuộc về lớp đó.
- Mô hình hoá sự phụ thuộc (dependency modeling)
Là việc tìm kiếm một mô hình mô tả sự phụ thuộc giữa các biến, thuộc tính theo
11

Số hóa bởi trung tâm học liệu

hai mức:
+ Mức cấu trúc của mô hình mô tả (thƣờng dƣới dạng đồ thị). Trong đó, các biến
phụ thuộc bộ phận vào các biến khác.
+ Mức định lƣợng mô hình mô tả mức độ phụ thuộc. Những phụ thuộc này
thƣờng đƣợc biểu thị dƣới dạng theo luật “nếu - thì” (nếu tiền đề là đúng thì kết luận
đúng).

- Phát hiện sự biến đổi và độ lệch (change and deviation dectection)
Nhiệm vụ này tập trung vào khám phá hầu hết sự thay đổi có nghĩa dƣới dạng độ
đo đã biết trƣớc hoặc giá trị chuẩn, phát hiện độ lệch đáng kể giữa nội dung của tập
con dữ liệu thực và nội dung mong đợi. Hai mô hình độ lệch hay dùng là lệch theo thời
gian hay lệch theo nhóm.
1.2.3. Các phương pháp khai phá dữ liệu
- Các thành phần của giải thuật khai phá dữ liệu: Giải thuật khai phá dữ liệu bao
gồm 3 thành phần chính nhƣ sau: biểu diễn mô hình, kiểm định mô hình và phƣơng
pháp tìm kiếm.
+ Biểu diễn mô hình: Mô hình đƣợc biểu diễn theo một ngôn ngữ nào đó để miêu
tả các mẫu có thể khai thác đƣợc. Mô tả mô hình rõ ràng thì học máy sẽ tạo ra mẫu có
mô hình chính xác cho dữ liệu. Tuy nhiên, nếu mô hình quá lớn thì khả năng dự đoán
của học máy sẽ bị hạn chế. Khả năng miêu tả mô hình càng lớn thì càng làm tăng mức
độ nguy hiểm do bị học quá và làm giảm đi khả năng dự đoán các dữ liệu chƣa biết.
Hơn nữa, việc tìm kiếm sẽ càng trở lên phức tạp hơn và việc giải thích mô hình cũng
khó khăn hơn.
Mô hình ban đầu đƣợc xác định bằng cách kết hợp biến đầu ra (phụ thuộc) với
các biến độc lập mà biến đầu ra phụ thuộc vào. Sau đó phải tìm những tham số mà bài
toán cần tập trung giải quyết. Việc tìm kiếm mô hình sẽ đƣa ra đƣợc một mô hình phù
hợp với tham số đƣợc xác định dựa trên dữ liệu (trong một số trƣờng hợp khác thì mô
hình và các tham số lại thay đổi để phù hợp với dữ liệu). Trong một số trƣờng hợp, tập
các dữ liệu đƣợc chia thành tập dữ liệu học và tập dữ liệu thử. Tập dữ liệu học đƣợc
dùng để làm cho tham số của mô hình phù hợp với dữ liệu. Mô hình sau đó sẽ đƣợc
đánh giá bằng cách đƣa các dữ liệu thử vào mô hình và thay đổi các tham số cho phù
hợp nếu cần. Mô hình lựa chọn có thể một số giải thuật học máy (ví dụ nhƣ cây quyết
định và các quyết định học có thầy khác), mạng Nơ_ron, suy diễn hƣớng tình huống,
các kỹ thuật phân lớp.
+ Kiểm định mô hình (model evaluation): Là việc đánh giá, ƣớc lƣợng các mô
hình chi tiết, chuẩn trong quá trình xử lý và phát hiện tri thức với sự ƣớc lƣợng có dự
báo chính xác hay không và có thoả mãn cơ sở logic hay không.

12

Số hóa bởi trung tâm học liệu

+ Phƣơng pháp tìm kiếm: Phƣơng pháp này bao gồm hai thành phần: Tìm kiếm
tham số và tìm kiếm mô hình. Trong tìm kiếm tham số, giải thuật cần tìm kiếm các
tham số để tối ƣu hóa các tiêu chuẩn đánh giá mô hình với các dữ liệu quan sát đƣợc
và với một mô tả mô hình đã định. Tìm kiếm mô hình xảy ra giống nhƣ một vòng lặp
qua phƣơng pháp tìm kiếm tham số: Mô tả mô hình bị thay đổi tạo nên một họ các mô
hình. Với mỗi một mô tả mô hình, phƣơng pháp tìm kiếm tham số đƣợc áp dụng để
đánh giá chất lƣợng mô hình.
- Phƣơng pháp suy diễn/quy nạp:
Một CSDL là một kho thông tin nhƣng các thông tin quan trọng hơn cũng có thể
đƣợc suy diễn từ kho thông tin đó. Có hai kỹ thuật chính để thực hiện việc này là suy
diễn và quy nạp.
Phƣơng pháp suy diễn: Nhằm rút ra thông tin là kết quả logic của các thông tin
trong CSDL. Ví dụ nhƣ toán tử liên kết áp dụng cho bảng quan hệ, bảng đầu chứa
thông tin về các nhân viên và phòng ban, bảng thứ hai chứa các thông tin về các phòng
ban và các trƣởng phòng. Nhƣ vậy sẽ suy ra đƣợc mối quan hệ giữa các nhân viên và
các trƣởng phòng. Phƣơng pháp suy diễn dựa trên các sự kiện chính xác để suy ra các
tri thức mới từ các thông tin cũ. Mẫu chiết xuất đƣợc bằng cách sử dụng phƣơng pháp
này thƣờng là các luật suy diễn.
Phƣơng pháp quy nạp: Phƣơng pháp quy nạp suy ra các thông tin đƣợc sinh ra từ
CSDL. Có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phải bắt đầu
với các tri thức đã biết trƣớc. Các thông tin mà phƣơng pháp này đem lại là các thông
tin hay các tri thức cấp cao diễn tả về các đối tƣợng trong CSDL. Phƣơng pháp này
liên quan đến việc tìm kiếm các mẫu trong CSDL. Trong khai phá dữ liệu, quy nạp
đƣợc sử dụng trong cây quyết định và tạo luật.
- Phƣơng pháp K-láng giềng gần:
Sự miêu tả các bản ghi trong tập dữ liệu khi trỏ vào không gian nhiều chiều là có ích

đối với việc phân tích dữ liệu. Việc dùng các miêu tả này, nội dung của vùng lân cận đƣợc
xác định, trong đó các bản ghi gần nhau trong không gian đƣợc xem xét thuộc về lân cận
(hàng xóm–láng giềng) của nhau. Khái niệm này đƣợc dùng trong khoa học kỹ thuật với tên
gọi K-láng giềng gần, trong đó K là số láng giềng đƣợc sử dụng. Phƣơng pháp này rất hiệu
quả nhƣng lại đơn giản. Ý tƣởng thuật toán học K- láng giềng gần là “thực hiện nhƣ các
láng giềng gần của bạn đã làm”.
Kỹ thuật K-láng giềng gần là một phƣơng pháp tìm kiếm đơn giản, nhƣng nó có
một số mặt hạn chế giới là hạn phạm vi ứng dụng của nó, đó là thuật toán này có độ
phức tạp tính toán là luỹ thừa bậc 2 theo số bản ghi của tập dữ liệu. Phƣơng pháp K-
láng giềng không đƣa ra lý thuyết để hiểu cấu trúc dữ liệu. Hạn chế đó có thể đƣợc
khắc phục bằng kỹ thuật cây quyết định.
- Phƣơng pháp sử dụng cây quyết định và luật:
13

Số hóa bởi trung tâm học liệu

Với kỹ thuật phân lớp dựa trên cây quyết định, kết quả của quá trình xây dựng mô
hình sẽ cho ra một cây quyết định. Cây này đƣợc sử dụng trong quá trình phân lớp các
đối tƣợng dữ liệu chƣa biết hoặc đánh giá độ chính xác của mô hình. Tƣơng ứng với hai
giai đoạn trong quá trình phân lớp là quá trình xây dựng và sử dụng cây quyết định.
Phần lớn các giải thuật sinh cây quyết định đều có hạn chế chung là sử dụng nhiều
bộ nhớ. Lƣợng bộ nhớ sử dụng tỷ lệ thuận với kích thƣớc của mẫu dữ liệu huấn luyện.
Một chƣơng trình sinh cây quyết định có hỗ trợ sử dụng bộ nhớ ngoài song lại có nhƣợc
điểm về tốc độ thực thi. Do vậy, vấn đề tỉa bớt cây quyết định trở nên quan trọng. Các
nút lá không ổn định trong cây quyết định sẽ đƣợc tỉa bớt. Kỹ thuật tỉa trƣớc là việc
dừng sinh cây quyết định khi chia dữ liệu không có ý nghĩa.
- Phƣơng pháp phát hiện luật kết hợp:
Phƣơng pháp này nhằm phát hiện ra các luật kết hợp giữa các thành phần dữ liệu
trong CSDL. Mẫu đầu ra của giải thuật khai phá dữ liệu là tập luật kết hợp tìm đƣợc.
Ta có thể lấy một ví dụ đơn giản về luật kết hợp nhƣ sau: sự kết hợp giữa hai thành

phần A và B có nghĩa là sự xuất hiện của A trong bản ghi kéo theo sự xuất hiện của B
trong cùng bản ghi đó: A → B.
1.3. Cây quyết định
1.3.1. Khái niệm
Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, nhƣ mô tả tronghình 1.6:
Hình 1.6: Cây quyết định
Trong cây quyết định:
- Gốc: là nút trên cùng của cây.
- Nút trong: biểu diễn một kiểm tra trên một thuộc tính đơn.
- Nhánh: biểu diễn các kết quả của kiểm tra trên nút trong.
14

Số hóa bởi trung tâm học liệu

- Nút lá: biểu diễn lớp hay sự phân phối lớp.
Để phân lớp mẫu dữ liệu chƣa biết, giá trị các thuộc tính của mẫu đƣợc đƣavào
kiểm tra trên cây quyết định. Mỗi mẫu tƣơng ứng có một đƣờng đi từ gốc đến lá và lá
biểu diễn dự đoán giá trị phân lớp mẫu đó.
1.3.2. Ưu điểm và nhược điểm của cây quyết định
- Cây quyết định có 5 ƣu điểm chính sau:
+ Khả năng sinh ra các quy tắc hiểu đƣợc:Cây quyết định có khả năng sinh ra các
quy tắc có thể chuyển đổi đƣợc sang các câu lệnh SQL.
+ Khả năng thực thi trong những lĩnh vực hƣớng quy tắc: Quy tắc quy nạp nói
chung và câyquyết định nói riêng là lựa chọn hoàn hảo cho những lĩnh vực thực sự là
các quy tắc.
+ Dễ dàng tính toán trong khi phân lớp: Thực tế, các thuật toán sử dụng để tạo ra
cây quyết định thƣờng tạo ra những cây với số phân nhánh thấp và các kiểm tra đơn
giản tại từng node. Những kiểm tra điển hình là: so sánh số, xem xét phần tử của một
tập hợp và các phép nối đơn giản. Khi thực thi trên máy tính, những kiểm tra này
chuyển thành các toán hàm logic và số nguyên là những toán hạng thực thi nhanh và

có độ phức tạp tính toán đơn giản.
+ Khả năng xử lý với cả thuộc tính liên tục và thuộc tính rời rạc: Cây quyết định
xử lý “tốt” nhƣ nhau với thuộc tính liên tục và thuộc tính rời rạc. Tuy rằng với thuộc
tính liên tục cần nhiều tài nguyên tính toán hơn.
+ Thể hiện rõ ràng những thuộc tính tốt nhất:Các thuật toán xây dựng cây quyết
định đƣa ra thuộc tính mà phân chia tốt nhất tập dữ liệu đào tạo bắt đầu từ nút gốc của
cây. Từ đó có thể thấy những thuộc tính nào là quan trọng nhất cho việc dự đoán hay
phân lớp.
- Nhƣợc điểm: Cây quyết định không thích hợp với những bài toán với mục tiêu
là dự đoán giá trị của thuộc tính liên tục nhƣ thu nhập, huyết áp hay lãi xuất ngân
hàng,… Dễ xẩy ra lỗi khi có quá nhiều lớp, chi phí tính toán tậpdữ liệu đào tạo tốn
nhiều tài nguyên tính toán.
1.3.3. Xây dựng cây quyết định
Quá trình xây dựng cây quyết định gồm hai giai đoạn:
- Giai đoạn thứ nhất phát triển cây quyết định:
Giai đoạn này phát triển bắt đầu từ gốc, đến từng nhánh và phát triển quy
nạptheo cách thức chia để trị cho tới khi đạt đƣợc cây quyết định với tất cả các lá đƣợc
gán nhãn lớp.
15

Số hóa bởi trung tâm học liệu

- Giai đoạn thứ hai cắt, tỉa bớt các cành nhánh trên cây quyết định.
Giai đoạn này nhằm mục đích đơn giản hóa và khái quát hóa từ đó làm tăng độ
chính xác của cây quyết định bằng cách loại bỏ sự phụ thuộc vào mức độ lỗi của dữ
liệu đào tạo mang tính chất thống kê hay những sự biến đổi mà có thể là đặc tính riêng
biệt của dữ liệu đào tạo. Giai đoạn này chỉ truy cập dữ liệu trên cây quyết định đã đƣợc
phát triển trong giai đoạn trƣớc và quá trình thực nghiệm cho thấy giai đoạn này không
tốn nhiều tài nguyên tính toán, nhƣ với phần lớn các thuật toán, giai đoạn này chiếm
khoảng dƣới 1% tổng thời gian xây dựng mô hình phân lớp.

Do vậy, ở đây chúng ta chỉ tập trung vào nghiên cứu giai đoạn phát triển cây
quyết định. Dƣới đây là khung công việc của giai đoạn này:
Bƣớc 1) Chọn thuộc tính “tốt” nhất bằng một độ đo đã định trƣớc.
Bƣớc 2) Phát triển cây bằng việc thêm các nhánh tƣơng ứng với từng giá trị của
thuộc tính đã chọn.
Bƣớc 3) Sắp xếp, phân chia tập dữ liệu đào tạo tới node con.
Bƣớc 4) Nếu các ví dụ đƣợc phân lớp rõ ràng thì dừng.
Ngƣợc lại: lặp lại bƣớc 1 tới bƣớc 4 cho từng node con.
Thuật toán xây dựng cây quyết định:
- Tƣ tƣởng chung: Phần lớn các thuật toán phân lớp dữ liệu dựa trên cây quyết
định có mã giả nhƣ sau:
Make Tree (Training Data T)
{
Partition(T)
}
Partition(Data S)
{
if (tất cả các điểm trong tập S thuộc cùng một lớp) then
return
for each attribute A do
Tính toán các giá trị phục vụ phân lớp trên thuộc A;
use giá trị phân lớp tốt nhất tìm được để phân vùng tập S thành S
1
, S
2
, , S
k

Partition(S
1

)
Partition(S
2
)

Partition(S
k
)
}
Các thuật toán phân lớp nhƣ C4.5 (Quinlan, 1993), CDP (Agrawal và các tác giả
khác, 1993), SLIQ (Mehta và các tác giả khác, 1996) và SPRINT (Shafer và các tác giả
khác, 1996) đều sử dụng phƣơng pháp của Hunt làm tƣ tƣởng chủ đạo. Phƣơng pháp này
đƣợc Hunt và các đồng sự nghĩ ra vào những năm cuối thập kỷ 50 đầu thập kỷ 60.
16

Số hóa bởi trung tâm học liệu


- Mô tả quy nạp phƣơng pháp Hunt:
Giả sử xây dựng cây quyết định từ T là tập dữ liệu huấn luyện (hay tập dữ liệu
đào tạo) và các lớp đƣợc biểu diễn dƣới dạng tập C = {C
1
, C
2
,…, C
k
}
Trƣờng hợp 1: T chứa các trƣờng hợp (bản ghi) thuộc về một lớp đơn C
j
, cây

quyết định ứng với T là một lá tƣơng ứng với lớp C
j

Trƣờng hợp 2: T chứa các trƣờng hợp thuộc về nhiều lớp khác nhau trong tập C.
Cần phải lựa chọn một thuộc tính để chia phân lớp T. Việc lựa chọn thuộc tính trên cơ
sở tính toán dựa trên lý thuyết thông tin. Sau khi tìm đƣợc thuộc tính phân chia T, tập T
đƣợc chia thành cácnhánh con (lớp), mỗi lớp là tập hợp các bản ghi đƣợc phân chia trên
cơ sở thuộc tính phân chia và giá trị phân chia (Gọi mỗi lớp con đó là tập con T
1
, T
2
, …,
T
n
). Cây quyết định ứng với T bao gồm: một nút biểu diễn thuộc tính phân lớp đƣợc
chọn, mỗi nhánh tƣơng ứng với phép kiểm tra giá trị thuộc tính và giá trị phân chia
thuộc tính, các cây con hình thành từ các tập con T
i
. Cách thức xây dựng cây con
T
i
tƣơng tự đƣợc xây dựng cây T bằng cácháp dụng đệ quy.
Trƣờng hợp 3: T không chứa case nào. Cây quyết định ứng với T là một lá,
nhƣng lớp gắn với lá đó phải đƣợc xác định từ những thông tin khác ngoài T. Ví dụ
C4.5 chọn giá trị phân lớp là lớp phổ biến nhất tại cha của node này.
- Tình hình nghiên cứu các thuật toán hiện nay:
Các thuật toán phân lớp dữ liệu dựa trên cây quyết định đều có tƣ tƣởng chủ đạo
là phƣơng pháp Hunt đã trình bày ở trên. Luôn có 2 câu hỏi lớn cần phải đƣợc trả lời
trong các thuật toán phân lớp dữ liệu dựa trên cây quyết định là:
1. Làm cách nào để xác định đƣợc thuộc tính tốt nhất để phát triển tại mỗi nút?

2. Lƣu trữ dữ liệu nhƣ thế nào và làm cách nào để phân chia dữ liệu theo các test
tƣơng ứng?
Các thuật toán khác nhau có các cách trả lời khác nhau cho hai câu hỏi trên. Điều
này làm nên sự khác biệt của từng thuật toán.
Có 3 loại tiêu chuẩn hay chỉ số để xác định thuộc tính tốt nhất phát triển tại mỗi
node:
- Gini-index (Breiman và các đồng sự, 1984): Loại tiêu chuẩn này lựa chọn thuộc
tính mà làm cực tiểu hóa độ pha trộn của mỗi phân chia. Các thuật toán sử dụng này là
CART, SLIQ, SPRINT.
- Information–gain (Quinlan, 1993): Khác với Gini-index, tiểu chuẩn này sử
dụng entropy để đo độ pha trộn của một phân chia và lựa chọn thuộc tính theo mức độ
cực đại hóa chỉ số entropy. Các thuật toán sử dụng tiêu chuẩn này là ID3, C4.5.
- χ2 -bảng thống kê các sự kiện xảy ra ngẫu nhiên: χ2 đo độ tƣơng quan giữa

×