KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG
Nguyễn Thị Hương Giang
Nội dung
Chương I. Tổng quan về khám phá tri thức
(KDD) và khai phá dữ liệu (DM)
Chương II. Tiền xử lý dữ liệu
Chương III. Một số phương pháp khai phá dữ
liệu
Chương IV. Lượng giá và sử dụng tri thức
được khám phá
Chương V. Ứng dụng
I. Tổng quan về khám phá tri thức (KDD) và khai phá
dữ liệu (DM)
I.1. Khám phá tri thức và khai phá dữ liệu là gì?
- Giáo sư Tom Mitchell [4] đã đưa ra định nghĩa của KPDL
như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá
những qui tắc và cải thiện những quyết định trong tương lai.”
- Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [3] đã
phát biểu: “KPDL, thường được xem là việc khám phá tri thức
trong các cơ sở dữ liệu, là một quá trình trích xuất những
thông tin ẩn, trước đây chưa biết và có khả năng hữu ích,
dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ
liệu.”
II. Tiến trình khai phá tri thức
Knowledge
Pattern
Discovery
Transformed Data
Cleansed
Preprocessed
Preparated
Data
Target Data
Gathering
Data Mining
Selection
Transformation
Cleansing Pre-processing
Preparation
Envalution of Rule
In
t
e
r
n
e
t
,
.
In
t
e
r
n
e
t
,
.
Hình 1. Quá trình khai phá dữ liệu
II. Tiến trình khai phá tri thức
Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 1 :
1. Gom dữ liệu (Gathering)
- Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước
được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ
các nguồn ứng dụng Web.
2. Trích lọc dữ liệu (Selection)
- Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn
nào đó, ví dụ chọn tất cả những người có tuổi đời từ 25 – 35 và có trình độ đại học.
3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Pre-processing
and Preparation)
- Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước
rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi
gom dữ liệu là tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị
vô nghĩa và không có khả năng kết nối dữ liệu.
- Ví dụ: tuổi = 673.
Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên.
Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy,
đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch - tiền xử
lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng.
II. Tiến trình khai phá tri thức
4. Chuyển đổi dữ liệu (Transformation)
- Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều
khiển được bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi phù hợp với mục
đích khai thác.
5. Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)
- Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở giai đoạn này nhiều
thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán
thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu
tuần tự,. v.v.
6. Đánh giá kết quả mẫu (Evaluation of Result)
- Đây là giai đoạn cuối trong quá trình khai phá dữ liệu. Ở giai đoạn này, các mẫu
dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu
dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên
những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất
ra.
Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5 là giai
đoạn được quan tâm nhiều nhất hay còn gọi đó là Data Mining.
II. Tiến trình KDD
The KDD Process
Data organized by
function (accounting. etc.)
Create/select
target database
Select sampling
technique and
sample data
Supply missing
values
Normalize
values
Select DM
task (s)
Transform to
different
representation
Eliminate
noisy data
Transform
values
Select DM
method (s)
Create derived
attributes
Extract
knowledge
Find important
attributes &
value ranges
Test
knowledge
Refine
knowledge
Query & report generation
Aggregation & sequences
Advanced methods
Data warehousing
III. Các phương pháp KPDL (DM)
1. Dự đoán (Prediction) – Mô tả (Description) :
- Dự đoán sử dụng các biến hoặc các trường trong
cơ sở dữ liệu để chiết xuất ra các mẫu là các dự
đoán những giá trị chưa biết hoặc những giá trị trong
tương lai của các biến đáng quan tâm
- Mô tả tập trung vào việc tìm kiếm các mẫu mô tả
dữ liệu mà con người có thể hiểu được.
Debt
Income
have defaulted
on their loans
good status
with the bank
-
Lớp bài toán Dự đoán sẽ học ra các bộ dự
đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ
dựa trên thông tin đang có để đưa ra một giá trị
số học cho hàm cần dự đoán.
- Ví dụ: Bài toán tiêu biểu của phương pháp này
là dự đoán giá sản phẩm để lập kế hoạch trong
kinh doanh.
2. Phân loại:
- Ánh xạ (phân loại) một mục dữ liệu vào trong một
trong nhiều lớp được định nghĩa trước.
- Với một tập các dữ liệu huấn luyện cho trước và sự
huấn luyện của con người, các giải thuật phân loại sẽ
học ra bộ phân loại (classifier) dùng để phân các dữ
liệu mới vào một trong những lớp (còn gọi là loại) đã
được xác định trước. Nhận dạng cũng là một bài toán
thuộc kiểu Phân loại.
Ví dụ: nhận dạng tự động các đối tượng trong CSDL
ảnh lớn
III. Các phương pháp KPDL (DM) (tt)
3. Tìm luật liên kết (Association Rule):
- Tìm kiếm các mối liên kết giữa các phần tử
dữ liệu.
- Ví dụ: nhóm các món hàng thường được
mua kèm với nhau trong siêu thị.
III. Các phương pháp KPDL (DM) (tt)
4. Hồi quy (Regression):
là việc học một hàm ánh xạ từ một mẫu dữ
liệu thành một biến dự đoán có giá trị thực.
-
Ví dụ: đánh giá khả năng sống của bệnh nhân
với tập các kết quả kiểm tra chẩn đoán; đoán
nhu cầu người tiêu dùng đối với sản phẩm
mới,….
III. Các phương pháp KPDL (DM) (tt)
5. Phân cụm (Clustering)
- Nhóm các đối tượng dữ liệu có tính chất giống
nhau vào cùng một nhóm.
- Có nhiều cách tiếp cận với những mục tiêu
khác nhau trong phân loại. Các kỹ thuật trong
bài toán này thường được vận dụng trong vấn
đề phân hoạch dữ liệu tiếp thị hay khảo sát
sơ bộ các dữ liệu.
III. Các phương pháp KPDL (DM) (tt)
6. Tổng hợp (Summarization)
- Các phương pháp tìm kiếm một mô tả
tóm tắt cho một tập con dữ liệu.
- Các kỹ thuật tóm tắt thường được áp
dụng cho các phân tích dữ liệu tương tác
có tính thăm dò và tạo báo cáo tự động.
III. Các phương pháp KPDL (DM) (tt)
7. Mô hình ràng buộc (Dependency
modeling)
-
Tìm mô hình mô tả các ràng buộc quan trọng,
có nghĩa giữa các biến.
-
Mô hình ràng buộc có 2 mức: mức cấu trúc
xác định các biến ràng buộc cục bộ với nhau
như thế nào, trong khi mức định lượng xác
định độ lớn của ràng buộc sử dụng tỷ lệ số.
III. Các phương pháp KPDL (DM) (tt)
8. Dò tìm và biến đổi độ lệch (Change and
Deviation Detection):
- Tập trung vào việc khám phá ra các thay đổi
đáng kể nhất trong dữ liệu từ các dữ liệu
được đo trước đó.
III. Các phương pháp KPDL (DM) (tt)
Chương II. Tiền xử lý dữ liệu
1. Chất lượng dữ liệu
Mục tiêu chính của việc chuẩn bị dữ liệu:
- Để sắp xếp dữ liệu thành ở dạng chuẩn sẵn
sàng được xử lý bởi các chương trình khai
phá dữ liệu.
- để chuẩn bị các đặc tính tốt nhất cho việc
khai phá
II. Tiền xử lý dữ liệu
2. Tại sao phải tiền xử lý dữ liệu
Dữ liệu trong thế giới thực là hỗn tạp
Không đầy đủ: thiếu giá trị thuộc tính, thiếu các thuộc tính
chắc chắn cần quan tâm, hoặc chỉ chứa dữ liệu chung
Nhiễu: chứa dữ liệu bị lỗi hoặc bị lệch
Không nhất quán (mâu thuẫn): chứa các mã hoặc các tên
mâu thuẫn nhau
Dữ liệu không đảm bảo chất lượng thì kết quả khai
phá không hiệu quả
Chất lượng các quyết định phải dựa trên chất lượng dữ liệu
Kho dữ liệu cần dữ liệu cần sự tích hợp nhất quán của dữ
liệu có chất lượng.
b. Lệch
Lệch là các đối tượng dữ liệu có các đặc
tính khác đáng kể với phần lớn các đối
tượng dữ liệu khác trong tập dữ liệu.
c. Các giá trị bị mất
Lý do bị mất giá trị dữ liệu
Không thu thập được thông tin
Ví dụ: người được điều tra từ chối không
cung cấp thông tin tuổi và cân nặng của họ
Các thuộc tính không phù hợp trong mọi
trường hợp
Ví dụ: thu nhập hàng năm không áp dụng cho
trẻ con
3. Các vấn đề dữ liệu
Dữ liệu nào có sẵn cho nhiệm vụ khai
phá?
Dữ liệu có phù hợp không?
Dữ liệu thích hợp bổ sung có sẵn không?
Dữ liệu lịch sử có sẵn được bao nhiêu?
Ai là chuyên gia dữ liệu ?
4. Các chiều đo chất lượng dữ liệu
Độ chính xác
Tính đầy đủ
Tính nhất quán
Tính hợp thời
Độ tin cậy
Giá trị được bổ sung
Tính có thể hiểu được
Tính có thể truy cập được
5. Nhiệm vụ chính trong tiền xử lý
dữ liệu
Làm sạch dữ liệu:
Bổ sung các giá trị bị mất, làm trơn nhiễu, nhận dạng hoặc khử lệch,
giải quyết các vấn đề không nhất quán
Tích hợp dữ liệu
Tích hợp dữ liệu từ nhiều CSDL, từ các khối dữ liệu hoặc từ các file
Biến đổi dữ liệu
Chuẩn hóa hoặc kết hợp
Thu nhỏ dữ liệu
Có được biểu diễn dữ liệu dạng thu nhỏ nhưng không ảnh hưởng tới
kết quả phân tích
Rời rạc hóa dữ liệu
Một phần của thu nhỏ dữ liệu nhưng đặc biệt quan trọng với dữ liệu
dạng số
6. Các hình thức tiền xử lý dữ liệu
Làm sạch dữ liệu
Tích hợp dữ liệu
Biến đổi dữ liệu
Thu nhỏ dữ liệu
a. Làm sạch dữ liệu
Các nhiệm vụ làm sạch dữ liệu
Thu nhận dữ liệu và siêu dữ liệu
Bổ sung các giá trị dữ liệu bị mất
Thống nhất định dạng ngày tháng
Chuyển đổi các giá trị sang dạng số
Xác định lệch và làm trơn nhiễu
Làm đúng dữ liệu không nhất quán
Làm sạch dữ liệu: Thu nhận dữ liệu
Dữ liệu có trong các hệ quản trị CSDL:
Các giao thức ODBC, JDBC
Dữ liệu trong file:
Định dạng các cột cố định
Định dạng phân cách: tab, dấu “,”,
Phân biệt số lượng các trường trước khi
làm sạch và sau khi làm sạch