KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.12 MB, 46 trang )

KHAI PHÁ DỮ LIỆU
VÀ ỨNG DỤNG
Nguyễn Thị Hương Giang

Nội dung

Chương I. Tổng quan về khám phá tri thức
(KDD) và khai phá dữ liệu (DM)

Chương II. Tiền xử lý dữ liệu

Chương III. Một số phương pháp khai phá dữ
liệu

Chương IV. Lượng giá và sử dụng tri thức
được khám phá

Chương V. Ứng dụng

I. Tổng quan về khám phá tri thức (KDD) và khai phá
dữ liệu (DM)

I.1. Khám phá tri thức và khai phá dữ liệu là gì?
- Giáo sư Tom Mitchell [4] đã đưa ra định nghĩa của KPDL
như sau: “KPDL là việc sử dụng dữ liệu lịch sử để khám phá
những qui tắc và cải thiện những quyết định trong tương lai.”
- Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad [3] đã
phát biểu: “KPDL, thường được xem là việc khám phá tri thức

trong các cơ sở dữ liệu, là một quá trình trích xuất những
thông tin ẩn, trước đây chưa biết và có khả năng hữu ích,
dưới dạng các qui luật, ràng buộc, qui tắc trong cơ sở dữ
liệu.”

II. Tiến trình khai phá tri thức
Knowledge
Pattern
Discovery
Transformed Data
Cleansed
Preprocessed
Preparated
Data
Target Data
Gathering
Data Mining
Selection
Transformation
Cleansing Pre-processing
Preparation

Envalution of Rule
In
t
e
r
n
e

t
,

.
In
t
e
r
n
e
t
,

.
Hình 1. Quá trình khai phá dữ liệu

II. Tiến trình khai phá tri thức

Quá trình khai phá dữ liệu sẽ tiến hành qua 6 giai đoạn như hình 1 :

1. Gom dữ liệu (Gathering)
- Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu. Đây là bước
được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ
các nguồn ứng dụng Web.

2. Trích lọc dữ liệu (Selection)
- Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn
nào đó, ví dụ chọn tất cả những người có tuổi đời từ 25 – 35 và có trình độ đại học.


3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Pre-processing
and Preparation)
- Giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước
rất quan trọng trong quá trình khai phá dữ liệu. Một số lỗi thường mắc phải trong khi
gom dữ liệu là tính không đủ chặt chẽ, logic. Vì vậy, dữ liệu thường chứa các giá trị
vô nghĩa và không có khả năng kết nối dữ liệu.
- Ví dụ: tuổi = 673.
Giai đoạn này sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên.
Những dữ liệu dạng này được xem như thông tin dư thừa, không có giá trị. Bởi vậy,
đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làm sạch - tiền xử
lý - chuẩn bị trước” thì sẽ gây nên những kết quả sai lệch nghiêm trọng.

II. Tiến trình khai phá tri thức

4. Chuyển đổi dữ liệu (Transformation)
- Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều
khiển được bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi phù hợp với mục
đích khai thác.

5. Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)
- Đây là bước mang tính tư duy trong khai phá dữ liệu. Ở giai đoạn này nhiều
thuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán
thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu
tuần tự,. v.v.

6. Đánh giá kết quả mẫu (Evaluation of Result)
- Đây là giai đoạn cuối trong quá trình khai phá dữ liệu. Ở giai đoạn này, các mẫu
dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu. Không phải bất cứ mẫu
dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch. Vì vậy, cần phải ưu tiên

những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất
ra.

Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5 là giai
đoạn được quan tâm nhiều nhất hay còn gọi đó là Data Mining.

II. Tiến trình KDD

The KDD Process
Data organized by
function (accounting. etc.)
Create/select
target database
Select sampling
technique and
sample data
Supply missing
values
Normalize
values
Select DM
task (s)
Transform to
different
representation
Eliminate
noisy data
Transform
values

Select DM
method (s)
Create derived
attributes
Extract
knowledge
Find important
attributes &
value ranges
Test
knowledge
Refine
knowledge
Query & report generation
Aggregation & sequences
Advanced methods
Data warehousing

III. Các phương pháp KPDL (DM)

1. Dự đoán (Prediction) – Mô tả (Description) :
- Dự đoán sử dụng các biến hoặc các trường trong
cơ sở dữ liệu để chiết xuất ra các mẫu là các dự
đoán những giá trị chưa biết hoặc những giá trị trong
tương lai của các biến đáng quan tâm
- Mô tả tập trung vào việc tìm kiếm các mẫu mô tả
dữ liệu mà con người có thể hiểu được.

Debt

Income
have defaulted
on their loans
good status
with the bank
-
Lớp bài toán Dự đoán sẽ học ra các bộ dự
đoán. Khi có dữ liệu mới đến, bộ dự đoán sẽ
dựa trên thông tin đang có để đưa ra một giá trị
số học cho hàm cần dự đoán.
- Ví dụ: Bài toán tiêu biểu của phương pháp này
là dự đoán giá sản phẩm để lập kế hoạch trong
kinh doanh.


2. Phân loại:
- Ánh xạ (phân loại) một mục dữ liệu vào trong một
trong nhiều lớp được định nghĩa trước.
- Với một tập các dữ liệu huấn luyện cho trước và sự
huấn luyện của con người, các giải thuật phân loại sẽ
học ra bộ phân loại (classifier) dùng để phân các dữ
liệu mới vào một trong những lớp (còn gọi là loại) đã
được xác định trước. Nhận dạng cũng là một bài toán
thuộc kiểu Phân loại.
Ví dụ: nhận dạng tự động các đối tượng trong CSDL
ảnh lớn
III. Các phương pháp KPDL (DM) (tt)


3. Tìm luật liên kết (Association Rule):
- Tìm kiếm các mối liên kết giữa các phần tử
dữ liệu.
- Ví dụ: nhóm các món hàng thường được
mua kèm với nhau trong siêu thị.
III. Các phương pháp KPDL (DM) (tt)


4. Hồi quy (Regression):

là việc học một hàm ánh xạ từ một mẫu dữ
liệu thành một biến dự đoán có giá trị thực.
-
Ví dụ: đánh giá khả năng sống của bệnh nhân
với tập các kết quả kiểm tra chẩn đoán; đoán
nhu cầu người tiêu dùng đối với sản phẩm
mới,….
III. Các phương pháp KPDL (DM) (tt)


5. Phân cụm (Clustering)
- Nhóm các đối tượng dữ liệu có tính chất giống
nhau vào cùng một nhóm.
- Có nhiều cách tiếp cận với những mục tiêu
khác nhau trong phân loại. Các kỹ thuật trong
bài toán này thường được vận dụng trong vấn
đề phân hoạch dữ liệu tiếp thị hay khảo sát

sơ bộ các dữ liệu.
III. Các phương pháp KPDL (DM) (tt)


6. Tổng hợp (Summarization)
- Các phương pháp tìm kiếm một mô tả
tóm tắt cho một tập con dữ liệu.
- Các kỹ thuật tóm tắt thường được áp
dụng cho các phân tích dữ liệu tương tác
có tính thăm dò và tạo báo cáo tự động.
III. Các phương pháp KPDL (DM) (tt)


7. Mô hình ràng buộc (Dependency
modeling)
-
Tìm mô hình mô tả các ràng buộc quan trọng,
có nghĩa giữa các biến.
-
Mô hình ràng buộc có 2 mức: mức cấu trúc
xác định các biến ràng buộc cục bộ với nhau
như thế nào, trong khi mức định lượng xác
định độ lớn của ràng buộc sử dụng tỷ lệ số.
III. Các phương pháp KPDL (DM) (tt)


8. Dò tìm và biến đổi độ lệch (Change and

Deviation Detection):
- Tập trung vào việc khám phá ra các thay đổi
đáng kể nhất trong dữ liệu từ các dữ liệu
được đo trước đó.
III. Các phương pháp KPDL (DM) (tt)

Chương II. Tiền xử lý dữ liệu

1. Chất lượng dữ liệu

Mục tiêu chính của việc chuẩn bị dữ liệu:
- Để sắp xếp dữ liệu thành ở dạng chuẩn sẵn
sàng được xử lý bởi các chương trình khai
phá dữ liệu.
- để chuẩn bị các đặc tính tốt nhất cho việc
khai phá

II. Tiền xử lý dữ liệu

2. Tại sao phải tiền xử lý dữ liệu

Dữ liệu trong thế giới thực là hỗn tạp

Không đầy đủ: thiếu giá trị thuộc tính, thiếu các thuộc tính
chắc chắn cần quan tâm, hoặc chỉ chứa dữ liệu chung

Nhiễu: chứa dữ liệu bị lỗi hoặc bị lệch


Không nhất quán (mâu thuẫn): chứa các mã hoặc các tên
mâu thuẫn nhau

Dữ liệu không đảm bảo chất lượng thì kết quả khai
phá không hiệu quả

Chất lượng các quyết định phải dựa trên chất lượng dữ liệu

Kho dữ liệu cần dữ liệu cần sự tích hợp nhất quán của dữ
liệu có chất lượng.

b. Lệch

Lệch là các đối tượng dữ liệu có các đặc
tính khác đáng kể với phần lớn các đối
tượng dữ liệu khác trong tập dữ liệu.

c. Các giá trị bị mất

Lý do bị mất giá trị dữ liệu

Không thu thập được thông tin
Ví dụ: người được điều tra từ chối không
cung cấp thông tin tuổi và cân nặng của họ

Các thuộc tính không phù hợp trong mọi
trường hợp
Ví dụ: thu nhập hàng năm không áp dụng cho

trẻ con

3. Các vấn đề dữ liệu

Dữ liệu nào có sẵn cho nhiệm vụ khai
phá?

Dữ liệu có phù hợp không?

Dữ liệu thích hợp bổ sung có sẵn không?

Dữ liệu lịch sử có sẵn được bao nhiêu?

Ai là chuyên gia dữ liệu ?

4. Các chiều đo chất lượng dữ liệu

Độ chính xác

Tính đầy đủ

Tính nhất quán

Tính hợp thời

Độ tin cậy

Giá trị được bổ sung


Tính có thể hiểu được

Tính có thể truy cập được

5. Nhiệm vụ chính trong tiền xử lý
dữ liệu

Làm sạch dữ liệu:

Bổ sung các giá trị bị mất, làm trơn nhiễu, nhận dạng hoặc khử lệch,
giải quyết các vấn đề không nhất quán

Tích hợp dữ liệu

Tích hợp dữ liệu từ nhiều CSDL, từ các khối dữ liệu hoặc từ các file

Biến đổi dữ liệu

Chuẩn hóa hoặc kết hợp

Thu nhỏ dữ liệu

Có được biểu diễn dữ liệu dạng thu nhỏ nhưng không ảnh hưởng tới
kết quả phân tích

Rời rạc hóa dữ liệu

Một phần của thu nhỏ dữ liệu nhưng đặc biệt quan trọng với dữ liệu

dạng số

6. Các hình thức tiền xử lý dữ liệu
Làm sạch dữ liệu
Tích hợp dữ liệu
Biến đổi dữ liệu
Thu nhỏ dữ liệu

a. Làm sạch dữ liệu

Các nhiệm vụ làm sạch dữ liệu

Thu nhận dữ liệu và siêu dữ liệu

Bổ sung các giá trị dữ liệu bị mất

Thống nhất định dạng ngày tháng

Chuyển đổi các giá trị sang dạng số

Xác định lệch và làm trơn nhiễu

Làm đúng dữ liệu không nhất quán

Làm sạch dữ liệu: Thu nhận dữ liệu

Dữ liệu có trong các hệ quản trị CSDL:


Các giao thức ODBC, JDBC

Dữ liệu trong file:

Định dạng các cột cố định

Định dạng phân cách: tab, dấu “,”,

Phân biệt số lượng các trường trước khi
làm sạch và sau khi làm sạch

KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về