Tải bản đầy đủ (.doc) (90 trang)

Ứng dụng bi (business intelligence) trong bài toán thẩm định tài sản bảo đảm của ngân hàng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.18 MB, 90 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

CAO THỊ VÂN ANH

ỨNG DỤNG BI (BUSINESS INTELLIGENCE)
TRONG BÀI TOÁN THẨM ĐỊNH
TÀI SẢN BẢO ĐẢM CỦA NGÂN HÀNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội – 2017


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

CAO THỊ VÂN ANH

ỨNG DỤNG BI (BUSINESS INTELLIGENCE)
TRONG BÀI TOÁN THẨM ĐỊNH
TÀI SẢN BẢO ĐẢM CỦA NGÂN HÀNG
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS. TRƯƠNG NINH THUẬN

Hà Nội – 2017



LỜI CAM ĐOAN
Tôi xin cam đoan nội dung của luận văn “Ứng dụng BI (Business Intelligence)
trong bài toán thẩm định tài sản bảo đảm của ngân hàng” là sản phẩm do tôi thực hiện
dưới sự hướng dẫn của PGS.TS.Trương Ninh Thuận. Toàn bộ những điều được trình
bày trong khóa luận hoặc là của cá nhân, hoặc được tham khảo và tổng hợp từ các nguồn
tài liệu khác nhau. Tất cả tài liệu tham khảo, tổng hợp đều được trích dẫn với nguồn gốc
rõ ràng.
Toàn bộ chương trình, mã nguồn là do tôi thiết kế và xây dựng, không sao chép của
bất kỳ ai và chưa được công bố trên bất kỳ phương tiện nào.
Tôi xin chịu hoàn toàn trách nhiệm về lời cam đoan của mình. Nếu có điều gì sai
trái, tôi xin chịu mọi hình thức kỷ luật theo qui định.
.
Hà Nội, Ngày tháng năm 2017
Người cam đoan

Cao Thị Vân Anh


LỜI CẢM ƠN
Tôi xin bày tỏ lòng biết ơn sâu sắc đến thầy hướng dẫn của tôi, PGS.TS. Trương
Ninh Thuận. Thầy đã giúp tôi có những cơ hội để có thể theo đuổi nghiên cứu lĩnh vực
mình yêu thích. Trong suốt quá trình thực hiện luận văn, thầy đã tận tình hướng dẫn cho
tôi, góp ý cho tôi về định hướng, đồng thời đưa ra những lời khuyên bổ ích để tôi có thể
hoàn thành luận văn của mình.
Tiếp đến, xin được cảm ơn các thầy cô giáo đã giảng dạy trong quá trình học tập,
thực hành, làm bài tập, đọc và nhận xét luận văn của em, giúp em hiểu thấu đáo hơn lĩnh
vực mà em nghiên cứu và những hạn chế cần khắc phục trong việc học tập, nghiên cứu
và thực hiện bản luận văn này.
Xin cảm ơn các bạn bè, đồng nghiệp và nhất là các thành viên trong gia đình đã

tạo mọi điều kiện tốt nhất, động viên, cổ vũ trong suốt quá trình học tập và làm luận văn
tốt nghiệp.
Hà Nội, Ngày

tháng

năm 2017

Cao Thị Vân Anh


MỤC LỤC
LỜI CAM ĐOAN
LỜI CẢM ƠN
DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT....................................................................................... i
DANH MỤC HÌNH VẼ.............................................................................................................................. iii
DANH MỤC BẢNG.................................................................................................................................... iii
MỞ ĐẦU............................................................................................................................................................ 1
Lý do chọn đề tài......................................................................................................................................... 1
Mục tiêu của đề tài...................................................................................................................................... 1
Đóng góp của luận văn.............................................................................................................................. 2
Cấu trúc của luận văn................................................................................................................................. 3
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT......................................................................................................... 4
1.1. Giới thiệu về Trí tuệ nghiệp vụ (Business Intelligence)...................................................... 4
1.1.1. Khái niệm...................................................................................................................................... 4
1.1.2. Kiến trúc và thành phần của BI............................................................................................. 4
1.2.Giới thiệu về Data Warehouse......................................................................................................... 9
1.2.1. Khái niệm...................................................................................................................................... 9
1.2.2.Kiến trúc của Data Warehouse.............................................................................................. 10
1.2.3.Xây dựng Data warehouse..................................................................................................... 11

1.3. Giới thiệu về Khai phá dữ liệu (Data mining)....................................................................... 13
1.3.1. Khái niệm.................................................................................................................................... 13
1.3.2.Quy trình khai phá dữ liệu...................................................................................................... 13
1.3.3. Các phương pháp khai phá dữ liệu.................................................................................... 15
CHƯƠNG 2: BÀI TOÁN ỨNG DỤNG BI TRONG HỖ TRỢ THẨM ĐỊNH TÀI SẢN
BẢO ĐẢM CỦA NGÂN HÀNG............................................................................................................ 20
2.1. Ứng dụng của BI trong lĩnh vực ngân hàng....................................................................... 20
2.1.1. Công nghệ BI trong các hoạt động ngân hàng.............................................................. 20
2.1.2. Một số ứng dụng BI trong lĩnh vực ngân hàng............................................................. 21
2.2. Bài toán thẩm định tài sản bảo đảm trong hệ thống ngân hàng...................................... 22
2.2.1. Giới thiệu về thẩm định tài sản bảo đảm......................................................................... 22
2.2.2. Quy trình thẩm định giá tài sản bảo đảm......................................................................... 23


2.2.3. Phương pháp so sánh trực tiếp trong bước định giá giá trị của tài sản................25
CHƯƠNG 3: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG BI HỖ TRỢ THẨM ĐỊNH TÀI
SẢN BẢO ĐẢM TRONG NGÂN HÀNG.......................................................................................... 27
3.1.Phát biểu bài toán.............................................................................................................................. 27
3.2. Áp dụng thuật toán K-Nearest Neighbors (KNN) và thuật toán hồi quy tuyến tính
đa biến trong quyết định giá.................................................................................................................. 31
3.2.1. Sử dụng thuật toán K-Nearest Neighbors (KNN) để dự đoán giá trị tài sản thẩm định 33

3.2.2. Dự đoán giá trị tài sản qua phương pháp hồi quy tuyến tính đa biến...................35
3.2.3. Kết hợp thuật toán KNN và hồi quy tuyến tính đa biến............................................ 37
3.3. Thiết kế ứng dụng............................................................................................................................ 39
3.3.1. Module ETL............................................................................................................................... 39
3.3.2. Module Thẩm định tài sản.................................................................................................... 40
3.4. Xây dựng và triển khai................................................................................................................... 56
3.4.1. Xây dựng Database.................................................................................................................. 56
3.4.2. Xây dựng mô hình ứng dụng............................................................................................... 60

CHƯƠNG 4: CÀI ĐẶT VÀ KẾT QUẢ............................................................................................... 62
4.1.Cài đặt.................................................................................................................................................... 62
4.2. Kết quả................................................................................................................................................. 63
4.2.1. Chức năng quản lý thông tin hồ sơ thẩm định............................................................... 63
4.2.2. Chức năng Cập nhật thông tin chung của hồ sơ........................................................... 64
4.2.3. Cập nhật thông tin pháp lý của hồ sơ................................................................................ 65
4.2.4. Cập nhật thông tin tài sản bảo đảm.................................................................................... 66
4.2.5. Cập nhật thông tin kết luận của báo cáo thẩm định..................................................... 67
4.2.6. Thuyết minh giá........................................................................................................................ 68
4.2.7. So sánh kết quả thực nghiệm trên Web thẩm định và phần mềm Weka..............70
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN........................................................................................... 72
Kết luận......................................................................................................................................................... 72
Hướng phát triển........................................................................................................................................ 73
TÀI LIỆU THAM KHẢO.......................................................................................................................... 74
PHỤ LỤC 1..................................................................................................................................................... 75


i
DANH MỤC KÍ HIỆU VÀ CHỮ VIẾT TẮT

BI

Business Intelligence

BĐS

Bất động sản

CHCC


Căn hộ chung cư

CSDL

Cơ sở dữ liệu

CVQHKH

Chuyên viên quan hệ khách hàng

CVTĐ

Chuyên viên thẩm định

DW

Data Warehouse

ĐS

Động sản

ĐVKD

Đơn vị kinh doanh

ETL

Extract - Transform - Load


ESS

Explained sum of squares

OLAP

Online Analytical Processing

OLTP

Online Transaction Processing

HS

Hồ sơ

RSS

Residual sum of squares

SĐT

Số điện thoại

SQL

Structured Query Language

KD


Kinh doanh

KS

Khảo sát

KNN

K Nearest Neighbor



Thẩm định


ii
TS

Tài sản

TSBĐ

Tài sản bảo đảm

TSS

Total Sum of Squares

TSSS


Tài sản so sánh

TSTĐ

Tài sản thẩm định

TGĐ

Tổng giám đốc

UBND

Ủy ban nhân dân


iii

DANH MỤC HÌNH VẼ
Hình 1- 1: Các thành phần chính trong một hệ thống BI [13]........................................................ 5
Hình 1- 2: Chu kỳ của phân tích BI [13]................................................................................................ 6
Hình 1- 3: Các pha phát triển một hệ thống BI [13]........................................................................... 8
Hình 1- 4: Kiến trúc và các tính năng của một kho dữ liệu [13]................................................. 10
Hình 1- 5: Quy trình khai phá dữ liệu[13]........................................................................................... 14
Hình 2- 1: Quy trình thẩm định tài sản bào đảm trong ngân hàng [6]...................................... 23
Hình 3- 1: Dữ liệu thẩm định thông tin BĐS...................................................................................... 29
Hình 3- 2: Dữ liệu thẩm định BĐS qua tiền xử lý............................................................................ 30
Hình 3- 3: Kết quả trích chọn thuộc tính sử dụng weka................................................................. 31
Hình 3- 4:Kết quả phân tích hồi quy tuyến tính ví dụ thẩm định đất........................................ 36
Hình 3- 5: Mô hình thiết kế ứng dụng thẩm định tài sản bảo đảm............................................. 39
Hình 3- 6: Biểu đồ Use Case module Thẩm định tài sản............................................................... 41

Hình 3- 7:Lược đồ dữ liệu thông tin hồ sơ thẩm định..................................................................... 56
Hình 3- 8: Lược đồ dữ liệu thông tin tài sản BĐS- Đất.................................................................. 58
Hình 3- 9: Lược đồ dữ liệu thông tin báo cáo thẩm định tài sản bảo đảm............................... 59
Hình 3- 10:Mô hình ứng dụng.................................................................................................................. 60
Hình 4- 1: Chức năng Quản lý hồ sơ..................................................................................................... 64
Hình 4- 2: Cập nhật thông tin chung của hồ sơ................................................................................. 64
Hình 4- 3: Cập nhật thông tin pháp lý của tài sản trong hồ sơ thẩm định................................ 65
Hình 4- 4: Cập nhật thông tin tài sản bảo đảm - Bất động sản.................................................... 66
Hình 4- 5: Kết luận của báo cáo thẩm định tài sản........................................................................... 67
Hình 4- 6: Thuyết minh giá....................................................................................................................... 69
DANH MỤC BẢNG
Bảng 3- 1: Ví dụ số liệu mua bán tài sản đất...................................................................................... 32
Bảng 3- 2: Tính toán và sắp xếp giá trị của tài sản theo khoảng cách tăng dần....................34
Bảng 3- 3: Giá trị các tài sản so sánh.................................................................................................... 37
Bảng 3- 4: So sánh hai phương pháp KNN và hồi quy tuyến tính đa biến............................. 37
Bảng 4- 1: Kết quả thử nghiệm hai phương pháp............................................................................. 70


1
MỞ ĐẦU
Lý do chọn đề tài
Ngân hàng là tổ chức hoạt động mang tính chất lợi nhuận. Mọi hoạt động của ngân
hàng đều hướng tới hiệu quả kinh tế, tìm cách phân tán và giảm thiểu rủi ro. Trong hoạt
động cho vay hoặc cấp tín dụng ngân hàng đã có những biện pháp nhằm đảm bảo cho
nguồn vốn của ngân hàng sinh lợi nhuận và an toàn. Tài sản đảm bảo là một trong những
biện pháp đó. Tài sản bảo đảm của khách hàng có thể là: nhà đất, sạp chợ, phương tiện,
công cụ, hàng hóa... Mức tiền khách hàng mong muốn vay hoặc quyết định cấp tín dụng
có được chấp nhận hay không thông qua khâu định giá tài sản bảo đảm mà khách hàng
đang có và muốn thế chấp.
Quá trình thẩm định giá phải trải qua rất nhiều bước và hồ sơ thẩm định sẽ được

luân chuyển qua nhiều phòng ban, vị trí. Trong các bước thẩm định, việc báo cáo thẩm
định giá là một khâu phức tạp và cần phải được tính toán cẩn thận. Cán bộ thẩm định phải
nêu được giá trị thị trường hay phi thị trường của tài sản thẩm định. Sau đó tại phần lập
luận để ra mức giá cuối cùng, cán bộ thẩm định phải tính toán tỷ lệ điều chỉnh phù hợp
với mục đích thẩm định. Sẽ đơn giản hơn nếu có một công cụ hỗ trợ cán bộ đưa ra được
mức giá có thể cho vay dựa trên các hồ sơ thẩm định trong lịch sử hay từ các nguồn dữ
liệu được cập nhật thường xuyên trên thị trường.
Xuất phát từ tình hình thực tế đó, luận văn nghiên cứu giải pháp công nghệ Trí tuệ
nghiệp vụ (Business Intelligence - BI) để giải quyết bài toán hỗ trợ ra quyết định giá tài
sản bảo đảm của ngân hàng.
Mục tiêu của đề tài
Trong khuôn khổ luận văn này, tôi nghiên cứu kiến thức về Data Warehouse, Data
Mining, Trí tuệ nghiệp vụ để thiết kế và xây dựng một hệ thống thẩm định giá tài sản bảo
đảm (TSBĐ). Trong đó luận văn sẽ tập trung vào các phương pháp hồi quy trong BI để
giải quyết bài toán thuyết minh giá cho TSBĐ. Hỗ trợ nhân viên thẩm định khai thác dữ
liệu lịch sử về thẩm định đã thành công được lưu trữ trong hệ thống ngân hàng trước đó,
để tìm ra được các tài sản so sánh (TSSS) có các yếu tố tương đồng nhất với TSTĐ bằng
phương pháp K láng giềng gần nhất. Và hỗ trợ đưa ra quyết định về mức giá thẩm định
TSBĐ trong quá trình ước lượng giá trị tài sản từ tập các TSSS có các yếu tố tương đồng
với TSTĐ đã được thẩm định trước đó bằng phương pháp hồi quy tuyến tính đa biến.
Phần mềm thẩm định tài sản bảo đảm sẽ hỗ trợ người dùng quản lý các hồ sơ thẩm
định có liên quan đến mình. Xử lý và luân chuyển hồ sơ nhanh chóng, chính xác thông


2
tin giữa các bộ phận trong hệ thống thẩm định. Đặc biệt nó sẽ có ý nghĩa đối với các
chuyên viên thẩm định chưa có nhiều kinh nghiệm. Họ sẽ có thể đưa ra tỷ lệ điều chỉnh
giá và mức ước lượng giá chính xác hơn, dựa trên các thông tin phân tích từ nguồn dữ
liệu đầy đủ trong hệ thống phần mềm…
Đóng góp của luận văn

Luận văn đã trình bày về quy trình thẩm định tài sản bảo đảm, các phương pháp
định giá đối với từng loại tài sản và đưa ra một số các khó khăn của các chuyên viên thẩm
định trong quá trình thu thập thông tin tài sản dùng để so sánh và ước lượng giá trị của tài
sản thẩm định. Luận văn đã thiết kế một kho dữ liệu dùng để lưu trữ các thông tin của hồ
sơ thẩm định. Dùng làm nguồn tài nguyên cho việc phân tích, định giá tài sản, tạo các báo
cáo theo từng yêu cầu nghiệp vụ. Đồng thời đưa ra giải pháp kết hợp các phương pháp
hồi quy: K láng giềng gần nhất và hồi quy tuyến tính đa biến vào khâu định giá tài sản
thẩm định bằng phương pháp so sánh. Để đưa ra được một kết quả định giá chính xác và
dễ dàng hơn đối với chuyên viên thẩm định.
Hệ thống thẩm định tài sản sẽ giúp người dùng giảm thiều thời gian tìm kiếm, thu
thập và nâng cao kết quả phân tích, định giá tài sản. Đồng thời giúp công việc quản lý
thông tin hồ sơ thẩm định, tài liệu liên quan đến hồ sơ một cách hiệu quả, dễ dàng. Xử lý
hồ sơ một cách linh hoạt và thuận tiện hơn.
Các tính năng và lợi ích của hệ thống thẩm định tài sản bảo đảm:
-

-

-

-

Chức năng ETL: Chức năng thu thập, xử lý dữ liệu và lưu trữ các thông tin liên
quan đến hồ sơ thẩm định vào trong kho dữ liệu. Làm nguồn tài nguyên hữu ích
cho thuyết minh giá, tạo báo cáo. Thông qua: Import trực tiếp file hồ sơ thẩm định
trên trang web. Hoặc service tự động download-select-convert-import file từ một
thư mục lưu trữ file hồ sơ được thu thập về từ các hệ thống thẩm định giá của liên
ngân hàng gửi về.
Quản lý hồ sơ: Quản lý danh sách hồ sơ có liên quan đến người dùng, thuộc quyền
quản lý của người dùng. Nhằm hỗ trợ người dùng theo dõi tiến trình xử lý của hồ

sơ và lựa chọn các tính năng xử lý hồ sơ thuộc trách nhiệm và quyền của mình.
Cập nhật thông tin hồ sơ: Khai báo các thông tin cơ bản của hồ sơ thẩm định. Bao
gồm: Thông tin chung về tài sản bảo đảm, thông tin khách hàng, thông tin liên
quan đến hồ sơ thẩm định, thông tin về thành phần thẩm định.
Cập nhật danh sách tài sản thẩm định: Cập nhật các thông tin liên quan đến tài sản
dùng để định giá và theo dõi danh sách tài sản được thẩm định để đưa vào làm tài
sản bảo đảm trong mỗi hồ sơ thẩm định.


3
-

Lập báo cáo thẩm định: Tạo báo cáo thẩm định cho tài sản. Lựa chọn phương pháp
định giá phù hợp với tài sản để đưa ra được chi phí dự kiến cho tài sản.
Thuyết minh giá: Cho người dùng tìm kiếm các tài sản so sánh có các yếu tố tương
đồng nhất với các thông tin tài sản người dùng nhập. Khai thác dữ liệu thẩm định
lịch sử để đưa ra được mô hình tuyến tính đa biến và giá gợi ý cho tài sản.

Cấu trúc của luận văn
Luận văn này sẽ được trình bày theo bố cục như sau:
-

-

-

-

-


Mở đầu: Giới thiệu về đề tài, mục tiêu và tổ chức của luận văn.
Chương 1: Cơ sở lý thuyết.
Chương này sẽ giới thiệu tổng quan về Business Intelligence, Data Warehouse,
Data Mining.
Chương 2: Bài toán ứng dụng BI trong hỗ trợ thẩm định tài sản bảo đảm của ngân
hàng.
Chương này trình bày tổng quan về bài toán thẩm định tài sản bảo đảm trong ngân
hàng. Giới thiệu giải pháp trí tuệ nghiệp vụ và ứng dụng trong lĩnh vực ngân hàng.
Chương 3: Phân tích và thiết kế hệ thống BI hỗ trợ thẩm định tài sản bảo đảm
trong ngân hàng.
Chương này phát biểu yêu cầu của bài toán trong phạm vị thực hiện của luận văn.
Mô tả việc áp dụng các phương pháp hồi quy trong ước lượng giá trị tài sản. Thiết
kế kho dữ liệu hồ sơ thẩm định.
Chương 4: Cài đặt và kết quả.
Chương này sẽ trình bày cách cấu hình, cài đặt và kết quả xây dựng web thẩm
định tài sản bảo đảm.
Kết luận và hướng phát triển.


4
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1.1. Giới thiệu về Trí tuệ nghiệp vụ (Business Intelligence)
1.1.1. Khái niệm
Trí tuệ nghiệp vụ (BI) là một giải pháp công nghệ khai thác dữ liệu từ các nguồn
dữ liệu khác nhau, từ các hệ thống tác nghiệp khác nhau, thông qua các mô hình toán học,
các kỹ thuật khai phá dữ liệu để xử lý thành các thông tin hữu ích nhằm hỗ trợ ra quyết
định kinh doanh hiệu quả. [13]
Mục đích của hệ thống BI là biến đổi dữ liệu từ kho dữ liệu hoặc khối dữ liệu chủ
đề thành các thông tin và tri thức hữu ích, thông qua các ứng dụng mô hình toán học và
các thuật toán. Từ việc tổng hợp và phân tích thông tin tri thức, doanh nghiệp có thể đưa

ra được các chiến lược, hành động hiệu quả. Việc áp dụng các hệ thống BI là một cách
tiếp cận hợp lý và khoa học của các doanh nghiệp và các tổ chức phức tạp trong vấn đề
quản lý. Ví dụ: Doanh nghiệp có thể dựa trên một bảng tính để dự đoán sự biến động của
lãi suất ảnh hưởng đến ngân sách như thế nào. Điều này sẽ thúc đẩy họ tạo ra một thể
hiện mới về các dòng phát triển của tài chính.
Cách tiếp cận điển hình của các nhà phân tích BI có thể được tóm tắt như sau:
-

Bước 1: Cần xác định các mục tiêu của phân tích và các chỉ số sẽ được sử dụng để
đánh giá các lựa chọn thay thế đã được xác định.
Bước 2: Phát triển các mô tình toán học bằng cách khai thác các mối quan hệ giữa
các biến điều khiển hệ thống, các tham số và các chỉ số đánh giá.
Cuối cùng: Phân tích, đánh giá tính hiệu quả của hiệu suất được xác định bởi các
biến điều khiển và các tham số thay đổi.

1.1.2. Kiến trúc và thành phần của BI
Kiến trúc của BI gồm 3 thành phần chính [13]:
-

-

-

Nguồn dữ liệu (Data sources): Nguồn dữ liệu được thu thập, chuẩn hóa và tích
hợp từ nhiều nguồn khác nhau, không đồng nhất về cách tổ chức và loại dữ liệu.
Phần lớn dữ liệu được lấy từ các hệ thống hoạt động của doanh nghiệp, cũng có
thể lấy từ tài liệu phi cấu trúc như thư điện tử và các dữ liệu từ các nhà cung cấp
bên ngoài.
Kho dữ liệu và khối dữ liệu chủ đề (Data warehouse/Data mart): Sử dụng các
công cụ chiết xuất và chuyển đổi dữ liệu được biết đến như công cụ ETL, dữ liệu

được tổ chức từ các nguồn khác nhau sẽ được lưu trữ trong các cơ sơ dữ liệu để
cung cấp cho việc phân tích trong hệ thống trí tuệ nghiệp vụ.
Các phương pháp luận của BI: Dữ liệu được trích xuất và sử dụng cho các mô
hình toán học, các phương pháp phân tích. Nhằm hỗ trợ ra quyết định của doanh


5
nghiệp. Trong một hệ thống BI, một vài ứng dụng hỗ trợ ra quyết định sẽ được cài
đặt như:
o Phân tích cube nhiều chiều.
o
o
o
o

Phân tích dữ liệu thăm dò.
Phân tích theo chuỗi thời gian.
Các mô hình học máy quy nạp trong khai phá dữ liệu.
Các mô hình tối ưu hóa.

Các thành phần chính trong một hệ thống BI được thể hiện như sau:
Quyết định
Tối ưu hóa
Khai phá dữ liệu
Thăm dò dữ liệu
Kho dữ liệu/khối dữ liệu
Nguồn dữ liệu
Dữ liệu từ các hệ thống, tài liệu và dữ liệu mở rộng

Hình 1- 1: Các thành phần chính trong một hệ thống BI [13]

-

Các nguồn dữ liệu và kho dữ liệu/ khối dữ liệu: Là các thành phần chính trong
hệ thống BI. Lưu trữ các thông tin hữu ích cho việc khai phá tri thức.

-

Thăm dò dữ liệu (Data exploration): Bao gồm các công cụ thực hiện việc phân
tích một cách bị động như: các hệ thống báo cáo, thống kê. Người ra quyết định
đặt ra các giả thuyết hoặc các tiêu chí trích xuất dữ liệu, sau đó sử dụng công cụ để
tìm ra câu trả lời.
Khai phá dữ liệu (Data minning): Bao gồm các phương pháp luận trọng các hoạt
động của BI, với mục đích là khai thác thông tin và tri thức từ dữ liệu: Các mô
hình toán học để nhận dạng máy, học máy và các công cụ khai phá dữ liệu. Không
giống như các công cụ được mô tả ở các tầng trước của kim tự tháp, các mô hình
này thuộc loại chủ động hơn, không yêu cầu người ra quyết định xây dựng các giả
thuyết và tiêu chí trước. Mục đích là mở rộng tri thức cho các chuyên gia ra quyết
định. Các kỹ thuật có thể được dùng như: phân loại (classification), phân cụm
(clustering), phát hiện luật kết hợp (association rule), dự đoán (prediction)…

-


6
-

Tối ưu hóa (Optimization): Cho phép xác định giải pháp tốt nhất trong một tập
các giải pháp đưa ra.
- Quyết định (Decisions): Sau khi đã lựa chọn phương án tốt nhất, người sử dụng
sẽ đưa ra quyết định cuối cùng.

Khi đi từ dưới lên trên kim tự tháp, các hệ thống BI sẽ cần được cung cấc các công
cụ hỗ trợ nâng cao hơn theo từng hoạt động. Thậm chí là thay đổi luật và quyền.
1.1.2.1 Chu kỳ của một phân tích BI
Mỗi phân tích BI sẽ theo một lĩnh vực ứng dụng riêng, phụ thuộc vào mục tiêu của
người ra quyết định và các phương pháp phân tích có sẵn. Tuy nhiên, có thể đưa ra được
một chu kỳ lý tưởng đặc trưng cho sự tiến hóa của một phân tích BI điển hình như hình
1-2, mặc dù vẫn tồn tại sự khác biệt dựa trên đặc thù của từng ngữ cảnh cụ thể.
Phân tích

Đánh giá

Nhận thức

Quyết định
Hình 1- 2: Chu kỳ của phân tích BI [13]
Phân tích (Analysis): Trong giai đoạn phân tích, cần phải nhận biết chính xác các
vấn đề đang xảy ra. Người quyết định phải tạo một thể hiện ý tưởng của hiện tượng đang
được phân tích, bằng cách xác định các nhân tố liên quan nhất. Trong giai đoạn này các
phương pháp luận BI sẽ được sử dụng, cho phép các nhà quyết định thực hiện nhanh
chóng các dò xét khác nhau, bằng việc đặt ra một số câu hỏi để thu được các phản hồi
nhanh chóng thông qua các phương pháp tương tác.
Nhận thức (Insight): Trong giai đoạn thứ hai này cho phép các nhà ra quyết định
hiểu một cách sâu và rõ ràng hơn các vấn đề hiện tại, thường ở mức độ nhân quả. Một
mặt, việc khai thác tri thức có thể xảy ra theo trực giác của người ra quyết định, dựa trên
kinh nghiệm của họ và có thể là trên các thông tin phi cấu trúc có sẵn. Mặt khác, các mô
hình học máy quy nạp cũng có thể chứng minh là rất hữu ích trong giai đoạn phân tích
này, đặc biệt áp dụng cho dữ liệu có cấu trúc.


7

Quyết định (Decision): Trong pha thứ ba, tri thức thu được là kết quả của pha
nhận thức được chuyển thành các quyết định và thứ tự hành động. Các phương pháp luận
BI cho phép pha phân tích và nhận thức thực hiện nhanh chóng để đưa ra được quyết
định hiệu quả hơn và kịp thời phù hợp với các chiến lược ưu tiên của một tổ chức. Vì vậy
tổng thời gian thực hiện của chu trình phân tích- quyết định- hành động- sửa đổi sẽ giảm
và quá trình ra quyết định sẽ đạt chất lượng tốt hơn.
Đánh giá (Evaluation): Cuối cùng là pha thứ tư của chu trình BI liên quan đến
phép đo hiệu suất và đánh giá. Các số liệu mở rộng không chỉ giới hạn trong các khía
cạnh tài chính mà còn tính đến chỉ số hiệu suất được xác định theo phòng ban khác nhau
của công ty.
1.1.2.2 Phát triển một hệ thống BI
Việc phát triển một hệ thống BI giống như là phát triển một dự án, với một mục
tiêu cụ thể, thời gian phát triển và chi phí dự kiến, sử dụng và điều phối nguồn lực cần
thiết để thực hiện kế hoạch. Hình 1-3 thể hiện một loại chu kỳ phát triển một hệ thống BI.


8

Phân tích

Xác định các yêu cầu
nghiệp vụ

Kiến trúc tổng thể
Thiết kế
Lập kế hoạch vĩ mô
cho dự án

Lập kế hoạch
Xác định các mô hình

toán học

Cài đặt và kiểm tra

Đặc tả chi tiết dự án
Xác định nguồn dữ liệu
định nghĩa kho dữ liệu,
khối dữ liệu
Xây dựng nguyên mẫu

Xây dựng kho dữ liệu,
khối dữ liệu chủ đề

Xây dựng metadata

Xây dựng module ETL
Xây dựng ứng dụng

Phát hành và kiểm thử

Hình 1- 3: Các pha phát triển một hệ thống BI [13]
Phân tích (Analysis): Xác định các nhu cầu liên quan đến việc phát triển một hệ
thống BI của tổ chức. Thông qua một loạt các buổi phỏng vấn các nhân viên có các vai
trò và hoạt động khác nhau trong tổ chức. Mô tả rõ ràng các mục tiêu chung và các ưu
tiên của dự án, đưa ra các chi phí và trợ cấp phát sinh từ việc phát triển hệ thống BI.
Thiết kế (Design): Nhằm mục đích đưa ra một kế hoạch tạm thời về kiến trúc tổng
thể, có tính đến bất kỳ sự phát triển nào trong tương lai gần và sự phát triển của hệ thống
trong giai đoạn giữa. Bao gồm hai giai đoạn:
Đầu tiên là đánh giá các cơ sở hạ tầng thông tin đã có và phải kiểm tra các quy
trình ra quyết định chính cần được hệ thống BI hỗ trợ để xác định đầy đủ các

thông tin yêu cầu.


9
Sau đó, sử dụng các phương pháp quản lý dự án để đưa ra kế hoạch của dự án,
xác định các giai đoạn phát triển, các ưu tiên, thời gian và chi phí dự kiến, các
vai trò và nguồn lực cần thiết.
Lập kế hoạch (Planning): Xác định và mô tả chi tiết hơn các tính năng của hệ
thống BI.
Đánh giá nguồn dữ liệu hiện có, dữ liệu được truy xuất từ bên ngoài. Điều này
cho phép xây dựng cấu trúc thông tin của hệ thống BI, bao gồm một kho dữ
liệu trung tâm và có thể có nhiều khối dữ liệu đi kèm.
Cần xác định các mô hình toán học được áp dụng, đảm bảo tính sẵn có của
các dữ liệu cần thiết cho mỗi mô hình và xác định hiệu quả của các thuật toán
có phù hợp với mức độ kết quả các vấn đề.
Cuối cùng, tạo một hệ thống với chi phí thấp và khả năng giới hạn, để phát
hiện ra bất kỳ sự khác biệt giữa nhu cầu thực tế và các dự án cụ thể.
Cài đặt và kiểm tra (Implementation and control): Gồm có 5 giai đoạn chính:
Đầu tiên là phát triển kho dữ liệu và khối dữ liệu cụ thể. Đây là những cơ sở
hạ tầng thông tin sẽ cung cấp cho hệ thống BI.
Thứ hai là tạo ra một metadata để giải thích ý nghĩa của dữ liệu lưu trữ trong
kho dữ liệu và áp dụng các phép biến đổi dữ liệu chính.
Thứ ba là thiết lập các thủ tục ETL để thu thập và chuẩn hóa dữ liệu đã tồn tại
trong các nguồn tài nguyên chính, nạp chúng vào trong kho dữ liệu và các
khối dữ liệu.
Bước tiếp theo là phát triển các ứng dụng core của BI để thực hiện các phân
tích kế hoạch.
Cuối cùng, hệ thống được phát hành để thử nghiệm và sử dụng.
1.2.Giới thiệu về Data Warehouse
1.2.1. Khái niệm

Data Warehouse (DW) là nơi lưu trữ dữ liệu có giá trị cho việc xây dựng các kiến
trúc BI và các hệ thống hỗ trợ quyết định. Một định nghĩa DW thể hiện toàn bộ các hoạt
động liên quan đến nhau, tham gia vào việc thiết kế, phát triển và sử dụng một DW. [13]
Kho dữ liệu được xây dựng để tiện lợi cho việc truy cập theo nhiều nguồn, nhiều
kiểu dữ liệu khác nhau sao cho có thể kết hợp được cả những ứng dụng của các công
nghệ hiện đại và kế thừa được từ những hệ thống đã có sẵn từ trước.
Các đặc tính của kho dữ liệu:


10
-

-

Hướng chủ đề: Kho dữ liệu được thiết kế để phục vụ cho một mục đích phân tích
dữ liệu hướng tới một chủ đề nào đó. Có thể là: Khách hàng, sản phẩm, bán
hàng… Giúp người dùng xác định được các thông tin cần thiết trong hoạt động
của mình và loại bỏ những thông tin không cần thiết.
Tích hợp: Dữ liệu được tập hợp từ nhiều nguồn khác nhau: cơ sở dữ liệu Oracle,
SQLserver, files… cần phải thực hiện việc làm sạch, sắp xếp, rút gọn dữ liệu.
Biến đổi theo thời gian: Mỗi dữ liệu trong kho dữ liệu đều được gắn với thời gian
và có tính lịch sử.
Ổn định: Được lấy từ nhiều nguồn dữ liệu của hệ thống tác nghiệp có sẵn. Nó tách
rời vật lý với môi trường tác nghiệp,nên dữ liệu trong kho dữ liệu là dữ liệu chỉ
đọc, không được sửa bởi người dùng cuối.

1.2.2.Kiến trúc của Data Warehouse
Các kiến trúc tham chiếu của một kho dữ liệu được thể hiện như sau [13]:

Metadata

Xuất nhập

Dữ liệu các

khẩu

hệ thống

Phân tích thăm dò dữ liệu
Kinh

Phân tích chuỗi thời gian

doanh

Khai giá dữ liệu

Kho dữ liệu
Đánh giá
hiệu suất

Dữ liệu

Cube đa chiều

Tối ưu hóa

ngoài
Công cụ ETL


OLAP

Hình 1- 4: Kiến trúc và các tính năng của một kho dữ liệu [13]
-

Kho dữ liệu kết hợp với các metadata chứa dữ liệu và các chức năng cho phép dữ
liệu được truy cập, hình tượng hóa và cập nhật.
- Các ứng dụng thu thập dữ liệu từ hệ thống nghiệp vụ, chuẩn hóa dữ liệu về dạng
dữ liệu đa chiều, nạp vào kho dữ liệu (ETL) hoặc các công cụ back-end cho phép
dữ liệu được chiết xuất, chuyển đổi và tải vào kho dữ liệu.
- Các ứng dụng BI và hệ thống ra quyết định như là các front-end, cho phép các nhà
tri thức thực hiện các phân tích và trực quan hóa các kết quả.
Một kho dữ liệu có thể được phát triển theo các kiểu thiết kế: top-down (từ trên
xuống), bottom-up (từ dưới lên) và mixed (hỗn hợp hai phương pháp)


11
-

-

-

-

-

Top - down: Phương pháp top-down dựa trên thiết kế tổng thể của kho dữ liệu.
Thời gian phát triển dài hơn và rủi ro không hoàn thành theo lập lịch cao hơn, khi
toàn bộ kho dữ liệu được phát triển trên thực tế.

Bottom-up: Phương pháp này dựa trên việc sử dụng các nguyên mẫu và do đó
phần mở rộng hệ thống được thực hiện theo từng bước của kế hoạch. Cách tiếp
cận này thường nhanh hơn, cung cấp nhiều kết quả hữu hình hơn, nhưng lại thiếu
một tầm nhìn tổng thể của toàn bộ hệ thống đang được phát triển.
Mixed: Phương pháp này dựa trên thiết kế tổng thể của kho dữ liệu, nhưng sau đó
tiến hành theo cách tiếp cận các nguyên mẫu, bằng cách thực hiện tuần tự các phần
khác nhau của toàn bộ hệ thống. Cách tiếp cận này thực tiễn hơn và thích hợp hơn,
vì nó cho phép các bước nhỏ đã được kiểm soát để được thực hiện trong khi luôn
ghi nhớ tới toàn bộ hình ảnh.
Hai thành phần quan trọng tạo nên kho dữ liệu là:
Các công cụ ETL: Là các công cụ phần mềm sử dụng để thực hiện tự động hóa ba
tính năng chính sau: Khai thác, chuyển đổi và nạp dữ liệu vào trong kho dữ liệu.
o Khai thác: Dữ liệu được trích xuất từ các nguồn dữ liệu bên trong và mở
rộng có sẵn. Việc lựa chọn dữ liệu để cập nhật vào dựa trên thiết kế kho dữ
liệu, phụ thuộc vào thông tin được đưa ra bởi các hệ thống phân tích nghiệp
vụ kinh doanh và hỗ trợ ra quyết định hoạt động trong một miền ứng dụng
cụ thể.
o Chuyển đổi: Cải tiến chất lượng dữ liệu được chiết xuất từ các nguồn dữ
liệu khác nhau, thông qua việc hiệu chỉnh tính không nhất quán, không
chính xác và thiếu giá trị.
o Nạp dữ liệu: Dữ liệu được nạp vào trong các bảng của kho dữ liệu, tạo ra
các dữ liệu có giá trị cho các ứng dụng phân tích và hỗ trợ quyết định.
Metadata (Siêu dữ liệu): Ghi lại ý nghĩa của dữ liệu trong kho dữ liệu. Được chia
làm hai nhóm là siêu dữ liệu nghiệp vụ và siêu dữ liệu kỹ thuật.
o Siêu dữ liệu nghiệp vụ mô tả ý nghĩa dữ liệu, các luật và ràng buộc tác
động.
o Siêu dữ liệu kỹ thuật mô tả cách thức tổ chức, lưu trữ và điều khiển dữ liệu
trong hệ thống máy tính.

1.2.3.Xây dựng Data warehouse

Việc thiết kế kho dữ liệu và dữ liệu mô tả dựa trên mô hình dữ liệu đa chiều. Về
mặt chức năng mô hình có thể đảm bảo thời gian phản hồi nhanh, thậm chí đối với câu
lệnh truy vấn phức tạp. Về mặt logic người dùng có thể nhìn dữ liệu theo nhiều khía cạnh
khác nhau.


12
Biểu diễn data cube dựa trên lược đồ sao được xác định bởi hai loại bảng dữ liệu:
bảng cắt lớp (dimenson tables) và bảng sự kiện (fact tables).[13]
- Bảng cắt lớp: Cung cấp các thông tin, quan điểm được dùng để phân tích dữ liệu.
Bảng cắt lớp tương ứng với các thực thể chính chứa trong kho dữ liệu, chúng
thường thu được từ các bảng chính được lưu trữ trên các hệ thống xử lý giao dịch
thời gian thực (OLTP) như: bảng khách hàng, sản phẩm, kinh doanh, vị trí và thời
gian. Mỗi bảng cắt lớp thường được xây dựng theo mối quan hệ có tính phân cấp.
Bảng cắt lớp bao gồm 3 thành phần chính:
o Khóa thay thế: Là khóa chính chứa giá trị duy nhất, tự sinh và không có
nghĩa.
o Khóa tự nhiên: Là khóa chính của dữ liệu trong hệ thống nghiệp vụ. Có ý
nghĩa trong giá trị.
o Tập các thuộc tính mô tả: Có thể ở nhiều kiểu dữ liệu khác nhau.
-

Bảng sự kiện: Lưu các tiêu chí, chi tiêu về hoạt động kinh doanh của doanh
nghiệp. Mỗi môt tiêu chí được định nghĩa là một lượng quan sát được theo một
đơn vị đo lường thống nhất. Bảng sự kiện gồm có hai thành phần:
o Một tập khóa ngoại: Để kết nối tới các bảng cắt lớp. Cung cấp ngữ cảnh
cho các thông tin trong bảng sự kiện.
o Các tiêu chí đo lường: thuộc tính là các giá trị số, mô tả các giao dịch tương
ứng và thể hiện mục tiêu của các phân tích OLAP tiếp theo.
Một bảng sự kiện được kết nối với n bảng cắt lớp có thể được biểu diễn bằng một

data cube n cắt lớp, trong đó mỗi trục tương ứng với một cắt lớp. Nhìn chung, từ một
bảng sự kiện liên kết với n bảng cắt lớp, có thể tạo ra một lưới các cuboid. Một cuboid
tương ứng với các mức độ hợp nhất với một hoặc nhiều cắt lớp. Kiểu kết hợp này tương
đương với ngôn ngữ truy vấn cấu trúc (SQL) tới câu lệnh truy vấn sum bắt nguồn từ điều
kiện group by.
Trong nhiều trường hợp, phân tích OLAP dựa trên sự phân cấp các khái niệm để
hợp nhất dữ liệu và tạo ra các quan điểm logic dọc theo các cắt lớp của một kho dữ liệu.
Tính chất cây phân cấp định nghĩa ra một cấu trúc hình cây với các mức độ chi tiết khác
nhau của một cắt lớp. Với hai mức độ liền nhau trong một cây, mức thấp hơn gọi là mức
con, mức cao hơn gọi là mức cha. Các phân cấp khái niệm được sử dụng để thực hiện
trực quan hóa khối dữ liệu trong một kho dữ liệu. Một số tính năng cho phép thực hiện
điều đó là [5]:
- Nhìn xa (Roll-up): Hay còn gọi là drill-up. Biến tiêu chí từ mức chi tiết sang mức
tổng hợp để hiển thị cho người dùng. Tập hợp dữ liệu trong cube được tạo ra từ
việc thay thế theo hai cách: Đi từ mức thấp lên mức cao trong cây phân cấp hoặc
làm giảm số cắt lớp.


13
-

-

-

Đào sâu (Roll-down): Hay còn gọi là drill-down. Là một hoạt động ngược lại với
roll-up. Nó cho phép đi từ mức tổng hợp cao đến mức chi tiết hơn. Mục đích là để
đảo ngược kết quả từ hoạt động roll-up. Vì vậy, hoạt động drill-down có thể được
thực hiện theo hai cách: Di chuyển xuống bậc thấp hơn dọc theo một cắt lớp của
cây phân cấp hoặc thêm một cắt lớp.

Cắt lát mỏng và cắt khối (Slice and dice): Hoạt động cắt lấy dữ liệu một lớp cắt
cụ thể trong một cắt lớp hoặc lựa chọn giá trị cho ít nhất hai cắt lớp. Hoạt động
"cắt" có được một khối lập phương trong một không gian con bằng việc lựa chọn
một vài cắt lớp cùng một lúc.
Đảo chiều (Pivot): Họat động pivot được xem như là việc luân chuyển, tạo ra một
vòng xoay giữa các trục: biến cột thành hàng, hàng thành cột. Đảo chiều để có
được một cách nhìn khác về khối dữ liệu.

1.3. Giới thiệu về Khai phá dữ liệu (Data mining)
1.3.1. Khái niệm
Các hoạt động khai phá dữ liệu là một quá trình lặp đi lặp lại nhằm phân tích các
cơ sở dữ liệu lớn, với mục đích khai thác thông tin và tri thức một cách chính xác và hữu
ích cho việc hỗ trợ ra quyết định và xử lý vấn đề. [13]
Thuật ngữ khai phá dữ liệu đề cập đến một quá trình tổng thể bao gồm: thu thập và
phân tích dữ liệu, phát triển các mô hình học thức quy nạp thông qua các quyết định thực
tiễn và các hành động diễn ra sau đó dựa trên kiến thức thu được.
Các hoạt động khai phá dữ liệu có thể được chia ra thành hai luồng phân tích
chính, theo mục đích phân tích là: thông dịch (Interpretation) và dự đoán (Prediction).
- Thông dịch (Interpretation): Xác định các mẫu có quy tắc trong dữ liệu và mô tả
chúng thông qua các luật và các tiêu chí mà các chuyên gia trong lĩnh vực ứng
dụng có thể dễ dàng hiểu được. Các quy tắc tạo ra phải là nguyên thủy và không
tầm thường để làm tăng thực sự mức độ tri thức và hiểu biết về hệ thống cần quan
tâm.
- Dự đoán (Prediction): Mục đích của hoạt động này là dự đoán giá trị mà một
biến ngẫu nhiên sẽ có trong tương lai hoặc để đánh giá khả năng xảy ra của các sự
kiện trong tương lai. Thực tế thì hầu hết các kỹ thuật khai phá dữ liệu thu được
được tiên đoán từ giá trị của một bộ biến liên quan đến các thực thể trong cơ sở dữ
liệu.
1.3.2.Quy trình khai phá dữ liệu
Khai phá dữ liệu được thực hiện theo quy trình sau [13]:



14

Hình 1- 5: Quy trình khai phá dữ liệu[13]
-

-

-

-

Định nghĩa các mục tiêu (Objectives definition): Các phân tích khai phá dữ liệu
được thực hiện trong những lĩnh vực ứng dụng nhất định và được mong đợi để
cung cấp những tri thức cần thiết cho người ra quyết định.
Thu thập và tích hợp dữ liệu (Data gathering and integration): Dữ liệu có thể
đến từ nhiều nguồn khác nhau, có thể là trong một cơ sở dữ liệu, một kho dữ liệu,
thậm chí các dữ liệu từ các nguồn ứng dụng web.
Phân tích thăm dò (Exploratory analysis): Trong giai đoạn thứ ba của quá trình
khai thác dữ liệu, một phân tích thăm dò sẽ được thực hiện với mục đích làm quen
với các thông tin hiện có và thực hiện công việc làm sạch dữ liệu. Thông thường,
dữ liệu được lưu trữ trong một kho dữ liệu đã được xử lý ở giai đoạn tải dữ liệu
theo cách loại bỏ bất kỳ dữ liệu không nhất quán về cú pháp. Trong quá trình khai
thác dữ liệu, làm sạch dữ liệu xảy ra ở mức độ ngữ nghĩa. Trước hết các giá trị
phân bố của mỗi thuộc tính sẽ được nghiên cứu, sử dụng biểu đồ danh mục thuộc
tính và các thống kê tổng hợp cơ bản cho các biến số. Bằng cách này, bất kỳ một
giá trị bất thường nào hoặc thiếu giá trị cũng sẽ bị đánh dấu.
Lựa chọn các thuộc tính (Attribute Selection): Trong giai đoạn này, sự liên
quan của các thuộc tính khác nhau được đánh giá trên mối quan hệ giữa các mục



15

-

-

tiêu của phép phân tích. Các thuộc tính được chứng minh là ít được sử dụng sẽ bị
loại bỏ, để làm sạch thông tin không liên quan từ bộ dữ liệu. Hơn nữa, các thuộc
tính mới thu được từ các biến ban đầu thông qua các phép biến đổi thích hợp được
đưa vào bộ dữ liệu. Phân tích thăm dò và lựa chọn thuộc tính là những giai đoạn
quan trọng và có thể ảnh hưởng đến mức độ thành công của các giai đoạn tiếp
theo.
Phát triển mô hình và xác nhận (Model development and validation): Một khi
bộ dữ liệu có chất lượng tốt được nhúng và có khả năng được làm giàu với các
thuộc định mới đã được xác định, chúng ta có thể phát triển các mô hình nhận diện
và dự báo. Thông thường việc đào tạo của các mô hình được thực hiện bằng cách
sử dụng một mẫu của các bản nghi đã được chiết xuất từ tập dữ liệu ban đầu. Sau
đó, độ chính xác dự đoán của mỗi mô hình đã được tạo ra có thể được đánh giá
bằng phần còn lại của dữ liệu.
Dự đoán và thông dịch dữ liệu (Prediction and interpretation): Sau khi kết
thúc quá trình khai thác dữ liệu, mô hình đã được chọn trong số các mô hình được
tạo ra trong suốt giai đoạn phát triển sẽ được cài đặt và sử dụng để đạt được các
mục tiêu xác định ban đầu. Hơn nữa, nó cần được kết hợp chặt chẽ vào các thủ tục
của quá trình hỗ trợ ra quyết định để để dự đoán và thu thập kến thức sâu hơn về
các hiện tượng đang được quan tâm.

1.3.3. Các phương pháp khai phá dữ liệu
Có một số phương pháp khai phá dữ liệu điển hình là [13]:

-

-

-

Phân lớp dữ liệu: Từ một cơ sở dữ liệu với nhiều thông tin ẩn, con người có thể
trích rút ra các quyết định nghiệp vụ thông minh. Phân lớp và dự đoán là hai dạng
của phân tích dữ liệu nhằm trích rút ra một mô hình mô tả các lớp dữ liệu quan
trọng hay dự đoán các xu hướng dữ liệu tương lai. Phân lớp dự đoán giá trị của
những nhãn xác định hay những giá trị rời rạc đã biết trước. Trong khi đó, dự đoán
lại xây dựng mô hình với các hàm nhận giá trị liên tục. Một số thuật toán tiêu biểu
như:Phân lớp cây quyết định (Decision tree classification), bộ phân lớp Bayesian
(Bayesian classifier), mô hình phân lớp K hàng xóm gần nhất (K-nearest neighbor
classifier), mạng nơ ron …
Phân cụm dữ liệu: Phân cụm dữ liệu là một kỹ thuật nhằm tìm kiếm, phát hiện các
cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập dữ liệu lớn, để từ
đó cung cấp thông tin, tri thức cho việc ra quyết định. Có thể coi phân cụm dữ liệu
là một cách học bằng quan sát, còn phân lớp dữ liệu là học bằng ví dụ. Các thuật
toán thường được sử dụng như: K_means, K_medoids, CLARA (Clustering Large
Application), CLARANS, AGNES, DIANA (Divisive Analysis), BIRCH …
Khai phá luật kết hợp: Mục đích của luật kết hợp là rút ra những mối liên quan,
những tập mẫu phổ biến, những cấu trúc kết hợp hay cấu trúc ngẫu nhiên giữa
những tập hợp các item trong các CSDL giao tác hoặc trong các kho dữ liệu.


16
Hai thuật toán sẽ được sử dụng trong luận văn là: K láng giềng gần nhất (Knearest neighbor) và hồi quy tuyến tính đa biến (multiple linear regression).
1.3.3.1.Thuật toán K láng giềng gần nhất(KNN)
K-Nearest Neighbors algorithm (K-NN) là phương pháp để phân lớp các đối tượng

dựa vào khoảng cách gần nhất giữa đối tượng cần xếp lớp với tất cả các đối tượng trong
Training Data.[9]
Thuật toán KNN được mô tả như sau:
-

Bước 1: Xác định số láng giềng gần nhất K.
Bước 2: Tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng
trong training data.
Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần
nhất với đối tượng cần phân lớp.
Bước 4: Lấy tất cả các lớp của K láng giềng gần nhất đã xác định
Bước 5: Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho đối
tượng cần phân lớp.

Một số phương pháp phổ biến để tính khoảng cách giữa đối tượng cần phân lớp
với tất cả các đối tượng trong training data:
-

Khoảng cách Euclidean: Khoảng cách giữa 2 điểm là chiều dài của đường thẳng
nối chúng.
Khoảng cách Manhattan: Khoảng cách giữa 2 điểm là chiều dài của tất cả các đoạn
nối hai điểm dọc theo mặt cắt trục đứng và trục ngang, theo một chiều tới.
Khoảng cách Minkowski: Là sự tổng quát của cả khoảng cách Euclidean và
Manhattan.
Khoảng cách Hamming: Tính khoảng cách giữa các vector nhị phân. Đo sự khác
biệt giữa hai trạng thái/hai đối tượng.
Khoảng cách Euclidean sẽ được sử dụng trong thuật toán KNN của luận văn.

Trong mặt phẳng, khoảng cách giữ 2 điểm (x 1,y1) và (x2,y2) được tính bởi công thức
Pytharorean:


d ( x2 x1 ) 2 ( y2 y1 )2
Trong không gian ba chiều khoảng cách giữa hai điểm (x1,y1,z1) và (x2,y2,z2):

d ( x2 x1 ) 2 ( y2 y1 ) 2 ( z 2 z1 )2
Một cách tổng quát, khoảng cách giữa 2 điểm x, y trong không gian Euclidean R
với n chiều được tính như sau:


×