Tải bản đầy đủ (.pdf) (67 trang)

Tìm hiểu và xây dựng hệ hỗ trợ quyết định dựa trên hệ thống thông tin địa lý (GIS)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.86 MB, 67 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ





ĐÀO XUÂN DŨNG







TÌM HIỂU VÀ XÂY DỰNG
HỆ HỖ TRỢ QUYẾT ĐỊNH DỰA TRÊN
HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS)








LUẬN VĂN THẠC SĨ


















Hà Nội - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ






ĐÀO XUÂN DŨNG





TÌM HIỂU VÀ XÂY DỰNG
HỆ HỖ TRỢ QUYẾT ĐỊNH DỰA TRÊN

HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS)




Ngành: Công nghệ thông tin
Chuyên ngành: Các Hệ thống thông tin
Mã số: 60 48 05



LUẬN VĂN THẠC SĨ


NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Hà Nam










Hà Nội - 2010

1
LỜI CAM ĐOAN
Tôi xin cam đoan bản luận văn “Tìm hiểu và xây dựng hệ hỗ trợ quyết định dựa

trên hệ thống thông tin địa lý (GIS)" là công trình nghiên cứu và thử nghiệm của tôi,
tại đơn vị công tác, tham khảo các nguồn tài liệu đã được chỉ rõ trong trích dẫn và
danh mục tài liệu tham khảo. Các nội dung công bố và kết quả trình bày trong luận văn
này là trung thực và chưa từng được ai công bố trong bất cứ công trình nào.
Hà nội, ngày 25 tháng 8 năm 2010

Học viên



Đào Xuân Dũng





















2
LỜI CẢM ƠN
Em xin chân thành cảm ơn tới TS. Nguyễn Hà Nam, thày đã tận tình hướng dẫn,
chỉ dạy em hoàn thành luận văn này. Em xin chân thành cảm ơn các thày, cô giáo khoa
Công nghệ thông tin - Trường Đại học công nghệ - Đại học Quốc gia Hà nội đã truyền
thụ kiến thức cho em trong suốt quá trình học tập vừa qua.
Tôi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những người thân
đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để tôi hoàn thành
nhiệm vụ học tập và cuốn luận văn này.

























3
MỤC LỤC
LỜI CAM ĐOAN 1
LỜI CẢM ƠN 2
MỤC LỤC 3
BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT 6
MỞ ĐẦU 7
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN 8
1. Giới thiệu chung về hệ hỗ trợ quyết định 8
2. Nhu cầu cần thiết từ thực tiễn 8
3. Các hƣớng giải quyết hiện có 9
4. Cấu trúc và đóng góp của luận văn 11
CHƢƠNG 2: CÁC MÔ HÌNH HỆ HỖ TRỢ QUYẾT ĐỊNH 13
VÀ CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU 13
1. Các mô hình của DSS 13
1.1 Mô hình hòa bằng bảng tính 13
1.2 Mô hình hóa bằng phân tích quyết định 13
1.3 Mô hình hóa bằng quy hoạch toán 13
1.4 Mô hình hóa bằng Heuristic 14
1.5 Mô phỏng 16
1.6 Mô hình hóa đa chiều, xử lý và phân tích trực tuyến (OLAP) 18
1.7 Mô hình hóa và mô phỏng tương tác trực quan 19
1.8 Các bộ phần mềm định lượng và xử lý phân tích trực tuyến 19
1.9 Hệ quản trị cơ sở mô hình 20
2. Hệ hỗ trợ quyết định không gian (SDSS) 21
3. Khai phá dữ liệu 21

3.1 Tổng quan 21
3.2 Các kỹ thuật và cách tiếp cận khai phá dữ liệu 22

4
4. Các kỹ thuật phân lớp dữ liệu 24
4.1 Phân lớp bằng phương pháp quy nạp cây quyết định 24
4.1.1 Độ lợi thông tin 25
4.1.2 Giải thuật random forest (RF) [18] 26
4.2 Phân lớp bằng phương pháp mạng nơ ron nhân tạo 30
4.2.1 Khái niệm cơ bản 30
4.2.2 Mô hình mạng nơ-ron nhân tạo 32
4.2.3 Khả năng ứng dụng của mạng nơ-ron nhân tạo 34
4.2.4 Thuật toán lan truyền ngược sai số 36
4.3 Phân lớp bằng phương pháp Naïve Bayes 40
4.4 Phân lớp bằng các phương pháp khác (luật kết hợp, khoảng cách ) 41
4.5 Dự báo và phân lớp 41
5. Đánh giá các phƣơng pháp phân lớp 41
CHƢƠNG 3: GIỚI THIỆU VỀ HỆ DSS-GIS 42
ÁP DỤNG VÀO VIỆC DỰ BÁO LƢU LƢỢNG NƢỚC 42
1. Điều kiện địa lý, tự nhiên, khí tƣợng thuỷ văn lƣu vực sông Đà 42
1.1 Vị trí địa lý 42
1.2 Địa hình 42
1.3 Điều kiện địa chất 43
1.4 Điều kiện thổ nhưỡng 43
1.5 Đặc điểm khí hậu 43
1.6 Đặc điểm chế độ thuỷ văn 44
1.7 Thống kê dữ liệu thu thập được 47
2. Hƣớng tiếp cận máy học trong việc xây dựng mô hình hệ DSS 47
3. Một số chỉ tiêu đánh giá kết quả dự báo 48
4. Áp dụng vào xây dựng một hệ hỗ trợ quyết định dựa trên nền GIS 49

4.1 Cơ sở dữ liệu địa lý 49
4.2 Mô hình học máy sử dụng giải thuật Random Forest 49
4.3 Giao diện người dùng 51
CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH CHẠY THỬ NGHIỆM 51
1. Yêu cầu phần cứng 51
2. Tiền xử lý dữ liệu và huấn luyện mô hình dữ liệu 51

5
3. Kết quả thực nghiệm 52
KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU TIẾP THEO 63
TÀI LIỆU THAM KHẢO 64




























6
BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT
CSDL

Cơ sở dữ liệu
DSS
Decision Support System
Hệ hỗ trợ quyết định
GIS
Geographical Information System
Hệ thống thông tin địa lý
SDSS
Spatial Decision Support System
Hệ hỗ trợ quyết định không gian
OLAP
Online Analytic Processing
Xử lý phân tích trực tuyến
RMSE
Root Mean Square Error
Sai số căn trung bình phương



























7
MỞ ĐẦU
GIS là công cụ dựa trên máy tính dùng cho việc thành lập bản đồ và phân tích
các đối tượng tồn tại và các sự kiện bao gồm đất đai, sông ngòi, khoáng sản, con
người, khí tượng thuỷ văn, môi trường, nông nghiệp v.v xảy ra trên trái đất. Công
nghệ GIS dựa trên các cơ sở dữ liệu quan trắc, viễn thám đưa ra các câu hỏi truy vấn,

phân tích thống kê được thể hiện qua phép phân tích địa lý. Những sản phẩm của GIS
được tạo ra một cách nhanh chóng, nhiều tình huống có thể được đánh giá một cách
đồng thời và chi tiết.
Hiện nay nhu cầu ứng dụng công nghệ GIS trong lĩnh vực điều tra nghiên cứu,
khai thác sử dụng, quản lý tài nguyên thiên nhiên và môi trường ngày càng gia tăng
không những trong phạm vi quốc gia, mà cả phạm vi quốc tế. Tiềm năng kỹ thuật của nó
trong lĩnh vực ứng dụng có thể chỉ ra cho các nhà khoa học và các nhà hoạch định chính
sách, các phương án lựa chọn có tính chiến lược về sử dụng và quản lý tài nguyên thiên
nhiên và môi trường.
Việc quản lý hô
̃
trơ
̣
khai tha
́
c , sư
̉
du
̣
ng va
̀
qua
̉
n lý tng hợp hiệu quả các nguồn
tài nguyên thiên nhiên dựa trên nền GIS là rất cần thiết. Hệ hỗ trợ quyết định kết hợp
với công nghệ GIS là một xu thế tất yếu nhằm phát triển một hệ thống có những tính
năng mô phỏng các đối tượng trên thế giới thực, truyền đạt và hỗ trợ, cung cấp thông
tin tốt nhất cho những người sử dụng nói chung cũng như những nhà hoạch định chính
sách nói riêng. Mô hình học máy được sử dụng trong hệ thống nhằm tăng khả năng
khai thác thông tin, cung cấp những thông tin có ích hơn cho người sử dụng. Đề tài về

hệ hỗ trợ quyết định dựa trên nền GIS tìm hiểu các vấn đề đã đưa ra ở trên và mạnh
dạn xây dựng một phần mềm thử nghiệm áp dụng vào trong dự báo lưu lượng nước tại
các lưu vực sông.












8
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
1. Giới thiệu chung về hệ hỗ trợ quyết định
Ta biết rằng hệ hỗ trợ quyết định (DSS) là một lớp xác định của các hệ thống
thông tin được máy tính hóa, nó trợ giúp các t chức và các nhà doanh nghiệp trong
việc đưa ra các quyết định hành động. Một hệ DSS được thiết kế hoàn chỉnh là một hệ
thống dựa trên phần mềm tương tác với mục đích trợ giúp nhà đưa ra quyết định biên
dịch thông tin có ích từ dữ liệu, tư liệu thô, tri thức cá nhân hoặc những mô hình doanh
nghiệp để giải quyết vấn đề và đưa ra những quyết định. Một trong các phương pháp
tạo ra các chương trình máy tính dựa trên phân tích các tập dự liệu thô đưa ra các
thông tin có ích là máy học. Bài viết này với mục đích sử dụng phương pháp máy học,
cụ thể là giải thuật Random Forest (Breiman, 2001) để xây dựng một hệ hỗ trợ quyết
định hỗ trợ quản lý tng hợp tài nguyên nước lưu vực sông. Hệ thống được tích hợp
trên nền hệ thống thông tin địa lý (GIS) để trở thành một hệ hỗ trợ hoàn chỉnh.


2. Nhu cầu cần thiết từ thực tiễn
Trong thực tế, ra quyết định luôn đòi hỏi yêu cầu phải xử lý kiến thức, kiến thức là
nguyên liệu và thành phẩm của ra quyết định, cần được sở hữu hoặc tích lũy bởi người
ra quyết định. Ngoài ra, việc giới hạn về nhận thức do trí nhớ con người có hạn, giới
hạn về chi phí nhân lực, thời gian và áp lực cạnh tranh là những yếu tố mà dẫn đến cần
thiết phải có hệ hỗ trợ quyết định tin cậy trợ giúp nhà quản lý, nhà ra quyết định.
Vào thập kỷ 80, 90 của thế kỷ XX, điều tra các công ty lớn cho thấy:
- Kinh tế thiếu n định
- Khó theo dõi vận hành của doanh nghiệp
- Cạnh tranh gay gắt
- Xuất hiện thương mại điện tử
- Bộ phận IT quá bận, không giải quyết được các yêu cầu về quản lý
- Cần phân tích lợi nhuận, hiệu quả và thông tin chính xác, mới, kịp thời
- Giảm chi phí hoạt động
Xu hướng tính toán của người dùng hiện nay:
- Cải thiện tốc độ tính toán
- Tăng năng suất lao động của cá nhân liên đới
- Cải tiến kỹ thuật trong việc lưu trữ, tìm kiếm, trao đi dữ liệu trong và ngoài t
chức theo hướng nhanh và kinh tế.
- Nâng cao chất lượng của các quyết định đưa ra

- Tăng cường năng lực cạnh tranh của t chức
- Khắc phục khả năng hạn chế của con người trong việc xử lý và lưu trữ thông tin
Theo (Keen – 1981 [16]), thì thuận lợi của hệ DSS là:
- Tăng số phương án xem xét: Phân tích độ nhạy nhanh và hiệu quả hơn

9
- Hiểu nghiệp vụ tốt hơn: Thấy được các quan hệ nghiệp vụ của toàn hệ thống
- Đáp ứng nhanh trước các tình huống không mong đợi: Dễ xem xét các thay đi
và dễ hiệu chỉnh mô hình

- Có thể thực hiện các phân tích phi chính quy
- Học tập và hiểu biết
- Cải thiện truyền thông
- Kiểm soát
- Tiết kiệm chi phí: Giảm công việc và tiết kiệm chi phí hành chính
- Quyết định tốt hơn
- Tinh thần đồng đội tốt hơn
- Tiết kiệm thời gian
- Dùng các nguồn dữ liệu tốt hơn
Các hỗ trợ của hệ DSS bao gồm:
DSS cung cấp
Trả lời câu hỏi
Thông tin trạng thái và dữ liệu thô
Cái gì?
Khả năng phân tích tng quát
Cái gì? Tại sao?
Mô hình biểu diễn (cân đối tài chính), mô
hình nhân quả (dự báo, chẩn đoán)
Sẽ là gì? Tại sao?
Đề nghị giải pháp, đánh giá
Nếu như? Tại sao?
Chọn lựa giải pháp
Cái gì tốt nhất? Đủ tốt?

3. Các hƣớng giải quyết hiện có
Theo [7][8][12][13][14], kiến trúc của DSS gồm 3 thành phần cơ bản bao gồm:
- Cơ sở dữ liệu (hoặc cơ sở tri thức)
- Mô hình dữ liệu
- Giao diện người dùng
Trong đó:

- Mô hình là phần tử chủ chốt trong hầu hết hệ hỗ trợ quyết định và là điều kiện
cần trong hệ hỗ trợ quyết định dựa vào mô hình (model-based DSS).
- Có nhiều lớp mô hình kèm theo là các kỹ thuật xử lý thao tác mô hình đặc thù
tương ứng

- Các vấn đề chính: nhận diện bài toán và phân tích môi trường, nhận diện biến
số, dự báo, đa mô hình, các phạm trù mô hình, quản lý mô hình và mô hình hóa
dựa vào kiến thức
- Mô hình hóa là tác vụ không đơn giản. Người xây dựng mô hình phải cân bằng
giữa tính đơn giản của mô hình với các yêu cầu biểu diễn để mô hình có thể
nắm bắt đủ thực tại cần thiết cho người ra quyết định
- Mô phỏng là kỹ thuật mô hình hóa thông dụng; dùng để tìm hiểu vấn đề tuy
không nhất thiết phải tìm ra được các giải pháp biến thể; mở rộng quá trình ra

10
quyết định của t chức và cho phép t chức xem xét tác động, ảnh hưởng của
các chọn lựa tương lai.
- Mô phỏng tiết kiệm rất nhiều chi phí và thời gian – rất dễ thay đi mô hình hoạt
động của một hệ thống vật lý bằng mô hình hóa máy tính
- Mô hình có thể được phát triển và cài đặt bằng một số các ngôn ngữ lập trình và
hệ thống phần mềm khác nhau
Các phạm trù mô hình trong thực tiễn:
Phạm trù
Quá trình và mục tiêu
Kỹ thuật đại diện
Tối ưu hóa bài toán
với ít phương án
Tìm ra giải pháp tốt nhất từ
một số ít phương án
Bảng quyết định, cây quyết

định
Tối ưu hóa qua giải
thuật
Tìm ra giải pháp tốt nhất từ
một số lớn hay vô hạn các
phương án bằng quá trình cải
thiện từng bước
Mô hình quy hoạch tuyến
tính, quy hoạch toán học,
mô hình mạng lưới
Tối ưu hóa qua
biểu thức giải tích
Tìm ra giải pháp tốt nhất trong
một bước bằng một công thức
Một số mô hình tồn kho
Mô phỏng
Tìm giải pháp đủ tốt hay tốt
nhất trong số các phương án
(đã kiểm tra) bằng thực
nghiệm
Một vài loại mô phỏng
Heuristics
Tìm giải pháp đủ tốt bằng
cách dùng các quy tắc
Quy hoạch heuristics,
hệchuyên gia
Các mô hình khác
Giải tình huống “what-if”
bằng cách dùng công thức
Mô hình tài chính, hàng đợi

Các mô hình tiên
đoán
Tiên đoán tương lai cho một
kịch bản
Các mô hình dự báo, phân
tích Markov

Mô hình tĩnh và động
- Mô hình tĩnh: Thể hiện bức tranh tại thời điểm của tình huống. Các khía cạnh
của bài toán được xét một thời kỳ nhất định, trong một khung thời gian nhất
định (có thể “cuốn” về tương lai). Các tình huống được giả sử là sẽ lập lại với
tập các điều kiện đồng nhất:
o Giả định có được tính n định của dữ liệu
o Mô phỏng quá trình dạng tĩnh - làm việc trên các trạng thái n định để
tìm ra các thông số tối ưu – thường được dùng như công cụ chủ yếu để
thiết kế quá trình
o Ví dụ: Quyết định sản xuất/mua 1 sản phẩm; báo cáo thu nhập hàng
quý/năm
- Mô hình động: Biểu diễn các kịch bản thay đi theo thời gian
o Phụ thuộc thời gian; các trạng thái thay đi theo thời gian

11
o Thường dùng để tạo sinh và biểu diễn các xu hướng và khuôn mẫu theo
thời gian
o Mô phỏng động: Thể hiện các diễn tiến khi các điều kiện theo thời gian
khác với các trạng thái n định – thường được dùng để thiết kế việc kiểm
soát các hệ thống
o Ví dụ: Dự báo lưu lượng nước của trạm thủy văn Hòa Bình trong thời
gian 1 năm tới với các đầu vào là dữ liệu lưu lượng nước thay đi theo
từng năm.


Vấn đề bất định, rủi ro và chắc chắn
- Mô hình chắc chắn: Tương đối dễ phát triển, giải quyết và có thể sinh ra các
giải pháp tối ưu
- Các bài toán có một số lớn/vô hạn các giải pháp khả thi đặc biệt quan trọng
- Các mô hình tài chính được xây dựng trong điều kiện chắc chắn
- Mô hình bất định: Bằng cách thu thập thêm thông tin, cố gắng đưa bài toán trở
về dạng chắc chắn hay dạng rủi ro
- Mô hình rủi ro: Các quyết định kinh doanh được đưa ra dưới các rủi ro giả định.
- Đôi khi biết được xác suất của các sự kiện xảy ra trong tương lai
- Các trường hợp khác (bất định): Ước lượng các rủi ro và giả sử các tình huống
rủi ro xảy ra

Các mô hình hiện có trong thực tiễn:
- Mô hình hóa bằng bảng tính
- Mô hình hóa bằng phân tích quyết định
- Mô hình hóa bằng quy hoạch toán
- Mô hình hóa bằng Heuristic
- Mô phỏng
- Mô hình hóa đa chiều, xử lý phân tích trực tuyến (OLAP)
- Mô hình hóa và mô phỏng tương tác trực quan
- Các bộ phần mềm định lượng và xử lý phân tích trực tuyến
- Hệ quản trị cơ sở mô hình
Các mô hình sẽ được trình bày chi tiết trong chương 2.

4. Cấu trúc và đóng góp của luận văn
Khai phá dữ liệu là một trong những lĩnh vực nghiên cứu của khoa học máy tính
hiện nay đang được phát triển rất mạnh mẽ. Nó kết hợp giữa học máy, công nghệ cơ sở
dữ liệu và một số chuyên ngành khác để tìm ra những tri thức, bao gồm cả các thông
tin dự báo, từ những cơ sở dữ liệu lớn.


12
Luận văn này tập trung tìm hiểu về hệ hỗ trợ quyết định. Trong đó mô hình của
hệ hỗ trợ quyết định (là 1 thành phần chủ chốt trong 3 thành phần của DSS) dựa trên
một số phương pháp học máy tiên tiến như mạng nơ ron nhân tạo (ANN), cây quyết
định, random forest và ứng dụng phương pháp máy học vào việc xây dựng mô hình dữ
liệu cho hệ hỗ trợ quyết định. Nền GIS được sử dụng để mô phỏng giao diện tương tác
với người sử dụng. Cơ sở dữ liệu không gian lưu trữ vị trí địa lý các trạm thủy văn, các
đối tượng địa lý như sông ngòi, lớp bản đồ nền. Ngoài ra, dữ liệu đầu vào là bộ số liệu
lưu lượng nước được đo đạc hàng năm, được tiền xử lý rời rạc hóa để đưa vào xây
dựng mô hình dữ liệu. Đầu ra của ứng dụng là dự báo lưu lượng nước có thể lên đến 1
tháng. Luận văn đã hoàn thành phần mềm thử nghiệm và tiến hành thực nghiệm trên
bộ dữ liệu được thu thập tin cậy thông qua hệ thống đo đạc thủy văn tại trạm Hòa Bình
- sông Đà, nguồn nước chính tại hồ Hòa Bình.
Nội dung chính của luận văn được t chức thành 4 chương có nội dung được mô tả
như dưới đây:
Chƣơng 1: Giới thiệu tổng quan về bài toán, chương này giới thiệu tóm tắt về
DSS, các thành phần của DSS, nhu cầu hiện có và hướng giải quyết thực tiễn.
Chƣơng 2: Các mô hình hệ hỗ trợ quyết định và các phƣơng pháp khai phá
dữ liệu, chương này trình bày kiến thức liên quan đến các mô hình của DSS trong thực
tiễn, chi tiết các phương pháp Data mining về một số mô hình phân lớp, hồi quy.
Chƣơng 3: Giới thiệu về hệ DSS-GIS áp dụng vào việc dự báo lƣu lƣợng
nƣớc, chương này trình bày về DSS được xây dựng trên nền GIS, trình bày về cách
xây dựng mô hình dữ liệu cho DSS sử dụng giải thuật random forest áp dụng vào việc
dự báo lưu lượng nước tại trạm thủy văn Hòa Bình dựa trên số liệu thu thập đo đạc lưu
lượng qua các năm.
Chƣơng 4: Xây dựng chƣơng trình chạy thử nghiệm, chương này nhằm mô tả
và đánh giá về chương trình đã xây dựng, kết quả thực nghiệm với bộ số liệu đo đạc
tại trạm Hòa Bình. Từ đó đánh giá dựa trên việc thực hiện so sánh bộ số liệu dự báo
với bộ số liệu trong thực tế.

Phần kết luận tng kết những kết quả đã đạt được của luận văn và hướng phát
triển nghiên cứu tiếp theo.







13
CHƢƠNG 2: CÁC MÔ HÌNH HỆ HỖ TRỢ QUYẾT ĐỊNH
VÀ CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU
1. Các mô hình của DSS
Mô hình hòa bằng bảng tính
Bảng tính: phần mềm mạnh, linh hoạt và dễ dùng, cho phép tạo sinh các ứng dụng
trong kinh doanh, kỹ thuật, toán và khoa học với tập các hàm mạnh về tài chính,
thống kê, toán …
- Kèm theo là các thành phần cộng thêm (add-ins) giúp xây dựng và giải các lớp
mô hình đặc thù
- Là công cụ mô hình hóa thông dụng nhất của người dùng cuối cùng
- Có các chức năng về phân tích “what-if”, dò tìm mục tiêu, quản lý dữ liệu và
lập trình (dạng macro)
- Có khả năng đọc, ghi các cấu trúc tập tin thông dụng để giao tiếp được với các
CSDL và công cụ khác
- Có thể xây dựng mô hình tĩnh và động
- Dùng trên máy tính cá nhân và máy tính lớn
- Cơ sở để xây dựng các bảng tính đa chiều và các công cụ xử lý phân tích trực
tuyến (OLAP).
Mô hình hóa bằng phân tích quyết định
- Tiếp cận mô hình hóa các tình huống quyết định có một số hữu hạn/không quá

nhiều các phương án – mỗi phương án được trình ra, dưới dạng bảng hay đồ thị
-các kết quả tương ứng (dự báo được kèm xác suất) theo mục tiêu bài toán – từ
đó chọn phương án tốt nhất
- Đơn mục tiêu: bảng quyết định hay cây quyết định
- Đa mục tiêu: AHP (analytic hierarchy process).
Mô hình hóa bằng quy hoạch toán
- Quy hoạch toán học (mathematical programming) là họ các công cụ giải quyết
các bài toán quản lý theo đó người ra quyết định phải cấp phát các tài nguyên
khan hiếm cho các hoạt động cạnh tranh nhau (các phương án) nhằm tối ưu hóa
mục tiêu có khả năng đo lường được
- Các mô hình quy hoạch tuyến tính (linear programming) thông dụng nhất trong
quy hoạch toán; có nhiều ứng dụng trong thực tế; được dùng nhiều trong các hệ
hỗ trợ quyết định
- Bài toán quy hoạch tuyến tính:
- Các biến quyết định (cần tìm giá trị)
- Hàm mục tiêu (hàm toán học dạng tuyến tính xác định quan hệ giữa biến quyết
định và mục tiêu; đo lường mức độ đạt đạt mục tiêu và cần được tối ưu hóa)

14
- Các hệ số của hàm mục tiêu (cho biết mức đóng góp vào mục tiêu của 1 đơn vị
biến quyết định)
- Ràng buộc (biểu thức tuyến tính cho biết giới hạn tài nguyên và/hay các quan
hệgiữa các biến số)
- Dung lượng (mô tả cận trên và dưới của các biến và ràng buộc)
- Hệ số (công nghệ) vào-ra (cho biết mức độ sử dụng tài nguyên của biến quyết
định)

Đặc điểm của bài toán quy hoạch tuyến tính:
- Tài nguyên kinh tế của bài toán là có hạn và sẵn sàng
- Có nhiều cách (>2 cách) sử dụng tài nguyên được gọi là giải pháp hay chương

trình
- Mỗi hoạt động dùng tài nguyên đều sinh ra kết quả dưới dạng mục tiêu đã phát
biểu trước
- Việc cấp phát nằm trong các ràng buộc cho trước

Giả định của bài toán quy hoạch tuyến tính:
- Các kết quả của các cấp phát có thểđem so sánh với nhau, có thể đo lường bằng
một đơn vị chung
- Các cấp phát độc lập với nhau về mặt kết quả
- Kết quả cuối cùng là tng của các kết quả từ các hoạt động riêng rẽ khác nhau
- Dữ liệu có tính chắc chắn
- Tài nguyên được dùng một cách kinh tế nhất
- Thường có một số lớn các giải pháp với kết quả khác nhau
- Trong số các giải pháp có thể, có 1 giải pháp tốt nhất –mức độ đạt được mục
tiêu cao nhất – gọi là giải pháp tối ưu được tìm ra bằng một giải thuật đặc biệt
Mô hình hóa bằng Heuristic
- Việc tìm giải pháp tối ưu của một số bài toán quyết định phức tạp có thể tốn
nhiều thời gian, chi phí hay không thể tìm ra được. Còn nếu dùng tiếp cận mô
phỏng cũng có thể kéo dài, phức tạp, không thích hợp hay thậm chí không
chính xác
- Là một tiếp cận giúp tìm ra các giải pháp khả thi/thỏa mãn/đủ tốt cho các bài
toán phức tạp. Có thể có giải pháp đủ tốt (90-99.9% giá trị của lời giải tối ưu)
nhanh chóng và đỡ tốn kém hơn bằng cách dùng heuristics
- Quá trình heuristic là dãy các bước xây dựng các quy luật giải quyết vấn đề
thông qua việc tìm kiếm các con đường hứa hẹn nhất dẫn đến lời giải; tìm kiếm
cách thức thu thập và phân giải thông tin theo quá trình giải và phát triền các
phương pháp dẫn đến một giải thuật tính toán hay một lời giải tng quát đã có
- Áp dụng chủ yếu cho bài toán cấu trúc yếu; cũng dùng để tìm ra giải pháp chấp

15

nhận được cho bài toán cấu trúc chặt
- Không đủ tng quát như các giải thuật; thường chỉ dùng cho tình huống đặc thù
đang xét
- Có thể dẫn đến một giải pháp dở - các thủ tục từng bước giải quyết vấn đề
không đảm bảo tìm ra giải pháp tối ưu
- Heuristic có thể là định lượng vì vậy có thể đóng vai trò quan trọng trong cơ sở
mô hình của hệ hỗ trợ quyết định
- Heuristic có thể là định tính vì vậy có thể đóng vai trò quan trọng trong cung
ứng kiến thức cho hệ chuyên gia
- Quá trình heuristic liên quan đến tìm kiếm, học tập, ước lượng, phân xử và lặp
lại các hoạt động này dọc theo tiến trình
- Kiến thức thu được dù thành công hay thất bại trong quá trình đều được phản
hồi và sửa đi chính quá trình, nhờđó có thểđịnh nghĩa lại mục tiêu hay bài toán

Tìm kiếm Tabu (Glover & Laguna, 1997, Sun et al., 1998) đặt cơ sở trên các
chiến lược tìm kiếm thông minh nhằm rút ngắn việc dò tìm: “ghi nhớ” các giải
pháp tốt và xấu đã tìm được và hướng dần đến các giải pháp tốt
Giải thuật di truyền: bắt đầu bằng tập các giải pháp được sinh ngẫu nhiên, tái
kết hợp các cặp giải pháp một cách ngẫu nhiên
Tình huống nên dùng heuristics
- Dữ liệu đầu vào không chính xác hay có giới hạn
- Thực tế quá phức tạp đến nỗi không dùng được các mô hình tối ưu
- Chưa có được giải thuật chính xác và đủ tin cậy
- Bài toán phức tạp nên sẽ không kinh tế nếu dùng tối ưu hay mô phỏng hoặc tốn
quá nhiều thời gian tính toán
- Có thể cải thiện tính hiệu quả của quá trình tối ưu (tức có thể sinh ra các giải
pháp ban đầu tương đối tốt)
- Liên quan đến xử lý ký hiệu chứ không phải xử lý ký số (như hệ chuyên gia)
- Cần có quyết định nhanh và các xử lý dựa vào máy tính đều không khả thi (một
số heuristic không cần đến máy tính)

Thuận lợi:
- Dễ hiểu, dễ giải thích và dễ cài đặt
- Nâng cao tính sáng tạo và năng lực heuristic cho các vấn đề khác
- Tiết kiệm thời gian xác lập vấn đề
- Tiết kiệm yêu cầu về bộ chứa và xử lý máy tính
- Tiết kiệm thời gian tính toán và do vậy tiết kiệm thời gian thực trong ra quyết
định. Một số vấn đề phức tạp đến nỗi chỉ có thể giải được bằng heuristics
- Thường sinh ra nhiều giải pháp chấp nhận được
- Thường có thể phát biểu lý thuyết hay đo lường thực nghiệm về chất lượng của
giải pháp (tức giá trị mục tiêu của giải pháp gần với giá trịtồi ưu đến mức nào,

16
dù giá trịtối ưu chưa biết được)
- Có thể kết hợp tính thông minh vào để hướng dẫn phép tìm kiếm (tìm kiếm
tabu). Năng lực thông minh đó có thể là đặc thù theo bài toán hoặc dựa trên ý
kiến chuyên gia được cấy trong hệ chuyên gia hoặc cơ chế tìm kiếm
- Có thể dùng heuristic hiệu quả vào các mô hình có thể giải bằng quy hoạch toán
học. Đôi khi heuristic là phương pháp được ưa thích hơn, khi khác giải pháp
heuristics được dùng như giải pháp ban đầu cho các phương pháp quy hoạch
toán học
Hạn chế:
- Không đảm bảo có được giải pháp tối ưu
- Các quy luật có rất nhiều ngoại lệ
- Các lựa chọn quyết định tuần tự có thể không tiên đoán được các kết cục tương
lai của mỗi chọn lựa
- Sự liên thuộc giữa các phần trong hệ thống đôi khi có thể gây ra các ảnh hưởng
lớn lao lên toàn hệ thống

Phân loại các giải thuật heuristic:
- Heuristic xây dựng: xây dựng giải pháp khả thi bằng cách cộng thêm từng thành

phần một. Ví dụ: bài toán người bán hàng – luôn ghé thành phố chưa viếng
thăm kếtiếp gần nhất
- Heuristic cải tiến: bắt đầu bằng một giải pháp khả thi và cố gắng cải tiến liên
tục trên đó. Ví dụ trên, thử hoán đi 2 thành phố
- Quy hoạch toán: áp dụng vào các mô hình chứa ít ràng buộc nhằm có được
thông tin về thỏa hiệp tốt nhất với mô hình nguyên gốc. Thường được dùng
trong tối ưu hóa nguyên (integer optimization)
- Chia giai đoạn: giải quyết một vấn đề theo từng giai đoạn.
- Phân rã: chia bài toán thành các phần nhỏ hơn, có thể giải quyết được sau đó
kết hợp các giải pháp đó lại. Ví dụ: chia lãnh th bán hàng thành 4 vùng khác
nhau, giải quyết cho từng vùng sau đó kết nối các giải pháp
Mô phỏng
- Giả định các đặc điểm của thực tại
- Là kỹ thuật tiến triển các thực nghiệm (như phân tích “what-if”) - bằng máy
tính trên một mô hình của hệ thông tin quản lý
- Không thực sự là một mô hình vì không biểu diễn thực tại mà là cố gắng bắt
chước thực tại
- Là một trong những phương pháp thông dụng nhất trong DSS
- DSS làm việc với các bài toán phi cấu trúc và cấu trúc yếu, tình huống thực tế
phức tạp – không dễ biểu diễn bằng mô hình tối ưu hay các dạng mô hình khác
nhưng lại thường có thể xử lý được bằng mô phỏng

17
Đặc điểm:
- Ít đưa ra các đơn giản hóa về thực tại hơn các mô hình khác
- Do triển khai các thực nghiệm nên nó có thể kiểm thửcác giá trị cụ thể của các
biến quyết định/biến không kiểm soát được của mô hình và xem xét ảnh hưởng
lên các biến kết quả
- Phương pháp có tính mô tả (như vậy khác với phương pháp danh định)
- Không tự động tìm kiếm giải pháp tối ưu – nó mô tả/tiên đoán các đặc tính của

hệthống đã cho dưới các điều kiện khác nhau từđó có thể chọn ra phương án tốt
nhất
- Quá trình mô phỏng thường lặp lại một thực nghiệm nhiều lần để có được ước
lượng về hiệu ứng tng quát của một số hành động nhất định
- Mô phỏng máy tính thích hợp cho hầu hết các tình huống mặc dù cũng có một
sốmô phỏng thủ công thành công
- Thường chỉđược dùng khi bài toán quá phức tạp không thể xem xét bằng các kỹ
thuật tối ưu dạng số. Tính phức tạp theo nghĩa bài toán không thể công thức hóa
cho tối ưu (do không thõa các giả định), hoặc công thức quá lớn, quá nhiều
tương tác giữa các biến hoặc về bản chất bài toán là bất định hay rủi ro

Phƣơng pháp mô phỏng: thiết lập mô hình của hệ thống thực và tiến hành các
thực nghiệm lặp lại trên mô hình

Thuận lợi:
- Lý thuyết tương đối trực tiếp hiệu ứng dài hạn của nhiều chính sách => nén thời
gian lớn
- Do tính chất mô tả (khác với danh định)
- Có thể thấy được nhanh chóng, có thể đặt ra các câu hỏi “what-if”, có thể dùng
tiếp cận thử-và-sai vào giải quyết vấn đề một cách nhanh chóng, rẻ, chính xác,
ít rủi ro hơn
- Thử nghiệm được biến quyết định, phần nào của môi trường thực sự quan trọng
với các phương án khác nhau
- Yêu cầu kiến thức riêng biệt về bài toán vì thế buộc người xây dựng mô hình
phải làm việc thường xuyên với nhà quản lý – đối tượng mong muốn của DSS
để từ đó bản chất bài toán và các quyết định được hiểu tốt hơn
- Mô hình được xây dựng từ viễn cảnh/cách nhìn của nhà quản lý
- Mô hình chỉ cho một bài toán riêng biệt, thường không thể dùng giải các bài
toán khác. Như vậy mỗi thành phần của mô hình ứng với một phần của hệ
thống thực, do đó sẽ không yêu cầu nhà quản lý phải tng quát hóa các hiểu biết

của mình
- Ph bài toán giải được rất rộng: tồn kho, nhân sự, hoạch định chiến lược
- Có thể chứa các phức tạp thực sự của bài toán, không cần các đơn giản hóa (Ví

18
dụ: dùng các phân phối xác suất thực thay vì phân phối lý thuyết xấp xỉ)
- Có thể tự động sinh ra nhiều đo lường hiệu năng quan trọng

- Thường là phương pháp duy nhất của DSS có thể xử lý các bài toán tương đối
phi cấu trúc
- Có một số các gói phần mềm mô phỏng (Monte Carlo) tương đối dễ dùng
Điểm yếu:
- Tuy thường tìm được các phương án đủ tốt nhưng không đảm bảo lời giải tối ưu
- Quá trình xây dựng mô hình thường dài và tốn kém
- Giải pháp và suy diễn từ nghiên cứu mô phỏng thường không thể chuyển sang
bài toán khác vì mô hình kết hợp các yếu tố đặc thù
- Đôi khi do mô hình quá dễ giải thích cho nhà quản lý nên các phương pháp
phân tích thường xem nhẹ
- Phần mềm mô phỏng đôi khi yêu cầu các kỹ năng đặc biệt do độ phức tạp của
phương pháp giải hình thức
Các loại mô phỏng:
- Mô phỏng xác suất: một hay nhiều biến độc lập mang tính xác suất với 2 loại
phân phối – thường dùng kỹ thuật Monte Carlo
- Phân phối rời rạc: tình huống có một số giới hạn các biến cố (biến) với hữu hạn
các giá trị cho mỗi biến cố (biến)
- Phân phối liên tục: tình huống có số lượng không giới hạn các biến cố tuân theo
các hàm mật độ xác suất như phân phối chuẩn
- Mô phỏng độc lập/phụ thuộc theo thời gian:
Độc lập: không cần thiết phải biết chính xác thời điểm xảy ra biến cố (nhu cầu
tiêu thụ lượng sản phẩm trong ngày, không biết chính xác thời điểm tiêu thụ)

Phụ thuộc: cần biết chính xác thời điểm xảy ra sự kiện (bài toán hàng đợi)
- Mô phỏng tương tác trực quan:
- Mô phỏng hướng đối tượng: dùng tiếp cận hướng đối tượng để xây dựng mô
hình mô phỏng. Chú ý ngôn ngữ mô hình hóa nhất thể UML (unified modeling
language) kể cả khi mô phỏng các hệ thời gian thực.
Mô hình hóa đa chiều, xử lý và phân tích trực tuyến (OLAP)
- Người ra quyết định thường phải xem xét nhiều chiều của dữ liệu (Ví dụ: các
chiều của dữ liệu bán hàng là sản phẩm, vùng, thời gian, người bán ); dữ liệu
cần được phân tích trực tiếp bằng các công cụ chuẩn hay phân tích tự động
bằng các phương pháp khai mỏ dữ liệu (data mining)
- Hầu hết các hệ thống phân tích đa chiều được nhúng trong các hệ xử lý phân
tích trực tuyến (online analytic processing - OLAP)
- Mục tiêu của OLAP: nắm bắt cấu trúc của dữ liệu thực để hỗ trợ ra quyết định
- Trong DSS có sự gắn nối tự nhiên giữa mô hình hóa dữ liệu, mô hình hóa ký

19
hiệu và các khía cạnh của phân tích “what-if”
- Các báo cáo của hệ OLAP đều có tính tương tác, dễ khai thác sử dụng, đặc biệt
phù hợp cho các báo cáo về chỉ số hiệu năng chủ yếu (key performance
indicators - KPI), báo cáo về đo lường hiệu năng kinh doanh
- Thế hệ hiện tại của hệ OLAP và hệ khai mỏ dữ liệu (data mining) tích hợp các
đặc tính của hệ thông tin lãnh đạo (executive information system –EIS- nhiều
cách nhìn dữ liệu, chi tiết hóa theo nhu cầu ) và các hệ đồ họa khác – thường
có giao diện người dùng dạng kiểu WEB
- Các hệ thống như trên còn được gọi là các công cụ trí tuệ kinh doanh (business
intelligence - BI) vì có các đặc trưng về mô hình hóa và tối ưu hóa nhưng lại
trong suốt đối với ngươì dùng
- Hiện các công cụ được đưa ra bởi các nhà cung cấp về CSDL, về hoạch định tài
nguyên t chức (ERP), về nhà kho dữ liệu (data warehouse), về hệ OLAP
Mô hình hóa và mô phỏng tương tác trực quan

- Ích lợi: Người ra quyết định tham gia vào quá trình phát triển mô hình và thực
nghiệm mô phỏng vì vậy sẽ tin tưởng khi sử dụng mô hình
- Mô hình hóa tương tác trực quan (Visual Interactive Modeling - VIM) dùng các
biểu diễn đồ họa máy tính để trình bày các ảnh hưởng của các quyết định quản
lý khác nhau, ở một thời điểm (tĩnh) hay tiến triển theo thời gian (động với kỹ
thuật hoạt hình)
- Mô phỏng tương tác trực quan (Visual Interactive Simulation - VIS) cho phép
người dùng theo dõi tiến trình xây dựng vàsử dụng khai thác mô hình mô phỏng
dưới dạng hoạt hình
- Mô hình hóa tương tác trực quan có thể kết hợp với tiếp cận trí tuệ nhân tạo để
đưa ra các khả năng mới thay đi từ xây dựng hệ thống dạng đồ họa đến tìm
hiểu về động học của hệ thống
- Cần đến các hệ thống máy tính xử lý song song tốc độ cao để xây dựng các mô
phỏng - phức tạp, quy mô lớn, dạng hoạt hình - mang tính khả thi ở thời gian
thực.
Các bộ phần mềm định lượng và xử lý phân tích trực tuyến
- Một số công cụ DSS có chứa sẵn các trình con để xây dựng các mô hình định
lượng về thống kê, phân tích tài chánh, kế toán …
- Nhiều công cụ HTQĐ có thể tương tác với các bộ phần mềm định lượng chuẩn
(các mô hình lập sẵn), nhờ đó có thể tăng năng suất nhờ vào các mô hình có sẵn
- Phần mềm thống kê:
- Được coi như một công cụ ra quyết định hơn là một công cụ phân tích trong
quá trình ra quyết định
- Có thể được nhúng trong các công cụ khai mỏ dữ liệu và công cụ xử lý phân

20
tích trực tuyến, do đó người dùng khó nhận biết được các phương pháp thống
kê phức tạp được dùng
- Các bảng tính cũng chứa nhiều hàm thống kê phức tạp và có các giao tiếp ngoài
có thể lập trình được

- Một số hàm thống kê được xây dựng sẵn trong các công cụ DSS (trung bình,
trung vị, phương sai, độ lệch chuẩn, tương quan hồi quy (tuyến tính, đa thức,
từng bước), chi-square, t-test, phân tích độ lệch )
- Phần mềm mô hình hóa phân tích/khoa học quản lý (MS/OR)
- Có rất nhiều trên thị trường về phân tích thống kê, quy hoạch tuyến tính, mô
phỏng, phân tích quyết định, quy hoạch phi tuyến, dự báo
- Một vài bộ tạo sinh DSS có các năng lực tối ưu và mô phỏng
- Phần mềm quản lý lợi nhuận (revenue/yield management):
- Ph biến trong lĩnh vực dịch vụ
- Mô hình động về phân loại khách hàng, ước lượng nhu cầu, định giá cả cho
từng loại khách hàng
Hệ quản trị cơ sở mô hình
- Có năng lực như hệ quản trị CSDL. Tuy nhiên thị trường có thể có nhiều hệ
quản trị CSDL nhưng chưa có các sản phẩm về hệ quản trị cơ sở mô hình.
- Các khía cạnh cấu trúc và giải thuật của mô hình cũng như xử lý dữ liệu liên
quan cần trong suốt đối với người dùng
- Khả năng tích hợp mô hình (mô hình với mô hình, dữ liệu với mô hình và
ngược lại)
- Chưa có các hệ quản trị cơ sở mô hình chuẩn hóa vì:
- Có nhiều lớp mô hình nhưng đều khác cấu trúc (Ví dụ: quy hoạch tuyến tính
khác với phân tích hồi quy )
- Mỗi lớp mô hình có vài tiếp cận giải quyết vấn đề khác nhau – phụ thuộc vào
cấu trúc bài toán, kích cỡ, khuôn dạng và dữ liệu; tiếp cận coi là chuẩn có thể có
hiệu quả thấp hơn tiếp cận đặc thù
- Một số năng lực của hệ quản trị cơ sở mô hình liên quan đến khả năng suy lý và
kiến thức chuyên gia có thể tạo sinh ở các hệ thống khác – các hệ trí tuệ nhân
tạo …
- Hiện tại bảng tính và vài công cụ & ngôn ngữ DSS có đưa ra một số năng lực
của hệ quản trị cơ sở mô hình
- Có một số ngôn ngữ mô hình hóa đặc biệt được dùng như công cụ truy xuất đến

các phần mềm thực sự thực hiện tác vụ tối ưu hóa hay mô phỏng. Chúng hỗ trợ
cho việc phát triển và quản lý các mô hình. Vài ngôn ngữ mô hình hóa dạng
quy hoạch toán học thông dụng như Lingo, AMPL, GAMS
Ngƣời dùng phải có đƣợc khả năng sau:
- Truy đạt, thao tác, lưu chứa và hiệu chỉnh mô hình hiện có

21
- Xây dựng mô hình mới từ các mô hình hiện có với n lực chi phí phù hợp
Hệ quản trị cơ sở mô hình quan hệ:
- Tương tự như CSDL quan hệ, mô hình được xem như một quan hệ ảo
- Có 3 hoạt động cần thiết để có được tính đầy đủ quan hệ trong quản lý mô hình:
thực thi (execution), tối ưu và phân tích độ nhạy (sensitivity analysis)
Hệ quản trị cơ sở mô hình hƣớng đối tƣợng:
- Duy trì sự độc lập logic giữa cơ sở mô hình và các thành phần khác của DSS,
hỗ trợ sự tích hợp thông minh và n định giữa các thành phần
- các khái niệm hướng đối tượng quen thuộc trong các giao diện người dùng đồ
họa (GUI) đều có thể áp dụng vào việc quản lý mô hình
2. Hệ hỗ trợ quyết định không gian (SDSS)
Ý niệm về SDSS được bắt nguồn từ khái niệm DSS từ những năm của thập kỷ 70,
và được phát triển sau đó. Bởi vì SDSS theo sau DSS nên nó cũng cần thiết để có
những đặc điểm chung được đưa ra bởi Sprague & Ralph (1980), cũng như những khả
năng b sung được đưa ra bởi Densham (1990) như sau:
- Cung cấp những cơ chế cho đầu vào của dữ liệu không gian
- Cho phép biểu diễn những cấu trúc và những quan hệ không gian
- Bao gồm các kỹ thuật phân tích địa lý và không gian
- Cung cấp đầu ra dưới các khuân dạng không gian khác nhau bao gồm các bản
đồ và các báo cáo dạng bảng biểu.
Khi thành phần không gian được đưa vào DSS, thì việc xử lý và quản lý thông tin
không gian là hoàn toàn có thể, vì vậy SDSS có đóng góp quan trọng đối việc việc
lồng ghép chiều không gian trong quá trình đưa ra quyết định, nó có tầm quan trọng vĩ

đại trong nhiều lĩnh vực liên quan đến bảo tồn và quản lý nguồn tài nguyên thiên
nhiên. Theo Segrera, Ponce-Hernadez và Arcia (2003) cho rằng SDSS bao gồm 4 hoạt
động chính để hỗ trợ ra quyêt định bao gồm: dữ liệu đầu vào, quản lý cơ sở dữ liệu,
phân tích và hiển thị. Sau đó SDSS được đưa ra thành 5 thành phần chính bao gồm:
- Một hệ quản trị cơ sở dữ liệu
- Các thủ tục phân tích trong một hệ quản trị dựa trên cơ sở mô hình
- Một máy sinh màn hình
- Một máy sinh báo cáo
- Một giao diện người dùng
3. Khai phá dữ liệu
Tổng quan
Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị
tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu.

22
Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còn dùng một số thuật ngữ khác
có ý nghĩa tương tự như: Khai phá tri thức từ CSDL (Knowlegde mining from
database), trích lọc dữ liệu (Konwlegde extraction), phân tích dữ liệu/mẫu
(data/pattern analysis), khảo c dữ liệu (data archaeology), nạo vét dữ liệu (data
dredging). Nhiều người coi khai phá dữ liệu và một số thuật ngữ thông dụng khác là
khám phá tri thức trong CSDL (Knowledge Discovery in Databases-KDD) là như
nhau. Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình
Khám phá tri thức trong CSDL.
Quá trình này gồm các bước:
1) Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu hoặc các dữ liệu không thích
hợp.
2) Tích hợp dữ liệu (data integration): Tích hợp dữ liệu từ các nguồn khác nhau như:
CSDL, Kho dữ liệu, file text…
3) Chọn dữ liệu (data selection): Ở bước này, những dữ liệu liên quan trực tiếp đến
nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu.

4) Chuyển đi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ được
chuyển đi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác
nhóm hoặc tập hợp.
5) Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương pháp
thông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu.
6) Đánh giá mẫu (pattern evaluation): Đánh giá sự hữu ích của các mẫu biểu diễn tri
thức dựa vào một số phép đo.
7) Trình diễn dữ liệu (Knowlegde presentation): Sử dụng các kỹ thuật trình diễn và
trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng.
Các kỹ thuật và cách tiếp cận khai phá dữ liệu
- Các kỹ thuật khai phá dữ liệu bao gồm 2 nhóm chính:
o Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất
hoặc các đặc tính chung của dữ liệu trong CSDL hiện có. Các kỹ thuật
này gồm có: phân cụm (clustering), tóm tắt (summarization), trực quan
hoá (visualization), phân tích sự phát triển và độ lệch (Evolution and
deviation analyst), phân tích luật kết hợp (association rules)…
o Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán
dựa vào các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có:
Phân lớp (classification), hồi quy (regression)…
- Hướng tiếp cận: Với hai đích chính của khai phá dữ liệu là Dự đoán
(Prediction) và Mô tả (Description), người ta thường sử dụng các phương pháp
sau cho khai phá dữ liệu:
o Phân loại (Classification)
o Hồi qui (Regression)

23
o Phân nhóm (Clustering)
o Tng hợp (Summarization)
o Mô hình ràng buộc (Dependency modeling)
o Dò tìm biến đi và độ lệch (Change and Deviation Dectection)

o Biểu diễn mô hình (Model Representation)
o Kiểm định mô hình (Model Evaluation)
o Phương pháp tìm kiếm (Search Method)
- Ứng dụng của khai phá dữ liệu: Khai phá dữ liệu là một lĩnh vực liên quan tới
nhiều ngành học khác như: hệ CSDL, thống kê, trực quan hoá… hơn nữa, tuỳ
vào cách tiếp cận được sử dụng, khai phá dữ liệu còn có thể áp dụng một số kỹ
thuật như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức… So với các
phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt
- So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá
dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ
hoặc biến đi liên tục. Trong khi đó phương pháp học máy chủ yếu được áp
dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không qua lớn
- Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ
các ví dụ của chuyên gia thường ở mức cao hơn nhiều so với các dữ liệu trong
CSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng. Hơn nữa
các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được.
- Phương pháp thống kê là một trong những nên tảng lý thuyết của khai phá dữ
liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương
pháp thống kê còn tồn tại một số điểm yếu mà khai phá dữ liệu khắc phục được:
o Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có
cấu trúc trong rất nhiều CSDL.
o Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không
sử dụng tri thức có sẵn về lĩnh vực.
o Kết quả phân tích của hệ thống có thể sẽ rất nhiều và khó có thể làm rõ
được.
o Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định
phân tích dữ liệu như thế nào và ở đâu.
Với nhưng ưu điểm đó, khai phá dữ liệu hiện đang được áp dụng một cách rộng rãi
trong nhiều lĩnh vực kinh doanh và đời sống khác nhau như: marketing, tài chính, ngân
hàng và bảo hiểm, khoa học, y tế, an ninh, internet… rất nhiều t chức và công ty lớn

trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh
doanh của mình và thu được những lợi ích to lớn. Khai phá dữ liệu rất quan trọng
trong việc xây dựng lên mô hình của hệ hỗ trợ quyết định.


×