Tải bản đầy đủ (.pdf) (67 trang)

(Luận văn thạc sĩ) tìm hiểu và xây dựng hệ hỗ trợ quyết định dựa trên hệ thống thông tin địa lý (GIS)

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.86 MB, 67 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐÀO XUÂN DŨNG

TÌM HIỂU VÀ XÂY DỰNG
HỆ HỖ TRỢ QUYẾT ĐỊNH DỰA TRÊN
HỆ THỐNG THÔNG TIN ĐỊA LÝ (GIS)

LUẬN VĂN THẠC SĨ

Hà Nội - 2010


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐÀO XUÂN DŨNG

TÌM HIỂU VÀ XÂY DỰNG
HỆ HỖ TRỢ QUYẾT ĐỊNH DỰA TRÊN
HỆ THỐNG THƠNG TIN ĐỊA LÝ (GIS)

Ngành: Cơng nghệ thông tin
Chuyên ngành: Các Hệ thống thông tin
Mã số: 60 48 05

LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. Nguyễn Hà Nam

Hà Nội - 2010




LỜI CAM ĐOAN
Tơi xin cam đoan bản luận văn “Tìm hiểu và xây dựng hệ hỗ trợ quyết định dựa
trên hệ thống thơng tin địa lý (GIS)" là cơng trình nghiên cứu và thử nghiệm của tôi,
tại đơn vị công tác, tham khảo các nguồn tài liệu đã được chỉ rõ trong trích dẫn và
danh mục tài liệu tham khảo. Các nội dung cơng bố và kết quả trình bày trong luận văn
này là trung thực và chưa từng được ai cơng bố trong bất cứ cơng trình nào.
Hà nội, ngày 25 tháng 8 năm 2010
Học viên

Đào Xuân Dũng

1


LỜI CẢM ƠN
Em xin chân thành cảm ơn tới TS. Nguyễn Hà Nam, thày đã tận tình hướng dẫn,
chỉ dạy em hoàn thành luận văn này. Em xin chân thành cảm ơn các thày, cô giáo khoa
Công nghệ thông tin - Trường Đại học công nghệ - Đại học Quốc gia Hà nội đã truyền
thụ kiến thức cho em trong suốt q trình học tập vừa qua.
Tơi cũng xin cảm ơn cơ quan, bạn bè đồng nghiệp, gia đình và những người thân
đã cùng chia sẻ, giúp đỡ, động viên, tạo mọi điều kiện thuận lợi để tơi hồn thành
nhiệm vụ học tập và cuốn luận văn này.

2


MỤC LỤC
LỜI CAM ĐOAN ................................................................................................ 1

LỜI CẢM ƠN ...................................................................................................... 2
MỤC LỤC ........................................................................................................... 3
BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT .......................................................... 6
MỞ ĐẦU .............................................................................................................. 7
CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN ........................................................ 8
1.

Giới thiệu chung về hệ hỗ trợ quyết định .................................................. 8

2.

Nhu cầu cần thiết từ thực tiễn ................................................................... 8

3.

Các hƣớng giải quyết hiện có ..................................................................... 9

4.

Cấu trúc và đóng góp của luận văn ......................................................... 11

CHƢƠNG 2: CÁC MƠ HÌNH HỆ HỖ TRỢ QUYẾT ĐỊNH ......................... 13
VÀ CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU.......................................... 13
1.

Các mơ hình của DSS ............................................................................... 13
1.1 Mơ hình hịa bằng bảng tính ................................................................... 13
1.2 Mơ hình hóa bằng phân tích quyết định .................................................. 13
1.3 Mơ hình hóa bằng quy hoạch tốn.......................................................... 13
1.4 Mơ hình hóa bằng Heuristic ................................................................... 14

1.5 Mơ phỏng ............................................................................................... 16
1.6 Mơ hình hóa đa chiều, xử lý và phân tích trực tuyến (OLAP) ................. 18
1.7 Mơ hình hóa và mơ phỏng tương tác trực quan ...................................... 19
1.8 Các bộ phần mềm định lượng và xử lý phân tích trực tuyến.................... 19
1.9 Hệ quản trị cơ sở mơ hình ...................................................................... 20

2.

Hệ hỗ trợ quyết định không gian (SDSS) ................................................ 21

3.

Khai phá dữ liệu ....................................................................................... 21
3.1 Tổng quan .............................................................................................. 21
3.2 Các kỹ thuật và cách tiếp cận khai phá dữ liệu ....................................... 22
3


4.

Các kỹ thuật phân lớp dữ liệu ................................................................. 24
4.1 Phân lớp bằng phương pháp quy nạp cây quyết định.............................. 24
4.1.1 Độ lợi thông tin .................................................................................. 25
4.1.2 Giải thuật random forest (RF) [18] .................................................... 26
4.2 Phân lớp bằng phương pháp mạng nơ ron nhân tạo ............................... 30
4.2.1 Khái niệm cơ bản................................................................................ 30
4.2.2 Mơ hình mạng nơ-ron nhân tạo .......................................................... 32
4.2.3 Khả năng ứng dụng của mạng nơ-ron nhân tạo .................................. 34
4.2.4 Thuật toán lan truyền ngược sai số ..................................................... 36
4.3 Phân lớp bằng phương pháp Naïve Bayes .............................................. 40

4.4 Phân lớp bằng các phương pháp khác (luật kết hợp, khoảng cách ) ....... 41
4.5 Dự báo và phân lớp ................................................................................ 41

5.

Đánh giá các phƣơng pháp phân lớp ....................................................... 41

CHƢƠNG 3: GIỚI THIỆU VỀ HỆ DSS-GIS.................................................. 42
ÁP DỤNG VÀO VIỆC DỰ BÁO LƢU LƢỢNG NƢỚC ................................ 42
1.

Điều kiện địa lý, tự nhiên, khí tƣợng thuỷ văn lƣu vực sơng Đà ............ 42
1.1 Vị trí địa lý ............................................................................................. 42
1.2 Địa hình ................................................................................................. 42
1.3 Điều kiện địa chất .................................................................................. 43
1.4 Điều kiện thổ nhưỡng ............................................................................. 43
1.5 Đặc điểm khí hậu ................................................................................... 43
1.6 Đặc điểm chế độ thuỷ văn....................................................................... 44
1.7 Thống kê dữ liệu thu thập được .............................................................. 47

2.

Hƣớng tiếp cận máy học trong việc xây dựng mơ hình hệ DSS ............. 47

3.

Một số chỉ tiêu đánh giá kết quả dự báo ................................................. 48

4.


Áp dụng vào xây dựng một hệ hỗ trợ quyết định dựa trên nền GIS ..... 49
4.1 Cơ sở dữ liệu địa lý ................................................................................ 49
4.2 Mơ hình học máy sử dụng giải thuật Random Forest .............................. 49
4.3 Giao diện người dùng ............................................................................. 51

CHƢƠNG 4: XÂY DỰNG CHƢƠNG TRÌNH CHẠY THỬ NGHIỆM ........ 51
1.

Yêu cầu phần cứng ................................................................................... 51

2.

Tiền xử lý dữ liệu và huấn luyện mơ hình dữ liệu .................................. 51
4


3.

Kết quả thực nghiệm ................................................................................ 52

KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU TIẾP THEO ................................. 63
TÀI LIỆU THAM KHẢO ................................................................................. 64

5


BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT
Cơ sở dữ liệu

CSDL

DSS

Decision Support System

Hệ hỗ trợ quyết định

GIS

Geographical Information System

Hệ thống thông tin địa lý

SDSS

Spatial Decision Support System

Hệ hỗ trợ quyết định khơng gian

OLAP

Online Analytic Processing

Xử lý phân tích trực tuyến

RMSE

Root Mean Square Error

Sai số căn trung bình phương


6


MỞ ĐẦU
GIS là cơng cụ dựa trên máy tính dùng cho việc thành lập bản đồ và phân tích
các đối tượng tồn tại và các sự kiện bao gồm đất đai, sơng ngịi, khống sản, con
người, khí tượng thuỷ văn, môi trường, nông nghiệp v.v... xảy ra trên trái đất. Công
nghệ GIS dựa trên các cơ sở dữ liệu quan trắc, viễn thám đưa ra các câu hỏi truy vấn,
phân tích thống kê được thể hiện qua phép phân tích địa lý. Những sản phẩm của GIS
được tạo ra một cách nhanh chóng, nhiều tình huống có thể được đánh giá một cách
đồng thời và chi tiết.
Hiện nay nhu cầu ứng dụng công nghệ GIS trong lĩnh vực điều tra nghiên cứu,
khai thác sử dụng, quản lý tài nguyên thiên nhiên và môi trường ngày càng gia tăng
không những trong phạm vi quốc gia, mà cả phạm vi quốc tế. Tiềm năng kỹ thuật của nó
trong lĩnh vực ứng dụng có thể chỉ ra cho các nhà khoa học và các nhà hoạch định chính
sách, các phương án lựa chọn có tính chiến lược về sử dụng và quản lý tài nguyên thiên
nhiên và môi trường.
Việc quản lý hỗ trơ ̣ khai thác , sử du ̣ng và quản lý tổng hợp hiệu quả các nguồn
tài nguyên thiên nhiên dựa trên nền GIS là rất cần thiết. Hệ hỗ trợ quyết định kết hợp
với công nghệ GIS là một xu thế tất yếu nhằm phát triển một hệ thống có những tính
năng mơ phỏng các đối tượng trên thế giới thực, truyền đạt và hỗ trợ, cung cấp thông
tin tốt nhất cho những người sử dụng nói chung cũng như những nhà hoạch định chính
sách nói riêng. Mơ hình học máy được sử dụng trong hệ thống nhằm tăng khả năng
khai thác thơng tin, cung cấp những thơng tin có ích hơn cho người sử dụng. Đề tài về
hệ hỗ trợ quyết định dựa trên nền GIS tìm hiểu các vấn đề đã đưa ra ở trên và mạnh
dạn xây dựng một phần mềm thử nghiệm áp dụng vào trong dự báo lưu lượng nước tại
các lưu vực sông.

7



CHƢƠNG 1: GIỚI THIỆU TỔNG QUAN
1. Giới thiệu chung về hệ hỗ trợ quyết định
Ta biết rằng hệ hỗ trợ quyết định (DSS) là một lớp xác định của các hệ thống
thơng tin được máy tính hóa, nó trợ giúp các tổ chức và các nhà doanh nghiệp trong
việc đưa ra các quyết định hành động. Một hệ DSS được thiết kế hoàn chỉnh là một hệ
thống dựa trên phần mềm tương tác với mục đích trợ giúp nhà đưa ra quyết định biên
dịch thơng tin có ích từ dữ liệu, tư liệu thô, tri thức cá nhân hoặc những mơ hình doanh
nghiệp để giải quyết vấn đề và đưa ra những quyết định. Một trong các phương pháp
tạo ra các chương trình máy tính dựa trên phân tích các tập dự liệu thơ đưa ra các
thơng tin có ích là máy học. Bài viết này với mục đích sử dụng phương pháp máy học,
cụ thể là giải thuật Random Forest (Breiman, 2001) để xây dựng một hệ hỗ trợ quyết
định hỗ trợ quản lý tổng hợp tài nguyên nước lưu vực sơng. Hệ thống được tích hợp
trên nền hệ thống thông tin địa lý (GIS) để trở thành một hệ hỗ trợ hoàn chỉnh.
2. Nhu cầu cần thiết từ thực tiễn
Trong thực tế, ra quyết định ln địi hỏi yêu cầu phải xử lý kiến thức, kiến thức là
nguyên liệu và thành phẩm của ra quyết định, cần được sở hữu hoặc tích lũy bởi người
ra quyết định. Ngồi ra, việc giới hạn về nhận thức do trí nhớ con người có hạn, giới
hạn về chi phí nhân lực, thời gian và áp lực cạnh tranh là những yếu tố mà dẫn đến cần
thiết phải có hệ hỗ trợ quyết định tin cậy trợ giúp nhà quản lý, nhà ra quyết định.
Vào thập kỷ 80, 90 của thế kỷ XX, điều tra các công ty lớn cho thấy:
- Kinh tế thiếu ởn định
- Khó theo dõi vận hành của doanh nghiệp
- Cạnh tranh gay gắt
- Xuất hiện thương mại điện tử
- Bộ phận IT quá bận, không giải quyết được các yêu cầu về quản lý
- Cần phân tích lợi nhuận, hiệu quả và thơng tin chính xác, mới, kịp thời
- Giảm chi phí hoạt động
Xu hướng tính tốn của người dùng hiện nay:
- Cải thiện tốc độ tính toán

- Tăng năng suất lao động của cá nhân liên đới
- Cải tiến kỹ thuật trong việc lưu trữ, tìm kiếm, trao đởi dữ liệu trong và ngồi tở
chức theo hướng nhanh và kinh tế.
- Nâng cao chất lượng của các quyết định đưa ra
- Tăng cường năng lực cạnh tranh của tổ chức
- Khắc phục khả năng hạn chế của con người trong việc xử lý và lưu trữ thơng tin
Theo (Keen – 1981 [16]), thì thuận lợi của hệ DSS là:
- Tăng số phương án xem xét: Phân tích độ nhạy nhanh và hiệu quả hơn
8


Hiểu nghiệp vụ tốt hơn: Thấy được các quan hệ nghiệp vụ của toàn hệ thống
Đáp ứng nhanh trước các tình huống khơng mong đợi: Dễ xem xét các thay đởi
và dễ hiệu chỉnh mơ hình
- Có thể thực hiện các phân tích phi chính quy
- Học tập và hiểu biết
- Cải thiện truyền thơng
- Kiểm sốt
- Tiết kiệm chi phí: Giảm cơng việc và tiết kiệm chi phí hành chính
- Quyết định tốt hơn
- Tinh thần đồng đội tốt hơn
- Tiết kiệm thời gian
- Dùng các nguồn dữ liệu tốt hơn
Các hỗ trợ của hệ DSS bao gồm:
DSS cung cấp
Trả lời câu hỏi
Thông tin trạng thái và dữ liệu thơ
Cái gì?
Khả năng phân tích tởng qt
Cái gì? Tại sao?

Mơ hình biểu diễn (cân đối tài chính), mơ Sẽ là gì? Tại sao?
hình nhân quả (dự báo, chẩn đốn)
Đề nghị giải pháp, đánh giá
Nếu như? Tại sao?
Chọn lựa giải pháp
Cái gì tốt nhất? Đủ tốt?
-

3. Các hƣớng giải quyết hiện có
Theo [7][8][12][13][14], kiến trúc của DSS gồm 3 thành phần cơ bản bao gồm:
- Cơ sở dữ liệu (hoặc cơ sở tri thức)
- Mơ hình dữ liệu
- Giao diện người dùng
Trong đó:
- Mơ hình là phần tử chủ chốt trong hầu hết hệ hỗ trợ quyết định và là điều kiện
cần trong hệ hỗ trợ quyết định dựa vào mô hình (model-based DSS).
- Có nhiều lớp mơ hình kèm theo là các kỹ thuật xử lý thao tác mơ hình đặc thù
tương ứng
-

-

-

Các vấn đề chính: nhận diện bài tốn và phân tích mơi trường, nhận diện biến
số, dự báo, đa mơ hình, các phạm trù mơ hình, quản lý mơ hình và mơ hình hóa
dựa vào kiến thức
Mơ hình hóa là tác vụ khơng đơn giản. Người xây dựng mơ hình phải cân bằng
giữa tính đơn giản của mơ hình với các u cầu biểu diễn để mơ hình có thể
nắm bắt đủ thực tại cần thiết cho người ra quyết định

Mơ phỏng là kỹ thuật mơ hình hóa thơng dụng; dùng để tìm hiểu vấn đề tuy
khơng nhất thiết phải tìm ra được các giải pháp biến thể; mở rộng quá trình ra
9


quyết định của tổ chức và cho phép tổ chức xem xét tác động, ảnh hưởng của
các chọn lựa tương lai.
- Mơ phỏng tiết kiệm rất nhiều chi phí và thời gian – rất dễ thay đởi mơ hình hoạt
động của một hệ thống vật lý bằng mơ hình hóa máy tính
- Mơ hình có thể được phát triển và cài đặt bằng một số các ngơn ngữ lập trình và
hệ thống phần mềm khác nhau
Các phạm trù mơ hình trong thực tiễn:
Phạm trù
Quá trình và mục tiêu
Kỹ thuật đại diện
Tối ưu hóa bài tốn Tìm ra giải pháp tốt nhất từ
Bảng quyết định, cây quyết
với ít phương án
một số ít phương án
định
Tối ưu hóa qua giải Tìm ra giải pháp tốt nhất từ
Mơ hình quy hoạch tuyến
thuật
một số lớn hay vơ hạn các
tính, quy hoạch tốn học,
phương án bằng q trình cải mơ hình mạng lưới
thiện từng bước
Tối ưu hóa qua
Tìm ra giải pháp tốt nhất trong Một số mơ hình tồn kho
biểu thức giải tích

một bước bằng một cơng thức
Mơ phỏng
Tìm giải pháp đủ tốt hay tốt
Một vài loại mô phỏng
nhất trong số các phương án
(đã kiểm tra) bằng thực
nghiệm
Heuristics
Tìm giải pháp đủ tốt bằng
Quy hoạch heuristics,
cách dùng các quy tắc
hệchun gia
Các mơ hình khác
Giải tình huống “what-if”
Mơ hình tài chính, hàng đợi
bằng cách dùng cơng thức
Các mơ hình tiên
Tiên đốn tương lai cho một
Các mơ hình dự báo, phân
đốn
kịch bản
tích Markov
Mơ hình tĩnh và động
- Mơ hình tĩnh: Thể hiện bức tranh tại thời điểm của tình huống. Các khía cạnh
của bài tốn được xét một thời kỳ nhất định, trong một khung thời gian nhất
định (có thể “cuốn” về tương lai). Các tình huống được giả sử là sẽ lập lại với
tập các điều kiện đồng nhất:
o Giả định có được tính ởn định của dữ liệu
o Mơ phỏng q trình dạng tĩnh - làm việc trên các trạng thái ởn định để
tìm ra các thơng số tối ưu – thường được dùng như công cụ chủ yếu để

thiết kế q trình
o Ví dụ: Quyết định sản xuất/mua 1 sản phẩm; báo cáo thu nhập hàng
quý/năm
- Mơ hình động: Biểu diễn các kịch bản thay đởi theo thời gian
o Phụ thuộc thời gian; các trạng thái thay đổi theo thời gian
10


o Thường dùng để tạo sinh và biểu diễn các xu hướng và khuôn mẫu theo
thời gian
o Mô phỏng động: Thể hiện các diễn tiến khi các điều kiện theo thời gian
khác với các trạng thái ổn định – thường được dùng để thiết kế việc kiểm
soát các hệ thống
o Ví dụ: Dự báo lưu lượng nước của trạm thủy văn Hịa Bình trong thời
gian 1 năm tới với các đầu vào là dữ liệu lưu lượng nước thay đổi theo
từng năm.
Vấn đề bất định, rủi ro và chắc chắn
- Mơ hình chắc chắn: Tương đối dễ phát triển, giải quyết và có thể sinh ra các
giải pháp tối ưu
- Các bài tốn có một số lớn/vơ hạn các giải pháp khả thi đặc biệt quan trọng
- Các mơ hình tài chính được xây dựng trong điều kiện chắc chắn
- Mơ hình bất định: Bằng cách thu thập thêm thơng tin, cố gắng đưa bài toán trở
về dạng chắc chắn hay dạng rủi ro
- Mơ hình rủi ro: Các quyết định kinh doanh được đưa ra dưới các rủi ro giả định.
- Đôi khi biết được xác suất của các sự kiện xảy ra trong tương lai
- Các trường hợp khác (bất định): Ước lượng các rủi ro và giả sử các tình huống
rủi ro xảy ra
Các mơ hình hiện có trong thực tiễn:
- Mơ hình hóa bằng bảng tính
- Mơ hình hóa bằng phân tích quyết định

- Mơ hình hóa bằng quy hoạch tốn
- Mơ hình hóa bằng Heuristic
- Mơ phỏng
- Mơ hình hóa đa chiều, xử lý phân tích trực tuyến (OLAP)
- Mơ hình hóa và mơ phỏng tương tác trực quan
- Các bộ phần mềm định lượng và xử lý phân tích trực tuyến
- Hệ quản trị cơ sở mơ hình
Các mơ hình sẽ được trình bày chi tiết trong chương 2.
4. Cấu trúc và đóng góp của luận văn
Khai phá dữ liệu là một trong những lĩnh vực nghiên cứu của khoa học máy tính
hiện nay đang được phát triển rất mạnh mẽ. Nó kết hợp giữa học máy, công nghệ cơ sở
dữ liệu và một số chuyên ngành khác để tìm ra những tri thức, bao gồm cả các thông
tin dự báo, từ những cơ sở dữ liệu lớn.

11


Luận văn này tập trung tìm hiểu về hệ hỗ trợ quyết định. Trong đó mơ hình của
hệ hỗ trợ quyết định (là 1 thành phần chủ chốt trong 3 thành phần của DSS) dựa trên
một số phương pháp học máy tiên tiến như mạng nơ ron nhân tạo (ANN), cây quyết
định, random forest và ứng dụng phương pháp máy học vào việc xây dựng mơ hình dữ
liệu cho hệ hỗ trợ quyết định. Nền GIS được sử dụng để mô phỏng giao diện tương tác
với người sử dụng. Cơ sở dữ liệu khơng gian lưu trữ vị trí địa lý các trạm thủy văn, các
đối tượng địa lý như sơng ngịi, lớp bản đồ nền. Ngồi ra, dữ liệu đầu vào là bộ số liệu
lưu lượng nước được đo đạc hàng năm, được tiền xử lý rời rạc hóa để đưa vào xây
dựng mơ hình dữ liệu. Đầu ra của ứng dụng là dự báo lưu lượng nước có thể lên đến 1
tháng. Luận văn đã hoàn thành phần mềm thử nghiệm và tiến hành thực nghiệm trên
bộ dữ liệu được thu thập tin cậy thông qua hệ thống đo đạc thủy văn tại trạm Hịa Bình
- sơng Đà, nguồn nước chính tại hồ Hịa Bình.
Nội dung chính của luận văn được tở chức thành 4 chương có nội dung được mô tả

như dưới đây:
Chƣơng 1: Giới thiệu tổng quan về bài tốn, chương này giới thiệu tóm tắt về
DSS, các thành phần của DSS, nhu cầu hiện có và hướng giải quyết thực tiễn.
Chƣơng 2: Các mơ hình hệ hỗ trợ quyết định và các phƣơng pháp khai phá
dữ liệu, chương này trình bày kiến thức liên quan đến các mơ hình của DSS trong thực
tiễn, chi tiết các phương pháp Data mining về một số mơ hình phân lớp, hồi quy.
Chƣơng 3: Giới thiệu về hệ DSS-GIS áp dụng vào việc dự báo lƣu lƣợng
nƣớc, chương này trình bày về DSS được xây dựng trên nền GIS, trình bày về cách
xây dựng mơ hình dữ liệu cho DSS sử dụng giải thuật random forest áp dụng vào việc
dự báo lưu lượng nước tại trạm thủy văn Hòa Bình dựa trên số liệu thu thập đo đạc lưu
lượng qua các năm.
Chƣơng 4: Xây dựng chƣơng trình chạy thử nghiệm, chương này nhằm mô tả
và đánh giá về chương trình đã xây dựng, kết quả thực nghiệm với bộ số liệu đo đạc
tại trạm Hịa Bình. Từ đó đánh giá dựa trên việc thực hiện so sánh bộ số liệu dự báo
với bộ số liệu trong thực tế.
Phần kết luận tổng kết những kết quả đã đạt được của luận văn và hướng phát
triển nghiên cứu tiếp theo.

12


CHƢƠNG 2: CÁC MƠ HÌNH HỆ HỖ TRỢ QUYẾT ĐỊNH
VÀ CÁC PHƢƠNG PHÁP KHAI PHÁ DỮ LIỆU
1. Các mơ hình của DSS
Mơ hình hịa bằng bảng tính
Bảng tính: phần mềm mạnh, linh hoạt và dễ dùng, cho phép tạo sinh các ứng dụng
trong kinh doanh, kỹ thuật, toán và khoa học ... với tập các hàm mạnh về tài chính,
thống kê, toán …
- Kèm theo là các thành phần cộng thêm (add-ins) giúp xây dựng và giải các lớp
mơ hình đặc thù

- Là cơng cụ mơ hình hóa thơng dụng nhất của người dùng cuối cùng
- Có các chức năng về phân tích “what-if”, dị tìm mục tiêu, quản lý dữ liệu và
lập trình (dạng macro)
- Có khả năng đọc, ghi các cấu trúc tập tin thông dụng để giao tiếp được với các
CSDL và cơng cụ khác
- Có thể xây dựng mơ hình tĩnh và động
- Dùng trên máy tính cá nhân và máy tính lớn
- Cơ sở để xây dựng các bảng tính đa chiều và các cơng cụ xử lý phân tích trực
tuyến (OLAP).
Mơ hình hóa bằng phân tích quyết định
-

-

Tiếp cận mơ hình hóa các tình huống quyết định có một số hữu hạn/khơng q
nhiều các phương án – mỗi phương án được trình ra, dưới dạng bảng hay đồ thị
-các kết quả tương ứng (dự báo được kèm xác suất) theo mục tiêu bài toán – từ
đó chọn phương án tốt nhất
Đơn mục tiêu: bảng quyết định hay cây quyết định
Đa mục tiêu: AHP (analytic hierarchy process).
Mơ hình hóa bằng quy hoạch tốn

-

-

-

Quy hoạch tốn học (mathematical programming) là họ các công cụ giải quyết
các bài tốn quản lý theo đó người ra quyết định phải cấp phát các tài nguyên

khan hiếm cho các hoạt động cạnh tranh nhau (các phương án) nhằm tối ưu hóa
mục tiêu có khả năng đo lường được
Các mơ hình quy hoạch tuyến tính (linear programming) thơng dụng nhất trong
quy hoạch tốn; có nhiều ứng dụng trong thực tế; được dùng nhiều trong các hệ
hỗ trợ quyết định
Bài toán quy hoạch tuyến tính:
Các biến quyết định (cần tìm giá trị)
Hàm mục tiêu (hàm tốn học dạng tuyến tính xác định quan hệ giữa biến quyết
định và mục tiêu; đo lường mức độ đạt đạt mục tiêu và cần được tối ưu hóa)
13


-

Các hệ số của hàm mục tiêu (cho biết mức đóng góp vào mục tiêu của 1 đơn vị
biến quyết định)
Ràng buộc (biểu thức tuyến tính cho biết giới hạn tài nguyên và/hay các quan
hệgiữa các biến số)
Dung lượng (mô tả cận trên và dưới của các biến và ràng buộc)
Hệ số (công nghệ) vào-ra (cho biết mức độ sử dụng tài nguyên của biến quyết
định)

Đặc điểm của bài toán quy hoạch tuyến tính:
- Tài nguyên kinh tế của bài tốn là có hạn và sẵn sàng
- Có nhiều cách (>2 cách) sử dụng tài nguyên được gọi là giải pháp hay chương
trình
- Mỗi hoạt động dùng tài nguyên đều sinh ra kết quả dưới dạng mục tiêu đã phát
biểu trước
- Việc cấp phát nằm trong các ràng buộc cho trước
Giả định của bài tốn quy hoạch tuyến tính:

- Các kết quả của các cấp phát có thểđem so sánh với nhau, có thể đo lường bằng
một đơn vị chung
- Các cấp phát độc lập với nhau về mặt kết quả
- Kết quả cuối cùng là tổng của các kết quả từ các hoạt động riêng rẽ khác nhau
- Dữ liệu có tính chắc chắn
- Tài ngun được dùng một cách kinh tế nhất
- Thường có một số lớn các giải pháp với kết quả khác nhau
- Trong số các giải pháp có thể, có 1 giải pháp tốt nhất –mức độ đạt được mục
tiêu cao nhất – gọi là giải pháp tối ưu được tìm ra bằng một giải thuật đặc biệt
Mơ hình hóa bằng Heuristic
-

-

-

-

Việc tìm giải pháp tối ưu của một số bài toán quyết định phức tạp có thể tốn
nhiều thời gian, chi phí hay khơng thể tìm ra được. Cịn nếu dùng tiếp cận mơ
phỏng cũng có thể kéo dài, phức tạp, khơng thích hợp hay thậm chí khơng
chính xác
Là một tiếp cận giúp tìm ra các giải pháp khả thi/thỏa mãn/đủ tốt cho các bài
tốn phức tạp. Có thể có giải pháp đủ tốt (90-99.9% giá trị của lời giải tối ưu)
nhanh chóng và đỡ tốn kém hơn bằng cách dùng heuristics
Quá trình heuristic là dãy các bước xây dựng các quy luật giải quyết vấn đề
thơng qua việc tìm kiếm các con đường hứa hẹn nhất dẫn đến lời giải; tìm kiếm
cách thức thu thập và phân giải thơng tin theo q trình giải và phát triền các
phương pháp dẫn đến một giải thuật tính tốn hay một lời giải tởng qt đã có
Áp dụng chủ yếu cho bài tốn cấu trúc yếu; cũng dùng để tìm ra giải pháp chấp

14


-

nhận được cho bài tốn cấu trúc chặt
Khơng đủ tởng quát như các giải thuật; thường chỉ dùng cho tình huống đặc thù
đang xét
Có thể dẫn đến một giải pháp dở - các thủ tục từng bước giải quyết vấn đề
khơng đảm bảo tìm ra giải pháp tối ưu
Heuristic có thể là định lượng vì vậy có thể đóng vai trị quan trọng trong cơ sở
mơ hình của hệ hỗ trợ quyết định
Heuristic có thể là định tính vì vậy có thể đóng vai trị quan trọng trong cung
ứng kiến thức cho hệ chuyên gia
Quá trình heuristic liên quan đến tìm kiếm, học tập, ước lượng, phân xử và lặp
lại các hoạt động này dọc theo tiến trình
Kiến thức thu được dù thành cơng hay thất bại trong q trình đều được phản
hồi và sửa đởi chính q trình, nhờđó có thểđịnh nghĩa lại mục tiêu hay bài tốn

Tìm kiếm Tabu (Glover & Laguna, 1997, Sun et al., 1998) đặt cơ sở trên các
chiến lược tìm kiếm thơng minh nhằm rút ngắn việc dị tìm: “ghi nhớ” các giải
pháp tốt và xấu đã tìm được và hướng dần đến các giải pháp tốt
Giải thuật di truyền: bắt đầu bằng tập các giải pháp được sinh ngẫu nhiên, tái
kết hợp các cặp giải pháp một cách ngẫu nhiên
Tình huống nên dùng heuristics
- Dữ liệu đầu vào khơng chính xác hay có giới hạn
- Thực tế quá phức tạp đến nỗi không dùng được các mơ hình tối ưu
- Chưa có được giải thuật chính xác và đủ tin cậy
- Bài tốn phức tạp nên sẽ không kinh tế nếu dùng tối ưu hay mơ phỏng hoặc tốn
q nhiều thời gian tính tốn

- Có thể cải thiện tính hiệu quả của q trình tối ưu (tức có thể sinh ra các giải
pháp ban đầu tương đối tốt)
- Liên quan đến xử lý ký hiệu chứ không phải xử lý ký số (như hệ chuyên gia)
- Cần có quyết định nhanh và các xử lý dựa vào máy tính đều khơng khả thi (một
số heuristic khơng cần đến máy tính)
Thuận lợi:
- Dễ hiểu, dễ giải thích và dễ cài đặt
- Nâng cao tính sáng tạo và năng lực heuristic cho các vấn đề khác
- Tiết kiệm thời gian xác lập vấn đề
- Tiết kiệm yêu cầu về bộ chứa và xử lý máy tính
- Tiết kiệm thời gian tính tốn và do vậy tiết kiệm thời gian thực trong ra quyết
định. Một số vấn đề phức tạp đến nỗi chỉ có thể giải được bằng heuristics
- Thường sinh ra nhiều giải pháp chấp nhận được
- Thường có thể phát biểu lý thuyết hay đo lường thực nghiệm về chất lượng của
giải pháp (tức giá trị mục tiêu của giải pháp gần với giá trịtồi ưu đến mức nào,
15


dù giá trịtối ưu chưa biết được)
- Có thể kết hợp tính thơng minh vào để hướng dẫn phép tìm kiếm (tìm kiếm
tabu). Năng lực thơng minh đó có thể là đặc thù theo bài toán hoặc dựa trên ý
kiến chuyên gia được cấy trong hệ chuyên gia hoặc cơ chế tìm kiếm
- Có thể dùng heuristic hiệu quả vào các mơ hình có thể giải bằng quy hoạch tốn
học. Đơi khi heuristic là phương pháp được ưa thích hơn, khi khác giải pháp
heuristics được dùng như giải pháp ban đầu cho các phương pháp quy hoạch
tốn học
Hạn chế:
- Khơng đảm bảo có được giải pháp tối ưu
- Các quy luật có rất nhiều ngoại lệ
- Các lựa chọn quyết định tuần tự có thể khơng tiên đốn được các kết cục tương

lai của mỗi chọn lựa
- Sự liên thuộc giữa các phần trong hệ thống đơi khi có thể gây ra các ảnh hưởng
lớn lao lên toàn hệ thống
Phân loại các giải thuật heuristic:
- Heuristic xây dựng: xây dựng giải pháp khả thi bằng cách cộng thêm từng thành
phần một. Ví dụ: bài tốn người bán hàng – ln ghé thành phố chưa viếng
thăm kếtiếp gần nhất
- Heuristic cải tiến: bắt đầu bằng một giải pháp khả thi và cố gắng cải tiến liên
tục trên đó. Ví dụ trên, thử hốn đởi 2 thành phố
- Quy hoạch tốn: áp dụng vào các mơ hình chứa ít ràng buộc nhằm có được
thơng tin về thỏa hiệp tốt nhất với mơ hình ngun gốc. Thường được dùng
trong tối ưu hóa ngun (integer optimization)
- Chia giai đoạn: giải quyết một vấn đề theo từng giai đoạn.
- Phân rã: chia bài toán thành các phần nhỏ hơn, có thể giải quyết được sau đó
kết hợp các giải pháp đó lại. Ví dụ: chia lãnh thổ bán hàng thành 4 vùng khác
nhau, giải quyết cho từng vùng sau đó kết nối các giải pháp
Mơ phỏng
-

Giả định các đặc điểm của thực tại
Là kỹ thuật tiến triển các thực nghiệm (như phân tích “what-if”) - bằng máy
tính trên một mơ hình của hệ thơng tin quản lý
Khơng thực sự là một mơ hình vì khơng biểu diễn thực tại mà là cố gắng bắt
chước thực tại
Là một trong những phương pháp thông dụng nhất trong DSS
DSS làm việc với các bài toán phi cấu trúc và cấu trúc yếu, tình huống thực tế
phức tạp – khơng dễ biểu diễn bằng mơ hình tối ưu hay các dạng mơ hình khác
nhưng lại thường có thể xử lý được bằng mô phỏng
16



Đặc điểm:
- Ít đưa ra các đơn giản hóa về thực tại hơn các mơ hình khác
- Do triển khai các thực nghiệm nên nó có thể kiểm thửcác giá trị cụ thể của các
biến quyết định/biến khơng kiểm sốt được của mơ hình và xem xét ảnh hưởng
lên các biến kết quả
- Phương pháp có tính mơ tả (như vậy khác với phương pháp danh định)
- Không tự động tìm kiếm giải pháp tối ưu – nó mơ tả/tiên đốn các đặc tính của
hệthống đã cho dưới các điều kiện khác nhau từđó có thể chọn ra phương án tốt
nhất
- Q trình mơ phỏng thường lặp lại một thực nghiệm nhiều lần để có được ước
lượng về hiệu ứng tổng quát của một số hành động nhất định
- Mô phỏng máy tính thích hợp cho hầu hết các tình huống mặc dù cũng có một
sốmơ phỏng thủ cơng thành cơng
- Thường chỉđược dùng khi bài tốn q phức tạp không thể xem xét bằng các kỹ
thuật tối ưu dạng số. Tính phức tạp theo nghĩa bài tốn khơng thể cơng thức hóa
cho tối ưu (do khơng thõa các giả định), hoặc công thức quá lớn, quá nhiều
tương tác giữa các biến hoặc về bản chất bài toán là bất định hay rủi ro
Phƣơng pháp mô phỏng: thiết lập mô hình của hệ thống thực và tiến hành các
thực nghiệm lặp lại trên mơ hình
Thuận lợi:
- Lý thuyết tương đối trực tiếp hiệu ứng dài hạn của nhiều chính sách => nén thời
gian lớn
- Do tính chất mơ tả (khác với danh định)
- Có thể thấy được nhanh chóng, có thể đặt ra các câu hỏi “what-if”, có thể dùng
tiếp cận thử-và-sai vào giải quyết vấn đề một cách nhanh chóng, rẻ, chính xác,
ít rủi ro hơn
- Thử nghiệm được biến quyết định, phần nào của môi trường thực sự quan trọng
với các phương án khác nhau
- Yêu cầu kiến thức riêng biệt về bài tốn vì thế buộc người xây dựng mơ hình

phải làm việc thường xun với nhà quản lý – đối tượng mong muốn của DSS
để từ đó bản chất bài tốn và các quyết định được hiểu tốt hơn
- Mơ hình được xây dựng từ viễn cảnh/cách nhìn của nhà quản lý
- Mơ hình chỉ cho một bài tốn riêng biệt, thường khơng thể dùng giải các bài
tốn khác. Như vậy mỗi thành phần của mơ hình ứng với một phần của hệ
thống thực, do đó sẽ không yêu cầu nhà quản lý phải tổng quát hóa các hiểu biết
của mình
- Phở bài tốn giải được rất rộng: tồn kho, nhân sự, hoạch định chiến lược ..
- Có thể chứa các phức tạp thực sự của bài tốn, khơng cần các đơn giản hóa (Ví
17


-

dụ: dùng các phân phối xác suất thực thay vì phân phối lý thuyết xấp xỉ)
Có thể tự động sinh ra nhiều đo lường hiệu năng quan trọng

Thường là phương pháp duy nhất của DSS có thể xử lý các bài tốn tương đối
phi cấu trúc
- Có một số các gói phần mềm mơ phỏng (Monte Carlo) tương đối dễ dùng
Điểm yếu:
- Tuy thường tìm được các phương án đủ tốt nhưng không đảm bảo lời giải tối ưu
- Quá trình xây dựng mơ hình thường dài và tốn kém
- Giải pháp và suy diễn từ nghiên cứu mô phỏng thường khơng thể chuyển sang
bài tốn khác vì mơ hình kết hợp các yếu tố đặc thù
- Đôi khi do mơ hình q dễ giải thích cho nhà quản lý nên các phương pháp
phân tích thường xem nhẹ
- Phần mềm mô phỏng đôi khi yêu cầu các kỹ năng đặc biệt do độ phức tạp của
phương pháp giải hình thức
Các loại mô phỏng:

- Mô phỏng xác suất: một hay nhiều biến độc lập mang tính xác suất với 2 loại
phân phối – thường dùng kỹ thuật Monte Carlo
- Phân phối rời rạc: tình huống có một số giới hạn các biến cố (biến) với hữu hạn
các giá trị cho mỗi biến cố (biến)
- Phân phối liên tục: tình huống có số lượng không giới hạn các biến cố tuân theo
các hàm mật độ xác suất như phân phối chuẩn
- Mô phỏng độc lập/phụ thuộc theo thời gian:
Độc lập: không cần thiết phải biết chính xác thời điểm xảy ra biến cố (nhu cầu
tiêu thụ lượng sản phẩm trong ngày, không biết chính xác thời điểm tiêu thụ)
Phụ thuộc: cần biết chính xác thời điểm xảy ra sự kiện (bài tốn hàng đợi)
- Mô phỏng tương tác trực quan:
- Mô phỏng hướng đối tượng: dùng tiếp cận hướng đối tượng để xây dựng mơ
hình mơ phỏng. Chú ý ngơn ngữ mơ hình hóa nhất thể UML (unified modeling
language) kể cả khi mơ phỏng các hệ thời gian thực.
-

Mơ hình hóa đa chiều, xử lý và phân tích trực tuyến (OLAP)
-

-

Người ra quyết định thường phải xem xét nhiều chiều của dữ liệu (Ví dụ: các
chiều của dữ liệu bán hàng là sản phẩm, vùng, thời gian, người bán ..); dữ liệu
cần được phân tích trực tiếp bằng các cơng cụ chuẩn hay phân tích tự động
bằng các phương pháp khai mỏ dữ liệu (data mining)
Hầu hết các hệ thống phân tích đa chiều được nhúng trong các hệ xử lý phân
tích trực tuyến (online analytic processing - OLAP)
Mục tiêu của OLAP: nắm bắt cấu trúc của dữ liệu thực để hỗ trợ ra quyết định
Trong DSS có sự gắn nối tự nhiên giữa mơ hình hóa dữ liệu, mơ hình hóa ký
18



-

-

-

-

hiệu và các khía cạnh của phân tích “what-if”
Các báo cáo của hệ OLAP đều có tính tương tác, dễ khai thác sử dụng, đặc biệt
phù hợp cho các báo cáo về chỉ số hiệu năng chủ yếu (key performance
indicators - KPI), báo cáo về đo lường hiệu năng kinh doanh ..
Thế hệ hiện tại của hệ OLAP và hệ khai mỏ dữ liệu (data mining) tích hợp các
đặc tính của hệ thông tin lãnh đạo (executive information system –EIS- nhiều
cách nhìn dữ liệu, chi tiết hóa theo nhu cầu..) và các hệ đồ họa khác – thường
có giao diện người dùng dạng kiểu WEB
Các hệ thống như trên còn được gọi là các cơng cụ trí tuệ kinh doanh (business
intelligence - BI) vì có các đặc trưng về mơ hình hóa và tối ưu hóa nhưng lại
trong suốt đối với ngươì dùng
Hiện các cơng cụ được đưa ra bởi các nhà cung cấp về CSDL, về hoạch định tài
nguyên tổ chức (ERP), về nhà kho dữ liệu (data warehouse), về hệ OLAP ..
Mơ hình hóa và mơ phỏng tương tác trực quan

-

-

-


-

Ích lợi: Người ra quyết định tham gia vào q trình phát triển mơ hình và thực
nghiệm mơ phỏng vì vậy sẽ tin tưởng khi sử dụng mơ hình
Mơ hình hóa tương tác trực quan (Visual Interactive Modeling - VIM) dùng các
biểu diễn đồ họa máy tính để trình bày các ảnh hưởng của các quyết định quản
lý khác nhau, ở một thời điểm (tĩnh) hay tiến triển theo thời gian (động với kỹ
thuật hoạt hình)
Mơ phỏng tương tác trực quan (Visual Interactive Simulation - VIS) cho phép
người dùng theo dõi tiến trình xây dựng vàsử dụng khai thác mơ hình mơ phỏng
dưới dạng hoạt hình
Mơ hình hóa tương tác trực quan có thể kết hợp với tiếp cận trí tuệ nhân tạo để
đưa ra các khả năng mới thay đổi từ xây dựng hệ thống dạng đồ họa đến tìm
hiểu về động học của hệ thống
Cần đến các hệ thống máy tính xử lý song song tốc độ cao để xây dựng các mô
phỏng - phức tạp, quy mơ lớn, dạng hoạt hình - mang tính khả thi ở thời gian
thực.
Các bộ phần mềm định lượng và xử lý phân tích trực tuyến

-

Một số cơng cụ DSS có chứa sẵn các trình con để xây dựng các mơ hình định
lượng về thống kê, phân tích tài chánh, kế tốn …
Nhiều cơng cụ HTQĐ có thể tương tác với các bộ phần mềm định lượng chuẩn
(các mơ hình lập sẵn), nhờ đó có thể tăng năng suất nhờ vào các mơ hình có sẵn
Phần mềm thống kê:
Được coi như một công cụ ra quyết định hơn là một cơng cụ phân tích trong
q trình ra quyết định
Có thể được nhúng trong các công cụ khai mỏ dữ liệu và công cụ xử lý phân

19


-

-

tích trực tuyến, do đó người dùng khó nhận biết được các phương pháp thống
kê phức tạp được dùng
Các bảng tính cũng chứa nhiều hàm thống kê phức tạp và có các giao tiếp ngồi
có thể lập trình được
Một số hàm thống kê được xây dựng sẵn trong các công cụ DSS (trung bình,
trung vị, phương sai, độ lệch chuẩn, tương quan hồi quy (tuyến tính, đa thức,
từng bước), chi-square, t-test, phân tích độ lệch ..)
Phần mềm mơ hình hóa phân tích/khoa học quản lý (MS/OR)
Có rất nhiều trên thị trường về phân tích thống kê, quy hoạch tuyến tính, mơ
phỏng, phân tích quyết định, quy hoạch phi tuyến, dự báo ..
Một vài bộ tạo sinh DSS có các năng lực tối ưu và mô phỏng
Phần mềm quản lý lợi nhuận (revenue/yield management):
Phở biến trong lĩnh vực dịch vụ
Mơ hình động về phân loại khách hàng, ước lượng nhu cầu, định giá cả cho
từng loại khách hàng
Hệ quản trị cơ sở mơ hình

Có năng lực như hệ quản trị CSDL. Tuy nhiên thị trường có thể có nhiều hệ
quản trị CSDL nhưng chưa có các sản phẩm về hệ quản trị cơ sở mơ hình.
- Các khía cạnh cấu trúc và giải thuật của mơ hình cũng như xử lý dữ liệu liên
quan cần trong suốt đối với người dùng
- Khả năng tích hợp mơ hình (mơ hình với mơ hình, dữ liệu với mơ hình và
ngược lại)

- Chưa có các hệ quản trị cơ sở mơ hình chuẩn hóa vì:
- Có nhiều lớp mơ hình nhưng đều khác cấu trúc (Ví dụ: quy hoạch tuyến tính
khác với phân tích hồi quy ..)
- Mỗi lớp mơ hình có vài tiếp cận giải quyết vấn đề khác nhau – phụ thuộc vào
cấu trúc bài tốn, kích cỡ, khn dạng và dữ liệu; tiếp cận coi là chuẩn có thể có
hiệu quả thấp hơn tiếp cận đặc thù
- Một số năng lực của hệ quản trị cơ sở mơ hình liên quan đến khả năng suy lý và
kiến thức chuyên gia có thể tạo sinh ở các hệ thống khác – các hệ trí tuệ nhân
tạo …
- Hiện tại bảng tính và vài cơng cụ & ngơn ngữ DSS có đưa ra một số năng lực
của hệ quản trị cơ sở mô hình
- Có một số ngơn ngữ mơ hình hóa đặc biệt được dùng như công cụ truy xuất đến
các phần mềm thực sự thực hiện tác vụ tối ưu hóa hay mô phỏng. Chúng hỗ trợ
cho việc phát triển và quản lý các mơ hình. Vài ngơn ngữ mơ hình hóa dạng
quy hoạch tốn học thơng dụng như Lingo, AMPL, GAMS ..
Ngƣời dùng phải có đƣợc khả năng sau:
- Truy đạt, thao tác, lưu chứa và hiệu chỉnh mơ hình hiện có
-

20


- Xây dựng mơ hình mới từ các mơ hình hiện có với nở lực chi phí phù hợp
Hệ quản trị cơ sở mơ hình quan hệ:
- Tương tự như CSDL quan hệ, mơ hình được xem như một quan hệ ảo
- Có 3 hoạt động cần thiết để có được tính đầy đủ quan hệ trong quản lý mơ hình:
thực thi (execution), tối ưu và phân tích độ nhạy (sensitivity analysis)
Hệ quản trị cơ sở mơ hình hƣớng đối tƣợng:
- Duy trì sự độc lập logic giữa cơ sở mơ hình và các thành phần khác của DSS,
hỗ trợ sự tích hợp thơng minh và ởn định giữa các thành phần

- các khái niệm hướng đối tượng quen thuộc trong các giao diện người dùng đồ
họa (GUI) đều có thể áp dụng vào việc quản lý mơ hình
2. Hệ hỗ trợ quyết định không gian (SDSS)
Ý niệm về SDSS được bắt nguồn từ khái niệm DSS từ những năm của thập kỷ 70,
và được phát triển sau đó. Bởi vì SDSS theo sau DSS nên nó cũng cần thiết để có
những đặc điểm chung được đưa ra bởi Sprague & Ralph (1980), cũng như những khả
năng bổ sung được đưa ra bởi Densham (1990) như sau:
-

Cung cấp những cơ chế cho đầu vào của dữ liệu không gian
Cho phép biểu diễn những cấu trúc và những quan hệ không gian
Bao gồm các kỹ thuật phân tích địa lý và không gian
Cung cấp đầu ra dưới các khuân dạng không gian khác nhau bao gồm các bản
đồ và các báo cáo dạng bảng biểu.

Khi thành phần không gian được đưa vào DSS, thì việc xử lý và quản lý thơng tin
khơng gian là hồn tồn có thể, vì vậy SDSS có đóng góp quan trọng đối việc việc
lồng ghép chiều khơng gian trong q trình đưa ra quyết định, nó có tầm quan trọng vĩ
đại trong nhiều lĩnh vực liên quan đến bảo tồn và quản lý nguồn tài nguyên thiên
nhiên. Theo Segrera, Ponce-Hernadez và Arcia (2003) cho rằng SDSS bao gồm 4 hoạt
động chính để hỗ trợ ra quyêt định bao gồm: dữ liệu đầu vào, quản lý cơ sở dữ liệu,
phân tích và hiển thị. Sau đó SDSS được đưa ra thành 5 thành phần chính bao gồm:
-

Một hệ quản trị cơ sở dữ liệu

-

Các thủ tục phân tích trong một hệ quản trị dựa trên cơ sở mơ hình


-

Một máy sinh màn hình

-

Một máy sinh báo cáo

-

Một giao diện người dùng

3. Khai phá dữ liệu
Tổng quan
Khai phá dữ liệu được định nghĩa là q trình trích xuất các thơng tin có giá trị
tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu.
21


Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta cịn dùng một số thuật ngữ khác
có ý nghĩa tương tự như: Khai phá tri thức từ CSDL (Knowlegde mining from
database), trích lọc dữ liệu (Konwlegde extraction), phân tích dữ liệu/mẫu
(data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu (data
dredging). Nhiều người coi khai phá dữ liệu và một số thuật ngữ thông dụng khác là
khám phá tri thức trong CSDL (Knowledge Discovery in Databases-KDD) là như
nhau. Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình
Khám phá tri thức trong CSDL.
Quá trình này gồm các bước:
1) Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu hoặc các dữ liệu khơng thích
hợp.

2) Tích hợp dữ liệu (data integration): Tích hợp dữ liệu từ các nguồn khác nhau như:
CSDL, Kho dữ liệu, file text…
3) Chọn dữ liệu (data selection): Ở bước này, những dữ liệu liên quan trực tiếp đến
nhiệm vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu.
4) Chuyển đổi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ được
chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác
nhóm hoặc tập hợp.
5) Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương pháp
thơng minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu.
6) Đánh giá mẫu (pattern evaluation): Đánh giá sự hữu ích của các mẫu biểu diễn tri
thức dựa vào một số phép đo.
7) Trình diễn dữ liệu (Knowlegde presentation): Sử dụng các kỹ thuật trình diễn và
trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng.
Các kỹ thuật và cách tiếp cận khai phá dữ liệu
-

-

Các kỹ thuật khai phá dữ liệu bao gồm 2 nhóm chính:
o Kỹ thuật khai phá dữ liệu mơ tả: Có nhiệm vụ mơ tả về các tính chất
hoặc các đặc tính chung của dữ liệu trong CSDL hiện có. Các kỹ thuật
này gồm có: phân cụm (clustering), tóm tắt (summarization), trực quan
hố (visualization), phân tích sự phát triển và độ lệch (Evolution and
deviation analyst), phân tích luật kết hợp (association rules)…
o Kỹ thuật khai phá dữ liệu dự đốn: Có nhiệm vụ đưa ra các dự đoán
dựa vào các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có:
Phân lớp (classification), hồi quy (regression)…
Hướng tiếp cận: Với hai đích chính của khai phá dữ liệu là Dự đốn
(Prediction) và Mơ tả (Description), người ta thường sử dụng các phương pháp
sau cho khai phá dữ liệu:

o Phân loại (Classification)
o Hồi qui (Regression)
22


-

-

-

-

o Phân nhóm (Clustering)
o Tởng hợp (Summarization)
o Mơ hình ràng buộc (Dependency modeling)
o Dị tìm biến đởi và độ lệch (Change and Deviation Dectection)
o Biểu diễn mơ hình (Model Representation)
o Kiểm định mơ hình (Model Evaluation)
o Phương pháp tìm kiếm (Search Method)
Ứng dụng của khai phá dữ liệu: Khai phá dữ liệu là một lĩnh vực liên quan tới
nhiều ngành học khác như: hệ CSDL, thống kê, trực quan hoá… hơn nữa, tuỳ
vào cách tiếp cận được sử dụng, khai phá dữ liệu cịn có thể áp dụng một số kỹ
thuật như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễn tri thức… So với các
phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt
So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá
dữ liệu có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu khơng đầy đủ
hoặc biến đởi liên tục. Trong khi đó phương pháp học máy chủ yếu được áp
dụng trong các CSDL đầy đủ, ít biến động và tập dữ liệu không qua lớn
Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ

các ví dụ của chuyên gia thường ở mức cao hơn nhiều so với các dữ liệu trong
CSDL, và chúng thường chỉ bao hàm được các trường hợp quan trọng. Hơn nữa
các chuyên gia sẽ xác nhận giá trị và tính hữu ích của các mẫu phát hiện được.
Phương pháp thống kê là một trong những nên tảng lý thuyết của khai phá dữ
liệu, nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương
pháp thống kê cịn tồn tại một số điểm yếu mà khai phá dữ liệu khắc phục được:
o Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có
cấu trúc trong rất nhiều CSDL.
o Các phương pháp thống kê hoạt động hồn tồn theo dữ liệu, nó khơng
sử dụng tri thức có sẵn về lĩnh vực.
o Kết quả phân tích của hệ thống có thể sẽ rất nhiều và khó có thể làm rõ
được.
o Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định
phân tích dữ liệu như thế nào và ở đâu.

Với nhưng ưu điểm đó, khai phá dữ liệu hiện đang được áp dụng một cách rộng rãi
trong nhiều lĩnh vực kinh doanh và đời sống khác nhau như: marketing, tài chính, ngân
hàng và bảo hiểm, khoa học, y tế, an ninh, internet… rất nhiều tổ chức và công ty lớn
trên thế giới đã áp dụng kỹ thuật khai phá dữ liệu vào các hoạt động sản xuất kinh
doanh của mình và thu được những lợi ích to lớn. Khai phá dữ liệu rất quan trọng
trong việc xây dựng lên mơ hình của hệ hỗ trợ quyết định.

23


×