Tải bản đầy đủ (.pdf) (26 trang)

ỨNG DỤNG LUẬT KẾT HỢP ĐỂ PHÂN TÍCH, ĐÁNH GIÁ CÁC BẢNG BIỂU VỀ ĐIỀU TRA DÂN SỐ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (868.76 KB, 26 trang )

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG



MAI THỊ THANH NGA


ỨNG DỤNG LUẬT KẾT HỢP ĐỂ PHÂN TÍCH,
ĐÁNH GIÁ CÁC BẢNG BIỂU VỀ ĐIỀU TRA DÂN SỐ


Chuyên ngành:

Khoa học máy tính
Mã số:

60.48.01.01


TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2013



Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG





Người hướng dẫn khoa học: PGS. TS NGUYỄN BÁ TƯỜNG

Phản biện 1: ……………………………………………

Phản biện 2: ……………………………………………




Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ
tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông


1

MỞ ĐẦU
1. Lý do chọn đề tài
Con người đang “ngập” trong dữ liệu, nhưng lại
cảm thấy “đói” tri thức và thông tin hữu ích. Lượng dữ liệu
khổng lồ này thực sự là một nguồn “tài nguyên” rất giá trị
vì nó giúp những người điều hành và quản lý có một cái
nhìn sâu sắc, chính xác, khách quan vào tiến trình kinh
doanh trước khi ra quyết định. Khai thác những thông tin
tiềm ẩn có tính dự đoán từ những cơ sở dữ liệu lớn - là một
hướng tiếp cận mới với khả năng giúp các công ty chú
trọng vào những thông tin có nhiều ý nghĩa từ những tập

hợp dữ liệu lớn (databases, data warehouses, data
repositories) mang tính lịch sử. Những công cụ khai phá
dữ liệu có thể dự đoán những xu hướng trong tương lai và
do đó cho phép doanh nghiệp ra những quyết định kịp thời
được định hướng bởi tri thức mà khai phá dữ liệu đem lại.
Sự phân tích dữ liệu một cách tự động và mang tính dự
báo có ưu thế hơn hẳn so với sự phân tích thông thường
dựa trên những sự kiện trong quá khứ của các hệ hỗ trợ ra
quyết định (decision support systems - DSSs) truyền thống
trước đây. Công cụ khai phá dữ liệu cũng có thể trả lời
những câu hỏi trong lĩnh vực kinh doanh mà trước đây
được xem là tốn nhiều thời gian để xử lý. Giờ đây, khai
phá dữ liệu đã và đang trở thành một trong những hướng
nghiên cứu chính của lĩnh vực khoa học máy tính và công
nghệ tri thức.
2

Các kết quả điều tra về dân số giữa các vùng miền
thì số liệu điều tra ngày một nhiều. Việc ứng dụng Công
nghệ thông tin (CNTT) cụ thể là ứng dụng các luật trong
khai phá dữ liệu (luật kết hợp) vào phân tích, đánh giá số
liệu đã được điều tra là một chủ trương cần thiết, quan
trọng. Sự nghiệp công nghiệp hóa, hiện đại hóa ngày càng
sâu rộng và nhất là sự bùng nổ của thông tin toàn cầu…
đang đặt ra những yêu cầu mới, đòi hỏi công tác điều tra
phải dựa trên việc ứng dụng các thành tựu của CNTT.
2. Mục đích nghiên cứu
- Khái phá luật kết hợp trong lĩnh vực khai phá dữ liệu
- Ứng dụng luật kết hợp vào việc phân tích, đánh giá
kết quả của các bảng biểu điều tra dân số về trình độ

học vấn, chuyên môn kỹ thuật giữa các vùng miền
Việt Nam
3. Đối tượng và phạm vi nghiên cứu
- Khai phá dữ liệu
- Khai phá luật kết hợp
- Các bảng biểu của điều tra dân số
4. Phương pháp nghiên cứu
- Tìm hiểu các tài liệu liên quan đến luật kết hợp, tập
trung vào các thuật toán. Dựa trên các tài liệu thu thập
từ nhiều nguồn (sách, báo, Internet,…) tổng hợp, phân
tích và trình bày lại theo sự hiểu biết của bản thân.
3

- Ứng dụng độ tin cậy của luật kết hợp trên các dữ liệu
điều tra dân số để đánh giá các qui luật phát triển giữa
các vùng miền Việt Nam.

Chương 1 - TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1. Giới thiệu
Ở chương này đưa ra các vấn đề lý thuyết liên quan đến
các khái niệm cơ bản cho đến các ứng dụng của Data
Mining (DM).
1.2. Các khái niệm cơ bản
Dữ liệu (Data): Có thể xem là chuỗi các bit, là số,
ký tự…mà chúng ta tập hợp hàng ngày trong công việc.
Thông tin (Information): Là tập hợp của những
mảnh dữ liệu đã được chắt lọc dùng mô tả, giải thích đặc
tính của một đối tượng nào đó.
Tri thức (Knowledge): Là tập hợp những thông tin
có liên hệ với nhau, có thể xem tri thức là sự kết tinh từ dữ

liệu. Tri thức thể hiện tư duy của con người về một vấn đề.
Khai phá tri thức từ cơ sở dữ liệu (KDD): Là quy
trình bao gồm nhiều công
đoạn như: xác định vấn đề, tập hợp và chọn lọc dữ liệu,
khai thác dữ liệu, đánh giá kết quả, giải thích dữ liệu, áp
dụng tri thức vào thực tế.
Tại sao phải DM?
Bởi vì dữ liệu được thu thập hàng ngày là rất lớn:
Từ các cơ sở dữ liệu khổng lồ, từ Internet. Theo các báo
4

cáo của IBM, chỉ có 80% dữ liệu được khai thác, 20% còn
lại ẩn trong các cơ sở dữ liệu là những tri thức quý giá.
Khai phá dữ liệu (DM): Là một bước trong quy
trình khám phá tri thức, nhằm:
 Rút trích thông tin hữu ích, chưa biết, tiềm ẩn
trong khối dữ liệu lớn
 Phân tích dữ liệu bán tự động
 Giải thích dữ liệu trên các tập dữ liệu lớn
1.3. Quá trình khai phá dữ liệu
1.4. Các kỹ thuật khai phá dữ liệu
1.5. Các bài toán thông dụng trong khai phá dữ liệu
1.6. Các cơ sở dữ liệu phục vụ khai phá dữ liệu
1.7. Các ứng dụng của khai phá dữ liệu
1.8. Khai phá dữ liệu và các lĩnh vực liên quan
1.9. Các thách thức trong khai phá dữ liệu
1.10. Kết luận chương
Trên cơ sở các lý thuyết đưa ra ở trên chúng ta hiểu
thêm rằng DM là sự vận dụng học thuật vào các vấn đề
thiết thực đang diễn ra. Là tiến trình khái quát các sự kiện

rời rạc trong dữ liệu thành các tri thức mang tính khái quát,
tính quy luật, hỗ trợ tích cực cho việc ra quyết định.
Nghiên cứu nhằm xây dựng và cải thiện các kỹ thuật trong
DM là một lĩnh vực hứa hẹn và phù hợp với điều kiện
nghiên cứu ở Việt Nam. Một số hướng nghiên cứu về lý
thuyết trong DM đang được nghiên cứu hiện nay: Áp dụng
các chiến lược để cải thiện hiệu quả các giải thuật. Phát
5

triển các phiên bản mới của các giải thuật có khả năng giải
quyết các tập dữ liệu lớn bằng kỹ thuật sử dụng bộ đệm.
Song song và phân bố các giải thuật trong DM để tận dụng
khả năng tính toán mạnh của tính toán lưới,

Chương 2 - KHAI PHÁ LUẬT KẾT HỢP
2.1. Giới thiệu
Ở chương này tập trung khai phá Association Rule
- AR là tìm các mẫu phổ biến, sự kết hợp, sự tương quan,
hay cấu trúc nhân quả giữa các tập đối tượng trong các cơ
sở dữ liệu giao tác, cơ sở dữ liệu quan hệ, và những kho
thông tin khác.
2.2. Luật kết hợp
2.2.1. Giới thiệu
- Khai phá AR là tìm các mẫu phổ biến, sự kết hợp, sự
tương quan, hay các cấu trúc nhân quả giữa các tập
đối tượng trong các cơ sở dữ liệu giao tác, cơ sở dữ
liệu quan hệ, và những kho thông tin khác.
- Các ứng dụng: AR có ứng dụng trong nhiều lĩnh vực
khác nhau của đời sống như: khoa học, hoạt động kinh
doanh, tiếp thị, thương mại, phân tích thị trường

chứng khoán, tài chính và đầu tư,
- Ví dụ về AR:
 Confidence (Bia => Nem chua) = 60%
Luật này có nghĩa: 60% khách hàng mua bia thì
mua Nem chua.
6

 Confidence(Thu nhập = 80.000.000_max =>
Tài khoản tiết kiệm=yes) = 100%
Luật này có nghĩa: Nếu thu nhập lớn hơn hoặc bằng 80
triệu một tháng thì khách hàng có tài khoản tiết kiệm với
độ tin cậy là 100%.
Từ các AR được trích rút từ chính các cơ sở dữ
liệu giao dịch, cơ sở dữ liệu khách hàng mà các siêu thị,
các ngân hàng sẽ có chiến lược kinh doanh (sắp xếp các
mặt hàng, số lượng các mặt hàng, ), chiến lược tiếp thị,
quảng cáo,… để từ đó thúc đẩy hoạt động kinh doanh của
mình.
2.2.2. Các khái niệm cơ bản
- Định nghĩa độ hỗ trợ
Định nghĩa 2.1:
Gọi T(X) là tập giao dịch chứa tập mục X

I.
Độ hỗ trợ của tập mục X

I, ký hiệu Sup(X) là tỷ số giữa
số các giao dịch chứa X trên số tất các giao dịch.
Hay Sup(X) =
T

XT )(
;
Trong đó )(XT là số (lượng) các giao dịch chứa X và T
là số lượng các giao dịch.
Nhận xét:
- Với mọi tập mục X

I, 0

Sup(S)

1.
- Một tập mục X được gọi là tập mục k phần tử (k-
itemset) nếu lực lượng của X bằng k (tức là |X|=k).
7

- Gọi X, Y

I là hai tập mục. Ta xét định nghĩa
luật kết hợp X=>Y như sau:
- Định nghĩa Luật kết hợp
Định nghĩa 2.2: Một AR có dạng X

Y, trong đó X, Y
là tập các mục, X, Y  I và X Y = . Đây là luật chỉ
khả năng xuất hiện của Y khi X xuất hiện.
 X được gọi là tiên đề .
 Y được gọi là hệ quả của luật.
Hai thông số quan trọng của AR là độ hỗ trợ (support) và
độ tin cậy (confidence).

Định nghĩa 2.3: Độ hỗ trợ (support) của luật kết hợp
XY, ký hiệu Sup(X  Y) là tỷ số giữa số lượng các
giao dịch chứa cả X và Y (
Y
X

) trên tổng số các giao
dịch có trong cơ sở dữ liệu.
Hay
T
YXT
YXSup
)(
)(


Định nghĩa 2.4: Độ tin cậy (confidence) của luật X=>Y,
ký hiệu conf(X  Y) là tỷ số giữa số lượng các giao dịch
chứa cả X và Y (
Y
X

) trên số giao dịch có chứa X.

)(
)(
)(
XT
YXT
YXConf




- Ý nghĩa của độ hỗ trợ và độ tin cậy
 Độ hỗ trợ của luật biểu diễn "sức mạnh" của luật. Luật
có ảnh hưởng như thế nào trong toàn bộ hệ thống.
sup(X

Y ) = P(X

Y )
8

 Độ tin cậy biểu diễn mức độ "đúng" của luật X

Y
conf(X

Y ) = P(Y \ X)
Công thức P(X

Y ) là xác suất chỉ khả năng xuất
hiện của (X

Y ); P(Y \ X) là xác suất có điều kiện, có
nghĩa là khả năng Y "xuất hiện " khi X đã "xuất hiện".
Trong luật, chúng ta hiểu xác suất Y xuất hiện khi đã có X
xuất hiện.
Việc khai phá các AR từ cơ sở dữ liệu chính là việc
tìm tất cả các luật có độ hỗ trợ và độ tin cậy lớn hơn

ngưỡng của độ hỗ trợ và độ tin cậy do người sử dụng xác
định trước. Các ngưỡng của độ hỗ trợ và độ tin cậy được
ký hiệu là minsup và minconf.
Định nghĩa 2.5: Cho một tập mục X  I và một ngưỡng
hỗ trợ tối thiểu minsup (được cho bởi người sử dụng). Tập
mục X gọi là một tập mục phổ biến (Frequent Itemset hay
Large Itemset) với độ hỗ trợ tối thiểu minsup khi và chỉ khi
sup(X)

minsup.
- Một vài tính chất liên quan đến tập phổ biến
Tính chất 2.1:
Nếu X  Y, X, Y là các tập mục thì sup(X) ≥ sup(Y) vì tất
cả các giao dịch của D chứa Y thì cũng chứa X.
Tính chất 2.2:
Một tập mục X mà sup(X) < minsup thì mọi tập cha Y của
X sẽ thỏa mãn sup(Y) ≤ sup(X) < minsup.
Tính chất 2.3:
9

Nếu tập mục X là một tập mục phổ biến trên D, nghĩa là
sup(X) ≥ minsup thì mọi tập con Y của X đều là tập phổ
biến trên D vì sup(Y) ≥ sup(X) ≥ minsup.
- Một số tính chất liên quan đến luật kết hợp
Tính chất 2.4: (Không hợp luật kết hợp)
Nếu có X

Z và Y

Z trong D thì không nhất thiết

X

Y

Z là đúng.
Tương tự : X

Y và X

Z thì không nhất thiết
X

Y  Z là đúng.
Tính chất 2.5: (Không tách luật)
Nếu X  Y

Z thì X

Z và Y

Z chưa chắc xảy ra.
Tuy nhiên đảo lại: X

YZ thì X

Y và X

Z
Tính chất 2.6: (Các luật kết hợp không có tính bắc cầu)
Nếu X


Y và Y

Z, chúng ta không thể suy ra X

Z.
Tính chất 2.7:
Nếu luật X

(L - X) không thỏa mãn độ tin cậy tối thiểu
thì không có luật nào trong các luật Y

(L – Y) có độ tin
cậy tối thiểu, trong đó Y  X; X,Y  L.
2.2.3. Khai phá luật kết hợp
Phát biểu bài toán:
Đầu vào: - Cho một tập mục I = {i
1
, i
2,
, i
n
}
- Một tập m giao dịch T
- Độ hỗ trợ tối thiểu minsup và độ tin cậy tối
thiểu mincof
10

Đầu ra: - Tập các luật kết hợp X


Y sao cho sup(X),
Sup( Y)

minsup và conf(X

Y)

mincof.
Giải quyết bài toán: Bài toán khai phá luật kết hợp được
chia thành hai bài toán nhỏ:
Bài toán 1: Tìm tất cả các tập mục X thỏa mãn độ hỗ trợ
tối thiểu minsup.
Bài toán 2: Tìm tất cả những luật kết hợp từ những tập
mục phổ biến (tìm được trong bài toán 1) thỏa độ tin cậy
tối thiểu mincof.
Bài toán 1:
Cho bảng dữ liệu D gồm tập mục I = {i
1
, i
2
, …, i
n
} và tập
giao dịch T = {T
1
, T
2
, …, T
m
}, ngưỡng độ hỗ trợ minsup.

Tìm các tập X  I mà Sup(X) ≥ minsup.
Đặt F = { X  I | Sup(X) ≥ minsup}.
D

i
1

i
2




i
n

T
1

0

1


1

T
2

1


0


0






T
m

1

1


0


Giải quyết bài toán 1 bằng thuật toán Apriori-TID
Ý tưởng chính của thuật toán là đầu tiên ta tìm tập
F
1
gồm các tập mục 1 phần tử i

I thỏa mãn Sup({i}) ≥
minsup. Sau đó lặp quá trình tìm F

k
gồm các tập có k phần
tử tổ hợp từ F
k-1
có độ phổ biến ≥ minsup; với k = 2, 3, …
cho đến khi không tính được nữa.
Cụ thể thuật toán có 3 pha:
11

Pha 1. Tính F
1
= { i

I: Sup({i}) ≥ minsup}
Pha 2. Repeat { lặp tính F
k
; k= 2, 3, }
F
k
= { X

I: X là hợp của hai tập trong F
k-1

mà |X| = k và Sup(X) ≥ minsup}
Until F
k
=

;

Pha 3. F = F
1


F
2




F
k-1
là tập các tập mục
X có Sup({i}) ≥ minsup.
Giải quyết pha 1:
F
1
=

;
For j = 1 to n do if Sup({i
j
}) ≥ minsup then F
1

i
j
;
Giải quyết pha 2 và 3:
k = 1;

While F
k


do
Begin
k= k+1;
F
k
=

;
X = S
k-1


Y
k-1
; với mọi cặp S
k-1
và Y
k-1
của F
k-1
;
If Sup( X) ≥ minsup and |X| = k then F
k
= F
k



X
End;
F = F
1


F
2




F
k-1
;
Bài toán 2:
Cho bảng dữ liệu D gồm tập mục I = {i
1
, i
2
, …, i
n
} và tập
giao dịch T = {T
1
, T
2
, …, T
m

}, các ngưỡng độ hỗ trợ
minsup, độ tin cậy minconf. Tìm tập các luật kết hợp
12

X=> Y; với X, Y  I mà Sup(X) ≥ minsup, Sup(Y) ≥
minsup và conf( X =>Y) ≥ minconf.
Đặt F = { X  I | Sup(X) ≥ minsup};
L = { X => Y | X, Y

F và conf(X=>Y) ≥ minconf}
Giải quyết bài toán 2 bằng hai pha
Pha 1: Tính F theo bài toán 1
Pha 2: Tìm tất cả các luật X => Y mà X, Y

F và
conf(X=>Y) ≥ minconf.
Thực hiện pha 2 bằng phép lặp vét cạn là thử cho
mọi căp X, Y

F: L =

;
For each X, Y

F if X

Y =

and
conf(X=>Y) ≥ minconf then L = L


{X => Y}
2.2.4. Một số dạng luật kết hợp
2.2.4.1. Luật kết hợp Boolean và định lượng
Boolean: Luật liên quan đến mối kết hợp giữa sự có xuất
hiện và không xuất hiện của các phần tử
Định lượng: Luật liên quan đến mối kết hợp giữa các
phần tử hay thuộc tính định lượng.
2.2.4.2. Luật kết hợp nhiều chiều
Một chiều: Các thuộc tính hoặc tập thuộc tính trong luật
chỉ quy về một đại lượng
Nhiều chiều: Các thuộc tính hoặc tập thuộc tính trong luật
được quy về hai hay nhiều đại lượng
2.2.4.3. Luật kết hợp nhiều cấp
Một cấp: Mối kết hợp giữa các phần tử hay thuộc tính của
cùng một cấp khái niệm
13

Nhiều cấp: Mối kết hợp giữa các phần tử hay thuộc tính
của nhiều cấp khái niệm khác nhau
2.3. Một số thuật toán khai phá luật kết hợp
2.3.1. Thuật toán khai phá luật kết hợp tuần tự
2.3.1.1. Thuật toán Apriori
2.3.1.2. Thuật toán Apriori - TID
2.3.1.3. Thuật toán Apriori - Hybrid
2.3.1.4. Thuật toán FP-Growth (Frequent Pattern-Growth)
2.3.2. Thuật toán khai phá luật kết hợp song song
2.3.2.1. Thuật toán Count Distribution (CD)
2.3.2.2. Thuật toán Data Distribution (DD)
2.3.2.3. Thuật toán song song FP-Growth

2.3.3 Thuật toán khai phá luật kết hợp phân tán
2.3.3.1 Thuật toán khai phá AR phân tán nhanh (FDM)
2.3.3.2 Thuật toán khai phá phân tán luật kết hợp (DMAR)
2.4. Kết luận chương
Nội dung của chương trình bày một cách tổng
quan về AR, các định nghĩa, tính chất liên quan đến AR
như độ hỗ trợ, độ tin cậy, tập mục phổ biến và phát biểu
bài toán khai phá AR. Tiếp theo, nội dung chương này
trình bày một số thuật toán cơ bản để phát hiện tập mục
phổ biến và phát hiện AR từ các tập mục phổ biến đó.
Đây chính là cơ sở lý thuyết để từ đó chúng ta đi sâu tìm
hiểu, cài đặt thử nghiệm thuật toán (thuật toán Apriori) sẽ
áp dụng trong chương 3.
14

Chương 3. ỨNG DỤNG VÀ THỬ NGHIỆM LUẬT
KẾT HỢP PHÂN TÍCH, ĐÁNH GIÁ CÁC
BẢNG BIỂU ĐIỀU TRA DÂN SỐ
3.1. Giới thiệu
AR được ứng dụng trong nhiều lĩnh vực khác
nhau của đời sống như: khoa học, hoạt động kinh doanh,
tiếp thị, thương mại, phân tích thị trường chứng khoán,
tài chính và đầu tư, Chương này đưa ra tổng quan về
các bảng biểu của điều tra dân số và ứng dụng AR để
phân tích đánh giá.
3.2. Công tác điều tra dân số
Năm 2009, cuộc Tổng điều tra dân số và nhà ở
được thực hiện theo định số 94/2008/QĐ-TTg ngày 10
tháng 7 năm 2008 của Thủ tướng Chính phủ. Đây là
cuộc tổng điều tra dân số lần thứ tư và điều tra nhà ở lần

thứ ba tiến hành ở nước ta kể từ khi nước nhà thống nhất
vào năm 1975. Cuộc Tổng điều tra nhằm thu thập số liệu
cơ bản về dân số và nhà ở trên toàn bộ lãnh thổ nước
Cộng hoà XHCN Việt Nam, phục vụ công tác nghiên
cứu, phân tích quá trình phát triển dân số và nhà ở trên
phạm vi cả nước và từng địa phương, đáp ứng nhu cầu
thông tin, đánh giá tình hình thực hiện các kế hoạch phát
triển kinh tế - xã hội thời kỳ từ năm 2001 đến năm 2010
và xây dựng kế hoạch phát triển kinh tế - xã hội thời kỳ
từ năm 2011 đến năm 2020, phục vụ công tác giám sát
thực hiện mục tiêu phát triển Thiên niên kỷ của Liên hợp
15

quốc mà Chính phủ Việt Nam đã cam kết.
3.2.1. Tổng quan về điều tra dân số
3.2.1.1. Lịch sử điều tra dân số
3.2.1.2. Đối tượng điều tra
3.2.1.3. Nội dung điều tra
3.2.1.4. Cuộc tổng điều tra năm 1999
3.2.1.5. Xử lý và tổng hợp số liệu
3.2.2. Mục đích, ý nghĩa của điều tra dân số
Một yêu cầu hết sức quan trọng của cuộc Tổng
điều tra dân số và nhà ở năm 2009 là phải bảo đảm chất
lượng số liệu điều tra. Thực tế triển khai cuộc Tổng điều
tra dân số và nhà ở năm 2009 phản ánh kết quả của quá
trình phát triển nguồn lực con người ở Tổng cục Thống
kê. Nhiều công việc của Tổng điều tra dân số và nhà ở
năm 2009 đã kế thừa và phát triển cách làm của các cuộc
Tổng điều tra dân số và nhà



năm
1989 và 1999, từ công
tác tuyên truyền cho Tổng điều tra đến chương trình tập
huấn và các quy định nghiệp vụ điều tra. Kết quả là,
Tổng cục Thống kê có khả năng tiến hành tổ chức cuộc
Tổng điều tra dân số và nhà ở năm 2009 với mức tự lực
lớn hơn rất nhiều và với sự giúp đỡ về tài chính và kỹ
thuật từ các tổ chức quốc tế và nước ngoài ít hơn.
Ngay sau khi kết thúc bước điều tra thu thập thông
tin, Thường trực Ban Chỉ đạo Trung ương đã
thự
c
hiện

nhiều biện pháp để đánh giá, thẩm định kết quả.
Một số kết quả điều tra:
16

Biểu 3.1: Phân bố phần trăm diện tích Đất, Dân số và mật độ
Dân số chia theo các vùng kinh tế - xã hội, 2009
Các vùng kinh tế - xã hội
Di
ện tích

(%)
Dân s


(%)

M
ật độ
người
Toàn qu
ốc

100,0

100,0

259

Trung du và mi
ền núi phía Bắc

28,8

12,9

116

Đ
ồng bằng sông Hồng

6,3

22,8

930


B
ắc Trung Bộ v
à Duyên h
ải miền Trung

29,0

22,0

196

Tây Nguyên

16,5

6,0

93

Đông Nam B


7,1

16,3

594

Đ
ồng bằng sông Cửu Long


12,3

20,0

423


Biểu 3.2: Tỷ lệ Dân số thành thị năm 1999, 2009 và tỷ lệ tăng
Dân số bình quân năm thời kỳ 1999-2009 chia theo các vùng
kinh tế - xã hội
Các vùng kinh tế - xã hội



Tỷ lệ dân số
thành thị
(%)

Tỷ lệ tăng dân
số bình quân
năm thời kỳ
1999-2009 (%)
1999 2009
t
hành

thị
n
ông


thôn
Toàn

q
u

c

2
3
,7

2
9
,6

3
,
4

0
,
4

Trung du và mi
ền núi phía Bắc

1
3

,8

1
6
,0

2
,
4

0
,
7

Đ
ồng bằng sông Hồng

2
1
,0

2
9
,2

4
,
2

-

0
,2

B
ắc Trung Bộ v
à Duyên h
ải miền Trung

1
9
,1

2
4
,1

2
,
7

-
0
,2

Tây Nguyên

2
7
,2


2
7
,8

2
,
5

2
,
2

Đông Nam B


5
5
,1

5
7
,1

3
,
6

2
,
8


Đ
ồng bằng sông Cửu Long

1
7
,2

2
2
,8

3
,
4

-
0
,1


Nguồn: Tổng cục Thống kê, "Tổng điều tra dân số và nhà ở Việt
Nam 2009: Kết quả toàn bộ", NXB Thống kê, 8- 2001.
3.3. Bảng số liệu điều tra dân số

17

Biểu 3.3: Số lượng Dân số, Dân số thành thị, tỷ trọng Dân số
thành thị chia theo các vùng kinh tế - xã hội, 2009
Các vùng kinh tế - xã hội


Tổng số
dân
(nghìn
người)

T
ổng

dân số
thành thị

(nghìn
người)

Tỷ trọng

(%)
dân thành
thị
Toàn

q
u

c

85

7

88

25

3
7
3

29,6

Trung du và mi
ền núi phía Bắc

11

0
64

1

7
7
2

16,0

Đ
ồng bằn
g sông H
ồng


1
9
5
78

5

7
2
1

29,2

B
ắc Trung Bộ v
à Duyên h
ải miền
Trung

1
8
8
35

4

5
3
0


24,1

Tây Nguyên


5

1
0
7

1

4
1
9

27,8

Đông Nam B


1
4
0
25

8


0
0
9

57,1

Đ
ồng bằng sông Cửu Long

1
7
1
79

3

9
2
2

22,8


Biểu 3.4: Tỷ trọng Dân số từ 5 tuổi trở lên chia theo trình độ
học vấn đạt được, thành thị/nông thôn và các vùng kinh tế -
xã hội, 2009
Đơn vị tính: Phần trăm
Nơi cư trú/các vùng kinh tế -
xã hội
Tổng


số
Chưa

đi học

Chưa

tốt
nghiệp

ti
ểu học
Tốt
nghiệp

tiểu học

Tốt
nghi
ệp
THCS

Tốt
nghiệp
THPT +
Toàn

q
u


c

1
0
0
,
0

5
,
1

2
2
,
7

2
7
,
6

2
3
,
7

2
0

,8

Thành

th


1
0
0
,
0

2
,
6

1
6
,7

2
2
,9

2
0
,4

3

7
,4

Nông

t
h
ôn

1
0
0
,
0

6
,
2

2
5
,3

2
9
,6

2
5
,1


1
3
,8

Các

vùng

k
i
nh

t
ế

-



h

i:








Trung du và mi
ền núi phía Bắc

1
0
0
,
0

1
0
,3

2
2
,7

2
5
,6

2
3
,1

1
8
,3

Đ

ồng bằng sông Hồng

1
0
0
,
0

2
,
2

1
5
,8

1
8
,9

3
3
,0

3
0
,1

B
ắc Tr

ung B
ộ v
à Duyên h
ải miền
Trung
100,0

4,2 22,2 28,6 25,9

19,1
Tây Nguyên

1
0
0
,
0

8
,
9

2
5
,7

3
0
,9


2
0
,8

1
3
,7

Đông Nam B


1
0
0
,
0

3
,
1

1
9
,7

2
9
,1

2

1
,0

2
7
,2

Đ
ồng bằng sông Cửu Long

1
0
0
,
0

6
,
6

3
2
,8

3
5
,6

1
4

,3

1
0
,7


18

Biểu 3.5: Tỷ trọng Dân số từ 15 tuổi trở lên chia theo trình
độ CMKT, giới tính, thành thị/nông thôn và các vùng kinh tế
- xã hội, 2009
Đơn vị tính: Phần trăm

Giới tính/nơi cư trú/
các vùng kinh tế - xã hội
Tổng

số
Không

trình đ

CMKT


cấp
Trung

cấp

Cao
đẳng

Đại
học
+
Toàn qu
ốc

1
0
0
,
0

8
6
,7

2
,
6

4
,
7

1
,
6


4
,
4

Nam

1
0
0
,
0

8
4
,3

3
,
7

5
,
5

1
,
4

5

,
1

N


1
0
0
,
0

8
8
,9

1
,
5

4
,
0

1
,
8

3
,

7

Thành th


1
0
0
,
0

7
4
,6

4
,
4

7
,
6

2
,
5

1
0
,8


Nông thôn

1
0
0
,
0

9
2
,0

1
,
8

3
,
5

1
,
2

1
,
5

Trung du và mi

ền núi phía Bắc

1
0
0
,
0

8
6
,7

2
,
4

6
,
4

1
,
8

2
,
8

Đ
ồng bằng sông Hồng


1
0
0
,
0

8
0
,6

3
,
5

6
,
8

2
,
3

6
,
8

B
ắc Trung Bộ v
à Duyên h

ải
miền Trung
100,0

87,8 2,1 4,8 1,7 3,6
Tây Nguyên

1
0
0
,
0

9
0
,2

1
,
9

3
,
8

1
,
3

2

,
8

Đông Nam B


1
0
0
,
0

8
4
,2

3
,
6

3
,
8

1
,
6

6
,

6

Đ
ồng bằng sông Cửu Long

1
0
0
,
0

9
3
,4

1
,
4

2
,
2

0
,
9

2
,
1



3.4. Các chỉ tiêu số liệu cần rút trích qua số liệu điều tra
3.5. Ứng dụng luật kết hợp vào dữ liệu điều tra dân số
3.5.1. Từ các bảng biểu đưa ra bảng dạng giao dịch
trong khai phá dữ liệu và đánh giá sự phát triển kinh tế,
văn hóa giữa các vùng miền Việt Nam.
3.5.1.1. Quy luật thành thị hóa của các vùng miền
3.5.1.3. Quy luật trình độ chuyên môn kỹ thuật phụ thuộc
vào các vùng miền.

19

3.5.2. Cài đặt thử nghiệm chương trình sử dụng một số
thuật toán của luật kết hợp

Demo chương trình
Giao diện chính của chương trình


Hình 3.1. Giao diện chính của chương trình Demo

Khi click vào menu như Dân số thành thị, Trình độ học
vấn, Trình độ CMKT sẽ xuất hiện giao diện khác nhau
để người dùng có thể thêm mới một vùng nào đó tương
ứng với các thông tin là trình độ học vấn, trình độ
chuyên môn v.v Cụ thể:


20


Khi chọn menu là Dân số thành thị thì sẽ có giao diện sau:

Hình 3.2. Giao diện Dân số thành thị
Với ngưỡng của độ tin cậy là 50 thì ta có kết quả dân số
thành thị như sau:

Hình 3.3. Giao diện kết quả phân tích, đánh giá Dân số
thành thị giữa các vùng miền với ngưỡng của độ tin cậy
là 50
21

Khi chọn menu là Trình độ học vấn có giao diện như
sau:

Hình 3.4. Giao diện trình độ học vấn
Khi đã thêm mới các Vùng kinh tế - xã hội tương ứng
với các trình độ học vấn và nhấn nút Phân tích, đánh
giá thì chương trình sẽ cho kết quả phân tích, đánh giá
như sau:

Hinh 3.5. Kết quả phân tích, đánh giá trình độ học
vấn giữa các vùng miền
22

Với menu Trình độ CMKT có giao diện như sau:

Hình 3.6. Giao diện trình độ CMKT
Với thông tin đầy đủ về trình độ CMKT giữa các vùng
miền và nhấn nút Phân tích, đánh giá chương trình sẽ

đưa ra kết quả như sau:

Hình 3.7. Kết quả phân tích, đánh giá trình độ
CMKT giữa các vùng miền
23

Nếu nhấn chọn nút Thoát sẽ quay về giao diện chương
trình chính
3.6. Kết luận chương
Trên cơ sở lý thuyết của hai chương trên kết hợp
với số liệu điều tra kinh tế văn hóa giữa các vùng miền,
đưa ra được phân tích đánh giá trên số liệu đó để đưa ra
các luật phù hợp với thực tế. Chương trình thử nghiệm đã
phản ánh được đầy đủ việc ứng dụng thành công AR vào
khai phá dữ liệu.

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO
Dự kiến những đóng góp của luận văn
Luận văn đề cập đến các nội dung về phát hiện tri
thức, DM. Ứng dụng của DM là rất rộng và có ích trong
các hoạt động sản xuất, kinh doanh và trợ giúp cho việc
hoạch định chiến lược của các nhà quản lý cũng như hỗ trợ
ra quyết định.
Về mặt lý thuyết, DM là một công đoạn trong tiến
trình lớn, tiến trình khám phá tri thức từ cơ sở dữ liệu.
Phương pháp DM là: phương pháp phát hiện luật kết hợp,
các phương pháp dựa trên mẫu…, các phương pháp trên có
thể áp dụng trên dữ liệu thông thường.
Trong luận văn trình bày chi tiết các vấn đề về khai
phá luật kết hợp: từ các khái niệm cơ sở, bài toán xuất phát

đến mô hình hình thức, các thuật toán khai phá luật kết
hợp cơ sở luật kết hợp.

×