Tải bản đầy đủ (.pdf) (88 trang)

Ứng dụng luật kết hợp trong khai phá dữ liệu quản lý nguồn nhân lực tại huyện ủy a lưới

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.19 MB, 88 trang )

h

tế
H

uế

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ
KHOA HỆ THỐNG THÔNG TIN KINH TẾ
-----oOo-----

cK

in

KHÓA LUẬN TỐT NGHIỆP

Tr

ườ

ng

Đ
ại

họ

ỨNG DỤNG LUẬT KẾT HP TRONG KHAI
PHÁ


DỮ LIỆU QUẢN LÝ NGUỒN NHÂN LỰC
TẠI HUYỆN ỦY A LƯỚI

Giảng viên hướng dẫn:
ThS. Nguyễn Thanh Tuấn

Huế, 05/2014

Sinh viên thực hiện:
Trần Lê Thu Thủy
Lớp: K44 THKT
Niên khóa: 2010-2014


Lời Cảm Ơn

Tr

ườ

ng

Đ
ại

họ

cK

in


h

tế
H

uế

Trước tiên, em xin gửi lời cảm ơn chân
ành th
tới tất cả các thầy cô giáo
trường Đại học Kinh tế Huế, đặc
à các
biệt
thầy
l cô ở Khoa Hệ thống Thông
tin Kinh tếđã truyền đạt cho em những kiến thức quý báu trongình
quáemtr
học tập tại trường
à tạov điều kiện giúp đỡ em thực hiện
ài này
đềmột
t
cách thuận lợi nhất.
Em xin gửilời cảm ơn tới thạc sĩ Nguyễn Thanh Tuấn, người
ã
thầy đ
tận ình
t hướng dẫnà vtruyền đạt những kinh nghiệm quý báu cho em trong
suốt quá trình làm luận văn tốt nghiệp. Thầy

ã giúpđ đỡ em rất nhiều từ việc
hình thành những ý tưởng ban đầu cũng như hướng dẫn
ình thực
quá trhiện ý

ởng àv sau đó là góp ý, chỉnh sửa để đề
ài đư
tợc hoàn thành tốt nhất có
thể.
Em cũng xin chân thành cảm ơn banãnhl đạo àv các anh chị trong cơ
quan Huyện uỷ A Lưới
ã tạo
đ điều kiện cho em được thực tập tại đơn vị
tiếp xúc thực tế
à tạo
v mọi điều kiện thuận lợi để emàncóthành
thể tốt
ho
khoá luận tốt nghiệp
ày.n
Cuối ùng,
c xin cảm ơn chânành
th đến bố mẹ
à những
v
người thân
ã đ
đã quan tâm giúp đỡ àv động viên em trong suốt thời gian qua để
ài luận
b

văn
của em được
ànhothành tốt đẹp.
Mặc ùd đã có nhiều cố gắng, nhưng do thời gian có ình
hạn,
độ,
tr kỹ
năng của bản thânònc nhiều hạn chế
ên nchắc chắn đề
ài khoá
t luận tốt
nghiệp àny của em không tránh khỏi những hạn chế, thiếu sót. Rất mong được
sự đóng góp, chỉ bảo, bổ sung của quý thầy
à cáccôbạn
v để đề
ài cót thể
hoàn thiện hơn.
Em xin chân thành cảm ơn!
Huế, tháng 5 năm 2014
Sinh viên
Trần Lê Thu Thuỷ


Khoá luận tốt nghiệp

MỤC LỤC

LỜI CẢM ƠN

MỤC LỤC ........................................................................................................................i


uế

DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT ..................................................... iii
DANH MỤC HÌNH VẼ, SƠ ĐỒ, BIỂU ĐỒ .................................................................iv

tế
H

DANH MỤC BẢNG BIỂU.............................................................................................v

TÓM TẮT NGHIÊN CỨU ............................................................................................vi
MỞ ĐẦU ..........................................................................................................................i

h

1. Lý do chọn đề tài .........................................................................................................1

in

2. Mục tiêu đề tài..........................................................................................................2
3. Đối tượng nghiên cứu...............................................................................................3

cK

4. Phương pháp nghiên cứu..........................................................................................3
5. Cấu trúc khoá luận ...................................................................................................3

họ


CHƯƠNG 1 TỔNG QUAN VỀ CÔNG TÁC QUẢN LÝ NGUỒN NHÂN LỰC TẠI
HUYỆN UỶ A LƯỚI......................................................................................................5
1.1. Khái quát chung về Huyện uỷ A Lưới .................................................................5

Đ
ại

1.1.1. Giới thiệu ........................................................................................................5
1.1.2. Chức năng, nhiệm vụ của Huyện uỷ A Lưới ..................................................5
1.1.3. Cơ cấu tổ chức ................................................................................................6

ng

1.2. Sơ lược tình hình nguồn nhân lực tại Huyện uỷ A Lưới ......................................9
1.2.1. Thực trạng nguồn nhân lực .............................................................................9

ườ

1.2.2. Chất lượng đội ngũ cán bộ, công chức Huyện uỷ A Lưới............................10

Tr

CHƯƠNG 2 CƠ SỞ KHOA HỌC CỦA VẤN ĐỀ NGHIÊN CỨU LUẬT KẾT HỢPTHUẬT TOÁN APRIORI ............................................................................................12
2.1. Tổng quan về khai phá dữ liệu............................................................................12
2.1.1. Khái niệm......................................................................................................12
2.1.2. Quá trình khai phá tri thức[2] .......................................................................13
2.1.3. Một số kỹ thuật trong khai phá dữ liệu.........................................................15
2.1.4. Lựa chọn phương pháp khai phá dữ liệu ......................................................16
Sinh viên thực hiện: Trần Lê Thu Thuỷ


i


Khoá luận tốt nghiệp

2.1.5. Ứng dụng của khai phá dữ liệu.....................................................................17
2.2. Luật kết hợp trong khai phá dữ liệu ....................................................................18
2.2.1. Lý thuyết về luật kết hợp ..............................................................................18
2.2.2. Một số tính chất ............................................................................................21

uế

2.2.3. Quy trình khai phá luật kết hợp ....................................................................23
2.2.4. Các chiến lược sinh tập mục phổ biến..........................................................25

tế
H

2.2.5. Thuật toán Apriori trong luật kết hợp...........................................................26
CHƯƠNG 3 XÂY DỰNG LUẬT KẾT HỢP TRONG BÀI TOÁN QUẢN LÝ
NGUỒN NHÂN LỰC TẠI HUYỆN UỶ A LƯỚI BẰNG PHẦN MỀM WEKA.......33
3.1. Giới thiệu phần mềm Weka ................................................................................33

h

3.1.1. Giới thiệu chung ...........................................................................................33

in

3.1.2. Môi trường Explorer .....................................................................................34


cK

3.2. Ứng dụng khai phá luật kết hợp trong weka vào cơ sơ dữ liệu quản lý nguồn
nhân lực tại Huyện uỷ A Lưới ...................................................................................40
3.2.1. Cơ sở dữ liệu bài toán ...................................................................................40

họ

3.2.2. Tiền xử lý dữ liệu bài toán............................................................................40
3.3.3. Kết quả khai thác luật kết hợp bằng thuật toán Apriori .....................................48
KẾT LUẬN ....................................................................................................................67

Đ
ại

DANH MỤC TÀI LIỆU THAM KHẢO ......................................................................68

Tr

ườ

ng

PHỤ LỤC .......................................................................................................................69

Sinh viên thực hiện: Trần Lê Thu Thuỷ

ii



Khoá luận tốt nghiệp

DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT
Tên

viết Tên đầy đủ

Ý nghĩa

uế

tắt
Cơ sở dữ liệu

KPDL

Khai phá dữ liệu

KTXH

Kinh tế-Xã hội

ANQP

An ninh- Quốc phòng

BCH

Ban chấp hành


KDD

Knowledge Discovery in

Phát hiện tri thức từ cơ sở dữ liệu (Khám

Database

phá tri thức)

Ck

Candidate sets

Tập các k-itemset ứng viên

Lk

Large k-itemset

Tập các k-itemset phổ biến

Conf

Confidence

Minconf

Minimum confidence


Minsup

Minimum support

D

Cơ sở dữ liệu giao dịch

XY

Luật kết hợp (X là tiền đề, y là

cK

in

h

tế
H

CSDL

Đ
ại

họ

Độ tin cậy

Ngưỡng tin cậy tối thiểu
Ngưỡng hỗ trợ tối thiểu

hệ quả)

T

Giao dịch

Unique Transaction Identifer

Định danh của giao dịch

ng

TID

Transaction

Mục

Itemset

Tập mục

Tr

ườ

Item


Sinh viên thực hiện: Trần Lê Thu Thuỷ

iii


Khoá luận tốt nghiệp

DANH MỤC HÌNH VẼ, SƠ ĐỒ, BIỂU ĐỒ

Sơ đồ 1.1: Sơ đồ mô hình cơ cấu tổ chức Huyện uỷ A Lưới ..........................................8

uế

Biểu đồ 1.1: Tổ chức cơ sở Đảng của Huyện uỷ A Lưới ................................................8

Hình 2.1: Các bước của quá trình khai phá tri thức ......................................................13

tế
H

Hình 2.2: Biểu diễn các tập mục cần xét .......................................................................24
Hình 3.1: Giao diện đồ hoạ của WeKa..........................................................................33
Hình 3.2: Giao diện của môi trường Explorer...............................................................34

h

Hình 3.3: Minh hoạ lớp classify ....................................................................................35

in


Hình 3.4: Minh họa lớp Cluster.....................................................................................36
Hình 3.5: Minh họa lớp Associate.................................................................................37

cK

Hình 3.6: Minh họa Result list ......................................................................................38
Hình 3.7: Minh họa lớp Select attributes.......................................................................38
Hình 3.8: Minh họa lớp Visualize .................................................................................39

họ

Hình 3.10: Cây thư mục ................................................................................................41
Hình 3.11: Hộp thoại NumericToNominal của thuộc tính GIOITINH.........................42

Đ
ại

Hình 3.12: Thuộc tính GIOITINH sau khi sử dụng AddValues ...................................43
Hình 3.13: Kết quả khi tiền xử lý thuộc tính GIOITINH..............................................43
Hình 3.14: Hộp thoại NumericToNominal của thuộc tính TUOI .................................44

ng

Hình 3.15: Hộp thoại AddValues của thuộc tính PHONG............................................44
Hình 3.16: Hộp thoại AddValues của thuộc tính TDCM..............................................45

ườ

Hình 3.17: Hộp thoại AddValues của thuộc tính TDLLCT ..........................................46

Hình 3.18: Hộp thoại AddValues của thuộc tính DANGVIEN ....................................47

Tr

Hình 3.19: Kết quả dữ liệu sau khi tiền xử lý xong các thuộc tính ...............................47
Hình 3.20: Hình minh họa thuật toán Apriori ...............................................................48

Sinh viên thực hiện: Trần Lê Thu Thuỷ

iv


Khoá luận tốt nghiệp

DANH MỤC BẢNG BIỂU

Bảng 1.1: Tình hình nguồn nhân lực nhiệm kì 2010-2015 .............................................9

uế

Bảng 1.2: Tình hình cán bộ cấp cơ sở nhiệm kì 2010-2015..........................................10

tế
H

Bảng 1.3: Trình độ học vấn – Chuyên môn của cán bộ nhiệm kì 2010-2015...............10
Bảng 2.1: Cơ sở dữ liệu bán hàng .................................................................................19
Bảng 2.2: Ví dụ về độ hỗ trợ và độ tin cậy....................................................................21
Bảng 2.3: Cơ sở dữ liệu bán hàng .................................................................................24


Tr

ườ

ng

Đ
ại

họ

cK

in

h

Bảng 2.4: Cơ sở dữ liệu bán hàng .................................................................................30

Sinh viên thực hiện: Trần Lê Thu Thuỷ

v


Khoá luận tốt nghiệp

TÓM TẮT NGHIÊN CỨU

Đề tài trình bày tổng quan về công tác quản lý nguồn nhân lực tại Huyện uỷ A Lưới.


uế

Giới thiệu tổng quan về Huyện uỷ huyện A Lưới gồm cơ cấu tổ chức, chức năng nhiệm vụ và
sơ lược về tình hình nguồn nhân lực, công tác quản lý nguồn nhân lực tại Huyện uỷ A Lưới.

tế
H

Đề tài nghiên cứu các nội dung chính đó là khai phá dữ liệu, luật kết hợp trong khai phá

dữ liệu, thuật toán Apriori, phần mềm weka và ứng dụng khai phá luật kết hợp trong weka
vào cơ sở dữ liệu nguồn nhân lực tại Huyện uỷ A Lưới.

Phần xây dựng luật kết hợp trong bài toán quản lý nguồn nhân lực. Sẽ đánh giá và phân

in

Weka. Sử dụng thuật toán Apriori để sinh tập luật.

h

tích các tập luật sinh ra từ quá trình khai phá dữ liệu luật kết hợp được xử lý bởi phần mềm
Kết quả chính mà đề tài đạt được là sử dụng luật kết hợp - thuật toán apriori và

cK

phần mềm Weka nhằm khai phá nguồn thông tin trong cơ sở dữ liệu của Huyện uỷ
A Lưới. Đem đến những nguồn thông tin bổ ích và từ những thông tin đó sẽ đưa ra
được những giải pháp giúp giải quyết tốt công tác quản lý nguồn nhân lực của đơn


Tr

ườ

ng

Đ
ại

họ

vị

Sinh viên thực hiện: Trần Lê Thu Thuỷ

vi


Khoá luận tốt nghiệp

MỞ ĐẦU

1. Lý do chọn đề tài
Với sự bùng nổ của công nghệ thông tin đã mang lại nhiều hiệu quả đối với khoa

uế

học cũng như hoạt động thực tế, trong đó khai phá dữ liệu là một lĩnh vực mang lại
hiệu quả rất lớn cho con người. Khai phá dữ liệu giúp cho người sử dụng thu được


tế
H

những tri thức hữu ích từ những cơ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác.

Cùng với sự phát triển của công nghệ thông tin và ứng dụng của nó trong đời sống
kinh tế - xã hội, lượng dữ liệu thu thập được ngày càng nhiều theo thời gian, làm xuất

h

hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thước lớn. Trong tình hình

in

hiện nay, khi thông tin đang trở thành yếu tố quyết định thì việc tìm ra các thông tin
hữu ích trong các cơ sở dữ liệu khổng lồ ngày càng trở thành mục tiêu quan trọng và

cK

trở thành thành phần chính để thực thi nhiệm vụ khai phá tri thức.
Kỹ thuật khai phá tri thức cũng như khai phá dữ liệu đang được nghiên cứu và

họ

ứng dụng trong nhiều lĩnh vực khác nhau ở trên thế giới như y tế, viễn thông, ngân
hàng, marketing, du lịch, giao dịch chứng khoán, internet, an ninh,.... Tại Việt Nam
nói chung cũng như trên địa bàn tỉnh Thừa Thiên Huế nói riêng, kỹ thuật này còn

Đ
ại


tương đối mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng.
Khai phá dữ liệu (KPDL) là quá trình dựa trên những dữ liệu có sẵn, tìm kiếm
các mẫu mới, những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu có

ng

lớn, Những công cụ khai phá dữ liệu có thể dự đoán những xu hướng trong tương lai.
Sự phân tích một cách tự động và mang tính dự báo của khai phá dữ liệu có ưu thế hơn

ườ

hẳn so với phân tích thông thường ở chỗ, khai phá dữ kiệu có thể sử dụng với các cơ

Tr

sở dữ liệu (CSDL) chứa dữ liệu không đầy đủ hoặc biến đổi liên tục.
Một trong những nội dung cơ bản nhất trong khai phá dữ liệu và rất phổ biến là

phát hiện các luật kết hợp. Phương pháp này nhằm tìm ra các tập thuộc tính thường
xuất hiện đồng thời trong cơ sở dữ liệu và rút ra các luật về ảnh hưởng của một tập
thuộc tính dẫn đến sự xuất hiện của một thuộc tính khác như thế nào. Apriori là thuật
toán luật kết hợp, viêc áp dung thuật toán Apriori vào khai phá dữ liệu sẽ giúp phát

Sinh viên thực hiện: Trần Lê Thu Thuỷ

1


Khoá luận tốt nghiệp


hiện ra các luật kết hợp. Vì vậy, việc lựa chọn thuật toán luật kết hợp để ứng dụng vào
việc khai phá dữ liệu sẽ mang lại hiệu quả tốt.
Huyện ủy A lưới là tổ chức hành chính, cơ quan đầu não của địa phương. Với
đặc thù của đơn vị là cơ sở phát huy vai trò của Đảng, luôn đi sâu đi sát tới từng cá

uế

nhân, các xã thị trấn trên địa bàn. Song công tác quản lý vẫn còn gặp nhiều khó khăn
bởi khối lượng công việc rất lớn đòi hỏi đội ngũ cán bộ công nhân viên phải lớn và có

tế
H

đủ năng lực, trách nhiệm đáp ứng yêu cầu của công việc. Không những thế với nguồn

thông tin khổng lồ được thu thập từ các cá nhân, phòng ban đòi hỏi phải được giải
quyết nhanh chóng. Chính vì vậy, việc phân bổ nguồn nhân lực tại đơn vị là rất quan
trọng để có thể giải quyết tốt được các công việc, tránh chồng chéo.

in

h

Cơ sở dữ liệu trong đơn vị chứa đựng nhiều thông tin tiềm ẩn, phong phú và đa
dạng, đòi hỏi phải có những phương pháp nhanh, phù hợp, chính xác, hiệu quả để lấy

cK

được những thông tin bổ ích. Những tri thức chiết suất từ nguồn cơ sở dữ liệu trên sẽ

là nguồn thông tin hỗ trợ cho ban lãnh đạo đơn vị trong việc lên kế hoạch hoạt động
cũng như thực hiện. Tiến hành công việc như vậy chính là thực hiện quá trình khai phá

họ

tri thức trong cơ sở dữ liệu mà trong đó kỹ thuật khai phá dữ liệu cho phép phát hiện
những tri thức tiêm ẩn đó. Việc ứng dụng kỹ thuật khai phá dữ liệu sẽ mang lại những

Đ
ại

lợi ích to lớn trong công việc cho đội ngũ cán bộ, đáp ứng yêu cầu cấp thiết của ban
lãnh đạo đề ra.

Do vậy đề tài “Ứng dụng luật kết hợp trong khai phá dữ liệu quản lý nguồn

ng

nhân lực tại Huyện ủy A Lưới” được thực hiện nhằm đáp ứng nhu cầu cần thiết của
đơn vị, khắc phục được những khó khăn, thiếu sót về nguồn nhân lực, cũng như phân bố

ườ

công việc và viêc thu thập xử lý các thông tin, các cơ sở dữ liệu mà đơn vị chưa giải
quyết được.

Tr

2. Mục tiêu đề tài
Mục tiêu tổng quát: Nắm được khái niệm, bản chất, các kỹ thuật khai phá dữ


liệu, ứng dụng các kỹ thuật khai phá dữ liệu trong hệ thống nguồn nhân sự của đơn vị
nhằm tạo điều kiện thuận lợi cho việc quản lý cán bộ công nhân viên, dễ dàng và linh
động hơn trong phân công công việc. Nghiên cứu thuật toán luật kết hợp trong khai

Sinh viên thực hiện: Trần Lê Thu Thuỷ

2


Khoá luận tốt nghiệp

phá dữ liệu áp dụng thuật toán Apriori. Ứng dụng thuật toán luật kết hợp vào hệ thống
quản lý nhân sự.
Mục tiêu cụ thể: Ứng dụng thuật toán luật kết hợp vào hệ thống quản lý nhân sự
tại Huyện uỷ A Lưới. Đề xuất các giải pháp để giải quyết được vấn đề nguồn nhân lực

uế

trong phân bố công việc cũng như trách nhiệm của từng cá nhân, phòng ban.

3. Đối tượng nghiên cứu

tế
H

* Đối tượng nghiên cứu

- Đề tài tập trung nghiên cứu lý thuyết khai phá dữ liệu, luật kết hợp, thuật toán
Apriori và ứng dụng khai phá dữ liệu trong quản lý nguồn nhân lực.


* Phạm vi nghiên cứu

cK

- Lý thuyết quản trị nguồn nhân lực.

in

- Phần mềm khai phá dữ liệu Weka.

h

- Hồ sơ cán bộ công nhân viên chức tại Huyện uỷ A Lưới.

- Không gian: Đề tài được thực hiện tại Huyện ủy A Lưới – tỉnh Thừa Thiên Huế.
- Thời gian: Từ ngày 10/02/2014 đến ngày 18/05/2014.

họ

4. Phương pháp nghiên cứu

- Phương pháp thu thập thông tin.

Đ
ại

- Phương pháp nghiên cứu lý thuyết.
- Phương pháp quan sát.


- Phương pháp phân tích tổng hợp dữ liệu thứ cấp.

ng

5. Cấu trúc khoá luận

Ngoài phần mở đầu và kết luận, nội dung chính của khoá luận gồm có ba chương

ườ

được tổ chức như sau:
CHƯƠNG 1: TỔNG QUAN VỀ CÔNG TÁC QUẢN LÝ NGUỒN NHÂN LỰC

Tr

TẠI HUYỆN UỶ A LƯỚI
Giới thiệu tổng quan về Huyện uỷ huyện A Lưới gồm cơ cấu tổ chức, chức năng

nhiệm vụ và sơ lược về tình hình nguồn nhân lực, công tác quản lý nguồn nhân lực tại
Huyện uỷ A Lưới.
CHƯƠNG 2: CƠ SỞ KHOA HỌC CỦA VẤN ĐỀ NGHIÊN CỨU LUẬT KẾT
HỢP-THUẬT TOÁN APRIORI
Sinh viên thực hiện: Trần Lê Thu Thuỷ

3


Khoá luận tốt nghiệp

Trình bày một cách tổng quan nhất về khai phá dữ liệu và tập trung tìm hiểu về

một trong những kỹ thuật khai phá dữ liệu là luật kết hợp. Khoá luận nêu ra các khái
niệm về luật kết hợp, tính chất cũng như quy trình khai phá luật kết hợp…Ngoài việc
phát biểu các khái niệm, chương này còn đi vào tìm hiểu, nghiên cứu thuật toán

uế

Apriori, đây là thuật toán quan trọng trong luật kết hợp.
CHƯƠNG 3: XÂY DỰNG LUẬT KẾT HỢP TRONG BÀI TOÁN QUẢN LÝ

tế
H

NGUỒN NHÂN LỰC TẠI HUYỆN UỶ A LƯỚI BẰNG PHẦN MỀM WEKA

Tìm hiểu công tác quản lý nguồn nhân lực tại Huyện uỷ A Lưới và đánh giá các
tập luật sinh ra từ quá trình khai phá dữ liệu luật kết hợp được xử lý bởi phần mềm
Weka và nêu một số giải pháp nhằm hỗ trợ công tác quản lý nguồn nhân lực tại Huyện

Tr

ườ

ng

Đ
ại

họ

cK


in

h

uỷ A Lưới.

Sinh viên thực hiện: Trần Lê Thu Thuỷ

4


Khoá luận tốt nghiệp

CHƯƠNG 1
TỔNG QUAN VỀ CÔNG TÁC QUẢN LÝ NGUỒN NHÂN LỰC
TẠI HUYỆN UỶ A LƯỚI

uế

1.1. Khái quát chung về Huyện uỷ A Lưới

tế
H

1.1.1. Giới thiệu

A Lưới là một huyện miền núi tỉnh Thừa Thiên Huế, cách thành phố huế 75km,
độ cao so với mặt nước biển là 700m. Địa bàn của huyện nằm trong một thung lũng
theo hình lòng chảo. Phía Tây giáp nước bạn Lào, Đông giáp các huyện Phong Điền,


h

Hương Trà, Nam Đông, Nam giáp huyện Hiên tỉnh Quảng Nam, Bắc giáp huyện Đa

in

Krông tỉnh Quảng Trị.

Tháng 3-1976, huyện A Lưới được thành lập gồm các xã quận 1 và quận 3 là:

cK

Hồng Tiến, Hồng Kim, Hồng Vân, Hồng Nam, Hồng Trung, Hồng Thuỷ, Bắc Sơn, A
Ngo, Đông Sơn, Nam Sơn, Tây Sơn, A Túc, Hồng Quảng, Hồng Thái, Nhâm, Hồng

họ

Thượng, Hồng Hạ, Hồng Hạ, Hồng Bắc, Hương Lâm, Hương Nguyên.
Tháng 10-1995, các xã được sát nhập lại luc này huyện A Lưới còn 20 xã là: A
Ngo, Sơn Thuỷ, Phú Vinh, Hồng Thượng, Hồng hạ, Hương Lâm, Hương Phong, Đông

Đ
ại

Sơn, A Đớt, A Roàng, Hương Nguyên, Hồng Quảng, Nhâm, Hồng Bắc, Hồng Kim,
Hồng Trung, Bắc Sơn, Hồng Vân, Hồng Thuỷ, Hồng Thái
Đến tháng 6-1996, thị trấn A Lưới được thành lập đưa tổng số đơn vị hành chính

ng


của huyện lên 21.

Sau khi thành lập, dưới sự lãnh đạo của Trung ương và của Tỉnh uỷ, Huyện uỷ

ườ

A Lưới không ngừng nâng cao nhận thức, bản lĩnh, thực hiện tốt vai trò lãnh đạo
đổi mới ở một huyện miền núi, đem lại sự biến đổi quan trọng trên các lĩnh vực

Tr

kinh tế - xã hội (KTXH), an ninh- quốc phòng (ANQP), xây dựng Đảng, mặt trận
và các đoàn thể nhân dân.
1.1.2. Chức năng, nhiệm vụ của Huyện uỷ A Lưới
Huyện uỷ A Lưới là cơ quan lãnh đạo của Đảng ở cấp Huyện, có nhiệm vụ lãnh
đạo toàn diện các mặt công tác của Đảng bộ và cả hệ thống chính trị của Huyện. Trên

Sinh viên thực hiện: Trần Lê Thu Thuỷ

5


Khoá luận tốt nghiệp

cơ sở quán triệt các chủ trương, chính sách của Đảng và Nhà nước, Huyện uỷ đề ra các
chủ trương, chiến lược lớn về KTXH, ANQP, đối ngoại, xây dựng Đảng, xây dựng hệ
thống Chính trị, công tác quần chúng để lãnh đạo, chỉ đạo thực hiện các nhiệm vụ
chính trị của địa phương theo nguyên tắc tập trung dân chủ. Chịu trách nhiệm trước


uế

Đảng bộ và nhân dân trong huyện về tình hình mọi mặt của Đảng bộ. Ngoài ra, Huyện
uỷ A Lưới còn phải tổ chức quán triệt và cụ thể hoá các nghị quyết của Ban Chấp hành

tế
H

Trung ương. Các nghị quyết, chỉ thị, kết luận của Bộ Chính trị, Ban Bí thư Tỉnh uỷ.
Hoạt động dưới sự chỉ đạo của Tỉnh uỷ.

Quyết định quy chế làm việc của Huyện uỷ, Ban Thường vụ Huyện uỷ và
Thường trực Huyện uỷ; Quy chế làm việc của Uỷ ban Kiểm tra Huyện uỷ, Chương

in

h

trình làm việc và Chương trình kiểm tra giám sát của Huyện uỷ, Ban Thường vụ huyện
uỷ. Cho ý kiến về những định hướng lớn trong chiến lược và quy hoạch tổng thể về

cK

phát triển KTXH; về những chủ trương, mục tiêu, nhiệm vụ, giải pháp lớn và những
cân đối chủ yếu trong kế hoạch phát triển KTXH, ANQP và ngân sách nhà nước hàng
năm của huyện.

họ

Thảo luận và ban hành nghị quyết, kết luận về nhiệm vụ kinh tế - xã hội, ANQP

và xây dựng Đảng, xây dựng hệ thống chính trị, hàng năm.

Đ
ại

Định hướng hoặc quyết định những vấn đề quan trọng về xây dựng hệ thống
chính trị và công tác cán bộ. Quy hoạch nhân sự Huyện uỷ, Ban Thường vụ Huyện uỷ;
các chức danh Bí thư, Phó Bí thư Huyện uỷ; Chủ tịch-Phó Chủ tịch hội đồng nhân dân,

ng

Uỷ ban nhân dân huyện. Quyết định số lượng uỷ viên Thường vụ Huyện uỷ, Uỷ viên
Ban kiểm tra Huyện uỷ.

ườ

1.1.3. Cơ cấu tổ chức
* Thường trực Huyện uỷ gồm Bí thư và phó Bí thư Huyện uỷ

Tr

Bí thư Huyện uỷ: Là người đứng đầu Ban chấp hành (BCH) Đảng bộ Huyện, chịu
trách nhiệm cao nhất, toàn diện trước ban chấp hành, Ban thường vụ là thường

trực Huyện uỷ, cùng Ban chấp hành Đảng bộ huyện, Ban thường vụ Huyện uỷ chịu
trách nhiệm trước Ban thường vụ, trước Đảng bộ Huyện về sự lãnh đạo trên mọi lĩnh
vực hoạt động của huyện.

Sinh viên thực hiện: Trần Lê Thu Thuỷ


6


Khoá luận tốt nghiệp

Phó bí thư huyện uỷ: Chịu trách nhiệm về toàn bộ hoạt động của Đảng bộ Huyện,
giúp bí thư giải quyết công việc hàng ngày của Đảng bộ, chịu trách nhiệm điều hành
bộ máy Đảng. Trực tiếp giải quyết những công việc do bí thư Huyện uỷ phân công,
thay mặt Bí thư Huyện uỷ điều hành công việc khi Bí thư uỷ nhiệm.

uế

Thường vụ Huyện uỷ do BCH Đảng bộ huyện bầu ra có trách nhiệm lãnh đạo
toàn diện các mặt công tác Đảng bộ.

tế
H

* Các phòng ban chức năng có nhiệm vụ tham mưu, giúp việc cho Huyện uỷ gồm:

Văn phòng Huyện uỷ: Là bộ phận tham mưu, tổng hợp của Huyện uỷ, phối hợp
phục vụ lãnh đạo. Tham mưu, đề xuất các Chủ trương Chính sách thuộc lĩnh vực kinh
tế-xã hội, nội chính, đối ngoại của cấp uỷ; nguyên tắc, chế độ quản lý tài chính, tài sản

in

h

của Đảng bộ. Trực tiếp quản lý tài sản, tài chính của Huyện uỷ và các cơ quan, tổ chức
Đảng thuộc Huyện uỷ, đảm bảo hậu cần cho hoạt động của cấp uỷ; là trung tâm thông


cK

tin tổng hợp phục vụ lãnh đạo cấp uỷ.

Ban Tổ chức: Là bộ phận tham mưu của Huyện uỷ về công tác xây dựng Đảng
thuộc lĩnh vực tổ chức, cán bộ, Đảng viên, bảo vệ chính trị nội bộ của hệ thống chính

họ

trị trong tỉnh. Là bộ phận chuyên môn, nghiệp vụ về công tác tổ chức, cán bộ, đảng
viên bảo vệ chính trị nội bộ của Huyện uỷ.

Đ
ại

Uỷ ban kiểm tra: Là bộ phận tham mưu giúp uỷ ban kiểm tra thực hiện các nhiệm
vụ, quyền hạn về công tác kiểm tra, giám sát và thi hành kỷ luật Đảng trong Đảng bộ,
thực hiện các nhiệm vụ do Huyện uỷ, ban thường vụ Huyện uỷ giao phó. Là bộ phận có

ng

chuyên môn, nghiệp vụ về công tác kiểm tra, giám sát và thi hành kỷ luật đảng của
Huyện uỷ.

ườ

Ban Tuyên giáo: Là bộ phận tham mưu về công tác xây dựng đảng thuộc các lĩnh

vực chính trị, tư tưởng, văn hoá, giáo dục, biên soạn về lịch sử đảng bộ của địa


Tr

phương. Là bộ phận chuyên môn, nghiệp vụ về công tác Tuyên giáo của Huyện uỷ.
Ban Dân vận: Là bộ phận tham mưu cấp uỷ về công tác dân vận của Đảng.

Sinh viên thực hiện: Trần Lê Thu Thuỷ

7


Khoá luận tốt nghiệp

SƠ ĐỒ CƠ CẤU TỔ CHỨC HUYỆN UỶ
HUYỆN UỶ

tế
H

BAN TUYÊN
GIÁO

BAN TỔ
CHỨC

UỶ BAN
KIỂM TRA

BAN DÂN
VẬN


h

VĂN
PHÒNG

uế

BAN THƯỜNG
TRỰC

1.1.4. Công tác xây dựng Đảng

cK

in

Sơ đồ 1.1: Sơ đồ mô hình cơ cấu tổ chức Huyện uỷ A Lưới

Ban thường vụ Huyện uỷ A

Tổ chức cơ sở Đảng

phân loại chất lượng tổ chức cơ sở

Chi bộ khối cơ quan

Đảng và đảng viên với 54/60 tổ

Chi bộ doanh nghiệp


Đ
ại

họ

Lưới đã hoàn thành việc đánh giá

8%

chức cơ sở đảng trong sạch vững
mạnh, 6/60 tổ chức cơ sở đảng

35%

57%

ng

hoàn thành nhiệm vụ; 3.985/4.311

Chi bộ khối xã

đảng viên được đánh giá chất

Biểu đồ 1.1: Tổ chức cơ sở Đảng của Huyện uỷ A Lưới

Tr

ườ


lượng.

Sinh viên thực hiện: Trần Lê Thu Thuỷ

8


Khoá luận tốt nghiệp

1.2. Sơ lược tình hình nguồn nhân lực tại Huyện uỷ A Lưới
1.2.1. Thực trạng nguồn nhân lực
Hiện nay, công tác quản lý nguồn nhân lực đang đặt ra nhiều yêu cầu cấp bách
đối với Huyện uỷ A lưới. Thực trạng, công tác hoạch định mô hình tổ chức chưa hình

uế

thành, công tác quản lý thay đổi, tình hình đánh giá cán bộ, các điều kiện, yếu tố chi
phối chất lượng, hiệu quả đánh giá cán bộ có nhiều vấn đề. Nhu cầu có được bộ máy tổ

tế
H

chức nhân sự có chuyên môn cao, giàu năng lực để triển khai thực hiện tốt công việc,

nhiệm vụ, hoàn thành tốt các chủ trương chính sách của Đảng và nhà nước đem lại
hiệu quả trên các mặt của đời sống xã hội nhằm đảm bảo sự lãnh đạo của Đảng trên
các lĩnh vực đem lại niềm tin của nhân dân đối với Đảng. Do vậy, giải pháp nhằm thực
hiện tốt công tác quản lý nguồn nhân lực xuất phát từ yêu cầu quản lý thông tin của


in

h

cán bộ. Khắc phục những mặt còn hạn chế, lung túng trong công tác đánh giá luân
chuyển cán bộ, giải quyết tốt các mối quan hệ giữa luân chuyển với ổn định và xây

cK

dựng đội ngũ cán bộ chuyên môn sâu, vừa đáp ứng yêu cầu, nhiệm vụ công tác, vừa
coi trọng mục đích bồi dưỡng, rèn luyện cán bộ, chuẩn bị đội ngũ cán bộ kế cận. Quản
lý thông tin cán bộ, phát hiện những thông tin tiềm ẩn hỗ trợ công tác quản lý nguồn
nhân lực không chỉ là vấn đề nóng hiện nay mà còn là vấn đề khó.

họ

Tình hình nguồn nhân lực của Huyện uỷ A Lưới đã và đang có nhiều thay đổi,
nhu cầu giải quyết công việc đòi hỏi đội ngũ cán bộ của đơn vị phải có trình độ chuyên

Đ
ại

môn. Chính vì vậy, số lượng nguồn nhân lực trong nhiệm kì 2010 - 2015 của đơn vị
tăng lên về cả số lượng và chất lượng.
Bảng 1.1: Tình hình nguồn nhân lực nhiệm kì 2010-2015
Năm

2014

Ban Thường trực


2

2

Văn phòng

22

27

Ban Tuyên giáo

17

22

Ban Tổ chức

12

18

Ban Dân vận

10

15

ng

ườ
Tr

2010

Nguồn: Phòng tổ chức Huyện uỷ A Lưới
Ngoài ra để quản lý tốt các cấp cơ sở trực thuộc sự quản lý của Huyện uỷ còn có

các cán bộ cấp cơ sở của từng tổ chức cơ sở Đảng.

Sinh viên thực hiện: Trần Lê Thu Thuỷ

9


Khoá luận tốt nghiệp

Bảng 1.2: Tình hình cán bộ cấp cơ sở nhiệm kì 2010-2015
Năm

2010

2014

Khối cơ quan nhà nước

60

70


Khối xã, thị trấn

42

42

Khối Doanh nghiệp tư nhân

6

10

uế

Nguồn: Phòng tổ chức Huyện uỷ A Lưới

tế
H

Trong những năm qua, đơn vị đã nhận thức rõ tầm quan trọng có tính chất quyết

định của việc phát triển nguồn nhân lực phục vụ công việc, quán triệt thực hiện các
chủ trương chính sách của Đảng và nhà nước; quan tâm bồi dưỡng, đào tạo đội ngũ
cán bộ lãnh đạo quản lý; lực lượng công chức, viên chức có trình độ chuyên môn, có
kiến thức, có phẩm chất đạo đức, tư tưởng chính trị vững mạnh.

in

h


1.2.2. Chất lượng đội ngũ cán bộ, công chức Huyện uỷ A Lưới
Nhìn chung tổ chức bộ máy của Huyện uỷ là khá hợp lí. Hiệu quả công việc có
thể thấy thực trạng chất lượng đội ngũ cán bộ, công chức qua các nội dung sau:

cK

* Về trình độ năng lực: Trình độ năng lực của cán bộ công chức không ngừng
được nâng lên, điều đó thể hiện qua bảng sau:
Tiêu chí/ năm

Đ
ại

Trình độ học vấn

họ

Bảng 1.3: Trình độ học vấn – Chuyên môn của cán bộ nhiệm kì 2010-2015

ườ

ng

Trình độ chuyên môn

Tr

Trình độ lý luận chính trị

2010


2014

Trung học cơ sở

5

4

THPT

58

80

Chưa qua đào tạo

5

4

Sơ cấp

1

4

Trung cấp

8


14

Cao đẳng

23

27

Đại học

26

35

Lý luận phổ thông

14

11

Sơ cấp

25

20

Trung cấp

2


18

Cao cấp

10

31

Cử nhân

2

4

Nguồn: Phòng tổ chức Huyện uỷ A Lưới
* Về trình độ ngoại ngữ, tin học:
- Trình độ ngoại ngữ:
+ Chứng chỉ A : 20/84

Sinh viên thực hiện: Trần Lê Thu Thuỷ

10


Khoá luận tốt nghiệp

+ Chứng chỉ B: 12/84
- Trình độ tin học
+ Chứng chỉ A&B: 54/84

Có thể thấy rằng năng lực của cán bộ, công chức ở Huyện uỷ A Lưới sau gần 5

uế

năm đã thực sự tăng lên một cách đáng kể. Tuy nhiên, đánh giá một cách khách quan
thì trình độ năng lực như vậy vẫn còn chưa thực sự cao. Số cán bộ, công chức có trình
độ cao đẳng trở lên còn ít, trình độ sơ cấp lí luận chính trị trở xuống còn nhiều. Đặc

tế
H

biệt là trình độ tin học, ngoại ngữ của cán bộ, công chức còn quá thấp. Vì thế, cần gấp
rút tổ chức cho cán bộ, công chức tiếp tục học tập nâng cao trình độ năng lực.

* Về khả năng hoàn thành nhiệm vụ được giao:
Hầu hết cán bộ, công chức trong Huyện uỷ đều tích cực phấn đấu, vượt qua

in

h

những khó khăn để hoàn thành nhiệm vụ được giao. Tích cực làm tốt công tác tham
mưu cho Thường vụ Huyện uỷ đề các Chủ trương Chính sách đúng đắn và triển khai
có hiệu quả để lãnh đạo, chỉ đạo thực hiện các nhiệm vụ chính trị tại địa phương.

cK

Tuy nhiên tính nhạy bén, chủ động còn hạn chế. Một số cán bộ, công chức còn
thiếu kinh nghiệm thực tiễn, một số mặt chưa đáp ứng được yêu cầu và nhiệm vụ mới,
việc phân công nhiệm vụ chưa đúng với năng lực của từng cá nhân. Không ít cán bộ,


họ

công chức cơ sở chưa nắm vững chức năng, nhiệm vụ, thẩm quyền được giao, vì vậy
quá trình chỉ đạo điều hành, giải quyết công việc còn mang tính chủ quan.

Đ
ại

Huyện uỷ có nghị quyết nhưng việc đề ra chương trình, kế hoạch để thực hiện nghị
quyết chưa cụ thể, chưa mang tính chiến lược về xây dựng đội ngũ cán bộ, công chức nên
chưa chuẩn bị đầy đủ cán bộ kế thừa để đáp ứng với nhiệm vụ của từng giai đoạn.

ng

Công tác đào tạo, bồi dưỡng cán bộ, công chức đã được lãnh đạo Huyện uỷ đặc
biệt quan tâm nên đã đem lại những kết quả khả quan. Phần lớn cán bộ, công chức
được đào tạo, bồi dưỡng theo quy hoạch. Chất lượng cán bộ, công chức mà nhất là

ườ

trình độ học vấn được nâng lên rõ rệt. Bên cạnh đó việc đào tạo, bồi dưỡng chuyên
môn, nghiệp vụ, bồi dưỡng chính trị cũng rất được quan tâm. Một số đồng chí đã được
đi học các lớp trung cấp, đại học, đại học chuyên ngành theo diện quy hoạch và đào

Tr

tạo nguồn hoặc đi học theo nguyện vọng của bản thân. Công tác nâng cao trình độ
năng lực cho cán bộ, công chức rất được Huyện uỷ quan tâm đầu tư cả chiều rộng lẫn
chiều sâu. Đây chính là điều kiện thuận lợi cho công tác nâng cao chất lượng đội ngũ

cán bộ, công chức. Bên cạnh đó, một số cán bộ, công chức đã không quyết tâm học tập
để nâng cao trình độ năng lực của bản thân mình.

Sinh viên thực hiện: Trần Lê Thu Thuỷ

11


Khoá luận tốt nghiệp

CHƯƠNG 2
CƠ SỞ KHOA HỌC CỦA VẤN ĐỀ NGHIÊN CỨU
LUẬT KẾT HỢP- THUẬT TOÁN APRIORI

uế

2.1. Tổng quan về khai phá dữ liệu

tế
H

2.1.1. Khái niệm

Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của
thập kỷ 1980. Nó là quá trình khám phá thông tin ẩn được tìm thấy trong các cơ sở dữ
liệu và có thề xem như là một bước trong khám phá tri thức. Khai phá dữ liệu là giai

h

đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu. Về bản chất,


in

khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để

cK

tìm ra các mẫu hình có tính chính quy trong tập dữ liệu.

Giáo sư Tom Mitchell đã đưa ra định nghĩa Khai phá dữ liệu như sau: “Khai phá
dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những quy tắc và cải thiện những

họ

quyết định trong tương lai.” Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad đã
phát biểu: “Khai phá dữ kiệu thường được xem là việc khám phá tri thức trong các cơ

Đ
ại

sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có
khả năng hữu ích, dưới dạng các quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu.” Hay
nói cách khác “khai phá dữ liệu-Data Mining là tiến trình khám phá tri thức tiềm ẩn
trong cơ sở dữ liệu. Cụ thể hơn đó là tiến trình trích lọc, sản sinh những tri thức hoặc

ng

các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ cơ sở dữ liệu lớn”.
Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các


ườ

tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết
định. Khai phá dữ liệu là việc trích rút tri thức một cách tự động và hiệu quả từ một

Tr

khối dữ liệu lớn. Tri thức đó thường ở dạng các mẫu tin có tính chất không tầm
thường, không tường minh, chưa được biết đến và có tiềm năng mang lại lợi ích.
Để hình dung lại vấn đề nay ta có thể sử dụng một ví dụ đơn giản như sau: Khai
phá dữ liệu được ví như tìm một cây kim trong một đóng củi khô. Trong ví dụ này cây
kim là một mảnh nhỏ tri thức hay một thông tin có giá trị, còn đóng củi khô là một kho
Sinh viên thực hiện: Trần Lê Thu Thuỷ

12


Khoá luận tốt nghiệp

dữ liệu rộng lớn. Như vậy, những thông tin có giá trị tiềm ẩn trong cơ sở dữ liệu sẽ
được chiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu.
Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dung khái niệm Phát hiện tri
thức từ cơ sở dữ liệu (Knowledge Discovery in Database-KDD), để chỉ toàn bộ quá

uế

trình phát hiện các tri thức có ích từ các tập dữ liệu lớn, sử dụng các giải thuật đặc biệt
để chiết xuất ra các mẫu hay các mô hình từ dữ liệu. Phát hiện tri thức từ cơ sở dữ liệu

tế

H

hay khám phá tri thức (KDD) là mục tiêu chính của Khai phá dữ liệu, do vậy hai khái

niệm trên được xem như hai lĩnh vực tương đương nhau. Nhưng nếu phân chia một
cách tách bạch thì khai phá dữ liệu là một bước chính trong quá trình KDD[3].
2.1.2. Quá trình khai phá tri thức[2]

in

h

Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết suất
ra. Về lý thuyết thì có vẽ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn

Chuyển đổi
dữ liệu

họ

Làm sạch, tiền xử lý, và
chuẩn bị trước dữ liệu

cK

gặp phải rất nhiều vướng mắc như: quản lý tập dữ liệu, phải lặp đi lặp lại toàn bộ

Đ
ại


Trích lọc
dữ liệu

Dữ liệu đã
được làm sạch

Khai thác
dữ liệu

Tr

ườ

ng

Dữ liệu đã
được chọn

Các mẫu

Các tri thức

Đánh giá và
biểu diễn tri
thức

Hình 2.1: Các bước của quá trình khai phá tri thức

Gom dữ liệu (Gathering): Tập hợp dữ liệu lầ bước đầu tiên trong quá trình khai


phá dữ liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và
thậm chí các dữ liệu từ các nguồn ứng dụng web.
Trích lọc dữ liệu (Selection): Là bước trích chọn các tập dữ liệu cần khai thác từ
các tập dữ liệu lớn, ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số
tiêu chuẩn nào đó. Để việc trích lọc dữ liệu một cách hiệu quả, trước tiên cần tìm hiểu
Sinh viên thực hiện: Trần Lê Thu Thuỷ

13


Khoá luận tốt nghiệp

lĩnh vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn
thành. Rút ra được các tri thức hữu ích, cho phép chọn các phương pháp khai phá dữ
liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu.
Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleaning, pre-processing and

uế

preparation): Là bước làm sạch dữ liệu (xử lý dữ liệu không đầy đủ, dữ liệu, không
thống nhất…), rút gọn dữ liệu (sử dụng các phương pháp thu gọn dữ liệu, lấy mẫu,…),

tế
H

rời rạc hoá dữ liệu. Bước này là bước quan trọng trong quá trình khai phá dữ liệu và
chiếm nhiều thời gian nhất trong quá trình phát hiện tri thức. Sau bước này, dữ liệu sẽ
nhất quán, đầy đủ, được rút gọn và rời rạc hoá.

Chuyển đổi dữ liệu (Data transformation): Là bước chuyển hoá dữ liệu, dữ liệu đưa


in

h

ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi
phù hợp với mục đích khác nhau, nhằm phục vụ cho kỹ thuật ở các bước sau.

cK

Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery): Đây là
bước mang tính tư duy trong khai phá dữ liệu. Ở giai đoạn này nhiều thuật toán khác
nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng là

họ

nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự, … Giai
đoạn này là rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục

Đ
ại

đích của khai phá dữ liệu, dùng phương pháp nào để khai phá? Thông thường, các bài
toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả - đưa ra tính chất chung
nhất của dữ liệu, các bài toán dự báo-bao gồm cả việc phát hiện các suy diễn dựa trên

ng

dữ liệu hiện có. Tuỳ theo bài toán xác định được mà ta lựa chọn các phương pháp khai
phá dữ liệu cho phù hợp.


ườ

Đánh giá và biểu diễn tri thức (Knowledge reprentation and evaluation): Đây

là giai đoạn cuối trong quá trình khai phá dữ liệu. Ở giai đoạn này, dùng các kỹ thuật

Tr

hiển thị dữ liệu để trình bày các mẫu thông tin, tri thức và mối quan hệ đặc biệt trong
dữ liệu đã khai thác ở bước trên biểu diễn theo dạng gần gũi với người sử dụng như đồ
thị, cây, bảng biểu, luật,… Đồng thời giai đoạn này cũng đánh giá những tri thức khám
phá được theo những tiêu chí nhất định. Trong giai đoạn này, có thể cần sự tương tác
của người dùng để điều chỉnh và rút ra các tri thức cần thiết nhất. Các tri thức nhận
được cũng có thể được lưu và sử dụng lại.
Sinh viên thực hiện: Trần Lê Thu Thuỷ

14


Khoá luận tốt nghiệp

2.1.3. Một số kỹ thuật trong khai phá dữ liệu
Các kỹ thuật khai phá dữ liệu được chia thành hai nhóm chính[1]:
* Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả các tính chất hoặc các
đặc tính chung của dữ liệu trong CSDL hiện có. Các kỹ thuật này gồm có: phân cụm

uế

(clustering), tóm tắt (summarization), trực quan hoá (visualization), phân tích sự phát

triển và độ lệch (Evolution and deviation analysis), phát hiện luật kết hợp (association

tế
H

rules), …

* Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa vào
các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có: phân lớp (classification),
hồi quy (regression),…

in

h

Ta có thể tìm hiểu một số kỹ thuật thông dụng sau:
2.1.3.1. Phân lớp

cK

Phân lớp dữ liệu (classification) là chia các đối tượng dữ liệu thành các lớp dựa
trên các đặc trưng của tập dữ liệu. Với một tập các dữ liệu huấn luyện cho trước và sự
huấn luyện của con người, các giải thuật phân loại sẽ lọc ra bộ phân loại dùng để phân

họ

các dữ liệu mới vào một trong những lớp đã được xác định trước. Phương pháp này rất
có ích trong giai đoạn đầu của quá trình nghiên cứu khi ta biết rất ít về đối tượng cần

Đ

ại

nghiên cứu, nó là tiền đề để tiến hành các phương pháp phát hiên tri thức. Có nhiều
phương pháp phân lớp như phân lớp dựa trên cây quyết định, phân lớp Bayesia, …
2.1.3.2. Phân cụm

ng

Phân cụm (clustering) là việc nhóm các đối tượng dữ liệu thành các lớp đối
tượng có sự tương tự nhau dựa trên các thuộc tính của chúng. Mỗi lớp đối tượng được

ườ

gọi là một cụm (cluster). Một cụm bao gồm các đối tượng mà giữa bản thân chúng có
sự ràng buộc lẫn nhau và khác biệt so với các lớp đối tượng khác. Phân cụm dữ liệu là

Tr

một ví dụ của phương pháp học không có giám sát (unsupervised learning). Phân cụm
dữ liệu không dòi hỏi phải định trước các mẫu dữ liệu huấn luyện. Vì thế có thể coi
phân cụm dữ liệu là một cách học bằng quan sát (learning by observation), trong khi
phân lớp dữ liệu là học qua ví dụ (learning by example). Trong phương pháp này ta
không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình. Các cụm

Sinh viên thực hiện: Trần Lê Thu Thuỷ

15


Khoá luận tốt nghiệp


có thể tách riêng hay phân cấp hoặc gối lên nhau, có nghĩa là một mục dữ liệu có thể
vừa thuộc cụm này vừa thuộc cụm kia.
Phân cụm dữ liệu được sử dụng nhiều được sử dụng nhiều trong các ứng dụng về
phân đoạn thị trường, phân loại khách hàng, nhận dạng mẫu, phân loại trang web…

uế

2.1.1.3. Luật kết hợp

Luật kết hợp (Asociation Rules) là dạng luật biểu diễn tri thức ở dạng tương đối

tế
H

đơn giản. Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh vực khác nhau.

Phương pháp phát hiện các luật kết hợp nhằm phát hiện ra các luật kết hợp giữa
các thành phần dữ liệu trong các cơ sở dữ liệu. Các giải thuật tìm luật liên kết tìm kiếm
các mối liên kết giữa các phần tử dữ liệu. Đầu ra của thuật toán là luật kết hợp tìm

in

h

được. Có thể lấy một ví dụ về luật kết hợp như sau: Khi phân tích giỏ hàng của người
mua hàng trong siêu thị ta thu được luật “68% khách hàng mua sữa thì cũng mua bánh

cK


mì, 21% mua cả hai thứ. Trong ví dụ trên thì 68% là độ tin cậy của luật (số phần trăm
giao dịch thoả mãn vế trái thì thoả mãn vế phải) có nghĩa là 68% các khách hàng mua
sữa cũng mua bánh mì, 21% là độ hỗ trợ (số phần trăm giao dịch thoả mãn cả hai vế

họ

trái và vế phải) có nghĩa là 21% của tất cả các tác vụ đã phân tích chỉ ra rằng sữa và
bánh mì được mua cùng nhau.

Đ
ại

Luật kết hợp mang lại những thông tin vô cùng quan trọng, nó hỗ trợ không nhỏ
trong quá trình quyết định. Phương pháp này được sử dụng rất nhiều trong lĩnh vực
như marketing có chủ đích, phân tích thị trường, quản lý kinh doanh…Khai phá luật

ng

kết hợp được thực hiện qua hai bước:
Bước 1: Tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định

ườ

thông qua việc tính độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu.
Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật này phải

Tr

thoả mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu.
2.1.4. Lựa chọn phương pháp khai phá dữ liệu

Cấu trúc của thuật toán khai phá dữ liệu có ba thành phần chính sau: Biểu diễn

mô hình, đánh giá mô hình và phương pháp tìm kiếm.
Biểu diễn mô hình: Mô hình được biểu diễn bằng ngôn ngữ L nào đó để mô tả
các mẫu có thể mô tả được. Nếu việc biểu diễn mô hình hạn chế thì không có thời gian
Sinh viên thực hiện: Trần Lê Thu Thuỷ

16


Khoá luận tốt nghiệp

học tập hoặc không có các mẫu để tạo ra mô hình chính xác cho dữ liệu. Người phân
tích dữ liệu cần phải hiểu đầy đủ các giả thiết mô tả, người thiết kế thuật toán phải diễn
tả được giả thiết mô tả nào được tạo ra bởi thuật toán một cách rõ ràng.
Đánh giá mô hình: Đánh giá xem mẫu có đáp ứng được các tiêu chuẩn của quá trình

uế

phát hiện tri thức hay không. Đánh giá độ chính xác dự đoán dựa trên đánh giá chéo.
Phương pháp tìm kiếm:

tế
H

- Tìm kiếm tham số: Các thuật toán tìm kiếm các tham số để tối ưu hoá các tiêu
chuẩn đánh giá mô hình với dữ liệu quan sát được và với một biểu diễn mô hình đã định.
- Tìm kiếm mô hình: Giống như một vòng lặp qua phương pháp tìm kiếm tham
số, biểu diễn mô hình bị thay đổi tao nên họ các mô hình. Với một biểu diễn mô hình,


in

h

phương pháp tìm kiếm tham số được áp dụng để đánh giá chất lượng mô hình.
Hiện nay, người ta chưa đưa ra một tiêu chuẩn nào trong việc quyết định sử dụng

cK

phương pháp nào vào trong trường hợp nào thì hiệu quả, có nhiều kỹ thuật và mỗi kỹ
thuật được sử dụng cho nhiều bài toán khác nhau. Các thuật toán khai phá dữ liệu tự
động chỉ đang ở giai đoạn phát triển ban đầu. Để trả lời cho câu hỏi “Khai phá dữ liệu

họ

dùng kỹ thuật nào là tốt?” thật không đơn giản vì mỗi phương pháp có điểm mạnh
cũng như điểm yếu riêng, thậm chí chúng ta còn phải kết hợp các phương pháp trong

Đ
ại

quá trình khai phá.

2.1.5. Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu được vận dụng trong nhiều lĩnh vực khác nhau nhằm khai thác

ng

nguồn dữ liệu phong phú được lưu trữ trong các hệ thống thông tin. Tuỳ theo bản chất
của từng lĩnh vực, việc vận dụng khai phá dữ liệu có những cách tiếp cận khác nhau.


ườ

Ngân hàng: Xây dựng mô hình dự báo rủi ro tín dụng. Tìm kiếm tri thức, quy luật

của thị trường chứng khoán và đầu tư bất động sản.

Tr

Thương mại điện tử: Tìm hiểu, định hướng thúc đẩy, giao tiếp với khách hàng.

Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với nhiều
khách hàng.
Marketing: Phân tích nhu cầu khách hàng dựa trên mẫu dữ liệu mua bán hàng, từ
đó xác định chiến lược kinh doanh, quảng cáo, kế hoạch sản xuất, …

Sinh viên thực hiện: Trần Lê Thu Thuỷ

17


×