h
tế
H
uế
ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KINH TẾ
KHOA HỆ THỐNG THÔNG TIN KINH TẾ
-----oOo-----
cK
in
KHÓA LUẬN TỐT NGHIỆP
Tr
ườ
ng
Đ
ại
họ
ỨNG DỤNG LUẬT KẾT HP TRONG KHAI
PHÁ
DỮ LIỆU QUẢN LÝ NGUỒN NHÂN LỰC
TẠI HUYỆN ỦY A LƯỚI
Giảng viên hướng dẫn:
ThS. Nguyễn Thanh Tuấn
Huế, 05/2014
Sinh viên thực hiện:
Trần Lê Thu Thủy
Lớp: K44 THKT
Niên khóa: 2010-2014
Lời Cảm Ơn
Tr
ườ
ng
Đ
ại
họ
cK
in
h
tế
H
uế
Trước tiên, em xin gửi lời cảm ơn chân
ành th
tới tất cả các thầy cô giáo
trường Đại học Kinh tế Huế, đặc
à các
biệt
thầy
l cô ở Khoa Hệ thống Thông
tin Kinh tếđã truyền đạt cho em những kiến thức quý báu trongình
quáemtr
học tập tại trường
à tạov điều kiện giúp đỡ em thực hiện
ài này
đềmột
t
cách thuận lợi nhất.
Em xin gửilời cảm ơn tới thạc sĩ Nguyễn Thanh Tuấn, người
ã
thầy đ
tận ình
t hướng dẫnà vtruyền đạt những kinh nghiệm quý báu cho em trong
suốt quá trình làm luận văn tốt nghiệp. Thầy
ã giúpđ đỡ em rất nhiều từ việc
hình thành những ý tưởng ban đầu cũng như hướng dẫn
ình thực
quá trhiện ý
tư
ởng àv sau đó là góp ý, chỉnh sửa để đề
ài đư
tợc hoàn thành tốt nhất có
thể.
Em cũng xin chân thành cảm ơn banãnhl đạo àv các anh chị trong cơ
quan Huyện uỷ A Lưới
ã tạo
đ điều kiện cho em được thực tập tại đơn vị
tiếp xúc thực tế
à tạo
v mọi điều kiện thuận lợi để emàncóthành
thể tốt
ho
khoá luận tốt nghiệp
ày.n
Cuối ùng,
c xin cảm ơn chânành
th đến bố mẹ
à những
v
người thân
ã đ
đã quan tâm giúp đỡ àv động viên em trong suốt thời gian qua để
ài luận
b
văn
của em được
ànhothành tốt đẹp.
Mặc ùd đã có nhiều cố gắng, nhưng do thời gian có ình
hạn,
độ,
tr kỹ
năng của bản thânònc nhiều hạn chế
ên nchắc chắn đề
ài khoá
t luận tốt
nghiệp àny của em không tránh khỏi những hạn chế, thiếu sót. Rất mong được
sự đóng góp, chỉ bảo, bổ sung của quý thầy
à cáccôbạn
v để đề
ài cót thể
hoàn thiện hơn.
Em xin chân thành cảm ơn!
Huế, tháng 5 năm 2014
Sinh viên
Trần Lê Thu Thuỷ
Khoá luận tốt nghiệp
MỤC LỤC
LỜI CẢM ƠN
MỤC LỤC ........................................................................................................................i
uế
DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT ..................................................... iii
DANH MỤC HÌNH VẼ, SƠ ĐỒ, BIỂU ĐỒ .................................................................iv
tế
H
DANH MỤC BẢNG BIỂU.............................................................................................v
TÓM TẮT NGHIÊN CỨU ............................................................................................vi
MỞ ĐẦU ..........................................................................................................................i
h
1. Lý do chọn đề tài .........................................................................................................1
in
2. Mục tiêu đề tài..........................................................................................................2
3. Đối tượng nghiên cứu...............................................................................................3
cK
4. Phương pháp nghiên cứu..........................................................................................3
5. Cấu trúc khoá luận ...................................................................................................3
họ
CHƯƠNG 1 TỔNG QUAN VỀ CÔNG TÁC QUẢN LÝ NGUỒN NHÂN LỰC TẠI
HUYỆN UỶ A LƯỚI......................................................................................................5
1.1. Khái quát chung về Huyện uỷ A Lưới .................................................................5
Đ
ại
1.1.1. Giới thiệu ........................................................................................................5
1.1.2. Chức năng, nhiệm vụ của Huyện uỷ A Lưới ..................................................5
1.1.3. Cơ cấu tổ chức ................................................................................................6
ng
1.2. Sơ lược tình hình nguồn nhân lực tại Huyện uỷ A Lưới ......................................9
1.2.1. Thực trạng nguồn nhân lực .............................................................................9
ườ
1.2.2. Chất lượng đội ngũ cán bộ, công chức Huyện uỷ A Lưới............................10
Tr
CHƯƠNG 2 CƠ SỞ KHOA HỌC CỦA VẤN ĐỀ NGHIÊN CỨU LUẬT KẾT HỢPTHUẬT TOÁN APRIORI ............................................................................................12
2.1. Tổng quan về khai phá dữ liệu............................................................................12
2.1.1. Khái niệm......................................................................................................12
2.1.2. Quá trình khai phá tri thức[2] .......................................................................13
2.1.3. Một số kỹ thuật trong khai phá dữ liệu.........................................................15
2.1.4. Lựa chọn phương pháp khai phá dữ liệu ......................................................16
Sinh viên thực hiện: Trần Lê Thu Thuỷ
i
Khoá luận tốt nghiệp
2.1.5. Ứng dụng của khai phá dữ liệu.....................................................................17
2.2. Luật kết hợp trong khai phá dữ liệu ....................................................................18
2.2.1. Lý thuyết về luật kết hợp ..............................................................................18
2.2.2. Một số tính chất ............................................................................................21
uế
2.2.3. Quy trình khai phá luật kết hợp ....................................................................23
2.2.4. Các chiến lược sinh tập mục phổ biến..........................................................25
tế
H
2.2.5. Thuật toán Apriori trong luật kết hợp...........................................................26
CHƯƠNG 3 XÂY DỰNG LUẬT KẾT HỢP TRONG BÀI TOÁN QUẢN LÝ
NGUỒN NHÂN LỰC TẠI HUYỆN UỶ A LƯỚI BẰNG PHẦN MỀM WEKA.......33
3.1. Giới thiệu phần mềm Weka ................................................................................33
h
3.1.1. Giới thiệu chung ...........................................................................................33
in
3.1.2. Môi trường Explorer .....................................................................................34
cK
3.2. Ứng dụng khai phá luật kết hợp trong weka vào cơ sơ dữ liệu quản lý nguồn
nhân lực tại Huyện uỷ A Lưới ...................................................................................40
3.2.1. Cơ sở dữ liệu bài toán ...................................................................................40
họ
3.2.2. Tiền xử lý dữ liệu bài toán............................................................................40
3.3.3. Kết quả khai thác luật kết hợp bằng thuật toán Apriori .....................................48
KẾT LUẬN ....................................................................................................................67
Đ
ại
DANH MỤC TÀI LIỆU THAM KHẢO ......................................................................68
Tr
ườ
ng
PHỤ LỤC .......................................................................................................................69
Sinh viên thực hiện: Trần Lê Thu Thuỷ
ii
Khoá luận tốt nghiệp
DANH MỤC CÁC KÍ HIỆU VÀ CHỮ VIẾT TẮT
Tên
viết Tên đầy đủ
Ý nghĩa
uế
tắt
Cơ sở dữ liệu
KPDL
Khai phá dữ liệu
KTXH
Kinh tế-Xã hội
ANQP
An ninh- Quốc phòng
BCH
Ban chấp hành
KDD
Knowledge Discovery in
Phát hiện tri thức từ cơ sở dữ liệu (Khám
Database
phá tri thức)
Ck
Candidate sets
Tập các k-itemset ứng viên
Lk
Large k-itemset
Tập các k-itemset phổ biến
Conf
Confidence
Minconf
Minimum confidence
Minsup
Minimum support
D
Cơ sở dữ liệu giao dịch
XY
Luật kết hợp (X là tiền đề, y là
cK
in
h
tế
H
CSDL
Đ
ại
họ
Độ tin cậy
Ngưỡng tin cậy tối thiểu
Ngưỡng hỗ trợ tối thiểu
hệ quả)
T
Giao dịch
Unique Transaction Identifer
Định danh của giao dịch
ng
TID
Transaction
Mục
Itemset
Tập mục
Tr
ườ
Item
Sinh viên thực hiện: Trần Lê Thu Thuỷ
iii
Khoá luận tốt nghiệp
DANH MỤC HÌNH VẼ, SƠ ĐỒ, BIỂU ĐỒ
Sơ đồ 1.1: Sơ đồ mô hình cơ cấu tổ chức Huyện uỷ A Lưới ..........................................8
uế
Biểu đồ 1.1: Tổ chức cơ sở Đảng của Huyện uỷ A Lưới ................................................8
Hình 2.1: Các bước của quá trình khai phá tri thức ......................................................13
tế
H
Hình 2.2: Biểu diễn các tập mục cần xét .......................................................................24
Hình 3.1: Giao diện đồ hoạ của WeKa..........................................................................33
Hình 3.2: Giao diện của môi trường Explorer...............................................................34
h
Hình 3.3: Minh hoạ lớp classify ....................................................................................35
in
Hình 3.4: Minh họa lớp Cluster.....................................................................................36
Hình 3.5: Minh họa lớp Associate.................................................................................37
cK
Hình 3.6: Minh họa Result list ......................................................................................38
Hình 3.7: Minh họa lớp Select attributes.......................................................................38
Hình 3.8: Minh họa lớp Visualize .................................................................................39
họ
Hình 3.10: Cây thư mục ................................................................................................41
Hình 3.11: Hộp thoại NumericToNominal của thuộc tính GIOITINH.........................42
Đ
ại
Hình 3.12: Thuộc tính GIOITINH sau khi sử dụng AddValues ...................................43
Hình 3.13: Kết quả khi tiền xử lý thuộc tính GIOITINH..............................................43
Hình 3.14: Hộp thoại NumericToNominal của thuộc tính TUOI .................................44
ng
Hình 3.15: Hộp thoại AddValues của thuộc tính PHONG............................................44
Hình 3.16: Hộp thoại AddValues của thuộc tính TDCM..............................................45
ườ
Hình 3.17: Hộp thoại AddValues của thuộc tính TDLLCT ..........................................46
Hình 3.18: Hộp thoại AddValues của thuộc tính DANGVIEN ....................................47
Tr
Hình 3.19: Kết quả dữ liệu sau khi tiền xử lý xong các thuộc tính ...............................47
Hình 3.20: Hình minh họa thuật toán Apriori ...............................................................48
Sinh viên thực hiện: Trần Lê Thu Thuỷ
iv
Khoá luận tốt nghiệp
DANH MỤC BẢNG BIỂU
Bảng 1.1: Tình hình nguồn nhân lực nhiệm kì 2010-2015 .............................................9
uế
Bảng 1.2: Tình hình cán bộ cấp cơ sở nhiệm kì 2010-2015..........................................10
tế
H
Bảng 1.3: Trình độ học vấn – Chuyên môn của cán bộ nhiệm kì 2010-2015...............10
Bảng 2.1: Cơ sở dữ liệu bán hàng .................................................................................19
Bảng 2.2: Ví dụ về độ hỗ trợ và độ tin cậy....................................................................21
Bảng 2.3: Cơ sở dữ liệu bán hàng .................................................................................24
Tr
ườ
ng
Đ
ại
họ
cK
in
h
Bảng 2.4: Cơ sở dữ liệu bán hàng .................................................................................30
Sinh viên thực hiện: Trần Lê Thu Thuỷ
v
Khoá luận tốt nghiệp
TÓM TẮT NGHIÊN CỨU
Đề tài trình bày tổng quan về công tác quản lý nguồn nhân lực tại Huyện uỷ A Lưới.
uế
Giới thiệu tổng quan về Huyện uỷ huyện A Lưới gồm cơ cấu tổ chức, chức năng nhiệm vụ và
sơ lược về tình hình nguồn nhân lực, công tác quản lý nguồn nhân lực tại Huyện uỷ A Lưới.
tế
H
Đề tài nghiên cứu các nội dung chính đó là khai phá dữ liệu, luật kết hợp trong khai phá
dữ liệu, thuật toán Apriori, phần mềm weka và ứng dụng khai phá luật kết hợp trong weka
vào cơ sở dữ liệu nguồn nhân lực tại Huyện uỷ A Lưới.
Phần xây dựng luật kết hợp trong bài toán quản lý nguồn nhân lực. Sẽ đánh giá và phân
in
Weka. Sử dụng thuật toán Apriori để sinh tập luật.
h
tích các tập luật sinh ra từ quá trình khai phá dữ liệu luật kết hợp được xử lý bởi phần mềm
Kết quả chính mà đề tài đạt được là sử dụng luật kết hợp - thuật toán apriori và
cK
phần mềm Weka nhằm khai phá nguồn thông tin trong cơ sở dữ liệu của Huyện uỷ
A Lưới. Đem đến những nguồn thông tin bổ ích và từ những thông tin đó sẽ đưa ra
được những giải pháp giúp giải quyết tốt công tác quản lý nguồn nhân lực của đơn
Tr
ườ
ng
Đ
ại
họ
vị
Sinh viên thực hiện: Trần Lê Thu Thuỷ
vi
Khoá luận tốt nghiệp
MỞ ĐẦU
1. Lý do chọn đề tài
Với sự bùng nổ của công nghệ thông tin đã mang lại nhiều hiệu quả đối với khoa
uế
học cũng như hoạt động thực tế, trong đó khai phá dữ liệu là một lĩnh vực mang lại
hiệu quả rất lớn cho con người. Khai phá dữ liệu giúp cho người sử dụng thu được
tế
H
những tri thức hữu ích từ những cơ sở dữ liệu hoặc các kho dữ liệu khổng lồ khác.
Cùng với sự phát triển của công nghệ thông tin và ứng dụng của nó trong đời sống
kinh tế - xã hội, lượng dữ liệu thu thập được ngày càng nhiều theo thời gian, làm xuất
h
hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thước lớn. Trong tình hình
in
hiện nay, khi thông tin đang trở thành yếu tố quyết định thì việc tìm ra các thông tin
hữu ích trong các cơ sở dữ liệu khổng lồ ngày càng trở thành mục tiêu quan trọng và
cK
trở thành thành phần chính để thực thi nhiệm vụ khai phá tri thức.
Kỹ thuật khai phá tri thức cũng như khai phá dữ liệu đang được nghiên cứu và
họ
ứng dụng trong nhiều lĩnh vực khác nhau ở trên thế giới như y tế, viễn thông, ngân
hàng, marketing, du lịch, giao dịch chứng khoán, internet, an ninh,.... Tại Việt Nam
nói chung cũng như trên địa bàn tỉnh Thừa Thiên Huế nói riêng, kỹ thuật này còn
Đ
ại
tương đối mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứng dụng.
Khai phá dữ liệu (KPDL) là quá trình dựa trên những dữ liệu có sẵn, tìm kiếm
các mẫu mới, những thông tin tiềm ẩn mang tính dự đoán trong các khối dữ liệu có
ng
lớn, Những công cụ khai phá dữ liệu có thể dự đoán những xu hướng trong tương lai.
Sự phân tích một cách tự động và mang tính dự báo của khai phá dữ liệu có ưu thế hơn
ườ
hẳn so với phân tích thông thường ở chỗ, khai phá dữ kiệu có thể sử dụng với các cơ
Tr
sở dữ liệu (CSDL) chứa dữ liệu không đầy đủ hoặc biến đổi liên tục.
Một trong những nội dung cơ bản nhất trong khai phá dữ liệu và rất phổ biến là
phát hiện các luật kết hợp. Phương pháp này nhằm tìm ra các tập thuộc tính thường
xuất hiện đồng thời trong cơ sở dữ liệu và rút ra các luật về ảnh hưởng của một tập
thuộc tính dẫn đến sự xuất hiện của một thuộc tính khác như thế nào. Apriori là thuật
toán luật kết hợp, viêc áp dung thuật toán Apriori vào khai phá dữ liệu sẽ giúp phát
Sinh viên thực hiện: Trần Lê Thu Thuỷ
1
Khoá luận tốt nghiệp
hiện ra các luật kết hợp. Vì vậy, việc lựa chọn thuật toán luật kết hợp để ứng dụng vào
việc khai phá dữ liệu sẽ mang lại hiệu quả tốt.
Huyện ủy A lưới là tổ chức hành chính, cơ quan đầu não của địa phương. Với
đặc thù của đơn vị là cơ sở phát huy vai trò của Đảng, luôn đi sâu đi sát tới từng cá
uế
nhân, các xã thị trấn trên địa bàn. Song công tác quản lý vẫn còn gặp nhiều khó khăn
bởi khối lượng công việc rất lớn đòi hỏi đội ngũ cán bộ công nhân viên phải lớn và có
tế
H
đủ năng lực, trách nhiệm đáp ứng yêu cầu của công việc. Không những thế với nguồn
thông tin khổng lồ được thu thập từ các cá nhân, phòng ban đòi hỏi phải được giải
quyết nhanh chóng. Chính vì vậy, việc phân bổ nguồn nhân lực tại đơn vị là rất quan
trọng để có thể giải quyết tốt được các công việc, tránh chồng chéo.
in
h
Cơ sở dữ liệu trong đơn vị chứa đựng nhiều thông tin tiềm ẩn, phong phú và đa
dạng, đòi hỏi phải có những phương pháp nhanh, phù hợp, chính xác, hiệu quả để lấy
cK
được những thông tin bổ ích. Những tri thức chiết suất từ nguồn cơ sở dữ liệu trên sẽ
là nguồn thông tin hỗ trợ cho ban lãnh đạo đơn vị trong việc lên kế hoạch hoạt động
cũng như thực hiện. Tiến hành công việc như vậy chính là thực hiện quá trình khai phá
họ
tri thức trong cơ sở dữ liệu mà trong đó kỹ thuật khai phá dữ liệu cho phép phát hiện
những tri thức tiêm ẩn đó. Việc ứng dụng kỹ thuật khai phá dữ liệu sẽ mang lại những
Đ
ại
lợi ích to lớn trong công việc cho đội ngũ cán bộ, đáp ứng yêu cầu cấp thiết của ban
lãnh đạo đề ra.
Do vậy đề tài “Ứng dụng luật kết hợp trong khai phá dữ liệu quản lý nguồn
ng
nhân lực tại Huyện ủy A Lưới” được thực hiện nhằm đáp ứng nhu cầu cần thiết của
đơn vị, khắc phục được những khó khăn, thiếu sót về nguồn nhân lực, cũng như phân bố
ườ
công việc và viêc thu thập xử lý các thông tin, các cơ sở dữ liệu mà đơn vị chưa giải
quyết được.
Tr
2. Mục tiêu đề tài
Mục tiêu tổng quát: Nắm được khái niệm, bản chất, các kỹ thuật khai phá dữ
liệu, ứng dụng các kỹ thuật khai phá dữ liệu trong hệ thống nguồn nhân sự của đơn vị
nhằm tạo điều kiện thuận lợi cho việc quản lý cán bộ công nhân viên, dễ dàng và linh
động hơn trong phân công công việc. Nghiên cứu thuật toán luật kết hợp trong khai
Sinh viên thực hiện: Trần Lê Thu Thuỷ
2
Khoá luận tốt nghiệp
phá dữ liệu áp dụng thuật toán Apriori. Ứng dụng thuật toán luật kết hợp vào hệ thống
quản lý nhân sự.
Mục tiêu cụ thể: Ứng dụng thuật toán luật kết hợp vào hệ thống quản lý nhân sự
tại Huyện uỷ A Lưới. Đề xuất các giải pháp để giải quyết được vấn đề nguồn nhân lực
uế
trong phân bố công việc cũng như trách nhiệm của từng cá nhân, phòng ban.
3. Đối tượng nghiên cứu
tế
H
* Đối tượng nghiên cứu
- Đề tài tập trung nghiên cứu lý thuyết khai phá dữ liệu, luật kết hợp, thuật toán
Apriori và ứng dụng khai phá dữ liệu trong quản lý nguồn nhân lực.
* Phạm vi nghiên cứu
cK
- Lý thuyết quản trị nguồn nhân lực.
in
- Phần mềm khai phá dữ liệu Weka.
h
- Hồ sơ cán bộ công nhân viên chức tại Huyện uỷ A Lưới.
- Không gian: Đề tài được thực hiện tại Huyện ủy A Lưới – tỉnh Thừa Thiên Huế.
- Thời gian: Từ ngày 10/02/2014 đến ngày 18/05/2014.
họ
4. Phương pháp nghiên cứu
- Phương pháp thu thập thông tin.
Đ
ại
- Phương pháp nghiên cứu lý thuyết.
- Phương pháp quan sát.
- Phương pháp phân tích tổng hợp dữ liệu thứ cấp.
ng
5. Cấu trúc khoá luận
Ngoài phần mở đầu và kết luận, nội dung chính của khoá luận gồm có ba chương
ườ
được tổ chức như sau:
CHƯƠNG 1: TỔNG QUAN VỀ CÔNG TÁC QUẢN LÝ NGUỒN NHÂN LỰC
Tr
TẠI HUYỆN UỶ A LƯỚI
Giới thiệu tổng quan về Huyện uỷ huyện A Lưới gồm cơ cấu tổ chức, chức năng
nhiệm vụ và sơ lược về tình hình nguồn nhân lực, công tác quản lý nguồn nhân lực tại
Huyện uỷ A Lưới.
CHƯƠNG 2: CƠ SỞ KHOA HỌC CỦA VẤN ĐỀ NGHIÊN CỨU LUẬT KẾT
HỢP-THUẬT TOÁN APRIORI
Sinh viên thực hiện: Trần Lê Thu Thuỷ
3
Khoá luận tốt nghiệp
Trình bày một cách tổng quan nhất về khai phá dữ liệu và tập trung tìm hiểu về
một trong những kỹ thuật khai phá dữ liệu là luật kết hợp. Khoá luận nêu ra các khái
niệm về luật kết hợp, tính chất cũng như quy trình khai phá luật kết hợp…Ngoài việc
phát biểu các khái niệm, chương này còn đi vào tìm hiểu, nghiên cứu thuật toán
uế
Apriori, đây là thuật toán quan trọng trong luật kết hợp.
CHƯƠNG 3: XÂY DỰNG LUẬT KẾT HỢP TRONG BÀI TOÁN QUẢN LÝ
tế
H
NGUỒN NHÂN LỰC TẠI HUYỆN UỶ A LƯỚI BẰNG PHẦN MỀM WEKA
Tìm hiểu công tác quản lý nguồn nhân lực tại Huyện uỷ A Lưới và đánh giá các
tập luật sinh ra từ quá trình khai phá dữ liệu luật kết hợp được xử lý bởi phần mềm
Weka và nêu một số giải pháp nhằm hỗ trợ công tác quản lý nguồn nhân lực tại Huyện
Tr
ườ
ng
Đ
ại
họ
cK
in
h
uỷ A Lưới.
Sinh viên thực hiện: Trần Lê Thu Thuỷ
4
Khoá luận tốt nghiệp
CHƯƠNG 1
TỔNG QUAN VỀ CÔNG TÁC QUẢN LÝ NGUỒN NHÂN LỰC
TẠI HUYỆN UỶ A LƯỚI
uế
1.1. Khái quát chung về Huyện uỷ A Lưới
tế
H
1.1.1. Giới thiệu
A Lưới là một huyện miền núi tỉnh Thừa Thiên Huế, cách thành phố huế 75km,
độ cao so với mặt nước biển là 700m. Địa bàn của huyện nằm trong một thung lũng
theo hình lòng chảo. Phía Tây giáp nước bạn Lào, Đông giáp các huyện Phong Điền,
h
Hương Trà, Nam Đông, Nam giáp huyện Hiên tỉnh Quảng Nam, Bắc giáp huyện Đa
in
Krông tỉnh Quảng Trị.
Tháng 3-1976, huyện A Lưới được thành lập gồm các xã quận 1 và quận 3 là:
cK
Hồng Tiến, Hồng Kim, Hồng Vân, Hồng Nam, Hồng Trung, Hồng Thuỷ, Bắc Sơn, A
Ngo, Đông Sơn, Nam Sơn, Tây Sơn, A Túc, Hồng Quảng, Hồng Thái, Nhâm, Hồng
họ
Thượng, Hồng Hạ, Hồng Hạ, Hồng Bắc, Hương Lâm, Hương Nguyên.
Tháng 10-1995, các xã được sát nhập lại luc này huyện A Lưới còn 20 xã là: A
Ngo, Sơn Thuỷ, Phú Vinh, Hồng Thượng, Hồng hạ, Hương Lâm, Hương Phong, Đông
Đ
ại
Sơn, A Đớt, A Roàng, Hương Nguyên, Hồng Quảng, Nhâm, Hồng Bắc, Hồng Kim,
Hồng Trung, Bắc Sơn, Hồng Vân, Hồng Thuỷ, Hồng Thái
Đến tháng 6-1996, thị trấn A Lưới được thành lập đưa tổng số đơn vị hành chính
ng
của huyện lên 21.
Sau khi thành lập, dưới sự lãnh đạo của Trung ương và của Tỉnh uỷ, Huyện uỷ
ườ
A Lưới không ngừng nâng cao nhận thức, bản lĩnh, thực hiện tốt vai trò lãnh đạo
đổi mới ở một huyện miền núi, đem lại sự biến đổi quan trọng trên các lĩnh vực
Tr
kinh tế - xã hội (KTXH), an ninh- quốc phòng (ANQP), xây dựng Đảng, mặt trận
và các đoàn thể nhân dân.
1.1.2. Chức năng, nhiệm vụ của Huyện uỷ A Lưới
Huyện uỷ A Lưới là cơ quan lãnh đạo của Đảng ở cấp Huyện, có nhiệm vụ lãnh
đạo toàn diện các mặt công tác của Đảng bộ và cả hệ thống chính trị của Huyện. Trên
Sinh viên thực hiện: Trần Lê Thu Thuỷ
5
Khoá luận tốt nghiệp
cơ sở quán triệt các chủ trương, chính sách của Đảng và Nhà nước, Huyện uỷ đề ra các
chủ trương, chiến lược lớn về KTXH, ANQP, đối ngoại, xây dựng Đảng, xây dựng hệ
thống Chính trị, công tác quần chúng để lãnh đạo, chỉ đạo thực hiện các nhiệm vụ
chính trị của địa phương theo nguyên tắc tập trung dân chủ. Chịu trách nhiệm trước
uế
Đảng bộ và nhân dân trong huyện về tình hình mọi mặt của Đảng bộ. Ngoài ra, Huyện
uỷ A Lưới còn phải tổ chức quán triệt và cụ thể hoá các nghị quyết của Ban Chấp hành
tế
H
Trung ương. Các nghị quyết, chỉ thị, kết luận của Bộ Chính trị, Ban Bí thư Tỉnh uỷ.
Hoạt động dưới sự chỉ đạo của Tỉnh uỷ.
Quyết định quy chế làm việc của Huyện uỷ, Ban Thường vụ Huyện uỷ và
Thường trực Huyện uỷ; Quy chế làm việc của Uỷ ban Kiểm tra Huyện uỷ, Chương
in
h
trình làm việc và Chương trình kiểm tra giám sát của Huyện uỷ, Ban Thường vụ huyện
uỷ. Cho ý kiến về những định hướng lớn trong chiến lược và quy hoạch tổng thể về
cK
phát triển KTXH; về những chủ trương, mục tiêu, nhiệm vụ, giải pháp lớn và những
cân đối chủ yếu trong kế hoạch phát triển KTXH, ANQP và ngân sách nhà nước hàng
năm của huyện.
họ
Thảo luận và ban hành nghị quyết, kết luận về nhiệm vụ kinh tế - xã hội, ANQP
và xây dựng Đảng, xây dựng hệ thống chính trị, hàng năm.
Đ
ại
Định hướng hoặc quyết định những vấn đề quan trọng về xây dựng hệ thống
chính trị và công tác cán bộ. Quy hoạch nhân sự Huyện uỷ, Ban Thường vụ Huyện uỷ;
các chức danh Bí thư, Phó Bí thư Huyện uỷ; Chủ tịch-Phó Chủ tịch hội đồng nhân dân,
ng
Uỷ ban nhân dân huyện. Quyết định số lượng uỷ viên Thường vụ Huyện uỷ, Uỷ viên
Ban kiểm tra Huyện uỷ.
ườ
1.1.3. Cơ cấu tổ chức
* Thường trực Huyện uỷ gồm Bí thư và phó Bí thư Huyện uỷ
Tr
Bí thư Huyện uỷ: Là người đứng đầu Ban chấp hành (BCH) Đảng bộ Huyện, chịu
trách nhiệm cao nhất, toàn diện trước ban chấp hành, Ban thường vụ là thường
trực Huyện uỷ, cùng Ban chấp hành Đảng bộ huyện, Ban thường vụ Huyện uỷ chịu
trách nhiệm trước Ban thường vụ, trước Đảng bộ Huyện về sự lãnh đạo trên mọi lĩnh
vực hoạt động của huyện.
Sinh viên thực hiện: Trần Lê Thu Thuỷ
6
Khoá luận tốt nghiệp
Phó bí thư huyện uỷ: Chịu trách nhiệm về toàn bộ hoạt động của Đảng bộ Huyện,
giúp bí thư giải quyết công việc hàng ngày của Đảng bộ, chịu trách nhiệm điều hành
bộ máy Đảng. Trực tiếp giải quyết những công việc do bí thư Huyện uỷ phân công,
thay mặt Bí thư Huyện uỷ điều hành công việc khi Bí thư uỷ nhiệm.
uế
Thường vụ Huyện uỷ do BCH Đảng bộ huyện bầu ra có trách nhiệm lãnh đạo
toàn diện các mặt công tác Đảng bộ.
tế
H
* Các phòng ban chức năng có nhiệm vụ tham mưu, giúp việc cho Huyện uỷ gồm:
Văn phòng Huyện uỷ: Là bộ phận tham mưu, tổng hợp của Huyện uỷ, phối hợp
phục vụ lãnh đạo. Tham mưu, đề xuất các Chủ trương Chính sách thuộc lĩnh vực kinh
tế-xã hội, nội chính, đối ngoại của cấp uỷ; nguyên tắc, chế độ quản lý tài chính, tài sản
in
h
của Đảng bộ. Trực tiếp quản lý tài sản, tài chính của Huyện uỷ và các cơ quan, tổ chức
Đảng thuộc Huyện uỷ, đảm bảo hậu cần cho hoạt động của cấp uỷ; là trung tâm thông
cK
tin tổng hợp phục vụ lãnh đạo cấp uỷ.
Ban Tổ chức: Là bộ phận tham mưu của Huyện uỷ về công tác xây dựng Đảng
thuộc lĩnh vực tổ chức, cán bộ, Đảng viên, bảo vệ chính trị nội bộ của hệ thống chính
họ
trị trong tỉnh. Là bộ phận chuyên môn, nghiệp vụ về công tác tổ chức, cán bộ, đảng
viên bảo vệ chính trị nội bộ của Huyện uỷ.
Đ
ại
Uỷ ban kiểm tra: Là bộ phận tham mưu giúp uỷ ban kiểm tra thực hiện các nhiệm
vụ, quyền hạn về công tác kiểm tra, giám sát và thi hành kỷ luật Đảng trong Đảng bộ,
thực hiện các nhiệm vụ do Huyện uỷ, ban thường vụ Huyện uỷ giao phó. Là bộ phận có
ng
chuyên môn, nghiệp vụ về công tác kiểm tra, giám sát và thi hành kỷ luật đảng của
Huyện uỷ.
ườ
Ban Tuyên giáo: Là bộ phận tham mưu về công tác xây dựng đảng thuộc các lĩnh
vực chính trị, tư tưởng, văn hoá, giáo dục, biên soạn về lịch sử đảng bộ của địa
Tr
phương. Là bộ phận chuyên môn, nghiệp vụ về công tác Tuyên giáo của Huyện uỷ.
Ban Dân vận: Là bộ phận tham mưu cấp uỷ về công tác dân vận của Đảng.
Sinh viên thực hiện: Trần Lê Thu Thuỷ
7
Khoá luận tốt nghiệp
SƠ ĐỒ CƠ CẤU TỔ CHỨC HUYỆN UỶ
HUYỆN UỶ
tế
H
BAN TUYÊN
GIÁO
BAN TỔ
CHỨC
UỶ BAN
KIỂM TRA
BAN DÂN
VẬN
h
VĂN
PHÒNG
uế
BAN THƯỜNG
TRỰC
1.1.4. Công tác xây dựng Đảng
cK
in
Sơ đồ 1.1: Sơ đồ mô hình cơ cấu tổ chức Huyện uỷ A Lưới
Ban thường vụ Huyện uỷ A
Tổ chức cơ sở Đảng
phân loại chất lượng tổ chức cơ sở
Chi bộ khối cơ quan
Đảng và đảng viên với 54/60 tổ
Chi bộ doanh nghiệp
Đ
ại
họ
Lưới đã hoàn thành việc đánh giá
8%
chức cơ sở đảng trong sạch vững
mạnh, 6/60 tổ chức cơ sở đảng
35%
57%
ng
hoàn thành nhiệm vụ; 3.985/4.311
Chi bộ khối xã
đảng viên được đánh giá chất
Biểu đồ 1.1: Tổ chức cơ sở Đảng của Huyện uỷ A Lưới
Tr
ườ
lượng.
Sinh viên thực hiện: Trần Lê Thu Thuỷ
8
Khoá luận tốt nghiệp
1.2. Sơ lược tình hình nguồn nhân lực tại Huyện uỷ A Lưới
1.2.1. Thực trạng nguồn nhân lực
Hiện nay, công tác quản lý nguồn nhân lực đang đặt ra nhiều yêu cầu cấp bách
đối với Huyện uỷ A lưới. Thực trạng, công tác hoạch định mô hình tổ chức chưa hình
uế
thành, công tác quản lý thay đổi, tình hình đánh giá cán bộ, các điều kiện, yếu tố chi
phối chất lượng, hiệu quả đánh giá cán bộ có nhiều vấn đề. Nhu cầu có được bộ máy tổ
tế
H
chức nhân sự có chuyên môn cao, giàu năng lực để triển khai thực hiện tốt công việc,
nhiệm vụ, hoàn thành tốt các chủ trương chính sách của Đảng và nhà nước đem lại
hiệu quả trên các mặt của đời sống xã hội nhằm đảm bảo sự lãnh đạo của Đảng trên
các lĩnh vực đem lại niềm tin của nhân dân đối với Đảng. Do vậy, giải pháp nhằm thực
hiện tốt công tác quản lý nguồn nhân lực xuất phát từ yêu cầu quản lý thông tin của
in
h
cán bộ. Khắc phục những mặt còn hạn chế, lung túng trong công tác đánh giá luân
chuyển cán bộ, giải quyết tốt các mối quan hệ giữa luân chuyển với ổn định và xây
cK
dựng đội ngũ cán bộ chuyên môn sâu, vừa đáp ứng yêu cầu, nhiệm vụ công tác, vừa
coi trọng mục đích bồi dưỡng, rèn luyện cán bộ, chuẩn bị đội ngũ cán bộ kế cận. Quản
lý thông tin cán bộ, phát hiện những thông tin tiềm ẩn hỗ trợ công tác quản lý nguồn
nhân lực không chỉ là vấn đề nóng hiện nay mà còn là vấn đề khó.
họ
Tình hình nguồn nhân lực của Huyện uỷ A Lưới đã và đang có nhiều thay đổi,
nhu cầu giải quyết công việc đòi hỏi đội ngũ cán bộ của đơn vị phải có trình độ chuyên
Đ
ại
môn. Chính vì vậy, số lượng nguồn nhân lực trong nhiệm kì 2010 - 2015 của đơn vị
tăng lên về cả số lượng và chất lượng.
Bảng 1.1: Tình hình nguồn nhân lực nhiệm kì 2010-2015
Năm
2014
Ban Thường trực
2
2
Văn phòng
22
27
Ban Tuyên giáo
17
22
Ban Tổ chức
12
18
Ban Dân vận
10
15
ng
ườ
Tr
2010
Nguồn: Phòng tổ chức Huyện uỷ A Lưới
Ngoài ra để quản lý tốt các cấp cơ sở trực thuộc sự quản lý của Huyện uỷ còn có
các cán bộ cấp cơ sở của từng tổ chức cơ sở Đảng.
Sinh viên thực hiện: Trần Lê Thu Thuỷ
9
Khoá luận tốt nghiệp
Bảng 1.2: Tình hình cán bộ cấp cơ sở nhiệm kì 2010-2015
Năm
2010
2014
Khối cơ quan nhà nước
60
70
Khối xã, thị trấn
42
42
Khối Doanh nghiệp tư nhân
6
10
uế
Nguồn: Phòng tổ chức Huyện uỷ A Lưới
tế
H
Trong những năm qua, đơn vị đã nhận thức rõ tầm quan trọng có tính chất quyết
định của việc phát triển nguồn nhân lực phục vụ công việc, quán triệt thực hiện các
chủ trương chính sách của Đảng và nhà nước; quan tâm bồi dưỡng, đào tạo đội ngũ
cán bộ lãnh đạo quản lý; lực lượng công chức, viên chức có trình độ chuyên môn, có
kiến thức, có phẩm chất đạo đức, tư tưởng chính trị vững mạnh.
in
h
1.2.2. Chất lượng đội ngũ cán bộ, công chức Huyện uỷ A Lưới
Nhìn chung tổ chức bộ máy của Huyện uỷ là khá hợp lí. Hiệu quả công việc có
thể thấy thực trạng chất lượng đội ngũ cán bộ, công chức qua các nội dung sau:
cK
* Về trình độ năng lực: Trình độ năng lực của cán bộ công chức không ngừng
được nâng lên, điều đó thể hiện qua bảng sau:
Tiêu chí/ năm
Đ
ại
Trình độ học vấn
họ
Bảng 1.3: Trình độ học vấn – Chuyên môn của cán bộ nhiệm kì 2010-2015
ườ
ng
Trình độ chuyên môn
Tr
Trình độ lý luận chính trị
2010
2014
Trung học cơ sở
5
4
THPT
58
80
Chưa qua đào tạo
5
4
Sơ cấp
1
4
Trung cấp
8
14
Cao đẳng
23
27
Đại học
26
35
Lý luận phổ thông
14
11
Sơ cấp
25
20
Trung cấp
2
18
Cao cấp
10
31
Cử nhân
2
4
Nguồn: Phòng tổ chức Huyện uỷ A Lưới
* Về trình độ ngoại ngữ, tin học:
- Trình độ ngoại ngữ:
+ Chứng chỉ A : 20/84
Sinh viên thực hiện: Trần Lê Thu Thuỷ
10
Khoá luận tốt nghiệp
+ Chứng chỉ B: 12/84
- Trình độ tin học
+ Chứng chỉ A&B: 54/84
Có thể thấy rằng năng lực của cán bộ, công chức ở Huyện uỷ A Lưới sau gần 5
uế
năm đã thực sự tăng lên một cách đáng kể. Tuy nhiên, đánh giá một cách khách quan
thì trình độ năng lực như vậy vẫn còn chưa thực sự cao. Số cán bộ, công chức có trình
độ cao đẳng trở lên còn ít, trình độ sơ cấp lí luận chính trị trở xuống còn nhiều. Đặc
tế
H
biệt là trình độ tin học, ngoại ngữ của cán bộ, công chức còn quá thấp. Vì thế, cần gấp
rút tổ chức cho cán bộ, công chức tiếp tục học tập nâng cao trình độ năng lực.
* Về khả năng hoàn thành nhiệm vụ được giao:
Hầu hết cán bộ, công chức trong Huyện uỷ đều tích cực phấn đấu, vượt qua
in
h
những khó khăn để hoàn thành nhiệm vụ được giao. Tích cực làm tốt công tác tham
mưu cho Thường vụ Huyện uỷ đề các Chủ trương Chính sách đúng đắn và triển khai
có hiệu quả để lãnh đạo, chỉ đạo thực hiện các nhiệm vụ chính trị tại địa phương.
cK
Tuy nhiên tính nhạy bén, chủ động còn hạn chế. Một số cán bộ, công chức còn
thiếu kinh nghiệm thực tiễn, một số mặt chưa đáp ứng được yêu cầu và nhiệm vụ mới,
việc phân công nhiệm vụ chưa đúng với năng lực của từng cá nhân. Không ít cán bộ,
họ
công chức cơ sở chưa nắm vững chức năng, nhiệm vụ, thẩm quyền được giao, vì vậy
quá trình chỉ đạo điều hành, giải quyết công việc còn mang tính chủ quan.
Đ
ại
Huyện uỷ có nghị quyết nhưng việc đề ra chương trình, kế hoạch để thực hiện nghị
quyết chưa cụ thể, chưa mang tính chiến lược về xây dựng đội ngũ cán bộ, công chức nên
chưa chuẩn bị đầy đủ cán bộ kế thừa để đáp ứng với nhiệm vụ của từng giai đoạn.
ng
Công tác đào tạo, bồi dưỡng cán bộ, công chức đã được lãnh đạo Huyện uỷ đặc
biệt quan tâm nên đã đem lại những kết quả khả quan. Phần lớn cán bộ, công chức
được đào tạo, bồi dưỡng theo quy hoạch. Chất lượng cán bộ, công chức mà nhất là
ườ
trình độ học vấn được nâng lên rõ rệt. Bên cạnh đó việc đào tạo, bồi dưỡng chuyên
môn, nghiệp vụ, bồi dưỡng chính trị cũng rất được quan tâm. Một số đồng chí đã được
đi học các lớp trung cấp, đại học, đại học chuyên ngành theo diện quy hoạch và đào
Tr
tạo nguồn hoặc đi học theo nguyện vọng của bản thân. Công tác nâng cao trình độ
năng lực cho cán bộ, công chức rất được Huyện uỷ quan tâm đầu tư cả chiều rộng lẫn
chiều sâu. Đây chính là điều kiện thuận lợi cho công tác nâng cao chất lượng đội ngũ
cán bộ, công chức. Bên cạnh đó, một số cán bộ, công chức đã không quyết tâm học tập
để nâng cao trình độ năng lực của bản thân mình.
Sinh viên thực hiện: Trần Lê Thu Thuỷ
11
Khoá luận tốt nghiệp
CHƯƠNG 2
CƠ SỞ KHOA HỌC CỦA VẤN ĐỀ NGHIÊN CỨU
LUẬT KẾT HỢP- THUẬT TOÁN APRIORI
uế
2.1. Tổng quan về khai phá dữ liệu
tế
H
2.1.1. Khái niệm
Khai phá dữ liệu (Data Mining) là một khái niệm ra đời vào những năm cuối của
thập kỷ 1980. Nó là quá trình khám phá thông tin ẩn được tìm thấy trong các cơ sở dữ
liệu và có thề xem như là một bước trong khám phá tri thức. Khai phá dữ liệu là giai
h
đoạn quan trọng nhất trong tiến trình khai phá tri thức từ cơ sở dữ liệu. Về bản chất,
in
khai phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật để
cK
tìm ra các mẫu hình có tính chính quy trong tập dữ liệu.
Giáo sư Tom Mitchell đã đưa ra định nghĩa Khai phá dữ liệu như sau: “Khai phá
dữ liệu là việc sử dụng dữ liệu lịch sử để khám phá những quy tắc và cải thiện những
họ
quyết định trong tương lai.” Với một cách tiếp cận ứng dụng hơn, Tiến sĩ Fayyad đã
phát biểu: “Khai phá dữ kiệu thường được xem là việc khám phá tri thức trong các cơ
Đ
ại
sở dữ liệu, là một quá trình trích xuất những thông tin ẩn, trước đây chưa biết và có
khả năng hữu ích, dưới dạng các quy luật, ràng buộc, quy tắc trong cơ sở dữ liệu.” Hay
nói cách khác “khai phá dữ liệu-Data Mining là tiến trình khám phá tri thức tiềm ẩn
trong cơ sở dữ liệu. Cụ thể hơn đó là tiến trình trích lọc, sản sinh những tri thức hoặc
ng
các mẫu tiềm ẩn, chưa biết nhưng hữu ích từ cơ sở dữ liệu lớn”.
Khai phá dữ liệu là tiến trình khái quát các sự kiện rời rạc trong dữ liệu thành các
ườ
tri thức mang tính khái quát, tính quy luật hỗ trợ tích cực cho các tiến trình ra quyết
định. Khai phá dữ liệu là việc trích rút tri thức một cách tự động và hiệu quả từ một
Tr
khối dữ liệu lớn. Tri thức đó thường ở dạng các mẫu tin có tính chất không tầm
thường, không tường minh, chưa được biết đến và có tiềm năng mang lại lợi ích.
Để hình dung lại vấn đề nay ta có thể sử dụng một ví dụ đơn giản như sau: Khai
phá dữ liệu được ví như tìm một cây kim trong một đóng củi khô. Trong ví dụ này cây
kim là một mảnh nhỏ tri thức hay một thông tin có giá trị, còn đóng củi khô là một kho
Sinh viên thực hiện: Trần Lê Thu Thuỷ
12
Khoá luận tốt nghiệp
dữ liệu rộng lớn. Như vậy, những thông tin có giá trị tiềm ẩn trong cơ sở dữ liệu sẽ
được chiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu.
Năm 1989, Fayyad, Piatestsky-Shapiro và Smyth đã dung khái niệm Phát hiện tri
thức từ cơ sở dữ liệu (Knowledge Discovery in Database-KDD), để chỉ toàn bộ quá
uế
trình phát hiện các tri thức có ích từ các tập dữ liệu lớn, sử dụng các giải thuật đặc biệt
để chiết xuất ra các mẫu hay các mô hình từ dữ liệu. Phát hiện tri thức từ cơ sở dữ liệu
tế
H
hay khám phá tri thức (KDD) là mục tiêu chính của Khai phá dữ liệu, do vậy hai khái
niệm trên được xem như hai lĩnh vực tương đương nhau. Nhưng nếu phân chia một
cách tách bạch thì khai phá dữ liệu là một bước chính trong quá trình KDD[3].
2.1.2. Quá trình khai phá tri thức[2]
in
h
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết suất
ra. Về lý thuyết thì có vẽ rất đơn giản nhưng thực sự đây là một quá trình rất khó khăn
Chuyển đổi
dữ liệu
họ
Làm sạch, tiền xử lý, và
chuẩn bị trước dữ liệu
cK
gặp phải rất nhiều vướng mắc như: quản lý tập dữ liệu, phải lặp đi lặp lại toàn bộ
Đ
ại
Trích lọc
dữ liệu
Dữ liệu đã
được làm sạch
Khai thác
dữ liệu
Tr
ườ
ng
Dữ liệu đã
được chọn
Các mẫu
Các tri thức
Đánh giá và
biểu diễn tri
thức
Hình 2.1: Các bước của quá trình khai phá tri thức
Gom dữ liệu (Gathering): Tập hợp dữ liệu lầ bước đầu tiên trong quá trình khai
phá dữ liệu. Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữ liệu và
thậm chí các dữ liệu từ các nguồn ứng dụng web.
Trích lọc dữ liệu (Selection): Là bước trích chọn các tập dữ liệu cần khai thác từ
các tập dữ liệu lớn, ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số
tiêu chuẩn nào đó. Để việc trích lọc dữ liệu một cách hiệu quả, trước tiên cần tìm hiểu
Sinh viên thực hiện: Trần Lê Thu Thuỷ
13
Khoá luận tốt nghiệp
lĩnh vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn
thành. Rút ra được các tri thức hữu ích, cho phép chọn các phương pháp khai phá dữ
liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu.
Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleaning, pre-processing and
uế
preparation): Là bước làm sạch dữ liệu (xử lý dữ liệu không đầy đủ, dữ liệu, không
thống nhất…), rút gọn dữ liệu (sử dụng các phương pháp thu gọn dữ liệu, lấy mẫu,…),
tế
H
rời rạc hoá dữ liệu. Bước này là bước quan trọng trong quá trình khai phá dữ liệu và
chiếm nhiều thời gian nhất trong quá trình phát hiện tri thức. Sau bước này, dữ liệu sẽ
nhất quán, đầy đủ, được rút gọn và rời rạc hoá.
Chuyển đổi dữ liệu (Data transformation): Là bước chuyển hoá dữ liệu, dữ liệu đưa
in
h
ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó. Dữ liệu đã được chuyển đổi
phù hợp với mục đích khác nhau, nhằm phục vụ cho kỹ thuật ở các bước sau.
cK
Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery): Đây là
bước mang tính tư duy trong khai phá dữ liệu. Ở giai đoạn này nhiều thuật toán khác
nhau đã được sử dụng để trích ra các mẫu từ dữ liệu. Thuật toán thường dùng là
họ
nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự, … Giai
đoạn này là rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục
Đ
ại
đích của khai phá dữ liệu, dùng phương pháp nào để khai phá? Thông thường, các bài
toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả - đưa ra tính chất chung
nhất của dữ liệu, các bài toán dự báo-bao gồm cả việc phát hiện các suy diễn dựa trên
ng
dữ liệu hiện có. Tuỳ theo bài toán xác định được mà ta lựa chọn các phương pháp khai
phá dữ liệu cho phù hợp.
ườ
Đánh giá và biểu diễn tri thức (Knowledge reprentation and evaluation): Đây
là giai đoạn cuối trong quá trình khai phá dữ liệu. Ở giai đoạn này, dùng các kỹ thuật
Tr
hiển thị dữ liệu để trình bày các mẫu thông tin, tri thức và mối quan hệ đặc biệt trong
dữ liệu đã khai thác ở bước trên biểu diễn theo dạng gần gũi với người sử dụng như đồ
thị, cây, bảng biểu, luật,… Đồng thời giai đoạn này cũng đánh giá những tri thức khám
phá được theo những tiêu chí nhất định. Trong giai đoạn này, có thể cần sự tương tác
của người dùng để điều chỉnh và rút ra các tri thức cần thiết nhất. Các tri thức nhận
được cũng có thể được lưu và sử dụng lại.
Sinh viên thực hiện: Trần Lê Thu Thuỷ
14
Khoá luận tốt nghiệp
2.1.3. Một số kỹ thuật trong khai phá dữ liệu
Các kỹ thuật khai phá dữ liệu được chia thành hai nhóm chính[1]:
* Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả các tính chất hoặc các
đặc tính chung của dữ liệu trong CSDL hiện có. Các kỹ thuật này gồm có: phân cụm
uế
(clustering), tóm tắt (summarization), trực quan hoá (visualization), phân tích sự phát
triển và độ lệch (Evolution and deviation analysis), phát hiện luật kết hợp (association
tế
H
rules), …
* Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa vào
các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm có: phân lớp (classification),
hồi quy (regression),…
in
h
Ta có thể tìm hiểu một số kỹ thuật thông dụng sau:
2.1.3.1. Phân lớp
cK
Phân lớp dữ liệu (classification) là chia các đối tượng dữ liệu thành các lớp dựa
trên các đặc trưng của tập dữ liệu. Với một tập các dữ liệu huấn luyện cho trước và sự
huấn luyện của con người, các giải thuật phân loại sẽ lọc ra bộ phân loại dùng để phân
họ
các dữ liệu mới vào một trong những lớp đã được xác định trước. Phương pháp này rất
có ích trong giai đoạn đầu của quá trình nghiên cứu khi ta biết rất ít về đối tượng cần
Đ
ại
nghiên cứu, nó là tiền đề để tiến hành các phương pháp phát hiên tri thức. Có nhiều
phương pháp phân lớp như phân lớp dựa trên cây quyết định, phân lớp Bayesia, …
2.1.3.2. Phân cụm
ng
Phân cụm (clustering) là việc nhóm các đối tượng dữ liệu thành các lớp đối
tượng có sự tương tự nhau dựa trên các thuộc tính của chúng. Mỗi lớp đối tượng được
ườ
gọi là một cụm (cluster). Một cụm bao gồm các đối tượng mà giữa bản thân chúng có
sự ràng buộc lẫn nhau và khác biệt so với các lớp đối tượng khác. Phân cụm dữ liệu là
Tr
một ví dụ của phương pháp học không có giám sát (unsupervised learning). Phân cụm
dữ liệu không dòi hỏi phải định trước các mẫu dữ liệu huấn luyện. Vì thế có thể coi
phân cụm dữ liệu là một cách học bằng quan sát (learning by observation), trong khi
phân lớp dữ liệu là học qua ví dụ (learning by example). Trong phương pháp này ta
không thể biết kết quả các cụm thu được sẽ như thế nào khi bắt đầu quá trình. Các cụm
Sinh viên thực hiện: Trần Lê Thu Thuỷ
15
Khoá luận tốt nghiệp
có thể tách riêng hay phân cấp hoặc gối lên nhau, có nghĩa là một mục dữ liệu có thể
vừa thuộc cụm này vừa thuộc cụm kia.
Phân cụm dữ liệu được sử dụng nhiều được sử dụng nhiều trong các ứng dụng về
phân đoạn thị trường, phân loại khách hàng, nhận dạng mẫu, phân loại trang web…
uế
2.1.1.3. Luật kết hợp
Luật kết hợp (Asociation Rules) là dạng luật biểu diễn tri thức ở dạng tương đối
tế
H
đơn giản. Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh vực khác nhau.
Phương pháp phát hiện các luật kết hợp nhằm phát hiện ra các luật kết hợp giữa
các thành phần dữ liệu trong các cơ sở dữ liệu. Các giải thuật tìm luật liên kết tìm kiếm
các mối liên kết giữa các phần tử dữ liệu. Đầu ra của thuật toán là luật kết hợp tìm
in
h
được. Có thể lấy một ví dụ về luật kết hợp như sau: Khi phân tích giỏ hàng của người
mua hàng trong siêu thị ta thu được luật “68% khách hàng mua sữa thì cũng mua bánh
cK
mì, 21% mua cả hai thứ. Trong ví dụ trên thì 68% là độ tin cậy của luật (số phần trăm
giao dịch thoả mãn vế trái thì thoả mãn vế phải) có nghĩa là 68% các khách hàng mua
sữa cũng mua bánh mì, 21% là độ hỗ trợ (số phần trăm giao dịch thoả mãn cả hai vế
họ
trái và vế phải) có nghĩa là 21% của tất cả các tác vụ đã phân tích chỉ ra rằng sữa và
bánh mì được mua cùng nhau.
Đ
ại
Luật kết hợp mang lại những thông tin vô cùng quan trọng, nó hỗ trợ không nhỏ
trong quá trình quyết định. Phương pháp này được sử dụng rất nhiều trong lĩnh vực
như marketing có chủ đích, phân tích thị trường, quản lý kinh doanh…Khai phá luật
ng
kết hợp được thực hiện qua hai bước:
Bước 1: Tìm tất cả các tập mục phổ biến, một tập mục phổ biến được xác định
ườ
thông qua việc tính độ hỗ trợ và thoả mãn độ hỗ trợ cực tiểu.
Bước 2: Sinh ra các luật kết hợp mạnh từ tập mục phổ biến, các luật này phải
Tr
thoả mãn độ hỗ trợ cực tiểu và độ tin cậy cực tiểu.
2.1.4. Lựa chọn phương pháp khai phá dữ liệu
Cấu trúc của thuật toán khai phá dữ liệu có ba thành phần chính sau: Biểu diễn
mô hình, đánh giá mô hình và phương pháp tìm kiếm.
Biểu diễn mô hình: Mô hình được biểu diễn bằng ngôn ngữ L nào đó để mô tả
các mẫu có thể mô tả được. Nếu việc biểu diễn mô hình hạn chế thì không có thời gian
Sinh viên thực hiện: Trần Lê Thu Thuỷ
16
Khoá luận tốt nghiệp
học tập hoặc không có các mẫu để tạo ra mô hình chính xác cho dữ liệu. Người phân
tích dữ liệu cần phải hiểu đầy đủ các giả thiết mô tả, người thiết kế thuật toán phải diễn
tả được giả thiết mô tả nào được tạo ra bởi thuật toán một cách rõ ràng.
Đánh giá mô hình: Đánh giá xem mẫu có đáp ứng được các tiêu chuẩn của quá trình
uế
phát hiện tri thức hay không. Đánh giá độ chính xác dự đoán dựa trên đánh giá chéo.
Phương pháp tìm kiếm:
tế
H
- Tìm kiếm tham số: Các thuật toán tìm kiếm các tham số để tối ưu hoá các tiêu
chuẩn đánh giá mô hình với dữ liệu quan sát được và với một biểu diễn mô hình đã định.
- Tìm kiếm mô hình: Giống như một vòng lặp qua phương pháp tìm kiếm tham
số, biểu diễn mô hình bị thay đổi tao nên họ các mô hình. Với một biểu diễn mô hình,
in
h
phương pháp tìm kiếm tham số được áp dụng để đánh giá chất lượng mô hình.
Hiện nay, người ta chưa đưa ra một tiêu chuẩn nào trong việc quyết định sử dụng
cK
phương pháp nào vào trong trường hợp nào thì hiệu quả, có nhiều kỹ thuật và mỗi kỹ
thuật được sử dụng cho nhiều bài toán khác nhau. Các thuật toán khai phá dữ liệu tự
động chỉ đang ở giai đoạn phát triển ban đầu. Để trả lời cho câu hỏi “Khai phá dữ liệu
họ
dùng kỹ thuật nào là tốt?” thật không đơn giản vì mỗi phương pháp có điểm mạnh
cũng như điểm yếu riêng, thậm chí chúng ta còn phải kết hợp các phương pháp trong
Đ
ại
quá trình khai phá.
2.1.5. Ứng dụng của khai phá dữ liệu
Khai phá dữ liệu được vận dụng trong nhiều lĩnh vực khác nhau nhằm khai thác
ng
nguồn dữ liệu phong phú được lưu trữ trong các hệ thống thông tin. Tuỳ theo bản chất
của từng lĩnh vực, việc vận dụng khai phá dữ liệu có những cách tiếp cận khác nhau.
ườ
Ngân hàng: Xây dựng mô hình dự báo rủi ro tín dụng. Tìm kiếm tri thức, quy luật
của thị trường chứng khoán và đầu tư bất động sản.
Tr
Thương mại điện tử: Tìm hiểu, định hướng thúc đẩy, giao tiếp với khách hàng.
Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với nhiều
khách hàng.
Marketing: Phân tích nhu cầu khách hàng dựa trên mẫu dữ liệu mua bán hàng, từ
đó xác định chiến lược kinh doanh, quảng cáo, kế hoạch sản xuất, …
Sinh viên thực hiện: Trần Lê Thu Thuỷ
17