Tải bản đầy đủ (.docx) (72 trang)

Phân tích tập mẫu hữu ích cao nhằm nâng cao chất lượng dịch vụ viễn thông

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.03 MB, 72 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC DUY TÂN

HỒ THỊ HỒNG NHUNG

PHÂN TÍCH TẬP MẪU HỮU ÍCH CAO NHẰM NÂNG CAO CHẤT
LƯỢNG DỊCH VỤ VIỄN THÔNG
Chuyên ngành: Khoa học máy tính
Mã số: 8480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS. Lê Quốc Hải

ĐÀ NẴNG – Năm 2022

LỜI CẢM ƠN

Được sự phân công của Khoa Sau Đại học, Trường Đại học Duy Tân
và sự đồng ý của thầy giáo hướng dẫn TS. Lê Quốc Hải, tơi đã thực hiện đề
tài “Phân tích tập mẫu hữu ích cao nhằm nâng cao chất lượng dịch vụ Viễn
thơng”.

Để hồn thành luận văn này, Tôi xin chân thành cảm ơn các thầy cơ
giáo đã tận tình hướng dẫn, giảng dạy trong suốt quá trình học tập, nghiên cứu
và rèn luyện ở Trường Đại học Duy Tân.

Xin chân thành cảm ơn các bạn bè đồng nghiệp đã đồng hành, góp ý và
giúp đỡ tơi trong mỗi bài giảng của các thầy cô giáo.

Và đặc biệt, xin chân thành cảm ơn thầy giáo hướng dẫn TS. Lê Quốc


Hải đã tận tình, chu đáo hướng dẫn tơi thực hiện luận văn này.

Mặc dù đã có nhiều cố gắng để thực hiện luận văn một cách hoàn chỉnh
nhất, song do buổi đầu làm quen với công tác nghiên cứu khoa học, sự hạn
chế về mặt kiến thức và kinh nghiệm nên không tránh khỏi những thiếu sót
nhất định. Rất mong nhận được sự góp ý của q Thầy, Cơ giáo và các bạn
đồng nghiệp để luận văn được hoàn chỉnh hơn.

Tôi xin chân thành cảm ơn!
Đà Nẵng, ngày tháng năm 2022
HỌC VIÊN

Hồ Thị Hồng Nhung

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu khoa học độc lập của
riêng tơi. Các số liệu sử dụng phân tích trong luận án có nguồn gốc rõ ràng,
đã công bố theo đúng quy định. Các số liệu và kết quả nghiên cứu trong luận
văn này là trung thực và không trùng lặp với các đề tài khác.

Đà Nẵng, ngày tháng năm 2022
HỌC VIÊN

Hồ Thị Hồng Nhung

MỤC LỤC

LỜI CẢM ƠN...................................................................................................i
LỜI CAM ĐOAN............................................................................................ii
DANH MỤC VIẾT TẮT.................................................................................v

DANH MỤC CÁC BẢNG BIỂU..................................................................vi
DANH MỤC HÌNH ẢNH.............................................................................vii
MỞ ĐẦU..........................................................................................................1

1. Lý do chọn đề tài.......................................................................................1
2. Mục tiêu nghiên cứu..................................................................................2
3. Đối tượng và phạm vi nghiên cứu.............................................................2
4. Phương pháp nghiên cứu...........................................................................3
5. Tổng quan vấn đề nghiên cứu...................................................................3
6. Cấu trúc luận văn.......................................................................................3
Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU..................................5
1.1. Khái niệm khai phá dữ liệu....................................................................5
1.2. Quá trình khai phá dữ liệu......................................................................5
1.3. Các kỹ thuật tiếp cận khai phá dữ liệu...................................................7
1.4. Kiến trúc của hệ thống khai phá dữ liệu.................................................9
1.5. Ứng dụng của khai phá dữ liệu............................................................10
CHƯƠNG 2. KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP VÀ PHÂN
LỚP DỰ BÁO................................................................................................12
2.1.Tổng quan về luật kết hợp.....................................................................12

2.1.1. Các khái niệm cơ bản....................................................................12
2.1.2.Khái niệm luật kết hợp...................................................................14
2.2.Thuật toán tìm luật kết hợp Apriori.......................................................18
2.2.1.Một số khái niệm............................................................................18
2.2.2.Giải thuật Apriori để sinh các luật kết hợp....................................19

2.2.3.Mơ tả thuật tốn Apriori dưới dạng giả mã...................................20
2.2.4.Ví dụ minh họa thuật tốn Apriori.................................................22
2.2.5.Ưu điểm và khuyết điểm của thuật toán Apriori............................26
2.3.Một số kỹ thuật cải tiến thuật toán Apriori...........................................27

2.3.1.Thuật toán AprioriTid....................................................................27
2.3.2.Thuật toán FP-growth....................................................................28
2.3.3.So sánh thuật toán Apriori và Thuật toán FP-growth...................30
2.4.Một số kỹ thuật KPDL trong phân lớp, dự báo.....................................31
2.4.1. Cây quyết định...............................................................................31
2.4.2. Phân lớp Naïve Bayes...................................................................34
CHƯƠNG 3. ỨNG DỤNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU VÀO
PHÂN TÍCH DỮ LIỆU KHÁCH HÀNG TẠI VNPT QUẢNG TRỊ..........36
3.1. Phát biểu bài toán.................................................................................36
3.2.Giới thiệu các khái niệm thuê bao, nghiệp vụ trong quản lý viễn thông...36
3.3.Khảo sát hiện trạng tại đơn vị...............................................................37
3.4.Giải pháp đề xuất...................................................................................38
3.5.Thực nghiệm và đánh giá kết quả.........................................................39
3.5.1. Chuẩn bị dữ liệu............................................................................39
3.5.2.Giới thiệu công cụ Weka................................................................43
3.5.3.Thực nghiệm bằng khai phá dữ liệu...............................................43
3.5.4. Đánh giá kết quả...........................................................................49
KẾT LUẬN....................................................................................................53
TÀI LIỆU THAM KHẢO
PHỤ LỤC KẾT QUẢ PHÁT HIỆN LUẬT KẾT HỢP
QUYẾT ĐỊNH GIAO ĐỀ TÀI (Bản sao)

DANH MỤC VIẾT TẮT

Chữ viết tắt Giải thích thuật ngữ
CNTT Công nghệ thông tin
CSDL Cơ sở dữ liệu
KPDL Khai phá dữ liệu
TGSD Thời gian sử dụng
KDD Knowledge Discovery in Databases

NCKPDL Ngữ cảnh khai phá dữ liệu

DANH MỤC CÁC BẢNG BIỂ

Bảng 2.1. Cơ sở dữ liệu giao dịch D...............................................................17
Bảng 2.2. Tần xuất xuất hiện và độ hỗ trợ của các tập mục phổ biến.............17
Bảng 2.3. CSDL sử dụng minh hoạ thuật toán Apriori...................................22
Bảng 2.4. Kết quả thực hiện thuật toán Aprori cho CSDL.............................25
Bảng 3.1. Các thuộc tính dữ liệu khai phá......................................................41
Bảng 3.2. Số lượng bản ghi tập dữ liệu...........................................................44
Bảng 3.3. So sánh hai mơ hình dự báo............................................................52

DANH MỤC HÌNH ẢN


MỞ ĐẦU

1. Lý do chọn đề tài
Con người đang sống trong đại dương thông tin, và mỗi giây, mỗi phút

chúng ta tiếp xúc với tin tức một cách có ý thức hoặc vô thức. Vậy câu hỏi đặt
ra là làm sao chúng ta có thể biến những luồng thơng tin đó thành thơng tin hữu
ích. Ngày nay, với sự phát triển như vũ bão của CNTT đã đưa ra các kỹ thuật
công nghệ tiên tiến tạo điều kiện thuận lợi cho chúng ta chọn lọc ra được các
thơng tin hữu ích. Sự phát triển của các kỹ thuật công nghệ tiên tiến đã tạo điều
kiện thuận lợi cho con người thu thập thông tin, dữ liệu của các hệ thống. Đối
với các cơ sở dữ liệu (CSDL) lớn thì việc suy diễn thông tin dựa trên dữ liệu
lịch sử không thể thực hiện được bởi các phép thống kê thông thường mà phải
sử dụng đến các công cụ của khai phá dữ liệu (KPDL). KPDL là một tiến
trình khai phá tự động những tri thức tiềm ẩn trong cơ sở dữ liệu, cụ thể hơn

là tiến trình lọc sản sinh những tri thức hoặc mẫu tiềm ẩn chứa thơng tin hữu
ích từ số lượng dữ liệu lớn. KPDL là tiến trình khái quát các sự kiện rời rạc
trong dữ liệu thành các tri thức mang tính quy luật, hỗ trợ tích cực cho việc
đưa ra các quyết định. Khi việc lưu trữ dữ liệu khơng cịn q đắt đỏ, phần
cứng có cấu hình cao, khối lượng dữ liệu khổng lồ, và có nhiều công cụ hỗ trợ
cho việc phát triển KDPL, tất cả đã giúp KDPL trở thành lĩnh vực mang tính
thời sự trong ngành công nghệ thông tin.

Đối với ngành viễn thông, thị phần và khách hàng là hai yếu tố hết sức
quan trọng, quyết định sự thành cơng của doanh nghiệp. Chính vì vậy việc
nắm được các nhu cầu sở thích của khách hàng cũng như những xu hướng
biến động của thị trường là một lợi thế to lớn cho các doanh nghiệp cạnh
tranh và mở rộng thị trường của mình. VNPT Quảng Trị là doanh nghiệp
cung cấp các sản phẩm dịch vụ về viễn thông, công nghệ thông tin, không

đứng ngoài xu thế của thị trường, VNPT Quảng Trị luôn không ngừng nâng
cao, cải tiến các dịch vụ của mình và tìm kiếm dich vụ mới để đáp ứng nhu
cầu ngày càng lớn của khách hàng. Việc này đòi hỏi cơng ty cần phải có định
hướng, chiến lược kinh doanh hợp lý để đứng vững trong môi trường viễn
thông hiện nay. KDPL chính là một trong những kỹ thuật hữu ích nhất để giải
quyết những vấn đề này. Luận văn “Phân tích tập mẫu hữu ích cao nhằm
nâng cao chất lượng dịch vụ Viễn thông” hỗ trợ phát hiện các quy luật ẩn
chứa trong khối dữ liệu khổng lồ mà doanh nghiệp đang có và đưa ra những
dự đốn, quyết định đúng, sẽ mang lại cho doanh nghiệp nhiều cơ hội để phát
triển các ứng dụng mang tính thực tiễn cao.
2. Mục tiêu nghiên cứu

Mục tiêu của đề tài là tìm hiểu một số kỹ thuật khai phá dữ liệu, áp dụng
các kỹ thuật đó để khai phá dữ liệu sử dụng dịch vụ của khách hàng, từ đó dự
báo các tác nhân ảnh hưởng đến chất lượng dịch vụ và nguyên nhân dẫn tới

khách hàng rời mạng. Dựa vào kết quả này mà người quản lý của doanh
nghiệp viễn thông nắm bắt được những yếu tố nào ảnh hưởng đến việc khách
hàng ngừng sử dụng dịch vụ, qua đó sẽ có những lựa chọn, chính sách phù hợp
để nâng cao chất lượng dịch vụ, hạn chế khách hàng rời mạng.
3. Đối tượng và phạm vi nghiên cứu

3.1. Đối tượng nghiên cứu
- Đối tượng của nghiên cứu này là các nội dung tổng quan về khai phá

dữ liệu, các kỹ thuật khai phá dữ liệu và thuật toán khai phá luật kết hợp trong
CSDL của hệ thống điều hành tác nghiệp của VNPT Quảng Trị.

3.2. Phạm vi nghiên cứu
Do hiện nay VNPT Quảng Trị cung cấp số lượng dịch vụ rất lớn, mỗi
dịch vụ lại có những đặc điểm và yêu cầu khác nhau nên quy mô và phạm vi

triển khai rất lớn, do đó cần thu hẹp phạm vi nghiên cứu đối với một dịch vụ
cụ thể.

Phạm vi nghiên cứu của đề tài này là tập dữ liệu của nhóm khách hàng
sử dụng dịch vụ internet – băng rộng của VNPT Quảng Trị.
4. Phương pháp nghiên cứu

Để thực hiện được mục tiêu và nhiệm vụ đặt ra, đề tài áp dụng hai
phương pháp nghiên cứu đó là: phương pháp nghiên cứu lý thuyết và phương
pháp nghiên cứu thực nghiệm:

- Đối với phương pháp nghiên cứu lý thuyết: Đề tài tiến hành nghiên
cứu và thu thập các tài liệu liên quan đến khai phá dữ liệu.


- Đối với phương pháp thực nghiệm: Đề tài phân tích yêu cầu thực tế,
xác định tập dữ liệu khai phá. Vận dụng cơ sở lý thuyết, các phương pháp
khai phá để cài đặt, đánh giá kết quả trên thực tế.
5. Tổng quan vấn đề nghiên cứu

Phần nghiên cứu lý thuyết sẽ hệ thống hóa những khái niệm cơ bản về
khai phá dữ liệu và nghiên cứu một số kỹ thuật khai phá dữ liệu.

Dựa trên các lý thuyết đã nghiên cứu, luận văn xây dựng các quy trình,
giải pháp, cơng cụ góp phần vào nâng cao chất lượng dịch vụ viễn thông tại
doanh nghiệp.
6. Cấu trúc luận văn

Chương 1: Trình bày tổng quan về khai phá dữ liệu.
Chương này trình bày tổng quan về khai phá dữ liệu, nghiên cứu các cơ
sở lý thuyết khai phá dữ liệu.
Chương 2: Khai phá dữ liệu bằng luật kết hợp và phân lớp dự báo.
Chương này trình bày sâu về nền tảng lý thuyết các kỹ thuật chính sử
dụng trong khai phá dữ liệu. Đánh giá các ưu điểm của các kỹ thuật khai phá
dữ liệu.

Chương 3: Ứng dụng các kỹ thuật khai phá dữ liệu vào phân tích
dữ liệu khách hàng tại VNPT Quảng Trị.

Phần kết luận
Tổng kết những kết quả đạt được và hướng phát triển trong tương lai.

Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1. Khái niệm khai phá dữ liệu

Khai phá dữ liệu là một khái niệm ra đời vào những năm cuối của thập

kỷ 80. Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có
giá trị tiềm ẩn trong các tập dữ liệu lớn (các kho dữ liệu). Về bản chất, khai
phá dữ liệu liên quan đến việc phân tích các dữ liệu và sử dụng các kỹ thuật
để tìm ra các mẫu hình có tính chính quy trong tập dữ liệu [1].

Ở một mức độ trừu tượng nhất định có thể định nghĩa: Khai phá dữ liệu
(Data Mining) là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn,
hữu dụng trong CSDL lớn. Khai phá tri thức (Knowledge Discovery in
Databases - KDD) là mục tiêu chính của khai phá dữ liệu, do vậy hai khái
niệm đó được xem như hai lĩnh vực tương đương nhau. Nhưng, nếu phân chia
một cách tách bạch thì khai phá dữ liệu là một bước chính trong quá trình
KDD.
1.2. Quá trình khai phá dữ liệu

KPDL là quá trình tìm kiếm các mẫu mới, những thơng tin tiềm ẩn
mang tính dự đốn trong các khối dữ liệu lớn. Các dữ liệu này được thu từ
nhiều nguồn, đa số là từ các phần mềm nghiệp vụ như: phần mềm tài chính,
kế tốn, các hệ thống quản lý tài nguyên doanh nghiệp, các hệ thống quản lý
khách hàng hay từ tác công cụ lưu trữ thông tin trên web… Đây là những
khối dữ liệu khổng lồ nhưng những thơng tin mà nó thể hiện ra thì lộn xộn và
“nghèo” đối với người dùng. Kích thước của khối dữ liệu khổng lồ đó cũng
tăng với tốc độ rất nhanh chiếm nhiều dung lượng lưu trữ.

Để biến khối dữ liệu khổng lồ thành nguồn thơng tin hữu ích cần phải
trải qua các bước phân tích xử lý [11]:

Trích chọn dữ liệu (Data selection): Là bước trích chọn những tập dữ
liệu cần được khai phá từ các tập dữ liệu lớn (databases, data warehouses,

data repositories) ban đầu theo một số tiêu chí nhất định.

Tiền xử lý dữ liệu (Data preprocessing): Là bước làm sạch dữ liệu
(xử lý với dữ liệu không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán,.v.v.),
rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ
liệu, sử dụng histograms, lấy mẫu,.v.v.), rời rạc hóa dữ liệu (rời rạc hóa dựa
vào histograms, dựa vào entropy, dựa vào phân khoảng,.v.v.). Sau bước này,
dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa.

Biến đổi dữ liệu (Data transformation): Là bước chuẩn hóa và làm
mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ
thuật khai phá ở bước sau.

Khai phá dữ liệu (Data mining): Là bước áp dụng những kỹ thuật
phân tích (phần nhiều là các kỹ thuật của học máy) nhằm để khai thác dữ liệu,
trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ
liệu. Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của tồn
q trình KDD.

Đánh giá và biểu diễn tri thức (Knowlwdge representation and
evaluation): Dùng các kỹ thuật hiển thị dữ liệu để trình bày những mẫu thơng
tin (tri thức) và mối liên hệ trong dữ liệu đã được khám phá ở bước trên được
chuyển dạng và biểu diễn ở một dạng gần gũi với người sử dụng như đồ thị,
cây, bảng biểu, luật... Đồng thời bước này cũng đánh giá những tri thức khám
phá được theo những tiêu chí nhất định.

Hình 1.1. Quá trình khai phá dữ liệu
1.3. Các kỹ thuật tiếp cận khai phá dữ liệu

Nếu đứng trên quan điểm của học máy (Machine Learning), thì các kỹ

thuật trong Data Mining, bao gồm:

- Học có giám sát (Supervised learning): Là q trình gán nhãn lớp cho
các phần tử trong CSDL dựa trên một tập các dữ liệu huấn luyện và các
thông tin về nhãn lớp đã biết.

- Học khơng có giám sát (Unsupervised learning): Là quá trình phân
chia một tập dữ liệu thành các lớp hay là cụm (clustering) dữ liệu tương tự
nhau mà chưa biết trước các thông tin về lớp hay tập các ví dụ huấn luyện.

- Học bán giám sát (Semi - Supervised learning): Là quá trình phân
chia một tập dữ liệu thành các lớp dựa trên một tập nhỏ các dữ liệu huấn
luyện và một số các thông tin về một số nhãn lớp đã biết trước.

Nếu căn cứ vào lớp các bài tốn cần giải quyết, thì Data Mining bao
gồm các kỹ thuật:

- Phân lớp và dự đoán (Classification & prediction): xếp đối tượng
vào một trong các lớp đã biết trước. Ví dụ: phân lớp loại cước hoặc loại dịch
vụ dựa trên số máy bị gọi của cuộc gọi, phân lớp khu vực dựa trên số máy chủ
gọi, phân lớp giờ cao điểm, thấp điểm dựa trên giờ bắt đầu đàm thoại… Phân
lớp là một kỹ thuật rất quan trọng trong khai thác dữ liệu. Phân lớp cịn được
gọi là học có giám sát, hướng tiếp cận này thường được sử dụng một số kỹ
thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo
(neural network)…

- Luật kết hợp (Association rules): Là dạng biểu diễn tri thức ở dạng
luật tương đối đơn giản. Ví dụ: “70% khách hàng gọi liên tỉnh thì có 99%
trong số khách hàng đó gọi nội tỉnh”. Luật kết hợp có khả năng ứng dụng
trong rất nhiều lĩnh vực.


- Khai thác mẫu tuần tự (Sequential/temporal patterns): Tương tự
như khai thác luật kết hợp nhưng có theo tính thứ tự và tính thời gian. Một
luật mơ tả mẫu tuần tự có dạng biểu diễn X→Y phản ánh sự xuất hiện của
biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y. Hướng tiếp cận này có
tính dự báo cao.

- Phân cụm (Clustering/segmentation): Sắp xếp các đối tượng theo
từng cụm. Các đối tượng được gom cụm sao cho mức độ tương tự giữa các
đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối
tượng nằm trong các cụm khác nhau là nhỏ nhất. Phân cụm còn được gọi là
học không giám sát (unsupervised learning).

-

1.4. Kiến trúc của hệ thống khai phá dữ liệu
Khai phá dữ liệu là một giai đoạn trong quá trình phát hiện tri thức từ

số lượng lớn dữ liệu lưu trữ trong các cơ sở dữ liệu, kho dữ liệu hoặc các nơi
lưu trữ khác. Các giai đoạn trong quá trình khai phá tri thức có thể lặp đi lặp
lại nhằm tối ưu hóa q trình khai phá tri thức. Nhằm đưa ra các tri thức mới
từ dữ liệu đã có.

Hình 1.2. Kiến trúc hệ thống
Kiến trúc của hệ thống khai phá dữ liệu gồm các thành phần sau[13]:
- Máy chủ cơ sở dữ liệu hay máy chủ kho dữ liệu: Máy chủ này có trách
nhiệm lấy dữ liệu thích hợp dựa trên những yêu cầu khai phá của người dùng.
- Cơ sở tri thức: Đây là miền tri thức được dùng để tìm kiếm hay đánh
giá độ quan trọng của các hình mẫu kết quả.
- Máy khai phá dữ liệu: Một hệ thống khai phá dữ liệu cần phải có một

tập các mơ-đun chức năng để thực hiện cơng việc, chẳng hạn như đặc trưng
hóa, kết hợp, phân lớp, phân cụm, phân tích sự tiến hố…
- Mô-đun đánh giá mẫu: Bộ phận này tương tác với các mô-đun khai phá
dữ liệu để tập trung vào việc duyệt tìm các mẫu đáng được quan tâm. Cũng có

thể mơ-đun đánh giá mâu được tích hợp vào mơ-đun khai phá tuỳ theo sự cài
đặt của phương pháp khai phá được dùng.

- Giao diện đồ họa cho người dùng: Thông qua giao diện này, người
dùng tương tác với hệ thống bằng cách đặc tả một yêu cầu khai phá hay một
nhiệm vụ, cung cấp thơng tin trợ giúp cho việc tìm kiếm và thực hiện khai phá
thăm dò trên các kết quả khai phá trung gian.
1.5. Ứng dụng của khai phá dữ liệu

Khai phá dữ liệu thu hút được rất nhiều sự quan tâm của các nhà nghiên
cứu nhờ vào tính ứng dụng thực tiễn của nó. Một trong số ứng dụng điển hình
của khai phá dữ liệu như:

- Phân tích dữ liệu và hỗ trợ ra quyết định(data analysis and dicision
support):

Phân tích và quản lý thị trường: Tiếp thị định hướng, quản lý quan hệ
khách hàng, phân tích thói quen mua sắm, tiếp thị chéo, phân đoạn thị trường.

Phân tích và quản lý rủi ro: dự báo, duy trì khách hàng, cải thiện bảo
lãnh, kiểm sốt chất lượng, phân tích cạnh tranh.

Phát hiện gian lận, phát hiện mẫu bất thường.
- Tài chính và thị trường chứng khốn: phân tích tình hình tài chính và
dự báo giá của các loại cổ phiếu trong thị trường chứng khoán, danh mục

vốn và giá, lãi suất, dữ liệu thẻ tín dụng, phát hiện gian lận…
- Điều trị và chăm sóc y tế: Một số thơng tin về chuẩn đốn lưu bệnh
trong các hệ thống quản lý bệnh viện. Phân tích mối liên hệ giữa triệu
chứng bệnh, chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng,
thuốc..).
- Text mining & Web mining: Phân lớp văn bản và các trang web, tóm
tắt văn bản…

- Lĩnh vực khoa học: Quan sát thiên văn, dữ liệu gene, dữ liệu sinh vật
học, tìm kiếm, so sánh các hệ gene và thông tin di truyền, mối liên hệ gene
và một số bệnh di truyền.

- Mạng viễn thơng: Phân tích các cuộc gọi điện thoại và hệ thống giám
sát lỗi, phát hiện gian lận, các ứng dụng quản lý và chăm sóc khách hàng,
phát hiện sự cố để đưa ra biện pháp phát triển chất lượng dịch vụ…

Chương 2. KHAI PHÁ DỮ LIỆU BẰNG LUẬT KẾT HỢP VÀ
PHÂN LỚP DỰ BÁO

2.1.Tổng quan về luật kết hợp

2.1.1. Các khái niệm cơ bản.

 Định nghĩa 2.1.1: Ngữ cảnh khai phá dữ liệu. [5][6]

Cho tập O là tập hữu hạn khác rỗng các giao tác và I là tập hữu hạn

khác rỗng các mặt hàng, R là một quan hệ hai ngôi giữa O và I sao cho với o

¿ O và i ¿ I, (o,i) ¿ R= > giao tác.o có chứa mặt hàng i. Ngữ cảnh khai


phá dữ liệu (dưới đây sẽ gọi tắt là NCKPDL) là bộ ba (O, I, R).

 Định nghĩa 2.1. 2: Các kết nối Galois. [5][6]

Cho NCKPDL (O, I, R), xét hai kết nối Galois ρ và λ được định nghĩa

như sau:

ρ : P (I) →P (O) và λ : P (O) →P (I):

Cho S ¿ I, ρ (S) = {oo ¿ O | ∀ i ¿ S, (o, i) ¿ R}

Cho X ¿ O, λ (X) = {oi ¿ I | ∀ o ¿ X, (o, i) ¿ R}

Trong đó P (X) là tập các tập con của X.

Cặp hàm (ρ, λ) được gọi là kết nối Galois. Giá trị ρ (S) biểu diễn tập

các giao tác có chung tất cả các mặt hàng trong S. Giá trị λ (X) biểu diễn tập

mặt hàng có trong tất cả các giao tác của X.

 Định nghĩa 2.1.3: Độ hỗ trợ (Support) [5][6]

Độ hỗ trợ của một tập mục X trong cơ sở dữ liệu D là tỉ số giữa các

giao tác T ¿ D có chứa tập X là tổng số giao tác trong D (hay là phần trăm

của các giao tác trong D có chứa tập mục X), kí hiệu là Supp (X).


|{T ∈D : X ⊂T }| (2.1)

Supp (X)= |D|


×