Tải bản đầy đủ (.pdf) (27 trang)

khai phá dữ liệu phát hiện gian lận trong bảo hiểm y tế

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (208.95 KB, 27 trang )





HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG



LÃ THÚY HÀ



TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT




2



HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG




LÃ THÚY HÀ



ĐỀ TÀI


KHAI PHÁ DỮ LIỆU PHÁT HIỆN GIAN LẬN
TRONG BẢO HIỂM Y TẾ
CHUYÊN NGÀNH :TRUYỀN DỮ LIỆU VÀ MẠNG MÁY TÍNH


MÃ SỐ: 60.48.15 8



TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. NGUYỄN DUY PHƯƠNG





HÀ NỘI, 2012

3

Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: Tiến sỹ Nguyễn Duy Phương


Phản biện 1: ……………………………………………………

Phản biện 2: …………………………………………… ……




Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn
thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm


Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn
thông






4



MỞ ĐẦU

Bảo hiểm xã hội trong đó có Bảo hiểm y tế là một
chính sách lớn của Đảng và Nhà nước với mục tiêu lớn là
an sinh xã hội, đảm bảo sự ổn định xã hội, hỗ trợ chi trả
chi phí khám chữa bệnh hoặc một phần chi phí đó cho
người dân.
Trong chăm sóc sức khỏe y tế hiện nay, lạm dụng
và gian lận y tế ngày một gia tăng đó không chỉ là gánh

nặng cho xã hội, các tổ chức y tế mà cả người dân tham
gia BHYT, những người phải chi trả một phần chi đó. Do
đó phát hiện gian lận y tế bây giờ trở nên càng quan
trọng.
Việc phát hiện gian lận trong y tế nói chung và
trong bảo hiểm y tế nói riêng là chủ đề quan tâm nghiên
cứu và là đòi h ỏi cấp bách hiện nay. Phát hiện gian lận
được hiểu là xác định gian lận một cách nhanh nhất khi nó
xảy ra. Hiện nay không có phương pháp phát hiện gian
lận nào thật sự hoàn hảo bởi vì các kỹ thuật gian lận luôn
5

thay đổi, phát sinh hình thức gian lận mới ngay khi một
phương pháp phát hiện gian lận được biết đến và sử dụng.
Một trong những yêu cầu khai phá dữ liệu được lựa
chọn nhiều nhất là để phát hiện lạm dụng và gian lận trong
nhiều lĩnh v ực khác nhau như tài chính ngân hàng, bảo
hiểm ô tô, viễn thông, chứng khoán và bảo hiểm y tế.
Từ những lý do trên và xu hư ớng tất yếu, Luận văn
chọn đề tài: “Khai phá dữ liệu phát hiện gian lận trong bảo
hiểm y tế”.
Mục tiêu luận văn: Tìm hiểu vấn đề gian lận trong y tế
(bảo hiểm y tế), các loại gian lận, các phương pháp phát
hiện gian lận và đi sâu vào nghiên cứu phương pháp sử
dụng kỹ thuật khai phá dữ liệu để phát hiện các hành vi
gian lận một cách tự động dựa trên dấu hiệu bất thường
so với dữ liệu trong quá khứ.
Đối tượng nghiên cứu:
- Các loại gian lận và một số phương pháp phát
hiện gian lận

- Kỹ thuật khai phá dữ liệu
6

- Nghiên cứu bài toán cụ thể với quản lý chi phí
khám chữa bệnh tại cơ sở y tế và kỹ thuật khai phá dữ
liệu trên tổng chi phí của từng bệnh nhân sử dụng
phương pháp cây quyết định.
Phương pháp nghiên cứu:
- Nghiên cứu thực tiễn công tác quản lý chi phí
khám chữa bệnh tại các cơ sở y tế
- Nghiên cứu các tài liệu, báo cáo trong nước và
nước ngoài có liên quan sử dụng kỹ thuật khai phá dữ
liệu để phát hiện gian lận trong lĩnh vực y tế.
- Tiến hành cài đặt và thử nghiệm.









7

CHƯƠNG I: TỔNG QUAN VỀ GIAN LẬN
BẢO HIỂM Y TẾ

1.1 Giới thiệu chung về bảo hiểm y tế tại Việt Nam.
Theo Luật Bảo hiểm y tế, Chính phủ thống nhất quản

lý nhà nư ớc về bảo hiểm y tế. Trong đó trách nhiệm của
các Bộ ngành liên quan gồm: Bộ Y tế được giao quản lý
nhà nước, thực hiện các chính sách về lĩnh vực y tế, Bộ
Tài chính phối hợp với Bộ Y tế, xây dựng chính sách,
pháp luật về tài chính liên quan đến bảo hiểm y tế, thanh
tra, kiểm tra việc thực hiện các quy định của pháp luật về
chế độ tài chính đối với bảo hiểm y tế, quỹ bảo hiểm y tế
Bảo hiểm y tế là hình thức bảo hiểm được áp dụng
trong lĩnh vực chăm sóc sức khỏe, không vì mục đích lợi
nhuận, do Nhà nước tổ chức thực hiện và các đối tượng
tham gia với nguyên tắc:
- Chia sẻ rủi ro giữa những người tham gia bảo
hiểm y tế,
- Mức hưởng bảo hiểm y tế theo mức độ bệnh tật,
nhóm đối tượng trong phạm vi quyền lợi của người tham
gia bảo hiểm y tế
8

- Chi phí khám bệnh, chữa bệnh bảo hiểm y tế do
quỹ bảo hiểm y tế và người tham gia bảo hiểm y tế cùng
chi trả.
1.1.1 Cơ cấu tổ chức quản lý bảo hiểm y tế của Bảo
hiểm xã hội Việt Nam
Bảo hiểm xã hội Việt Nam là cơ quan thuộc chính
phủ thực thi các chính sách an sinh xã hội do Nhà nước
ban hành trong đó có lĩnh v ực bảo hiểm y tế. Bảo hiểm xã
hội Việt Nam cơ cấu ngành dọc từ Trung ương đến địa
phương.
Các bệnh viện thuộc tuyến Trung ương do Bảo
hiểm xã hội Việt Nam quản lý, các cơ sở khám chữa bệnh

tuyến tỉnh, thành phố trực thuộc Trung ương do tỉnh, thành
phố quản lý.
1.1.2 Chức năng, nhiệm vụ của cơ quan Bảo hiểm xã
hội trong y tế:
a. Giám định bảo hiểm y tế.
b. Thanh toán chi phí khám bệnh, chữa bệnh bảo
hiểm y tế.
9

1.2 Hiện trạng gian lận trong bảo hiểm y tế
Gian lận chăm sóc sức khỏe- trong lĩnh vực y tế là
một lừa bịp cố ý hoặc làm sai lệch được thực hiện bởi
một người hoặc một thực thể dẫn đến tổn thất về tài chính
cho cơ sở khám chữa bệnh hoặc dọanh nghiệp tham gia
trong lĩnh vực bảo hiểm y tế.
Lạm dụng y tế được tạo ra khi một trong hai nhà
cung cấp thực tiễn không phù hợp với mức tài chính
chung, các dịch vụ, kinh doanh y tế đưa ra một chi phí
không cần thiết hoặc trong bồi hoàn của các dịch vụ
không cần hoặc các dịch vụ đó không đáp ứng các tiêu
chuẩn chuyên nghiệp được công nhận trong chăm sóc sức
khỏe.
1.2.2 Các hình thức gian lận bảo hiểm y tế
Có nhiều hình thức gian lận và lạm dụng trong
gian lận y tế. Dưới đây liệt kê những hình thức chủ yếu:
a. Gian lận y tế từ các nhà cung cấp chăm sóc y tế,
các cơ sở khám chữa bệnh, nhân viên y tế.
b. Gian lận y tế nhà cung cấp trang thiết bị, thuốc
điều trị.
10


c. Gian lận từ người tham gia thụ hưởng bảo hiểm:
giả mạo giấy tờ, cho người khác mượn giấy tờ liên quan
khi đi khám chữa bệnh.
1.2.3 Nguy cơ gian lận bảo hiểm y tế tại Việt Nam
Tình trạng lạm dụng quỹ BHYT không chỉ xuất
hiện ở Việt Nam mà ngay cả những nước có lịch sử phát
triển BHYT trên 100 năm như Pháp, Đức cũng t ồn tại
với nhiều hình thức khác nhau. Tuy nhiên, tại Việt Nam,
tình trạng lạm dụng BHYT đang ngày càng nhiều với đủ
các “tiểu xảo” từ nhiều đối tượng.
Thực tế tình hình lạm dụng và gian lận bảo hiểm y
tế ở Việt Nam hiện đang diễn ra hàng ngày tại các cơ sở
KCB với những biểu hiện muôn hình vạn trạng từ đối
tượng đến phương thức lạm dụng, hiện chưa có một công
cụ hữu hiệu cũng như chính sách rõ ràng trong việc kiểm
soát cũng như phát hiện gian lận.
1.3 Phòng chống và phát hiện gian lận trong y tế
1.3.1 Định nghĩa:
Phòng chống gian lận là các biện pháp tránh gian
lận, phát hiện gian lận ngay từ khi xuất hiện.
11

Phát hiện gian lận là xác định gian lận nhanh nhất
có thể khi đã xảy ra.
1.3.2 Tình hình phòng chống và phát hiện gian lận
trong lĩnh vực y tế:
Theo kiểm toán của Liên bang Mỹ thì thật khó có
thể xác định một hành động có là lạm dụng hay không khi
các biến thể trong thanh toán thực tế, không thể tự động

nhận dạng như lạm dụng thanh toán hoặc chăm sóc y tế
được xem là không thích hợp.
Dịch vụ y tế là phức tạp, chúng được áp dụng cho
hệ thống sinh học từng cá nhân, phụ thuộc vào trình đ ộ
chuyên môn, kỹ thuật khác nhau và kết quả đôi khi đo
bằng phương pháp không chính xác.
Bất kỳ kỹ thuật phân tích được sử dụng để phát
hiện các gian lận và lạm dụng phải thừa nhận việc khó
khăn khi xác định tình trạng, tính trầm trọng của bệnh tật.
1.3.3 Các phương pháp phòng chống gian lận trong
lĩnh vực y tế
Phương pháp học máy dựa trên một bộ quy tắc tập
dữ liệu huấn luyện chẩn đoán, phác đồ điều trị chuẩn của
12

từng loại bệnh trên số bệnh nhân được thanh toán bảo
hiểm y tế để tìm kiếm khả năng gian lận.
Phương pháp luận điểm dựa trên việc sử dụng các
kỹ thuật trong phân cụm và quy tắc đã đư ợc sử dụng để
xác định gian lận có thể trong Health Insurance
Commission (HIC) của Úc.
Thuật toán k-Nearest Neighbor (kNN) với các
khoảng cách số liệu tối ưu hóa bằng cách sử dụng một
thuật toán di truyền của tiến sỹ Becker et. và đồng
nghiệp.
Cox áp dụng một hệ thống phát hiện gian lận dựa
trên lôgic mờ cho việc phân tích yêu cầu chăm sóc sức
khỏe. Hệ thống mờ này sử dụng quy tắc xuất phát từ các
chuyên gia của con người để phát hiện các mẫu hành vi
thường.

Trong đó phương pháp cây quyết định và thuật
toán C4.5 đã đư ợc sử dụng thông qua dấu hiệu lâm sàng
và các trường chi phí phải thanh toán được thiết lập bởi
các chuyên gia.
Sử dụng mạng Neural, chương trình này s ử dụng
tất cả các dữ liệu có sẵn yêu thanh toán chi phí y tế để
13

xây dựng một véctơ duy nhất được đánh giá bởi mạng
Neural duy nhất.
Ngoài ra việc xác định bằng cách sử dụng công cụ
phân tích thống kê dựa trên: Tổng số tiền hóa đơn. Tổng
số bệnh nhân. Tổng số lượng bệnh nhân truy cập. Số tiền
thanh toán trung bình cho mỗi bệnh nhân. Mỗi bệnh nhân
bình truy cập vào số điện thoại. Các xét nghiệm y tế trung
bình cho mỗi bệnh nhân.













14


CHƯƠNG II. CÁC PHƯƠNG PHÁP
KHAI PHÁ DỮ LIỆU ỨNG DỤNG
TRONG PHÁT HIỆN GIAN LẬN

2.1. Phát hiện tri thức và khai phá dữ liệu là gì ?
Phát hiện tri thức trong các cơ sở dữ liệu là một qui
trình nhận biết các mẫu hoặc các mô hình trong dữ liệu với
các tính năng: hợp thức, mới, khả ích, và có thể hiểu được.
Còn khai thác dữ liệu là một bước trong qui trình
phát hiện tri thức gồm các thuật toán khai thác dữ liệu
chuyên dùng dưới một số qui định về hiệu quả tính toán
chấp nhận được để tìm ra các mẫu hoặc các mô hình trong
dữ liệu.
2.2. Quá trình phát hiện tri thức từ cơ sở dữ liệu
Bước thứ nhất là tìm hiểu lĩnh v ực ứng dụng và
hình thành bài toán.
Bước thứ hai là thu thập và xử lý thô, còn được gọi
là tiền xử lý dữ liệu nhằm loại bỏ nhiễu, xử lý việc thiếu
dữ liệu, biến đổi dữ liệu và rút gọn dữ liệu nếu cần thiết.
Bước thứ ba là khai phá dữ liệu, hay nói cách khác
là trích ra các mẫu hoặc và các mô hình ẩn dưới các dữ
liệu.
15

Bước thứ tư là hiểu tri thức đã tìm được, đặc biệt là
làm sáng tỏ các mô tả và dự đoán.
2.3 Quá trình khai phá dữ liệu
Khai phá dữ liệu là một tập hợp các kỹ thuật được
sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn

nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và
phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập
dữ liệu đó.
2.4. Các phương pháp khai phá dữ liệu
2.4.1 Phương pháp suy diễn và quy nạp
Phương pháp suy diễn: Rút ra thông tin là kết quả
logic từ các thông tin nằm trong cơ sở dữ liệu dựa trên các
quan hệ trong dữ liệu.
Phương pháp quy nạp: Các thông tin được suy ra
từ cơ sở dữ liệu bằng phương pháp nó tự tìm kiếm, tạo
mẫu và sinh ra tri thức chứ không bắt đầu với các tri thức
đã được biết trước.
2.4.2 Phân nhóm và phân đoạn
Là kỹ thuật phân chia dữ liệu sao cho mỗi phần
hoặc mỗi nhóm giống nhau theo một tiêu chuẩn nào đó.
16

4.3 Cây quyết định
Cây quyết định là là một cấu trúc ra quyết định có
dạng cây. Phương pháp học cây quyết định được sử dụng
cho các hàm phân loại từ tập dữ liệu huấn luyện.
2.4.5 Mạng Neural
Việc xây dựng mô hình mạng Neural được dựa trên
hệ thống thần kinh của con người trong đó sử dụng nhiều
nút được nối với nhau thành một mạng lưới. Tín hiệu được
truyền từ này sang nút khác tùy thuộc vào mức tín hiệu và
cơ chế xử lý tại mỗi nút.
2.4.6 Giải thuật di truyền
Thuật toán di truyền dựa trên một ẩn dụ sinh học áp
dụng quy luật chọn lọc tự nhiên. Thuật toán di truyền gồm

có bốn quy luật cơ bản là lai ghép, đột biến, sinh sản và
chọn lọc tự nhiên.






17

CHƯƠNG III : KHAI PHÁ DỮ LIỆU
BẰNG CÂY QUYẾT ĐỊNH
3.1 Một số khái niệm cơ bản về cây quyết định:
Cây quyết định là một cấu trúc ra quyết định có
dạng cây. Cây quyết định là một trong phương pháp học
máy tiêu biểu ứng dụng trong phân loại và dự đoán. Cấu
trúc dạng cây gồm:
• Gốc: là node trên cùng của cây
• Node trong: biểu diễn một kiểm tra trên một thuộc
tính đơn (hình chữ nhật)
• Nhánh: biểu diễn các kết quả của kiểm tra trên
node trong (mũi tên)
• Node lá: biểu diễn lớp hay sự phân phối lớp (hình
tròn).
3.1.1 Ưu điểm của cây quyết định :
- Khả năng sinh ra các quy tắc hiểu được.
- Khả năng thực thi trong những lĩnh v ực hướng
quy tắc.
- Dễ dàng tính toán trong khi phân lớp.
- Khả năng xử lý với cả thuộc tính liên tục và thuộc

tính rời rạc
18

- Thể hiện rõ ràng những thuộc tính tốt nhất.
3.1.2 Điểm yếu của cây quyết định
- Dễ xảy ra lỗi khi có quá nhiều lớp.
- Chi phí tính toán đắt để đào tạo.
3.2 Các phương pháp xây dựng cây quyết định
Quá trình xây dựng cây quyết định gồm hai giai
đoạn:
• Giai đoạn thứ nhất phát triển cây quyết định:
• Giai đoạn thứ hai cắt, tỉa bớt các cành nhánh trên
cây quyết định.
Trong quá trình xây dựng cây quyết định thì việc
lựa chọn thuộc tính tốt nhất tại mỗi nút là yêu cầu quan
trọng. Do vậy các phương pháp xây dựng cây quyết định
khác nhau do thuật toán xây dựng phép kiểm tra thuộc tính
tại mỗi nút khi phân loại với mục đích tạo ra các tập con
có độ đồng nhất cao nhất.
3.2.1 Thuật toán ID3:
Thuật toán xây dựng ID3 sử dụng Entropy (HS)
làm mức đo độ đồng nhất của tập dữ liệu. Trên cơ sở
entropy, thuật toán tính độ tăng thông tin (IG) như mức
19

tăng độ đồng nhất, từ đây xác định thuộc tính tốt nhất tại
mỗi nút. Thuật toán ID3 có khuynh hướng lựa chọn cây
quyết định đơn giản cây có ít nút, trong đó những nút
tương ứng có độ tăng thông tin lớn được xếp ở gần gốc
hơn.

3.2.2 Thuật toán C4.5
Thuật toán C4.5 là thuật toán cải tiến thuật toán
ID3. C4.5 còn chứa một kỹ thuật cho phép biểu diễn lại
cây quyết định dưới dạng một danh sách sắp thứ tự các
luật if-then (một dạng quy tắc phân lớp dễ hiểu).
Thuật toán sử dụng tỷ lệ chia nhỏ những tiêu chí để
đối phó với dữ liệu huấn luyện gồm các trường hợp với
mục đích đưa ra kết quả là duy nhất.
Một phương pháp để giải quyết vấn đề bằng cách
sử dụng thông tin chia tách SliptInformtion P(S,A) và
Gain Ratio(S,A) để phạt những thuộc tính nhiều giá trị
3.2.3 Thuật toán CART:
Chỉ số Gini được sử dụng trong thuật toán CART .
Trái ngược với độ đo Gain, chỉ số Gini là độ đo về tính
“không trong suốt” của tập dữ liệu.
3.2.4 Thuật toán CHAID:
20

Thuật toán CHAID kiểm tra thống kê sử dụng phụ
thuộc vào kiểu của thuộc tính mục tiêu.
3.4.1.2 Quá vừa dữ liệu (data overfitting)
Quá vừa dữ liệu (data overfitting) là vấn đề thường
gặp trong học máy, điều này ảnh hưởng đến độ chính xác
của kỹ thuật học máy.
Có hai hướng giải pháp chính để hạn chế quá vừa
dữ liệu cho cây quyết định:
- Dừng cây quyết định sớm trước khi cây đủ phức
tạp để phân loại đúng mẫu huấn luyện.
- Xây dựng cây đầy đủ, sau đó cắt tỉa để có cây đơn
giản. Phương pháp này được sử dụng trên thực tế.

3.4.1.3 Cơ chế riêng trong xử lý những giá trị thiếu
Giá trị thiếu của thuộc tính là hiện tượng phổ biến
trong dữ liệu, có thể do lỗi khi nhập các bản ghi vào cơ sở
dữ liệu, cũng có thể do giá trị thuộc tính đó được đánh giá
là không cần thiết đối với trường hợp cụ thể.
3.4.1.4 Chuyển đổi từ cây quyết định sang luật:
Giai đoạn chuyển dổi từ cây quyết định sang luật
bao gồm 4 bước:
21

• Cắt tỉa.
• Lựa chọn.
• Sắp xếp.
• Ước lượng, đánh giá.
3.4.2 Phương pháp cắt tỉa cây
Phương pháp cắt tỉa các luật được thuật toán C4.5
như sau:
• Xây dựng cây quyết định cho phép phân loại
đúng tối đa tập huấn luyện.
• Biến đổi cây thành luật suy diễn sao cho mỗi
nhánh từ gốc đến là tương ứng với một luật.
• Tỉa từng luật bằng cách bỏ bớt các điều kiện
thành phần nếu sau khi bỏ độ chính xác tăng lên.
• Sắp xếp các luật đã đư ợc tỉa theo độ chính
xác trên tập kiểm tra. Sử dụng luật theo thứ tự đó để phân
loại ví dụ mới.





22

CHƯƠNG IV: XÂY DỰNG VÀ CÀI ĐẶT BÀI TOÁN
Bảo hiểm y tế đang tiến tới mục tiêu thực hiện lộ
trình bảo hiểm y tế toàn dân đúng thời hạn vào năm 2015,
bên cạnh chủ động xây dựng kế hoạch hoạt động cụ thể,
chặt chẽ để đảm bảo quyền lợi cho người bệnh khi tham
gia khám chữa bệnh bằng thẻ BHYT. Theo đó, thì vi ệc
tăng cường giám sát quy trình thực hiện dịch vụ y tế và
các loại vật tư tiêu hao, thuốc đã sử dụng đảm bảo chất
lượng theo quy định cũng như chống lạm dụng quỹ BHYT
là một yêu cầu cần thiết đặc biệt trong lộ trình tăng giá
dịch vụ y tế do Bộ Y tế ban hành.
Trong luận văn này xét phạm vi bài toán dựa trên
các dịch vụ y tế đối với bệnh nhân nội trú, cụ thể trên chi
phí có khả năng bị lạm dụng cao như tiền xét nghiệm, tiền
chuẩn đoán hình ảnh, tiền thuốc và một số yếu tố ảnh
hưởng đến chi phí khám chữa bệnh.
Trong tiến trình trên, thông tin đ ầu vào là chi tiết
chi phí khám chữa bệnh của bệnh nhân, thông tin chung
của bệnh nhân trong kho dữ liệu lưu trữ sẽ được trích chọn
và xử lý.
23

Dữ liệu trích chọn:
Căn cứ vào phân tích đánh giá từng mức chi phí
dựa trên dữ liệu tại Bệnh viện Đức Giang năm 2011 xét
trên một mã bệnh là đau tức vùng ngực (từ I10-I69).
Dữ liệu trích chọn gồm: 8 trường dữ liệu, gồm ID
mã bệnh nhân, các trường được lựa chọn là các chi phí cơ

bản của một bệnh nhân khi nằm nội trú tại bệnh viện và
các yếu tố ảnh hưởng đến các chi phí đó như độ tuổi của
bệnh nhân (được tính trên đơn vị nghìn đồng), tình trạng
điều trị của người bệnh. Cụ thể:
Bảng dữ liệu huấn luyện gồm 9 trường và 43 mẫu.
Các trường gồm các chi phí: Tiền xét nghiệm, tiền chuẩn
đoán hình ảnh, tiền thuốc và tổng chi phí, và các yếu tố
ảnh hưởng đến chi phí như độ tuổi, số bệnh trong một đợt
bệnh nhân phải điều trị và tình trạng bệnh nhân khi nằm
viện (có cấp cứu hay không).
Dữ liệu kiếm tra:
Từ dữ liệu lưu trữ ta trích chọn và xử lý các trường
để phù hợp với Bảng dữ liệu huấn luyện. Ví dụ: Ta xét
trong 236 trường hợp trong một đợt điều trị. Trong đó
24

trường gian lận được gán bằng ‘No’. Việc đánh giá mô
hình dựa trên kết quả và đánh giá trên dữ liệu kiểm tra.
4.1.2 Công nghệ sử dụng:
Chương trình được viết bằng ngôn ngữ C++, cơ sở
dữ liệu Microsoft Access (hoặc sử dụng DBMS truy cập
bằng ODBC). ODBC máy chủ được cài đặt trong cùng
một máy.
Trong chương trình có s ử dụng một số module mã
nguồn mở.
4.3 Thử nghiệm và đánh giá
4.3.1 Phương pháp thử nghiệm
Trên cơ sở phân tích đánh giá trên đã rút ra các
yếu tố, các chi phí liên quan ảnh hưởng đến tổng chi phí
khám chữa bệnh để xây dựng bảng dữ liệu huấn luyện.

Dữ liệu thử nghiệm được lấy từ kho dữ liệu của
Bệnh viện sau khi đã qua các bư ớc định dạng, xử lý theo
yêu cầu về tên trường, các thuộc tính như trong tập dữ
liệu bảng huấn luyện.
Dữ liệu thử nghiệm đưa vào chương trình sau khi
đã xây dựng cây quyết định và tạo xong tập luật. Chương
25

trình sẽ thống kê số lượng các bản ghi nghi ngờ có khả
năng gian lận và đưa ra các bản ghi đó.
4.3.2 Dữ liệu thử nghiệm:
Tập dữ liệu thử nghiệm là tập dữ liệu nhỏ với 236
bản ghi được lấy từ kho dữ liệu. Dữ liệu thử nghiệm
được trích chọn trên cùng một mã bệnh và được xử lý
phù hợp với dữ liệu tập huấn luyện như tên các trường và
thuộc tính của dữ liệu.
4.3.3 Kết quả thử nghiệm:
Sau khi dữ liệu kiểm tra được đưa vào chương
trình, căn cứ vào cây quyết định đã được xây dựng và tập
luật phát sinh sau khi đã hoàn thành việc cắt tỉa.
Kết quả thu được sau khi đưa dữ liệu kiểm tra vào,
chương trình phát hiện 6/243 bản ghi bị lỗi và đưa danh
sách các bản ghi.
4.3.4 Đánh giá kế t quả thử nghiệm
Với số bản ghi đưa vào 243 sau kiểm tra phát hiện
ra 6 trường hợp với tỷ lệ (2,5%) có dấu hiệu gian lận.

×