Đồ Án Nghiên Cứu Kỹ Thuật Khai Phá Dữ Liệu Và Ứng Dụng Trong Hệ Thống Chẩn Đoán Bệnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (649.32 KB, 25 trang )

ĐỒ ÁN CHUYÊN NGÀNH
ĐỀ TÀI
NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆUVÀ ỨNG DỤNG TRONG
HỆ THỐNG CHẨN ĐOÁN BỆNH

GVHD: NCS. Lê Thanh Long
SV : Nguyễn Huy Mạnh
Lớp : K14 TPM1
Khoa : Công nghệ thông tin

NỘI DUNG
I) LÝ THUYẾT KHAI PHÁ DỮ LIỆU
1) Định nghĩa
2) Tiền xử lý dữ liệu
II ) PHÂN LỚP VÀ DỰ ĐOÁN
1) Phân lớp
2) Dự đoán
3) Cây quyết định
4) Thuật toán ID3
III) HỆ THỐNG CHẨN ĐOÁN BỆNH
1) Phân tích hệ thống
2) Demo
IV) TÀI LIỆU THAM KHẢO

I) Lý thuyết khai phá dữ liệu
1) Định nghĩa
Định nghĩa khai phá dữ liệu : khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng
để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ
liệu khổng lồ và phức tạp.

Quá trình phát hiện tri thức thường tuân theo các bước sau :
B1: Hình thành và định nghĩa bài toán

B2: Thu thập và tiền xử lý dữ liệu
B3: Khai phá dữ liệu và rút ra các tri thức
B4: Sử dụng các tri thức phát hiện được

I) Lý thuyết khai phá dữ liệu
2) Tiền xử lý dữ liệu
Các Kỹ thuật datamining đều
thực hiện trên các cơ sở dữ
liệu, nguồn dữ liệu lớn. Đó là
kết quả của quá trình ghi
chép liên tục thông tin phản
ánh

hoạt

người,

các

động
quá

của

con

trình

tự

nhiên… Tất nhiên các dữ liệu
lưu trữ hoàn toàn là dưới
dạng thô, chưa sẵn sàng cho
việc phát hiện, khám phá
thông tin ẩn chứa trong đó

I) Lý thuyết khai phá dữ liệu
1 ) Làm sạch dữ liệu
a.) Thiếu giá trị
 Điền vào các giá trị thiếu bằng tay
 Sử dụng các giá trị quy ước để điền vào cho giá trị thiếu
 Sử dụng các thuộc tính có nghĩa là để điền vào cho giá trị thiếu
 Sử dụng các giá trị của bộ cùng thể loại để thay thế cho giá trị thiếu
 Sử dụng giá trị có tỉ lệ xuất hiện cao để điền vào cho các giá trị thiếu
b) Dữ liệu nhiễu
Nhiễu dữ liệu là một lỗi ngẫu nhiên hay do biến động của các biến trong quá trình thực hiện,
hoặc sự ghi chép nhầm lẫn ko được kiểm soát…
b.1 Phương pháp làm mịn Binning
Cho Mảng lưu giá sau : 2,5,7,8,8,20,90,92,100
Phân thành các bin

phương pháp trung vị

làm mịn biên

Bin 1: 2,5,7

Bin 1: 5,5,5

Bin 1: 2,7,7

Bin 2: 8,8,20

Bin 2: 9,9,9

Bin 1: 8,8,20

Bin 3: 90,92,100 Bin 3: 93,93,93

Bin 1: 90,90,100

I) Lý thuyết khai phá dữ liệu
b.2 Nhóm cụm: Các giá trị tương tự nhau được tổ chức thành các nhóm
hay “cụm" trực quan. Các giá trị rơi ra bên ngoài các nhóm này sẽ được
xem xét để làm mịn.

b.3 Hồi quy tuyến tính
Độ tuổi
46
20
52
30
57

25
28
36
22
43
57
33
22
63
40
48
28
49

Tỉ trọng(BMI)
25.4
20.6
26.2
22.6
25.4
23.1
22.7
24.9
19.8
25.3
23.2
21.8
20.9
26.7
26.4

21.2
21.2
22.8

cholesterol
3.5
1.9
4
2.6
4.5
3
2.9
3.8
2.1
3.8
4.1
3
2.5
4.6
3.2
4.2
2.3
4

Màu đen : giá trị tiên đoán trung bình
Màu đỏ : giá trị tiên đoán với khoảng tin cậy 95%
Màu xanh : giá trị tiên đoán độ cholesterol mới trong quần thể

2) Tích hợp dữ liệu

Nguồn dữ liệu dùng để phân tích không thông nhất. Để có thể phân tích được, các
dữ liệu này cần phải được tích hợp, kết hơp thành một kho dữ liệu thống nhất.
Nguồn dữ liệu có thể được lưu trữ rất đa dạng từ: các cơ sở dữ liệu phổ dụng, các
tập tin flat-file, các dữ liệu khối…
Việc tích hợp cần thông tin diễn tả tính chất của thuộc tính(siêu dữ liệu ) như: tên,ý
nghĩa, kiểu dữ liệu …các siêu dữ liệu này sẽ được sử dụng giúp chuyển đổi các dữ
liệu

3) Biến đổi dữ liệu
Làm mịn

Khái quát hóa dữ liệu

Tổng hợp

Xác định thêm thuộc tính

Chuẩn hóa
Phương pháp min-max
Ví dụ: Giả sử giá trị nhỏ nhất và lớn nhất cho thuộc tính “thu nhập bình
quân” là 500.000 và 4.500.000. Chúng ta muốn ánh xạ giá trị 2.500.000
về khoảng [0.0, 1.0] sử dụng chuẩn hóa min- max. Giá trị mới thu được là

2.500.000 − 500.000
2.000.000
(1.0 − 0) + 0 =
v=
= 0 .5
4.500.000 − 500.000

4.000.000

4) Rút gọn dữ liệu
Lựa chọn tăng dần

Loại bớt

Tập thuộc tính ban đầu

Tập thuộc tính ban đầu

Tập thuộc tính ban đầu

{A1, A2, A3, A4, A5, A6}

{A1, A2, A3, A4, A5, A6}

{A1, A2, A3, A4, A5, A6}

Tập rút gọn ban đầu

=> {A1, A3, A4, A5, A6}

=> Kết quả {A1, A4, A6}

{}

=> {A1, A4, A5, A6}

=> {A1}

=> Kết quả {A1, A4, A6}

=> {A1, A4}
=> Kết quả {A1, A4, A6}

Ví dụ kỹ thuật rút gọn

Cây quyết định

II) Phân lớp và dự đoán
1. Phân lớp Phân lớp dữ liệu là tiến trình có 2 bước
 Huấn luyện:
 Phân lớp:

II) Phân lớp và dự đoán

2. Dự đoán
Dự đoán dữ liệu là một quá trình gồm hai bước, nó gần giống với quá trình
phân lớp. Tuy nhiên để dự đoán, chúng ta bỏ qua khái niệm nhãn phân lớp
bởi vì các giá trị được dự đoán là liên tục (được sắp xếp) hơn là các giá trị
phân loại.
Ví dụ thay vì phân loại xem một khoản vay có là an toàn hay rủi do thì chúng ta
sẽ dự đoán xem tổng số tiền cho vay của một khoản vay là bao nhiêu thì
khoản vay đó là an toàn.

II) Phân lớp và dự đoán
3. Cây quyết định
Cây quyết định là một phương pháp rất mạnh và phổ biến cho cả hai nhiệm
vụ của khai phá dữ liệu là phân loại và dự báo. Mặt khác, cây quyết định còn
có thể chuyển sang dạng biểu diễn tương đương dưới dạng tri thức là các
luật nếu - thì (If-Then).
Cây quyết định là cấu trúc biễu diễn dưới dạng cây.
•Mỗi nút trong biễu diễn một thuộc tính,
•nhánh biễu diễn giá trị có thể có của thuộc tính,
•Mỗi lá biểu diễn các lớp quyết định
•Gốc là đỉnh trên cùng của cây
Cây quyết định có thể được dùng để phân lớp bằng cách xuất phát từ gốc
của cây và di chuyển theo các nhánh cho đến khi gặp nút lá. Trên cơ sở
phân lớp này chúng ta có thể chuyển đổi về các luật quyết định.

II) Phân lớp và dự đoán
4. Thuật toán ID3 : Giải thuật quy nạp cây ID3 (gọi tắt là ID3)
ID3 biểu diễn các khái niệm ở dạng các cây quyết định .Biểu diễn này cho
phép chúng ta xác định phân loại của một đối tượng bằng cách kiểm tra các
giá trị của nó trên một số thuộc tính nào đó.
giải thuật có:
Đầu vào: Một tập hợp các ví dụ. Mỗi ví dụ bao gồm các thuộc tính mô tả một
tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó.
Đầu ra: Cây quyết định có khả năng phân loại đúng đắn các ví dụ trong tập dữ
liệu rèn luyện, và hy vọng là phân loại đúng cho cả các ví dụ chưa gặp trong
tương lai.

4. Thuật toán ID3(tt)

Entropy đo tính thuần nhất của tập ví dụ
Entropy(S) = -p+log2p+ - p-log2pTập S là tập dữ liệu rèn luyện, p+ , p- là phần các ví dụ dương, âm trong tập S
 nếu các ví dụ của tập S thuộc nhiều hơn hai loại, giả sử là có c giá trị phân loại thì
công thức entropy tổng quát là:
C

Entropy(S) = ∑− pi log 2 pi
i =1

 Entropy có giá trị nằm trong khoảng [0..1]
 Entropy(S) = 0  tập ví dụ S chỉ toàn ví dụ thuộc cùng một loại, hay S là thuần
nhất.
 Entropy(S) = 1  tập ví dụ S có các ví dụ thuộc các loại khác nhau với độ pha
trộn là cao nhất.
 0 < Entropy(S) < 1  tập ví dụ S có số lượng ví dụ thuộc các loại khác nhau là
không bằng nhau.

II) Phân lớp và dự đoán
4. Thuật toán ID3(tt)
Lượng thông tin thu được đo mức độ giảm entropy mong đợi

| Sv |
Gain( S , A) = Entropy ( S ) − ∑
Entropy ( S v )
v∈Values ( A ) | S |

Trong đó Gain(S,A) của thuộc tính A, trên tập S
Values(A) là tập hợp có thể có các giá trị của thuộc tính A, và S V là tập con của S
chứa các ví dụ có thuộc tính A mang giá trị v.

III) HỆ THỐNG CHẨN ĐOÁN BỆNH
1) Phân tích hệ thống
Cho một bảng dữ liệu da rám nắng sau :
TT

Màu tóc

Chiều cao

Cân nặng

Dùng thuốc?

Kết quả

1

Đen

Tầm thước

Nhẹ

Không

Bị rám

2

Đen

Cao

Vừa phải

Có

Không

3

Râm

Thấp

Vừa phải

Có

Không

4

Đen

Thấp

Vừa phải

Không

Bị rám

5

Bạc

Tầm thước

Nặng

Không

Bị rám

6

Râm

Cao

Nặng

Không

Không

7

Râm

Tầm thước

Nặng

Không

Không

8

Đen

Thấp

Nhẹ

Có

Không

Áp dụng thuật toán ID3 giải quyết.
Chọn thuộc tính phân hoạch dựa vào các vector đặc trưng:
Màu tóc
Vmàu tóc=(T(đen,rám),T(đen,không rám)) =(2/8,2/8)
Vmàu tóc =(T(râm,rám), T(râm,không rám))= (0/8,3/8)
Vmàu tóc =(T(bạc,rám),T(bạc,không rám))= (1/8,0/8)

Chiều cao:
Vchiều cao = (T(tầm thước,rám), T(tầm thước,không rám))= (2/8, 1/8)
Vchiều cao = (T(cao, rám), T(cao,không rám)) = (0/8, 2/8)
Vchiều cao =(T(thấp,rám), T(thấp,không rám))= (1/8, 2/8)
Cân nặng:
Vcân nặng= (T(nhẹ,rám), T(nhẹ,không rám)) = (1/8, 1/8)
Vcân nặng = (T(vừa phải,rám), T(vừa phải, không rám)) = (1/8, 2/8)
Vcân nặng = (T (nặng, rám), T(nặng, không rám)) = (1/8, 2/8)
Dùng thuốc:
Vdùng thuốc= (T(không, rám), T(không, không rám)) = (3/8, 2/8)
Vdùng thuốc = (T(có,rám), T(có, không rám)) = (0/8, 3/8)
Thuộc tính Màu tóc có nhiều vector đơn vị nhất nên ta chọn thuốc tính màu tóc để phân hoạch

Màu tóc

Đen(1,2,4,8)

Bạc(5)
(Rám)

Râm(3,6,7)
(Không

rám)
Tiếp theo cần phân hoạch tập P1=(1,2,4,8)
TT

Chiều cao

Cân nặng

Dùng thuốc?

Kết quả

1

Tầm thước

Nhẹ

Không

Bị rám

2

Cao

Vừa phải

Có

Không

4

Thấp

Vừa phải

Không

Bị rám

8

Thấp

Nhẹ

Có

Không

III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Tính các vector đặc trưng:

Dùng thuốc

Chiều cao:
Vchiềucao =(T(tầm thước,rám), T(tầm thước, không rám)) = (1/4,
0/4)
Vchiềucao= (T(thấp, rám), T(thấp, không rám)) = (1/4 , 1/4)
Vchiềucao= (T(cao, rám), T(cao, không rám)) = (0/4, 1/4)
Cân nặng:
Vcân nặng= (T(nhẹ, rám), T(nhẹ, không rám)) = (1/4,1/4)
Vcân nặng= (T(vừa phải, rám), T(vừa phải, không rám)) =(1/4,1/4)

Dùng thuốc:
Vdùngthuốc = (T(có, rám), T(không, rám)) = (0/4, 2/4)
Vdùng thuốc = (T(không, rám), T(không, không rám)) =(2/4, 0/4)
Chọn thuộc tính Dùng thuốc làm thuộc tính phân hoạch

Có (2,8)
Không(1,4)
(không rám)

(Rám)

III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Kết quả, ta có cây định danh sau:

Màu tóc

Có( 2, 8)

Đen(1,2,4,8)

Bạc(5)

Râm(3,6,7)

Dùng thuốc

(Rám)

(Không rám)

Không(1,4)

III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Từ cây định danh trên, ta suy ra các luật:

IF Tóc bạc THEN Rám
IF Tóc râm

THEN không bị rám

IF (Tóc đen, có dùng thuốc) THEN không rám
IF (Tóc đen, không dùng thuốc) THEN Rám

III) HỆ THỐNG CHẨN ĐOÁN BỆNH
USE CASE HỆ THỐNG

III) HỆ THỐNG CHẨN ĐOÁN BỆNH
Đặc tả chức năng
Chức năng tra cứu thuốc : người dùng sẽ nhập vào tên của loại thuốc cần biết thông tin chi tiết .
Hệ thống sẽ hiên thị thông tin về loại thuốc đó gồm tên thuốc, quy cách, hàm lượng,cách dùng, chỉ
định , chống chỉ định …
Chức năng tra cứu bênh : Người dùng sẽ nhập vào tên bệnh (không viết dấu)
Hệ thống sẽ hiển thị thông tin về bệnh mà người dùng gõ vào gồm các thông tin bệnh đó thuộc
nhóm bệnh nào, tên tiếng anh của loại bệnh đó, chi tiết hội chứng bệnh .
Tùy thuộc vào nhà thiết kế mà có thể liệt kê thêm các thông tin theo yêu cầu.
Chức năng sổ tay chẩn đoán bệnh : người dùng sẽ trả lời một số cầu hỏi mà phần mềm đưa

ra ,khi trả lời xong hệ thống sẽ chẩn đoán dự vào các thuật toán. kết quả là loại bệnh gì.
Điều kiện thực hiện chức năng chẩn đoán là phải có cơ sở dữ liệu dạng chuẩn
Chức năng khai phá dữ liệu: Dựa vào thuật toán (cây quyết định và thuật toán ID3 ) đưa ra tập
luật và cây quyết định.

IV) TÀI LIỆUTHAM KHẢO
1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005
2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001.
3. Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan Kaufmann
Publishers, 2002
5. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,
University of Illinois, Morgan Kaufmann Publishers, 2002

Đồ Án Nghiên Cứu Kỹ Thuật Khai Phá Dữ Liệu Và Ứng Dụng Trong Hệ Thống Chẩn Đoán Bệnh

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về