Tải bản đầy đủ (.docx) (16 trang)

Hướng dẫn sử dụng các thuật toán trong khai phá dữ liệu để chẩn đoán bệnh, áp dụng dựa trên cơ sở dữ liệu bệnh nhân, đặc tả cho bệnh viện đa khoa Hoàn Mỹ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (209.71 KB, 16 trang )

Hướng dẫn sử dụng các thuật toán trong khai
phá dữ liệu để chẩn đoán bệnh, áp dụng dựa
trên cơ sở dữ liệu bệnh nhân, đặc tả cho bệnh
viện đa khoa Hoàn Mỹ

Báo cáo bởi Phan Trường Giang

1


Thành phố Hồ Chí Minh
Tháng 01,2019

Mục lục

Lời mở đầu
Bài viết trình bày về cách áp dụng thuật tốn cho hệ thống tin y tế trong việc chẩn
đoán các bệnh về ruột. Trong bài viết này, CMC SISG chủ yếu áp dụng để chẩn đoán
bệnh về ruột già - loại bệnh dễ dẫn đến ung thư trực tràng và bệnh Crohn (các bệnh về
viêm nhiễm trùng ruột). Để tìm ra các quy tắc phân biệt hai bệnh này, các phương
pháp khai thác và thống kê dữ liệu được sử dụng và phối hợp cùng nhau để hiện kết
quả phân loại và hỗ trợ chẩn đốn.
Mục đích của đề tài: áp dụng thuật toán máy học được sử dụng để giải quyết các loại
vấn đề phân loại trong y học. Trong đó, giới hạn của đề tài là các vấn đề về ruột, cụ thể
là viêm loét đại tràng. Bệnh viêm loét đại tràng ảnh hưởng đến đại tràng hoặc trực
tràng và phá hủy phần trong cùng của niêm mạc. Viêm loét đại tràng gây viêm và loét
ở ruột già, có thể gây ra cảm giác muốn đi cầu thường xuyên, gây xuất huyết khi đi
ngồi, và có khả năng dẫn đến tử vong. Có khoảng 11,2 triệu người nhiễm bệnh vào
năm 2015 (theo GBD 2015 Căn bệnh và tỷ lệ mắc bệnh công bố ngày 8 tháng 10 năm
2016. trong tạp chí “Global, regional, and national incidence, prevalence, and years
TRANG 2




lived with disability for 310 diseases and injuries, 1990-2015: a systematic analysis for
the Global Burden of Disease Study 2015.”). Theo thống kê của Bộ Y tế, số lượng
người Việt Nam mắc bệnh đại tràng mãn tính đã lên tới 4 triệu người, cao gấp 4 lần tỷ
lệ mắc bệnh trung bình trên tồn cầu, lớn hơn tổng lượng người mắc bệnh của tồn
châu Âu. (VTV- 02/04/2018). Vì vậy, đề tài này mang tính thiết thực đối với ngành y
học của Việt Nam nói riêng.
Nội dung bài trình bày
1. Giới thiệu và những giả định được đặt ra.
2.1. Giới thiệu.
Các thuật toán Machine Learning đã được sử dụng rộng rãi để giải quyết các
loại vấn đề phân loại dữ liệu khác nhau trong y học. Viêm loét đại tràng là một căn
bệnh gây viêm đại tràng lâu dài, tạo ra kích ứng hoặc loét dẫn đến xuất huyết. Điều
này có thể dẫn đến suy nhược cơ thể, đau bụng và các biến chứng có khả năng đe dọa
tính mạng. Nó ảnh hưởng đến đại tràng hoặc trực tràng và phá hủy phần trong cùng
của niêm mạc ruột. Viêm loét đại tràng gây viêm và loét ở ruột già, có thể gây ra cảm
giác thường xuyên cần phải đi tiêu. Nguyên nhân chính xác của bệnh khơng được biết
đến, do đó tìm kiếm nguồn gốc bệnh, phát hiện sớm là vô cùng quan trọng.
2.2. Những giả định.
Nhóm tác giả làm việc trên dữ liệu được trình bày dưới dạng bảng quyết
S = (X ; A; V) trong đó:
• X là tập hợp các đối tượng khơng trống, hữu hạn,
• A là tập hợp các thuộc tính khơng trống, hữu hạn,
• V (Va: a thuộc A) A là tập hợp tất cả các giá trị thuộc tính.
Ngồi ra, a: X-> Va: Va là một hàm cho bất kỳ a thuộc A, giá trị thuộc tính của một
đối tượng đã cho. Các thuộc tính được chia thành các loại khác nhau: bộ thuộc tính ổn
định ASt (ví dụ: ngày sinh, nơi sinh, màu da), bộ thuộc tính linh hoạt AFl (huyết áp,
cân nặng, mức đường) và bộ thuộc tính quyết định D (ví dụ: phương pháp điều trị, loại
bệnh)


sao cho A:

TRANG 3


Trong bài báo này, chúng tơi phân tích các hệ thống thơng tin chỉ với một thuộc
tính quyết định D. Ví dụ về hệ thống thơng tin được trình bày dưới dạng Bảng 1

Hệ thống thông tin được đại diện bởi tám đối tượng, một thuộc tính ổn định a
(giá trị của nó khơng thể thay đổi), hai thuộc tính linh hoạt b; c (giá trị của chúng có
thể thay đổi trong một số điều kiện) và một thuộc tính quyết định
2. Những phương pháp luận và kỹ thuật được trình bày và áp dụng.
1

Classification - Phân loại.

Trình phân loại là một thuật toán thực hiện phân loại, đặc biệt là trong việc triển
khai. Có nhiều cách phân loại khác nhau và nhiều loại kết quả phân loại khác nhau.
Đặc biệt là làm việc với dữ liệu y tế, để quyết định thuật toán phân loại nào là hiệu quả
nhất cho tập hợp dữ liệu đã cho. Việc hiểu biết rộng về dữ liệu y tế và quyết định chọn
cách phân loại phù hợp, sẽ cho một kết quả tốt hơn.
Có hai lựa chọn: Đầu tiên, tin vào ý kiến chuyên gia. Hai là, chạy thử các cách
phân loai trên tập dữ liệu dataset, cân nhắc các kết quả và chọn phương pháp phân loại
phỳ hợp. trong bài nghiên cứu, nhóm những nhà nghiên cứu đã sử dụng phương pháp
phân loại, trong đó bao gồm kỹ thuật khai thác dữ liệu và phương pháp thống kê nhằm
chia các đối tượng thành các tập dữ liệu khác nhau.
Trong bước đầu tiên, nhóm nghiên cứu mơ tả một tập hợp dữ liệu được xác
định trước trên cơ sở hồi quy. Mỗi tập hập được giả định là thuộc về một nhóm được
TRANG 4



xác định trước theo thuộc tính phân loại. Tập hợp dữ liệu được sử dụng để xây dựng
mơ hình, được gọi là training sets. Mơ hình có thể được biểu diễn theo các quy tắc
phân loại, cây quyết định hoặc các cơng thức tốn học. Mơ hình được sử dụng để dự
đoán các xu hướng dữ liệu trong tương lai, hoặc phân loại lại các đối tượng. Mơ hình
ước tính độ chính xác của căn cứ trên các training sets. Test sets luôn độc lập với các
training sets.
2.3. Decision tree- Cây quyết định.
Trong số các phương pháp phân loại, một trong những phương pháp phổ biến
nhất là cây quyết định. Nó đặc biệt vì cách thức biểu diễn tri thức được hiểu theo con
người. So với các phương pháp phân loại khác, cây quyết định có thể được xây dựng
tương đối nhanh chóng.
Ưu điểm chính của họ là thể hiện rõ ràng kiến thức, khả năng sử dụng dữ liệu
đa chiều và khả năng mở rộng với việc sử dụng các tập dữ liệu lớn. Ngồi ra, cịn phải
kể đến độ chính xác của phương pháp này .
Tuy nhiên, nhược điểm chính của phương pháp này là độ nhạy cảmvới các giá
trị thiếu của các thuộc tính. Những nhược điểm khác như khơng có khả năng nắm bắt
được mối tương quan giữa các thuộc tính. Do đó, nhóm nghiên cứu sử dụng thuật toán
ERID trước tiên, giúp giảm một số giá trị bị thiếu trong tập dữ liệu với độ chính xác
cao.
Thuật tốn tạo cây quyết định có thể được viết như sau:
• Đối với một tập hợp các đối tượng đã cho, sử dụng thuật tốn ERID, nhóm
nghiên cứu tìm thấy tất cả các giá trị thiếu của thuộc tính, biểu diễn mối quan
hệ và
hồn thiện hế thống.
• Kiểm tra các thuộc tính tương ứng với các đối tượng. Nhóm nghiên cứu kiểm
tra xem chúng có thuộc cùng một nhóm hay khơng (nếu chúng thuộc về một
nhóm- kết thúc q trình, nếu chúng khơng thuộc về nhau - xem xét các thuộc
tính để chia thành các tập hợp con đồng nhất).

• Đánh giá chất lượng của từng tập dữ liệu con theo tiêu chí được chấp nhận
trước đó.
• Chia các đối tượng theo nhóm các thuộc tính.
TRANG 5


• Lặp lại các bước trên cho mỗi tập con.
Theo cách hiểu của cá nhân, phần này được nhóm nghiên cứu thực hiện như sau:
• Bước 1: t là chọn ra một feature (đặc trưng) nào đó từ Feature Vector để phân
chia dữ liệu vào các nhánh. Với feature được chọn, dữ liệu sẽ được chia thành
các tập con. Tập con #1 sẽ đi vào nhánh #1, tập con #2 sẽ đi vào nhánh #2.
• Bước 2: Nếu tồn bộ dữ liệu của một tập con cùng thuộc một category (có độ
vẩn đục là 0) thì coi như q trình phân loại đã kết thúc và quyết định sẽ được
đưa ra.
• Bước 3: Ngược lại, chúng ta sẽ cần chọn ra một feature khác để tiếp tục phân
loại dữ liệu thành các tập con nhỏ hơn. Quá trình này sẽ lặp lại cho đến khi có
thể phân loại tất cả dữ liệu một cách chính xác.

2.4. Support Vector Machine (SVM).
Support Vector Machine - Thuật tốn SVM ban đầu được tìm ra bởi Vladimir
N. Vapnik và dạng chuẩn hiện nay sử dụng lề mềm được tìm ra bởi Vapnik và Corinna
Cortes năm 1995. SVM là một thuật toán phân loại nhị phân. Với một bộ các ví dụ
luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một mơ
hình SVM để phân loại các ví dụ khác vào hai thể loại đó. Một mơ hình SVM là một
cách biểu diễn các điểm trong không gian và lựa chọn ranh giới giữa hai thể loại sao
cho khoảng cách từ các ví dụ luyện tập tới ranh giới là xa nhất có thể.
Support vector machine (SVM) xây dựng (learn) một siêu phẳng (hyperplane)
để phân lớp (classify) tập dữ liệu thành 2 lớp riêng biệt (Một siêu phẳng là một hàm
tương tự như phương trình đường thẳng, y = ax + b. ). Về ý tưởng thì SVM sử dụng
thủ thuật để ánh xạ tập dữ liệu ban đầu vào không gian nhiều chiều hơn. Khi đã ánh xạ

sang không gian nhiều chiều, SVM sẽ xem xét và chọn ra siêu phẳng phù hợp nhất để
phân lớp tập dữ liệu đó.
Trong tài liệu này, thuật tốn SVM có lợi thế là nó khơng ảnh hưởng đến cực
tiểu tối thiểu. Chúng tôi đã sửa đổi phương pháp này và các ràng buộc. Do đó, các siêu
mặt phẳng được xây dựng độc lập hơn. Quy trình chính bắt đầu với việc phân vùng tất
TRANG 6


cả các đối tượng thành các cụm dày đặc. Bước tương tự được lặp lại cho tất cả các đối
tượng tích cực cũng chia chúng thành các cụm dày đặc.. Lấy dữ liệu y tế với 152
trường hợp bị ảnh hưởng bởi viêm lt đại tràng, ví dụ, chúng tơi cho thấy rằng sự hỗ
trợ và tin cậy chung của các quy tắc, được trích xuất từ cơ sở dữ liệu đó.

Trong khơng gian hai chiều, hai nhóm có thể được phân tách bằng một dịng, sử
dụng phương trình ax+by < c cho nhóm thứ nhất và ax+by >c cho nhóm thứ hai.
Ưu điểm của SVM, là SVM có tính năng cho phép bỏ qua các ngoại lệ và tìm ra
hyper-plane có biên giới tối đa . Do đó chúng chúng ta có thể nói, SVM có khả năng
mạnh trong việc chấp nhận ngoại lệ.
Để chọn siêu phẳng(hyper -plane) tốt nhất có thể và giảm thiểu rủi ro của việc
nhiễu, điều rất quan trọng là tìm một biên độ tối đa giữa hai lớp. Đây là một vấn đề tối
ưu hóa điển hình có thể được giải quyết bằng cơng thức Lagrangian. Sau khi tìm thấy
siêu phẳng tối ưu, chỉ các điểm dữ liệu gần nhất với siêu phẳng sẽ có trọng số dương,
trong khi các điểm khác sẽ bằng khơng.
2.5. Đánh giá các kết quả phân tích.
Mỗi cách phân loại nên được đánh giá về chất lượng. Đối với mục đích này, hai
bộ dữ liệu là cần thiết. Bộ training set, được gọi là dành cho việc phân loại. Validation
test được sử dụng để kiểm tra các phân loại.
Trong cả hai bộ, cần phải biết các mẫu thuộc về các lớp nào. Trong nhiều trường hợp,
việc phân chia dữ liệu thành một bộ giảng dạy và kiểm tra không được đưa ra. Sau đó,
một phân chia ngẫu nhiên thành hai bộ tách rời có thể được thực hiện lặp đi lặp lại,

TRANG 7


thường là chọn theo cách bộ training test sẽ có số lượng dữ liệu nhỏ hơn bộ validation
test. Trong trường hợp như vậy, chúng tơi có một cách đơn giản. Một kiểu xác nhận
khác là xác thực k-Fold được gọi là kiểm tra chéo k-Fold (hay còn được gọi là xác
thực chéo k-Fold Toàn bộ dữ liệu được chia thành K tập con. Q trình học của máy
có K lần. Trong mỗi lần, một tập con được dùng để kiểm tra và K-1 tập còn lại dùng
để dạy.
2.6. Các giá trị xác định.
Các số liệu khác nhau được sử dụng để đánh giá bộ phân loại. Để trình bày các
số liệu được sử dụng trong bài báo cáo, các chỉ định về trình bày số liệu như trong
Bảng 1. Trong lĩnh vực machine learning, cụ thể là vấn đề phân loại thống kê, ma trận
nhầm lẫn (Bảng 2), còn được gọi là ma trận lỗi, là cách bố trí bảng cụ thể của việc học
được giám sát- supervised learning. Đây là một phương pháp đánh giá kết quả của
những bài toán phân loại với việc xem xét cả những chỉ số về độ chính xác và độ bao
quát của các dự đoán cho từng lớp. Một confusion matrix gồm 4 chỉ số sau đối với mỗi
lớp phân loại:

Để đơn giản hóa, ta sẽ sử dụng lại bài tốn về chẩn đốn bệnh ung thư trực
tràng để giải thích 4 chỉ số này. Trong bài toán chuẩn đoán ung thư trực tràng ta có 2
TRANG 8


lớp: lớp bị ung thư được chuẩn đoán Positive và lớp khơng bị ung thư được chuẩn
đốn là Negative:


TP (True Positive): Số lượng dự đốn chính xác. Là khi mơ hình dự đốn đúng
một người bị ung thư trực tràng.




TN (True Negative): Số lương dự đốn chính xác một cách gián tiếp. Là khi
mơ hình dự đốn đúng một người không bị ung thư trực tràng, tức là việc không
chọn trường hợp bị ung thư trực tràng là chính xác.



FP (False Positive - Type 1 Error): Số lượng các dự đốn sai lệch. Là khi mơ
hình dự đốn một người bị ung thư trực tràng và người đó hồn tồn khỏe
mạnh.



FN (False Negative - Type 2 Error): Số lượng các dự đốn sai lệch một cách
gián tiếp. Là khi mơ hình dự đốn một người khơng bị ung thư trực tràng nhưng
người đó bị ung thư trực tràng, tức là việc không chọn trường hợp bị ung thư
trực tràng là sai.
Sensitivity – (TPR): là tỷ lệ xét nghiệm dương tính trên tổng cộng người có

bệnh. Xác suất phân loại sẽ chính xác, với điều kiện là trường hợp dương tính. Đối với
lĩnh vực y tế, nó có thể là xác suất mà kết quả xét nghiệm được thực hiện bởi một bệnh
nhân bị bệnh, sau khi thực hiện, anh ta mắc bệnh đúng như dự đốn. Chỉ số này được
tính theo công thức:

Specificity – (TNR): là tỷ lệ xét nghiệm âm tính trên tổng cộng người khơng
bệnh. Tỉ lệ loại trừ đúng trên tổng số các trường hợp Negative hay còn gọi là Specificity (độ
đặc hiệu) trong y học lâm sàng. Xác suất phân loại sẽ chính xác, với điều kiện trường


hợp bệnh nhân âm tính. Một ví dụ là xác suất một người khỏe mạnh sẽ khơng được
chẩn đốn bằng xét nghiệm, anh ta sẽ được dự đoán theo tỷ lệ loại trừ đúng. Độ đặc
hiệu được xác định theo công thức sau:
TRANG 9


False positive rate – (FPR): là tỷ lệ xét nghiệm dưong tính trên tổng cộng
người khơng bệnh. ệ số của các trường hợp được phân loại dương tính giả là một
nhóm khác, mà chúng tơi viết với cơng thức sau:

False discovery rate – (FDR) : FDR nhằm mục đích kiểm sốt tỷ lệ phát hiện
khơng chính xác của các xét nghiệm:

Positive predictive value – (PPV, precision) : Trong tất cả các dự đoán
Positive được đưa ra, bao nhiêu dự đoán là chính xác? Chỉ số này được tính theo cơng
thức

Negative predictive value – (NPV): Chỉ số này trả lời câu hỏi ví dụ: Nếu kết
quả xét nghiệm dương tính, xác suất bệnh nhân mắc bệnh là bao nhiêu? Chúng ta có
thể biểu thị số đo bằng cơng thức sau:

TRANG 10


Negative predictive value – (NPV) : chỉ số trả lời câu hỏi: Nếu kết quả xét
nghiệm là âm tính, xác suất bệnh nhân khỏe mạnh là bao nhiêu?

F1-score – t: được dùng khi ta quan tâm đồng đều vai trò của cả PPV và TPR,
nói cách khác ta muốn Mơ hình (quy luật chẩn đốn) vừa Nhạy, vừa chính xác. Đây là
biện pháp đánh giá mối quan hệ giữa độ nhạy và độ chính xác. Tuy nhiên, nó khơng

bao gồm kết quả âm tính thực sự. Việc lựa chọn giữa các kết quả Âm tính và dương
tính (PPV) tùy thuộc vào mục tiêu ứng dụng của mơ hình: người bác sĩ muốn Tầm soát
bệnh hay muốn Xác định bệnh ?

3. Kết quả phân tích.
Số liệu của chúng tơi chứa dữ liệu lâm sàng của 152 bệnh nhân bị ảnh hưởng
bởi viêm loét đại tràng. Bệnh nhân được đặc trưng bởi 117 thuộc tính và phân thành
hai nhóm: bệnh nhân viêm loét đại tràng (UC) và bệnh nhân bị bệnh Crohn (CD). Mục
tiêu của chúng tơi là tìm các quy tắc phân loại bệnh.
Nhóm đối tượng được nghiên cứu bao gồm bệnh nhân bị bệnh viêm ruột .
Ở nhóm thứ nhất, viêm loét đại tràng được chẩn đoán (N = 86, phụ nữ N = 32, nam N
= 54) và nhóm thứ hai là bệnh nhân bị bệnh Crohn (N = 66, phụ nữ N = 32, nam N =
34).
Quá nhiều biến có thể tác động tiêu cực đến hiệu suất của mơ hình. Kết quả là, các giai
đoạn đầu tiên của nghiên cứu, trong đó bao gồm việc xử lý dữ liệu ban đầu, rất quan
trọng. Dữ liệu có thể được lựa chọn, chuyển đổi hoặc xóa các biến khơng cần thiết.

TRANG 11


Sau khi hoàn thành chọc lọc và xử lý dữ liệu ban đầu bằng ERID và loại bỏ các
biến trong đó tỷ lệ phần trăm dữ liệu bị thiếu vượt q 60%, số lượng thuộc tính cịn
lại là 73 thuộc tính. Sau đó, tất cả các thuộc tính liên quan đến điều trị đã bị loại khỏi
phân tích, vì các vị từ mô tả phương pháp điều trị không thể xác định diễn biến của
bệnh. Sau đó, các thuộc tính đã được chọn. Cuối cùng, một tập hợp các thuộc tính đã
thu được có sự khác biệt đáng kể trong hai nhóm được dùng để phân tích. Các giai
đoạn tiếp theo của phân tích được thực hiện bằng phương pháp khai thác dữ liệu. Các
thuật toán phân loại như J48, SVM và Random Forest đã được sử dụng. Cuối cùng,
thuật tốn tốt nhất đã được chọn bằng cách phân tích chất lượng của các biện pháp
phân loại

Sau khi sử dụng mơ hình hồi quy logic được kết nối với thuật toán ERID, các
giá trị như highest values of sensitivity và high specificity được sử dụng bằng thuật
toán random forest. Đối với phân loại đã nói ở trên, sensitivity bằng 100%, điều này
chứng tỏ khả năng lý tưởng để phát hiện bệnh nhân bị CD. High specificity xác định
khả năng phát hiện người bị UC trong vòng 98,48%. Sau khi áp dụng thuật toán J48, ,
sensitivity là 94,19% và specificity 90,91%. Trong trường hợp của SVM, , sensitivity
đạt 93,02% và specificity là 84,85%.
Tần suất báo động sai (false alarms) trong trường hợp thuật toán J48 ở mức
0,09, trong khi tần suất phát hiện sai (frequency of false) là 0,07. Đối với thuật toán
SVM và Random Forest, các giá trị này lần lượt là 0,15 và 0,11 và 0,02 và 0,01.
Trong bước tiếp theo, các thuộc tính dự đốn của mơ hình đã được xác định. Độ
Chính xác dương trong trường hợp thuật toán J48 ở mức 0,93, trong khi hai phương
pháp còn lại lần lượt là: 0, 89 và 0,99. Giá trị chính xác âm tương ứng là J48: 0,92,
SVM: 0,9 và Random Forest 1.
Ngoài ra, giá trị của điểm F1, là một thước đo cân bằng, ở một mức độ nhất
định mơ tả tồn bộ mơ hình, đã được tính toán. Trong thuật toán thảo luận đầu tiên F1
= 0,92, hai F1 còn lại = 0,91 cho SVM và F1 = 0,99, cho Random Forrest.
Phương pháp đề xuất được so sánh với các phương pháp hiện đang sử dụng. Tất cả các
biến được đưa vào bộ phân loại và ba thuật toán được so sánh: J48, SVM và Random
Forrest. Các kết quả được hiển thị (Bảng 8 và 9).

TRANG 12


Độ nhạy trong trường hợp thuật toán J48 là 89,53% và đạt giá trị thấp hơn 5 %,
so với giả thuyết đã thảo luận trước đó. Đồng thời, nó là giá trị thấp nhất trong số ba
thuật toán được so sánh. Đối với trình phân loại được xây dựng bằng phương pháp
SVM, giá trị được thảo luận là 90,70%, trong khi đối với Random Forrest là 97,67%.
Các giá trị này, trong cả hai trường hợp, đều thấp hơn so với mơ hình được xây dựng
trên cơ sở phương pháp luận đã phát triển


Kết quả tương tự đã thu. Số đo trong câu hỏi trong thuật toán J48 đạt giá trị
89,39%, SVM - 74,24% và đối với Random Forrest - 93,94%. Trong trường hợp của
ba thuật toán, thang đo thấp hơn so với giả thuyết được thảo luận trước đó.
Tỷ lệ cá thể được phân loại sai - rate falsely classified (FPR) đã đạt được các
giá trị sau cho ba thuật toán tương ứng: 0,11 (J48), 0,26 (SVM), 0,06 (Random
Forrest). The type I error rate (FDR) giả định các mức sau: 0,08, 0,18, 0,05.
The positive precision là 0,92 (J48), 0,82 (SVM), 0,95 (Random Forrest). Giả
định tiêu cực cho J48 là 0,87, SVM 0,86, Random Forrest là 0,97.
4. Kết quả.
5.
TRANG 13


6.

Trong nghiên cứu này, chúng tôi đã xử lý dữ liệu của bệnh nhân bị viêm

loét đại tràng và bệnh Crohn. Để tìm ra các quy tắc phân biệt hai bệnh này, các phương
pháp phân loại đã được sử dụng. Ba phương pháp phân loại phổ biến được dùng là:
phương pháp cây quyết định (J48 và Random Forest) và SVM.
7. Dữ liệu bệnh nhân được chọn bằng phương pháp thống kê.

Hướng phát triển trong tương lai, các mơ hình phân loại sẽ
được sử dụng để xây dựng các quy tắc hành động, từ đó
phân loại lại bệnh nhân thành từng nhóm cụ thể

TRANG 14




×