Tải bản đầy đủ (.doc) (6 trang)

ỨNG DỤNG THUẬT TOÁN PHÂN TÍCH BIỆT SỐ TUYỀN TÍNH BẰNG GIẢI THUẬT DI TRUYỀN (GA) ĐỂ PHÂN BIỆT BỆNH THƯƠNG HÀN VỚI BỆNH SỐT MÒ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (132.09 KB, 6 trang )

ỨNG DỤNG THUẬT TOÁN PHÂN TÍCH BIỆT SỐ TUYỀN TÍNH BẰNG GIẢI
THUẬT DI TRUYỀN (GA) ĐỂ PHÂN BIỆT BỆNH THƯƠNG HÀN VỚI BỆNH SỐT

I. Đặt vấn đề
Chẩn đoán lâm sàng đòi hỏi tri thức của người thầy thuốc ở cả 2 phương diện
logic: phân tích và tổng hợp. Vấn đề càng khó thì khả nǎng tiếp cận một cách logic của
người thầy thuốc lại càng quan trọng. Việc chẩn đoán phân biệt nhằm phân định rõ trong
một trường hợp cụ thể, người bệnh bị bệnh này hay bệnh kia, thường gây lúng túng cho
người thầy thuốc và trong nhiều trường hợp, cận lâm sàng thường là cơ sở để đưa ra chẩn
đoán xác định cuối cùng. Thế nhưng, không phải trong mọi trường hợp chẩn đoán cận
lâm sàng luôn luôn thích hợp. Đặc biệt là với những thầy thuốc ở các tuyến cơ sở, xa các
khu đô thị lớn, cơ sở vật chất còn thiếu thốn, thì chẩn đoán và điều trị dựa trên cơ sở thực
hành lâm sàng là chủ yếu.
Hiện nay, trên thế giới ứng dụng công nghệ thông tin trong y học đang ngày càng
trở nên quan trọng. Đã có rất nhiều phương pháp thống kê toán học mới được áp dụng để
hỗ trợ cho các chẩn đoán của bác sĩ, trong đó sự hỗ trợ của máy tính chiếm một vị trí
đáng kể. Việc đưa ra các tiêu chuẩn chẩn đoán phân biệt vẫn chủ yếu dựa vào kinh
nghiệm lâm sàng của các thầy thuốc lâu nǎm - các chuyên gia đầu ngành lâm sàng. Vì
vậy, chúng tôi tìm hiểu, nghiên cứu đề tài để đạt được các mục đích sau:
1. Bước đầu nghiên cứu về một phương pháp thống kê mới được áp dụng trong y
học
2. Xây dựng hệ thống trợ giúp các chuyên gia y tế nhanh chóng đưa ra các tiêu
chuẩn để chẩn đoán phân biệt giữa 2 bệnh có triệu chứng tương tự nhau, nhằm hỗ
trợ cho công tác thực hành lâm sàng tại các tuyến cơ sở.
3. Kiểm chứng lại hoạt động của phần mềm này trên số liệu thực tế để chứng minh
tính đúng đắn của chương trình.
Những tiêu chuẩn chẩn đoán phân biệt này sẽ là cơ sở để xây dựng các luật dẫn cho các
hệ hỗ trợ chẩn đoán sau này.
Phương pháp phân tích biệt số bằng giải thuật di truyền (Genetic Algorithm)
"Giải thuật di truyền" là thuật ngữ dùng để chỉ một lớp các thuật toán tìm kiếm
chung trên nguyên tắc mô phỏng quần thể gen tự nhiên để tìm ra giải pháp cần thiết . Ưu


điểm chính của giải thuật này so với các phương pháp phân tích biệt số tuyến tính khác là
nó không phụ thuộc vào những thông tin hoặc những ước lượng có trước về sự phân bố
của các tham số của các đối tượng sẽ được phân lớp .
Nguyên lý cơ bản của những giải thuật này là duy trì một quần thể (population)
các gen có cấu trúc xác định làm đại diện cho các phương pháp giải quyết một vấn đề.
Quần thể này được phát triển trên cơ sở cạnh tranh lẫn nhau trong điều kiện biến động có
kiểm soát, bao gồm sự tái tổ hợp (recombination) hay còn gọi là trao đổi chéo


(crossover), và đột biến gen (mutation) của các cá thể trong quần thể. Những cá thể có độ
thích nghi (fitness) cao hơn sẽ được lựa chọn cho thế hệ sau. Khi giải thuật kết thúc,
người ta đã chứng minh được rằng những cá thể ưu tú nhất, có mức độ thích nghi cao
nhất với yêu cầu của bài toán sẽ được chọn. Các hoạt động trao đổi chéo và đột biến gen
sẽ góp phần tạo ra những bộ gen mới, làm thay đổi bộ mặt của quần thể. Tuy xảy ra với
tần số thấp, nhưng với số lượng cá thể lớn và kéo dài qua nhiều thế hệ, những hoạt động
này bảo đảm sẽ không bỏ sót những giải pháp tối ưu không được tạo ra ngay ban đầu.
Giải thuật di truyền đã được John Holland (trường Đại học Tổng hợp Michigan)
mô tả từ những nǎm đầu của thập kỷ 70. Những phân tích trên lý thuyết đã chứng minh
giải thuật di truyền có thể tích lũy được những tri thức trong quá trình tìm kiếm bằng
cách cố gắng đạt được sự cân bằng giữa nhu cầu khám phá những vùng mới trong không
gian tìm kiếm, và nhu cầu tập trung vào những vùng có hiệu nǎng cao trong không gian
đó. Bằng cách theo dõi quá trình tìm kiếm với những cấu trúc gen cụ thể, giải thuật có thể
được sử dụng trên phạm vi rộng để giải quyết nhiều bài toán tối ưu (optimization). Trên
thực tế, giải thuật di truyền đã được ứng dụng thành công trong nhiều lĩnh vực như kế
hoạch hóa và tìm đường, quan sát máy (machine vision), thiết kế chế tạo máy, các hệ
thống điều khiển ống dẫn dầu, học máy (machine learning),... Cũng đã có những nghiên
cứu sâu hơn về việc sử dụng giải thuật di truyền trong các bài toán mang tính chất tổng
quát hơn như phân tích biệt số tuyến tính, mô hình dự báo,...
Giải thuật di truyền mặc dù mới được phát triển trong thời gian gần đây nhưng đã
thu được những thành công lớn ở nhiều ngành khác nhau, cả trên lý thuyết và thực tiễn.

Đặc biệt người ta có thể kết hợp giải thuật di truyền với những giải thuật khác để tạo
thành một cơ chế điều khiển tự động nhiều tầng, cho phép giải những bài toán tối ưu
phức tạp một cách nhanh chóng với độ chính xác khả dĩ chấp nhận được [6]. Đó cũng là
một trong những mục tiêu được đặt ra cho đề tài này.
II. Đối tượng và phương pháp nghiên cứu
Hai bệnh sốt mò (scrub typhus) và thương hàn (typhoid fever) được chọn để thử
nghiệm các chương trình xây dựng được. Sở dĩ chọn 2 bệnh này vì cả sốt mò và thương
hàn đều là những cǎn nguyên gây sốt kéo dài khá thường gặp trong những nǎm gần đây
tại Hà Nội nói riêng và các tỉnh phía bắc nói chung. Hai bệnh có những triệu chứng lâm
sàng tương tự nhau, và chẩn đoán phân biệt giữa hai bệnh này là việc phải tiến hành
thường xuyên trong thực hành lâm sàng.
Mặc dù có bệnh cảnh lâm sàng khá giống nhau, nhưng hai bệnh lại có phương
pháp điều trị khác biệt nhau rõ rệt. Trong những nǎm gần đây tình hình thương hàn đa
kháng thuốc đang trở nên rầm rộ, việc điều trị bệnh thương hàn phải dựa nhiều vào các
thuốc kháng sinh mới, đắt tiền với các liệu trình kéo dài, thì điều trị bệnh sốt mò chủ yếu
vẫn bằng những thuốc kháng sinh "cổ điển", rẻ tiền nhưng đạt hiệu quả điều trị cao.
Chính vì vậy, việc chẩn đoán phân biệt trên lâm sàng giữa 2 bệnh sốt mò và thương hàn
ngay tại tuyến cơ sở là một vấn đề cần sớm được giải quyết của chuyên ngành truyền
nhiễm.


Tuy đã được nói đến nhiều nhưng tại tuyến cơ sở, phân biệt được hai bệnh này
vẫn gặp rất nhiều khó khǎn và việc chẩn đoán xác định vẫn còn nhiều lầm lẫn, đặc biệt
khi những triệu chứng đặc trưng của bệnh không đầy đủ, hoặc không được khai thác kỹ.
Vì thế, việc định hướng chẩn đoán cho người làm thực hành lâm sàng có ý nghĩa quan
trọng trong chẩn đoán và điều trị người bệnh tại cơ sở.
II.1. Đối tượng nghiên cứu
Bệnh án của 526 bệnh nhân bị mắc 1 trong 2 bệnh trên được sử dụng làm dữ liệu
đầu vào cho giải thuật.
II.2. Phương pháp nghiên cứu

Nhằm mục đích đánh giá vai trò của các triệu chứng trong việc chẩn đoán phân
biệt trên lâm sàng, chúng tôi đã sử dụng phương pháp phân tích biệt số tuyến tính bằng
giải thuật di truyền. Các tham số điều khiển hoạt động của giải thuật sẽ được người dùng
qui định trước thông qua giao diện. Mỗi hệ số tương ứng với vai trò của một triệu chứng
trong chẩn đoán phân biệt giữa 2 bệnh được đại diện bởi một đoạn gen trong nhiễm sắc
thể (chromosome). Vị trí của các gen được cố định trong suốt quá trình hoạt động. Nhằm
mục đích tìm được các triệu chứng tối thiểu có giá trị phân biệt giữa 2 bệnh, chúng tôi
tiến hành xây dựng sơ đồ gen (genetic schemata) qua nhiều bước. Tại mỗi bước, một gen
mới được bổ sung vào sơ đồ gen. Sơ đồ gen này sẽ được đánh giá qua nhiều thế hệ để tìm
ra bản gen có độ thích nghi cao nhất. Giải thuật sẽ kết thúc khi bổ sung thêm gen mới
không thu được kết quả tốt hơn so với bộ gen cũ.
Để đánh giá khả nǎng chẩn đoán của mô hình, lấy kích thước của tập mẫu
(training set) là 200 bệnh nhân được chọn ngẫu nhiên từ 526 bệnh nhân nói trên. Trong số
bệnh nhân thuộc tập mẫu, chúng tôi chọn tỷ lệ giữa 2 nhóm là cân đối (mỗi nhóm 100
bệnh nhân). Sau khi mô hình chẩn đoán xây dựng xong, các kết quả thu được sẽ đem thử
lại trên tập kiểm tra (test set) gồm 50 bệnh nhân cũng được chọn ngẫu nhiên từ số bệnh
nhân còn lại (không thuộc tập mẫu). Kết quả chẩn đoán của mô hình sẽ được so sánh với
chẩn đoán thực tế của bệnh nhân bằng phương pháp đánh giá mức độ phù hợp chẩn đoán
(hệ số kappa). Mục đích của quá trình này là kiểm tra lại một lần nữa khả nǎng chẩn đoán
của mô hình.
Lựa chọn phương pháp giải thuật di truyền là vì, như đã trình bày trong phần trên,
nó cho phép xây dựng hệ thống điều khiển tự động nhiều tầng để giải các bài toán tối ưu
và phân lớp mà không cần biết trước phân bố các tham số của đối tượng cần phân lớp.
Giải thuật này rất thích hợp với các mô hình để giải bài toán phân lớp trong y tế, nơi mà
với mỗi ca bệnh các yếu tố cả bên trong lẫn bên ngoài có ảnh hưởng rất nhiều tới sự xuất
hiện của các triệu chứng. Trên thực tế, các nghiên cứu thống kê cho thấy tỷ lệ xuất hiện
các triệu chứng trên lâm sàng của một bệnh thay đổi khá thường xuyên, gây ra nhiều lúng
túng cho những người làm công tác lâm sàng, đặc biệt là ở tuyến cơ sở. Vì thế, bằng khả
nǎng tự học - tự tích lũy cùng với khả nǎng tìm kiếm độc lập của mình, giải thuật di
truyền sẽ là công cụ khá tốt để thực hiện phân lớp đối với các triệu chứng và bệnh trong y

học.


III. Các bước tiến hành
Tổng cộng 526 bệnh án thuộc 2 nghiên cứu nói trên đã được sử dụng, trong đó
bệnh sốt mò có 391 bệnh án (74,3%) và thương hàn có 135 bệnh án (25,7%).
Các triệu chứng lâm sàng sử dụng trong nghiên cứu bao gồm: sốt kéo dài, rối loạn
tiêu hóa, yếu tố dịch tễ, sốc nhiễm trùng, nhiễm trùng nhiễm độc, sung huyết, phát ban
(dạng đào ban hoặc ban dạng chấm, nốt), eschar, hạch to, bụng chướng, gan to và số
lượng bạch cầu giảm.
Kết quả của giải thuật thu được như sau:

Triệu chứng

Hệ số

Đào ban

Triệu chứng

Hệ số

Eschar
0,8697503591

Nhiễm trùng nhiễm độc

-0,9548554309
Phát ban (chấm, nốt)


0,6076968619
Bụng chướng

-0,7352860713
Hạch to

0,5418880697
Rối loạn tiêu hóa

-0,7157130976
Sung huyết

0,1773805710

-0,6693544257

Số lượng bạch cầu
giảm
0,1696534269
Giá trị trọng tâm (centroid) của các nhóm:
Sốt mò = -1,91729332749902
Thương hàn = 0,291548177313886
Thử lại nhiều lần trên 50 bệnh nhân được chọn ngẫu nhiên trong tập kiểm tra,
chúng tôi thu được độ chính xác tối thiểu của luật là 98% (chẩn đoán sai không quá 1
trường hợp).
Như vậy, các triệu chứng không có ý nghĩa chẩn đoán phân biệt giữa bệnh thương
hàn và bệnh sốt mò là:
- Sốt kéo dài



- Dịch tễ
- Sốc nhiễm trùng
- Gan to
- Nhức đầu
Từ những số liệu trên đây, chúng tôi đã thử chuyển xấp xỉ về một hệ giá trị nguyên như
sau:

Triệu chứng

Điểm

Triệu chứng

Điểm

Đào ban

4

Eschar

-5

Nhiễm trùng nhiễm độc

2

Phát ban (chấm, nốt)

-3


Bụng chướng

2

Hạch to

-2

Rối loạn tiêu hóa

1

Sung huyết

-2

Số lượng bạch cầu giảm

1

Trong trường hợp này, qui tắc chẩn đoán được đặt ra như sau:
- Nếu tổng số điểm ≥ 3: thương hàn
- Nếu tổng số điểm từ 0 đến 2: nghi ngờ thương hàn
- Nếu tổng số điểm ≤ -3: sốt mò
- Nếu tổng số điểm từ -2 đến 0: nghi ngờ sốt mò
Thử lại trên 50 bệnh nhân của tập kiểm tra, độ chính xác thu được cũng không dưới 98%.
IV. Kết luận



Sử dụng thuật toán phân tích biệt số tuyến tính bằng giải thuật di truyền để tìm
điểm chuẩn cho mỗi triệu chứng thường gặp trong bệnh thương hàn kháng thuốc hiện nay
(n=135) và bệnh sốt mò (n=391), ta có kết quả như sau:
1. Điểm chuẩn cho các triệu chứng thường gặp trong bệnh thương hàn kháng
thuốc hiện nay là: đào ban (4 điểm), nhiễm trùng nhiễm độc (2 điểm), bụng chướng (2
điểm), rối loạn tiêu hóa (1 điểm), số lượng bạch cầu giảm (1 điểm). Điểm chuẩn cho các
triệu chứng thường gặp của bệnh sốt mò là: sung huyết (-2 điểm), hạch to (-2 điểm), phát
ban dạng chấm, nốt (-3 điểm), eschar (-5 điểm).
2. Từ những điểm chuẩn này, qui tắc chẩn đoán phân biệt 2 bệnh (thương hàn và
sốt mò) được xác định như sau: nếu tổng số điểm xuất hiện ở một trường hợp ≥ 3 là cho
phép chẩn đoán thương hàn, 0-2 điểm là nghi ngờ thương hàn; nếu tổng số điểm ≤ -3 là
cho phép chẩn đoán sốt mò, còn tổng số điểm từ 0 - (-2) điểm là nghi ngờ sốt mò.



×