Tải bản đầy đủ (.pdf) (75 trang)

(Luận văn thạc sĩ) nghiên cứu một số phương pháp khai phá dữ liệu phát hiện phản ứng có hại của thuốc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.9 MB, 75 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC
VÀ CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

Nguyễn Thị Hà

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC

LUẬN VĂN THẠC SĨ: NGÀNH MÁY TÍNH

Hà Nội – 2021

Luan van


BỘ GIÁO DỤC VÀ ĐÀO TẠO

VIỆN HÀN LÂM KHOA HỌC VÀ
CÔNG NGHỆ VIỆT NAM

HỌC VIỆN KHOA HỌC VÀ CÔNG NGHỆ

Nguyễn Thị Hà

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU
PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC


Chuyên ngành: Hệ thống thông tin
Mã số: 8480104

LUẬN VĂN THẠC SĨ: NGÀNH MÁY TÍNH

CÁN BỘ HƯỚNG DẪN KHOA HỌC
Hướng dẫn 1: TS. Trần Mạnh Tuấn
Hướng dẫn 2: TS. Nguyễn Như Sơn

Hà Nội – Năm 2021

Luan van


Lời cam đoan

Tôi xin cam đoan luận văn này là do tôi thực hiện, không sao chép lại
của người khác. Nội dung trong luận văn là của cá nhân nghiên cứu và được
tổng hợp từ nhiều nguồn tài liệu, các tài liệu tham khảo đều có xuất xứ rõ
ràng và được trích dẫn đúng quy cách. Nếu có gì sai sót, tơi xin chịu mọi trách
nhiệm.

Hà nợi, 03/2021

Nguyễn Thị Hà

Luan van


Lời cảm ơn

Tôi xin dành sự biết ơn chân thành đến TS. Trần Mạnh Tuấn, Giảng
viên Khoa Công nghệ thông tin, Trường Đại học Thủy Lợi – Người thầy đã
trực tiếp hướng dẫn và tận tình chỉ bảo tơi trong q trình thực hiện khóa
luận.
Tơi xin cảm ơn TS. Nguyễn Như Sơn, Trưởng phịng CNTT, Viện
Cơng nghệ thơng tin – Viện Hàn lâm Khoa học và Công nghệ Việt Nam đã
góp ý, hướng dẫn và cung cấp tài liệu để tơi hồn thành tốt luận văn này. .
Tơi xin cảm ơn toàn thể giảng viên Học viện Khoa học và Công nghệ
đã truyền đạt cho tôi những kiến thức và kỹ năng nghiên cứu trong suốt quá
trình học tập tại Trường.
Cuối cùng, tơi xin chân thành cảm ơn gia đình và bạn bè, những người
đã luôn ủng hộ và giúp đỡ tôi trong thời gian học tập và thực hiện khóa luận.
Với khả năng của mình, tơi đã cố gắng hồn thành luận văn của mình
tốt nhất, nhưng chắc chắn luận văn vẫn cịn nhiều thiếu sót, tơi rất mong nhận
được thêm góp ý và chỉ bảo từ phía q thầy cô và các bạn.

Luan van


Danh mục các ký hiệu và chữ viết tắt

Tên viết tắt

Ý nghĩa

WHO

Tổ chức Y tế Thế giới (World Health
Organization)


FDA

Cục Quản lý Thực phẩm và Dược phẩm Hoa
Kỳ (U.S Food and Drug Administration)

TNLS

Thử nghiệm lâm sàng

UMC

Trung tâm giám sát Uppsala

WHO-UCM

Trung tâm giám sát Uppsala (UMC) của Tổ
chức Y tế Thế giới (WHO) (World Health
Organization-Uppsala Monitoring Center)

ADR

Phản ứng có hại của thuốc (Adverse Drug
Reaction)

NSD

Người sử dụng

CSDL


Cơ sở dữ liệu

KPDL

Khai phá dữ liệu

Trung tâm
DI&ADR Quốc gia

Trung tâm Quốc gia về thông tin thuốc và
theo dõi phản ứng có hại của thuốc

Luan van


Danh mục các bảng
Bảng 1.1 – Các thành phần chính của hệ thống .............................................. 22
Bảng 2.1 - Thống kê số dữ liệu theo thuốc R và phản ứng T ......................... 25
Bảng 2.2 - Thống kê dữ liệu theo thuốc R và phản ứng T .............................. 30
Bảng 2.3 - Thống kê dữ liệu theo Thuốc R và phản ứng T ............................ 34
Bảng 3.1 - Bảng dữ liệu một vài bản ghi trong bộ dữ liệu. ............................ 41
Bảng 3.2 – Danh sách thuốc có số lần xuất hiện nhiều nhất........................... 43
Bảng 3.3 – Danh sách 50 ADR có số lần xuất hiện nhiều nhất ...................... 48

Luan van


Danh mục các hình vẽ, đồ thị
Hình 1.1 - Quy trình khám phá tri thức........................................................... 10
Hình 1.2 - Các bước của quá trình khai phá dữ liệu ....................................... 12

Hình 1.3 - Mục đích chính của khai phá dữ liệu ............................................. 13
Hình 1.4 - Mơ hình mơ tả giai đoạn phân lớp ................................................. 14
Hình 1.5 - Ví dụ về phân tích khai phá dữ liệu mơ tả ..................................... 16
Hình 1.6 - Mô tả giai đoạn gom cụm sử dụng khai phá dữ liệu mơ tả .......... 16
Hình 1.7 - Mơ tả giai đoạn khai phá luật kết hợp của bài toán giỏ hàng ........ 17
Hình 1.8 – Kiến trúc tổng thể .......................................................................... 22
Hình 3.1 – Dữ liệu ADR trong hệ thống ......................................................... 51
Hình 3.2 – Kết quả khai phá dữ liệu Apriori với độ hỗ trợ 70 ....................... 52
Hình 3.3 – Kết quả phương pháp WHO-UCM với độ hỗ trợ 70 .................... 53
Hình 3.4 – Kết quả phương pháp FDA với độ hỗ trợ 70 ................................ 56
Hình 3.5 – Kết quả khai phá dữ liệu Apriori với độ hỗ trợ 80 ....................... 58
Hình 3.6 – Kết quả phương pháp WHO-UCM với độ hỗ trợ 80 .................... 59
Hình 3.7 – Kết quả phương pháp FDA với độ hỗ trợ 80 ................................ 61
Hình 3.8 – Kết quả khai phá dữ liệu Apriori với độ hỗ trợ 100 ..................... 62
Hình 3.9 – Kết quả phương pháp WHO-UCM với độ hỗ trợ 100 .................. 63
Hình 3.10 – Kết quả phương pháp FDA với độ hỗ trợ 100 ............................ 64

Luan van


1

MỤC LỤC
MỞ ĐẦU ......................................................................................................... 3
CHƯƠNG 1: GIỚI THIỆU ........................................................................... 5
1.1.

GIỚI THIỆU CHUNG VỀ LĨNH VỰC CẢNH GIÁC DƯỢC ...... 5

1.1.1.


Hoạt động cảnh giác dược tại Việt Nam [4] ............................. 5

1.1.2.

Hoạt động cảnh giác dược tại Mỹ ............................................. 6

1.1.3.

Hoạt động cảnh giác dược của tổ chức y tế thế giới [6] ........... 7

1.2.

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU ...................................... 9

1.2.1.

Giới thiệu chung ........................................................................ 9

1.2.2.

Giới thiệu về Khai phá dữ liệu ................................................ 10

1.2.3.

Ý nghĩa và vai trò của Khai phá dữ liệu ................................. 17

1.2.4.

Bài toán khai phá dữ liệu ........................................................ 18


1.3.

TỔNG QUAN VÀ MỤC TIÊU CỦA ĐỀ TÀI ............................. 19

1.3.1.

Tổng quan của đề tài ............................................................... 19

1.3.2.

Mục tiêu của đề tài .................................................................. 20

1.3.3.

Phương pháp thực hiện ........................................................... 20

1.3.4.

Công cụ, ngôn ngữ lập trình.................................................... 21

CHƯƠNG 2: MỘT SỐ PHƯƠNG PHÁP PHÁT HIỆN PHẢN ỨNG CĨ
HẠI CỦA THUỐC ....................................................................................... 24
2.1.

BÀI TỐN PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC . 24

2.2. SỬ DỤNG THUẬT TOÁN KHAI PHÁ DỮ LIỆU APRIORI ĐỂ
PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC ................................. 25
2.2.1.


Một số khái niệm trong luật kết hợp ....................................... 25

2.2.2.

Khai phá luật kết hợp .............................................................. 26

2.2.3.

Thuật toán Apriori ................................................................... 27

2.3. NGHIÊN CỨU VÀ ÁP DỤNG PHƯƠNG PHÁP FDA ĐỂ GIẢI
BÀI TOÁN PHÁT HIỆU ADR ................................................................ 29
2.3.1.

Giới thiệu chỉ số thống kê RR ................................................. 29

2.3.2.

Nghiên cứu phương pháp FDA ............................................... 30

2.3.3.

Thuật toán áp dụng .................................................................. 32

Luan van


2
2.4. NGHIÊN CỨU VÀ ÁP DỤNG PHƯƠNG PHÁP WHO-UMC ĐỂ

TÌM RA PHẢN ỨNG CÓ HẠI CỦA THUỐC ........................................ 33
2.4.1.

Giới thiệu chỉ số thống kê OR ................................................ 33

2.4.2.

Nghiên cứu phương pháp WHO-UCM ................................... 34

2.4.3.

Thuật toán áp dụng .................................................................. 36

CHƯƠNG 3: THỬ NGHIỆM CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ
LIỆU PHÁT HIỆN PHẢN ỨNG CÓ HẠI CỦA THUỐC ......................... 38
3.1. ÁP DỤNG CÁC THUẬT TỐN CHO BÀI TỐN PHÁT HIỆN
TÍN HIỆU .................................................................................................. 38
3.2.

MƠ TẢ DỮ LIỆU THỬ NGHIỆM............................................... 40

3.3.

CÁC BƯỚC THỰC HIỆN THỬ NGHIỆM ................................. 51

3.4.

KẾT QUẢ THỬ NGHIỆM ........................................................... 52

3.4.1.


Thử nghiệm lần 1 .................................................................... 52

3.4.2.

Thử nghiệm lần 2 .................................................................... 57

3.4.3.

Thử nghiệm lần 3 .................................................................... 62

3.4.4.

Kết luận ................................................................................... 64

CHƯƠNG 4: KẾT LUẬN VÀ KIẾN NGHỊ ............................................... 66
4.1. KẾT LUẬN. ....................................................................................... 66
4.2. ĐỊNH HƯỚNG PHÁT TRIỂN ĐỀ TÀI ............................................ 66

Luan van


3
MỞ ĐẦU
Trong những năm gần đây, các phương tiện lưu trữ có dung lượng
ngày càng lớn, các hệ quản trị cơ sở dữ liệu ngày càng nhiều, cung cấp cho
người dùng khả năng lưu trữ không giới hạn. Dữ liệu tuy nhiều nhưng giá trị
tri thức mà nó chứa đựng lại chưa được sử dụng một cách hiệu quả. Với
những thành cơng trong các cơng trình nghiên cứu về lĩnh vực khai phá dữ
liệu, con người đã khai thác được những giá trị tri thức từ các dữ liệu được

lưu trữ, và sử dụng chúng để giải quyết nhiều bài toán trong các lĩnh vực
quan trọng trong đời sống.
Trong ngành y tế, mục đích của dùng thuốc là chữa bệnh, phòng bệnh,
phục hồi, điều chỉnh chức năng của cơ thể, làm giảm triệu chứng bệnh, chẩn
đoán bệnh, phục hồi hoặc nâng cao sức khoẻ cho con người. Tuy nhiên, mặt
trái của thuốc là có thể gây ra các phản ứng có hại ở nhiều mức độ, thậm chí
tử vong kể cả khi dùng đúng liều, đúng quy định [1].
Theo định nghĩa của Tổ chức Y tế thế giới (WHO), ADR (Adverse
Drug Reactions) là “phản ứng gây hại đáng kể hoặc bất lợi xảy ra sau một
can thiệp có liên quan đến việc sử dụng thuốc. Một phản ứng có hại có thể là
cơ sở để dự đốn được mức độ nguy hại của việc sử dụng thuốc này để
phòng, điều trị, điều chỉnh liều hoặc ngừng thuốc” [2]. Cũng theo WHO, các
phản ứng có hại của thuốc với mức độ nghiêm trọng có thể xảy ra ở bất kỳ
liều dùng nào, khi phản ứng có hại xảy ở mức độ nặng có thể gây ra tử vong,
nguy hại đến tính mạng, ở thể nhẹ hơn nó có thể làm cho người bệnh nhập
viện hoặc kéo dài thời gian nằm viện, gây ra tàn tật hoặc suy giảm chức
năng vĩnh viễn, gây dị tật bẩm sinh hoặc khiếm khuyết khi sinh [3]. Các vấn
đề liên quan đến ADR được coi là trọng tâm của các nghiên cứu Cảnh giác
Dược, do đó hầu hết các quốc gia đều có trung tâm hoặc đơn vị cảnh giác
dược để tiến hành phân tích, theo dõi ADR. Ở Việt Nam, thông tin về phản
ứng phụ của thuốc trong quá trình điều trị (báo cáo ADR) xảy ra tại các cơ
sở khám chữa bệnh trên cả nước được gửi về trung tâm Cảnh giác dược
Quốc gia. Dựa vào các số liệu ADR của các cơ sở khám chữa bệnh, Trung
tam Cảnh giác dược Quốc gia phân tích phát hiện tín hiệu của những ADR

Luan van


4
mới và những ADR nghiêm trọng để từ đó đưa ra khuyến cáo trong việc sử

dụng thuốc an toàn, hợp lý.
Việc áp dụng thuật toán khai phá dữ liệu đối với kho dữ liệu báo cáo
ADR tại Trung tâm cảnh giác dược là một nhu cầu cần thiết, có tính thực tế
và hiệu quả cao trong việc sàng lọc, phát hiện sớm các thuốc có khả năng có
phản ứng ADR.
Hiện nay có rất nhiều thuận tốn khai phá dữ liệu, tuy nhiên trong
phạm vi nghiên cứu của đề tài này chỉ tập trung nghiên cứu và áp dụng
thuận toán khai phá dữ liệu Apriori, kết hợp với các phương pháp WHOUCM và phương pháp FDA để tìm ra luật kết hợp từ đó đưa ra các cảnh báo
về các phản ứng có hại của thuốc.
Do đó, mục tiêu của luận văn là ứng dụng phương pháp khai phá dữ
liệu và 2 phương pháp WHO-UCM, phương pháp FDA để phát hiện phản
ứng có hại của thuốc nhằm hỗ trợ cán bộ nghiệp vụ trong lĩnh vực cảnh
giác dược trong việc dự báo những thuốc có khả năng có những phải ứng có
hại, từ đó có những phân tích sâu hơn để đưa ra kết luận chính xác về các
phản ứng có hại của thuốc và cơ sở để quyết định ngừng sử dụng hoặc
khuyến cáo cách dùng thuốc có các phản ứng ADR.
Bố cục của luận văn được trình bày trong 3 chương như sau:
Chương 1: Giới thiệu: giới thiệu chung về lĩnh vực cảnh giác dược,
giới thiệu tổng quan về khai phá dữ liệu, tổng quan và mục tiêu của đề tài.
Chương 2: Một số phương pháp khai phá dữ liệu phát hiện phản ứng
có hại của thuốc (ADR).
Chương 3: Thử nghiệm các phương pháp khai phá dữ liệu phát hiện
phản ứng có hại của thuốc (ADR).
Kết luận và kiến nghị

Luan van


5
CHƯƠNG 1: GIỚI THIỆU

1.1.

GIỚI THIỆU CHUNG VỀ LĨNH VỰC CẢNH GIÁC DƯỢC
1.1.1. Hoạt động cảnh giác dược tại Việt Nam [4]

Cảnh giác dược (Pharmacovigilance), theo Tổ chức Y tế Thế giới,
được định nghĩa là “Môn khoa học và hoạt động chuyên môn liên quan đến
việc phát hiện, đánh giá, hiểu và phịng tránh biến cố bất lợi hoặc bất kỳ
mợt vấn đề nào khác liên quan đến thuốc”.
Phản ứng có hại của thuốc (ADR - Adverse Drug Reactions) là tác
dụng khơng mong muốn của thuốc xảy ra trong q trình sử dụng lâm sàng.
Phản ứng có hại của thuốc xảy ra gần như hàng ngày trong các cơ sở khám
chữa bệnh và có thể ảnh hưởng xấu đến chất lượng điều trị của bệnh nhân,
nó có thể làm cho tình hình bệnh tật của bệnh nhân xấu đi và có thể là tử
vong.
Phản ứng có hại của thuốc có thể làm giảm chất lượng, hiệu quả điều
trị bệnh của các cớ sở khám chữa bệnh. Cũng có nhiều các trường hợp bệnh
nhân nhập viện có liên quan đến các phản ứng ADR. Bệnh nhân điều trị nội
trú có ít nhất một lần có phản ứng ADR trong suốt q trình điều trị cũng
chiếm một tỉ lệ cao. Tỷ lệ mắc ADR thực tế có thể cịn lớn hơn rất nhiều con
số báo cáo từ các cơ sở khám chữa bệnh vì một số ADR có triệu chứng,
trạng thái giống với các bệnh thơng thường và do đó có thể khơng bị phát
hiện và hoặc không được báo cáo. Do ADR có mức độ ảnh hưởng lớn đến
quá trị điều trị bệnh nên các phản ứng có hại của thuốc cần được nhanh
chóng xác định và quản lý để hạn chế tác dụng gây hại cho bệnh nhân.
Cảnh giác dược liên quan đến việc nghiên cứu các thương tích liên
quan đến thuốc và đưa ra khuyến nghị hoặc khuyến cáo cho các đại lý dược
phẩm; nó bao gồm việc phát hiện, đánh giá, hiểu và phịng ngừa ADR. Dược
sĩ đóng một vai trò quan trọng trong tất cả các bước của quy trình cảnh giác
dược, dược sĩ có thể ngăn ngừa người bệnh dùng thuốc không đúng cách

hoặc dùng thuốc không chính đáng. Ngồi việc giữ gìn sự an tồn và chất
lượng cuộc sống cho người bệnh, cảnh giác dược có thể làm tiết kiệm chi

Luan van


6
phí khám chữa bệnh cho người bệnh và tổ chức chăm sóc sức khỏe. Bằng
cách báo cáo các ADR đã biết hoặc nghi ngờ, dược sĩ, các chuyên gia chăm
sóc sức khỏe khác và người bệnh có thể hỗ trợ xác định mơ hình và xu
hướng, điều này có thể dẫn đến sự giám sát theo quy định hoặc thậm chí rút
thuốc khơng có tỷ lệ lợi ích rủi ro thuận lợi.
Tại Việt Nam, Trung tâm Quốc gia về Thông tin thuốc và Theo dõi
phản ứng có hại của thuốc, có tên viết tắt là “Trung tâm ADR&DI Quốc gia”
được thành lập ngày 9/6/2009 và có trụ sở tại 13 phố Lê Thánh Tông, Hai
Bà Trung Hà nội. Ngày 01/03/2011, thành lập Trung tâm khu vực về thông
tin thuốc và theo dõi phản ứng có hại của thuốc trực thuộc Bệnh viện Chợ
Rẫy, có tên viết tắt là "Trung tâm khu vực về DI & ADR thành phố Hồ Chí
Minh".
Nhiệm vụ chính của hệ thống Cảnh giác Dược Việt Nam là thu thập
và quản lý các báo cáo về liên quan đến tính an tồn của thuốc; phát hiện, xử
lý và thơng báo về tính an tồn của thuốc; đánh giá và quản lý các nguy cơ
liên quan đến thuốc.
1.1.2. Hoạt động cảnh giác dược tại Mỹ
FDA - Food and Drug Administration, là một cơ quan thuộc Bộ Y tế
và Dịch vụ Nhân sinh Hoa Kỳ được thành lập vào năm 1906, FDA có trách
nhiệm bảo vệ sức khỏe cộng đồng bằng cách đảm bảo sự an toàn, hiệu quả
và bảo mật của thuốc và thuốc thú y, vắc-xin và các sản phẩm sinh học khác
cho người và các thiết bị y tế. Cơ quan này cũng chịu trách nhiệm về sự an
toàn và an ninh của nguồn cung cấp thực phẩm, mỹ phẩm, thực phẩm bổ

sung, các sản phẩm phát ra bức xạ điện tử và điều tiết các sản phẩm thuốc lá
[5].
FDA yêu cầu các nhà sản xuất thuốc báo cáo ADR cho Phòng Dịch tễ
và Giám sát Dịch tễ học của FDA; đa số các báo cáo ADR mà cơ quan FDA
nhận được là từ các nhà sản xuất dược phẩm. Trong số báo cáo ADR còn lại,
thì số lượng báo cáo ADR nhiều nhất là từ các dược sĩ của các cơ sở khám
chữa bệnh. Các quy định của FDA đã được sửa đổi vào năm 1985 để xác

Luan van


7
định cụ thể các ADR báo cáo và quy trình báo cáo; các nhà sản xuất được
yêu cầu báo cáo trong vịng 15 ngày phản ứng nghiêm trọng và khơng có
nhãn. Đối với các loại thuốc mới được phê duyệt, các báo cáo về ADR phải
được gửi hàng quý trong ba năm; sau đó, báo cáo hàng năm là bắt buộc. Bất
kỳ sự gia tăng tần số của các phản ứng nghiêm trọng, có nhãn phải được báo
cáo. Các phản ứng nghiêm trọng không được liệt kê trong ghi nhãn sản
phẩm phải được báo cáo cho các sản phẩm được bán trên thị trường trước
năm 1962 mà các ứng dụng thuốc mới hoặc các ứng dụng thuốc mới viết tắt
không được nộp. Thông tin ADR mà FDA nhận được được mã hóa thành
các thuật ngữ tiêu chuẩn và được nhập vào cơ sở dữ liệu trên máy vi tính để
các nhà đánh giá thực hiện đánh giá. Nếu nghi ngờ một phản ứng quan
trọng, báo cáo được nhập vào hệ thống theo dõi để theo dõi thêm. Thông tin
về ADR được truyền đạt tới các chuyên gia chăm sóc sức khỏe trong việc
dán nhãn sản phẩm và trong tài liệu. Dược sĩ được khuyến khích báo cáo các
phản ứng nghi ngờ nghiêm trọng và khơng có nhãn với FDA để cộng đồng y
tế và cơng chúng có thể hưởng lợi từ thơng tin hiện tại về an tồn thuốc.
1.1.3. Hoạt động cảnh giác dược của tổ chức y tế thế giới [6]
World Health Organization-Uppsala Monitoring Center (viết tắt là

WHO-UCM) là Trung tâm giám sát Uppsala (UMC) của Tổ chức Y tế Thế
giới (WHO), đặt tại Uppsala, Thụy Điển, là tên của Trung tâm hợp tác tổ
chức y tế thế giới về giám sát ma túy quốc tế. UMC hoạt động bằng cách thu
thập, đánh giá và truyền đạt thông tin từ các trung tâm cảnh giác dược quốc
gia của các nước thành viên liên quan đến lợi ích, tác hại, hiệu quả và rủi ro
của thuốc.
UMC được thành lập vào năm 1978 để hỗ trợ Chương trình giám sát
ma túy quốc tế của WHO, bắt đầu vào năm 1968 như là một phản ứng toàn
cầu đối với thảm kịch thalidomide. Chương trình đã tìm cách thu thập thơng
tin về tác dụng phụ của thuốc từ càng nhiều nguồn càng tốt trên khắp thế
giới, để đảm bảo rằng những dấu hiệu nguy hiểm đầu tiên có thể xảy ra từ
thuốc sẽ không bị bỏ lỡ.
Công việc của UMC là:

Luan van


8
- Phối hợp Chương trình giám sát ma túy quốc tế của WHO và hơn
100 quốc gia thành viên.
- Để thu thập, đánh giá và truyền đạt thông tin từ các quốc gia
thành viên về lợi ích, tác hại và rủi ro của thuốc và các chất khác
được sử dụng trong y học để cải thiện liệu pháp bệnh nhân và sức
khỏe cộng đồng trên toàn thế giới.
- Hợp tác với các nước thành viên trong việc phát triển và thực
hành khoa học về cảnh giác dược.
Nghiên cứu của UMC bao gồm chủ yếu ba lĩnh vực: khám phá dựa
trên dữ liệu (đặc biệt là kỹ thuật thống kê), phân tích tỷ lệ khơng tương
xứng, phát hiện tương tác, mơ hình và phát hiện trường hợp trùng lặp), giám
sát và báo hiệu an tồn (trong đó phụ thuộc vào thuốc và sử dụng nhi khoa)

và phân tích rủi ro lợi ích.
Vai trị của UMC trong lĩnh vực an tồn thuốc khơng phải là khơng có
tranh cãi đối với cả các cơ quan dược phẩm và các công ty dược phẩm, mặc
dù đã tiếp cận theo hướng mở, sẵn sàng tham gia với nhiều bên trong thế
giới dược phẩm. WHO-UCM có mối liên quan chặt chẽ đến với các nước
đang phát triển và các khu vực khác nơi cảnh giác dược chưa được xử lý.
Phản ứng có hại của thuốc (ADR) là bất kỳ phản ứng độc hại và ngoài
ý muốn đối với thuốc xảy ra ở liều thường được sử dụng ở người để điều trị
dự phịng, chẩn đốn, điều trị hoặc điều chỉnh chức năng sinh lý. ADR được
coi là một trong những nguyên nhân hàng đầu gây bệnh tật và tử vong.
Đánh giá nguyên nhân là đánh giá khả năng một điều trị cụ thể là
nguyên nhân của một tác dụng phụ quan sát được. Nó đánh giá mối quan hệ
giữa điều trị bằng thuốc và sự xuất hiện của một tác dụng phụ. Nó là một
thành phần quan trọng của cảnh giác dược, góp phần đánh giá tốt hơn các hồ
sơ lợi ích rủi ro của thuốc và là một phần thiết yếu để đánh giá các báo cáo
ADR trong các hệ thống cảnh báo sớm và cho các mục đích quy định. Đánh
giá nguyên nhân của ADR có thể được thực hiện bởi các bác sĩ lâm sàng,

Luan van


9
các học giả, ngành công nghiệp dược phẩm, và các nhà quản lý và trong các
môi trường khác nhau, bao gồm cả các thử nghiệm lâm sàng.
Ở cấp độ cá nhân, các nhà cung cấp dịch vụ chăm sóc sức khỏe đánh
giá quan hệ nhân quả một cách khơng chính thức khi xử lý ADR ở bệnh
nhân để đưa ra quyết định liên quan đến trị liệu. Cơ quan quản lý đánh giá
các báo cáo ADR tự phát, trong đó đánh giá ngun nhân có thể giúp phát
hiện tín hiệu và hỗ trợ trong các quyết định lợi ích rủi ro liên quan đến
thuốc. Các thuật toán, được cấu trúc các hệ thống được thiết kế đặc biệt để

xác định ADR, về mặt lý thuyết sẽ đưa ra quyết định khách quan hơn về
quan hệ nhân quả. Các đánh giá nguyên nhân khách quan dựa trên bốn
nguyên tắc cơ bản - đủ điều kiện theo thời gian, phản ứng và kết quả, kiểm
tra lại và kết quả, và các yếu tố gây nhiễu.
1.2.

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.2.1. Giới thiệu chung
-

Vào những năm 1960 con người đã bắt đầu sử dụng các thuật toán
để khai phá cơ sở dữ liệu. Vì lượng dữ liệu ngày càng nhiều và con
người cần tìm ra được những giá trị thực sự trong lượng dữ liệu
khổng lồ đó.[7]

-

Khoa học cơng nghệ càng phát triển thì việc đẩy mạnh nghiên cứu
và áp dụng các thuật toán thu thập, lưu trữ và xử lý dữ liệu, giúp
phát triển tích cực cho nhiều lĩnh vực hơn nữa trong đời sống.

-

Lượng thơng tin ngày càng nhiều địi hỏi các thiết bị để đáp ứng
khả năng lưu trữ cũng phải nhiều hơn chính vì thế mà thơng tin
được lưu trữ trên các thiết bị như đĩa, băng từ, đĩa CD-ROM,…
cũng tăng lên.

Lượng thông tin trên các hệ thống tin học cũng tăng lên từ đó tạo lên
nhiều bộ cơ sở dữ liệu lớn hơn.

-

Cuối thập kỉ 80 sự phát triển bùng nổ của các CSDL, nguồn dữ
liệu khổng lồ phát triển nhanh chóng đã tạo ra sự bùng nổ thông tin

Luan van


10
trên tồn cầu. Lượng thơng tin q nhiều mà con người thì cần
những giá trị trong nguồn dữ liệu đó đã tạo lên những nhu cầu thiết
yếu để khai thác giá trị dữ liệu cốt lõi trong đó.
-

Bước đầu tiếp cận nguồn dữ liệu và tạo ra những giá trị mới để
cung cấp thơng tin có chất lượng cao cho các tổ chức tài chính,
thương mại, khoa học,…

-

Lượng dữ liệu khổng lồ này sẽ đem lại nhiều giá trị bởi vì thơng
tin là có ý nghĩa quyết định trong mọi hoạt động quản lý, kinh
doanh của tổ chức, đơn vị,…

1.2.2. Giới thiệu về Khai phá dữ liệu
-

Khai phá dữ liệu là một lĩnh vực nhằm tự động khai thác những
thông tin, tri thức có tính tiềm ẩn, hữu ích từ những cơ sở dữ liệu
lớn cho các đơn vị, tổ chức, doanh nghiệp,…[7]


-

Có thể định nghĩa: Khai phá dữ liệu là một quá trình tìm kiếm,
phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong cơ sở dữ liệu
lớn.[7]

1.2.2.1. Quy trình khám phá tri thức trong cơ sở dữ liệu

Hình 1.1 - Quy trình khám phá tri thức

Luan van


11
-

Trích chọn dữ liệu: là tìm ra những tập dữ liệu có ý nghĩa từ các
tập dữ liệu lớn ban đầu. Ví dụ, từ CSDL về bán hàng, ta chọn ra
các dữ liệu về khách hàng, đơn đặt hàng, hoá đơn.

-

Tiền xử lý dữ liệu:
 Làm sạch dữ liệu: làm sạch và làm giàu dữ liệu. Làm đầy đủ
dữ liệu, xử lý nhiễu, những vấn đề không nhất quán, v.v. Ví
dụ, một khách hàng có thể được lưu ở nhiều bản ghi có thể có
những tên, địa chỉ khác nhau, cần phải chỉnh sửa để đảm bảo
nhất quán và chính xác về khách hàng đó. Những dữ liệu
khác nhau về khn dạng, đơn vị đo lường,… cần phải có

những qui định thống nhất và cách chuyển về một dạng chung.
 Rút gọn dữ liệu: Thực hiện bằng các thuật toán phân nhóm,
phương pháp nén dữ liệu, lấy mẫu,…
 Rời rạc hóa dữ liệu: Thực hiện bằng các thuật tốn histograms,
entropy, phân khoảng,…

-

Biến đổi dữ liệu: thực hiện mã hoá và xử lý dữ liệu nhằm tự động
hoá việc biến đổi và di chuyển dữ liệu.

-

Khai phá dữ liệu: thực hiện phân tích và ra quyết định với mục
đích chọn ra các mẫu tin, những mối quan hệ trong dữ liệu.

-

Biểu diễn tri thức và đánh giá:
 Những mẫu tin và mối liên hệ trong dữ liệu được chuyển dạng
và biểu diễn dưới dạng như: dạng đồ thị, dạng bảng, dạng
cây,…
 Khi đã có tri thức ta có thể đánh giá những tri thức này theo
những tiêu chí nhất định. Ví dụ: Đưa ra tri thức của một loại
thuốc thì cần đảm bảo loại thuốc đó có điều trị đúng bệnh hay
chưa, đồng thời có gây ra những biểu hiện bệnh mới hay
không.

Luan van



12
Quy trình khám phá tri thức là chuỗi lặp nhiều lần gồm các bước được
nêu bên trên.
1.2.2.2. Các bước của quá trình khai phá dữ liệu
Các bước của quá trình khai phá dữ liệu bao gồm các bước như “hình
1.2 - Các bước của quá trình khai phá dữ liệu”

Hình 1.2 - Các bước của quá trình khai phá dữ liệu
1.2.2.3. Các kỹ thuật áp dụng và mục đích chính trong khai phá dữ
liệu
Khám phá tri thức trong CSDL là một lĩnh vực liên ngành gồm: Tổ
chức dữ liệu, học máy, trí tuệ nhân tạo, thống kê, thu thập tri thức hệ chuyên
gia,…
Các kỹ thuật Học máy áp dụng trong Khai phá dữ liệu:
Học có giám sát (Supervised Learning): Học có giám sát là nhiệm vụ
học máy của việc học một hàm ánh xạ đầu vào thành đầu ra dựa trên các cặp
đầu vào - đầu ra mẫu. Một thuật tốn học có giám sát sẽ phân tích dữ liệu
đào tạo và tạo ra một hàm suy ra, có thể được sử dụng để ánh xạ các ví dụ
mới. Một kịch bản tối ưu sẽ cho phép thuật toán xác định chính xác các nhãn
lớp cho các trường hợp khơng nhìn thấy. Điều này địi hỏi thuật tốn học tập
phải khái qt hóa từ dữ liệu huấn luyện để khơng nhìn thấy các tình huống
theo cách "hợp lý". Trong học máy có giám sát sẽ sử dụng phương pháp
chính là: phân lớp và dự đoán.

Luan van


13
Học phi giám sát (Unsupervised Learning): Phương pháp học tập

được giám sát cho rằng nhãn có sẵn cho tất cả các mẫu đào tạo. Trong học
tập bán tự động (SSL), bên cạnh dữ liệu được dán nhãn, người ta cho rằng
cũng có những dữ liệu chưa được gắn nhãn có sẵn tại thời điểm đào tạo.
Mục tiêu của các phương thức SSL là trích xuất thơng tin từ dữ liệu chưa
được gắn nhãn có thể tạo điều kiện cho việc học một mơ hình phân biệt đối
xử với hiệu suất cao hơn
Trong học máy không giám sát sẽ sử dụng phương pháp chính là:
phân cụm, có nghĩa là đối tượng được xếp theo từng cụm.
Luật kết hợp (association rules): Là phát hiện những mối quan hệ
giữa các giá trị dữ liệu trong cơ sở dữ liệu, các mối quan hệ đó chính là các
luật kết hợp và biểu diễn tri thức ở dạng khá đơn giản. Ví dụ: “60% nữ giới
vào siêu thị nếu mua phấn thì có tới 80% trong số họ sẽ mua thêm son”.
Mục đích chính của khai phá dữ liệu là trích rút tri thức một cách tự
nhiên, hiệu quả và “thông minh” từ kho dữ liệu, những tri thức được chiết
xuất sẽ mang lại những lợi ích có tính cạnh tranh trên thương trường và
trong nghiên cứu khoa học. Do đó, khai phá dữ liệu chính là là mơ tả
(description) và dự đốn (prediction).

Hình 1.3 - Mục đích chính của khai phá dữ liệu
Dự đốn là việc sử dụng các biến hoặc các trường trong CSDL để
trích xuất ra các hình mẫu, dự đốn những giá trị chưa biết hoặc những giá

Luan van


14
trị trong tương lai. Mơ tả là việc tìm kiếm các hình mẫu mơ tả dữ liệu mà
con người có thể hiểu được. Để đạt được hai mục đích này, khai phá dữ liệu
bao gồm như sau.
Phân lớp (Classification):

-

Phân lớp là giai đoạn sử dụng mơ hình phân lớp thu được từ giai đoạn
huấn luyện để gán nhãn lớp cho các mẫu mới. Để kiểm tra hiệu quả
mơ hình phân lớp ta sử dụng một tập dữ liệu kiểm tra đã được gán
nhãn lớp trước (độc lập với tập dữ liệu huấn luyện ban đầu). Thực
hiện phân lớp các phần tử dữ liệu trong tập dữ liệu kiểm tra, xác định
xem có bao nhiêu phần tử được gán nhãn lớp đúng, bao nhiêu phần tử
được gán nhãn lớp sai. Nếu độ chính xác ở mức chấp nhận được (số
phần tử được phân lớp đúng chiếm đa số), mơ hình sẽ được sử dụng
để xác định nhãn lớp cho các dữ liệu mới chưa biết nhãn lớp [9].

Hình 1.4 - Mơ hình mơ tả giai đoạn phân lớp
Dự đốn: giai đoạn sau khi kết thúc mơ hình phân lớp đưa ra một kết
quả dữ liệu mới để từ đó đưa ra những dự đốn cho quyết định tiếp theo.
Ví dụ: Với mơ hình phân lớp như trên, sau khi đưa bộ dữ liệu kiểm
tra vào mơ hình phân lớp để học ta sẽ được một dữ liệu mới (là các gán
nhãn) gồm các thuộc tính (tên, tuổi, thu nhập, quyết định cho vay) đã được
kiểm tra và nhận thấy rằng kết quả gán nhãn đó có độ chính xác cao, thì với

Luan van


15
những dữ liệu mới cũng có các thuộc tính (tên, tuổi, thu nhập) có độ tương
đồng với gán nhãn được học, ta sẽ đưa ra được dự đoán là an tồn hay rủi ro.
-

Khai phá mơ tả: thường được sử dụng để tạo ra mối tương quan, lập
bảng chéo, tần số,… Những kỹ thuật này được xác định để tìm sự đều

đặn trong dữ liệu và độ tương tự các mẫu. Ứng dụng khác của phân
tích mơ tả là khám phá các nhóm con nổi bật trong phần chính của dữ
liệu.

6 cụm
Bao nhiêu cụm

Luan van


16

2 cụm

4 cụm

Hình 1.5 - Ví dụ về phân tích khai phá dữ liệu mơ tả
Ví dụ hình 1.5 là một phương pháp trong khai thác dữ liệu mô tả. Tập
dữ liệu input là một bộ dữ liệu không rõ ràng, chính vì thế mỗi người có thể
suy nghĩ ra một cách chia khác nhau.

Hình 1.6 - Mơ tả giai đoạn gom cụm sử dụng khai phá dữ liệu mô tả
Gom cụm là xếp các đối tượng theo từng cụm dữ liệu tự nhiên. Sau
khi đưa bộ dữ liệu vào giai đoạn huấn luyện. Kết quả output ra sẽ chia tập
dữ liệu thành nhiều nhóm khác nhau tùy thuộc vào thuộc tính đã huấn luyện.
Chính vì thế những phần tử trong tập dữ liệu có khoảng cách gần nhau nhất
sẽ gom lại thành một cụm có chung điểm tương đồng.

Luan van



17
-

Khai phá luật kết hợp/tương quan:

Đây là tiến trình khám phá các tập giá trị thuộc tính xuất hiện thường
xuyên. Từ tập thường xuyên có thể tạo ra các luật kết hợp giữa các giá trị
thuộc tính. Một luật kết hợp X → Y thể hiện sự xuất hiện của tập X sẽ dẫn
đến sự xuất hiện đồng thời của tập Y. Ví dụ, luật kết hợp có thể áp dụng
trong lĩnh vực bán hàng để xác định được xu thế bán hàng, tâm lý khách
hàng,… từ đó đưa ra chiến lược phát triển phù hợp,...[8]

Hình 1.7 - Mơ tả giai đoạn khai phá luật kết hợp của bài toán giỏ hàng
Với bộ dữ liệu đầu vào đã có, ta sẽ phân loại các tập mục (item) và sử
dụng các tập mục (item) thường xuyên để sinh ra luật.
1.2.3. Ý nghĩa và vai trò của Khai phá dữ liệu
Khai phá dữ liệu được coi là công nghệ hiện đại trong lĩnh vực quản
lý thơng tin bởi vì ta thấy khai phá dữ liệu áp dụng gần như ở mọi mặt trong
đời sống: trong công việc hàng ngày chúng ta thu thập và xử lý dữ liệu
trong các nghiệp vụ ngân hàng như tìm kiếm lượng khách hàng tiềm năng
cho vay vốn, hay loại bánh và sữa được bán chạy trong các cửa hàng, siêu
thị, số lượt tìm kiếm thơng tin nhiều nhất trên các trang web,… và đặc trưng
của nó là có tính ẩn.
Khai phá dữ liệu được áp dụng trong nhiều ứng dụng thuộc nhiều lĩnh
vực khác nhau như y học, kinh doanh, cơng nghệ,… Chính vì thế mà đây
được coi là một sự hỗ trợ rất lớn cho các nhà khoa học, giáo dục học, doanh
nghiệp,… nắm bắt và phát triển tình hình của mình một các tốt hơn.

Luan van



18
Ứng dụng của Khai phá dữ liệu: Khai phá dữ liệu là một lĩnh vực
được quan tâm và ứng dụng rộng rãi:
-

Ngân hàng: Xây dựng mơ hình dự báo rủi ro tín dụng; quy luật
phát triển của thị trường chứng khốn,…

-

Điều trị y học: Từ việc thống kê những hình ảnh y học từ các cuộc
thăm khám nha khoa, bác sỹ có thể đưa ra được những phác đồ
điều trị phù hợp cho các bệnh nhân mắc bệnh nha khoa tương tự.

-

Tài chính và thị trường chứng khốn: Từ diễn biến liên tục trong
một khoảng thời gian nhất định có thể đưa ra những dự đoán về
khả năng đầu tư của doanh nghiệp, giá cả mặt hàng.

-

Thương mại điện tử: phân tích thơng tin truy cập của người dùng
trên website; phân tích mối quan hệ giữa các mặt hàng với từng
loại khách hàng, ...

-


Phát hiện gian lận: Hệ thống FAIS dùng để thẩm định các giao
dịch thương mại gồm cả việc chuyển tiền bất hợp pháp.

1.2.4. Bài toán khai phá dữ liệu
Khai phá dữ liệu trong những năm gần đây là một bài toán nhận được
rất nhiều sự quan tâm trong các lĩnh vực phát triển dựa trên nền tảng công
nghệ thông tin. Sự phát triển của các hệ thống lữu trữ dữ liệu đã tạo lên
những bộ cơ sở dữ liệu khổng lồ, nhưng trong cả khối tài sản dữ liệu đó thì
khơng hẳn tất cả đều tốt mà chỉ có những tri thức được khai phá ra mới thực
sự đem lại giá trị. Chính vì thế bài tốn khai phá dữ liệu ngày càng phát triển
trên nhiều lĩnh vực khác nhau, mục đích chung là khai thác ra những giá trị
phát triển cho con người.
Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động
khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp
dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong
tập dữ liệu đó.

Luan van


×