Báo cáo chuyên đề tổng quan unsupervised learning

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.42 MB, 61 trang )

BÁO CÁO CHUYÊN ĐỀ

1

TEAM PRESENTATION

Lê Thị Hồng
Đào
1951052033

Trần Nguyễn Duy An
1951052006

2

Võ Thị Thu
Minh
1951052120

Nguyễn Văn Phúc
1951052157

Y TẾ

GIÁO DỤC

3

Tổng quan
Unsupervised
Learning

Định nghĩa
Unsupervised Learning là một
nhóm thuật tốn hay phương
pháp kỹ thuật cho phép máy tự
học hỏi và tìm ra một mơ hình hay
cấu trúc nào đó bên trong dữ liệu
một cách tự động và độc lập.
Bộ dữ liệu được cung cấp khơng
có output cụ thể, hoặc hồn tồn
khơng sử dụng các label.

5

Cách thức học của mơ hình
Dựa trên các quan hệ tương tự, sự
đồng xuất hiện, hay các phép biến
đổi ma trận.

6

Một số phương pháp của
Unsupervised Learning
 Clustering: Phân nhóm dữ liệu thành các

nhóm dựa trên sự tương đồng hoặc khoảng
cách giữa các điểm dữ liệu từ tập dữ liệu
ban đầu.
 Dimensionality reduction: Giảm số chiều
của dữ liệu để tạo ra một biểu diễn dữ liệu
mới nhưng vẫn giữ được các tính chất quan
trọng của dữ liệu ban đầu.

7

Một số phương pháp của
Unsupervised Learning
 Anomaly detection: Phát hiện các điểm dữ
liệu bất thường hoặc không tuân theo các
quy tắc hay đặc điểm chung của tập dữ liệu.
 Density estimation: Ước tính mật độ xác
suất của dữ liệu.
 Association rule learning: Phương pháp
này tìm kiếm các mối quan hệ tương quan
giữa các điểm dữ liệu.

8

Một số thuật toán phổ biến
 K-Means: Phân loại các điểm dữ liệu vào
các nhóm dựa trên khoảng cách giữa
chúng.
 Hierarchical clustering: Xây dựng cây

phân cấp để phân loại các điểm dữ liệu.
 Density-based clustering algorithms:
Các thuật toán dựa trên mật độ như
DBSCAN và HDBSCAN được sử dụng để
phân cụm dữ liệu dựa trên mật độ của
các điểm dữ liệu.

9

Một số thuật toán phổ biến
 t-SNE: Giảm số chiều của dữ liệu và biểu
diễn các điểm dữ liệu trong khơng gian
hai chiều hoặc ba chiều để hình dung dữ
liệu.
 Principal Component Analysis (PCA):
Giảm số chiều của dữ liệu bằng cách tìm
các thành phần chính có trọng số cao
nhất trong tập dữ liệu.

10

Những lợi ích
Unsupervised Learning
▹ Nó có thể xử lý một lượng lớn dữ liệu khơng
được gắn nhãn và khơng có cấu trúc
▹ Khám phá thông tin từ các mẫu ẩn: sử dụng
nhiều thuật toán khác nhau để khám phá
những điểm tương đồng, khác biệt hoặc mối

quan hệ giữa các điểm và tập hợp dữ liệu
khác nhau
▹ Điều chỉnh dữ liệu: giúp chúng ta kiểm tra và
điều chỉnh dữ liệu để phù hợp với mơ hình
học máy hoặc bộ phân loại, đặc biệt là trong
trường hợp dữ liệu bị thiếu hoặc có nhiễu.

11

PHÂN ĐOẠN HÌNH ẢNH
TRONG Y TẾ

12

1.

THUẬT TOÁN
K-MEANS

THUẬT TỐN K-MEANS
K-means trong phân đoạn hình ảnh y tế
Ví dụ:
 Phân đoạn các cấu trúc trong ảnh MRI,
như não, gan, phổi, tim,…
 Phân đoạn các mạch máu trong ảnh y tế
 Phân đoạn các vùng ung thư trong ảnh y tế
→ Giúp việc chẩn đốn và điều trị bệnh

chính xác, hiệu quả hơn

14

CÁCH HOẠT ĐỘNG
▹Để áp dụng thuật
tốn K-means vào
phân đoạn hình ảnh

15

y tế, ta thực hiện
các bước như sau:

Sơ đồ thuật toán K-mean

Thuật toán K-means: phương pháp phân cụm dựa trên việc tìm các
trung tâm cụm (centroid) sao cho tổng bình phương khoảng cách giữa
các điểm dữ liệu và trung tâm cụm tương ứng là nhỏ nhất.
•

Chọn ngẫu nhiên k điểm bất kì làm trung tâm

•

Nhóm mỗi điểm dữ liệu vào 1 cụm có điểm trung tâm gần nhất với
nó
16

•

Cập nhập trung tâm

Sau khi đã tính tốn được trung tâm cụm, chúng ta có thể sử dụng
chúng để phân đoạn hình ảnh y tế bằng cách gán mỗi pixel vào cụm có
trung tâm cụm gần nhất.

THUẬT TỐN K-MEANS
▹Sau khi hồn thành các bước trên, các vùng
cần phân đoạn trong hình ảnh y tế sẽ được phân
thành các cụm dữ liệu tương ứng. Các vùng cùng
một cụm dữ liệu có đặc điểm tương tự nhau, giúp
cho việc phân đoạn hình ảnh trở nên dễ dàng và
chính xác hơn.

17

Một số phương pháp tiền xử lý
▹

Chuyển đổi không gian màu: Cải thiện
khả năng phân đoạn của thuật toán.

▹

Cân bằng độ sáng: Giảm thiểu ảnh

hưởng của độ sáng không đồng đều.

▹

Lọc ảnh: Giảm thiểu nhiễu trong ảnh và
cải thiện khả năng phân đoạn của thuật
toán.

▹

Phát hiện biên: Giúp tách riêng các vùng
có độ tương đồng khác nhau và cải thiện
khả năng phân đoạn của thuật tốn.

▹

Phép biến đổi hình thái học: Giúp loại bỏ
các vùng nhỏ không quan trọng và cải
thiện khả năng phân đoạn của thuật toán.

18

2.
THUẬT TOÁN
Fuzzy C-means

Thuật toán Fuzzy C-means
Fuzzy C-means (FCM) là phương pháp phân cụm dựa

trên việc tìm các trung tâm cụm và mức độ thuộc về
cụm của các điểm dữ liệu. Các bước áp dụng thuật tốn
vào phân đoạn hình ảnh y tế:
▹ Tiền xử lý ảnh: Giảm nhiễu và cân bằng độ sáng.
Các bước tiền xử lý bao gồm: chuyển đổi không
gian màu, cân bằng độ sáng, làm mịn ảnh.
▹ Khởi tạo trọng số: Mỗi pixel khởi tạo 1 giá trị trọng
số.
▹ Thiết lập ma trận trọng số: Thiết lập dựa trên các
giá trị trọng số của mỗi pixel ,tính tốn bằng cách
lấy giá trị trọng số của mỗi pixel nhân với giá trị
trọng số của các pixel khác trong ảnh.

20

Thuật toán Fuzzy C-means
▹

Khởi tạo tâm cụm: Các tâm cụm ban đầu
được khởi tạo ngẫu nhiên trong phạm vi giá trị
của ảnh.

▹

Cập nhật tâm cụm: Tâm cụm mới được tính
tốn bằng cách sử dụng ma trận trọng số và
các tâm cụm hiện tại.

▹

Cập nhật trọng số: Được cập nhật dựa trên
khoảng cách của pixel đó đến các tâm cụm
hiện tại.

▹

Lặp lại quá trình cập nhật tâm cụm và
trọng số: Lặp lại cho tới khi đạt được điều
kiện dừng.

21

Thuật tốn Fuzzy C-means
FCM có thể cung cấp các kết quả phân đoạn tốt hơn so với Kmeans khi các vùng trong hình ảnh có sự chồng chéo hoặc
khơng rõ ràng. FCM cần thời gian tính tốn nhiều hơn và đòi
hỏi nhiều tài nguyên hơn so với K-means.

22

Đánh giá các thuật toán phân cụm

DỮ LIỆU

Một số dataset phổ biến :
▹ Dataset Camelyon16: Gồm hơn 400 hình ảnh
mơ tả các mẫu nang tuyến tiền liệt, được chia
thành hai tập con: tập train và tập test.

▹ Dataset ISIC: Dataset này bao gồm hơn 2000
hình ảnh của các khối u da, được chia thành 7
loại khối u khác nhau.
▹ Dataset LIDC-IDRI: Bao gồm hơn 1000 hình ảnh
CT của phổi của các bệnh nhân bị ung thư phổi.
▹ Dataset Malaria: Bao gồm hơn 27.000 hình ảnh
máu được sử dụng để phân loại các tế bào máu
nhiễm ký sinh trùng gây ra bệnh sốt rét.
▹ Dataset PASCAL VOC: Dataset này bao gồm
hơn 10.000 hình ảnh của các đối tượng trong
nhiều lĩnh vực, bao gồm cả y tế.

23

DỮ LIỆU
Để đạt được kết quả tốt, cần chú
ý đến độ đa dạng và độ phức tạp
của dataset, cũng như các thách
thức đặc biệt trong phân đoạn
hình ảnh y tế, chẳng hạn như sự
biến đổi màu sắc, độ phân giải
thấp và các hiện tượng khác trong
ảnh y tế.

24

ĐÁNH GIÁ HIỆU NĂNG
Có thể sử dụng các chỉ số đánh giá phân đoạn hình ảnh như

Precision, Recall và F1-score, phân đoạn hình ảnh y tế phụ
thuộc vào nhiều yếu tố như số lượng cụm (clusters), đặc trưng
được sử dụng để phân cụm và kỹ thuật xử lý ảnh được sử
dụng.
Các yếu tố ảnh hưởng thuật toán:
▹

Đặc điểm của dữ liệu y tế: Cho kết quả tốt khi phân đoạn
các vùng có độ tương đồng cao.

▹

Phương pháp tiền xử lý: Trước khi áp dụng thuật toán Kmeans, ta cần thực hiện các phương pháp tiền xử lý để
giảm thiểu nhiễu và tăng tính ổn định cho thuật tốn.

▹

Các phương pháp kiểm soát tham số: như kiểm định độ
tin cậy, kiểm định Cross-validation để đảm bảo kết quả
phân đoạn tốt nhất. Chỉ hoạt động tốt trên các hình ảnh có
độ tương phản rõ ràng khơng phù hợp với các hình ảnh có
sự chồng chéo giữa các vật thể. Khơng thể xử lý được các
hình ảnh có nhiễu hoặc các vùng ảnh không đồng nhất.

25

Báo cáo chuyên đề tổng quan unsupervised learning

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về