Tải bản đầy đủ (.pdf) (83 trang)

tiếp cận unsupervised data augmentation và deep embedding trong phân cụm dữ liệu metagenomics

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.09 MB, 83 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

ĐẠI HỌC QUỐC GIA TP. HCM

<b>TRƯỜNG ĐẠI HỌC BÁCH KHOA </b>

HUỲNH QUANG BẢO

<b>TIẾP CẬN UNSUPERVISED DATA AUGMENTATION VÀ DEEP EMBEDDING TRONG PHÂN CỤM DỮ LIỆU </b>

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 08 năm 2021

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

CƠNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI:

<b>TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM</b>

Cán bộ hướng dẫn khoa học 1: PGS.TS. Trần Văn HoàiCán bộ hướng dẫn khoa học 2: TS. Lê Văn Vinh

Cán bộ chấm nhận xét 1 : PGS.TS. Nguyễn Tuấn ĐăngCán bộ chấm nhận xét 2 : TS. Lê Thanh Vân

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQGTp. HCM ngày 05 tháng 08 năm 2021 (trực tuyến).

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:1. PGS.TS. Thoại Nam- Chủ tịch2. TS. Lê Thành Sách- Thư ký3. TS. Lê Thanh Vân- Phản biện 14. PGS.TS. Nguyễn Tuấn Đăng- Phản biện 25. TS. Nguyễn Văn Sinh- Uỷ viên

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

<b>CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA</b>

<b>KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH</b>

<b>PGS.TS. Thoại Nam</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

ĐẠI HỌC QUỐC GIA TP.HCM

<b>TRƯỜNG ĐẠI HỌC BÁCH KHOA </b>

<b>CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự do - Hạnh phúc</b>

<b> </b>

<b>NHIỆM VỤ LUẬN VĂN THẠC SĨ </b>

Họ tên học viên: Huỳnh Quang Bảo MSHV: 1870340 Ngày, tháng, năm sinh: 01/05/1995 Nơi sinh: Cần Giuộc Chuyên ngành: Khoa Học Máy Tính Mã số : 8.48.01.01

<b>I. TÊN ĐỀ TÀI: Tiếp cận unsupervised data augmentation và deep embedding trong phân cụm dữ liệu metagenomics </b>

1. Tìm hiểu ngữ cảnh, các cơng trình liên quan đến bài tốn phân cụm dữ liệu metagenomics

2. Tìm hiểu các cơng trình về phân cụm ứng dụng mơ hình học sâu không giám sát 3. Hiện thực giải thuật phân cụm ứng dụng mơ hình học sâu không giám sát trên dữ liệu

<b>III. NGÀY GIAO NHIỆM VỤ : 24/02/2020 </b>

<b>IV. NGÀY HOÀN THÀNH NHIỆM VỤ: 13/06/2021 </b>

<b>V. CÁN BỘ HƯỚNG DẪN : PGS.TS. Trần Văn Hoài và TS. Lê Văn Vinh </b>

<i>Tp. HCM, ngày . . . . tháng .. . . năm 2021</i>

<b>CÁN BỘ HƯỚNG DẪN 1 </b>

(Họ tên và chữ ký) PGS.TS. Trần Văn Hoài

<b>CÁN BỘ HƯỚNG DẪN 2 </b>

(Họ tên và chữ ký)

TS. Lê Văn Vinh

<b>CHỦ NHIỆM BỘ MÔN ĐÀO TẠO </b>

(Họ tên và chữ ký)

<b>TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH </b>

(Họ tên và chữ ký)

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

LỜI CẢM ƠN

Để hoàn thành luận văn này, tôi xin chân thành cảm ơn PGS.TS. Trần Văn Hồi (khoa KhoaHọc và Kỹ Thuật Máy Tính, trường Đại học Bách Khoa TPHCM) đã trực tiếp dẫn dắt, địnhhướng tơi trong suốt q trình thực hiện luận văn. Xin cảm ơn những hướng dẫn của thầyvề phương pháp nghiên cứu khoa học, cũng như các kiến thức chuyên môn đã áp dụngvào luận văn.

Tôi cũng xin chân thành cảm ơn TS. Lê Văn Vinh (khoa Công Nghệ Thông Tin, trườngđại học Sư Phạm Kỹ Thuật, TPHCM) đã tận tình chỉ dẫn những kiến thức chuyên ngànhvề lĩnh vực metagenomics, cũng như dành nhiều thời gian giúp tơi hồn thiện bài báokhoa học và luận văn. Cảm ơn thầy đã luôn tạo điều kiện thuận lợi trong việc truy cập hệthống máy tính lớn trong q trình thực nghiệm trên các tập dữ liệu phức tạp.

Nghiên cứu trong luận văn được tài trợ bởi đề tài loại B của Đại Học Quốc Gia TPHCM(B2019-20-06).

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

TÓM TẮT

Việc nghiên cứu các trình tự metagenomics mang lại sự hiểu biết về môi trường vi sinhvật. Một trong những bước quan trọng trong mọi dự án về metagenomics là phân loạicác trình tự về nhóm các lồi khác nhau, được gọi là “phân cụm” hay “binning” trongngữ cảnh metagenomics. Để giải quyết vấn đề thiếu hụt cơ sở dữ liệu tham khảo, một vàiphương pháp hiện có áp dụng các quy trình học khơng giám sát. Tuy nhiên, việc ứng dụngsức mạnh của các mơ hình học sâu khơng giám sát để phân loại các trình tự metagenomicsvẫn cịn là một vấn đề mở.

Luận văn đề xuất giải thuật cho bài toán phân cụm dữ liệu metagenomics gọi làMetaDEC. Phương pháp được đề xuất hướng tiếp cận áp dụng mô hình học sâu khơnggiám sát, do đó nó khơng u cầu các cơ sở dữ liệu tham khảo. Các kết quả thí nghiệm chothấy phương pháp được đề xuất trong luận văn đạt hiệu suất cạnh tranh so với các cơngtrình hiện tại trong lĩnh vực trên cả dữ liệu mô phỏng và dữ liệu thật.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

The study of metagenomic sequences brings a deep understanding of microbial munities. One of the key steps in metagenomic projects is to classify sequences into groupsof different organisms, which is referred to as “binning”. Due to the lack of a referencedatabase, some existing binning algorithms apply unsupervised learning processes. How-ever, utilizing the strength of deep unsupervised learning for classifying metagenomicsequences is still an open problem.

com-This work proposes a binning algorithm for metagenomic sequences called MetaDEC.The proposed method applies a deep unsupervised learning approach, and it thus doesnot require any reference database. The experimental results show that MetaDEC achievesa very competitive performance in comparison to available methods on both simulatedand real metagenomic data.

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

LỜI CAM ĐOAN

Tôi xin cam đoạn kết quả, nội dung được trình bày trong luận văn này là do tôi nghiêncứu, dưới sự hướng dẫn của PGS.TS. Trần Văn Hoài và TS. Lê Văn Vinh. Các kết quả, sốliệu trong luận văn là trung thực, và chưa từng được công bố. Các tài liệu được sử dụngtrong luận văn được trích dẫn rõ ràng, đầy đủ.

Học viên

Huỳnh Quang Bảo

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

M ỤC LỤC

1.1 Giới thiệu chung về metagenomics . . . . 1

1.1.1 Trích xuất DNA (DNA Extraction) . . . . 2

1.1.2 Phân đoạn (Sequencing) . . . . 2

1.1.3 Tái cấu trúc chuỗi/phân cụm (Assembly/Binning) . . . . 3

1.1.4 Gán nhãn gen (Genomic Annotation) . . . . 4

1.1.5 Tái tạo quá trình trao đổi chất trong hệ sinh thái (Metabolic struction) . . . . 5

Recon-1.2 Vấn đề phân cụm trong bài toán metagenomics . . . . 6

1.2.1 Tổng quan về phân cụm . . . . 6

1.2.2 Học sâu trong bài toán phân cụm. . . . 7

1.2.3 Vai trị bài tốn phân cụm trong lĩnh vực metagenomics . . . . 7

1.3 Vấn đề tồn tại . . . . 8

1.4 Mục tiêu luận văn . . . . 8

<b>2Kiến thức nền tảng10</b>2.1 Kiến thức sơ bộ về metagenomics . . . 10

2.1.1 Tổng quan về DNA . . . 10

2.1.2 Đặc trưng trình tự cho bài toán phân cụm . . . 10

2.1.3 Độ phong phú. . . 12

2.2 Sơ bộ về một số mơ hình học sâu . . . 12

2.2.1 Kiến trúc autoencoder (AE) . . . 12

2.2.2 Kiến trúc variational autoencoder (VAE). . . 13

<b>3Các cơng trình liên quan18</b>3.1 Các cơng trình liên quan phân cụm metagenomics . . . 18

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

3.1.1 Phương pháp có giám sát . . . 18

3.1.2 Phương pháp không giám sát . . . 19

3.2 Các cơng trình liên quan phân cụm ứng dụng mơ hình học sâu . . . 19

3.2.1 AE-based . . . 20

3.2.2 VAE-based . . . 21

<b>4Phương pháp24</b>4.1 Pha 1: Gom nhóm trình tự và xây dựng các seed . . . 24

4.2 Pha 2: Phân cụm các nhóm trình tự sử dụng học sâu . . . 26

5.2 Tập dữ liệu . . . 40

5.3 Tham số huấn luyện . . . 42

5.4 Kết quả . . . 42

5.4.1 Kết quả trên các tập dữ liệu mô phỏng. . . 42

5.4.2 Kết quả trên dữ liệu thật . . . 46

5.4.3 So sánh các phương pháp đề xuất . . . 46

5.4.4 Đánh giá ảnh hưởng của tham số kích cỡ nhóm trình tự . . . 51

5.4.5 Đánh giá độ sâu của mơ hình . . . 53

<b>6Kết luận và hướng phát triển56</b>6.1 Kết luận . . . 56

6.2 Hướng phát triển . . . 57

<b>7Cơng trình nghiên cứu58Tài liệu tham khảo59A Phụ lục63</b>A.1 Các loại kiến trúc . . . 63

A.2 Biểu diễn trực quan không gian ẩn . . . 64

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>Lý lịch trích ngang69</b>

<b>Q trình cơng tác69</b>

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

D ANH SÁCH HÌNH VẼ

1.1.1 Ví dụ về cơng nghệ phân đoạn . . . . 4

1.1.2 Metagenomics là gì? . . . . 5

1.1.3 Các bước phân tích dữ liệu metagenomic . . . . 6

2.1.1 Mô tả các thành phần của đoạn DNA. . . 11

2.2.1 Kiến trúc tổng quá của mơ hình autoencoder . . . 13

2.2.2 Kiến trúc tổng q của mơ hình VAE . . . 15

2.2.3 Mô tả các thành phần của hàm mất mát trong mơ hình VAE. . . . 16

2.2.4 Mơ tả trực quan các thành phần của mơ hình VAE. . . . 16

2.2.5 Mẹo chuyển tham số trong VAE . . . 17

3.2.1 Q trình sinh dữ liệu của mơ hình VaDE . . . 23

4.1.1 Tổng quan về giải pháp đề xuất . . . 26

4.2.1 Tổng quan bước khởi tạo cụm của DEC . . . 29

4.2.2 Tổng quan bước tối ưu phân cụm của DEC . . . 31

4.2.3 Tổng quan bước tối ưu phân cụm của IDEC . . . 33

4.2.4 Tổng quan bước khởi tạo cụm của ADEC . . . 35

4.2.5 Tổng quan bước tối ưu phân cụm của ADEC . . . 38

5.4.1 Precision và recall của MetaCluster 5.0, BiMeta, và MetaDEC trên các tập S . 435.4.2 F-measure của MetaCluster 5.0, BiMeta, và MetaDEC trên các tập L . . . 44

5.4.3 Precision và recall của MetaCluster 5.0, BiMeta, và MetaDEC trên các tập R 465.4.4 Precision và recall của DEC, IDEC, và ADEC trên các tập S . . . 47

5.4.5 Precision và recall của DEC, IDEC, và ADEC trên các tập L . . . 48

5.4.6 Precision và recall của DEC, IDEC, và ADEC trên các tập R . . . 49

5.4.7 F-measure của MetaDEC với các giá trị kích cỡ nhóm khác nhau trên tập S . 51

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

5.4.8 F-measure của MetaDEC với các giá trị kích cỡ nhóm khác nhau trên tập L . 52

5.4.9 F-measure của MetaDEC với các giá trị kích cỡ nhóm khác nhau trên tập R . 52

5.4.10F-measure của MetaDEC với các kiến trúc mạng khác nhau . . . 54

5.4.11Thời gian tính tốn của MetaDEC . . . 55

A.2.1Biểu diễn trực quan của R3 và S5 trên kiến trúc Tiny. . . . 65

A.2.2Biểu diễn trực quan của R3 và S5 trên kiến trúc Small. . . . 66

A.2.3Biểu diễn trực quan của R3 và S5 trên kiến trúc Large. . . . 67

A.2.4Biểu diễn trực quan của R3 và S5 trên kiến trúc Xlarge. . . . 68

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

D ANH SÁCH BẢNG

5.2.1 Mô tả các tập dữ liệu mô phỏng. . . . 41

5.4.1 Hiệu suất F-measure của MetaCluster 5.0, BiMeta, và MetaDEC trên các tập S 445.4.2 Hiệu suất F-measure của MetaCluster 5.0, BiMeta, và MetaDEC trên các tập R 455.4.3 Hiệu suất F-measure của DEC, IDEC, và ADEC trên các tập S . . . 48

5.4.4 Hiệu suất F-measure của DEC, IDEC, và ADEC trên các tập L . . . 49

5.4.5 Hiệu suất F-measure của DEC, IDEC, và ADEC trên các tập R . . . 50

A.1.1Chi tiết kiến trúc encoder. . . . 63

A.1.2Chi tiết kiến trúc decoder . . . 64

A.1.3Chi tiết kiến trúc critic . . . 64

A.1.4Chi tiết kiến trúc discriminator. . . . 64

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

DANH SÁCH TỪ VIẾT TẮT, THUẬT NGỮ

DANH SÁCH TỪ VIẾT TẮT

<b>DNA</b>: Deoxyribonucleic acid.

<b>bp</b>: base pair - đơn vị độ dài của trình tự DNA.

<b>NGS</b>: next-generation sequencing - công nghệ phân đoạn gen thế mới tiếp theo.

<b>SGD</b>: Stochastic Gradient Descent - giải thuật tối ưu hóa mạng sâu.

<b>MSE</b>: mean square error.

<b>ELBO</b>: evidence lower bound.

DANH SÁCH THUẬT NGỮ

<b>Abundance ratio</b>: độ phong phú - chỉ tỷ lệ giữa các loài trong một tập dữ liệu.

<i><b>k-mer</b>: chuỗi con DNA có độ dài k. Trong luận văn, k trong k-mer hồn tồn khơngliên quan đến tham số k trong giải thuật k-means.</i>

<i><b>l-mer</b>: chuỗi con DNA có độ dài l.</i>

<b>contig</b>: hệ gen, tổng hợp các phân tử DNA tạo nên thơng tin di truyền của lồi.

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

C HƯƠNG 1

1.1 GIỚI THIỆU CHUNG VỀ METAGENOMICS

Vi sinh vật (ví dụ như vi-rút, nấm) đóng vai trị quan trọng với sự sống trên Trái Đất, vìchúng là nguồn trao đổi chất đầu tiên, nơi mà các phản ứng của các nguyên tố cơ bản(như carbon, nitrogen, oxigen) xảy ra để cung cấp nguồn dinh dưỡng cho các bật sinh vậtcao hơn như cây cối hay động vật. Do đó, việc nghiên cứu về vi sinh vật sẽ mang lại rấtnhiều lợi ích cho nhiều lĩnh vực, như y học, nông nghiệp, môi trường, năng lượng sinhhọc. Nghiên cứu về khảo sát các tiến bộ metagenomics [1] cho thấy:

• Các tiến bộ về sinh học phân tử và các học thuyết tiến hóa về gen vào cuối thế kỷ 20đã mang lại tri thức toàn diện về các đặc tính vật lý, hóa học cũng như vén màn bí ẩnđằng sau chuỗi gen của các vi sinh vật. Tuy nhiên, hầu hết các nghiên cứu về vi sinhvật thời điểm này được tiến hành trên vi sinh vật được ni cấy trong mơi trườngphịng thí nghiệm. Những tri thức từ phịng thí nghiệm, tuy giúp cung cấp kiến thứctồn vẹn về một số loài vi sinh vật nhất định, nó lại thiếu ngữ cảnh về quần thể sinhhọc (ecologial context), do đó, các nghiên cứu khơng thể tìm ra sự tương tác loài giữacác vi sinh vật trong quá trình nghiên cứu. Tương tác lồi trong quần thể, vốn là yếutố quan trọng, vì trong mơi trường thực tế, ln có rất nhiều lồi cùng tồn tại. Tuynhiên việc tái tạo tồn bộ mơi trường thực tế trong phịng thí nghiệm là hồn tồnkhơng khả thi.

Nghiên cứu [2] chỉ ra rằng, hầu hết (khoảng 99%) các loài nấm được lấy mẫu trong môitrường tự nhiên hiện không tồn tại trong các cơ sở dữ liệu sẵn có, và những loại nấm này

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Với các điểm yếu hiện có với phương pháp nghiên cứu dựa trên mẫu từ phịng thí

<b>nghiệm, những năm gần đây (đầu thế kỷ 21), ngành khoa học gọi là metagenomics xuất</b>

hiện và thu hút nhiều sự chú ý vì nó cung cấp khả năng nghiên cứu các chuỗi gen củavi sinh vật trong môi trường tự nhiên, vốn không khả thi để nuôi cấy trong mơi trườngphịng thí nghiệm [1]. Hình1.1.2cho thấy các môi trường lấy mẫu cho các nghiên cứu vềmetagenomics, vốn bao trùm tồn bộ mơi trường sống, cả trong và ngoài Trái Đất như:đất, nước, cơ thể người (ruột), và khơng gian. Những chuỗi gen được lấy mẫu sau đó đượcphân tích để nghiên cứu sâu hơn về hệ sinh thái.

Quá trình nghiên cứu dữ liệu metgenomics bao gồm nhiều bước (tham khảo hình

1.1.3): Trích xuất DNA (DNA Extraction), phân đoạn (Sequencing), tái cấu trúc chuỗi/phâncụm (Assembly/Binning), gán nhãn gen (Genomic Annotation), tái tạo quá trình trao đổichất trong hệ sinh thái (Metabolic Reconstruction).

1.1.1 T

RÍCH XUẤT

DNA (DNA E

XTRACTION

)

Vì các mẫu thường được lấy từ môi trường tự nhiên như đất, nước. Bước này sẽ trích xuấtDNA từ các mẫu thu thập trong môi trường. Đây là bước đầu tiên và cốt yếu nhất trongbất kỳ dự án về metagenomics nào. DNA được trích xuất phải đủ thơng tin đại diện chotất cả các tế bào xuất hiện trong mẫu thu thập và phải có số lượng đủ các axit nucleic chấtlượng cao nhằm phục vụ cho các bước kế tiếp. Quy trình xử lý cịn địi hỏi các giao thứctương thích cho từng loại mẫu, tùy thuộc vào mơi trường lấy mẫu là gì. Ví dụ mơi trườnglấy mẫu là mơi trường vật chủ như ruột người, khi đó, các đoạn gen của vật chủ sẽ chiếmphần lớn các gen thu được. Trong khi đó, với mơi trường đất, hàm lượng các yếu tố vật lýnhư phân tử khoáng chiếm đa số, làm cho năng suất thu hoạch DNA (DNA yield) trongcác mẫu này rất thấp [3].

1.1.2 P

HÂN ĐOẠN

(S

EQUENCING

)

Phân đoạn là quá trình xác định chuỗi nucleotide trong mẫu DNA, có thể hiểu là qtrình số hóa mẫu DNA (ví dụ: ATGACTGATTA, AGTGATCG): một chuỗi gen gồm 4loại nucleotide: adenine (A), thymine (T), guanine (G), and cytosine (C). Trong bài tốnmetagenomics, các cơng nghệ phân đoạn khơng ngừng được phát triển. Trong vòng 10năm, các nghiên cứu về metagenomics dần chuyển từ công nghệ phân đoạn Sanger [4]sang các công nghệ phân đoạn thế hệ mới (next-generation sequencing - NGS). Mặc dù

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

vậy, các trình tự nucleotide sinh ra bởi công nghệ Sanger vẫn được xem là tiêu chuẩn vàngcho các bước phân tích metagenomics, vì các trình tự sinh ra dài (chuỗi trình tự càng dài,càng chứa nhiều thơng tin di truyền), ít lỗi. Do đó, cơng nghệ này vẫn được sử dụng chonhững trường hợp cần tái tạo trình tự dài (gần đúng) trong các mơi trường có độ phongphú lồi thấp. Một trong những điểm yếu của Sanger là chi phí cao, vào khoảng 400,000$cho việc số hóa một tỷ nucleotide [3].

Các công nghệ NGS, như 454 pyrosequencing hay Illumina Genome Analyzer (hay ngắngọn là Illumina) được sử dụng rộng rãi hơn. So với Sanger, cơng nghệ 454 pyrosequencingcó khả năng sinh ra các trình tự dài, khoảng 600-800bp, với giá khoảng 20,000$ trên 1 tỷnucleotide [3]. Công nghệ Illunima sinh ra các trình tự ngắn hơn nhiều so với cơng nghệ454 pyrosequencing, khoảng 60-150bp, với giá thành rẻ hơn rất nhiều, khoảng 50$ trên 1 tỷnucleotide [3]. Tuy nhiên, các công nghê NGS chứa nhiều lỗi hơn so với Sanger, cũng nhưcác trình tự sinh ra mang ít thơng tin di truyền do độ dài hạn chế.

Dù sử dụng công nghệ nào, các kỹ thuật đều nhân bản và cắt ngẫu nhiên các mẫuDNA. Việc nhân bản và cắt ngẫu nhiên mẫu DNA sinh ra các trình tự có thơng tin (chuỗicon) chồng lắp. Trong ngữ cảnh của bài toán phân tích metagenomics, các thơng tin chồnglắp này rất có lợi cho q trình gom nhóm, ráp nối các trình tự ngắn thành các hệ gen hồnchỉnh. Hình1.1.1minh họa các thơng tin chồng lắp được sử dụng cho bài toán ráp nốichuỗi (assembly).

1.1.3 T

ÁI CẤU TRÚC CHUỖI

/

PHÂN CỤM

(A

SSEMBLY

/B

INNING

)

<b>Tái cấu trúc chuỗi (Assembly)</b>là quá trình ráp nối các trình tự ngắn để đạt được các trìnhtự dài hơn, chứa nhiều thơng tin di truyền hơn, hay tốt nhất là có thể tái hiện lại hệ gen củamột lồi nào đó. Một trong những phương pháp thường được dùng là sử dụng các cơ sởdữ liệu tham khảo và các thuật toán tìm kiếm cục bộ. Tuy nhiên, các giải pháp trên khơngcó tính khả mở (scalability) khi đa số các lồi được tìm thấy khơng nằm trong các cơ sở dữliệu hiện có. Theo đánh giá từ nghiên cứu [3], bài tốn này vẫn cịn sơ khai, và rất khó đểđánh giá độ chính xác của các cơng trình nghiên cứu trên các bộ dữ liệu metagenomicsthật, vì thiếu dữ liệu tham khảo cho việc so sánh tính đúng đắn của các chuỗi gen được táicấu trúc. Do đó, việc xây dựng một cơ sở dữ liệu tiêu chuẩn về dữ liệu metagenomics thậtlà cấp thiết cho bài toán này.

<b>Phân cụm (Binning)</b>là q trình phân loại các trình tự có quan hệ lồi gần gũi vào cácnhóm. Nhiều giải thuật được đề xuất cho bài toán này, sử dụng chủ yếu hai loại thơng

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Hình 1.1.1: Ví dụ về cơng nghệ phân đoạn tạo ra các trình tự có thơng tin chồng lắp [5].

tin được trích xuất từ trình tự: thơng tin hợp thành (compositional information) và giónghàng (alignment-based). Có hai hướng chính để phân loại dùng các thông tin trên. Một làsử dụng các cơ sở dữ liệu sẵn có để so sánh các trình tự với các loài đã biết. Hai là dựa vàocác giải thuật không giám sát để phân cụm sử dụng thông tin hợp thành. Tuy nhiên, hầuhết các phương pháp đều gặp khó khăn khi được áp dụng trên các tập dữ liệu có trình tựngắn.

Đây cũng là bài tốn mà luận văn tập trung nghiên cứu.

1.1.4 G

ÁN NHÃN GEN

(G

ENOMIC

A

NNOTATION

)

Gán nhãn các gen vào các loài đã biết, đây được xem là bài tốn có giám sát. Hiện tại, việcgán nhãn cho dữ liệu metagenomics sử dụng các phương pháp phân loại trình tự về cáclồi đã biết sử dụng các tập dữ liệu có nhãn. Về lý thuyết, quá trình gán nhãn tương đốiđơn giản trên các tập dữ liệu nhỏ (dưới 10,000 trình tự) [3]. Tuy nhiên, đối với các tập dữliệu lớn hơn, thời gian tính tốn khá lớn vì phần lớn các phương pháp được áp dụng sửdụng phương pháp dựa trên tìm kiếm cục bộ, việc đánh đổi chi phí tính tốn làm cho kết

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

quả bài tốn khó đạt nghiệm tối ưu. Mặt khác, việc tạo nhãn cho dữ liệu metagenomicstương đối khó vì tính rộng lớn của lĩnh vực metagenomics.

1.1.5 T

ÁI TẠO QUÁ TRÌNH TRAO ĐỔI CHẤT TRONG HỆ SINH THÁI

(M

ETABOLIC

R

ECONSTRUCTION

)

Bài tốn này áp dụng những bước phân tích trên vào các ứng dụng khác như về môitrường, nông nghiệp, năng lượng.

Hình 1.1.2: Metagenomics là ngành khoa học về thu thập và phân tích hệ gen vi sinh vật từmơi trường (bao gồm ngồi khơng gian, đất, nước, ruột người) [6].

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

Hình 1.1.3: Quá trình phân tích dữ liệu metagenomics gồm nhiều bước: trích xuất DNA,phân đoạn DNA, tái cấu trúc/phân cụm trình tự, Gán nhãn gen, tái cấu trúc hê sinh thái.

1.2 VẤN ĐỀ PHÂN CỤM TRONG BÀI TOÁN METAGENOMICS

1.2.1 T

ỔNG QUAN VỀ PHÂN CỤM

Phân cụm (hay gọi là binning trong ngữ cảnh metagenomics) là bài toán căn bản trongcác ứng dụng hướng dữ liệu (data-driven application) như nhận diện mẫu, thị giác máytính, nén dữ liệu. Mục tiêu nhằm phân loại các điểm dữ liệu tương đồng về cùng một cụmdựa trên một hàm đo độ tương đồng nào đó (ví dụ như khoảng cách Euclidian). Trongđó, yếu tố ảnh hưởng lớn đến hiệu suất phân cụm là biểu diễn của dữ liệu. Cụ thể, mộtbiểu diễn dữ liệu với số chiều lớn sẽ chứa nhiều thơng tin hữu ích cho việc phân cụm,nhưng ngược lại, số chiều càng lớn thì chi phí tính tốn càng cao (vấn đề này cịn được gọi

<i>là curse of dimensionality, được nhắc tới trong nghiên cứu [</i>7]). Do đó, nhiều nghiên cứuvề bài tốn phân cụm tập trung vào việc biến đổi không gian dữ liệu ban đầu về các biểudiễn cơ đọng hơn, có ý nghĩa cho việc phân cụm, các phương pháp tập trung vào việc cảithiện các hàm ánh xạ hữu tuyến hoặc phi tuyến để biến đổi dữ liệu. Gần đây, các nghiêncứu dần chuyển trọng tâm sang ứng dụng mạng học sâu vào quá trình biến đổi biểu diễndữ liệu và đạt được nhiều cải thiện đáng kể.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

1.2.2 H

ỌC SÂU TRONG BÀI TỐN PHÂN CỤM

Mặc dù bài tốn phân cụm được nghiên cứu rộng rãi, những giải thuật phân cụm truyềnthống (như k-means, Gaussian Mixture) giảm đáng kể hiệu suất về độ chính xác cũng nhưchi phí tính tốn khi được áp dụng trên những tập dữ liệu phức tạp với số chiều lớn.

Gần đây, các nghiên cứu về hướng tiếp cận học sâu cho bài toán phân cụm đã đạt đượcnhững cải tiến đáng kể về hiệu suất phân cụm bằng việc tận dụng sức mạnh của mạngneuron trong việc biến đổi không gian dữ liệu đầu vào sang không gian ẩn (latent space)sử dụng các phép biến đổi phi tuyến nhằm biểu diễn dữ liệu ở dạng cô động hơn, thuậnlợi cho việc phân cụm. Không gian ẩn học được phải giữ được các đặc trưng của dữ liệuban đầu, thể hiện qua việc có thể tái cấu trúc dữ liệu ban đầu từ không gian ẩn.

Mốt số nghiên cứu mới nhất trong lĩnh vực phân cụm áp dụng các mơ hình học sâu làviệc ứng dụng kiến trúc mạng autoencoder. Một trong những nghiên cứu đầu tiên và nổibật là DEC [7]. Điểm đáng chú ý của phương pháp này là thay vì tách biệt quá trình họcbiến đổi khơng gian dữ liệu sang khơng gian ẩn và quá trình phân cụm, nghiên cứu nàyđề xuất phương pháp học đồng thời biểu diễn của dữ liệu sử dụng kiến trúc autoencodervà hướng biểu diễn học được tới mục tiêu phân cụm bằng cách tối ưu hóa các hàm mụctiêu hướng phân cụm (clustering-oriented) bằng phương pháp SGD (Stochastic GradientDescent). Nghiên cứu này được kế thừa và cải thiện bởi các nghiên cứu khác, tạo ra hướngphát triển nổi bật cho bài toán phân cụm ứng dụng học sâu.

Tuy đạt được những cải thiện đáng kể, các cơng trình nghiên cứu chỉ áp dụng trêncác tập dữ liệu chung như: hình ảnh MNIST [8], dữ liệu phân loại văn bản REUTERS [9].Trong khi đó, việc áp dụng các giải pháp phân cụm này vào dữ liệu metagenomics vẫnchưa được nghiên cứu rộng rãi.

1.2.3 V

AI TRỊ BÀI TỐN PHÂN CỤM TRONG LĨNH VỰC METAGENOMICS

<i>Trong các bước phân tích dữ liệu metagenomics, bước Tái cấu trúc chuỗi/phân cụm bly/Binning)</i>là một trong những bước quan trọng nhất, vì nó tạo tiền đề cho độ chính xáccủa các bước tiếp theo, bước này gồm hai bài toán nhỏ hơn. Thứ nhất là phân cụm (bin-ning), bước này phân loại các đoạn gen có độ tương đồng về đặc tính sinh học về cùng mộtnhóm. Thứ hai là ráp chuỗi (assembly), bước này ráp nối các chuỗi ngắn (chưa hoàn thiện)thành một chuỗi dài chưa đầy đủ thông tin di truyền của một lồi nào đó. Luận văn tậptrung vào giải quyết vấn đề phân cụm cho dữ liệu metagenomics (metagenomics binning).

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

(Assem-Bài tốn phân cụm có ý nghĩa quan trọng cho q trình phân tích dữ liệu metagenomics vì:

• Bước phân cụm giúp xác định các nhóm vi sinh vật có quan hệ gần gũi về mặt sinhhọc, cũng như tỷ lệ xuất hiện của từng nhóm trong các bộ dữ liệu được thu thập từmôi trường (như đất, đại dương, ruột người), vốn chứa hàng loạt các loài chưa được

<i>phát hiện. Kết quả phân cụm giúp cho các bước tiếp theo như ráp nối chuỗi (assembly),Gán nhãn gen (Genomic Annotation)</i>chỉ tập trung phân tích trên những cụm nhất định,giúp giảm nhiễu và tăng độ chính xác cho các giải thuật.Do đó, bước phân cụm đóngvai trị như một bước tiền xử lý cho các bước phân tích tiếp theo.

• Cơ sở dữ liệu tham khảo: các phương pháp binning hiện có dựa trên phương phápgiống hàng (alignment) hoặc học có giám sát thường dựa vào cơ sở dữ liệu thamkhảo. Tuy nhiên, hầu hết các loài nấm được tìm thấy ngồi tự nhiên (khoảng 99%,được chỉ ra trong nghiên cứu [2]) hiện không tồn tại trong các cơ sở dữ liệu sẵn có.

• Khơng gian đặc tính của dữ liệu: trong bài toán phân cụm metagenomics, việc chọnđộ đo hợp lý để tính tốn độ khác biệt giữa các điểm dữ liệu là yếu tố quan trọngnhất cho việc phân cụm. Tuy nhiên, việc chọn độ đo trong các nghiên cứu dựa vàogiả thuyết về phân bố dữ liệu hoặc heuristic (độ đo dùng khoảng cách Euclid haydùng ngưỡng để xác định sự khác biệt giữa các điểm dữ liệu). Do đó, việc tạo ra mộtgiải thuật hướng dữ liệu là cần thiết.

1.4 MỤC TIÊU LUẬN VĂN

Gần đây, các nghiên cứu về bài toán phần cụm ứng dụng học sâu là một hướng nghiêncứu rất nổi bật và đạt được các cải thiện đáng kể về độ chính xác. Tuy nhiên, việc ứng

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

dụng các phương pháp phân cụm dựa trên học sâu vào các loại dữ liệu metagenomics vẫncòn hạn chế, đặc biệt là với dữ liệu có đoạn trình tự ngắn.

Mục tiêu của luận văn là đề xuất giải thuật áp dụng mơ hình học sâu vào bài tốn phâncụm metagenomics để tăng độ chính xác cho bài tốn. Giải thuật có thuộc lớp bài tốnkhơng giám sát, và có khả năng hoạt động tốt trên các tập dữ liệu chứa các đoạn trình tựngắn nhằm thõa mãn đặc điểm thiếu cơ sở dữ liệu tham khảo, và dữ liệu chứa trình tựngắn trong lĩnh vực metagenomics.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

C HƯƠNG 2

2.1 KIẾN THỨC SƠ BỘ VỀ METAGENOMICS

2.1.1 T

ỔNG QUAN VỀ

DNA

<b>DNA là viết tắt của Deoxyribonucleic acid, là một chuỗi xoắn kép của hai chuỗi </b>

poly-nucleotide (hình2.1.1). DNA là một phân tử phức tạp chứa các thông tin di truyền chomọi sinh vật sống.

Mỗi chuỗi poly-nucleotide được cấu tạo từ các đơn vị đơn phân đơn giản hơn được gọilà nucleotide. Mỗi nucleotide bao gồm một trong bốn base chứa ni-tơ, một gốc đường đượcgọi là deoxyribose và một gốc phosphate. Có bốn loại base khác nhau bao gồm adenine(A), thymine (T), guanine (G), and cytosine (C). Các nucleotide được liên kết với nhautrong một chuỗi bằng các liên kết cộng hóa trị (được gọi là liên kết phospho-diester) giữađường của một nucleotide và phosphate của nucleotide tiếp theo. Các base của hai chuỗipoly-nucleotide riêng biệt liên kết với nhau theo cặp (A với T và C với G), bằng các liên kếthydro để tạo nên chuỗi kép DNA. Do đó, hai chuỗi poly-nucleotide có tính đối xứng. Độdài của một phân tử DNA được đo bằng số cặp nucleotide liên kết giữa hai chuỗi đơn haycòn gọi là cặp base (base-pair, viết tắt là bp)

2.1.2 Đ

ẶC TRƯNG TRÌNH TỰ CHO BÀI TOÁN PHÂN CỤM

Trong các nghiên cứu về metagenomics, có nhiều loại đặc trưng được sử dụng. Có hai loạiđặc trưng chính: đặc trưng dựa trên tính tương đồng (alignment-based) và đặc trưng dựatrên tính hợp thành (composition-based).

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

= Adenine= Thymine= Cytosine= Guanine

= Phosphate backbone

Hình 2.1.1: Mô tả các thành phần của đoạn DNA [11].

2.1.2.1 Đ<small>ẶC TRƯNG DỰA TRÊN TÍNH TƯƠNG ĐỒNG</small>

Các phương pháp sử dụng đặc trưng dựa trên tính tương đồng sử dụng chính chuỗinucleotide để so sánh, tương tự như các bài toán so sánh chuỗi thơng thường. Với hai trìnhtự được so sánh, tỷ lệ tương đồng càng cao thì xác suất hai trình tự thuộc về cùng một lồicàng lớn và ngược lại, tỷ lệ tương đồng càng thấp thì xác suất hai trình tự thuộc về hailồi khác nhau càng cao. Công cụ BLAST [12], vốn được sử dụng rộng rải để gán nhãn cáctrình tự dựa trên hệ gen đã biết sử dụng đặc trưng này.

2.1.2.2 Đ<small>ẶC TRƯNG DỰA TRÊN TÍNH HỢP THÀNH</small>

Một trong những đặc trưng dựa trên tính hợp thành được sử dụng rộng rãi là tần số xuất

<i>hiện k-mer, vốn cũng được sử dụng trong luận văn. Trong phạm vi nghiên cứu của luậnvăn, phần này chỉ trình bày về đặc trưng tần số xuất hiện k-mer.</i>

<i>Cụ thể, tần số mer thể hiện số lần xuất hiện của mer đó trong một trình tự. Mỗi mer là một chuỗi con thuộc trình tự có độ dài k, thường được gọi chung là oligonucleotide.Tùy thuộc vào bài tốn áp dụng, k có thể có nhiều giá trị khác nhau, thông thường giá trịk=4 (k-mer với k=4 được gọi là tetranucleotide) được sử dụng nhiều hơn [</i>13]. Từ nghiêncứu của [13<i>], có nhiều cách tính tần số k-mer cho một trình tự. Tuy nhiên, trong phạm viluận văn, chỉ sử dụng cách tính Symmetrized Signature từ nghiên cứu này.</i>

k-Gọi f<sup>S</sup> = {f<sub>1</sub><sup>S</sup>, f<sub>2</sub><sup>S</sup>, ..., f<sub>4</sub><sup>S</sup><sub>k</sub>} là tập hợp chứa biểu diễn tần số k-mer của trình S. f<sup>S</sup> được

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

bình thường hóa (normalized) bằng cách chia mỗi phần tử cho tổng số lượng k-mer củatrình tự, là|S|. Khoảng cách giữa hai vector f<sup>S</sup> bất kì, biểu diễn khoảng cách di truyền củalồi chứa trình tự mà chúng biểu diễn.

2.1.3 Đ

Ộ PHONG PHÚ

Độ phong phú (abundance ratio) trong ngữ cảnh metagenomics chỉ tỷ lệ giữa các lồitrong một tập dữ liệu. Độ phong phú khơng cân đối cũng là một thách thức trong bài toánphân cụm dữ liệu metagenomics (trong ngữ cảnh các bài toán học máy trên dữ liệu thơngthường cịn gọi là dữ liệu imbalanced), vì một hay một số lồi có số lượng trình tự áp đảocác lồi cịn lại.

2.2 SƠ BỘ VỀ MỘT SỐ MƠ HÌNH HỌC SÂU

2.2.1 K

IẾN TRÚC AUTOENCODER

(AE)

Kiến trúc autoencoder (bộ mã hóa tự động) là một kiến trúc có khả năng học cách tái cấutrúc dữ liệu đầu vào, và thuộc nhóm phương pháp học khơng giám sát. Mục tiêu là đểsinh ra biểu diễn có ý nghĩa của dữ liệu đầu vào thông qua việc học tái cấu trúc. Các biểudiễn học được sau đó được sử dụng cho các tác vụ khác như: phân loại, học bán giám sát,phân cụm.

AE bao gồm encoder, decoder, và khơng gian ẩn như có thể thấy trong hình2.2.1.Encoder là một mạng neuron. Đầu vào của nó là dữ liệu x,đầu ra là một biểu diễn z và

<i>mạng neuron này có bộ tham số là θ.</i>

• x có thể là mọi loại dữ liệu, tùy thuộc vào từng vấn đề cụ thể (ví dụ như hình ảnh,chuỗi). Ví dụ, nếu dữ liệu đầu vào là hình ảnh chữ viết tay MNIST [8] như trong hình

2.2.2, x là một ma trận 28x28. Encoder biến đổi một vector có số chiều 784 (28x28)thành một biểu diễn z (với số chiều nhỏ hơn x, ví dụ như 10).

• Biểu diễn z (cịn gọi là biểu diễn không gian ẩn) thường được gọi là ‘bottleneck’ vì sốchiều của nó được nén lại so với số chiều của dữ liệu đầu vào.

Decoder là một mạng neuron. Đầu vào của nó là đầu ra của encoder, chính là biểu diễnz, đầu ra của nó là một tái cấu trúc của dữ liệu đầu vào x. Mạng neuron có bộ tham số là φ.

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Tiếp tục với ví dụ chữ viết tay MNIST như trên, sau khi nhận biểu diễn z làm đầu vào,decoder tái cấu trúc biểu diễn z về không gian dữ liệu ban đầu, gọi là x<sup>0</sup>(với cùng số chiều784), với mỗi phần tử trong vector 784 chiều có giá trị ở giữa 0 và 1 (ảnh xám). Chú ý rằngsự tái cấu trúc dữ liệu ban đầu x từ decoder sẽ khơng giống hồn tồn với dữ liệu đầu vàox, vì biểu diễn z chỉ là một phiên bản cơ đọng của x.

Mơ hình AE được huấn luyện bằng cách tối thiểu hoá hàm mất mát tái cấu trúc(reconstruction loss). Cụ thể trong ví dụ về dữ liệu MNIST, hàm mất mát tái cấu trúc đượcsử dụng như sau:

L = ||x− f<i><sub>θ</sub></i>(g<i><small>φ</small></i>(x))||<sup>2</sup><sub>2</sub> (2.2.1)

Hàm mất mát L, còn gọi là hàm sai số bình phương trung bình (mean square error MSE), trong đó g<i><sub>φ</sub></i>(x) là cơng thức tính biểu diễn z, f<i><sub>θ</sub></i>(g<i><sub>φ</sub></i>(x))là cơng thức tính x<sup>0</sup>. Mụctiêu của hàm mất mát L là tối thiểu hoá sự khác biệt giữa dữ liệu đầu vào x và dữ liệu táicấu trúc x<sup>0</sup>.

-Hình 2.2.1: Kiến trúc tổng q của mơ hình autoencoder [14].

2.2.2 K

IẾN TRÚC VARIATIONAL AUTOENCODER

(VAE)

Kiến trúc variational autoencoder (bộ mã hóa tự động biến đổi) được định nghĩa vào 2013bởi Kingma et al. [15]. VAE có thể được hiểu bởi ngơn ngữ của mạng neuron và mơ hình

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

xác suất.

2.2.2.1 Đ<small>ỊNH NGHĨA TRÊN PHƯƠNG DIỆN MẠNG NEURON</small>

Trên phương diện mạng neuron, VAE bao gồm encoder, decoder và biểu diễn khơng gianẩn (z) như có thể thấy trong hình2.2.2. Chi tiết về hàm mất sẽ được đề cập ở phần tiếptheo.

Encoder là một mạng neuron. Đầu vào của nó là dữ liệu x, đầu ra là 1 biểu diễn z và

<i>mạng neuron này có bộ tham số là θ.</i>

• x có thể là mọi loại dữ liệu, tùy thuộc vào từng vấn đề cụ thể (ví dụ như hình ảnh,chuỗi). Ví dụ, nếu dữ liệu đầu vào là hình ảnh chữ viết tay MNIST [8] như trong hình

2.2.2, x là một ma trận 28x28. Encoder biến đổi một vector có số chiều 784 (28x28)thành một biểu diễn z (với số chiều nhỏ hơn x, ví dụ như 10).

• Biểu diễn z (cịn gọi là biểu diễn khơng gian ẩn) thường được gọi là ‘bottleneck’ vìsố chiều của nó được nén lại so với số chiều của dữ liệu đầu vào. Điều đó khuyếnkhích encoder phải học những biểu diễn của dữ liệu đầu vào một cách hiệu quả. VớiVAE, z là ngẫu nhiên (stochastic), có nghĩa là encoder khơng sinh ra một giá trị chínhxác cho z, mà thay vào đó, nó sinh ra các tham số cho q<i><sub>θ</sub></i>(z|x)- hàm mật độ xác suấtGaussian. Giá trị của z được lấy mẫu từ phân bố này.

Decoder là một mạng neuron. Đầu vào của nó là đầu ra của encoder, chính là biểu diễnz, đầu ra của nó là một tái cấu trúc của dữ liệu đầu vào x. Mạng neuron có bộ tham số là φ.Tiếp tục với ví dụ chữ viết tay MNIST như trên, sau khi nhận biểu diễn z làm đầu vào,decoder tái cấu trúc biểu diễn z về không gian dữ liệu ban đầu, gọi là x<sup>0</sup>(với cùng số chiều784), với mỗi phần tử trong vector 784 chiều có giá trị ở giữa 0 và 1 (ảnh xám). Chú ý rằngsự tái cấu trúc dữ liệu ban đầu x từ decoder sẽ khơng giống hồn tồn với dữ liệu đầu vàox, vì biểu diễn z chỉ là một phiên bản cô động của x.

2.2.2.2 Đ<small>ỊNH NGHĨA TRÊN PHƯƠNG DIỆN MƠ HÌNH XÁC SUẤT</small>

Trên phương diện mơ hình xác suất, VAE gồm mơ hình xác suất của dữ liệu x và khônggian ẩn z. VAE biểu diễn xác suất hợp của x và z như sau:

p(x, z) = p(x|z)p(z) (2.2.2)

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

Hình 2.2.2: Kiến trúc tổng q của mơ hình VAE [14].

Quy trình sinh dữ liệu (từ decoder) được mơ ta như sau:

• Với mỗi điểm dữ liệu i:

• p(z|x) được huấn luyện để cho ra giá trị xác suất cao cho những vector z được lấymẫu mà nó sinh ra được dữ liệu giống x.

Vì vậy, việc ước tính p(z|x)rất tương tự với định lý Bayes, ta cần ước tính mơ hình xácsuất hậu nghiệm:

p(z|x) = p(x|z)p(z)

Nhưng với dữ liệu thực tế, dữ liệu cho trước rất lớn trong bài toán dữ liệu lớn, việc ướctính được mơ hình xác suất biểu diễn sự phân bố của x (p(x)) là không đơn giản (thường

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

sang một phân bố khác, gọi là q(z|x), mục đích là để khơng phải tính p(x). Vấn đề giờđây trở thành việc làm cách nào để tối thiểu hóa sự khác biệt giữa hai phân bố p(z|x)vàq(z|x)<i>. Sự khác biệt giữa hai phân bố này gôi là hàm mất mát suy luận (inference loss). Mặt</i>

khác, ở bước sinh dữ liệu như đã đề cập bên trên, mơ hình cũng cần một hàm mất mátkhác để tối thiểu hóa sự khác biệt giữa dữ liệu tái cấu trúc x<sup>0</sup>và dữ liệu quan sát x, còn gọi

<i>là hàm mất mát tái cấu trúc (reconstruction loss).</i>

𝐿

<sub>𝑖</sub>

(𝜃, Ф) = −𝐸

<sub>𝑧 ~ 𝑞</sub><sub>ϕ</sub> <sub>𝑧 𝑥</sub><sub>𝑖</sub><sub>)</sub>

𝑙𝑜𝑔𝑝

<sub>𝜃</sub>

𝑥

<sub>𝑖</sub>

𝑧+ 𝐾𝐿 𝑞

<sub>𝜃</sub>

𝑧 𝑥

<sub>𝑖</sub>

||𝑝(𝑧))

Hình 2.2.3: Mơ tả các thành phần của hàm mất mát trong mơ hình VAE.

Hình2.2.3biểu diễn hàm mất cuối cùng của VAE - còn được gọi là hàm mất mát ELBO

<b>(Evidence Lower BOund), bao gồm hàm mất mát tái cấu trúc và hàm mất mát suy luận</b>

(thường là hàm mất mát KL - Kullback-Leibler divergence)

<small>Reconstruction of input</small>

Hình 2.2.4: Mơ tả trực quan các thành phần của mơ hình VAE.

Hình2.2.4mơ tả trực quan các khái niệm của mơ hình VAE: đầu vào, đầu ra, hàm mấtmát, các phân bố cần được ước tính.

2.2.2.3 T<small>HÁCH THỨC HUẤN LUYỆN MƠ HÌNH</small> VAE (R<small>EPARAMETRIZATION TRICK</small>)

Như đã đề cập, không gian ẩn z được lấy mẫu từ phân bố q<i><sub>θ</sub></i>(z|x), do đó, nó là một quytrình ngẫu nhiên (stochastic process), điều này tạo ra vấn đề khi tính đạo hàm liên quan

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

<i>tới tham số θ, giá trị biến ngẫu nhiên z không tồn tại đạo hàm.</i>

Với các phân bố nhất định, mẹo chuyển tham số (reparametrization trick) có thể đượcsử dụng sao cho quy trình ngẫu nhiên khơng phụ thuộc vào các tham số vì hàm số khảvi, các giá trị z được lấy mẫu phải tất định. Nghiên cứu [15] đề xuất như sau, với phân bố

<i>chuẩn có trung bình µ và độ lệch chuẩn σ, z có thể được lấy mẫu bằng cách sử dụng mẹo</i>

chuyển tham số như sau:

<i>trong đó, e</i>∼Normal(0, 1). Giá trị của z tất định trong cơng thức này, do đó, có thể lấy

<i>đạo hàm với tham số là µ và σ. Hình</i>2.2.5biểu diễn trực quan ý tưởng của mẹo chuyểntham số.

<i>Hình 2.2.5: Mẹo chuyển tham số cho phép đẩy yếu tố ngẫu nhiên của biến z sang e (được</i>

lấy mẫu từ phân bố chuẩn). Các hình kim cương biểu thị phụ thuộc tất định, hình trịnbiểu thị biến ngẫu nhiên [16].

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

C HƯƠNG 3

3.1 CÁC CƠNG TRÌNH LIÊN QUAN PHÂN CỤM METAGENOMICS

Các nghiên cứu về bài toán phân cụm metagenomics có thể chia làm hai hướng chính:nhóm phương pháp có giám sát và nhóm phương pháp khơng giám sát.

3.1.1 P

HƯƠNG PHÁP CĨ GIÁM SÁT

Nhóm phương pháp có giám sát dựa vào so sánh độ tương đồng của hệ gen để phân cụm.Nói cách khác, nhóm phương pháp này đưa bài toán phân cụm dữ liệu metagenomics vềbài toán phân loại dùng cơ sở dữ liệu tham khảo.

MEGAN CE [17], và DUDes [18] sử dụng những cơng cụ tìm kiếm chuỗi tương đồngnhư DIAMOND [19], hay Bowtie 2 [20] để xác định sự tương đồng giữa các trình tự đầuvào với các trình tự trong chuỗi tham khảo. Các giải thuật này sau đó gán các trình tự vềcác nhóm của các loài đã biết. Điểm yếu của các phương pháp này là chi phí cao về thờigian tính tốn. Mốt số cơng cụ tìm kiếm tương đồng khác, thay vì so sánh tương đồng trực

<i>tiếp trên chuỗi, chúng dựa trên việc trích xuất những l-mer dài từ chuỗi và so sánh với các</i>

cơ sở dữ liệu tham khảo. Mặt khác, TACOA [21], và DeepMicrobes [22] là những phươngpháp dựa trên tín hiệu giám sát là đặc tính dựa trên tính hợp thành (biểu diễn l-mer) đượctrích xuất từ trình tự để phân loại. Trong khi TACOA áp dụng phương pháp kernelizedk-nearest neighbour, DeepMircrobes áp dụng mơ hình học sâu sử dụng để phân loại trìnhtự.

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

3.1.2 P

HƯƠNG PHÁP KHƠNG GIÁM SÁT

Vì giới hạn của các cơ sở dữ liệu tham khảo, một vài nghiên cứu tập trung vào các phươngpháp học không giám sát nhằm vượt qua điểm yếu này. MetaCluster [23], MetaCluster3.0[24<i>] phân tách các trình tự thành biểu diễn tần số k-mer, sau đó phân cụm biểu diễn này</i>

sử dụng giải thuật k-means với độ đo khoảng cách Spearman Footrule để tính độ tươngđồng giữa các biểu diễn tần số k-mer của trình tự. Nhưng các nghiên cứu này khôngthể xử lý tốt các tập dữ liệu mà độ dài các chuỗi gen ngắn cũng như các tập dữ liệu cótỷ lệ các lồi khơng cân đối [2]. Để xử lý vấn đề các chuỗi gen có độ dài ngắn, nhiềunghiên cứu đề xuất các giải thuật có thêm một bước để gom nhóm các trình tự ngắn cóquan hệ sinh học gần nhau bằng cách tận dụng sự chồng lắp thông tin giữa các trình tự.MetaCluster4.0 [2], MetaCluster5.0 [25] sử dụng phương pháp dựa trên mơ hình xác suấtdể gom nhóm các trình tự mà có khả năng chúng cùng thuộc về 1 chuỗi gen (có nghĩalà các trình tự ngắn này có khả năng là các phần nhỏ của cùng 1 chuỗi gen hoàn chỉnh).BiMeta [26] và MetaProb [27] sử dụng một giải thuật dựa trên cấu trúc dữ liệu đồ thị đểmô hình hóa quan hệ giữa các trình tự ngắn có sự chồng lấp về chuỗi con l-mer, các nhómnhững trình tự cần được nhóm mà có khả năng biểu diễn chuỗi gen hoàn chỉnh cũng là tậpđộc lập (independent set) của đồ thị. GraphBin [28], thay vì có một bước dể gom nhóm cácread có quan hệ sinh học gần gũi như các nghiên cứu trên, nghiên cứu này tận dụng đồ thịtổ hợp (assembly graph), là kết quả của các cơng cụ binning có sẵn (những cơng cụ này chỉhoạt động tốt trên các tập dữ liệu mà chuỗi trình tự dài hơn 1000bp [28] như MaxBin2 [29])để lọc lại kết quả phân cụm cho các trình tự ngắn bằng cách sử dụng giải thuật lan truyềnnhãn (label propagation). Trong những nghiên cứu này (GraphBin, BiMeta, MetaProb), đồthị có các đỉnh là các read và mỗi cạnh là kết nổi giữa 2 read nếu 2 read đó có quan hệ lồivới nhau (hay có sự chồng lắp thơng tin).

3.2 CÁC CƠNG TRÌNH LIÊN QUAN PHÂN CỤM ỨNG DỤNGMƠ HÌNH HỌC SÂU

Các nghiên cứu về giải thuật phân cụm thông thường như k-means, mơ hình hỗn hợpGaussian (mixture of Gaussian), các giải thuật dựa trên mật độ như DBSCAN có thể đượcáp dụng trên mọi loại dữ liệu. Tuy nhiên, các giải thuật này lại kém hiệu quả với các loạidữ liệu có số chiều lớn như hình ảnh, chuỗi gen. Vấn đề nằm ở hàm đo sự tương đồng

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

trong các giải thuật, khi được áp dụng trực tiếp lên dữ liệu đầu vào không hiệu quả. Ngồivấn đề độ chính xác, tính tốn trên dữ liệu có số chiều lớn cũng tăng thời gian tính tốn.Do đó, trọng tâm bài tốn phân cụm trở thành bài toán thu giảm số chiều dữ liệu hay biếnđổi dữ liệu về không gian khác. Việc biến đổi giúp các đặc tính của dữ liệu được biểu diễncơ động hơn, hạn chế nhiễu. Mặt khác, thu giảm số chiều cịn giúp giảm chi phí tính tốn.Các giải thuật phân cụm thông thường được áp dụng lên dữ liệu được biến đổi nhằm tănghiệu suất phân cụm. Một số phương pháp biến đổi dữ liệu thường gặp: tuyến tính nhưPCA [30], phi tuyến như nhóm phương pháp kernel [31] hay nhóm phương pháp phổ(như phân cụm phổ-spectral clustering [32]).

Gần đây, các nghiên cứu về học sâu trong bài toán phân cụm đạt được những cải tiếnđáng kể về hiệu suất phân cụm bằng cách tận dụng sức mạnh của mạng neuron trong việcbiến đổi từ không gian dữ liệu sang khơng gian đặc tính biểu diễn dữ liệu (feature space)bằng các phép biến đổi phi tuyến, những nghiên cứu này mở ra cách tiếp cận hướng dữliệu (data driven) trong việc học đặc tính ẩn (latent space) của dữ liệu và hướng những đặctính học được này cho mục tiêu phân cụm mà khơng có bất cứ giả định nào về phân bố củadữ liệu hay đặc tính ẩn của dữ liệu. Các phương pháp phân cụm áp dụng học sâu đượcgọi chung là phương pháp phân cụm sâu (deep clustering hay deep embedded clustering).Trong giới hạn của luận văn, các cơng trình liên quan phân cụm ứng dụng học sâu đượcphân loại thành hai nhóm chính: áp dụng kiến trúc autoencoder (gọi tắt là AE-based), ápdụng kiến trúc variational autoencoder, gọi tắt là VAE-based.

3.2.1 AE-

BASED

Ứng dụng mơ hình autoencoder để học không gian ẩn của dữ liệu là một trong nhữnghướng nghiên cứu nổi bật của bài toán phân cụm dùng mạng học sâu. Một trong nhữngnghiên cứu đột phá và đầu tiên nhất về áp dụng học sâu trong bài toán phân cụm làDEC [7] - phương pháp này học đồng thời biểu diễn của dữ liệu và gán cụm dựa trên biểudiễn học được áp dụng kiến trúc bộ mã hóa tự động. Cụ thể, DEC bao gồm 2 bước, đầutiên, sử dụng mơ hình autoencoder để học không gian ẩn của dữ liệu, pha tiếp theo làbước tối ưu hóa phân cụm, DEC chỉ dùng encoder để sinh không gian ẩn từ dữ liệu đầuvào, không gian ẩn này được dùng để khởi tạo tâm cụm. Các tâm cụm và không gian ẩnbiểu diễn dữ liệu tiếp tục được cải thiện thông qua tối ưu hàm mục tiêu hướng phân cụm(clustering oriented loss).

IDEC [33] cải tiến DEC với đề xuất giữ lại bộ decoder ở bước tối ưu hóa phân cụm và

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

huấn luyện mơ hình ở bước này kết hợp hàm mục tiêu hướng phân cụm và hàm mục tiêutái cấu trúc dữ liệu.

DEPICT [34] là giải thuật thiên về bài toán phân cụm cho dữ liệu ảnh. Mơ hìnhautoencoder sử dụng các lớp tích chập để trích xuất đặc tính dữ liệu hình ảnh. DEPICThuấn luyện bước phân cụm bằng cách tối ưu hàm mất mát entropy tương quan (relatedentropy) kết hợp với thành phần chính quy hố để phù hợp với mục tiêu phân cụm. Thànhphần chính quy hố này giúp giải thuật hạn chế phân bổ cụm cho các điểm dữ liệu nhiễu.ADEC [35] cải tiến đáng kể hiệu suất phân cụm so với DEC và IDEC bằng cách cảithiện nhiều yếu tố, đáng kể nhất là hai yếu tố sau: thứ nhất, sử dụng ý tưởng đưa vào mơhình autoencoder yếu tố nội suy trên khơng gian ẩn (latent space), vốn được chỉ ra là cóthể cải thiện chất lượng của không gian ẩn (đánh giá hiệu năng trên các bài toán như phânloại, học bán giám sát sử dụng không gian ẩn học được này) từ nghiên cứu ACAI [36],thứ hai, tác giả sử dụng cách huấn luận đối kháng của mơ hình sinh GAN (Generativeadversarial networks) [37] nhằm giảm sự xung đột của các hàm mất mát đa mục tiêu trongcùng một mạng neuron. [7,33,35] đều có hai bước chính là tiền huấn luyện và bước tối ưuphân cụm. Bước tiền huấn luyện chủ yếu dùng để học biễu diễn không gian ẩn của dữliệu và dùng không gian ẩn học được này để khởi tạo tâm cụm. Bước tối ưu phân cụm tiếptục tối ưu kết quả phân cụm dựa vào kết quả khởi tạo.

3.2.2 VAE-

BASED

VAE được xem là biến thể mơ hình sinh (generative variant) của kiến trúc autoencoder.Nghiên cứu áp dụng mơ hình VAE giả thuyết phân bố của không gian ẩn biểu diễn dữ liệutuân theo một hỗn hợp Gaussian (mixture of Gaussians). Do đó, giải thuật chọn hỗn hợpGaussian làm tiên nghiệm, và huấn luyện mơ hình sinh ra các phân bố không gian ẩn tuântheo hỗn hợp Gaussian, mỗi một phân bố trong hỗn hộp là đại diện cho một cụm. Cụ thể:Nghiên cứu VaDE [38] sử dụng mơ hình sinh p(x, z, c) = p(x|z)p(z|c)p(c). Trong mơhình này, dữ liệu quan sát được sinh ra như sau:

x ∼ N (<i><sub>µ</sub></i><sub>x</sub>(z)<i>, σ</i><sub>x</sub><sup>2</sup>I) (3.2.3)

</div><span class="text_page_counter">Trang 36</span><div class="page_container" data-page="36">

trong đó, Cat(.)là phân bố loại (categorial distribution), K là số lượng cụm cho trước.

<i>µ</i><small>c</small> <i>and σ</i><small>c</small> là trung bình và độ lệch chuẩn của phân bố Gaussian của cụm c.N (.) là một

<i>phân bố Gaussian đa biến có tham số là µ</i><sub>x</sub>(z)<i>, σ</i><small>x</small>(z). Q trình sinh dữ liệu của VaDEđược mơ tả trong hình3.2.1, có sự khác biệt với VAE:

• Mơ hình GMM (hỗn hợp tiên nghiệm Gaussian) chọn một cụm, có nghĩa là một phânbố Gaussian trong hỗn hợp.

• Từ phân bố đã chọn, khơng gian ẩn được lấy mẫu.

• Decoder f(<i>z; θ</i>)ánh xạ không gian ẩn về không gian dữ liệu ban đầu để sinh ra dữliệu tái cấu trúc.

• Encoder g(<i>z; φ</i>)được sử dụng để tối ưu hoá hàm mất mát ELBO (ELBO được đề cậpở2.2.2).

Hàm mất mát ELBO của VaDE khá tương đồng với của VAE, điểm khác biệt chính nằmở thành phần hàm mất mát suy luận (inference loss), thay vì tối thiểu hố sự khác biệtgiữa hai phân bố Gaussian như VAE, VaDE tối thiểu hoá sự khác biệt giữa hai hỗn hợp cácphân bố Gaussian:

L<sub>ELBO</sub>(x) =E<sub>q</sub><sub>(</sub><sub>z,c</sub><sub>|</sub><sub>x</sub><sub>)</sub>[logp(x|z)] −D<small>KL</small>(q(z, c|x)||p(z, c)) (3.2.4)

</div><span class="text_page_counter">Trang 37</span><div class="page_container" data-page="37">

Hình 3.2.1: Quá trình sinh dữ liệu của mơ hình VaDE [38].

</div><span class="text_page_counter">Trang 38</span><div class="page_container" data-page="38">

phân cụm dữ liệu metagenomics, tổng quan quy trình phân cụm được mơ tả trong hình

4.1.1. Pha 1 đóng vai trị là bước tiền xử lý để xây dựng các nhóm các trình tự sử dụngthơng tin chồng lắp giữa các trình tự. Các đặc tính phân cụm được trích xuất từ các nhómtrình tự. Pha 2 sử dụng các đặc tính này để tiếp tục phân cụm các nhóm trình tự về cáccụm có quan hệ lồi gần gũi.

Trong pha 2, có bốn biến thể giải thuật phân cụm được áp dụng: Deep EmbeddingClustering (DEC) [7], Improved Deep Embedding Clustering (IDEC) [33], AdversarialDeep Embedded Clustering (ADEC) [35], và Variational Deep Embedding (VaDE) [38].

4.1 PHA1: GOM NHĨM TRÌNH TỰ VÀ XÂY DỰNG CÁC SEED

Bắt nguồn từ nghiên cứu BiMeta [26], pha này phân các trình tự cùng có chung một chuỗicon l-mer đủ dài vào cùng nhóm và xây dựng các nhóm đại diện. Dựa vào quan sát chorằng các chuỗi con l-mer là duy nhất trong các chuỗi gen [2,25]. Đầu tiên, xây dựng đồ thịcó các đỉnh là các trình tự, và mỗi cạnh là kết nối giữa hai trình tự nếu chúng có sự chồnglặp chuỗi con l-mer đủ dài. Sau đó, áp dụng giải thuật phân hoạch đa cấp (multilevelpartitioning [39]) để tìm các thành phần kết nối của đồ thị (connected components).

Một quan sát từ nghiên cứu [26] chỉ ra rằng, các dấu hiệu gen biểu diễn bởi tần số k-mernucleotide của nhóm các trình tự khơng chồng lắp được bảo tồn, đúng với cả trình tự

</div><span class="text_page_counter">Trang 39</span><div class="page_container" data-page="39">

ngắn và trình tự dài. Do đó, với mỗi nhóm được xây dựng, pha 1 chỉ chọn một nhóm conchứa những trình tự không chồng lắp, gọi là seed, làm đại diện cho nhóm. Kỹ thuật nàykhơng những giúp giảm nhiễu ở bước trích xuất đặc tính từ các nhóm trình tự mà có tỷ lệcác lồi khơng cân xứng, mà cịn tiết kiệm chi phí tính tốn [26]. Tiếp theo, phân bố tần sốk-mer của mỗi seed được tính tốn như sau.

Gọi S = {r<small>1</small>, r<small>2</small>, ...r<small>n</small>} là một seed, trong đó n là số lượng trình tự trong seed S. Gọi

|r<sub>i</sub>|, i∈ [0..n]là độ dài của trình tự r<sub>i</sub>. Để tìm các k-mer của mỗi trình tự, pha 1 sử dụngphương pháp trượt cửa sổ (sliding window) với độ rộng cửa sổ là k. Với giá trị k, mỗi trìnhtự có|r<small>i</small>| −k+1 k-mer. Tổng số lượng k-mer của mỗi seed S, gọi là|S|, là∑<small>n</small>

<small>i=0</small>(|r<small>i</small>| −k+1).Mặt khác, có tối đa 4<sup>k</sup>loại k-mer khác nhau vì mỗi k-mer là tổ hợp của 4 loại nucleotide(A, T, G, C tương ứng với Adenine, Thymine, Cytosine, Guanine). Dựa vào tính đối xứngcủa DNA (được trình bày ở mục2.1.1), tần số của một k-mer và k-mer đối xứng với nólà như nhau. Do đó, số lượng tất cả các giá trị khác nhau của k-mer giảm một nửa, từ 4<sup>k</sup>còn 4<sup>k</sup>/2 nếu k lẻ,(4<sup>k</sup>+4<sup>k/2</sup>)/2 nếu k chẵn. Một số nghiên cứu [23,26,40] cho rằng giá trịk=4 là sự lựa chọn tốt nhất cho việc trích xuất đặc tính hợp thành (compositional feature)từ trình tự DNA hay hệ gen (contig). Do đó, pha 1 chọn k =4. Vì vậy nên có tất cả 136 giátrị k-mer khác nhau.

Gọi f<sup>S</sup> = {f<sub>1</sub><sup>S</sup>, f<sub>2</sub><sup>S</sup>, ..., f<sub>136</sub><sup>S</sup> }là tập hợp chứa biểu diễn tần số k-mer của seed S. f<sup>S</sup> đượcbình thường hóa (normalized) bằng cách chia mỗi phần tử cho|S|. Sau đó f<sup>S</sup> tiếp tục đượcchuẩn hóa theo phân bố chuẩn thành x<sup>S</sup> <i>với trung bình µ</i>=<i>0 và phương sai σ</i>=1. Biểudiễn cuối cùng của seed S là x<sup>S</sup> = {x<sup>S</sup><sub>1</sub>, x<sup>S</sup><sub>2</sub>, ..., x<sup>S</sup><sub>136</sub>}, trong đó mỗi x<sup>S</sup><sub>i</sub> có giá trị nằm trongkhoảng[−1, 1].

</div><span class="text_page_counter">Trang 40</span><div class="page_container" data-page="40">

<b><small>Phase 1</small></b>

<b><small>Phase 2</small></b>

<small>Step 1</small>

<small>Cluster initialization</small>

Hình 4.1.1: Quy trình phân cụm của giải pháp đề xuất. Pha 1 gom nhóm các trình tự cóthơng tin chồng lắp. Pha 2 áp dụng giải thuật phân cụm sâu (ADEC).

4.2 PHA2: PHÂN CỤM CÁC NHĨM TRÌNH TỰ SỬ DỤNG HỌCSÂU

Cho trước n các nhóm trình tự được biểu diễn bằng một tập hợp n seed được chuẩn hóatần số ở pha 1 (mục4.1) X = {x<sup>S</sup><small>1</small>, x<sup>S</sup><small>2</small>, ..., x<sup>S</sup><small>n</small>}, trong đó S<sub>i</sub>, i ∈ [1..n]là các seed đại diệncho các nhóm. Trong pha này, phương pháp phân loại X về m cụm đại diện bởi m tâm cụmC = {c<small>1</small>, c<small>2</small>, ...c<small>m</small>}.

Luận văn thí nghiệm áp dụng bốn giải thuật phân cụm ứng dụng học sâu: DEC, IDEC,ADEC, và VaDE như đã đề cập. Các giải thuật phân cụm này đều bao gồm hai bước: Khởitạo cụm (Cluster Initialization) và Tối ưu phân cụm (Cluster Optimization). Chi tiết hơn,bước khởi tạo cụm huấn luyện mơ hình autoencoder sinh ra khơng gian ẩn có ý nghĩa choviệc mô tả dữ liệu ban đầu (là biểu diễn tần số k-mer của seed), khơng gian ẩn sau đó

<i>được sử dụng để khởi tạo tâm cụm dùng giải thuật k-means. Bước tối ưu phân cụm tiếp</i>

tục tối ưu kết quả khởi tạo. Đối với DEC, IDEC, và ADEC thì bằng cách ln phiên lặp lạihai bước tính tốn: tính kết quả gán cụm mềm (soft cluster assignment) và học từ nhữngkết quả gán cụm có độ tự tin cao (high confidence assignment). Đối với VaDE, bước tối ưu

</div>

×