Tải bản đầy đủ (.docx) (52 trang)

đồ án 2 tìm hiểu và xây dựng ứng dụng demo về khử nhiễu hình ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.44 MB, 52 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>D8ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINHTRƯỜNG ĐẠI HỌC CƠNG NGHỆ THƠNG TIN</b>

<b>KHOA CƠNG NGHỆ PHẦN MỀM</b>

<b>ĐỒ ÁN MƠN HỌCĐỒ ÁN 2</b>

<b>TÌM HIỂU VÀ XÂY DỰNG ỨNG DỤNG VỀ KHỬNHIỄU HÌNH ẢNH</b>

<b>Giảng viên hướng dẫn :ThS. Huỳnh Tuấn Anh Sinh viên thực hiện 1 :Châu Đức Hiệp</b>

<b>Mã sinh viên 1: </b>

<b>20520499</b>

<b>Sinh viên thực hiện 2 :Trần Nam Khánh Mã sinh viên 2: </b>

<b>20520577</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

Bên cạnh đó, chúng em xin cảm ơn các bạn bè trong lớp đã động viên, thảo luận vàgóp ý cho nhóm đồng thời đã khơi thêm nguồn động lực cho nhóm trong suốt qtrình đầy khó khăn.

Mặc dù đã cố gắng hoàn thành báo cáo với tất cả nỗ lực song báo cáo của nhómchúng em chắc chắn khơng tránh khỏi những thiếu sót, em rất mong nhận được sựthơng cảm và góp ý chân thành từ thầy. Nhóm em xin chân thành cảm ơn.

<i><b>Nhóm sinh viên thực hiện:</b></i>

<i>Châu Đức HiệpTrần Nam Khánh</i>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN</b>

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>TĨM TẮT</b>

Đồ án với đề tài "Tìm hiểu và xây dựng ứng dụng demo về khử nhiễu hình ảnh" nhằm giải quyết một trong những thách thức cố hữu trong lĩnh vực xử lý hình ảnh: nhiễu. Khi chụp và lưu trữ hình ảnh, các thiết bị khơng tránh khỏi việc giới thiệu nhiễu vào hình ảnh, làm giảm chất lượng hình ảnh. Việc giảm thiểu nhiễu, haykhử nhiễu, trở thành một nhiệm vụ quan trọng.

Trong đồ án này, chúng em áp dụng phương pháp học sâu, được công nhận rộng rãi như một phương pháp tiêu chuẩn cho nhiệm vụ khử nhiễu. Đặc biệt, với sự phát triển của các mơ hình dựa trên Transformer, đã có những bước tiến đáng kể trong lĩnh vực này, đạt được kết quả nổi bật trên nhiều tác vụ liên quan đến hình ảnh. Tuy nhiên, một hạn chế lớn của các phương pháp này là khả năng tổng qt hóa. Ví dụ, mơ hình được huấn luyện để xử lý nhiễu Gaussian có thể khơng hiệu quả khi áp dụng cho các loại nhiễu khác.

Để giải quyết vấn đề này, chúng em giới thiệu một cách tiếp cận mới: huấn luyện che mặt nạ. Cách tiếp cận này bao gồm việc che mặt nạ các điểm ảnh ngẫu nhiên trong hình ảnh đầu vào và sau đó tái tạo các thơng tin thiếu trong quá trình huấn luyện. Bằng cách này, mơ hình có thể học cách xử lý nhiễu mà không bị ảnh hưởng bởi sự không nhất quán giữa dữ liệu huấn luyện và thực tế. Điều này cải thiện đáng kể khả năng tổng qt hóa của mơ hình. Chúng em cũng thực hiện che mặt nạ các tính năng trong các lớp tự chú ý, giúp mơ hình tránh khỏi ảnh hưởng củasự khơng nhất qn giữa huấn luyện và thử nghiệm.

Kết quả thử nghiệm cho thấy, phương pháp của chúng em không chỉ thể hiệnkhả năng tổng qt hóa tốt hơn so với các mơ hình học sâu khác mà cịn có khả năng áp dụng trực tiếp trong các tình huống thực tế. Phân tích khả năng giải thích của chúng em cũng chứng minh sự vượt trội của phương pháp này so với các phương pháp truyền thống.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Đồ án này cung cấp một cái nhìn sâu sắc về cách tiếp cận khử nhiễu hình ảnhmới và hiệu quả, cung cấp một hướng đi mới mẻ cho việc xử lý nhiễu trong các tác vụ xử lý hình ảnh. Cuối cùng, báo cáo chi tiết các kết quả đã đạt được và đề xuất hướng phát triển cho hệ thống và phương pháp trong tương lai.

Nội dung đồ án được trình bày trong 5 chương:- Chương 01: Tổng quan

Trình bày sơ bộ về thực trạng, nhu cầu thực tế. Xác định mục tiêu và phạm viđề tài.

- Chương 02: Cơ sở lý thuyết, tổng quan công nghệ

Giớ thiệu về giải thuật, những công nghệ, nền tảng được sử dụng trong đồ án.

- Chương 03: Thực nghiệm và đánh giáThiết kế, hiện thực và triển khai ứng dụng.- Chương 04: Kết luận

Những kết quả đạt được sau khi kết thúc đồ án. Những hạn chế, khó khăn trong q trình phát triển đồ án và nêu ra hướng phát triển trong tương lai.

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

2.2. Các Phương pháp khử nhiễu ảnh: từ Truyền thống đến Học sâu...8

2.3. Phương pháp và cơ sở kiến trúc: Huấn luyện mặt nạ...10

2.3.1. Động lực...10

2.3.2. Kiến trúc Transformer...13

2.3.3. Đào tạo mặt nạ...14

Chương 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ...17

3.1. Cài đặt huấn luyện...17

3.1.1. Cấu hình huấn luyện...17

3.1.2. Nhiễu khi kiễm tra...19

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

3.2.1. Nghiên cứu sâu...22

3.2.2. Hiệu suất Tổng quát hóa...24

3.2.3. Đánh giá nhiễu ISP...26

3.2.4. Đánh giá trên nhiễu Render Monte Carlo...27

3.3. Phân tích Tổng quát hóa...29

3.3.1. Đường cong huấn luyện...29

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>DANH MỤC TỪ VIẾT TẮT</b>

6 LPIS Learned Perceptual Image Patch Similarity

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>CHƯƠNG 1. TỔNG QUAN1.1.Khảo sát hiện trạng</b>

<b>1.1.1.Nhu cầu thực tế đề tài</b>

<b>CHƯƠNG 2.</b>

Tầm quan trọng của việc xử lý nhiễu ảnh: Nhiễu ảnh làmột vấn đề phổ biến trong nhiều lĩnh vực, từ y tế (chẳng hạn trong chẩn đốn hìnhảnh) đến an ninh (nhận dạng khn mặt, giám sát video). Nhiễu có thể xuất hiện donhiều nguyên nhân khác nhau, bao gồm điều kiện ánh sáng không lý tưởng, chấtlượng cảm biến thấp, hoặc thậm chí do q trình truyền và lưu trữ dữ liệu. Điều nàylàm suy giảm chất lượng hình ảnh, ảnh hưởng đến việc phân tích và xử lý thơng tin.

<b>CHƯƠNG 3.</b>

Các phương pháp hiện hành và giới hạn của chúng: Cácphương pháp truyền thống như bộ lọc Gaussian, Median, và Wiener đã được sửdụng rộng rãi để giảm nhiễu, nhưng chúng thường không hiệu quả với nhiễu phứctạp hoặc trong trường hợp cần bảo tồn chi tiết hình ảnh. Mặt khác, các phươngpháp dựa trên học sâu, mặc dù hiệu quả hơn, vẫn cần sự cải thiện về khả năng tổngquát hóa để xử lý đa dạng các loại nhiễu.

<b>3.1.1.Khảo sát một số ứng dụng hiện có3.1.1.1.Denoise it – AI Photo Enhancer (Android)</b>

<b>1. Tổng quan</b>

<b>CHƯƠNG 4.</b>

Một ứng dụng mạnh mẽ cho phép người dùng loại bỏ nhiễu và cải thiện chất lượng ảnh một cách tự động. Nó sử dụng cơng nghệ AI để phân tích và xử lý ảnh, loại bỏ nhiễu mà không làm mất đi chi tiết quan trọng. Đặc biệt, ứng dụng này cho phép người dùng chọn lựa các khu vực cụ thể trong ảnh để loại bỏ nhiễu thông qua "Denoise Brush".

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>2. Chức năng</b>

<b>CHƯƠNG 5.</b>

<i><b>CHƯƠNG 6.</b></i>

<i>Hình 1.1: Chức năng chính của Denoise it(Khử nhiễu )</i>

<b>6.1.1.1.Adobe Photoshop1. Tổng quan</b>

<b>CHƯƠNG 7.</b>

Adobe Photoshop là phần mềm chỉnh sửa ảnh hàng đầu được phát triển bởi Adobe Systems. Nổi tiếng với khả năng chỉnh sửa mạnh mẽ, nó cung cấp các công cụ cho cắt, ghép và điều chỉnh màu sắc. Trong lĩnh vực xóa nhiễu ảnh,Photoshop sở hữu tính năng "Reduce Noise" hiệu quả, giúp loại bỏ nhiễu mà khơng làm mất chi tiết. Phần mềm này cịn tích hợp với các sản phẩm khác của Adobe, tạo quy trình làm việc liền mạch. Cập nhật liên tục và tích hợp đám mây thơng qua Adobe Creative Cloud làm tăng tính tiện lợi và linh hoạt.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>CHƯƠNG 8.</b>

<i><b>CHƯƠNG 9.</b></i>

<i>Hình 1.2: Chức năng khử nhiễu của photoshop</i>

<b>9.1.Lí do thực hiện đề tài</b>

<b>CHƯƠNG 10.</b>

<b>Nhu cầu cải thiện: Trong thời đại số hóa, việc cải thiện chất </b>

lượng hình ảnh trở nên quan trọng hơn bao giờ hết. Nhiễu ảnh không chỉ ảnh hưởng đến thẩm mỹ mà cịn làm giảm độ chính xác của các phân tích và ứng dụng dựa trên hình ảnh. Các phương pháp truyền thống khơng cịn đáp ứng hiệu

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

quả nhu cầu này, đặc biệt trong các tình huống phức tạp. Nghiên cứu mới về phương pháp huấn luyện mặt nạ (masked training) đã chứng minh tiềm năng trong việc tăng cường khả năng tổng quát hóa của các mạng giảm nhiễu, đưa ra giải pháp hiệu quả hơn cho vấn đề nhiễu ảnh trong môi trường đa dạng và khôngxác định.

<b>CHƯƠNG 11.</b>

<b>Tiềm năng của deep learning: Deep learning mở ra cơ hội </b>

mới để giải quyết vấn đề nhiễu ảnh. Với khả năng học từ dữ liệu lớn và khả năngmơ phỏng các tình huống phức tạp, Deep learning có tiềm năng cải thiện đáng kể hiệu suất và độ chính xác trong việc loại bỏ nhiễu. Điều này không chỉ giúp cải thiện chất lượng hình ảnh mà cịn mở rộng ứng dụng của công nghệ xử lý ảnh. Cụ thể, kết quả thực nghiệm từ báo cáo chỉ ra rằng phương pháp mới có thểvượt trội hơn các phương pháp hiện đại khác trong việc xử lý các loại nhiễu khác nhau, từ Gaussian đến speckle và Poisson, mở ra khả năng áp dụng trong nhiều lĩnh vực khác nhau từ y tế đến an ninh.

<b>CHƯƠNG 12.</b>

<b>12.1.Mục tiêu</b>

- <b>Hiểu rõ về vấn đề nhiễu trong ảnh: Nghiên cứu và phân tích các loại </b>

nhiễu thường gặp trong hình ảnh, từ nguồn gốc đến cách thức ảnh hưởng tới chất lượng hình ảnh. Điều này bao gồm nhiễu do thiết bị (như nhiễu ISO cao trong máy ảnh), nhiễu do môi trường (như nhiễu do ánh sáng yếu), và nhiễu trong quá trình xử lý hoặc truyền dữ liệu. Chủ hệ thống có thể phát triển dễ dàng với chi phí thấp.

- <b>Tìm hiểu các phương pháp khử nhiễu hiện đại: Đánh giá các kỹ thuật </b>

khử nhiễu hiện nay, đặc biệt là các phương pháp dựa trên học sâu, như mạng nơ-ron tích chập, mạng nơ-ron đối xứng (GANs), và các kỹ thuật

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

xử lý ảnh tiên tiến khác. Phân tích ưu nhược điểm của từng phương pháp trong việc xử lý các loại nhiễu khác nhau.

- <b>Xây dựng một ứng dụng demo: Phát triển một ứng dụng demo có khả </b>

năng khử nhiễu hình ảnh dựa trên một hoặc nhiều kỹ thuật được nghiên cứu. Mục tiêu là tạo ra một ứng dụng thân thiện với người dùng, có thể hiển thị trực quan sự khác biệt trước và sau khi xử lý nhiễu.

<b>12.1.1.Đối tượng sử dụng</b>

<b>CHƯƠNG 13.</b>

Phân loại đối tượng:

- Nhà nghiên cứu và học giả: Đối tượng này quan tâm đến việc khám phá và áp dụng các công nghệ mới nhằm cải thiện các phương pháp xử lý ảnh hiện tại.

- Nhà phát triển cơng nghệ: Các nhà phát triển cơng nghệ có thể tận dụng nghiên cứu này để tích hợp vào các sản phẩm và dịch vụ của họ, từ ứng dụngdi động đến hệ thống an ninh và y tế.

- Ngành cơng nghiệp u cầu chất lượng hình ảnh cao: Như trong y tế (chẩn đốn hình ảnh), an ninh (nhận diện khuôn mặt, giám sát video), và nhiếp ảnh,nơi chất lượng hình ảnh là yếu tố then chốt.

<b>CHƯƠNG 14.CHƯƠNG 15.</b>

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

<b>CHƯƠNG 16.CƠ SỞ LÝ THUYẾT, TỔNG QUAN CƠNG NGHỆ16.1.Khử nhiễu hình ảnh</b>

<b>CHƯƠNG 17.</b>

Khử nhiễu ảnh đóng vai trị trọng yếu trong ngành nghiên cứu ảnh số, nhằm mục tiêu chính là khơi phục hình ảnh sạch từ những hình ảnh chứa nhiễu. Với bước tiến vượt bậc của học sâu, ngành công nghiệp đã chứng kiến sự ra đời của nhiều mơ hình khử nhiễuảnh hứa hẹn. Các mơ hình này, thường được huấn luyện bằng hình ảnh tổng hợp dựa trên phân phối nhiễu cố định, đã thể hiện khả năng loại bỏ nhiễu một cách ấn tượng. Tuy nhiên, khi áp dụng vào thực tế, khả năng tổng quát hóa của chúng lại trở thành một thách thức lớn. Phân phối nhiễutrong môi trường thực tế có thể rất khác so với dữ liệu huấn luyện, gây khó khăn cho các mơ hình trong việc thích nghi với những tình huống như vậy.

<b>-CHƯƠNG 19.</b>

Hình 2.1 Chúng em minh hoạ tổng qt hố của các mạng khử nhiễu: huấn luyện mơ hình SwinIR trên nhiễu Gaussian với σ = 15. Khi kiểm tratrên cùng loại nhiễu, SwinIR đạt hiệu suất đáng kể. Tuy nhiên, khi áp dụng cho

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

nhiễu nằm ngồi phạm vi huấn luyện, ví dụ như hỗn hợp của các loại nhiễu khácnhau, SwinIR gặp phải sự giảm hiệu suất đáng kể. Mơ hình được huấn luyện bằng theo phương pháp mặt nạ mà chúng em phát triển vẫn giữ nguyên khả nănggiảm nhiễu ổn định, ngay cả khi nó cũng được huấn luyện trên nền của nhiễu Gaussian.

<b>CHƯƠNG 20.</b>

Các nghiên cứu khử nhiễu hiện tại chủ yếu tập trung vàoviệc huấn luyện và đánh giá mơ hình trên dữ liệu bị ảnh hưởng bởi nhiễu Gaussian, hạn chế khả năng xử lý các loại nhiễu khác. Khi những mơ hình này được áp dụng

<i>cho việc loại bỏ nhiễu từ các nguồn khác nhau, hiệu suất giảm đáng kể (ví dụ Hình </i>

<i>2.1). Cộng đồng nghiên cứu ngày càng nhận thức về vấn đề tổng qt hóa của mơ </i>

hình học sâu. Một số phương pháp đã được đề xuất, chẳng hạn như giả định mức độnhiễu không xác định hoặc cố gắng cải thiện hiệu suất trong thực tế bằng cách huấn luyện trên dữ liệu gần hơn với nhiễu mục tiêu. Tuy nhiên, những phương pháp này chưa thể cải thiện đáng kể hiệu suất tổng quát hóa của các mạng giảm nhiễu, đặc biệt khi phân phối nhiễu không phù hợp.

<b>CHƯƠNG 21.</b>

Trong nghiên cứu này, chúng em đặt mục tiêu nâng cao khả năng tổng qt hóa của mơ hình khử nhiễu sâu, qua đó xác định khả năng tổng qt hóa là hiệu suất của mơ hình với các loại nhiễu khác so với trong quá trình huấn luyện. Chúng em nhận định rằng vấn đề tổng quát hóa này xuất phát từ việc mơ hình q khớp với nhiễu trong quá trình huấn luyện. Chiến lược huấn luyện hiệntại, tập trung vào việc tối ưu hóa sự tương đồng giữa hình ảnh khử nhiễuvà hình ảnhgốc, thường bỏ qua rằng mơ hình có thể giảm thiểu lỗi bằng cách học mẫu nhiễu, thay vì nội dung hình ảnh. Điều này trở thành nguyên nhân chính gây ra vấn đề tổngquát hóa. Để giải quyết điều này, chúng em áp dụng chiến lược huấn luyện mặt nạ, lấy cảm hứng từ các phương pháp mơ hình hóa mặt nạ mới, nhằm tập trung vào việchọc cách tái tạo nội dung hình ảnh thay vì nhiễu. Sử dụng đặc tính của Transformer

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

trong xử lý hình ảnh, chúng em giới thiệu hai cơ chế mặt nạ: mặt nạ đầu vào và mặt nạ chú ý. Trong quá trình huấn luyện, mặt nạ đầu vào loại bỏ ngẫu nhiên các pixel, và mạng lưới tái tạo những pixel bị loại bỏ. Mặt nạ chú ý, được tích hợp trong từng lớp tự chú ý của Transformer, cho phép mơ hình học cách hồn thiện các đặc trưng bị mặt nạ một cách linh hoạt, giảm thiểu sự chênh lệch phân phối giữa huấn luyện và kiểm tra. Dù sử dụng nhiễu Gaussian trong huấn luyện, phương pháp của chúng em đã thể hiện cải thiện hiệu suất đáng kể trên nhiều loại nhiễu khác nhau, từ nhiễu speckle, Poisson, salt and pepper, đến nhiễu Gaussian không gian, nhiễu hình ảnh được render bằng Monte Carlo, nhiễu ISP, và các hỗn hợp phức tạp của nhiều nguồn nhiễu. Các phương pháp và mơ hình hiện tại chưa thể loại bỏ hiệu quả và chính xác tất cả các mẫu nhiễu đa dạng này.

<b>21.1.Các Phương pháp khử nhiễu ảnh: từ Truyền thống đến Học sâu </b>

<b>CHƯƠNG 22.</b>

Các kỹ thuật khử nhiễu ảnh chủ yếu rơi vào hai nhóm lớn: các phương pháp truyền thống dựa trên mơ hình và phương pháp học sâu dựa trên dữ liệu. Phương pháp truyền thống tập trung vào mơ hình hóa các ngun tắc cơ bản của hình ảnh để khơi phục nội dung từ hình ảnh bị ảnh hưởng bởi nhiễu. Những phương pháp này linh hoạt trong việc xử lý các loại nhiễu khác nhau và đã chứng minh hiệu quả trong việc tổng quát hóa. Tuy nhiên, chúng lại không đáp ứng đủ yêu cầu về tái tạo nội dung hình ảnh. Gần đây, xu hướng giảm nhiễu đã chuyển dần sang sử dụng các phương pháp dựa trên dữ liệu trong học sâu, với nhiều kỹ thuật được phát triển nhằm cải thiện khả năng của các mạng giảm nhiễu. Các phương pháp này bao gồm sử dụng mạng dư, mạng dày đặc, mạng đệ quy, kỹ thuật đa quy mơ, cấu trúc mã hóa-giải mã, thao tác chú ý, tự tương đồng, và thao tác không gian.

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<b>CHƯƠNG 23.</b>

Kể từ năm 2020, thiết kế mạng thị giác đã chuyển hướng từ mạng CNN sang Transformer<small>1</small>.Các Transformer thị giác xem xét các pixelđầu vào như token và áp dụng thao tác tự chú ý để xử lý tương tác giữa chúng. Lấy cảm hứng từ thành công của các Transformer thị giác, đã có nhiều nỗ lực nhằm áp dụng chúng cho các nhiệm vụ thị giác cấp thấp. Trong quá trình phát triển các mơ hình này, loại nhiễu được sử dụng cho huấn luyện thường tương đồng với nhiễu trong kiểm tra. Điều quyết định hiệu suất giảm nhiễu chính là khả năng của mạng lưới trong việc tập trung vào nhiễu huấn luyện. Tuy nhiên, một mạng hiệu quả hơn khơng nhất thiết có nghĩa là có khả năng tổng quát hóa tốt hơn. Nghiên cứu sẽ cho thấy, một mạng hiệu quả hơn có thể chỉ ra hiệu suất tổng quát hóa kém hơn.

<b>CHƯƠNG 24.</b>

Vấn đề tổng quát hóa trong thị giác cấp thấp thường nảysinh khi có sự khơng phù hợp giữa suy thối trong kiểm tra và suy thối trong q trình huấn luyện, ví dụ như trong siêu phân giải với các lõi giảm mẫu khác nhau. Các mơ hình khử nhiễu sâu thường được phát triển dựa trên nhiễu Gaussian trong mơi trường phịng thí nghiệm, nhưng nhiễu trong thực tế thường khơng phải là Gaussian. Mơ hình huấn luyện trên nhiễu Gaussian khơng hiệu quả trong các tình huống nhiễu khơng Gaussian. Có hai phương pháp chính để giải quyết vấn đề này. Phương pháp đầu tiên là phát triển bộ dữ liệu huấn luyện sao cho mơ hình nhiễu càng gần với thực tế càng tốt, bao gồm tổng hợp nhiễu theo mơ hình hệ thống vật lý, học cách tạo ra nhiễu thực, và thu thập cặp nhiễu thực – hình ảnh sạch cho huấn luyện. Mặc dù các mơ hình thu được từ các phương pháp này có thể cải thiện hiệu suất trên nhiễu mục tiêu, chúng vẫn không thể tổng qt hóa cho nhiễu nằm ngồi phân phối. Phương pháp thứ hai là phát triển các mơ hình giảm nhiễu "mù", có khả năng xử lý nhiễu khơng xác định, dựa trên giả định rằng mức độ nhiễu không biết

<small>Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl- vain Gelly, et al. An image is worth16x16 words: Trans- formers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.</small>

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

trước hoặc huấn luyện trên nhiều loại nhiễu khác nhau. Những nỗ lực này cũng không thể tổng qt hóa cho nhiễu khơng có trong bộ dữ liệu huấn luyện.

<b>CHƯƠNG 25.</b>

<b>CHƯƠNG 26.</b>

Các mơ hình hóa mặt nạ trong ngôn ngữ đã thành công trong việc học các biểu diễn tiền huấn luyện, tổng quát hóa tốt cho nhiều nhiệm vụ xi dịng. Các phương pháp này che một phần của chuỗi đầu vào và huấn luyện mơ hình để dự đốn nội dung bị thiếu. Cách tiếp cận tương tự có thể áp dụng cho tiền huấn luyện mơ hình thị giác. Các mơ hình hình ảnh với dữ liệu bị mặt nạ học các biểu diễn từ hình ảnh bị hỏng. Những nỗ lực đầu tiên trong lĩnh vực này có thể truy cứu từ bộ mã hóa-giải mã giảm nhiễu. Kể từ đó, nhiều cơng trình đã sử dụng việc dự đốn các phần cịn thiếu của hình ảnh để học các biểu diễn hình ảnh hiệu quả. Tuy nhiên, đã có ít nỗ lực thành cơng trong việc áp dụng mơ hình hóa hình ảnhvới dữ liệu bị mặt nạ cho thị giác cấp thấp, mặc dù phương pháp tiền huấn luyện này phù hợp với các nhiệm vụ thị giác cấp thấp.

<b>26.1.Phương pháp và cơ sở kiến trúc: Huấn luyện mặt nạ</b>

<b>CHƯƠNG 27.</b>

Mục tiêu chính của chúng em là tạo ra các mơ hình khử nhiễu có khả năng tổng qt hóa với nhiễu khơng gặp trong bộ dữ liệu huấn luyện. Trong phần này, trước khi đi sâu vào chi tiết phương pháp huấn luyện mặt nạ của chúng em, chúng em sẽ thảo luận về động lực đằng sau nghiên cứu.

<b>27.1.1.Động lực</b>

<b>CHƯƠNG 28.</b>

Khi huấn luyện mạng sâu trên một lượng lớn hình ảnh, kỳ vọng là mạng sẽ học được cách phân biệt sự phong phú về ngữ nghĩa của hình ảnh tự nhiên từ những trường hợp kiểm tra bị nhiễm nhiễu. Tuy nhiên, một số nghiên cứu đã chỉ ra rằng ngữ nghĩa và kiến thức mà mạng thị giác cấp thấp thu được khác biệt đáng kể so với kỳ vọng của chúng ta. Chúng em lập luận rằng khả năng tổng quát hóa kém của các mơ hình giảm nhiễu là do phương pháp huấn luyện

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

của chúng em, khiến mơ hình tập trung vào việc q khớp với nhiễu huấn luyện hơnlà học tái tạo hình ảnh.

<b>CHƯƠNG 29.</b>

Chúng em dựa trên huấn luyện một mạng giảm nhiễu SwinIR sử dụng hình ảnh rất khác biệt so với hình ảnh tự nhiên (hình ảnh miễn dịchhóa học). Chúng em tổng hợp dữ liệu huấn luyện dưới dạng cặp sử dụng nhiễu Gaussian, sau đó đánh giá hiệu suất của mơ hình trên hình ảnh tự nhiên với nhiễu Gaussian. Theo giả thuyết của chúng em, nếu mơ hình học nội dung và tái tạo ngữ nghĩa của hình ảnh từ bộ dữ liệu huấn luyện, nó khơng nên hoạt động tốt trên hình ảnh tự nhiên, vì nó khơng được tiếp xúc với bất kỳ hình ảnh tự nhiên nào. Nếu mơ hình chỉ đơn thuần q khớp với nhiễu, nó có thể loại bỏ nhiễu ngay cả khi hình ảnhkhác biệt, vì mơ hình chủ yếu dựa vào việc phát hiện nhiễu để giảm nhiễu.

<b>CHƯƠNG 30.</b>

<i><b>CHƯƠNG 31.</b></i>

<i>Hình 2.2 SwinIR, khi chỉ được huấn luyện trên hình ảnh miễn </i>

<i>dịch hóa học với nhiễu Gaussian, vẫn có khả năng giảm nhiễu cho hình ảnh tự nhiên. Quan sát này củng cố nhận định rằng hầu hết các phương pháp hiện tại </i>

<small>Ground truthDenoised by SwinIR</small>

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

<i>thực hiện việc giảm nhiễu chủ yếu bằng cách quá khớp với nhiễu trong quá trình huấn luyện. Ngược lại, phương pháp của chúng em nhấn mạnh vào việc táitạo kết cấu và cạnh của hình ảnh tự nhiên nhìn thấy trong bộ dữ liệu huấn luyện, thay vì dựa vào quá khớp nhiễu để giảm nhiễu. Sự khác biệt này làm nổi bật điểm cơ bản phân biệt phương pháp của chúng em với các cách tiếp cận trước đây.</i>

<b>CHƯƠNG 32.</b>

Kết quả được trình bày trong Hình 2.2 Như quan sát, SwinIR huấn luyện trên hình ảnh miễn dịch hóa học vẫn có thể giảm nhiễu và tái tạo hình ảnh tự nhiên. Điều này hỗ trợ giả thuyết của chúng em về khả năng tổng quát hóa, cho thấy hầu hết các phương pháp hiện tại thực hiện giảm nhiễu bằng cáchquá khớp với nhiễu huấn luyện. Do đó, khi nhiễu lệch khỏi điều kiện huấn luyện, hiệu suất giảm nhiễu của các mơ hình này giảm đáng kể.

<b>CHƯƠNG 33.</b>

Kết quả này cũng truyền cảm hứng cho cách tiếp cận của chúng em trong việc phát triển các mơ hình giảm nhiễu sâu với khả năng tổng quát hóa cao hơn. Mục tiêu của chúng em là mơ hình học cách tái tạo kết cấu và cấutrúc hình ảnh, thay vì chỉ tập trung vào nhiễu. Trong bài nghiên cứu này, chúng em đề xuất một chiến lược huấn luyện mặt nạ mới cho các mạng giảm nhiễu. Trong quátrình huấn luyện, chúng em che một phần của các pixel đầu vào và sau đó huấn luyện mạng sâu để hoàn thiện chúng, như được minh họa trong Hình 2.3. Cách tiếp cận của chúng em nhấn mạnh việc tái tạo kết cấu hình ảnh tự nhiên và các cạnh quan sát được trong hình ảnh, thay vì quá khớp với nhiễu. Trong Hình 2.3, chúng em cũng trình bày kết quả của phương pháp của mình. Rõ ràng là cách tiếp cận của chúng em tìm cách tái tạo kết cấu hình ảnh miễn dịch hóa học từ bộ dữ liệu huấn luyện trên hình ảnh kiểm tra tự nhiên, thay vì dựa vào quá khớp với nhiễu để giảm nhiễu. Điều này chứng minh tiềm năng của ý tưởng này trong việc cải thiện hiệu suất tổng quát hóa. Bằng cách huấn luyện phương pháp của chúng em trên hình ảnh

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

tự nhiên, nó sẽ tập trung vào việc tái tạo nội dung của hình ảnh tự nhiên, phù hợp với khái niệm cốt lõi của chúng em về việc sử dụng học sâu cho các nhiệm vụ thị giác cấp thấp.

<b>CHƯƠNG 34.</b>

<i><b>CHƯƠNG 35.</b></i>

<i>Hình 2.3 Minh họa chiến lược huấn luyện mặt nạ và hoàn </i>

<i>thiện được đề xuất. Ngay cả khi một lượng lớn pixel bị mặt nạ, mơ hình vẫn có khả năng tái tạo đầu vào đến một mức độ nào đó.</i>

<b>35.1.1.Kiến trúc Transformer</b>

<b>CHƯƠNG 36.</b>

<b>CHƯƠNG 37.CHƯƠNG 38.CHƯƠNG 39.CHƯƠNG 40.CHƯƠNG 41.CHƯƠNG 42.CHƯƠNG 43.</b>

<i><b>CHƯƠNG 44.</b></i>

<i> Hình 2.4 Kiến trúc Transformer trong phương pháp huấn </i>

<i>luyện mặt nạ mà chúng em đề xuất. Chúng em chỉ thay đổi tối thiểu so với kiến </i>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<i>trúc SwinIR gốc – thao tác đặt mặt nạ đầu vào và các mặt nạ chú ý. Các thiết kếvi mô khác không cơ bản khác biệt so với các Transformer khác.</i>

<b>CHƯƠNG 45.</b>

Phương pháp của chúng em tận dụng những đặc tính xuất sắc của thị giác Transformer (ViT), vì vậy chúng em sẽ mơ tả kiến trúc

Transformer cơ bản được sử dụng trong nghiên cứu này. Cơ chế cửa sổ dịch chuyển(Shifted windows) đã được chứng minh là linh hoạt và hiệu quả cho các nhiệm vụ xử lý hình ảnh – đây là cơ chế sử dụng các "cửa số trượt" sẽ giúp các patch ảnh khơng bị "bó cứng" khi phải seft attention trong 1 cửa sổ cục bộ mà sẽ có "cơ hội" được gặp và tính self attention cùng với các path khác trong 1 cửa sổ mới. Chúng em chỉ thực hiện những thay đổi tối thiểu khi áp dụng nó vào phương pháp huấn luyện mặt nạ được đề xuất mà khơng mất đi tính tổng qt. Mơ hình này được minhhọa trong Hình 2.4. Transformer chia tín hiệu đầu vào thành các token và xử lý thông tin không gian sử dụng các lớp tự chú ý. Trong phương pháp của chúng em, một lớp tích chập với kích thước nhân tử là 1 được sử dụng như một mô-đun nhúng đặc trưng để chiếu các giá trị pixel 3 kênh vào các token đặc trưng C-chiều. Lớp tích chập này đảm bảo các pixel không tác động lẫn nhau trong quá trình nhúng đặc trưng, hỗ trợ cho việc mặt nạ sau này. Các token đặc trưng này được tổ chức với kích thước H x W x C, với H, W và C lần lượt là chiều cao, chiều rộng và kích thước của đặc trưng. Mơ hình của chúng em sử dụng cơ chế cửa sổ dịch chuyển để tái cấu trúc bản đồ đặc trưng của mỗi khung thành <i><sup>HW</sup></i>

<i>M</i><sup>2</sup> <i> × M</i><small>2 </small><i>×C bằng cách phân </i>

chia đầu vào thành các cửa sổ địa phương M x M khơng chồng chéo, nơi <i><sup>HW</sup></i>

<i>M</i><small>2</small> <i> × </i>

M<small>2</small><i>×C là tổng số cửa sổ. Chúng em thực hiện tự chú ý trên các token đặc trưng </i>

cùng cửa sổ đó. Vì vậy, M<small>2</small> token được tham gia vào mỗi thao tác tự chú ý chuẩn, và từ đó tạo ra đặc trưng cửa sổ địa phương X ∈ R<small>M X C</small>. Trong mỗi lớp tự chú ý, các thành phần truy vấn Q, khóa K và giá trị V được tính tốn từ Q = XW<small>Q</small>, K = XW<small>K</small>,

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

V = XW<small>V</small>, nơi W<small>Q</small>, W<small>K</small>, W<small>V</small> ∈ R<small>CxD</small> là các ma trận trọng số và D là kích thước của các vector được chiếu. Chúng em sau đó sử dụng Q để truy vấn K nhằm sinh ra bản đồ chú ý A = softmax<i>(QKT/<sup>√</sup>D + B) ∈ R<small>M×M</small></i> , với B là mã hóa vị trí tương đối có thể học được. Bản đồ chú ý A sau đó được sử dụng để tổng hợp có trọng số của M<small>2</small> vector trong V. Cài đặt đa đầu được điều chỉnh để phù hợp với SwinIR và ViT.

<b>45.1.1.Đào tạo mặt nạ</b>

<b>CHƯƠNG 46.</b>

Huấn luyện mặt nạ: Quá trình huấn luyện mặt nạ của chúng emchủ yếu bao gồm hai phần: mặt nạ đầu vào và mặt nạ chú ý. Mặc dù cả hai đều là các thao tác mặt nạ, mục đích của hai loại mặt nạ này là khác nhau. Chúng emsẽ mô tả chúng một cách riêng biệt.

<b>CHƯƠNG 47.</b>

Mặt Nạ Đầu Vào (The Input Mask) ngẫu nhiên che giấu các token đặc trưng được nhúng bởi lớp tích chập đầu tiên và khuyến khích mạng lưới hồn thiện thơng tin bị che giấu trong quá trình huấn luyện. Mặt nạ đầu vào cụ thể tạo ra một vấn đề tô màu lại rất thách thức, như được minh họa trong

mạng lưới vẫn có khả năng tái tạo hình ảnh mục tiêu đến một mức độ nào đó. Phương pháp này rất đơn giản. Cho tensor token đặc trưng f ∈ R<small>M X H X C</small>, chúng em ngẫu nhiên thay thế token bằng [mask token] ∈ R<small>C</small> với xác suất p<small>IM</small>, nơi p<small>IM</small>

được gọi là tỷ lệ mặt nạ đầu vào. Mạng lưới được huấn luyện dưới sự giám sát của norm-l của hình ảnh tái tạo và hình ảnh gốc. [Mask token] có thể được học và khởi tạo với vector 0. Nhưng chúng em thực sự phát hiện ra rằng chính vector0 đã là một lựa chọn phù hợp. Sự tồn tại của mặt nạ đầu vào buộc mạng lưới phải học cách nhận biết và tái tạo nội dung của hình ảnh từ thơng tin rất hạn chế.

<b>CHƯƠNG 48.</b>

Mặt Nạ Chú Ý: để xây dựng một mạng lưới xử lý hình ảnh có khả năng ứng dụng thực tế, việc chỉ dựa vào thao tác mặt nạ đầu vào là không

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

đủ. Bởi trong quá trình kiểm tra, chúng em cần nhập hình ảnh khơng bị hỏng để bảo tồn thơng tin cần thiết. Sự khơng nhất qn giữa q trình huấn luyện và

kiểm tra có thể khiến mạng lưới tăng độ sáng của hình ảnh đầu ra, như ví dụ được minh họa trong Hình 2.5. Do cơ chế của Transformer là dựa vào thao tác chú ý để xử lý thông tin không gian, chúng em có thể giảm bớt sự khác biệt giữahuấn luyện và kiểm tra bằng cách áp dụng thao tác mặt nạ tương tự trong quá trình chú ý. Cách thức áp dụng mặt nạ này giống như với mặt nạ đầu vào, nhưngsử dụng một tỷ lệ mặt nạ chú ý p<small>AM</small> và [mask token] khác. Khi một số token không còn đáng tin cậy do bị mặt nạ trong quá trình chú ý, thao tác chú ý sẽ điềuchỉnh để tập trung vào các token không bị mặt nạ và bổ sung thông tin cho những phần bị mặt nạ. Thực hiện điều này trên mạng tích chập khơng phải là dễ dàng. Hình 2.5 cho thấy tác động của mặt nạ chú ý, minh họa rằng nó giúp mạnglưới được huấn luyện với mặt nạ phát huy hiệu quả trên hình ảnh đầu vào khơng bị che mặt nạ.

<b>CHƯƠNG 49.</b>

Orginal w/o attention mask w/ attention mask

<i><b>CHƯƠNG 50.</b></i>

<i>Hình 2.5 Ảnh hưởng lượng tính của mặt nạ chú ý. Sự khác biệt </i>

<i>về biểu đồ cũng được thể hiện phía trên.</i>

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

<b>CHƯƠNG 51.CHƯƠNG 52.CHƯƠNG 53.CHƯƠNG 54.CHƯƠNG 55.CHƯƠNG 56.CHƯƠNG 57.</b>

<b>58.1.Cài đặt huấn luyện</b>

<b>58.1.1.Cấu hình huấn luyện</b>

<b>CHƯƠNG 59.</b>

Để tổng hợp dữ liệu huấn luyện, chúng em lấy các hình ảnh sạch từ DIV2K, Flickr2K, BSD500 và WED trong quá trình huấn luyện. Trong cơng việc của mình, tất cả các mạng đều được huấn luyện sử dụng nhiễu

Gaussian với độ lệch chuẩn σ = 15. Mỗi hình ảnh đầu vào được cắt ngẫu nhiên thành độ phân giải không gian 64x64, và tổng số vòng lặp huấn luyện là 200K. Chúng em sử dụng bộ tối ưu hóa Adam với β1 = 0.9 và β2 = 0.99 để giảm thiểu lỗi pixel L1. Tốc độ học ban đầu được thiết lập là 1x10−4 và giảm một nửa tại các cột mốc lặp 100K và 150K. Kích thước lơ được thiết lập là 64.

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

<b>CHƯƠNG 60.</b>

</div>

×