Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.44 MB, 52 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
Bên cạnh đó, chúng em xin cảm ơn các bạn bè trong lớp đã động viên, thảo luận vàgóp ý cho nhóm đồng thời đã khơi thêm nguồn động lực cho nhóm trong suốt qtrình đầy khó khăn.
Mặc dù đã cố gắng hoàn thành báo cáo với tất cả nỗ lực song báo cáo của nhómchúng em chắc chắn khơng tránh khỏi những thiếu sót, em rất mong nhận được sựthơng cảm và góp ý chân thành từ thầy. Nhóm em xin chân thành cảm ơn.
<i><b>Nhóm sinh viên thực hiện:</b></i>
<i>Châu Đức HiệpTrần Nam Khánh</i>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3"><b>TĨM TẮT</b>
Đồ án với đề tài "Tìm hiểu và xây dựng ứng dụng demo về khử nhiễu hình ảnh" nhằm giải quyết một trong những thách thức cố hữu trong lĩnh vực xử lý hình ảnh: nhiễu. Khi chụp và lưu trữ hình ảnh, các thiết bị khơng tránh khỏi việc giới thiệu nhiễu vào hình ảnh, làm giảm chất lượng hình ảnh. Việc giảm thiểu nhiễu, haykhử nhiễu, trở thành một nhiệm vụ quan trọng.
Trong đồ án này, chúng em áp dụng phương pháp học sâu, được công nhận rộng rãi như một phương pháp tiêu chuẩn cho nhiệm vụ khử nhiễu. Đặc biệt, với sự phát triển của các mơ hình dựa trên Transformer, đã có những bước tiến đáng kể trong lĩnh vực này, đạt được kết quả nổi bật trên nhiều tác vụ liên quan đến hình ảnh. Tuy nhiên, một hạn chế lớn của các phương pháp này là khả năng tổng qt hóa. Ví dụ, mơ hình được huấn luyện để xử lý nhiễu Gaussian có thể khơng hiệu quả khi áp dụng cho các loại nhiễu khác.
Để giải quyết vấn đề này, chúng em giới thiệu một cách tiếp cận mới: huấn luyện che mặt nạ. Cách tiếp cận này bao gồm việc che mặt nạ các điểm ảnh ngẫu nhiên trong hình ảnh đầu vào và sau đó tái tạo các thơng tin thiếu trong quá trình huấn luyện. Bằng cách này, mơ hình có thể học cách xử lý nhiễu mà không bị ảnh hưởng bởi sự không nhất quán giữa dữ liệu huấn luyện và thực tế. Điều này cải thiện đáng kể khả năng tổng qt hóa của mơ hình. Chúng em cũng thực hiện che mặt nạ các tính năng trong các lớp tự chú ý, giúp mơ hình tránh khỏi ảnh hưởng củasự khơng nhất qn giữa huấn luyện và thử nghiệm.
Kết quả thử nghiệm cho thấy, phương pháp của chúng em không chỉ thể hiệnkhả năng tổng qt hóa tốt hơn so với các mơ hình học sâu khác mà cịn có khả năng áp dụng trực tiếp trong các tình huống thực tế. Phân tích khả năng giải thích của chúng em cũng chứng minh sự vượt trội của phương pháp này so với các phương pháp truyền thống.
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">Đồ án này cung cấp một cái nhìn sâu sắc về cách tiếp cận khử nhiễu hình ảnhmới và hiệu quả, cung cấp một hướng đi mới mẻ cho việc xử lý nhiễu trong các tác vụ xử lý hình ảnh. Cuối cùng, báo cáo chi tiết các kết quả đã đạt được và đề xuất hướng phát triển cho hệ thống và phương pháp trong tương lai.
Nội dung đồ án được trình bày trong 5 chương:- Chương 01: Tổng quan
Trình bày sơ bộ về thực trạng, nhu cầu thực tế. Xác định mục tiêu và phạm viđề tài.
- Chương 02: Cơ sở lý thuyết, tổng quan công nghệ
Giớ thiệu về giải thuật, những công nghệ, nền tảng được sử dụng trong đồ án.
- Chương 03: Thực nghiệm và đánh giáThiết kế, hiện thực và triển khai ứng dụng.- Chương 04: Kết luận
Những kết quả đạt được sau khi kết thúc đồ án. Những hạn chế, khó khăn trong q trình phát triển đồ án và nêu ra hướng phát triển trong tương lai.
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">2.2. Các Phương pháp khử nhiễu ảnh: từ Truyền thống đến Học sâu...8
2.3. Phương pháp và cơ sở kiến trúc: Huấn luyện mặt nạ...10
2.3.1. Động lực...10
2.3.2. Kiến trúc Transformer...13
2.3.3. Đào tạo mặt nạ...14
Chương 3. THỰC NGHIỆM VÀ ĐÁNH GIÁ...17
3.1. Cài đặt huấn luyện...17
3.1.1. Cấu hình huấn luyện...17
3.1.2. Nhiễu khi kiễm tra...19
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">3.2.1. Nghiên cứu sâu...22
3.2.2. Hiệu suất Tổng quát hóa...24
3.2.3. Đánh giá nhiễu ISP...26
3.2.4. Đánh giá trên nhiễu Render Monte Carlo...27
3.3. Phân tích Tổng quát hóa...29
3.3.1. Đường cong huấn luyện...29
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><b>DANH MỤC TỪ VIẾT TẮT</b>
6 LPIS Learned Perceptual Image Patch Similarity
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9"><b>CHƯƠNG 1. TỔNG QUAN1.1.Khảo sát hiện trạng</b>
<b>1.1.1.Nhu cầu thực tế đề tài</b>
<b>3.1.1.Khảo sát một số ứng dụng hiện có3.1.1.1.Denoise it – AI Photo Enhancer (Android)</b>
<b>1. Tổng quan</b>
<b>2. Chức năng</b>
<b>6.1.1.1.Adobe Photoshop1. Tổng quan</b>
<b>9.1.Lí do thực hiện đề tài</b>
lượng hình ảnh trở nên quan trọng hơn bao giờ hết. Nhiễu ảnh không chỉ ảnh hưởng đến thẩm mỹ mà cịn làm giảm độ chính xác của các phân tích và ứng dụng dựa trên hình ảnh. Các phương pháp truyền thống khơng cịn đáp ứng hiệu
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">quả nhu cầu này, đặc biệt trong các tình huống phức tạp. Nghiên cứu mới về phương pháp huấn luyện mặt nạ (masked training) đã chứng minh tiềm năng trong việc tăng cường khả năng tổng quát hóa của các mạng giảm nhiễu, đưa ra giải pháp hiệu quả hơn cho vấn đề nhiễu ảnh trong môi trường đa dạng và khôngxác định.
mới để giải quyết vấn đề nhiễu ảnh. Với khả năng học từ dữ liệu lớn và khả năngmơ phỏng các tình huống phức tạp, Deep learning có tiềm năng cải thiện đáng kể hiệu suất và độ chính xác trong việc loại bỏ nhiễu. Điều này không chỉ giúp cải thiện chất lượng hình ảnh mà cịn mở rộng ứng dụng của công nghệ xử lý ảnh. Cụ thể, kết quả thực nghiệm từ báo cáo chỉ ra rằng phương pháp mới có thểvượt trội hơn các phương pháp hiện đại khác trong việc xử lý các loại nhiễu khác nhau, từ Gaussian đến speckle và Poisson, mở ra khả năng áp dụng trong nhiều lĩnh vực khác nhau từ y tế đến an ninh.
<b>12.1.Mục tiêu</b>
- <b>Hiểu rõ về vấn đề nhiễu trong ảnh: Nghiên cứu và phân tích các loại </b>
nhiễu thường gặp trong hình ảnh, từ nguồn gốc đến cách thức ảnh hưởng tới chất lượng hình ảnh. Điều này bao gồm nhiễu do thiết bị (như nhiễu ISO cao trong máy ảnh), nhiễu do môi trường (như nhiễu do ánh sáng yếu), và nhiễu trong quá trình xử lý hoặc truyền dữ liệu. Chủ hệ thống có thể phát triển dễ dàng với chi phí thấp.
- <b>Tìm hiểu các phương pháp khử nhiễu hiện đại: Đánh giá các kỹ thuật </b>
khử nhiễu hiện nay, đặc biệt là các phương pháp dựa trên học sâu, như mạng nơ-ron tích chập, mạng nơ-ron đối xứng (GANs), và các kỹ thuật
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">xử lý ảnh tiên tiến khác. Phân tích ưu nhược điểm của từng phương pháp trong việc xử lý các loại nhiễu khác nhau.
- <b>Xây dựng một ứng dụng demo: Phát triển một ứng dụng demo có khả </b>
năng khử nhiễu hình ảnh dựa trên một hoặc nhiều kỹ thuật được nghiên cứu. Mục tiêu là tạo ra một ứng dụng thân thiện với người dùng, có thể hiển thị trực quan sự khác biệt trước và sau khi xử lý nhiễu.
<b>12.1.1.Đối tượng sử dụng</b>
- Nhà nghiên cứu và học giả: Đối tượng này quan tâm đến việc khám phá và áp dụng các công nghệ mới nhằm cải thiện các phương pháp xử lý ảnh hiện tại.
- Nhà phát triển cơng nghệ: Các nhà phát triển cơng nghệ có thể tận dụng nghiên cứu này để tích hợp vào các sản phẩm và dịch vụ của họ, từ ứng dụngdi động đến hệ thống an ninh và y tế.
- Ngành cơng nghiệp u cầu chất lượng hình ảnh cao: Như trong y tế (chẩn đốn hình ảnh), an ninh (nhận diện khuôn mặt, giám sát video), và nhiếp ảnh,nơi chất lượng hình ảnh là yếu tố then chốt.
<b>CHƯƠNG 16.CƠ SỞ LÝ THUYẾT, TỔNG QUAN CƠNG NGHỆ16.1.Khử nhiễu hình ảnh</b>
nhiễu nằm ngồi phạm vi huấn luyện, ví dụ như hỗn hợp của các loại nhiễu khácnhau, SwinIR gặp phải sự giảm hiệu suất đáng kể. Mơ hình được huấn luyện bằng theo phương pháp mặt nạ mà chúng em phát triển vẫn giữ nguyên khả nănggiảm nhiễu ổn định, ngay cả khi nó cũng được huấn luyện trên nền của nhiễu Gaussian.
<i>cho việc loại bỏ nhiễu từ các nguồn khác nhau, hiệu suất giảm đáng kể (ví dụ Hình </i>
<i>2.1). Cộng đồng nghiên cứu ngày càng nhận thức về vấn đề tổng qt hóa của mơ </i>
hình học sâu. Một số phương pháp đã được đề xuất, chẳng hạn như giả định mức độnhiễu không xác định hoặc cố gắng cải thiện hiệu suất trong thực tế bằng cách huấn luyện trên dữ liệu gần hơn với nhiễu mục tiêu. Tuy nhiên, những phương pháp này chưa thể cải thiện đáng kể hiệu suất tổng quát hóa của các mạng giảm nhiễu, đặc biệt khi phân phối nhiễu không phù hợp.
trong xử lý hình ảnh, chúng em giới thiệu hai cơ chế mặt nạ: mặt nạ đầu vào và mặt nạ chú ý. Trong quá trình huấn luyện, mặt nạ đầu vào loại bỏ ngẫu nhiên các pixel, và mạng lưới tái tạo những pixel bị loại bỏ. Mặt nạ chú ý, được tích hợp trong từng lớp tự chú ý của Transformer, cho phép mơ hình học cách hồn thiện các đặc trưng bị mặt nạ một cách linh hoạt, giảm thiểu sự chênh lệch phân phối giữa huấn luyện và kiểm tra. Dù sử dụng nhiễu Gaussian trong huấn luyện, phương pháp của chúng em đã thể hiện cải thiện hiệu suất đáng kể trên nhiều loại nhiễu khác nhau, từ nhiễu speckle, Poisson, salt and pepper, đến nhiễu Gaussian không gian, nhiễu hình ảnh được render bằng Monte Carlo, nhiễu ISP, và các hỗn hợp phức tạp của nhiều nguồn nhiễu. Các phương pháp và mơ hình hiện tại chưa thể loại bỏ hiệu quả và chính xác tất cả các mẫu nhiễu đa dạng này.
<b>21.1.Các Phương pháp khử nhiễu ảnh: từ Truyền thống đến Học sâu </b>
<small>Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Syl- vain Gelly, et al. An image is worth16x16 words: Trans- formers for image recognition at scale. arXiv preprint arXiv:2010.11929, 2020.</small>
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">trước hoặc huấn luyện trên nhiều loại nhiễu khác nhau. Những nỗ lực này cũng không thể tổng qt hóa cho nhiễu khơng có trong bộ dữ liệu huấn luyện.
<b>26.1.Phương pháp và cơ sở kiến trúc: Huấn luyện mặt nạ</b>
<b>27.1.1.Động lực</b>
của chúng em, khiến mơ hình tập trung vào việc q khớp với nhiễu huấn luyện hơnlà học tái tạo hình ảnh.
<i>dịch hóa học với nhiễu Gaussian, vẫn có khả năng giảm nhiễu cho hình ảnh tự nhiên. Quan sát này củng cố nhận định rằng hầu hết các phương pháp hiện tại </i>
<small>Ground truthDenoised by SwinIR</small>
</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20"><i>thực hiện việc giảm nhiễu chủ yếu bằng cách quá khớp với nhiễu trong quá trình huấn luyện. Ngược lại, phương pháp của chúng em nhấn mạnh vào việc táitạo kết cấu và cạnh của hình ảnh tự nhiên nhìn thấy trong bộ dữ liệu huấn luyện, thay vì dựa vào quá khớp nhiễu để giảm nhiễu. Sự khác biệt này làm nổi bật điểm cơ bản phân biệt phương pháp của chúng em với các cách tiếp cận trước đây.</i>
tự nhiên, nó sẽ tập trung vào việc tái tạo nội dung của hình ảnh tự nhiên, phù hợp với khái niệm cốt lõi của chúng em về việc sử dụng học sâu cho các nhiệm vụ thị giác cấp thấp.
<i>thiện được đề xuất. Ngay cả khi một lượng lớn pixel bị mặt nạ, mơ hình vẫn có khả năng tái tạo đầu vào đến một mức độ nào đó.</i>
<b>35.1.1.Kiến trúc Transformer</b>
<i>luyện mặt nạ mà chúng em đề xuất. Chúng em chỉ thay đổi tối thiểu so với kiến </i>
</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22"><i>trúc SwinIR gốc – thao tác đặt mặt nạ đầu vào và các mặt nạ chú ý. Các thiết kếvi mô khác không cơ bản khác biệt so với các Transformer khác.</i>
Transformer cơ bản được sử dụng trong nghiên cứu này. Cơ chế cửa sổ dịch chuyển(Shifted windows) đã được chứng minh là linh hoạt và hiệu quả cho các nhiệm vụ xử lý hình ảnh – đây là cơ chế sử dụng các "cửa số trượt" sẽ giúp các patch ảnh khơng bị "bó cứng" khi phải seft attention trong 1 cửa sổ cục bộ mà sẽ có "cơ hội" được gặp và tính self attention cùng với các path khác trong 1 cửa sổ mới. Chúng em chỉ thực hiện những thay đổi tối thiểu khi áp dụng nó vào phương pháp huấn luyện mặt nạ được đề xuất mà khơng mất đi tính tổng qt. Mơ hình này được minhhọa trong Hình 2.4. Transformer chia tín hiệu đầu vào thành các token và xử lý thông tin không gian sử dụng các lớp tự chú ý. Trong phương pháp của chúng em, một lớp tích chập với kích thước nhân tử là 1 được sử dụng như một mô-đun nhúng đặc trưng để chiếu các giá trị pixel 3 kênh vào các token đặc trưng C-chiều. Lớp tích chập này đảm bảo các pixel không tác động lẫn nhau trong quá trình nhúng đặc trưng, hỗ trợ cho việc mặt nạ sau này. Các token đặc trưng này được tổ chức với kích thước H x W x C, với H, W và C lần lượt là chiều cao, chiều rộng và kích thước của đặc trưng. Mơ hình của chúng em sử dụng cơ chế cửa sổ dịch chuyển để tái cấu trúc bản đồ đặc trưng của mỗi khung thành <i><sup>HW</sup></i>
<i>M</i><sup>2</sup> <i> × M</i><small>2 </small><i>×C bằng cách phân </i>
chia đầu vào thành các cửa sổ địa phương M x M khơng chồng chéo, nơi <i><sup>HW</sup></i>
<i>M</i><small>2</small> <i> × </i>
M<small>2</small><i>×C là tổng số cửa sổ. Chúng em thực hiện tự chú ý trên các token đặc trưng </i>
cùng cửa sổ đó. Vì vậy, M<small>2</small> token được tham gia vào mỗi thao tác tự chú ý chuẩn, và từ đó tạo ra đặc trưng cửa sổ địa phương X ∈ R<small>M X C</small>. Trong mỗi lớp tự chú ý, các thành phần truy vấn Q, khóa K và giá trị V được tính tốn từ Q = XW<small>Q</small>, K = XW<small>K</small>,
</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">V = XW<small>V</small>, nơi W<small>Q</small>, W<small>K</small>, W<small>V</small> ∈ R<small>CxD</small> là các ma trận trọng số và D là kích thước của các vector được chiếu. Chúng em sau đó sử dụng Q để truy vấn K nhằm sinh ra bản đồ chú ý A = softmax<i>(QKT/<sup>√</sup>D + B) ∈ R<small>M×M</small></i> , với B là mã hóa vị trí tương đối có thể học được. Bản đồ chú ý A sau đó được sử dụng để tổng hợp có trọng số của M<small>2</small> vector trong V. Cài đặt đa đầu được điều chỉnh để phù hợp với SwinIR và ViT.
<b>45.1.1.Đào tạo mặt nạ</b>
mạng lưới vẫn có khả năng tái tạo hình ảnh mục tiêu đến một mức độ nào đó. Phương pháp này rất đơn giản. Cho tensor token đặc trưng f ∈ R<small>M X H X C</small>, chúng em ngẫu nhiên thay thế token bằng [mask token] ∈ R<small>C</small> với xác suất p<small>IM</small>, nơi p<small>IM</small>
được gọi là tỷ lệ mặt nạ đầu vào. Mạng lưới được huấn luyện dưới sự giám sát của norm-l của hình ảnh tái tạo và hình ảnh gốc. [Mask token] có thể được học và khởi tạo với vector 0. Nhưng chúng em thực sự phát hiện ra rằng chính vector0 đã là một lựa chọn phù hợp. Sự tồn tại của mặt nạ đầu vào buộc mạng lưới phải học cách nhận biết và tái tạo nội dung của hình ảnh từ thơng tin rất hạn chế.
đủ. Bởi trong quá trình kiểm tra, chúng em cần nhập hình ảnh khơng bị hỏng để bảo tồn thơng tin cần thiết. Sự khơng nhất qn giữa q trình huấn luyện và
kiểm tra có thể khiến mạng lưới tăng độ sáng của hình ảnh đầu ra, như ví dụ được minh họa trong Hình 2.5. Do cơ chế của Transformer là dựa vào thao tác chú ý để xử lý thông tin không gian, chúng em có thể giảm bớt sự khác biệt giữahuấn luyện và kiểm tra bằng cách áp dụng thao tác mặt nạ tương tự trong quá trình chú ý. Cách thức áp dụng mặt nạ này giống như với mặt nạ đầu vào, nhưngsử dụng một tỷ lệ mặt nạ chú ý p<small>AM</small> và [mask token] khác. Khi một số token không còn đáng tin cậy do bị mặt nạ trong quá trình chú ý, thao tác chú ý sẽ điềuchỉnh để tập trung vào các token không bị mặt nạ và bổ sung thông tin cho những phần bị mặt nạ. Thực hiện điều này trên mạng tích chập khơng phải là dễ dàng. Hình 2.5 cho thấy tác động của mặt nạ chú ý, minh họa rằng nó giúp mạnglưới được huấn luyện với mặt nạ phát huy hiệu quả trên hình ảnh đầu vào khơng bị che mặt nạ.
<i>về biểu đồ cũng được thể hiện phía trên.</i>
</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25"><b>58.1.Cài đặt huấn luyện</b>
<b>58.1.1.Cấu hình huấn luyện</b>
Gaussian với độ lệch chuẩn σ = 15. Mỗi hình ảnh đầu vào được cắt ngẫu nhiên thành độ phân giải không gian 64x64, và tổng số vòng lặp huấn luyện là 200K. Chúng em sử dụng bộ tối ưu hóa Adam với β1 = 0.9 và β2 = 0.99 để giảm thiểu lỗi pixel L1. Tốc độ học ban đầu được thiết lập là 1x10−4 và giảm một nửa tại các cột mốc lặp 100K và 150K. Kích thước lơ được thiết lập là 64.
</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">