báo cáo ai trí tuệ nhân tạo và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.36 MB, 35 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

TR¯äNG Đ¾I HàC BÁCH KHOA HÀ NàI VIâN ĐIâN TĀ - àN THÔNG VI

BÁO CÁO BÀI TÀP LâN

Hà Nái, 7/2022

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>LàI NĨI ĐÀU </b>

Vãi tác đá phát trißn rất nhanh cÿa khoa hác cơng nghã, cụm tÿ <Trí t nhân t¿o= ngày càng phá biÁn ráng rãi trên các ph°¢ng tiãn thơng tin đ¿i chúng và có sāc hút rất m¿nh.Sự phát trißn vÃ các tht tốn Hác Máy (Machine Learning) và Hác Sâu (Deep learning) đã hß trợ cho kỹ thuÁ ā t x lý hình Ánh trở nên dá dàng h¢n bao giå hÁt. Trong đó, M¿ng neural Tích chÁp (Convolutional Neural Network) là mát trong những mơ hình hác sâu hiãn đ¿i nhất hiãn nay. M¿ng neural Tích chÁp hiãn nay th°ång đ°ợc sā dụng nhiÃu trong các hã tháng thơng minh do °u đißm cÿa m¿ng là có đá chính xác cao, tuy nhiên tác đá tính tốn l¿i rất nhanh. Vì lý do đó, m¿ng n¢ ron tích chÁp rất m¿nh trong xā lý hình Ánh, và đ°ợ āng dụng rất nhiÃu trong ngành thß giác máy tính trong các bài tốn liên quan c đÁn nhÁn d¿ng đái t°ợng.

Truy xuấ hình Ánh (TR) hiãn nay đã trở thành mát vấn đÃ quan tráng nh°ng cũng t đầy thách thāc do xu h°ãng gia tăng các c¢ sở dữ ãu hình Ánh vãi kích th°ãli c rất lãn. Đã có nhiÃu nß lực đầy hāa hẹn cho vấn đÃ TR, tuy nhiên, điÃu này khơng thß thực hiãn đ°ợc vì viãc đánh giá hình Ánh v¿n dựa trên các bá dữ ãu v¿n còn nhiÃu h¿n chÁ và c¢ chÁ v¿n libình th°ång.

Trong bài báo cáo này, chúng em đã thực hiãn đÃ tài <Truy xuấ hình Ánh dựa trên t nái dung=, đÃ tài cung cấp mát tÁp dữ ãu quy mô lãn vãi các truy vấn đißm chuẩn vãi li các cách tiÁp cÁn truy vấn khác nhau đß có đ°ợc đánh giá mát cách hã tháng đß qua đó đÃ xuất thêm các gi i pháp xÁ ā lý phù hợp và kßp thåi.

Nhóm xin gāi låi cÁm ¢n chân thành tã TS. Võ Lê C°ång đã rất mực tÁn tâm hß i trợ nhóm đß hồn thiãn đÃ tài này.

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

<b>MỵC L C </b>ỵ

Danh mc hỡnh v¿ ... 3

Danh mục bÁng ... 4

BÁng phân chia công viãc ... 5

CH¯¡NG 1. TàNG QUAN ĐÂ TÀI ... 6

1. Gi i thiãu vÃ TIR (Trademark Image Retrieval) ... 6ã1.1. Đßnh nghĩa TIR ... 6

1.2. Āng dụng cÿa TIR ... 6

1.3. Hã áng TIRth ... 7

1.3.1. H°ãng phát trißn vấn đÃ ... 8

1.3.2. Báo cáo vÃ TIR ... 8

1.3.3. ĐÃ xuất giÁi pháp cho TIR ... 8

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

2.4.1 Trên tãp huấn luyãn ... 20

2.4.2 Trên tÁp kißm tra ... 21

CH¯¡NG 3. KÀT QUÀ VÀ ĐÁNH GIÁ MƠ HÌNH... 22

3.1 Ph°¢ng pháp tính khng cách giữa 2 vecto Euclidean distance ... 22

3.2 So sánh các vector đặc tr°ng: ... 24

3.3 Sắp xÁp giá trß khoÁng cách ... 24

3.4 KÁt quÁ ... 25

3.4.1 KÁt quÁ hác máy thơng qua VGG-16 và VGG-19 ... 25

3.4.2 KÁt q trích xuất vector đặc tr°ng ... 27

3.5 Đánh giá mơ hình dựa trên các metrix ... 31

KÀT LUÀN ... 32

TÀI LIâU THAM KHÀO ... 33

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>Danh mÿc hỡnh v </b>

Hỡnh 2.1 SÂ ò khỏi ca hó thỏng ... 10

Hình 2.2 Ành Data cÿa Logo chỉ āa Iconch ...11

Hình 2.3 Ành Data cÿa Logo chỉ āa Textch ... 12

Hình 2.4 Ành Data cÿa Logo chāa cÁ Text cÁ IconLý thuyÁt CNN ... 12

Hình 2.5 Các layer trong CNN (3 chiÃu) ... 13

Hình 2.6 MÁng ma trÁn RGB 6x6x3 ... 14

Hình 2.7 Mơ hình m¿ng CNN... 14

Hình 2.8 Lãp tích chÁp ... 15

Hình 2.9 Phép chÁp ma trÁn hình Ánh (5x5) vãi ma trÁn bá lác (3x3) ... 15

Hình 2.10 Mát ví dụ vÃ Ánh sau khi áp dụng các bá lác khác nhau ... 16

Hình 2.11 Lãp tích chÁp ho¿t đáng vãi stride = 2 ... 16

Hình 3.5 Test logo Instagram trên m¿ng VGG-16 ... 28

Hình 3.6 Test logo Instagram trên m¿ng VGG-19 ... 28

Hình 3.7 Test logo Monster trên m¿ng VGG-16 ... 29

Hình 3.8 Test logo Monster trên m¿ng VGG-16 ... 29

Hình 3.9 Test logo Heineken trên m¿ng VGG-16... 30

Hình 3.10 Test logo Heineken trên m¿ng VGG-19 ... 30

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>Danh mÿc bÁng </b>

BÁng 2.1 Chi tiÁt kiÁn trúc m¿ng VGG-16 ... 19 BÁng 2.2 BÁng so sánh VGG-16 vãi VGG-19 ... 20 BÁng 3.1 BÁng đánh giá chi tiÁt trên tãp kißm tra ... 31

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>BÁng phân chia cơng vißc </b>

xuất nhãn hiãu dựa trên hình Ánh

xā lý d liãu ữ

thành LÁp trình ch°¢ng trình

chính

thành Đánh giá thơng sá, kÁt

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

CH¯¡NG 1. TàNG QUAN ĐÂ TÀI

Khi các bá xā lý ngày càng trở nên m¿nh m¿ và bá nhã ngy cng r hÂn, vióc triòn khai cÂ s d ãu hình Ánh vãi quy mơ lãn cho nhiÃu āng dụng giå đây đã trở nên khÁ thi. liC¢ sở dữ liãu cÿa các tác phẩm nghã thuÁt, hình Ánh vã tinh và y tÁ ngày càng thu hút nhiÃu ng°åi dùng trong các lĩnh vực chuyên môn khác nhau - ví dụ nh° đßa lý, y hác, kiÁn trúc, quÁng cáo, thiÁt kÁ, thåi trang và xuất bÁn. Truy cÁp mát cách hiãu quÁ và lấy các hình Ánh mong mn tÿ các c¢ sở dữ liãu hình Ánh lãn và đa d¿ng hiãn là mát điÃu rất cần thiÁt.

Trademark Image Retrieval (TIR) hoặc Truy xuất hình Ánh dựa trên nái dung là viãc truy xu t hình ấ Ánh dựa trên các đặc đißm trực quan nh° màu s c, kắ Át cấu và hình d¿ng. Lý do cho sự phát trißn cÿa nó là trong nhiÃu c¢ sở dữ liãu hình Ánh lãn, các ph°¢ng pháp lÁp chỉ mục hình Ánh truyÃn tháng đã đ°ợc chāng minh là không đÿ, tán nhiÃu công sāc và thåi gian. Các ph°¢ng pháp lÁp chỉ mục hình Ánh cũ này, tÿ viãc l°u trữ mát hình Ánh trong c¢ sở dữ ãu và liên kÁt nó vãi mát tÿ khóa hoặc sá, đÁn liên kÁt nó vãi mát mô tÁ đ°ợli c phân lo¿i, đã trở nên lßi thåi. Đây khơng phÁi là TIR. Trong TIR, mßi hình Ánh đ°ợc l°u trữ trong c¢ sở dữ ãu có các tính năng cÿa nó đ°ợc trích xuất và so sánh vãi các tính năng licÿa hình Ánh truy vn. Nú bao gòm hai bóc:

ã Trớch xut đặc tr°ng (Features) • Khãp Truy vấn (Matching)

TIR có mát vài āng dụng phá biÁn nh° sau:

• Phòng cháng tái ph¿m: Hã áng tự Án dión khuụn mtth nh

ã Kiòm tra bo mt: Hó áng quét vân tay và võng m¿c đß truy cÁp vào các thđặc quyÃn riêng

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

7 • Chuẩn đốn y tÁ Sā dụng : TIR trong c¢ sở dữ liãu y tÁ vÃ hình Ánh y tÁ đß hß

trợ ẩn och ỏn bng cỏch xỏc ònh cỏc trồng hp tÂng tự trong q khā• Sở hữu trí t: Đăng ký hình Ánh nhãn hiãu, trong đó nhãn hiãu āng cā viên

mãi đ°ợc so sánh vãi nhãn hiãu hiãn cú ò m bo khụng cú nguy cÂ gõy nhm l¿n quyÃn sở hữu tài sÁn.

• VIR Image Engine cÿa Virage Inc., giáng nh° QBIC, cho phép truy xuất hình Ánh dựa trên các thc tính ngun thÿy nh° màu sắc, kÁt cấu và cấu trúc. Nó kißm tra các pixel trong hình Ánh và thực hiãn quá trình phân tích, lấy ra các tính năng đặc tr°ng cÿa hình Ánh.

• VisualSEEK và WebSEEK đ°ợc phát trißn bởi Khoa Điãn, Đ¿i hác Columbia. CÁ hai hã áng này đÃu hß ợ đái sánh màu sắc và vß trí khơng th trgian cũng nh° đái sánh kÁt cấu.

• NeTra đ°ợc phát trißn bởi Khoa Kỹ thuÁt Điãn và Máy tính, Đ¿i hác California. Nó hß ợ màu sắc, hình d¿ng, bá cục không gian và kÁt cấu phù trhợp, cũng nh° phân đo¿n hình Ánh

• MARS hay Hã áng truy xuất và phân tích đa ph°¢ng tiãn đ°ợc phát trißn thbởi Viãn Khoa hác và Cơng nghã Tiên tiÁn Beckman, Đ¿i hác Illinois. Nó hß trợ màu sắc, bá cục không gian, kÁ ấu và kÁ ợp hình d¿ngt c t h

• Viper hoặc Xā lý Thơng tin Trực quan đß Truy xuất Nâng cao đ°ợc phát trißn t¿i Nhóm Thß giác Máy tính, Đ¿ ác Geneva. Nó hß ợ kÁ ợp màu sắc và i h tr t hkÁ ấu.t c

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

1.3.1. Hướng phát triển vấn đề

C¢ sở dữ ãu và bá s°u tÁp hình Ánh có thß có kích th°ãc kháng lß, chāli a hàng trăm, hàng nghìn hoặc thÁm chí hàng triãu hình Ánh. Ph°¢ng pháp truy xuất hình Ánh thơng th°ång là tìm kiÁm mát tÿ khóa phù hợp vãi tÿ khóa mơ tÁ đ°ợc gán cho hình Ánh bởi bá phân lo¿i cÿa con ng°åi. Hiãn đang đ°ợc phát trißn, mặc dù mát sá hã áng đã tßn t¿i, là viãc truy xuất hình Ánh dựa trên nái dung cÿa chúng, thđ°ợc gái là Truy xuất hình Ánh dựa trên nái dung, TIR. Mặc dù tán kém vÃ mặt tính tốn, nh°ng kÁt q l¿i chính xác h¢n nhiÃu so vãi lÁp chỉ mục hình Ánh thơng th°ång. Do đó, tßn t¿i sự cân bằng giữa đá chính xác và chi phí tính tốn. Sự cân bằng này giÁm dần khi các thuÁt toán hiãu q h¢n đ°ợc sā dụng và sāc m¿nh tính tốn tăng lên trở nên khơng tán kém.

1.3.2. Báo cáo về TIR

Vấn đÃ liên quan đÁn viãc nhÁp mát hình Ánh d°ãi d¿ng truy vấn vào mát āng dụng phần mÃm đ°ợc thiÁt kÁ đß sā dụng các kỹ thuÁt TIR trong viãc trích xuất các thuác tính trực quan và đái sánh chúng. ĐiÃu này đ°ợc thc hión ò truy xut hỡnh nh trong cÂ s dữ ãu t°¢ng tự ực quan vãi hình Ánh truy vấn.li tr

1.3.3. Đề xuất giải pháp cho TIR

GiÁi pháp ban đầu đ°ợc đÃ xuất là trích xuất các tính năng ban đầu cÿa mát hình Ánh truy vấn và so sánh chúng vãi các tính năng cÿa hình Ánh c¢ sở dữ ãu. liCác đặc đißm hình Ánh đang đ°ợc xem xét là màu sắc, kÁt cấu và hình d¿ng. Do đó, bằng cách sā dụng các thuÁt toán so sánh và so sánh, các đặc đißm v màÃ u sắc, kÁt cấu và hình d¿ng cÿa mát hình Ánh đ°ợc so sánh và khóp vói cỏc c iòm tÂng ng ca hỡnh nh khác. So sánh này đ°ợc thực hiãn bằng cách sā dụng các th°ãc đo khoÁng cách màu sắc, kÁt cấu và hình d¿ng. Cuái cùng, các sá liãu này đ°ợc thc hión ln lt, ò truy xut hỡnh nh cÂ sở dữ ãu t°¢ng tự nh° truy vấn. Sự giáng linhau giữa các tính năng đã đ°ợc tính tốn bằng các thuÁt toán đ°ợc sā dụng bởi các

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

9 hã áng th TIR nái tiÁng nh° QBIC cÿa IBM. Đái vãi mßi tính năng cụ ß, có máth t tht tốn cụ ß đß trích xuất. th

1.3.4. Kết quả đã đạt được

Những gì đã đ¿t đ°ợc là mát āng dụng phần mÃm chỉ truy xuất hình Ánh dựa trên các tính năng cÿa kÁt cấu và màu sắc. Viãc tách màu và so sánh đ°ợc thực hiãn bằng cách sā dụng bißu đß màu và tht tốn khng cách bÁc hai, t°¢ng āng. Viãc trích xuất và so sánh kÁt cấu đ°ợc thực hiãn bằng cách sā dụng thuÁt toán māc năng l°ợng và tht tốn khng cách Euclide, t°¢ng āng.

1.3.5. Tổng quan và báo cáo

Báo cáo này đ°ợc chia thành ba phần chính. Phần đầu tiên đÃ cÁp đÁn giãi thiãu chung vÃ TIR. ĐiÃu thā hai liên quan đÁn cơng nghã m¿ng tích chÁp đ°ợc sā dụng trong TIR. Phần thā ba đÃ cÁp đÁn kÁt q khi ßn khai tht tốn, đánh giá trikÁt quÁ dựa trên những gì đã làm đ°ợc và ch°a làm đ° c. ợ

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

TiÁp theo b°ãc truy vấn hình Ánh tÿ tÁp dữ ãu, ở đây Á truy vấn cũng s¿ đ°ợli nh c trích xuất đặc tr°ng và lấy ra véc-t¢ đặc tr°ng y hãt nh° trích xuất đăc tr°ng trong tÁp

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

11 dataset, ròi t vộc-tÂ c trng này ta s¿ ực hiãn đo đ¿c đß án ra những Ánh có véc-t¢ th chđặc tr°ng giáng nhau.

B°ãc cuái cùng, sau khi đã đo đ¿c chán ra những Ánh có véc-t¢ đặc tr°ng giáng vãi Ánh truy vấn ta s¿ Á vÃ kÁt quÁ là những Ánh đ°ợc sắp xÁp theo māc đá °u tiên tÿ trái trsang phÁi r i t trên xuß ÿ áng d°ãi.

Tãp dữ ãu Ánh vãi sá ợng Ánh là khoÁng 4300 Ánh. Sau đó nhóm thự hiãn phân li l° c chia dữ ãu: 3200 Ánh cho huấn luyãn và 1100 Ánh cho kißm tra. Ành đ°ợc phân chia theo li2 tãp <train= và <test= riêng biãt, đß đÁm bÁo kÁt quÁ đánh giá sau khi huấn luyãn các model đ°ợc công bằng. Dữ ãu tãp train đ°ợc chia làm 3 phần gßm: Tãp Logo chỉ āa Icon, tãli ch p Logo chāa cÁ Icon và chữ, tãp Logo chỉ chāa chữ.

Hình 2.2 Ành Data cÿa Logo chỉ āa Iconch

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

Hình 2.3 Ành Data cÿa Logo chỉ āa Textch

<b>Hình 2.4 Ành Data cÿa Logo chāa cÁ Text cÁ IconLý thuyÁt CNN </b>

2.2.1 Tổng quan về CNN

Convolutional Neural Network (CNN – M¿ng n¢-ron tích chÁp) là mát trong những mơ hình Deep Learning tiên tiÁn giúp cho chúng ta xây dựng đ°ợc những hã áng thơng th

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

13 minh vãi đá chính xác cao nh° hiãn nay. Hầu hÁt các hã áng nhÁn diãn và xā lý Ánh hiãth n nay đÃu sā dụng m¿ng CNN vì tác đá xā lý nhanh và đá chính xác cao. Trong m¿ng n¢ ron truyÃn tháng, các tầng đ°ợc coi là mát chiÃu, thì trong m¿ng n¢ ron tích chÁp, các tầng đ°ợc coi là 3 chiÃu, gßm: chiÃu cao, chiÃu ráng và chiÃu sâu.

<b>Hình 2.5 Các layer trong CNN (3 chiÃu) </b>

Trong m¿ng neural, mơ hình m¿ng neural tích chÁp (CNN) là 1 trong những mơ hình đß nhÁn d¿ng và phân lo¿i hình Ánh. Trong đó, xác đßnh đái t°ợng và nhÁn d¿ng khuôn mặt là 1 trong sá những lĩnh vực mà CNN đ°ợc sā dụng ráng rãi. CNN phân lo¿i hình Ánh bằng cách lấy 1 hình Ánh đầu vào, xā lý và phân lo¿i nó theo các h¿ng mục nhất đßnh (Ví dụ: Chó, Mèo, Há, ...). Máy tính coi hình Ánh đầu vào mÁng pixel và nó phụ thc vào làđá phân giÁi cÿa hình Ánh. Dựa trên đá phân giÁi hình Ánh, máy tính s¿ ấy H x W x D (H: thChiÃu cao, W: ChiÃu ráng, D: Đá dày). Ví dụ: Hình Ánh là mÁng ma trÁn RGB 6x6x3 (3 ở đây là giá trß RGB).

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

VÃ kỹ tht, mơ hình CNN đß training và kißm tra, mßi hình Ánh đầu vào s¿ chun nó qua 1 lo¿t các lãp tích chÁp vãi các bá lác (Kernals), táng hợp l¿i các lãp đ°ợc kÁt nái đầy đÿ (Full Connected) và áp dụng hàm Softmax đß phân lo¿i đái t°ợng có giá trß xác suất giữa 0 và 1. Hình d°ãi đây là tồn bá ßng CNN đß xā lý hình Ánh đầu vào và phân lo¿lu i các đái t°ợng dựa trên giá trß.

2.2.2 Xây d ng m t m ng neuron tích ch p ự ộ ạ ậ2.2.2.1 L ớp tích ch p (Convolutional Layer) ậ

Tích chÁp là lãp đầu tiên đß trích xuất các đặc tr°ng tÿ hình Ánh đầu vào (Màu sắc). Tích chÁp duy trì mái quan hã giữa các pixel bằng cách tìm hißu các tính năng hình Ánh bằng cách sā dụng các ơ v°¢ng nhß cÿa dữ ãu đầu vào. Nó là 1 phép tốn có 2 đầu vào linh° ma trÁn hình Ánh và 1 bá lác hoặc h¿t nhân.

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

2.2.2.2 Đường vi n (Padding) ề

Đôi khi kernel không phù hợp v i hình ã Ánh đầu vào. Ta có 2 l a ch n: ự á- Chèn thêm các sá 0 vào 4 đ°ång biên c a hình nh (padding). ÿ Á- Cắt bãt hình nh t i nhÁ ¿ ững đißm khơng phù hợp vãi kernel. 2.2.2.3 Bước nhảy (stride)

Stride là sá pixel thay đái trên ma trÁn đầu vào. Khi stride là 1 thì ta di chuy n các ßkernel 1 pixel. Khi stride là 2 thì ta di chun các kernel đi 2 pixel và tiÁp tục nh° Á v y. B°ãc nhÁy đ°ợc thß hiãn nh° hình 2.12.

Hình 2. <b>11 Lßp tích ch¿p ho</b>¿t độ<b>ng vßi stride = 2 </b>

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

17 2.2.2.4 Hàm phi tuyến (ReLU)

ReLU viÁt tắt cÿa Rectified Linear Unit, là 1 hàm phi tuyÁn. Vãi đầu ra là: ƒ (x) = max (0, x). T¿i sao ReLU l¿i quan tráng: ReLU giãi thiãu tính phi tuyÁn trong ConvNet. Vì dữ ãu trong thÁ giãli i mà chúng ta tìm hi ßu là các giá trß tun tính khơng âm.

- Max Pooling - Average Pooling - Sum Pooling

Max pooling lấy phần tā lãn nhất tÿ ma trÁn đái t°ợng, hoặc lấy táng trung bình. Táng tấ Á các phần tā t c trong map gái là sum pooling.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

- KiÁn trúc VGG-16 sâu h¢n, bao gßm 13 layers tích chÁp 2 chiÃu (thay vì 5 so vãi AlexNet) và 3 layers fully connected.

- Lần đầu tiên trong VGG-16 chúng ta xuất hiãn khái niãm vÃ khái tích chÁp (block). Đây là những kiÁn trúc gßm mát tÁp hợp các layers CNN đ°ợc lặp l¿i giáng nhau. KiÁn trúc khái đã khởi ngußn cho mát d¿ng kiÁn trúc hình m¿u rất th°ång gặp ở các m¿ng CNN kß tÿ đó.

- VGG-16 cũng kÁ thÿa l¿i hàm activation ReLU ở AlexNet.

- VGG-16 cũng là kiÁn trúc đầu tiên thay đái thā tự cÿa các block khi xÁp nhiÃu layers CNN + max pooling thay vì xen k¿ ỉ mát layer CNN + max pooling. Các layers chCNN sâu h¢n có thò trớch lỏc c trng tỏt hÂn so vói ch 1 layers CNN.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

2.3.2 VGG-19

Bên c¿nh đó là m¿ng VGG-19, m¿ng VGG-19 là mát m¿ng đ°ợc phát trißn lên tÿ m¿ng VGG-16 vãi các đặc tr°ng c¢ bÁn đ°ợc kÁ ÿa hoàn toàn tÿ VGG-16 nh° các hàm th

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

tính tốn, kiÁn trúc táng quan, & Tuy nhiên m¿ng VGG-19 có khác vãi m¿ng VGG-16 mát chút ở cấu t¿o, cụ thß là m¿ng VGG-19 vãi 19 lãp deep layers nhiÃu h¢n m¿ng VGG16 vãi 16 lãp deep layers là 3 lãp deep layers

2.4.1 Trên tệp huấn luyện

- Resize tất cÁ các Ánh đ°a vào huấn lun vÃ Ánh màu kích th°ãc 64*64. Mßi Ánh s¿ gßm 12228 đặc tr°ng màu sắc.

- TiÁn hành cÁp nhÁt dữ ãu Ánh và nhãn.li

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

21 - Thực hiãn chuyßn ma trÁn Ánh thành mÁng, thực hiãn chuẩn hoá dữ ãu vÃ māli c [0,

- Resize tất cÁ các Ánh đ°a vào huấn luyãn vÃ Ánh màu kích th°ãc 64*64. Mßi Ánh s¿ gßm 12228 đặc tr°ng màu sắc.

</div>