Tải bản đầy đủ (.pdf) (69 trang)

Tìm hiểu bài toán mô tả ảnh thời trang

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.73 MB, 69 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT
THÀNH PHỐ HỒ CHÍ MINH

ĐỒ ÁN TỐT NGHIỆP
NGÀNH CƠNG NGHỆ THƠNG TIN

TÌM HIỂU BÀI TỐN MƠ TẢ ẢNH THỜI TRANG

GVHD:NGUYỄN THIÊN BẢO
SVTT: NGUYỄN ĐÌNH LỘC
MSSV:15110243
SVTT:PHẠM QUỐC BẢO
MSSV:15110161

SKL 0 0 5 7 6 2

Tp. Hồ Chí Minh, tháng 7/2019


TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM
KHOA CÔNG NGHỆ THƠNG TIN
BỘ MƠN HỆ THỐNG THƠNG TIN

NGUYỄN ĐÌNH LỘC - 15110243
PHẠM QUỐC BẢO - 15110161

Đề tài:

TÌM HIỂU BÀI TỐN MƠ TẢ ẢNH THỜI TRANG
KHỐ LUẬN TƠT NGHIỆP NGÀNH HỆ THỐNG THƠNG TIN



GIÁO VIÊN HƯỚNG DẪN

TS. NGUYỄN THIÊN BẢO

KHĨA 2015-2019


ĐH SƯ PHẠM KỸ THUẬT TP.HCM
KHOA CNTT
*******

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh Phúc
*******

PHIẾU NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
Họ và tên Sinh viên 1 : Nguyễn Đình Lộc

MSSV 1: 15110243

Họ và tên Sinh viên 2 : Phạm Quốc Bảo

MSSV 2: 15110161

Ngành: Cơng nghệ Thơng tin
Tên đề tài : Tìm hiểu bài tốn mơ tả ảnh thời trang
Họ và tên Giáo viên hướng dẫn : T.S Nguyễn Thiên Bảo
NHẬN XÉT
1. Về nội dung đề tài & khối lượng thực hiện :

Tìm hiểu kiến thức về học sâu, kiến trúc, cách hoạt động, huấn luyện của một số mạng nơ-ron cơ bản.
Tìm hiểu bài tốn mơ tả ảnh thời trang và một số phương pháp giải quyết bài tốn mơ tả ảnh thời.
Xây dựng và huấn luyện một mơ hình cho bài tốn mô tả ảnh thời trang.
Đề xuất các cải tiến cho mơ hình mơ tả ảnh thời trang, hiện thực hố mơ hình và so sánh kết quả với mơ
hình gốc.
2. Ưu điểm :
Nắm được các lý thuyết về học sâu, trình bày được các cơ sở lý thuyết, tốn học một cách chi tiết về mạng
nơ-ron nhân tạo.
Đề xuất cải tiến thành cơng, tăng được độ chính xác cho mơ hình mơ tả ảnh thời trang.
3. Khuyết điểm :
Đề xuất cải tiến vẫn chưa đạt được hiệu quả cao. Mô hình mơ tả ảnh thời trang xây dựng được vẫn chưa
đạt được độ chính xác để có thể ứng dụng trong thực tế.
4. Đề nghị cho bảo vệ hay không ?
5. Đánh giá loại :
6. Điểm :
Tp. Hồ Chí Minh, ngày 16 tháng 7 năm 2019
Giáo viên hướng dẫn
(Ký & ghi rõ họ tên)


ĐH SƯ PHẠM KỸ THUẬT TP.HCM
KHOA CNTT
*******

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh Phúc
*******

PHIẾU NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
Họ và tên Sinh viên 1 : Nguyễn Đình Lộc


MSSV 1: 15110243

Họ và tên Sinh viên 2 : Phạm Quốc Bảo

MSSV 2: 15110161

Ngành: Cơng nghệ Thơng tin
Tên đề tài : Tìm hiểu bài tốn mơ tả ảnh thời trang
Họ và tên Giáo viên phản biện : T.S Nguyễn Thành Sơn
NHẬN XÉT
1. Về nội dung đề tài & khối lượng thực hiện :
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
2. Ưu điểm :
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
3. Khuyết điểm :
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
………………………………………………………………………………………………………………
4. Đề nghị cho bảo vệ hay không ?
5. Đánh giá loại :
6. Điểm :
Tp. Hồ Chí Minh, ngày


tháng

Giáo viên phản biện
(Ký & ghi rõ họ tên)

năm 2019


LỜI CẢM ƠN
Khố luận được hồn thành tại Trường Đại học Sư phạm Kỹ thuật Tp. Hồ Chí Minh.
Trong quá trình làm bài khố luận chúng em đã nhận được rất nhiều sự giúp đỡ để hoàn tất
đề tài.
Trước tiên em xin gửi lời cảm ơn chân thành đến thầy Nguyễn Thiên Bảo đã tận tình
hướng dẫn, truyền đạt kiến thức, kinh nghiệm cho chúng em trong suốt quá trình thực hiện
đề tài.
Xin gửi lời cảm ơn đến quý thầy cô Khoa Công nghệ Thông tin, Trường Đại học Sư
phạm Kỹ thuật Tp. Hồ Chí Minh, những người đã truyền đạt kiến thức quý báu cho chúng
em suốt trong thời gian học tập vừa qua.
Sau cùng xin gửi lời cảm ơn đến gia đình, bạn bè và các bạn sinh viên lớp 151102A
đã luôn động viên, giúp đỡ chúng em trong quá trình nghiên cứu.
Một lần nữa, xin chân thành cảm ơn!


ĐH SƯ PHẠM KỸ THUẬT TP.HCM
KHOA CNTT
*******

CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh Phúc

*******

ĐỀ CƯƠNG TIỂU LUẬN CHUYÊN NGÀNH
Họ và tên Sinh viên 1 : Nguyễn Đình Lộc

MSSV 1: 15110243

Họ và tên Sinh viên 2 : Phạm Quốc Bảo

MSSV 2: 15110161

Thời gian làm luận văn : từ ngày 1 tháng 2 năm 2019, đến ngày 14 tháng 7 năm 2019
Chuyên ngành : Hệ thống thơng tin
Tên luận văn : Tìm hiểu bài tốn mô tả ảnh thời trang
GV hướng dẫn : Nguyễn Thiên Bảo
Nhiệm Vụ Của Luận Văn :
1. Tìm hiểu về bài tốn mơ tả ảnh thời trang
2. Tìm hiểu về học sâu và các mơ hình mạng thần kinh nhân tạo liên quan
3. Tìm hiểu về các phương pháp dùng học sâu để giải quyết bài tốn mơ tả ảnh thời
trang
4. Hiện thực hố mơ hình sử dụng học sâu để giải quyết bài tốn mơ tả ảnh thời
trang, đề xuất cải tiến
5. Kiểm thử mơ hình gốc và mơ hình cải tiến trên cùng một bộ dữ liệu để so sánh
kết quả
Đề cương viết luận văn :
MỤC LỤC
CHƯƠNG 1: MỞ ĐẦU
1.1. Sự cần thiết của đề tài
1.2. Mục đích của đề tài



1.3. Cách tiếp cận và phương pháp nghiên cứu
- Đối tượng nghiên cứu
- Phạm vi nghiên cứu
1.4. Những cơng trình liên quan
1.5. Kết quả dự kiến đạt được
CHƯƠNG 2: GIỚI THIỆU VỀ BÀI TỐN MƠ TẢ ẢNH THỜI TRANG
2.1. Bài tốn mơ tả ảnh thời trang
2.2. Một số mơ hình cho bài tốn mơ tả ảnh thời trang
CHƯƠNG 3: HỌC SÂU
3.1. Giới thiệu về học sâu
3.2. Mạng nơ-ron nhân tạo (ANN)
3.2. Cấu trúc
3.3. Hoạt động
3.4. Phương pháp huấn luyện
3.5. Mạng nơ-ron tích chập (CNN)
3.6. Mạng nơ-ron hồi quy (RNN)
CHƯƠNG 4: HỌC SÂU CHO BÀI TỐN MƠ TẢ ẢNH THỜI TRANG
4.1. Kiến trúc tổng thể của mơ hình học sâu cho bài tốn mơ tả ảnh thời trang
4.2. Bộ mã hố (Encoder)
4.3. Bộ giải mã (Decoder)
4.4. Cơ chế Attention
CHƯƠNG 5: HIỆN THỰC VÀ ĐÁNH GIÁ MƠ HÌNH


5.1. Bộ dữ liệu
5.2. Chi tiết cài đặt
5.3. Kết quả và đánh giá
CHƯƠNG 6: KẾT LUẬN
6.1. Kết quả

6.2. Ưu và nhược điểm
6.3. Hướng phát triển
Tài liệu tham khảo
KẾ HOẠCH THỰC HIỆN
STT
1
2

Thời gian
2/2/2019 đến

Cơng việc
Tìm kiếm tài liệu và nghiên cứu về học

15/3/2019

sâu cơ bản

16/3/2019 đến

Tìm hiểu về cấu trúc, cách hoạt động và

31/3/2019

phương pháp huấn luyện mạng nơ-ron
nhân tạo

3
4
5

6

1/4/2019 đến

Tìm hiểu về mạng nơ-ron tích chập

15/4/2019

(CNN) và mạng nơ-ron hồi quy (RNN)

16/4/2019 đến

Tìm hiểu các phương pháp giải quyết bài

30/4/2019

tốn mô tả ảnh sử dụng học sâu

1/5/2019 đến

Thực nghiệm huấn luyện một mơ hình

8/5/2019

mơ tả ảnh cơ bản

9/5/2019 đến

Tìm kiếm và lựa chọn các bộ dữ liệu về


16/5/2019

thời trang phù hợp cho bài tốn mơ tả
hình ảnh thời trang

7

17/5/2019 đến

Huấn luyện mơ hình mơ tả ảnh trên bộ dữ

24/5/2019

liệu về thời trang

Ghi chú


8
9

25/5/2019 đến

Phân tích kết quả và nghiên cứu phương

14/6/2019

pháp cải tiến cho mơ hình

15/6/2019 đến


Tiến hành huấn luyện mơ hình mô tả ảnh

22/6/2019

thời trang, đánh giá kết quả và chọn ra
mơ hình cho kết quả cao

10

23/6/2019 đến

Hồn thành báo cáo khoá luận tốt nghiệp

15/7/2019

Ngày 15 tháng 7 năm 2019
Người viết đề cương

Ý kiến của giáo viên hướng dẫn
(ký và ghi rõ họ tên)

T.S Nguyễn Thiên Bảo


MỤC LỤC
TÓM TẮT NỘI DUNG ĐỀ TÀI .......................................................................................... 1
CHƯƠNG 1: MỞ ĐẦU........................................................................................................ 2
1.1. SỰ CẦN THIẾT CỦA ĐỀ TÀI .............................................................................. 2
1.2. MỤC ĐÍCH CỦA ĐỀ TÀI ..................................................................................... 2

1.3. CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU..................................... 2
1.4. NHỮNG CƠNG TRÌNH LIÊN QUAN.................................................................. 2
1.5. KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC ........................................................................ 3
CHƯƠNG 2 : GIỚI THIỆU VỀ BÀI TỐN MƠ TẢ ẢNH THỜI TRANG ...................... 4
2.1. BÀI TỐN MƠ TẢ ẢNH THỜI TRANG ............................................................. 4
2.2. MỘT SỐ GIẢI PHÁP CHO BÀI TỐN MƠ TẢ ẢNH THỜI TRANG .............. 5
CHƯƠNG 3: HỌC SÂU ...................................................................................................... 7
3.1. GIỚI THIỆU VỀ HỌC SÂU .................................................................................. 7
3.2. MẠNG NƠ-RON NHÂN TẠO (ANN).................................................................. 7
3.3. CẤU TRÚC ............................................................................................................ 8
3.3.1.

Mạng thần kinh sinh học ........................................................................ 8

3.3.2.

Nơ-ron thần kinh nhân tạo ...................................................................... 8

3.3.3.

Mạng thần kinh nhân tạo ...................................................................... 10

3.4. HOẠT ĐỘNG ....................................................................................................... 12
3.5. PHƯƠNG PHÁP HUẤN LUYỆN ....................................................................... 14
3.5.1.

Hàm mất mát ........................................................................................ 14

3.5.2.


Thuật toán Gradient Desent.................................................................. 15

3.5.3.

Thuật toán lan truyền ngược................................................................. 18

3.6. MẠNG NƠ-RON TÍCH CHẬP (CNN)................................................................ 24
3.7. MẠNG NƠ-RON HỒI QUY (RNN) .................................................................... 28


CHƯƠNG 4 : HỌC SÂU CHO BÀI TỐN MƠ TẢ ẢNH THỜI TRANG ..................... 30
4.1. KIẾN TRÚC TỔNG THỂ CỦA MƠ HÌNH HỌC SÂU CHO BÀI TỐN MƠ
TẢ ẢNH THỜI TRANG ................................................................................................ 30
4.2. BỘ MÃ HÓA (ENCODER) ................................................................................. 31
4.3. BỘ GIẢI MÃ (DECODER).................................................................................. 32
4.4. CƠ CHẾ ATTENTION ........................................................................................ 35
CHƯƠNG 5 : HIỆN THỰC VÀ ĐÁNH GIÁ MƠ HÌNH ................................................. 38
5.1. BỘ DỮ LIỆU ........................................................................................................ 38
5.1.1.

Bộ dữ liệu DeepFashion ....................................................................... 38

5.1.2.

Bộ dữ liệu FashionGen ......................................................................... 39

5.2. CHI TIẾT CÀI ĐẶT ............................................................................................. 41
5.3. KẾT QUẢ VÀ ĐÁNH GIÁ .................................................................................. 42
5.3.1.


Các độ đo sử dụng ................................................................................ 42

CHƯƠNG 6: KẾT LUẬN .................................................................................................. 48
6.1. KẾT QUẢ ............................................................................................................. 48
6.2. ƯU VÀ NHƯỢC ĐIỂM ....................................................................................... 48
6.2.1.

Ưu điểm ................................................................................................ 48

6.2.2.

Nhược điểm .......................................................................................... 48

6.3. HƯỚNG PHÁT TRIỂN ........................................................................................ 48


DANH MỤC HÌNH
Hình 1. Câu mơ tả được tạo ra từ hình ảnh. .................................................................... 4
Hình 2. Cấu trúc một nơ-ron thần kinh. .......................................................................... 8
Hình 3. Nơ-ron nhân tạo. ................................................................................................... 9
Hình 4. Hàm step (bên trái) và hàm sigmoid (bên phải). Lần lượt là đồ thị giá trị của
phương trình (2) và (3). .................................................................................................... 10
Hình 5. Cấu trúc cơ bản của một mạng thần kinh nhân tạo. ....................................... 11
Hình 6. Cấu trúc một mạng thần kinh nhân tạo cơ bản cùng ký hiệu của các tham
số. ........................................................................................................................................ 12
Hình 7. Ví dụ minh họa tính tốn giải thuật feedforward cho mạng thần kinh nhân
tạo trong hình 5. ................................................................................................................ 13
Hình 8. Thuật tốn Gradient Desent. ............................................................................. 15
Hình 9. So sánh giữa Batch Gradient Desent và Stochastic Gradient Desent. ........... 17
Hình 10. Error của từng nơ-ron. ..................................................................................... 18

Hình 11. Kết nối trong lớp convolutional. ...................................................................... 24
Hình 12. Phép tốn convolution. ..................................................................................... 25
Hình 13. Max pooling [21]. .............................................................................................. 27
Hình 14. Kiến trúc một mạng CNN cơ bản. ................................................................... 27
Hình 15. Các kết nối trong RNN tạo thành một vịng lặp. ........................................... 28
Hình 16. Mạng RNN được thể hiện qua từng chu kỳ................................................... 28
Hình 17. Kết quả đầu ra trong mạng RNN phụ thuộc vào những thơng tin trước đó.
............................................................................................................................................ 29
Hình 18. Mơ hình mơ tả ảnh với kiến trúc bộ mã hóa-giải mã [9]. ............................. 30
Hình 19. Hai véc-tơ đầu vào là feature map và hidden state được “nén” theo cùng số
chiều, sau đó hợp nhất để sinh ra các trọng tương ứng với từng đặc tính của hình
ảnh. ..................................................................................................................................... 35
Hình 20. Cơ chế depth attention. .................................................................................... 36
Hình 21. Quần áo được gắn nhẵn với các thuộc tính tương ứng trong bộ dữ liệu
DeepFashion. ..................................................................................................................... 38


Hình 22. Ảnh quần áo ở nhiều góc chụp cùng câu mơ tả trong bộ dữ liệu
FashionGen........................................................................................................................ 39
Hình 23. Phân bố hình ảnh theo loại mặt hàng trong bộ dữ liệu FashionGen. .......... 40
Hình 24. Cấu trúc mạng nơ-ron tích chập Resnet50..................................................... 41
Hình 25. Hình ảnh kèm câu mơ tả được sinh ra từ mơ hình và câu mơ tả của các
chuyên gia thời trang........................................................................................................ 46


DANH MỤC BẢNG
Bảng 1. Kết quả huấn luyện so sánh giữa Soft-attention và mơ hình đề xuất của
chúng tơi. ........................................................................................................................... 46



KÝ HIỆU & CHỮ VIẾT TẮT
ANN: Artifical Neural Network
CNN: Convolutional Neural Network
MLP: Multi-layer Perceptron
RNN: Recurrent Neural Network
BLEU: Bilingual Evaluation Understudy Score
ROUGE: Recall-Oriented Understudy for Gisting Evaluation
CIDEr Consensus-based Image Description Evaluation


TĨM TẮT NỘI DUNG ĐỀ TÀI
Trong nội dung khố luận này trình bày các kiến thức liên quan đến học sâu (Deep
Learning) bao gồm các mạng nơ-ron nhân tạo: mạng nơ-ron tích chập (CNN) được dùng
trong thị giác máy tính (Computer Vision) và mạng nơ-ron hồi quy (RNN) được dùng trong
xử lý ngôn ngữ tự nhiên (Natural language processing), và các phương pháp giải quyết bài
tốn mơ tả ảnh thời trang (Fashion Image Describe) sự dụng kiến trúc bộ mã hố-giải mã
cùng cơ chế Attention. Mục tiêu chính của bài tốn mơ tả ảnh thời trang là sinh ra các câu
mơ tả hình ảnh thời trang bằng ngơn ngữ tự nhiên một cách tự động sử dụng học sâu. Để
làm được việc này, đầu tiên bức ảnh sẽ được xử lý bằng một mạng nơ-ron tích chập và
mạng này sẽ cho ra các véc-tơ mang thông tin của bức ảnh. Véc-tơ này sẽ được áp dụng cơ
chế Attention để xác định các đặc tính hay đối tượng nào quan trọng nhất trong hình ảnh
cần được mơ tả ở mỗi bước sinh từ. Các thơng tin này sau đó sẽ được đưa vào mạng nơ-ron
hồi quy để sinh ra xác suất của từ tiếp theo trong câu mô tả. Để đánh giá câu mơ tả của mơ
hình thì ta cần các độ đo, các độ đo này nói lên sự tương quan giữa ngơn ngữ máy và ngơn
ngữ con người. Chính vì thế chọn được độ đo sao cho phù hợp với bài toán cũng là một vấn
đề quan trọng trong việc đánh giá khả năng ngơn ngữ của máy tính so với con người.

Trang 1



CHƯƠNG 1:
MỞ ĐẦU
1.1. SỰ CẦN THIẾT CỦA ĐỀ TÀI
Mô tả ảnh thời trang là một bài tốn có tính ứng dụng cao. Trong thời kỳ thương mại
điện tử đang phát triển một cách nhanh chóng, số lượng mặt hàng sản phẩm nhiều và thay
đổi nhanh thì việc tạo ra câu mô tả cho sản phẩm một cách trực quanh và chính xác giúp
giảm thiểu chi phí, thời gian cho nhà bàn lẻ, khách hàng nhanh chóng tiếp cận được sản
phẩm mình tìm kiếm, đặc biệt là trong lĩnh vực thời trang gồm quần áo, phụ kiện. Làm sao
để máy tính có thể nhìn vào hình ảnh và thể hiện ra câu mô tả bằng ngôn ngữ tự nhiên của
con người? Địi hỏi phải phải có thuật tốn phù hợp cùng với một dữ liệu khổng lồ và chính
xác, đặc biệt là các nhãn – câu miêu tả bức ảnh, phải phù hợp về nội dung bức ảnh cũng
như về ngữ pháp có trong câu. Nhận thấy tầm quan trọng của bài tốn mơ tả ảnh thời trang,
nhóm em xin chọn đề tài “Mô tả ảnh thời trang” làm đề tài khố luận tốt nghiệp.
1.2. MỤC ĐÍCH CỦA ĐỀ TÀI
Tìm hiểu về bài tốn mơ tả ảnh thời trang, các lý thuyết về học sâu và xây dựng, đề
xuất cải tiến mơ hình mơ tả ảnh thời trang dựa trên các mạng nơ-ron nhân tạo CNN, RNN.
Cài đặt, huấn luyện từ đó đánh giá ưu việt của phương pháp cải tiến trên một bộ dữ liệu
so với các phương pháp trước đây.
1.3. CÁCH TIẾP CẬN VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Cách tiếp cận: Sự dụng các mạng học sâu: mạng nơ-ron tích chập, mạng nơ-ron hồi quy.
Áp dụng cơ chế Attention cho ảnh thời trang.
Phương pháp nghiên cứu lý thuyết: Nghiên cứu các tài liệu, các bài báo có liên quan
đến mơ tả ảnh, cũng như mô tả ảnh thời trang.
Phương pháp nghiên cứu thực nghiệm: Sau khi nghiên cứu lý thuyết, chúng ta sẽ xây
dựng một mơ hình và huấn luyện thử nghiệm trên một bộ dữ liệu. Từ đó đánh giá, so sách
với các mơ hình trước đây và chọn ra mơ hình có kết quả cao.
1.4. NHỮNG CƠNG TRÌNH LIÊN QUAN
Đã có nhiều nghiên cứu trước đây về mơ tả ảnh. Các cách tiếp cận trước đây cho bài tốn
mơ tả ảnh thường giải quyết vấn đề bằng cách sử dụng một hệ thống nhận dạng hình ảnh
kết hợp với hệ thống có khả năng sinh ra các câu theo ngôn ngữ tự nhiên dựa trên các mô

Trang 2


hình học sâu [1]. Nhưng các mơ hình này đã gặp một số vấn đề về ngữ cảnh đó là khơng
thể phân biệt giữa thơng tin chính của hình ảnh và các thông tin phụ không liên quan.
Để giải quyết vấn đề này, mơ hình mơ tả ảnh dựa vào hai mơ-đun bộ mã hóa và giải mã
với hai thành phần chính là mạng nơ-ron tích chập và mạng nơ-ron hồi quy. Q trình mơ
tả bằng cách kết hợp các thuộc tính mạnh nhất của cả hai mạng, mạng nơ-ron tích chập
được sử dụng để trích xuất các thơng tin từ hình ảnh và mạng nơ-ron hồi quy hoạt động
như là một mơ hình ngơn ngữ, tạo ra câu mơ tả từ thơng tin mà nó nhận được. Vì vậy, bằng
cách kết hợp cả hai, chúng ta có thể có được một mơ hình có thể đọc được các thơng tin
trong hình ảnh, sau đó sử dụng thơng tin đó để tạo ra câu mô tả về nội dung của hình ảnh
đó. Nhưng sử dụng phương pháp có một hạn chế. Các thơng tin trong hình ảnh được trích
xuất từ mạng nơ-ron tích chập chứa q nhiều thơng tin làm cho q trình tạo ra câu mơ tả
của mạng nơ-ron hồi quy gặp khó khăn.
Có nhiều cách hiệu quả để cải thiện các mơ hình này là thêm cơ chế attention vào mơ
hình mơ tả ảnh. Ví dụ, [2] đã giới thiệu một mơ hình dựa trên sự chú ý, tự động tìm hiểu
nơi cần mơ tả ở mỗi bước sinh chữ trong câu mô tả.
1.5. KẾT QUẢ DỰ KIẾN ĐẠT ĐƯỢC
Nắm được các lý thuyết về học sâu, hiểu được cơ chế, hoạt động và cách huấn luyện
của một số mạng nơ-ron cơ bản từ đó xây dựng một mơ hình mơ tả ảnh thời trang cơ bản
và đề xuất cải tiến. Huấn luyện và đánh giá mơ hình cải tiến chạy trên cùng một bộ dữ liệu
so với mơ hình trước đây.

Trang 3


CHƯƠNG 2 :
GIỚI THIỆU VỀ BÀI TỐN MƠ TẢ ẢNH THỜI TRANG


2.1. BÀI TỐN MƠ TẢ ẢNH THỜI TRANG
Bài tốn mô tả ảnh thời trang về cơ bản là một phần của bài tốn mơ tả nội dung ảnh nói
chung. Bài tốn mơ tả nội dung ảnh là một lĩnh vực nghiên cứu trong ngành Trí tuệ nhân
tạo địi hỏi một mơ hình thơng minh phải hiểu được nội dung của hình ảnh và diễn tả nội
dung bằng ngơn ngữ tự nhiên. Để hiểu được nội dung, mơ hình phải phát hiện và nhận dạng
được các đối tượng xuất hiện trong hình ảnh. Mơ hình cũng cần hiểu được khung cảnh hoặc
vị trí, các thuộc tính của đối tượng và tương tác giữa chúng. Không những thế, tạo ra các
câu mơ tả nội dung tốt cịn địi hỏi cả sự hiểu biết về cú pháp và ngữ nghĩa của ngôn ngữ
[3].

Hình 1. Câu mơ tả được tạo ra từ hình ảnh.

Hiểu được nội dung của hình ảnh phụ thuộc phần lớn vào kỹ thuật trính xuất thơng tin
từ hình thành ở định dạng thơ sang định dạng mà mơ hình có thể sử dụng được, các thơng
tin này được gọi là features, chúng thường được biểu diễn dưới dạng véc-tơ. Các kỹ thuật
được sử dụng cho mục đích này có thể được chia thành hai loại: (1) Kỹ thuật dựa trên
machine learning truyền thống và (2) Kỹ thuật dựa trên deep learing.
Trong machine learning truyền thống, features được trính xuất từ hình ảnh bằng các kỹ
thuật thủ cơng như Mơ hình nhị phân cục bộ (Local Binary Patterns) [4], Scale-Invariant
Feature Transform [5], Biểu đồ của các lớp định hướng (Histogram of Oriented Gradients)
[6], và sử dụng kết hợp các kỹ thuật này được sử dụng rộng rãi. Trong các kỹ thuật này,
features được trích xuất từ dữ liệu đầu vào. Sau đó, chúng được chuyển đến một mơ hình
Trang 4


phân loại như Support Vector Machines [7] để phân loại các đối tượng. Vì các kỹ thuật thủ
cơng này chỉ phù hợp với các nhiệm vụ có tính đặc thù riêng, nên trích xuất features từ một
tập hợp dữ liệu lớn và đa dạng là không khả thi. Hơn nữa, dữ liệu trong thế giới thực như
hình ảnh, video rất phức tạp và cịn có nhiều cách hiểu ngữ nghĩa khác nhau.
Mặt khác, trong các kỹ thuật dựa trên deep learing, features được học tự động từ dữ liệu

huấn luyện và chúng có thể xử lý một tập hợp lớn các hình ảnh và video. Ví dụ: Mạng
Convolutional Neural Network (CNN) [8] được sử dụng rộng rãi để học features và một
mơ hình phân loại như Softmax được sử dụng để phân loại. CNN thường được theo sau bởi
Recurrent Neural Network (RNN) để tạo ra câu mô tả.
Trong 5 năm gần đây, một số lượng lớn các bài báo viết về chủ đề mô tả ảnh thời trang
với deep learning được xuất bản và được ứng dụng phổ biến. Các thuật tốn deep learning
có thể xử lý các vấn đề phức tạp và đầy thử thách trong bài tốn mơ tả ảnh thời trang khá
tốt. Hơn nữa, sự sẵn có của các tập dữ liệu lớn và mới đã làm cho bài tốn mơ tả nội dung
hình ảnh dựa trên deep learning trở thành một lĩnh vực nghiên cứu thú vị. Trong phạm vi
đề tài, chúng em trình bày chủ yếu tập trung vào bài tốn mơ tả ảnh thời trang dựa trên deep
learning.
2.2. MỘT SỐ GIẢI PHÁP CHO BÀI TỐN MƠ TẢ ẢNH THỜI TRANG
Các phương pháp để giải quyết bài tốn mơ tả ảnh thời trang có thể được chia làm ba
nhóm chính (1) Template-based, (2) Retrieval-based, và (3) Translation-based [9].
Template-based: Phương pháp tiếp cận dựa trên mẫu gồm có các ơ trống với số lượng
cố định tương ứng với một từ trong câu mô tả. Trong các cách tiếp cận này, các đối tượng,
thuộc tính, hành động khác nhau được mơ hình xác định và sau đó các ô trống trong mẫu
được lấp đầy. Các phương pháp dựa trên mẫu có thể tạo ra câu mơ chính xác về mặt ngữ
pháp. Tuy nhiên, các mẫu được xác định trước và khơng thể tạo câu mơ tả có độ dài thay
đổi.
Retrieval-based: Các câu mơ tả có thể được truy hồi từ không gian ảnh và không gian
đa phương thức. Trong các cách tiếp cận dựa trên phương pháp truy hồi, câu mô tả được
lấy từ tập hợp các câu mơ tả hiện có. Các phương pháp này trước tiên tìm các hình ảnh
tương tự nhau về mặt hình ảnh cùng với câu mô tả của chúng từ tập dữ liệu huấn luyện.
Những câu mô này được gọi là các câu mô tả ứng viên. Khi truy vấn câu mô tả nội dung
Trang 5


cho hình ảnh, câu mơ tả phù hợp nhất trong nhóm ứng viên sẽ được chọn [10]. Những
phương pháp này tạo ra câu mô tả khái quát và cú pháp chính xác. Tuy nhiên, chúng khơng

thể tạo câu mơ tả cho từng hình ảnh cụ thể và chính xác về mặt ngữ nghĩa.
Translation-based: Phương pháp phiên dịch có thể tạo ra câu mô tả từ cả không gian
ảnh và không gian đa phương thức. Cách tiếp cận chung của phương pháp này là phân tích
nội dung của hình ảnh trước và sau đó tạo câu mơ tả từ nội dụng phân tích được bằng mơ
hình ngơn ngữ [11]. Các phương pháp này có thể tạo câu mơ tả mới cho từng hình ảnh
chính xác hơn về mặt ngữ nghĩa so với các phương pháp trước đây. Hầu hết các phương
pháp dựa trên deep learning đều áp dụng Translation-based.
Ngồi ra cịn có thể phân loại các phương pháp mơ tả ảnh thời trang dựa trên deep
learning theo các kỹ thuật học khác nhau: học có giám sát (Supervised learning), học tăng
cường (Reinforcement learning), và học không giám sát (Unsupervised learning). Thông
thường câu mơ tả được tạo cho tồn bộ khung cảnh trong hình ảnh. Tuy nhiên, câu mơ tả
cũng có thể được tạo cho các vùng khác nhau trong hình ảnh (Dense captioning) [12]. Các
mơ hình mơ tả ảnh thời trang có thể sử dụng kiến trúc bộ mã hóa-giải mã đơn giản (EncoderDecoder) [13] hoặc kến trúc thành phần (Compositional) [14]. Cịn có các phương pháp sử
dụng cơ chế chú ý (Attention mechanism) [2], dựa trên các khái niệm về ngữ nghĩa
(Semantic concept) [15], và các phương pháp đi theo nhiều hướng khác nhau trong bài tốn
mơ tả hình ảnh. Một số phương pháp cũng có thể tạo ra câu mô tả cho cả đối tượng không
xuất hiện trong tập huấn luyện [16].

Trang 6


CHƯƠNG 3:
HỌC SÂU

3.1. GIỚI THIỆU VỀ HỌC SÂU
Học sâu là một phần của một nhóm các phương pháp học máy rộng hơn dựa trên các
mạng thần kinh nhân tạo. Việc học có thể được giám sát, bán giám sát hoặc khơng giám
sát.
Deep learning là một lớp các thuật tốn học máy mà sử dụng nhiều lớp để trích xuất dần
các tính năng cấp cao hơn từ đầu vào thơ. Ví dụ, trong xử lý hình ảnh, các lớp thấp hơn có

thể xác định các cạnh, trong khi lớp cao hơn có thể xác định các mục có ý nghĩa của con
người như chữ số / chữ cái hoặc khuôn mặt.
Các kiến trúc học sâu như mạng nơ-ron nhân tạo, mạng deep belief, mạng thần kinh tái
phát và mạng thần kinh tích chập đã được áp dụng cho các lĩnh vực bao gồm thị giác máy
tính, nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên, nhận dạng âm thanh, lọc mạng xã hội,
dịch máy, tin sinh học, thiết kế thuốc, phân tích hình ảnh y tế, kiểm tra vật liệu và các
chương trình trị chơi trên bảng, nơi họ đã tạo ra kết quả tương đương và trong một số
trường hợp vượt trội so với các chuyên gia về con người.
3.2. MẠNG NƠ-RON NHÂN TẠO (ANN)
Mạng nơ-ron nhân tạo (ANN) [17] là một hệ thống tính tốn được xây dựng dựa trên ý
tưởng mô phỏng lại hệ thống mạng thần kinh sinh học. Mạng thần kinh nhân tạo được giới
thiệu đầu tiên vào năm 1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học
Walter Pits. Với mong muốn hệ thống có thể “học” (huấn luyện) để giải quyết các vấn đề
như ở con người, hệ thống có thể tự học thơng qua các ví dụ kèm theo đáp án được cung
cấp, hệ thống có thể giải quyết các vấn đề một cách tổng quát mà không cần phải lập trình
riêng cho từng vấn đề khác nhau.
Cụ thể mạng thần kinh nhân tạo là thuật tốn mơ hình hố hàm số, mà với các dữ liệu
cho tương ứng hàm số có thể cho ra dữ liệu đầu ra mong muốn, khơng cần chính xác, chỉ
cần xấp xỉ.

Trang 7


Những năm gần đây, mạng thần kinh nhân tạo xuất hiện và phát triển trong nhiều lĩnh
vực khác nhau như computer vision, speech recognition, machine translation, automatic,
playing video games, medical diagnosis, ...
3.3. CẤU TRÚC
3.3.1. Mạng thần kinh sinh học
Não người bao gồm khoảng 10 tỷ nơ-ron thần kinh, mỗi nơ-ron kết nối với khoảng
10.000 nơ-ron khác tạo thành mạng lưới nơ-ron thần kinh.

Các nơ-ron kết nối với nhau thông qua Axon tới Dendrite của các nơ-ron khác, các mối
kết nối được gọi là Synapse.
Khi nơ-ron nhận được các tín hiệu điện não từ các Dendrite, Nucleus sẽ cộng gộp các tín
hiệu lại và nếu các tính hiệu này vượt qua một ngưỡng nhất định thì nơ-ron sẽ phát đi một
tín hiệu điện não qua Axon đến các nơ-ron khác.

Hình 2. Cấu trúc một nơ-ron thần kinh.

3.3.2. Nơ-ron thần kinh nhân tạo

Trang 8


Mạng thần kinh nhân tạo bao gồm các nơ-ron nhân tạo mô phỏng một phần cầu trúc và
hoạt động của nơ-ron thần kinh.

Hình 3. Nơ-ron nhân tạo.

Nơ-ron nhận dữ liệu qua các đường kết nối, mỗi đường kết nối có một tham số weight
(𝑤 , 𝑤 , 𝑤 ) thể hiện độ quan trọng (ảnh hưởng) của dữ liệu đối với kết quả đầu ra (𝑎).
Các nơ-ron nhân tạo mô phỏng hoạt động tương tự như các nơ-ron sinh học. Các dữ liệu
đầu vào được nhân với weight tương ứng sau đó cộng gộp lại, nếu giá trị thu được vượt q
một ngưỡi quy định (𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 ) thì nơ-ron đó sẽ được kích hoạt, ở đây chúng ta hiểu là
nơ-ron được kích hoạt sẽ cho giá trị đầu ra bằng 1 và ngược lại là 0.

𝑎 =

0

𝑖𝑓 ∑


𝑤 𝑥 ≤ 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑

1

𝑖𝑓 ∑

𝑤 𝑥 > 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑

(1)

Về mặt ý nghĩa, nơ-ron nhân tạo hoạt động như một cỗ máy đưa ra quyết định bằng cách
xem xét các dữ liệu được cho.
Mơ hình trên được gọi là perceptron, được xây dựng vào những năm 1950 và 1960 bởi
nhà khoa học Frank Rosenblatt [4], tuy nhiên mơ hình có một nhược điểm là kết quả đầu
ra của nơ-ron bị giới hạn ở hai giá trị 0 và 1, một thay đổi nhỏ trong các tham số của nơron có thể làm đảo ngược giá trị đầu ra và có thể dẫn đến một sự thay đổi lớn trong mạng
lưới, điều này làm cho quá trình huấn luyện trở nên khơng ổn định.

Trang 9


Phương trình (1) được viết lại để thuật tiện cho q trình tính tốn bằng cách đặt các
tham số weight vào một vec-tơ ngang, các dữ liệu đầu vào vào một vec-tơ cột và chuyển
vế 𝑡ℎ𝑟𝑒𝑠ℎ𝑜𝑙𝑑 thành bias (𝑏).

𝑎 =

0
1


𝑖𝑓 𝑤 ∙ 𝑥 + 𝑏 ≤ 0
𝑖𝑓 𝑤 ∙ 𝑥 + 𝑏 > 0

𝑤 = [𝑤

𝑤

𝑤 ]

𝑥
𝑥= 𝑥
𝑥

(2)

Để khác phục nhược điểm của perceptron hàm sigmoid được áp dụng vào phương trình
(2).

𝑎 = 𝜎(𝑤 ∙ 𝑥 + 𝑏)

(3)

𝜎(𝑧) =

Hàm sigmoid (hay còn gọi là hàm logistic) là một hàm số đặc biệt có giá trị giới hạn
trong khoảng 0 đến 1. Hàm sigmoid cho giá trị càng tiến về 0 khi nhận giá trị âm càng nhỏ
và tiến về 1 với các giá trị dương càng lớn.

Hình 4. Hàm step (bên trái) và hàm sigmoid (bên phải). Lần lượt là đồ thị giá trị
của phương trình (2) và (3).


Từ đồ thị có thể thấy hàm sigmoid là một phiên bản mượt hơn của hàm step, cũng bị giới
hạn trong khoảng 0 và 1 nhưng hàm sigmoid là một hàm số liên tục nên nó cho cả các giá
trị trung gian giữa 0 và 1, vì thế một thay đổi nhỏ trong tham số của nơ-ron chỉ dẫn đến một
thay đổi nhỏ ở kết quả đầu ra, đảm bảo tính ổn định của nơ-ron.
Nơ-ron sử dụng phương trình (3) này được gọi là sigmoid nơ-ron, tuy nhiên ngoài hàm
sigmoid được áp dụng trong phương trình (3) thì cịn có các hàm số đặc biệt khác được sử
dụng và các hàm số này được gọi là hàm activation. Mặc định nơ-ron thần kinh nhân tạo
được hiểu là các nơ-ron thần kinh nhân tạo sử dụng hàm activation.

3.3.3. Mạng thần kinh nhân tạo
Trang 10


×