Tải bản đầy đủ (.pdf) (105 trang)

Khóa luận tốt nghiệp tạo mô tả tiếng việt cho ảnh dựa trên tiếp cận học sâu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.55 MB, 105 trang )

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KỸ THUẬT PHẦN MỀM

Nguyễn Trường Khoa Ngun
Phạm Huỳnh Tấn Đạt

KHĨA LUẬN TỐT NGHIỆP

TẠO MƠ TẢ TIẾNG VIỆT CHO ẢNH DỰA
TRÊN TIẾP CẬN HỌC SÂU
Vietnamese Image Captioning based on Deep
Learning approach

KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

TP. HỒ CHÍ MINH, 2021

i


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KỸ THUẬT PHẦN MỀM

Nguyễn Trường Khoa Nguyên - 17520827
Phạm Huỳnh Tấn Đạt - 17520338

KHÓA LUẬN TỐT NGHIỆP

TẠO MÔ TẢ TIẾNG VIỆT CHO ẢNH DỰA


TRÊN TIẾP CẬN HỌC SÂU
Vietnamese Image Captioning based on Deep
Learning approach

KỸ SƯ NGÀNH KỸ THUẬT PHẦN MỀM

GIẢNG VIÊN HƯỚNG DẪN
TS.Huỳnh Ngọc Tín

TP. HỒ CHÍ MINH, 2021

ii


THƠNG TIN HỘI ĐỒNG CHẤM KHĨA LUẬN TỐT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số ……………………
ngày ………………….. của Hiệu trưởng Trường Đại học Công nghệ Thông tin.


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc

CÔNG NGHỆ THÔNG TIN
TP. HCM, ngày…..tháng…..năm……..


NHẬN XÉT KHĨA LUẬN TỐT NGHIỆP
(CỦA CÁN BỘ HƯỚNG DẪN/PHẢN BIỆN)
Tên khóa luận:
TẠO MÔ TẢ TIẾNG VIỆT CHO ẢNH DỰA TRÊN TIẾP CẬN HỌC SÂU
Nhóm SV thực hiện:

Cán bộ hướng dẫn/phản biện:

Nguyễn Trường Khoa Ngun

17520827

Phạm Huỳnh Tấn Đạt

17520338

TS.Huỳnh Ngọc Tín

Đánh giá Khóa luận
1. Về cuốn báo cáo:
Số trang
Số bảng số liệu
Số tài liệu tham khảo

77
4
24

Số chương

Số hình vẽ
Sản phẩm

5
40
1

Một số nhận xét về hình thức cuốn báo cáo:
2. Về nội dung nghiên cứu:
3. Về thái độ làm việc của sinh viên:
Đánh giá chung: Khóa luận đạt/khơng đạt u cầu của một khóa luận tốt nghiệp kỹ sư/, xếp loại
Giỏi/ Khá/ Trung bình
Điểm từng sinh viên:


Nguyễn Trường Khoa Nguyên:………../10
Phạm Huỳnh Tấn Đạt:………../10

Người nhận xét
(Ký tên và ghi rõ họ tên)


ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC

Độc Lập - Tự Do - Hạnh Phúc


CÔNG NGHỆ THÔNG TIN

ĐỀ CƯƠNG CHI TIẾT
TÊN ĐỀ TÀI:
TẠO MÔ TẢ TIẾNG VIỆT CHO ẢNH DỰA TRÊN TIẾP CẬN HỌC SÂU
Cán bộ hướng dẫn: TS. Huỳnh Ngọc Tín
Thời gian thực hiện:Từ ngày 01/03/2021 đến ngày 26/06/2021
Sinh viên thực hiện:
Nguyễn Trường Khoa Nguyên – 17520827
Phạm Huỳnh Tấn Đạt – 17520338
Nội dung đề tài:
1. Đặt vấn đề:
Việc sử dụng các hình ảnh để thể hiện nội dung của một chủ đề đang được
sử dụng phổ rộng rãi không những trên các trang mạng xã hội, báo chí mà cịn
được sử dụng trong các văn bản tài liệu, sách giáo khoa. Bài tốn tạo mơ tả
cho ảnh với mục tiêu là biểu diễn nội dung của bức ảnh thành dạng văn bản
miêu tả đúng các sự vật và hành động trong bức ảnh đầu vào. Các câu mô tả
này sẽ có thể được ứng dụng vào trong việc hỗ trợ các mơ hình học máy khác
nhằm nâng cao tính hiệu quả mà các mơ hình học máy đó đang hướng tới,
đồng thời việc sinh ra câu mô tả cho ảnh cũng có thể làm một phương tiện hỗ
trợ những người khiếm thị trong việc đọc hiểu nội dung của một bức ảnh.
Đã có nhiều nghiên cứu trong việc tự động sinh câu mô tả cho ảnh như:
Retrieval based, Template based, ... Tuy nhiên những nghiên cứu này chỉ
được áp dụng cho tiếng Anh, chưa có nghiên cứu nào được thực hiện nhằm
giải quyết vấn đề cho tiếng Việt. Đề tài với phạm vi xây dựng mơ hình tạo


câu mô tả tiếng Việt mong muốn với một bức hình người dùng đưa vào, mơ
hình sẽ tạo ra câu mô tả tiếng Việt thể hiện lên được nội dung của bức ảnh.
2. Phạm vi đề tài:

2.1 Phạm vi công nghệ:
- Ngơn ngữ lập trình Python
- Framework: Pytorch, Django, Flask
2.2 Phạm vi đối tượng:
- Sinh câu tiếng Việt
- Câu sinh ra chỉ mô tả các sự vật, sự việc, hành động trong ảnh.
3. Phương pháp thực hiện:
3.1 Phương pháp xây dựng tập dữ liệu:
- Sử dụng api google translate có trả phí để dịch bộ dữ liệu tiếng Anh
Flickr30k và MSCOCO có sẵn sau đó review lại chỉnh sửa lỗi, ngữ pháp.
3.2 Phương pháp lập trình:
- Cài đặt mơ hình
- Xây dựng api triển khai mơ hình tạo câu tiếng Việt cho ảnh
4. Nội dung thực hiện:
4.1 Khảo sát các phương pháp:
- Tiến hành khảo sát các phương pháp thường được dùng để giải quyết bài
tốn tạo mơ tả cho ảnh.
- Đánh giá, lựa chọn các phương pháp được khảo sát.
4.2 Tìm hiểu lựa chọn thuật tốn, cơng nghệ:
- Tìm đọc và chọn paper về bài tốn tạo mơ tả cho ảnh phù hợp.
- Đánh giá, kiểm thử với phương pháp đã chọn.
4.3 Xây dựng api tạo mô tả tiếng Việt cho ảnh:
- Tiến hành xây dựng api với dữ liệu đầu vào là một bức ảnh.
- Tiến hành kiểm thử sau khi đã xây dựng xong api.
- Triển khai mơ hình thử với dữ liệu thực tế.


5. Kết quả mong đợi:
-


Xây dựng được mơ hình tạo câu mô tiếng Việt với bức ảnh đầu vào.

Kế hoạch thực hiện:
Nội dung công việc

STT
1

Thời gian dự kiến

Lựa chọn đề tài

8/3/2021 -

Viết mơ tả đề tài

14/3/2021

Tìm hiểu các bài tốn tạo mơ tả cho ảnh
2

Tìm hiểu các kiến thức liên quan đến bài tốn tạo 15/3/2021 câu mơ tả cho ảnh.
28/3/2021

3

Xây dựng dataset tiếng Việt cho bài toán.

29/3/2021 11/4/2021


4

Áp dụng deep learning vào bài tốn để tạo câu mơ 12/4/2021 tả cho hình ảnh.
25/4/2021

5

Điều chỉnh, kiểm thử các hyperparameters để cải 26/4/2021 thiện khả năng học của mơ hình.
9/5/2021

6

Xây dựng giao diện cho bài toán

10/5/2021 23/5/2021

7

8

Kiểm thử và đánh giá hiệu suất.

24/5/2021 -

Fix bug và tăng độ chính xác kết quả

13/6/2021

Viết document. Tối ưu code


14/6/2021 26/6/2021

Xác nhận của CBHD
(Ký tên và ghi rõ họ tên)

TP. HCM, ngày….tháng …..năm 2021
Sinh viên
(Ký tên và ghi rõ họ tên)


LỜI CẢM ƠN

Nhóm xin chân thành cảm ơn tới giảng viên hướng dẫn Huỳnh Ngọc
Tín đã tận tình chỉ dẫn cho chúng em trong quá trình thực hiện đề tài
này. Nhóm cũng xin gửi lời cảm ơn tới anh Trần Văn Tùng - sinh viên
khóa 10, anh Trần Hàm Dương - sinh viên khóa 10 và anh Ngơ Trung
Hiếu - sinh viên khóa 11 trường đại học Cơng nghệ Thơng tin đã góp
ý, giúp đỡ chúng em thực hiện đề tài một cách tốt nhất. Cảm ơn công
ty VCCorp đã cho chúng em cơ hội làm việc trong môi trường thực tế,
hướng dẫn chúng em trong quá trình thực nghiệm và đánh giá thực tế.
Một lần nữa, nhóm xin chân thành cảm ơn.


Mục lục
Mục lục . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

x

Danh sách hình vẽ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xiv
Danh sách bảng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xvii

Danh mục các ký hiệu, thuật ngữ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xviii
Danh mục các chữ viết tắt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xix
TÓM TẮT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

MỞ ĐẦU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

Dẫn nhập . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

3

Mục tiêu đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

4

Nội dung thực hiện . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

Phạm vi đề tài . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

Bố cục báo cáo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5


CHƯƠNG 1. PHÁT BIỂU BÀI TOÁN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.1

Mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

7

1.2

Tạo câu mô tả tiếng Việt cho ảnh . . . . . . . . . . . . . . . . . . .

7

1.3

Phát biểu bài tốn tạo mơ tả cho ảnh . . . . . . . . . . . . . . . .

9

1.4

Khó khăn, thách thức . . . . . . . . . . . . . . . . . . . . . . . . . . 10

x


MỤC LỤC


1.5

Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

CHƯƠNG 2. CÁC NGHIÊN CỨU LIÊN QUAN . . . . . . . . . . . . . . . . . . . . . . . 11
2.1

Mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.2

Giới thiệu ứng dụng tạo mô tả cho ảnh . . . . . . . . . . . . . . . 11

2.3

Tạo mô tả ảnh dựa vào truy xuất . . . . . . . . . . . . . . . . . . . 12

2.4

Tạo mô tả cho ảnh dựa vào biểu mẫu . . . . . . . . . . . . . . . . . 16

2.5

Tạo mô tả cho ảnh dựa vào học sâu . . . . . . . . . . . . . . . . . . 19

2.6

Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22


CHƯƠNG 3. TẠO MÔ TẢ TIẾNG VIỆT CHO ẢNH DỰA TRÊN TIẾP
CẬN HỌC SÂU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.1

Mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3.2

Hướng tiếp cận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.1

Encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

3.2.2

Cơ chế Attention . . . . . . . . . . . . . . . . . . . . . . . . 26

3.2.3

Sử dụng Attention với Decoder . . . . . . . . . . . . . . . . 29

3.3

Tổng quan về bộ dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . 31

3.4

Tiền xử lý . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.5


3.6

3.4.1

Tiền xử lý hình ảnh . . . . . . . . . . . . . . . . . . . . . . 33

3.4.2

Tiền xử lý văn bản . . . . . . . . . . . . . . . . . . . . . . . 33

3.4.3

Mã hóa dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . 34

Xây dựng mơ hình tạo câu mơ tả tiếng Việt cho ảnh . . . . . . . . 35
3.5.1

Xây dựng Encoder . . . . . . . . . . . . . . . . . . . . . . . 35

3.5.2

Xây dựng Decoder . . . . . . . . . . . . . . . . . . . . . . . 36

Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

xi


MỤC LỤC


CHƯƠNG 4. HIỆN THỰC BÀI TOÁN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4.1

Mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.2

Tổng quan hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4.3

Thiết kế API . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.4

Thiết kế giao diện . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.5

4.6

4.4.1

Màn hình ứng dụng tạo câu mơ tả tiếng Việt cho ảnh . . . 42

4.4.2

Hiện thực UI . . . . . . . . . . . . . . . . . . . . . . . . . . 45


Triển khai hệ thống . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.5.1

Cài đặt môi trường Python . . . . . . . . . . . . . . . . . . 46

4.5.2

Cài đặt Django . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.5.3

Cài đặt Pytorch . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.5.4

Cài đặt Flask . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.5.5

Cài đặt thư viện hỗ trợ . . . . . . . . . . . . . . . . . . . . 47

Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48

CHƯƠNG 5. THỰC NGHIỆM, ĐÁNH GIÁ . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
5.1

Mở đầu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.2


Mô tả tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

5.3

Thiết lập thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . 50

5.4

Phương pháp, độ đo . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

5.5

Kết quả thực nghiệm . . . . . . . . . . . . . . . . . . . . . . . . . . 52

5.6

Phân tích lỗi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.7

Nhận định . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.8

Kết luận và hướng phát triển . . . . . . . . . . . . . . . . . . . . . 55
5.8.1

Kết luận . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

xii



MỤC LỤC

5.8.2
5.9

Hướng phát triển . . . . . . . . . . . . . . . . . . . . . . . . 56

Kết chương . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

Kết luận và hướng phát triển. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
Phụ lục. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Word Embedding . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
Convolutional Neural Networks . . . . . . . . . . . . . . . . . . . . . . . 72
Residual Neural Networks . . . . . . . . . . . . . . . . . . . . . . . . . . 73
Long Short-Term Memory . . . . . . . . . . . . . . . . . . . . . . . . . . 75
Bản thảo bài báo khoa học . . . . . . . . . . . . . . . . . . . . . . . . . . 77

xiii


Danh sách hình vẽ

2.1

Minh họa cơ chế tạo mơ tả ảnh dựa vào truy xuất (retrievalbased). Nguồn: . . . . . . . . . . . 13

2.2


Minh họa cơ chế tạo mô tả ảnh dựa vào bộ ba đối tượng. Nguồn:
. . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3

Minh họa cơ chế tạo mô tả ảnh dựa vào biểu mẫu (templatebased) Nguồn: . . . . . . . . . . . . 16

2.4

Minh họa kiến trúc tổng quan của tiếp cận học đa phương thức
(multimodal) Nguồn: . . . . . . . . 19

2.5

Minh họa kiến trúc tổng quan của tiếp cận sử dụng khung mã hóagiải mã (encoder-decoder) Nguồn: />
21

3.1

Bộ phận Encoder . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2

Luồng hoạt động của Encoder . . . . . . . . . . . . . . . . . . . . . 26

3.3

Ví dụ về khả năng tập trung của con người . . . . . . . . . . . . . 27

3.4


Luồng hoạt động của cơ chế Attention

3.5

Kiến trúc tổng quan của LSTM

3.6

Mơ hình sinh câu mô tả tiếng Việt cho ảnh . . . . . . . . . . . . . 31

3.7

Q trình điều chỉnh kích thước của ảnh . . . . . . . . . . . . . . . 33

xiv

. . . . . . . . . . . . . . . 29

. . . . . . . . . . . . . . . . . . . 30


DANH SÁCH HÌNH VẼ

3.8

Q trình chuyển đổi ma trận có kích thước MxN thành một
tensor RxGxB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.9


Loại bỏ các ký tự đặc biệt trong câu . . . . . . . . . . . . . . . . . 34

3.10 Q trình mã hóa dữ liệu . . . . . . . . . . . . . . . . . . . . . . . 35
3.11 Quá trình Beam Search chọn từ với k=2 . . . . . . . . . . . . . . . 36
3.12 Quá trình Beam Search chọn từ với k=2 dựa vào các từ trước . . 37
3.13 Quá trình kết thúc giải mã Beam Search . . . . . . . . . . . . . . . 38
4.1

Kiến trúc tổng quan của mơ hình tạo câu mơ tả tiếng Việt cho ảnh. 40

4.2

Thiết kế API tạo mô tả tiếng Việt cho ảnh. . . . . . . . . . . . . . 41

4.3

Màn hình Demo tạo câu mơ tả tiếng Việt cho ảnh. . . . . . . . . . 42

4.4

Lấy ảnh từ đường dẫn internet. . . . . . . . . . . . . . . . . . . . . 42

4.5

Lấy ảnh bằng việc upload. . . . . . . . . . . . . . . . . . . . . . . . 43

4.6

Submit ảnh tới mơ hình. . . . . . . . . . . . . . . . . . . . . . . . . 43


4.7

Kết quả tạo câu tiếng Việt cho ảnh. . . . . . . . . . . . . . . . . . 44

4.8

Phần ảnh mơ hình tập trung vào. . . . . . . . . . . . . . . . . . . . 45

5.1

Mơ hình mạng tổng quát của Word2Vec. . . . . . . . . . . . . . . . 65

5.2

Ý tưởng thực hiện mơ hình Skip-Gram. . . . . . . . . . . . . . . . 66

5.3

Mơ hình mạng của Skip-Gram. . . . . . . . . . . . . . . . . . . . . 66

5.4

Ý tưởng thực hiện mơ hình CBOW. . . . . . . . . . . . . . . . . . 67

5.5

Mơ hình mạng CBOW. . . . . . . . . . . . . . . . . . . . . . . . . . 67

5.6


One-hot vector . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68

5.7

Ví dụ cách hoạt động mơ hình CBOW . . . . . . . . . . . . . . . . 69

5.8

Ví dụ cách hoạt động mơ hình Skip-Gram . . . . . . . . . . . . . . 70

5.9

Ma trận trọng số sau khi training . . . . . . . . . . . . . . . . . . . 70

xv


DANH SÁCH HÌNH VẼ

5.10 Tính vector từ ma trận trọng số . . . . . . . . . . . . . . . . . . . . 71
5.11 Mơ hình CNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.12 Một khối Residual . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
5.13 Mạng ResNet 101 lớp trích xuất đặc trưng của ảnh . . . . . . . . 75
5.14 Mơ hình Long Short-Term Memory. . . . . . . . . . . . . . . . . . 76

xvi


Danh sách bảng


3.1

Mô tả về tập dữ liệu . . . . . . . . . . . . . . . . . . . . . . . . . . 32

5.1

Bảng phân tích tập dữ liệu Flickr30k tiếng Việt . . . . . . . . . . 50

5.2

Bảng phân tích tập dữ liệu MSCOCO tiếng Việt . . . . . . . . . . 50

5.3

Bảng phân tích bộ dữ liệu tổng hợp . . . . . . . . . . . . . . . . . 50

xvii


Danh mục các ký hiệu, thuật ngữ
Attention

Cơ chế tập trung

xviii


Danh mục các chữ viết tắt
CBOW


Continuous Bag of words

CNN

Convolutional Neural Networks

LSTM

Long Short Term Memory

RNN

Recurrent Neural Network

NLP

Natural Language Processing

xix


TĨM TẮT

Tự động sinh mơ tả cho bức ảnh là bài toán tự động tạo một câu văn
miêu tả các sự vật và hành động của chúng trong bức ảnh đầu vào.
Các câu mô tả được ứng dụng trong việc hỗ trợ các mơ hình máy học
khác nhằm nâng cao tính hiệu quả trong việc xử lý các vấn đề mà các
mơ hình này hướng đến. Tuy nhiên, theo hiểu biết của nhóm nghiên
cứu, việc tự động sinh câu mơ tả cho ảnh chỉ được áp dụng cho tiếng

Anh, chưa có nghiên cứu nào được thực hiện nhằm giải quyết vấn đề
cho tiếng Việt. Nhận thấy tiềm năng của bài toán và với mong muốn
ứng dụng tiếng Việt cho việc tự động sinh câu mơ tả cho ảnh, đề tài
khóa luận này nhóm chúng em đã nghiên cứu là xây dựng một mơ
hình tự động sinh câu tiếng Việt cho ảnh áp dụng kiến trúc Encoder Decoder và cơ chế Attention. Để thực hiện tốt đề tài này, nhóm cũng
đã xây dựng bộ dữ liệu tiếng Việt dựa trên hai tập dữ liệu nổi tiếng
là Flickr30k và MSCOCO. Kết thúc đề tài, nhóm đã thu được các kết
quả sau:
• Học được kiến thức máy học, học sâu và NLP.
• Học được kiến thức về cơ chế Attention.
• Học được kiến thức liên quan bài tốn tự động sinh câu mơ tả.
• Xây dựng bộ dữ liệu tiếng Việt cho bài toán

1


TĨM TẮT

• Xây dựng mơ hình tạo câu mơ tả tiếng Việt cho ảnh.
• Xây dựng cơng cụ tạo câu mơ tả tiếng Việt cho ảnh.
• Viết bản thảo bài báo khoa học: Tự động tạo câu mô tả tiếng Việt

cho ảnh dựa trên phương pháp học sâu và cơ chế Attention (bản
thảo bài báo khoa học sẽ gửi cho một hội thảo chuyên ngành phù
hợp trong thời gian sớm nhất).

2


MỞ ĐẦU


Dẫn nhập
Ngày nay, với sự phát triển của thời đại công nghệ số, chúng ta đang
phải đối đầu với thử thách tiếp nhận, xử lý lượng thông tin khổng lồ với
tốc độ phát triển nhanh chóng. Bên cạnh các cách tiếp cận thơng tin
truyền thống như báo chí, các kênh tin tức truyền thơng thì các trang
mạng là một phương tiện dễ tiếp cận và nổi bật hơn cả trong thời đại
kĩ thuật số 4.0. Các trang mạng này chứa một lượng lớn thông tin bao
gồm rất nhiều văn bản, tuy nhiên, trong những năm trở lại đây, người
dùng ngày càng có xu hướng ưu tiên các dạng thơng tin trực quan như
hình ảnh và đoạn phim. Thế nhưng đối với những người dùng có vấn
đề về thị lực hoặc các vấn đề về đường truyền internet khiến các trang
mạng không thể tải ảnh lên, việc tiếp cận các dạng thơng tin này là
việc rất khó khăn. Vì thế các ứng dụng tự động tạo câu mô tả cho ảnh
ra đời nhằm tóm tắt nội dung của ảnh nhanh chóng. Cùng với sự phát
triển của machine learning và deep learning, bài tốn tự động tạo câu
mơ tả cho ảnh ngày càng được quan tâm và gặt hái được nhiều thành
cơng, tuy nhiên, theo hiểu biết của nhóm chúng em, chủ yếu các mơ
hình máy học chỉ được thiết kế để tạo câu mơ tả tiếng Anh mà chưa
có nghiên cứu được thực hiện để áp dụng bài toán cho tiếng Việt.

3


MỞ ĐẦU

Việc tạo câu mô tả tiếng Việt cho ảnh sẽ giúp người dùng Việt Nam
nắm bắt thông tin của bức ảnh nhanh chóng, kể cả khi trong các trường
hợp gặp vấn đề về đường truyền mạng, việc tải ảnh lên trang mạng là
điều khó khăn. Trên hết, các câu mô tả sẽ kết hợp với các thiết bị hỗ

trợ người khiếm thị để giúp họ tiếp cận với các thông tin trực quan dễ
dàng hơn. Việc sinh câu mô tả sẽ được thực hiện bởi một mơ hình học
máy. Sử dụng các đặc trưng của bức ảnh để tạo câu. Điều này giúp cho
người sử dụng, đặc biệt là người khiếm thị nắm thông tin của bức ảnh
nhanh hơn, đồng thời hỗ trợ các mơ hình máy học khác áp dụng cho
tiếng Việt. Chính vì những điều này đã thơi thúc nhóm chúng em chọn
đề tài này, với mong muốn đóng góp trong các bài tốn máy học khác
và giải quyết chính bài tốn này.

Mục tiêu đề tài
• Tìm hiểu các kiến thức cơ bản trong lĩnh vực học máy.
• Tìm hiểu các kiến thức học sâu.
• Tìm hiểu các kiến thức học sâu ứng dụng trong NLP.
• Tìm hiểu kiến trúc Encoder - Decoder
• Tìm hiểu cơ chế Attention.
• Xây dựng tập dữ liệu tiếng Việt cho bài tốn
• Xây dựng mơ hình tạo mơ tả cho ảnh theo kiến trúc Encoder -

Decoder kết hợp cơ chế Attention.
• Đạt được độ chính xác cao nhất và câu mơ tả sinh ra đáp ứng được

các yêu cầu.

4


MỞ ĐẦU

• Ứng dụng mơ hình trong thực tế.


Nội dung thực hiện
• Tìm hiểu về bài tốn Tự động sinh câu mơ tả cho ảnh và các nghiên

cứu liên quan.
• Tìm hiểu các kiến thức cần thiết và liên quan để phục vụ q trình

nghiên cứu và xây dựng mơ hình.
• Tìm kiếm các tập dữ liệu cho bài tốn
• Xây dựng tập dữ liệu tiếng Việt
• Xây dựng mơ hình tạo câu mơ tả tiếng Việt cho ảnh.
• Đo đạc và đánh giá câu mô tả tiếng Việt sinh ra từ mơ hình.
• Phân tích lỗi và cải thiện kết quả.
• Xây dựng ứng dụng cho mơ hình.

Phạm vi đề tài
• Phạm vi cơng nghệ:

– Ngơn ngữ lập trình: Python.
– Cơng nghệ hỗ trợ: Django, Flask.
• Phạm vi đối tượng:

– Sinh câu mô tả tiếng Việt.
– Câu sinh ra chỉ mô tả các sự vật, sự việc, hành động trong ảnh.

5


MỞ ĐẦU

Bố cục báo cáo

Báo cáo bao gồm 4 chương chính:
• Chương 1. Phát biểu bài tốn: giới thiệu về bài tốn tự động tạo

câu mơ tả tiếng Việt cho ảnh cùng những khó khăn, thách thức khi
giải bài tốn này.
• Chương 2. Các nghiên cứu liên quan: trình bày một số phương pháp

đã được nghiên cứu để giải quyết bài tốn tự động tạo mơ tả cho
ảnh.
• Chương 3. Phương pháp thực hiện: mô tả phương pháp và cách

tiếp cận để giải quyết bài tốn tự động tạo mơ tả tiếng Việt cho
ảnh.
• Chương 4. Hiện thực bài tốn: trình bày chi tiết về các cơng nghệ

sử dụng, các yêu cầu cần đạt để triển khai module tự động tạo mơ
tả tiếng Việt cho ảnh.
• Chương 5. Thực nghiệm và đánh giá: mơ tả dataset thực nghiệm,

trình bày phương pháp thiết lập thực nghiệm, phương pháp đánh
giá và kết luận.
Cuối cùng là phần kết luận tổng kết lại kết quả đạt được cũng như
hướng phát triển.

6


×