Tải bản đầy đủ (.pdf) (12 trang)

Sinh câu miêu tả cho hình ảnh sử dụng mô hình ngôn ngữ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (640.04 KB, 12 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----*-----

ĐÀO BẢO LINH

SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG
MÔ HÌNH NGÔN NGỮ

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2015


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----*-----

ĐÀO BẢO LINH

SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG
MÔ HÌNH NGÔN NGỮ

Ngành: Công Nghệ Thông Tin
Chuyên ngành: Kỹ Thuật Phần Mềm
Mã số: 60.48.01.03

LUẬN VĂN THẠC SĨ
CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS LÊ ANH CƯỜNG



Hà Nội - 2015


NHẬN XÉT CỦA CÁN BỘ HƢỚNG DẪN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………



LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn tới thầy giáo hướng dẫn, PGS. TS Lê
Anh Cường (University of Enginerring and Technology) người đã trực tiếp
hướng dẫn và tạo điều kiện tốt nhất để tôi hoàn thành luận văn này.
Tôi cũng xin gửi lời cảm ơn tới PGS.TS Yusuke Miyao (National Institute
of Informatics), người đã hướng dẫn và tạo điều kiện cho tôi trong quá trình
nghiên cứu đề tài tại Nhật Bản.
Tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đại
học Công Nghệ, những người đã trực tiếp giảng dạy, hướng dẫn và tạo điều kiện
cho tôi trong quá trình học tập và thực hành ở trường.
Cuối cùng, tôi xin gửi lời cảm ơn tới tất cả các bạn học và gia đình đã ủng
hộ, giúp đỡ tôi trong suốt quá trình tôi thực hiện luận văn này.

Hà Nội, ngày 8 tháng 9 năm 2015
Học viên

Đào Bảo Linh


LỜI CAM ĐOAN

Tôi xin cam đoan luận văn với đề tài “Sinh câu miêu tả cho hình ảnh sử
dụng mô hình ngôn ngữ” là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được
công bố trong bất kỳ một công trình nào khác.
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên
quan ở trong nước và quốc tế.
Trong các nội dung được trình bày trong luận văn, tôi đã thể hiện rõ ràng
và chính xác những gì do tôi đóng góp.

Luận văn này được hoàn thành trong thời gian tôi làm Học viên tại Khoa
Công Nghệ Thông tin, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội.

Học viên

Đào Bảo Linh


MỤC LỤC
Mục lục ................................................................................................................. 1
Danh mục từ viết tắt............................................................................................ 3
Thuật ngữ sử dụng .............................................................................................. 4
Danh mục bảng biểu ........................................................................................... 5
Danh sách hình vẽ ................................................. Error! Bookmark not defined.
MỞ ĐẦU ................................................................ Error! Bookmark not defined.
Chƣơng 1. MÔ TẢ BÀI TOÁN ............................ Error! Bookmark not defined.
1.1. Bài toán và Ý nghĩa .................................... Error! Bookmark not defined.
1.2. Các nghiên cứu liên quan .......................... Error! Bookmark not defined.
1.3. Phạm vi nghiên cứu của luận văn ............. Error! Bookmark not defined.
Chƣơng 2. PHƢƠNG PHÁP ................................ Error! Bookmark not defined.
2.1. Tập văn bản ................................................ Error! Bookmark not defined.
2.1.1. Các loại tập văn bản .......................... Error! Bookmark not defined.
2.1.2. Cấu trúc của tập văn bản ................... Error! Bookmark not defined.
2.1.3. Chú thích (annotation)....................... Error! Bookmark not defined.
2.1.4. Sử dụng tập văn bản .......................... Error! Bookmark not defined.
2.2. Mô hình ngôn ngữ ...................................... Error! Bookmark not defined.
2.2.1. Khái quát ........................................... Error! Bookmark not defined.
2.2.2. Tầm quan trọng của mô hình ngôn ngữ N-gram.... Error! Bookmark
not defined.
2.2.3. Mô hình ngôn ngữ N-gram ............... Error! Bookmark not defined.

2.2.4. Xích Markov ..................................... Error! Bookmark not defined.
2.2.5. Ước lượng xác suất ........................... Error! Bookmark not defined.
2.2.6. Đánh giá mô hình xác suất qua độ hỗn loạn thông tin ............... Error!
Bookmark not defined.
2.3. Thuật toán tìm kiếm................................... Error! Bookmark not defined.
2.3.1. Thuật toán tìm kiếm theo chiều rộng Error! Bookmark not defined.
2.3.2. Thuật toán tìm kiếm theo chiều sâu .. Error! Bookmark not defined.
2.3.3. Thuật toán tìm kiếm theo lựa chọn tốt nhất(Best-first search) .. Error!
Bookmark not defined.
Chƣơng 3. MÔ HÌNH BÀI TOÁN....................... Error! Bookmark not defined.
1


3.1. Tổng quan mô hình .................................... Error! Bookmark not defined.
3.2. Phát hiện đối tƣợng .................................... Error! Bookmark not defined.
3.2.1. Đề cử vùng ........................................ Error! Bookmark not defined.
3.2.2. Trích chọn đặc trưng ......................... Error! Bookmark not defined.
3.3. Sinh câu miêu tả cho đối tƣợng................. Error! Bookmark not defined.
Chƣơng 4. THỰC NGHIỆM ................................ Error! Bookmark not defined.
4.1. Môi trƣờng cài đặt...................................... Error! Bookmark not defined.
4.2. Quá trình thử nghiệm ................................ Error! Bookmark not defined.
4.2.1. Nhận dạng đối tượng ......................... Error! Bookmark not defined.
4.2.2. Tập văn bản huấn luyện .................... Error! Bookmark not defined.
4.2.3. Kết quả hệ thống sinh câu miêu tả .... Error! Bookmark not defined.
KẾT LUẬN ............................................................ Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO .................................................................................. 6
PHỤ LỤC ............................................................... Error! Bookmark not defined.

2



Danh mục từ viết tắt

Ký hiệu viết
tắt

Viết đầy đủ

Ý nghĩa

SVM

support vector machine

Máy hỗ trợ vector

NLP

Natural Language
Processing

Xử lý ngôn ngữ tự nhiên

CNN

Convolutional Neural
Network-CNN

Mạng nơ-ron nhân chập


OWs

Other words

Các từ khác

BFS

Best-first search

Tìm kiếm theo lựa chọn tối
ưu

3


Thuật ngữ sử dụng

Tiếng Anh

Tiếng Việt

Breadth-first search

Tìm kiếm theo chiều rộng

Depth-first search

Tìm kiếm theo chiều sâu


Graph-based segmentation

Phân đoạn ảnh dựa trên đồ thị

Bag-of-words

Tập các từ rời rạc nhau

Dataset

Tập dữ liệu

Computer vision

Thị giác máy

Text Description

Văn bản miêu tả

Corpus

Tập văn bản

Annotation

Chú thích

Perplexity


Độ hỗn loạn thông tin

4


Danh mục bảng biểu
Bảng 2.2-1. Ước lượng xác suất của từ xuất hiện sau cụm từ tương ứng trong tập
văn bản.

5


TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Phạm Thọ Hoàn, Phạm Thị Anh Lê (2011): Giáo trình trí tuệ nhân tạo,
Khoa Công nghệ thông tin, trường Đại học Sư Phạm Hà Nội, tr. 10-31.
2. Đinh Mạnh Tường (2002): Giáo trình trí tuệ nhân tạo: NXB Khoa học
Kỹ thuật, tr. 16-41.
3. Nguyễn Duy Tiến (2000): Các mô hình xác suất và ứng dụng, NXB Đại
học quốc gia Hà Nội, tr. 11-32.
4. Đặng Hùng Thắng (2007): Quá trình ngẫu nhiên và tính toán ngẫu nhiên.
NXB Đại học quốc gia Hà Nội, tr. 5-6.
Tiếng Anh
5. B. Z. Yao, X. Yang, L. Lin, M. W. Lee, and S.-C. Zhu (2010). I2T:
Image Parsing to Text Description. Proceedings of the IEEE , pp. 1485–1508 .
6. Ushiku, Y., Harada, T., Kuniyoshi, Y. (2012): Efficient Image
Annotation for Automatic Sentence Generation, ACM MM.
7. Hao Fang∗. Saurabh Gupta∗. Forrest Iandola∗. Rupesh K. Srivastava∗.
Li Deng. Piotr Dollár†. Jianfeng Gao. (2015): From Captions to Visual
Concepts and Back, Microsoft Research.

8. Stuart J. Russell and Peter Norvig (2009). Artificial Intelligence: A
Modern Approach. 3rd Edition, Prentice Hall, Upper Saddle River, New Jersey.
9. I. Endres and D. Hoiem (2010). Category independent object proposals,
In ECCV.
10. J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders (2013).
Selective search for object recognition, IJCV.
11. Ross Girshick et al. Rich feature hierarchies for accurate object
detection and semantic segmentation, CVPR14.

6


12. H. Harzallah, F. Jurie, and C. Schmid (2009). Combining efficient
object localization and image classification, In ICCV.
13. P. Arbela ́ez, M. Maire, C. Fowlkes, and J. Malik (2011). Contour
detection and hierarchical image segmentation, TPAMI.
14. P. F. Felzenszwalb and D. P. Huttenlocher (2004). Efficient Graph
Based Image Segmentation. IJCV, pp. 167–181.
15. Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi (2011).
Understanding images with natural sentences. ACM Multimedia,ACM, pp. 679682.
16. A. Krizhevsky, I. Sutskever, and G. Hinton (2012). ImageNet
classification with deep convolutional neural networks. In NIPS.
17. Richard Szeliski (2010). Computer Vision: Algorithms and
Applications , Springer, 655-656.
18. Daniel Jurafsky, James H. Martin (2009). Speed and language
processing, 2nd edition, pp. 2.

Website:
19. />20.


/>
7



×