ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----*-----
ĐÀO BẢO LINH
SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG
MÔ HÌNH NGÔN NGỮ
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Hà Nội - 2015
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-----*-----
ĐÀO BẢO LINH
SINH CÂU MIÊU TẢ CHO HÌNH ẢNH SỬ DỤNG
MÔ HÌNH NGÔN NGỮ
Ngành: Công Nghệ Thông Tin
Chuyên ngành: Kỹ Thuật Phần Mềm
Mã số: 60.48.01.03
LUẬN VĂN THẠC SĨ
CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. TS LÊ ANH CƯỜNG
Hà Nội - 2015
NHẬN XÉT CỦA CÁN BỘ HƢỚNG DẪN
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
……………………………………………………………………………………
LỜI CẢM ƠN
Trước tiên, tôi xin gửi lời cảm ơn tới thầy giáo hướng dẫn, PGS. TS Lê
Anh Cường (University of Enginerring and Technology) người đã trực tiếp
hướng dẫn và tạo điều kiện tốt nhất để tôi hoàn thành luận văn này.
Tôi cũng xin gửi lời cảm ơn tới PGS.TS Yusuke Miyao (National Institute
of Informatics), người đã hướng dẫn và tạo điều kiện cho tôi trong quá trình
nghiên cứu đề tài tại Nhật Bản.
Tôi cũng xin gửi lời cảm ơn chân thành tới các thầy cô giáo trường Đại
học Công Nghệ, những người đã trực tiếp giảng dạy, hướng dẫn và tạo điều kiện
cho tôi trong quá trình học tập và thực hành ở trường.
Cuối cùng, tôi xin gửi lời cảm ơn tới tất cả các bạn học và gia đình đã ủng
hộ, giúp đỡ tôi trong suốt quá trình tôi thực hiện luận văn này.
Hà Nội, ngày 8 tháng 9 năm 2015
Học viên
Đào Bảo Linh
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn với đề tài “Sinh câu miêu tả cho hình ảnh sử
dụng mô hình ngôn ngữ” là công trình nghiên cứu của riêng tôi. Các số liệu, kết
quả được trình bày trong luận văn là hoàn toàn trung thực và chưa từng được
công bố trong bất kỳ một công trình nào khác.
Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên
quan ở trong nước và quốc tế.
Trong các nội dung được trình bày trong luận văn, tôi đã thể hiện rõ ràng
và chính xác những gì do tôi đóng góp.
Luận văn này được hoàn thành trong thời gian tôi làm Học viên tại Khoa
Công Nghệ Thông tin, Trường Đại Học Công Nghệ, Đại Học Quốc Gia Hà Nội.
Học viên
Đào Bảo Linh
MỤC LỤC
Mục lục ................................................................................................................. 1
Danh mục từ viết tắt............................................................................................ 3
Thuật ngữ sử dụng .............................................................................................. 4
Danh mục bảng biểu ........................................................................................... 5
Danh sách hình vẽ ................................................. Error! Bookmark not defined.
MỞ ĐẦU ................................................................ Error! Bookmark not defined.
Chƣơng 1. MÔ TẢ BÀI TOÁN ............................ Error! Bookmark not defined.
1.1. Bài toán và Ý nghĩa .................................... Error! Bookmark not defined.
1.2. Các nghiên cứu liên quan .......................... Error! Bookmark not defined.
1.3. Phạm vi nghiên cứu của luận văn ............. Error! Bookmark not defined.
Chƣơng 2. PHƢƠNG PHÁP ................................ Error! Bookmark not defined.
2.1. Tập văn bản ................................................ Error! Bookmark not defined.
2.1.1. Các loại tập văn bản .......................... Error! Bookmark not defined.
2.1.2. Cấu trúc của tập văn bản ................... Error! Bookmark not defined.
2.1.3. Chú thích (annotation)....................... Error! Bookmark not defined.
2.1.4. Sử dụng tập văn bản .......................... Error! Bookmark not defined.
2.2. Mô hình ngôn ngữ ...................................... Error! Bookmark not defined.
2.2.1. Khái quát ........................................... Error! Bookmark not defined.
2.2.2. Tầm quan trọng của mô hình ngôn ngữ N-gram.... Error! Bookmark
not defined.
2.2.3. Mô hình ngôn ngữ N-gram ............... Error! Bookmark not defined.
2.2.4. Xích Markov ..................................... Error! Bookmark not defined.
2.2.5. Ước lượng xác suất ........................... Error! Bookmark not defined.
2.2.6. Đánh giá mô hình xác suất qua độ hỗn loạn thông tin ............... Error!
Bookmark not defined.
2.3. Thuật toán tìm kiếm................................... Error! Bookmark not defined.
2.3.1. Thuật toán tìm kiếm theo chiều rộng Error! Bookmark not defined.
2.3.2. Thuật toán tìm kiếm theo chiều sâu .. Error! Bookmark not defined.
2.3.3. Thuật toán tìm kiếm theo lựa chọn tốt nhất(Best-first search) .. Error!
Bookmark not defined.
Chƣơng 3. MÔ HÌNH BÀI TOÁN....................... Error! Bookmark not defined.
1
3.1. Tổng quan mô hình .................................... Error! Bookmark not defined.
3.2. Phát hiện đối tƣợng .................................... Error! Bookmark not defined.
3.2.1. Đề cử vùng ........................................ Error! Bookmark not defined.
3.2.2. Trích chọn đặc trưng ......................... Error! Bookmark not defined.
3.3. Sinh câu miêu tả cho đối tƣợng................. Error! Bookmark not defined.
Chƣơng 4. THỰC NGHIỆM ................................ Error! Bookmark not defined.
4.1. Môi trƣờng cài đặt...................................... Error! Bookmark not defined.
4.2. Quá trình thử nghiệm ................................ Error! Bookmark not defined.
4.2.1. Nhận dạng đối tượng ......................... Error! Bookmark not defined.
4.2.2. Tập văn bản huấn luyện .................... Error! Bookmark not defined.
4.2.3. Kết quả hệ thống sinh câu miêu tả .... Error! Bookmark not defined.
KẾT LUẬN ............................................................ Error! Bookmark not defined.
TÀI LIỆU THAM KHẢO .................................................................................. 6
PHỤ LỤC ............................................................... Error! Bookmark not defined.
2
Danh mục từ viết tắt
Ký hiệu viết
tắt
Viết đầy đủ
Ý nghĩa
SVM
support vector machine
Máy hỗ trợ vector
NLP
Natural Language
Processing
Xử lý ngôn ngữ tự nhiên
CNN
Convolutional Neural
Network-CNN
Mạng nơ-ron nhân chập
OWs
Other words
Các từ khác
BFS
Best-first search
Tìm kiếm theo lựa chọn tối
ưu
3
Thuật ngữ sử dụng
Tiếng Anh
Tiếng Việt
Breadth-first search
Tìm kiếm theo chiều rộng
Depth-first search
Tìm kiếm theo chiều sâu
Graph-based segmentation
Phân đoạn ảnh dựa trên đồ thị
Bag-of-words
Tập các từ rời rạc nhau
Dataset
Tập dữ liệu
Computer vision
Thị giác máy
Text Description
Văn bản miêu tả
Corpus
Tập văn bản
Annotation
Chú thích
Perplexity
Độ hỗn loạn thông tin
4
Danh mục bảng biểu
Bảng 2.2-1. Ước lượng xác suất của từ xuất hiện sau cụm từ tương ứng trong tập
văn bản.
5
TÀI LIỆU THAM KHẢO
Tiếng Việt
1. Phạm Thọ Hoàn, Phạm Thị Anh Lê (2011): Giáo trình trí tuệ nhân tạo,
Khoa Công nghệ thông tin, trường Đại học Sư Phạm Hà Nội, tr. 10-31.
2. Đinh Mạnh Tường (2002): Giáo trình trí tuệ nhân tạo: NXB Khoa học
Kỹ thuật, tr. 16-41.
3. Nguyễn Duy Tiến (2000): Các mô hình xác suất và ứng dụng, NXB Đại
học quốc gia Hà Nội, tr. 11-32.
4. Đặng Hùng Thắng (2007): Quá trình ngẫu nhiên và tính toán ngẫu nhiên.
NXB Đại học quốc gia Hà Nội, tr. 5-6.
Tiếng Anh
5. B. Z. Yao, X. Yang, L. Lin, M. W. Lee, and S.-C. Zhu (2010). I2T:
Image Parsing to Text Description. Proceedings of the IEEE , pp. 1485–1508 .
6. Ushiku, Y., Harada, T., Kuniyoshi, Y. (2012): Efficient Image
Annotation for Automatic Sentence Generation, ACM MM.
7. Hao Fang∗. Saurabh Gupta∗. Forrest Iandola∗. Rupesh K. Srivastava∗.
Li Deng. Piotr Dollár†. Jianfeng Gao. (2015): From Captions to Visual
Concepts and Back, Microsoft Research.
8. Stuart J. Russell and Peter Norvig (2009). Artificial Intelligence: A
Modern Approach. 3rd Edition, Prentice Hall, Upper Saddle River, New Jersey.
9. I. Endres and D. Hoiem (2010). Category independent object proposals,
In ECCV.
10. J. Uijlings, K. van de Sande, T. Gevers, and A. Smeulders (2013).
Selective search for object recognition, IJCV.
11. Ross Girshick et al. Rich feature hierarchies for accurate object
detection and semantic segmentation, CVPR14.
6
12. H. Harzallah, F. Jurie, and C. Schmid (2009). Combining efficient
object localization and image classification, In ICCV.
13. P. Arbela ́ez, M. Maire, C. Fowlkes, and J. Malik (2011). Contour
detection and hierarchical image segmentation, TPAMI.
14. P. F. Felzenszwalb and D. P. Huttenlocher (2004). Efficient Graph
Based Image Segmentation. IJCV, pp. 167–181.
15. Yoshitaka Ushiku, Tatsuya Harada, and Yasuo Kuniyoshi (2011).
Understanding images with natural sentences. ACM Multimedia,ACM, pp. 679682.
16. A. Krizhevsky, I. Sutskever, and G. Hinton (2012). ImageNet
classification with deep convolutional neural networks. In NIPS.
17. Richard Szeliski (2010). Computer Vision: Algorithms and
Applications , Springer, 655-656.
18. Daniel Jurafsky, James H. Martin (2009). Speed and language
processing, 2nd edition, pp. 2.
Website:
19. />20.
/>
7