Tải bản đầy đủ (.pdf) (6 trang)

Ứng dụng tương tác và tăng cường tiện ích trên thiết bị di động sử dụng tìm kiếm và phân đoạn hình ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (779.65 KB, 6 trang )

Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017

Kỷ yếu khoa học

ỨNG DỤNG TƯƠNG TÁC VÀ TĂNG CƯỜNG TIỆN ÍCH TRÊN THIẾT BỊ DI ĐỘNG
SỬ DỤNG TÌM KIẾM VÀ PHÂN ĐOẠN HÌNH ẢNH
Nguyễn Phan Mạnh Hùng*, Đinh Quang Hiếu
Trường Đại học Khoa học Tự nhiên – Đại học Quốc gia Tp. Hồ Chí Minh
*
Tác giả liên hệ:
TÓM TẮT
Khám phá và chia sẻ trải nghiệm từ lâu đã là một trong những nhu cầu thiết yếu của con
người. Từ xa xưa con người đã phát triển và sử dụng những cách thức khác nhau nhằm chia
sẻ trải nghiệm của bản thân như nhật kí hải trình, sách, tranh, ảnh. Sự phát triển bùng nổ của
các thiết bị kĩ thuật số và công nghệ thông tin từ đầu thế kỉ 21 tới nay đã và đang thay đổi
thói quen chia sẻ của con người. Bên cạnh đó, bước tiến mạnh mẽ của các thiết bị di động
giúp chúng ta có thể dễ dàng lưu trữ và chia sẻ những khoảnh khắc bên người thân, bạn bè.
Hàng loạt các ứng dụng cũng được phát triển để kịp thời đáp ứng nhu cầu đó như các trang
mạng xã hội như facebook, twitter, instagram… Nắm bắt được nhu cầu đó nhóm quyết định
nghiên cứu và phát triển ứng dụng trên nền tảng di động kết hợp với việc sử dụng các công
nghệ, kĩ thuật mới bao gồm thực tại tăng cường, phân đoạn đối tượng trong video, tìm kiếm
ảnh nhằm đem lại trải nghiệm độc đáo và hỗ trợ khơng chỉ người dùng cơ bản mà cịn người
dùng là các doanh nghiệm trong việc xây dựng những nội dung số mới lạ, sáng tạo.
Từ khóa: Phân đoạn đối tượng, tìm kiếm kỉ niệm, thực tại tăng cường.
INTERACTIVE APPLICATIONS AND STRENGTHS OF UTILITY ON MOBILE
DEVICE USING SEARCH AND PHOTOGRAPHY DISTRIBUTION
Nguyen Phan Manh Hung*, Đinh Quang Hieu
University of Science – VNU Ho Chi Minh City
*
Corresponding Author:
ABSTRACT


According to recent statistics of the Institute of Mental Health Central, the number of people
with mental health problems is 15-20% of the population in Viet Nam. In the US, the number
of people who are experiencing the phenomenon of mental health disorders in a year is 61.5
million, ie for 4 people, 1 people with the disease. This poses an urgent problem for science,
find solutions and reduce the symptoms of nerve. Galvanic Skin Response Equipment
launched, the aim is determined based on the psychological changes in human skin sweat.
This research focuses on the use OPAMP, sensor circuit design to get the signal "change the
resistance of the skin", then transmit signals to KIT FRDM-KL46Z, for handling and
identification of human emotions. The study focused on KIT Freescale platform with the
processor inside the ARM Cortex M0 +. With psychological state analysis device opens
psychological treatments more effective, device costs a lot cheaper products than overseas.
Keywords: Audience segments, search for memories, enhanced reality.
TỒNG QUAN
Từ xưa đến nay con người ln thích được
khám phá và chia sẻ những trải nghiệm của
mình khi đi du lịch. Cùng với việc các khu
du lịch, trung tâm vui chơi giải trí, khu sinh
thái, các thành phố lớn ngày càng mọc lên
nhiều để phục vụ cho nhu cầu khám phá và
trải nghiệm khiến cho nhu cầu đó ngày càng
tăng cao. Cùng lúc đó, sự phát triển vượt bậc
của cơng nghệ thơng tìn đã mang lại nhiều sự
thay đổi lớn trong trải nghiệm của người du

lịch. Bên cạnh đó, sự phát triển của các thiết
bị kĩ thuật, công nghệ cao như máy ảnh kĩ
thuật số, điện thoại và sự hỗ trợ mạnh mẽ của
các ứng dụng trên nền tảng được phát triển
bởi cộng đồng công nghệ rộng lớn cùng với
các doanh nghiệp đã giúp cho việc chia sẻ

những trải nghiệm trở nên dễ dàng, sáng tạo,
và hứng thú hơn bao giờ hết.
Nắm bắt được nhu cầu này, nhóm quyết định
tập trung vào việc nghiên cứu và phát triển
một hệ thống thông minh trên nền tảng di

147


Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017

động, tận dụng những công nghệ và kĩ thuật
mới như thực tại tăng cường, các thuật toán
hỗ trợ phân đoạn đối tượng trên video, đồng
thời cho phép người dùng tìm kiếm lại những
kĩ niệm cũ bằng hình ảnh.
Lý do nhóm chọn phát triển hệ thống trên
nền tảng di động bởi thiết bị di động, đặc biệt
là điện thoại thông minh ngày càng trở nên
phổ biến. Hơn nữa, điện thoại là thiết bị
khơng thể thiếu trong q trình du lịch nhằm
giúp du khách có thể lưu giữ lại những
khoảnh khắc, kỉ niệm và chia sẻ với mọi
người một cách dễ dàng. Tuy nhiên, hiện nay
có rất nhiều ứng dụng được phát triển nhằm
hỗ trợ du lịch với nhiều tính năng đa dạng.
Tuy vậy, có thể thấy rằng các ứng dụng hiện
nay khá giống nhau và không sở hữu những
đặc trưng cần thiết để có thể thu hút người


Kỷ yếu khoa học

dùng mới. Điều này phần nào làm hạn chế
trải nghiệm của người dùng. Do vậy, nhóm
quyết định nghiên cứu bài tốn phân đoạn
đối tượng trên video và tích hợp giải pháp
này vào ứng dụng nhằm tạo ra nét độc đáo
riêng cho sản phẩm. Chức năng này có thể
giúp người dùng tạo ra những đoạn video độc
đáo dùng để chia sẻ với bạn bè, gia đình,
người thân hay cũng có thể sử dụng để xây
dựng những video quảng cáo mới lạ thu hút
hơn.
Trong bài toán phân đoạn đối tượng trên
video, ta cần phân tách các đối tượng trong
video ra khỏi background. Các đối tượng thu
được có thể sử dụng với nhiều mục đích khác
nhau như để tổng hợp thơng tin và tóm tắt
video, nhận dạng đối tượng, index ảnh cho
search engine,...

Hình 1. Ví dụ về bài tốn phân đoạn trên video
Trong ảnh, các đối tượng, được chỉ định, sẽ tượng được cung cấp bởi người dùng trên
được tách ra khỏi cảnh nền với độ chính xác một hoặc một vài frame như bounding box
ở cấp độ pixel.
hoặc mask của đối tượng. Dựa trên thơng tin
Đề tài của nhóm sẽ tập trung vào 2 vấn đề có được, ta có nhiều cách khác nhau để giải
chính:
quyết bài tốn như xây dựng model để rút
 Nghiên cứu bài toán phân đoạn đối tượng trích và học các đặc trưng của object dựa trên

trên video và đề xuất cải tiến các thuật tốn thơng tin có sẵn và dùng model này để trực
có sẵn để tăng cường độ chính xác và cải tiếp tách đối tượng trong những frame còn
lại.
thiện tốc độ.
các
phương
pháp
 Áp dụng kĩ thuật phân đoạn video để xây Unsupervised:
(Papazoglou
and
Ferrari
2013)
(Ochs
and
dựng ứng dụng sử dụng thơng tin video và
hình ảnh nhằm tạo ra mơi trường trải nghiệm Brox 2011) thuộc nhóm này sẽ sử dung
thông tin nội hàm của video, ảnh để quyết
mới cho khách du lịch.
định đối tượng nào cần được tách khỏi
background. Cụ thể với một video, ta có thể
KIẾN THỨC NỀN TẢNG
xác định được đối tượng cần quan tâm nếu
Phân đoạn đối tượng trên video
Trong bài toán phân đoạn đối tượng trên chúng di chuyển khác hướng với
video, đã có nhiều phương pháp được đề xuất background. Một vài phương pháp khác sử
dụng một model đãđược huấn luyện trước
chủ yếu thuộc hai hướng tiếp cận chính là:
Semisupervised: các phương pháp (Caelles, với các tập dữ liệu khác nhằm phát hiện các
et al. 2017) (Tsai, Yang and Black n.d.) đối tượng quan trọng trong một bức ảnh hay
thuộc nhóm này sẽ tách các đối tượng từ video.

video dựa trên thông tin tăng cường về đối Mỗi hướng tiếp cận có ưu nhược điểm riêng.

148


Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017

Trong hướng tiếp cận đầu, ta có thể kiểm
soát được đối tượng cần theo dõi dễ hơn,
nhưng chi phí cung cấp object mask cũng
khá lớn. Các mơ hình thuộc hướng tiếp cận
sau cần phải phải dựa vào chuyển động của
vật thể để có thể xác định đối tượng cần tách
hoặc phải được huấn luyện trước trên một tập
dữ liệu khác để học khái niệm thế nào là một
vật thể. Do vậy nếu vật thể đứng yên hoặc
không thuộc nhóm các vật thể trong tập dữ

Kỷ yếu khoa học

liệu để huấn luyện thì các mơ hình này sẽ gặp
khó khăn để tách chúng ra khỏi background.
Tuy vậy điểm mạnh của các phương pháp
này là nó có thể tự động rút trích tất cả các
đối tượng nổi bật trong video mà không cần
thông tin tăng cường.
Trong đề tài này nhóm sử dụng và cải tiến
dựa trên nền tảng thuật toán nêu trong
“Video object segmentation via optical flow”
(OFL) thuộc hướng tiếp cận thứ nhất.


Hình 5. Mơ hình thuật tốn OFL
Thuật tốn OFL bao gồm các bước chính:
tới việc mỗi superpixel có thể chứa cả object
Bước 1: Ước lượng vị trí đối tượng trong ảnh lẫn background. Do đố, để tận dụng ưu điểm
dựa vào object mask ở frame trước và optical của 2 hướng tiếp cận, tác giả bài báo OFL đã
flow. Dựa vào optical flow, ta có thể ước xây dựng graphical model sử dụng thơng tin
lượng vị trí tương đối của đối tượng trong hỗn hợp của cả 2 cấp độ, gọi là multi level
frame hiện tại. Nhằm đảm bảo đối tượng nằm graphical model.
trọn trong object mask, tác giả sử dụng phép
𝐸𝑠𝑒𝑔 = 𝜆1 𝐸𝑝𝑖𝑥 (𝑋) + 𝜆2 𝐸𝑠𝑢𝑝 (𝑌)
dilation để mở rộng phạm vi tìm kiếm, gọi là
+ 𝜆3 𝐸𝑝𝑎𝑖𝑟 (𝑋, 𝑌)
𝑀𝑖𝑛𝑖𝑡 . Mask này được tinh chỉnh một lần nữa Bước 3: Dùng graph cut để tách các pixel
dựa trên thông tin về màu sắc và khoảng cách thuộc foreground và background. Graph cut
tương đối của mỗi pixel. Cụ thể, mỗi pixel sẽ được sử dụng để gán nhãn cho từng pixel sao
được đánh giá tiềm năng thông qua hàm sau:
cho hàm lỗi xây dựng ở bước 3 được tối ưu
𝑆𝑡 (𝑥𝑖 ) = 𝐴𝑡 (𝑥𝑖𝑡 ) + 𝐿𝑡 (𝑥𝑖𝑡 , 𝑀𝑖𝑛𝑖𝑡 )
nhất.
Bước 2: Sử dụng multi-level graphical model
𝑀𝑡 = 𝑎𝑟𝑔𝑚𝑖𝑛𝑀 (𝐸𝑠𝑒𝑔 )
để xây dựng hàm đánh giá tiềm năng mỗi Bước 4: Sử dụng kết quả có được để cải
pixel có thuộc object cần tách. OFL đánh giá thiện optical flow. Sau đó optical flow sẽ
tiềm năng mỗi pixel ở 2 cấp độ: pixel và được dùng để cải thiện kết quả segmentation.
superpixel, dựa trên các thông tin về màu Các bước từ 1 tới 4 sẽ được lặp đi lặp lại tới
sắc, vị trí, feature được rút trích từ mạng cho tới khi kết quả phân đoạn đối tượng
CNN, độ thống nhất về tiềm năng giữa pixel không thay đổi đáng kể/hội tụ.
và superpixel chứa nó… Sử dụng thơng tin ở
cấp độ pixel giúp mơ hình có thể được những PHƯƠNG PHÁP ĐỀ XUẤT

chi tiết nhỏ của đối tượng nhưng các thông Cải tiến thuật toán OFL
tin này cũng dễ bị tác động bởi nhiễu có thể Dựa trên nền tảng thuật tốn OFL (Tsai,
do sự thiếu chính xác bởi optical flow. Yang and Black n.d.), nhóm đề xuất 3 hướng
Ngược lại, ở cấp độ superpixel, ta có thể thu cải tiến nhằm tăng độ chính xác cho kết quả:
được nhiều thơng tin hơn khi xét các pixel có Cải tiến 1: Object mask nhận được từ OFL
tính chất tương tự nằm trong vùng lân cận. vẫn gặp một số vấn đề như nhiễu và đường
Tuy vậy, việc tính tốn superpixel có thể biên chưa được rõ ràng. Để giải quyết, nhóm
khơng chính xác do đường biên bị mờ, dẫn tích hợp module contour snapping được đề

149


Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017

xuất trong bài báo OSVOS. Ý tưởng cơ bản
của phương pháp này là ta sẽ phân lớp 1
superpixel thuộc foreground/background thay
vì phân lớp riêng biệt từng pixel. Nhãn của
mỗi superpixel sẽ được quyết định dựa vào
phần trăm pixel thuộc foreground nằm trong

Kỷ yếu khoa học

superpixel ấy. Nhìn chung, kết quả của
contour snapping phụ thuộc khá nhiều vào
kết quả của phương pháp dùng để xây dựng
superpixel. Sau khi kiểm tra, nhóm sử dụng
model được đề xuất trong bài báo (Yang, et
al. 2016).


Hình 3. Ví dụ về kết quả của OFL. Có thể thấy vẫn cịn một số vùng nhỏ trong thân chiếc xe
bus vẫn bị phân loại nhầm là background. Hơn nữa, boundary của xe bus vẫn còn bị răng cưa

Hình 4. Ví dụ về kết quả trước và sau khi thực hiện Contour Snapping. Có thể thấy kết quả
sau khi tinh chỉnh đã loại bỏ được nhiễu và đường biên cũng mượt hơn
Cải tiến 2: Tại bước 2, để xây dựng hàm lỗi đó, nếu vật thể khơng biến đổi q nhiều, ta
E_seg, ta cần tính potential của mỗi pixel dựa có thể tận dụng lại SVM trước đó bởi chúng
trên feature rút trích từ CNN (Ví dụ: VGG). vẫn mang thơng tin hữu ích để đánh giá tiềm
Feature này sẽ được đưa vào SVM được năng mỗi pixel. Vấn đề đặt ra là khi nào thì
huấn luyện từ đầu dựa trên thông tin của ta nên dùng SVM cũ và khi nào cần huấn
frame liền trước. Dựa vào quan sát kết quả luyện một SVM mới. Nhóm đề xuất sử dụng
thực tế, nhóm nhận thấy rằng việc sử dụng kích thước tương đối của đối tượng được
một SVM mới, được huấn luyện từ đầu phát hiện ở frame trước so với kích thước đối
khơng phải ln phù hợp bởi có thể thơng tin tượng trong ground truth. Khi kích thước này
của frame liền trước khơng đủ tốt (bị che dưới một ngưỡng nhất định, ta sẽ dừng việc
khuất, mờ, nhiễu. Ví dụ: Hình 5). Bên cạnh cập nhật SVM.

Hình 5. Ảnh trái là của frame gần nhất, ảnh phải là của một frame trong quá khứ. Có thể thấy,
thơng tin của frame gần nhất về chiếc xe sẽ khơng đầy đủ do bị khói che khuất. Trong khi đó,
ở frame kia, các chi tiết của chiếc xe tương đối rõ, do đó SVM được huấn luyện dựa trên
frame nhiều khả năng đánh giá tốt hơn

150


Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017

Cải tiến 3: Một đối tượng có thể xuất hiện
dưới nhiều góc độ khác nhau. Do đó, việc chỉ
sử dụng 1 SVM trên frame gần nhất mà đối

tượng còn hiển thị rõ ràng như cái tiến trước
là chưa đủ để đánh giá. Ví dụ: khi theo dõi
cùng lúc nhiều người, một người có thể bị
che khuất bởi những người khác, và khi xuất
hiện trở lại người đó quay lưng vào camera.
Do vậy, dù có lưu giữ SVM trước khi người
đó biến mất (quay mặt về camera), ta cũng
không thể nhận ra được người này dựa vào
thông tin học được của SVM đó. Vì vậy,
nhóm quyết định sử dụng SVM được train
trên nhiều frame khác nhau. Kết quả đánh giá
của mỗi pixel là trung bình các kết quả đánh
giá bởi các SVM khác. Hiện thời, nhóm cố
định số lượng SVM cần sử dụng là 5, và cứ
mỗi 2 frame sẽ lưu lại 1 SVM để tránh trùng

Kỷ yếu khoa học

lấp thơng tin. Trong tương lai, để có thể điều
chỉnh số lượng và tần số lưu giữ SVM trong
quá khứ, nhóm dự định sẽ sử dụng thơng tin
về tốc độ chuyển động của vật thể dựa trên
optical flow.
Ứng dụng hỗ trợ du lịch Smart Travel
Dựa trên những nhu cầu thực tế, nhóm xây
dựng ứng dụng hỗ trợ du lịch Smart Travel
với các hướng tiếp cận sau:
Sử dụng thực tại tăng cường để tăng trải
nghiệm du lịch thông qua camera của điện
thoại. Khi người dùng sử dụng camera của

điện thoại để qt xung quanh thì thơng tin
về các địa điểm, quán ăn, nhà hàng,... sẽ
được hiển thị lên màn hình camera của điện
thoại tương ứng với vị trí của địa điểm đó –
VD: Hình 6.

Hình 6. Ví dụ hiển thị thông tin địa điểm dựa trên thực tại tăng cường
Áp dụng visual instance search để xem lại các kỷ niệm trong q khứ, thơng qua đó biết được
mọi người thường làm gì ở địa điểm này, cung cấp cho người dùng một số gợi ý khi đi đến
đây. Thuật toán sử dụng để tìm kiếm các hình ảnh có liên quan được nhắc đến trong bài báo
(Nguyen, et al. 2016) – VD: Hình 7.

Hình 7. Ví dụ sử dụng visual instance search

151


Giải thưởng Sinh viên Nghiên cứu khoa học Euréka lần thứ XIX năm 2017

Sử dụng video segmentation để cung cấp
thêm thông tin cho đối tượng: ứng dụng cho
phép người dùng chọn video, sau đó khoanh
vùng đối tượng cần segmentation và thêm
thơng tin cho đối tượng đó. Khi đó người

Kỷ yếu khoa học

dùng có thể tạo một video hướng dẫn du lịch
hoặc video giới thiệu về một đối tượng bất
kỳ. Điều này giúp tăng trải nghiệm cho mọi

người, cung cấp nhiều thông tin và cung cấp
khả năng tương tác với video - VD: Hình 8.

Hình 8. Ví dụ chức năng khoanh vùng đối tượng
KẾT LUẬN
Kết quả đạt được
Nhóm đã đề xuất và phát triển ứng dụng
Smart Travel dựa trên nên tảng di động nhằm
hỗ trợ người dùng khi đi du lịch, giúp người
dùng đạt được những trải nghiệm thú vị đồng
thời chia sẻ chúng với cộng động một cách
dễ dàng và hấp dẫn.
Ứng dụng cũng nhắm tới đối tượng bao gồm
các đoàn thể, doanh nghiệp mong muốn cung
cấp khách hàng những nội dung số ấn tượng,
mới mẻ, mang tính tương tác cao nhưng
khơng tốn q nhiều chi phí thơng qua việc
ứng dụng các kĩ thuật tìm kiếm và phân đoạn
hình ảnh được sử dụng trong DAVIS

Challenge nhưng đã được thay đổi bổ sung
để phù hợp với thực tế.
Hướng phát triển
Hiện nay, quá trình tạo video tương tác tốn
khá nhiều thời gian, do đó chỉ có thể xử lý
offline. Trong tương lai, nhóm sẽ tìm hiểu và
tối ưu số lượng tham số của mơ hình cho
phép việc xử lý video hiệu quả hơn.
Bên cạnh đó, từ việc áp dụng các nghiên cứu
trên để phát triển ứng dụng Smart Travel,

nhóm hy vọng trong tương lai có thể mở
roongj phạm vi khơng chỉ hỗ trợ du lịch,
quảng cáo mà còn trong các lĩnh vực khác
như giải trí, giáo dục,…

TÀI LIỆU THAM KHẢO
CAELLES, SERGI, KEVIS-KOKITSI MANINIS, JORDI PONT-TUSET, LAURA LEALTAIXÉ, DANIEL CREMERS, AND LUC VAN GOOL. 2017. “One-Shot Video Object
Segmentation.” CVPR.
NGUYEN, VINH-TIEP, KHANH-DUY LE, MINH-TRIET TRAN, AND MORTEN FJELD.
2016. “NowAndThen: A Social Network-Based Photo.” MUM.
OCHS, PETER, AND THOMAS BROX. 2011. “Object segmentation in video: a hierarchical
variational approach for turning point trajectories into dense regions.” ICCV.
PAPAZOGLOU, ANESTIS, AND VITTORIO FERRARI. 2013. “Fast object segmentation
in unconstrained video.” ICCV.
TSAI, YI-HSUAN, MING-HSUAN YANG, AND MICHAEL J. BLACK. N.D. “Video
Segmentation via Object Flow.” CVPR, 2016.
YANG, JIMEI, BRIAN PRICE, SCOTT COHEN, HONGLAK LEE, AND MING-HSUAN
YANG. 2016. “Object Contour Detection with a Fully Convolutional Encoder-Decoder
Network.” CVPR.

152



×