Tải bản đầy đủ (.pdf) (143 trang)

Bài giảng Công nghệ đa phương tiện Multimedia

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (6.91 MB, 143 trang )

Công nghệ đa phương tiện
Tổng quan về môn học
 Multimedia và các khái niệm cơ bản
 Các giải thuật nén dữ liệu dùng trong công nghệ
Multimedia
 Giới thiệu một số kỹ thuật lập trình ứng dụng với
công nghệ Multimedia
 Phát triển ứng dụng với công nghệ Multimedia
2Trần Nguyên Ngọc - 2010
Multimedia là gì?
 Media – phương tiện truyền thông
 Multimedia – tổ hợp các phương tiện truyền thông
 Tại sao cần tổ hợp các phương tiện truyền thông?
 Vấn đề Internet và toàn cầu hóa
3Trần Nguyên Ngọc - 2010
Multimedia bao gồm những nội
dung gì?
1. Văn bản – Text
2. Âm thanh – Audio
3. Ảnh tĩnh – still images
4. Ảnh động – Animation
5. Phim – video
6. Môi trường tương tác – interactivity
7. Truyền tải thông tin – networking
4Trần Nguyên Ngọc - 2010
Các ứng dụng theo nội dung
 Text: Tìm kiếm thông tin (Search), Lọc nội dung (Content
filter), Mã hóa thông tin, OCR…
 Audio: Nén âm thanh (các chuẩn wav, mp3…), Lọc nhiễu,
nhận dạng tiếng nói (speech to text), tổng hợp tiếng nói…
 Ảnh tĩnh: Nén ảnh (các chuẩn bmp, gif, jpeg…), Xử lý ảnh


(image processing), giấu tin trong ảnh, nhận dạng đối
tượng trong ảnh…
 Ảnh động: tạo ảnh động, nén ảnh động…
 Phim: dựng phim, xử lý video, nhận dạng từ video
 Môi trường tương tác: GUI, NUI
 Truyền thông: gửi nhận thông tin qua mạng, một số chuẩn
giao tiếp thông tin, các thiết bị kết nối ngoài (máy đọc thẻ
RFID, BARCODE, IPCamera, CCTV Camera…)
Trần Nguyên Ngọc - 2010 5
Lập trình với Multimedia
 Yêu cầu: xử lý khối lượng thông tin lớn, trong nhiều
trường hợp chương trình ứng dụng phụ thuộc vào
thiết bị, xử lý cùng lúc nhiều dạng thông tin khác
nhau, phục vụ nhiều đối tượng khác nhau.
 Giải pháp: sử dụng các công cụ lập trình mạnh, khai
thác các thư viện sẵn có(Open Source), phát triển và
tối ưu hóa thuật toán phù hợp với thiết thiết bị.
 Các kỹ thuật cần trang bị: OpenMP, MMX/SIMD,
Multithreading, làm việc với tài liệu SDK(software
development kit) và các thư viện lập trình.
Trần Nguyên Ngọc - 2010 6
Các bài tập
 Xây dựng ứng dụng Webcrawler phục vụ cho việc lọc
tin tự động.
 Xây dựng ứng dụng nhận dạng văn bản sử dụng công
nghệ OCR của Microsoft Office.
 Sử dụng thư viện Text to Speech của Microsoft để xây
dựng ứng dụng đọc báo trên mạng.
 Xây dựng ứng dụng đọc báo Vnexpress tự động bằng
tiếng việt.

 Xây dựng ứng dụng hỗ trợ hiển thị thông tin về trận
đấu trên các đoạn Video cho các biên tập viên bóng đá.
Trần Nguyên Ngọc - 2010 7
Các bài tập (tiếp theo)
 Nghiên cứu bộ thư viện OCR Tesseract của Google và
xây dựng ứng dụng xử lý văn bản tiếng việt.
 Xây dựng phần mềm tự động hướng dẫn sử dụng máy
tính bằng việc mô phỏng tương tác của chuột và bàn
phím thông qua hệ thống thông điệp của HĐH
Windows.
 Xây dựng ứng dụng cho phép điều khiển máy tính từ
xa (Remote Desktop)
 Tìm hiểu và nghiên cứu các chuẩn nén video. Viết
chương trình minh họa.
 Xây dựng chương trình hỗ trợ biên tập Karaoke
Trần Nguyên Ngọc - 2010 8
Khai thác thông tin
Information Retrieval
Tài liệu tham khảo

• Christopher D. Manning . An Introduction to
Information Retrieval. 2009 Cambridge UP.
• Ze-Nian Li and Mark S. Drew. Fundamentals of
Multimedia. 2004 Pearson Education.
Information Retrieval là gì?
• Information retrieval (IR) là quá trình tìm kiếm
dữ liệu (thường là tìm dưới dạng một đoạn
văn bản) từ một tập hợp lớn các đối tượng
không có cấu trúc tường minh (thường là text
lưu trữ trong máy tính) nhằm đáp ứng một

nhu cầu về thông tin.
• Data-> information -> knowledge
Thực trạng nhu cầu
Ví dụ hàng ngày
Thực chất google làm gì?
• Gửi đi một yêu cầu (query )?
Nhìn thấy:
/>timedia+c%C3%B3+ngh%C4%A9a+l%C3%A0+g
%C3%AC&oq=multimedia+c%C3%B3+ngh%C4
%A9a+l%C3%A0+g%C3%AC&aq=f&aqi=&aql=
&gs_sm=e&gs_upl=205202l207268l0l15l6l0l0l
0l0l0l0l
Xử lý tiếp theo là gi?
Làm thế nào để máy tính hiểu yêu
cầu?
• Boolean retrieval: thiết kế và cấu trúc dữ liệu
cho một hệ thống thu thập thông tin đơn giản
Quy trình Hoạt động:
1. Xây dựng Boolean model, mô hình logic dùng
để thu thập thông tin.
2. Biểu diễn yêu cầu dưới dạng biểu thức logic
3. Search engine trả về tất cả các tài liệu thỏa
mãn biểu thức logic
Quá trình tìm kiếm
• Multimedia là gì?
Multimedia + là + gì + ?
là=l +a + \
gì=g +I +\
Chỉ số hóa
Vnexpress

IR
book
Forum
IT
Dân
trí
Multimedia
0
1
1
1

0


1
0
1
0

0


1
0
1
1

0


Kho dữ liệu khổng lồ
• Với 1M tài liệu văn bản lưu trữ, mỗi văn bản có
khoảng 1000 từ tách rời
• Suy ra: tổng số 1 tỷ từ tách rời (tính cả trùng
nhau)
• Trung bình k|h|o|ả|n|g| 6 bytes cho một từ
tách rời ra (tính cả dấu cách dấu biểu cảm)
• Suy ra kho dữ liệu khoảng 6GB
• Giả sử chỉ có khoảng 500K từ -> cần lập bảng
thống kê với số lượng:
500000*1000000=5*10^11
Quản lý chỉ số ngược
• Multimedia ->{1,3,177,1000…}
• Là ->{3,177,8000….}
• Gì->{1,5,8,9,198…}
Từ này xuất hiện trong những văn bản có chỉ số
nào?-> cần sắp xếp có thứ tự các chỉ số văn
bản mà từ đó xuất hiện
Vấn đề nảy sinh
• Vấn đề tổ chức đánh chỉ số với kho dữ liệu
lớn.
• Cần bao nhiêu không gian lưu trữ chỉ số và
kho từ điển
• Có thể nén dữ liệu
• Phân loại mức độ “tốt” của thông tin tìm
được, thế nào là giống với yêu cầu tìm kiếm
nhất?
Tìm kiếm
• Tìm Multimedia trong từ điển
• Đưa ra các chỉ số file văn bản (danh sách 1)

chứa từ Multimedia
• Tìm từ là trong từ điển
• Đưa ra các chỉ số file (danh sách 2) chứa từ là
• Tìm điểm chung giữa 2 danh sách 1 &2
Algorithms
Vấn đề cấu trúc dữ liệu text
• HTML (Hyper text markup language)
• XML (Extensible Markup language)
• SIML (Synchronized Multimedia Integration
Language) />HTML
• HTML là chữ viết tắt của Hyper Text Markup Language (Ngôn ngữ hiển thị
siêu văn bản).
• - Một file HTML là một file text bao gồm những tag nhỏ
• - Những tag hiển thị nói cho trình duyệt biết nó phải hiển thị trang đó như
thế nào
• - Một file HTML phải có phần mở rộng là .htm hoặc .html
• - Một file HTML có thể được tạo bởi một trình soạn thảo đơn giản.
• <p>Đây là đoạn văn</p>
<p>Đây là một đoạn văn khác</p>
• Vấn đề của HTML là nó được thiết kế như trong ý nghĩ của con người. Cho
dù thông tin trên HTML không được thể hiện trên một trình duyệt thì
chúng ta vẫn đoán biết
• Con người chúng ta đều có trí thông minh để hiểu được ý nghĩa và mục
đích của hầu hết các văn bản. Tuy nhiên một cỗ máy lại không như thế. Khi
các thẻ trong tài liệu này chỉ cho một trình duyệt cách thể hiện thông tin,
thì bản thân các thẻ lại không chỉ cho trình duyệt thông tin đó là gì
XML
• Lớp XML Extensible Markup Language là một mở
rộng của ngôn ngữ đánh dấu cho các các cấu trúc
tài liệu bất kỳ

• I just got a new pet dog.
• <sentence>
• <person href=" />• just got a new pet
• <animal>dog</animal>.
• </sentence>

×