ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
VÀ TRUYỀN THÔNG
NGUYỄN THÙY DƯƠNG
TÌM KIẾM ÂM NHẠC TRÊN CƠ SỞ
NỘI DUNG VÀ ỨNG DỤNG
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên - 2012
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
i
MỤC LỤC
Trang
MỤC LỤC i
LỜI CẢM ƠN ii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iii
MỞ ĐẦU 1
CHƢƠNG I 4
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ÂM THANH 4
1.1. Cơ sở dữ liệu đa phƣơng tiện 4
1.1.1. Một số khái niệm cơ bản 4
1.1.2. Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện (MMDBMS) 5
1.1.3. Truy tìm thông tin 7
1.2. Quá trình chung thiết kế cơ sở dữ liệu âm thanh. 7
1.2.1. Giới thiệu chung về cơ sở dữ liệu âm thanh. 7
1.2.2. Mô hình tổng quát của dữ liệu âm thanh 8
1.2.3. Quá trình chung để phát triển một cơ sở dữ liệu âm thanh 14
CHƢƠNG 2 15
KỸ THUẬT TÌM KIẾM TRONG CƠ SỞ DỮ LIỆU ÂM NHẠC 15
2.1. Kỹ thuật phân loại âm thanh thành âm nhạc, tiếng nói, tiếng động. 16
2.1.1. Âm thanh 16
2.1.2. Đặc trƣng chính của âm thanh 22
2.1.3. Phân lớp âm thanh. 39
2.2. Một số thuật toán trích chọn đặc trƣng âm nhạc. 45
2.2.1. Đặc trƣng của âm nhạc 45
2.2.2. Một số lớp âm nhạc 45
2.2.3. Chỉ số hóa và truy tìm âm nhạc. 49
CHƢƠNG 3. 53
ỨNG DỤNG KỸ THUẬT TÌM KIẾM ÂM NHẠC TRONG GIẢNG DẠY 53
3.1. Cài đặt thử nghiệm hệ thống tìm kiếm âm nhạc 53
3.2. Mô hình hệ thống 54
3.3. Các tham số thực nghiệm 54
3.4. Một số chức năng của chƣơng trình 55
3.5. Kết quả thực nghiệm 56
KẾT LUẬN 57
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
ii
LỜI CẢM ƠN
Để hoàn thành chƣơng trình cao học và viết luận văn này, tôi đã nhận đƣợc
sự hƣớng dẫn, giúp đỡ và góp ý nhiệt tình của quý thầy cô trƣờng Đại học Công
nghệ thông tin - Truyền thông, Đại học Thái Nguyên.
Trƣớc hết, tôi xin chân thành cảm ơn đến quí thầy cô trƣờng Đại học Công
nghệ thông tin - Truyền thông, đặc biệt là những thầy cô đã tận tình dạy bảo cho tôi
suốt thời gian học tập tại trƣờng.
Tôi xin gửi lời biết ơn sâu sắc đến thầy giáo PGS.TS. Đặng Văn Đức ngƣời
đã dành rất nhiều thời gian, tâm huyết và sự tận tình giúp đỡ, hƣớng dẫn cho tôi
trong suốt quá trình nghiên cứu và giúp tôi hoàn thành luận văn này.
Nhân đây, tôi xin chân thành cảm ơn Ban Giám hiệu trƣờng Cao đẳng Văn
hóa nghệ thuật Việt Bắc cùng đồng nghiệp trong Phòng Đào tạo & nghiên cứu khoa
học đã tạo rất nhiều điều kiện để tôi học tập và hoàn thành tốt khóa học.
Đồng thời, tôi cũng xin cảm ơn quí anh, chị và ban lãnh đạo khoa Âm nhạc,
phòng thu thanh của trƣờng cao đẳng Văn hóa nghệ thuật Việt Bắc… đã tạo điều
kiện cho tôi điều tra khảo sát để có dữ liệu viết luận văn.
Mặc dù tôi đã có nhiều cố gắng hoàn thiện luận văn bằng tất cả sự nhiệt tình
và năng lực của mình, tuy nhiên không thể tránh khỏi những thiếu sót, rất mong
nhận đƣợc những đóng góp quí báu của quí thầy cô và các bạn.
Thái Nguyên, ngày tháng năm 2012
Học viên
Nguyễn Thùy Dƣơng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iii
DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
Stt
Ký hiệu
Tên đầy đủ
Ý nghĩa
1
ADC
Analog - to – Digital
Conversion
Chuyển đổi tƣơng tự số hóa
2
ASR
Automatic Speech
Recognition
Tự động nhận dạng tiếng nói
3
API
Application Programming
Interface
Giao diện lập trình ứng dụng
4
DAC
Digital – to – Analog
Conversion
Chuyển đổi số hóa tƣơng tự
5
DBMS
DataBase Management
System
Hệ quản trị cơ sở dữ liệu
6
DCT
Discrete Cosine Transform
Biến đổi cosin rời rạc
7
DFT
Discrete Fourier Transform
Biến đổi Fourier rời rạc
8
HMM
Hidden Markov Model
Mô hình Markov ẩn
9
HZCRR
High Zero- Crossing Rate
Ratio
Tỷ lệ tốc độ vƣợt qua 0 cao
10
IDFT
Inverse Discrete Fourier
Transform
Biến đổi Fourier liên tục
11
IR
Information Retrieval
Truy tìm thông tin
12
MARS
Multimedia Analysis and
Retrieval System
Hệ thống chỉ mục và phân tích
đa phƣơng tiện
13
MIDI
Musical Instrument Digital
Interface
Giao diện số cho nhạc cụ
14
MIRS
Multimedia Indexing and
Retrieval System
Hệ thống chỉ mục và truy tìm
thông tin đa phƣơng tiện
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
iv
15
MMDBMS
MultiMedia DataBase
Management System
Hệ quản trị cơ sở dữ liệu đa
phƣơng tiện
16
ORDBMS
Open relation DataBase
Management System
Hệ quản trị cơ sở dữ quan hệ -
mở rộng
17
SR
Silence Ratio
Tỷ lệ câm
18
SNR
Signal-to-noise ratio
Tỷ lệ nhiễu tín hiệu
19
STFT
Short Time Fourier Transform
Biến đổi Fourier thời gian ngắn
20
ZCR
Zero Crossing Rate
Tốc độ vƣợt qua 0
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
1
MỞ ĐẦU
Nghị quyết Trung ƣơng II khoá VIII đã đặt ra phƣơng châm chiến lƣợc cho
ngành giáo dục là phải: "Đổi mới phƣơng pháp giáo dục đào tạo, khắc phục lối
truyền thụ một chiều, rèn luyện nếp tƣ duy sáng tạo của ngƣời học, từng bƣớc áp
dụng phƣơng pháp tiên tiến và phƣơng tiện hiện đại vào quá trình dạy học". Ứng
dụng công nghệ thông tin vào dạy học đang dần dần đƣợc thực hiện ngày càng
nhiều trên bục giảng. Việc thiết kế giáo án và giảng dạy trên máy tính bằng những
đoạn phim minh hoạ với hình ảnh, âm thanh sống động, bài giảng sẽ thực sự gây sự
chú ý và tạo hứng thú học tập cho học sinh-sinh viên. Trong điều kiện hiện nay tài
liệu dạy âm nhạc bằng sự hỗ trợ của CNTT ở nƣớc ta còn nhiều hạn chế, việc tìm ra
các giải pháp ứng dụng phần mềm CNTT vào dạy học âm nhạc là yêu cầu cần thiết
nhằm góp phần đổi mới phƣơng pháp dạy học cho bộ môn này.
Ứng dụng CNTT trong dạy học Âm nhạc ở các trƣờng Đại học – cao đẳng và
các trƣờng phổ thông là việc làm tất yếu, giúp cho giảng viên, giáo viên âm nhạc
chủ động có những bài soạn mang tính hiện đại và tạo ra đƣợc những tài liệu học
tập, tham khảo phong phú cho sinh viên mang tính trực quan sinh động, tạo đƣợc
hứng thú học tập cho học sinh.
Trên thị trƣờng hiện nay có rất nhiều phần mềm dùng để soạn nhạc, hoà âm,
phối khí thu âm, xử lý, biên tập âm thanh, v.v… Các phần mềm đều có lĩnh vực ứng
dụng nhất định có tính chuyên biệt khá rõ nét nhƣng nhìn chung khi sử dụng đều có
đặc điểm tƣơng đối giống nhau nên việc sử dụng cũng khá dễ dàng. Việc lựa chọn
sử dụng cần phải đáp ứng yêu cầu sau: - Lựa chọn những phần mềm đáp ứng nội
dung bài dạy, tiết dạy. - Có kỹ năng sử dụng và khai thác phần mềm. - Dễ phổ cập,
phù hợp với điều kiện kỹ thuật của địa phƣơng.
Ngày nay, việc chia sẻ các bài hát bản nhạc trên internet đã trở nên phổ biến.
Thực tế đó cũng mở ra một nhu cầu truy cập vào những thƣ viện âm thanh khổng lồ.
Nhu cầu đó đòi hỏi một công nghệ tìm kiếm hiệu quả để tổ chức, sắp xếp, truy tìm
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
2
các nội dung âm thanh, cũng nhƣ có thể xử lý hàng trăm tỷ trang web hỗn độn trên
mạng và các thiết bị lƣu trữ trên các máy tính cá nhân.
Hiện nay, một số hãng tìm kiếm khổng lồ trên mạng nhƣ Yahoo, Google hay
You Tube đang triển khai các hoạt động nghiên cứu theo cách tìm kiếm theo nội
dung thay vì từ khóa. Ngƣời dùng chỉ cần gõ những từ hoặc cụm từ liên quan đến
bài hát và Yahoo sẽ liệt kê một danh sách các file âm thanh, cho phép khách hàng
nghe trực tuyến. Công cụ tìm kiếm âm nhạc này hoạt động dựa trên khả năng đọc
nội dung đƣợc nhúng trong tệp âm thanh, còn đƣợc gọi là metadata, để phân loại kết
quả tìm kiếm.
Trong những năm qua ở Việt Nam, các công cụ tìm kiếm dữ liệu đa phƣơng
tiện, trong đó các công cụ tìm kiếm và nhận dạng dữ liệu âm thanh đã dần đƣợc chú
ý. Ví dụ, phòng nhận dạng và công nghệ tri thức- Viện công nghệ thông tin đã giới
thiệu một số sản phẩm phần mềm có ý nghĩa thực tế rất cao nhƣ: tổng hợp và xử lý
ngôn ngữ tiếng Việt, nghiên cứu và tiếp cận các kỹ thuật mới của công nghệ tổng
hợp và nhận dạng tiếng nói trên thế giới để áp dụng trong hoàn cảnh Việt nam và
âm thanh tiếng Việt, nghiên cứu các phƣơng pháp xử lý tín hiệu số và tín hiệu tiếng
nói, các phƣơng pháp tìm đặc trƣng âm thanh. Các sản phẩm nêu trên đã đáp ứng
đƣợc phần nào nhu cầu tìm kiếm và nhận dạng dữ liệu âm thanh. Tuy nhiên, các
công trình nghiên cứu về tìm kiếm âm thanh theo nội dung vẫn còn hiếm hoặc chƣa
tƣơng xứng với tầm quan trọng của nó trong hiện tại và tƣơng lai. Đặc biệt sử dụng
các phần mềm này cho công việc giảng dạy âm nhạc tại các trƣờng còn chƣa đáp
ứng đƣợc nhu cầu thực tế, thay vì phấn trắng bảng đen truyền thống, giáo viên chỉ
click chuột, vài giây sau trên màn hình hiện ra ngay nội dung, âm thanh của bản
nhạc. Ứng dụng công nghệ thông tin trong dạy học âm nhạc đang dần dần đƣợc
thực hiện ngày càng nhiều trên bục giảng các trƣờng đào tạo nghệ thuật. Nhạc sĩ
Hoàng Lân nhận xét rằng từ trƣớc đến nay, bộ môn âm nhạc ”dạy chay” nhiều, ít lôi
cuốn đƣợc học sinh. Nếu việc ứng dụng CNTT vào trong dạy học đƣợc thực hiện có
hiệu quả trong các trƣờng, sẽ dẫn đến sự thay đổi lớn lao về PPDH nhằm cung cấp
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
3
những tƣ liệu âm nhạc một cách khoa học, phong phú, toàn diện mà còn tác động
tích cực đến thẫm mỹ, đến tƣ duy nhận thức của học sinh…
Mặt khác, việc hiểu biết sâu sắc về âm thanh cũng nhƣ các khái niệm, thuật
toán liên quan sẽ giúp ta ứng dụng và xây dựng các hệ thống tìm kiếm âm thanh phù
hợp, hiệu quả hơn. Xuất phát từ những vấn đề nêu trên, luận văn đã tập trung
nghiên cứu về vấn đề "Tìm kiếm âm nhạc trên cơ sở nội dung và ứng dụng".
Cấu trúc của luận văn nhƣ sau:
Chƣơng 1: Tổng quan về cơ sở dữ liệu âm thanh
Chƣơng 2: Kỹ thuật tìm kiếm cơ sở dữ liệu âm thanh
Chƣơng 3: Ứng dụng kỹ thuật tìm kiếm âm nhạc trong giảng dạy
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
4
CHƢƠNG I
TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU ÂM THANH
Ngày nay, với sự phát triển vƣợt bậc của khoa học kỹ thuật, sự bùng nổ của
dữ liệu đặc biệt là dữ liệu media, nhu cầu thƣởng thức âm nhạc của con ngƣời ngày
càng phong phú, đa dạng dẫn đến một nhu cầu rất thực tế đó là nhu cầu tìm kiếm
thông tin về âm nhạc.
Hầu hết các hệ thống tìm kiếm âm nhạc hiện tại đều dựa trên chỉ mục. Cơ sở
dữ liệu dựa trên chỉ mục bộc lộ nhiều nhƣợc điểm nhƣ: tìm kiếm thông tin không
chính xác, không tìm đƣợc dữ liệu khi ngƣời dùng không nhớ chính xác thông tin
đầu vào, hay chỉ nhớ đƣợc giai điệu, nội dung bài hát.
Tìm kiếm âm nhạc theo nội dung là một lĩnh vực nghiên cứu mới và đƣợc
nhiều nhà nghiên cứu quan tâm. Hiện có một số phƣơng thức đã đƣợc áp dụng tìm
kiếm âm nhạc theo nội dung. Ghias, Logan, Chamberlin và Smith đã đƣa ra phƣơng
thức tƣơng tự và sử dụng đầu vào nhƣ một truy vấn. Trong thí nghiệm vào năm
2001, M.Goto đã thu đƣợc kết quả tốt khi các nhà nghiên cứu tiến hành một cuộc
thử nghiệm tính toán ƣớc lƣợng MAP sử dụng thuật toán EM. Tuy nhiên, theo kết
quả nghiên cứu của Beth Logan thì các phƣơng pháp tìm kiếm âm nhạc theo nội
dung hiện nay vẫn chƣa đảm bảo đƣợc cả độ chính xác và thời gian tính toán, đặc
biệt khi tìm kiếm giai điệu của các bản nhạc
1.1. Cơ sở dữ liệu đa phƣơng tiện.
1.1.1. Một số khái niệm cơ bản
Loại media và Multimedia
Media
Media (tiếng Latin: medius – means, intermediary) là đề cập đến các loại
thông tin hay loại trình diễn thông tin nhƣ dữ liệu văn bản, ảnh, âm thanh và video.
Phân loại media: Có nhiều cách phân loại, nhƣng cách chung nhất là phân
loại trên cơ sở khuôn mẫu (format) vật lý hay các quan hệ media với thời gian. Tài
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
5
liệu này phân lớp media dựa trên cơ sở là chúng có chiều thời gian hay không. Qui
định này dẫn tới hai lớp media: static và dynamic.
Static media: Không có chiều thời gian, nôi dung và ý nghĩa của chúng không
phụ thuộc vào thời gian trình diễn. Media tĩnh bao gồm dữ liệu văn bản, đồ họa.
Dynamic media: Có chiều thời gian, ý nghĩa và độ chính xác của chúng phụ
thuộc vào tốc độ trình diễn. Dynamic media bao gồm annimation, video, audio.
Media động phụ thuộc chặt chẽ vào tốc độ trình diễn. Thí dụ để cảm nhận
chuyển động trơn tru, video phải đƣợc trình chiếu với tốc độ 25 frame/sec (hay
30 frame/sec phụ thuộc vào loại hệ thống video). Tƣơng tự, khi ta play tiếng
nói, âm nhạc, chúng chỉ đƣợc cảm nhận tự nhiên khi đạt đƣợc tốc độ nhất định,
nếu không chúng làm giảm chất lƣợng và ý nghĩa âm thanh. Vì các media này
phải đƣợc trình diễn liên tục và ở tốc độ cố định cho nên chúng còn đƣợc gọi là
media liên tục. Hay còn gọi chúng là media đẳng thời (isochronous media) vì
quan hệ giữa các đơn vị media và thời gian là cố định.
Multimedia
Khái niệm multimedia (tiếng Latin: multus- numerous) đề cập đến tập hợp
các kiểu media sử dụng chung, trong đó ít nhất có một kiểu media không phải là
văn bản (nói cách khác là ít nhất có một media trong đó là ảnh, audio hay video).
Trong tài liệu này sử dụng multimedia nhƣ tính từ: thông tin đa phƣơng tiện, dữ liệu
đa phƣơng tiện, hệ thống đa phƣơng tiện, truyền thông đa phƣơng tiện, ứng dụng đa
phƣơng tiện, Dữ liệu đa phƣơng tiện đề cập đến đại diện các kiểu media khác
nhau mà máy tính có thể đọc đƣợc. Thông tin đa phƣơng tiện đề cập đến thông tin
kiểu media truyền đạt. Đôi khi khái niệm dữ liệu đa phƣơng tiện và thông tin đa
phƣơng tiện sử dụng thay thế cho nhau.
Multimedia hay media item (hay còn gọi object) là thực thể tự trị trong hệ thống chỉ
mục và truy tìm thông tin đa phƣơng tiện (MIRS – Multimedia Indexing and
Retrieval System) mà nó có thể đƣợc truy vấn, tìm kiếm và trình diễn.
1.1.2. Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện (MMDBMS)
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
6
Hệ thống quản trị cơ sở dữ liệu đa phƣơng tiện là hệ thống tổ chức và lƣu giữ
gồm các dữ liệu truyền thống và các loại dữ liệu trừu tƣợng.
Một định nghĩa khác, theo Libor Janek và Goutham Alluri, hệ thống quản trị
cơ sở dữ liệu đa phƣơng tiện là một cơ cấu tổ chức quản lý các kiểu dữ liệu khác
nhau, có khả năng thể hiện trong các định dạng trên một phạm vi các nguồn phƣơng
tiện đa dạng.
Lƣợng dữ liệu đa phƣơng tiện phát sinh theo nhu cầu hiện nay đƣợc lƣu trữ
là một con số khổng lồ. Chỉ riêng với dữ liệu video, ngƣời ta ƣớc tính có khoảng
21264 trạm truyền hình phát 16 giờ hàng ngày, sinh ra khoảng 31 tỉ giờ. Tuy nhiên,
các hệ quản trị cơ sở dữ liệu đã đƣợc sử dụng rộng rãi nhƣ cơ sở dữ liệu quan hệ,
chủ yếu tập trung vào quản lý các tài liệu văn bản thì không đáp ứng đầy đủ đối với
việc quản lý các dữ liệu đa phƣơng tiện, bởi các tính chất cũng nhƣ các yêu cầu đặc
biệt của chúng nhƣ đã nêu ở trên. Do đó, hệ thống quản trị cơ sở dữ liệu đa phƣơng
tiện là sự cần thiết để quản lý dữ liệu đa phƣơng tiện một cách có hiệu quả.
Các đặc trƣng chủ yếu của MMDBMS bao gồm:
Quản lý dữ liệu đa phương tiện đã được lưu trữ: các dữ liệu đa phƣơng
tiện đƣợc lƣu trữ để quản lý gồm cả các thiết bị bên trong và bên ngoài máy tính, ví
dụ dữ liệu lƣu trữ trên CD ROM
Các phương pháp tìm kiếm dựa theo mô tả: ví dụ, ngƣời dùng có thể đƣa
ra một mô tả để tìm kiếm "tiếng chuông điện thoại"
Giao diện người dùng độc lập với thiết bị: ngƣời dùng không cần biết cách
thức lƣu trữ dữ liệu đa phƣơng tiện nhƣ thế nào.
Giao diện người dùng độc lập với các định dạng: các truy vấn dữ liệu đa
phƣơng tiện có thể độc lập với định dạng dữ liệu. Nó cho phép có thể sử dụng các
kỹ thuật lƣu trữ mới mà không cần thay đổi ứng dụng cơ sở dữ liệu hiện có.
Cho phép thực hiện nhiều truy cập dữ liệu đồng thời: dữ liệu đa phƣơng
tiện có thể truy cập đồng thời qua nhiều câu truy vấn khác nhau bởi một số ứng
dụng. Cách truy cập nhất quán nhằm chia sẻ dữ liệu có thể đƣợc thực hiện, và cần
có cơ chế để thỏa mãn việc tránh tạo ra các xung đột.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
7
Quản lý một lượng dữ liệu lớn: hệ thống cần phải có khả năng lƣu trữ và
quản lý lƣợng dữ liệu lớn và thỏa mãn các truy vấn đối với các quan hệ của dữ liệu.
Vấn đề truyền dữ liệu đa phương tiện dựa trên thời gian thực: điều khiển
việc đọc/ghi dữ liệu liên tục phải đƣợc thực hiện dựa trên thời gian thực. Do lƣợng
dữ liệu có thể là rất lớn (ví dụ, truyền video) nên việc truyền dữ liệu có thể tốn
nhiều thời gian và nó còn đòi hỏi phải đƣợc thực hiện một cách chính xác.
1.1.3. Truy tìm thông tin
Truy tìm thông tin- Information Retrieval (IR) là kỹ thuật tìm kiếm thông tin
đƣợc lƣu trữ trên máy tính. Đối với dữ liệu đa phƣơng tiện, việc truy tìm thông tin
hiệu quả là dựa trên tìm kiếm tƣơng tự. Hệ thống lƣu trữ một tập các đối tƣợng đa
phƣơng tiện trong cơ sở dữ liệu. Ngƣời dùng đƣa ra các truy vấn, và hệ thống tìm ra
các đối tƣợng tƣơng tự truy vấn trong cơ sở dữ liệu đã lƣu trữ thỏa mãn yêu cầu của
ngƣời dùng. Truy tìm thông tin trong MMDBMS có một số đặc điểm sau đây:
- Sử dụng một khối lƣợng dữ liệu đặc tả lớn và phức tạp.
- Việc tiếp cận IR chủ yếu dựa trên các đặc trƣng.
- Các dữ liệu thƣờng có kích thƣớc lớn.
- Sự cần thiết phải có các kỹ thuật chỉ mục dữ liệu kích thƣớc lớn để xử lý
các truy vấn một cách hiệu quả và thực hiện nhanh hơn so với phƣơng pháp tìm
kiếm tuần tự.
- Sự cần thiết phải tích hợp các đặc trƣng media phức tạp một cách thƣờng
xuyên (ví dụ, dữ liệu ảnh có thể chứa các đặc trƣng nhƣ: hình dạng, biểu đồ màu,
kết cấu ).
1.2. Quá trình chung thiết kế cơ sở dữ liệu âm thanh.
1.2.1. Giới thiệu chung về cơ sở dữ liệu âm thanh.
Các tín hiệu âm thanh là loại hàm phân tích liên tục. Chúng ta sẽ khảo sát việc
nén dữ liệu âm thanh thành biểu diễn rời rạc và chỉ số hoá nội dung của chúng.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
8
Các dữ liệu âm thanh thông thƣờng là dạng sóng liên tục, việc rời rạc hóa chúng
đƣợc thực hiện bằng biến đổi (transformations) nhƣ biến đổi cosin rời rạc một chiều
(DCT) và biến đổi Fourier rời rạc.
Mặc dù dữ liệu âm thanh đã đƣợc đề cập đến từ lâu trên thiết bị ghi từ. Nhƣng
việc nghiên cứu CSDL âm thanh lại ít đƣợc quan tâm trƣớc đây. Dù sao, dữ liệu âm
thanh đóng vai trò quan trọng trong nhiều lĩnh vực ứng dụng khác nhau. Thí dụ:
Những điều tra viên có thể theo dõi điện thoại của các tội phạm khác nhau, họ
đƣợc phép nghe trộm điện thoại của những kẻ tình nghi bán ma tuý và quan tâm đến
việc nhận dạng ngƣời gọi điện thoại, việc xâm nhập kho âm thanh để nhận ra giọng
nói của ai đó là rất hiệu quả. Sau đó họ yêu cầu mọi clip âm thanh mà chứa giọng
nói tƣơng tự với giọng nói đang nghe phải đƣợc khai thác từ kho dữ liệu.
1.2.2. Mô hình tổng quát của dữ liệu âm thanh
Tƣơng tự dữ liệu ảnh và dữ liệu video, dữ liệu âm thanh đƣợc đặc trƣng bởi hai
cách cơ bản: sử dụng metadata để diễn giải nội dung tệp âm thanh hay tách đặc
trƣng thích hợp của dữ liệu âm thanh nhờ kỹ thuật xử lý tín hiệu. Chúng ta sẽ khảo
sát tổng quan cả hai kỹ thuật này.
Biểu diễn nội dung âm thanh bằng metadata
Hãy xem xét tệp âm thanh đơn giản chứa nhạc kịch Wagnerian. Tƣơng tự nhƣ dữ
liệu video, trong trƣờng hợp này ta kết hợp tập các đoạn thẳng (mỗi chúng tƣơng
ứng với khoảng thời gian) bao trùm toàn bộ nhạc kịch, và ta có thể kết hợp mỗi
đoạn thẳng với tập các hoạt động xảy ra trong khoảng thời gian do các đoạn thẳng
này biểu thị.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
9
Hình 1.1
Thí dụ trong hình 1.1 chỉ ra các đoạn thẳng kết hợp với một phần của opera. Tại
đây, activity1 là Act 1 của nhạc kịch, activity2 là Act 1, Scene1, của nhạc kịch.
Mỗi hoạt động có thể có một tập trƣờng kết hợp. Thí dụ nhƣ sau:
1. Singers: Nó có thể là tập trƣờng giá trị chứa các bản ghi có các trƣờng Role,
SingerType và SingerName. Thí dụ, nếu bộ ba (Lohengrin, Tenor, Rene
Kollo) xuất hiện nhƣ phần tử của tập trƣờng giá trị Singers kết hợp với đoạn
[5, 9) thì Rene Kollo, có giọng nam cao (tenor), đang hát trong vai của
Lohengrin trong khoảng thời gian [5, 9) của nhạc kịch.
2. Score: Nó là trƣờng có kiểu music_doc trỏ tới phần của vết nhạc phù hợp, kết
hợp với đoạn thời gian [5, 9).
3. Transcript: Nó có thể là trƣờng của kiểu document trỏ tới phần phù hợp của
lời nhạc kịch (lời đang hát) trong khoảng thời gian [5, 9).
Tổng quát thì metadata đƣợc sử dụng để biểu diễn nội dung âm thanh đƣợc
xem nhƣ tập các đối tƣợng trải dài theo đƣờng thời gian, tƣơng tự video. Các đối
tƣợng, đặc trƣng và hoạt động xảy ra trong âm thanh hoàn toàn tƣơng tự nhƣ trong
video. Sự khác biệt ở chỗ, âm thanh để nghe, còn video để cả nghe và nhìn. Nhƣ
activit
y1
15
0
50
10
0
(ii) H
ì
n
h
2
.
1
activit
y2
activit
y3
200
activit
y4
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
10
vậy, chúng ta có thể chỉ số hóa metadata kết hợp với âm thanh theo cách tƣơng tự
cách chỉ số hoá video, và kỹ thuật xử lý truy vấn video cũng đƣợc sử dụng lại ở đây.
Phần lớn CSDL âm thanh đang tồn tại sử dụng lƣợc đồ chỉ số hoá trên cơ sở
metadata.
Nội dung âm thanh trên cơ sở tín hiệu
Sử dụng metadata là tin cậy và đƣợc khuyến cáo khi có cách tạo ra metadata.
Thí dụ, nếu ta tạo ra CSDL âm thanh của đài phát thanh hay ghi âm nhạc, thì hầu
nhƣ không có vấn đề khi tạo ra metadata. Tuy nhiên, trong ứng dụng khác, nhƣ
cảnh sát nghe trộm điện thoại của kẻ tình nghi bán ma tuý, việc tạo metadata sẽ
phức tạp hơn bởi vì nhận danh của ngƣời nói có thể không đƣợc biết trƣớc, thậm chí
nội dung của hội thoại có thể không rõ ràng (nếu có sử dụng thiết bị trộn âm). Trong
trƣờng hợp nhƣ vậy, quan niệm về nội dung đƣợc mô tả bằng khái niệm của các
phƣơng pháp xử lý tín hiệu. Dữ liệu âm thanh đƣợc xem nhƣ tín hiệu, gọi là (x)
theo thời gian x. Các đặc trưng khác của tín hiệu đƣợc tách ra, chỉ số hoá và lƣu
trữ để có thể khai thác hiệu quả. Metadata có thể vẫn đƣợc sử dụng cùng với dữ liệu
tín hiệu và có thể bao gồm thông tin nhƣ nơi đặt đầu thu âm thanh, loại gì, khi nào
ghi âm Hình 1.2 chỉ ra hai tín hiệu âm thanh mẫu.
Bước
sóng
Bước
sóng
Cường
độ
x
x
y
y
a
/
b
/
(iii) H
ì
n
h
2
.
2
A
B
Hình 1.2
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
11
Một sóng (thí dụ sóng âm thanh trên hình 1.2) bao gồm tập hợp tuần hoàn các đỉnh
(crests) và vùng lõm (trough). Gọi chu kỳ dao động của sóng là T, đƣợc xác định
bởi thời gian một phần tử sóng cần để trở lại vị trí ban đầu. Thí dụ, xem xét điểm A
trên hình 1.2a, điểm này chuyển động theo sóng và theo hƣớng của trục x. Sau
khoảng thời gian T nó đến điểm B.
Tần số f của sóng đƣợc xác định bằng tổng dao động trong một giây. Do vậy,
Tần số của sóng đƣợc biểu diễn bằng Hz (kHz). Khi nói bƣớc sóng có tần số 10
kHz, có nghĩa rằng nó có 10000 dao động/giây, hay tính thời gian T là 1/10000. Nói
tổng quát là tai ngƣời có thể nghe âm thanh từ 15 Hz tới 20 kHz.
Vận tộc v của sóng là tốc độ chuyển dịch sang phải của đỉnh và thung lũng. Khi
nói rằng sóng chuyển dịch với vận tốc v, có nghĩa rằng đỉnh sóng chuyển dịch sang
phải với vận tốc v m/s. Dễ dàng thấy rằng, nếu w là bƣớc sóng thì:
Biên độ a của sóng là cƣờng độ cực đại của tín hiệu kết hợp với sóng. Đó là giá
trị (theo trục y) của đỉnh tín hiệu nhƣ trên hình 1.2.
Theo đó, sóng trên hình 1.2a có tần số thấp hơn sóng trong hình 1.2b, chu kỳ
dao động cao, biên độ thấp và bƣớc sóng dài hơn.
Cách chung nhất của chỉ số hoá dữ liệu âm thanh trên cơ sở nội dung là xem xét
tín hiệu theo thời gian và chia nhỏ thành các cửa sổ thời gian. Tín hiệu thể hiện biến
đổi đáng kể giữa các cửa sổ. Tuy nhiên, nếu kích thƣớc cửa sổ nhỏ thì tín hiệu sẽ
tƣơng đối đồng nhất trong cửa sổ đó. Thí dụ, hình 1.3 chỉ ra tín hiệu âm thanh đồng
nhất và nó có thể đƣợc chia vào năm cửa sổ. Mỗi cửa sổ là đồng nhất theo nghĩa nó
có biên độ, bƣớc sóng và vận tốc sóng cố định. Tuy nhiên, hai cửa sổ khác nhau thể
hiện các mẫu (pattern) sóng khác nhau đáng kể.
T
f
1
fxw
T
w
v
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
12
Hình 1.3
CSDL âm thanh có thể có thể đƣợc chỉ số hóa bằng tín hiệu âm thanh theo cách
sau đây:
1. Phân đoạn (Segmentation): Chia tín hiệu âm thanh thành các cửa sổ đồng nhất.
Điều này có thể thực hiện bằng hai cách. Một khả năng là ngƣời phát triển ứng
dụng có thể xác định kích thƣớc cửa sổ w (đơn vị giây hay ms) và giả sử rằng các
đặc tính sóng trong cửa sổ này có đƣợc bằng lấy trung bình. Khả năng thứ hai là
ngƣời sử dụng có thể phân đoạn tín hiệu âm thanh tƣơng tự phân đoạn ảnh nhờ
thuộc tính tính đồng nhất H. Sự khác nhau duy nhất ở đây là tính chất đồng nhất
áp dụng cho trƣờng hợp một chiều, thay cho hai chiều của ảnh.
2. Tách đặc trưng (Feature extraction): Một khi đã thực hiện phân ảnh tín hiệu
âm thanh đƣợc xem nhƣ trình tự của n cửa sổ w
1
, ,w
n
. Với từng cửa sổ, chúng ta
tách vài đặc trƣng kết hợp với tín hiệu âm thanh. Nếu k đặc trƣng đƣợc tách, thì
tín hiệu âm thanh đƣợc xem nhƣ trình tự của n điểm trong không gian k-chiều.
Chúng ta có thể chỉ số hóa trình tự của n điểm này. Một vài đặc trƣng quen thuộc
nhất và sử dụng rộng rãi để chỉ số hoá bao gồm:
a. Cường độ (Intensity): Cƣờng độ của sóng đƣợc hiểu nhƣ năng lƣợng của
tín hiệu do sóng phát sinh. Không đi chi tiết kỹ thuật để tính giá trị này,
chúng ta xác định cƣờng độ của tín hiệu âm thanh là:
I=2 x
2
x f
2
x x a
2
x v
trong đó, f là tần số của sóng (tính bằng Hz), là mật độ của vật liệu
truyền dẫn sóng (tính bằng kg/m
3
), a là biên độ của sóng (tính bằng m), v
là vận tốc của sóng (tính bằng m/s). Cƣờng độ đƣợc tính bằng watt/m
2
.
w
1
w
2
w
3
w
4
w
5
x
y
(iv)
H
ì
n
h
2
.
3
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
13
b. Âm lượng (Loudness): Mặc dù các sóng có cƣờng độ cao hơn đƣợc ngƣời
nghe to hơn các sóng có cƣờng độ thấp hơn nhƣng âm lƣợng không tăng
tuyến tính với cƣờng độ. Thí dụ, nếu hai sóng đều dƣới dải nghe đƣợc của
con ngƣời thì âm lƣợng của chúng là 0, dù là một sóng có thể có âm lƣợng
thấp hơn nhiều so với sóng khác. Do vậy, giả sử rằng gọi L
0
là âm lƣợng
kết hợp với tần số thấp mà tai ngƣời có thể phân biệt (khoảng 15 Hz), giả
sử ta quan sát sóng có cƣờng độ I. Sau đó âm lƣợng của I tính bằng decibel
nhƣ sau:
Chú ý rằng khi I=L
0
thì L = 10 x log(1) = 0.
c. Độ cao (Pitch): Độ cao p(f, a) của tín hiệu âm thanh đƣợc tính từ tần số f
và biên độ a của tín hiệu.
d. Độ trong (Brightness): Độ trong của tín hiểutong cửa sổ w là thƣớc đo
độ “sạch” của âm thanh. Thí dụ, âm thanh ngẹt ít trong hơn âm thanh của
kính vỡ.
Bổ sung vào các thuộc tính trên đây, một số đặc trƣng suy diễn khác nhƣ dao
động, sự tƣơng quan của các tín hiệu âm thanh tại các điểm khác nhau trong
tín hiệu, có thể đƣợc biểu diễn về mặt tín hiệu âm thanh cơ sở. Chúng ta không
trình bày nó ở đây.
Tổng quát thì, khi muốn chỉ số hoá nội dung của tín hiệu âm thanh, ta phải thực
hiện các bƣớc sau:
3.Tìm tập w
1
, ,w
n
của các đoạn cửa sổ.
4. Với mỗi cửa sổ w
i
hãy lưu trữ một véctơ bao gồm K thuộc tính âm thanh như
đã mô tả trên đây.
Từ góc nhìn về tín hiệu, CSDL âm thanh có thể đƣợc xem nhƣ tập của bộ K+3
bao gồm nguồn âm thanh (thí dụ các tệp âm thanh), cửa sổ (trong đó có tệp âm
thanh), thời lƣợng của cửa sổ và K giá trị đặc điểm kết hợp với cửa sổ đó.
0
log10
L
I
xL
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
14
1.2.3. Quá trình chung để phát triển một cơ sở dữ liệu âm thanh
gồm các bƣớc sau:
Bƣớc 1: Thu thập dữ liệu âm thanh (audio)
Các dữ liệu audio đƣợc thu thập từ các nguồn khác nhau nhƣ ti vi, CD,
www
Bƣớc 2: Xử lý audio.
Mô tả các đoạn trích audio và các đặc trƣng của chúng, bao gồm cả lọc nhiễu
và tách thô
Bƣớc 3: Lƣu trữ audio.
Dựa vào yêu cầu cụ thể của ứng dụng để lƣu dữ liệu và các đặc trƣng của
chúng vào hệ thống.
Bƣớc 4: Tổ chức audio.
Tổ chức các đặc trƣng để phục vụ việc truy tìm. Ví dụ, chỉ mục các đặc trƣng
với các cấu trúc giúp khai thác hiệu quả.
Bƣớc 5: Xử lý truy vấn audio.
Là quá trình làm cho thích nghi với cấu trúc chỉ mục. Thiết kế các giải
thuật tìm kiếm hiệu quả.
Trên đây là toàn bộ nội dung phần tổng quan về cơ sở dữ liệu âm thanh. Để
tìm hiểu kỹ hơn về dữ liệu âm thanh, chúng ta đi tìm hiểu các kỹ thuật tìm kiếm
trong cơ sở dữ liệu âm thanh.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
15
CHƢƠNG 2
KỸ THUẬT TÌM KIẾM TRONG CƠ SỞ DỮ LIỆU ÂM NHẠC
Audio số đƣợc biểu diễn nhƣ trình tự các mẫu (trừ MIDI, có trình diễn theo
cấu trúc) và thông thƣờng đƣợc lƣu trữ dƣới dạng nén.
Con ngƣời có khả năng phân biệt các kiểu âm thanh. Cho trƣớc một đoạn âm thanh,
ta có thể nói loại âm thanh đó (tiếng nói, âm nhạc hay nhiễu), tốc độ (nhanh hay
chậm), tâm trạng (vui, buồn ) và xác định đƣợc tính tƣơng đồng với đoạn âm thanh
khác. Tuy nhiên, máy tính coi đoạn âm thanh nhƣ dãy giá trị mẫu. Cho đến hiện tại,
phƣơng pháp chung nhất để xâm nhập âm thanh dựa trên cơ sở tiêu đề và tên tệp.
Do tên tệp và mô tả văn bản là không đầy đủ và chủ quan cho nên việc tìm ra đoạn
âm thanh thỏa mãn ngƣời sử dụng là rất khó khăn. Thêm nữa, kỹ thuật truy tìm này
không hỗ trợ câu truy vấn nhƣ “tìm đoạn âm thanh tƣơng tự đoạn đang nghe”
Để giải quyết vấn đề này, các kỹ thuật truy tìm âm thanh trên cơ sở nội dung
là cần thiết. Truy tìm âm thanh trên cơ sở nội dung đơn giản nhất sử dụng so sánh
mẫu với mẫu giữa câu truy vấn và đoạn âm thanh lƣu trữ.
Cách tiệm cận tổng quát của truy tìm và chỉ số hóa âm thanh trên cơ sở nội
dung:
Âm thanh đƣợc phân lớp thành vài loại chung nhƣ âm thanh tiếng nói, âm nhạc
và nhiễu.
Các loại âm thanh khác nhau đƣợc xử lý và chỉ mục theo các cách khác nhau.
Thí dụ, nếu âm thanh là tiếng nói, nhận dạng tiếng nói đƣợc áp dụng và tiếng
nói đƣợc chỉ mục trên cơ sở từ nhận dạng đƣợc.
Truy vấn các đoạn âm thanh là phân lớp tƣơng tự, xử lý và chỉ số hóa.
Các đoạn âm thanh đƣợc truy tìm trên cơ sở tính tƣơng đồng giữa chỉ mục truy
vấn và chỉ mục âm thanh trong CSDL.
Bƣớc phân lớp âm thanh là quan trọng. Trƣớc hết, loại âm thanh khác nhau đòi hỏi
xử lý khác nhau và các kỹ thuật chỉ mục khác nhau. Thứ hai, loại âm thanh khác
nhau có ý nghĩa khác nhau với các ứng dụng khác nhau. Thứ ba, một trong các loại
âm thanh quan trọng nhất là tiếng nói, hiện nay đã có nhiều hệ thống nhận dạng
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
16
tiếng nói. Thứ tƣ, loại âm thanh hay thông tin phân lớp có ý nghĩa lớn cho các ứng
dụng. Thứ năm, không gian tìm kiếm sau phân lớp giảm đi thành lớp âm thanh cụ
thể trong tiến trình truy tìm.
Phân lớp âm thanh dựa trên một số đặc trƣng khách quan và chủ quan.
2.1. Kỹ thuật phân loại âm thanh thành âm nhạc, tiếng nói, tiếng động.
2.1.1. Âm thanh
Tính chất cơ bản của tín hiệu âm thanh
Khi tần số dao động của không khí đạt mức từ 20 đến 20000 Hz thì tai ngƣời
có thể nghe thấy âm thanh.
Tham số khác đƣợc sử dụng để đo âm thanh là biên độ. Biên độ biến đổi làm
âm thanh êm nhẹ hay ầm ĩ. Dải động mà con ngƣời nghe đƣợc là rất rộng: giới hạn
dƣới là ngƣỡng nghe đƣợc và dƣới hạn trên là ngƣỡng đau (pain). Ngƣỡng nghe
đƣợc của dạng sóng hình sin 1-kHz là ở 0.000283 dyne/cm2. (1dyn = 10
-5
N, 1
dyn/cm2=0.1 Pa = 9.86923 x 10
-7
atm).
Biên độ của dạng sóng hình sin có thể tăng từ ngƣỡng nghe đƣợc theo hệ số
từ 100 000 đến 1 000 000 trƣớc khi đạt tới ngƣỡng đau. Rất khó khăn làm việc với
dải biên độ quá lớn, cho nên biên độ của âm thanh thƣờng đƣợc biểu diễn bằng
decibel (dB).
Cho trƣớc hai dạng sóng có biên độ đỉnh là X và Y, thƣớc đo sự chênh lệch
tính bằng dB của hai biên độ này sẽ là dB=20log
10
(X/Y).
Nếu ngƣỡng nghe đƣợc là 0.000283 dyne/cm2 cho tín hiệu 1-kHz đƣợc sử
dụng làm tham chiếu cho 0 dB thì ngƣỡng đau của hầu hết tai ngƣời đạt tới mức áp
xuất âm thanh khoảng 100 đến 120 dB.
Sóng âm thanh là liên tục theo thời gian và cƣờng độ: nó thay đổi theo thời
gian và biên độ có giá trị trong khoảng nghe thấy đƣợc. Hình 2.1 là thí dụ sóng âm
thanh.
Time
Amplitute
Hình 2.1
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
17
Biểu diễn âm thanh số
Dạng sóng âm thanh liên tục đƣợc chuyển sang tín hiệu điện liên tục bằng
microphone. Thí dụ, dạng sóng âm thanh trên hình 2.1 sẽ chuyển đổi thành tín hiệu
điện có cùng hình dạng. Tín hiệu điện thƣờng đo bằng vôn. Gọi loại tín hiệu với
biên độ và thời gian liên tục là tín hiệu tƣơng tự.
Để xử lý và truyền tải tín hiệu âm thanh bằng máy tính thì chúng phải đƣợc
chuyển đổi tín hiệu điện liên tục thành tín hiệu số theo ba bƣớc trong ADC: lấy
mẫu, lƣợng tử hóa và mã hóa (hình 2.2).
Lấy mẫu (Sampling)
Quá trình chuyển đổi thời gian liên tục thành giá trị rời rạc đƣợc gọi là lấy
mẫu. Hình 2.2(b) và (c) chỉ ra tiến trình lấy mẫu. Trục thời gian phân chia thành các
khoảng cố định. Thu nhận giá trị của tín hiệu tƣơng tự tại mỗi đầu khoảng thời gian.
Khoảng thời gian này đƣợc xác định bởi xung đồng hồ. Tần số của đồng hồ đƣợc
gọi là tần số mẫu hay tốc độ lấy mẫu. Giá trị mẫu vẫn là giá trị tƣơng tự trong biên
độ: có giá trị bất kỳ trong dải liên tục. Nhƣng ở khoảng thời gian rời rạc: trong mỗi
dải, mẫu chỉ có một giá trị.
Lƣợng tử hóa (Quantization)
0
2
4
6
8
001
011
101
100
010
001
011
011
110
Thời gian
Biên độ
(a)
(b)
(c)
(d)
Hình 2.2
(a) tín hiệu tương tự gốc,
(b) xung mẫu,
(c) giá trị lấy mẫu và lượng tử hóa,
(d) dãy số sau khi số hóa.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
18
Tiến trình chuyển đổi giá trị mẫu liên tục thành giá trị rời rạc đƣợc gọi là lƣợng tử
hóa. Tiến trình này chia dãy tín hiệu thành số khoảng cố định. Mỗi khoảng có cùng
kích thƣớc và đƣợc gán một số. Thí dụ trên hình 2.2(c) các khoảng đƣợc đánh số từ
0 đến 8. Mỗi mẫu sẽ thuộc một khoảng và đƣợc gán giá trị khoảng. Trong thí dụ
này, giá trị mẫu chỉ có thể là số nguyên từ 0 đến 8. Hai mẫu có giá trị khác nhau
trƣớc khi lƣợng tử hóa, nhƣng chúng có thể có cùng giá trị sau khi lƣợng tử hóa.
Kích thƣớc khoảng lƣợng tử hóa đƣợc gọi là bƣớc lƣợng tử hóa.
Mã hóa (Coding)
Tiến trình biểu diễn giá trị đã lƣợng tử hóa dƣới dạng số gọi là mã hóa nhƣ
trên hình 2.2 (d). Thí dụ trên sử dụng 7 mức lƣợng tử hóa, do vậy có thể sử dụng 3
bít để mã hóa. Vậy, mỗi mẫu đƣợc biểu diễn 3 bit. Dãy số nhị phân sau đây biểu
diễn tín hiệu tƣơng tự của thí dụ trên hình 2.2.
001 011 101 100 010 001 011 011 110
Nhận xét
Khi tỷ lệ lấy mẫu và tổng số mức lƣợng tử hóa đủ lớn thì tín hiệu số sẽ biểu
diễn gần chính xác tín hiệu tƣơng tự gốc.
Khi muốn xây dựng lại tín hiệu tƣơng tự, ta phải sử dụng DAC. Hình 2.3 chỉ
ra tiến trình của DAC.
Các giá trị lƣợng tử hóa đƣợc xác định trên cơ sở biểu diễn số và bƣớc lƣợng
tử. Kết quả ta có dãy các tín hiệu bƣớc nhƣ hình 2.3(b). Sau đó cho các tín hiệu
bƣớc này qua bộ lọc thông thấp để tái tạo xấp xỉ tín hiệu tƣơng tự gốc nhƣ hình
2.3(c). Ta nói rằng xấp xỉ tín hiệu gốc là tái tạo bởi vì tín hiện tái tạo không hoàn
toàn giống tín hiệu gốc do sai số của lƣợng tử hóa của tiến trình ADC.
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
19
Nguyên lý hoạt động của DAC và ADC mô tả ở đây đƣợc áp dụng cả cho tín hiệu
video và loại tín hiệu khác.
Trong tiến trình ADC, nhiệm vụ xác định tốc độ lấy mẫu và tổng số mức
lƣợng tử hóa cho các tín hiệu tƣơng tự khác nhau và cho các ứng dụng khác nhau là
rất quan trọng.
Xác định tốc độ lấy mẫu
Tốc độ lấy mẫu phụ thuộc vào tần số cực đại của tín hiệu tƣơng tự sẽ chuyển
đổi. Theo định lý Nyquist: Nếu tín hiệu tương tự chứa thành phần tần số đến f Hz
thì tốc độ lấy mẫu phải ít nhất 2f Hz. Trong trƣờng hợp nếu tốc độ lấy mẫu đúng
bằng 2f Hz thì gọi là lấy mẫu tới hạn. Trong thực tế, tốc độ lấy mẫu đƣợc sử dụng
lớn hơn 2f Hz chút ít.
Thí dụ tốc độ lấy mẫu của âm thanh CD là 44.1 kHz, băng âm thanh số
(DAT – Digital Audio Tape) là 48 kHz để đáp ứng dải tần số nghe đƣợc 20 KHz.
Thành phần tần số chính của âm thanh con ngƣời khoảng 3.1 kHz. Do vậy, các hệ
0
2
4
6
8
001
011
101
100
010
001
010
010
100
Thời gian
Biên độ
(c)
(b)
(a)
Hình 2.3
(a) dãy số
(b) các tín hiệu bước
(c) tín hiệu sau khi đi qua bộ lọc thông thấp
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên
20
thống điện thoại tƣơng tự có giới hạn tín hiệu đi qua tới 3.1 kHz. Để chuyển đổi tín
hiệu âm thanh này thành tín hiệu số thì cần sử dụng tốc độ lấy mẫu là 8 kHz.
Nếu băng thông (dải tần) của tín hiệu tƣơng tự lớn hơn ½ tần số lấy mẫu thì
băng thông tín hiệu phải giảm bằng cách sử dụng bộ lọc thông thấp sao cho nó nhỏ
hơn hay bằng ½ tốc độ lấy mẫu. Nếu không sẽ xuất hiện hiện tƣợng gọi là aliasing
(hình 2.4).
Hình 2.4(a) chỉ ra đồng hồ lấy mẫu 8 kHz. Một thành phần tín hiệu đƣợc lấy
mẫu là 6 kHz (Hình 2.4b). Hình 2.4(c) mô tả các giá trị mẫu lấy từ tần số 6 kHz.
Nếu mẫu này đƣợc chuyển đổi ngƣợc lại dạng tƣơng tự bằng DAC thì tín hiệu
tƣơng tự có hình dạng nhƣ trên Hình 2.4(c) với tần số khoảng 2 kHz. Do vậy, tín
hiệu 2 kHz là alias của tín hiệu 6 kHz. Vì 2 kHz còn trong dải nghe thấy, do vậy nó
xuất hiện nhƣ nhiễu của âm thanh gốc.
Alias là vấn đề quan trọng của mọi hệ thống sử dụng cơ chế lấy mẫu khi thành phần
tần số của tín hiệu đƣợc lấy mẫu lớn hơn ½ tần số lấy mẫu.
Xác định tổng số mức lƣợng tử hóa
Tổng số mức lƣợng tử hóa đƣợc sử dụng để xác định tính chính xác về biên
độ của tín hiệu số so với tín hiệu tƣơng tự gốc. Hiệu số lớn nhất giữa các giá trị mẫu
đã lƣợng tử hóa với các giá trị tín hiệu tƣơng tự tƣơng ứng là bƣớc lƣợng tử hóa.
(a)
(b)
(c)
Hình 2.4
Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên