Tải bản đầy đủ (.docx) (9 trang)

Những điều cần biết về âm thanh docx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (239.17 KB, 9 trang )

Những điều cần biết về âm thanh.
Ý nghĩa các thuộc tính và định dạng của một bản nhạc số
Các thuộc tính
Các bản nhạc số thường được thu âm trong các studio với khá nhiều thiết bị phức tạp. Nhưng về
bản chất, thu âm là quá trình chuyển đổi sóng âm thanh thành tín hiệu số. Như đã biết, “âm thanh
thực” là các sóng cơ học, có dạng hình sin tuần hoàn liên tục (analog) trong khi “âm thanh số”
chỉ là những xung điện tử rời rạc (digital). Do đó, bằng những “mẩu” rời rạc, âm thanh số chỉ có
thể mô phỏng một cách gần giống nhất với âm thanh thực tế mà thôi. Việc mô phỏng đó được
đặc trưng bởi các thông số sau:
- Sample: Là thành phần nhỏ nhất của bản nhạc số. Để có các xung điện tử rời rạc, cần phải tiến
hành rất nhiều lần lấy mẫu. Mỗi mẫu gọi là một sample – là giá trị biên độ của tần số sóng âm tại
thời điểm lấy mẫu. Càng lấy nhiều mẫu, tín hiệu số thu được càng chính xác hơn.
- Sample Rate: (Sampling Rate, Sampling Frequency): Là số lần lấy mẫu trên một giây, có đơn
vị Hz. Một bản nhạc có sample rate là 44100 Hz thì mỗi giây nhạc sẽ được lấy mẫu 44100 lần.
- BitDepth: Để lưu lại dưới dạng số, mỗi mẫu được biểu diễn bằng một lượng bit dữ liệu nhất
định, gọi là BitDepth. Các bản nhạc hiện nay thường có BitDepth là 16 bits, 24 bits…BitDepth
càng lớn âm thanh càng sắc nét, trung thực nên nó còn được gọi là Resolution (độ nét).
- Channel: Bằng các thuật toán, tín hiệu số sẽ được tách ra thành nhiều kênh (Channel) sao cho
khi nghe bằng hệ thống loa thích hợp sẽ có cảm giác như khi đang nghe nhạc trong không gian
thực tế.
Từ 4 thông số cơ bản trên, ta không những biết được chất lượng mà còn có thể tính được dung
lượng của bản nhạc. Ví dụ một phút của bản nhạc có : Sample rate = 44100 Hz, BitDepth = 16
bits = 2 bytes, Channel = 2 kênh sẽ có dung lượng: 44100 đợt lấy mẫu x 2 bytes x 60 giây x 2
kênh = 10.584.000 bytes, tức khoảng 10.1 MB.
- BitRate: Là thông số thu gọn, đại diện cơ bản cho các thuộc tính trên. Bitrate có đơn vị Kbps
(Kilobits per second) – dung lượng (tính theo bit) của âm thanh số trên một giây. Với Bitrate, ta
có thể xác định nhanh chóng dung lượng cũng như phần nào chất lượng của bản nhạc. Một phút
nhạc 128 kbps có dung lượng khoảng 1 MB và bản nhạc 320 kbps thì chắc chắn sẽ hay hơn bản
nhạc 128 kbps.
Các định dạng
Sau quá trình thu âm, ta được một file nhạc wav có chất lượng nguyên gốc nhưng dung lượng rất


lớn, khoảng 10 MB cho mỗi phút nhạc. Bởi vậy, để tiện việc lưu trữ hay chia sẻ, người ta phải
nén các bản nhạc lại dưới các định dạng. Mỗi định dạng ứng với một thuật toán nén nhất định và
tỉ lệ nén cũng như chất lượng sau khi nén của bản nhạc cũng khác nhau. Có hai cách nén chính
là: nén có mất (lossy compression) tạo ra các file nhạc mp3, wma, ogg…và nén không mất
(lossless compression) để tạo các file nhạc flac, ape…
Khi nén có mất (rip hoặc convert nhạc), chương trình nén sẽ cắt bớt đi những dải tần số âm thanh
nhất định (thường là dải tần trên 20 Khz, theo đặc điểm về khả năng nghe của tai người), từ đó
giảm được dung lượng bản nhạc. Nhưng cái phải trả giá là chất lượng âm thanh sẽ giảm đi. Do
vậy, càng giảm ít thì định dạng nhạc hay thuật toán mã hóa càng tốt. Theo nhiều đánh giá thì
định dạng ogg, wma cho chất lượng tốt hơn mp3 với cùng một dung lượng. Bạn cũng nên nhớ
rằng việc chuyển đổi qua lại các định dạng cũng làm giảm chất lượng bản nhạc.
Có nhiều cách nén với loại bitrate khác nhau như: CBR/ABR/VBR:
- CBR: Constant bitrate: Nghĩa là bitrate của stream là một hằng số và không thay đổi tại bất kỳ
điểm nào của stream.Sử dụng bitrate cố định để mã hoá toàn bộ file. Đây là thiết lập mặc định
của hầu hết các máy nghe nhạc
- ABR: Average bitrate: Nghĩa là stream có thể sử dụng bitrate thay đổi cho mỗi frame,nhưng
bitrate trung bình của toàn bộ stream là cố định.gần giống VBR ngoại trừ kích thước file biết
trước (với VBR, kích thước file có khi lớn, khi nhỏ tuỳ vào độ phức tạp của âm thanh) nhờ điều
chỉnh mức thay đổi quanh giá trị bitrate trung bình ấn định trước.
- VBR: Variable bitrate: Nghĩa là stream có thể sử dụng bitrate thay đổi cho mỗi frame và tùy
biến để đạt được bitrate cần thiết cho mỗi frame,vì vậy bitrate trung bình không thể xác định
trước khi encode hay tính toán cụ thể Sử dụng bitrate thay đổi tuỳ theo yêu cầu của từng đoạn
âm thanh. Thường thì VBR cho chất lượng tốt hơn với kích thước file nhỏ hơn CBR nhờ cấp
phát bitrate "thông minh" hơn. Tất cả định dạng "lossless" đều được mã hoá theo VBR, nhiều
định dạng "lossy" mới (như WMA phiên bản 9) cũng hỗ trợ VBR.
Lưu ý là việc convert lại để tăng bitrate không thể làm tăng chất lượng bản nhạc. Một bản nhạc
320 kbps được tạo ra từ bản nhạc gốc có bitrate 64 kbps giống như bạn lấy 90% nguyên liệu của
một chiếc bánh nhỏ để làm một chiếc bánh lớn hơn.
Khác với nén có mất, việc nén nhạc không mất giống như ta nén dạng zip, rar. Tỷ lệ nén của định
dạng này không cao (tối đa là nén còn bằng 1/3 dung lượng bản nhạc gốc) nhưng bù lại, chất

lượng âm thanh lại tương đương với bản nhạc gốc (bởi thực chất ta không cắt xén bản nhạc gốc,
khi chơi nhạc, các phần mềm chỉ tiến hành giải nén mà thôi). Khi lưu trữ các đĩa nhạc, muốn tiết
kiệm dung lượng mà chất lượng âm thanh vẫn không đổi, ta hãy rip thành các bản nhạc nén
không mất.
Định nghĩa về Nhạc Lossless .flac, .ape.
Âm thanh được ghi trên đĩa CD và định dạng file âm thanh WAV được sử dụng chuẩn định dạng
pulse-code modulation (PCM) (tạm dịch là điều biến nhịp, nghĩa là trong analog ta thấy 1 tần số
sine diễn tả âm thanh, nhưng trong kĩ thuật số ta không thể có sóng sine mà người ta sử dụng
những "nhịp đập" cao thấp khác nhau 1 cách liên tục để diễn tả cần đúng nhất hình dạng sóng
sine") . Đây là những tín hiệu âm thanh gốc và hoàn toàn không được nén.
Theo chuẩn PCM, mỗi giây âm thanh được lấy mẫu với tần số lấy mẫu 44.1KHz, và mỗi mẫu
được diễn tả bởi 16 bit dữ liệu. Có nghĩa là trong 1 phút nhạc/âm thanh ta có:
44100 đợt lấy mẫu X 2 kênh trái phải X 2 bytes (16 bit = 2 bytes) X 60 giây = 10.584.000 bytes
= 10.1 Mb
Như ta đã biết, 1 CD thường có dung lượng là 750Mb, hoặc lưu được 74 phút nhạc, vì thế nếu
bạn nhân con số 10Mb của mỗi phút nhạc cho 74 bạn sẽ thấy rõ tại sao CD nó lại như vậy
Như vậy tóm lại, 1 giây của âm thanh gốc sẽ có bitrate là 1411kbps
MP3, WMA, - Lossy compression (nén mất dữ liệu)
Với sự phát triển của PC và internet, nhu cầu chia sẻ thông tin và nhạc càng ngày càng đc đòi hỏi
cao. Nhưng người ta không thể nào gửi cả album nhạc đến 700Mb qua internet với tốc độ èo uột
56kps thời đấy được. Do đó các nhóm nghiên cứu, các tổ chức, và nhiều công ty khác nhau đã cố
gắng tìm ra những định dạng âm thanh mới sử dụng những thuật toán riêng để nhằm giảm bớit
dung lượng dữ liệu cần đề diễn tả âm thanh gốc cùng lúc đó cố gắng giữ cho âm thanh gần với
âm thanh gốc nhất.
Có rất nhiều định dạng khác nhau đã ra đời như mp3, wma, aac, ogg, mpc, atrac, Chúng hoạt
động gần giống nhau nhưng mỗi định dạng có 1 thuật toán khác nhau để xác định xem giữ lại
mẫu âm thanh nào, bỏ mẫu âm thanh nào, hoặc điều chỉnh mẫu âm thanh thế nào.
Thế thì tại sao lại có thể bỏ, hoặc giữ? Vì theo lí thuyết tai con người sẽ rất khó nhận ra sự hiện
diện của 1 tần số âm thanh nhất định nào đó (có thể là quá 20Khz). Việc bỏ đi 1 phần dữ liệu âm
thanh này giúp cho các định dạng âm thanh mất dự liệu như Mp3 có thể giảm dữ liệu cần thiết để

diễn tả 1 lần lấy mẫu (sẽ ít hơn rất nhiều so với 16bit cho 44100 lần 1 giây như của âm thanh
gốc).
Ngoài ra các định dạng âm thanh này còn tạo ra những âm thanh giả nhằm đắp vào những phần
nó đã loại bỏ, điều này là thực sự không thể chấp nhận đc, nó tạo ra những âm thanh ta hay gọi là
"éo éo" hoặc vang hoặc méo hẳn so với âm chuẩn, đ/v những file đc nén với bitrate càng thấp thì
hiện tượng này xảy ra càng nhiều (ví dụ điển hình nhất: bạn hãy nghe thử 1 đoạn khán giả vỗ tay
của 1 file mp3 và 1 track trong CD gốc hoặc 1 file nén không mất dữ liệu (lossless) sẽ ngay lập
tức nhận ra. Vì sao tiếng vỗ tay lại gây ra nhiều vấn đề như vậy ? Bởi vì tiếng vỗ tay là 1 âm
thanh hỗn hợp ngẫu nhiên, nếu trong âm thanh chuẩn gốc nó sẽ đc diễn ta đầy đủ, thế nhưng với
âm thanh nén, định dạng nén buộc phải "ép" bitrate của mình vào khoảng cho phép do đó nó tạo
ra những âm thanh vỗ tay đều đều nhau rất ít sự khác biệt hoặc bị hiệu ứng vang).
Chúng ta thường thấy rằng MP3 hay được nén với bitrate là 128, hoặc 192, hoặc 320 kilobit 1
giây (kbps) . Bạn có thể nhận thấy rằng nó chỉ bằng 1/10 so với biterate của WAV (1411kbps) đó
là lí do tại sao 1 phút nhạc MP3 128kbps chỉ tốn khoảng 1Mb.
Đúng là trong 1 số trường hợp nhất định, hoặc 1 dạng âm thanh/nhạc nào đó, sẽ rất khó phân biệt
sự khác nhau giữa âm thanh gốc và MP3. Bên cạnh đó các thuật toán nén của các định nhạc mất
dữ liệu đã được cải thiện rất nhiều. Thế nhưng không có gì hoàn hảo, và chắc chắn cái gì đã mất
đi thì sẽ làm cho nó hỏng đi. Đặc biệt là âm thanh. Đối với những album nhạc như vocal, nhạc
cụ, hay đặc biệt là cổ điển thì đây là 1 tai họa, vì với những album nhạc này, thường những nhạc
cụ được sử dụng hoặc giọng hát có tần số âm thanh rất cao hay rất trầm do đó rất nhiều dự liệu
đã bị loại bỏ hoặc điều chỉnh khác đi so với thực tế.
MP3, âm thanh nén, nhiều người cho rằng chỉ thích hợp với nhạc pop hoặc các dạng nhạc bình
thường khác.
Lossless Compression (Nén không mất dữ liệu)
Trong công việc hàng ngày với máy tính, hẳn không ít lần bạn đã nén 1 file tài liệu gửi cho đồng
nghiệp. Có thể bạn đã sử dụng Zip hoặc Rar làm định dạng nén.
File tài liệu được bạn nén sau khi qua Zip hoặc Rar sẽ trở nên nhỏ hơn rất nhiều nhưng khi người
nhận nhận được file, họ sẽ giải nén và có được file tài liệu gốc mà bạn đã tạo. Vậy Zip và Rar đã
làm gì ? Nói đơn giản, đó là những thuật toán nhằm tìm ra những quy luật lặp của dữ liệu từ đó
tìm 1 cách hiển thị khác tối ưu hơn, tốn ít dữ liệu hơn. (ví dụ ta có chuỗi: aaaaa bbbbbbb aaa

11111 , bạn thấy rằng cách diễn giải tốt hơn nhiều mà tốn ít chữ hơn là ax5 bx7 ax3 1x5). Đấy là
1 ví dụ rất đơn giản để bạn hiểu, còn thì nó phức tạp hơn rất nhiều .
Như vậy khi người nhận nhận file và giải nén, Zip và Rar đóng nhiệm vụ sử dụng những chuỗi
dữ liệu nén đấy tập hợp và tạo lại file gốc ban đầu.
Đó cũng là mục đích của định dạng âm thanh nén không mất dữ liệu (lossess). Với cấu trúc trên
của zip hoặc rar thì bạn có thể thấy rõ rằng đối với lossless audio, nó lấy đầu vào là âm thanh gốc
của CD, cố gắng tìm ra những quy luật âm thanh và nén nó lại. Việc nén lại này là không cao vì
dữ liệu âm thanh rất đa dạng và sử dụng nhiều dữ liệu. Hiện tại mức độ nén cao nhất có thể của
kĩ thuật nén không mất dữ liệu là bằng khoảng 1/3 dung lượng gốc của âm thanh gốc. Do đó mỗi
album lossless sẽ có dung lượng khoảng 200 đến 300 Mb.
Khi giải nén hoặc khi nghe lossless điều chắc chắn ta đạt được đó chính là tín hiệu gốc của âm
thanh CD (44.1Khz, 16bit, 1411Kbps) . Điều này là cứu nhân cho mọi người yêu âm nhạc luôn
đòi hỏi âm thanh trung thực nhưng không có điều kiện có CD gốc hoặc muốn sử dụng máy tính
làm nơi lưu trữ albums.
Hoạt động của việc ghi CD nhạc:
Như đã đề cập, định dạng âm thanh của CD là PCM 1411kbps. Và đầu vào của nó cũng phải ở
định dạng PCM 1411kbps. Do đó khi ta ghi 1 CD nhạc việc đầu tiên của 1 trình ghi đĩa là nó
phải convert (chuyển) bất kì định dạng cho vào ra WAV, bất kể nó là mp3 hay ape, lossy hay
lossless. Đó là lí do vì sao mà ngoài mp3 thường được hỗ trợ sẵn, đối với các định dạng âm
thanh khác ta phải cần plugin cho trình ghi đĩa mới có thể ghi được.
Như thế bất kì định dạng nhập vào là gì trước khi ghi ra đĩa ta sẽ có 1 dữ liệu âm thanh định dạng
WAV, mà WAV thì luôn là PCM 1411kbps. Cho nên dù dữ liệu vào "xấu" hay "đẹp" nó cũng sẽ
được cho mặc 1 cái áo được dệt bởi 1411 kí sợi để ghi ra CD. Tại sao cùng 1 album, ta có 2 định
dạng mp3 và ape , mp3 chỉ 50Mb, ape đến 200Mb mà ghi ra đĩa vẫn đầy, vẫn cùng ngần đấy
phút nhạc ? đã có câu trả lời tại sao.
Hoạt động của việc nén CD nhạc:
Như vậy sau khi ghi ra CD 1 rổ dữ liệu "xấu" đấy, nếu bạn sử dụng nó để đọc trong máy sẽ vẫn
thấy rằng bitrate của nó là 1411kbps . Tiếp theo nếu bạn sữ dụng software để rip CD này và xác
định bitrate là 320 hay cao hơn đi nữa thì nó sẽ vẫn thực hiện công việc nén 1411kbps dữ liệu
"xấu" đấy trở thành 320. Nhưng cũng phải nói thêm rằng dù nén 320kbps nhưng đữ liệu "xấu"

của bạn sẽ càng trở nến xấu hơn vì chính trong lúc nén ở 320kbps, nó sẽ tiếp tục bị mất tiếp dữ
liệu . Đã xấu lại càng xấu .
Vậy theo lí thuyết bài trước, để giữ nguyên độ "xấu" gốc bạn chỉ có cách nén ở định dạng
lossless không mất dữ liệu "xấu".
Phần lớn, hay ko muốn nói là tất cả những đĩa nhạc copy (cả nhạc Việt lẫn nhạc ngoại) mà ta
thấy ngoài tiệm đều là ghi ra đĩa với nguồn là MP3 trong máy tính. Bạn có rip với bất kì định
dạng nào thì chất lượng vẫn là hàng phế phẩm, không nói gì chất lượng CD, mà chất lượng âm
thanh không thể nào bằng đĩa gốc.
Vậy với lossless nó sẽ thế nào ? Cũng vẫn thế, nhưng khi APE được trình ghi đĩa giải nén ra
WAV ta sẽ có lại dữ liệu đẹp ban đầu ở 1411kbps, tạo ra 1 đĩa CD chuẩn ở 1411kbps, rồi ta lại rip
lossless, rồi lại ghi ra. Cho dù bao nhiêu lần đi nữa thì dữ liệu vẫn (có thể) được giữ nguyên. tôi
nói có thể là vì nó còn phụ thuộc nhiều vào chất lượng CD, chất lượng đầu đọc, 2 thứ đấy có
đảm bảo được cho sự an toàn, hoàn chỉnh của dữ liệu khi ghi và đọc hay không. Vì thế mà người
ta luôn nói là với CD thì phải là TDK, ổ đĩa thì phải là Plextor, hơn nữa khi ghi hay đọc thì chỉ ở
tốc độ 1x , vâng 1x , như thế mới giảm thiểu tối đa số lỗi đọc ghi.
Công nghệ ghi đĩa và loại đĩa được sử dụng là rất quan trọng do đó đĩa hiệu mới đắt như vậy.
Ngoài ra còn có đủ loại đĩa dành cho dân audiophile như đĩa vàng, đĩa thủy tinh. Công nghệ thì
có XRCD, DCC, Chesky, MFSL , rất rất nhiều. Sự khác nhau của họ là cách thức xử lý tín hiệu
gốc đạt đến độ hoàn chỉnh, sau đó sử dụng công nghệ máy móc đc fát triển riêng để ghi lên đĩa
đặc hiệu, máy ghi đĩa luôn đảm bảo rằng không có lỗi xảy ra, dữ liệu không bi nhiễu, và khi ghi
lên bề mặt đĩa đạt đc hiệu quả tối ưu.

×