Tải bản đầy đủ (.pdf) (103 trang)

nghiên cứu phương pháp tự động hóa trong nhận dạng dòng nhạc

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.79 MB, 103 trang )

NGUYỄN THANH HÀ

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
---------------------------------------

Nguyễn Thanh Hà

CÔNG NGHỆ THÔNG TIN

NGHIÊN CỨU PHƯƠNG PHÁP TỰ ĐỘNG HÓA
TRONG NHẬN DẠNG DÒNG NHẠC

LUẬN VĂN THẠC SĨ KHOA HỌC
Công nghệ Thông tin

2009

Hà Nội – 2012


LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành tới PGS.TS Đặng Văn Chuyết, Viện Công
nghệ Thông tin và Truyền thông thuộc Trường Đại học Bách khoa Hà Nội là cán bộ
trực tiếp hướng dẫn luận văn cho tôi, đồng thời cũng là người đã định hướng nghiên
cứu, hỗ trợ về thuật toán và tạo điều kiện cho tôi trong suốt quá trình làm luận văn.
Tôi xin gửi lời cảm ơn tới gia đình, bạn bè và các đồng nghiệp đã giúp đỡ tôi để
tôi có thể hoàn thành khóa học Cao học này.

Tác giả thực hiện luận văn


Nguyễn Thanh Hà


LỜI CAM ĐOAN

Tôi xin cam đoan luận văn là kết quả nghiên cứu, tìm hiểu của riêng tôi, không
sao chép của ai. Nội dung luận văn có tham khảo và sử dụng các tài liệu, thông tin
được đăng tải trên các tác phẩm, tạp chí và các trang web theo danh mục tài liệu của
luận văn.

Tác giả thực hiện luận văn

Nguyễn Thanh Hà

1


MỤC LỤC
LỜI CẢM ƠN ........................................................................................................0
LỜI CAM ĐOAN ...................................................................................................1
MỤC LỤC .............................................................................................................2
DANH MỤC CÁC TỪ VIẾT TẮT .............................................................................4
DANH MỤC CÁC BẢNG ........................................................................................5
DANH MỤC CÁC HÌNH VẼ ....................................................................................6
MỞ ĐẦU...............................................................................................................7
Chương 1 ...............................................................................................................9
GIỚI THIỆU CHUNG .............................................................................................9
1.1. LÝ DO CHỌN ĐỀ TÀI...............................................................................9
1.2. TÓM TẮT LUẬN ÁN .............................................................................. 11
1.3. TỔ CHỨC CỦA BÀI LUẬN ..................................................................... 12

Chương 2 ............................................................................................................. 14
NHỮNG TIẾP CẬN VỀ LÝ THUYẾT PHÂN LOẠI ÂM NHẠC .................................. 14
2.1. LÝ THUYẾT CỔ ĐIỂN ............................................................................ 14
2.2. LÝ THUYẾT NGUYÊN MẪU .................................................................. 15
2.3. LÝ THUYẾT LẤY MẪU .......................................................................... 17
2.4. CONCLUSION ....................................................................................... 21
Chương 3 ............................................................................................................. 22
KHÁI NIỆM, ĐỊNH NGHĨA, PHƯƠNG PHÁP LUẬN................................................ 22
3.1. PHÂN LOẠI DÒNG NHẠC BỞI CON NGƯỜI ............................................ 22
3.2. CÁC BỘ DỮ LIỆU DATASET .................................................................. 23
Chương 4 ............................................................................................................. 27
CÁC KỸ THUẬT TÍNH TOÁN TRONG PHÂN LOẠI DÒNG NHẠC ........................... 27
4.1. CÁC PHƯƠNG PHÁP THỐNG KÊ CƠ BẢN .............................................. 27
4.1.1.
Các số liệu thống kê .............................................................................. 27
4.1.2.
Chu kỳ đồ ........................................................................................... 29
4.2. CÁC BỘ MÔ TẢ ..................................................................................... 31
4.2.1.
Những vấn đề tiền quan tâm ................................................................... 32
4.2.2.
Các bộ mô tả miền thời gian ................................................................... 34
4.2.3.
Các bộ mô tả âm sắc .............................................................................. 35
4.2.4.
Các bộ mô tả liên quan đến nhịp điệu ....................................................... 40
4.2.5.
Các bộ mô tả âm điệu ............................................................................ 43
4.2.6.
Các bộ mô tả liên quan Panning ............................................................... 46

4.2.7.
Bộ mô tả phức hợp ................................................................................ 49
4.2.8.
Sự tương tác lẫn nhau của dải tiếng ồn ...................................................... 58
4.2.9.
Sự tích hợp đặc trưng thời gian ................................................................ 60
4.3. NHẬN DẠNG MẪU ................................................................................ 63
4.3.1.
Láng giềng gần nhất .............................................................................. 63

2


4.3.2.
Các máy vector hỗ trợ SVM ................................................................... 64
4.3.3.
Cây quyết định ..................................................................................... 65
4.3.4.
Ada-Boost ........................................................................................... 66
4.4. CÁC PHƯƠNG PHÁP THỐNG KÊ ............................................................ 67
4.4.1.
Phân tích các thành phần chính PCA ........................................................ 67
4.4.2.
SIMCA ............................................................................................... 69
4.5. KẾT LUẬN ............................................................................................ 71
Chương 5 ............................................................................................................. 73
ĐỀ XUẤT BỘ PHÂN LOẠI SIMCA CHO PHÂN LOẠI DÒNG NHẠC TỰ ĐỘNG......... 73
5.1. MÔ TẢ .................................................................................................. 74
5.2. CÁC KẾT QUẢ ...................................................................................... 74
5.2.1.

Thử nghiệm khởi tạo ............................................................................. 74
5.2.2.
Tính quy mô ........................................................................................ 77
5.3. CÁC CÔNG VIỆC PHÂN LOẠI KHÁC ...................................................... 81
5.3.1.
Đánh giá điệu ....................................................................................... 81
5.3.2.
Âm nhạc kiểu phương Tây và không thuộc phương Tây ............................... 83
5.4. KẾT LUẬN ............................................................................................ 84
Chương 6 ............................................................................................................. 87
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TRONG TƯƠNG LAI .................................. 87
6.1. GIỚI THIỆU ........................................................................................... 87
6.2. THẢO LUẬN TỔNG THỂ ........................................................................ 89
6.3
TÓM TẮT CÁC KẾT QUẢ ĐẠT ĐƯỢC ..................................................... 93
6.4
HƯỚNG PHÁT TRIỂN ............................................................................ 95
6.5
NHỮNG SUY NGHĨ CUỐI CÙNG ............................................................ 96
TÀI LIỆU THAM KHẢO ....................................................................................... 98

3


DANH MỤC CÁC TỪ VIẾT TẮT

Viết tắt

Tiếng Anh


Tiếng Việt

AMC

Audio Mood Classification

Phân loại âm thanh theo nhạc thế

DSM

Delta Spectrum Magnitude

Cường độ phổ Delta

MIDI

Musical Instrument Digital

Giao diện số hóa của nhạc cụ âm nhạc

Interface
Mel frequency cepstral

Phương pháp trích chọn đặc trưng dựa

coefficient

trên các hệ số Cepstral

MIR


Music Information Retrieval

Truy xuất thông tin âm nhạc

PCA

Principal Components

Phân tích thành phần độc lập

MFCC

Analysis
RWC

Cách sử dụng máy tính trong một số

Real World Computing

trường hợp của thế giới thực
Soft Independent Modeling

Phương pháp thống kê để giám sát phân

of Class Analogies

loại dữ liệu

SFM


Spectral Flatness Measure

Phương pháp đo độ dẹt Phổ

STOMP

Short Test of Music

Bộ cơ sở dữ liệu nội bộ của chúng tôi

SIMCA

Preferences
SVM

Máy vector hỗ trợ: Một tập hợp các

Support Vector Machines

phương pháp học có giám sát bao gồm
phân tích dữ liệu và nhận dạng mẫu,
được sử dụng cho phân loại và phân tích
hồi quy.
ZCR

Tỉ lệ qua điểm 0

Zero Crossing Rate


4


DANH MỤC CÁC BẢNG
Bảng 3.1: Tóm tắt bộ dữ liệu Ballroom Dancers .......................................................... 24
Bảng 3.2: Tóm tắt bộ dữ liệu USPOP ........................................................................ 24
Bảng 3.3: Tóm tắt bộ dữ liệu RWC ........................................................................... 25
Bảng 3.4: Tóm tắt về sự phẩn bổ dòng nhạc trong bộ dữ liệu RWC ................................. 25
Bảng 3.5: Tóm tắt bộ dữ liệu Tzanetakis .................................................................... 25
Bảng 3.6: Tóm tắt bộ dữ liệu STOMP ....................................................................... 26
Bảng 4.1: Khảo sát việc có sử dụng clip hay không tại MIREX 2007 (Dữ liệu được thu thập
tháng 8 năm 2007) ....................................................................................... 32
Bảng 4.2: Độ dài phổ biến của các trích đoạn tại MIREX 2007 (dữ liệu thu thập tháng 08 năm
2007) ........................................................................................................ 32
Bảng 4.3: Những định dạng ưa thích của những người tham gia vào MIREX 2007 (Dữ liệu
được thu thập tháng 8 năm 2007) .................................................................... 33
Bảng 5.1: Các kết quả cho các Bộ phân loại SVM và SIMCA đối với các bộ dữ liệu khác nhau
và tập các bộ mô tả, được thể hiện như là độ chính xác trung bình cho 10 thử nghiệm
với các kết quả phân tách ngẫu nhiên khác nhau cho bộ con huấn luyện và thử nghiệm.
................................................................................................................ 75
Bảng 5.2: Các kết quả của bộ phân lọa SIMCA với các bộ dữ liệu hỗn hợp. Độ chính xác Split
là độ chính xác trung bình của 10 thử nghiệm với những lần phân tách ngẫu nhiên khác
nhau cho việc huấn luyện và thử nghiệm các bộ dữ liệu nhỏ. Bộ dữ liệu Other tương
ứng với Tzanetakis khi huấn luyện với Radio và ngược lại.. ................................. 76
Bảng 5.3: So sánh giữa Bộ phân loại SVM và Simca đối với các thử nghiệm về các bộ dữ liệu.
Bộ dữ liệu Other tương ứng với Tzanetakis khi huấn luyện với Radio và ngược lại. .. 77
Bảng 5.4: Số các trường hợp trên mỗi hạng mục trong bộ dữ liệu điệu ............................. 82
Bảng 5.5: Độ chính xác thu được cho bộ phân loại SVM và SIMCA sử dụng bộ dữ liệu âm
điệu .......................................................................................................... 82
Bảng 5.6: Tổng quan về bộ dữ liệu được sử dụng cho việc phân loại nhạc phương Tây/không

phải Phương Tây ......................................................................................... 83
Bảng 5.7: So sánh độ chính xác thu được cho việc phân loại nhạc Phương Tây/không thuộc
phương tây và nhạc đồng quê sử dụng SVM và SIMCA. ..................................... 84
Bảng 6.1: Sự liên quan giữa lý thuyết phân loại với các kỹ thuật máy học quan trọng nhất. .. 89
Bảng 6.2: So sánh các bộ phân loại SVM và SIMCA với các thử nghiệm bộ dữ liệu hỗn hợp.
Các mức độ chính xác Split được trình bày như độ chính xác trung bình của 10 thử
nghiệm với các lần phân tách ngẫu nhiên khác nhau để huấn luyện và thử nghiệm các
bộ dữ liệu nhỏ. Bộ dữ liệu Other tương ứng với Tzanetakis khi huấn luyện với Radio
và ngược lại. ............................................................................................... 91

5


DANH MỤC CÁC HÌNH VẼ
Hình 4.1: Trạng thái của hệ số MFCC5 đối với các dòng nhạc khác nhau. ........................ 39
Hình 4.2 Các giá trị MFCC6 (trục x) và MFCC10 (trục y) đối với nhạc Metal (màu xanh) và
Pop (màu đỏ). Mỗi điểm biểm diễn giá trị trung bình tất cả các hệ số MFCC thời gian
ngắn được tính toán trên các đoạn âm 30 giây trong bộ dữ liệu Tzanetakis (Tzanetakis
& Cook, 2002). ........................................................................................... 39
Hình 4.3 là ảnh chụp màn hình của sơ đồ khối kết quả tính toán biểu đồ tần số tiếng đập đề
xuất bởi Tzanetakis và các tác giả khác (2001a). ................................................ 42
Hình 4.4: Sơ đồ tổng quát các đặc điểm HPCP tính toán ............................................... 44
Hình 4.5: So sánh trạng thái của hệ số thứ 7 của HPCP và THPCP đối với các thể loại âm
nhạc khác nhau. .......................................................................................... 44
Hình 4.6: Phân bố dải panning đối với một bản nhạc cổ điển và một bài hát nhạc pop (phương
thẳng đứng không giống nhau) ....................................................................... 48
Hình 4.7 chỉ ra hai ví dụ của hệ số panning tiến triển theo thời gian đối với hai đoạn nhạc cổ
điển và nhạc Pop. ........................................................................................ 49
Hình 4.8: Các ký hiệu độ phức hợp động được tính toán trên 10 thể loại âm nhạc. .............. 51
Hình 4.9: Các bộ mô tả độ phức của âm sắc được tính toán trên 10 thể loại âm nhạc. .......... 53

Hình 4.10: Các bộ mô tả khả năng nhảy được tính toán trên 10 thể loại âm nhạc. Các giá trị
cao tương ứng với khả năng nhảy thấp và các giá trị thấp thể hiện khả năng nhảy cao.
................................................................................................................ 55
Hình 4.11: Các bộ mô tả độ phức thay đổi liên tục không gian được tính toán trên 14 thể loại
âm nhạc ..................................................................................................... 57
Hình 4.12: Các bộ mô tả độ phức của sự lan toả không gian được tính toán trên 14 thể loại âm
nhạc. ......................................................................................................... 58
Hình 4.13: Các ma trận BLI đối với các bài hát nhạc Blue và nhạc Jazz ........................... 60
Hình 4.14: Ví dụ về sự phân loại láng giềng gần nhất. Các thể loại (hình tam giác và hình
vuông) được thể hiện trên vector tính năng 2 chiều và được vẽ trong hình. Các trường
hợp mới được phân loại được phân loại thành hình tam giác với số láng giềng N = 3
nhưng loại hình vuông N = 5. ........................................................................ 63
Hình 4.15: siêu mặt phẳng trong một phân loại SVM. Các vòng tròn và hình tam giác màu
xanh da trời nằm trong dữ liệu thử nghiệm; các vòng tròn và hình tam giác màu xanh
lá cây nằm trong dữ liệu kiểm tra (Hình được trích từ Hsu và cộng sự (2008)) ........ 64
Hình 4.16 cho thấy cây quyết định điển hình liệu sáng thứ bảy có phù hợp với việc chơi tennis
hay không. ................................................................................................. 66
Hình 5.1: Sự phát triển từ 10 đến 10000 bài trên mỗi loại .............................................. 78
Hình 5.2: Sự phát triển từ 100 đến 1000 bài hát cho mỗi loại. Các giá trị đo thực được thể hiện
trong hỗi quy đa thức bậc 3 và màu xanh được thể hiện bằng màu đỏ..................... 79
Hình 5.3: Trung bình của phát triển từ 100 đến 1000 bài hát cho tất cả các thể loại. Các giá trị
đo thực được thể hiện bởi đường màu xanh và hồi quy đa thức bậc 3 được thể hiện
bằng đường màu đỏ. .................................................................................... 80

6


MỞ ĐẦU
Luận án này sẽ trình bày, thảo luận, và làm sáng tỏ các vấn đề xuất hiện khi máy
tính muốn tự động phân loại các dòng nhạc từ các tín hiệu âm thanh. Cụ thể, luận án sẽ

đề xuất phương pháp phân loại dòng nhạc một cách tự động, sử dụng phương pháp tính
toán nhận dạng âm nhạc dựa trên cơ sở âm nhạc học, cùng với các công nghệ Truy
xuất thông tin âm nhạc (MIR). Chúng tôi đã thiết kế một loạt các thử nghiệm bằng
cách kết hợp các yếu tố khác nhau có thể ảnh hưởng đến tính chính xác của việc phân
loại như bộ miêu tả âm thanh, các thuật toán máy học… Chúng tôi đã đánh giá, so sánh
và phân tích các kết quả tìm được để giải thích về bức tường vô hình trong việc phân
loại các dòng nhạc, và đề xuất các chiến lược mới để vượt qua nó. Thêm vào đó, bắt
nguồn từ việc xử lý âm thanh đa âm, chúng tôi cũng đưa vào luận văn việc phân tích
các khía cạnh thuộc về âm nhạc và văn hóa của các dòng nhạc, điều mà thường bị bỏ
quên trong các phương pháp tiếp cận tiên tiến hiện nay.

Luận án này nghiên cứu các loại khác nhau của bộ mô tả âm thanh liên quan đến
âm sắc, nhịp điệu, âm giai và các khía cạnh khác của âm nhạc, những khía cạnh mà
không được đề cập đến trong các cơ sở lý thuyết. Một số bộ mô tả âm thanh này được
đề xuất bởi tác giả và các bộ khác thì được lấy từ các nghiên cứu đã có từ trước. Chúng
tôi cũng so sánh các kỹ thuật máy học thường được dùng để phân loại và phân tích
cách mà chúng giải quyết các vấn đề khi phân loại thể loại nhạc. Chúng tôi cũng thảo
luận về khả năng đại diện cho các mô hình phân loại khác nhau của chúng trong khoa
học nhận dạng. Thêm vào đó, kết quả phân loại khi sử dụng các kỹ thuật máy học được
đối chiếu với các kết quả của một số thử nghiệm nghe được đề xuất. Phép so sánh này
hướng chúng tôi nghĩ đến một mô hình cụ thể của các bộ phân loại mà sẽ được kiểm
chứng và mô tả chi tiết. Một trong những mục đích của luận án này cũng là so sánh các
kết quả dưới các cấu hình dữ liệu khác nhau; có nghĩa là sử dụng các bộ dữ liệu khác
7


nhau, trộn chúng vào với nhau và tái hiện một số tình huống thực có thể được sử dụng
trong các bộ phân loại (như bộ dữ liệu khổng lồ). Ở phần kết luận, chúng tôi sẽ thảo
luận về cách thức mà mô hình phân loại được đề xuất ở đây có thể phá vỡ được hiệu
ứng bức tường vô hình đang tồn tại trong việc phân loại dòng nhạc tự động.


Dưới đây là những đóng góp của luận án này vào lĩnh vực phân loại dòng nhạc tự
động:
 Đưa ra các nhận xét đa phương diện về các dòng nhạc và cách phân loại
chúng.
 Đánh giá cả về chất lượng lẫn số lượng các chủng loại khác nhau của bộ mô
tả âm thanh được dùng để phân loại tự động.
 Đánh giá các kỹ thuật máy học khác nhau và các ưu, nhược điểm của chúng
trong phân loại dòng nhạc.
 Đề xuất một mô hình mới của bộ phân loại sau khi phân tích việc phân loại
dòng nhạc từ các lĩnh vực khác nhau.
 Phân tích hoạt động của mô hình được đề xuất này trong các môi trường
khác nhau bao gồm các bộ dữ liệu hỗn hợp hoặc rất lớn.

8


Chương 1

GIỚI THIỆU CHUNG
1.1. LÝ DO CHỌN ĐỀ TÀI
Kết nối Internet băng thông rộng đã trở thành một nguồn thông tin phổ biến trong
đời sống của chúng ta. So với các nguồn khác, băng thông rộng cho phép người dùng
có thể lưu trữ và chia sẻ hàng ngàn các file âm thanh và hình ảnh trong ổ cứng, máy
nghe nhạc cầm tay hoặc điện thoại di động. Các nguồn chia sẻ như iTunes1,
Yahoo!Music2 hoặc Amazon3 đã tận dụng điều này để góp phần làm thay đổi ngành
công nghiệp âm nhạc. Đĩa CD bình thường đã trở nên quá lạc hậu khi mà các sản phẩm
thương mại dưới dạng MP3, AAC, WMA hay các định dạng file khác có thể được
người dùng chia sử một cách dễ ràng. Mặt khác, các mạng Peer2Peer rộng khắp cũng
góp một phần vào những thay đổi này (tuy nhiên một số vấn đề về pháp lý vẫn chưa

được làm rõ).

Trong suốt 30 năm vừa qua, nhạc vẫn được bán theo cách truyền thống dưới dạng
các đĩa như đĩa nhựa, đĩa CD,… các định dạng này được sắp xếp theo một cấu trúc cố
định, mỗi đĩa gồm 10 đến 15 bài hát thường là của cùng một ca sĩ được nhóm vào một
album. Cũng có hàng nghìn sự khác nhau của kiểu sắp xếp này (bộ sưu tập, CD
kép,…) nhưng chúng chỉ là cách làm khác của cùng một cấu trúc cơ bản. Ngày nay,
các cơ sở dữ liệu, các kho kỹ thuật số cho phép người dùng được tải các bài hát đơn lẻ
của các nghệ sĩ khác nhau, tự tạo các bộ sưu tập của mình và quyết định cách chia sẻ
những trải nghiệm âm nhạc của mình với cộng đồng. Các cổng thông tin như mySpace
giúp các ban nhạc mới và chưa có tiếng tăm phát triển bằng rất nhiều cách khác nhau
chứ không chỉ theo cách truyền thống của ngành công nghiệp âm nhạc.

9


Với những điều kiện này, cách sắp xếp của các cơ sở dữ liệu khổng lồ đã trở thành
một vấn đề thực sự cho các chuyên gia và những người yêu nhạc. Các phương pháp
mới để khám phá, giới thiệu và phân loại âm nhạc phải được đưa ra từ ngành công
nghiệp âm nhạc máy tính và các nhóm nghiên cứu.

Cộng đồng nhạc máy tính chỉ là một nhóm nhỏ trong cộng đồng khoa học máy tính
rộng lớn. hầu hết mọi người trong cộng đồng này đều là những người yêu nhạc cuồng
nhiệt. Và vấn đề thực sự nổi lên khi máy tính gặp âm nhạc. Đôi khi, trong cái thế giới
của những con số, xác suất và những đường hình sin này, mọi thứ về âm nhạc có thể bị
lãng quên và những nghiên cứu trở nên quá xa rời với mong muốn cuối cùng của người
dùng. Nghiên cứu của chúng tôi, tập trung vào lĩnh vực Truy xuất thông tin âm nhạc
(MIR), cố gắng kết hợp hai thế giới này lại, nhưng đôi khi đây là một nhiệm vụ thật
khó khăn. Theo quan điểm của chúng tôi, nghiên cứu về MIR nên xem xét những khía
cạnh khác nhau của âm nhạc như (1) mô tả đối tượng âm nhạc: những khái niệm cơ

bản của âm nhạc như BPM, giai điệu, âm sắc… (2) mô tả âm nhạc học về âm nhạc: các
nghiên cứu chính thức có thể mang lại cho cộng đồng của chúng ta một nền tảng lý
thuyết mà chúng tôi sẽ gặp khi sử dụng máy tính, và (3) các khía cạnh tâm lý học của
âm nhạc: việc biết các kích thích âm nhạc khác nhau có tác động như thế nào đến hành
vi của con người là rất quan trọng.

Âm nhạc có thể được phân loại theo thể loại, đây có lẽ là cách mô tả âm nhạc hay
được sử dụng nhất. Heittola (2003) đã tìm ra cách để quản lý được các cơ sở dữ liệu
khổng lồ được lưu trữ trong máy tình cá nhân bằng cách phân loại nhạc theo thể loại.
Phân loại nhạc theo thể loại cụ thể là một cách hữu dụng để miêu tả những đăc tính mà
nó giống với những bản nhạc khác cùng thể loại và phân biệt nó với các dòng nhạc
khác. Nhìn chung, nhạc trong cùng một thể loại có các đặc điểm tương tự nhau, ví dụ
như các nhạc cụ, nhịp điệu, giai điệu/họa âm gần giống nhau. Trong luận án này.

10


Chúng tôi sẽ thảo luận về cách sử dụng các kỹ thuật khác nhau để tách các đặc tính này
từ âm thanh, và chúng tôi sẽ tìm ra mối quan hệ giữa các file được lưu trữ trong ổ cứng
trên phương diện các thể loại âm nhạc được xác định bởi các nguyên tắc phân loại cụ
thể.

Có rất nhiều ngành liên quan đến lĩnh vực này, như là tìm kiếm thông tin, xử lý tín
hiệu, thống kê, nhạc học và nhân thức. Chúng tôi sẽ tập trung vào những công nghệ và
phương thức được đề xuất bởi MIR và việc xử lý nội dung âm nhạc.

1.2. TÓM TẮT LUẬN ÁN
Mục tiêu của nghiên cứu này là có được một đóng góp quan trọng vào sự phát triển
của công nghệ phân loại nhạc tự động. Có rất nhiều ngành khác nhau liên quan đến
lĩnh vực này, từ việc phân tích khách quan các thông số âm nhạc đến các chiến lược

marketing của các nhà bán lẻ âm nhạc. Trong bối cảnh này, các công cụ phân loại
chuyên dụng có hiệu quả cao có thể trở nên vô dụng hoàn toàn khi chúng ta thay đổi bộ
dữ liệu hoặc khi chúng ta cần phải thêm vào một dòng nhạc mới.

Chúng tôi nghiên cứu cách vận hành của công cụ phân loại trên các bộ dữ liệu khác
nhau (và cả khi trộn chúng vào với nhau), và chúng tôi đã cho thấy sự khác biệt giữa
các mức độ chính xác đạt được trong những bối cảnh khác nhau. Chúng tôi cũng
nghiên cứu ảnh hưởng của các bộ mô tả khác nhau và đề xuất sử dụng các đặc tính mới
(như là khả năng có thể khiến người ta nhảy nhót hay di chuyển) mà thường không
được dùng để phân loại các dòng nhạc. Kết quả nghiên cứu được minh họa thêm bằng
một loạt các thử nghiệm nghe được thực hiện trên một nhóm sinh viên âm nhạc để
phân biệt giữa tầm quan trọng của hai khía cạnh âm nhạc trong quá trình phân loại
tổng thể. Chúng tôi cũng nghiên cứu ưu và nhược điểm của các bộ phân loại khác nhau

11


và đưa ra đề xuất về việc sử dụng các bộ phân loại khác chưa từng được dùng trong
việc này.

Kết quả chỉ ra cách đồng diễn các bộ phân loại chuyên dụng dành riêng cho mỗi
loại (thay vì các bộ phân loại truyền thống mà chúng ta thấy trong công nghệ hiện đại)
có thể giúp chúng tôi vượt qua được bức tường vô hình trong việc phân loại tự động
các dòng nhạc (Aucouturier & Pachet, 2004). Các bộ phân loại được đề xuất có độ
chính xác lên tới trên 95% của việc phân loại chính xác trong các bộ dữ liệu thực,
nhưng như được chứng minh trong phân tích đối với việc trộn các bộ dữ liệu, mức độ
chính xác này có thể giảm 20% hoặc nhiều hơn thế. Ở đây chúng ta lại thấy được sự
cân bằng giữa hiệu quả của bộ phân loại theo thể loại và tính khái quát, như chúng ta
vẫn dự đoán; tuy nhiên, chúng tôi lại phân tích đâu là vấn đề then chốt để hạn chế các
vấn đề này. Mặt khác, chúng tôi cũng chỉ ra các bộ mô tả truyền thống liên quan đến

họa âm và âm sắc có thể cho ra kết quả tổng thể tốt nhất, trừ một số thử nghiệm rất cụ
thể mà ở đó việc sử dụng các bộ phân loại khác (di chuyển, sắc điệu,…) có thể cải
thiện tỉ lệ hiệu quả.

Song song với tất cả các nghiên cứu chi tiết này, chúng tôi cũng trình bày các kết
quả của các thử nghiệm nghe, những thử nghiệm này đã cố gắng bổ sung cho kết quả
của các bộ phân loại được phân tích ở đây.

1.3.

TỔ CHỨC CỦA BÀI LUẬN

Chúng tôi bắt đầu với phần giới thiệu các lý thuyết về phân loại dòng nhạc trong
chương 2. Ở chương 3, chúng tôi nghiên cứu tổng quan các vấn đề của việc phân loại
theo dòng nhạc. Trong chương 4, chúng tôi sẽ trình bày về nền tảng kỹ thuật cần thiết
để xây dựng bộ phân loại như thế này. Trong chương 5, chúng tôi sẽ trình bày những
đóng góp của mình. Chúng tôi nghiên cứu ưu và nhược điểm của các bộ phân loại khác
12


nhau và đưa ra đề xuất về việc sử dụng các bộ phân loại khác chưa từng được dùng
trong việc này, đó là bộ phân loại SIMCA. Cuối cùng, ở chương 6, chúng tôi sẽ trình
bày kết luận tổng thể và đề xuất các nghiên cứu trong tương lai.

13


Chương 2

NHỮNG TIẾP CẬN VỀ LÝ THUYẾT

PHÂN LOẠI ÂM NHẠC
Phân loại dòng nhạc thực tế là cách chủ đề hóa bản nhạc với các đặc tả của nó.
Trong phần này, chúng tôi sẽ giới thiệu những lý thuyết quan trọng nhất dựa trên
cách chủ đề hóa của con người. Những khái niệm này không tập trung vào âm nhạc
là gì mà giải thích làm thế nào con người phân biệt những khái niệm khác nhau mà
đôi khi được định nghĩa rất rõ ràng nhưng thỉnh thoảng lại không. Chúng ta sẽ xem
ở chương 4, tất cả những phương thức phân loại tự động đều mô phỏng những
thuộc tính chính của công nghệ chủ đề hóa. Trong chương 6, chúng tôi sẽ thảo luận
xem khái niệm chủ đề hóa nào thực hiện tốt nhất những nghiên cứu của chúng tôi
trong việc phân loại dòng nhạc và chúng tôi cũng sẽ so sánh với những thuật toán
thường được sử dụng khác.

2.1. LÝ THUYẾT CỔ ĐIỂN
Chủ đề có thể được định nghĩa bởi một bộ các đặc trưng cần thiết và thích đáng.
Khi một khái niệm mới cần được phân loại theo lý thuyết cổ điển, quá trình xử lý sẽ
thực hiện bằng cách kiểm tra xem trường hợp này có đủ tất cả những thuộc tính cần
thiết để được nhóm vào một trong các danh mục nào đó hay không.

Lý thuyết cổ điển được sử dụng cho tới thế kỷ 20 bởi vì nó có thể giải thích hầu hết
các vấn đề khoa học phân loại. Việc phân loại động vật theo phương pháp truyền thống
là một ví dụ cho việc sử dụng trên. Mô hình phân loại này được nghiên cứu kỹ càng
bởi Lakoff (1987) và có các tính chất như sau:
1. Các nhóm có tính chất bao quát các thuộc tính bên trong và bên ngoài sự vật.

14


2. Các sự vật được xếp chung vào một nhóm khi và chỉ khi chúng có các tính chất
chung.
3. Mỗi nhóm có ranh rới riêng rõ ràng với nhau.

4. Nhóm được định nghĩa bởi các thuộc tính chung của các thành viên trong nhóm.
5. Nhóm có tính độc lập thông qua các tính chất riêng của những tiêu chí phân
loại.
6. Không thành viên nào trong nhóm có bất cứ biểu tượng đặc biệt nào.
7. Tất cả các cấp bậc của hệ thống thứ cấp đều quan trọng và có tính tương đương.

2.2. LÝ THUYẾT NGUYÊN MẪU
Rosch (1975) là người đầu tiên đưa ra một ý tưởng chung cho vấn đề phân loại.
Trong nghiên cứu bà dã chứng minh những điểm yếu của việc phân loại theo lý thuyết
cổ điển trong một số môi trường. Tên của bà hầu hết liên quan tới khái niệm được gọi
là lý thuyết nguyên mẫu.

Quan điểm nguyên mẫu giả sử rằng, có một sự đại diện ngắn gọn của nhóm, gọi là
Nguyên mẫu, bao gồm một số xu hướng đặc trưng của các thành viên nhóm. Tất cả các
phương pháp phân loại sẽ được quyết định bởi tính giống nhau của một trường hợp cho
trước của nguyên mẫu. Khi các trường hợp mới được đưa ra và các vector đặc trưng
được tính toán, thì khoảng cách về độ giống với nguyên mẫu cũng được tính toán. Khi
độ giống nhau này lớn hơn một ngưỡng cho trước, thì trường hợp mới này được xem là
một phần của nhóm. Trong trường hợp có nhiều lựa chọn phân loại, thì khoảng cách
gần nhất tới các nguyên mẫu sẽ quyết định việc phân loại.

Việc tính toán hỗ trợ cho Lý thuyết Nguyên mẫu được đưa ra bởi Hampton (1993).
Độ giống nhau của một trường hợp nhất định với nguyên mẫu có thể được tính toán

15


như một tổng trọng số của các đặc trưng. Các trọng số này được lựa chọn theo sự liên
quan của đặc trưng với khái niệm của nó:


(2.1)

trong đó, t là một trường hợp mới, A là nguyên mẫu, S(A,t) là độ giống nhau của t
với nhóm A, wi là trọng số của đặc điểm thứ i so với nguyên mẫu, và vi(t) là đặc điểm
của bản thân trường hợp đó. Công thức này đưa ra cách đo độ giống nhau đến tâm của
nhóm, được đo bởi độ quan trọng của các đặc trưng. Độ giống nhau của một trường
hợp cho trước so với các nhóm khác nhau có thể được tính toán bằng cách sử dụng
Luật lựa chọn của Luce (Luce’s Choice Rule, 1959):
(2.2)

trong đó, p(A,t) là khả năng của việc gán t vào nhóm A. Lý thuyết nguyên mẫu cho
pháp giải quyết một số vấn đề của Lý thuyết Cổ điển mà đã đề cập ở trên. Đầu tiên,
trong quá trình phân loại, có một số điều khác biệt trong tính điển hình của một số
thành viên nhóm. Quan điểm nguyên mẫu sử dụng thông tin này để tạo ra nguyên mẫu
theo các đặc trưng của các thành viên điển hình nhất, nhưng vẫn tính tới (chứ không
xem nhẹ) các trường hợp ít điển hình hơn. Thứ hai, các đặc điểm khác biệt về tính điển
hình này của các thành viên dẫn tới sự khác biệt về cách thực hiện. Các thành viên ở
gần nguyên mẫu sẽ được xét sớm hơn và được phân loại nhanh hơn (Murphy &
Brownell, 1985). Điều này khá giống với cách con người phân loại trong một môi
trường phân loại dễ dàng (mà không quá hiển nhiên).

16


Lý thuyết nguyên mẫu có vẻ như đã giải quyết được tất cả các vấn đề của lý thuyết
cổ điển. Nhưng có một số hạn ché cần tính tới. Đầu tiên, quá trình phân loại của con
người dựa trên lý thuyết này đã sử dụng một số loại của thông tin bổ sung để tạo ra
cụm, chứ không phải chỉ thông qua việc đo đạc khoảng cách cụ thể. Thứ hai, trên quan
điểm toán học, các tâm cụm được định vị theo một đơn vị thống kê nghiêm ngặt, ngoài
ra, các thuộc tính của tâm cụm không phụ thuộc (trong bước đầu) vào các cụm khác.

Điều này trái ngược hẳn với cách của con người hình dung các nguyên mẫu theo
những nguyên mẫu lân cận và những nguyên mẫu này sẽ được định nghĩa chính xác ít
nhiều. Thứ ba, con người cũng có thể phân biệt giữa các thuộc tính mà định nghĩa một
nhóm cụ thể, trong khi lý thuyết phân loại thì không thể làm được điều đó. Trong lý
thuyết nguyên mẫu, mối tương quan giữa các đặc trưng và trọng số của các thuộc tính
các nhau không làm ảnh hưởng đến định nghĩa nguyên mẫu.

Mô hình phân loại này sẽ giải quyết một số vấn đề trong nhận dạng dòng nhạc,
nhưng không đủ để bao hàm hết được độ phức tạp của nó. Lý thuyết lấy mẫu sẽ đưa ra
một số giải pháp cho các vấn đề cụ thể này.

2.3. LÝ THUYẾT LẤY MẪU
Các mô hình mẫu khẳng định rằng một danh mục có thể được định nghĩa bởi một
bộ các cá nhân (mẫu). Nói một cách ước chừng rằng, việc phân loại các trường hợp
mới sẽ được xác định bằng cách tương tự như các mẫu đã được lưu trữ. Các mô hình
mẫu đã được nghiên cứu chi tiết bởi nhiều tác giả (Medin & Schaffer, 1978; Nosofsky,
1986, 1992; Brooks, 1978: Hintzman, 1986).

Ban đầu, một danh mục được thể hiện như là một bộ các đại diện của các mẫu.
Trong nghiên cứu này, chúng tôi sẽ xem xét đến mô hình ngữ cảnh của mẫu, trong đó
có nêu ra hai giả thuyết quan trọng:
17


1. Sự tương đồng của một trường hợp mới với các mẫu đã được lưu trữ là một đa
chức năng của sự tương đồng giữa các đặc trưng. Nghĩa là, các vector của
trường hợp mới phải khá giống với các trường hợp được lưu trữ.
2. Độ tương đồng của trường hợp mới được tính toán so với tất cả các trường hợp
hiện có trong tất cả các nhóm và sau đó phân loại vào nhóm mà có độ tương
đồng cao nhất.


Từ quan điểm toán học, độ giống nhau của phần tử t với nhóm A là tổng các độ
giống nhau so với mỗi mẫu của nhóm này:

(2.3)

Độ giống nhau giữa trường hợp mới và trường hợp đã được lưu trữ được tính như
sau:
(2.4)

trong đó, si = 1 khi các đặc trưng thứ i của các phần tử a và t khớp với nhau, và si =
mi khi chúng không phù hợp.
Trong một số bối cảnh, một số đặc trưng có tầm quan trọng hơn so với những đặc
trưng khác. Với công thức trên, tấc cả các đặc trưng đều có trọng số bằng nhau.
Phương trình 2.4 sẽ gán thêm những trọng số khác nhau vào các thuộc tính.

18


Hơn nữa, quan điểm lấy mẫu có thể giải quyết một số vấn đề của quan điểm nguyên
mẫu. Nó có thể phân biệt giữa các thuộc tính mà định nghĩa nên tâm hoặc nguyên mẫu,
do đó, nó cho phép lưu nhiều thông tin bổ sung hơn nữa. Điều đó có nghĩa là một
nhóm có thể được định nghĩa bởi nhiều đặc trưng cụ thể trong khi có những nhóm khác
có thể được định nghĩa bởi những đặc trưng cụ thể khác. Thứ hai, nó đưa ra bối cảnh
để định vị các tâm trong không gian được chọn làm nguyên mẫu. Từ đó, vị trí của tâm
cụm không hoàn toàn dựa vào một biện pháp thống kê như trong quan điểm nguyên
mẫu.

Lý thuyết lấy mẫu của chủ đề hóa cũng cho thấy một số giới hạn thuộc khái niệm.
Nói chung, không có một bằng chứng rõ ràng rằng mẫu mà định nghĩa một nhóm nên

là các thành viên của nhóm đó. Ai định nghĩa nổi đâu là thể loại đâu không phải? Ai
xác định được cái nào là những thuộc tính mà định nghĩa nên một nhóm? Những người
phê bình lý thuyết phân loại này chỉ ra rằng thông tin của những nhóm này không được
sử dụng trong phân loại.

Mô hình mẫu được thực hiện bằng cách sử dụng mô hình bối cảnh tổng quát
(Ashby & Maddox, 1993; Nosofsky, 1986). Sử dụng một tập hợp các kỹ thuật thống kê
Multidimensional Scaling (MDS) 1 để tiếp cận tới việc mô hình hóa sự tương đồng.
Trong bối cảnh này, những mẫu được đại diện như những điểm trong một không gian
đa chiều, và tính toán độ tương đồng giữa các mẫu là một chức năng suy giảm về
khoảng cách của chúng. Như đã đề cập ở trên, một trong những lợi ích của lý thuyết
lấy mẫu là khả năng tao ra những nhóm khác nhau sử dụng những tiêu chuẩn (hoặc bộ
1

Multidimensional scaling (MDS) là một tập hợp các kỹ thuật thống kê thường được sử dụng
trong việc trực quan hóa thông tin để khám phá những sự tương đồng hoặc bất tương đồng trong dữ
liệu. MDS là một trường hợp đặc biệt của sự sắp xếp. Một thuật toán MDS bắt đầu với một ma trận
của sự tương đồng giữa các phần tử, sau đó gán một vị trí cho mỗi phần tử trong không gian đa
chiều, trong đó N được xác định theo cách suy diễn. Đối với N đủ nhỏ, các địa điểm có thể được hiển
thị trong một đồ thị trực quan 3D.

19


mô tả) khác nhau. Bằng cách này, chúng tôi nhận định rằng với kinh nghiệm trong một
nhiệm vụ nhất định, các quan sát viên thường xuyên học hỏi để phân phối sự chú ý của
họ trên những bộ mô tả khác nhau theo hướng tối ưu hóa hiệu suất. Cụ thể, trong một
thử nghiệm liên quan đến nhiều nhóm, xác suất mà phần tử i được xếp vào nhóm J
được cho bởi:
(2.5)


trong đó, sij biểu thị độ tương đồng của phần tử i với bản mẫu j và chỉ số j  J biểu
thị tổng của tất cả các mẫu j thuộc vào nhóm J . Khi g lớn hơn 1, người quan sát trả lời
một cách chuẩn xác hơn về nhóm mà sản sinh ra độ tương đồng tổng lớn nhất.

Một cách phổ biến để tính toán khoảng cách giữa các mẫu i và j là việc sử dụng
công thức mô hình khả năng Minkowski power-model theo trọng số:

(2.6)

trong đó, r xác định số liệu về khoảng cách của không gian. Nếu r = 1 ta sẽ thu
được một số liệu về khoảng cách và r = 2 xác định một số liệu về khoảng cách
Euclidean. Tham số wm là các trọng lượng sự chú ý (Xem Nosofsky & Johansen (2000)
để biết thêm chi tiết).

20


2.4. CONCLUSION
Trong phần này, chúng tôi đã giới thiệu ba lý thuyết phân loại. Việc phân loại dòng
nhạc bởi con người được thực hiện theo nhiều tiêu chí cùng một lúc, do đó, việc phân
loại cho một bài hát cụ thể có thể sử dụng nhiều hơn một lý thuyết tại cùng một thời
điểm. Ví dụ, việc phân loại các bài hát cụ thể của chúng tôi có thể được thiết lập bởi
một nguyên mẫu nhịp điệu và nhiều những ví dụ về nhạc cụ. Tất cả các kỹ thuật phân
loại trong Chương 4 đều liên quan đến những khái niệm này.

21


Chương 3


KHÁI NIỆM, ĐỊNH NGHĨA, PHƯƠNG PHÁP LUẬN
Phân loại dòng nhạc có thể được nghiên cứu từ nhiều ngành kiến thức khác
nhau. Chúng tôi sẽ bắt đầu với một miêu tả ngắn gọn về phân loại dòng nhạc được
thực hiện bởi con người để lấy ý tưởng đưa ra framework của chúng tôi. Sau đó
chúng tôi mô tả khái quát các bộ dữ liệu được sử dụng bởi chúng tôi và cả trong
cộng đồng Truy xuất thông tin âm nhạc MIR.

3.1. PHÂN LOẠI DÒNG NHẠC BỞI CON NGƯỜI
Theo Cook (1999), các khía cạnh âm nhạc mà con người dùng để mô tả âm nhạc
gồm có Cao độ (Pitch), Độ lớn (Loudness), Độ ngân (Duration) và Âm sắc (Timbre)
tuy nhiên đôi khi âm nhạc cũng được mô tả theo các thuật ngữ như Cấu trúc (Texture)
hay Phong cách (Style). Phân loại dòng nhạc bởi con người có lẽ đã bao gồm hết các
khía cạnh này, mặc dù quá trình này vẫn chưa được hiểu một cách thấu đáo (Ahrendt,
2006). Nền tảng văn hóa của người nghe sẽ chi phối quá trình phân loại này.

Perrot & Gjerdigen (1999) đã chứng minh được khả năng phân loại dòng nhạc của
con người tốt như thế nào. Con người chỉ cần khoảng 300 mini giây thông tin âm thanh
để dự đoán chính xác một dòng nhạc (với độ chính xác trên 70%) (Thật không may,
theo Craft cùng các cộng sự. (2007), nghiên cứu này hiện vẫn chưa được xuất bản tuy
nhiên độc giả có thể phân tích kết quả nghiên cứu của chúng tôi về khả năng phân loại
dòng nhạc của con người ở Phần 5.3). Điều này cho thấy không cần thiết phải xây
dựng một mô tả lý thuyết ở mức độ trìu tượng hóa cao hơn – tương ứng đòi hỏi các
phân tích lâu hơn – đối với phân loại thể loại, theo mô tả của Martin cùng cộng sự.
(1998).

22


Dalla (2005) nghiên cứu khả năng của con người trong việc phân loại các dòng

nhạc con của nhạc cổ điển. Thử nghiệm này gồm 4 dòng nhạc, từ dòng Barốc cho đến
dòng tân lãng mạng, tất cả đều thuộc danh mục nhạc cổ điển. Các tác giả nghiên cứu
về cái gọi là "khoảng cách thời gian" theo hướng nếu âm nhạc ở cùng thời điểm thì
cũng sẽ tương đồng về âm thanh. Các kết quả đạt được cho thấy các chủ thể sử dụng sự
khác biệt tạm thời về âm nhạc để phân biệt giữa các thể loại.

3.2. CÁC BỘ DỮ LIỆU DATASET
Ở đây chúng tôi mô tả những bộ dữ liệu khác nhau mà có liên quan đến công việc
của chúng tôi cho những mục đích khác nhau: một vài trong số chúng được biết đến và
sử dụng rộng rãi bởi hầu như toàn bộ cộng đồng, trong khi đó, một số bộ khác chỉ được
sưu tập đặc biệt cho công việc của chúng tôi. Chúng tôi muốn tạo ra những kết quả
kiểm thử độc lập với những bộ dữ liệu, do đó, chúng tôi cần thiết kế những kiểm thử
của chúng tôi bằng việc tổ hợp chúng lại với nhau.

Theo Herrena (2002), có một vài những yêu cầu được đưa ra để thiết lập nên một
bộ dữ liệu hữu ích:
 Các loại của vấn đề: việc trích rút đặc điểm đa cấp độ, sự phân đoạn, sự định
danh …
 Các kiểu của file: Các ví dụ âm thanh, các bản ghi của những nhạc cụ đơn
lẻ, bản nhạc đa âm sắc …
 Chú giải siêu dữ liệu: Musical Instrument Digital Interface (MIDI), đầu ra
của một thuật toán MIR …
 Nguồn: Những sưu tập của một cá nhân, các cơ sở dữ liệu trên Internet,
những bản ghi đặc biệt …

23


×