Tải bản đầy đủ (.pdf) (78 trang)

Sáng tác nhạc tự động sử dụng máy học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.23 MB, 78 trang )

ĐẠI HỌC QUỐC GIA TP. HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN ĐỨC THUẬN

SÁNG TÁC NHẠC TỰ ĐỘNG SỬ DỤNG MÁY HỌC

Chuyên ngành: Kỹ Thuật Viễn Thông
Mã số: 8520208

LUẬN VĂN THẠC SĨ

TP. HỒ CHÍ MINH, tháng 1 năm 2023


Cơng trình hồn thành tại: Trường Đại Học Bách Khoa –ĐHQG -HCM
Cán bộ hướng dẫn khoa học : TS. Võ Tuấn Kiệt
Cán bộ chấm nhận xét 1 : PGS.TS Võ Nguyễn Quốc Bảo
Cán bộ chấm nhận xét 2 : PGS.TS Đỗ Hồng Tuấn
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.
HCM ngày 10 tháng 01 năm 2023
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
1. Chủ tịch Hội đồng: GS.TS Lê Tiến Thường
2. Thư ký Hội đồng: PGS.TS Hà Hoàng Kha
3. Phản biện 1: PGS.TS Võ Nguyễn Quốc Bảo
4. Phản biện 2: PGS.TS Đỗ Hồng Tuấn
5. Ủy viên: TS. Huỳnh Thế Thiện
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có).
CHỦ TỊCH HỘI ĐỒNG


GS.TS Lê Tiến Thường

TRƯỞNG KHOA ĐIỆN-ĐIỆN TỬ


ĐẠI HỌC QUỐC GIA TP.HCM

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: NGUYỄN ĐỨC THUẬN

MSHV: 1970669

Ngày, tháng, năm sinh: 11/11/1995

Nơi sinh: Đồng Nai

Chuyên ngành: Kỹ thuật Viễn thông

Mã số : 8520208

TÊN ĐỀ TÀI (Tiếng Việt và Tiếng Anh):
Tên Tiếng Việt: Sáng tác nhạc tự động sử dụng máy học.
Tên Tiếng Anh: Music generation using machine learning.
NHIỆM VỤ VÀ NỘI DUNG:

- Tìm hiểu, khảo sát về tín hiệu âm nhạc.
- Xây dựng giải thuật máy học để tự động tạo nhạc.
- Xây dựng phần mềm tạo nhạc sử dụng máy học và đánh giá kết quả.
NGÀY GIAO NHIỆM VỤ : 05/09/2022
NGÀY HOÀN THÀNH NHIỆM VỤ: 18/12/2022
CÁN BỘ HƯỚNG DẪN : TS VÕ TUẤN KIỆT

Tp. HCM, ngày 22 tháng 06 năm 2022
CÁN BỘ HƯỚNG DẪN

CHỦ NHIỆM BỘ MÔN ĐÀO TẠO

(Họ tên và chữ ký)

(Họ tên và chữ ký)

TRƯỞNG KHOA ĐIỆN-ĐIỆN TỬ
(Họ tên và chữ ký)


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc nhất đến thầy Võ
Tuấn Kiệt là người đã tận tình chỉ bảo và hướng dẫn em trong suốt quá trình thực
hiện đề cương luận văn này. Thầy đã giúp đỡ, dạy bảo em không chỉ về mặt kiến
thức, mà còn là những kỹ năng để học tập và làm việc. Đó là những bài học, kinh
nghiệm quý báu sẽ đồng hành cùng em trên suốt chặng đường học tập, nghiên cứu
và làm việc sau này.

Em xin được gửi lời cảm ơn đến các thầy cô giáo của trường Đại học Bách
Khoa TPHCM đã giảng dạy, truyền đạt cho em những kiến thức tốt nhất, những kỹ
năng sống. Đó là nền tảng để em vững bước trên chặng đường sau này của mình.
Cuối cùng em xin gửi lời cảm ơn tới bố mẹ, gia đình, bạn bè, những người đã
ln bên cạnh em trong mọi hồn cảnh, tạo cho em những điều kiện tốt nhất để em
có thể phát huy, tìm hiểu những đam mê, sở thích của mình trong các lĩnh vực.
Tp. Hồ Chí Minh, ngày 15 tháng 6 năm 2022
Học viên

Nguyễn Đức Thuận

Lời cảm ơn

iv

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

TÓM TẮT
Máy học gần đây đã trở thành một lĩnh vực phát triển nhanh chóng và hiện
được sử dụng thường xuyên cho các nhiệm vụ phân loại và dự đoán, chẳng hạn như
nhận dạng hình ảnh, nhận dạng giọng nói hoặc dịch thuật. Nhưng một lĩnh vực ngày
càng quan tâm của việc ứng dụng các kỹ thuật máy học là việc tạo ra nội dung. Nội
dung có thể thuộc nhiều loại: hình ảnh, văn bản và âm nhạc.
Trong nội dung của luận văn, kết hợp ứng dụng mạng Autoencoder và mạng
Transformer để tạo nhạc. Ban đầu sử dụng mạng Autoencoder để tạo ra ý tưởng cho
bài nhạc sau đó đưa ý tưởng đó vào một mạng đặc biệt gồm hai mạng Transformer

tương ứng với bộ giải mã và bộ mã hóa được đặt trong một số vòng lặp nhất định để
biến đổi ý tưởng thành một chuỗi thống nhất về mặt nội dung . Cuối cùng chuỗi sẽ
được đưa qua những mạng Transformer được training để tạo ra những phần còn lại
của bài nhạc sau đó chúng sẽ được chuyển thành một bài nhạc piano dưới dạng file
midi .Kết quả sẽ được đánh giá bằng những người có chun mơn về âm nhạc.

_______________________________________________________________________________

Tóm tắt

v

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

ABSTRACT
Machine Machine learning has recently become a rapidly evolving field and
is now frequently used for classification and prediction tasks, such as image
recognition, speech recognition, or translation. But one area of growing interest in
the application of machine learning techniques is content creation. Content can be
of many types: images, text, and music.
In the content of the thesis, the application of Autoencoder network and
Transformer network is combined to create music. Initially using the Autoencoder
network to generate ideas for the song then fed that idea to a special network of two
Transformer networks, corresponding to the decoder and encoder in a certain
number of loops, used to generate turn ideas into a unified sequence of content.
Finally the sequence will be passed through trained Transformer networks to

generate the remainder then they will be converted to a piano song in the form of a
midi file. The results will be evaluated by both music professionals and nonmusicians.

_______________________________________________________________________________

Abtract

vi

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

LỜI CAM ĐOAN
Tôi tên Nguyễn Đức Thuận là học viên cao học chun ngành Kỹ Thuật Viễn
Thơng, khóa 2019, tại Trường Đại học Bách Khoa - Đại học Quốc gia thành phố Hồ
Chí Minh.
Tơi xin cam đoan những nội dung sau đều là sự thật:
-

Cơng trình nghiên cứu này hồn tồn do chính tơi thực hiện với sự hướng
dẫn của TS. Võ Tuấn Kiệt

-

Các tài liệu tham khảo sử dụng trong luận văn được trích dẫn đầy đủ, rõ
ràng, và đã được cơng bố trên các hội nghị, tạp chí uy tín.


-

Các số liệu và kết quả của luận văn được tôi thực hiện một cách độc lập và
trung thực. Những bài báo khoa học do chính tơi thực hiện được liệt kê cụ
thể.

Tp. Hồ Chí Minh, ngày....tháng.....năm.....

Nguyễn Đức Thuận

_______________________________________________________________________________

Lời cam đoan

vii

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

MỤC LỤC
DANH SÁCH HÌNH ẢNH ...................................................................................... X
DANH SÁCH BẢNG ............................................................................................XII
CHƯƠNG 1. GIỚI THIỆU TỔNG QUAN ............................................................1
1.1
1.2
1.3
1.4

1.5

LÝ DO CHỌN ĐỀ TÀI: ........................................................................................1
CÁC NGHIÊN CỨU LIÊN QUAN: .........................................................................2
CÁC THÁCH THỨC CỦA HỆ THỐNG TẠO NHẠC TỰ ĐỘNG ..................................4
CÁC ĐÓNG GÓP CỦA LUẬN VĂN .......................................................................4
NỘI DUNG LUẬN VĂN .......................................................................................5

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT ........................................................................7
2.1 LÝ THUYẾT NHẠC LÝ VÀ CƠ SỞ SÁNG TÁC NHẠC: ...........................................7
Nhạc lý: ...................................................................................................7
Nốt nhạc (Note): ......................................................................................7
Số chỉ nhịp: .............................................................................................9
Hợp âm :................................................................................................10
Sáng tác nhạc: .......................................................................................11
2.2 BỘ DỮ LIỆU VÀ THƯ VIỆN: .............................................................................11
MIDI file. ...............................................................................................11
Bộ dữ liệu EMOPIA ..............................................................................12
MusPy ....................................................................................................15
2.3 MỘT SỐ KIẾN TRÚC SỬ DỤNG TRONG BÀI ......................................................16
Fully Connected ....................................................................................16
Autoencoder ..........................................................................................17
Transformer: .........................................................................................18
CHƯƠNG 3. XỬ LÝ DATA ..................................................................................35
3.1 DỮ LIỆU TRAINING:........................................................................................35
3.2 TIỀN XỬ LÝ DỮ LIỆU: .....................................................................................36
Chuyển đổi dữ liệu từ .mid sang Dataset tensorflow ............................36
Chuyển đổi Time sang Delta Time ........................................................37
Note chồng ............................................................................................37
CHƯƠNG 4. XÂY DỰNG MƠ HÌNH .................................................................39

4.1 TỔNG QT VỀ HỆ THỐNG .............................................................................39
4.2 CẤU TẠO VÀ NGUYÊN LÝ HOẠT ĐỘNG: ..........................................................40
Khởi tạo ý tưởng: ..................................................................................40
_______________________________________________________________________________

Mục lục

viii

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

Thống nhất nội dung .............................................................................44
Khối tạo nhạc: .......................................................................................45
Tổng hợp thành file MIDI: ....................................................................50
CHƯƠNG 5. KẾT QUẢ ĐẠT ĐƯỢC ..................................................................51
5.1 KẾT QUẢ ĐƯỢC ĐÁNH GIÁ BỞI NGƯỜI ...........................................................51
Người có chuyên môn về âm nhạc ........................................................51
Người không có chuyên môn về âm nhạc..............................................53
5.2 KIỂM TRA BẢN QUYỀN BẰNG CÔNG CỤ CỦA YOUTUBE .................................55
5.3 KIỂM TRA VÀ SO SÁNH VỚI MẠNG TRONG BÀI BÁO EMOPIA[37] ................56
Surface-level objective metrics .............................................................56
Emotion-related objective metrics ........................................................57
CHƯƠNG 6. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN .....................................58
6.1 NHỮNG KẾT QUẢ ĐÃ ĐẠT ĐƯỢC ....................................................................58
6.2 HƯỚNG PHÁT TRIỂN .......................................................................................58
TÀI LIỆU THAM KHẢO ......................................................................................59

PHỤ LỤC A: KHẢO SÁT CỦA NGƯỜI CĨ CHUN MƠN .........................63
LÝ LỊCH TRÍCH NGANG ....................................................................................65

_______________________________________________________________________________

Mục lục

ix

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

DANH SÁCH HÌNH ẢNH
Hình 2-1: Hình nốt và giá trị độ dài tương đối giữa các hình nốt ...............................7
Hình 2-2: Mối tương quan độ dài giữa các nốt ...........................................................8
Hình 2-3: Biểu diễn MIDI theo độ cao của note trên trường thời gian ....................12
Hình 2-4: Violin plots of the distribution in (a) note density, (b) length, and (c)
velocity for clips from different classes. ...................................................................13
Hình 2-5: Histogram of the keys (left / right: major / minor 249 keys) for clips from
different emotion classes [37] ...................................................................................13
Hình 2-6: Russell’s circumplex model [39] ..............................................................14
Hình 2-7: Lớp Fully Connected ................................................................................16
Hình 2-8: cấu trúc mạng Autoencoder ......................................................................18
Hình 2-9: Kiến trúc tổng quát của mạng Transformer [38] ......................................19
Hình 2-10: Lớp embedding và positional encoding [38] ..........................................20
Hình 2-11: Add và normalize [38] ............................................................................21
Hình 2-12: Lớp chú ý [38] ........................................................................................22

Hình 2-13: Tự chú ý ..................................................................................................22
Hình 2-14: Chú ý nhiều đầu ......................................................................................23
Hình 2-15: Lớp Cross Attention [38] ........................................................................24
Hình 2-16: Lớp self attention tồn cầu [38] ..............................................................25
Hình 2-17: Lớp causal self attention [38] .................................................................25
Hình 2-18: Feed forward network [38] .....................................................................26
Hình 2-19: Lớp Encoder [38] ....................................................................................27
Hình 2-20: Encoder[38] ............................................................................................28
Hình 2-21: Lớp Decoder[38].....................................................................................29
Hình 2-22: Bộ Decoder[38] ......................................................................................30
Hình 2-23: các Hyperparameters trong mơ hình.[38] ...............................................31
Hình 3-1: Sơ đồ tiền xử lý dữ liệu ............................................................................36
Hình 3-2: Lưu đồ giải thuật thuật tốn tính tốn Note chồng. ..................................38
Hình 4-1: Sơ đồ khối hệ thống ..................................................................................39
_______________________________________________________________________________

Danh sách hình ảnh

x

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

Hình 4-2: Khởi tạo ý tưởng .......................................................................................40
Hình 4-3: Cấu trúc Autoencoder ...............................................................................41
Hình 4-4: Đầu xử lý clip. ..........................................................................................42
Hình 4-5: Đầu xử lý chuỗi random. ..........................................................................42

Hình 4-6: Tổng hợp. ..................................................................................................43
Hình 4-7: Thống nhất nội dung .................................................................................44
Hình 4-8: khối tạo nhạc .............................................................................................46
Hình 4-9: Tạo During ................................................................................................46
Hình 4-10: Lưu đồ giải thuật để tăng hiệu quả cho việc tạo during time .................48
Hình 5-1: Đánh giá của người có chun mơn âm nhạc ...........................................53
Hình 5-2: Đánh giá của người nghe không chuyên môn về âm nhạc ......................54
Hình 5-3: Kiểm tra bản quyền của Youtube .............................................................55

_______________________________________________________________________________

Danh sách hình ảnh

xi

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

DANH SÁCH BẢNG
Bảng 2-1: Cấu trúc của Note Class ...........................................................................15
Bảng 3-1: Bảng số lượng clips mỗi góc phần tư trong khơng gian cảm xúc ............35
Bảng 5-1: Kết quả đánh giá từ người có chun mơn về âm nhạc ...........................51
Bảng 5-2: Tổng hợp kết quả đánh giá từ người có chun mơn về âm nhạc ...........52
Bảng 5-3: Tổng hợp kết quả đánh giá từ người có chun mơn về âm nhạc ...........54
Bảng 5-4: So sánh kết quả giữa data thực tế và nhạc tạo ra.....................................56
Bảng 5-5: So sánh với những mạng trong bài báo [37] ............................................56
Bảng 5-6: So sánh kết quả khi sử dụng LSTM-Attn+REMI emotion classifier để

đánh giá .....................................................................................................................57

_______________________________________________________________________________

Danh sách viết tắt

xii

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

Danh mục các từ viết tắt
Từ viết tắt

Nghĩa tiếng Anh

Nghĩa tiếng Việt

CNN

Convolutional Neural Network

Mạng thần kinh tính chập

RNN

Recurrent Neural Network


Mạng thần kinh hồi quy

LSTM

Long short term memory

Bộ nhớ dài-ngắn hạn

FC

Fully Connected

Tầng kết nối đầy đủ

_______________________________________________________________________________

Danh sách hình ảnh

xiii

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

CHƯƠNG 1. GIỚI THIỆU TỔNG QUAN
1.1 Lý do chọn đề tài:
Máy học gần đây đã trở thành một lĩnh vực phát triển nhanh chóng và hiện

được sử dụng thường xuyên cho các nhiệm vụ phân loại và dự đoán, chẳng hạn như
nhận dạng hình ảnh, nhận dạng giọng nói hoặc dịch thuật. Nhưng một lĩnh vực ngày
càng quan tâm của việc ứng dụng các kỹ thuật máy học là việc tạo ra nội dung. Nội
dung có thể thuộc nhiều loại: hình ảnh, văn bản và âm nhạc.
Âm nhạc đóng một vai trị quan trọng trong lịch sử lồi người, thậm chí cịn
hơn thế nữa trong thời đại kỹ thuật số. Chưa bao giờ một bộ sưu tập âm nhạc lớn
như vậy được tạo ra và truy cập hàng ngày. Chúng ta có thể bắt gặp âm nhạc ở bất
cứ đâu, bao gồm trong các hoạt động thường ngày nhất của cuộc sống: thức dậy
chúng ta sẽ nghe nhạc báo thức, ăn uống có khi sẽ nghe chương trình kèm nhạc nền,
dọn dẹp nhà cửa, mua sắm, học tập, tập thể dục, lái xe, v.v.
Các thuật toán học máy ngày càng xuất hiện nhiều hơn trong các lĩnh vực
sáng tạo âm nhạc và mang đến một phương thức hoàn toàn mới để giúp sáng tác các
bản nhạc hoặc truyền cảm hứng cho các nhạc sĩ. Việc có thể tạo ra âm nhạc dựa trên
cảm xúc sẽ mang lại rất nhiều lợi ích cho lĩnh vực sáng tác và điện ảnh. Ví dụ, nó có
thể giúp các nhà làm phim tạo ra nhạc nền có cảm xúc cụ thể cho các cảnh khác
nhau để khơi dậy sự cộng hưởng với cảm xúc của khán giả. Và lấy cảm hứng từ âm
nhạc được tạo ra từ mơ hình, các nhà soạn nhạc có thể tạo ra âm nhạc cho các
nhiệm vụ sáng tạo cụ thể, v.v.
Âm nhạc với thời lượng ngắn ngày càng được sử dụng nhiều do sự bùng nổ
của hình thức giải trí short video ngày càng được phổ biến. Theo xu hướng đó
những người tạo nội dung cần một cơng cụ có thể tạo ra những bản nhạc nền ngắn
để ghép vào video tăng sức hút cho nội dung của mình. Nên đề tài này hướng tới
một cơng cụ có thể tạo ra những đoạn nhạc ngắn thuộc cảm xúc Q1 (theo mơ hình
Russell [27]) khơng bị bắt bản quyền bởi những trang để đăng video như youtube
và được chấp nhận bởi người nghe.

1 - Giới thiệu tổng quan

1


HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

1.2

Các nghiên cứu liên quan:
Từ cuối thế kỷ 19, các nhà tâm lý học âm nhạc đã nêu ảnh hưởng của cấu

trúc âm nhạc sẽ ảnh hưởng tới cảm xúc mà nó diễn đạt [1]. Trong lĩnh vực nghiên
cứu về âm nhạc, có một sự khác biệt đáng kể giữa cảm xúc được tạo ra và cảm xúc
được nhận thức [2]. Từ quan điểm của thuật toán sáng tác cảm xúc (AAC), nghe
nhạc là một cách để khơi dậy cảm xúc. Nhận định về cảm xúc của âm nhạc đối với
con người nên là “nghe một bản nhạc vui” [3], chứ không phải cảm thấy vui sau khi
nghe bản nhạc được tạo ra từ AAC.
Đối với nghiên cứu lý thuyết về các đặc điểm cấu trúc âm nhạc, Patrick
Gomez và đồng nghiệp [4] nhấn mạnh mối quan hệ giữa các cấu trúc âm nhạc và
cảm xúc gây ra theo hoạt động của cơ thể dựa trên bốn góc phần tư của khơng gian
kích thích hóa trị (four quadrants of valence‐arousal space). Nghiên cứu này cho
rằng cấu trúc của âm nhạc (mode, rhythm và harmonic complexity) có tầm quan
trọng lớn giúp cho phân biệt cảm xúc tích cực và tiêu cực. Ngồi ra, Nielzen và
đồng nghiệp [5] đã nghiên cứu mối quan hệ tương đối giữa các tính năng của giai
điệu (features of melody) và biểu hiện cảm xúc của âm nhạc trong hệ thống sáng tác
theo thuật toán và cho rằng rất khó để phân biệt giai điệu với việc nghe bằng tai.
Trước đây, một số nghiên cứu tập trung vào việc tạo giai điệu không trên
cảm xúc [5]–[9]. Bretanvà cộng sự [5] đề xuất một phương pháp tạo âm nhạc bằng
cách sử dụng unit selection và concatenating lấy cảm hứng từ unit selection
technology trong text-to-speech (TTS). Sturm [6] đã sử dụng phiên âm nhạc do

ABC đại diện để huấn luyện LSTM tạo nhạc. Hadjeres và cộng sự [7] đề xuất novel
RNN model, Anticipation-RNN, mơ hình này khơng chỉ có các ưu điểm của mơ
hình tạo dựa trên RNN mà cịn cho phép thực thi các ràng buộc vị trí do người dùng
xác định. Roberts và cộng sự [5] đã đề xuất mơ hình MusicVAE để tạo nhạc.
Cho tới gần đây việc tạo giai điệu không dựa trên cảm xúc vẫn tiếp tục được
quan tâm [9]–[14]. Phương pháp trong [9] đã đề xuất một mạng nơ-ron tuần hoàn
phân cấp (hierarchical recurrent neural network) cho việc tạo giai điệu có điều kiện.
Và một mơ hình tạo giai điệu theo từng giai đoạn cho hợp âm [10] đã được sáng tác

1 - Giới thiệu tổng quan

2

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

thông qua mạng Transformer. Cũng có một số mơ hình được thiết kế để tạo chuỗi
giai điệu [11] hoặc dạng sóng âm thanh [12]–[14].
Cùng với đó việc tạo nhạc theo cảm xúc cũng đã được quan tâm từ lâu. Phần
mềm GhostWriter [15] đã sử dụng trình tạo nhạc thời gian thực Herman để tạo ra
âm nhạc với cảm xúc kinh dị. Công trình nghiên cứu của SentiMozart [16] đã tạo ra
âm nhạc đầy cảm xúc bằng cách nhận biết các biểu hiện trên khuôn mặt. Davis và
Mohammed [17] đã tạo ra âm nhạc piano với cảm xúc thông qua một kỹ thuật dựa
trên quy tắc (a rule‐based technique). Phương pháp trong [18] đã tạo nhạc thời gian
thực trong khơng gian kích thích hóa trị (valence‐arousal space).
Đặc biệt gần đây do phát triển của máy học, các phương pháp dựa trên học
tập sâu đã được sử dụng rộng rãi vào các nghiên cứu tạo ra nhạc. Ferreira và cộng

sự [19] lần đầu tiên đề xuất một mơ hình tạo âm nhạc biểu tượng (symbolic music)
bằng cách kết hợp phân tích tình cảm thơng qua kỹ thuật máy học. Và phương pháp
trong [20] đưa ra phương pháp tạo ra âm nhạc từ hình ảnh dựa vào cảm xúc làm cầu
nối giữa thị giác và thính giác.
Cảm xúc của con người là cực kỳ đa dạng. Nên một số nghiên cứu rút gọn lại
chỉ sử dụng bốn loại cảm xúc chính để tạo ra âm nhạc [21]. Các bài báo nhận biết
cảm xúc âm nhạc chia theo cách tiếp cận phân loại (categorical) và chiều
(dimensional) có thể tìm thấy ở [22]. Tổng qt về các hệ thống tạo âm nhạc như
mạng nơ-ron lặp lại, mạng phức hợp, mạng đối phương chung và bộ mã tự động đã
được Briot và cộng sự tổng hợp lại [23]. Trong cách tiếp cận phân loại (categorical),
một số danh mục màu sắc cảm xúc (tính từ) được sử dụng để gắn nhãn các đoạn
trích âm nhạc [24]–[26]. Trong cách tiếp cận chiều, cảm xúc được mô tả bằng cách
sử dụng khơng gian chiều (dimensional space), giống như mơ hình 2D do [27] đề
xuất, trong đó các chiều được biểu thị bằng kích thích và hóa trị (arousal và
valence) [28]–[32]. Williams và cộng sự [33] đưa ra cách sử dụng các thuật toán sắp
xếp, biến đổi để tạo ra âm nhạc mới lạ và thỏa mãn cảm xúc.
Scirea và cộng sự [34], đã đưa ra cách tạo nhạc cho trò chơi, MetaCompose,
dựa trên tính tốn tiến hóa và tạo ra âm nhạc có thể thể hiện các trạng thái tâm trạng

1 - Giới thiệu tổng quan

3

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

khác nhau. Ý tưởng về âm nhạc được xếp hạng tự động với một tình cảm nhất định

(tích cực / tiêu cực) đã được trình bày trong [19].
Trong [35], Valenti và cộng sự. đã trình bày kiến trúc cho việc tạo nhạc dựa
trên bộ mã tự động đối nghịch(adversarial autoencoder). Trong [36], một mơ hình
VAE được sử dụng.

1.3 Các thách thức của hệ thống tạo nhạc tự động
Nhạc tạo ra không phải nguyên gốc: Vấn đề về tính nguyên gốc của âm nhạc
được tạo ra không chỉ là vấn đề nghệ thuật (sáng tạo) mà cịn là vấn đề kinh tế, bởi
vì nó đặt ra vấn đề về bản quyền.
Nhạc tạo ra khơng có hịa âm: Hịa âm chính là các note chồng lên nhau được
vang lên cùng một lúc. Việc tạo chuỗi liên tiếp từ những giá trị trước đó thì không
tạo được những giá trị chồng lên nhau tại cùng một thời điểm.
Nhạc tạo ra bị lặp đi lặp lại: Một vấn đề rất thường gặp là việc lặp đi lặp lại
một đoạn nội dung âm nhạc. Đây là một hạn chế rất lớn. Nó thường xảy ra trong
cách ứng dụng có chức năng tạo nhạc từ những đoạn ngẫu hứng.
Nhạc tạo ra bị chuyển đổi phong cách đột ngột: đoạn nhạc được tạo ra bị chia
thành nhiều phần với mỗi phần mang một phong cách một giai điệu khác biệt.
Nhạc tạo ra với các note bị đè lên nhau (hợp âm) không đúng quy tắc: Việc
quá nhiều note đè lên nhau không theo quy tắc sẽ tạo ra những tạp âm rất khó nghe.
Nhạc tạo ra vi phạm nhạc lý: một số yếu tố như giọng chính, hịa âm…khơng
được tuân thủ.
Nhạc tạo ra không mang cảm xúc: sắc thái của âm nhạc khơng có.

1.4 Các đóng góp của luận văn
Như đã trình bày một số thách thức ở trên trong luận văn đề xuất thiết kế một
mơ hình giải quyết những thách thức đặt ra:

1 - Giới thiệu tổng quan

4


HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

Mạng sử dụng một khối Autoencoder để tạo ra ý tưởng cho tồn bài nhạc.
Khối này sẽ cho ra một chuỗi có độ dài bằng với số note mong muốn của bài nhạc.
Việc này bảo đảm việc nhạc trong thư viện sẽ bị trùng lại. Đồng thời để tránh việc
nhiều đoạn nhạc bị lặp đi lặp lại không mong muốn của một đoạn nhất định trong
bài nhạc được tạo ra.
Để tránh bài nhạc bị chuyển phong cách đột ngột, trong luận văn sử dụng
một khối đặc biệt bao gồm hai mạng tranfomer với chức năng Encoder và Decoder
trong một số vòng lặp để chuyển chuỗi ngẫu nhiên về một chuỗi thống nhất về mặt
nội dung.
Đưa ra một kiểu dữ liệu mới gọi là số lượng Note chồng trong một ô để làm
cho mạng tạo nhạc hiệu quả hơn.
Đưa ra một số thuật toán mới để đảm bảo dù sử dụng nhiều mạng riêng để
tạo dữ liệu nhưng bảo đảm hiệu quả.

1.5 Nội dung luận văn
Để đảm bảo tính thống nhất và mạch lạc trong trình bày, bố cục của luận văn
được chia thành sáu chương.
Tóm tắt:
-

Trình bày sơ lược về để tài. Các nội dung nghiên cứu.

Chương 1: giới thiệu tổng quan

-

Giới thiệu về đề tài, thách thức và những gì luận văn làm được.

Chương 2: Cơ sở lý thuyết
-

Tổng quan một số lý thuyết âm nhạc. Một số mạng sẽ sử dụng.

Chương 3: Phân tích và xử lý dữ liệu
-

Q trình ch̉n bị tồn bộ data

Chương 4: xây dựng mơ hình:
-

Thiết kế mơ hình để giải quyết bài tốn.

1 - Giới thiệu tổng quan

5

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

Chương 5: kết quả đạt được

-

Kết quả sẽ được người có chuyển môn về âm nhạc đánh giá và cả kết quả
của những người khơng có chun mơn về âm nhac. Kiểm tra bản quyền
thông qua Youtube.

Chương 6: Kết luận và hướng phát triển
-

Đánh giá chung về hệ thống, thiếu sót và phát triển trong tương lai.

1 - Giới thiệu tổng quan

6

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT
2.1 Lý thuyết nhạc lý và cơ sở sáng tác nhạc:
Nhạc lý:
Nhạc lý cơ bản là kiến thức không thể thiếu nếu muốn sáng tác nhạc. Việc
hiểu về nhạc lý giúp hiểu hơn cách âm nhạc vận hành, và cách sử dụng âm nhạc để
tạo nên những sản phẩm âm nhạc chất lượng. Cũng giống như cách sử dụng tiếng
nói của mình để hiểu về thế giới xung quanh, giao tiếp với người khác hay thể hiện
bản thân. Nhạc lý cũng có chức năng tương tự đối với âm nhạc, giúp cho việc có thể
hiểu cách các nốt nhạc, hợp âm, giai điệu, nhịp điệu phối hợp với nhau.


Nốt nhạc (Note):
Âm thanh được tạo ra từ các sóng âm rung động trong khơng khí. Khi các
rung động này nhanh hơn, sẽ nghe được âm thanh cao hơn và ngược lại, rung động
chậm hơn thì âm thanh nghe trầm hơn. Các rung động này thường sẽ ở một tần số,
một cao độ nhất định, đó chính là một nốt nhạc.
Nốt nhạc có hai bộ phận:
-

Thân nốt nhạc: có dạng hình trịn rỗng hoặc đặc ruột. Nó để xác định vị trí
cao độ của âm thanh.

-

Đi và dấu móc của nốt nhạc: Đuôi nốt nhạc là một vạch thẳng đứng, phần
này để xác định độ dài khác nhau của âm thanh, đi nốt nhạc có thể quay
lên hoặc quay xuống. Dấu móc ln nằm ở bên phải của đi nốt.

Hình 2-1: Hình nốt và giá trị độ dài tương đối giữa các hình nốt
Mối tương quan độ dài giữa chúng là: nốt đứng trước có giá trị gấp đơi nốt
đứng sau.

3 - Xử lý data

7

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học

_______________________________________________________________________________

Nếu: Nốt trịn = 4 đơn vị đo độ dài (đv/nhịp), thì các nốt cịn lại sẽ có giá trị
như sau:
-

Nốt trắng = 2 đv

-

Nốt đen = 1 đv

-

Nốt móc đơn = 1/2 đv

-

Nốt móc kép = 1/4 đv

-

Nốt móc ba = 1/8 đv

-

Nốt móc bốn = 1/16 đv

Hình 2-2: Mối tương quan độ dài giữa các nốt
Độ dài của các nốt khơng có giá trị thời gian quy định sẵn. Vì vậy, nốt nhạc

chỉ biểu hiện mối tương quan về thời gian trong điều kiện cùng một tốc độ chuyển
động (cùng tempo – nhịp bài hát).

3 - Xử lý data

8

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

Hiểu về nốt nhạc là nền tảng cơ bản nhất của nhạc lý. Hầu hết tất cả những
bản nhạc nghe được tạo thành bởi 12 nốt nhạc (Từ Do tới Si, tính cả nốt trắng và
đen trên piano).

Số chỉ nhịp:
Về định nghĩa trong nhạc lý, cung (step/tone) có thể xem là đơn vị đếm cao
độ trong âm nhạc.
Ví dụ trong tốn học, “một đơn vị đếm” là khoảng cách giữa từng số với
nhau. “số 2″ cách “số 1″ một đơn vị.”Số 3″ cách “số 1″ hai đơn vị. Âm thanh cũng
vậy, nó mang đến cảm giác nốt Re có âm thanh cao hơn nốt Do. Nhưng làm cách
nào để biết nốt Re cao hơn nốt Do cụ thể là bao nhiêu? Nốt Mi sẽ cao hơn nốt Do
bao nhiêu?
Đó chính là lý do khái niệm “cung” xuất hiện. Khoảng cách về cao độ mà
chúng ta bàn ở trên sẽ được đếm bằng “cung”. Nghĩa là nốt Re sẽ cao hơn nốt Do 1
cung. Nốt Mi cao hơn nốt Do 2 cung.
Sau đó đến khái niệm “nửa cung”, đây được xem là đơn vị đếm cao độ ở mức nhỏ
nhất trong âm nhạc.

Như đã biết, chúng ta khơng chỉ có 7 nốt nhạc tự nhiên là Do, Re, Mi, Fa,
Sol, La, Si. Nhưng có tới 12 nốt nhạc, kể cả những nốt thăng giáng (đề cập ở mục
sau). Không nên nhầm lẫn rằng 7 nốt nhạc tự nhiên, nốt nào cũng đều cách nhau 1
cung. Thực ra, các nốt nhạc tự nhiên không cách nhau đều đặn như vậy, nhưng có 1
số nốt cách nhau 1 cung, và một số nốt chỉ cách nhau nửa cung mà thơi.
Vậy thì khi nào các nốt cách nhau một cung, khi nào thì cách nhau nửa cung?
Đơn giản là 12 nốt nhạc (Từ phím trắng lên phím đen trên đàn piano, hoặc phím
tiếp theo nếu khơng có phím đen) tất cả đều cách nhau nửa cung.
Các nốt nhạc tự nhiên (7 nốt từ Đô đến Si) , có nốt sẽ cách nhau 1 cung hoặc
nửa cung, theo nguyên tắc của nhạc lý.
Như đã thấy:

3 - Xử lý data

9

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

Do (C) và Re (D) là 2 phím trắng cách nhau 1 cung, giữa chúng sẽ có 1 phím đen
gọi là Do thăng/Re giáng (Do thăng và Re giáng là tên gọi khác nhau cho cùng một
nốt). Mi (E) và Fa (F) khơng có phím đen xen giữa nên cách nhau nửa cung. Tương
tự, Si (B) và Sol (G) cũng cách nhau nửa cung như hình. Các nốt phím trắng cịn lại
đều cách nhau 1 cung.
Bên cạnh đó, nhạc lý cũng có khái niệm về quãng (intervals) – tên gọi các khoảng
cách về cao độ của các nốt nhạc.
Các nốt nhạc được ký hiệu bởi những chữ cái từ A-G như sau:

Do – C
Re – D
Mi – E
Fa – F
Sol – G
La – A
Si – B

Hợp âm :
Hợp âm là thành phần chính để tạo ra nhạc nền cho giai điệu chính hay là nó
được sử dụng trong đệm hát. Hợp âm được hình thành từ 2-3-4 hoặc nhiều hơn
những nốt nhạc vang lên cùng một thời điểm theo quy luật sáng tác nhất định.
Trong trường hợp khơng có quy tắc, quy luật thì khơng được gọi là hợp âm mà chỉ
là âm chồng.
Hợp âm chuẩn là một tổ hợp âm thanh được phối chuẩn, giúp người chơi nhạc nắm
bắt các âm sắc chuẩn, từ đó tạo ra những ca khúc có âm thanh nghe hay và đầy cảm
xúc. Hợp âm được xây dựng dựa trên 7 nốt nhạc chính: Do (C),Rê (D),Mi (E),Fa
(F),Sol (G),La (A),Si (G) đã được đề cập trước đó.

3 - Xử lý data

10

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

Sẽ có các hợp âm 3 note, 4 note và 5 note. Trong phạm vi bài này thì mình

chỉ nói về hợp âm 3 note. Công thức cấu tạo hợp âm trưởng: 1 3 5 (từ 1 lên 3 = 2
cung; từ 3 lên 5 = 1.5 cung)
Công thức cấu tạo hợp âm thứ: 1 b3 5 (từ 1 lên 3 = 1.5 cung; từ 3 lên 5 = 2 cung)
Ghi chú: “1 3 5” là bậc của âm giai, các bạn cứ hiểu đơn giản nó là đánh số
theo thứ tự từ âm chủ để chúng ta dễ gọi vị trí của các note ví dụ như:
Âm giai Đơ trưởng gồm các note C, D, E, F, G, A, B thì bậc 1 là C, bậc 3 là
E, bậc 5 là G
Hay âm giai Rê trưởng gồm các note: D, E, F#, G, A, B, C# thì bậc 1 là D,
bậc 3 là F#, bậc 5 là A.
b3: si gián, giảm nửa cung so với note Si.

Sáng tác nhạc:
Sáng tác nhạc là một công việc phức tạp gồm nhiều giai đoạn, nó khơng chỉ
dừng ở việc viết nguệch ngoạc một vài vần điệu, nhấn nhá theo nhịp, lắp ghép các
hợp âm lại với nhau… Để có thể sáng tác được một bản nhạc, yêu cầu cần phải biết
và hiểu được các phần quan trọng của một bài nhạc. Chúng là những phần xây dựng
quan trọng xuyên suốt trong quá trình sản xuất âm nhạc. Không nhất thiết phải sử
dụng tất cả mọi chất liệu cũng như quy tắc sáng tác nhạc, việc sử dụng thế nào, sắp
xếp ra sao là tùy thuộc vào người sáng tác. Các phần xây dựng quan trọng trong một
bản nhạc là Verse (phân khúc), Chorus (Điệp khúc) và Bridge (phần chuyển tiếp),
Melody (giai điệu)…

2.2 Bộ dữ liệu và thư viện:
MIDI file.
MIDI là cụm từ viết tắt của Musical Instrument Digital Interface được tạo ra
vào những năm đầu thập niên 1980. MIDI mang các thông báo sự kiện chỉ định dữ
liệu hiệu suất ghi chú thời gian thực cũng như dữ liệu điều khiển [22]

3 - Xử lý data


11

HV: Nguyễn Đức Thuận


Sáng tác nhạc tự động sử dụng máy học
_______________________________________________________________________________

Hình 2-3: Biểu diễn MIDI theo độ cao của note trên trường thời gian
Nốt bật (Note on) - để chỉ ra rằng một nốt được phát.
- Số kênh (channel number), cho biết thiết bị hoặc bản nhạc, được chỉ định
bởi một số nguyên trong tập hợp {0,1, ..., 15}.
- Số nốt MIDI (a MIDI note number), cho biết cao độ của nốt, được chỉ định
bởi một số nguyên trong tập hợp {0,1, ..., 127}.
- Vận tốc (velocity) , cho biết độ lớn của nốt nhạc, được chỉ định bởi một số
nguyên trong tập hợp {0,1, ..., 127}.
Nốt tắt (Note off) - để biểu thị rằng một nốt kết thúc.

Bộ dữ liệu EMOPIA
Thành phần của bộ dữ liệu
Bộ dữ liệu EMOPIA [37] là một cơ sở dữ liệu đa phương thức (âm thanh và
MIDI) được chia sẻ tập trung vào cảm xúc được cảm nhận trong nhạc pop piano,
để hỗ trợ nghiên cứu về các nhiệm vụ khác nhau liên quan đến cảm xúc âm
nhạc. Tập dữ liệu chứa 1.087 clip nhạc từ 387 bài nhạc và nhãn cảm xúc được
chú thích bởi bốn trình chú thích chun dụng.

3 - Xử lý data

12


HV: Nguyễn Đức Thuận


×