Tải bản đầy đủ (.pdf) (6 trang)

Tích hợp mật mã khóa công khai RSA-2048 bit trong nhận dạng tiếng nói bảo mật

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (549.3 KB, 6 trang )

Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2022)

Tích hợp mật mã khóa cơng khai RSA-2048 bit
trong nhận dạng tiếng nói bảo mật
Đỗ Quang Trung1, Lục Như Quỳnh1, *, Quách Đức Huy1, Vũ Chí Hưng1
1

Academy of cryptography techniques, 141 Chien Thang road, Tan Trieu, Thanh Tri, Hanoi
*
Email: ,
những năm 60 và được sử dụng rộng rãi trong lĩnh vực
nhận dạng tiếng nói vào những năm 1960-1970 và
được đưa vào khoa học máy tính năm 1989, mơ hình
này giúp giải quyết các bài tốn xác lập mối nhân quả
cục bộ nói chung [3], [4], [9]. Mạng nơron nhân tạo là
một lĩnh vực được nghiên cứu từ cuối thập kỷ 1800
nhằm mục đúng mơ tả hoạt động của trí tuệ con người.
hiện nay đã có nhiều ứng dụng trong thực tế đặc biệt là
trong lĩnh vực dự báo, nhận dạng, điều khiển, …[10],
[11]. Hệ mật RSA dùng để bảo mật sẽ tuân theo các
chuẩn bảo mật hiện hành của NIST để đảm bảo độ an
toàn trong việc bảo mật [12].
Trong nghiên cứu này, tác giả đã tích hợp giải pháp
mã hóa RSA 2048-bit để bảo vệ dữ liệu dọng nói (dọng
nói đã sử dụng mơ hình Markov ẩn để nhận dạng
chuyển đổi tiếng nói thành dữ liệu văn bản) của người
dùng. Về khóa mã cho hệ mật RSA 2048-bit đã được
nhóm test vượt qua các tiêu chuẩn đánh giá khóa của
NIST. Giải pháp mã hóa và giải mã RSA 2048 bit được
tác giả tích hợp đảm bảo an tồn với các ứng dụng
đang được triển khai thực tế hiện nay theo chuẩn


PKCS#1 (Version 2.1) Chi tiết hiệu quả tích hợp giải
pháp mật mã về các mô đun mật mã và kết quả đạt
được trong nghiên cứu này được nhóm tác giả thảo
luận trong các mục của bài báo.

Abstract— Hiện nay, các nghiên cứu và ứng dụng nhận
dạng tiếng nói được nghiên cứu nhiều và đã có ứng dụng
thực tế trong đời sống hàng ngày của con người. Nhưng
những nghiên cứu tích hợp các giải pháp bảo mật để bảo
vệ tiếng nói trong q trình xử lý nhận dạng tiếng nói thì
chưa có nhiều. Ý tưởng trong nghiên cứu này, đầu tiên
tác giả sử dụng phương pháp FFT để chuyển đổi tín hiệu
tiếng nói thành tín hiệu dạng số và tích hợp giải pháp
nhận dạng tiếng nói (gồm hai mơ hình: Hidden Markov
model, Artificial Neural Network) để thực hiện nhận
dạng các tín hiệu tiếng nói theo âm chuẩn và lưu trữ
tiếng nói ở dạng số. Sau đó, tác giả đã tích hợp giải pháp
mã hóa RSA 2048 bit để thực hiện mã hóa và giải mã
tiếng nói ở dạng số. Trong đó, khóa cơng khai và khóa
riêng sử dụng cho hệ mật trong ứng dụng đã được nhóm
đảm bảo là khóa an tồn và được đánh giá chất lượng
khóa vượt qua bộ tiêu chuẩn của NIST. Để đảm bảo ứng
dụng của nhóm tác giả xây dựng có tính hiệu quả, nhóm
tác giả đã thực hiện xây dựng ứng dụng với giải pháp mã
hóa AES-GCM 256 bít. Kết quả đạt được cho thấy ứng
dụng nhận dạng tiếng nói có bảo mật (gọi là Soft VoiceRSA) được nhóm tác giả xây dựng đã cải thiện được đảm
bảo an tồn và giữ bí mật được nội dung tiếng nói và có
tốc độ thời gian thực thi: tạo cặp khóa RSA 2048 bit vượt
qua tiêu chuẩn của NIST mất khoảng 0,2 s – 2 s; xử lý
tiếng nói từ 700 ms – 1070 ms; Mã hóa RSA 2048 bit từ 1

ms -4 ms; Giải mã RSA 2048 bit từ 6ms – 8 ms.
Keywords- Hidden Markov model, Artificial Neural
Network, RSA, NIST, Fast Fourier Transform.

I.

II.

Có nhiều phương pháp xử lý tiếng nói và đã được ứng
dụng trong các ứng dụng thực tế ([13], [14]), điển hình
là phương pháp sử dụng hộp cơng cụ âm thanh hình
ảnh [15], phương pháp trì hỗn nhóm [16], biến đổi
Fourier nhanh – FFT (Fast Fourier Transform) [17]...
Trong đó, phương pháp FFT là một kỹ thuật xử lý
tiếng nói nhanh, đảm bảo tính hiệu quả và trung thực
[17]. Vào năm 1805, kỹ thuật này đã được Gauss đề
xuất đầu tiên với cách tính tốn các hệ số theo lượng
giác [18]. Đến năm 1965, Cooley và Tukey đã đưa ra
phương pháp xử lý dựa trên đặc trưng bán nguyệt và
áp dụng trong xử lý tín hiệu số của tiếng nói, thu hút
sự chú ý của các nhà khoa học [10.5772/813]. Phương
pháp FFT được phát triển từ phương pháp DFT, đã
khắc phục được nhược điểm khi độ dài mẫu N lớn sẽ

GIỚI THIỆU

Bài toán nhận dạng tiếng nói đang là một xu hướng
phát triển mới của thời đại, nhiều cơng trình nghiên cứu
về chủ đề này đã ra đời và được áp dụng vào trong thực
tế [1], [2]. Tuy nhiên, lại chưa có một phương pháp bảo

mật nào được ứng dụng, làm cho người sử dụng các
công nghệ nhận dạng tiếng nói phải đối mặt với nhiều
nguy cơ mất an tồn. Đứng trước thực tế đó, nhóm tác
giả đã xây dựng ứng dụng dựa trên mơ hình ẩn Markov
[3], [4], mạng nơron nhân tạo [5], [6], [7], hệ mật RSA
[8]… chạy trên máy tính để giải quyết bài tốn. Mơ
hình ẩn Markov sẽ kết hợp với mạng nơron nhân tạo để
giải quyết vấn đề nhận dạng giọng nói thời gian thực
thơng qua giải quyết bài tốn nhận dạng mẫu. Mơ hình
ẩn Markov là mơ hình thống kê phát triển vào cuối

ISBN 978-604-80-7468-5

GIẢI PHÁP CHUYỂN ĐỔI VÀ XỬ LÝ
TIẾNG NÓI BẰNG BIẾN ĐỔI FFT

293


Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

làm mất nhiều thời gian xử lý tiếng nói và độ phức tạp
N
log 2 N . Trong
của FFT giảm xuống chỉ còn còn
2
chuyển đổi tương tư sang số, tuy FFT có độ tin cậy
của thông tin đầu ra thấp hơn DFT nhưng lại có tốc độ
vượt trội hơn rất nhiều, đảm bảo thời gian thực.
Trong nghiên cứu này, tác giả đã lựa chọn FFT là cơng

cụ chính trong q trình chuyển đổi tiếng nói về dạng
số và ngược lại. Đối với phương pháp FFT này, kết
quả thu được ở đây chỉ là các bảng quang phổ của các
âm vị, để có thể nhận dạng được các âm vị này trên
máy tính bằng cách sử dụng mơ hình học máy dựa trên
Markov ẩn và mạng nơron nhân tạo.

Trong não bộ con người nơron là đơn vị cơ bản cấu
tạo hệ thống thần kinh và là một phần quan trong nhất
của não. Cơ chế mạng nơ ron nhân tạo hoạt động với 3
bước chính: (1) Lặp nhiều lần việc biểu diễn mạng với
các dữ liệu mẫu bao gồm các mối liên kết giữa các giá
trị nhập và các giá trị đích (ví dụ, các giá trị này gần
giống như kết xuất); (2) Các nút sẽ tự điều chỉnh trọng
số của chúng cho đến khi đạt được giá trị xuất mong
muốn với một bộ dữ liệu đầu vào cho trước (ví dụ: cho
đến khi biên lỗi giữa giá trị xuất và giá trị mong muốn
đạt bằng nhau và bằng không); (3) Xây dựng cơ chế
giải quyết bài tốn bằng mạng neuron.

Hình 1. Mơ hình Markov ẩn - HMM
Hình 2. a) Cấu trúc các neurons và mơ hình hóa; b) Mơ hình
học của mạng nơ non nhân tạo

Hình 1 là chi tiết mơ hình thống kê Markov ẩn
(Hidden Markov model-HMM) với các tham số không
biết trước. Nhiệm vụ phải xác định các tham số ẩn của
mơ hình từ các tham số quan sát được và sự kế thừa đã
nhận dạng trước đó. Các tham số của mơ hình được rút
ra sau đó có thể sử dụng để thực hiện các phân tích kế

tiếp để nhận dạng mẫu. Mơ hình Markov ẩn này được
chia làm hai giai đoạn: huấn luyện (Hình 1a) và nhận
dạng (Hình 1b). Bản thân mỗi mơ hình HMM đã có
thể giúp nhận dạng thành cơng được giọng nói con
người. Tuy vậy, mơ hình HMM rất ngốn dữ liệu, yêu
cầu thiết lập rất nhiều và khơng thể thích ứng được với
sự biến đổi âm vị lớn nên nó cần kết hợp thêm ANN.
Hình 2a là cấu trúc neurons và mơ hình hóa của mạng
nơron nhân tạo (Artificial Neural Networks) được tác
giả xác định trong nghiên cứu này. Mạng nơron nhân
tạo được bắt nguồn từ mạng nơron thần kinh trong các
sinh vật [19]. Thông tin từ mơi trường bên ngồi được
đưa về não bộ của con người thông qua các giác quan
và sẽ được bộ não xử lý. Quá trình này được chia ra
thành các khối [20] như: (1) khối tín hiệu điện tương
tự; (2) khối phân tích và tiền xử lý; (3) khối nhận diện
bằng đặc trưng và (4) phân chia ra thành các nhóm
thơng tin khác nhau.

ISBN 978-604-80-7468-5

Tiếp theo trong quá trình xử lý nhận dạng tiếng nói
của tác giả chính là áp dụng mơ hình học của mạng
nơron để giải quyết các vấn đề như: tính xấp xỉ các
hàm có giá trị dạng số thực, số hóa rời rạc, vector và
các dạng dữ liệu cảm biến phức tạp. Hình 2b chính là
mơ hình học của mạng nơ ron nhân tạo trong xử lý
tiếng nói, đây là giải pháp tốt trong xử lý chuyển đổi
tiếng nói. Có thể ứng dụng nó trong nhận dạng tiếng
nói để xử lý bài tốn nhận dạng mẫu (pattern

recognition). Ở đây, cụ thể nhận dạng hướng vào các
âm vị được phân tích qua HMM, ANN sẽ phân tích
khả năng xuất hiện của một âm vị bất kì sau một âm vị
khác, sau đó dựa trên bộ từ điển bao gồm các từ và
cụm từ có nghĩa, nó sẽ đánh giá và phân tích xem đầu
ra cuối cùng là chính xác hay khơng. Lặp lại q trình
này cho đến khi kết quả đầu ra có tốc độ và độ chính
xác mong muốn.
III.

GIẢI PHÁP BẢO MẬT ỨNG DỤNG CHO
NHẬN DẠNG TIẾNG NĨI

Sau khi đã xử lý chuyển đổi tiếng nói thành dạng số,
bước tiếp theo của nghiên cứu là xác định giải pháp

294


Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thơng và Cơng nghệ Thơng tin (REV-ECIT2022)

mã hóa cho dữ liệu dạng số để đảm bảo tính bảo mật
cho dữ liệu thu được trước các tấn công hiện nay.
Trong nghiên cứu này, tác giả đã thực hiện tích hợp hệ
mật mã khóa cơng khai RSA 2048 bit để thực hiện mã
hóa/giải mã cho bảo vệ tín hiệu tiếng nói sau khi đã
chuyển đổi về dạng số [21]. Ngoài ra, để đánh giá cho
mơ đun chương trình nhận dạng tiếng nói, tác giả đã
thực hiện thêm mã hóa/giải mã theo hệ mật AES -256
để bảo vệ tiếng nói ở dạng số. Từ đó, cho thấy hiệu

quả đạt về tốc độ thực hiện bảo mật cho tín hiệu tiếng
nói được tốt hơn. Sinh các tham số khóa cho hệ mật
RSA đã được tác giả thực hiện đánh giá vượt qua các
tiêu chuẩn kiểm tra chất lượng khóa theo tiêu chuẩn
của NIST. Hệ mật RSA được tích hợp trong mơ đun
chương trình đáp ứng theo chuẩn PKCS #1 [50], được
đảm bảo đủ an toan trước các tấn cơng theo hiện thời.
Trong đó, độ an toàn hệ mật RSA theo năm được đánh
giá thơng qua độ dài khóa theo cơng thức:
L  2nlen ,1 / 3,1.976 
L  21024 ,1 / 3,1.976 

.400  40.24( y  2004)/3

Hình 3. Mơ hình hoạt động, chuyển đổi và bảo vệ tiếng nói
bằng hệ mật RSA

Đầu tiên, thu giọng nói từ micro được chuyển đổi
thành các dạng tín hiệu truyền vào bên trong máy tính
và chuyển thành các mẫu riêng biệt. Trong máy tính,
các mẫu ở trên thông qua MHH và mạng neural
(ANN) để so sánh và đưa ra dạng văn bản chuẩn tương
ứng với giọng nói. Tiếp theo Văn bản được tạo ra
được mã hóa thơng qua hệ mật RSA 2048 bit. Sau đó,
thực hiện gửi phần bản mã mới tạo qua cho bên nhận.
Lúc này, bên nhận giải mã bản mã và thu được bản rõ
tương ứng với nội dung giọng nói ban đầu. Phần văn
bản được chuyển hóa ngược lại thành giọng nói bằng
bộ giọng nói chuẩn.


(1)

với L  n, r ,    exp  (ln n) r (ln ln n)1 r  .
Theo công thức này, cho thấy đến năm 2022 hệ mật
RSA được đánh giá an toàn với độ dài nlen=1661. Khi
đó hệ mật RSA với độ dài 2048 bit vẫn cịn được đảm
bảo an tồn. Đối với hệ mật AES 256, sinh tham số
khóa để sử dụng cho chương trình cũng được tác giả
đánh giá vượt qua các tiêu chuẩn của NIST hiện nay.
Điều này, cho thấy giải pháp tác giả sử dụng hệ mật
RSA 2048-bit (hoặc AES 256-bit) đủ để bảo vệ cho tín
hiệu tiếng nói an tồn trước một số tấn cơng.
IV.

Thiết kế giao diện cho mô đun Soft Voice-RSA:

KẾT QUẢ VÀ THẢO LUẬN

A) Thiết kế và xây dựng ứng dụng nhận dạng tiếng
nói có bảo mật
Trong nghiên cứu này, mơ đun nhận dạng tiếng nói có
bảo mật (Soft Voice-RSA) được tác giả thiết kế gồm
có các mơ đun: sinh khóa RSA 2048 bit (theo chuẩn
PKCS#1 v2.1) và được test vượt qua các tiêu chuẩn
của NIST; mơ đun chuyển đổi tiếng nói thành dạng
text và ngược lại sử dụng phương pháp FFT có áp
dụng mơ hình MHH và ANN; mơ đun mã hóa tiếng
nói ở dạng text với hệ mật RSA 2048 và khóa cơng
khai được sinh trong phần mềm; mô đun giải mã RSA
2048 bit với khóa riêng RSA được sinh trong phần

mềm. Hình 3 là ngun lý hoạt động q trình sinh
khóa RSA 2048 -bit, chuyển đổi và bảo vệ tiếng nói
bằng hệ mật RSA 2048 bit.
Hình 4. a) Giao diện modulo generator key RSA; b) Giao
diện modulo mã hóa và giải mã Voice bằng hệ mật RSA

ISBN 978-604-80-7468-5

295


Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

Trong nghiên cứu này, mơ đun chương trình được
thiết kế với 2 giao diện chính: Hình 4a là chi tiết thiết
kế giao diện cho q trình thực hiện sinh khóa RSA
2048 bit (PKCS#1 v2.1) đảm bảo khóa được sinh đã
vượt qua tiêu chuẩn đánh giá chất lượng khóa của
NIST; Hình 4b là giao diện cho q trình thực hiện
chuyển đổi dọng nói thành văn bản và ngược lại, thực
hiện mã hóa/giải mã cho tín hiệu tiếng nói ở dạng văn
bản bằng hệ mật RSA 2048 bit.
Phần giao diện tạo khóa: Để sử dụng được chương
trình người sử dụng cần chuẩn bị khóa bí mật và khóa
cơng khai của hệ mật RSA hoặc sử dụng khóa do
chương trình sinh ra với độ dài modulo tối thiểu 2048
bits bằng cách nhấn vào nút “sinh khóa”, sau khi nhấn
vào, máy sẽ tự động sinh ra một bộ khóa RSA 2048
bit, các khóa này sẽ được kiểm tra thơng qua bộ tiêu
chuẩn NIST, nếu đạt chuẩn thì sẽ được in ra màn hình

và hiện tổng số thời gian xử lý để tạo ra khóa.
Phần giao diện chuyển đổi giọng nói có bảo mật: Khi
đã có khóa đạt độ an toàn theo yêu cầu, người sử dụng
bằng đầu nói thơng điệp của mình qua micro được kết
nối đến máy tính bằng cách nhấn vào nút “Nhấn để
nói”, sau khi bấm vào chương trình sẽ tự động thu
phần giọng nói ta phát ra và dừng lại khi ta ngừng nói.
Tín hiệu tương tự thu được ở đây thơng qua sự rung
động trong micro chuyển thành các tín hiệu điện vào
máy tính. Thơng qua phép biến đổi FFT các tín hiệu
điện này được chuyển thành các mẫu quang phổ. Các
mẫu quang phổ này được xử lý qua mơ hình ngơn ngữ
(sự kết hợp giữa HMM và ANN) đối chứng với các bộ
mẫu có sẵn để cho ra nội dung nói ban đầu dưới dạng
văn bản. Phần văn bản ở đây sẽ được xử lý mã hóa
bằng hệ mật RSA với khóa cơng khai mà đã tạo ra
hoặc chuẩn bị ở trên. Sau đó phần bản mã sẽ có thể gửi
đến đối tượng cần truyền đạt. Phần bản mã sẽ được in
ra màn hình cùng với khoảng thời gian chuyển đổi và
mã hóa sau khi xử lý xong. Tiếp đó ta nhấn “giải mã”
để đọc lên phần mới giải mã và in dạng văn bản ra
màn hình. Nút “đọc” dùng để phát lại đoạn văn bản
được dịch.

Hình 5. Kết quả thời gian thực thi của phần mềm Soft VoiceRSA: a) Tạo khóa và kiểm tra vượt qua tiêu chuẩn NIST; b)
Thu/chuyển đổi tiếng nói, mã hóa và giải mã tiếng nói bằng
hệ mật RSA 2048 bit.

Để đánh giá về hiệu quả thực thi: q trình sinh cặp
khóa cơng khai và bí mật RSA 2048 bit; nhận dạng

tiếng nói bằng mơ hình MHH và ANN; thời qian thực
thi cho chuyển đổi tiếng nói và thực hiện mã hóa/giải
mã với hệ mật RSA 2048 bit và AES-256 bit. Tác giả
đã thực hiện chạy phầm mềm nhiều lần với đầu vào dữ
liệu cho phần mềm chạy khác nhau. Bảng 1 cho kết
quả chạy phần mềm Soft Voice-RSA với dữ liệu đầu
vào khác nhau và tương ứng với bộ khóa được sinh
đảm bảo vượt qua bộ tiêu chuẩn đánh giá chất lượng
khóa của Viện tiêu chuẩn quốc gia Hoa kỳ (NIST).

B) Phân tích, đánh giá và kiểm thử mơ đun nhận
dạng tiếng nói có bảo mật Soft Voice-RSA
Trong nghiên cứu này, để thực hiện đánh giá hoạt
động của mơ đun chương trình Soft Voice-RSA, tác
giả đã thực thi trên máy tính với cấu hình sử dụng
Intel(R) Core i5-4200U, CPU @ 1.60GHz, up to 2.30
GHz; RAM: 8.00 GB. Hình 5a cho kết quả thời gian
hoạt động của mơ đun chương trình Soft Voice-RSA
với chức năng sinh khóa RSA 2048 bit vượt qua các
tiêu chuẩn đánh giá khóa. Hình 5b cho kết quả thời
gian thực thi chuyển đổi tiếng nói, mã hóa/giải mã
tiếng nói với hệ mật RSA 2048 bit.

ISBN 978-604-80-7468-5

Kết quả cho thấy, thời gian thực thi của phần mầm
Soft Voice-RSA khi sử dụng hệ mật RSA 2048 bit:
q trình tạo cặp khóa RSA 2048 bit vượt qua tiêu
chuẩn của NIST mất khoảng 0,2 s – 2 s; thời gian xử
lý tiếng nói khoảng từ 700 ms – 1070 ms; Thời gian

mã hóa RSA 2048 bit mất khoảng từ 1 ms -4 ms; Thời
gian giải mã RSA 2048 bit mất khoảng từ 6ms – 8 ms.

296


Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

Để đánh giá về hiệu quả thực thi: q trình sinh cặp
khóa cơng khai và bí mật RSA 2048 bit; nhận dạng
tiếng nói bằng mơ hình MHH và ANN; thời qian thực
thi cho chuyển đổi tiếng nói và thực hiện mã hóa/giải
mã với hệ mật RSA 2048 bit và AES-256 bit. Tác giả
đã thực hiện chạy phầm mềm nhiều lần với đầu vào dữ
liệu cho phần mềm chạy khác nhau. Bảng 1 cho kết
quả chạy phần mềm Soft Voice-RSA với dữ liệu đầu
vào khác nhau và tương ứng với bộ khóa được sinh
đảm bảo vượt qua bộ tiêu chuẩn đánh giá chất lượng
khóa của Viện tiêu chuẩn quốc gia Hoa kỳ (NIST).

cũng chính là hướng nghiên cứu mà nhóm tác giả sẽ
tập trung và sẽ công bố trong các nghiên cứu tiếp theo.
TÀI LIỆU THAM KHẢO
[1]

[2]

[3]

Bảng 1. Kết quả thời gian thực thi của phần mềm Soft

Voice-RSA và Soft Voice-AES-GCM
Số

tự
12
35
37
40
Số

tự
21
27
35

Thời gian
xử lý (ms)

Thời gian
mã (ms)

[4]

Thời gian
giải (ms)

Thời gian
sinh khóa
(s)
Nhận dạng tiếng nói với hệ mật RSA 2048 bit

746.7266
3.991
7.0148
0.187500
1063.2608
1.9937
6.9827
0.328125
683.639
0.9993
5.9748
1.781250
830.3528
2.0288
7.9833
0.625000
Nhận dạng tiếng nói với hệ mật AES-GCM 256 bit
Thời gian
Thời gian
Thời gian
Thời gian
xử lý (s)
mã (s)
giải (s)
sinh khóa
(s)
0.6907975
1.3045635
1.3075628
1.3005715

0.8660744
1.4963576
1.4993501
1.4933993
0.9356286
1.55198
1.5549542
1.5479727

[5]

[6]

[7]

[8]

[9]

Kết quả cho thấy, thời gian thực thi của phần mầm
Soft Voice-RSA khi sử dụng hệ mật RSA 2048 bit:
q trình tạo cặp khóa RSA 2048 bit vượt qua tiêu
chuẩn của NIST mất khoảng 0,2 s – 2 s; thời gian xử
lý tiếng nói khoảng từ 700 ms – 1070 ms; Thời gian
mã hóa RSA 2048 bit mất khoảng từ 1 ms -4 ms; Thời
gian giải mã RSA 2048 bit mất khoảng từ 6ms – 8 ms.
Thời gian thực thi của phần mầm Soft Voice-RSA khi
sử dụng hệ mật AES-GCM 256 bit: q trình tạo khóa
mất khoảng 1 s – 2 s; thời gian xử lý tiếng nói khoảng
từ 0.7s – 1s; Thời gian mã hóa AES-GCM 256 bit mất

khoảng 1.5 s; Thời gian giải mã mất khoảng 1.6s.
V.

[10]

[11]

[12]

[13]

[14]

KẾT LUẬN

Kết quả đạt được trong nghiên cứu này, đã xây dựng
được ứng dụng nhận dạng tiếng nói theo mơ hình
Hidden Markov model, Artificial Neural Network.
Trong đó, ứng dụng đã tích hợp giải pháp mật mã khóa
cơng khai RSA (theo chuẩn PKCS#1 Version 2.1) đảm
bảo giữ bí mật nội dung tiếng nói ở dạng số sau khi đã
thực hiện nhận dạng. Tốc độ thực thi của ứng dụng
Soft Voice-RSA đạt được đã cải thiện về thời gian mã
và giải mã thì ln dao động trong khoảng 1-4 ms (đối
với thực thi mã hóa RSA 2048 bit) và 6-8s (đối với thời
gian giải mã RSA 2048 bit). Tác giả nhận thấy giải
pháp trong nghiên cứu này cịn có một số khuyết điểm
như khả năng nhận dạng tiếng nói cịn hạn chế. Đây

ISBN 978-604-80-7468-5


[15]

[16]

[17]

[18]

297

N. Das, S. Chakraborty, J. Chaki, N. Padhy, and N. Dey,
“Fundamentals, present and future perspectives of speech
enhancement,” Int. J. Speech Technol., vol. 24, no. 4, pp. 883–
901, Dec. 2021, doi: 10.1007/s10772-020-09674-2.
X. Han et al., “Pre-trained models: Past, present and future,”
AI
Open,
vol.
2,
pp.
225–250,
2021,
doi:
10.1016/j.aiopen.2021.08.002.
G. A. Fink, Markov Models for Pattern Recognition. Berlin,
Heidelberg: Springer Berlin Heidelberg, 2008. doi:
10.1007/978-3-540-71770-6.
Z. Han, Q. He, and M. von Davier, “Predictive Feature
Generation and Selection Using Process Data From PISA

Interactive Problem-Solving Items: An Application of Random
Forests,” Front. Psychol., vol. 10, Nov. 2019, doi:
10.3389/fpsyg.2019.02461.
I. Farkaš, P. Masulli, and S. Wermter, Eds., Artificial Neural
Networks and Machine Learning – ICANN 2020, vol. 12397.
Cham: Springer International Publishing, 2020. doi:
10.1007/978-3-030-61616-8.
G. R. Yang and X.-J. Wang, “Artificial neural networks for
neuroscientists: a primer,” Neuron, vol. 109, no. 4, p. 739, Feb.
2021, doi: 10.1016/j.neuron.2021.01.022.
R. Dastres and M. Soori, “Artificial Neural Network Systems,”
Int. J. Imaging Robot., vol. 2021, no. 2, pp. 13–25, 2021,
[Online]. Available: www.ceserp.com/cp-jour
N. Bansal and S. Singh, “RSA Encryption and Decryption
System,” Int. J. Sci. Res. Comput. Sci. Eng. Inf. Technol., pp.
109–113, Sep. 2020, doi: 10.32628/CSEIT206520.
J. Hernando, “Hidden Markov Models,” in Encyclopedia of
Biometrics, Boston, MA: Springer US, 2015, pp. 876–882.
doi: 10.1007/978-1-4899-7488-4_195.
N. Yadav, A. Yadav, and M. Kumar, “History of Neural
Networks,” 2015, pp. 13–15. doi: 10.1007/978-94-017-98167_2.
E. K. Zaineb, S. Sahar, and M. Zouhir, “Pricing American Put
Option using RBF-NN: New Simulation of Black-Scholes,”
Moroccan J. Pure Appl. Anal., vol. 8, no. 1, pp. 78–91, Jan.
2022, doi: 10.2478/mjpaa-2022-0007.
E. Barker, “Guideline for using cryptographic standards in the
federal government:,” Gaithersburg, MD, Mar. 2020. doi:
10.6028/NIST.SP.800-175Br1.
F. Ernawan, N. A. Abu, and N. Suryana, “Spectrum analysis of
speech recognition via discrete Tchebichef transform,” Oct.

2011, p. 82856L. doi: 10.1117/12.913491.
S. Sadhu and H. Hermansky, “Radically old way of computing
spectra: Applications in end-to-end ASR,” Proc. Annu. Conf.
Int. Speech Commun. Assoc. INTERSPEECH, vol. 2, pp.
1091–1095, 2021, doi: 10.21437/Interspeech.2021-643.
A. Abel and A. Hussain, “Multi-modal Speech Processing
Methods: An Overview and Future Research Directions Using
a MATLAB Based Audio-Visual Toolbox,” 2009, pp. 121–
129. doi: 10.1007/978-3-642-00525-1_12.
T. Drugman, T. Dubuisson, and T. Dutoit, “Phase-based
information for voice pathology detection,” ICASSP, IEEE Int.
Conf. Acoust. Speech Signal Process. - Proc., pp. 4612–4615,
2011, doi: 10.1109/ICASSP.2011.5947382.
R. Pupeikis, “REVISED FAST FOURIER TRANSFORM,”
Radio Electron. Comput. Sci. Control, no. 1, pp. 169–186,
Dec. 2014, doi: 10.15588/1607-3274-2015-1-9.
M. T. Heideman, D. H. Johnson, and C. S. Burrus, “Gauss and
the history of the fast Fourier transform,” Arch. Hist. Exact
Sci., vol. 34, no. 3, pp. 265–277, 1985, doi:
10.1007/BF00348431.


Hội nghị Quốc gia lần thứ 25 về Điện tử, Truyền thông và Công nghệ Thông tin (REV-ECIT2022)

[19] H. R. Niazkar and M. Niazkar, “Application of artificial neural
networks to predict the COVID-19 outbreak,” Glob. Heal. Res.
Policy, vol. 5, no. 1, p. 50, Dec. 2020, doi: 10.1186/s41256020-00175-y.
[20] P. Li, M. Liu, X. Zhang, and H. Chen, “Efficient online feature
extraction algorithm for spike sorting in a multichannel FPGAbased neural recording system,” in 2014 IEEE Biomedical
Circuits and Systems Conference (BioCAS) Proceedings, Oct.

2014, pp. 1–4. doi: 10.1109/BioCAS.2014.6981630.
[21] L. N. Childs, “RSA Cryptography and Prime Numbers,” 2019,
pp. 135–151. doi: 10.1007/978-3-030-15453-0_9.
[22] G. McGraw, “Software Security: Building Security In,” in
2006 17th International Symposium on Software Reliability
Engineering,
Nov.
2006,
pp.
6–6.
doi:
10.1109/ISSRE.2006.43.
[23] A. Apvrille and M. Pourzandi, “Secure Software Development
by Example,” IEEE Secur. Priv. Mag., vol. 3, no. 4, pp. 10–17,
Jul. 2005, doi: 10.1109/MSP.2005.103.

ISBN 978-604-80-7468-5

[24] N. M. Jack Koziol, David Litchfield, Dave Aitel, Chris Anley,
Sinan “noir” Eren, Riley Hassell, “The Shellcoder’s
Handbook: Discovering and Exploiting Security Holes,”
Wiley,
2004,
[Online].
Available:
/>=inauthor:%22Jack+Koziol%22&dq=inauthor:%22Jack+Kozi
ol%22&hl=vi&sa=X&redir_esc=y
[25] M. Howard and D. Leblanc, Codigos seguros Related papers
Writing Secure Code ,. 2008.
[26] Microsoft,

“ [Online]. Available:
/>
298



×