Tải bản đầy đủ (.pdf) (7 trang)

So sánh ứng dụng kỹ thuật mạng thần kinh và lập trình di truyền trong mô hình hóa dữ liệu công thức viên nén phóng thích có kiểm soát

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (527.01 KB, 7 trang )

Nghiên cứu Y học

Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011

SO SÁNH ỨNG DỤNG KỸ THUẬT MẠNG THẦN KINH VÀ LẬP TRÌNH
DI TRUYỀN TRONG MÔ HÌNH HÓA DỮ LIỆU CÔNG THỨC VIÊN NÉN
PHÓNG THÍCH CÓ KIỂM SOÁT
Nguyễn Phương Nam*, Đỗ Quang Dương**

TÓM TẮT
Mục tiêu: Nghiên cứu ứng dụng mạng thần kinh (Neural Networks) và kỹ thuật lập trình di truyền
(Genetic Programming) trong việc mô hình hóa dữ liệu. So sánh kết quả mô hình hóa dữ liệu của hai kỹ thuật
trên. Dựa vào kết quả của hai kỹ thuật này hy vọng sẽ giúp nhà bào chế có một sự lựa chọn công cụ hợp lý khi
mô hình hóa dữ liệu công thức.
Phương pháp: Cách thức so sánh: so sánh hệ số tương quan R2 và so sánh phương trình đường thẳng hồi
quy với hệ số góc. Cả hai phương pháp so sánh này đều dựa trên dữ liệu được dự đoán từ hai kỹ thuật thông
minh: mạng thần kinh và lập trình di truyền.
Kết quả: Từ những kết quả trong việc mô hình hóa với hai bộ dữ liệu viên nén phóng thích có kiểm soát
(viên matrix, viên diclofenac sodium microspheres), kết quả cho thấy cả hai kỹ thuật mạng thần kinh cho kết quả
khá tốt mặc dù vậy kỹ thuật mạng thần kinh vượt trội hơn so với kỹ thuật lập trình di truyền. Kết quả từ thực
nghiệm cho thấy, việc ứng dụng hai kỹ thuật là lập trình di truyền và mạng thần kinh trong việc mô hình hóa dữ
liệu là rất thành công.
Kết luận: Khi đánh giá các mô hình được xây dựng bởi hai kỹ thuật, mạng thần kinh cho kết quả trội hơn.
Việc so sánh giữa hai kỹ thuật này sẽ giúp cho nhà bào chế khách quan hơn trong việc lựa chọn phương pháp và
công cụ xây dựng mô hình hóa dữ liệu phù hợp.
Từ khóa: mạng thần kinh, kỹ thuật lập trình di truyền, công thức dược phẩm, viên nén phóng thích có kiểm
soát.

ABSTRACT
A SYSTEMATIC COMPARISON OF ARTIFICIAL INTELLIGENCE TECHNIQUES
IN MODELLING CONTROLLED RELEASE TABLET FORMULATION


Nguyen Phuong Nam, Do Quang Duong
* Y Hoc TP. Ho Chi Minh * Vol. 15 - Supplement of No 1 - 2011: 6 - 12
Objectives: This study has compared the performance of two computational methods: neural networks and
genetic programming in generating predictive models for published databases of controlled release tablet
formulation.
Material and Methods: This study used two methods: the R-squared value (R2) and the coefficients of
regression equations generated from the predictive models.
Results: Both approaches were successful in developing invaluable predictive models for tablet tensile
strength and drug dissolution profiles. whilst neural networks demonstrated a slightly superior capability in
predicting unseen data, genetic programming had the added advantage of generating mathematical equations
representing the cause–effect relationships contained in the experimental data. The results of examined data
(matrix table formulation, controlled release diclofenac sodium microspheres formulation) showed that the
* Đại học Y Dược Thành phố Hồ Chí Minh
Tác giả liên lạc: TS. Đỗ Quang Dương
ĐT: 0913662043;

6

Email:

Chuyên Đề Dược Khoa


Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011

Nghiên cứu Y học

performance of neural network was superior when compared to genetic programming.
Conclusion: In evaluating models generated by the two technologies, neural networks showed a higher
capability of predicting unseen data than genetic programming. This study also will help the pharmacist easily in

choosing the techniques and tools to build model data.
Keyword: neural networks, genetic programming, tablet formulation, controlled release.

ĐẶT VẤN ĐỀ
Trong quy trình sản xuất thuốc việc khảo sát
mối liên quan nhân quả giữa các thành phần với
các tính chất dược phẩm luôn là vấn đề các nhà
bào chế rất quan tâm. Việc xác định mối liên
quan nhân quả này thường dựa vào mô hình dự
đoán được xây dựng bằng các phương pháp
thống kê (truyền thống) hay máy tính (hiện đại)
là một thách thức lớn đối với các nhà sản xuất(5).
Bên cạnh đó việc xây dựng mô hình công thức
cũng là một bước rất quan trọng trong qui trình
tối ưu công thức.
Việc mô hình hóa công thức dược phẩm
bằng công cụ máy tính ngày càng được áp dụng
phổ biến vì các lợi ích của nó như không giới
hạn số biến độc lập (x), có thể tối ưu đồng thời
nhiều biến phụ thuộc (y), phù hợp với các loại
dữ liệu phức tạp và phi tuyến(9).
Có rất nhiều kỹ thuật xây dựng mô hình
công thức bằng máy tính đã được áp dụng như
mạng thần kinh (Neural Network - NN)(2) thuật
giải di truyền (Genetic Algorithms)(3) lập trình di
truyền (Genetic Programming - GP)(4) và các hệ
thống lai giữa chúng. Những kỹ thuật này phần
nào giải quyết được yêu cầu của nhà sản xuất
như giảm thời gian và chi phí nghiên cứu và
phát triển công thức.


Mạng thần kinh (Neural Network)
Mạng thần kinh đã được áp dụng từ hơn 60
năm qua, có ích trong việc thiết lập mô hình
quan hệ nhân quả, đặc biệt đối với dữ liệu phi
tuyến hay dữ liệu phức tạp(9). Ngày nay, mạng
thần kinh đựợc áp dụng trong nhiều lãnh vực
khác nhau: công nghệ thông tin, khoa học tri
thức (mô tả kiểu suy luận và nhận thức), sinh
học (lý giải các chuỗi nucleotid)…

Chuyên Đề Dược Khoa

Mạng thần kinh sinh học (Hình 1) được tạo
thành bởi sự liên kết giữa rất nhiều tế bào thần
kinh sinh học (neuron). Các xung động thần
kinh được truyền từ khớp qua trục để đến thân.
Thân tế bào tổng hợp các xung động thần kinh
và ra quyết định tiếp tục truyền các tín hiệu sang
tế bào thần kinh khác.
Khớp
Nhánh

Trục
Thân

Hình 1. Cấu trúc của một tế bào thần kinh sinh học
X1

Đầu

vào

W1

W2
X2

Σ

Đầu
ra

W3
X3

Hình 2. Cấu trúc của một tế bào thần kinh nhân tạo
Mạng thần kinh nhân tạo (Hình 2) là sự mô
phỏng cấu trúc của mạng thần kinh sinh học,
được tạo thành bởi sự liên kết giữa rất nhiều
đơn vị thần kinh (perceptron). Những đơn vị
thần kinh có nhiệm vụ thu thập các tín hiệu, xác
định trọng số, tổng cộng và chuyển các tín hiệu
ấy sang các đơn vị thần kinh khác.
Mỗi mạng thần kinh nhân tạo được cấu tạo
bởi hàng trăm ngàn đơn vị được liên kết và sắp
xếp thành nhiều lớp. Có nhiều cấu trúc mạng
thần kinh, song cấu trúc mạng nhiều lớp
(multilayer perceptron networks) là thông dụng
nhất. Cấu trúc mạng nhiều lớp có một lớp vào,
một hay nhiều lớp ẩn và một lớp đầu ra. Thông

thường, cấu trúc mạng với một lớp ẩn được
dùng nhiều trong thiết lập mô hình và tối ưu
hóa công thức. Cấu trúc mạng với nhiều lớp ẩn

7


Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011

Nghiên cứu Y học

cũng được dùng cho mô hình phi tuyến song nó
đòi hỏi nhiều thời gian cho máy tính xử lý(9).
Cấu trúc của một mạng thần kinh với một lớp
ẩn được minh họa trong Hình 3.

thường được áp dụng cho các bài toán tìm lời
giải tối ưu, trong khi GP được xếp vào nhóm các
thuật toán máy học: tìm mô hình phù hợp nhất
dựa trên dữ liệu đưa vào (Hình 5)(7).

Hình 3. Cấu trúc của một mạng thần kinh nhân tạo
thường gặp

Lập trình di truyền (Genetic ProgrammingGP)
Lập trình di truyền là một kỹ thuật với ý
tưởng chính là các chương trình máy tính có khả
năng tự tiến hóa để thực hiện một công việc nào
đó, được giới thiệu bởi Koza vào năm 1992(7).
Lập trình di truyền là một biến thể của thuật giải

di truyền với một điểm khác nhau chính là cấu
trúc dữ liệu được sử dụng để biểu diễn một cá
thể trong quần thể.
Có hai phần chính trong một cá thể của GP,
đó là các node và terminal như được minh họa
trong Hình 4. Các node là các phép tính, trong
khi các nút (terminal) là các giá trị hằng số hay
các biến. Việc lựa chọn các phép tính và các nút
là một trong những thao tác chính trong GP để
tìm được lời giải cho vấn đề (mô hình dữ liệu
dạng biểu thức toán học y = f(xi))(7).
Phép tính
(Nodes)

A

hình hóa dữ liệu công thức viên nén phóng thích
có kiểm soát. Trong những nghiên cứu trước đó
của nhóm tác giả cho thấy kỹ thuật mạng thần
kinh và lập trình di truyền khá hiệu quả trong
việc mô hình hóa dữ liệu(4). Việc so sánh giữa hai
kỹ thuật này sẽ giúp cho nhà bào chế khách
quan hơn trong việc lực chọn phương pháp mô
hình hóa dữ liệu.

PHƯƠNG PHÁP NGHIÊN CỨU
Công cụ phần mềm
Công cụ được sử dụng trong bài báo này là

truyền tại khoa Dược – Đại học Y Dược Hồ Chí

Nút lá
(Terminals)

Hình 4. Mô tả một cá thể trong kỹ thuật lập trình di
truyền, cá thể này biểu diễn công thức y = A*B + C
GP khác những thuật toán thông minh khác
ở phạm vi ứng dụng: những thuật toán khác

8

dụng của hai kỹ thuật thông minh trong việc mô

thông minh: mạng thần kinh và lập trình di
C

B

Bài báo là kết quả nghiên cứu so sánh ứng

những nghiên cứu và ứng dụng hai kỹ thuật

+
*

Hình 5. Quá trình chọn lọc và xử lý dữ liệu của lập
trình di truyền

Minh cho việc xây dựng mô hình và tối ưu hóa
công thức.
Để đánh giá chất lượng của một mô hình

hóa, nghiên cứu này dùng giá trị (R2) (công thức
1). Giá trị của R2 càng cao, mô hình dữ liệu càng
tương thích(2,5).

Chuyên Đề Dược Khoa


Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011
n


⎜ ∑ (yi − yˆi ) 2 ⎟
⎟x100
R 2 = ⎜1 − i=n1


2
⎜ ∑ (yi − y) ⎟
i =1



Nghiên cứu Y học

liệu cho viên nén matrix đối với hai kỹ thuật
(GP, NN), kết quả dự đoán và hệ số R2 minh họa
trong Bảng 1.

với yi: biến phụ thuộc với từng dữ liệu; y :
giá trị trung bình của biến phụ thuộc; yˆ : giá trị

dự đoán từ mô hình; n: số lượng dữ liệu.

Dữ liệu thực nghiệm
Dữ liệu công thức viên nén matrix được
tham khảo từ công trình của Bodea và Leucuta(1).
Công thức viên nén matrix bao gồm 13 công
thức thực nghiệm với 3 biến độc lập (x1: %
HPMC; x2: % CMCNa; x3: % HCl), 3 biến phụ
thuộc (y1: % hoạt chất phóng thích sau 1 giờ; y2:
% hoạt chất phóng thích sau 1 giờ; y3: % hoạt
chất phóng thích sau 12 giờ).
Một bộ dữ liệu khác được tham khảo từ
công trình Gohel & Amin(6). Công thức viên nén
phóng thích có kiểm soát diclofenac sodium
microspheres bao gồm 27 công thức thực
nghiệm với 3 biến độc lập (x1: Tốc độ khuấy; x2:
Lượng CaCl2; x3: % liquid paraffin) và 4 biến phụ
thuộc (y1: thời gian 80% hoạt chất phóng thích;
y2: % hoạt chất phóng thích sau 60 phút; y3: %
hoạt chất phóng thích sau 360 phút; y4: % hoạt
chất phóng thích sau 480 phút).

KẾT QUẢ VÀ BÀN LUẬN

Thông qua số liệu từ Bảng 1, so sánh hệ số
tương quan (R2) đối với cả hai kỹ thuật thông
minh có thể thấy: trong khi hệ số tương quan
(R2) của mạng thần kinh luôn giữ ở mức cao (lớn
hơn 99 %) thì ở lập trình di truyền là đều ngược
lại (nhỏ hơn 99%). Điều này chứng tỏ, nhìn

chung mạng thần kinh có khả năng dự đoán
chính xác hơn lập trình di truyền. Tuy nhiên ở
một số dữ liệu như 5, 11 đối với giá trị y1 và 8, 9,
10 đối với y2, y3 đã xảy ra điều ngược lại. Giá trị
dự đoán của biến phụ thuộc (y) khi dùng kỹ
thuật lập trình chính xác hơn.
Để kết quả so sánh giữa hai kỹ thuật trong
xây dựng mô hình hóa dữ liệu được rõ ràng và
chính xác hơn, phương trình đường thẳng hồi
quy với hệ số góc được sử dụng. Với phương
pháp này, hệ số góc của từng phương trình
đường thẳng hồi quy tương ứng (y1-GP: 0,978,
y1-NN: 0,992; y2-GP: 0,977, y2-NN: 0,998; y3-GP:
0.973, y3-NN: 0,998) (chi tiết Hình 6). So sánh
giữa các hệ số góc này, rõ ràng kết quả mô
hình hoá từ kỹ thuật thông minh mạng thần
kinh tốt hơn lập trình di truyền cho dữ liệu
viên nén matrix này khi giá trị hệ số góc tiến
tới giá trị 1,00.

Công thức viên nén matrix(1)
Bằng sự lựa chọn các giá trị, điều kiện phù
hợp trong quá trình xây dựng mô hình hóa dữ
Bảng 1. Dữ liệu thực nghiệm và kết quả dự đoán y1, y2, y3 dùng kỹ thuật thông minh GP và NN
No

y1

y1-GP


y1-NN

y2

y2-GP

y2-NN

y3

y3-GP

y3-NN

1
2
3
4
5
6
7
8
9
10
11

0,152
0,104
0,112
0,122

0,148
0,074
0,098
0,084
0,087
0,084
0,089

0,150
0,098
0,111
0,123
0,148
0,076
0,104
0,090
0,090
0,090
0,090

0,151
0,104
0,112
0,122
0,149
0,074
0,098
0,087
0,087
0,087

0,087

0,683
0,545
0,612
0,448
0,585
0,388
0,576
0,512
0,518
0,507
0,525

0,669
0,541
0,639
0,446
0,607
0,382
0,572
0,515
0,515
0,515
0,515

0,682
0,545
0,612
0,448

0,585
0,388
0,576
0,52
0,52
0,52
0,52

0,992
0,902
0,986
0,712
0,866
0,68
0,925
0,856
0,862
0,851
0,87

0,980
0,905
1,010
0,709
0,877
0,730
0,907
0,861
0,861
0,861

0,861

0,99
0,902
0,987
0,712
0,866
0,68
0,925
0,865
0,865
0,865
0,865

Chuyên Đề Dược Khoa

9


Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011

Nghiên cứu Y học
No

y1

y1-GP

y1-NN


y2

y2-GP

y2-NN

y3

y3-GP

y3-NN

12
13

0,052
0,143

0,045
0,140
0,980

0,052
0,143
0,998

0,352
0,518

0,376

0,527
0,977

0,353
0,518
0,998

0,672
0,792

0,686
0,786
0,973

0,674
0,792
0,998

R2

.

Giống với dữ liệu đầu tiên, bằng sự lựa chọn

P re d i c te d

0.16

các giá trị, điều kiện phù hợp trong quá trình


ŷ 1 - GP = 0.978x + 0.003

0.14

R = 0.9803

xây dựng mô hình hóa dữ liệu cho viên phóng

0.12

ŷ1 - NN = 0.992x + 0.001

thích có kiểm soát đối với cả hai kỹ thuật (GP,

2

R2 = 0.998

NN), kết quả hệ số tương quan (R2) được trình

0.1
0.08

bày trong Bảng 2.

0.06
y1-GP
0.04
0.04


0.06

0.08

0.1

0.12

y1-NN

0.14

0.16

Observed

So sánh giá trị R2 (Bảng 2), giá trị R2 trong kỹ
thuật mạng thần kinh luôn cao hơn giá trị R2
trong kỹ thuật lập trình di truyền với cả hai
thông số luyện và thử. Đối với kỹ thuật thông

0.8

minh mạng thần kinh với dữ liệu đầu ra là thời

ŷ2 - GP = 0.979x + 0.015
2

R = 0.9774


0.7

gian 80% hoạt chất phóng thích (t80) thông số R2-

P re d ic t e d

ŷ2 - NN = 0.994x + 0.005

luyện đạt tới giá trị 0,99, trong khi kỹ thuật lập

2

R = 0.998

0.6

trình di truyền R2-luyện chỉ đạt 0,940. Đặc biệt

0.5

với dữ liệu đầu ra - phần trăm hoạt chất phóng

0.4
y2-GP

thích sau 60 phút (y60), khả năng xây dựng mô

y2-NN

0.3

0.3

0.4

0.5

0.6

0.7

hình hóa dữ liệu của kỹ thuật lập trình di truyền
là không cao (R2 luyện = 0.750, R2 thử = 0,940),

Observed

trong khi đó, mô hình hóa dữ liệu khi áp dụng
1.1

mạng thần kinh cho kết quả vượt trội (R2 luyện =

ŷ3 - GP = 0.928x + 0.066
2

R = 0.9732

1

0,940, R2 thử = 0,960).

P r e d i c te d


ŷ 3 - NN = 0.997x + 0.004

Ở biểu đồ quy hồi (Hình 7), đặc biệt đối với

R2 = 0.998

0.9

biến phụ thuộc y60 hệ số góc của phương trình

0.8

đường thẳng quy hồi với kỹ thuật lập trình di
0.7
y3-GP

y3-NN

0.6
0.6

0.7

0.8

0.9

1


1.1

Observed

Hình 6. Biểu đồ so sánh kết quả dự đoán của GP (♦)
và NN() cho y1, y2, y3.
Công thức viên nén phóng thích có kiểm soát
diclofenac sodium microspheres(6)

truyền chỉ là 0,780 trong khi đó mạng thần kinh
đạt 0,960. Với những biểu đồ cho các biến phụ
thuộc khác (y1, y3, y4), mạng thần kinh luôn trội
hơn so với kỹ thuật lập trình di truyền. Từ
những kết quả trên, có thể kết luận, trong việc
xây dựng mô hình hóa dữ liệu đối với viên nén
phóng thích có kiểm soát diclofenac sodium
microspheres, mạng thần kinh vượt trội hơn so
với lập trình di truyền.

10

Chuyên Đề Dược Khoa


Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011

Nghiên cứu Y học

Bảng 2. Giá trị R2 của hai kỹ thuật GP và NN
Giá trị R2


t80

y60

y360

y480

R2 Luyện = 0,94
R2 Thử = 0,99
R2 Luyện = 0,99
R2 Thử = 0,98

R Luyện = 0,75
R2 Thử = 0,94
2
R Luyện = 0,94
R2 Thử = 0,96

R Luyện = 0,93
R2 Thử = 0,97
2
R Luyện = 0.99
R2 Thử = 0,97

R Luyện = 0,91
R2 Thử = 0,94
2
R Luyện = 0,97

R2 Thử = 0,96

Kỹ thuật
GP
NN

R = 0.947

500

ŷt80 - NN = 0.999x - 0.350

2

R2 = 0.995

450
400
350
300

ŷ60 - GP = 0.781x + 8.995

50

R2 = 0.7799

45

ŷ60 - NN = 0.976x + 1.056

R2 = 0.962

40
35
y60-GP

300

350

400

450

500

550

600

25

30

35

100
R2 = 0.9456

95


ŷ360 - NN = 0.9778x + 1.980

90

R2 = 0.988

P r e d i c te d

P r e d i c te d

80

40

45

50

55

Observed

ŷ480 - GP = 0.901x + 8.325

ŷ 360 - GP = 0.958x + 3.065

85

y60-NN


25
Observed

90

2

30

t80-GP t80-NN

250
250

2

55

ŷt80 - GP = 0.941x + 26.228

550

P r e d i c te d

P r e d i c te d

600

2


75
70

R2 = 0.917
ŷ480 - NN = 0.979x + 2.172
R2 = 0.964

85
80
75

65

y480-GP y480-NN

y360-GP y360-NN
70

60
60

65

70

75
Observed

80


85

90

70

75

80

85

90

95

100

Observed

Hình 7. Biểu đồ quy hồi so sánh kết quả dự đoán của GP (♦) và NN () cho yt80, y60, 360,y480.
hơn trong việc lực chọn phương pháp và công
KẾT LUẬN
cụ xây dựng mô hình dữ liệu phù hợp.
Kết quả từ thực nghiệm cho thấy việc ứng
TÀI LIỆU THAM KHẢO
dụng hai kỹ thuật là lập trình di truyền và mạng
1.
Bodea A, Leucuta SE (1997). Optimization of hydrophilic

thần kinh trong việc mô hình hóa dữ liệu là rất
matrix tablets using a D-optimal design. Int J Pharm, 153:24755.
thành công. Khi đánh giá các mô hình được xây
2.
Bourquin J, Schmidli H, Hoogevest PV, Leuenberger H
dựng bởi hai kỹ thuật cho dạng viên nén phóng
(1998). Comparison of artificial neural networks (ANN) with
thích có kiểm soát, mạng thần kinh cho mô hình
classical modelling techniques using different experimental
designs and data from a galenical study on a solid dosage
dự đoán có kết quả trội hơn, tuy nhiên với việc
form. Eur J Pharm Sci, 6:287-300.
sử dụng lập trình di truyền nhà bào chế có thể
3.
Cheng CT, Ou CP, Chau KW (2002). Combining a fuzzy
optimal model with a genetic algorithm to solve
khảo sát mối liên quan nhân quả giữa các thành
multiobjective rainfall-runoff model calibration. J Hydrol,
phần và tính chất của sản phẩm dựa trên mô
268:72-86.
hình dạng biểu thức toán học. Việc so sánh giữa
4.
Duong QD, Rowe RC and York P (2008). Modelling drug
dissolution from controlled release products with Genetic
hai kỹ thuật này sẽ giúp cho dược sĩ khách quan
programming. Int. J. Pharm, 351:194-200.

Chuyên Đề Dược Khoa

11



Nghiên cứu Y học
5.

6.

12

Y Học TP. Hồ Chí Minh * Tập 15 * Phụ bản của Số 1 * 2011

Đặng Văn Giáp (2002). Thiết kế & Tối ưu hóa công thức và
quy trình: Áp dụng phần mềm thông minh. Nhà xuất bản Y
học.
Gohel MC, Amin AF (1998). Formulation optimization of
controlled release diclofenac sodium microspheres using
factorial design. J Control Release, 51:115-22.

7.

8.
9.

Koza JR (1998). Genetic Programming on the Programming of
Computers by Mean of Natural Selection. 6th ed. London: MIT
press.
Langdon WB, Poli R (2002). Foundations of Genetic
Programming. 1st ed. Berlin, Heidelberg: Springer-Verlag.
Rowe RC, Roberts RJ (1998). Intelligent Software for Product
Formulation. 1st ed. London: Taylor and Francis.


Chuyên Đề Dược Khoa



×