Tải bản đầy đủ (.pdf) (37 trang)

Nghiên cứu xây dựng mối quan hệ giữa cấu trúc hóa học các dẫn chất flavonoid và hoạt tính chống oxy hóa

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (891.68 KB, 37 trang )

Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

CHƯƠNG 1: ĐẶT VẤN ĐỀ

SVTH: Lê Quang Hiển - 071933H

1


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

Trong cơ thể con người, có nhiều quá trình hình thành hoặc huỷ hoại tế bào
thường xuyên diễn ra. Có những chất tưởng như là nguồn cung cấp dưỡng chất
chính của tế bào nhưng đồng thời cũng có thể làm hại tế bào, có những chất gây ra
những tác hại thì cũng có những chất đề kháng lại hoạt động này. Trong đó, gốc tự
do, oxy và chất chống oxy hóa là một thí dụ. Những phân tử này có liên hệ với nhau
và ảnh hưởng tới hoạt động sống của cơ thể con người rất nhiều, nhất là ở giai đoạn
cuối của cuộc đời.
Ngoài ra, một trong nhiều lý thuyết cố gắng giải thích nguyên nhân sự lão
hóa là tác dụng của những gốc tự do vào các phân tử trong cơ thể. Và để trì hoãn
tiến trình này, các chất chống oxy hóa đã được nghiên cứu và rất nhiều người cao
tuổi hiện nay đang dùng.
Trong quá trình hoá học, một điện tử bị tách rời thì lập tức phân tử đó trở
thành một gốc tự do. Do đó, gốc tự do này không cân bằng, không ổn định về điện
tử nên dễ tạo ra phản ứng và luôn luôn tìm kiếm điện tử từ các phân tử khác, và lần
lượt tạo ra một chuỗi những gốc tự do mới, gây rối loạn cho sinh hoạt bình thường
của tế bào. Trong cuộc đời của một người sống tới 70 tuổi, thì có chừng 17 tấn gốc


tự do được tạo ra như vậy.
Năm 1954, bác sĩ Denham Harman thuộc Đại học Berkeley, California, là
nhà khoa học đầu tiên nhận ra sự hiện hữu của gốc tự do trong cơ thể với nguy cơ
gây ra những tổn thương cho tế bào.Trước đó, người ta cho là gốc này chỉ có ở
ngoài cơ thể.
Gốc tự do có tác dụng không tốt cho cơ thể ngay từ lúc con người mới sinh
ra và mỗi tế bào chịu sự tấn công của hàng chục ngàn gốc tự do mỗi ngày. Ở tuổi
trung niên, cơ thể khoẻ mạnh, có thể đề kháng tác hại của chúng, nhưng khi lớn
tuổi, gốc tự do hoạt động mạnh mẽ hơn vì sức đề kháng của cơ thể giảm sút, nên
gây ảnh hưởng gấp mười lần so với tuổi trung niên.
Gốc tự do phá rách màng tế bào khiến cho chất dinh dưỡng bị mất, tế bào
không tăng trưởng, tu bổ, rồi chết. Gốc tự do còn tạo ra chất lipofuscin tích tụ dưới
da tạo ra những vết đồi mồi trên cơ thể, và tiêu hủy hoặc ngăn cản sự tổng hợp các

SVTH: Lê Quang Hiển - 071933H

2


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

phân tử chất đạm, đường bột, mỡ, enzyme trong tế bào. Ngoài ra, còn gây đột biến
ở gene, ở nhiễm thể, ở DNA, RNA, và làm chất collagen, elastin mất đàn tính
khiến da nhăn nheo, cơ khớp cứng nhắc.
Nhờ quan sát thực nghiệm, gốc tự do có ít ở các sinh vật còn nhỏ và có nhiều
hơn ở sinh vật sống lâu. Một người có nhiều gốc tự hơn khi cao tuổi và ít hơn khi
người đó còn trẻ.
Theo các nhà khoa học thì gốc tự do có thể là thủ phạm gây ra tới trên 60

bệnh, đáng kể nhất gồm có: bệnh vữa xơ động mạch, ung thư, Alzheimer,
Parkinson, đục thuỷ tinh thể, bệnh tiểu đường, cao huyết áp không nguyên nhân, xơ
gan….
Gốc tự do được tạo ra bằng nhiều cách, có thể là sản phẩm của những căng
thẳng thần kinh, thể xác bệnh hay mệt mỏi, ô nhiễm môi trường, thuốc lá, dược
phẩm, tia phóng xạ mặt trời, thực phẩm có chất mầu tổng hợp, nước có nhiều clo và
ngay cả oxy.
Trong lĩnh vực y khoa hiện nay, vấn đề được đề cập nhiều nhất hiện nay là
tác hại của chất oxy hoá, phản ứng oxy hoá và nhấn mạnh sự cần thiết sử dụng các
chất chống oxy hoá để bảo vệ, duy trì sức khoẻ cho con người.
Tuy nhiên, việc nghiên cứu và tổng hợp ra một loại chất chống oxy hoá có
thông số chống oxy hoá xác định và được sử dụng cho con người gồm nhiều giai
đoạn rất phức tạp và khó khăn, đòi hỏi chúng ta phải tốn nhiều công sức và kinh
phí. Nhưng với sự hỗ trợ của máy tính, cụ thể là hoá tin học, công việc đã thực sự
đỡ nặng nề hơn, rút ngắn thời gian và ít tốn kém hơn. Chính điều này đang mở ra
một hướng đi mới cho việc tìm ra chất chống oxy hoá nói riêng và trong lĩnh vực
nghiên cứu và tổng hợp thuốc, chất hữu cơ nói chung. Với phương pháp này, trong
tương lai có thể thấy rõ được hình dạng cấu trúc của chất chống oxy hoá nhằm phục
vụ cho quá trình nghiên cứu sau này.
Trên thế giới đã có nhiều chất chống oxy hoá được tìm ra và xác định được
chỉ số chống oxy hoá, tuy nhiên ở đề tài này, hướng nghiên cứu chính là hợp chất
flavonoid. Vì hợp chất này có sự hiện diện rộng rãi trong nhiều loại thực vật xung

SVTH: Lê Quang Hiển - 071933H

3


Luận văn tốt nghiệp đại học


GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

quanh đời sống của ta, tiêu biểu là họ cam. đồng thời trên thế giới đã có 4000 loại
flavonoid được xác định cấu trúc hoá học. Đây là cơ sở để tạo dữ liệu cho việc thực
hiện đề tài:
“Nghiên cứu xây dựng mối quan hệ giữa cấu trúc hóa học các dẫn chất flavonoid
và hoạt tính chống oxy hóa”
Nhiêm vụ chính là:
- Tập hợp các cấu trúc hóa học của dẫn chất flavonoid có hoạt tính chống oxy hóa
từ các tài liệu tham khảo trong và ngoài nước
- Nghiên cứu xây dựng mối quan hệ giữa cấu trúc hóa học các dẫn chất flavonoid và
hoạt tính chống oxy hóa bằng các phần mềm hóa tin học thích hợp

SVTH: Lê Quang Hiển - 071933H

4


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

CHƯƠNG 2: TỔNG QUAN

SVTH: Lê Quang Hiển - 071933H

5


Luận văn tốt nghiệp đại học


GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

2. TỔNG QUAN
2.1. Tổng quan về chất chống oxy hoá
2.1.1.Khái niệm
Các chất chống oxy hóa là những chất khử mạnh và có hoạt tính với oxy cao
hơn dược chất mà nó bảo vệ.
Các chất chống oxy hóa là những chất mà khi hiện diện ở nồng độ thấp hơn
so với dược chất mà nó bảo vệ có khả năng làm trì hoãn hay làm giảm quá trình oxy
hóa của dược chất đó.
Trong cơ thể có nhiều hệ thống chống oxy hóa nội sinh có khả năng bảo vệ
những chất hóa học từ những phản ứng oxy hóa có hại bằng cách phản ứng với các
gốc tự do hay những dạng oxy hoạt động khác, vì vậy ngăn cản tiến trình oxy hóa.
Tuy nhiên sự cung cấp các chất chống oxy hóa nội sinh này có giới hạn vì thế cần
có nguồn bổ sung chất chống oxy hóa từ bên ngoài vào.
2.1.2. Cơ chế tác động của các chất chống oxy hóa
Các chất chống oxy hóa đóng vai trò là chất cho hydro đến các gốc tự do để
tạo thành các gốc tự do mới bền vững hơn.
Cơ chế phản ứng được thu gọn như sau:
K1

Chất khởi đầu
K2

R ° + O2

K4

RO°2 + RO°2

K5

RO°2 + R°
R° + R°

RO°2
K3

RO°2 + RH



K6

ROOH + R°
sản phẩm bền
sản phẩm bền
sản phẩm bền

Dạng ROOH là dạng bền vững và các sản phẩm ngắt mạch là ổn định.
Ngoài cơ chế như trên các chất chống oxy hóa còncó thể tạo phức chelat với
ion kim loại (như Fe3+, Cu2+, Ni2+, Mn2+), các ion này thường khơi mào cho phản
ứng oxy hóa.

SVTH: Lê Quang Hiển - 071933H

6


Luận văn tốt nghiệp đại học


GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

2.1.3. Phương pháp xác định hoạt tính chống oxy hóa
Trong các phương pháp xác định hoạt tính chống oxy hóa, các phương pháp
đánh bắt gốc tự do 1,1-diphenyl-2-picrylhydrazyl (DPPH) và mô hình beta-caroten acid linoleic dùng để đánh giá rất phù hợp để khảo sát hoạt tính chống oxy hóa của
các flavonoid, do các flavonoid khảo sát không hấp thu trong vùng hấp thu của
DPPH và beta-caroten. Hơn nữa sử dụng 2 phương pháp này rất thuận lợi để nghiên
cứu đánh giá mang tính sàng lọc và hàng loạt trên đối tượng mẫu khá lớn. Phương
pháp đánh bắt gốc tự do DPPH và mô hình beta-caroten - acid linoleic cũng được
rất nhiều tác giả áp dụng để nghiên cứu hoạt tính chống oxy hóa của các flavonoid.
2.1.3.1. Phương pháp đánh bắt gốc tự do DPPH
Dựa vào khả năng bắt giữ gốc tự do DPPH của chất có tác dụng chống oxy
hóa.
Nguyên tắc:
Các chất nghiên cứu có tác dụng chống oxy hóa theo cơ chế dập tắt gốc tự do
sẽ làm giảm màu của dung dịch DPPH. Xác định khả năng này bằng cách đo độ hấp
thu ở bước sóng có hấp thu cực đại tại 517 nm.
Mô tả:
Dùng 1 ml dung dịch flavonoid (nồng độ 10-4M pha trong methanol) cho vào
2 ml dung dịch DPPH ( nồng độ 10 mg/L pha trong methanol). Hỗn hợp được lắc
đều và để ở nhiệt độ phòng. Đo độ hấp thu sau 5 phút và 30 phút ở bước sóng 517
nm, mỗi lần đo 3 lần lấy giá trị trung bình. Mẫu đối chiếu được tiến hành trong cùng
điều kiện nhưng không sử dụng flavonoid.
Khả năng đánh bắt gốc tự do được tính theo công thức sau:
Khả năng đánh bắt gốc tự do (S%) được tính như sau:
𝐴𝑡𝑠
𝑆(%) = 100 × (1 − 𝑡 )
𝐴𝑐
Ast : Độ hấp thu của mẫu thử ở thời điểm t = 5 phút, 30 phút.

Act : Độ hấp thu của mẫu đối chiếu ở thời điểm t = 5 phút, 30 phút.

SVTH: Lê Quang Hiển - 071933H

7


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

2.1.3.2. Phương pháp mô hình beta-caroten - acid linoleic
Nguyên tắc:
Dựa vào khả năng làm thay đổi màu của hệ nhũ tương beta-caroten và acid
linoleic của các chất thử nghiệm. Các chất có hoạt tính chống oxy hóa càng cao thì
khả năng bảo vệ màu beta-caroten càng lớn. Đo độ hấp thu ở bước sóng 470 nm.
Mô tả:
Dùng 1 ml beta-caroten (0,2 mg/ml) hòa tan trong cloroform cho vào erlen
có chứa 0,02 ml acid linoleic và 0,2 ml tween 20. Bay hơi hết cloroform dưới áp
suất giảm. Cho vào hỗn hợp 0,2 ml dung dịch flavonoid thử trong methanol ở nồng
độ 10-3M. Cho vào tiếp 50 ml nước cất (đã bão hòa với oxygen trong vòng 15 phút).
Hỗn hợp được lắc đều và để ở 50 oC trong vòng 120 phút. Đo độ hấp thu UV của
mẫu thử ở bước sóng 470 nm tại thời điểm 0 phút, 60 phút và 120 phút. Mẫu đối
chiếu được tiến hành trong cùng điều kiện nhưng không sử dụng flavonoid.
Hoạt tính chống oxy hóa được tính theo công thức sau:
Hoạt tính chống oxy hóa (T%) được tính như sau:
𝑇(%) = 100 × (1 −

𝐴0𝑠 −𝐴𝑡𝑠
𝐴0𝑐 −𝐴𝑡𝑐


) Type equation here.

As0 : Độ hấp thu của mẫu thử ở thời điểm 0 phút.
Ast : Độ hấp thu của mẫu thử ở thời điểm t = 60 phút, 120 phút
Ac0 : Độ hấp thu của mẫu đối chiếu ở thời điểm 0 phút
Act : Độ hấp thu của mẫu đối chiếu ở thời điểm t = 60 phút, 120 phút
2.2 .Tồng quan về flavonoid và hoạt tính chống oxy hoá
2.2.1.Flavonoid
2.2.1.1.Định nghĩa:
Flavonoid là một nhóm hợp chất tự nhiên lớn thường gặp trong thực vật,
phần lớn có màu vàng và được chia làm nhiều nhóm khác nhau. Hầu hết flavonoid
có cấu trúc polyphenolic.
2.2.1.2.Nguồn gốc của flavonoid
Cũng như vitamin C, các flavonoid được khám phá bởi một trong những nhà
sinh hoá nổi tiếng nhất thế kỉ 20: Albert Szent – Gyorgyi (1893 – 1986). Ông nhận

SVTH: Lê Quang Hiển - 071933H

8


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

giải Nobel năm 1937 với những khám phá quan trọng về đặc tính của vitamin C và
flavonoid.
2.2.1.3.Cấu trúc và phân loại
Flavonoid là một nhóm hợp chất lớn thường gặp trong thực vật. Cho đến nay

có khoảng 4000 chất đã được phân lập và xác định cấu trúc. Chỉ riêng hai nhóm hợp
chất flavon và flavonol mang nhóm thế là -OH và/hoặc -OCH3 thì theo lý thuyết số
chất tổng hợp được có thể lên tới 38.627 chất.
Các flavonoid là những chất có cấu tạo khung theo kiểu diphenyl propan [C6C3-C6] hay nói cách khác chúng có cấu tạo khung cơ bản gồm hai vòng benzen A và
B nối với nhau qua mạch 3 carbon (Hình 1). Trong đa số các trường hợp mạch 3
carbon đóng vòng với vòng A và tạo nên dị vòng C có oxy (Hình 2).
B
A

Hình 1 . Khung cơ bản diphenyl propan (C6-C3-C6)
Sự phân loại các flavonoid dựa vào vị trí của gốc aryl (vòng B) và các mức
độ oxy hóa của mạch 3C [3] gồm các nhóm chính như sau:
 Eu-flavonoid là những chất có gốc aryl ở vị trí 2, gồm có: flavon, flavonol,
flavanon, antocyanidin, chalcon…
 Isoflavonoid là những hợp chất có gốc aryl ở vị trí 3, gồm có: isoflavon,
isoflavonol, isoflavanon.
 Neoflavonoid là những hợp chất có gốc aryl ở vị trí 4, gồm có: 4-arylchroman,
4-arylcoumarin, daldergion.
Ngoài ra, người ta còn phân biệt biflavonoid, triflavonoid cấu tạo tương ứng
bởi 2, 3 monomer flavonoid, và flavolignan là những flavonoid mà phân tử có một
phần cấu trúc lignan.
Flavonoid có thể tồn tại ở dạng aglycon (chỉ gồm khung cơ bản), hoặc dạng
glycosid (gồm khung cơ bản gắn với chất đường ở các vị trí khác nhau).

SVTH: Lê Quang Hiển - 071933H

9


Luận văn tốt nghiệp đại học


GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

O

O

O

O

O
OH
O
Flavanon

Flavonol

Flavon

O

O

OH

O

O


Isoflavonol

Isoflavon

O

O
Isoflavanon

OH
O
OH

O
Chalcon

Antocyanidin

O
Dihydrochalcon

Hình 2 . Cấu trúc khung cơ bản của các flavonoid
2.2.1.5.Ứng dụng của flavonoid
Hiện tại trên thị trường đã có rất nhiều sản phẩm từ flavonoid như các thuốc
Daflon, Ginkor Fort, Legalon, các loại thuốc này là các phân đoạn chiết flavonoid
từ dược liệu đã cho kết quả tốt trong điều trị các bệnh lý về mạch máu, thần kinh,
chống oxy hoá, bảo vệ tế bào gan… Các thực phẩm chức năng như Orthomo flavon
– F hay FFLAVIN – 7, Lipo – flavonoid plus, Flavonoid 1000mg (Davinci
Laboratories) được dùng hỗ trợ cho các bệnh nhân xơ vữa động mạch, tiểu đường.
Ngoài ra còn có các sản phẩm dùng chăm sóc da, tóc chứa flavonoid được chiết từ

dược liệu… Điều đó cho thấy flavonoid là một hợp chất có tiềm năng, cần nghiên
cứu sâu hơn, nhất là các flavonoid tổng hợp nhằm sàng lọc những hợp chất thuốc
tinh khiết, hoạt tính mạnh, hiệu quả và am toàn để có những bước phát triển lâm
sàng.

SVTH: Lê Quang Hiển - 071933H

10


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

2.2.2.Hoạt tính sinh học của flavonoid
Đã có nhiều nghiên cứu tổng hợp và khảo sát hoạt tính sinh học các dẫn chất
flavonoid và chalcon cho thấy các dẫn chất này có tác dụng sinh học đáng kể trên cả
in vitro và in vivo. Các tác dụng sinh học đã được chứng minh bằng thực nghiệm
bao gồm tác dụng kháng khuẩn kháng nấm, tác dụng kháng viêm, tác dụng bảo vệ
tim mạch, kháng ung thư…
Nhiều nghiên cứu gần đây đã cho thấy các bệnh như ung thư, xơ vữa động
mạch, viêm mạn tính có liên quan đến sự stress oxy hóa (oxydative stress) do các
tác nhân oxy hóa có hoạt tính (reactive oxygen species) trong cơ thể. Các
polyphenol mà đặc biệt là flavonoid đã được chứng minh là những chất có khả năng
chống oxy hóa mạnh do có khả năng trung hòa các gốc tự do bằng cách đóng vai trò
là chất cho electron hay nguyên tử hydro (hình 3). Hệ thống liên hợp trong phân tử
flavonoid và một vài nhóm hydroxyl như nhóm –OH ở vị trí 3 trên dị vòng C và vị
trí 3’,4’ trên vòng B có vai trò quan trọng trong việc tạo thành các gốc tự do bền
sau khi đã cho electron hay nguyên tử hydro cho các gốc tự do không bền trong cơ
thể.


Hình 3. Sự chuyển hóa của các gốc tự do flavonoid sau khi cho một nguyên tử
hydro

SVTH: Lê Quang Hiển - 071933H

11


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

Ngoài khả năng thu dọn hay trung hòa các gốc tự do, khả năng chống oxy
hóa của flavonoid còn được biết đến nhờ tính chất có thể tạo phức chelat với ion
kim loại như ion Fe2+ ức chế phản ứng Fenton, làm giảm tốc độ phản ứng oxy hóa
của các gốc tự do trong cơ thể.
Cụ thể đã có nhiều bằng chứng về khả năng chống oxy hóa (khả năng thu
dọn các gốc tự do) của các nhóm phụ flavonoid khác nhau như flavon (luteolin,
chrysin, apigenin…), flavonol (quercetin, rutin, isoquercitrin…), flavanon
(taxifolin, hesperetin,…), flavan-3-ol (catechin, epicatechin,…), anthocyanidin(
cyanidin chlorid, malvin,…), chalcon (xanthohumol và các dẫn chất của
xanthohumol), isoflavon (daidzein, genistein,…)… Các công trình chủ yếu nghiên
cứu về các nhóm hợp chất quen thuộc như flavon, flavonol, flavanol vì có nhiều
trong rau quả con người ăn hàng ngày, còn ít nghiên cứu về khả năng chống oxy
hóa trên nhóm chalcon.
2.3 Tổng quan về QSAR
2.3.1.Giới thiệu chung
Khả năng tạo ra những chất hữu cơ mới là khổng lồ, dù là trong ngành dược
hay những ứng dụng cho nông nghiệp, hương liệu, nước hoa và thực phẩm. Vào

năm 1994, chemical abstracts liệt kê hơn 13 triệu chất nhưng chỉ một phần rất nhỏ
chúng có thể được tổng hợp. Nếu việc tìm kiếm những sản phẩm mới chỉ bằng cách
tổng hợp và thử những hợp chất mới mà không có một hướng dẫn nào thì đó thực
sự là một công việc lâu dài và tốn kém.
Việc những tính chất hóa học khác nhau có tác dụng sinh học khác nhau đã
được biết hàng triệu năm trước. Khả năng xác định cấu trúc đã sớm cho phép người
ta thành lập những mối lien hệ cấu trúc – tác dụng (SAR – Structure activity
Relationship), là những quan sát đơn giản mà một thay đổi xác định trong cấu trúc
hóa học có ảnh hưởng xác định lên hoạt tính sinh học. Khi mà cấu trúc hóa học (hay
rộng hơn là tính chất hóa lý hoặc các trường) được mô tả bằng những thông số mô
tả định lượng được thì ta có thể xây dựng mối tương quan cấu trúc – tác động sinh
học một cách định lượng (QSAR – Quantitative Structure activity Relationship). Sự

SVTH: Lê Quang Hiển - 071933H

12


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

định lượng ở đây không liên quan đến việc tác dụng sinh học có định lượng được
hay không, mặc dù đó là một nhầm lẫn thường gặp. Mục tiêu của nghiên cứu QSAR
là tìm ra mô hình có khả năng dự đoán đáng tin cậy cho dẫn chất, nhờ đó định
hướng thiết kế và tổng hợp những chất phù hợp với mục đích nghiên cứu trong vô
vàn hợp chất hữu cơ đề cập ở trên.
QSAR cổ điển chỉ quan tâm 2D – QSAR (2 Dimensions – QSAR) là những
tính toán chỉ dựa trên những thông số công thức hoá học hai chiều. Một cách tổng
quát, còn có:

-3D – QSAR (3 Dimensions – QSAR): tính toán dựa trên các thông số mô tả công
thức hoá học trong không gian 3 chiều.
-HQSAR (Hologram – QSAR): phân tích hình ảnh phân tử, thông số mô tả là các
phân nhánh cấu trúc.
Một cách phân chia khác QSAR bao gồm:
-Hồi quy (Regression): kết quả thu được là tác dụng sinh học định lượng (như
IC50), bao gồm hồi quy tuyến tính, hồi quy phi tuyến.
-Phân loại (Classification) hay BQSAR (Binary – QSAR): cho kết luận có hay
không (chẳng hạn có hoạt tính kháng sốt rét hay không).
2.3.2.Phương pháp xây dựng mô hình dự đoán – Bình phương tối
thiểu từng phần (PLS – Partial Least Squares)
Nghiên cứu 2D – QSAR hồi quy tuyến tính đầu tiên áp dụng phương pháp
hồi quy đa tuyến (MLR – MultiLinear Regression). Phương pháp này có nhược
điểm là không loại bỏ được các mối liên hệ có sự tương quan lớn giữa các thông số
nên ít được dùng hoặc khắc phục bằng cách kết hợp với kĩ thuật phân tích thành
phần cơ bản (PCA – Principal Component Analysis), có tên gọi là hồi quy dựa trên
thành phần cơ bản (PCR - Principal Component Regression). Với cách thứ hai ta sẽ
tiến hành tính các thành phần cơ bản trước (PC - Principal Component) rồi mới xây
dựng phương trình hồi quy bằng MLR. Một kĩ thuật khác là PLS cũng dung những
lượng, giống như PC, tạo ra từ các biến độc lập, gọi là các biến ẩn (LV – Latent

SVTH: Lê Quang Hiển - 071933H

13


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ


Variable). Các PC hay LV đều là sự kết hợp tuyến tính của tập hợp các biến độc
lập.
PC1 = a11v1 + a12v2 + …a1 NvN
PC2 = a21v1 + a22v2 + …a2 NvN
PCq = aq1v1 + aq2v2 + …aq NvN
LV1 = b11v1 + b12v2 + …b1 NvN
LV2 = b11v1 + b12v2 + …b1 NvN
LVq = bq1v1 + bq2v2 + …bq NvN
Nhưng khác biệt là PLS tính LV và các hệ số tương quan cùng một lúc. Đây
là quy trình lặp nhằm kết hợp bước PCA trong PCR với bước hồi quy. LV cũng như
PC được tính để giải thích phương sai trong tập các giá trị x trong khi vẫn giữ sự
trực giao với một LV khác. Vì vậy, LV đầu tiên sẽ giải thích phần lớn phương sai
trong tập độc lập, LV thứ hai giải thích phần lớn thứ hai và cứ tiếp như vậy. Điểm
khác nhau quan trọng giữa PLS và PCR là LV được tạo thành để mà tối đa hoá sự
tương quan với biến phụ thuộc. Không như phương trình PCr nơi mà các PC không
tham gia vào bất kì một thứ tự riêng nào thì LC sẽ tham gia vào phương trình PLS
theo thứ tự một, hai, ba… Một điểm mạnh cần đề cập của PLS là có thể tiến hành
trên lượng lớn thông số mô tả.
Cụ thể, việc xây dựng tiến hành theo thuật toán sau:
Giả sử, ta có m phân tử, mỗi phân tử được mô tả bởi một vector n hướng
(hay n phần tử, n vector) gồm các số thực xi=(xi1…xin), gồm các thông số mô tả cho
phân tử I (ví dụ, hoạt tính sinh học, logP hay tính khúc xạ). Giả sử mỗi phân tử có
một trọng số (con số thể hiện mức độ quan trọng) kèm theo, Wi là một số không âm.
Những trọng số này được coi như là xác suất tương đối bắt gặp phân tử kèm theo và
thường là tất cà đều bằng 1. Tuy nhiên, trong vài ứng dụng, những trọng số không
cân bằng thường đợc dung. Đặt W là tổng các trọng số.

SVTH: Lê Quang Hiển - 071933H

14



Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

Một mô hình tuyến tính y có dạng a0+aTx với a0 là một con số (scalar – vô
hướng) và a là một vector n hướng. Những thông số này được lựa chọn sao cho sai
số bình phương trung bình (MSE – mean square error) là nhỏ nhất
𝑚

1
𝑀𝑆𝐸 (𝑎0 , 𝑎) = ∑ 𝑤𝑖 [𝑦𝑖 − (𝑎0 + 𝑎𝑇 𝑥𝑖 )]2
𝑊
𝑖=1

Bằng cách lấy vi phân MSE theo những thông số này, ta thấy chúng phải thoả mãn
những phương trình sau, được gọi là những phương trình bình thường (normal
equations).
𝑚

1
𝑎0 = 𝑦0 − 𝑎𝑇 𝑥0 , 𝑆𝑎 = 𝑏 = ∑ 𝑤𝑖 𝑦𝑖 (𝑥𝑖 − 𝑥0 )
𝑊
𝑖=1

𝑚

1
𝑦0 = ∑ 𝑤𝑖 𝑦𝑖 ,

𝑊
𝑖=1

𝑚

1
𝑥0 = ∑ 𝑤𝑖 𝑥𝑖 ,
𝑊
𝑖=1

𝑚

1
𝑆 = ∑ 𝑤𝑖 (𝑥𝑖 − 𝑥0 )(𝑥𝑖 − 𝑥0 )𝑇
𝑊
𝑖=1

Phải cẩn thận khi giải các phương trình trên vì S thường suy biến (singular)
hoặc gần suy biến. Những phương trình bình thường được giải bằng chéo hoá ma
trận. Vì sao S đối xứng và dương, tất cả những giá trị riêng của nó là một số thực và
không âm. Vì vậy chúng ta có thể tính một ma trận trực giao Q và một ma trận chéo
D sao cho 𝑆 = 𝑄𝑇 𝐷𝑄 và các thành phần của ma trận D được xếp theo thứ tự giảm
dần. Ta lấy p giá trị riêng đầu tiên sao cho tất cả đều dương và điều kiện (giná trị
lớn nhất của p giá trị riêng được chia cho giá trị nhỏ nhất của p giá trị riêng) nhỏ
hơn ngưỡng nào đó được cài đặt trước. Ma trận chéo đảo ngược giả D* sau đó được
tạo thành với sự nghịch đảo p giá trị riêng đã chọn nằm trên đường chéo và bất cứ
chỗ nào bằng 0. Cuối cùng, ta xác định vector thông số a với 𝑎 = 𝑄𝑇 𝐷 ∗ 𝑄𝑏. Phương
pháp này gọi là hồi quy thành phần cơ bản (PCR).
Một biến đổi của PCR là bình phương tối thiểu từng phần (PLS) được dung
để xác định các thông số mô hình tuyến tính. Phương pháp này sẽ tạo những ước

lượng hơi khác mà có lẽ thô hơn. Cũng lập những phương trình bình thường như
trên, ta lại tìm một ước lượng cùa a khi S có thể ở trong tình trạng xấu. Một cách để
đạt được là xây dựng một ma trận trọng số VA = (v1,v2,…,vA), với vi là vector cột có

SVTH: Lê Quang Hiển - 071933H

15


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

n hướng, và A, mức độ phù hợp của PLS, số nguyên nhỏ hơn hay bằng n. Trước
tiên ta có các cột của ma trận VA khi tính chéo hoá Gram-Schmidt các vector được
tạo bằng chuỗi Krylov {b, Sb,S2b,…, SA-1b}. Sau đó, để có vector hệ số tương quan
PLS Ath, ta giải phương trình a =VA(VTASVA)-1 VTA. Một thuật toán xác định được
sự phù hợp của PLS đạt được tại bước Ath khi ‖𝑉𝐴+1 ‖ = 0. Tuy nhiên, có thể ta
muốn dung vector hồi quy PLS bậc thấp hơn để phù hợp với mô hình tuyến tính.
Chú ý rằng nếu thuật toán tiếp tục cho tới khi A=n, ma trận trọng số sẽ
vuông và được xếp đầy (full rank). Vector hồi quy kết quả là lời giải của những
bình phương tối thiểu thông thường tương đương với việc giải a=S1b.

Hình 4: Mô phỏng mô hình gồm 2 thông số, tìm phương trình tuyến tính của x mà
tối thiểu hoá phần dư y

SVTH: Lê Quang Hiển - 071933H

16



Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

2.3.3.Phương pháp lựa chọn thông số mô tả trong xây dựng mô
hình QSAR
Có hai lý do mà ta không dùng tất cả thông số mô tả tính toán được để xây
dựng mô hình dự đoán. Đó là:
Độ đúng của dự đoán. Hệ số tương quan phụ thuộc vào cả độ lệch và
phương sai. Càng nhiều thông số mô tả thì độ lệch càng nhỏ nhưng độ phương sai
càng lớn. Vì vậy để cải thiện độ đúng của dự đoán bằng cách giảm phương sai của
những giá trị dự đoán, nên người ta giảm thông số mô tả.
Việc diễn giải ý nghĩa của mô hình. Với lượng lớn biến độc lập, ta thường
muốn tìm tập nhỏ hơn nhưng ảnh hưởng mạnh nhất.
Để lựa chọ thông số mô tả xây dựng mô hình tốt nhất (có khả năng dự đoán tốt
nhất) ta nhờ vào công cụ phân tích ngẫu nhiên (QSAR – Contingency) trong phần
mềm MOE 2008.10 và phương pháp lựa chọn phản hồi (wrapper) với chiến thuật
tìm kiếm lấy thêm (Forward Selection) trong phần mềm WEKA 3.7.0.
Phân tích ngẫu nhiên
Đây là một ứng dụng thống kê được thiết kế hỗ trợ lựa chọn thông số mô tả
cho QSAR. Về cơ bản nó phân tích tính ngẫu nhiên đồng biến của mỗi thông số mô
tả với giá trị hoạt tính. Nó cho ra một bảng hệ số mà ta có thể dựa vào đó để chọn
những thông số quan trọng.
Đặt X là thông số mô tả phân tử ngẫu nhiên và Y là giá trị hoạt tính ngẫu
nhiên. Ta muốn tính được mức độ các biến ngẫu nhiên Y và X liên quan với nhau
(hay phụ thuộc nhau), gọi là mẫu ngẫu nhiên gồm m cặp (yi,xi).
Phân tích tương quan. Tính đồng biến của hai biến X và Y ngẫu nhiên được
xác định bởi Cov(X,Y) = E(XY) - E(X) E(Y). Hệ số tương quan tuyến tính thể hiện
tính đồng biến và mức độ hai biến tương quan tuyến tính, được xác định:

𝑅2 =

[𝐸 (𝑋𝑌) − 𝐸 (𝑋 )𝐸(𝑌)]2
𝑉𝑎𝑟(𝑋 )𝑉𝑎𝑟 (𝑌)

Luôn nằm trong khoảng [0,1], bằng 1 nghĩa là sự tương quan tuyến tính
hoàn toàn và bằng 0 là hoàn toàn không có tương quan. Nếu khác 0 thì X và Y phụ

SVTH: Lê Quang Hiển - 071933H

17


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

thuộc.
Phân tích ngẫu nhiên. Là nỗ lực để xác định mức độ hai biến ngẫu nhiên
phụ thuộc. Phân tích này được biểu diễn bởi một bảng đếm mij là kết quả từ việc
tính biểu đồ tần suất hai chiều trên cặp số của mẫu (yi,xi). Trong trường hợp các
biến ngẫu nhiên rời rạc, i và j trải trên các giá trị dương của biến ngẫu nhiên rời
rạc. Với các biến ngẫu nhiên liên tục, i và j trải trên tập hợp các hộp hoặc khoảng
trong đó các mẫu được cho vào. Ta thấy rằng thống kê:
2

∑𝑘 𝑚𝑖𝑘 ∑𝑘 𝑚𝑘𝑗
(𝑚𝑖𝑗 − 𝑛𝑖𝑗 )
𝐵=∑
, 𝑛𝑖𝑗 =

𝑛𝑖𝑗
𝑚
𝑖𝑗

Có phân phối chi thích hợp. Hai hệ số kết hợp thường được dùng: hệ số
ngẫu nhiên C và cramer‟s V được xác định như sau:
𝐶 = √𝐵/(𝐵 + 𝑚) 𝑉 = √𝐵/𝑚𝑚𝑎𝑥 (𝐼 − 1, 𝐽 − 1)
Với I và J là số hộp i và j tương ứng. Cà hai đều nằm trong khoảng [0,1],
với 1 nghĩa là phụ thuộc và 0 là không phụ thuộc. Tuy nhiên, trong thực tế, không
có giá trị nào đạt được 1.
Hệ số không chắc chắn. Ta có thể xác định một hệ số dựa trên entropy của
những phân phối Pr(X,Y), Pr(Y|X) and Pr(X|Y). Hệ số không chắc chắn entropy, U,
được định nghĩa:

𝑈=2

𝐻𝑋 −𝐻𝑌 −𝐻𝑋𝑌
𝐻𝑋 +𝐻𝑌

Với HXY, HX và HY theo thứ tự là entropy của các phân phối Pr(X,Y), Pr(X)
và Pr(Y). Hệ số U luôn nằm trong khoảng [0,1], với 1 là phụ thuộc hoàn toàn và 0
là không phụ thuộc. Các thông số mô tả phù hợp với phương trình QSAR khi: C >
0,6; V > 0,2; U > 0.2; R2 > 0,2.

SVTH: Lê Quang Hiển - 071933H

18


Luận văn tốt nghiệp đại học


GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

Phương pháp lựa chọn phản hồi với chiến thuật lấy thêm
Việc dùng bốn hệ số như trên chỉ giúp ta giới hạn được phần nào số lượng
thông số so với ban đầu. Nếu chỉ chọn những thông số có giá trị hệ số lớn thì chưa
hẳn đã cho mô hình tương quan tốt. Do đó cần kết hợp phương pháp chọn lọc khác
là phản hồi (wrapper) với chiến thuật tìm kiếm lấy thêm và cách đánh giá tổ hợp
thông số bằng thuật toán hồi quy đa tuyến (MLR).
Cụ thể, chiến thuật tìm kiếm bắt đầu với hệ số chặn k (intercept), là k
thông số có ý nghĩa nhất, sau đó ở mỗi bước lần lượt thêm vào mô hình một thông
số trong những thông số còn lại. Đánh giá từng tổ hợp thông số bằng kỹ thuật
đánh giá chéo dùng thuật toán hồi quy tuyến tính. Thông số cho sự cải thiện
nhiều nhất (mô hình nhỏ nhất có sai số dự đoán mong đợi tối thiểu) được giữ lại và
tiến hành bước tiếp theo
2.3.4. Phương pháp đánh giá chéo k lần (k-fold cross validation) mô
hình dự đoán
Nếu tập dữ liệu đủ lớn thì sẽ được chia làm ba phần: tập huấn luyện, tập
thử nghiệm và tập ngoại. Việc đánh giá mô hình được tiến hành trên tập thử
nghiệm và tập ngoại. Nhưng thường thì số lượng chất không nhiều như mong
muốn nên có một cách làm khác là chỉ chia dữ liệu ban đầu làm hai phần: tập xây
dựng mô hình và tập ngoại. Thực chất, tập xây dựng mô hình là gộp chung tập
huấn luyện và tập thử nghiệm ở trên. Và vừa dùng xây dựng mô hình vừa đánh
giá khả năng dự đoán của mô hình. Cách đánh giá lúc này là đánh giá nội và một
phương pháp thường sử dụng là đánh giá chéo k lần, với k là sô lần chia nhỏ tập
xây dựng mô hình. Thông thường chọn k nhỏ nhất là 5 (số lần chia nhỏ nhất cho
đánh giá đáng tin cậy) và lớn nhất chính là số chất trong tập xây dựng mô hình, khi
đó gọi là đánh giá chéo LOO (leave one out). Tùy số lượng chất trong tập xây dựng
mô hình và cân bằng giữa độ lệch – phương sai mà ta chọn k thích hợp.
Cách tiến hành đánh giá chéo k lần như sau:

- Tập xây dựng mô hình được chia làm k phần.
- Lấy (k – 1) phần làm tập huấn luyện để xây dựng mô hình thứ cấp sử dụng thông

SVTH: Lê Quang Hiển - 071933H

19


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

số mô tả đã chọn trước đó.
- Đánh giá mô hình thứ cấp bằng phần còn lại được giá trị bình phương hệ số
tương quan giữa giá trị dự đoán và giá trị thực nghiệm R2 và căn bậc hai của
tổng bình phương độ lệch giá trị dự đoán – giá trị thực nghiệm RMSE.
- Xáo trộn ngẫu nhiên k lần tập xây dựng mô hình và lặp lại từ đầu. Kết quả, giá trị
đánh giá chéo là trung bình của R2 (nếu là LOO thì là gọi là Q2) và RMSE sau k lần
lặp.
2.3.5. Quy trình thực hiện nghiên cứu QSAR

SVTH: Lê Quang Hiển - 071933H

20


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ


Hình 5: Các bước phân tích trong 2D QSAR
Chuẩn bị cơ sở dữ liệu
Cấu trúc hoá học - Hoạt tính sinh học

Tính toán thông số mô tả
Thông số mô tả 2D (MOE, Dragon…)
Tối thiểu hoá năng lượng (Sybyl)

Phân chia tập hợp, xây dựng và đánh giá mô hình
Tập xây dựng mô hình (training set)-Tập đánh giá ngoại(External set)
Ngẫu nhiên (Random), phân phối đa dạng (Diverse)

Lựa chọn thông số mô tả
Tập hợp xây dựng mô hình (training set)
Loại bỏ các thông số có tương quan chéo
Loại các thông số có >15% giá trị 0 (excel)

Chia tỉ lệ các thông số mô tả
Tập hợp xây dựng mô hình (training set)
Chia tỉ lệ trong khoảng 0-1(RapidMiner 5)

Chọn lọc thông số mô tả
Tập hợp xây dựng mô hình (training set)
Phân tích ngẫu nhiên (QSAR-Contingency-MOE 2008.10
Phương pháp dựa trên sự tương quan (CFS – WEKA 3.7.0)

Xây dựng mô hình QSAR
Tập hợp xây dựng mô hình (training set)
Bình phương tối thiểu từng phần (PLS – MOE 2008.10)
Đánh giá chéo nội (LOO – MOE 2008.10):XR2,XRMSE


Loại bỏ chất gây nhiễu (outlier)
Tập hợp xây dựng mô hình (training set)
Dựa vào Z – score (Plot – MOE 2008.10)

Đánh giá khả năng dự đoán ngoại
Tập hợp đánh giá ngoại (external set)
R2,RMSE

Ứng dụng mô hình trong dự đoán
Giải thích mô hình
Xây dựng thư viện các hợp chất
Áp dụng mô hình dự đoán tìm ứng viên

SVTH: Lê Quang Hiển - 071933H

21


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

Chương 3: ĐỐI TƯỢNG
VÀ PHƯƠNG PHÁP NGHIÊN CỨU

SVTH: Lê Quang Hiển - 071933H

22



Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

3. Đối tượng và phương pháp nghiên cứu
3.1. Đối tượng nghiên cứu
Nghiên cứu này xây dựng phương trình QSAR trên dữ liệu IC50 của 60 chất
flavonoid bất kì được tổng hợp trong các bài báo khoa học trong nước và quốc tế.
Phương trình được xây dựng trên chương trình hoá tin học là SYBYL, MOE
2008.10 cùng các chương trình hỗ trợ khác. Phương trình được xây dựng phải đạt
yêu cầu:
R2≥0.5
RMSE, XRMSE min
XR2≥0.4
3.2. Nghiên cứu QSAR
3.2.1. Thu thập cơ sở dữ liệu
Qua nhiều bài báo khoa học, sàng lọc được gần 150 hợp chất có hoạt tính
thuộc nhiều nhóm cấu trúc khác nhau. Cấu trúc 2D của các chất được vẽ bằng phần
mềm ChemBioDraw Ultra 11.0, 3D của các chất được vẽ bẳng phẩn mềm
ChemBio3D Ultra 11.0
Hoạt tính chống oxy hoá của các hợp chất được đánh giá bằng các giá trị
IC50 được xác định bằng phương pháp đo quang. Trong phương pháp đo quang có
hai cách đo:
-

Sử dụng DPPH

-


Sử dụng ᵦ-caroten, acid linoleic

Cấu trúc và giá trị hoạt tính kháng sốt của các chất được lưu trữ dạng
*.docx. Kết quả tổng hợp lưu trữ trong dạng *.xlsx.
Từ tập dữ liệu phức tạp trên các hợp chất được chọn lựa theo tiêu chí: (i)
cùng cách đánh giá hoạt tính chống oxy hoá (IC50), (ii) cùng đơn vị đo hoạt tính
(nM), (iii) cùng phương pháp xác định hoạt tính, (iv) có giá trị chất đối chiếu tương
đương. Số lượng chất không quá ít (≥ 50).
Dựa vào chất đối chiếu có thể quy đổi giá trị hoạt tính của các chất theo quy
tắc tam suất nếu chênh lệch giữa các giá trị hoạt tính của chất đối chiếu trong các

SVTH: Lê Quang Hiển - 071933H

23


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

bài báo khác nhau từ năm lần trở lên. Do các IC50 có giá trị chênh lệch nhau nhiều
nên được đổi thành pIC50 = -log (IC50) để phù hợp cho việc xây dựng phương trình
tuyến tính quan hệ cấu trúc – tác dụng.

3.2.2. Xây dựng thông số mô tả
Cấu trúc 2 chiều (2D – 2 dimensions) và giá trị IC50 của các chất nghiên
cứu được lưu trữ bằng tập tin *.mdb trong phần mềm MOE 2008.10 (Molecular
Operating Environment phiên bản 2008.10) để tiến hành xây dựng các mô hình.
Trước tiên, các cấu trúc 3D được tối thiểu hoá năng lượng và động lực học
phân tử trong SYBYL. Sau đó, các cấu trúc 2D được tối thiểu hóa năng lượng

nhờ công cụ energy minimize để loại bỏ một số sai sót do xây dựng cấu trúc thủ
công. Các cấu trúc được kiểm tra lại để loại bỏ việc xuất hiện những liên kết
không có thực sau khi tối thiểu hóa năng lượng. Điều này là do cấu trúc được
xây dựng bằng phần mềm ChemBioDraw Ultra 11.0 2008, có thể không tương
thích với MOE. Sau đó, 184 thông số mô tả cấu trúc phân tử 2D được tính toán
nhờ công cụ descriptors trong MOE. Thông số mô tả thể hiện cấu trúc hóa học hay
tính chất vật lý của một phân tử bằng các giá trị số, có ảnh hưởng tới tác dụng sinh
học.
Phần mềm MOE tính được 327 thông số mô tả phân tử gồm ba nhóm:
- 2D: thông số mô tả 2D chỉ dùng các nguyên tử và thông tin liên kết của phân
tử để tính toán. Cấu dạng riêng và tọa độ 3D không dùng.
- i3D: thông số mô tả 3D nội dùng thông tin tọa độ 3D về mỗi phân tử, tuy
nhiên, chúng không quay và không chuyển đổi cấu dạng.
- x3D: thông số mô tả 3D ngoại cũng dùng thông tin tọa độ 3D nhưng cũng đòi
hỏi một khung tham chiếu tuyệt đối.
Tùy theo định hướng nghiên cứu mà chọn lựa tính toán thông số mô tả phù
hợp. Nghiên cứu này tiến hành xây dựng mô hình thể hiện mối quan hệ định
lượng cấu trúc – tác dụng trên cấu trúc 2 chiều của các hợp chất có tính kháng sốt
rét nên chỉ quan tâm các thông số 2D, bao gồm 7 nhóm.

SVTH: Lê Quang Hiển - 071933H

24


Luận văn tốt nghiệp đại học

GVHD: TS.Thái Khắc Minh, ThS. Đỗ Tường Hạ

Bảng 1 :Các nhóm thông số mô tả phân tử 2D tính bằng MOE

STT

Nhóm thông số mô tả 2D

1

Tính chất vật lý

2

Diện tích bề mặt được phân chia nhỏ

3

Đếm số nguyên tử và số liên kết

4

5

Mô tả
Không phụ thuộc cấu dạng
Tính theo hệ số phân chia octanol/nước
hay tính khúc xạ

Chỉ số hình dạng Kappa và chỉ số liên
kết Kier&Hall
Thông số ma trận khoảng cách và ma

Thể hiện mối liên kết giữa các nguyên


trận liền kề

tử với nhau

Thông số đặc trưng cho cấu trúc
6

7

mang hoạt tính (pharmacophore)
Thông số điện tích riêng phần

Tính diện tích bề mặt có điện tích riêng
phần tương ứng

3.2.3. Phân chia tập hợp
Để xây dựng mô hình 2D-QSAR và đánh giá mô hình xây dựng, tập dữ liệu
ban đầu được chia làm 2 phần là tập xây dựng mô hình (chiếm 80% dữ liệu ban
đầu) và tập ngoại. Tập dữ liệu được phân chia ngẫu nhiên (random) hoặc phân chia
diverse.
3.2.3.1 Phân chia ngẫu nhiên
Tập ngoại để đánh giá mô hình cần tính khách quan nên phân chia tập hợp
ngẫu nhiên:
- Đánh số ngẫu nhiên cho các chất bằng hàm RAND trong MOE.
- Sắp theo thứ tự tăng dần và lấy 20% đầu tiên làm tập đánh giá ngoại.
3.2.3.2. Phân chia diverse
Một cách phân chia khác là dựa trên công cụ diverse subset trong MOE,
sắp xếp các chất trong tập dữ liệu dựa trên khoảng cách từ chất này đến chất khác.


SVTH: Lê Quang Hiển - 071933H

25


×