Tải bản đầy đủ (.pdf) (34 trang)

đề tài nghiên cứu ứng dụng thuật toán trên đồ thị để phân hạng gen,kiểu hình bệnh và ứng dụng trong việc tìm gen gây bệnh mới và mối liên quan mới giữa các bệnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.84 MB, 34 trang )

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
BÁO CÁO CHUYÊN ĐỀ
Tên chuyên đề 4.3: Nghiên cứu và khảo sát cơ sở dữ liệu bản
đồ ngữ nghĩa gien (GO: Gene Ontology), bản đồ ngữ nghĩa
bệnh (DO:Disease Ontology)
Tên đề tài: Nghiên cứu ứng dụng thuật toán trên đồ thị để
phân hạng gien, kiểu hình bệnh và ứng dụng trong việc tìm
gien gây bệnh mới và mối liên quan mới giữa các bệnh
Mã số : B2014-01-84
Chủ nhiệm đề tài : TS.Đỗ Phan Thuận Người thực hiện : TS.Huỳnh Thị Thanh Bình
HÀ NỘI-2014
Mục lục
List of Figures iv
List of Tables v
Abbreviations vi
1 Ontology và các khái niệm liên quan 1
1.1 Ontology và ontology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Tổ hợp Khái niệm là gì ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.3 Vai trò của Ngôn ngữ trong việc mô tả Tổ hợp Khái Niệm . . . . . . . . . . . . . . . 6
1.4 Định nghĩa Ontology . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.4.1 Các thành phần chính của Ontology . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Các loại Ontology và vấn đề Thống nhất thông tin . . . . . . . . . . . . . . 11
2 Bản đồ Ngữ nghĩa ứng dụng trong Tin sinh học 12
2.1 Tại sao ontology lại quan trọng với Sinh học ? . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Khảo sát các Ontology sinh học hiện có . . . . . . . . . . . . . . . . . . . . . . . . . 14
3 Bản Đồ Ngữ nghĩa Gene (Gene Ontology) 15
3.1 Đề án thiết lập Bản đồ Ngữ nghĩa Gene . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Ontology Consortium . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.1 Các Ontology thành phần . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.2.2 Cấu trúc của Gene Ontology . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3.2.2.1 Cấu trúc của mỗi Khóa (Term) . . . . . . . . . . . . . . . . . . . . . 17


Các thành tố cơ bản . . . . . . . . . . . . . . . . . . . . . . . . . . 17
Các thành tố phụ thêm . . . . . . . . . . . . . . . . . . . . . . . . 18
3.2.3 Các quan hệ trong GO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Quan hệ is a : . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Quan hệ part of : . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
Mối quan hệ has part : . . . . . . . . . . . . . . . . . . . . . . . . 20
Mối quan hệ điều hòa (regulates) : . . . . . . . . . . . . . . . . . . 21
3.2.4 Cơ sở Dữ liệu Gene Ontology . . . . . . . . . . . . . . . . . . . . . . . . . . 21
3.2.4.1 Dữ liệu bên trong GO database . . . . . . . . . . . . . . . . . . . . 21
3.2.4.2 Các cách truy cập có hiệu lực . . . . . . . . . . . . . . . . . . . . . . 22
(a) Truy cập trực tuyến : . . . . . . . . . . . . . . . . . . . . . . . 22
(b) Cài đặt cục bộ : . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2.4.3 Truy vấn GO database . . . . . . . . . . . . . . . . . . . . . . . . . 23
ii
Contents iii
Truy vấn thông qua AmiGO . . . . . . . . . . . . . . . . . . . . . 23
Truy vấn trong SQL . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Truy vấn thông qua perl . . . . . . . . . . . . . . . . . . . . . . . 23
Truy vấn thông qua java . . . . . . . . . . . . . . . . . . . . . . . 23
4 Bản Đồ Ngữ nghĩa Bệnh (Disease Ontology) 24
4.1 Giới thiệu về Bản đồ Ngữ nghĩa Bệnh . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2 Phạm vi và mục tiêu của DO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3 Nội dung và Cấu trúc của DO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.4 Giao diện WEB của DO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
Tài liệu tham khảo 28
Danh sách hình vẽ
1.1 Một góc nhỏ của một Thế giới với Người,Nhà quản lý,Nhà nghiên cứu,và các mối
quan hệ giữa họ trong ví dụ về khía cạnh Quản lý nhân lực trong một Công ty phần
mềm lớn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Sự thay đổi về lượng của khái niệm quan hệ above khi Trạng thái thay đổi,khái niệm

quan hệ lúc này chỉ được phản ánh về mặt lượng,biểu diễn toán học của nó chỉ là
một tập số lượng các cách sắp xếp của các khối hộp trên mặt bàn,và biểu diễn đó
không thể hiện được Bản chất của quan hệ này . . . . . . . . . . . . . . . . . . . . . 4
1.3 Mối quan hệ giữa Ngôn ngữ và Tổ hợp Khái niệm,và Thực tế source : http://www.
pilod.nl/w/images/b/b1/D10-fig1.jpg . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4 (Guarino - [1]) - Mối quan hệ giữa,hiện tượng xảy ra trong thực tế,cách chúng được
nhận thức (perception),Tổ hợp Khái niệm của chúng,Ngôn ngữ được dùng để bàn về
Tổ hợp khái niệm,Mô hình Dự kiến của Ngôn ngữ,và Bản đồ Ngữ nghĩa . . . . . . . 9
3.1 Cấu trúc Ontology là một đồ thị có hướng (directed) không chu trình (acyclic) . . . . 18
3.2 Một ví dụ về GO Term . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.3 Mối quan hệ part-of . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
iv
Danh sách bảng
3.1 Các cơ sở dữ liệu thành phần của GO database . . . . . . . . . . . . . . . . . . . . . 21
3.2 Các tham số để sử dụng EBI mirror database . . . . . . . . . . . . . . . . . . . . . . 22
3.3 Các tham số dành cho cơ sở dữ liệu gương Ensembl . . . . . . . . . . . . . . . . . . 22
v
Abbreviations
DO Disease Ontology
GO Gene Ontology
vi
Chương 1
Ontology và các khái niệm liên quan
Phần này báo cáo sẽ trình bày các thông tin về Bản đồ ngữ nghĩa (Ontology) nói chung, cách phân
loại,và vai trò của chúng.Các kiến thức chung về Bản đồ ngữ nghĩa sẽ giúp chúng ta có một hiểu
biết nền tảng để đi tới tìm hiểu về các Bản đồ ngữ nghĩa cụ thể,như Bản đồ Ngữ nghĩa Gene và
Bản đồ Ngữ nghĩa Bệnh.
1.1 Ontology và ontology
Từ khóa "ontology" được sử dụng với các ý nghĩa khác nhau trong các cộng đồng khác nhau.Chúng
ta cần phân biệt giữa hai dạng,là dạng không đếm được ("Ontology",với chữ cái O hoa đầu tiên)

và dạng đếm được ("an ontology", chữ cái o đầu tiên viết thường).
Trong trường hợp đầu tiên ,chúng ta đang nhắc đến một từ khóa trong Triết học,được đặt tên cho
một nhánh triết học liên quan tới hình thái tự nhiên (natural) và cấu trúc (structure) của "Thực
tế" ("Reality").Aristotle làm việc với chủ đề này ở trong cuốn sách Siêu hình học (Metaphysics) và
định nghĩa Ontology như là một khoa học về sự "hữu thể tự thân" (being-qua-being) ,tức là ,khoa
học nghiên cứu về các đặc tính phải có thuộc về các vật thể,bởi vì tính rất tự nhiên của chúng
(thực tại tối hậu).Không giống như các ngành khoa học thực nghiệm,chú trọng vào việc tìm kiếm
và mô hình hóa thực tế dưới một góc nhìn (perspective) cụ thể,Ontology tập trung vào đặc tính
tự nhiên và cấu trúc của mọi thứ,mà về mặt bản chất độc lập với mọi mức quan sát,và độc lập cả
với sự tồn tại thực tế của thứ ấy.Lấy một ví dụ,ta đi tìm Ontology của con Kỳ Lân và các Thực
thể giả tưởng khác : mặc dù nó không có tồn tại thật sự,nhưng đặc tính tự nhiên và cấu trúc của
nó có thể được mô tả bằng các hạng mục (categories) và mối quan hệ phổ thông.
1
Ontology và các khái niệm liên quan 2
Trong trường hợp thứ hai,nó phản ánh một khái niệm được sử dụng ở trong Khoa học máy tính,ở
đây ontology giống như là một dạng đặc biệt của đối tượng thông tin (information object) hay sản
phẩm điện toán (computational artifact).Bản đồ ngữ nghĩa điện toán có ý nghĩa trong việc mô hình
hóa một cách tiêu chuẩn cấu trúc của một hệ thống,tức là,bao gồm các thực thể liên quan và các
mối quan hệ nổi lên giữa chúng.Một ví dụ về hệ thống có thể là một Công ty với tất cả Công nhân
trong đó và những mối quan hệ giữa họ.Kỹ sư về Ontology phần tích những thực thể liên quan và
tổ chức chúng vào trong các khái niệm và quan hệ,được đại diện,tương ứng,bởi Phép vị từ một
ngôi (Unary predicate) và Vị từ hai ngôi (binary predicate).Khung xương sống của ontology
bao gồm cấu trúc phân cấp Tổng quát/Chuyên biệt của các Khái niệm,gọi là Taxonomy.Giả sử
ta đang quan tâm tới khía cạnh liên quan tới nguồn nhân lực,thì Người,Nhà quản lý,và Nhà nghiên
cứu có thể là những Khái niệm liên quan,trong đó thì khái niệm đầu tiên là khái niệm cha được kế
thừa bởi hai khái niệm còn lại.Làm việc-với có thể coi như là một quan hệ xảy ra giữa các cá nhân
(Người).Một người bằng xương bằng thịt làm việc trong công ty sẽ là một thể hiện (instance) của
khái niệm mà đại diện cho nó.
Vào năm 1993,Gruber định nghĩa về ý niệm (chưa đủ đúc kết thành khái niệm) của ontology như là
"Đặc tả của một Tổ hợp khái niệm (conceptualization)".Vào năm 1997,Borst định nghĩa ontol-

ogy như là "mô tả chuẩn xác về một Tổ hợp khái niệm chia sẻ (Shared conceptualization)".Định
nghĩa này yêu cầu thêm rằng Tổ hợp khái niệm phải thể hiện được một cách nhìn nhận được chia sẻ
giữa vài nhóm khác nhau,thay vì chỉ là một góc nhìn của cá nhân.Studer vào năm 1998,kết hợp hai
định nghĩa này,thống nhất thành một định nghĩa "ontology là một đặc tả chuẩn xác (formal),rõ
ràng (explicit) của một Tổ hợp khái niệm chia sẻ".Vậy một Tổ hợp khái niệm là gì ?
Ontology và các khái niệm liên quan 3
1.2 Tổ hợp Khái niệm là gì ?
Gruber tham khảo ý niệm về Tổ hợp khái niệm được phát biểu bởi Genesereth và Nilsson
"Phần thân của Tri thức được biểu diễn (represented-knowledge) được dựa trên
một Tổ hợp khái niệm : bao gồm các Đối tượng (objects),các Khái niệm (con-
cepts),và các Thực thể (entities) khác (được giả thiết là có tồn tại trong lĩnh vực đang
quan tâm),cũng như mối quan hệ xảy ra giữa chúng,Một Tổ hợp khái niệm là một bức
tranh trừu tượng,khái quát hóa,thể hiện một góc nhìn đơn giản về Thế giới (world)
mà ta muốn biểu diễn với một vài mục đích nào đó.Mọi Cơ sở tri thức(Knowledge
Base),Hệ dựa trên tri thức (Knowledge-base System) ,hay các Tác tử phân mức tri
thức(Knowledge-level Agent) đều mang chấp nhận với một vài Tổ hợp khái niệm nào
đó,một cách trực tiếp,hoặc hàm ý".
Genesereth và Nilsson đã sử dụng một biểu diễn toán học đơn giản để mô tả về ý niệm "Tổ hợp
khái niệm",hay được gọi là : Cấu trúc quan hệ ngoại diên (Extensional relational structure).
Định nghĩa 1.1 (Cấu trúc quan hệ ngoại diên) Cấu trúc quan hệ ngoại diên,là một tuple
(D, R) với
• D là một tập gọi là Vũ trụ quần thể (Universe of discourse)
• R là một tập các quan hệ ở trong D
Chú ý rằng,trong định nghĩa ở trên,các thành viên của tập R là các quan hệ toán học thông thường
trên tập D,là một tập hợp các tổ hợp phần từ trong D.Mỗi phần tử trong R được gọi là một Quan
hệ ngoại diên (extensional relation).
Ví dụ 1.1 Hãy xem xét về vấn đề quản lý Nhân lực trong một Công ty phần mềm lớn với hơn
50,000 nhân viên,mỗi người có một Chỉ số riêng bắt đầu bởi chữ cái I.Chúng ta giả thiết rằng
Vũ trụ quần thể ở đây sẽ là tất cả các nhân viên,và do đó ta sẽ chỉ quan tâm đến mối quan hệ
giữa người và người.Tập R sẽ chứa một vài quan hệ đơn ngôi,như là Người,Nhà quản lý,Nhà nghiên

cứu,và các quan hệ hai ngôi như Báo cáo-cho và Hợp tác-với.Cấu trúc quan hệ ngoại diên của
chúng ta cuối cùng sẽ là :
• D = I000001, , I050000,
• R = Người,Nhà Quản lý,Nhà Nghiên cứu,Báo cáo-cho,Hợp tác-với
Ontology và các khái niệm liên quan 4
Hình 1.1: Một góc nhỏ của một Thế giới với Người,Nhà quản lý,Nhà nghiên cứu,và các mối quan
hệ giữa họ trong ví dụ về khía cạnh Quản lý nhân lực trong một Công ty phần mềm lớn
Vấn đề xảy ra đối với các biểu diễn của Genesereth và Nilsson (về Tổ hợp khái niệm) đó là nó chỉ
đơn giản sử dụng những quan hệ toán học thiếu sâu sắc trên tập D,tức là các Quan hệ ngoại
diên (Extensional relation),gọi nó là ngoại diên là vì biểu diễn quan hệ này chỉ phản ánh được
đặc tính LƯỢNG của một quan hệ (lực lượng của quan hệ đại số mang biểu diễn cho LƯỢNG của
quan hệ),mà không thể thể hiện được bản CHẤT của mối quan hệ cần được biểu diễn.Lấy ví dụ
trong thế giới của các chiếc hộp,với quan hệ above,Vũ trụ quần thể (Universe of Discourse) ở đây
sẽ là những chiếc hộp.Minh họa dưới là các Trạng thái (State of affairs) của Thế giới này.
Hình 1.2: Sự thay đổi về lượng của khái niệm quan hệ above khi Trạng thái thay đổi,khái niệm
quan hệ lúc này chỉ được phản ánh về mặt lượng,biểu diễn toán học của nó chỉ là một tập số lượng
các cách sắp xếp của các khối hộp trên mặt bàn,và biểu diễn đó không thể hiện được Bản chất của
quan hệ này
Như ta thấy ở trên khái niệm above bị thay đổi khi Trạng thái bị thay đổi.tức là Tổ hợp khái niệm
này phụ thuộc rất nhiều vào một Trạng thái cụ thể,đó là một điều không nên có ở một Tổ hợp khái
niệm.Để giải quyết vấn đề này,thì thay vì tập trung vào LƯỢNG của một mối quan hệ,ta sẽ tập
trung vào Ý nghĩa (Chất-meaning) của mối quan hệ đó,độc lập với Trạng thái,với ví dụ trên,thì Ý
nghĩa của mối quan hệ above tồn tại trong cái cách bố trí đặc biệt nào đó giữa hai vật thể (khối A
Ontology và các khái niệm liên quan 5
nằm lên trên khối B).Một biểu diễn quan hệ mà thể hiện được Ý nghĩa của một quan hệ thì được
gọi là Quan hệ Nội hàm (Intensional Relation).
Định nghĩa 1.2 (Thế giới) Đối với một Hệ thống S nhất định mà chúng ta muốn Mô hình hóa,thì
một Trạng thái Thế giới (World State) của S là tất cả các Trạng thái môi trường (State of affair)
quan sát được,nói rõ hơn chính là tất cả các phép gán có thể cho các biến số mang vai trò phản
ánh,đặc tả Hệ thống đó.Một Thế Giới (World) là một tập tổng thế (totally) có thứ tự (ordered)

của các Trạng thái Thế giới,tương ứng với sự tiến hóa theo thời gian của Hệ thống.Nếu chúng ta
trừu tượng hóa Hệ thống đến mức lược bỏ yếu tố Thời gian thì lúc này Thế giới (world) sẽ đồng
nhất với Trạng thái Thế giới (World State) - trong báo cáo này chúng ta sẽ bỏ qua yếu tố Thời gian
để điều này xảy ra
Định nghĩa 1.3 (Quan hệ Nội hàm) Cho S là một hệ thống tùy ý,D là một tập tùy ý các phần
tử trong S,và W là tập các Trạng thái Thế Giới của S.Cặp < D, W > được gọi là Không gian
Miền (Domain Space) của S.Quan hệ Nội hàm (Intensional Relation) ρ
n
với số chiều n trên
< D, W > là một hàm toàn phần (mọi đầu vào trong tập nguồn đều có ánh xạ trong tập đích)
ρ
n
: W → 2
D
n
từ tập W vào tập các quan hệ (ngoại diên) n-ngôi.
Theo như Định nghĩa 2.3 chúng ta đã biểu diễn Quan hệ Nội hàm như một Hàm ánh xạ từ tập các
Trạng thái Thế giới có thể vào một Tập.Việc biểu diễn này có một vài bất lợi thế,nhưng với mục
đích thể hiện ý nghĩa của một quan hệ thì chỉ nó lại thỏa mãn (theo như Guarino).Trong khi các
Quan hệ thông thường chỉ được định nghĩa trên một Miền (Domain) nhất đinh,nhưng Quan hệ Nội
hàm được định nghĩa trên Không gian Miền (Domain Space).Ở trên ta định nghĩa Không gian miền
là một cặp < D, W >,một ví dụ về Không gian Miền về Thế giới chiếc Hộp đó là < D
box
, W
box
>
với D
box
là tất cả những chiếc hộp ở trên mặt bàn,còn W
box

là tất cả các cách sắp xếp của những
chiếc hộp đó.
Từ các định nghĩa trên,ta tiếp tục trình bày định nghĩa về Cấu trúc quan hệ Nội hàm (Inten-
sional relational structure) là một biểu diễn cải tiến của Cấu trúc quan hệ Ngoại diên dành cho Tổ
hợp khái niệm (Conceptualization),(trong
Guarino đồng nhất Cấu trúc quan hệ Nội hàm với Tổ hợp khái niệm).
Định nghĩa 1.4 (Cấu trúc quan hệ Nội hàm,hay Tổ hợp khái niệm) Một Cấu trúc
quan hệ nội hàm (hay cũng chính là một Tổ hợp khái niệm theo như Guarino) là một cặp ba
C =< D, W, R > với :
• D là Vũ trụ Quần thể (Universe of discourse)
• W là tập các Thế giới (Worlds) có thể có
Ontology và các khái niệm liên quan 6
• R là tập các quan hệ Nội hàm trên Miền không gian < D, W >
Quay lại định nghĩa về Cấu trúc Quan hệ Ngoại diên < D, R > đã được định nghĩa ở trên.Lúc này
< D, R > chỉ liên quan (phản ánh - nhưng không phải là bản thân) một Thế giới duy nhất (hay
một Trạng thái Thế giới),giờ ta sẽ gọi nó là Cấu trúc Thế giới (World Structure).Lúc này ta sẽ
xem xét được mối quan hệ giữa Cấu trúc Quan hệ Ngoại diên và Cấu trúc Quan hệ Nội hàm hay
giữa Tổ hợp Khái niệm và Cấu trúc Thế giới đó là : "Một Tổ hợp Khái niệm có thể chứa nhiều
Cấu trúc Thế giới".
1.3 Vai trò của Ngôn ngữ trong việc mô tả Tổ hợp Khái Niệm
Trong các ứng dụng thực tế,cũng như trong truyền thông giữa con người,chúng ta cần có một ngôn
ngữ để có thể đề cập đến một thành phần bên trong một Tổ hợp khái niệm.Lấy một ví dụ,để biểu
diễn thực tế I046758 có hợp tác với I044443,chúng ta cần đề xuất một ký hiệu nhất định nào đó
có trong ý niệm của người sử dụng,có thể được sử dụng để mô tả một mối quan hệ nội hàm nhất
định.Ngôn ngữ có khả năng cung cấp cho người sử dụng một tập các yếu tốt căn bản để có thể
trực tiếp diễn đạt các khái niệm nào đó.
Các Tổ hợp khái niệm và các yếu tố Trừu tượng là những thực thể vô hình (immaterial entities)
chỉ tồn tại ở bên trong tâm thức của một cá nhân hay một cộng đồng người sử dụng một ngôn
ngữ.Để có thể tạo tài liệu,truyền thông và phân tích chúng phải được "chụp" (captured) lại,tức là
biểu diễn chúng dưới dạng các biểu tượng cụ thể (concrete artifact).Điều đó cho thấy,một ngôn ngữ

là tối quan trọng trong việc thể hiện chúng một cách gọn gàng,đầy đủ và không nhập nhằng.Hình
minh họa dưới đây gọi là Tam giác Ullmann mối quan hệ giữa Ngôn ngữ và Tổ hợp Khái niệm,và
một phần của Thực tế (một phần Thực tế ở đây chính là lĩnh vực mà ta quan tâm) :
Hình 1.3: Mối quan hệ giữa Ngôn ngữ và Tổ hợp Khái niệm,và Thực tế
source : />Đối với một Khái niệm (Concept) ,thì nội dung ý nghĩa (meaning) của nó bao gồm 2 khía
cạnh,Ngoại diên (extension) và Nội hàm(intension).Phần đầu tiên bao gồm tất cả các mối
quan hệ của Khái niệm với các Khái niệm liên quan (CHẤT).Phần thứ hai nói tới Ý nghĩa Tham
Ontology và các khái niệm liên quan 7
chiếu (referential meaning) của Khái niệm,nói đơn giản tức là nó cho ta biết tất cả những trường
hợp được tham chiếu bởi khái niệm này.Lấy ví dụ,Nội hàm của Khái niệm Bảo Đại bao gồm các
Quan hệ đến các Khái niệm như Việt Nam,Vua,Triều Đại nhà Nguyễn,v v,trong khi đó Ngoại
diên của nó sẽ chỉ là một con người lịch sử cụ thể là ngài Bảo Đại (bằng xương bằng thịt).Khái
niệm Hoàng đế có Nội hàm là các Quan hệ với các Khái niệm Nguyên Thủ,Chính Quyền,Phong
Kiến,v v,còn Ngoại diên của nó là tất cả các Hoàng đế (bằng xương,bằng thịt) trên Hành Tinh.
Đối với một Ngôn ngữ,nó có cũng có hai vai trò tương ứng với trách nhiệm Thông giải các khía
cạnh Ý nghĩa của các khái niệm : Thông dịch Ngoại diên và Thông dịch Nội hàm.
Nếu ta có một ngôn ngữ logic L,với từ điển V .Ta có định nghĩa một Mô hình/Cấu trúc Ngoại
Diên bậc nhất (Model/Extensional first-order structure) dành cho L là một cấu trúc < S, I >,với
S =< D, R > là một Cấu trúc Thế giới và I : V → D ∪ R là một Hàm Thông dịch (Interpretation
Function) gán một phần tử của D cho một Hằng ký tự (Constant Symbol) trong V ,và phần tử của
R cho một một Ký tự vị từ (Predicate Symbol) trong V .Cách mô hình trên bộc lộ đầy đủ được
vai trò Thông dịch Ngoại diên (Extensional Interpretation) của một ngôn ngữ.Tương tự ta cũng
có thể bộc lộ được khía cạnh Thông dịch Nội hàm (Intensional Interpretation) bằng cách sử
dụng một cấu trúc < C, J >,với C =< D, W, R > là một Tổ hợp Khái niệm với và J : V → D ∪ R
là một hàm gán một phần tử của D cho một Hằng ký tự,và phần tử trong R cho một Ký tự
vị từ trong V .Chúng ta sẽ gọi Cấu trúc (bộc lộ khía cạnh Thông dịch Nội hàm) này là Cam
kết Ngữ nghĩa/Cấu trúc Nội Hàm bậc một (Ontological Commitment/Intensional first-order
structure) của L.Nếu K =< C, J Cam kết Ngữ nghĩa của L,chúng ta nói rằng L cam kết(commits)
với C bởi K,và C lúc này được gọi là Tổ hợp Khái niệm Cơ sở (Underlying Conceptualization của K.
Ví dụ 1.2 : Trở lại với Ví dụ 1.2,từ điển V sẽ là : V =Người,Nhà Quản lý,Nhà Nghiên cứu,báo

cáo-cho,hợp tác-với.Cam kết Ngữ nghĩa bao gồm các ánh xạ từ Ký hiệu Người đến Quan hệ nội
hàm Người các ánh xạ tương tự còn lại của Nhà quản lý,Nhà nghiên cứu,báo cáo-cho,và hợp tác-với.
1.4 Định nghĩa Ontology
Để định nghĩa rõ ràng về Ontology ta cần biết về một Khái niệm gọi là Mô hình Dự kiến (Intented
models)
Ontology và các khái niệm liên quan 8
Định nghĩa 1.5 (Mô hình Dự kiến) Cho C = (D, W, R) là một Tổ hợp khái niệm , L là
một ngôn ngữ logic bậc một với từ điển V và Cam kết Ngữ nghĩa K = (C, I).Một mô hình
M = (S, I),được gọi là Mô hình dự kiến của L theo K nếu và chỉ nếu :
• Đối với tất cả các Hằng Ký tự c ∈ V ta luôn có I(c) = I(c).
• Tồn tại một Thế giới w ∈ W sao cho,với mỗi Ký hiệu vị từ v ∈ V ,thì sẽ tồn tại một Quan
hệ Nội hàm ρ ∈ R sao cho I(v) = ρ và I(v) = ρ(w) Một tập I
K
(L) bao gồm tất cả các Mô
hình của L mà tương thích với K được gọi là tập các Mô hình Dự kiến của L theo K.
Điều kiện thứ nhất yêu cầu các ánh xạ từ các Hằng Ký hiệu tới các phần tử của Vũ trụ Quần thể
phải là đồng nhất.Điều kiện thứ hai bắt buộc phải tồn tại một Thế giới mà mọi Ký hiệu Vị từ đều
được ánh xạ vào một Quan hệ Nội hàm mà giá trị của nó,cho Thế giới đang xét,đồng nhất với kết
quả Thông dịch Ngoại diên của Ký hiệu đó.Điều đó có nghĩa là Mô hình Dự kiến của chúng ta
phải là một mô tả về Thế giới ấy.
Khi đã rõ ràng về định nghĩa của Mô hình Khái niệm trong đầu,giờ ta có thể Định nghĩa rõ ràng
về Bản đồ Ngữ nghĩa hay ontology,và thông qua đó biết được ontology đóng vai trò như là một
Lý thuyết logic được sử dụng tham chiếu đến Ý nghĩa Dự kiến của bộ Từ điển (được sử dụng bởi
Ngôn ngữ).
Định nghĩa 1.6 (Ontology) Cho C là một Tổ hợp Khái niệm,và L là một Ngôn ngữ logic
với bộ Từ điển (Vocabulary) V và Cam kết Ngữ nghĩa K.Một Bản đồ Ngữ nghĩa - ontology
O
K
cho C với bộ Từ điển V và Cam kết Ngữ nghĩa K là một một Lý thuyết Logic bao gồm một
tập các luật (formulas) của L,Bản đồ Ngữ nghĩa được thiết kế sao cho tập các Mô hình của nó

được xấp xỉ càng gần nhất có thể với tập các Mô hình Dự kiến của L theo K.
1.4.1 Các thành phần chính của Ontology
Gọi ontology là một Lý thuyết Logic của một Ngôn ngữ Logic L , có nghĩa là ontology sử dụng các
Từ (Word) trong từ điển V của L , và tuân theo Cấu trúc Ngữ Pháp của L . Nhưng ontology sẽ
quyết định cách sử dụng các Từ,và cấu trúc Ngữ pháp này để thể hiện một ý nghĩa nào đó thông
qua Mô hình Logic (Logical Model) mà nó hàm ý.Hay nói cách khác ontology tạo ra Ràng buộc
cho các cách bộc lộ có thể có của một Ngôn ngữ.Một ontology có các Mô hình Logic càng trùng
khớp với các Mô hình Dự kiến của Tổ hợp Khái niệm (của một lĩnh vực - domain cụ thể) mà nó
đang đặc tả thì tức là nó càng tốt.
Ontology và các khái niệm liên quan 9
Hình 1.4: (Guarino - [1]) - Mối quan hệ giữa,hiện tượng xảy ra trong thực tế,cách chúng được
nhận thức (perception),Tổ hợp Khái niệm của chúng,Ngôn ngữ được dùng để bàn về Tổ hợp khái
niệm,Mô hình Dự kiến của Ngôn ngữ,và Bản đồ Ngữ nghĩa
Các thành phần chính của ontology bao gồm các Khái niệm (concept),các Quan hệ (relation),các
Thể hiện (instances) và các Luật (axioms) .Dưới đây ta sẽ nói về các dạng thường thấy của các
Thành phần này :
Một Khái niệm thể hiện một tập hoặc một lớp các Thực thể (Entities) với lĩnh vực đang quan
tâm.Protein là một Khái niệm trong lĩnh vực Sinh học Phân tử.Khái niệm thông thường rơi vào
hai dạng dưới đây :
• Khái niệm cơ sở (Primitive Concept) là khái niệm có những điều kiện cần có dành cho các
thành viên của nó,Lấy một ví dụ,"Protein Hình cấu (globular protein) là một loại portein có
Nhân kỵ nước (Hydrophobic core) tức là tất cả các Protein Hình cấu đều phải có Nhân kỵ
nước,tuy nhiên không phải tất các các Thực thể có Nhân kỵ nước đều là Protein Hình cấu.
Ontology và các khái niệm liên quan 10
• Khái niệm xác định (Defined Concept) mà các yêu cầu dành cho các thành viên là các điều
kiện cần và đủ.Lấy một ví dụ : tế bào Eukaryotic là dạng tế bào có một nhân,và mọi tế bào
có một nhân đều là tế bào Eukaryotic.
Các Quan hệ mô tả các tương tác giữa các Khái niệm hoặc giữa các Thuộc tính của Khái niệm
.Các Quan hệ thông thường có hai loại sau :
• Taxonomy là các quan hệ tổ chức các Khía niệm thành các cây phân cấp Tổng quát/Chuyên

biệt.
– Quan hệ Đặc tả (Spectialisation Relation) thường được biết đến là quan hệ "is a kind
of" .Lấy ví dụ Enzyme là một kiểu (is a kind of) Protein.
– Quan hệ thành phần (Partitive Relation) mô tả sự kiện một khái niệm là một phần của
các khái niệm khác.
• Quan hệ Liên tưởng (Associative Relationship) bao gồm các dạng sau :
– Quan hệ Danh cách (Nominative Relationship) mô tả tên của Khái niệm . Ví dụ Protein
có-chỉ-số [chỉ-số],và Gene có-tên [tên]
– Quan hệ Định vị (Locative Relationship) mô tả vị trí của Khái niệm này đối với Khái
niệm khác.
– ƠQuan hệ Liên tưởng mô tả các chức năng,tiến trình mà một Khái niệm được tham
gia,và các thuộc tính của một Khái niệm - ví dụ Protein có-chức-năng tiếp-nhận ,hoặc
Protein tham-gia-vào-quá-trình Phiên-dịch-mã.
• Ngoài ra còn có nhiều kiểu Quan hệ khác,như là Quan hệ ’Nhân quả’.v v
Các Quan hệ,cũng giống như các Khái niệm,có thể được tổ chức vào trong các taxonomy.Ví dụ
như,hasName có thể chia thành các quan hệ đặc tả như sau hasGeneName,hasProteinName và
hasDiseaseName.
Các Thể hiện (Instance) là những ’thứ’ được đại diện bởi một Khái niệm - cytochrome C ở người
(một loại Protein) là một Thể hiện của Khái niệm Protein.
Cuối cùng,Luật (Axiom) được sử dụng được sử dụng để tạo ra các ràng buộc cần thiết cho các giá
trị của các Thể hiện hay các Lớp.Đặc tính của các Mối quan hệ cũng là một kiểu Luật.
Ontology và các khái niệm liên quan 11
1.4.2 Các loại Ontology và vấn đề Thống nhất thông tin
Thống nhất Thông tin (information integration) là một lớp ứng dụng chính dành cho các on-
tologies.Nhưng vấn đề là ở chỗ,hai hệ thống cùng sử dụng chung một Từ điển,cũng không đảm
bảo là chúng cùng thống nhất cùng một loại thông tin trừ khi chúng cam kết với cùng một Tổ hợp
Khái niệm.Giá sử mỗi hệ thống đều có một Tổ hợp khái niệm riêng của chúng,điều kiện cần có để
tạo sự thống nhất có thể xảy ra được đó là các Mô hình Dự kiến (Intended models) của hai Tổ hợp
Khái niệm phải giao nhau (overlap).
Cũng có trường hợp có hai tập Mô hình dự kiến được ước lượng bởi hai ontology khác nhau,cả hai

ontology đều trùng khớp tuy nhiên Mô hình dự kiến của nó thì lại không giao nhau.Điều đó có
nghĩa là các hệ thống thống nhất tiếp cận từ dưới lên bắt đầu từ các ontology cục bộ có thể không
hoạt động được nếu điều này xảy ra,đặc biệt là nếu các ontology cục bộ chỉ được tập trung vào các
mối quan hệ liên quan đến các ngữ cảnh đặc biệt,do vậy các hệ thống này rất thiếu ổn định.Do
vậy,sẽ là thuận lợi hơn nếu thống nhất dự trên một ontology bậc cao duy nhất thay vì phụ thuộc
vào sự thống nhất thiếu bền vững dựa trên phần giao nhau (intersection) nhỏ bé của các ontologies
cục bộ khác nhau.
Những vấn đề được bàn bạc ở trên đưa ra một gợi ý là ta sẽ phát triển các loại ontology khác nhau
dựa trên mức bao hàm (level of generality) của nó :
• Các ontology bậc cao (Top-level ontology): mô tả mọi Khái niệm phổ thông nhất như
Không gian,Thời gian,Vật chất,Đối tượng,Sự kiện,Hành động,v v,những Khái niệm này đọc
lập với các vấn đề hay các lĩnh vực cụ thể ,được thiết kế để sử dụng bởi một cộng đồng lớn
những người sử dụng.
• Các ontology lĩnh vực (Domain ontology) và ontology nhiệm vụ (task ontology) mô tả
một từ điển liên quan tới một lĩnh vực phổ thông (như dược học,hay sinh học phân tử) hoặc
một nhiệm vụ thông thường (như là chẩn đoán,hay bán hàng),bằng cách đặc tả các từ khóa
được giới thiệu trong các ontology bậc cao.
• Các ontology ứng dụng (Application ontology) mô tả các Khái niệm phụ thuộc cả vào
một lĩnh vực,và nhiệm vụ cụ thể.
Chương 2
Bản đồ Ngữ nghĩa ứng dụng trong
Tin sinh học
2.1 Tại sao ontology lại quan trọng với Sinh học ?
Hiện nay có rất nhiều nguồn dữ liệu dị thể (heterogeneous) và độc lập (tức tự chủ - autonomous)
có thể truy cập trên Internet liên quan đến Hệ gene (Genomic),Tế bào (Cellular), Kiểu hình (Phe-
notype) và các loại thông tin Sinh học khác.Và với mỗi dạng thông tin,ví dụ như Dữ liệu chuỗi
DNA (DNA sequence data) lại tồn tại nhiều dữ liệu với độ lớn và có sự tổ chức khác nhau.
Và đương nhiên,kết quả là sẽ tồn tại những khác biệt về Thuật ngữ ( từ đồng nghĩa,bí danh-
alias),khác biệt về Cú pháp và khác biệt về Ngữ nghĩa.Việc thống nhất,kết hợp dữ liệu bị cản trở
bởi sự khác nghĩa của phạm trù đồng nhất,sự trùng nghĩa của các phạm trù khác biệt.và sự xung

đột nghĩa giữa các phạm trù khác nhau.Quy ước đặt tên của các đối tượng Dữ liệu,chỉ số của các
đối tương,bản ghi nhãn (record label) là khác nhau giữa các cơ sở dữ liệu và do đó cản trở một
kế hoạch thống nhất.Và kể cả những Khái niệm bậc cao quan trọng nhất,cơ bản nhất đối với Sinh
học cũng rất nhập nhằng.
Một ví dụ nổi bật đó là Khái niệm Gene.Đối với GDB,một gene là một "Một đoạn DNA có thể được
phiên mã và chuyển thành một Protein".Đối với Genebank và GSDB,thì một gene là "một đoạn
DNA được quan tâm và mang đặc điểm di truyền học và kiểu hình" mà chứa các đoạn DNA mã hóa
phi cấu trúc như là intron,vùng gene khởi động (promoter),vùng gene tăng cường (enhancer).Một
từ khóa khác cũng có rất nhiều nghĩa khác nhau đó là chức năng protein.Rõ ràng những ví dụ trên
đã cho thấy những sự khác biệt về ý nghĩa trong cùng một khái niệm,do chúng đều được đồng
12
Bản đồ Ngữ nghĩa ứng dụng trong Tin sinh học 13
thời sử dụng nên đã góp phần vào việc làm tăng tính phức tạp trong việc đồng bộ,thống nhất dữ liệu.
Sự phát triển của Công nghệ Microarray trong việc phân tích biểu hiện của mRNA yêu cầu sự chuẩn
hóa (standardisation) trong các thuật ngữ Sinh học.Một so sánh giữa các kết quả thực nghiệm chỉ
có thể tiến hành nếu như tập từ khóa được thống nhất và có mẫu đầu vào được chuẩn hóa được
sử dụng.
Hiện nay ,sự xuất hiên của Phương pháp Tiếp cận hợp nhất trong Sinh học,nhờ vậy các lĩnh vực con
với các khởi đầu độc lập lẫn nhau sẽ tiến đến một trạng thái hợp nhất,và có tham chiếu lẫn nhau.Do
vâỵ nhu cầu về tạo ra một bộ danh pháp,thuật ngữ chuẩn trong Sinh học càng trở nên cần thiết hơn.
Với sự lớn mạnh nhanh chóng của các dữ liệu liên quan tới cấu trúc,trình tự,biểu hiện,chuyển hóa
và điều hòa của nhiều cơ quan sinh học khác nhau,tạo thêm nhiều áp lực trong việc phải sử dụng
các danh phát chuẩn,thống nhất ở trong lĩnh vực sinh học phân tử.
Các nhiệm vụ khai phá dữ liệu văn bản và xử lý ngôn ngữ tự nhiên trong Sinh học cũng có thể
được hỗ trợ từ ontology.Hầu hết các phương án tiếp cận mang tính thống kê,và sử dụng lân cận
đang được áp dụng trong việc phân tích văn bản đều có thể nhận được sự hỗ trợ từ ontology trong
việc phân tích cú pháp và xử lý nhập nhằng trong các câu.
Sau đây là một vài ứng dụng của ontology :
• Tạo nguồn Tham Khảo công cộng . Các tri thức sẽ được viết ở một ngôn ngữ duy nhất,và
có thể được chuyển đổi thành các dạng khác nhau để sử dụng trong các hệ thống đích khác

nhau.Lợi ích của việc này bao gồm việc tri thức có thể được sử dụng lại,cải thiện sự bền
vững,và dài hạn trong việc ghi nhớ các tri thức.
• Định nghĩa một Lược đồ cơ sở dữ liệu (database schema) hoặc một Bộ từ điển chung dành
cho việc chú giải cơ sở dữ liệu.
• Tra cứu dựa trên ontology (ontology-based search) bằng cách thực hiện truy vấn trên các Cơ
sở dữ liệu.Một ontology có thể được sử dụng để tìm kiếm trong các kho lưu trữ thông tin.Lấy
một ví dụ,khi tìm kiếm trong một cơ sở dữ liệu câu hỏi ’mitochondrial double stranded DNA
binding proteins’,thì tất cả và chỉ những protein dạng đó sẽ được tìm thấy.Việc tìm kiếm một
từ khóa có được đảm bảo hay không phụ thuộc vào hàm lượng tri thức mà ontology có.
Việc tìm kiếm có thể được hỗ trợ bằng các tham khảo các mối quan hệ được định nghĩa trong
Bản đồ Ngữ nghĩa ứng dụng trong Tin sinh học 14
ontology,lấy một ví dụ,như khi ta tìm kiếm các tiến trình mà trong đó có các protein với các
chức năng đặc biệt tham gia và đưa ra tất cả các protein liên quan.Việc di chuyển xuống và
lên trên mối quan hệ phân cấp ’is a kind of’ cũng có thể được sử dụng để hỗ trợ truy vấn.Lợi
ích mang lại đó là chúng ta có thể truy xuất hiệu quả hơn và kéo theo sự hiệu quả trong việc
sử dụng và tái sử dụng các dữ liệu tri thức.
2.2 Khảo sát các Ontology sinh học hiện có
Việc sử dụng ontology trong tin sinh học tương đối là mới mẻ và do vậy số lượng của chúng cũng
không phải là lớn.Dưới đây là một số các ontology phù hợp với các xu thế nghiên cứu gần đây của
Tin sinh học.
• RiboWeb ontology
/>• EcoYc ontology
/>• Sechulze-Kremer ontology dành cho sinh học phân tử (MBO)
/>• Bản đồ ngữ nghĩa gene
/>• Bản đồ ngữ nghĩa bênh
/>• TAMBIS ontology (TAO)
/>Chương 3
Bản Đồ Ngữ nghĩa Gene (Gene
Ontology)
3.1 Đề án thiết lập Bản đồ Ngữ nghĩa Gene

Hiện nay,các thông tin sinh học được bồi đắp với tốc độ đáng kể,và có thể được truy cập dễ
dàng.Điều đó nảy sinh những rối rắm,phức tạp xung quanh việc chú giải thông tin mức phân tử về
gene và các sản phẩm gene (gene product).Đề án Gene Ontology có mục tiêu là cung cấp một tập
các từ điển có cấu trúc cho các lĩnh vực sinh học đặc trưng,các từ điển này có thể dược sử dụng để
mô tả về các sản phẩm gene trong các loài khác nhau .Công việc ở đây bao gồm việc xây dựng ba
ontology để mô tả chức năng phân từ (molecular function),tiến trình sinh học (biological process),
và Thành phần tế bào (cellular component),và cung cấp một tài nguyên cơ sở dữ liệu cộng đồng
nhằm hỗ trợ cho việc sử dụng ba ontology trên.
Đề án này đã phát triển một tập các ontology gọi là GO Consortium.Dự kiến đầu tiên của nhóm
phát triển là xây dựng một tập các từ điển bao gồm các từ khóa mà chúng ta có cùng sử dụng
với cùng quan niệm về ý nghĩa của từ khóa sẽ được sử dụng,và từ đó có thể dùng để hỗ trợ các
truy vấn trên nhiều Cơ sở dữ liệu khác nhau (Cross-Database Query).Trong việc phát triển GO
Consortium,nhóm nghiên cứu đã chọn lựa để bắt đầu phát triển các ontology ở mức cơ bản nhất
bằng cách thống nhất về các khái niệm ngữ nghĩa (sematic) thông qua việc định nghĩa các từ ngữ
cần thiết được sử dụng trong việc mô tả một lĩnh vực cụ thể trong sinh học.Tuy nhiên,đó vẫn chỉ
là phương án khởi đầu,chưa đầy đủ,mục tiêu tối hậu của nhóm nghiên cứu này vẫn là phát triển
một ontology với đầy đủ chức năng và thành phần.
15
Bản Đồ Ngữ nghĩa Gene (Gene Ontology) 16
Mục tiêu của Đề án GO :
• Xây dựng một từ điển toàn diện có cấu trúc chứa các từ khóa (term) mô tả các thành phần
khác nhau của sinh học phân tử tồn tại trong nhiều hình thái sống khác nhau.
– Các từ khóa được định nghĩa,có thể có từ đồng nghĩa.
– Các từ điển riêng biệt có thể được sử dụng để định nghĩa các khía cạnh khác nhau trong
sinh học.
• Dùng các từ khóa để mô tả các đối tượng sinh học (biological objects)
• Cung cấp các công cụ để truy vấn và xử lý các bộ từ điển.
• Cung cấp công cụ để giúp chú giải viên (biocurator) gán các từ khóa GO cho các đối tượng
sinh học.
3.2 Ontology Consortium

3.2.1 Các Ontology thành phần
GO Consortium phát triển ba ontology là : Chức năng phân tử (molecular function),Iiến trình sinh
học(Biological Process) và Thành phần Tế bào (Cellular Component) , để mô tả các thuộc tính của
các sản phẩm gene hoặc các nhóm sản phẩm gene.
Ontology "Chức năng Phân tử"
Chức năng phân tử được định nghĩa là những gì sản phẩm gene thực hiện ở
mức sinh hóa.Bản đồ ngữ nghĩa này chỉ nói cho chúng ta biết những gì được hoàn
thành nhưng không đặc tả về thời gian và thời điểm thực hiện.Lấy một ví dụ các từ
khóa liên quan đến các chức năng khái quát gene như "enzyme","transporter", hoặc
"ligand".Hoặc như các từ khóa đặc trưng cho các chức năng đặc biệt như "adenylate
cylase" hoặc "Toll receptor ligand".
Tồn tại các rối rắm ngữ nghĩa giữa một sản phẩm gene và chức năng phân tử của
nó bởi vì thường xuyên có các sản phẩm geneđược đặt tên bởi chức năng phân tử của
nó hoặc ít nhất là được đặt tên bởi một trong số các chức năng ấy (trong trường hợp
có nhiều chức năng).Từ khóa "Enzyme" là một ví dụ cho các trường hợp nhập nhằng
ở trên.
Ontology "Tiến trình Sinh học"
Bản Đồ Ngữ nghĩa Gene (Gene Ontology) 17
Tiến trình sinh học liên quan tới các đối tượng sinh học mà sản phẩm gene có
đóng góp vào.Một tiến trình được hoàn thành qua một hoặc vài tổ hợp của các chức năng
theo thứ tự.Nó thường bao gồm các quá trình biến đổi (được đặc tả bởi sản phẩm đầu
vào và các sản phẩm đầu ra).Lấy ví dụ về các từ khóa về các tiến trình sinh học chung
như là "cell growth and maintainance" (nuôi và bảo trì tế bào),"signal transduction"
(dẫn truyền thông tin).Hoặc lấy ví dụ về các từ khóa liên quan đến các tiến trình
sinh học đặc biệt như "pyrimidine metabolism" (trao đổi chất trong pyrimidine) hoăc
"cAMP biosynthesis" (Tổng hợp Cyclic adenosine monophosphate).
Ontology "Thành phần tế bào"
Thành phần tế bào liên quan đến vị trí trong tế bào mà ở đó có chứa sản phẩm
gene.Những từ khóa này phản ánh cho chúng ta về cấu trúc của tế bào theo cách hiểu
đơn giản nhất.

Thành phần tế bào bao gồm các từ khóa mô tả các phức hợp nơi mà các sản
phẩm gene có thể được tìm thấy,như là "ribosome", hoặc "proteasome".Nó cũng chứa
các từ khóa như "nuclear membrane" hoặc "Golgi apparatus".Như vậy từ "Thành phần
tế bào" bao gồm khái niệm về "vị trí" là nơi trong tế bào mà ở đó các sản phẩm gene có
hoạt động.Lấy ví dụ,các từ khóa Thành phần tế bào có thể là các vị trí như "the nuclear
outer membrane"-Màng ngoài nhân (GO : 0005640,synonym : outer envelope),hoặc có
thể là "the histone deacetylase complex" (phức hợp histone deacetylase) (GO:0000118).
3.2.2 Cấu trúc của Gene Ontology
Cấu trúc của GO giống như một graph, với mỗi từ khóa GO là một đỉnh,và quan hệ giữa các từ
khóa là một cạnh giữa các đỉnh.Các từ khóa ở node "con" là một biểu hiện (instance) của node
"cha",và một node có thể có nhiều node cha khác nhau.Lấy một ví dụ tiến trình sinh học có từ khóa
đại diện là "hexose biosynthetic process" có hai cha,hexose metabolic process" và "monosaccharide
biosynthetic process".Lý do là bởi vì tiến trình biosynthetic là kiểu con của tiến trình metabolic
và hexose lại là kiểu con của monosaccharide.
3.2.2.1 Cấu trúc của mỗi Khóa (Term)
Các thành tố cơ bản
Bản Đồ Ngữ nghĩa Gene (Gene Ontology) 18
Hình 3.1: Cấu trúc Ontology là một đồ thị có hướng (directed) không chu trình (acyclic)
• Chỉ số định danh và tên Khóa
Mỗi Khóa đều có tên khóa - ví dụ. mitochondrion,glucose transport,amino acid binding - và
7 chữ số định danh (unique identifier/term accession/term accession number) và có tiền tố
"GO",ví dụ GO:0005125 hay GO:0060092.Các số trong chỉ số định danh không có ý nghĩa
đặc biệt hay liên quan tới vị trị của khóa trong các ontology.
• Namespace
Ký hiệu cho ta biết Khóa thuộc về ontology nào trong 3 ontology con.
• Definition (Định nghĩa)
Đây là một mô tả ngắn gọn về khái niệm mà khóa đại diện,cùng với tham chiếu đến nguồn
của thông tin.Tất cả các khóa mới được thêm vào ontology phải có một định nghĩa,tuy rằng
vẫn còn tồn tại một tập nhỏ các khóa cũ thiếu định nghĩa,nhưng hầu hết các term còn lại
đều đã được định nghĩa.

• Quan hệ với các Khóa khác (Relationship)
Phần này bao gồm một vài liên kết diễn giải quan hệ của khóa với các khóa khác ở trong on-
tology.Mọi khóa (trừ khóa gốc) đều có quan hệ is-a đối với một khóa khác; ví dụ, GO:0015758
: glucose transport là một-is a GO:0015549 : monosaccharide transport. GO còn có một số
lượng các quan hệ khác,bao gồm thành phần của - part of (ví dụ. GO:0031966 : mitochondrial
membrane là một thành phần-part of của GO:0005740 : mitochondrial envelope) và điều hòa -
regulates (ví dụ. GO:0006916 : anti-apoptosis điều hòa - regulates GO:0012501 : programmed
cell death).
Các thành tố phụ thêm
Bản Đồ Ngữ nghĩa Gene (Gene Ontology) 19
• Các Chỉ số định danh phụ thêm (Secondary IDs)
Nếu tồn tại hai hoặc nhiều hơn hai Khóa giống nhau về mặt ý nghĩa,và chúng sau đó được
ghép vào trong 1 khóa đơn.Tất cả các ID sẽ được lưu trữ sao cho không thông tin nào có thể
bị mất.
• Các từ đồng nghĩa (Synonyms))
Các từ hoặc một nhóm từ có nghĩa tương tự với tên của khóa,với một từ chỉnh định chỉ ra
mối quan hệ giữa tên khóa và từ đồng nghĩa ấy.Từ từ chỉ định có thể là các từ sau :
– chuẩn xác (exact)
có thể thay thể dùng thay cho tên khóa
ví dụ : "chu trình ornithine" (ornithine cycle) là từ đồng nghĩa chuẩn xác của "chu trình
urea" (urea cycle)
– rộng (broad)
là các từ đồng nghĩa có nghĩa rộng hơn tên khóa
ví dụ : "sự phân chia tế bào" (cell division) là từ đồng nghĩa rộng của cytokinesis
– hẹp (narrow)
là những từ đồng nghĩa có nghĩa hẹp hay là chính xác (cụ thể) hơn tên khóa
ví dụ : "pyrimidine-dimer repair by photolyase" là đồng nghĩa hẹp của "photoreactive
repair"
– có liên hệ (related)
các từ đồng nghĩa liên quan tới tên khóa nhưng không nằm trong các trường hợp kể trên

ví dụ : "cytochrome bc1 complex" là từ đồng nghĩa liên quan của "ubiquinol-cytochrome-
c reductase activity virulence"
• Tham khảo đến Database khác - dbxrefs
dbxref tham chiếu đến các đối tượng giống hoặc tương tự với từ khóa đang xét ở database
khác.Lấy ví dụ,từ khóa trong ontology Tiến trình sinh học "sulfate assimilation" có dbxrefs
là "MetaCyc:PWY-781.
• Comment
Các thông tin bổ sung về khóa
• Subset
Chỉ ra rằng khóa thuộc về một tập con các khóa có chung đặc tính nào đó.
• Obsolete tag
Chỉ ra rằng từ khóa đã quá cũ, và không nên được sử dụng.

×