Tải bản đầy đủ (.pdf) (22 trang)

Thu thập nguồn gene và tổ chức dữ liệu gene 6.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.24 MB, 22 trang )

PHẦN D: KẾT QUẢ VÀ THẢO LUẬN
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
97

Hình 4.4: Kết quả cuối cùng sau khi chƣơng trình phân Division đã chạy xong
Dữ liệu của ta đƣợc phân loại theo từng trƣờng riêng biệt, đây là cấu tạo tầng dữ
liệu của ta.
Thống kê kết quả cuối cùng, tất cả các trình tự đƣợc phân loại vào các trƣờng nhƣ
sau:
PLN: 3129 trình tự.
BCT: 476 trình tự.
VRL: 662 trình tự.
PAT: 228 trình tự.
SYN: 210 trình tự.
EST: 874 trình tự.
INV: 36 trình tự.
STS: 1 trình tự.
GSS: 10 trình tự.
ENV: 1 trình tự.
VRT: 1 trình tự.
Qua khảo sát tài liệu và các record Genbank, có nhận xét sau: Các gene dùng
trong thực vật biến đổi di truyền hiện nay đa số từ thực vật, vi khuẩn, virus, ngoài ra
còn một số trình tự đƣợc tổng hợp nhân tạo nhƣ CryIAb, cp4epsps…
Các trình tự này chủ yếu nằm trên các khu vực PLN, BCT, VRL, PAT, SYN,
EST, các trƣờng còn lại chứa các trình tự dƣ thừa, vì thế ta chỉ cho tìm kiếm trên các
khu vực chứa trình tự quan tâm.
PHẦN D: KẾT QUẢ VÀ THẢO LUẬN
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
98
V. Java tiến hành xử lý dữ liệu
Xây dựng ứng dụng tra cứu dữ liệu trình tự thông qua các keyword do ngƣời


dùng chọn lựa và nhập vào.
V.1. Các yêu cầu đặt ra
Với keyword bất kỳ nhập vào, cần tìm đƣợc file chứa từ đó trong nội dung.
Để thông tin tìm đƣợc đúng mong muốn, ta sẽ tạo thêm các giới hạn tìm kiếm.
Có hai mức giới hạn đƣợc đặt ra:
 Mức dữ liệu: ta cho ngƣời dùng giới hạn tìm kiếm trên các bộ dữ liệu:
o Thực vật (Plant)
o Vi khuẩn (bacterial)
o Virus (viral)
o EST (EST)
o SYN (SYN)
o PAT (PAT)
 Mức các trƣờng trong record GenBank:
o LOCUSID
o Length
o Molecular type
o DEFINITION
o ACCESSION NUMBER
o VERSION
o GI
o ORGANISM
o AUTHOR
o TITLE
o JOURNAL
o Gene name
o Product name
Ngƣời dùng có thể kết hợp các yêu cầu qua các toán tử AND, OR, NOT để tìm
kiếm chính xác thông tin cần tìm.



PHẦN D: KẾT QUẢ VÀ THẢO LUẬN
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
99
V.2. Xử lý yêu cầu bằng Java và Biojava
 Phân tích nội dung của dữ liệu genbank. Có thể phân nội dung thành hai phần:
 Phần tìm kiếm thông tin liên quan đến trình tự: Bắt đầu từ trƣờng
LOCUS đến phần bắt đầu của trƣờng ORIGIN.
 Phần tìm kiếm thông tin trình tự: Tìm kiếm trong nội dung của trƣờng
ORIGIN.
 Xử lý dữ liệu tìm kiếm theo các trƣờng
 Đầu tiên ta thực hiện việc tách các trƣờng mà yêu cầu nội dung khi tìm
kiếm phải chính xác. Các trƣờng này đƣợc chỉ ra trong hình sau:

Hình 5.1: Các trƣờng tìm kiếm chính xác
Trƣớc hết tách các trƣờng lớn nhƣ LOCUS, VERSION: Việc tách
các trƣờng này đƣợc thực hiện bằng các phƣơng thức cụ thể trong lớp
GetFieldOfGenBank.java. Phƣơng thức quan trọng trong lớp này là get(File file,
String fieldRequest). Phƣơng thức này nhận hai tham số là nội dung file và nội dung
trƣờng cần tìm.
Tiếp theo tiến hành tách các trƣờng nhỏ hơn trong hai trƣờng
LOCUS và VERSION nhƣ chỉ ra trên hình. Thực hiện việc này đƣợc đảm nhận bởi
các phƣơng thức trong lớp Get FieldInLocVerAcc. Các phƣơng thức chính đảm nhận
việc tách là GetFieldOfLocus(File file, String fieldRequest) và
GetFieldOfVersion(File file, String fieldRequest).
 Trƣờng ACCESSION cũng tiến hành tƣơng tự.
 Tiếp theo tiến hành tách các trƣờng khác cung cấp thông tin về chức
năng trình tự:
PHẦN D: KẾT QUẢ VÀ THẢO LUẬN
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
100


Hình 5.2: Các trƣờng cung cấp thông tin trình tự cần tách
Cách tách các trƣờng này (các trƣờng đƣợc khoanh đỏ) đƣợc thực
hiện bởi các phƣơng thức trong lớp GetFieldOfGenBank giống nhƣ các lớp trên.
Trong các trƣờng trên thì trƣờng FEATURES chứa các thông tin
quan trọng của trình tự. Ở đây ta quan tâm các thông tin trong vùng mã hóa CDS
(đƣợc đóng khung). Các thông tin trong trƣờng CDS thƣờng là tên gene, tên sản phẩm
của trình tự, và trình tự amino acid tƣơng ứng. Đây là các nội dung quan trọng cần cho
tìm kiếm và hiển thị kết quả.
Mỗi nội dung trong trƣờng CDS đƣợc bắt đầu bằng biểu tƣợng
“/” sau đó là tên tiêu mục nội dung tiếp theo là dấu “=” cuối cùng là nội dung của tiêu
PHẦN D: KẾT QUẢ VÀ THẢO LUẬN
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
101
mục, ví dụ /gene= : bắt đầu nội dung tên gene. Dựa vào điều này ta tạo các phƣơng
thức trong lớp GetFieldInSmallFieldOfFeature để tách các phần nội dung này.
 Thực hiện tìm kiếm trình tự trong trƣờng ORIGIN
 Phần này ta ứng dụng mã biojava để xử lý. Lớp CheckOriginRequest
làm nhiệm vụ tìm kiếm cho trƣờng này.
Đến đây ta đã hoàn thành tìm kiếm trên từng trƣờng cụ thể, việc tìm kiếm trên tất
các trƣờng đƣợc thực hiện bằng cách xét tuần tự từng trƣờng, nếu tìm thấy nội dung
trong bất kỳ trƣờng nào thì việc tìm kiếm đƣợc dừng lại.

V.3.Thiết kế giao diện
Qua tham khảo giao diện các trang web trên thế giới và theo yêu cầu thực tế của
đề tài, trang giao diện đƣợc chúng tôi thiết kế nhƣ sau:
PHẦN D: KẾT QUẢ VÀ THẢO LUẬN
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
102


Hình 5.3: Trang giao diện tìm kiếm GM Databases
PHẦN D: KẾT QUẢ VÀ THẢO LUẬN
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
103

Thiết kế trang giao diện trên chúng tôi dựa theo các tiêu chí sau:
Khung tìm kiếm tạo thuận lợi, dễ chọn lựa, không phức tạp và rắc rối đối
với ngƣời dùng.

Hình 5.4: Nội dung trang tìm kiếm
Phần hƣớng dẫn, giúp ngƣời sử dụng hiệu quả hơn với các chọn lựa tìm
kiếm.
Chữ viết tắt ở đầu trang: NLBI là chữ viết tắt của tên nhóm nghiên cứu
Tin – Sinh học của Đại Học Nông Lâm Tp.HCM. (Nông Lâm BioInformatics)
Trên thanh chỉ mục ngang ở đầu trang web có các liên kết đến các trang
cung cấp thông tin chung nhƣ:
 NLBI Home: liên kết đến trang chủ, tại đây cung cấp đầy đủ các
thông tin hiện có về nhóm bioinformatics của Đại Học Nông Lâm.
 About NLBI: cung cấp thông tin về nhóm bioinformatics của Đại
Học Nông Lâm.
 Contact Us: cung cấp các cách tiếp cận các cơ sở dữ liệu hiện có
của nhóm.
 Help: cung cấp thông tin hỗ trợ cho tất cả các nội dung hiện có.
PHẦN D: KẾT QUẢ VÀ THẢO LUẬN
NGUYỄN KỲ TRUNG – LÊ THÀNH TRUNG
104
Trong khung chỉ mục phía trái trang web có các mục: Index, Tools,
Documentation, News. Những mục này là những liên kết tới các trang thông tin hỗ trợ
trang NLBI Search nhƣ:
 Index: liệt kê tất cả các kiểu tìm kiếm hiện có.

 Tools: cung cấp các công cụ phân tích trình tự hoạt động tại web
server hay software download.
 Documentation: cung cấp các tài liệu về trang NLBI search nhƣ
cách hoạt động của trang, các chỉ dẫn tìm kiếm thông tin hiệu quả…
 News: các thông tin cập nhật về trang NLBI search.
Ngoài ra, trang web còn đƣợc trang trí với màu sắc dễ nhìn và mang tính
đặc trƣng riêng của nhóm làm việc. Các mục trên trang web về sau có thể mở rộng,
nâng cao, tăng tính năng tìm kiếm, tăng những hỗ trợ cho ngƣời sử dụng, …
Một tiện lợi nhỏ của trang web tìm kiếm này là ngoài khả năng tìm kiếm trên dữ
liệu GM Database của NLBI, thì ngƣời sử dụng khi cần thiết vẫn có thể chọn lựa tìm
kiếm trên dữ liệu của các trang tìm kiếm lớn trên thế giới là GenBank, EMBL, DDBJ,
không phải mất thời gian để mở một cửa sổ tìm kiếm khác trên máy tính.

V.4. Lập trình hiển thị giao diện sử dụng
a) Lập trình web
Kết quả sau khi xử lý sẽ đƣợc hiển thị ra giao diện web. Nội dung hiển thị tạo
thuận lợi cho ngƣời dùng trong việc nắm bắt các thông tin về trình tự tìm đƣợc. Cụ
thể:
Trang tìm kiếm với giao diện và hƣớng dẫn tạo thuận lợi cho tìm kiếm.
Kết quả tìm kiếm đƣợc hiển thị mặc định ở dạng thông tin tóm tắt tiện cho
ngƣời dùng có khái niệm khái quát về trình tự.
Có thể hiển thị linh động sang các kiểu hiển thị nội dung khác nhƣ:
 Thể hiện đầy đủ thông tin dƣới dạng GenBank
 Thể hiện trình tự dạng FASTA
 Thể hiện chỉ vùng trình tự mã hóa (CDS) dƣới dạng FASTA
 Thể hiện trình tự amino acid dƣới dạng FASTA.
Nội dung hiển thị đƣợc xem dƣới dạng web (HTML) hay dạng văn bản (text).

×