Tải bản đầy đủ (.pdf) (3 trang)

Xây dựng hệ thống hợp tác nghiên cứu thông qua việc chia sẻ dữ liệu và tài nguyên tính toán

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (185.5 KB, 3 trang )

Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3

XÂY DỰNG HỆ THỐNG HỢP TÁC NGHIÊN CỨU THÔNG QUA
VIỆC CHIA SẺ DỮ LIỆU VÀ TÀI NGUN TÍNH TỐN
Kiều Tuấn Dũng, Nguyễn Thanh Tùng
Khoa Công nghệ Thông tin, Trường Đại học Thủy lợi, email: {dungkt, tungnt}@tlu.edu.vn

1. GIỚI THIỆU CHUNG

2.1. CKAN

Hợp tác nghiên cứu khoa học và đào tạo là
xu thế tất yếu trong thời đại Cách mạng công
nghiệp 4.0. Nó khơng chỉ là cơng cụ có giá trị
để thúc đẩy mà còn nâng cao chất lượng
nghiên cứu và mở rộng lĩnh vực nghiên cứu.
Một trong những vấn đề của hợp tác nghiên
cứu là tiêu chuẩn đạo đức vô cùng nghiêm
ngặt. Tạp chí Journal of Empirical Research
on Human Research đã chỉ rõ các vấn đề đạo
đức phát sinh khi các nhà nghiên cứu thực
hiện dự án ở các nước thu nhập thấp và trung
bình trong việc chia sẻ tài nguyên. Tài
nguyên ở đây đã được Shamoo and Resnik
(2003) định nghĩa bao gồm: “dữ liệu, cơ sở
dữ liệu, ý tưởng, thiết bị, máy tính, phương
pháp, thuốc thử, các mẫu tế bào, địa điểm
nghiên cứu, nhân sự và các nguồn lực kỹ
thuật khác”.
Bài báo này tập trung vào giải pháp xây
dựng một hệ thống chia sẻ dữ liệu bảo mật và


tài nguyên tính tốn trong hoạt động hợp tác
nghiên cứu giữa các nhà khoa học trong dự
án MekongDelta.
2. PHƯƠNG PHÁP NGHIÊN CỨU

CKAN là một hệ thống quản lý dữ liệu
mạnh mẽ giúp việc truy cập dữ liệu - bằng
cách cung cấp các cơng cụ để hợp lý hóa việc
xuất bản, chia sẻ, tìm kiếm và sử dụng dữ liệu.
CKAN đang được nhiều chính phủ, các tổ
chức và cộng đồng nghiên cứu trên khắp thế
giới sử dụng: data.humdata.org (7685 + bộ dữ
liệu), data.gov.au (70000 + bộ dữ liệu),
europeandataportal.eu (800000 + bộ dữ liệu)…
Những đặc trưng chính:
- CKAN được phát triển dựa trên 2 công
nghệ lõi được sử dụng phổ biến nhất hiện nay
Python (backend) và Javascript (frontend),
hồn tồn miễn phí, hỗ trợ hơn 200
extensions, khả năng phát triển mở rộng và
dễ dàng tích hợp với các thư viện khoa học
dữ liệu của Python.
- Được cồng động nghiên cứu hỗ trợ rộng
rãi.
- Ghi lại các log và quản lý phiên bản của
bộ dữ liệu.
- Dễ dàng quản trị, kiểm soát dữ liệu và
giữ chúng một cách an toàn.
- Hỗ trợ biểu diễn dữ liệu và tương tác trên
bản đồ.


Bài báo tập trung vào vấn đề phát triển hệ
thống mà khơng phân tích chi tiết chuyên sâu
về lý thuyết. Kết quả của bài báo là xây dựng
một hệ thống chia sẻ dữ liệu bảo mật và năng
lực tính tốn trong cộng đồng các nhà nghiên
cứu. Vì vậy, phương pháp nghiên cứu chính
của bài báo là:
- Thu thập, phân tích và lựa chọn giải
pháp kỹ thuật phù hợp với mục tiêu đề ra
nhất có thể.
- Triển khai thử nghiệm giải pháp và đánh
giá kết quả.
187

Hình 1. So sánh ưu và nhược điểm
của CKAN với các nền tảng cùng nhóm
(Ricardo Carvalho Amorim, Jỗo Aguiar
Castro, Jỗo Rocha da Silva,, 2017)


Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3

Trong bài báo này, CKAN được sử dụng
để như một sự lựa chọn để xây dựng chức
năng chia sẻ và tìm kiếm metadata về dữ liệu
giữa cộng đồng các nhà nghiên cứu về khu
vực Mekong Delta.
2.2. XSEDE và GENESIS2 GFFS
XSEDE - eXtreme Science and

Engineering Discovery Environment 0 là một
chương trình cung cấp cơ sở hạ tầng mạng ảo
đơn nhất giúp các nhà khoa học sử dụng để
tương tác lẫn nhau nhằm chia sẻ các tài
ngun tính tốn, dữ liệu và tri thức chuyên
ngành. Các tài nguyên XSDE có thể phân
thành các nhóm như: Tính tốn hiệu năng
cao; Tính tốn thơng lượng cao; Ảo hóa; Lưu
trữ; Dịch vụ dữ liệu.

năng từ việc chia sẻ dữ liệu đơn giản tới tính
tốn thông lượng cao đa nền tảng, đa tổ chức.
 Cộng đồng nghiên cứu (Research
Community): Genesis II là một nền tảng có
tính tương thích cao, linh hoạt, miễn phí để
phát triển và đánh giá các cơng nghệ, mơ
hình lưới mới. Các lĩnh vực cụ thể trong cộng
đồng này gồm có: truy cập dữ liệu, bảo mật,
tính tin cậy và các tiêu chuẩn lưới.
GenesisII GFFS bao gồm GFFS Server
(Container) và GFFS Client.
- GenesisII Client: cho phép chia sẻ dữ liệu
từ Campus lên Grid
- GenesisII Server: cho phép xuất (export)
tài nguyên lên Grid hoặc ánh xạ tài nguyên
trên Grid về máy cục bộ

Hình 3. Mơ hình triển khai phía Provider
Hình 2. Kiến trúc XSEDE
Ba thành phần chính (hệ thống phần mềm)

triển khai XSEDE gồm:
- Genesis II: CLIs, APIs, GUI, GFFS,
XES services
- Globus: XAUS (XD-data), gridFTP
- UNICORE 6: GUI, XES,
Genesis II là một nền tảng nguồn mở dựa
trên nền tảng tính tốn lưới được thiết kế để
hỗ trợ cả tính tốn thơng lượng cao và chia sẻ
dữ liệu an toàn và lưu trữ dữ liệu. Các tính
năng của Genesis II được thiết kế hướng tới 2
cộng đồng 0:
 Cộng đồng người dùng (User
Community): Dự án Genesis II nhằm cung cấp
cho cộng đồng người dùng lưới các cơng cụ
miễn phí, dễ sử dụng để tận dụng công nghệ
lưới nhằm đáp ứng nhu cầu quản lý dữ liệu và
tính tốn của họ. Nền tảng này được thiết kế
để hỗ trợ một loạt các miền ứng dụng tiềm

Hình 4. Mơ hình triển khai tại các trường,
viện nghiên cứu

188

Hình 5. Web Service Container


Tuyển tập Hội nghị Khoa học thường niên năm 2018. ISBN: 978-604-82-2548-3

3. KẾT QUẢ NGHIÊN CỨU


Hệ thống hợp tác nghiên cứu thông qua
việc chia sẻ dữ liệu và tài nguyên tính tốn
trên nền tảng tính tốn lưới được cài đặt
thành công.
Hệ thống đáp ứng các yêu cầu:
 Cho phép Upload và chia sẻ Dataset với
nhiều Metadata.
 Phân quyền truy cập và bảo mật dữ liệu
người dùng chia sẻ tài nguyên.
 Các chức năng: copy, export, hay mount
dữ liệu giữa máy cục bộ và máy chủ GFFS.
 Chia sẻ tài nguyên tính tốn trên lưới.
 Thực thi các bài tốn tối ưu trên mơi
trường tính tốn lưới.

rộng rãi . Người dùng tham gia vào cộng
đồng đến từ các trường Đại học, Cao đẳng,
Học viện ở trong và ngồi nước có thể chia
sẻ dữ liệu an toàn, bảo mật nhằm tiến tới
triển khai các dự án nghiên cứu để tìm ra lời
giải nhằm giải quyết các vấn đề của khu vực
Đồng bằng sơng Cửu Long nói riêng và các
dự án khác trong tương lai.
5. TÀI LIỆU THAM KHẢO
[1]
[2]
[3]
[4]


4. KẾT LUẬN

Hệ thống bước đầu được chạy thử nghiệm
tai địa chỉ mekongdata.org. Do đang ở giai
đoạn đầu phát triển nên chưa được publish

189


https ://ckan.org
https ://www.xsede.org
Ricardo Carvalho Amorim
(co-author),
2017, “A comparison of research data
management platforms: architecture,
flexible metadata and interoperability”,
Universal Access in the Information
Society, Volume 16, Issue 4, pp 851-862.



×