Tải bản đầy đủ (.docx) (66 trang)

Dự đoán protein tyrosine sulfation dựa vào các phân tích trên amino acid

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.51 MB, 66 trang )

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CƠNG NGHỆ CẤP TRƯỜNG

DỰ ĐỐN PROTEIN TYROSINE SULFATION DỰA
VÀO CÁC PHÂN TÍCH TRÊN AMINO ACID

Mã số: T2018-06-89

Chủ nhiệm đề tài: ThS Phạm Thị Thảo Khương

Đà Nẵng, 04/2018

ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

BÁO CÁO TỔNG KẾT
ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG 2018

DỰ ĐOÁN PROTEIN TYROSINE SULFATION DỰA
VÀO CÁC PHÂN TÍCH TRÊN AMINO ACID

Mã số: T2018-06-89

Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài
(ký, họ tên, đóng dấu) (ký, họ tên)

DANH SÁCH NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ
TÀI VÀ ĐƠN VỊ PHỐI HỢP CHÍNH



NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI

TT Họ và tên Đơn vị công tác và Nội dung nghiên cứu cụ Chữ ký

lĩnh vực chuyên môn thể được giao

1 Phạm Thị Thảo Khoa Điện tử- Mơ hình hóa tốn học,

Khương Truyền thông thiết kế mơ hình, chạy dữ

liệu, tổng hợp, viết báo

cáo

2 Bùi Văn Minh Công ty Điện lực Đà Đánh giá, so sánh kết quả

Nẵng đạt được. Kiểm tra tính

khoa học và chính xác của

báo cáo

ĐƠN VỊ PHỐI HỢP CHÍNH

Tên đơn vị Nội dung phối hợp nghiên cứu Họ và tên người đại
trong và ngoài nước diện đơn vị

i


MỤC LỤ

DANH MỤC BẢNG BIỂU............................................................................IV
DANH MỤC HÌNH ẢNH................................................................................V
DANH MỤC CÁC CHỮ VIẾT TẮT...........................................................VII
THÔNG TIN KẾT QUẢ NGHIÊN CỨU..................................................VIII
INFORMATION ON RESEARCH RESULTS..........................................XII
MỞ ĐẦU............................................................................................................ 1
CHƯƠNG 1.......................................................................................................3
LÝ THUYẾT.....................................................................................................3
1.1 Tổng quan về biến đổi sau phiên dịch Post-Translational Modifications
(PTMs)................................................................................................................ 3
1.2 Cấu trúc của Protein......................................................................................6
1.3 Tyrosine Sulfation.......................................................................................16
1.4 Phương pháp nghiên cứu Protein................................................................19
1.5 Dữ liệu sử dụng...........................................................................................26
CHƯƠNG 2.....................................................................................................28
PHƯƠNG PHÁP.............................................................................................28
2.1 Trích xuất các đặc điểm chính...............................................................28
2.1.1 Mã hóa 20D Binary............................................................................28
2.1.2 Thành phần axit amin (amino acid composition – AAC)...................29
2.1.3 Blosum62................................................................................................29
2.1.4 Ma trận cho điểm cụ thể theo vị trí (position-specific scoring matrix-
PSSM).............................................................................................................. 30
2.1.5 Lai động..................................................................................................34
2.2 Support Vector Machine (SVM)............................................................35
2.3 Đào tạo và đánh giá mơ hình......................................................................39
CHƯƠNG 3.....................................................................................................44
KẾT QUẢ NGHIÊN CỨU.............................................................................44
3.1 Ảnh hưởng của thành phần axit amin xung quanh các vị trí Tyrosine

Sulfation........................................................................................................... 44

ii

3.2 Xác nhận chéo các đặc điểm cho các axit amin và các vị trí Sulfation. .46
3.3 Đánh giá các mơ hình dự đốn Sulfation dựa trên bộ dữ liệu độc lập....47
KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO.............................49
Kết luận............................................................................................................49
Hướng nghiên cứu tiếp theo..............................................................................49
TÀI LIỆU THAM KHẢO..............................................................................50

iii

DANH MỤC BẢNG BIỂU

Bảng 1. Thống kê dữ liệu của Sulfation được xác minh bằng thực nghiệm trong
tập dữ liệu đào tạo.............................................................................................27
Bảng 2. Kết quả xác thực chéo năm lần trên mơ hình SVM được đào tạo với các
tính năng khác nhau. Tổng số 483 chuỗi đã được áp dụng trong dữ liệu dương
và âm tương ứng 705 và 6490 sau khi loại bỏ các chuỗi tương tự (Sn - độ nhạy;
Sp - độ đặc hiệu; Acc - chính xác; MCC - Matthews Correlation Coffic).........47
Bảng 3. Kết quả thử nghiệm độc lập chi tiết giữa các phương pháp của chúng
tôi...................................................................................................................... 48

iv

DANH MỤC HÌNH ẢNH

Hình 1 - Biến đổi sau phiên dịch Protein (PTMs) là cơ chế quan trọng để tăng
sự đa dạng của hệ protein....................................................................................3

Hình 2 - Sự phát triển số lượng cấu trúc của protein từ 1972-2006....................4
Hình 3 - Quá trình chuyển từ amino acid thành protein......................................6
Hình 4 - Các mức độ tổ chức của phân tử Protein: cấu trúc bậc 1,2,3, và 4......12
Hình 5 - Minh họa cấu trúc 3D của protein.......................................................12
Hình 6 - Sơ đồ phản ứng cho q trình sunfat hóa xúc tác TPST của dư lượng
tyrosine. Một nhóm sulfate trong chất nền PAPS (3′-phosphoadenosine 5′-
phosphosulfate) được chuyển đến oxy phenolic của dư lượng tyrosine cơ chất
để tạo thành dư lượng sản phẩm sulfotyrosine và PAP (3′-phosphoadenosine 5′-
phosphate)......................................................................................................... 17
Hình 7 - Cấu trúc của Sulfation Tyrosine..........................................................19
Hình 8 - Thiết bị sắc ký FPLC dùng trong tinh chế protein..............................20
Hình 9 - Protein bên trong các ngăn tế bào khác nhau và ở các cấu trúc mà được
đánh dấu bằng protein huỳnh quang xanh (ở đây có màu trắng). Thứ tự từ trên,
từ trái sang phải: Nhân tế bào (nucleus), hạt nhân tế bào (nucleolus), vỏ nhân tế
bào (nuclear envelope), lưới nội chất (ER), bộ máy Golgi, thực bào (lyosomes),
màng sinh chất (plasma membrane), tế bào chất (cytoplasm), trung thể
(centrosome), ty thể (mitochondria), vi ống (microtubule), actin......................22
Hình 10 - Các axit amin có thể được phân tích để dự đốn cấu trúc bậc 2, bậc 3
và cấu trúc protein bậc 4, trong trường hợp này hemoglobin chứa các nhóm
heme................................................................................................................. 24
Hình 11 – Bảng mã chuyển đổi mã nhị phân....................................................29
Hình 12 – Bảng mã chuyển đổi theo Blosum62................................................30
Hình 13 – Bảng mã chuyển đổi theo PSSM......................................................34
Hình 14. Các tính năng lai bằng cách kết hợp hai và nhiều tính năng đơn lẻ....35
Hình 15. Ngun tắc của SVM.........................................................................39
Hình 16. Mơ hình đánh giá chéo (cross-validation)..........................................40

v

Hình 17. Lưu đồ phân tích bao gồm thu thập và tiền xử lý dữ liệu, trích xuất và

mã hóa, mơ hình...............................................................................................41
Hình 18. Các giá trị TP, FP, FN, TN của tập dữ liệu.......................................42
Hình 19. Ảnh hưởng của hai mươi axit amin xung quanh các vị trí Sulfat A- So
sánh thành phần axit amin giữa các vị trí Sulfation (màu xanh) và vị trí khơng
Sulfation (màu đỏ). Thành phần axit amin đặc trưng của BITHP vị trí của bộ dữ
liệu đào tạo Sulfation........................................................................................45
Hình 20. TwoSampleLogo trình bày các thành phần cấu tạo của axit amin xung
quanh các vị trí Sulfation so với các vị trí khơng Sulfation...............................46
Hình 21. So sánh hiệu suất thử nghiệm độc lập giữa 20D Binary, AAC,
Blosum62 và PSSM. Sn - độ nhạy; Sp-đặc thù; Acc - chính xác; MCC - Hệ số
tương quan Matthews........................................................................................48

vi

DANH MỤC CÁC CHỮ VIẾT TẮT

STT Viết tắc Tên đầy đủ
Post-Translational modification
1 PTM
Support Vector Machine
2 SVM Position Specific Scoring Matrix

3 PSSM

ĐẠI HỌC ĐÀ NẴNG CỘNG HOÀ XÃ HỘI CHỦ NGHĨA
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ VIỆT NAM

THUẬT Độc lập - Tự do - Hạnh phúc

vii


THƠNG TIN KẾT QUẢ NGHIÊN CỨU

1. Thơng tin chung:
 Tên đề tài: Dự đoán protein Tyrosine Sulfation dựa vào các phân tích
trên Amino acid
 Mã số: T2018-06-89
 Chủ nhiệm: ThS Phạm Thị Thảo Khương
 Thành viên tham gia: ThS Bùi Văn Minh
 Cơ quan chủ trì: Trường ĐH Sư Phạm Kỹ Thuật
 Thời gian thực hiện: 05/2018-04/2019

2. Mục tiêu:
 Nghiên cứu mơ hình dự đốn vị trí Tyrosine sulfation.
 Đánh giá, so sánh giữa các đặc tính của amino acid trong việc xác định

protein.
 Nghiên cứu các giải thuật LibSVM trong xử lý dữ liệu lớn.
3. Tính mới và sáng tạo:
 Phát triển một phương pháp tin sinh học để điều tra vị trí nhóm sulfate hình
hành nên tyrosine sulfation protein dựa trên thành phần axit amin.
 Mơ hình được xây dựng từ 483 protein được xác định bằng các phương
pháp thực nghiệm chính xác trong thực tế.
 Bốn đặc trưng được lựa chọn gồm mã nhị phân 20D, AAC, Blosum62 và
PSSM.
 Mơ hình được xây dựng từ PSSM, mang lại hiệu suất tốt nhất với Sn, Sp,
Acc và số đo MCC lần lượt là 94,96%, 95,10%, 95,09% và 77,91%.
4. Tóm tắt kết quả nghiên cứu:
 Tìm kiếm các tài liệu liên quan về các phương pháp xác định, dự đoán
protein.


viii

 Thu thập, phân tích các dữ liệu từ các nguồn báo tin cậy về protein
(UniprotKD, …) .
 Đánh giá các mơ hình áp dụng hiện tại .
 Nghiên cứu giải thuật LIBSVM.
 Thu thập, tổng hợp xử lý dữ liệu.
 Đánh giá, so sánh kết quả đạt được.
5. Tên sản phẩm:
 Bài báo “The prediction of Tyrosine Sulfation site in protoein by
analyzing Amino acid composition”, đăng trên tạp chí của Đại học Đà Nẵng
2018.
 Báo cáo, bảng phân tích kết quả đạt được.
6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp
dụng:
 Chương trình mới được cơng bố có tính hiệu quả cao, bền vững và có tính
ứng dụng cao.
 Kết quả kiểm tra đánh giá mơ hình chứng minh được tính ổn định của
chương trình áp dụng.
 Kết quả đạt được dùng làm cơ sở cho các nghiên cứu khác có liên quan.
7. Hình ảnh, sơ đồ minh họa chính

ix

x

Hội đồng KH&ĐT đơn vị Ngày tháng năm
(ký, họ và tên) Chủ nhiệm đề tài
(ký, họ và tên)


XÁC NHẬN CỦA TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT

xi

INFORMATION ON RESEARCH RESULTS

1. General information:
Project title: THE PREDICTION OF TYROSINE SULFATION SITE IN
PROTOEIN BY ANALYZING AMINO ACID COMPOSITION
Code number:T2018-06-89
Coordinator: Pham Thi Thao Khuong
Implementing institution: University of Technology and Education, Danang

Univerisity
Duration: from 5/ 2018 to 4/ 20179

2. Objective(s):
 Study of Protein Tyrosine Sulfation in Amino acid.
 The research focus on develop a bioinformatics method for investigating

Sulfation site based on AA composition.
 The work was built the training model from 483 experimentally verified

Sulfation proteins by an inquiry in four features including 20D Binary
code, AAC , Blosum62 , and PSSM.
 Evaluation by 5-fold cross validation indicated that the selected features
were effective in the identification of Sulfation sites.

3. Creativeness and innovativeness:

 In the program is published, the computational approaches were effectively
and accurately adopted to identify the sulfationsites by analyzing amino acid
compositions.
 Based on the In silico characterization of protein, some sequential and
structural features including 20D binary code, amino acid composition (AAC),
position specific scoring matrix (PSSM), and BLOSUM62 were applied to
discriminate between the Sulfation sites and non-Sulfation sites.
 A new measurement method is applied to calculate and simulate some
typical parameters of Protein Tyrosine Sulfation.

xii

4. Research results:
 A survey used to detect important sequential and structural features of
Protein Tyrosine Sulfation was announced.
 The stability of the method is demonstrated.
 Simulation’s results by using program design is given shown the
effectiveness and accuracy of the program.
5. Products:
 Article published in the journal the University of Da Nang 2018
 Simulation program
 Report
6. Effects, transfer alternatives of research results and applicability:
 The program was announced to have high efficiency, sustainability and
high application properties
 Test results prove model stability of detecting Protein Tyrosine Sulfation
 Evaluation by 5-fold cross validation indicated that the selected features
were effective in the identification of Sulfation sites

xiii


MỞ ĐẦU

TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Protein Tyrosine sulfation là một loại protein được biến đổi xảy ra sau

q trình dịch mã, một nhóm sulfate được thêm vào tại amino acid tyrosine của
một phân tử protein. Nhiều Protein mới được biết đến hay các thành phần ngoài
tế bào đi qua bộ máy Golgi đều có liên quan tới loại protein này. Sulfation lần
đầu tiên được phát hiện bởi Bettelheim trong fibrinopeptide B ở bị năm 1954
và sau đó được tìm thấy ở động vật và thực vật nhưng khơng có trong sinh vật
nhân sơ hoặc trong men.

Sulfat đóng một vai trị trong việc tăng cường sự tương tác giữa protein-
protein. Các loại protein của con người được biết đều trải qua sulfua tyrosine
bao gồm các phân tử kết dính, các thụ thể kết hợp protein G, các yếu tố đông
máu, các chất ức chế protease serine, các protein matrix ngoại bào và các hooc-
môn. Tyrosine O-sulfate là một phân tử ổn định và được bài tiết qua nước tiểu
trên động vật.

Bằng cách loại bỏ gen của TPST ở chuột, có thể nhận thấy rằng sulfua
tyrosine có ảnh hưởng đến sự tăng trưởng của chuột, chẳng hạn như trọng
lượng cơ thể, sự dồi dào, và khả năng sống sau sinh.

Do đó, nghiên cứu xác định vị trí loại protein tyrosine sulfation đóng 1 vai
trị quan trong trong việc hỗ trợ nhiều nghiên cứu chuyên sâu, khám phá các đặc
tính của loại protein này. Áp dụng các giải thuật nâng cao, đưa ra mô hình góp
phần giảm chi phí, thời gian trong việc dự đốn loại protein này. Do đó, tác giả
đã chọn đề tài:” Dự đoán protein Tyrosine Sulfation dựa vào các phân tích
trên Amino acid.”


MỤC TIÊU ĐỀ TÀI

Nghiên cứu mơ hình dự đốn vị trí Tyrosine sulfation
Đánh giá, so sánh giữa các đặc tính của amino acid trong việc xác định protein.
Nghiên cứu các giải thuật LibSVM trong xử lý dữ liệu lớn

1

ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU
Đối tượng nghiên cứu: Đề tài tập trung nghiên cứu xác định Tyrosine sulfation
dựa trên các đặc tính của amino acid.
Phạm vi nghiên cứu: Nghiên cứu thuật tốn LibSVM, các đặc tính liên quan của
amino acid (AAC, AAPC, Blosum62…) trong việc xây dựng mơ hình dự đoán.
CÁCH TIẾP CẬN, PHƯƠNG PHÁP NGHIÊN CỨU
Cách tiếp cận

 Nghiên Tìm kiếm các tài liệu liên quan về các phương pháp xác định, dự
đoán protein.

 Thu thập, phân tích các dữ liệu từ các nguồn báo tin cậy về protein
(UniprotKD, …)

 Đánh giá các mơ hình áp dựng hiện này.
Phương pháp nghiên cứu

 Nghiên cứu giải thuật LIBSVM
 Thu thập, tổng hợp xử lý dữ liệu
 Đánh giá, so sánh kết quả đạt được
NỘI DUNG NGHIÊN CỨU

Chương 1: Lý thuyết
Chương 2: Phương pháp
Chương 3: Kết quả nghiên cứu

2

CHƯƠNG 1
LÝ THUYẾT

1.1 Tổng quan về biến đổi sau phiên dịch Post-Translational Modifications
(PTMs)

Biến đổi sau phiên dịch Protein (PTMs) tăng sự đa dạng chức năng của
hệ protein bằng việc bổ sung kết cộng hóa trị của các nhóm chức năng hoặc
protein, sự phân tách phân giải protein của tiểu đơn vị quy định, hoặc suy thối
của tồn bộ protein. Những thay đổi bao gồm phosphoryl, glycosyl hóa,
ubiquitination, nitrosylation, methyl hóa, acetyl hóa, lipidation và phân giải
protein. Chính vì vậy nó ảnh hưởng gần như tất cả các khía cạnh của sinh học tế
bào bình thường cũng như bệnh. Do đó, việc xác định và hiểu PTMs là rất quan
trọng trong việc nghiên cứu sinh học tế bào và điều trị bệnh và phịng ngừa.

Hình 1 - Biến đổi sau phiên dịch Protein (PTMs) là cơ chế quan trọng để tăng sự đa
dạng của hệ protein

Trong vài thập kỷ qua, các nhà khoa học đã phát hiện ra rằng hệ protein
của con người là bao la phức tạp hơn bộ gen của con người. Trong khi người ta
ước tính rằng bộ gen con người từ 20.000 đến 25.000 gene, nhưng tổng số
protein trong hệ protein con người ước đạt hơn 1 triệu. Những ước tính này

3


chứng minh rằng gene đơn mã hóa nhiều protein, tái tổ hợp di truyền, khởi đầu
và chấm dứt phiên mã. Ngồi ra nó cũng tham gia cơ chế tạo ra bảng điểm
mRNA khác nhau từ một gen duy nhất.

Sự gia tăng về độ phức tạp ngày càng cao khi bộ gene cho phép protein
thay đổi hậu dịch mã (PTMs). PTMs là thay đổi hóa học đóng một vai trị quan
trọng trong chức năng của hệ protein vì họ điều tiết hoạt động, nội địa hóa, và
tương tác với các phân tử di động khác như với protein khác, axit nucleic, lipid
và các đồng yếu tố.

Hình 2 - Sự phát triển số lượng cấu trúc của protein từ 1972-2006
Protein (còn gọi là chất đạm) là những phân tử sinh học, hay đại phân
tử, chứa một hoặc nhiều mạch dài của các nhóm axit amin. Protein thực hiện rất
nhiều chức năng bên trong sinh vật, bao gồm các phản ứng trao đổi chất xúc
tác, sao chép DNA, đáp ứng lại kích thích, và vận chuyển phân tử từ một vị trí
đến vị trí khác. Các protein khác nhau chủ yếu ở trình tự của các axit amin
trong cấu tạo của chúng, mà trình tự này bị chi phối bởi trình tự nucleotide của

4

các gen quy định tương ứng, và ở kết quả của giai đoạn gập protein (protein
folding) thành những cấu trúc 3 chiều xác định lên chức năng của nó.

Một mạch thẳng các nhóm axit amin liên kết với nhau gọi là chuỗi
polypeptide. Protein chứa ít nhất một chuỗi dài polypeptide. Các polypeptide
ngắn, chứa ít hơn 20-30 nhóm amin, hiếm khi được coi như là protein và
thường được gọi là peptit, hoặc thỉnh thoảng là oligopeptide. Từng nhóm axit
amin được liên kết với nhau bởi liên kết peptit. Trình tự của axit amin trong
một protein được xác định bằng trình tự của một gene, mà được mã hóa thành

thơng tin mã di truyền. Trong tự nhiên, nói chung có 20 axit amin sinh protein;
tuy nhiên trong một số sinh vật nhất định mã di truyền của chúng có thể bao
gồm selenocysteine và trong một số archaea là pyrrolysine. Ngay sau khi tổng
hợp hoặc thậm chí trong q trình tổng hợp, các nhóm amin trong một protein
thường bị thay đổi tính chất hóa học bởi giai đoạn sửa đổi sau dịch mã (post-
translational modification), làm biến đổi tính chất hóa học và vật lý, sự gập
xoắn, tính ổn định, hoạt động và cuối cùng là chức năng của protein. Một số
protein cịn có nhóm phi-peptide gắn thêm vào, mà được gọi là nhóm ngoại lai
(prosthetic group) hay đồng yếu tố (cofactor). Protein cũng làm việc với nhau
để có được một chức năng chuyên biệt, và chúng thường phối hợp để tạo thành
dạng phức hệ protein ổn định.

Sau khi sản sinh ra, các protein chỉ tồn tại trong thời gian nhất định và
sau đó thối hóa và được tái sinh bởi bộ máy của tế bào thông qua q trình
ln chuyển protein (protein turnover). Vịng đời của một protein được đo bằng
nửa thời gian sống và nằm trong một miền rộng các giá trị. Chúng có thể chỉ
tồn tại vài phút hay hàng năm với thời gian sống trung bình khoảng 1–2 ngày
trong tế bào động vật. Các protein khơng bình thường hoặc gập xoắn bị lỗi
thường thối hóa nhanh hơn hoặc do bởi bị đánh dấu để phá hủy hoặc trở lên
không ổn định.

Giống như những đại phân tử sinh học khác như polysaccharide và axit
nucleic, protein là thành phần thiết yếu của cơ thể sinh vật và tham gia vào mọi

5


×