Tải bản đầy đủ (.doc) (44 trang)

Nghiên cứu cách rút trích thông tin metadata từ những bài báo khoa học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (842.36 KB, 44 trang )

Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
LỜI CẢM ƠN.
Đầu tiên, tôi xin gửi lời cảm ơn chân thành đến thầy ThS Huỳnh Ngọc Tín đã
giúp đỡ và giới thiệu tôi thực tập tại Công ty Outsourceit Vietnam. Không những thế,
trong quá trình thực tập thầy đã chỉ bảo và hướng dẫn tận tình cho tôi những kiến thức lý
thuyết, cũng như các kỹ năng trong lập trình, cách giải quyết vấn đề, đặt câu hỏi … Thầy
luôn là người truyền động lực trong tôi, giúp tôi hoàn thành tốt giai đoạn thực tập tốt
nghiệp.
Cho phép tôi gửi lời cảm ơn sâu sắc đến Công ty Outsourceit Vietnam đã tạo mọi
điều kiện thuận lợi giúp tôi cũng như các sinh viên khác hoàn thành giai đoạn thực tập
tốt nghiệp.
Chân thành cảm ơn đến các bạn trong nhóm thực tập đã hỗ trợ để tôi có thể hoàn
thành tốt công việc được giao.
Tôi xin chân thành biết ơn sự tận tình dạy dỗ của tất cả các quý thầy cô Khoa
Công nghệ phần mềm – Trường Đại học Công Nghệ Thông Tin – Đại học Quốc gia
TPHCM.
Lời cảm ơn chân thành và sâu sắc, tôi xin gửi đến gia đình, đã luôn sát cánh và
động viên tôi trong những giai đoạn khó khăn nhất.
Sinh viên
Võ Đinh Duy
Trang 1
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
ACKNOWLEDGMENTS
I would like to send my sincere thank to Md. Huynh Ngoc Tin for the support and
introducing me to Outsourceit Vietnam Company. From what he has taught me - how to
apply theory into application, the skills of raising questions, solving problems all are
valuable lessons that I have learned from my dedicated tutor that helps me complete my
internship well.
Moreover, I would like to send my appreciations to Outsourceit Vietnam
Company for giving me the chance to work in professional software company with many
advantages provided for internship and great colleagues network.


All my thanks to my internship group, who has worked with me inspirationally so
that we could complete our work well.
With the strong support from Software Engineering Department- University of
Information Technology - Vietnam National University, Ho Chi Minh City where I have
been taught good fundamental knowledge which brings to me confidence and success in
this internship.
Last but not least, my special thank is for my family who always strongly support
and motivate me from all difficulties.
Student
Vo Dinh Duy
Trang 2
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
ĐÁNH GIÁ KẾT QUẢ CỦA CƠ QUAN THỰC TẬP.
Trang 3
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………

…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
ĐÁNH GIÁ KẾT QUẢ THỰC TẬP CỦA KHOA.
Trang 4
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………

…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
…………………………………………………………………………………
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
MỤC LỤC.
LỜI CẢM ƠN....................................................................................................................1
ACKNOWLEDGMENTS..................................................................................................2
ĐÁNH GIÁ KẾT QUẢ CỦA CƠ QUAN THỰC TẬP....................................................3
ĐÁNH GIÁ KẾT QUẢ THỰC TẬP CỦA KHOA...........................................................4
MỤC LỤC..........................................................................................................................5
DANH MỤC BẢNG.....................................................................................................................................8

CHƯƠNG 1: TỔNG QUAN VỀ QUÁ TRÌNH THỰC TẬP..........................................11
1.1Giới thiệu...........................................................................................................................................11
Bảng 1: Tóm tắt quá trình thực tập tốt nghiệp.................................................................11
1.2Công ty Outsourceit Vietnam............................................................................................................12
1.3Đề tài thực tập...................................................................................................................................12
1.3.1Đặt vấn đề..................................................................................................................................12
1.3.2Mục tiêu......................................................................................................................................13
1.3.3Phạm vi nghiên cứu....................................................................................................................13
1.3.4Khảo sát các nghiên cứu liên quan.............................................................................................13
1.3.5Nội dung công việc thực hiện.....................................................................................................14
1.3.6Kết quả dự kiến..........................................................................................................................15
1.4 Mục tiêu, thời gian và kế hoạch thực tập........................................................................................15
1.4.1Mục tiêu:....................................................................................................................................15
1.4.2Thời gian và kế hoạch thực tập:.................................................................................................15
Bảng 2: Kế hoạch thực tập...............................................................................................18
1.5 Bố cục báo cáo..................................................................................................................................18
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT...............................................................................................................19
Trang 5
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
2.1Giới thiệu về JAPE..............................................................................................................................19
2.2Luật JAPE............................................................................................................................................19
2.3 Độ ưu tiên trong Jape.......................................................................................................................21
2.3.1Brill. ................................................................................................................................................21
2.3.2All....................................................................................................................................................21
2.3.3First.................................................................................................................................................21
2.3.4Once................................................................................................................................................22
2.3.5Appelt.............................................................................................................................................22
2.4Vế trái (Left-Hand Side).....................................................................................................................22
2.4.1So khớp với chuỗi ký tự..................................................................................................................23
2.4.2So khớp với những loại chú thích khác (Annotation Types)..........................................................23

Bảng 3: Các đặc tính của một vài loại chú thích..............................................................27
2.4.3Macro..............................................................................................................................................27
2.4.4Toán tử tại vế trái...........................................................................................................................28
Bảng 4: Các toán tử trong vế trái của luật ngữ pháp JAPE..............................................30
2.5Vế phải (Right-Hand Side)..................................................................................................................30
CHƯƠNG 3: HIỆN THỰC CÁC LUẬT JAPE...............................................................32
3.1Hiện thực việc rút tác giả...................................................................................................................34
3.2Hiện thực việc rút năm xuất bản và nơi công bố..............................................................................34
Hình 1: Luật idrs_publish được thực thi trong GATE.....................................................35
3.3Hiện thực việc rút thông tin Reference.............................................................................................35
Hình 2: Rút ra những thông tin: tác giả, tiêu đề, năm xuất bản của reference.................36
CHƯƠNG 4: HIỆN THỰC HỆ THỐNG........................................................................37
4.1Thông tin tổng quan..........................................................................................................................37
Trang 6
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
4.2Giao diện............................................................................................................................................37
Hình 3: Giao diện màn hình Build Corpus...............................................................................................38
Hình 4: Thêm một tài liệu vào Corpus....................................................................................................39
Hình 5: Thêm tài liệu thành công vào Corpus..................................................................39
Hình 6: Giao diện màn hình Metadata Extraction............................................................40
4.3Thực nghiệm và đánh giá..................................................................................................................41
KẾT LUẬN......................................................................................................................42
TÀI LIỆU THAM KHẢO................................................................................................43
Trang 7
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
DANH MỤC BẢNG
LỜI CẢM ƠN....................................................................................................................1
ACKNOWLEDGMENTS..................................................................................................2
ĐÁNH GIÁ KẾT QUẢ CỦA CƠ QUAN THỰC TẬP....................................................3
ĐÁNH GIÁ KẾT QUẢ THỰC TẬP CỦA KHOA...........................................................4

MỤC LỤC..........................................................................................................................5
DANH MỤC BẢNG.....................................................................................................................................8
CHƯƠNG 1: TỔNG QUAN VỀ QUÁ TRÌNH THỰC TẬP..........................................11
1.1Giới thiệu...........................................................................................................................................11
Bảng 1: Tóm tắt quá trình thực tập tốt nghiệp.................................................................11
1.2Công ty Outsourceit Vietnam............................................................................................................12
1.3Đề tài thực tập...................................................................................................................................12
1.3.1Đặt vấn đề..................................................................................................................................12
1.3.2Mục tiêu......................................................................................................................................13
1.3.3Phạm vi nghiên cứu....................................................................................................................13
1.3.4Khảo sát các nghiên cứu liên quan.............................................................................................13
1.3.5Nội dung công việc thực hiện.....................................................................................................14
1.3.6Kết quả dự kiến..........................................................................................................................15
1.4 Mục tiêu, thời gian và kế hoạch thực tập........................................................................................15
1.4.1Mục tiêu:....................................................................................................................................15
1.4.2Thời gian và kế hoạch thực tập:.................................................................................................15
Trang 8
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
Bảng 2: Kế hoạch thực tập...............................................................................................18
1.5 Bố cục báo cáo..................................................................................................................................18
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT...............................................................................................................19
2.1Giới thiệu về JAPE..............................................................................................................................19
2.2Luật JAPE............................................................................................................................................19
2.3 Độ ưu tiên trong Jape.......................................................................................................................21
2.3.1Brill. ................................................................................................................................................21
2.3.2All....................................................................................................................................................21
2.3.3First.................................................................................................................................................21
2.3.4Once................................................................................................................................................22
2.3.5Appelt.............................................................................................................................................22
2.4Vế trái (Left-Hand Side).....................................................................................................................22

2.4.1So khớp với chuỗi ký tự..................................................................................................................23
2.4.2So khớp với những loại chú thích khác (Annotation Types)..........................................................23
Bảng 3: Các đặc tính của một vài loại chú thích..............................................................27
2.4.3Macro..............................................................................................................................................27
2.4.4Toán tử tại vế trái...........................................................................................................................28
Bảng 4: Các toán tử trong vế trái của luật ngữ pháp JAPE..............................................30
2.5Vế phải (Right-Hand Side)..................................................................................................................30
CHƯƠNG 3: HIỆN THỰC CÁC LUẬT JAPE...............................................................32
3.1Hiện thực việc rút tác giả...................................................................................................................34
3.2Hiện thực việc rút năm xuất bản và nơi công bố..............................................................................34
Hình 1: Luật idrs_publish được thực thi trong GATE.....................................................35
3.3Hiện thực việc rút thông tin Reference.............................................................................................35
Trang 9
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
Hình 2: Rút ra những thông tin: tác giả, tiêu đề, năm xuất bản của reference.................36
CHƯƠNG 4: HIỆN THỰC HỆ THỐNG........................................................................37
4.1Thông tin tổng quan..........................................................................................................................37
4.2Giao diện............................................................................................................................................37
Hình 3: Giao diện màn hình Build Corpus...............................................................................................38
Hình 4: Thêm một tài liệu vào Corpus....................................................................................................39
Hình 5: Thêm tài liệu thành công vào Corpus..................................................................39
Hình 6: Giao diện màn hình Metadata Extraction............................................................40
4.3Thực nghiệm và đánh giá..................................................................................................................41
KẾT LUẬN......................................................................................................................42
TÀI LIỆU THAM KHẢO................................................................................................43
Hình 4: Thêm một tài liệu vào Corpus. .......................... Error: Reference source not found
Hình 5: Thêm tài liệu thành công vào Corpus ............... Error: Reference source not found
Hình 6: Giao diện màn hình Metadata Extraction ......... Error: Reference source not found
Trang 10
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112

CHƯƠNG 1: TỔNG QUAN VỀ QUÁ TRÌNH THỰC TẬP.
1.1 Giới thiệu.
Thực tập tốt nghiệp là một giai đoạn quan trọng đối viên sinh viên năm cuối, đặc biệt
là sinh viên công nghệ thông tin. Thực tế công việc, cùng với những kinh nghiệm và kỹ
năng học tập được trong giai đoạn này, sẽ giúp cho sinh viên vững vàng hơn khi đi vào
công việc thực tế đầy áp lực. Với ý nghĩa thực tiễn đó, được sự cho phép của nhà
trường, tôi đã may mắn được là sinh viên thực tập tại Công ty Outsourceit Vietnam, một
công ty chuyên gia công phần mềm cho các đối tác nước ngoài. Với thời gian thực tập
khoảng 3 tháng, nhưng nó đã đem lại cho tôi nhiều kinh nghiệm và kỹ năng trong công
việc, cũng như nghiên cứu. Tôi được tham gia vào dự án IDRS (Intelligent Document
Retrieval System), một dự án nghiên cứu về vấn đề rút trích thông tin metadata trong các
bài báo khoa học. Cùng với những sinh viên thực tập khác và với sự hướng dẫn tận tình
của thầy Huỳnh Ngọc Tín, dự án IDRS hiện nay đã khá hoàn chỉnh như những mục tiêu
đề ra.
Tên công ty thực tập Outsourceit Int. Vietnam Co., Ltd
Địa chỉ 43/7 Hoàng Diệu, P12, Q4, Tp. HCM, Vietnam
Thời gian 15/03/2010 -> 15/06/2010
Cán bộ trực tiếp quản lý ThS Huỳnh Ngọc Tín
Dự án tham gia IDRS – Intelligent Document Retrieval System
Vị trí thực tập Developer
Bảng 1: Tóm tắt quá trình thực tập tốt nghiệp
Trang 11
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
1.2 Công ty Outsourceit Vietnam.
Công ty Outsourceit Vietnam là một chi nhánh của công ty Outsourceit International
AS, đặt trụ sở tại Nauy. Outsourceit Vietnam được thành lập vào năm 2007 với 100%
vốn nước ngoài. Với hơn 3 năm thành lập tại Việt Nam, cùng với kinh nghiệm hơn 10
năm của công ty mẹ tại Nauy, công ty Outsourceit Vietnam ngày càng phát triển với đội
ngũ kỹ thuật viên chuyên nghiệp. Outsourceit Vietnam chuyên cung cấp xây dựng
chương trình cho các khách hàng Châu Âu, thông qua công ty mẹ tại Nauy.

Do đặc thù là một công ty chi nhánh Châu Âu, vì thế quy mô nhân viên trong công ty
khoảng từ 10 – 20 người. Nhưng công ty rất thường tổ chức các hoạt động cho nhân viên
tham gia như rèn luyện thể thao, các buổi tiệc trong công ty, các chuyến đi du lịch dã
ngoại, và đặc biệt vào giữa tuần công ty có “happy hours” để mọi nhân viên ăn uống,
trao đổi cùng nhau.
Mục tiêu của công ty là cung cấp cho nhân viên một môi trường làm việc năng động,
thử thách, vui nhộn, để mỗi nhân viên thật sự là một “tài sản” quý nhất của công ty, của
khách hàng.
1.3 Đề tài thực tập.
1.3.1 Đặt vấn đề.
Ngày nay, cùng với sự phát triển của khoa học kỹ thuật, các tri thức khoa học của
loài người được số hóa và đưa lên mạng internet ngày càng phong phú dưới nhiều hình
thức khác nhau như các bài báo, các bài nghiên cứu, các tài liệu học trực tuyến … Với
sự trợ giúp của những công cụ tìm kiếm trực tuyến như Google, Yahoo!, Bing … chúng
ta có thể tìm kiếm được khá chính xác và nhanh chóng những tri thức mà chúng ta cần.
Tuy nhiên, số lượng kết quả trả về của những công cụ này thường khá lớn, độ chính xác
phụ thuộc nhiều vào mức độ cụ thể của từ khóa tìm kiếm; điều đó đã phần nào gây khó
khăn cho chúng ta trong việc tìm kiếm chính xác những tri thức cần đến. Nhu cầu tìm
Trang 12
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
kiếm thông tin của con người ngày càng tăng theo cả số lượng lẫn chất lượng, vì thế đòi
hỏi chúng ta phải cải tiến những thuật toán tìm kiếm hay trong việc tổ chức và sắp xếp
lại những thông tin dữ liệu sao cho phù hợp, để kết quả tìm kiếm được chính xác và
nhanh chóng hơn. Để có thể sắp xếp và tổ chức tốt thông tin dữ liệu, chúng ta cần phải
phân loại chính xác các tài liệu. Rút trích những thông tin cần thiết là bước đầu tiên của
quá trình này. Quá trình rút trích nhằm lấy ra những tri thức, những thông tin nền tảng
metadata của tài liệu. Từ kết quả đó chúng ta mới tiến hành lưu trữ và tổ chức dữ liệu
theo từng phân loại cụ thể.
1.3.2 Mục tiêu.
Mục tiêu của đề tài là nghiên cứu cách rút trích thông tin metadata từ những bài báo

khoa học. Những thông tin metadata bao gồm: tiêu đề bái báo, các tác giả, nơi công tác,
email, các tài liệu tham khảo trong bài báo… Kết quả của quá trình rút trích sẽ được sử
dụng trong việc tổ chức dữ liệu cho thư viện số và làm giàu ontology.
1.3.3 Phạm vi nghiên cứu.
Đối tượng rút trích metadata của đề tài là những bài báo khoa học và có định dạng là
tập tin PDF. Đề tài thực tập tập trung nghiên cứu cách rút trích thông tin metadata, còn
việc tổ chức dữ liệu thư viện số và làm giàu ontology là hướng đi kế tiếp cho đề tài,
trong lần nghiên cứu này chúng tôi chưa đi sâu vào vấn đề đó.
1.3.4 Khảo sát các nghiên cứu liên quan.
Theo [6], hiện nay chúng ta có hai cách tiếp cận chính trong vấn đề rút trích thông tin
đó là: phương pháp máy học và những phương pháp khác dựa trên những luật kết hợp
với các tập từ điển và ontology. Cũng theo tài liệu [6], phương pháp rút trích máy học
bao gồm những phương pháp: symbolic learning, inductive logic programming,
grammar induction, Support Vector Machine, Hidden Markov models (HMMS) và
phương pháp thống kê. Phương pháp máy học cho ra kết quả rút trích chính xác khá cao
Trang 13
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
từ 96% đến 100% tùy theo từng loại metadata khác nhau [7][8]. Đối với phương pháp sử
dụng luật kết hợp với từ điển và ontology thì có nhiều cách tiếp cận khác nhau. Như
trong tài liệu [9], tác giả đã đưa ra gợi ý về phương pháp rút trích thông tin luận lý (như
tiêu đề, tác giả, các đinh nghĩa, bổ đề …) từ các bài báo toán học. Những thông tin
metadata được rút ra thông qua thuật toán rút trích luận lý, bao gồm hai giai đoạn. Đầu
tiên tác giả tiến hành phân đoạn văn bản (dựa trên các dấu hiệu như: khoảng trắng, kiểu
chữ, từ khóa) để xác định các heading, footnote, số trang, running header. Sau đó sẽ tiến
hành gán các nhãn metadata phù hợp cho từng đoạn văn bản dựa trên cách trình bày
layout, vị trí và thông tin kiểu chữ. Tác giả đã kiểm chứng phương pháp này với tỷ lệ
chính xác khá cao là 93,1%. Hay trong tài liệu [10], tác giả đề ra phương pháp làm giàu
ontology Artist bằng cách rút trích những thông tin liên quan đến các nghệ sĩ như: ngày
sinh, nơi sinh, nơi làm việc, ngày lập gia đình, tiểu sử; từ những kết quả tìm kiếm trên
internet. Để làm được điều này họ đã sử dụng kết hợp GATE (để nhận biết các địa điểm,

tên người, ngày tháng) với ontology Artequakt nhằm để xác định mối quan hệ giữa các
thực thể mà GATE đã xách định được.
1.3.5 Nội dung công việc thực hiện.
Trong đề tài nghiên cứu thực tập này, nhóm chúng tôi tiến hành tiếp cận theo cách
thứ hai, dùng luật và kết hợp với những tập từ điển hay ontology để rút trích thông tin
metadata. Chúng tôi dùng luật ngữ pháp JAPE và kết hợp với ontology sẵn có trong
GATE để xác định những thông tin metadata như: tên bài báo, tên các tác giả, nơi công
tác, email của tác giả, nội dung tóm tắt của bài báo, các tài liệu tham khảo.
Các công việc cần thực hiện:
• Đọc các tài liệu, bài báo tham khảo về rút trích thông tin metadata.
• Tìm hiểu khái quát về ontology.
• Học cách sử dụng và thao tác Protégé – công cụ hỗ trợ xây dựng ontology.
Trang 14
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
• Tìm hiểu GATE và luật ngữ pháp JAPE.
• Xây dựng và thử nghiệm các luật JAPE trên GATE.
• Xây dựng công cụ cho việc rút trích thông tin metadata tự động.
• Kiểm thử trên tập dữ liệu lớn, để đánh giá độ chính xác.
1.3.6 Kết quả dự kiến.
• Xây dựng thành công công cụ rút trích thông tin metadata tự động.
• Kết quả chính xác phải từ 80% trở lên.
1.4 Mục tiêu, thời gian và kế hoạch thực tập.
1.4.1 Mục tiêu:
Các mục tiêu phải đạt được trong quá trình thực tập:
• Tìm hiểu thực tế môi trường công việc trong một công ty phần mềm.
• Quan sát học tập các kỹ năng mềm còn yếu và thiếu như: kỹ năng xử lý vấn đề,
kỹ năng giao tiếp, kỹ năng đặt câu hỏi v.v…
• Nâng cao kỹ năng lập trình.
• Nâng cao khả năng học hỏi, sáng tạo trong xử lý vấn đề chuyên môn cũng như
trong giao tiếp.

1.4.2 Thời gian và kế hoạch thực tập:
Có thể chia quá trình thực tập thành hai giai đoạn chính là:
Trang 15
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
• Tìm hiểu ontology: Tìm hiểu ontology để có thể xây dựng một khung sườn nhằm
cho phép lưu trữ các thực thể, được rút trích thông qua IDRS, cũng như những
mối quan hệ hệ giữa những thực thể đó. Những công việc cụ thể là:
o Tìm hiểu khái niệm về ontology. Tìm hiểu những thành phần cấu thành nên
một ontology: concept (thực thể khái niệm), relationship (mối quan hệ),
attribute (thuộc tính), individual (cá thể) [1].
o Tìm hiểu công cụ Protégé. Công cụ này hỗ trợ cho chúng ta xây dựng một
ontology nhanh chóng và chính xác.
o Xem xét và tìm hiểu ngôn ngữ truy vấn ontology, SPARQL.
o Thiết kế và xây dựng module ontology dựa trên ý tưởng và mã nguồn của
Protégé.
• Tìm hiểu, ứng dụng GATE và luật ngữ pháp JAPE:
General Architecture for Text Engineering hay GATE là một phần mềm nguồn
mở có khả năng giải quyết hầu hết các vấn đề trong xử lý từ ngữ (text processing)
[2]. GATE là một công cụ được Đại học Sheffield nghiên cứu và phát triển từ năm
1995 và đến bây giờ nó đã được các nhà khoa học, giảng viên, sinh viên, công ty sử
dụng rộng rãi trong các thao tác xử lý ngôn ngữ tự nhiên, mà chủ yếu là rút trích
thông tin trong nhiều ngôn ngữ [3].
JAPE (Java Annotation Patterns Engine) cho phép chúng ta đưa ra và nhận dạng
các pattern trong một tài liệu. Nó hỗ trợ cho GATE rất nhiều trong quá trình xử lý
như: chặt câu, nhận dạng các thực thể…
Những công việc cụ thể trong giai đoạn này là:
Trang 16
Báo cáo thực tập tốt nghiệp Võ Đinh Duy – 06520112
o Tìm hiểu về GATE: các khái niệm cơ bản (Gate Document, Gate Corpus,
Processing Resources…), cách sử dụng và vận hành module ANNIE.

o Tìm hiểu về cấu trúc ngữ pháp của JAPE.
o Khảo sát về các định dạng layout các bài báo khoa học.
o Áp dụng luật JAPE vào dự án IDRS.
Thời gian Nội dung
01/03 -> 10/03 Tìm hiểu lý thuyết về ontology: các khái niệm, cách xây dựng
ontology, cách thức ontology hỗ trợ cho việc rút trích thông tin ngữ
nghĩa.
Tìm hiểu công cụ Protégé trong việc hỗ trợ xây dựng ontology.
11/03 -> 13/03 Tìm hiểu ngôn ngữ truy vấn SPARQL
15/03 -> 26/03 Khảo sát các bài báo khoa học.
Xây dựng khung sườn cho ontology
29/03 -> 16/04 Viết các Use case cho chương trình IDRS, Use case cho module
ontology
19/04 -> 07/05 Thực hiện coding các Use case đã đề ra.
10/05 -> 15/05 Đọc các paper về rút trích thông tin tự động.
17/05 -> 22/05 Tìm hiểu GATE và luật Jape
24/05 -> 12/05 Áp dụng luật jape để rút ra: tác giả, nơi công bố, năm công bố,
reference trong bài báo khoa học.
Trang 17

×