Nguyenvanthinh ledactien k14 dhti14a1nd cntt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.6 MB, 62 trang )

Trang 1<div class="page_container" data-page="1">

BỘ CÔNG THƯƠNG

TRƯỜNG ĐẠI HỌC KINH TÊ - KỸ THUẬT CƠNG NGHIỆP

KHĨA LUẬN TỐT NGHIỆP

TÊN ĐỀ TÀI KHĨA LUẬN:

GIẢI QUYẾT BÀI TỐN ĐỒNG THAM CHIẾU TRONG DỮ LIỆU VĂN BẢN SỬ DỤNG MẠNG NƠ-RON NHÂN TẠO

Ngành đào tạo: Công nghệ thông tin Mã số ngành: 7840201

Họ và tên sinh viên: Nguyễn Văn Thịnh Lê Đắc Tiến

Người hướng dẫn khóa luận tốt nghiệp

ThS. Trần Thị Hương

NAM ĐỊNH - 2024

</div>Trang 2<div class="page_container" data-page="2">

LỜI CAM ĐOAN

Chúng em xin cam đoan đề tài khóa luận “Giải quyết bài toán đồng tham chiếu trong dữ liệu văn bản sử dụng mạng nơ-ron nhân tạo” là cơng trình nghiên

cứu của nhóm dưới sự hướng dẫn của ThS. Trần Thị Hương, khơng có sự sao chép của người khác. Đề tài là một sản phẩm mà chúng em đã nỗ lực nghiên cứu, đọc và dịch tài liệu trong quá trình học tập với thái độ hoàn toàn khách quan. Trong quá trình làm bài có sự tham khảo của một số tài liệu có nguồn gốc rõ ràng và có trích dẫn đầy đủ ở mục tài liệu tham khảo, khơng hề có bất kỳ sự sao chép nào mà khơng có trích dẫn tài liệu tham khảo. Mọi sao chép không hợp lệ, vi phạm quy chế đào

tạo chúng em xin hoàn toàn chịu trách nhiệm.

Chúng em xin cam đoan và chịu trách nhiệm về đề tài của mình!

Nhóm sinh viên thực hiện. Nguyễn Văn Thịnh - Lê Đắc Tiến

</div>Trang 3<div class="page_container" data-page="3">

Khoa Công nghệ thông tin, Trường Đại học Kinh tế Kỹ thuật Công nghiệp đã tạo môi trường học tập và rèn luyện, cách riêng các thầy cô trong Khoa với tri thức và tâm huyết của mình đã cung cấp cho em những kiến thức và kỹ năng bổ ích giúp em có thể áp dụng và thuận lợi thực hiện luận văn.

Cách đặc biệt, chúng em xin chân thành cảm ơn ThS. Trần Thị Hương - giảng viên hướng dẫn đã tận tâm hướng dẫn, giúp đỡ em em trong suốt quá trình nghiên cứu và thực hiện đề tài. Cơ đã có những trao đổi và góp ý để chúng em có thể hồn thành tốt đề tài nghiên cứu này.

Do kiến thức của bản thân vẫn còn nhiều hạn chế và thiếu kinh nghiệm thực tế nên nội dung khóa luận khó tránh khỏi những thiếu sót. Nhóm chúng em rất mong nhận được sự góp ý, chỉ dạy thêm từ quý thầy cô để bài luận văn này được hoàn thiện hơn.

Một lần nữa chúng em xin gửi đến quý thầy cô lời cảm ơn chân thành và tốt đẹp nhất!

Nam Định, ngày 29 tháng 3 năm 2024 Nhóm sinh viên thực hiện. Nguyễn Văn Thịnh – Lê Đắc Tiến

</div>Trang 4<div class="page_container" data-page="4">

MỤC LỤC

LỜI CAM ĐOAN ... i

LỜI CẢM ƠN ...ii

Lý do chọn đề tài khoá luận ... 1

Mục tiêu của đề tài khoá luận ... 1

Nhiệm vụ nghiên cứu ... 1

Phương pháp nghiên cứu ... 2

Đôi tượng và phạm vi nghiên cứu ... 2

Bố cục khoá luận ... 2

CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN ĐỒNG THAM CHIẾU ... 3

1.1Tổng quan về nghiên cứu ... 3

1.2 Định nghĩa đồng tham chiếu ... 4

1.2.1 Khái niệm ... 4

1.2.2 Các thành phần trong quan hệ đồng tham chiếu ... 5

1.3 Phân loại đồng tham chiếu ... 6

1.4 Bài toán đồng tham chiếu ... 7

1.5 Nguồn kiến thức và các yếu tố cần có để xử lý đồng tham chiếu ... 7

1.5.1 Nguồn kiến thức ... 7

1.5.2 Các yếu tố ... 9

1.6 Ứng dụng ... 9

1.7 Khó khăn và thách thức ... 10

CHƯƠNG 2: MỘT SỐ HƯỚNG XỬ LÝ BÀI TOÁN ĐỒNG THAM CHIẾU ... 12

2.1 Phương pháp học không giám sát ... 12

</div>Trang 5<div class="page_container" data-page="5">

2.2.2 Phương pháp máy vectơ hỗ trợ - SVM ... 19

2.3 Nhận xét ... 21

CHƯƠNG 3 SỬ DỤNG MƠ HÌNH MÁY VECTOR HỖ TRỢ GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG VĂN BẢN TIẾNG VIỆT ... 23

3.1 Đặc trưng của văn bản tiếng Việt ... 23

3.1.1 Đặc trưng từ của văn bản tiếng Việt ... 23

3.1.2 Đặc trưng tên người trong tiếng Việt ... 24

3.1.3 Đặc trưng quan hệ ngữ nghĩa ... 25

3.2 Bài toán đồng tham chiếu trong văn bản tiếng Việt ... 25

3.3 Mơ hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt dựa vào phương pháp máy vector hỗ trợ ... 27

3.3.1 Tiêu chuẩn bộ dữ liệu huấn luyện ... 27

</div>Trang 6<div class="page_container" data-page="6">

DANH MỤC CÁC CHỮ VIẾT TẮT

</div>Trang 7<div class="page_container" data-page="7">

Bảng 6 Các đối tượng trả về từ sever ... 42

Bảng 7 Nhận diện thực thể trong câu ... 44

Bảng 8 Độ chính xác chưa tinh chỉnh tham số ... 45

Bảng 9 Tinh chỉnh các siêu tham số ... 45

Bảng 10 Tìm kiếm siêu tham số thích hợp ... 47

Bảng 11 Siêu tham số tối ưu cho mơ hình bài tốn đồng tham chiếu ... 47

Bảng 12 Độ chính xác của mơ hình sau tinh chỉnh ... 48

Bảng 13 Kiểm thử mơ hình sau tinh chỉnh ... 48

Bảng 14 Danh sách các thực thể được nhận diện ... 49

Bảng 15 Kết quả đồng tham chiếu ... 50

</div>Trang 8<div class="page_container" data-page="8">

DANH MỤC HÌNH ẢNH

Hình 1.1 Mơ hình tổng qt bài tốn đồng tham chiếu... 8

Hình 2.1 Mơ hình cây quyết định C4.5 ... 17

Hình 3.1 Mơ hình tổng quát xử lý đồng tham chiếu tiếng Việt ... 26

Hình 3.2 Bộ dữ liệu tiếng Việt ... 28

Hình 3.3 Quá trình xây dựng bộ dữ liệu học tiếng Việt ... 29

Hình 3.4 Danh sách các cặp thực thể cần được gán nhãn ... 36

Hình 3.5 Vector các cặp thực thể được sinh ra bằng mơ hình SBert ... 37

Hình 3.6 Hoạt động của SVM trong bài toán đồng tham chiếu tiếng Việt ... 38

Hình 4.1 Giao diện chương trình thực nghiệm ... 43

</div>Trang 9<div class="page_container" data-page="9">

LỜI MỞ ĐẦU

Lý do chọn đề tài khoá luận

Bài toán đồng tham chiếu trong văn bản là bài toán xác định các cụm từ (đại từ hoặc danh từ) trong một tài liệu chỉ tới cùng một thực thể thực tế và gom nhóm chúng thành các chuỗi đồng tham chiếu là một vấn đề khó trong xử lý ngơn ngữ tự nhiên. Nó đã thu hút sự quan tâm của nhiều nhà nghiên cứu và được thảo luận tại các hội nghị lớn như ACL và IJCAI. Nếu có một phương pháp giải quyết hiệu quả, nhiều bài toán khác như hệ thống hỏi đáp, trích chọn quan hệ, nhận dạng thực thể, tóm tắt văn bản, và tự động sinh các biểu diễn tương đương của đoạn văn bản sẽ được cải thiện đáng kể về chất lượng.

Bài toán này đã được nghiên cứu từ những năm 60-70 của thế kỉ trước, với các phương pháp tiếp cận ban đầu chủ yếu dựa trên kinh nghiệm. Hiện nay, có nhiều phương pháp tiếp cận khác nhau đã được đề xuất, nhưng phương pháp dựa trên học máy không giám sát và học máy giám sát đang nổi bật hơn. Các cơng trình này có tính ứng dụng cao và đang được cải tiến để đạt hiệu quả tốt hơn.

Khóa luận này giới thiệu một số phương pháp tiếp cận điển hình đã được sử dụng để giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt. Nổi bật trong các phương pháp đã được sử dụng thì phương pháp máy vector hỗ trợ là phương pháp mới (2005) cho kết quả khả quan. Vì vậy, chúng tơi đã sử dụng phương pháp này để giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể là xây dựng mơ hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt. Kết quả thực nghiệm ban đầu cho thấy mơ hình này phù hợp với miền dữ liệu tiếng Việt và có khả năng ứng dụng tốt.

Mục tiêu của đề tài khoá luận

- Nghiên cứu, tìm hiểu bài toán đồng tham chiếu cách riêng là đồng tham chiếu văn bản tiếng Việt, các phương pháp giải quyết bài toán đồng tham chiếu

- Chọn một cách tiếp cận phù hợp và áp dụng vào việc xây dựng mơ hình giải quyết bài tốn đồng tham chiếu văn bản tiếng Việt.

Nhiệm vụ nghiên cứu

- Nghiên cứu các loại đồng tham chiếu trong tiếng Việt, đặc biệt là tìm hiểu sâu về đồng tham chiếu danh từ.

</div>Trang 10<div class="page_container" data-page="10">

- Đưa ra một cách tiếp cận và chương trình thực nghiệm giải quyết bài toán đồng tham chiếu

Phương pháp nghiên cứu

- Tìm hiểu, tìm kiếm các nghiên cứu, tài liệu và giáo trình có liên quan đến đề vấn đề đồng tham chiếu.

- Qua việc nghiên cứu, đọc hiểu tài liệu, giáo trình rút ra hướng giải quyết đề tài khoá luận tốt nghiệp.

- Lấy ý kiến giảng viên hướng dẫn và các giảng viên có kinh nghiệm trong lĩnh vực nghiên cứu để hoàn thiện về mặt nội dung và hình thức của khố luận.

Đơi tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu:

- Cấu trúc và ngữ pháp tiếng Việt

- Một số phương pháp tiếp cận giải quyết bài toán đồng tham chiếu đã và đang được sử dụng

Phạm vi nghiên cứu:

- Mơ hình vector máy hỗ trợ SVM - Văn bản tiếng Việt

Bố cục khoá luận

Khoá luận bao gồm bốn phần:

Chương 1: Tổng quan về nghiên cứu bài toán đồng tham chiếu, bao gồm khái niệm cơ bản, phân loại, nguồn kiến thức và các thách thức.

Chương 2: Giới thiệu các phương pháp tiếp cận giải quyết bài toán đồng tham chiếu như xếp hạng, gom cụm, cây quyết định C4.5 và máy vector hỗ trợ SVM.

Chương 3: Trình bày quá trình chọn lựa phương pháp SVM dựa trên nghiên cứu về văn bản tiếng Việt và mơ hình đề xuất.

Chương 4: Thực nghiệm, kết quả và đánh giá của mơ hình, bao gồm xây dựng bộ dữ liệu, mơ hình SVM và so sánh kết quả giữa mơ hình đề xuất và mơ hình cơ sở.

Cuối cùng, phần kết luận và định hướng phát triển tóm tắt kết quả, nhấn mạnh các hạn chế và đề xuất hướng nghiên cứu trong tương lai.

</div>Trang 11<div class="page_container" data-page="11">

CHƯƠNG 1: GIỚI THIỆU BÀI TOÁN ĐỒNG THAM CHIẾU

1.1 Tổng quan về nghiên cứu

Mục tiêu cuối cùng của đồng tham chiếu là giúp hiểu và hiểu rõ hơn ngữ cảnh của văn bản, tạo ra một sự liên kết mạch lạc và mượt mà giữa các câu và đoạn văn, từ đó cung cấp thông tin tổng thể và tạo nên một hiểu biết toàn diện về nội dung của văn bản. Quá trình đồng tham chiếu rất quan trọng, nên nó được ứng dụng trong nhiều ứng dụng ngơn ngữ tự nhiên như đọc hiểu tự động, tóm tắt văn bản, xử lý ngôn ngữ tự nhiên và dịch máy vì: giúp máy tính hiểu rõ ý nghĩa của văn bản và xây dựng một biểu đồ mơ hình hóa thông tin cụ thể nên được sử dụng trong đọc hiểu tự động, giúp tạo ra các tóm tắt văn bản tự động bằng cách nhận diện và liên kết các thực thể tham chiếu đến nhau, được sử dụng để giải quyết các vấn đề như một từ đại diện (pronoun) tham chiếu đến đối tượng nào và nó cũng có thể cải thiện chất lượng dịch máy bằng cách đảm bảo rằng các từ hay cụm từ tham chiếu được dịch chính xác và liên kết với thực thể tương ứng trong văn bản nguồn.

Vì thế, bài tốn đồng tham chiếu đã được khám phá và nghiên cứu trong một thời gian dài. Có nhiều phương pháp tiếp cận do nhiều nhà nghiên cứu đã áp dụng cho việc giải quyết bài toán đồng tham chiếu. Đặc biệt, việc sử dụng học máy đã trở nên phổ biến trong thời gian gần đây.

Hobbs (1978): Phương pháp của Hobbs dựa trên cú pháp, sử dụng một loạt các quy tắc phức tạp để phân tích cú pháp của văn bản một cách chi tiết. Hệ thống của Hobbs tìm kiếm tiền ngữ trong cây phân tích cú pháp.

Lappin và Leass (1994): Phương pháp của Lappin và Leass dựa trên các yếu tố nổi bật, sử dụng một loạt các yếu tố nổi bật để xác định tiền ngữ phù hợp nhất cho một từ thay thế cho trước. Một số yếu tố nổi bật được gán cho tiền ngữ tiềm năng: độ gần câu, nhấn mạnh chủ thể, đối tượng, nhấn mạnh sự tồn tại, danh từ đầu.

Phương pháp thống kê hay học máy dựa trên tài liệu huấn luyện. Phương pháp này có thể được chia thành phương pháp giám sát và không giám sát tuỳ thuộc vào loại tài liệu huấn luyện mà chúng sử dụng. Phương pháp giám sát yêu cầu tài liệu huấn luyện đã được chú thích thơng tin về các loại danh mục mà hệ thống xử lý trong khi điều này không cần thiết cho các phương pháp không giám sát.

Ở Việt Nam, trong những năm trở lại đây, bài toán đồng tham chiếu đã và đang nhận được nhiều sự quan tâm chú ý của các nhà nghiên cứu về lĩnh vực xử lý ngôn ngữ tự nhiên. Các giảng viên và sinh viên của nhiều trường Đại học ở Việt Nam tiêu biểu như Đại học Bách Khoa Hà Nội, Đại học Bách khoa Thành phố Hồ Chí Minh, Đại học Cơng nghệ - Đại học Quốc gia Hà Nội… Có thể kể đến một số nghiên cứu tiêu biểu của các tác giả như: Lê Đức Trọng thuộc Trường Đại học Công Nghệ, Hung D. Nguyen và Tru H. Cao thuộc Trường Đại học Bách khoa Thành phố Hồ Chí Minh.

</div>Trang 12<div class="page_container" data-page="12">

Các nghiên cứu đã đặc biệt tập trung vào việc áp dụng các phương pháp học máy như SVM, CRF, TiMBL và mỗi phương pháp này mang lại những ưu điểm và hạn chế riêng. Việc đánh giá độ chính xác, đáng tin cậy và hiệu suất của từng phương pháp cũng có sự khác biệt. Tuy nhiên, vẫn còn tồn tại một số hạn chế trong các nghiên cứu về xử lý đồng tham chiếu tiếng Việt do việc đòi hỏi khá nhiều nguồn tri thức và chiến lược suy luận khéo léo trong xử lý ngôn ngữ tự nhiên.

1.2 Định nghĩa đồng tham chiếu

1.2.1 Khái niệm

Xác định quan hệ đồng tham chiếu là một vấn đề quan trọng trong bài toán liên quan tới lĩnh vực xử lý ngôn ngữ tự nhiên trong văn bản. Tính liên kết giữa hai cụm từ trong văn bản nói riêng và giữa các câu chứa các cụm từ đó nói chung được thể hiện qua quan hệ đồng tham chiếu. Xác định được sự liên kết đóng vai trị quan trọng làm tăng chất lượng trích xuất thơng tin tri thức từ tập văn bản. Vì vậy, việc nhận biết và áp dụng các phương pháp để xác định được các quan hệ đồng tham chiếu là cần thiết.

Quan hệ đồng tham chiếu là một quan hệ ngữ nghĩa đặc biệt, có rất nhiều định nghĩa đã được đưa ra về quan hệ đồng tham chiếu. Trong đó định nghĩa của Véronique Hoste:

“Quan hệ đồng tham chiếu là quan hệ giữa hai hay nhiều cụm từ mà cùng chỉ tới một thực thể xác định trong thế giới thực.”

Ví dụ:

Họ thấy Chí Phèo lăn lộn dưới đất, vừa kêu vừa lấy mảnh chai cào vào mặt. Máu ra loe lt trơng gớm q! Mấy con chó xông vào quanh hắn, sủa rất hăng. Lý Cường hơi tái mặt, đứng nhìn mà cười nhạt, cười khinh bỉ. Hừ! Ngỡ là gì, chẳng hố ra nằm ăn vạ! Thì ra hắn định đến đây nằm vạ!

Trong ví dụ trên, đại từ “hắn” và danh từ tên riêng “Chí Phèo” có quan hệ đồng tham chiếu vì cùng chỉ về nhân vật “Chí Phèo”.

Hiện tượng đồng tham chiếu cũng được định nghĩa theo một cách khác như sau:

Hiện tượng đồng tham chiếu là hiện tượng sử dụng một từ hay một cụm từ để thay thế cho một từ, một cụm từ, một phần câu đã được nhắc đến trước đó.

Xét một ví dụ đơn giản của hiện tượng đồng tham chiếu: - An, dậy đi con. Muộn học bây giờ!

- Mẹ để con ngủ thêm tí nữa.

</div>Trang 13<div class="page_container" data-page="13">

Trong ví dụ trên, “con” chính là đại từ thay thế cho “An”. Câu hỏi được đặt ra là làm sao để hệ thống nhận diện được “con” chính là từ thay thế cho “An”.

Hai ví dụ trên đại diện cho một dạng đồng tham chiếu chúng ta thường gặp hàng ngày trong cuộc sống. Xử lý đồng tham chiếu là một thách thức rất lớn, nó địi hỏi trang bị cho máy sự hiểu biết về cấu trúc ngữ pháp, cấu trúc ngữ nghĩa của ngôn ngữ tự nhiên, thậm chí trong những trường hợp phức tạp nó địi hỏi cả hiểu biết “thực” trong đời sống. Vấn đề này mặc dù được nhận diện từ khá sớm nhưng vẫn chưa có lời giải cuối cùng cho một giải pháp xử lý đồng tham chiếu hoàn chỉnh. Các giải pháp được nghiên cứu từ những thập niên 70, 80 của thế kỷ trước như của Hobbs năm 1978 chỉ giải quyết được ngữ pháp nhưng không giải quyết được vấn đề mập mờ về ngữ nghĩa của câu.

Ví dụ như là:

“Bún này ăn chả ngon”

Trong ví dụ nêu trên, nghĩa của câu linh hoạt, biến đổi tuỳ theo hoàn cảnh sử dụng và cách hiểu của người nói cũng như người nghe.

Có hai cách để hiểu ví dụ được nêu trên:

Cách hiểu thứ nhất: Bún này ăn chả/ ngon. Nếu phân tích như vậy, ta sẽ hiểu

rằng câu nói đang đề cập đến vấn đề bún này ăn kèm với chả thì ngon.

Cách hiểu thử hai: Bún này ăn/ chả ngon. Khác với cách phân tích thứ nhất,

cách này cho ta hiểu đang nói đến hành động chê bún này ăn rất dở.

Như vậy, khi đặt ví dụ này vào hiện tượng đồng tham chiếu sẽ gây khó khăn trong việc phát hiện và xử lý vì sự mập mờ của ngữ nghĩa.Vì thế, các nghiên cứu những năm gần đây chủ yếu đi theo hướng kết hợp giữa phân tích cú pháp và các thuật tốn về ngữ nghĩa cùng nhiều cách tiếp cận khác nhau tuỳ từng loại đồng tham chiếu.

1.2.2 Các thành phần trong quan hệ đồng tham chiếu

Một quan hệ đồng tham chiếu thường là quan hệ giữa các cặp cụm từ cơ sở bao gồm: danh từ riêng, cụm danh từ thuần túy, đại từ. Trong đó đóng vai trị quan trọng trong quan hệ đồng tham chiếu đó là các danh từ riêng. Nó cũng là nền tảng để xác định các cụm đồng tham chiếu trong văn bản.

Danh từ riêng : Danh từ chỉ tên riêng của sự vật như tên người, tên địa phương, tên

địa danh, tên tổ chức… Đặc biệt khi viết danh từ riêng các bạn luôn phải viết hoa

các chữ cái đầu.

</div>Trang 14<div class="page_container" data-page="14">

Ví dụ:

- Tên riêng: Nguyễn Trãi, Trần Hưng Đạo, Lê Đại Hành… - Tên tổ chức: IMF, FAO, UN…

- Tên địa danh: Hải Hậu, Nam Định, Hải Dương, Hà Nam…

Đại từ: gồm loại đại từ nhân xưng, đại từ tân ngữ, đại từ tương hỗ và đại từ phản

thân:

- Đại đại diện cho tên người và tên vật: anh, nó, cơ, tơi…

Ví dụ: Tơi thích di chuyển bằng tàu hoả.

- Đại từ tân ngữ được sử dụng khi người/vật là tân ngữ của câu hay mệnh đề: tên ấy, cái xe ấy, …

Ví dụ: Nam thích cái xe ấy.

- Đại từ chỉ mối quan hệ tương hỗ: nhau, cả hai …

Ví dụ: Hai người họ đang làm việc cùng nhau.

- Đại từ sử dụng khi một người/vật tác động lên chính nó: mình.

Ví dụ: Cơ ta tự làm khó mình.

Danh từ chung: là các danh từ chỉ chức vụ, được xét đến nhiều trong trường hợp

này như: lập trình viên, giảng viên…

Ví dụ: Tú là một lập trình viên.

1.3 Phân loại đồng tham chiếu

Qua quá trình khảo sát và nghiên cứu, Hoste và McCathy đã tổng kết một số loại quan hệ đồng tham chiếu như sau:

- Quan hệ đồng nhất

Ví dụ: Tiến là một cầu thủ bóng đá chuyên nghiệp. Anh vừa ký hợp đồng

với CLB Thép Xanh Nam Định

- Quan hệ cùng chủng loại

Ví dụ: Audi và Bugatti là hai thương hiệu con nổi tiếng của Volkswagen.

- Quan hệ bộ phận

Ví dụ: Sơn và Minh là đơi bạn thân. Họ đã quen nhau từ thời còn nhỏ.

Các tính chất của quan hệ đồng tham chiếu giữa các cụm từ NPi - cụm từ đồng tham chiếu:

</div>Trang 15<div class="page_container" data-page="15">

- Tính chất đối xứng: NP1, NP2 là đồng tham chiếu thì NP2, NP1 cũng là đồng tham chiếu

- Tính chất bắc cầu: Nếu NP1, NP2 là đồng tham chiếu; NP2, NP3 là đồng tham chiếu thì NP1, NP3 là đồng tham chiếu.

- Tính chất độc lập: Sự thể hiện của NP1 và NP2 độc lập nhau trong ngữ cảnh tương ứng

1.4 Bài toán đồng tham chiếu

Trong các văn bản, các cụm từ có quan hệ đồng tham chiếu nằm rải rác trong các câu, tạo nên sự liên kết về ngữ nghĩa của các câu trong văn bản đó. Xác định sự liên kết này phụ thuộc vào việc xác định các cụm từ có quan hệ đồng tham chiếu. Morton, Dzunic và Denis đã phát biểu bài toán đồng tham chiếu trong văn bản như sau:

“Là bài toán xác định các cụm từ (ngữ danh từ hoặc đại từ) trong một tài liệu có quan hệ đồng tham chiếu và gom nhóm các cụm từ này thành các chuỗi đồng tham chiếu”

Yêu cầu bài tốn:

Đầu vào: Văn bản ngơn ngữ tự nhiên Đầu ra: Các nhóm từ đồng tham chiếu

mắt thầy cô và bạn học của Nam”

Kết quả thu được các cụm đồng tham chiếu:

- Cụm 1: ơng nội, ơng Khoa, ơng già ngồi 75 tuổi, mình, đơi chân thứ hai. - Cụm 2: em, Nam, cháu, đứa cháu thiếu may mắn.

1.5 Nguồn kiến thức và các yếu tố cần có để xử lý đồng tham chiếu

1.5.1 Nguồn kiến thức

</div>Trang 16<div class="page_container" data-page="16">

Hình thái học và kiến thức từ vựng: Trong quá trình xử lý đồng tham chiếu, việc xác định hình thái học và thơng tin từ vựng như loại từ, giới tính, số và người là cần thiết. Đầu tiên, chúng cung cấp thông tin để xác định loại danh từ và đại từ. Tiếp theo, chúng giúp làm rõ tiền ngữ dựa trên sự đồng nhất về giới tính và số. Cuối cùng, chúng cũng cần thiết cho các mức độ xử lý tiếp theo, ví dụ như phân tích cú pháp.

Hình thức cú pháp: Thông tin cú pháp cung cấp về các thành phần như danh từ riêng, mệnh đề, câu... đóng vai trị quan trọng trong việc xác định các danh từ và tiền ngữ tiềm năng. Nó là cơ sở cho việc phân định phạm vi tìm kiếm các tiền ngữ, cũng như cung cấp thông tin về các loại danh từ như từ phản thân. Hơn nữa, thông tin cú pháp cũng cần thiết để xác định các ràng buộc chặt chẽ về đồng tham chiếu.

Kiến thức ngữ nghĩa: Thông tin về hạn chế lựa chọn rất hữu ích trong việc xác định ràng buộc về những loại liên kết nào là hợp lệ và không hợp lệ.

Kiến thức ngôn từ: Xử lý đồng tham chiếu phần lớn là một hiện tượng diễn ngôn, ảnh hưởng trực tiếp đến mức độ gắn kết và tính mạch lạc của diễn ngôn. Một số loại tham chiếu chỉ cần một khái niệm cục bộ của cấu trúc diễn ngôn (ví dụ: đại từ), trong khi những loại khác là tồn cục (ví dụ: các mơ tả xác định).

Hình 1.1 Mơ hình tổng qt bài tốn đồng tham chiếu

</div>Trang 17<div class="page_container" data-page="17">

Kiến thức thế giới thực: Loại kiến thức này là cần thiết cho việc giải quyết nhiều loại tham chiếu như “WHO”, “Đức Giáo Hoàng”, “Hà Lan”, và đây là một

trong những khó khăn nhất để viết mã và biểu diễn xử lý đồng tham chiếu.

1.5.2 Các yếu tố

Một số yếu tố ảnh hưởng đến hiệu suất xử lý đồng tham chiếu:

- Sự đồng thuận về giới tính và số: Cả từ thay thế và tiền ngữ phải đồng nhất về số và giới tính. Ví dụ, trong câu “Thanh và Sơn đã đến sân vận động. Họ đã ở đó cả buổi sáng”, từ thay thế “Họ” và “đó” phải đồng nhất về số và giới tính với tiền ngữ tương ứng. Sự đồng thuận này giúp xác định chính xác tiền ngữ của các từ thay thế.

- Giới hạn lựa chọn: Yếu tố này, còn được gọi là sự hạn chế ngữ nghĩa, đảm bảo rằng từ thay thế và tiền ngữ của nó phải phù hợp về ngữ nghĩa. Ví dụ, trong câu “Hải lấy thức ăn trong hộp ra và ăn nó”, từ thay thế “nó” phải phù hợp về ngữ nghĩa với tiền ngữ “thức ăn”.

- Cụm danh từ gần nhất: Đây là yếu tố yếu cho xử lý đồng tham chiếu, trong đó danh từ riêng gần nhất mà phù hợp về giới tính và số, với từ thay thế có thể là tiền ngữ đúng. Tuy nhiên, điều này khơng phải ln đúng. Ví dụ, trong câu “Linh nhờ Lan giúp đỡ cô ấy”, dù “Lan” là danh từ riêng gần nhất, nhưng tiền ngữ chính xác của từ thay thế là “Linh”.

- Ưu tiên chủ ngữ: Yếu tố này ưu tiên chủ ngữ của câu trước đó là tiền ngữ của đại từ chủ ngữ. Ví dụ, trong câu “Hạnh gọi Hà. Anh ấy muốn hỏi anh ta để mượn xe”, chủ ngữ "Hạnh" là tiền ngữ của từ thay thế "Anh ấy". Tuy nhiên, ưu tiên này không luôn được áp dụng mạnh mẽ, như trong câu "Hạnh gọi Hà. Anh ấy khơng trả lời điện thoại", khi đó tiền ngữ chính xác của "Anh ấy" là "Hà".

Một số yếu tố có thể được xem là quan trọng hơn so với các yếu tố khác, chủ yếu dựa trên đặc điểm ngơn ngữ được phân tích. Sự đồng thuận về giới tính và số thường được xem là quan trọng hơn so với cụm danh từ gần nhất, và việc kết hợp một số yếu tố xử lý đồng tham chiếu với nhau sẽ cung cấp độ tin cậy lớn hơn trong việc xác định tiền ngữ đồng tham chiếu.

1.6 Ứng dụng

Trong nghiên cứu của mình, Versley và các đồng nghiệp đã chỉ ra rằng bài toán đồng tham chiếu có thể được áp dụng trong nhiều lĩnh vực xử lý ngôn ngữ tự nhiên khác nhau, bao gồm trích xuất thơng tin, hỏi đáp tự động, và tóm tắt văn bản. Việc áp dụng này có thể được thấy trong việc tự động sinh các biểu diễn tương

</div>Trang 18<div class="page_container" data-page="18">

đương của đoạn văn bản, một ứng dụng của tác giả Lê Thanh Hương. Trong các bài toán này, chức năng của việc xác định các quan hệ đồng tham chiếu là nhận dạng, thu thập và gom nhóm các cụm từ đồng tham chiếu để trích xuất thêm các quan hệ ngữ nghĩa, giúp máy tính hiểu được các tri thức trong văn bản một cách đầy đủ hơn.

McCarthy (1996) đã tích hợp hệ thống phát hiện quan hệ đồng tham chiếu vào quá trình giải quyết bài tốn trích xuất thơng tin. Mục đích của bài tốn này là nhận dạng những thành phần thơng tin cụ thể trong một văn bản, những thành phần này tạo nên nội dung ngữ nghĩa của văn bản. Do đó, việc xác định các quan hệ đồng tham chiếu giúp xác định các thành phần này thông qua việc xác định sự liên quan ngữ nghĩa giữa các cụm từ trong văn bản.

Trong mơ hình giải quyết bài toán hỏi đáp tự động của Morton (1999), mỗi câu hỏi được xem như một truy vấn định nghĩa một quan hệ giữa các sự kiện và thực thể. Morton tìm kiếm các mối quan hệ đồng tham chiếu giữa các thực thể và sự kiện trong câu hỏi với các thực thể và sự kiện tương ứng trong văn bản. Dựa trên các quan hệ này, các câu trả lời được xác định và xếp hạng, sau đó hệ thống đưa ra các câu có hạng cao nhất cho người dùng.

Phương pháp tiếp cận giải quyết bài tốn tóm tắt văn bản của Steinberger và các đồng nghiệp (2007) đã sử dụng việc phát hiện quan hệ đồng tham chiếu để xác định các cụm từ đồng tham chiếu về một thực thể. Điều này giúp thu thập thông tin đầy đủ về thực thể đó, bao gồm cả thông tin về đồng vị ngữ và các cấu trúc ngữ nghĩa khác, để hỗ trợ việc tóm tắt văn bản.

Tác giả Lê Thanh Hương (2007) đã áp dụng cơ chế thay đổi các từ đồng tham chiếu trong quá trình xử lý bài toán tự động sinh biểu diễn tương đương của đoạn văn bản. Mục đích của việc này là giải quyết vấn đề mạch lạc, phi ngữ pháp khi thay đổi vị trí các mệnh đề của đoạn văn bản để tạo ra biểu diễn tương đương mới. Điều này giúp đảm bảo rằng các đại từ đi trước danh từ mà chúng thay thế sẽ được xác định một cách chính xác.

1.7 Khó khăn và thách thức

Những định nghĩa về quan hệ đồng tham chiếu hay bài toán đồng tham chiếu trong văn bản khá là đơn giản. Tuy nhiên nó là một vấn đề khó trong xử lý ngôn ngữ tự nhiên, bao gồm việc xử lý phức hợp nhiều nguồn tri thức và nhiều chiến lược suy luận. Vì vậy trong việc giải quyết bài toán này gặp rất nhiều thách thức và khó khăn giống như các bài tốn xử lý ngôn ngữ tự nhiên khác khiến cho việc giải quyết chưa thực sự triệt để.

</div>Trang 19<div class="page_container" data-page="19">

Thứ nhất, đó là sự nhập nhằng ngữ nghĩa. Trong ví dụ “Tiến là cánh tay phải đắc lực của Thịnh”, cụm từ “cánh tay phải” và “Tiến” đồng tham chiếu với nhau. Nhưng để máy nhận ra rằng cụm từ “cánh tay phải” chỉ về một thực thể người (Tiến) và không phải chỉ về thực thể người (Thịnh) vẫn là một vấn đề khó với xử lý ngơn ngữ tự nhiên nói chung và bài tốn đồng tham chiếu nói riêng.

Thứ hai, đó là sự nhập nhằng thực thể xảy ra khi trong đoạn văn bản có quá nhiều thực thể. Trong ví dụ: “Hương là cô giáo trực tiếp hướng dẫn của Tiến và Thịnh. Họ đều là những gương mặt tiêu biểu của khoa Công nghệ thông tin.”, từ “Họ” đồng tham chiếu với cả 3 thực thể tên là “Hương, Tiến, Thịnh”. Tuy nhiên trong thực thế, máy tính chỉ hiểu “Họ” và “Tiến, Thịnh” mới là đồng tham chiếu của nhau.

Cuối cùng, đó là sự phụ thuộc vào bước tiền xử lý: Việc xác định các cặp có quan hệ đồng tham chiếu chỉ được thực hiện sau các bước tiền xử lý như: tách câu, tách từ, gán nhãn, phân đoạn, nhận dạng thực thể …. Độ chính xác của nó phụ thuộc nhiều vào độ chính xác của các bước kia. Bước tiền xử lý càng tốt thì kết quả của bài toán đồng tham chiếu càng cao.

</div>Trang 20<div class="page_container" data-page="20">

CHƯƠNG 2: MỘT SỐ HƯỚNG XỬ LÝ BÀI TỐN ĐỒNG THAM CHIẾU

2.1 Phương pháp học khơng giám sát

2.1.1 Phương pháp xếp hạng

Một hướng tiếp cận truyền thống trong xử lý đồng tham chiếu, dựa trên ngôn ngữ học và tri thức, đã được Mitkov đề xuất vào năm 1998. Phương pháp này tập trung vào giải quyết trực tiếp bài toán đồng tham chiếu của các đại từ trong trường hợp tri thức không đủ phong phú. Quá trình này bắt đầu bằng việc kiểm tra đầu vào với một số đặc trưng và điều kiện của tiền ngữ, sau đó tính điểm cho các ứng viên dựa trên các điều kiện đó. Tiền ngữ đồng tham chiếu được chọn là ứng viên có điểm cao nhất.

Các tiêu chí và đặc điểm của tiền ngữ được áp dụng trong phương pháp này bao gồm:

- Sự xác định: Đánh giá mức độ xác định của các cụm danh từ trong câu

trước, so sánh với các tiền ngữ đồng tham chiếu của đại từ. Điểm số được gán dựa trên mức độ xác định, với 0 và -1 tương ứng.

- Sự cho trước: Ưu tiên các cụm danh từ trong các câu trước đó, biểu thị

thông tin đã được biết trước, và gán điểm 1. Ngược lại, không được gán điểm.

- Các động từ cho trước: Xác định xem các động từ từ tập hợp Verb_set có

kèm theo cụm danh từ đầu tiên sau nó, có khả năng cao là tiền ngữ đồng tham chiếu hay không, và gán điểm 1 hoặc 0 tương ứng.

- Sự lặp lại từ vựng: Điểm số dựa trên số lần xuất hiện của cụm danh từ

trong văn bản.

- Danh từ chính của câu: Ưu tiên dựa trên vị trí của cụm danh từ trong câu. - Cụm danh từ phi giới từ: Ưu tiên được gán dựa trên loại cụm danh từ. - Sự ưu tiên đồng vị: Ưu tiên dựa trên sự tương đồng của cụm danh từ với

một đại từ.

- Sự tham chiếu tức thời: Ưu tiên dựa trên sự tương đồng giữa cụm danh từ

và tiền ngữ đồng tham chiếu của đại từ.

- Khoảng cách tham chiếu: Ưu tiên dựa trên khoảng cách giữa các cụm danh

từ và đại từ.

</div>Trang 21<div class="page_container" data-page="21">

- Điều kiện ưu tiên: Ưu tiên dựa trên tính chất của cụm danh từ.

Quá trình xử lý bao gồm các bước sau:

Bước 1: Kiểm tra câu hiện tại và hai câu trước (nếu có) để tìm các cụm danh

từ bên trái của đại từ.

Bước 2: Chọn từ tập các cụm danh từ đã xác định thỏa mãn các điều kiện và

tính điểm cho chúng.

Bước 3: Chọn tiền ngữ đồng tham chiếu là ứng viên có điểm cao nhất.

Ưu và nhược điểm của phương pháp này:

Trong phương pháp này, mỗi ngữ danh từ được biểu diễn bằng tập hợp 11 đặc trưng như sau:

</div>Trang 22<div class="page_container" data-page="22">

- Nội từ (Individual Words): Mỗi từ trong ngữ danh từ được lưu trữ và coi là

một đặc điểm riêng biệt.

- Danh từ chính (Head noun): Để xác định, loại bỏ các từ chỉ loại và từ chỉ

lồi, sau đó chọn từ đầu tiên trong phần cịn lại của ngữ danh từ làm danh từ chính.

- Vị trí (Position): Vị trí của ngữ danh từ trong văn bản được đánh số, bắt

đầu từ 0.

- Đại từ (Pronoun Type): Mỗi đại từ được phân loại thành một trong các loại:

Nominative, Accusative, Possessive, hoặc Ambiguous. Các ngữ danh từ khác có giá trị None đối với đặc điểm này.

- Mạo từ (Article): Mỗi ngữ danh từ có thể được đánh dấu là Indefinite (có từ

mạo từ như a, an), Indefinite không xác định, hoặc None nếu không rõ.

- Đồng vị ngữ (Appositive): Một ngữ danh từ được xem là đồng vị ngữ nếu

nó nằm trong dấu phẩy và đứng trước một ngữ danh từ khác.

- Số lượng (Number): Trong tiếng Anh, Singular hoặc Plural được xác định

dựa trên việc kết thúc của danh từ chính. Đối với tiếng Việt, số lượng được biểu thị bằng từ như "mười", "một số", ... đứng ở vị trí bắt đầu của ngữ danh từ.

- Tên riêng (Proper Name): Tên riêng được nhận dạng bởi các ký tự viết hoa

trong ngữ.

- Ngữ nghĩa (Semantic Class): Sử dụng WordNet để xác định lớp ngữ nghĩa

của danh từ chính, gắn với các lớp như TIME, CITY, ANIMAL, HUMAN, hoặc OBJECT.

- Giới tính (Gender): Giới tính (Masculine, Feminine, Either, hoặc Neuter)

được xác định bằng cách sử dụng WordNet và danh sách các tên thông thường.

- Sự sống động (Animacy): Các ngữ danh từ đề cập đến con người hoặc động

vật được đánh dấu là ANIM; các ngữ danh từ khác được đánh dấu là NANIM. Khoảng cách giữa hai cụm ngữ danh từ NPi và NPj được ký hiệu là dist(NPi, NPj) và được xác định bằng công thức cụ thể.

</div>Trang 23<div class="page_container" data-page="23">

- Các hàm bất tương hợp và các trọng số tương ứng được quy định như trong bảng 1 dưới đây. Thông thường, các trọng số được chọn để phản ánh tri thức ngôn ngữ về đồng tham chiếu. Các mẫu có thể có trọng số để lọc ra các luật không xác định. Hai ngữ danh từ không thể là tham chiếu của nhau nếu các giá trị của chúng không tương đương với các đặc trưng của mẫu.

Đặc trưng f Trọng số Hàm incompatibility

Words 10.0 Số từ không trùng khớp/ Số từ trong cụm danh từ Head Noun 1. 1 nếu các danh từ chính khác nhau; ngược lại 0 Position 5.0 Sự khác nhau ở vị trí / Cực đại sự khác nhau

Words-substring −∞ 1 nếu NPi là xâu con của NPj

Appositive −∞ 1 nếu NPj là đồng vị ngữ và NPi là tiền ngữ ngay trước; ngược lại 0

Number ∞ 1 nếu chúng không trùng khớp về số lượng; ngược lại 0

Proper Name ∞ 1 nếu chúng đều là tên riêng nhưng không trùng hợp trên các từ; ngược lại 0

Sematic Class ∞ 1 nếu chúng không cùng lớp; ngược lại 0 Gender ∞ 1 nếu chúng khơng cùng giới tính; ngược lại 0 Animacy ∞ 1 nếu chúng không cùng animacy; ngược lại 0

Bảng 1 Hàm bất tương hợp (incompatibility) và các trọng số đặc trưng tương ứng trong ma trận khoảng cách

Vì ngữ danh từ thường tham chiếu đến ngữ danh từ trước đó, thuật tốn gom nhóm được đề xuất bắt đầu từ vị trí kết thúc của văn bản và tiến hành xử lý ngược lên. Q trình được mơ tả như sau:

</div>Trang 24<div class="page_container" data-page="24">

Đầu vào: Văn bản T

Đầu ra: Các cụm chứa các cụm ngữ danh từ đồng tham chiếu Xử lý:

Bước 1: Chọn bán kính gom cụm r

Bước 2: Gán mỗi cụm ngữ danh từ NPi vào một lớp ci: ci = {NPi}

Bước 3: Duyệt tất cả các cụm ngữ danh từ theo thứ tự từ cuối lên. Với mỗi

cụm ngữ danh từ NPj, xét các cụm ngữ danh từ trước nó NPi- Đặt d = dist(NPi, NPj)

+ Dễ dàng mở rộng cho nguồn dữ liệu khác.

+ Đạt kết quả khả quan so với các phương pháp tương đương - Nhược điểm:

+ Khó khăn trong việc một ngưỡng r, trọng số đặc trưng phù hợp + Chưa phát hiện được hết những cặp đồng tham chiếu

2.2 Phương pháp học giám sát

2.2.1 Phương pháp cây quyết định C4.5

Phương pháp này được Joseph F. McCarthy đề xuất vào năm 1995, sau đó được Zoran Dzunic và đồng nghiệp thực nghiệm lại vào năm 2006 với một số cải tiến trong thuật toán đối sánh đặc trưng xâu ký tự. Tư tưởng chính của phương pháp này là sử dụng thuật toán cây quyết định để phân loại các cụm từ liên quan tới cụm từ đang xét thành hai lớp: lớp đồng tham chiếu và lớp khơng đồng tham chiếu, dựa trên các thuộc tính đặc trưng giữa hai cụm từ.

</div>Trang 25<div class="page_container" data-page="25">

Trong phương pháp này, đã định nghĩa một số khái niệm như sau:

- Đối với mỗi cặp cụm từ (I, J) trong văn bản T, ta nói I đứng trước J và viết I < J nếu và chỉ nếu I xuất hiện trước J trong văn bản T. J được gọi là anaphora và I được gọi là tiền ngữ.

- Khoảng cách giữa hai xâu kí tự s1 và s2 được xác định là số kí tự cần chuyển đổi chính xác từ s1 sang s2.

Và 10 thuộc tính đặc trưng thể hiện mối quan hệ giữa hai cụm từ I và J như sau:

- String_match: Thuộc tính có 2 giá trị là True và False, thể hiện sự giống

nhau giữa 2 cụm từ I và J sau khi loại bỏ các từ dừng và áp dụng chiến thuật đối sánh xấp xỉ.

- Alias: Có hai giá trị True và False, kiểm tra xem hai từ có phải là dạng viết

tắt của nhau khơng, ví dụ: từ viết tắt, bí danh của một người, ngày tháng.

- Appositive: Có hai giá trị là True và False, kiểm tra xem hai cụm từ có phải

là đồng vị ngữ khơng khi chúng cách nhau bởi dấu phảy và ít nhất một cụm từ là tên riêng.

- J pronoun: Có hai giá trị là True và False, kiểm tra xem cụm từ J có là đại

</div>Trang 26<div class="page_container" data-page="26">

- Distance: Là số nguyên, thể hiện khoảng cách giữa hai cụm từ tính bằng số

câu.

- Gender_agreement: Có 3 giá trị True, False và Unknow, thể hiện sự đồng

nhất về giới tính giữa hai cụm từ I và J.

- Definite_np: True nếu I là một cụm từ xác định, ngược lại là False.

- Number_agreement: True nếu cụm từ được bắt đầu bởi một danh từ chỉ số

lượng, ngược lại là False.

- Demonstrative_np: True nếu I là đại từ chỉ định, ngược lại là False.

- Both_proper_names: True nếu cả hai cụm từ đều là tên riêng, ngược lại là

False.

Dựa trên những khái niệm và thuộc tính đặc trưng đó, thuật tốn cây quyết định được áp dụng vào giải quyết bài toán đồng tham chiếu trong một văn bản:

Đầu vào: Văn bản T

Đầu ra: Các cụm từ và danh sách các cụm từ đồng tham chiếu tương ứng. Xử lý:

Bước 1: Tìm danh sách P các cụm từ trong văn bản

Bước 2: Với mỗi cụm từ J trong danh sách P, xét danh sách F các cụm từ I

đứng trước J.

Bước 3: Với mỗi cụm từ I, tính tốn các giá trị đặc trưng của cặp (I, J)

Bước 4: Sử dụng thuật tốn cây quyết định để xét tính đồng tham chiếu của

hai cụm từ I, J. Nếu (I, J) đồng tham chiếu, cụm từ I được thêm vào danh sách L các cụm từ đồng tham chiếu của J. Tiếp tục xét các cụm từ I’ khác cho tới khi danh sách F được duyệt hết.

Bước 5: Khi P được duyệt hết, trả về tập các cụm từ và danh sách các cụm từ đồng tham chiếu với nó.

Ưu, nhược điểm của hướng tiếp cận: - Ưu điểm:

+ Đạt kết quả tốt hơn so với các kết quả sử dụng phương pháp tương đương trước đó.

+ Xác định được những đặc trưng quan trọng cho việc giải quyết bài toán đồng tham chiếu.

- Nhược điểm:

</div>Trang 27<div class="page_container" data-page="27">

+ Tốn nhiều công sức trong việc thống kê luật để xây dựng một cây quyết định phù hợp.

+ Kết quả phụ thuộc vào bước tiền xử lý như: gán nhãn (POS-tagging), nhận dạng thực thể (NER), tách từ (Word segmentation) …

2.2.2 Phương pháp máy vectơ hỗ trợ - SVM

Giới thiệu mơ hình vector máy hỗ trợ:

SVM là viết tắt của cụm từ support vector machine. Phương pháp máy vector hỗ trợ SVM ra đời từ lý thuyết học thống kê do Vapnik và Chervonekis xây dựng năm 1995, và có nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng trong thực tế. SVM là một họ các phương pháp dựa trên cơ sở các hàm nhân (kernel) để tối thiểu hóa rủi ro ước lượng.

Bài tốn cơ bản của SVM là bài toán phân loại hai lớp: Cho trước n điểm trong không gian d chiều (mỗi điểm thuộc vào một lớp kí hiệu là (+1) hoặc (–1)). Mục đích của giải thuật SVM là tìm một siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia các điểm này thành hai phần sao cho các điểm cùng một lớp nằm về một phía với siêu phẳng này.

Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả năng phân loại khá tốt đối với bài toán phân lớp cũng như trong nhiều ứng dụng khác (ước lượng hồi quy, nhận dạng chữ viết tay…).

Ưu điểm của SVM đó là:

- Đây là thuật toán hoạt động hiệu quả với không gian cao chiều (high dimensional spaces).

- Thuật tốn tiêu tốn ít bộ nhớ vì chỉ sử dụng các điểm trong tập hỗ trợ để dự báo trong hàm quyết định.

- Có thể tạo ra nhiều hàm quyết định từ những hàm kernel khác nhau. Thậm chí sử dụng đúng kernel có thể giúp cải thiện thuật tốn lên đáng kể.

Chính vì tính hiệu quả mà SVM thường được áp dụng nhiều trong các tác vụ phân loại và dự báo, cũng như được nhiều công ty ứng dụng và triển khai trên môi trường production. Chúng ta có thể liệt kê một số ứng dụng của thuật tốn SVM đó là:

- Mơ hình phân loại. Xác định đồng tham chiếu, chủ đề của một đoạn văn bản, phân loại cảm xúc văn bản, phân loại thư rác.

</div>Trang 28<div class="page_container" data-page="28">

- Mơ hình chuẩn đoán bệnh. Dựa vào biến mục tiêu là những chỉ số xét nghiệm lâm sàng, thuật toán đưa ra dự báo về một số bệnh như tiểu đường, suy thận, máu nhiễm mỡ,…

- Trước khi thuật toán CNN và Deep Learning bùng nổ thì SVM là lớp mơ hình cực kì phổ biến trong phân loại ảnh.

- Mơ hình phát hiện gian lận.

Sử dụng mơ hình vector máy hỗ trợ trong bài toán đồng tham chiếu:

Đối với bài toán xử lý đồng tham chiếu danh từ, tư tưởng chính khi sử dung hướng tiếp cận này là d ̣ùng bộ phân lớp để xác định xem một cụm từ có đồng tham chiếu với một tiền ngữ ứng viên trước nó hay khơng.

Nếu coi các cụm từ đồng tham chiếu bao gồm cả thực thể tên, danh từ, đại từ kí hiệu là NPi thì các nhóm cụm từ đồng tham chiếu được kí hiệu là {NPi}. Trong mỗi nhóm, mỗi cặp NPi đều là đồng tham chiếu của nhau. Vì lý do này, bài tốn bây giờ trở thành: tìm tất cả các cặp cụm từ tiềm năng có quan hệ đồng tham chiếu của nhau trong văn bản tiếng Việt. Tuy nhiên, vấn đề quan trọng nhất vẫn là việc xác định tính chất đồng tham chiếu của một cặp cụm từ tiềm năng. Dựa trên tư tưởng phương pháp máy vector hỗ trợ (SVM) vừa được giới thiệu trong phần trên, coi mỗi cặp này thể hiện một quan hệ, mỗi quan hệ này được biểu diễn bởi một vector các đặc trưng tương ứng với miền dữ liệu tiếng Việt, ý tưởng giải quyết vấn đề này là sử dụng một bộ phân lớp. Bộ phân lớp này có vai trị xác định xem vector đặc trưng trên thuộc lớp nào trong 2 lớp: Lớp nhãn (1) là các cặp có quan hệ đồng tham chiếu và lớp nhãn (-1) là các cặp khơng có quan hệ đồng tham chiếu. Sau đó các cặp có quan hệ đồng tham chiếu với nhau được nhóm cùng vào một nhóm.

Ngồi ra, trong một văn bản có nhiều câu, trong một câu có thể có một hoặc nhiều các cụm từ tiềm năng như: thực thể tên, danh từ, đại từ. Như vậy, bài tốn cịn liên quan tới bài tốn ghép cặp các cụm từ trong các câu với nhau.

Ý tưởng giải quyết bài tốn được mơ tả cụ thể như sau:

- Văn bản đầu vào được tiến hành tách câu tạo thành một tập các câu. Trên mỗi câu tiến hành nhận dạng thực thể và gán nhãn từ loại, ta được một tập các cụm từ tiềm năng NPi như đã nói ở trên. Tiến hành ghép cặp các cụm từ trong một câu với nhau và các câu khác ở phía trước nó.

- Mỗi một cặp cụm từ thể hiện cho một quan hệ. Mỗi quan hệ này sẽ tương ứng với một vector đặc trưng.

</div>Trang 29<div class="page_container" data-page="29">

- Tiến hành tạo bộ phân lớp nhị phân các quan hệ vào 2 lớp: lớp (1) tương ứng với cặp có quan hệ đồng tham chiếu, lớp (-1) tương ứng với cặp không có quan hệ đồng tham chiếu.

- Nhóm các cặp có quan hệ đồng tham chiếu với nhau vào cùng một nhóm. Mơ hình giải quyết bài tốn đồng tham chiếu, cụ thể là mơ hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt chia làm hai phần chính: phần xây dựng bộ dữ liệu học và phần áp dụng mơ hình học máy để xác định các nhóm đồng tham chiếu.

2.3 Nhận xét

Cả hai hướng tiếp cận bài toán đồng tham chiếu: học máy có giám sát và khơng giám sát được trình bày ở trên đều có ưu và nhược điểm riêng.

Ưu điểm của phương pháp học máy không giám sát:

- Không yêu cầu dữ liệu được gán nhãn: Phương pháp không giám sát không cần dữ liệu được gán nhãn, giúp giảm công sức cần thiết trong việc chuẩn bị dữ liệu.

- Tính tự động hóa cao: Các thuật tốn khơng giám sát có thể tự động học và tìm ra cấu trúc hoặc mẫu khơng rõ ràng từ dữ liệu đầu vào, giúp tối ưu hóa q trình học.

- Phù hợp với dữ liệu lớn: Phương pháp không giám sát thường hoạt động tốt với dữ liệu lớn và phức tạp, giúp xử lý các bài toán đồng tham chiếu với quy mô lớn.

Tuy nhiên, phương pháp không giám sát cũng có một số nhược điểm:

- Khó khăn trong việc đánh giá hiệu suất: Vì khơng có dữ liệu được gán nhãn để đánh giá hiệu suất, việc đánh giá chính xác hiệu suất của mơ hình có thể trở nên khó khăn và chủ quan.

- Cần nhiều dữ liệu huấn luyện: Do khơng có hướng dẫn từ dữ liệu gán nhãn, các mơ hình khơng giám sát thường cần một lượng lớn dữ liệu huấn luyện để đạt được hiệu suất tốt.

- Khả năng học cấu trúc phức tạp hạn chế: Mặc dù có thể tự động học từ dữ liệu, nhưng các mô hình khơng giám sát thường hạn chế trong việc hiểu được cấu trúc phức tạp và mối quan hệ giữa các đối tượng.

Ưu điểm của phương pháp học máy có giám sát:

</div>Trang 30<div class="page_container" data-page="30">

- Hiệu suất cao khi có đủ dữ liệu gán nhãn: Các phương pháp có giám sát thường đạt được hiệu suất tốt hơn khi có đủ dữ liệu huấn luyện được gán nhãn đúng.

- Đánh giá hiệu suất dễ dàng: Có dữ liệu gán nhãn giúp đánh giá hiệu suất của mơ hình dễ dàng và chính xác hơn.

- Khả năng học cấu trúc phức tạp tốt hơn: Các mơ hình có giám sát thường có khả năng học và hiểu được cấu trúc phức tạp và mối quan hệ giữa các đối tượng tốt hơn.

Nhược điểm của phương pháp học máy có giám sát:

- Yêu cầu dữ liệu gán nhãn: Việc thu thập và chuẩn bị dữ liệu gán nhãn có thể tốn kém và tốn thời gian.

- Có thể gặp vấn đề overfitting: Trong trường hợp có ít dữ liệu, mơ hình có thể bị overfitting, dẫn đến việc khơng tổng qt hóa tốt trên dữ liệu mới.

Tuy nhiên, việc lựa chọn phương pháp nào còn tuỳ thuộc vào đặc trưng và miền ứng dụng cùa bài toán. Hiện nay, rất nhiều các nghiên cứu và các công cụ hỗ trợ xử lý văn bản tiếng Việt đã ra đời cho phép áp dụng nhiều kỹ thuật xử lý hơn để xác định các đặc trưng của các quan hệ đồng tham chiếu như: Tách từ, gán nhãn từ loại và đặc biệt là nhận dạng thực thể. Phương pháp tiếp cận giải quyết bài toán dựa trên máy vector hỗ trợ (SVM) là một phương pháp tiếp cận mới, được đề xuất năm 2005 và phát triển nâng cấp năm 2009 cho kết quả tương đối tốt. Đây chính là những lý do mà khóa luận chọn phương pháp này để xây dựng mơ hình giải quyết bài toán đồng tham chiếu trong văn bản tiếng Việt, cụ thể hơn là mơ hình trích chọn quan hệ đồng tham chiếu trong văn bản tiếng Việt ở chương ba của khóa luận.

</div>Trang 31<div class="page_container" data-page="31">

CHƯƠNG 3 SỬ DỤNG MƠ HÌNH MÁY VECTOR HỖ TRỢ GIẢI QUYẾT BÀI TOÁN ĐỒNG THAM CHIẾU TRONG

VĂN BẢN TIẾNG VIỆT

3.1 Đặc trưng của văn bản tiếng Việt

Văn bản tiếng Việt không chỉ có những đặc trưng liên quan đến các mối quan hệ ngữ nghĩa giống như các ngơn ngữ khác, mà cịn có những đặc trưng độc đáo như từ vựng và tên riêng. Trong phần này, nghiên cứu tập trung vào việc khám phá và giới thiệu các đặc trưng này để xây dựng cơ sở lý thuyết và tri thức hỗ trợ cho quá trình xử lý văn bản tiếng Việt. Mục tiêu là chuẩn bị dữ liệu đầu vào và tạo ra cơ sở cho việc xây dựng bộ dữ liệu huấn luyện cho mơ hình phân loại.

3.1.1 Đặc trưng từ của văn bản tiếng Việt

Cấu trúc cơ bản của từ trong tiếng Việt là tiếng, tức là những âm tiết được sử dụng trong ngôn ngữ hàng ngày. Tiếng có thể mang ý nghĩa rõ ràng (như "nhà", "cửa"), hoặc mơ hồ (như "ơ" có thể là một tiếng cảm thán hoặc chỉ một cái ô che mưa), và cũng có thể khơng mang ý nghĩa một mình (như "ơ" trong từ "ơ hay"). Ba trường hợp này có thể chuyển đổi cho nhau. Tính chất của tiếng là một trong những yếu tố quyết định về loại hình của từ trong tiếng Việt.

Xét về số lượng tiếng, chúng ta có:

- Từ đơn chỉ chứa một tiếng, như "nhà", "xe".

- Từ phức gồm nhiều tiếng, thường là 2 tiếng, như "nhà cửa", "xe cộ", "giáo sư".

Nếu xét về số lượng từ tố (các yếu tố nhỏ nhất tham gia vào cấu tạo từ), chúng ta có phân chia như sau:

- Từ đơn chỉ chứa một từ tố, được gọi là đơn tố, như "nhà", "ra đi ơ".

- Từ đơn tố này có thể gồm nhiều tiếng và có hiện tượng hịa âm tạo nghĩa, được gọi là từ láy. Nếu khơng có hiện tượng này, nó được xem là từ ngẫu kết.

- Từ chứa nhiều từ tố, được gọi là từ đa tố, như "xe đạp", "nhà cửa".

- Từ đa tố này nếu có hiện tượng hịa phố ngữ âm tạo nghĩa, được xem là từ láy. Nếu khơng, nó thuộc loại từ ghép.

</div>