Ứng Dụng Bảng Quyết Định Dàn Phủ Vào Lọc Cộng Tác Và Phân Lớp Đa Nhãn.pdf

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.59 MB, 52 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ</b>

<b>ỨNG DỤNG BẢNG QUYẾT ĐỊNH DÀN PHỦ VÀO LỌCCỘNG TÁC VÀ PHÂN LỚP ĐA NHÃN</b>

<b>KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thông tin</b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ</b>

<b>ỨNG DỤNG BẢNG QUYẾT ĐỊNH DÀN PHỦ VÀO LỌCCỘNG TÁC VÀ PHÂN LỚP ĐA NHÃN</b>

<b>KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin</b>

<b>Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy</b>

<b>Cán bộ đồng hướng dẫn: Ths. Vương Thị Hồng</b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

Lời đầu tiên, tôi xin gửi lời biết ơn chân thành đến thầy giáo PGS. TS. Hà Quang Thụy và ThS. Vương Thị Hồng đã tận tình hướng dẫn, chỉ bảo em trong suốt quá trình em thực hiện khóa luận.

Em cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong phịng thí nghiệm công nghệ tri thức và khoa học dữ liệu (DS&KTLab) đã giúp đỡ em rất nhiều để hồn thành tốt khóa luận.

Cuối cùng, em muốn gửi lời cảm ơn tới gia đình, bạn bè và tập thể lớp K62CC đã luôn bên cạnh, động viên, giúp đỡ trong quá trình học tập và thực hiện đề tài khóa luận.

Xin chân thành cảm ơn!

Hà Nội, ngày tháng năm 2021 Sinh viên

Phan Văn Tuấn

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>Tóm tắt: Lý thuyết tập thơ phủ là một mở rộng quan trọng của lý thuyết tập thơ của </b>

Pawlak, trong đó, nhiều nghiên cứu áp dụng tập thơ phủ giải quyết các bài tốn thực tiễn đã được tiến hành. Từ năm 2017 tới nay, một số mơ hình áp dụng giải pháp rút gọn tập thô phủ vào lọc cộng tác đã được Z. Zhang và cộng sự đề xuất. Việc áp dụng lý thuyết tập thô phủ vào lọc cộng tác trong hệ tư vấn vẫn cần được tiếp tục nghiên cứu, hơn nữa, bảng quyết định tập thô phủ hiện được đề cập ở mức độ sơ bộ. Nhóm nghiên cứu thuộc Trường Đại học Công nghệ đã đề xuất mơ hình bảng quyết định dàn phủ, xác định hai bài tốn ứng dụng điển hình là rút gọn bảng quyết định dàn phủ và áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn. Các nghiên cứu này hiện vẫn ở dạng thuật tốn mà cần phải được triển khai thực nghiệm.

Khóa luận này tham gia vào các nghiên cứu về bảng quyết định dàn phủ với đóng góp chính là triển khai thực nghiệm các mơ hình, thuật tốn hiện có, thơng qua đó, phát hiện các nội dung cần được bổ sung cho các mơ hình và thuật tốn hiện đó. Khóa luận đã triển khai các phần mềm thi hành thuật toán rút gọn dàn phủ vào bài toán lọc cộng tác người dùng trong hệ tư vấn và thuật toán phân lớp đa nhãn khai phá quan điểm. Kết quả thực nghiệm của cả hai bài tốn chỉ ra tính hợp lý của hai thuật tốn trong bảng quyết định dàn phủ.

Từ khóa: Lọc cộng tác dựa trên người dùng, lý thuyết tập thô, phân lớp đa nhãn, bảng quyết định dàn phủ.

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

Tôi xin cam đoan các kỹ thuật sử dụng để giải quyết vấn đề khởi đầu nguội trong tư vấn xã hội được trình bày trong khóa luận này do tơi thực hiện dưới sự hướng dẫn của PGS.TS. Hà Quang Thụy và ThS Vương Thị Hồng.

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh sách mục tài liệu tham khảo trong khóa luận. Trong khóa luận này khơng có việc sao chép tài liệu, cơng trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo.

Sinh viên

Phan Văn Tuấn

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>Mục lục</b>

Lời cảm ơn... i

TÓM TẮT... ii

Lời cam đoan... iii

Danh sách các thuật ngữ và từ viết tắt...vi

2.2.1. Rút gọn điều kiện lọc cộng tác người dùng...15

2.2.2. Rút gọn thích nghi danh sách mục tư vấn...16

2.3. Áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn...16

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

2.3.1. Mơ hình bảng quyết định cho phân lớp đa nhãn...16

2.3.2. Thuật toán phân lớp đa nhãn...17

2.3.3. Độ phức tạp thuật tốn...18

2.4. Ý tưởng về mơ hình giải quyết bài tốn khóa luận...19

2.4.1. Bài tốn lọc cộng tác trong hệ tư vấn...19

2.4.2. Bài tốn phân lớp đa nhãn...19

Tóm tắt chương 2:...20

Chương 3. Mơ hình giải quyết bài tốn...21

3.1. Mơ hình áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác...21

3.1.1. Các bước trong mơ hình...21

3.1.2. Chi tiết các bước trong mơ hình...22

3.2. Mơ hình áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn...25

Tóm tắt chương 3:...25

Chương 4. Thực nghiệm và đánh giá kết quả...27

4.1. Mô tả thực nghiệm...27

4.1.1. Môi trường cài đặt thực nghiệm...27

4.1.2 Project thực hiện quá trình thực nghiệm...28

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>Danh sách các thuật ngữ và từ viết tắt</b>

Tiếng Anh Từ viết tắt Tiếng Việt/Cụm từ đầy đủ

rating_score Điểm đánh giá timestamp Thời gian đánh giá

learning step Bước học mơ hình

training dataset Dữ liệu huấn luyện CL Dàn điều kiện DL Dàn quyết định

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

Bảng 1.1: Một số hệ thống có chứa thành phần tư vấn Bảng 4.1. Thiết bị cài đặt thực nghiệm

Bảng 4.2 Các công cụ, phần mềm sử dụng

Bảng 4.3: Phân bố của mục và đánh giá của tập dữ liệu MovieLens Bảng 4.4: Đánh giá mơ hình dựa trên các độ đo

Bảng 4.5: Đánh giá kịch bản thực nghiệm 1 Bảng 4.6: Đánh giá kịch bản thực nghiệm 2

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

Hình 1.1: Khung phân loại kỹ thuật hệ thống tư vấn [2] Hình 1.2: Mơ tả về hệ tư vấn dựa trên lọc cộng tác. Hình 3.1: Các bước chính trong mơ hình lọc cộng tác

Hình 3.2 Mơ hình phân lớp đa nhãn đánh giá khách sạn tiếng Việt Hình 4.1 Project thực hiện quá trình thực nghiệm.

Hình 4.2. Một phần dữ liệu tập MovieLens. Hình 4.3 Phân bố người dùng đánh giá các mục [4] Hình 4.4: Một phần dữ liệu tập kiểm thử Hình 4.5: Một phần dữ liệu huấn luyện Hình 4.6: Một phần dữ liệu sau khi rút gọn phủ Hình 4.7: Biểu đồ rút gọn phủ chi tiết.

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

Ngày nay, sự phát triển nhanh chĩng về kinh tế, cơng nghệ và các phương tiện xã hội trở nên phổ biến như: Youtube, Facebook, Amazone, … và nhiều dịch vụ web khác dẫn tới lượng thơng tin người dùng cung cấp ngày càng một lớn lên gĩp phần làm giàu nguồn tài nguyên cho khai phá dữ liệu. Lượng thơng tin cung cấp đĩ cũng là một nguyên liệu cho hệ thống tư vấn. Hệ thống tư vấn chính là hệ thống cĩ khả năng gợi ý tới những đối tượng với sự cá nhân hĩa cao. Hệ thống tư vấn gĩp phần nâng cao chất lượng phục vụ khách hàng cũng như đem lại giá trị thương mại và tiềm năng lớn vì vậy nĩ ngày càng cĩ ý nghĩa trong những năm gần đây.

Hệ thống tư vấn sử dụng dữ liệu thu thập được từ người dùng tiến hành lọc cộng tác, luật kết hợp, … từ đĩ đưa ra dự đốn và gợi ý cho người dùng ở những mục (mục ở đây cĩ thể là dịch vụ, video, hay bài hát). Nghiên cứu cải tiến hệ thống tư vấn giúp đưa ra chính xác và hiệu quả hơn trong việc đưa ra gợi ý cho người dùng.

Hệ tư vấn cũng đứng trước nhiều thách thức khi cĩ rất nhiều bài tốn quan trọng đặt ra để cải thiện hiệu suất của nĩ. Như một vấn đề khi dữ liệu thơng tin người dùng ngày càng được mở rộng thì một hệ quả dẫn tới việc ma trận đánh giá của người dùng cũng theo đĩ ngày càng lớn dần. Vì vậy, bài tốn rút gọn dàn điều kiện làm giảm độ phức tạp tính tốn và bài tốn thích nghi dàn quyết định tập danh sách tập mục cần tư vấn cho người dùng được đặt ra. Vậy phải làm thế nào để giải quyết được vấn đề nêu ra?

Ngồi ra, việc dữ liệu thu thập và được lưu trữ với lượng rất lớn tuy nhiên thơng tin lại nghèo nàn như hiện tượng “ngập trong dữ liệu nhưng thiếu thơng tin”. Do đĩ, vấn đề đặt ra là làm thế nào để các tổ chức, cá nhân cĩ thể thu được các tri thức từ những thơng tin được lưu trữ. Để giải quyết vấn đề này ta cần phải phân lớp cho dữ liệu đĩ. Trong các thuật tốn khai phá dữ liệu điển hình, cĩ một số thuật tốn liên quan tới thuật tốn phân lớp đĩ là: Thuật tốn C4.5, thuật tốn k-láng giềng gần nhất, thuật tốn Bayes “ngây thơ” (Nạve Bayes) … Thực tế, việc phân lớp các dữ liệu từ kho dữ liệu khổng lồ đĩ, tức là gán cho nĩ một nhãn và đặt nĩ vào một lớp cụ thể nào đĩ. Trong nghiên cứu của khĩa luận đề xuất một thuật tốn “học” trong phân lớp đa nhãn để gắn nhãn cho dữ liệu.

Cĩ nhiều phương pháp khác nhau đã được đưa ra để giải quyết các vấn đề trên và khĩa luận tập trung vào việc áp dụng bảng quyết định dàn phủ vào lọc cộng tác trong

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

Khóa luận được trình bày theo các chương như sau:

<b>Chương 1: Giới thiệu chung về bảng quyết định dàn phủ, lọc cộng tác và phân </b>

lớp đa nhãn: Giới thiệu tổng thể về hệ thống tư vấn, các lý thuyết về bảng quyết định dàn phủ và phát biểu về bài tốn cho khóa luận.

<b>Chương 2: Áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa </b>

nhãn: Trình bày về lý thuyết rút gọn trong bảng quyết định dàn phủ, đề xuất phương pháp, thuật toán giải quyết các vấn đề được nêu ra.

<b>Chương 3: Mơ hình giải quyết bài tốn: Trình bày chi tiết các bước trong bài </b>

tốn khóa luận áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa nhãn.

<b>Chương 4: Thực nghiệm và đánh giá kết quả: Trình bày về kịch bản thực </b>

nghiệm của bài tốn khóa luận được mơ tả ở chương 3 và thực hiện thực nghiệm, đưa ra những đánh giá về bài tốn khóa luận.

đề tồn tại và định hướng phát triển tương lai.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>Chương 1: Giới thiệu chung về bảng quyết định dàn phủ, lọc cộng tác và phân lớp đa nhãn</b>

<b>1.1.Giới thiệu về hệ thống tư vấn</b>

Định nghĩa [2]:

Hệ thống tư vấn (recommendation system) là các công cụ phần mềm và kỹ thuật cung cấp các tư vấn về các mục có khả năng cao là hữu ích nhất đối với một người dùng đích.

Hệ thống tư vấn có mặt ở khắp mọi nơi và đóng vai trị quan trọng trong mọi lĩnh vực trong nền kinh tế hiện đại: Chúng tư vấn cho người dùng (cá nhân hay tổ chức) về mọi đối tượng trong xã hội mà người dùng quan tâm. Sau đây được gọi chung là “mục tư vấn” hay ngắn gọn là “mục” (item), ví dụ như: sản phẩm (hàng hóa, dịch vụ), bài báo, bản nhạc, phim ảnh, con người, …vv… “Mục(Item)” là thuật ngữ chung biểu thị những gì hệ thống đề xuất cho người dùng. RS thường tập trung vào một loại mặt hàng cụ thể (ví dụ: phim hoặc tin tức).

Hệ thống Trang web Sản phẩm đích

Amazon Các sản phẩm kinh doanh Netflix Phim, chương trình

truyền hình Facebook Bạn bè, quảng cáo Youtube Video, kênh Spotify Nghe nhạc Google News Tin tức

Bảng 1.1: Một số hệ thống có chứa thành phần tư vấn [2]

Hệ thống tư vấn hướng tới người dùng. Vì các đề xuất thường được cá nhân hóa, những người dùng khác nhau hoặc nhóm người dùng nhận được các đề xuất đa dạng hơn.

Hệ tư vấn thường được chia thành ba pha chính:

● Thu thập thơng tin: Xây dựng đầu vào cho hệ thống. Một hệ tư vấn không hệ hoạt động hiệu quả nếu đầu vào không được xây dựng tốt.

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

● Huấn luyện mơ hình: Áp dụng những thuật tốn để khai thác những đặc trưng của người dùng từ những thông tin thu được từ pha trước.

● Dự đoán và gợi ý: Dự đoán và tư vấn những mục mà người dùng có thể thích. Ba loại hệ thống tư vấn chính là[2]:

● Hệ tư vấn dựa trên nội dung. ● Hệ tư vấn dựa trên lọc cộng tác. ● Hệ tư vấn kết hợp (lai).

Hình 1.1: Khung phân loại kỹ thuật hệ thống tư vấn [2]

Trong phạm vi khóa luận này ta chủ yếu đề cập tới Hệ thống tư vấn dựa trên lọc cộng tác (dựa trên ghi nhớ).

<b>1.2.Lọc cộng tác trong hệ thống tư vấn</b>

Một trong những cách tiếp cận để thiết kế các hệ thống tư vấn được sử dụng rộng rãi là lọc cộng tác. Các phương pháp lọc cộng tác dựa trên việc thu thập và phân tích một lượng lớn thông tin về những hoạt động, hành vi hoặc sở thích của người dùng và dự đốn những gì người dùng sẽ thích dựa trên sự tương đồng của họ với người dùng khác. Một lợi thế quan trọng của phương pháp lọc cộng tác là nó khơng dựa vào nội dung phân tích máy và do đó nó có khả năng đề xuất chính xác các mục phức tạp như phim mà không yêu cầu “hiểu biết” về mục đó. Nhiều thuật tốn đã được sử dụng để tính sự tương đồng của người dùng hoặc sự tương đồng về mặt hàng trong các hệ thống tư vấn. Ví dụ, cách tiếp cận láng giềng gần nhất (k-nearest neighbor k-NN).

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

Lọc cộng tác dựa trên giả định rằng những người dùng đã đồng ý trong quá khứ sẽ đồng ý trong tương lai và rằng họ sẽ thích các loại mặt hàng tương tự như họ thích trong q khứ.

Khi xây dựng mơ hình từ hành vi của người dùng, sự phân biệt thường được thực hiện giữa các hình thức thu thập dữ liệu rõ ràng và tiềm ẩn.

Ví dụ về thu thập dữ liệu rõ ràng bao gồm:

● Yêu cầu người dùng xếp hạng một mục trên thang trượt. ● Yêu cầu người dùng tìm kiếm.

● Yêu cầu người dùng xếp hạng một bộ sưu tập các mục từ yêu thích đến ít yêu thích nhất.

● Trình bày hai mục cho một người dùng và yêu cầu anh ta / cô ấy chọn một trong số chúng tốt hơn.

● Yêu cầu người dùng tạo danh sách các mục mà anh / cơ ấy thích. Ví dụ về thu thập dữ liệu ngầm bao gồm:

● Quan sát các mục mà người dùng đã xem trong cửa hàng trực tuyến. ● Phân tích thời gian xem mục / người dùng.

● Lưu giữ một bản ghi các mục mà người dùng mua trực tuyến.

● Lấy danh sách các mục mà người dùng đã xem hoặc nghe trên máy tính của họ. ● Phân tích mạng xã hội của người dùng và khám phá những lượt thích và khơng thích.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

Hình 1.2: Mơ tả về hệ tư vấn dựa trên lọc cộng tác.

Hệ thống tư vấn so sánh dữ liệu đã thu thập với dữ liệu tương tự và khác nhau được thu thập từ những người khác và tính tốn danh sách các mục được đề xuất cho người dùng. Một trong những cách so sánh dữ liệu là đưa dữ liệu thu thập được vào bảng quyết định và dựa trên lọc cộng tác để đưa ra gợi ý cho người dùng.

<b>1.3.Bảng quyết định dàn phủ</b>

1.3.1. Lý thuyết tập thô phủ

Lý thuyết tập thô được nhà Logic học Balan Zdzislak Pawlak đề xuất vào vào năm 1982 được xem như là một cách tiếp cận mới để phát hiện tri thức [3, 5]. Nó cho ta một cách nhìn đặc biệt về mơ tả, phân tích và thao tác dữ liệu cũng như một cách tiếp cận đối với tính khơng chắc chắn và khơng chính xác của dữ liệu. Xấp xỉ trên và xấp xỉ dưới là hai khái niệm chính trong lý thuyết tập thô cổ điển, và một quan hệ tương đương (ví dụ như một phân vùng) là phép tốn cơ bản nhất của xấp xỉ trên và xấp xỉ dưới.

Lý thuyết tập thô phủ được mở rộng từ lý thuyết tập thô cổ điển bằng biệc sử dụng các miền phủ thay vì sử dụng một phân vùng. Sau đây là một số định nghĩa về tập thô phủ:

<b>Định nghĩa 1.1: Cho là một miền giá trị, là một tập các tập con trong . Nếu </b>

khơng có tập con nào trong là rỗng và tập hợp tất cả các tập con trong lại mà thu được tập thì ta gọi là một phủ của .

<b>Định nghĩa 1.2: Cho là một tập khác rỗng và là một phủ của . Khi đó, ta gọi </b>

mỗi cặp là một không gian phủ xấp xỉ. Ký hiệu < , >

1.3.2. Định nghĩa bảng quyết định dàn phủ

Cho là tập vũ trụ, giả sử tồn tại một quan hệ thứ tự một phần, ký hiệu “” trong tập của tất cả tập phủ của . Dưới đây giới thiệu một số định nghĩa về bảng quyết định dàn phủ [3, 5, 6].

<b>Định nghĩa 1.3 (Dàn phủ) được xác định như một dàn phủ của nếu và chỉ nếu </b>

là một tập của các phủ của () và với mọi thuộc về , tồn tại , cũng thuộc về sao cho , và.

<b>Định nghĩa 1.4 (Phủ đỉnh và phủ đáy của một dàn phủ) Vì tập vũ trụ là hữu hạn </b>

nên tồn tại , sao cho , thuộc về và () với mọi trong .

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

<b>Định nghĩa 1.5 Bảng quyết định phủ (CDT) là một bộ ba , với và là hai dàn của</b>

phủ của tập vũ trụ và được gọi tương ứng là dàn điều kiện và dàn quyết định. Dưới đây là định nghĩa phủ cảm sinh của và .

<b>Định nghĩa 1.6 (Phủ cảm sinh của ). Cho là bảng quyết định phủ, là một phủ </b>

đỉnh của . Với mọi , cho , khi đó, tập } cũng là một phủ của và nó được gọi là phủ cảm sinh của .

và phủ cảm sinh của cũng được xác định theo cách này.

<b>Định nghĩa 1.7 (Miền CL-dương của ). Cho là một bảng quyết định phủ. Miền </b>

-dương của được tính tốn bởi

Tính tốn độ tương tự là một bước quan trọng trong lọc cộng tác dựa trên ghi nhớ. Có nhiều phương pháp để xác định độ tương tự giữa hai người dùng.

1.4.1. Độ tương tự Cơ-sin

Độ tương tự Cơ-sin đo lường cosin của góc giữa hai vectơ được chiếu trong không gian đa chiều. Độ tương tự Cơ-sin có cơng thức như sau:

Trong đó: là hai vectơ trong ma trận đánh giá của 2 sản phẩm và .

1.4.2. Độ tương tự Euclidean

Độ tương tự Euclidean đo lường khoảng cách giữa hai điểm được chiếu trong không gian đa chiều. Độ tương tự Euclidean có cơng thức như sau:

Với là khoảng cách giữa 2 điểm và .

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

Bài toán phân lớp bản chất là việc xây dựng một hàm từ tập dữ liệu của miền ứng dụng vào một tập các nhãn cho trước. Đối tượng cần phân lớp trong tập dữ liệu miền ứng dụng được biểu diễn bởi tập đặc trưng. Như vậy, một đối tượng cần phân lớp có thể được biểu diễn bởi nhiều tập đặc trưng khác nhau. “Đơn thể hiện” (single instance) chỉ dẫn rằng chỉ một tập đặc trưng được sử dụng để biểu diễn dữ liệu cho miền ứng dụng, ngược lại, “đa thể hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn dữ liệu cho miền ứng dụng. Ngầm định bài toán phân lớp trong khóa luận là phân lớp dữ liệu “đơn thể hiện” nếu khơng có thêm chỉ dẫn tường minh.

Trong nhiều ứng dụng thực tế (Gán nhãn ảnh, phân lớp văn bản, dự đoán, phân lớp video, …), một đối tượng có thể đồng thời được gán vào nhiều lớp khác nhau. Đây là bài toán phân lớp đa nhãn. Bài toán này là một sự tiến hóa của phân lớp đơn nhãn do đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu đa nhãn, phương pháp tiếp cận đa nhãn và đánh giá học máy đa nhãn… Các vấn đề này sẽ được chỉ ra ở các phần tiếp theo.

Cho trước một tập dữ liệu {(), (),…, ()} trong đó, là một thể hiện và là một tập nhãn {} ( ), là số nhãn trong . Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn.

Trong phân lớp đa nhãn văn bản, các đối tượng phân lớp là tập các văn bản. Xây dựng một tập các đặc trưng (ví dụ: Tập tất cả các từ xuất hiện trong tập văn bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện). Mơ hình phân lớp đa nhãn đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau.

Trong phạm vi khóa luận này đề xuất một thuật toán phân lớp đa nhãn dựa trên bảng quyết định dàn phủ bao gồm thuật tốn học mơ hình và thuật tốn sử dụng mơ hình. Đây là một thuật tốn phân lớp đa nhãn theo tiếp cận thích nghi, khơng sử dụng các bộ phân lớp trung gian.

<b>1.6. Phát biểu bài tốn khóa luậnBài tốn lọc cộng tác:</b>

Bài tốn áp dụng bảng quyết định dàn phủ vào hệ thống tư vấn lọc cộng tác được phát biểu như sau:

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

+ Tập người dùng U, tập các phim và ma trận đánh giá người dùng – phim : [0 ÷ ], = , trong đó = > 0 nếu u đã đánh giá (rating) mức với bộ phim , ngược lại = 0.

+ Cho một người dùng hiện thời và = {} là tập các bộ phim được người dùng đánh giá (gọi là tập tất cả các phim chưa được người dùng đánh giá).

+ Số > 0 là số lượng nhiều nhất “láng giềng” của và > 0 là song lượng nhiều nhất các phim sẽ tư vấn cho người dùng .

+ Tập các phim mà hệ tư vấn dự đốn rằng người dùng hiện thời có thể quan tâm tới hoặc có tiềm năng.

Bài toán phân lớp đa nhãn dựa trên bảng quyết định dàn phủ được phát biểu như sau:

Cho tập dữ liệu học (đa nhãn) = {(), (),…, ()} với , ta xây dựng bảng quyết định dàn phủ = .

Bài toán học sẽ tiến hành xây dựng một mơ hình phân lớp đa nhãn , trong đó là tập nhãn ứng với . Trong bảng quyết định dàn phủ, tập nhãn của các đối tượng thuộc láng giềng gần của theo phủ cảm sinh từ dàn quyết định là các tập nhãn có tương quan với nhau cao trong ngữ cảnh của . Trong tập tất cả các nhãn đó, một nhãn xuất hiện vượt qua một ngưỡng tin cậy là có tiềm năng cao được gán cho đối tượng . Việc khai thác nhóm đối tượng gần theo phủ cảm sinh từ dàn quyết định cho phép khai thác một khía cạnh về mối quan hệ lẫn nhau giữa các nhãn trong tập nhãn.

Bài tốn sử dụng mơ hình dựa trên một ý tưởng đơn giản là tập nhãn cần gán cho một đối tượng dữ liệu chưa có nhãn chính là tập nhãn được tính tốn theo mơ hình đối với một ví dụ gần nhất với đối tượng với .

<b>Tóm tắt chương 1:</b>

Chương 1 đã trình bày tổng quát về hệ tư vấn, lọc cộng tác trong hệ thống tư vấn, một số lý thuyết liên quan, phân lớp đa nhãn cũng như phát biểu bài tốn khóa luận. Khóa luận sẽ tập trung giải quyết các vấn đề được nêu ở trên. Chương tiếp theo sẽ trình bày giải pháp và ý tưởng mơ hình cho bài tốn khóa luận.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

<b>Chương 2. Áp dụng bảng quyết định dàn phủ vào lọc cộng tác và phân lớp đa nhãn</b>

<b>2.1. Rút gọn bảng quyết định dàn phủ</b>

Z. Zhang và cộng sự [7], [8] đã khảo sát việc áp dụng rút gọn tập thô phủ vào bài toán lọc cộng tác người dùng trong hệ tư vấn với quan niệm tập người dùng hệ thống là tập vũ trụ , mỗi một mục (item) được tương ứng với một tập con trên tập vũ trụ , U U chính là tập người dùng quan tâm tới mục đó. Như vậy, với tập con các mục mà với X bất kỳ người dùng thuộc đều quan tâm ít nhất một mục thuộc thì nó được tương U X ứng với một phủ trên tập Z. Zhang và cộng sự sử dụng giải pháp rút gọn tập thơ phủU. vào việc đơn giản hóa việc tìm tập người dùng láng giềng với người dùng hiện thời [7] và giải quyết bài toán khởi đầu người dùng [8]. Mục con tiếp theo giới thiệu khái niệm rút gọn tập thô phủ.

2.1.1. Rút gọn tập thô phủ

Rút gọn tập thô phủ là một ý tưởng trong lý thuyết rút gọn phủ. Dưới đây là một số định nghĩa đối với rút gọn trong tập thô phủ [7, 8].

<b>Định nghĩa 2.1. Cho C là một phủ của miền , . Nếu là hợp của một vài tập </b>

trong – {}, thì được gọi là có thể được rút gọn trong , ngược lại, được gọi là không thể được rút gọn trong . Khi tất cả các phần tử có thể rút gọn được loại bỏ, tập phủ không thể rút gọn mới được gọi là rút gọn loại 1 của .

<b>Định nghĩa 2.2. Cho là một phủ của miền , . Nếu tồn tại một phần tử sao cho </b>

⊂ thì là một phần tử dư thừa trong phủ của . Khi bỏ đi hết các phần tử dư thừa trong , tập còn lại vẫn là phủ của , và tập phủ mới này không chứa phần tử dư thừa. Ta gọi đó là rút gọn loại 2 của .

<b>Định nghĩa 2.3. Cho C là một phủ của miền , . Nếu tồn tại , ,… sao cho = .. , </b>∈ và x và {x} không phải là một phần tử duy nhất của , ∀ ∈ ⊆ ∪{| C }, được ∈ ∈ gọi là phần tử có thể rút gọn chính xác (exact-reducible) của . Khi loại bỏ hết các phần tử exact-reducible trong . Tập phủ không thể rút gọn mới là rút gọn loại 3 của .

2.1.2. Định nghĩa rút gọn tập thô dàn phủ

Cho là một bảng quyết định phủ, với , tương ứng là dàn điều kiện, dàn quyết định. Dưới đây là một số định nghĩa về rút gọn đối với tập thô dàn phủ [3, 5, 6].

<b>Định nghĩa 2.4 (Dàn con trong bảng quyết định phủ). Cho là một dàn phủ. Một </b>

phủ trên được gọi là dàn con của nếu và chỉ nếu tập các phủ trong là một tập con của

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

các phủ trong ; và nếu một phủ trong thì tất cả các phủ trong thỏa mãn thì cũng trong .

Định nghĩa 2.4 về dàn con của một dàn phủ phù hợp với dàn tương ứng với một tập mục là dàn con của dàn tương ứng với mọi tập mục chứa nó trong khai phá luật kết hợp.

<b>Định nghĩa 2.5 (Rút gọn trong một bảng quyết định phủ) </b>

Cho là một bảng quyết định phủ. Nhiệm vụ rút gọn điều kiện trong là để tìm dàn con của sao cho .

Ý nghĩa của nhiệm vụ rút gọn điều kiện giống như nhiệm vụ rút gọn trong hệ thống quyết định thô phủ.

<b>Định nghĩa 2.6 (Sự thích nghi quyết định trong bảng quyết định phủ) </b>

Cho là một bảng quyết định phủ, là một ngưỡng. Nhiệm vụ thích nghi quyết định trong là để tìm dàn con của sao cho độ tin cậy của không nhỏ hơn ngưỡng , tức là, với ; phủ cảm sinh là lớn nhất theo quan hệ “≤” .

Trong phần này, khóa luận giới thiệu hai định nghĩa cần thiết và quan trọng cho rút gọn dàn phủ điều kiện và tìm thích nghi của dàn phủ quyết định [3, 5, 6].

<b>Định nghĩa 2.7 (Rút gọn điều kiện) Cho là bảng quyết định dựa vào dàn phủ. </b>

Một dàn con S của được gọi là một rút gọn của nếu mức độ phụ thuộc của là bằng với mức độ phụ thuộc của. Một rút gọn của được gọi là một rút gọn của nếu và chỉ nếu:

(i) là một rút gọn của ,

(ii) Nếu tồn tại một rút gọn của và là dàn con của thì = .

<b>Định nghĩa 2.8 (Thích nghi quyết định) Cho một bảng quyết định dàn phủ, cho </b>

là một ngưỡng, với mức ngưỡng lớn hơn hoặc bằng độ phụ thuộc của CDT, tức là, . Nhiệm vụ của thích nghi quyết định trong là để tìm tất cả các dàn con của sao cho:

(i) Mức độ phụ thuộc của không kém hơn ;

ii) Mức độ phụ thuộc của không kém hơn , với PSDL là dàn cha của SDL.

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

2.1.3. Hai thuật toán

Theo nội dung của định nghĩa 2.7 và 2.8, khóa luận giới thiệu hai thuật toán thực hiện hai nhiệm vụ [6]:

- Thuật tốn tìm các tập mục con đã được người dùng đánh giá thay thế cho tập tất cả các mục đã được người dùng đánh giá.

- Thuật tốn tìm các tập mục con chưa được người dùng đánh giá để tư vấn cho người dùng với độ tin cậy không nhỏ hơn một ngưỡng cho trước.

2.1.3.1. Thuật toán rút gọn dàn điều kiện

Thuật toán <b>Reduct_Finding</b> dưới đây thực hiện việc rút gọn dàn điều kiện trong bảng quyết định dựa trên dàn phủ.

Đầu vào: Bảng quyết định dựa dàn phủ , hằng số chung là độ phụ thuộc của DL; Đầu ra: GCRL chứa các dàn rút gọn của CL. //Khởi đầu thuật toán GCRL={CL}.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

<b>Thuật toán Reduct_Finding (, )</b>

// là dàn điều kiện hiện thời

// là cha của ( chính là cha của chính nó) 1: IF = THEN

2: FOREACH dàn con của

3: Reduct_Finding (, )//Chạy trên tất cả dàn con

12: FOREACH dàn con của

//chạy tất cả dàn con của 13: Reduct_Finding (, )

14: END FOR 15: END IF 16: END IF

Thuật toán rút gọn trên được thực hiện: Thuật toán bắt đầu với lời gọi Reduct_Finding(CL,CL), trong trường hợp này, thuật toán thực hiện lần lượt đối với tất các các dàn con của dàn điều kiện CL. Với mỗi lần gọi (CCL, PCCL) sau đó, thuật tốn trước hết tính độ phụ thuộc của bảng quyết định hiện thời , nếu CLL là dàn điều kiện rút gọn được thì bổ sung nó vào GCRL, loại bỏ dàn cha nếu có trong GCRL, tiếp tục tìm kiếm đối với mọi con SCCL của CCL. Khi kết thúc thuật toán, GCRL chứa tất cả các dàn con rút gọn của dàn điều kiện CL; khi không tìm được một dàn con đáp ứng thì GCRL chỉ chứa CL như khi bắt đầu thuật toán.

2.1.3.2. Thuật toán tìm thích nghi của dàn phủ quyết định của bảng quyết định dàn phủ Thuật toán <b>Fitting_Finding</b> dưới đây thực hiện việc rút gọn dàn quyết định trong bảng quyết định dựa trên dàn phủ. Trong hệ thống tư vấn dựa trên lọc cộng tác, việc xác định một tập con thuộc tính quyết định (các mục) đù phù hợp để cung cấp cho người dùng hiện thời là một phương án ứng dụng của thuật toán.

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

Đầu vào: Bảng quyết định dựa dàn phủ , Ngưỡng Độ phụ thuộc của

Đầu ra: GCFL chứa các dàn thích nghi của DL, ban đầu GCFL là dàn rỗng. //Khởi đầu thuật toán CDL={DL}.

<b>Thuật toán Fitting_Finding (CDL) //</b>CDL là dàn phủ quyết định hiện thời

Hoạt động của thuật tốn Fitting_Finding được giải thích như sau. Thuật toán được khởi động bằng lời gọi Fitting_Finding (DL), trong trường hợp này, thuật toán thực hiện lần lượt đối với tất các các dàn con của dàn quyết định DL. Với mỗi lần gọi (CDL) sau đó, thuật tốn trước hết tính độ phụ thuộc của bảng quyết định hiện thời , nếu CDL đáp ứng điều kiện cần tìm (ρCDL ≥ ) thì bổ sung CDL vào GCFL, trong trường hợp ngược lại, cần tiếp tục tìm kiếm đối với mọi con SCDL của CDL. Khi kết thúc thuật toán, GCFL chứa tất cả (có thể rỗng) các dàn con thích hợp của dàn quyết định DL.

<b>2.2. Áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác</b>

Phương pháp lọc cộng tác vẫn là một trong những mơ hình được sử dụng rất nhiều trong hệ tư vấn vì tính dễ cài đặt của nó. Phần này sẽ trình bày việc áp dụng rút gọn bảng quyết định dàn phủ vào lọc cộng tác hướng người dùng.

2.2.1. Rút gọn điều kiện lọc cộng tác người dùng

Trong lọc cộng tác, dàn điều kiện đóng vai trị giúp hệ thống có thể tìm được những người dùng cùng đánh giá trên các item này và đưa ra gợi ý dựa theo các láng giềng gần tìm được. Trong RS thực tế, chúng phải xử lý dữ liệu lớn bao gồm số lượng lớn người dùng và mục.

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

Cho bảng quyết định dàn phủ từ tập dữ liệu đầu vào. Trong đó, dàn điều kiện (dàn quyết định ) tương ứng là tập () mà mỗi phim tương ứng với tập người dùng đã đánh giá (chưa đánh giá) .

Từ định nghĩa của rút gọn tập thơ, chúng ta có thể thấy rằng các dàn con trong dàn quyết định ban đầu có là dàn điều kiện thích hợp với dàn quyết định mà người dùng có thể quan tâm. Việc rút gọn phủ giúp hệ thống gợi ý tăng độ chính xác trong việc tìm kiếm số lượng láng giềng gần để đưa ra tư vấn.

Nhiệm vụ rút gọn dàn điều kiện sẽ thực hiện gọi thuật toán Recuct_finding() và thực hiện gọi tất cả các dàn con của nếu độ phụ thuộc của dàn con với phù hợp thì sẽ được thêm vào dàn điều kiện.

2.2.2. Rút gọn thích nghi danh sách mục tư vấn

Quyết định danh sách tư vấn cho người dùng đích là một bài toán quan trọng trong hệ tư vấn. Giải pháp tốt cho bài tốn thích nghi quyết định trong bảng quyết định phủ có tiềm năng ứng dụng vào bài tốn quyết định tư vấn nói trên. Vì vậy một trong những nhiệm vụ của khóa luận là thực hiện rút gọn dàn quyết định đối với mỗi người dùng.

Trong thuật toán Fitting_finding(), sẽ thực hiện gọi tất cả các dàn con trong dàn quyết định. Nếu như độ phụ thuộc của dàn con phù hợp thì dàn con đó sẽ là dàn rút gọn cho ban đầu. Trong dữ liệu thực tế, việc có rất nhiều mục trong khi số lượng đánh giá trên các mục của người dùng có thể không nhiều dẫn đến các mục chưa được người dùng xem xét sẽ lớn. Thuật tốn tìm thích nghi dàn quyết định giúp giảm số lượng các mục chưa đánh giá không phù hợp với người dùng, giúp tăng hiệu quả tư vấn chính xác tới người dùng đích.

<b>2.3. Áp dụng bảng quyết định dàn phủ vào phân lớp đa nhãn</b>

2.3.1. Mơ hình bảng quyết định cho phân lớp đa nhãn

Mơ hình áp dụng bảng quyết định cho phân lớp đa nhãn được phát biểu như sau:

Cho là tập vũ trụ chứa tất cả các đối tượng, là tập các đặc trưng, là tập các nhãn. Khi đó, mỗi đặc trưng tương ứng với một phân hoạch (phủ suy biến) trên , mỗi giá trị của tương ứng với một tập con đối tượng nhận giá trị theo đặc trưng . Mỗi nhãn tương ứng với một tập con = { là tập các nhãn của }. Nhiệm vụ của mơ hình là từ các tập đặc trưng thực hiện phân lớp theo tập các nhãn dựa vào bảng quyết định.

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

2.3.2. Thuật toán phân lớp đa nhãn

2.3.2.1. Thuật toán học mơ hình phân lớp

Cho tập dữ liệu học (đa nhãn) , với , …, , sử dụng cách thức như Ví dụ 2.3, xây dựng bảng quyết định dàn phủ = <>. Nhiệm vụ học là xây dựng một mơ hình phân lớp đa nhãn = , trong đó là tập nhãn tương ứng với Thuật toán học dựa trên ý tưởng về sử dụng tương quan nhãn trong phân lớp đa nhãn song tính toán trực tiếp tập nhãn tiềm năng cho một ví dụ học. Trong bảng quyết định dàn phủ, tập nhãn của các đối tượng thuộc láng giềng gần của theo phủ cảm sinh từ dàn quyết định là các tập nhãn có tương quan với nhau cao trong ngữ cảnh của. Trong tập tất cả các nhãn đó, một nhãn xuất hiện vượt qua một ngưỡng tin cậy là có tiềm năng cao được gán cho đối tượng.

Thuật tốn học <b>MLM_learn</b> được mơ tả như sau đây. Thuật tốn <b>MLM_learn</b>:

Tập dữ liệu học , trong đó là tập nhãn của đối tượng và , …, .

Giá trị α: 0 ≤ α ≤ 1 xác định ngưỡng tin cậy để một nhãn thuộc vào tập nhãn của một đối tượng .

Mơ hình phân lớp đa nhãn .

hiệu () = { | } là tập tất cả các đối tượng có chứa nhãn .∈ ∈

<b>2. Xây dựng phủ cảm sinh dàn điều kiện () và phủ cảm sinh dàn quyết định ().</b>

</div>