Tải bản đầy đủ (.pdf) (71 trang)

mô hình chủ đề hướng yêu cầu người sử dụng và áp dụng vào phân lớp đa nhãn tiếng việt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.56 MB, 71 trang )

<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">

<b>PHÂN LỚP ĐA NHÃN TIẾNG VIỆT </b>

<b>KHĨA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thông tin </b>

<b><small>HÀ NỘI - 2019 </small></b>

</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">

<b>PHÂN LỚP ĐA NHÃN TIẾNG VIỆT </b>

<b>KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Hệ thống thông tin </b>

<b>Cán bộ hướng dẫn: PGS. TS Hà Quang Thụy </b>

<b><small>HÀ NỘI - 2019 </small></b>

</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">

hiện dưới sự hướng dẫn của PGS. TS Hà Quang Thụy.

Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong khóa luận. Trong khóa luận, khơng có việc sao chép tài liệu, cơng trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo.

<i>Hà Nội, ngày tháng năm 2019 </i>

Người cam đoan

Nguyễn Thị Thu Trang

</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">

<b>LỜI CẢM ƠN </b>

Trước tiên, em xin bày tỏ lòng biết ơn chân thành và sâu sắc nhất tới Thầy giáo, PGS. TS Hà Quang Thụy đã tận tình chỉ bảo, hướng dẫn, động viên, giúp đỡ em trong suốt quá trình thực hiện đề tài.

Em xin gửi lời cảm ơn sâu sắc tới q Thầy Cơ trong Khoa Cơng nghệ thơng tin đã truyền đạt kiến thức quí báu cho em trong những năm học vừa qua.

Em cũng xin gửi lời cảm ơn tới các anh chị, các bạn sinh viên tại phòng thí nghiệm KT-Lab đã giúp em rất nhiều trong việc hỗ trợ kiến thức chun mơn để hồn thành tốt khố luận.

Con xin nói lên lịng biết ơn vơ hạn đối với Cha Mẹ luôn là nguồn chăm sóc, động viên, khích lệ con trên mỗi bước đường học vấn của con.

Cuối cùng, xin chân thành cảm ơn các Anh Chị và bạn bè, đặc biệt là các thành viên lớp K60T đã ủng hộ và giúp đỡ tôi trong suốt thời gian tôi học tập trên giảng đường đại học và thực hiện đề tài.

<i><b>Hà Nội, ngày tháng năm 2019 </b></i>

Sinh viên

Nguyễn Thị Thu Trang

</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">

<b>TĨM TẮT </b>

<b><small>Tóm tắt: Một trong những nhiệm vụ bao qt của phân tích tài liệu là tìm hiểu về những chủ </small></b>

<small>đề được đề cập trong tài liệu và mơ hình chủ đề là một kỹ thuật rất phổ biến. Nhiều mơ hình chủ đề đã được đề xuất và sử dụng, tuy nhiên, các mô hình đó thường thực hiện tìm ra mọi chủ đề có thể. Trong nhiều trường hợp, người dùng thường quan tâm chi tiết hơn về các chủ đề liên quan tới một khía cạnh cụ thể nào đó. Mục đích chính của khóa luận này là nghiên cứu mơ hình chủ đề đích TTM của S. Wang và cộng sự (2016) vàsử dụng mơ hình chủ đề đích vào một mơ hình phân lớp đa nhãn khai phá quan điểm mức khía cạnh đối với các văn bản đánh giá tiếng Việt. </small>

<small>Mơ hình đề xuất bao gồm hai pha chính: (1) xử lý dữ liệu và tìm ra tập các chủ đề ẩn bằng mơ hình chủ đề đích và (2) phân lớp đa nhãn khai phá quan điểm tiếng Việt mức khía cạnh. Tại pha thứ nhất, dữ liệu được hiệu chỉnh sao cho phù hợp với u cầu đầu vào của mơ hình TTM để tìm ra các chủ đề ẩn về khía cạnh người dùng quan tâm trong các đánh giá Tiếng Việt. Từ đó sinh ra được tập các chủ đề về khía cạnh mà người đùng quan tâm. Tại pha thứ hai, sau khi tìm được các chủ đề liên quan đến khía cạnh mà người dùng quan tâm và tập các từ trong mỗi chủ đề từ pha 1. Thực hiện biểu diễn dữ liệu theo vector và đưa vào mơ hình phân lớp. </small>

<small>Khóa luận đã tiến hành thực nghiệm trên miền dữ liệu tiếng Việt đánh giá khách sạn. Dữ liệu thực nghiệm sẽ được đưa qua các mơ hình phân lớp khác nhau với tập chủ đề ẩn 6, 10, 15 để cho thấy ảnh hưởng của tập chủ đề ẩn lên kết quả của quá trình phân lớp. </small>

<i><b><small>Từ khóa: mơ hình chủ đề đích, khía cạnh quan tâm, khai phá quan điểm mức khía cạnh, phân </small></b></i>

<i><small>lớp đa nhãn, phân tích khía cạnh đích, phân tích tập trung, khía cạnh đích,. </small></i>

</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">

<b>CHƯƠNG 1. BIỂU DIỄN DỮ LIỆU VĂN BẢN, KHAI PHÁ QUAN ĐIỂM VÀ SƠ BỘ BÀI TỐN KHĨA LUẬN ... 2</b>

1.1. Biểu diễn dữ liệu văn bản ... 2

1.1.1. Một số phương pháp đánh trọng số ... 3

<i>1.1.1.1. Phương pháp boolean ... 3 </i>

<i>1.1.1.2. Phương pháp dựa trên tần số ... 3 </i>

1.1.2. Một số mơ hình biểu diễn văn bản phổ biến ... 5

<i>1.1.2.1. Mơ hình boolean ... 5 </i>

<i>1.1.2.2. Mơ hình xác suất ... 5 </i>

<i>1.1.2.3. Mơ hình khơng gian vecter ... 5 </i>

1.2. Khái quát về khai phá quan điểm và phân lớp dữ liệu ... 6

1.2.1. Khái quát về khai phá quan điểm ... 6

1.2.2. Phân lớp dữ liệu ... 7

<i>1.2.2.1. Quá trình phân lớp dữ liệu ... 9 </i>

<i>1.2.2.2. Một số thuật tốn dùng trong mơ hình phân lớp phổ biến ... 10 </i>

1.3. Khai phá quan điểm ... 21

1.3.1. Khái niệm khai phá quan điểm ... 21

1.3.2. Các bài tốn khai phá quan điểm chính ... 24

1.4. Sơ bộ về bài tốn trong khóa luận ... 26

1.4.1. Về bài toán chung ... 26

1.4.2. Bài toán khóa luận ... 26

</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">

<b>CHƯƠNG 2. MỘT SỐ CÁCH TIẾP CẬN GIẢI QUYẾT BÀI TOÁN ... 28</b>

2.1. Cách 1: Sử dụng mơ hình phân tích chủ đề LDA trên toàn bộ tập dữ liệu ... 28

2.2. Cách 2 : Xử lý kho dữ liệu theo mong muốn rồi mới áp dụng mơ hình LDA ... 28

2.2.1. Tìm ra tho dữ liệu C1 từ dữ liệu ban đầu C ... 29

2.3. So sánh hai cách tiếp cận trên. ... 30

2.4. Các kỹ thuật để giải quyết bài tốn ... 30

2.4.1. Mơ hình chủ đề đích ... 30

2.4.2. Giải thích các thành phần ... 31

2.4.3. Mơ tả thuật toán ... 32

2.4.4. Các phân phối được sử dụng trong thuật toán ... 34

<i>2.4.4.1 Phân phối Beta... 34 </i>

<i>2.4.4.2. Phân phối Dirichlet ... 35 </i>

<i>2.4.4.3. Phân phối Bernoulli ... 35 </i>

<i>2.4.4.4. Phân phối đa thức ... 36 </i>

2.4.5. Gibbs Sampling cho mơ hình suy luận ... 36

Tóm tắt chương ... 37

<b>CHƯƠNG 3. MƠ HÌNH GIẢI QUYẾT BÀI TỐN TRONG KHÓA LUẬN ... 38</b>

3.1. Giới thiệu ... 38

3.2. Quy trình giải quyết bài tốn ... 39

3.2.1. Pha 1 – Áp dụng mơ hình chủ đề đích và huấn luyện mơ hình... 40

<i>3.2.1.1. Q trình tiền xử lý dữ liệu ... 40 </i>

</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">

<b>CHƯƠNG 4. THỰC NGHIỆM VÀ KẾT QUẢ ... 46</b>

4.1. Tập dữ liệu, định hướng thực nghiệm... 46

Các công việc trong tương lai ... 58

<b>TÀI LIỆU THAM KHẢO ... 59</b>

</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">

<b>DANH SÁCH THUẬT NGỮ </b>

Latent Dirichlet Allocation - Partial Data LDA-PD

</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">

<b>DANH SÁCH HÌNH ẢNH </b>

Hình 1.1 Ảnh minh họa học đa nhãn[19] ... 9

Hình 1.2 Ảnh minh họa học đa nhãn đa thể hiện[19] ... 9

Hình 1.3 Minh họa kết quả thuật tốn KNN vào phân lớp ... 11

Hình 1.4 Hình ảnh mơ tả cây quyết định ... 15

Hình 1.5. Hình mơ tả các đường phân cách giữa 2 lớp (mẫu dương và mẫu âm) ... 19

Hình 1.6 Hình ảnh biểu diễn khoảng cách của hai đường vector hỗ trợ ... 20

Hình 1.7 Hình ảnh ví dụ về một siêu phẳng trong khơng gian nhiều chiều. ... 21

Hình 2.1 Mơ hình TTM ... 31

Hình 2.2 Thuật tốn sinh trong mơ hình ... 33

Hình 3.1 Mơ hình tổng quan của bài tốn ... 38

Hình 3.2 Quy trình giải quyết bài tốn ... 39

Hình 3.3 Biểu diễn dữ liệu(Y) trong phân lớp ... 44

Hình 4.1 Hình ảnh mô tả tập dữ liệu khách sạn sau khi đã xử lý ... 51

Hình 4.2 Mơ tả tập dữ liệu đầu vào của mơ hình chủ đề đích TTM ... 51

Hình 4.3 Hình ảnh mơ tả dữ liệu đầu ra của mơ hình chủ đề đích TTM ... 52

</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">

<b>DANH SÁCH BẢNG </b>

Bảng 3.1 Ví dụ về kết quả của mơ hình TTM ... 42

Bảng 3.2 Ví dụ về dữ liệu đa nhãn ... 42

Bảng 4.1 Cấu hình hệ thống thi hành thực nghiệm ... 47

Bảng 4.2. Danh sách các phần mềm sử dụng trong thực nghiệm ... 47

Bảng 4.3. Danh sách một số từ dừng ... 49

Bảng 4.4. Dữ liệu đầu vào của TTM ... 49

Bảng 4.5 Tập dữ liệu thực nghiệm ... 50

Bảng 4.6 Tập dữ liệu huấn luyện ... 50

Bảng 4.7 Kết quả thực nghiệm sử dụng các bộ phân lớp Cây quyết định ... 53

Bảng 4.8 Kết quả thực nghiệm sử dụng các bộ phân lớp KNN ... 54

Bảng 4.9 Kết quả thực nghiệm sử dụng các bộ phân lớp Rừng ngẫu nhiên ... 55

Bảng 4.10 Kết quả thực nghiệm sử dụng các bộ phân lớp SVM ... 56

</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">

nay, việc đưa ra ý kiến riêng của mỗi cá nhân về một chủ đề, một đối tượng nào đó diễn ra rất sôi nổi. Các diễn đàn và phương tiện xã hội trở thành nguồn cung cấp thông tin dồi dào cho việc nghiên cứu về lĩnh vực khai phá quan điểm.

Tuy nhiên, dữ liệu lấy được từ các diễn đàn, phương tiện xã hội thuộc nhiều dạng khác nhau như âm thanh, hình ảnh, văn bản,... Việc tìm hiểu chi tiết hơn về vấn đề mà người dùng muốn trình bày, nhận định trong một bài viết hay một cuộc thảo luận hoặc trong các đánh giá về sản phẩm thu hút sự quan tâm của người dùng nói chung và các nhà nghiên cứu về khai phá dữ liệu nói riêng. Song, việc tìm ra những thông tin chi tiết và đáng giá chỉ liên quan đến vấn đề mà một người dùng cụ thể quan tâm trong một bộ dữ liệu lớn về các ý kiến đánh giá khác là điều khơng hề dễ ràng.

Mơ hình chủ đề hiện tại thường làm việc trên toàn bộ tập dữ liệu và đưa ra tất cả các chủ đề được đề cập đến miền ứng dụng. Các chủ đề tạo ra có thể là q thơ, thậm chí có những chủ đề mà người dùng không quan tâm. Do vậy, mơ hình chủ đề là một phương pháp biểu diễn tốt, nhưng trong một số tình huống, nó có thể khơng hiệu quả theo u cầu của người dùng. Mô hình chủ đề hướng người sử dụng (Targeted Topic Model: TTM) là một mơ hình chủ đề có thể đưa ra được chỉ các chủ đề cụ thể về khía cạnh đích (khía cạnh mà người dùng quan tâm). Khóa luận này sẽ trình bày về mơ hình chủ đề hướng yêu cầu người sử dụng (TTM) và áp dụng vào phân lớp đa nhãn văn bản tiếng Việt.

Khóa luận này được tổ chức thành bốn chương như sau:

 Chương 1: Biểu diễn dữ liệu văn bản, khai phá quan điểm và sơ bộ bài tốn khóa luận. Chương này sẽ trình bày các nội dung về biểu diễn dữ liệu văn bản, phân lớp dữ liệu, khai phá quan điểm và sơ bộ bài toán trong khóa luận.

 Chương 2: Mơ hình chủ đề khía cạnh đích và các nội dung liên quan. Chương này  Chương 3: Mơ hình giải quyết bài toán

 Chương 4: Thực nghiệm và kết quả

Phần kết luận: Tóm lược kết quả đạt được của khóa luận và định hướng phát triển trong tương lai.

</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">

<b>CHƯƠNG 1. BIỂU DIỄN DỮ LIỆU VĂN BẢN, KHAI PHÁ QUAN ĐIỂM VÀ SƠ BỘ BÀI TỐN KHĨA LUẬN </b>

<b>1.1. Biểu diễn dữ liệu văn bản </b>

Như chúng ta đã biết, dữ liệu văn bản là một dạng dữ liệu phổ biến được dùng để lưu trữ thông tin kể từ khi máy in ra đời cho đến nay. Khi lượng thông tin ngày càng lớn dần theo thời gian và theo đó là sự thay đổi của môi trường, việc lưu trữ dữ liệu trên giấy gặp nhiều khó khăn. Máy tính xuất hiện đã mở ra một cách thức mới cho việc lưu trữ và sử dụng dữ liệu. Vấn đề khó khăn nhất ở đây là làm thế nào để máy tính thể hiện đúng nội dung của dữ liệu. Công việc này được gọi là đánh chỉ số văn bản. Ban đầu với lượng dữ liệu nhỏ con người có thể sử dụng phương pháp thủ công để đánh chỉ số nhưng khi dữ liệu ngày càng lớn thì việc đánh chỉ số tự động là vô cùng cần thiết.

Có rất nhiều cách đánh chỉ số khác nhau tùy theo mục đích của người dùng. Song nó đều thỏa mãn ba mục đích sau [1]:

 Cho phép vị trí của từ đó liên quan tới chủ đề người dùng quan tâm.

 Gắn kết các từ và các chủ đề liên quan với nhau bằng cách phân biệt được các từ riêng biệt (cụ thể) đối với các lĩnh vực/miền

 Dự đoán được mức độ liên quan của từ đó tới thơng tin u cầu của người dùng, với lĩnh vực và chuyên ngành cụ thể.

Vậy các từ trong văn bản được phân bố như thế nàovà chúng ta có cần đánh chỉ số tất cả các từ trong văn bản hay không? hầu hết các phương pháp đánh chỉ số đều bắt đầu bằng lập luận rằng, tần số xuất hiện của các từ đóng vai trị quan trọng trong biểu diễn văn bản. Chúng ta có thể dễ dàng thấy rằng, trong văn bản tiếng Anh các giới từ như “a” “the” “and” có tần suất xuất hiện rất cao nhưng lại không thể hiện được các đặc trưng nội dung văn bản, đồng thời những từ chỉ xuất hiện một, hai lần thì mức độ ảnh hưởng của từ đó tới văn bản cũng khơng nhiều. Vậy có thể đi đến kết

</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">

luận rằng những từ có tần số xuất hiện trung bình là những từ quan trọng trong văn bản.

Trong những nghiên cứu của mình, Luhn đưa ra một phương pháp đánh trọng số cho các từ trong văn bản như sau [1]:

 Đầu vào là một tập n văn bản, tính tần số của mỗi từ trong một văn bản.  Tính tần số xuất hiện của mỗi từ trong toàn bộ n văn bản.

 Sắp xếp từ theo tần số giảm dần.

 Chọn một ngưỡng trên để loại bỏ các từ có tần số cao và một ngưỡng dưới để loại bỏ những từ không quan trọng.

 Các từ còn lại là những từ được dùng để đánh chỉ số văn bản được tập hợp trong tập từ vựng V.

<b>1.1.1. Một số phương pháp đánh trọng số </b>

Input: cho một từ ∈ V và một văn bản thuộc miền ứng dụng. Output: giá trị là trọng số của từ trong văn bản .

<i>1.1.1.1. Phương pháp boolean </i>

Giả sử, một tập gồm m văn bản D = { , , … , } tập từ vựng V gồm có n từ khóa V = { , , … , }, W = ( ) là ma trận trọng số.

Phương pháp boolean là phương pháp đánh trọng số đơn giản nhất với giá trị trọng số của từ khóa trong văn bản được xác định như sau:

= 1 với ∈ = 0 với ∉

<i>1.1.1.2. Phương pháp dựa trên tần số </i>

Phương pháp này xác định các số trong ma trận W=( ) dựa vào tần số xuất hiện của các từ khóa trong văn bản và tần số xuất hiện của văn bản trong tập D gồm m

</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">

<i>1.1.1.2.1. Phương pháp dựa trên tần số từ khóa (TF - Term Frequency) </i>

Phương pháp dựa trên tần số từ khóa (Term Frequency: TF) cho thấy rằng nếu một từ xuất hiện nhiều lần trong một văn bản thì thường quan trọng hơn những từ xuất hiện ít.

Giá trị của một từ khóa được tính dựa trên số lần xuất hiện của từ khóa đó trong văn bản. Gọi vf là số lần xuất hiện của từ khóa trong văn bản , khi đó có thể chọn cách tính theo một trong các công thức :

<i>1.1.1.2.2. Phương pháp dựa trên nghịch đảo tần số văn bản </i>

Phương pháp dựa trên nghịch đảo tần số văn bản (IDF – Inverse Document Frequency) được giải thích như sau, một từ xuất hiện nhiều trong văn bản D (từ phổ biến) sẽ không quan trọng bằng những từ xuất hiện ít hoặc xuất hiện trong một văn bản hoặc một tập nhỏ các văn bản trong D.

Gọi df là số lượng văn bản có chứa từ khóa trong tập m văn bản đang xét.

</div><span class="text_page_counter">Trang 16</span><div class="page_container" data-page="16">

<b>1.1.2. Một số mô hình biểu diễn văn bản phổ biến </b>

<i>1.1.2.1. Mơ hình boolean </i>

Giả sử, cho một tập gồm m văn bản D = { , , … , } tập từ vựng V gồm có n từ khóa V = { , , … , }, W = ( ) là ma trận trọng số, trong đó là trọng số của từ khóa trong văn bản .

Trọng số các từ trong văn bản sẽ là 0 hoặc 1. Mỗi văn bản sẽ được biểu diễn dưới dạng tập hợp như sau:

= { }, trong đó là từ có trọng số trong văn bản là 1.

<i>1.1.2.2. Mơ hình xác suất </i>

Văn bản trong mơ hình xác suất được coi như một quan sát trong tập Y, trong đó các từ trong văn bản được giả thiết là độc lập, không phụ thuộc vào vị trí và ngữ pháp. Văn bản sẽ bao gồm các từ chứa trong đó, vì vậy đây còn gọi là phương pháp biểu diễn túi-các-từ (hay túi từ).

Theo thuật ngữ tốn học, một mơ hình xác suất được coi như một cặp (Y, P). Trong đó Y là tập quan sát được, P là mơ hình xác suất trên Y. Sử dụng các phương pháp hồi quy hoặc Bayes để đưa ra kết luận về các phần tử của tập Y.

<i>1.1.2.3. Mơ hình khơng gian vecter </i>

Đây là mơ hình được sử dụng rộng rãi nhất trong biểu diễn văn bản. Mỗi văn bản được biểu diễn trong một khơng gian nhiều chiều, trong đó mỗi chiều tương ứng với một từ của văn bản. Độ quan trọng của từ được xác định bằng phương pháp đánh chỉ số trong văn bản và giá trị trọng số được chuẩn hóa trong đoạn [0,1].

Tổng quát, một văn bản d trong không gian vecter, ký hiệu là sẽ được biểu diễn trong không gian vecter gồm N chiều, trong đó N là số lượng từ có trong tập văn bản.

= [ <sub>,</sub> , <sub>,</sub> , … , <sub>,</sub> ]<small>T</small>

</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">

Độ giống nhau giữa hai văn bản được tính bằng cơng thức:

= <sup>( .</sup> <sup>)</sup> | || |

<b>1.2. Khái quát về khai phá quan điểm và phân lớp dữ liệu 1.2.1. Khái quát về khai phá quan điểm </b>

Khai phá quan điểm hay còn gọi là khai thác ý kiến là một lĩnh vực thực hiện tìm hiểu, nghiên cứu về tình cảm, cảm xúc, ý kiến, thái độ và đánh giá của con người trên những thực thể như sản phẩm, dịch vụ, tổ chức, sự kiện, vấn đề hay một cá nhân nào đó [16]. Thơng tin văn bản có thể được chia ra thành hai loại chính, đó là sự kiện

<i>và quan điểm. Thơng tin sự kiện thể hiện khách quan về những thực thể, sự kiện hay các thuộc tính của chúng. Thơng tin quan điểm thể hiện chủ quan của con người, miêu </i>

tả quan điểm, ý kiến hướng đến thực thể, sự kiện hay thuộc tính. Khai phá quan điểm đang là một lĩnh vực thu hút sự quan tâm đặc biệt không chỉ của các nhà khoa học trong giới học thuật mà còn của các nhà sản xuất, các công ty,… trên thế giới nói chung và ở Việt Nam nói riêng.

Khai phá quan điểm là một trong những bài toán quan trọng trong khai phá dữ liệu văn bản. Nó thực hiện các phương pháp trong xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và công nghệ mạng để trích xuất và xác định quan điểm trong nguồn dữ liệu là các đánh giá, nhận định của con người [17]. Khái niệm “quan điểm” là một khái niệm rất rộng, nó có thể được thể hiện ở nhiều hình thức và mức độ khác nhau.

Bo Pang and Lillian Lee [18] chỉ ra 4 miền ứng dụng chính của khai phá quan điểm.

 Ứng dụng cho các website đánh giá: việc khai thác ý kiến người dùng trong website đánh giá là việc vô cung quan trọng. Người dùng có thể đánh giá khơng chỉ ở một chủ đề giới hạn như sản phẩm mà có thể đánh giá cả về các vấn đề như chính trị. Các trang web có thể thu thập tóm tắt đánh giá của người dùng và đơi khi thực hiện sửa chữa một số lỗi trong xếp hạng người dùng như: người dùng đánh giá tích cực nhưng lại vơ tình chọn sếp hạng thấp. Một số trường

</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18">

hợp cho thấy xếp hạng của người dùng có thể sai lệch hoặc cần sửa chữa và các phân lớp tự động có thể update lại vấn đề này.

 Thành phần phụ trong các hệ thống tư vấn, hỏi đáp: Các hệ thơng phân tích quan điểm cũng có vai trò tiềm năng quan trọng là trao quyền công nghệ cho các hệ thống khác. Một ứng dụng rất hữu ích hiện nay là khi các hệ thống hiển thị trực tuyến các quảng cáo sẽ hiện lên và việc phát hiện các nội dung quảng cáo nhạy cảm không phù hợp sẽ được phát hiện và kịp thời xử lý.

 Các ứng dụng trong kinh doanh và tình báo chính phủ: trong doanh nghiệp việc khai thác quan điểm của khách hàng để đưa ra chiến lược kinh doanh là điều vô cùng quan trọng, các doanh nghiệp luôn quan tâm đến việc khách hàng của họ mua gì, tần suất ra sao, đánh giá tích cực hay tiêu cực, họ cịn có thể có nhu cầu nào khác liên quan đến sản phầm hiện dùng hay không; từ đó tìm được xu hướng bán hàng hoặc các dữ liệu liên quan. Tình báo chính phủ là một ứng dụng khác cũng được xem xét ví dụ như giám sát và tác động để tăng sự thù địch hoặc truyền thông tiêu cực[3].

 Ứng dụng trên các miền các nhau: Khai phá quan điểm áp dụng trên nhiều miền khác nhau ví dụ như trong chính trị có một số công việc cụ thể như tìm hiểu xem các cử tri đang nghĩ gì trong khi đó những cơng việc khác có mục tiêu dài hạn là tìm hiểu vị trí của các chính trị gia trong lịng công chúng, họ ủng hộ hay phản đối để tăng cường chất lượng thơng tin mà có có thể truy cập[4].

<b>1.2.2. Phân lớp dữ liệu </b>

Bài toán phân lớp là một trong những bài toán quan trọng trong lĩnh vực phân tích dữ liệu. Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu vào vào một hay nhiều lớp đã cho trước nhờ một mơ hình phân lớp. Như vậy, nhiệm vụ của bài toán phân lớp là cần tìm một mơ hình phân lớp để khi có dữ liệu mới thì có thể xác định được dữ liệu đó thuộc vào lớp nào.

</div><span class="text_page_counter">Trang 19</span><div class="page_container" data-page="19">

Các bài toán phân lớp cơ bản: phân lớp nhị phân (binary), phân lớp đa lớp (multiclass), phân lớp đa trị.

Bài toán phân lớp nhị phân là bài toán gắn nhãn dữ liệu cho đối tượng vào một trong hai lớp khác nhau dựa vào dữ liệu đó có hay khơng có các đặc trưng (feature) của bộ phân lớp.

Bài toán phân lớp đa lớp là quá trình phân lớp dữ liệu với số lượng lớp lớn hơn hai. Như vậy với từng dữ liệu chúng ta phải xem xét và phân lớp chúng vào những lớp khác nhau chứ không phải là hai lớp như bài toán phân lớp nhị phân. Và thực chất bài toán phân lớp nhị phân là một bài toán đặt biệt của phân lớp đa lớp khi số lớp bằng hai.

Ứng dụng của bài toán này được sử dụng rất nhiều và rộng rãi trong thực tế ví dụ như bài tốn nhận dạng khn mặt, nhận diện giọng nói, phát hiện email spam…

Phân lớp dữ liệu có thể có phân lớp đơn nhãn hoặc phân lớp đa nhãn. Phân lớp đa nhãn ngày càng được chú ý và ứng dụng trong nhiều lĩnh vực như phân lớp văn bản, phân lớp hình ảnh, phân loại web, dự đoán chức năng gen, phân lớp chức năng protein, phân lớp âm nhạc [19] … Trong phân lớp đơn nhãn mỗi đối tượng chỉ được gắn vào một nhãn, phân lớp đa nhãn là bài toán cải tiến của phân lớp đơn nhãn, ở đây mỗi tài liệu được gắn nhiều nhãn khác nhau (Hình 1.1). Khóa luận này thực hiện tìm hiểu và áp dụng phân lớp đa nhãn.

Theo Zhi-Hua Zhou và cộng sự [19], phân lớp đa nhãn được phát biểu như sau: Cho X ϵ ℝ biểu thị một không gian phần tử n chiều và Y = { , , … , } biểu thị không gian nhãn gồm q nhãn lớp. Nhiệm vụ của học đa nhãn là học hàm số f: X→ 2 từ dữ liệu huấn luyện đa nhãn D = {( , |1 ≤ ≤ ), trong đó với mỗi phần tử ( , ), ∈ X là một véc tơ đặc trưng n chiều = ( , , … , ) và ⊆ Y là tập các nhãn của . Với một phần tử (thể hiện) mới x ∈ X, hàm số f(x) trả về y là một tập các nhãn dự đốn cho x.

</div><span class="text_page_counter">Trang 20</span><div class="page_container" data-page="20">

<b>Hình 1.1 Ảnh minh họa học đa nhãn[19] </b>

<b>Mức cao nhất của bài toán phân lớp là phân lớp đa nhãn đa thể hiện (Hình 1.2) </b>

được M.L Zhang và Z.H Zhou lần đầu tiên hình thức hóa trong [19] và được khái quát hóa trong [20]. Khái quát bài toán phân lớp đa nhãn đa thể hiện như sau: Cho một tập nhãn lớp trước tiên, mỗi phần tử dữ liệu được phân lớp có thể cùng lúc thuộc nhiều lớp và mỗi phần tử dữ liệu có thể được biểu diễn qua nhiều thể hiện. Khung phân lớp đa nhãn - đa thể hiện quan tâm tới sự nhập nhằng đồng thời trong biểu diễn của không gian đầu vào và đầu ra; nó cung cấp một khung nhìn mang tính tự nhiên và gần với thực tế hơn.

<b>Hình 1.2 Ảnh minh họa học đa nhãn đa thể hiện[19] 1.2.2.1. Quá trình phân lớp dữ liệu </b>

Q trình giải bài tốn phân lớp dữ liệu bao gồm hai pha: xây dựng mơ hình (bộ) phân lớp và sử dụng bộ phân lớp đã được xây dựng.

<i><b>Pha 1. Xây dựng mơ hình </b></i>

Pha xây dựng mơ hình gồm hai bước chính là học (huấn luyện) mơ hình và đánh giá mơ hình. Tập dữ liệu mẫu (tập dữ liệu có nhãn ) được chia một cách ngẫu nhiên thành tập dữ liệu học và tập dữ liệu kiểm thử.

</div><span class="text_page_counter">Trang 21</span><div class="page_container" data-page="21">

 Bước1: Xây dựng mơ hình phân lớp

Sử dụng tập dữ liệu học để xây dựng mơ hình phân lớp. Mục đích của xây dựng mơ hình phân lớp là tìm ra hàm f(x) sao cho f(x) = y. Những thuật toán học giám sát thường được dùng cho quá trình training để xây dựng mô hình phân lớp là: KNN, SVM, Cây quyết định (Decision Trees), Phân lớp Bay-et (Navie Bayers), Rừng ngẫu nhiên (Random Forest).

 Bước 2: Đánh giá mơ hình phân lớp và chọn ra mơ hình tốt nhất

Bước thứ hai thực hiện đánh giá mơ hình bằng cách đánh giá mức độ lỗi khi áp dụng mơ hình đã xây dựng được tới dữ liệu kiểm thử. Tùy thuộc vào kết quả đánh giá tốt hay xấu để thực hiện thay đổi các tham số của thuật toán cho phù hợp. Cuối cùng, chọn ra mơ hình phân lớp tốt nhất cho bài tốn.

Mơ hình thực nghiệm trong Chương 3 mơ tả pha xây dựng mơ hình phân lớp.

<i><b>Pha 2. Sử dụng mơ hình phân lớp </b></i>

Mơ hình phân lớp xây dựng được có hiệu năng hoạt động tốt được áp dụng cho toàn bộ dữ liệu trong miền ứng dụng. Đây là các dữ liệu chưa có nhãn hiện có và sẽ có trong tương lai.

<b>1.2.2.2. Một số mơ hình phân lớp phổ biến </b>

- Mơ hình cây quyết định (Decision tree classification) - Phân lớp Bayesian (Bayesian classifier)

- Mơ hình K-láng giềng gần nhất (K-nearest neighbor classifier) - Mơ hình phân lớp SVM (Support Vector Machine)

- Mơ hình Random Forest

- Phương pháp tập thơ (Rough set Approach)

<i>1.2.2.2.1. Thuật toán K láng giềng gần nhất - KNN </i>

</div><span class="text_page_counter">Trang 22</span><div class="page_container" data-page="22">

<i>Ý tưởng chính của thuật toán này là sử dụng kỹ thuật k láng giềng gần nhất để </i>

xác định các láng giềng gần nhất của dữ liệu cần gán nhãn, sau đó sử dụng luật cực đại hậu nghiệm trên các thông tin liên quan đến nhãn từ các láng giềng để đưa ra tập nhãn

<i>dự đốn. Trong đó, k là số nguyên dương và được xác định trước. </i>

Thuật tốn được mơ tả như sau:

Bước 1: Xác định tham số k (số láng giềng gần nhất)

Bước 2: Tính khoảng cách giữa đối tượng cần phân lớp với tất cả các đối tượng khác trong tập dữ liệu training

Bước 3: Sắp xếp khoảng cách thăng dần và xác định k láng giêng gần nhất với điểm phân lớp

Bước 4: Lấy tất cả các lớp của k láng giềng gần nhất đã xác định

Bước 5: Dựa vào phân lớp của k láng giềng gần nhất dự đoán lớp cho điểm phân lớp

Để hiểu rõ hơn ta nhìn vào hình minh họa sau:

<b>Hình 1.2 Minh họa kết quả thuật tốn KNN vào phân lớp </b>

<b>Trên Hình 1.3, các chấm tròn thể hiện cho dữ liệu training, màu vàng thể hiện tài liệu </b>

thuộc lớp A, màu tím thể hiện tài liệu thuộc lớp B.

</div><span class="text_page_counter">Trang 23</span><div class="page_container" data-page="23">

nhất của điểm sao.

Với k = 3 xác định được 3 điểm gần nhất trong đó có 2 điểm thuộc lớp B 1 điểm thuộc lớp A, vậy đối tượng sẽ được dự đoán là mang nhãn lớp B

Với k = 6 xác định được 6 điểm gần nhất trong đó có 4 điểm thuộc lớp A và 2 điểm thuộc lớp B, vậy đối tượng sẽ được dự đoán là mang nhãn lớp A

<i>1.2.2.2.2. Thuật toán cây quyết định </i>

<b>Khái niệm cây quyết định: </b>

 Gốc: tên thuộc tính khơng có cung vào và không/một cung ra

 Nút trong: tên thuộc tính; có chính xác một cung vào và một số cung ra (gắn với điều kiện kiểm tra giá trị thuộc tính của nút)

 Lá hoặc nút kết thúc: giá trị lớp; có chính xác một cung vào và khơng có cung ra

<b>Thuật toán phân lớp cây quyết định (Decision Tree: ML-DT) là thuật toán phổ </b>

biến được sử dụng trong cả phân lớp và hồi quy. Cây quyết định là cây mà mỗi nút thể hiện một đặc trưng mỗi nhãn thể hiện một quy luật và mỗi lá biểu diễn một kết quả, kết quả có thể là giá trị chụ thể có thể là một nhánh tiếp tục. Có một vài thuật tốn để tạo ra cây quyết định như CART(Classification and Regression Trees) dùng Gini index để kiểm tra và ID3 (Interative Dichotomiser 3) dùng Entropy funtion và Information

<b>gain để kiểm tra. </b>

<b>Thuật toán cây quyết định ID3: </b>

</div><span class="text_page_counter">Trang 24</span><div class="page_container" data-page="24">

<b>Độ đo GINI: </b>

 Đo tính phức tạp của một tập ví dụ mẫu theo “lớp”  Cơng thức tính độ đo Gini cho lớp T:

Trong đó p(j|t) là tần suất liên quan của lớp j tại nút t

 Gini (t) lớn nhất = 1-1/n<small>c</small> (với n<small>c</small> là số các lớp tại nút t): khi các bản ghi tại t phân bố đều cho n<small>c</small> lớp; tính hỗn tạp cao nhất, khơng có phân biệt giữa các lớp  Gini (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy nhất.

<b>Chia tập theo độ đo GINI: </b>

 Dùng trong các thuật toán CART, SLIQ, SPRINT

</div><span class="text_page_counter">Trang 25</span><div class="page_container" data-page="25">

 Khi một nút t được phân hoạch thành k phần (k nút con của t) thì chất lượng của việc chia tính bằng

 n là số bản ghi của tập bản ghi tại nút t,  .n<small>i</small> là số lượng bản ghi tại nút con I (của nút t).

<b>Chọn thuộc tính IG: </b>

 Độ đo Information Gain:

 Thông tin thu được sau khi phân hoạch tập ví dụ  Dùng cho các thuật toán ID3, họ C4.5

 Entropy (t) lớn nhất = log (n<small>c</small>) (với n<small>c</small> là số các lớp tại nút t): khi các bản ghi tại t phân bố đều cho n<small>c</small> lớp; tính hỗn tạp cao nhất, khơng có phân biệt giữa các lớp

 Entropy (t) nhỏ nhất = 0 khi tất cả các bản ghi thuộc một lớp duy nhất.  Lấy loga cơ số 2 thay cho loga tự nhiên

 Tính tốn entropy (t) cho một nút tương tự như Gini (t)

<b>Hình 1.4 minh họa một ví dụ về cây quyết định. </b>

</div><span class="text_page_counter">Trang 26</span><div class="page_container" data-page="26">

<b>Hình 1.3 Hình ảnh mơ tả cây quyết định </b>

Chúng ta có một tập giá trị X và giá trị Y (yes hay no). Chúng ta cần tìm sự ánh xạ của X và Y. Chọn ID3 cho phân lớp nhị phân. Trước tiên cần chọn IG cao nhất trong ID3,

<i>để xác định chính xác IG cần sử dụng thước đo entropy. </i>

Tiếp theo ứng dụng IG cho việc tìm gốc:

<i><b>Bước 1: Tính tốn entropy cho tập dữ liệu. </b></i>

Bước 2: Trong toàn bộ đặc trưng:

<i>Tính tốn entropy của tất cả các giá trị. </i>

<i>Tính entropy trung bình cho thuộc tính đang thực hiện. </i>

Bước 3: Chọn đặc trưng có IG cao nhất

Bước 4: Lặp lại cho đến khi thu được cây như mong muốn

<i>1.2.2.2.3. Thuật toán máy vector hỗ trợ - SVM </i>

SVM là phương pháp học có giám sát liên quan đến phân loại và phân tích hồi quy. SVM giải quyết vấn đề overfitting (dữ liệu bị nhiễu và tách rời nhóm hoặc dữ liệu training nhỏ) rất tốt. Thuật toán SVM giải quyết vấn đề là tìm ra một siêu phẳng (đường thẳng, mặt phẳng, mặt cong,...) có thể thực hiện phân chia dữ liệu thành 2 nửa. Trong trường hợp nếu dữ liệu là khơng tuyến tính thì nó sẽ sử dụng một hàm nhân để

</div><span class="text_page_counter">Trang 27</span><div class="page_container" data-page="27">

Ý tưởng của thuật toán SVM là chuyển tập mẫu từ không gian biểu diễn Rn của chúng sang không gian Rd có số chiều lớn hơn. Trong khơng gian Rd, tìm một siêu phẳng tối ưu để phân hoạch tập mẫu này dựa trên phân lớp của chúng, đồng nghĩa với việc tìm ra miền phân bố của từng lớp trong không gian Rn để từ đó xác định được phân lớp của 1 mẫu cụ thể.

Đầu vào:

 Tập dữ liệu D = { }

 Tập các lớp , , ..., mỗi dữ liệu d thuộc một lớp

 Tập ví dụ = + + ... + với = {d thuộc : d thuộc }  Tập ví dụ đại diện cho tập D

 D gồm m dữ liệu thuộc không gian n chiều Đầu ra:

 Mơ hình phân lớp : ánh xạ từ D sang C Sử dụng mơ hình:

 d thuộc : xác định lớp của đối tượng d

Mục đích của thuật tốn SVM là tìm ra hàm phân lớp hiệu quả nhất để phân biệt thành phần của các lớp trong việc huấn luyện dữ liệu. Xét bài toán phân lớp văn

<i>bản thành các lớp mẫu dương và mẫu âm: Cho một tập huấn luyện các cặp (x<small>i</small>, y<small>i</small>), i = 1, …, l; trong đó x<small>i</small></i><i> R<small>n </small>là không gian vector đặc trưng n chiều; y<small>i</small></i><i> {-1, 1}, các mẫu dương là các mẫu x<small>i</small> thuộc lĩnh vực quan tâm và được gán nhãn y<small>i</small> = 1 và các mẫu âm là các mẫu x<small>i </small>không thuộc lĩnh vực quan tâm và được gán nhãn yi = −1. Bài toán đặt ra là khi đưa ra một vector đặc trưng x mới, cần dự đoán được y sao cho khả năng lỗi xảy </i>

ra là tối thiểu.

<b>Trường hợp khả tách tuyến tính[2]:</b>

Trong trường hợp này, bộ phân lớp SVM là mặt siêu phẳng phân tách các mẫu dương khỏi các mẫu âm với lề cực đại, được xác định bằng khoảng cách giữa các

</div><span class="text_page_counter">Trang 28</span><div class="page_container" data-page="28">

<i>phẳng trong không gian đối tượng có phương trình là w<small>T</small>x + b = 0, trong đó w là vector pháp tuyến, b là tham số mô hình phân lớp. Khi thay đổi w và b, hướng và </i>

khoảng cách từ gốc tọa độ đến mặt siêu phẳng thay đổi.

<i>Bộ phân lớp SVM được định nghĩa như sau: f(x) = sign(w<sup>T</sup>x + b)(1.1), trong </i>

đó:

<i>sign(z) = +1 nếu z ≥ 0 và sign(z) = −1 nếu z < 0. </i>

<i>Nếu f(x) = +1 thì x thuộc về lớp dương, và ngược lại, nếu f(x) = −1 thì x </i>

thuộc về lớp âm.

<i>Mục tiêu của phương pháp SVM là ước lượng w và b để cực đại hóa lề giữa các </i>

lớp dữ liệu dương và âm.Các giá trị khác nhau của lề cho ta các họ mặt siêu phẳng khác nhau, và lề càng lớn thì lỗi tổng qt hóa của bộ phân lớp càng giảm.

Tập dữ liệu huấn luyện là khả tách tuyến tính, ta có các ràng buộc sau:

<i>- Tham số b được xác định sử dụng điều kiện Karush–Kuhn–</i>

Tucker(KKT) như sau:

<i><small>i</small> [ y<small>i</small> (w<small>T</small> x<small>i</small> + b) – 1] = 0 </i>

<i>Các mẫu x<small>i</small></i> tương ứng với α<small>i</small>> 0 là những mẫu nằm gần mặt siêu phẳng quyết định nhất và được gọi là các vector hỗ trợ. Những vector hỗ trợ là những thành phần quan trọng nhất của tập dữ liệu huấn luyện. Bởi vì nếu chỉ có các vector hỗ trợ, ta vẫn có thể xây dựng mặt siêu phẳng lề tối ưu như khi có một tập dữ liệu huấn luyện đầy đủ.

</div><span class="text_page_counter">Trang 29</span><div class="page_container" data-page="29">

<b>Trường hợp khơng khả tách tuyến tính[2]:</b>

Với dữ liệu huấn luyện khơng khả tách tuyến tính thì ta có thể giải quyết theo hai cách.

<i>Cách thứ nhất sử dụng một mặt siêu phẳng lề mềm, nghĩa là cho phép một số </i>

mẫu huấn luyện nằm về phía sai của mặt siêu phẳng phân tách hoặc vẫn ở vị trí đúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phẳng hỗ trợ tương ứng. Trong trường hợp này, các hệ số Lagrange của bài toán quy hoạch tồn phương có thêm một cận trên C dương - tham số do người sử dụng lựa chọn. Tham số này tương ứng với giá trị phạt đối với các mẫu bị phân loại sai.

<i>Cách thứ hai sử dụng một ánh xạ phi tuyến Φ để ánh xạ các điểm dữ liệu đầu </i>

vào sang một khơng gian mới có số chiều cao hơn.

Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc có thể phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu. Một mặt quyết định tuyến tính trong khơng gian mới sẽ tương ứng với một mặt quyết định phi tuyến trong không gian ban đầu.

Với k là một hàm nhân thoản mãn:

<i>k(x<small>i</small>, x<small>j</small>) = Φ(x<small>i</small>)<small>T</small>. Φ(x<small>j</small>) </i>

Nếu chọn một hàm nhân phù hợp, ta có thể xây dựng được nhiều bộ phân loại khác nhau. Có một số hàm nhân cơ bản sau đây:

- Hàm nhân đa thức:

<i>k(x<small>i</small>, x<small>j</small>) = </i>( amma.x<i>g<sup>T</sup><sub>i</sub>x<sub>j</sub></i><i>c</i>oef0)<sup>deg</sup><i><sup>ree</sup></i>

- Hàm vòng RBF (Radial Basic Function):

<i>k(x<small>i</small>, x<small>j</small>) = </i>tan(<i>gamma x x</i>. .<i><sub>i</sub><sup>T</sup><sub>j</sub></i><i>c</i>oef 0)

<i>trong đó gamma, coef0 và degree là các tham số nhân. </i>

</div><span class="text_page_counter">Trang 30</span><div class="page_container" data-page="30">

Tính chất nổi trội của SVM là đồng thời cực tiểu lỗi phân lớp và cực đại khoảng cách lề giữa các lớp

Giả sử có 1 số điểm dữ liệu thuộc một trong hai lớp và mục tiêu của ta là xác định xem dữ liệu mới thêm vào sẽ thuộc lớp nào. Ta coi mỗi điểm dữ liệu như một vector p chiều và chúng ta muốn biết là liệu có tách được những điểm đó bằng một siêu phẳng p-1 chiều hay khơng (được gọi là phân loại tuyến tính).

Xem dữ liệu đầu vào như 2 tập vector n chiều, một SVM sẽ xây dựng một siêu phẳng riêng biệt trong khơng gian đó sao cho nó tối đa hóa biên lề giữa hai tập dữ liệu. Để tính lề, hai siêu phẳng song song được xây dựng, mỗi cái nằm ở một phía của siêu phẳng phân biệt và chúng được đẩy về phía hai tập dữ liệu. Một cách trực quan, một phân biệt tốt sẽ thu được bởi siêu phẳng có khoảng cách lớn nhất đến các điểm lân cận của hai lớp, vì lề càng lớn thì sai số tổng qt hóa của bộ phân lớp càng tốt hơn

<b>Hình 1.5 cho một ví dụ trong khơng gian 2 chiều như sau: </b>

<b>Hình 1.4. Hình mơ tả các đường phân cách giữa 2 lớp (mẫu dương và mẫu âm) </b>

</div><span class="text_page_counter">Trang 31</span><div class="page_container" data-page="31">

Như hình trên ta thấy rằng có nhiều đường có thể chia dữ liệu thành 2 miền nhưng câu hỏi đặt ra là đường nào mới là đường tối ưu nhất ? ta cần tìm tiêu chuẩn cho đường đó. Với bộ phân lớp nhị phận: Cho tâp dữ liêu hoc gồm n dữ liệu gắn nhãn. D = {(x1, y1), (x1, y1),..., (xn, yn)} với yi ∈ {-1,1} là môt số nguyên xác định lớp của xi. Môi xi là một văn bản được biểu diễn dưới dạng 1 vector thực d chiều. Bộ phân lớp tuyên tinh (mơ hình phân lớp) được xác định thơng qua một siêu phẳng có dạng: f(x) = w.x – b = 0 trong đó: w là vector pháp tuyến của siêu phẳng và b đóng vai trị là tham số mơ hình - Bộ phân lớp nhị phân được xác định thơng qua dấu của f(x):

Để tìm được siêu phẳng phân cách có lề cực đại, xây dựng các vector hỗ trợ và các siêu phẳng song song với siêu phẳng phân cách và gần vector hỗ trợ nhất, đó là các hàm: w.x – b = 1 w.x – b = -1. Khoảng cách giữa 2 siêu phẳng là w do đó cần phải cực tiểu hóa w để đảm bảo với mọi i ta có: w.x – b > 1 cho lớp thứ nhất.

<b>Hình 1.5 Hình ảnh biểu diễn khoảng cách của hai đường vector hỗ trợ </b>

Chúng ta cần tìm một lề bằng nhau và lớn nhất có thể. Trong trường hợp tập dữ liệu khơng khả tách tuyến tính cần sử dụng các hàm nhân để chuyển đổi không gian biểu diễn dữ liệu nhiều chiều hơn để tập dữ liệu khả tách tuyến tính (Hình 1.7).

</div><span class="text_page_counter">Trang 32</span><div class="page_container" data-page="32">

<b>Hình 1.6 Hình ảnh ví dụ về một siêu phẳng trong không gian nhiều chiều. </b>

<b>1.3. Khai phá quan điểm </b>

<b>1.3.1. Khái niệm khai phá quan điểm </b>

Khai phá quan điểm hay còn gọi là khai thác ý kiến là một lĩnh vực thực hiện tìm hiểu, nghiên cứu về tình cảm, cảm xúc, ý kiến, thái độ và đánh giá của con người trên những thực thể như sản phẩm, dịch vụ, tổ chức, sự kiện, vấn đề hay một cá nhân nào đó [16]. Thơng tin văn bản có thể được chia ra thành hai loại chính, đó là sự kiện

<i>và quan điểm. Thông tin sự kiện thể hiện khách quan về những thực thể, sự kiện hay các thuộc tính của chúng. Thơng tin quan điểm thể hiện chủ quan của con người, miêu </i>

tả quan điểm, ý kiến hướng đến thực thể, sự kiện hay thuộc tính. Khai phá quan điểm đang là một lĩnh vực thu hút sự quan tâm đặc biệt không chỉ của các nhà khoa học trong giới học thuật mà còn của các nhà sản xuất, các công ty,… trên thế giới nói chung và ở Việt Nam nói riêng.

Khai phá quan điểm là một trong những bài toán quan trọng trong khai phá dữ liệu văn bản. Nó thực hiện các phương pháp trong xử lý ngôn ngữ tự nhiên, khai phá dữ liệu và cơng nghệ mạng để trích xuất và xác định quan điểm trong nguồn dữ liệu là các đánh giá, nhận định của con người [17]. Khái niệm “quan điểm” là một khái niệm rất rộng, nó có thể được thể hiện ở nhiều hình thức và mức độ khác nhau.

</div><span class="text_page_counter">Trang 33</span><div class="page_container" data-page="33">

<b>Các khái niệm sử dụng trong khai phá quan điểm: </b>

<i><b>Đối tượng(object): một đối tượng là một thực thể (người, sự kiện, sản phẩm, </b></i>

chủ đề,...)

<i><b>Đặc trưng(feature): mỗi đối tượng có một tập các thành phần (component) </b></i>

<i>hoặc thuộc tính (attributes), mỗi thành phần lại bao gồm một tập các thành phần con </i>

và thuộc tính con. Các thành phần hoặc thuộc tính này được gọi là đặc trưng

<b>Thực thể: Một thực thể e là một sản phẩm, dịch vụ, chủ đề, vấn đề, người, tổ </b>

chức, hoặc sự kiện. Nó được mơ tả bằng cặp e: (T, W), trong đó T là một hệ phân cấp của các thành phần, thành phần con v.v., và W là một tập các thuộc tính của e.

<b>Quan điểm: Một quan điểm là một bộ năm p = (e</b><small>i</small>, a<small>ij</small>, s<small>ijkl</small>, h<small>k</small>, t<small>l</small>), trong đó e<small>i</small> là tên một thực thể, a<small>ij</small> là một khía cạnh của e<small>i</small>, s<small>ijkl</small> là quan điểm trên khía cạnh a<small>ij</small> của thực thể e<small>i</small>, h<small>k</small> là người chủ quan điểm, và t<small>l</small> là thời gian khi quan điểm được h<small>k</small> bày tỏ. s<small>ijkl</small> quan điểm tích cực, tiêu cực hoặc trung tính, hoặc thể hiện với mức độ sức mạnh / cường độ khác nhau.

<b>Lớp thực thể và thể hiện thực thể: Một lớp thực thể biểu diễn cho một thực </b>

thể duy nhất, trong khi một thể hiện thực thể là một từ hoặc cụm từ thực tế xuất hiện trong văn bản chỉ dẫn một lớp thực thể.

<b>Lớp khía cạnh và thể hiện khía cạnh: Một lớp khía cạnh của một thực thể </b>

biểu diễn cho một khía cạnh duy nhất của thực thể, trong khi một thể hiện khía cạnh là một từ hoặc cụm từ thực tế xuất hiện trong văn bản cho thấy một lớp khía cạnh.

<b>Thể hiện khía cạnh hiển - rõ: thể hiện khía cạnh là danh từ và cụm danh từ </b>

được gọi là thể hiện khía cạnh hiện.

<b>Thể hiện khía cạnh hiển - rõ: thể hiện khía cạnh là danh từ và cụm danh từ </b>

được gọi là thể hiện khía cạnh hiện.

<b>Thể hiện khía cạnh ẩn: Thể hiện khía cạnh khơng là danh từ hoặc cụm danh từ </b>

được gọi là thể hiện khía cạnh ẩn.

</div><span class="text_page_counter">Trang 34</span><div class="page_container" data-page="34">

Bo Pang và Lillian Lee [18] chỉ ra 4 miền ứng dụng chính của khai phá quan điểm.

 Ứng dụng cho các website đánh giá: việc khai thác ý kiến người dùng trong website đánh giá là việc vô cung quan trọng. Người dùng có thể đánh giá không chỉ ở một chủ đề giới hạn như sản phẩm mà có thể đánh giá cả về các vấn đề như chính trị. Các trang web có thể thu thập tóm tắt đánh giá của người dùng và đôi khi thực hiện sửa chữa một số lỗi trong xếp hạng người dùng như: người dùng đánh giá tích cực nhưng lại vơ tình chọn sếp hạng thấp. Một số trường hợp cho thấy xếp hạng của người dùng có thể sai lệch hoặc cần sửa chữa và các phân lớp tự động có thể update lại vấn đề này.  Thành phần phụ trong các hệ thống tư vấn, hỏi đáp: Các hệ thông phân tích

quan điểm cũng có vai trò tiềm năng quan trọng là trao quyền công nghệ cho các hệ thống khác. Một ứng dụng rất hữu ích hiện nay là khi các hệ thống hiển thị trực tuyến các quảng cáo sẽ hiện lên và việc phát hiện các nội dung quảng cáo nhạy cảm không phù hợp sẽ được phát hiện và kịp thời xử lý.

 Các ứng dụng trong kinh doanh và tình báo chính phủ: trong doanh nghiệp việc khai thác quan điểm của khách hàng để đưa ra chiến lược kinh doanh là điều vô cùng quan trọng, các doanh nghiệp luôn quan tâm đến việc khách hàng của họ mua gì, tần suất ra sao, đánh giá tích cực hay tiêu cực, họ cịn có thể có nhu cầu nào khác liên quan đến sản phầm hiện dùng hay không; từ đó tìm được xu hướng bán hàng hoặc các dữ liệu liên quan. Tình báo chính phủ là một ứng dụng khác cũng được xem xét ví dụ như giám sát và tác động để tăng sự thù địch hoặc truyền thông tiêu cực[3].

 Ứng dụng trên các miền các nhau: Khai phá quan điểm áp dụng trên nhiều miền khác nhau ví dụ như trong chính trị có một số cơng việc cụ thể như tìm hiểu xem các cử tri đang nghĩ gì trong khi đó những cơng việc khác có mục

</div><span class="text_page_counter">Trang 35</span><div class="page_container" data-page="35">

tiêu dài hạn là tìm hiểu vị trí của các chính trị gia trong lịng cơng chúng, họ ủng hộ hay phản đối để tăng cường chất lượng thông tin mà có có thể truy cập[4].

<b>1.3.2. Các bài tốn khai phá quan điểm chính </b>

<b>Mục tiêu ứng dụng của khai phá quan điểm là cho một tập các tài liệu đánh </b>

giá về một đối tượng, cần chỉ ra một bản tổng hợp khai phá quan điểm từ mỗi đánh giá trong tập các đánh giá đó.

Như vậy, bài tốn khai phá quan điểm cơ bản liên quan từ một tài liệu. Cụ thể là: Cho một tài liệu quan điểm d, phát hiện tất cả các bộ năm quan điểm (e<small>i</small>, a<small>ij</small>, s<small>ijkl</small>, h<small>k</small>, t<small>l</small>) trong d lần lượt là thực thể, khía cạnh của thực thể, quan điểm về khía cạnh của thực thể, chủ quan điểm, thời gian đánh giá.

Cho một tập các tài liệu quan điểm D, khai phá quan điểm bao gồm 6 bài toán chủ yếu sau đây[1]:

<b>Bài tốn 1 (trích xuất và phân lớp thực thể): Trích xuất tất cả các thể hiện thực thể </b>

trong D, và phân lớp hoặc nhóm các thể hiện thực thể đồng nghĩa thành các nhóm (hoặc loại) thực thể. Mỗi cụm thể hiện thực thể cho thấy một thực thể e<small>i</small> duy nhất.

<b>Bài toán 2 (trích xuất và phân lớp khía cạnh): Trích xuất tất cả các thể hiện khía </b>

cạnh của các thực thể, và phân lớp các thể hiện khía cạnh thành các cụm. Mỗi cụm thể hiện khía cạnh của thực thể e<small>i</small> trình bày một khía cạnh cụ thể a<small>ij</small>.

<b>Bài tốn 3 (trích xuất và phân lớp chủ quan điểm): Trich xuất người cho quan điểm </b>

đối với quan điểm từ văn bản hoặc dữ liệu có cấu trúc và phân lớp chúng. Bài toán là tương tự với hai bài toán trên.

<b>Bài toán 4 (trích xuất và chuẩn hóa thời gian): Trích xuất thời gian khi các quan </b>

điểm được đưa ra và chuẩn hóa các định dạng thời gian khác nhau. Bài toán này cũng tương tự với các bài toán trên.

<b>Bài toán 5 (phân lớp khía cạnh quan điểm): Xác định quan điểm về khía cạnh a</b><small>ij</small> là khía cạnh tích cực, tiêu cực hoặc trung tính, hoặc gán một đánh giá tâm lý bằng số cho khía cạnh.

<b>Bài tốn 6 (sinh bộ năm quan điểm): Đưa ra tất cả các bộ năm quan điểm (ei, aij, </b>

</div>

×