Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (7.49 MB, 37 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
Hiện nay, sự phát trién nhanh chóng của kỹ thuật Cơng nghệ thơng tin đã hỗ trợ đắc lực cho nhu cầu truyền tin và khai thác thông tin dữ liệu của nhân loại. Với thế hệ của Web 2.0, sự phát triển của nó đã đem lại nhiều lợi thế cho các cơng ty, doanh nghiệp vì thơng qua các website, họ giới thiệu đến khách hàng những sản phẩm của mình, đồng thời quảng bá thương hiệu của bản thân. Khi thương mại điện tử ngày càng trở nên phổ biến hơn, càng nhiều sản phẩm được bán trên mạng và nhiều người hơn nữa cũng mua các sản phẩm trực tuyến. Dé tăng cường sự hài lòng của khách hàng và chia sẻ kinh nghiệm mua sắm, các thương nhân trực tuyến đã
cho phép khách hàng của họ xem và bày tỏ ý kiến của mình về các sản phẩm mà họ <small>đã mua.</small>
Với số lượng người dùng nhiều hơn vào xem sản phẩm, cũng như những phản hồi của họ về sản phẩm ngày một nhiều hơn. Đối với những sản phẩm phổ biến, số lượng ý kiến của khách vào xem có thé lên tới hàng trăm, thậm chí hàng nghìn. Nếu khách hàng chỉ đọc một vài ý kiến, thì họ sẽ có cái nhìn thiên vị, cịn nếu đọc hết những ý kiến đó thì sẽ rất khó khăn để đưa ra quyết định có nên mua sản phẩm này hay khơng? Đồng thời, nó cũng gây khó khăn cho các nhà sản xuất của sản phẩm đó trong việc theo dõi và quan lý ý kiến của khách hàng.
Hiểu được vấn đề này, đề tài “Xử lý các đặc trưng tiếng việt trong bài
toán phân loại quan điểm người dùng” đã được tôi chon dé thực hiện luận văn
tốt nghiệp của mình, là một bài tốn nhỏ trong bài toán phân lớp quan điểm, đề từ đó có thể góp phần giải quyết được bài tốn khai phá quan điểm trên câu tích cực và
tiêu cực áp dụng cho tiếng Việt.
Trong phạm vi đồ án, tôi xin phép trình bày phương pháp xác định câu tích cực, tiêu cực cho ngôn ngữ tiếng Việt với dữ liệu là những quan điểm của người dùng về thiết bị di động. Chi tiết của phương pháp được trình bày cụ thé và rõ rang
<small>trong luận văn. Luận văn sử dụng phương pháp phân lớp SVM (Support Vector</small>
Machines) để giải quyết bài tốn. Trích chọn đặc trưng dựa trên hai đặc trưng của câu là từ và âm tiết. Với mỗi đặc trưng tôi sử dụng n-grams (n = 1,2,3). Từ đó mục
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2"><small>tiêu của luận văn là nghiên cứu phương pháp xác định câu tích cực, tiêu cực trong</small>
tiếng Việt, từ đó đưa ra phương hướng giải quyết bài toán.
Với mục tiêu như vậy, bố cục của luận văn sẽ bao gồm ba chương theo cau
<small>trúc sau:</small>
Cấu trúc của luận văn gồm :
<small>Chương I : Giới thiệu chung</small>
Chương này giới thiệu về học máy và trình bày khái quát chung về khai phá quan điểm người dùng đồng thời phân loại quan điểm người dùng trong ngôn ngữ tiếng việt, những ứng dụng của bài tốn mang lại cùng những khó khăn thách thức cho bài tốn khi phân loại quan điểm bằng ngơn ngữ tiếng Việt
Chương II: Phân tích quan điểm người dùng trong ngơn ngữ tiếng việt
Chương này trình bày lý do chọn phương pháp hoc máy, đồng thời tìm hiểu thuật tốn học máy SVM và ứng dụng của học máy vào phân quan điểm điểm tích
<small>cực, tiêu cực.</small>
Chương III: Kiểm thử và đánh giá kết quả
Trình bày cách thu thập dữ liệu, tiền xử lý dữ liệu , cách gán nhãn, xử lý dit
liệu, sau đó thống kê dữ liệu. Ở chương này cũng trình bày cách làm thực nghiệm với SVM như: Cách chuyền dữ liệu sang dạng dữ liệu của SVM, cách thực hiện
thực nghiệm với SVM. Sau đó là kết quả thực nghiệm thu được. Cuối cùng là phần nhận xét, đánh giá về kết quả thực nghiệm và Demo chương trình.
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Học máy là một lĩnh vực thuộc ngành trí tuệ nhân tạo liên quan đến việc thiết
kế và phát triển các thuật tốn cho phép máy tính cải thiện hiệu quả qua thời gian
<small>dựa trên dữ liệu. Học máy tập trung vào phân tích, nghiên cứu các giải thuật trongviệc thực thi tính tốn .</small>
Trong phương pháp này, một tập mẫu sẽ được đưa ra dé phục vụ cho việc “học”. Tập mẫu này sẽ bao gồm các mẫu đã được gán nhãn (mỗi nhãn đại diện cho một lớp). Quá trình “học” sẽ thực hiện dựa trên tập mẫu này dé đưa ra hàm ánh xạ một mẫu mới vào lớp mà nó thuộc về.
<small>1.1.2 Phân loại học máy</small>
Học máy chủ yêu được phân thành 3 loại chính được giới thiệu bởi Hang [2].
<small>1.1.2.1 Học có giám sát (supervised learning)</small>
<small>Hoc có giám sát là phương pháp học máy xây dựng một hàm từ tập dữ liệu</small>
gồm các đối tượng (thường ở dang vector) đã được gan nhãn từ trước. Kết quả của phương pháp này có thé là một giá trị liên tục hoặc một nhãn phân loại cho một mau
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4">dữ liệu mới. Luận Văn được tôi nghiên cứu và phát triển dưới đây sẽ áp dung học
<small>máy có giám sát</small>
<small>1.1.2.2 Học khơng giám sát (unsupervised learning)</small>
Học không giát sát (unsupervised learning) là phương pháp học máy nhằm tìm ra một mơ hình phù hợp với các quan sát. Cho trước một mẫu chỉ gồm các đối
tượng (object), cần tìm kiếm cấu trúc quan tâm (interesting structures) của dữ liệu, và nhóm các đối tượng giống nhau
<small>1.1.2.3 Học bán giám sát (semi-supervised learning)</small>
<small>Học bán giám sát là một lớp của kĩ thuật học máy, sử dụng cả dữ liệu đã gan</small>
nhãn và chưa gán nhãn dé huấn luyện — điển hình là một lượng nhỏ dữ liệu có gán
<small>nhãn cũng với lượng lớn dữ liệu chưa gan nhãn. Học bán giám sát đứng giữa hoc</small>
không giám sát (khơng có bất kì dữ liệu đã được gán nhãn nào) và có giám sát
<small>(tồn bộ dữ liệu đã được gán nhãn)</small>
Học máy là một nhánh nghiên cứu rất quan trọng của trí tuệ nhân tạo với khá nhiều ứng dụng thành công trong thực tế
Cụ thể :
<small>- _ Xử lý ngôn ngữ tự nhiên</small>
<small>- Phat hiện và nhận dang mặt người</small>
<small>- Loc thư rác, phân loại van bản...</small>
Khai phá quan điểm là một kiểu của xử lý ngôn ngữ tự nhiên cho việc theo dõi ý kiến của cộng đồng về sản phẩm hoặc dịch vụ cụ thể. Khai phá quan điểm cịn được gọi là phân tích tình cảm (sentiment analysis) liên quan đến việc xây dựng hệ thống thu thập và xem xét ý kiến về sản phẩm và dịch vụ được thực hiện trên các
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5">bài đăng trên các trang như genk, VnExpress, Facebook... Khai phá quan điểm tự động thường sử dụng học máy (machine learning), một phần trong trí tuệ nhân tạo.
<small>Khai phá quan điểm thường được nghiên cứu ở ba mức độ khác nhau, bao</small>
gồm :
e_ Khai phá quan điểm mức tai liệu e Khai phá quan điểm mức câu
e Khai phá quan điểm mức khía cạnh/đặc trưng
Các bài tốn chính trong khai phá quan điểm bao gồm : e Bài toán nhận diện quan điểm
e Khai phá quan điểm theo khía cạnh/đặc trưng
e Tóm tắt quan điểm
e Phát hiện quan điểm rác
e Khai phá quan điểm trên câu so sánh e_ Bài toán phân lớp quan điểm
Bài tốn phân lớp quan điểm cũng chính là bài tốn chúng tơi quan tâm trong
nghiên cứu này và sẽ được trình bày kỹ hơn ở phần dưới đây.
<small>1.2.4 Phân loại văn bản</small>
Là bài toán phân loại một đối tượng dit liệu vào một hay nhiều loại cho trước nhờ mơ hình phân loại, mơ hình này được xây dựng dựa trên một tập hợp các đối tượng đữ liệu đã được gán nhãn từ trước gọi là tập dữ liệu huấn luyện. Q trình phân loại này cịn được gọi là q trình gán nhãn cho các đối tượng dữ liệu.
Sau đây là quá trình phân loại dữ liệu, quá trình được thực hiện gồm hai bước: xây dựng mơ hình tạo bộ phân loại và sử dung mơ hình này dé phân loại.
e Bước 1: Mơ hình được xây dựng dựa trên việc phân tích các đối tượng dit
<small>liệu đã được gán nhãn từ trước. Tập các mẫu dữ liệu này còn được gọi là tập</small>
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6">dữ liệu huấn luyện (training data set). Các nhãn của tập dữ liệu huấn luyện
<small>được xác định bởi con người trước khi xây dựng mơ hình.</small>
e Bước 2: Su dụng mơ hình đã được xây dựng ở bước 1 dé phân loại dữ liệu mới. Như vậy, thuật toán phân loại là một ánh xạ từ miền dữ liệu đã có sang một miền giá trị cụ thé của thuộc tính lớp, dựa vào giá trị các thuộc tính của
<small>đữ liệu.</small>
Hầu hết các thuật tốn đều sử dụng vector đặc trưng. Vì vậy ở phần này tơi sẽ trình bày sơ lược về vector đặc trưng :
Ý tưởng của mơ hình này là xem mỗi một câu của văn bản có dạng:
X= (X}, X¿,..., xạ), và n là số lượng đặc trưng của vector văn bản (số lượng từ trong tập từ điền), x; là số lần xuất hiện của từ có định nghĩa là i, i € {1, 2,...n}.
<small>Hình 1.2 Văn bản được biểu diễn là vector đặc trưng</small>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7">Bài tốn khai phá quan điểm có ý nghĩa rất lớn trong cuộc sống ngày nay, nó khơng chỉ giúp con người đưa ra các quyết định của mình mà cịn giúp các cơng ty, các nhà sản xuất theo dõi chất lượng sản phẩm và kịp thời nâng cao chất lượng các
sản phẩm...
Đồng thời khai phá quan điểm có nhiều ứng dụng trong thực tiễn. Có ứng
dụng về việc tìm kiếm văn bản. Từ một tập dữ liệu đã được phân loại, đánh kí hiệu với từng loại tương ứng, người dùng có thé xác định được loại văn bản mà mình
mong muốn.
Một ứng dụng khác của phân loại văn bản là sử dụng dé lọc văn bản, trích
<small>lọc thơng tin trên mạng Internet. Ngồi ra, phân loại văn bản cịn có ứng dụng trong</small>
việc phân loại ý kiến, đánh giá của người dùng.
Trong phạm vi luận văn, tôi sẽ thực hiện với miền dữ liệu là các đánh giá tiếng Việt của người dùng về thiết bị di động, luận văn sẽ sử dung hướng tiếp cận là học máy dé xây dựng bộ phân lớp quan điểm và thực hiện tạo tập từ điển bằng việc tách từ theo âm tiết và theo từ.
Những khó khăn cơ bản trong bài toán khai phá quan điểm trên miền dữ liệu tiếng Việt theo Trang [7] như sau:
e Một từ được coi là tích cực trong trường hợp này có thé được coi là tiêu cực trong tình huống khác. Lấy từ "dai" làm vi dụ: “ tuổi tho pin của máy tinh xách tay dai”, đó sẽ là một ý kiến tích cực, “thời gian khởi động của máy tinh xách tay dài”, đó lại là một ý kiến tiêu cực.
e_ Một thách thức lớn đối với khai phá quan điểm xuất hiện khi mọi người thé
<small>hiện đánh giá tích cực và tiêu cực trong cùng một câu. Những câu như vậy có</small>
thé gây khó khăn dé phân tích cú pháp hoặc khai phá quan điểm.
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8">e_ Đơi khi những người khác gặp khĩ khăn trong việc hiểu những gì một người nào đĩ nghĩ dựa trên một đoạn ngắn của văn bản bởi vì nĩ thiếu bối cảnh. Ví dụ, "Đĩ là bộ phim tốt như bộ phim trước đĩ của ơng ay" la hoan toan phu thuộc vào những gì người bày tỏ quan diém đã nghĩ về bộ phim trước đĩ.
e Chưa cĩ bộ dữ liệu gan nhãn Tiếng Việt chuan để phục vụ cho việc huấn
luyện dữ liệu trong trường hợp sử dụng phương pháp học máy dé khai pha quan điểm.
e Cuối cùng là những dữ liệu bình luận tiếng Việt thường ít, cĩ nhiều từ long, thiếu dấu câu...gây khĩ khăn trong bước tiền xử lí đữ liệu.
<small>1.3.1 Phương pháp học máy</small>
<small>1.3.1.1 Giới thiệu và sử dụng phương pháp học máy SVM trong phân loại</small>
SVM là phương pháp tiếp cận phân loại hiệu quả được Vapnik giới thiệu năm 1995 [14] dé giải quyết van đề nhận dạng mẫu hai lớp sử dụng nguyên lý Cực tiểu hĩa Rui ro Cầu trúc (Structural Risk Minimization).
<small>1.3.1.2 Phương pháp K-nearest Neighbor (KNN)</small>
kNN là phương pháp truyền thống khá nỗi tiếng về hướng tiếp cận dựa trên thống kê đã được nghiên cứu trong nhận dạng mẫu hơn bốn thập kỉ qua [Dasarathy,
1991]. kNN được đánh giá là một trong những phương pháp tốt nhất được sử dụng từ thời kì đầu của việc phân loại.
<small>1.3.1.3 Phương pháp Nạve Bayes (NB)</small>
Nạve Bayer là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực học máy, được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961, sau đĩ trở nên phổ biến trong nhiều lĩnh vực như trong các
<small>cơng cụ tim kiêm, các bộ lọc mail...</small>
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">Trong chương một của luận văn tơi đã tìm hiểu về những khái nệm tổng quan nhất về học máy và các phương pháp học máy. Qua đó tơi đã lựa chọn phương pháp học máy có giám sát dé áp dụng vào luận văn. Ngoai ra ở chương một tôi tim hiểu về các khái niệm của khai phá quan điểm cùng những phương pháp phân loại
quan điểm trên ngôn ngữ tiếng việt, tiếp vào đó là ý nghĩa, ứng dụng cùng với
những khó khăn thách thức của việc phân loại quan điểm trên ngôn ngữ tiếng việt.
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">Tiếng Việt là ngơn ngữ khơng biến hình từ và âm tiết tính tức là mỗi một
tiếng (âm tiết) được phát âm tách rời nhau và được thể hiện bang một chữ viết [1]. Hai đặc trưng này chỉ phối toàn bộ tổ chức bên trong của hệ thống ngôn ngữ Việt và cần được chú ý khi xử lý tiếng Việt trên máy tính.
Tiếng Việt có các yếu tơ ngoại lai thuộc gốc Hán, gốc Pháp, Anh trong đó
yêu tố Hán vừa chiếm đa số vừa giữ vai trò khá quan trọng trong vốn từ và trong cấu tạo từ Việt. Các yêu tố gốc Ấn - Âu đi vào tiếng Việt phải chịu áp lực rất mạnh của sự âm tiết hoá theo kiểu tiếng Việt.
Ngồi ra, khi Việt hố các từ ngoại lai Ấn-— Âu có sự đơn tổ hod ví dụ: sulơ, xuyết vơn tơ, mát xa...; và có sự giản hoá về phát âm như sứ (đại sứ quán), lốp (vỏ
<small>bánh xe) từ enveloppe...</small>
Theo Cơ sở ngôn ngữ học và tiếng Việt - Mai Ngọc Chừ (1997) từ đồng nghĩa là những từ tương đồng với nhau về nghĩa, khác nhau về âm thanh và có phân
biệt với nhau về một vài sắc thái ngữ nghĩa hoặc sắc thái phong cách,... nào đó, hoặc đồng thời cả hai.
Ví dụ: dé, dé dàng, dé dai là những nhóm từ đồng nghĩa.
Các tiếng đồng âm: như kĩ/kỹ, lí, lý... thường bị sử dụng lẫn nhau như: lý
<small>luận, lí luận, kĩ thuật, kỹ thuật...</small>
Đặc điểm chính tả tiếng Việt có ý nghĩa quan trọng tiền xử lý đữ liệu văn bản. Một số đặc điềm chính tả tiếng Việt cần quan tâm như [6]: Các từ địa phương,
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11">vị tri dau thanh, cách viết hoa, phiên âm tiếng nước ngồi, từ gach nối, kí tự ngắt
Một số bảng mã tiếng việt trên máy tính.Cĩ thể ké đến một số bảng mã dưới
<small>đây [4].</small>
<small>e Mã dựng sẵn</small>
<small>+ Mã dựng sẵn một bảng fonts: TCVN 5712-VN1, VISCII, BachKhoa 1,</small>
VietStar...: các bảng mã này mở rộng sang cả phần mã chuẩn, nên gây anh hưởng nghiêm trọng trong truyền thơng.
<small>+ Mã dựng sẵn hai bảng fonts: TCVN 5712-VN3 (ABC), VietSea, VNU...:</small>
sử dụng 2 bảng mã cho một kiểu chữ nên gây dư thừa và khơng hiện thực việc phân biệt chữ hoa chữ thường trong các chương trình xử lý số liệu.
° Mato hợp
<small>Cac bang ma VietWare-X, Vni for Windows, TCVN 5712-VN2, BachKhoaII, VS2, 3C25... va các trang mã 1258 (Microsoft), 1129 (IBM), ISO 10646 sử</small>
dung phương pháp mã tơ hop.
Tĩm tại, tiếng Việt là ngơn ngữ khơng biến hình từ và âm tiết tính, do đĩ, việc phân loại từ (danh từ, động từ, tính từ...) và ý nghĩa từ là vấn đề khĩ, cần cĩ nhiều nghiên cứu thêm
<small>2.2 Lý do chọn phương pháp SUPPORT VECTOR MACHINE</small>
<small>Phương pháp học máy SVM là bài tốn phân loại câu ở dưới dạng nhị phân,</small> rất thích hợp cho bài tốn của tơi là đánh giá câu ở dạng tích cực và tiêu cực.
Mặt khác, phương pháp SVM là phương pháp đã xuất hiện được một thời gian dai, được sử dụng cĩ hiệu quả vao năm 1995 [14] nên ta cĩ thé tin tưởng vào xác suất về độ chính xác và các ưu khuyết điểm của phương pháp nay dé áp dụng
<small>phù hợp</small>
<small>Trong cơng trình của minh năm 1999 Joachims[9] đã so sánh SVM với</small>
Nạve Bayesian, k-Nearest Neighbour, Rocchio, và C4.5 và đến năm 2003 Joachims [10] đã chứng minh rằng SVM làm việc rất tốt cùng với các đặc tính được đề cập
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12">trước đây của văn bản. Các kết quả cho thấy rằng SVM đưa ra độ chính xác phân lớp tốt nhất khi so sánh với các phương pháp khác.
Vì vậy, tôi đã đề xuất chọn phương pháp SVM để phân loại văn bản hay
đánh giá ý kiến người viết trong văn bản.
<small>Theo Bing Liu[11], ý tưởng chính của thuật tốn này là cho trước một tập</small>
huấn luyện được biểu diễn trong không gian vector trong đó mỗi tài liệu là một
điểm, phương pháp này tìm ra một mặt siêu phăng h quyết định tốt nhất có thể chia các điểm trên khơng gian này thành các lớp riêng biệt. Chất lượng của mặt siêu phang này được quyết định bởi khoảng cách của điểm dữ liệu gần nhất của mỗi lớp đến mặt phang này. Khoảng cách biên càng lớn thì mặt phang quyết định càng tốt, đồng thời việc phân lớp càng chính xác. Mục đích của SVM là tìm ra được khoảng cách biên lớn nhất dé tạo ra kết quả phân lớp tốt.
<small>Hình 2.1 Mặt siêu phẳng phân chia dữ liệu thành hai tập âm và duong[8]</small>
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Bộ phân lớp SVM tìm ra mặt siêu phăng với lề cực đại được xác định bởi
<small>khoảng cách giữa các mầu âm và dương gân mặt siêu phăng nhât.</small>
Gọi d, và d_ là là khoảng cách ngắn nhất giữa siêu phang đến dữ liệu dương và dit liệu âm gần nhất. Khi đó lề của siêu phang: margin = d, + d_
Gia sử hai điểm (x*,1) và (x ,-1) là hai điểm gần siêu phăng nhất. Khi đó chúng ta xác định được hai đường thang song song H, và H.. Thay đổi tỷ lệ w và b
Khơng có dữ liệu huấn luyện nào nằm giữa H, va H.
Goi x, là một điểm thuộc mặt siêu phẳng và d, là khoảng cách từ H, tới mặt
<small>siêu phăng. Khi đó w x, + b=0. Do vậy, ta có cơng thức sau:</small>
</div><span class="text_page_counter">Trang 14</span><div class="page_container" data-page="14">Ta cần học dé giải quyết bài toán tối ưu sau:
Với các điều kiện: y; (w.x; + b) > 1 voii=1,2,...,n Giải quyết bài tốn tối ưu trên ta có:
<small>~ LẠ ^ Lá N</small>
<small>- Vector w sẽ được tính theo cơng thức: w= 5” x,y,ơ,</small>
- _ Để xác định độ dich chuyền b, ta chọn mẫu x; sao cho với moi a; > 0, sau
đó sử dụng điều kiện Karush-Kuhn-Tucker(KKT): øy;(w x; + b) - 1] =0 Các mẫu x; tương ứng với a, > 0 là những mau nằm gần mặt siêu phẳng quyết định nhất và được gọi là các vector hỗ trợ.
</div><span class="text_page_counter">Trang 15</span><div class="page_container" data-page="15">Nếu tập dữ liệu không khả tách tuyến tính thì ta có thể giải quyết theo hai
Cách thứ nhất: Sử dụng một mặt siêu phang lề mềm, nghĩa là cho phép một
số mau huấn luyện nằm về phía sai của mặt siêu phăng phân tách hoặc van ở vị tri đúng nhưng rơi vào vùng giữa mặt siêu phẳng phân tách và mặt siêu phắng hỗ trợ
<small>tương Ứng.</small>
Cách thứ hai: sử dụng một ánh xạ phi tuyến tính ® để ánh xạ các điểm dữ liệu đầu vào từ không gian ban đầu X sang một khơng gian F mới có số chiều cao hơn. Trong không gian này, các điểm dữ liệu trở thành khả tách tuyến tính, hoặc có thê phân tách với ít lỗi hơn so với trường hợp sử dụng không gian ban đầu.
<small>2.3.3 Hàm Kernel</small>
Tiêu chuẩn đầu tiên để chọn một hàm kernel K là phải ton tại p dé K(x, y) = $(x)#0):
Một số đặc tính của hàm kernel như sau:
Nếu K(+, y), Ka(x, y) là các ham kernel thì K3(x, y) cũng là ham kernel với:
1) K3(x,y) = K, (x,y) + K;(x,y)
Chiều của không gian đặc trưng ứng với kernel này là d = CP +p—1
<small>s* Ham bán kính căn bản Gaussian RBF (Radial Basis Function):</small>
<small>2.4.1 Phân loại văn bản : khách quan- chủ quan</small>
Một câu khách quan thê hiện một số thông tin thực tế về thế giới, trong khi một câu chủ quan thé hiện một số cảm xúc, niềm tin mang tính cá nhân. Trong hai
<small>loại dữ liệu mang tính khách quan và chủ quan thì lượng thơng tin có ý nghĩa cho</small>
quá trình phân loại chủ yếu tập trung ở đữ liệu chủ quan.
Vì vậy, việc xác định văn bản chủ quan là rất quan trọng. Quá trình phân loại
<small>câu khách quan — chủ quan là bước trung gian của việc phân loại ý kiên.</small>
Đề thực hiện giai đoạn phân loại văn bản khách quan- chủ quan, tôi chia ra làm hai
<small>bước sau :</small>
Bước 1: Trước tiên, đầu vào ở đây là một đoạn văn bản hay một câu. Ta tiến hành tách đoạn văn bản ra thành tập các câu, dấu hiệu nhận biết kết thúc một câu là
dấu cham “.”, dấu “!” hoặc dau ““?”.
<small>Bước 2: Thực hiện tách theo trực quan của con người và thực hiện thủ công</small>
bang tay dé tách ra câu chủ quan và khách quan
<small>Hình 2.4 : Lưu đồ quá trình huấn luyện SVM</small>
</div><span class="text_page_counter">Trang 17</span><div class="page_container" data-page="17">Đề thực hiện giai đoạn huấn luyện, tôi chia ra làm năm bước sau:
Bước 1 : Tiền xử lý dữ liệu: Dữ liệu đầu vào là những câu chủ quan. Ta tiền hành tiền xử lý dữ liệu bằng cách bỏ đi những kí tự đặc biệt, sai chính tả...
<small>Bước 2 : Gan nhãn di liệu: Bước này thực hiện gan nhãn tương ứng cho dữ</small> liệu sau tiền xử lý
Bước 3 : Thực hiện chuyền dữ liệu đã gán nhãn sang dạng vector
Bước 4 : sử dụng thuật toán phân lớp, tiến hành phân lớp dit liệu đã được
gán nhãn, cụ thể dùng phương pháp SVM để tiến hành huấn luyện cho máy phân
<small>Dữ liệuđầu vào</small>
Giai đoạn phân loại bao gồm bốn bước như sau:
Bước 1: Xử lý dữ liệu: giống với tiền xử lý dữ liệu của giai đoạn huấn luyện.
Bước 2: Thực hiên chuyền dữ liệu đã xử lý sang dang vector
<small>Bước 3: Sử dụng mơ hình phân lớp: dùng mơ hình phân lớp được xây dựng</small>
từ giai đoạn huấn luyện dé máy phán đoán và phân lớp cho dữ liệu đầu vào. Bước 4: Đưa ra kết quả là nhãn phân loại
Ở chương 2 của luận văn, tôi đã trình bày những khía cạnh đặc trưng của
tiếng việt và đưa ra sự lựa chọn cũng như trình bày về phương pháp phân loại quan điểm người dùng Support vector machine, đồng thời áp dụng phương pháp Support
vector machine vào việc phân loại quan điểm tích cực, tiêu cực của người dùng mà
<small>bài toán đang nghiên cứu.</small>
</div><span class="text_page_counter">Trang 18</span><div class="page_container" data-page="18"><small>3.1.1.1 Thu thập dữ liệu</small>
Trong hệ thong này, dữ liệu được khai thác là các nhận xét tiếng Việt của người dùng về các thiết bi di động tại trang web:vnexpress.net, genk.vn, facebook...Dữ liệu được lấy thủ công về bằng tay là những câu chủ quan và được
<small>lưu dưới dạng văn bản text.</small>
Dựa vào dữ liệu về các thiết bị đi động thu thập từ trang và
<small> cùng mạng xã hội như tôi đã chọn ra một</small>
số sản phẩm nồi bật. Tổng số comment thu được là 2044 comment về các thiết bị di động tại các thời điểm khác nhau.
e Tach ngữ: tôi tiến hành loại bỏ các ký hiệu đặc biét:@, $,#.... Sau đó, phân
tích văn bản thành các câu được phân cách bởi dấu câu: “?”, “1”, *”,
e Loại bỏ những câu chưa đúng, chuẩn hóa câu ví dụ như: “hok” thành
<small>“khơng”, “Camera cua dien thoai Galaxy S5 qua kem ” thành “Camera của</small>
<small>điện thoại Galaxy S5 quá kém .”e Tach các stop words[16].</small>
<small>e Tiến hành gán nhãn dữ liệu cho câu, những câu có từ “hơn”, “tốt”, “quá tốt”,</small>
<small>“tuyệt vời”, “nhât”, “đẹp hơn”... được gan nhãn là 1 ở dau câu. Những câu có tt</small>
<small>z N</small>
<small>99 99. 33c A "99</small>
“không bằng”, “kém”, “không tốt”,”xấu hơn”, “tồi”... những từ mang ý nghĩa
<small>tiêu cực , kém, mang nghĩa xâu đi thì ta gan -1 vào dau câu.</small>
</div>