Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (5.39 MB, 26 trang )
<span class="text_page_counter">Trang 1</span><div class="page_container" data-page="1">
<small>Chuyên ngành: HE THONG THONG TIN</small>
<small>Mã số: 60.48.01.04</small>
<small>Hà Nội, 2015</small>
</div><span class="text_page_counter">Trang 2</span><div class="page_container" data-page="2">Người hướng dẫn khoa học: PGS. TS TRAN DINH QUE
<small>Phản biện Ï: ... Q0 0Q Q2 2n HH ng nh vn ro</small>
<small>Phản biện 2: ...-. c0 0Q Q2 2n HH HH ng nh nh rxy</small>
Luận văn sẽ được bảo vệ trước Hội đồng cham luận văn thạc sĩ tại Học viện Cơng nghệ
<small>Bưu chính Viễn thơng</small>
<small>Có thê tìm hiệu luận văn tại:</small>
<small>- Thư viện của Học viện Cơng nghệ Bưu chính Viễn thơng</small>
</div><span class="text_page_counter">Trang 3</span><div class="page_container" data-page="3">Ngày nay, cùng với sự phát triển của công nghệ thông tin, một công cụ giúp kết nối
những con người với nhau, đặc biệt là tầng lớp trẻ tới trung niên chính là các trang mạng xã
hội. Mạng xã hội, hay gọi là mạng xã hội ảo, (tiếng Anh: social network) là dịch vụ nối kết các
thành viên cùng sở thích trên Internet lại với nhau với nhiều mục đích khác nhau khơng phân
<small>biệt khơng gian và thời gian.</small>
<small>Mạng xã hội có những tính năng như chat, e-mail, phim ảnh, voice chat, chia sẻ file,</small>
blog và xã luận. Mạng đổi mới hoàn toàn cách cư dân mạng liên kết với nhau và trở thành một phần tất yếu của mỗi ngày cho hàng trăm triệu thành viên khắp thế giới. Các dịch vụ này có nhiều phương cách dé các thành viên tìm kiếm bạn bè, đối tác: dựa theo group (ví dụ như tên
trường hoặc tên thành phó), dựa trên thông tin cá nhân (như địa chỉ e-mail hoặc screen name), hoặc dựa trên sở thích cá nhân (như thé thao, phim ảnh, sách báo, hoặc ca nhac), lĩnh vực quan
<small>tâm: kinh doanh, mua bán...</small>
Yahoo, Facebook, Twitter... là những mang xã hội rat phố biến hiện nay. Theo thống
kê năm 2014, trên thé giới có hơn một tỷ người sử dụng Facebook qua mạng internet và có hơn 500 triệu người sử dụng Twitter...[1] Như đã thấy lượng người sử dụng Facebook và twitter đã chiếm gần 1/3 dân số toàn cầu.
Người dùng sử dụng mạng xã hội để chia sẻ với mọi người trên toàn thế giới các sở thích cá nhân, các cảm nghĩ của mình về một vấn dé nao đó. Từ đặc tính của mạng xã hội như vậy nó tạo nên một loạt hành vi của người sử dụng mạng xã hội như đăng tải bài viết, chia sẻ thơng tin, thích một sự kiện, quan tâm tới một van dé nào đó... Với số lượng người sử dụng
<small>lượng thông tin khơng lơ mà các nhà nghiên cứu có thê nghiên cứu nhắm tạo ra môi liên hệ</small>
</div><span class="text_page_counter">Trang 4</span><div class="page_container" data-page="4"><small>giữa các thơng tin, dự đốn chuỗi hành vi người sử dụng mạng xã hội nhằm phục vụ cho rất</small>
nhiều mục đích khác nhau như định hướng chiến lược marketing, định hướng xu thế xã hội...
<small>Với sự quan trọng của việc thu thập hành vi, và phân tích các hành vi của người dùng</small>
trên mạng xã hội như vậy nên em đã quyết định lựa chọn đề tài “PHÂN LOẠI NGƯỜI DUNG TREN MẠNG XÃ HỘI CHO NHU CAU DU LỊCH” để nghiên cứu trong luận văn
Nghiên cứu về các kỹ thuật khai phá dữ liệu phân loại dữ liệu (Classification). Gia sử
rằng các hành vi của người sử dụng chủ yếu phụ thuộc vào các yếu tổ các tin tức và bài viết từ bạn bè của người sử dụng mạng xã hội, các sở thích của người dùng được thê hiện trên mạng xã hội từ đó xây dựng ứng dụng dé thu thập các thông tin trên từ mạng xã hội Twitter sau đó
thực hiện khai phá bằng các kỹ thuật phân loại dữ liệu (Classification). Nhằm tạo ra các tri thức có giá trị, từ đó chứng tỏ rằng mọi hành vi của người dùng xã hội đều chứa thơng tin có ích và đánh giá được nhu cầu du lịch của người dùng mạng xã hội thơng qua các hành vi trên
<small>mạng xã hội.</small>
<small>Mục đích của q trình nghiên cứu:</small>
Nghiên cứu ứng dụng thuật tốn SVM (support machine learrning) và Naive Bayes dé phân loại người dùng trên mạng xã hội cho nhu cầu du lịch.
Thực nghiệm việc ứng dụng thuật toán đối với dữ liệu thật.
Kết quả thu được của quá trình nghiên cứu cho thấy mọi hành vi của người dùng mạng xã hội đều có một đặc điểm nhất định có thê phân loại được. Kết quả của quá trình phân loại trong đề tài này sẽ giúp xác định được nhu cầu du lịch của người dùng mạng xã hội, các địa điểm thu hút.
</div><span class="text_page_counter">Trang 5</span><div class="page_container" data-page="5"><small>Ngoài phân mở đâu va kết luận, luận văn duoc chia làm 3 chương, cụ thê nội dung các</small>
<small>chương như sau:</small>
<small>Chương 1: “Tông quan vé mạng xã hội và khai phá dữ liệu trên mạng xã hội” Chương</small>
<small>này của luận văn di vào những khái niệm tông quan vê mang xã hội, lịch sử hình thành và phát</small>
<small>triển của mạng xã hội.các khái niệm cơ bản vê khai phá dữ liệu, vai trò của việc khai phá dữ</small>
<small>liệu trên mạng xã hội, cách tiêp cận nghiên cứu về khai phá dữ liệu trên mạng xã hội.</small>
Chương 2: “Bài toàn phân loại người dùng mạng xã hội cho nhu cầu du lịch” Chương
này của luận văn nói về bài tốn phân loại người dùng mạng xã hội cho nhu cầu du lịch, mục
đích của bài toán là sử dụng phương pháp phân loại dữ liệu, cụ thể là sử dụng thuật toán SVM
(support vector machine) va Naive Bayes dé tìm ra các địa điểm du lịch nổi bật, cảm xúc của người dùng về các điểm du lich đó và nhu cầu du lịch của người dùng mang xã hội twitter, so
sánh kết quả thu được đối với mỗi thuật toán.
Chương 3: “Thực nghiệm, kết quả đánh giá” Chương này của luận văn nói về việc xây
dựng chương trình mơ phỏng thuật tốn SVM (support vector machine) va Naive Bayes dé giải quyết bài toán được nêu ở chương 2, các kết quả thu được và đánh giá sau thực nghiệm.
</div><span class="text_page_counter">Trang 6</span><div class="page_container" data-page="6"><small>1.11 Mang xã hội và cá khái niệm</small>
Mạng xã hội là các web site mở được sử dụng để kết nối những người dùng có cùng sở thích nhằm những mục đích khác nhau bắt kế khơng gian và thời gian, và nội dung của mạng
<small>xã hội hoàn toàn do người sử dụng tạo ra.</small>
<small>Mạng xã hội dựa trên một câu trúc cơ định, nó cho phép người dùng thê hiện cá tính</small>
<small>của mình, và gặp gỡ được những người có cùng sở thích, cùng mơi quan tâm. Câu trúc này</small>
<small>bao gồm hồ sơ người dùng, bạn bè, các bài viết, bai đăng, các ứng dụng hỗ trợ...</small>
<small>1.12 Lịch sử hình thành mang xã hội</small>
<small>Các trang mang xã hội hiện nay như Facebook, Twitter,... đã trở thành công cụ thông</small>
tin liên lạc và chia sẻ cộng đồng phổ biến đối với hàng tỷ người trên thé giới. Kết nối và chia sẻ thông tin trực tuyến là nhu cầu của tất cả mọi người trên thế giới. Trong quá khứ mạng xã hội luông đồng hành cùng sự phát triển của internet từ những email đầu tiên được gửi đi bởi
các nhà nghiên cứu Thụy Sĩ vào năm 1971 đến những mạng xã hội hiện đại như Google++
<small>hay Twitter.</small>
Tính tương tác mạnh mẽ của các trang mạng xã hội khiến cho thế giới rộng lớn nhưng những con người ở khắp mọi nơi trên thế giới được kết nỗi, chia sẻ với nhau. Vì vậy họ trở thành bè bạn chỉ trong chốc lát và họ có thêm nhiều bè bạn. Vì vậy tiếng nói của họ được lan tỏa. Niềm vui hay nỗi buồn, những suy tư của họ có mức độ lan tỏa và được chia sẻ mà khơng một hình thức nào có thể sánh bằng. Mạng xã hội tạo nên một môi trường phát triển thương mại điện tử mạnh mẽ nơi mà các nhà cung cấp dịch vụ có thé tiếp cận với người dùng một cách nhanh nhất có thé. Ngồi ra mạng xã hội đã tạo ra một kênh nghiên cứu cho các nhà khoa học. rất nhiều các nghiên cứu đã được thực hiện dựa vào dir liệu người dùng đã tạo ra trên
<small>mạng xã hội nhưng vẫn chỉ là một góc nhỏ của mạng xã hội.</small>
</div><span class="text_page_counter">Trang 7</span><div class="page_container" data-page="7"><small>1.2.1 Khai phá dữ liệu và các khái niệm</small>
Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm
ra các mối quan hệ lẫn nhau của dit liệu trong một tập dữ liệu không 16 và phúc tạp, đồng thời
cũng tim ra các mẫu tiềm ấn trong tập dữ liệu đó.
<small>- Khai phá dữ liệu là một trong bảy bước của quá trình khám phá tri thức với thứ</small>
<small>tự như sau:</small>
- Lam sạch và tiền xử lý dữ liệu (data clearning and preprocessing): loại bỏ các dữ liệu không cần thiết.
- _ Tích hợp dit liệu (data integration) đây là quá trình hợp nhất dữ liệu thành kho dữ liệu (data warehouses and data marts) sau khi đã làm sạch và tiền xử lý
<small>- - Trích chọn dữliệu (data selection): trích chọn dữ liệu từ những khodữ liệu va</small>
sau đó chuyền đổi về dạng thích hợp cho q trình khai thác tri thức. Quá trình này bao gồm cảviệc xử lý với dit liệu nhiễu (noisy data), dữ liệu không đầy đủ
<small>(incomplete data), .v.v.</small>
- Chuyén đối dit liệu: Các dữ liệu được chuyền đổi sang các dang phù hợp cho
<small>quá trình xử lý.</small>
- Khai phá dit liệu(data mining): Là một trong các bước quan trọng nhất, trong đó sử dụng những phương pháp thông minh déchat lọc ra những mẫu dữ liệu.
- _ Ước lượng mau (knowledge evaluation): Quá trình đánh giá các kết quả tìm
<small>được thơng qua các độ đo nào đó.</small>
- Biéu diễn tri thức (knowledge presentation): Q trình này sử dụng các kỹ thuật để biểu diễn va thé hiện trực quan cho người dùng.
<small>1.2.2 Vai trò của khai phá dữ liệu trên mang xã hội</small>
<small>Sự bùng no của mang xã hội dẫn tới khối lượng người sử dụng mạng xã hội ngày càng</small>
tăng và khối lượng dữ liệu mà người sử dụng sinh ra tăng lên theo từng giờ. Những năm gan
</div><span class="text_page_counter">Trang 8</span><div class="page_container" data-page="8"><small>vụ di đôi với những blog cá nhân của người sử dụng, sự dễ dang của việc tạo ra thông tin củamạng xã hội tạo nên sự đa dạng và số lượng lớn thông tin được lưu trữ dẫn tới việc quá tải</small>
thông tin, người dùng sẽ khó có thể tìm kiếm được những thơng tin có ích mà mình cần thiết. Việc khai phá tri thức trên mạng xã hội nhằm mục đích giải quyết bài tốn bùng né thơng tin
<small>trên mạng xã hội hiện nay.</small>
Ngày nay, các công nghệ data mining được ứng dụng rộng rãi trong các công ty lẫy khách hàng làm trungtâm như truyền thơng, tài chính, marketing, bán hàng, các nghành cơng nghiệp sản xuất v.v... Nó cho phép các công ty xác định được các mối quan hệ giữacác yếu tố
<small>nội tại như giá thành, mẫu mã, cách thức quảng cáo, thậm chí là kỹ năng của nhân viên cơng</small>
ty... các yếu tơ bên ngồi như đối thủ cạnh tranh, chính sách kinh tế hay nhu cầu thị trường
<small>giá, độ hài lòng của khách hàng và lợi nhuận của doanh nghiệp...</small>
1.2.3.1 Sự kết hop (Association)
Sự kết hop (hay mối quan hệ) có lẽ là kỹ thuật khai phá dit liệu được biết đến nhiều hon cả, sự kết hợp rất quen thuộc và đơn giản. Ở đây, khai phá dữ liệu thực hiện một sự tương
quan đơn giản giữa hai hoặc nhiều mục, thường cùng kiểu để nhận biết các mẫu. Ví dụ, khi
theo dõi thói quen mua hàng của người dân, thì có thé nhận biết rằng một khách hàng luôn mua kem khi họ mua dâu tây, nên có thê đề xuất răng lần tới khi họ mua dâu tây, họ cũng có
thé muốn mua kem.
<small>1.2.3.2 Sự phân loại (Classification)</small>
<small>Mục tiêu của phương pháp phân loại đữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu,</small>
quá trình phân nhãn dữ liệu gồm 2 bước: cây dựng mơ hình va dựng mơ hình dé phân loại dữ
<small>1.2.3.3 Sự phân cum (Clustering)</small>
Bằng cách xem xét một hay nhiều thuộc tính hoặc các lớp, kỹ thuật khai phá dữ liệu
<small>này có thé nhóm các phân dữ liệu riêng lẻ với nhau dé tạo thành một quan diém câu trúc. Ở</small>
</div><span class="text_page_counter">Trang 9</span><div class="page_container" data-page="9">mức đơn giản, việc phân cụm đang sử dụng một hoặc nhiều thuộc tính làm cơ sở cho nhóm các kết quả tương quan dé ràng được nhận ra. Việc phân cụm giúp dé nhận biết các thơng tin khác nhau vì nó tương quan với các ví dụ khác, nên kết quả cho thấy có những điểm tương đồng và các phạm vi phù hợp.
<small>1.2.3.4 Dự báo (Prediction)</small>
Dự báo là một chủ đề rộng và đi từ dự báo về lỗi của các thành phần hay máy móc đến việc nhận ra sự gian lận và thậm chí là cả dự báo về lợi nhuận của công ty nữa. Được sử dụng kết hợp với các kỹ thuật khai phá dữ liệu khác, dự báo gồm có việc phân tích các xu hướng, phân loại, so khớp mẫu và mối quan hệ. Bang cách phân tích các sự kiện hoặc các cá thé trong
quá khứ, bạn có thé đưa ra một dự báo về một sự kiện.
1.2.3.5 Các mẫu tuần tự (Sequential patterns)
Liên quan đến hầu hết các kỹ thuật khác (chủ yếu là phân loại va dự báo), cây quyết định có thé được sử dụng hoặc như là một phần trong các tiêu chí lựa chọn hoặc dé hỗ trợ việc
sử dụng và lựa chọn dữ liệu cụ thé bên trong cấu trúc tổng thé. Trong cây quyết định, ban bắt
đầu băng một câu hỏi đơn giản có hai câu trả lời (hoặc đơi khi có nhiều câu trả lời hơn). Mỗi câu trả lời lại dẫn đến thêm một câu hỏi nữa dé giúp phân loại hay nhận biết dit liệu sao cho có thé phân loại dữ liệu hoặc sao cho có thể thực hiện dự báo trên cơ sở mỗi câu trả lời.
1.2.3.6 Cây quyết định (Decision trees)
Các cây quyết định thường được sử dụng cùng với các hệ thống phân loại liên quan đến thơng tin có kiểu thuộc tính và với các hệ thong dự báo, noi các dự báo khác nhau có thé dựa trên kinh nghiệm lich sử trong quá khứ dé giúp hướng dẫn cấu trúc của cây quyết định và kết quả đầu ra.
1.2.3.7 Các tổ hop (Combinations)
Trong thực tế, hiếm khi chi sử dụng một kỹ thuật trong số những kỹ thuật riêng biệt
trên để khai phá dữ liệu. Việc phân loại và phân cụm là những kỹ thuật giống nhau. Nhờ sử
dụng việc phân cụm dé nhận ra các thông tin lân cận gần nhất, chúng ta có thể tiếp tục tinh chỉnh việc phân loại của mình. Thơng thường, chúng ta sử dụng các cây quyết định dé giúp
</div><span class="text_page_counter">Trang 10</span><div class="page_container" data-page="10">xây dựng và nhận ra các loại mà chúng ta có thé theo dõi chúng trong một thời gian dài dé nhận biết các trình tự và các mẫu
Trong chương một của luận văn học viên đã tìm hiểu về những khái niệm tổng quan nhất về mạng xã hội, về khái niệm mạng xã hội, lịch sử hình thành mạng xã hội và ý nghĩa của mạng xã hội trong cuộc sống hiện đại. Qua đó có những kiến thức cơ bản về mạng xã hội dé sử
<small>dụng cho việc tách lọc các thông tin thu thập được phục vụ cho việc phân tích bài tốn ở</small>
chương hai. Ngồi ra ở chương một học viên đa tìm hiểu về các khái niệm của khai phá dữ
liệu, các phương pháp chính đề khai phá dit liệu, tìm hiểu về ý nghĩa của việc khai phá dit liệu
<small>trên mạng xã hội qua đó làm rõ hơn mục đích, ý nghĩa của luận văn.</small>
</div><span class="text_page_counter">Trang 11</span><div class="page_container" data-page="11"><small>Trong vài năm qua, Twitter đã trở thành một dịch vụ mạng xã hội lớn. Tại hội nghị</small>
phát triển Twitter Chirp vào tháng 4 năm 2010 các cơng ty này đã trình bày một số thống kê về trang web của mình như số lượng người sử dụng Twitter tính tới năm 2010 là 106 triệu tài
<small>khoản và lượng truy cạp mỗi ngày là 180 triệu mỗi tháng và cứ mỗi ngày lại có thêm khoảng</small>
<small>300000 tài khoản mới được đăng ký. Với mỗi tweet có độ dài 140 ký tự đường như là nhữngthơng tin rời rạc khơng có nghĩa, nhưng với hàng tỷ ký tự được tạo ra mỗi ngày trên twitter thì</small>
đây là một nguồn thơng tin to lớn có thê khai thác
Với nguồn thông tin to lớn này cộng với sức mạnh của cơng nghệ hiện này chúng ta có nhiều cách tiếp cận và phân tích các thơng tin mà người dùng mạng xã hội Twitter đem lại.
Ngoài ra trong thé giới hiện đại ngày nay việc du lịch đã trở nên vô cùng phổ biến đối với xã
hội do nhu cầu cuộc sống ngày càng nâng cao và thu nhập của con người ngày càng lớn hơn so với những nhu cầu cơ bản, chính do nhu cầu du lịch tăng cao nên việc nắm bắt cảm xúc du
khách khi nói về các địa điểm du lịch rất được chú ý là một vấn đề rất được quan tâm. Trong
luận văn này van đề được đặt ra là làm sao dé phân loại được người dùng mạng xã hội Twitter dựa theo cảm nhận của họ về các địa điểm du lịch nổi tiếng dựa trên các tweet từ những người dùng mạng xã hôi Twitter. Y tưởng của luận văn là sử dụng phương pháp SVM (support vector machine) và phương pháp Naive Bayes trong phân loại dư liệu với dữ liệu được lấy từ
<small>các tweet có các has tag là các địa danh du lịch được định sẵn.</small>
Đề phục vụ cho việc phân loại cảm xúc của người dùng xã hội Twitter đối với các địa danh du lịch chúng ta cần thu thập dữ liệu trên Twitter, các dữ liệu sẽ được chọn bằng cách tìm kiếm theo hastag các hastag chính là tên các địa danh du lịch, ngồi ra với cảm xúc của người
<small>dùng đôi với các định danh này sẽ được quy định làm 2 loại cảm xúc là tích cực và tiêu cực.</small>
<small>2.2. Các kỹ thuật phân loại dữ liệu được áp dung</small>
</div><span class="text_page_counter">Trang 12</span><div class="page_container" data-page="12"><small>Sau khi thu thập được các dữ liệu từ mạng xã hội Twitter thì những dữ liệu này sẽ được</small>
sử dụng để đào tạo một dữ liệu phân loại với các thuật toán Navie Bayes và SVM(support vector machine) với mỗi loại chúng ta sẽ trích xuất ra các tính năng tương tự và phân loại
<small>2.2.1. Các tính năng được khai thác</small>
<small>2.2.1.1 Mơ hình N-grams</small>
Mơ hình N-grams ta có thể hiểu đơn giản đó là xác định số tiếng trước khi tach từ, số tiếng tương đương với số grams. Giả sử ta dùng trigrams dé tach từ tức là ta sẽ tách các từ có ba tiếng, unigrams và bigrams cho từ có một tiếng và hai tiếng. Tách từ trong tiếng Việt,
<small>uni-grams và bi-grams rat thường được sử dụng.</small>
Nhằm tạo một cơ sở dữ liệu các cum từ để có thé được dùng cho việc hồn chỉnh phần câu truy van của người dùng, em trích xuất tat cả N-grams theo thứ tự 1, 2 và 3 (unigrams,
bigrams và trigrams) từ tập các văn bản mà máy tìm kiếm có. Ta cũng có thể trích xuất thứ tự
N-grams cao hơn nhưng số lượng các N-grams có khả năng tăng theo cấp số nhân với thứ tự N và như vậy thì có q nhiều N-grams. Hơn nữa, trong khi trích xuất N-grams, ta cịn chú ý đặc
<small>biệt tới từ dừng (stop word).</small>
<small>Có nhiêu từ mà mật độ xuât hiện cao nhưng không mang ý nghĩa cụ thê nào mà chỉ là</small>
<small>những từ nôi, từ đệm hoặc chỉ mang sắc thái biêu cảm như những từ láy. Ví dụ các từ: a, an,</small>
the, about, with, on ... trong tiếng Anh và các từ: là , sẽ, cùng, tới... trong tiếng Việt.
<small>2.2.1.2 Unigrams</small>
Một unigram chỉ đơn giản là một N-gram với kích thước một, hoặc một từ duy nhất. Đối với mỗi từ duy nhất trong một tweet, một tinh năng unigram được tạo ra cho bộ phân loại.
Ví dụ, nếu một tweet dương chứa từ "thị trường", một tính năng phân loại sẽ có hay khơng
một tweet chứa từ "thi trường”. Ké từ khi tinh năng đến từ một tweet tích cực, phân loại sẽ có nhiều khả năng dé phân loại khác tweets có chứa từ "thị trường" là tích cực.
2.2.1.3 Từ điển từ vựng ngoại vi
</div><span class="text_page_counter">Trang 13</span><div class="page_container" data-page="13">Chúng ta sẽ cung cấp cho các tính năng từ từ điển từ vựng bên ngồi thứ được gọi là
<small>sentiStrength, đĩ là một danh sách các từ được định nghĩa trước với một tình cảm tiêu cực hay</small>
ta cĩ thé bỏ sĩt với cách thu thập thong thường.
2.2.2. Cơ sở lý thuyết về Navie Bayes
Là 1 phương pháp phân loại cĩ giám sát. Dù rất dễ hiéu và dé cài đặt, nhưng kết quả thu được lại rất tốt, vì thé đây là 1 phương pháp rất quan trọng trong Nghiên cứu ngơn ngữ tự
nhiên. Ứng dụng đầu tiên trong xử lý ngơn ngữ tự nhiên của máy phân loại này là phân loại
văn bản. Gần đây, máy phân loại này cịn được ứng dụng thành cơng vào phần mềm lọc spam
<small>tự động.</small>
Phân lớp Nạve Bayes giả định rằng sự hiện diện hoặc văng mặt của một đặc tính là độc lập với sự hiện diện và vắng mặt của các đặc tính khác, mà được quy định bởi các tham số phân lớp, ví dụ: một loại trái cây được phân lớp là trái táo nêu nĩ màu đỏ, trịn, cĩ đường kính 3 decimet. Một phân lớp Naive Bayes xem xét các đặc tính này tham gia một cách độc lập dé xác định xác suất mà loại trái cây này là quả táo, bat ké sự hiện diện hay vắng mặt của các đặc tính khác.Đối với một số mơ hình xác suất, phân lớp Naive Bayes cĩ thé được huân luyện một cách hiệu quả trong mơi trường học cĩ giám sát. Trong nhiều ứng dụng thực tế, ước lượng thâm số cho mơ hình Naive Bayes sử dụng phương pháp hợp lý cực đại, nghĩa là khi sử dụng mơ hình Naive Bayes ta phải chấp nhận xác suất Bayes. Mặc dù sử dụng các giả định tương đối đơn giản, nhưng phân lop Naive Bayes cĩ thé áp dụng rat tốt trong nhiều trường hợp phức tạp trong thế giới thực.Một ưu điểm của mơ hình Naive Bayes là chỉ cần sử dụng khối lượng
nhỏ dit liệu huấn luyện dé ước lượng các tham số cần thiết dé phân lớp. Bởi vì các biến độc lập
được giả định, chỉ cĩ sự thay đổi các biến cho mỗi lớp cần được xác định chứ khơng phải trên
<small>tồnbộ hiệp phương sai.</small>
Navie Bayes là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực máy học, được sử dụng lần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm
1961 sau đĩ trở nên phố biến dùng trong nhiều lĩnh vực như trong các cơng cụ tìm kiếm, các
<small>bộ lọc email...</small>
</div>