Tải bản đầy đủ (.doc) (36 trang)

Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (878.26 KB, 36 trang )

1

Trang


 !"#$%
&'
(#)*+,-&.
/,%01%$%2
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
2

 3+
Khi xã hội ngày càng phát triển thì nhu cầu trao đổi thông tin ngày càng cao,
đặc biệt với sự phát triển nhanh của công nghệ thông tin thì việc trao đổi thông tin
số như: dữ liệu, thư điện tử hay email, tin tức,… càng trở nên dễ dàng vì sự nhanh
chóng, tiện lợi mà nó mang lại. Vì thế, hàng ngày chúng ta lại đối mặt khi phải nhận
những thông tin không mong muốn được gởi đến những hộp thư điện tử của cá
nhân, tổ chức với những nội dung chủ yếu là những quảng cáo sản phẩm, quảng cáo
dịch vụ, mời tham gia diễn đàn, mạng xã hội, tuyên truyền sai lệch đường lối chủ
trương của Đảng và pháp luật của Nhà nước, lôi kéo kích động của các phần tử
phản động,… hoặc là những thư có nội dung lừa đảo, ẩn chứa virus để đánh cấp
thông tin người dùng.
Hiện nay, có nhiều phương pháp tiếp cận khác nhau đã được nghiên cứu và
sử dụng nhằm loại bỏ hoặc giảm thiểu ảnh hưởng tác hại của thư rác đến người sử
dụng. Bên cạnh giải pháp phòng chống thư rác bằng pháp lý trong việc xây dựng
Luật để ngăn chặn phát tán thư rác, còn có những giải pháp kỹ thuật nhằm phát
hiện, ngăn chặn thư rác trong những giai đoạn khác nhau của quá trình tạo và phát
tán thư rác. Trong số giải pháp được sử dụng, giải pháp nhận dạng theo nội dung
bằng học máy (machine learning), đang là một trong những giải pháp được sử dụng
rộng rãi và có triển vọng nhất. Nhận dạng, phân loại thư theo nội dung là phương


pháp phân tích nội dung thư để phân biệt thư rác với thư hợp lệ, kết quả phân tích
sau đó được sử dụng để ra quyết định, chuyển tiếp thư đến người nhận hay không.
 451
Nghiên cứu tổng quan các phương pháp phân loại thư rác phổ biến hiện nay,
từ đó xây dựng hệ thống nhận dạng thư rác bằng cách kết hợp các kỹ thuật phổ biến
và kỹ thuật mạng neural nhân tạo cho hệ thống thư điện tử.
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
3

Chương 1 giới thiệu tổng quan về thư rác, các dạng thư rác phổ biến, tác hại
của thư rác gây ra cho người dùng, cho hệ thống; giới thiệu các kỹ thuật phát tán
thư rác phổ biến; tình hình thư rác hiện nay.
&&676896:;<9;=>
1.1.1 Định nghĩa thư rác
Thư rác (spam) là những thư điện tử không yêu cầu, không mong muốn và
được gửi hàng loạt tới nhiều người nhận. “Thư không yêu cầu” ở đây nghĩa là người
nhận thư không yêu cầu người gửi gửi bức thư đó. “Thư được gửi hàng loạt” nghĩa
là bức thư mà người nhận nhận được nằm trong một loạt các thư được gửi đi cho
nhiều người khác và các bức thư này có nội dung tương tự nhau.
Một bức thư được gọi là thư rác chỉ khi nó là thư không yêu cầu và được gửi
hàng loạt. Nếu thư rác chỉ là thư không mong muốn thì nó có thể là những bức thư
làm quen, được gửi lần đầu tiên, còn nến thư rác chỉ là thư được gửi hàng loạt thì nó
có thể là những bức thư gửi cho khách hành của các công ty, các nhà cung cấp dịch
vụ.
Như định nghĩa ở trên, thư rác là thư không yêu cầu và được gửi hàng loạt.
Nhưng yếu tố quan trọng nhất để phân biệt thư rác với thư thông thường phải là ở
nội dung bức thư. Khi một người nhận được thư điện tử, người đó không thể xác
định được thư có được gửi hàng loạt hay không nhưng có thể xác định được chính
xác đó là thư rác sau khi đã xem nội dung thư. Đặc điểm này chính là cơ sở cho giải
pháp phân loại thư rác bằng cách phân tích nội dung thư [9].

1.1.2 Các dạng thư rác
Phần lớn thư rác là thư quảng cáo sản phẩm, hàng hoá, chào mời mua sắm
hoặc sử dụng dịch vụ. Tuy nhiên, cũng tồn tại một lượng thư rác mang những nội
dung khác, có thể phân chia thành:
• Thư có nội dung chính trị: do các tổ chức phản động hay cá nhân hoạt động
chính trị của các tổ chức đó gửi trực tiếp tới người dùng thư điện tử nhằm
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
4
phục vụ mục đích tuyên truyền, quảng bá hay thiết lập quan hệ trực tiếp
hoặc xuyên tạc, vu khống. Hiện tại, ở Việt nam nói chung và ở tỉnh Long
An nói riêng tình hình thư rác có nội dung chính trị được các tổ chức phản
động tích cực gởi về hệ thống thư điện tử của tỉnh Long An nhất là vào
những dịp kỷ niệm ngày lễ lớn, dịp bầu cử,… của đất nước. Đây chính
những là thách thức, cần sớm phát hiện và ngăn chặn kịp thời.
• Thư từ thiện: do các tổ chức hay cá nhân hoạt động từ thiện gửi với nội
dung yêu cầu quyên góp, tài trợ hay trợ giúp. Những người gửi thư dạng
này có thể không nhận thức được họ đang phát tán thư rác do có sự biện hộ
từ mục đích gửi thư.
• Thư có nội dung tôn giáo: dùng để tuyên truyền quảng bá cho các tổ chức
hoạt động tôn giáo.
&?<9@6<AB89CD?<
Đối với nhà cung cấp dịch vụ: thư rác hiện tại chiếm một tỷ lệ vô cùng lớn
trong tổng số thư điện tử được gởi qua mạng internet. Lượng thư rác quá lớn gây ra
nhiều tác hại đối với sự phát triển của mạng internet nói chung và người dùng thư
điện tử nói riêng. Theo thống kê của Kaspersky như hình 1-1, thư rác chiếm từ 60%
đến 80% lượng thư gởi qua các máy chủ thư điện tử, gây lãng phí tài nguyên máy
chủ, làm chậm quá trình xử lý của hệ thống, gia tăng dung lượng bộ nhớ, làm tắc
nghẽn đường truyền mạng, gây chậm trễ đối với những thư được gởi hợp lệ.
E=9&F&GC;HCI=>89CD?<89JKL?K<?K=MNO&
Đối với người dùng: thư rác gây ra một số tác hại sau:

Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
5
+ Thiệt hại kinh tế cho người nhận thư trong trường hợp người nhận phải trả
cước theo lưu lượng thông tin truyền qua mạng.
+ Lãng phí thời gian cho việc mở, xem và xóa khỏi hộp thư, có thể chiếm
đầy hộp thư của người nhận làm cản trở tiếp nhận của những thư hợp lệ đến sau.
+ Ngoài ra, thư rác còn là công cụ gởi tin lừa đảo có thể gây nguy hiểm cho
người dùng như: ngầm chứa virus (có rất nhiều loại virus lây qua thư điện tử như
hình 1-2), phần mềm gián điệp, phần mềm gây hại khác,… nhằm tạo ra các lỗ hỏng
bảo mật trong máy tính và mạng.
E=9&FG9P=>Q6D;RHSTHB=U9VL6W=X;B89CY6:=8Z8DK=>=MNO&
&[\<]=896W8U9^6=9_=`@=>aU9S=HK@689CD?<
1.3.1 Tốc độ phát triển thư rác ngày càng tăng
Thư rác được xem là vấn đề lớn nhất, thách thức lớn nhất mà người sử dụng
internet cũng như các nhà cung cấp dịch vụ ISP phải giải quyết. Theo thống kê của
tổ chức Radicati, trong năm 2013 mỗi ngày có trên 100 tỷ thư được gởi nhận trong
đó 76% thư có nội dung quảng bá dịch vụ, giới thiệu sản phẩm. Dự đoán đến năm
2017 có khoảng 132 tỷ thư được gởi nhận mỗi ngày, trong số đó có khoảng 77%
thư có nội dung quảng cáo, giới thiệu sản phẩm. Ngoài ra, theo thống kê của tổ chức
SpamCop trong những tháng đầu năm 2013 trung bình mỗi giây có từ 5,7 đến 16,1
thư rác được phát tán trên toàn thế giới (hình 1-4).
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
6
E=9&FG9b=>cd8E=99E=9>e6=9_=89CD?<8Dd=89W>676f89JK[UBNKUg
1.3.2 Sự bùng nổ thư rác ở Việt Nam
Theo bảng thống kê 1-1 của tổ chức Kasperky Lab, trong những tháng đầu
năm 2013 Việt Nam đứng thứ 8 trong những quốc gia có nguồn phát tán thư rác
nhiều nhất trên thế giới, đứng đầu danh sách là Trung Quốc, Mỹ, Hàn Quốc,…
!^=>&F&G%B=9R?<9X;b<>6BU9?88?=89CD?<=96h;=9i88Dd=89W>676fYW=
89?=>jkO&g

STT Quốc gia Tỷ lệ phát tán STT Quốc gia Tỷ lệ phát tán
1 Trung Quốc 24,3% 6 Ý 3,6%
2 Mỹ 17,7% 7 Nga 3,2%
3 Hàn Quốc 9,6% 8 6:8BN a2l
4 Ấn Độ 4,4% 9 Brazil 2,2%
5 Đài Loan 4,1% 10 Đức 2,1%
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
7
&'?<U9Cm=>U9?UU9n=><9b=>a=9_=`@=>89CD?<
1.4.1 Phân tích thuộc tính thư gởi
Phương pháp nhận dạng dựa vào thuộc tính thư gởi, chỉ sử dụng những
thông tin thuộc tính liên quan đến thông số kỹ thuật của thư đến như: địa chỉ IP, địa
chỉ thư gởi mà không quan tâm đến nội dung thư, bao gồm:
1.4.1.1 Dựa vào địa chỉ IP
Đây là phương pháp đơn giản nhất và được sử dụng sớm nhất trong việc
nhận dạng, phát hiện thư rác. Phương pháp này đòi hỏi phải xây dựng trước danh
sách địa chỉ IP được xem là nguồn gốc phát tán thư rác. Khi thư được gởi đến, bộ
lọc sẽ phân tích địa chỉ IP của máy gởi và so sánh với danh sách địa chỉ IP bị chặn,
nếu thư gởi đến xuất phát từ máy có IP nằm trong danh sách này thì được xem là
thư rác và ngược lại được xem là thư hợp lệ.
1.4.1.2 Dựa vào danh sách đen (Blacklist)
Trong phương pháp này, người ta lập ra một danh sách các địa chỉ server, tên
miền phát tán thư rác. Các nhà cung cấp dịch vụ ISP sẽ sử dụng những danh sách
này để loại bỏ những thư có địa chỉ, tên miền nằm trong danh sách. Danh sách như
trên được gọi là danh sách đen (blacklist). Danh sách này thường xuyên được cập
nhật và chia sẽ những các nhà cung cấp dịch vụ. Một số danh sách đen điển hình mà
các nhà cung cấp dịch vụ thường tham chiếu như: ,
o/ , ,…
Ưu điểm của phương pháp này là các nhà cung cấp dịch vụ ISP chặn được
khá nhiều địa chỉ IP, tên miền phát tán thư rác. Song dù cho danh sách này luôn

được cập nhật nhưng số lượng thư rác được phát tán vẫn không giảm vì những
người phát tán thư rác luôn tìm cách thay đổi địa chỉ email, địa chỉ IP, tên miền để
vượt qua danh sách đen, thậm chí sử dụng các địa chỉ email công cộng như yahoo,
gmail, hotmail để làm công cụ phát tán. Do vậy, phương pháp được sử dụng để hạn
chế một phần lượng thư rác phát tán, đôi khi có thể làm mất rất nhiều thư hợp lệ nếu
chặn nhầm và cũng mất rất nhiều thời gian để gỡ bỏ khỏi cơ sở dữ liệu tham chiếu ở
trên nếu chẳng may tên miền của tổ chức nằm trong danh sách đen.
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
8
1.4.1.3 Dựa vào danh sách địa chỉ tin cậy – danh sách trắng (whitelist)
Ngược lại với phương pháp dựa vào danh sách đen, phương pháp này sử
dụng những địa chỉ IP, địa chỉ thư điện tử, tên miền được xác định là tin cậy đưa
vào danh sách được gọi là danh sách trắng (whitelist). Danh sách này có thể do một
nhà cung cấp dịch vụ nào đó cung cấp, những thư có địa chỉ, tên miền nằm trong
danh sách sẽ được bộ lọc cho qua. Như vậy, để được nằm trong danh sách trắng
người dùng hoặc địa chỉ mail tên miền của tổ chức phải đăng ký với nhà cung cấp
dịch vụ.
Ưu điểm: số lượng địa chỉ trong danh sách trắng sẽ ít hơn trong danh sách
đen vì thế sẽ dễ dàng cập nhật hơn danh sách đen và giải quyết được tình trạng chặn
nhầm thư.
Tuy nhiên, cả hai phương pháp trên đều có nhược điểm là khó cập nhật, nhất
là khi có sự thay đổi về địa chỉ IP, tên miền. Ngoài ra, người gởi có thể lợi dụng
server mail có trong danh sách trắng để phát tán thư rác, khi đó rất khó kiểm soát.
1.4.1.4 Kiểm tra thông tin Header
Phương pháp này phân tích các trường trong phần header của thư đến để
đánh giá đó là thư hợp lệ hay thư rác. Thư rác thường có những đặc điểm sau:
+ Để trống trường “From” hay trường “To”
+ Trường “From” chứ các địa chỉ không tuân thủ theo chuẩn.
+ Gởi tới một số lượng rất lớn người nhận khác nhau.
+ Chỉ chứa file ảnh mà không chứa các từ để đánh lừa bộ lọc.

+ Sử dụng ngôn ngữ khác với ngôn ngữ người nhận đang sử dụng.
1.4.2 Phân tích nội dung thư
1.4.2.1 Sử dụng kỹ thuật heuristic
Rule based filter là một kỹ thuật đặc trưng của kỹ thuật heuristic. Đây là
phương pháp đơn giản nhất để nhận dạng thư rác dựa vào nội dung của thư. Cách
thức hoạt động của kỹ thuật này là con người sẽ xác định những đặc trưng (từ ngữ,
cụm từ) nào là của thư rác, những đặc trưng nào của thư hợp lệ, sau đó phát hiện
những đặc trưng này trong thư mới nhận để đưa ra kết luận đó là thư rác hay thư
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
9
hợp lệ. Ví dụ các từ trong tiếng Anh được xác định là thư rác khi trong nội dung thư
có từ “FREE” hoặc từ “F*R*E*E”,… Việc xác định trọng số của các đặc trưng trên
bằng tay hoặc bằng thuật toán và xác định một ngưỡng nào đó để nhận dạng thư.
Nếu một thư mới nhận có trọng số các đặc trưng cao hơn ngưỡng cho phép thì được
xem là thư rác.
Hiệu suất nhận dạng thư rác của các chương trình sử dụng phương pháp này
rất khác nhau. Vì mỗi chương trình sử dụng các luật lọc khác nhau. Luật đơn giản
nhất là thư nào có nội dung chứa những đặc trưng của thư rác thì được xem là thư
rác. Điều này làm cho bộ lọc nhận dạng nhầm rất nhiều thư hợp lệ.
Một số chương trình lọc theo phương pháp này như hệ thống chấm điểm
email của mail server MDaemon. Hệ thống chấm điểm này dựa trên kinh nghiệm
việc kiểm tra, lọc email sử dụng một số lượng lớn các luật theo trật tự để máy tính
chấm điểm. Điểm số này được sử dụng để quyết định xem một thư gởi đến là thư
rác hay thư hợp lệ. Ngoài ra, còn một số bộ lọc heuristic khác như SpamAssassin,
SpamGuard,…
Phương pháp này có ưu điểm là dễ cài đặt và hiệu suất phát hiện thư rác cũng
khá cao nếu xây dựng được hệ thống luật tốt. Nhược điểm chính của phương pháp
này là tỷ lệ chặn nhầm thư hợp lệ cũng khá lớn và không linh hoạt do các luật được
xây dựng luôn chậm hơn so với sự biến đổi của các từ đặc trưng trong thư rác và
thường được sử dụng cho các bộ lọc ở phía server.

1.4.2.2 Sử dụng phương pháp xác suất thống kê và học máy
Phân loại, nhận dạng thư rác dựa vào nội dung của thư gởi có thể được xem
như là một trường hợp đặc biệt của bài toán phân loại văn bản (text categorization –
TC) nhị phân [6]. TC chia tất cả các từ vào hai nhóm: thư rác và thư hợp lệ, theo
nghĩa nào đó, một số kỹ thuật TC sử dụng để phân loại, nhận dạng thư gồm các
thuật toán được sử dụng như Ripper, Rocchio, Naïve Bayes và Bayesian được thực
hiện thử nghiệm để phát hiện spam. Hầu hết những phương pháp này phân tích nội
dung của thư gởi để nhận diện từ khóa liên quan đến thư rác và tần suất của các từ
lặp đi lặp lại để xác định thư rác nhằm để phân loại chúng vào những chỗ chứa
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
10
tương ứng để người dùng có thể đọc lại hay xóa bỏ chúng. Hiện nay, các phương
pháp thống kê được sử dụng để phân tích và nhận dạng thư rác được chuyển thành
bài toán bài toán phân lớp, trong phương pháp này có thể sử dụng nhiều kỹ thuật
phân lớp, dựa trên thông tin thống kê đã học từ dữ liệu email thực tế. Cụ thể, bài
toán lọc thư rác thường được coi là bài toán phân lớp văn bản (text), dựa trên cơ sở
là phần lớn các thư có chứa một số dạng nội dung text, những kỹ thuật này khá
thành công mặc dù còn hạn chế về mặc dữ liệu chuẩn để kiểm tra và đủ lớn để có
thể so sánh và đánh giá một cách chính xác. Một số phương pháp học để giải quyết
bài toán nhóm văn bản (text) bao gồm: Naïve Bayes, Neural Network, Chi-squared,
K-Nearest Neighbour, Decision Trees…
1.4.3 Các phương pháp khác
1.4.3.1 Dựa trên xác định danh tính người gởi
Giả mạo thư điện tử- là việc giả mạo địa chỉ thư điện tử của một công ty hoặc
của một người khác để khiến người sử dụng tin tưởng và mở thư- đang là một trong
những thử thách lớn nhất mà cộng đồng sử dụng Internet và các kỹ thuật viên chống
thư rác hiện đang phải đối mặt. Nếu không có sự thẩm định quyền, xác nhận và khả
năng truy tìm danh tính của người gửi, các hãng cung cấp dịch vụ thư điện tử không
bao giờ có thể biết chắc một bức thư là hợp pháp hay bị giả mạo. Do đó việc xác
nhận danh tính của người gửi là rất cần thiết. Để xác nhận danh tính của người gửi

người ta đưa ra một số giải pháp sau:
Phương pháp DomainKeys
Phương pháp DomainKeys có thể giúp phân định rõ thư rác và thư thường
bằng cách cung cấp cho các hãng cung cấp dịch vụ thư điện tử một cơ chế xác nhận
cả tên miền của mỗi người gửi thư điện tử và sự liêm chính của mỗi bức thư được
gửi đi (ví dụ như các thư này không bị thay thế trong khi được truyền qua mạng). Và
sau khi đã xác nhận được tên miền, người ta có thể so sánh tên miền này với tên
miền mà người gửi sử dụng trong ô “Người gửi” của bức thư để phát hiện các trường
hợp giả mạo. Nếu đây là trường hợp giả mạo, thư đó sẽ bị coi là thư rác hoặc gian
lận và có thể bị loại bỏ mà không ảnh hưởng tới người sử dụng. Nếu đây không phải
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
11
là thư giả mạo, có nghĩa là tên miền được biết đến và tên miền gửi thư đó có thể
được được đưa vào danh sách những tên miền đáng tin cậy và được đưa vào các hệ
thống quy định chống thư rác được sử dụng chung giữa các hãng cung cấp dịch vụvà
thậm chí đưa ra cho cả người sử dụng.
Phương pháp Call-ID
Caller ID là một tiêu chuẩn đặt ra trong quá trình gửi thư. Tiêu chuẩn này đòi
hỏi người gửi thư điện tử phải cung cấp địa chỉ IP của máy chủ gửi thư theo dạng
XML vào bản ghi DNS trên máy chủ tên miền của họ. Máy chủ nhận thư điện tử và
máy khách nhận bức thư đó sẽ kiểm tra địa chỉ gửi thư trong tiêu đề bức thư với địa
chỉ đã được công bố để xác nhận máy chủ gửi thư. Các bức thư không khớp với địa
chỉ nguồn sẽ bị loại bỏ. DNS là hệ thống diễn dịch các địa chỉ IP số sang các tên
miền Internet có thể đọc được.
Phương pháp SPF (Sender Policy Framework) - dựa trên cơ cấu chính sách
người gửi
Chuẩn SPF cũng yêu cầu người gửi thư điện tử phải sửa đổi DNS để cho biết
máy chủ nào có thể gửi thư từ một tên miền Internet nhất định. Tuy nhiên, SPF chỉ
kiểm tra sự giả mạo khi bức thư trong quá trình chuyển thư hay còn gọi là ở mức
“ngoài phong bì”, xác minh địa chỉ “phản hồi” của một bức thư, thường được máy

chủ nhận thư gửi trở lại trước khi tiếp nhận phần nội dung thư, sau đó sẽthông báo
tới máy chủ nhận thư để loại bỏ bức thư.
Trong đặc tả kỹ thuật kết hợp hai tiêu chuẩn, các công ty gửi thư điện tử sẽ
công bố địa chỉ máy chủ thư điện tử của họ trong bản ghi DNS dưới định dạng Ngôn
ngữ đánh dấu mở rộng (XML). Các công ty sẽ có thể kiểm tra sự giả mạo ở mức
phong bì (cũng giống như trong đề xuất SPF) và trong phần nội dung thư (theo đề
xuất của Microsoft).
Kỹ thuật này sẽ cho phép các công ty sử dụng cách thức của SPF để loại bỏ
thư rác trước khi chúng được gửi đi, nếu sự giả mạo bị phát hiện ngay ở mức phong
bì. Với những bức thư đòi hỏi sự kiểm tra kỹ hơn trong nội dung thư, thì phương
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
12
pháp Caller ID sẽ được sử dụng. Đề xuất này cũng sẽ hỗ trợ các tên miền đã có sẵn
những bản ghi SPF là văn bản, không theo định dạng XML.
1.4.3.2 Dựa vào hệ thống hỏi đáp (Challenge/Response Systems)
Nguyên lý hoạt động của phương pháp này là khi có một bức thư được gửi từ
một địa chỉ lạ, bộ lọc sẽ gửi trả lại bức thư và yêu cầu người gửi điền các thông tin
cần thiết vào một form để xác thực bức thư mới đó như trên hình 1.6
E=9&F'Go8^X;?8DE=9p?<89\<89C
Phương pháp này tỏ ra rất hiệu quả nếu được người dùng chấp nhận vì những
người phát tán thư rác sẽ không thể nào phản hồi hết được thư rác mà họ đã gửi. Tuy
nhiên, việc làm này rất khó được người dùng chấp nhận vì để gửi một bức thư giới
thiệu họ phải chờ đợi phản hồi từ phía bộ lọc rồi bức thư đó mới chính thức đến
đích.
Yahoo cũng có sử dụng một cơ chế tương tự, nếu như ai đó sử dụng hòm thư
của Yahoo gửi liên tục nhiều bức thư một lúc thì hệ thống chống thư rác của Yahoo
sẽ gửi lại một form yêu cầu người dùng xác thực. Đây là một trong những cách khá
hữu hiệu của Yahoo để chống những người gửi thư rác lợi dụng dịch vụ của Yahoo
phát tán thư rác.
Bên cạnh việc yêu cầu điền thông tin xác thực vào những biểu mẫu thông

thường, phương pháp này có thể sử dụng những kỹ thuật phức tạp hơn để tránh
trường hợp chương trình gửi thư rác có thể điền thông tin vào biểu mẫu tự động. Kỹ
thuật thường được sử dụng Turing test, tức là yêu cầu thực hiện một công việc rất dễ
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
13
với con người nhưng rất khó với máy tính. Ví dụ, chương trình thư điện tử của người
nhận sẽ gửi lại một ảnh nhỏ có chữ như hình 1-7.
E=9&FjG[Z`q=>cr89;_8<BU8<9BYsp?<89\<cW8=b6
Người nhận yêu cầu người gởi xác thực bằng cách gõ và gửi lại các ký tự như
trên hình vẽ. Đây là công việc rất dễ đối với con người nhưng lại vô cùng khó với
máy tính.
1.4.3.3 Xác thực tự động
Để tránh cho người gởi không phải tự mình xác thực yêu cầu như ở phương
pháp trên, yêu cầu xác thực có thể được thực hiện tự động. Trong trường hợp này,
chương trình gởi thư của người nhận sẽ gởi yêu cầu chương trình gởi thư của người
gởi thực hiện một số việc tính toán và gởi lại kết quả để xác thực. Việc tính toán kết
quả và xác thực đòi hỏi một số lượng nhất định tài nguyên tính toán và do chương
trình gởi đi hàng loạt với số lượng lớn nên sẽ không thể thực hiện được việc tính
toán và xác thực như vậy với mọi thư đã gởi đi.
Ưu điểm cơ bản của phương pháp này là có thể tự động hóa toàn bộ khâu
kiểm tra và xác thực. Nếu độ phức tạp của việc tính toán khi xác thực đủ lớn thì hiệu
của quả phương pháp này gần như tuyệt đối.
1.4.3.4 Kỹ thuật giấu địa chỉ thư điện tử
Cách đơn giản nhất để loại bỏ thư rác là không công khai địa chỉ thư sử dụng
trên các trang thông tin liên hệ. Địa chỉ thư chỉ cho các tổ chức hay cá nhân tin cậy
biết. Trong liên lạc hằng ngày có thể sử dụng tài khoản thư tạm thời cho các cá nhân
hay tổ chức kém tin cậy hơn [9].
Nếu địa chỉ yêu cầu phải công bố trên cổng thông tin thì phải che đậy bằng
cách chèn một thẻ vào và thẻ này sẽ được gỡ bỏ trước khi địa chỉ thư được sử dụng
hoặc chuyển đổi thành hình ảnh nhằm mục đích không cho các phần mềm thu thập

địa chỉ thư tự động tìm thấy.
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
14
 !"#$
%
Chương này giới thiệu các phương pháp phân loại văn bản, biểu diễn văn
bản bằng vector đặc trưng, các phương pháp tách câu, tách từ tiếng Việt, cách thức
lựa chọn các token đặc trưng có giá trị phân loại văn bản tiếng Việt.
&j676896:;<9;=>
Ngoài các phương pháp nhận dạng, ngăn chặn thư rác thông dụng như dựa
vào địa chỉ IP, danh sách whitelist, blacklist,… phương pháp nhận dạng, phân loại
dựa vào nội dung hiện được sử dụng rộng rãi trong các hệ thống. Nhận dạng, phân
loại theo nội dung hoạt động theo nguyên tắc phân loại thư điện tử thành hai nhóm
“thư rác” và “thư hợp lệ” bằng cách phân tích phần nội dung của thư [6].
Nhận dạng thư rác dựa vào nội dung của thư được xem là trường hợp riêng
của bài toán phân loại văn bản nhị phân, tùy thuộc vào nội dung của thư gởi đến mà
được phân vào thư rác hoặc thư hợp lệ. Việc phân loại được tiến hành như sau, đầu
tiên nội dung thư được biểu diễn dưới dạng các đặc trưng hay các thuộc tính, mỗi
đặc trưng thường là một từ hoặc cụm từ xuất hiện trong thư [1]. Tiếp theo, trong giai
đoạn huấn luyện, tập thư đã được gắn nhãn {thư rác, thư hợp lệ} gọi là tập dữ liệu
mẫu hay dữ liệu huấn luyện và được sử dụng để huấn luyện một bộ phân loại. Sau
khi huấn luyện xong, bộ phân loại được sử dụng để xác định thư mới đến thuộc dạng
thư rác hay thư hợp lệ.
Có rất nhiều phương pháp phân loại văn bản được ứng dụng để phân loại nội
dung thư điện tử như: phân loại dựa trên láng giềng gần nhất (k-nearest neighbors),
phương pháp dựa trên xác suất Naïve Bayses, dựa vào thuật toán Chi-squared,
Support Vector Machine (SVM), Boostings Tree, mạng neural nhân tạo (ANN).
Trong phần sau, sẽ trình bày tóm tắt một số phương pháp được áp dụng để phân loại
thư rác.
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác

15
&.9Cm=>  U9?U  U9S=  HK@6  QM=  L^=  Lt=>  @=>  =J;DBH  =9S=  8@K
fD86u6<6BHJ;DBHJ8vKDcg
Phân loại bằng mô hình mạng neural là một cách phân loại mới được đề xuất,
cấu trúc và mô hình hoạt động của mạng neural cơ bản dựa trên mô phỏng của bộ
não con người. Mạng neural được ứng dụng trong rất nhiều lĩnh vực khác nhau và có
khả năng giải quyết vấn đề phức tạp, phạm vi rộng. Mạng neural nhân tạo là mạng
gồm các nút (neural) nối với nhau. Các nút đầu vào tương ứng với các đặc trưng, nút
đầu ra tương ứng với nhãn phân loại. Trọng số liên kết giữa các nút thể hiện mối
quan hệ phụ thuộc giữa nhãn phân loại với đặc trưng và được xác định trong quá
trình huấn luyện mạng. Mỗi nút mạng được đặc trưng bởi một hàm kích hoạt cho
phép xác định giá trị đầu ra của nút theo giá trị đầu vào [8].
Để phân loại một thư, vector trọng số của thư đó được sử dụng làm giá trị đầu
vào cho mạng, mức độ kích hoạt của nút tương ứng được lan truyền về phía nút đầu
ra, giá trị của nút này sẽ xác định giá trị nhãn phân loại [6]. Chi tiết về phương pháp
tiếp cận, các thuật toán được sử dụng sẽ được trình bày chi tiết ở chương sau.
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
16
(#)*+,-
Chương này giới thiệu cơ sở lý thuyết về mạng neural nhân tạo, mô hình
mạng neural, các phương pháp huấn luyện, giải thuật huấn luyện và một số ứng
dụng mạng neural trên thực tế.
&wx9?6=6:NQhN@=>=J;DBH=9S=8@K
1.7.1 Ý tưởng sinh học
Theo các nhà nghiên cứu sinh học về bộ não, hệ thống thần kinh của con
người bao gồm khoảng 100 tỷ tế bào thần kinh, thường gọi là các neural [7]. Mỗi tế
bào neural gồm ba phần (hình 3-1):
+ Thân neural với nhân bên trong (gọi là soma), là nơi tiếp nhận hay phát ra
các xung động thần kinh.
+ Một hệ thống dạng cây các dây thần kinh vào (gọi là dendrite) để đưa tín

hiệu tới nhân neural. Các dây thần kinh vào tạo thành một lưới dày đặc xung quanh
thân neural, chiếm diện tích khoảng 0,25 mm
2
.
+ Đầu dây thần kinh ra (gọi là sợi trục axon) phân nhánh dạng hình cây, có
thể dài từ một cm đến hàng mét. Chúng nối với các dây thần kinh vào hoặc trực tiếp
với nhân tế bào của các neural khác thông qua các khớp nối (gọi là synapse). Thông
thường mỗi neural có thể có từ vài chục cho tới hàng trăm ngàn khớp nối để nối với
các neural khác. Có hai loại khớp nối, khớp nối kích thích (excitatory) sẽ cho tín
hiệu qua nó để tới neural còn khớp nối ức chế (inhibitory) có tác dụng làm cản tín
hiệu tới neural.
Chức năng cơ bản của các tế bào neural là liên kết với nhau để tạo nên hệ
thống thần kinh điều khiển hoạt động của cơ thể sống. Các tế bào neural truyền tín
hiệu cho nhau thông qua các dây thần kinh vào và ra, các tín hiệu đó có dạng xung
điện và được tạo ra từ các quá trình phản ứng hoá học phức tạp. Tại nhân tế bào, khi
điện thế của tín hiệu vào đạt tới một ngưỡng nào đó thì nó sẽ tạo ra một xung điện
dẫn tới trục dây thần kinh ra. Xung này truyền theo trục ra tới các nhánh rẽ và tiếp
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
17
tục truyền tới các neural khác.
E=9FGi;8@KY6s=9E=9<AB8WLyK=J;DBHR6=99z<
1.7.2 Mô hình mạng neural nhân tạo
Mô hình toán học của mạng neural sinh học được đề xuất bởi McCulloch và
Pitts, thường được gọi là neural M-P, ngoài ra nó còn được gọi là phần tử xử lý và
được ký hiệu là PE (Processing Element).
Mô hình neural có m đầu vào x
1
, x
2
, , x

m
, và một đầu ra y
i
như sau [8]:
E=9F'Go9E=9N{8=J;DBH=9S=8@K
Trong đó:
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
18
+ Tập các đầu vào: Là các tín hiệu vào của neural, các tín hiệu này thường
được đưa vào dưới dạng một vector m chiều.
+ Tập các liên kết (các trọng số): Mỗi liên kết được thể hiện bởi một trọng số
(thường được gọi là trọng số liên kết). Trọng số liên kết giữa tín hiệu vào thứ
j cho neural i thường được ký hiệu là w
ij
. Thông thường các trọng số này
được khởi tạo ngẫu nhiên ở thời điểm khởi tạo mạng và được cập nhật liên
tục trong quá trình học mạng.
+ Bộ tổng (Hàm tổng): dùng để tính tổng của tích các đầu vào với trọng số
liên kết của nó.
+ Ngưỡng: thường được đưa vào như một thành phần của hàm truyền.
+ Hàm truyền (hàm kích hoạt): Hàm này dùng để giới hạn phạm vi đầu ra của
mỗi neural. Nó nhận đầu vào là kết quả của hàm tổng và ngưỡng đã cho.
Thông thường, phạm vi đầu ra của mỗi neural được giới hạn trong đoạn [0,1]
hoặc [-1,1]. Các hàm truyền rất đa dạng, có thể là các hàm tuyến tính hoặc phi
tuyến. Việc lựa chọn hàm truyền tùy thuộc vào từng bài toán và kinh nghiệm
của người thiết kế mạng.
+ Đầu ra: Là tín hiệu đầu ra của một neural, với mỗi neural sẽ có tối đa một
đầu ra.
Về mặt toán học, cấu trúc của một neural i được mô tả bằng cặp biểu thức
sau:

)(
iii
netfy
θ
−=

j
n
j
iji
xwnet

=
=
1
trong đó: x
1
, x
2
, …x
m
là các tín hiệu đầu vào, còn w
i1
, w
i2
,…,w
im
là các trọng
số kết nối của neural thứ i, net
i

là hàm tổng, f là hàm truyền,
i
θ
là một ngưỡng, y
i

tín hiệu đầu ra của neural.
Như vậy, tương tự như neural sinh học, neural nhân tạo cũng nhận các tín
hiệu đầu vào, xử lý (nhân các tín hiệu này với trọng số liên kết, tính tổng các tích thu
được rồi gửi kết quả đến hàm truyền) và cho một tín hiệu đầu ra (kết quả của hàm
truyền).
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
19
Hàm truyền có thể có các dạng sau:
- Hàm bước



<

=
00
01
xkhi
xkhi
y
- Hàm giới hạn chặt (hay còn gọi là hàm bước)




<−

==
01
01
)sgn(
xkhi
xkhi
xy
- Hàm bậc thang





<
≤≤
>
==
00
10
11
)sgn(
xkhi
xkhix
xkhi
xy
- Hàm ngưỡng đơn cực
x
λ


+
=
e
y
1
1
với λ>0
- Hàm ngưỡng hai cực
1
1
2

+
=
− x
λ
e
y
với λ>0
Đồ thị các dạng hàm truyền được biểu diễn như sau:
E=9FjG|89}<?<`@=>9yN8D;Th=
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
20
1.7.3 Lịch sử phát triển mạng neural
Đầu thế kỷ 20, một số nghiên cứu về hệ thần kinh của các nhà khoa học
Herman, Ernst Mach và Ivan Ivalov đã đưa ra các lý thuyết về quá trình học, sự
quyết định,… của hệ thần kinh nhưng chưa có sự mô tả toán học cho hoạt động của
mạng neural.
Năm 1943, Warren McCulloch và Walter Pits khẳng định mạng neural về

nguyên lý có thể thực hiện được trong phạm vi tính toán các hàm số học và logic.
Đây là điểm khởi đầu của mạng neural.
Cuối thập niên 50, Frank Rosentblalt giới thiệu mạng Perceptron có kết hợp
luật học (learning rule) dùng để nhận dạng mẫu (pattern recognition), đây là ứng
dụng đầu tiên của mạng neural nhân tạo.
Sang thập niên 80, khi ngành công nghiệp máy tính phát triển mạnh mẽ thì
những nghiên cứu về mạng neural tăng lên đột ngột, trong đó có 2 sáng kiến quan
trọng:
+ Sử dụng thống kê để giải thích hoạt động của mạng hồi quy một lớp
(recurrent network), loại mạng được sử dụng như một bộ nhớ kết hợp, được nhà vật
lý John Hopfield mô tả.
+ Sử dụng thuật toán lan truyền ngược (back propagation algorithm), được
David Rumelhalt và James McClrlland đề xuất, để huấn luyện các mạng perceptron
đa lớp (multilayer perceptron network).
&~x6W=8D•<N@=>=J;DBH=9S=8@K
Mặc dù mỗi neural đơn lẻ có thể thực hiện những chức năng xử lý thông tin
nhất định, sức mạnh của tính toán neural chủ yếu có được nhờ sự kết hợp các neural
trong một kiến trúc thống nhất. Một mạng neural là một mô hình tính toán được xác
định qua các tham số: kiểu neural (như là các nút nếu ta coi cả mạng neural là một
đồ thị), kiến trúc kết nối (sự tổ chức kết nối giữa các neural) và thuật toán học (thuật
toán dùng để học cho mạng) [7].
Về bản chất một mạng neural có chức năng như là một hàm ánh xạ F: X →
Y, trong đó X là không gian trạng thái đầu vào (input state space) và Y là không gian
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
21
trạng thái đầu ra (output state space) của mạng. Các mạng chỉ đơn giản là làm nhiệm
vụ ánh xạ các vector đầu vào x X sang các vector đầu ra y Y thông qua “bộ lọc”∈ ∈
(filter) các trọng số. Tức là y = F(x) = s(W, x), trong đó W là ma trận trọng số liên
kết. Hoạt động của mạng thường là các tính toán số thực trên các ma trận.
1.8.1 Các kiểu mạng neural

Cách thức kết nối các neural trong mạng xác định kiến trúc (topology) của
mạng. Các neural trong mạng có thể kết nối đầy đủ (fully connected) tức là mỗi
neural đều được kết nối với tất cả các neural khác, hoặc kết nối cục bộ (partially
connected) chẳng hạn chỉ kết nối giữa các neural trong các tầng khác nhau. Người ta
chia ra hai loại kiến trúc mạng chính:
+ Tự kết hợp (autoassociative): là mạng có các neural đầu vào cũng là các
neural đầu ra. Mạng Hopfield là một kiểu mạng tự kết hợp.
E=9F.G@=>8\cW89IU
+ Kết hợp khác kiểu (heteroassociative): là mạng có tập neural đầu vào và
đầu ra riêng biệt. Perceptron, các mạng Perceptron nhiều tầng (MLP: MultiLayer
Perceptron), mạng Kohonen, … thuộc loại này.
E=9FwG@=>cW89IUc9?<c6s;
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
22
Ngoài ra tùy thuộc vào mạng có các kết nối ngược (feedback connections) từ
các neural đầu ra tới các neural đầu vào hay không, người ta chia ra làm 2 loại kiến
trúc mạng.
+ Kiến trúc truyền thẳng (feedforward architechture): là kiểu kiến trúc mạng
không có các kết nối ngược trở lại từ các neural đầu ra về các neural đầu vào; mạng
không lưu lại các giá trị output trước và các trạng thái kích hoạt của neural. Các
mạng neural truyền thẳng cho phép tín hiệu di chuyển theo một đường duy nhất; từ
đầu vào tới đầu ra, đầu ra của một tầng bất kì sẽ không ảnh hưởng tới tầng đó. Các
mạng kiểu Perceptron là mạng truyền thẳng.
E=9F~G@=>8D;Th=89€=>
+ Kiến trúc phản hồi (Feedback architecture): là kiểu kiến trúc mạng có các
kết nối từ neural đầu ra tới neural đầu vào. Mạng lưu lại các trạng thái trước đó, và
trạng thái tiếp theo không chỉ phụ thuộc vào các tín hiệu đầu vào mà còn phụ thuộc
vào các trạng thái trước đó của mạng. Mạng Hopfield thuộc loại này.
E=9F2G@=>U9^=9|6f9|6X;Tg
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác

Nếu net
i
≥ θ
Nếu net
i
< θ
23
1.8.2 Mạng Perceptron 1 lớp
Mạng perceptron [8] một lớp do F.Rosenblatt đề xuất năm 1960 là mạng
truyền thẳng chỉ một lớp vào và một lớp ra không có lớp ẩn (như hình 3-8). Trên mỗi
lớp này có thể có một hoặc nhiều neural. Mô hình mạng neuralcủa Rosenblatt sử
dụng hàm bước đóng vai trò là hàm chuyển. Do đó, tổng của các tín hiệu vào lớn
hơn giá trị ngưỡng thì giá trị đầu ra của neural sẽ là 1, còn trái lại sẽ là 0.



=
0
1
i
Out
Với

=
jiji
xwnet
là tổng thông tin đầu vào của neural i
Ngay từ khi mạng Perceptron một lớp được đề xuất nó đã được sử dụng để
giải quyết bài toán phân lớp. Một đối tượng sẽ được neural i phân vào lớp A nếu
tổng thông tin đầu vào

ijij
xw
θ
>

Trong đó w
ij
là trọng số liên kết từ neural j tới neural i, x
j
là đầu vào từ neural
j và θ là ngưỡng của neural i. Trong trường hợp trái lại đối tượng sẽ được phân vào
lớp B.
E=9F&OG@=>JD<JU8DK=
1.8.3 Mạng Perceptron nhiều lớp
Mô hình mạng neural được sử dụng rộng rãi nhất là mô hình mạng nhiều tầng
truyền thẳng (MLP: Multi Layer Perceptron) [8]. Một mạng MLP tổng quát là mạng
có n (n≥2) tầng (thông thường tầng đầu vào không được tính đến): trong đó gồm một
tầng đầu ra (tầng thứ n) và (n-1) tầng ẩn.
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
24
E=9F&&G@=>UJD<JU8DK==96h;H7U8V=>X;?8
Kiến trúc của một mạng MLP tổng quát có thể mô tả như sau:
+ Đầu vào là các vector (x
1
, x
2
, , x
p
) trong không gian p chiều, đầu ra là các
vector (y

1
, y
2
, , y
q
) trong không gian q chiều. Đối với các bài toán phân loại, p
chính là kích thước của mẫu đầu vào, q chính là số lớp cần phân loại. Xét ví dụ trong
bài toán nhận dạng chữ số: với mỗi mẫu ta lưu tọa độ (x,y) của 8 điểm trên chữ số
đó, và nhiệm vụ của mạng là phân loại các mẫu này vào một trong 10 lớp tương ứng
với 10 chữ số 0, 1, …, 9. Khi đó p là kích thước mẫu và bằng 8 x 2 = 16; q là số lớp
và bằng 10.
+ Mỗi neural thuộc tầng sau liên kết với tất cả các neural thuộc tầng liền trước
nó.
+ Đầu ra của neural tầng trước là đầu vào của neural thuộc tầng liền sau nó.
Hoạt động của mạng MLP như sau: tại tầng đầu vào các neural nhận tín hiệu
vào xử lý (tính tổng trọng số, gửi tới hàm truyền) rồi cho ra kết quả (là kết quả của
hàm truyền); kết quả này sẽ được truyền tới các neural thuộc tầng ẩn thứ nhất; các
neural tại đây tiếp nhận như là tín hiệu đầu vào, xử lý và gửi kết quả đến tầng ẩn thứ
2;… quá trình tiếp tục cho đến khi các neural thuộc tầng ra cho kết quả.
Một số kết quả đã được chứng minh:
+ Bất kì một hàm Boolean nào cũng có thể biểu diễn được bởi một mạng
MLP 2 tầng trong đó các neural sử dụng hàm truyền sigmoid.
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác
25
+ Tất cả các hàm liên tục đều có thể xấp xỉ bởi một mạng MLP 2 tầng sử
dụng hàm truyền sigmoid cho các neural tầng ẩn và hàm truyền tuyến tính cho các
neural tầng ra với sai số nhỏ tùy ý.
+ Mọi hàm bất kỳ đều có thể xấp xỉ bởi một mạng MLP 3 tầng sử dụng hàm
truyền sigmoid cho các neural tầng ẩn và hàm truyền tuyến tính cho các neural tầng
ra.

&2?<>6^689;_89;i=H;T:=
1.9.1 Các phương pháp học
Một mạng neural được huấn luyện sao cho với một tập các vector đầu vào X,
mạng có khả năng tạo ra tập các vector đầu ra mong muốn Y của nó. Tập X được sử
dụng cho huấn luyện mạng được gọi là tập huấn luyện (training set). Các phần tử x
thuộc X được gọi là các mẫu huấn luyện (training example). Quá trình huấn luyện
bản chất là sự thay đổi các trọng số liên kết của mạng. Trong quá trình này, các trọng
số của mạng sẽ hội tụ dần tới các giá trị sao cho với mỗi vector đầu vào x từ tập
huấn luyện, mạng sẽ cho ra vector đầu ra y như mong muốn
Có ba phương pháp học phổ biến là học có giám sát (supervised learning),
học không giám sát (unsupervised learning) và học tăng cường (reinforcement
learning).
1.9.1.1 Học giám sát (Supervised learning)
Mạng được huấn luyện bằng cách cung cấp cho nó các cặp mẫu đầu vào và
các đầu ra mong muốn (target values). Các cặp được cung cấp bởi "chuyên gia", hay
bởi hệ thống trên đó mạng hoạt động. Sự khác biệt giữa các đầu ra thực tế so với các
đầu ra mong muốn được thuật toán sử dụng để điều chỉnh thích ứng với các trọng số
trong mạng. Điều này thường được đưa ra như một bài toán xấp xỉ hàm số - cho dữ
liệu huấn luyện bao gồm các cặp mẫu đầu vào x và một đích tương ứng t, mục đích
là tìm ra hàm f(x) thoả mãn tất cả các mẫu học đầu vào.
Tìm hiểu mạng Neural và thuật toán Perceptron Learning ứng dụng nhận dạng thư rác

×