Tải bản đầy đủ (.docx) (73 trang)

Báo cáo nghiên cứu khoa học nhận dạng ký tự quang học

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.8 MB, 73 trang )

LỜI CẢM ƠN
Chúng em xin gửi lời cảm ơn tới ThS Nguyễn Văn Thắng – người thầy đã tận
tình hướng dẫn, giúp đỡ chúng em hoàn thành đề tài nghiên cứu khoa học này. Chúng
em cũng xin cảm ơn ThS Trần Hùng Cường, ThS Đỗ Thị Tâm - giảng viên trường Đại
học Công Nghiệp Hà Nội, TS Nguyễn Đức Dũng – Phòng nhận dạng và Công nghệ tri
thức Viện công nghệ thông tin là những người thầy đã giúp đỡ chúng em về nguồn tài
liệu và giải đáp những khó khăn gặp phải khi thực hiện đề tài này.
Mặc dù đã rất cố gắng, song đề tài nghiên cứu vẫn còn nhiều thiết sót, nhóm
nghiên cứu đề tài rất mong được nhận được những ý kiến của các thầy cô để đề tài
nghiên cứu được hoàn thiện hơn nữa.
Em xin chân thành cảm ơn !

1


NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................

Giáo viên hướng dẫn

Nguyễn Văn Thắng


2


MỤC LỤC

3


PHẦN MỞ ĐẦU
I.

Lý do chọn đề tài:

Nhận dạng ký tự quang học - Optical Character Recognition (OCR) là một trong
những đề tài nghiên cứu vô cùng hấp dẫn, có nhiều ứng dụng thực tiễn trong cuộc
sống, đặc biệt nhận dạng ký tự quang học là một trong những ứng dụng thực tiễn đó
giúp giảm thiểu thời gian công sức cho con người trong việc chuyển đổi ảnh scan, ảnh
chụp tài liệu..thành dạng văn bản.
Trên thế giới, một số sản phẩm nổi tiếng về nhận dạng chữ Latin đã được thương mại
hoá trên thị trường như : OMNIPAGE 8.0, 9.0 (phiên bản gần nhất) của hãng Caere
Corporation, Mỹ, RECOGNITA 5.0 của Recognita Corporation of Hunggary,
CURNEIFORM 3.0, của Cognitive Technology Corporation, Mỹ, TexBridge Pro 96
của Xerox Corporation, IMAG-IN 4.0 (Pháp), và ABBYY - một hãng công nghệ hàng
đầu trên thế giới về lĩnh vực nhận dạng ký tự quang học đã tiến hành nghiên cứu và
triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009.
Trong nước, tiêu biểu có phần mềm nhận dạng chữ Việt in – VnDOCR phần mềm
thương mại của Phòng nhận dạng và Công nghệ tri thức của Viện công nghệ thông tin
Việt Nam đã đoạt giải nhất cuộc thi Giải thưởng thi sản phẩm CNTT 98, đã được
nhiều tổ chức, cơ quan, cá nhân sử dụng. Hiện tại, phiên bản mới nhất của phần mềm
là VnDOCR 4.0.

Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên
nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. VietOCR có khả năng nhận
dạng chữ Việt khá tốt. Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận
dạng cho nhiều định dạng ảnh.
Từ những sản phẩm trên có thể thấy vấn đề xử lý chữ in nói chung hay chữ in Tiếng
việt nói riêng được giải quyết. Nhưng, đề tài này đối với sinh viên chuyên ngành Công
nghệ thông tin còn chưa được nghiên cứu rộng khắp, chưa thực sự quan tâm tới lĩnh
vực nhận dạng, một trong những lĩnh vực có vô vàn ứng dụng thực tiễn trong đời sống.
II.

Mục đích chọn đề tài:

Mục đích của đề tài nghiên cứu này là tạo ra một nguồn tài liệu cơ sở trong lĩnh vực
nhận dạng ký tự, từ đó có cái nhìn tổng quan về phương thức thực hiện hay các vấn đề
gặp phải trong bài toán nhận dạng ký tự, kích thích sự đam mê và khả năng nghiên cứu
khoa học của sinh viên nhằm phát triển được nhiều ứng dụng thực tiễn hơn nữa liên
quan tới ký tự chữ in như: Nhận dạng CMTND, hộ chiếu, biển số xe...
4


III.

IV.

V.

Nhiệm vụ nghiên cứu:
• Nghiên cứu những khái niệm, những vấn đề gặp phải và đưa ra giải pháp
của quá trình xử lý ảnh ký tự, một trong những bước quan trọng của quá
trình nhận dạng.

• Nghiên cứu những vấn đề xoay quanh một phương pháp nhận dạng được
đánh giá cao - mạng noron. Trên cơ sở đó tiến hành xây dựng mạng noron
phù hợp với nhận dạng ký tự.
• Thực hiện cài đặt chương trình nhận dạng ký tự quang học.
Phương pháp nghiên cứu:
• Phương pháp nghiên cứu chủ yếu là tham khảo tài liệu, bài viết liên quan tới
nhận dạng ký tự quang học.
• Tìm nguồn tài liệu trên Internet, sách báo liên quan.
• Nghiên cứu ngôn ngữ c# để tiến hành cài đặt chương trình nhận dạng ký tự.
Bố cục bài báo cáo
Báo cáo được chia thành 3 chương:
Chương 1: Tổng quan cơ sở lý thuyết.

Chương này giới thiệu những kiến thức cơ bản về xử lý ảnh có liên quan
và lý thuyết về mạng mạng noron nhân tạo.
Chương 2: Mô hình nhận dạng ký tự quang học.
Chương này trình bày về mô hình nhận dạng ký tự quang học tiêu biểu,
các bước thực hiện được trình bày chi tiết về cách thức tiếp cận, vấn đề gặp phải và ý
tưởng thực hiện.
Chương 3: Hướng phát triển đề tài và kết luận.

5


Chương 1: TỔNG QUAN CƠ SỞ LÝ THUYẾT
I. XỬ LÝ ẢNH VÀ CÁC KHÁI NIỆM CƠ BẢN TRONG XỬ LÝ ẢNH
1.1. Xử lý ảnh
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò
quan trọng nhất. Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử
lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc

sống. Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy.
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra
kết quả mong muốn. Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt
hơn” hoặc một kết luận.

Ảnh

XỬ LÝ ẢNH

Ảnh
“Tốt hơn”
Kết luận

Hình 1.2: Quá trình xử lý ảnh.
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc
trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong
không gian và nó có thể xem như một hàm n biến P(c 1, c2,..., cn). Do đó, ảnh trong xử
lý ảnh có thể xem như ảnh n chiều.

1.2. Các khái niệm cơ bản trong xử lý ảnh
1.2.1. Một số khái niệm cơ bản
* Ảnh và điểm ảnh:
Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại 1 toạ độ trong không
gian của đối tượng và ảnh được xem như là 1 tập hợp các điểm ảnh.
* Mức xám, màu
Là số các giá trị có thể có của các điểm ảnh của ảnh.
1.2.2 Khử nhiễu :
Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh

• Nhiều hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi

• Nhiễu ngẫu nhiên: vết bẩn không rõ nguyên nhân → khắc phục bằng các
phép lọc

6


1.2.3. Chỉnh mức xám:
Nhằm khắc phục tính không đồng đều của hệ thống gây ra. Thông thường có 2
hướng tiếp cận:

• Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau thành
một bó. Trường hợp chỉ có 2 mức xám thì chính là chuyển về ảnh đen trắng.
Ứng dụng: In ảnh màu ra máy in đen trắng.

• Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ
thuật nội suy. Kỹ thuật này nhằm tăng cường độ mịn cho ảnh.

1.2.4. Phân tích ảnh:
Là khâu quan trọng trong quá trình xử lý ảnh để tiến tới hiểu ảnh. Trong phân
tích ảnh việc trích chọn đặc điểm là một bước quan trọng. Các đặc điểm của đối tượng
được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh. Có thể nêu ra
một số đặc điểm của ảnh sau đây:
Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm uốn
v.v..
Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực hiện
lọc vùng (zonal filtering). Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask)
thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn v.v..)
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và do
vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận dạng
đối tượng. Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán tử la

bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) v.v..
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng
ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống.
1.2.5. Nhận dạng
Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại và phân
nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được ứng dụng trong
nhiều ngành khoa học khác nhau. Tuy nhiên, một câu hỏi đặt ra là: mẫu (pattern) là gì?
Watanabe, một trong những người đi đầu trong lĩnh vực này đã định nghĩa: “Ngược lại
với hỗn loạn (chaos), mẫu là một thực thể (entity), được xác định một cách ang áng
(vaguely defined) và có thể gán cho nó một tên gọi nào đó”. Ví dụ mẫu có thể là ảnh
của vân tay, ảnh của một vật nào đó được chụp, một chữ viết, khuôn mặt người hoặc
một ký đồ tín hiệu tiếng nói. Khi biết một mẫu nào đó, để nhận dạng hoặc phân loại
mẫu đó có thể:
Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân tích phân
biệt (discriminant analyis), trong đó mẫu đầu vào được định danh như một thành phần
của một lớp đã xác định.

7


Hoặc phân loại không có mẫu (unsupervised classification hay clustering) trong
đó các mẫu được gán vào các lớp khác nhau dựa trên một tiêu chuẩn đồng dạng nào
đó. Các lớp này cho đến thời điểm phân loại vẫn chưa biết hay chưa được định danh.
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu
sau đây:
1o. Thu nhận dữ liệu và tiền xử lý.
2o. Biểu diễn dữ liệu.
3o. Nhận dạng, ra quyết định.
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:
1o. Đối sánh mẫu dựa trên các đặc trưng được trích chọn.

2o. Phân loại thống kê.
3o. Đối sánh cấu trúc.
4o. Phân loại dựa trên mạng nơ-ron nhân tạo.
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn lẻ để
phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp và cách tiếp
cận khác nhau. Do vậy, các phương thức phân loại tổ hợp hay được sử dụng khi nhận
dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế các hệ thống lai
(hybrid system) bao gồm nhiều mô hình kết hợp.
Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh trong
cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu
cầu về tốc độ tính toán. Đặc điểm chung của tất cả những ứng dụng đó là những đặc
điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải
được trích chọn dựa trên các thủ tục phân tích dữ liệu.

1.2.6. BIẾN ĐỔI HOUGH
1.2.6.1. Biến đổi Hongh cho đường thẳng
Bằng cách nào đó ta thu được một số điểm ảnh quan trong, vấn đề đặt ra là cần
phải kiểm tra xem các điểm có là đường thẳng hay không .
Bài toán:
Cho n điểm (xi; yi) i = 1, n và ngưỡng θ hãy kiểm tra n điểm có tạo thành đường
thẳng hay không?
* Ý tưởng
Giả sử n điểm nằm trên cùng một đường thẳng và đường thẳng có phương trình
y = ax + b
Vì (xi, yi) i = 1, n thuộc đường thẳng nên y1 = ax1 + b, ∀i = 1, n
⇔ b = - xia + y1; ∀i = 1, n

8



Như vậy, mỗi điểm (xi; yi) trong mặt phẳng sẽ tương ứng với một số đường thẳng
b = - xia + yi trong mặt phẳng tham số a, b. n điểm (xi; yi) i = 1, n thuộc đường thẳng
trong mặt phẳng tương ứng với n đường thẳng trong mặt phẳng tham số a, b giao nhau
tại 1 điểm và điểm giao chính là a, b. Chính là hệ số xác định phương trình của đường
thẳng mà các điểm nằm vào.
* Phương pháp:
- Xây dựng mảng chỉ số [a, b] và gán giá trị 0 ban đầu cho tất cả các phân tử của
mảng
- Với mỗi (xi; yi) và ∀a, b là chỉ số của phần tử mảng thoả mãn
b = - xia + yi tăng giá trị của phân tử mảng tương ứng lên 1
- Tìm phần tử mảng có giá trị lớn nhất nếu giá trị lớn nhất tìm được so với số
phân tử lớn hơn hoặc bằng ngưìng θ cho trước thì ta có thể kết luận các điểm nằm trên
cùng
1
đường
thẳng

đường
thẳng

phương
trình
y = ax + b trong đó a, b tương ứng là chỉ số của phần tử mảng có giá trị lớn nhất tìm
được:
Ví dụ:
Cho 5 điểm (0, 1); (1, 3); (2, 5); (3, 5); (4, 9) và θ = 80%. Hãy kiểm tra xem 5
điểm đã cho có nằm trên cùng một đường thẳng hay không? Hãy cho biết phương trình
đường thẳng nếu có?
- Lập bảng chỉ số [a, b] và gán giá trị 0


+ (0, 1): b = 1
+ (1, 3): b = -a + 3
+ (2, 5): b = -2a + 5
+ (3, 5): b = -3a + 5
+ (4, 9): b = -4a + 9
- Tìm phần tử lớn nhất có giá trị 4
4/5 = 80%
- Kết luận: 5 điểm này nằm trên cùng 1 đường thẳng
Phương trình: y = 2x + 1

9


1.2.6.2. Biến đổi Hough cho đường thẳng trong tọa độ cực
0

y

r

x.cos+y.sin=r
H

x
Hình 1.3. Đường thẳng Hough trong toạ độ cực
Mỗi điểm (x,y) trong mặt phẳng được biểu diễn bởi cặp (r,ϕ) trong tọa độ cực.
Tương tự mỗi đường thẳng trong mặt phẳng cũng có thể biểu diễn bởi một cặp
(r,ϕ) trong tọa độ cực với r là khoảng cách từ gốc tọa độ tới đường thẳng đó và ϕ là
góc tạo bởi trục 0X với đường thẳng vuông góc với nó, hình 5.9 biểu diễn đường thẳng
hough trong tọa độ Decard.

Ngược lại, mỗi một cặp (r,ϕ) trong toạ độ cực cũng tương ứng biểu diễm một
đường thẳng trong mặt phẳng.
Giả sử M(x,y) là mộ điểm thuộc đường thẳng được biểu diễn bởi (r,ϕ), gọi
H(X,Y) là hình chiếu của gốc toạ độ O trên đường thẳng ta có:
X= r. cosϕ và Y= r.sinϕ
Mặt khác, taOH.HA=0
có:
Từ đó ta có mối liên hệ giữa (x,y) và (r,ϕ) như sau: x*cosϕ+y*sinϕ= r.
Xét n điểm thẳng hàng trong tọa độ Đề các có phương trình x*cosϕ0+y*sinϕ0=
r0. Biến đổi Hough ánh xạ n điểm này thành n đường sin trong tọa độ cực mà các
đường này đều đi qua (r0,ϕ0). Giao điểm (r0,ϕ0) của n đường sin sẽ xác định một đường
thẳng trong hệ tọa độ đề các. Như vậy, những đường thẳng đi qua điểm (x,y) sẽ cho
duy nhất một cặp (r,ϕ) và có bao nhiêu đường qua (x,y) sẽ có bấy nhiêu cặp giá trị
(r,ϕ).

II. TỔNG QUAN VỀ MẠNG NƠ RON NHÂN TẠO
2.1. TỔNG QUAN
Mạng nơ ron nhân tạo (Artificial Neural Networks) là hệ thống được xây dựng dựa
trên nguyên tắc cấu tạo của bộ não người. Nó cho chúng ta một hướng mới trong
10


nghiên cứu hệ thống thông tin. Mạng nơ ron nhân tạo có thể thực hiện các bài toán:
Tính toán gần đúng các hàm số, thực hiện các bài toán tối ưu, nhận mẫu, nhận dạng
và điều khiển đối tượng hiệu quả hơn so với các phương pháp truyền thống.
Mạng nơ ron nhân tạo có một số lượng lớn mối liên kết của các phần tử biến đổi có
liên kết song song. Nó có hành vi tương tự như bộ não người với khả năng học
( Learning ), gọi lại (Recall) và tổng hợp thông tin từ sự luyện tập của các tập mẫu dữ
liệu. Các phần tử biến đổi của mạng nơ ron nhân tạo được gọi là các nơ ron nhân tạo
hoặc gọi tắt là nơ ron

2.2. CÁC TÍNH CHẤT CỦA MẠNG NƠ RON NHÂN TẠO
Là hệ phi tuyến: Mạng nơ ron có khả năng to lớn trong lĩnh vực nhận dạng và điều
khiển các đối tượng phi tuyến.
Là hệ xử lý song song: Mạng nơ ron có cấu trúc song song, do đó có độ tính toán rất
cao rất phù hợp với lĩnh vực nhận dạng và điều khiển.
Là hệ học và thích nghi: Mạng được luyện từ các số liệu quá khứ và có khả năng tự
chỉnh khi số liệu đầu vào bị mất, có thể điều khiển on- line.
Là hệ nhiều biến, nhiều đầu vào, nhiều đầu ra (MIMO), rất tiện dùng khi đối tượng
điều khiển có nhiều biến số.
2.3. MÔ HÌNH NƠ RON
2.3.1.Mô hình nơ ron sinh học
a. Cấu tạo. Nơ ron là phần tử cơ bản tạo nên bộ não con người. Sơ đồ cấu tạo của
một nơ ron sinh học được chỉ ra như trong hình 1.4. Một nơ ron điển hình có 3 phần
chính:

Hình1.4. Mô hình 2 nơ ron sinh học
- Thân nơ ron (soma): Nhân của nơ ron được đặt ở đây.
- Các nhánh (dendrite): Đây chính là các mạng dạng cây của các dây thần kinh để
nối các soma với nhau.
- Sợi trục (Axon): Đây là một nối kết, hình trụ dài và mang các tín hiệu từ đó ra
ngoài. Phần cuối của axon được chia thành nhiều nhánh nhỏ. Mỗi nhánh nhỏ (cả của
11


dendrite và axon) kết thúc trong một cơ quan nhỏ hình củ hành được gọi là synapte
mà tại đây các nơ ron đưa các tín hiệu của nó vào các nơr on khác. Những điểm tiếp
nhận với các synapte trên các nơ ron khác có thể ở các dendrite hay chính soma.
b. Hoạt động.
Các tín hiệu đưa ra bởi một synapte và được nhận bởi các dendrite là các kích thích
điện tử. Việc truyền tín hiệu như trên liên quan đến một quá trình hóa học phức tạp mà

trong đó các chất truyền đặc trưng được giải phóng từ phía gửi của nơi tiếp nối. Điều
này làm tăng hay giảm điện thế bên trong thân của nơ ron nhận. Nơ ron nhận tín hiệu
sẽ kích hoạt (fire) nếu điện thế vượt khỏi một ngưỡng nào đó và một xung (hoặc điện
thế hoạt động) với độ mạnh (cường độ) và thời gian tồn tại cố định được gửi ra ngoài
thông qua axon tới phần nhánh của nó rồi tới các chỗ nối synapte với các nơ ron khác.
Sau khi kích hoạt, nơ ron sẽ chờ trong một khoảng thời gian được gọi là chu kỳ, trước
khi nó có thể được kích hoạt lại. Synapses là hưng phấn (excitatory) nếu chúng cho
phép các kích thích truyền qua gây ra tình trạng kích hoạt (fire) đối với nơ ron nhận.
Ngược lại, chúng là ức chế (inhibitory) nếu các kích thích truyền qua làm ngăn trở
trạng thái kích hoạt (fire) của nơ ron nhận.

2.3.2. Mạng nơ ron nhân tạo
2.3.2.1. Khái niệm.
Nơ ron nhân tạo là sự sao chép nơ ron sinh học của não người, nó có những đặc tính
sau:
- Mỗi nơ ron có một số đầu vào, những kết nối (Synaptic) và một đầu ra (axon)
- Một nơ ron có thể hoạt động (+35mV) hoặc không hoạt động (-0,75mV)
- Chỉ có một đầu ra duy nhất của một nơ ron được nối với các đầu vào khác nhau của
nơ ron khác. Điều kiện để nơ ron được kích hoạt hay không kích hoạt chỉ phụ thuộc
những đầu vào hiện thời của chính nó.Thông thường một nơ ron có 3 phần như hình
1.5:

12


Hình 1.5. Mô hình nơ ron nhân tạo
Trên mỗi đầu vào của nơ ron có gắn một trọng số để liên kết giữa nơ ron thứ i và nơ
ron thứ j. Các trọng số này tương tự như các tế bào cảm giác của mạng nơ ron sinh
học.
Tổng trọng:


(1.1)
Với Vi(t) là tổng trọng của nơ ron thứ i; yj(t) là các đầu ra của nơ ron thứ jvà uk(t) là
các đầu vào từ bên ngoài tương ứng với các trọng số Wij và W*ik; là hằng số gọi là
ngưỡng của nơ ron thứ i.
Hệ động học tuyến tính SISO: Đầu vào là vi đầu ra là xi. Ở dạng toán tử Laplace ta
có:
Xi(s)= H(s).Vi(s)

(1.2)

Dạng thời gian của (1.2) có dạng (1.3)

(1.3)

13


Quan hệ của H(s) và h(t) và quan hệ vào – ra tương ứng của nơ ron được cho trong
bảng 1.1 :

Bảng 1.1
Hàm động học phi tuyến: Mô tả mối quan hệ của đầu ra yi với đầu vào xi:
yi=a(xi)

với a(.) là hàm chuyển đổi.

Hàm chuyển đổi: Để tìm được đầu ra của nơ ron ta phải tiến hành qua hai bước như
sau:
- Tìm các giá trị tổng trọng lượng đầu vào neti(t)

- Căn cứ vào neti(t) để tìm ra yi bằng các hàm chuyển đổi vào ra.
Hàm chuyển đổi a(.) thực hiện coi nơ ron như một hộp đen, chuyển đổi một tín hiệu
vào thành tín hiệu ra.Các dạng hàm chuyển đổi thường được sử dụng có dạng như sau:
+ Hàm Rump (Rump Function) là hàm có biểu diễn toán học như (1.4):

(1.4)

Biểu diễn hình học của hàm Rump như hình vẽ 1.6.a
+ Hàm bước nhảy (Step Function) là hàm có biểu diễn toán học như (1.5):

(1.5)
Biểu diễn hình học của hàm như hình vẽ 1.6.b
14


+ Hàm giới hạn cứng (Threshold Function) là hàm có biểu diễn toán học như (1.6):

(1.6)
Biểu diễn hình học của hàm như hình vẽ 1.6.c
+ Hàm sigmoid hai cực (Bipolar Sigmoid Function) là hàm có biểu diễn toán học
như (1.7):

Biểu diễn hình học của hàm như hình vẽ 1.6d

Hình 1.6a. Hàm Rump Hình 1.6b. Hàm bước nhảy

Hình 1.6c. Hàm giới hạn cứng

Hình 1.6.d Hàm Sigmoid hai cực
2.3.2.2. Phân loại mạng nơ ron.

Nelson và IIlingworth (1991) đã đưa ra mộy số loại cấu trúc của mạng nơ ron như
hình 1.7. Nơron được vẽ là các vòng tròn xem như một tế bào thần kinh, chúng có các
mối liên hệ đến các nơ ron khác nhờ các trọng số, lập thành các ma trận trọng số
tương ứng.

15


Mỗi một nơ ron có thể phối hợp với các nơ ron khác tạo thành một lớp các trọng số.
Mạng một lớp truyền thẳng (Single- Layer Feedforward Network) như hình 1.7 a Có
thể nối vài lớp nơ ron với nhau tạo thành mạng nhiều lớp truyền thẳng (Multi- Layer
Feedforward Network) như hình 1.7.b
Hai loại mạng nơ ron một lớp và nhiều lớp được gọi là truyền thẳng nếu đầu ra của
mỗi nơ ron được nối với các đầu vào của các nơ ron của lớp trước đó.
Mạng nơ ron phản hồi là mạng mà đầu ra của mỗi nơ ron được quay trở lại nối với
đầu vào của các nơ ron cùng lớp được gọi là mạng Laeral như hình 1.7.c
Mạng nơ ron phản hồi có thể thực hiện đóng vòng được gọi là mạng nơ ron hồi quy
(Recurrent Network) như hình 1.7.d.

Hình 1.74.a

Hình 1.7.b

Hình 1.7.c

Hình 1.7.d

Các nơ ron lớp vào trực tiếp nhận tín hiệu ở đầu vào, ở đó mỗi nơ ron chỉ có một tín
hiệu vào. Mỗi nơ ron ở lớp ẩn được nối với tất cả các nơ ron lớp vào và lớp ra. Các nơ
ron ở lớp ra có đầu vào được nối với tất cả các nơ ron ở lớp ẩn, chúng là đầu ra của

mạng. Cần chú ý rằng một mạng nơ ron cũng có thể có nhiều lớp ẩn. Các mạng nơ ron
trong mỗi nơ ron chỉ được liên hệ với tất cả các nơ ron ở lớp kế tiếp và tất cả các mối
liên kết chỉ được xây dựng từ trái sang phải được gọi là mạng nhiều lớp truyền thẳng
(perceptrons).

16


2.3.2.3. Các luật học.
Thông thường mạng nơ ron được điều chỉnh hoặc được huấn luyện để hướng các đầu
vào riêng biệt đến đích ở đầu ra. Cấu trúc huấn luyện mạng được chỉ ra trên hình 1.5 Ở
đây, hàm trọng của mạng được điều chỉnh trên cơ sở so sánh đầu ra với đích mong
muốn (taget) cho tới khi đầu ra mạng phù hợp với đích. Những cặp vào/đích
(input/taget) được dùng để giám sát cho sự huấn luyện mạng.

Hình 1.8. Cấu trúc huấn luyện mạng nơ ron
Để có được một số cặp vào/ra, ở đó mỗi giá trị vào được gửi đến mạng và giá trị ra
tương ứng được thực hiện bằng mạng là sự xem xét và so sánh với giá trị mong muốn.
Bình thường tồn tại một sai số bởi lẽ giá trị mong muốn không hoàn toàn phù hợp với
giá trị thực. Sau mỗi lần chạy, ta có tổng bình phương của tất cả các sai số. Sai số này
được sử dụng để xác định các hàm trọng mới.
Sau mỗi lần chạy, hàm trọng của mạng được sửa đổi với đặc tính tốt hơn tương ứng
với đặc tính mong muốn. Từng cặp giá trị vào/ra phải được kiểm tra và trọng lượng
được điều chỉnh một vài lần. Sự thay đổi các hàm trọng của mạng được dừng lại nếu
tổng các bình phương sai số nhỏ hơn một giá trị đặt trước hoặc đã chạy đủ một số lần
chạy xác định (trong trường hợp này mạng có thể không thoả mãn yêu cầu đặt ra do
sai lệch còn cao). Có hai kiểu học:
- Học thông số (Paramater Learning): Tìm ra biểu thức cập nhật các thông số về trọng
số, cập nhật kết nối giữa các nơ ron.
- Học cấu trúc (Structure Learning): Trọng tâm là sự biến đổi cấu trúc của mạng nơ

ron gồm số lượng nút (node) và các mẫu liên kết
Nhiệm vụ của việc học thông số là bằng cách nào đó, tìm được ma trận chính xác
mong muốn từ ma trận giả thiết ban đầu với cấu trúc của mạng nơ ron có sẵn.

17


Để làm được việc đó, mạng nơ ron sử dụng các trọng số điều chỉnh, với nhiều
phương pháp học khác nhau có thể tính toán gần đúng ma trận W cần tìm đặc trưng
cho mạng.Có ba phương pháp học:
- Học có giám sát ( Supervised Learning).
Là quá trình học ở mỗi thời điểm thứ i khi đưa tín hiệu x i vào mạng nơ ron, tương
ứng sẽ có các đáp ứng mong muốn di của đầu ra cho trước ở thời điểm đó.
Hay nói cách khác, trong quá trình học có giám sát, mạng nơ ron được cung cấp liên
tục các cặp số liệu mong muốn vào – ra ở từng thời điểm (x 1,d1),(x2,d2)...(xk,dk),... khi
cho tín hiệu vào thực là xk sẽ tương ứng có tín hiệu đầu ra cũng được lặp lại là d k giống
như mong muốn. Kết quả của quá trình học có giám sát là tạo được một hộp đen có
đầu vào là véc tơ tín hiệu vào X sẽ đưa ra được câu trả lời đúng d.Để đạt được kết quả
mong muốn trên, khi đưa vào tín hiệu xk, thông thường sẽ có sai lệch ek giữa tín hiệu
đầu ra thực yk với tín hiệu đầu ra mong muốn dk. Sai lệch đó sẽ được truyền ngược tới
đầu vào để điều chỉnh thông số mạng nơ ron là ma trận trọng số W…Quá trình cứ thế
tiếp diễn sao cho sai lệch giữa tín hiệu ra mong muốn và tín hiệu ra thực tế nằm trong
phạm vi cho phép, kết quả nhận được ma trận trọng số với các phần tử wij đã được
điều chỉnh phù hợp với đặc điểm của đối tượng hay hàm số mạng nơ ron cần học. Mô
hình học có giám sát được minh hoạ như hình 1.9

Hình 1.9.Mô hình học có giám sát và học củng cố.
- Học củng cố:(Reinforcement Learning).
Là phương pháp học trong đó tín hiệu d được đưa từ bên ngoài nhưng không được
đầy đủ mà có thể chỉ đưa đại diện 1 bít để có tính chất kiểm tra quá trình đúng hay

sai. Tín hiệu đó được gọi là tín hiệu củng cố (Reinforcement Signal).
Phương pháp học củng cố chỉ là một phương pháp học riêng của phương pháp học có
giám sát, bởi vì nó cũng nhận tín hiệu chỉ đạo từ bên ngoài. Chỉ khác là tín hiệu củng
cố có tính ước lượng hơn là để dạy. Tín hiệu giám sát bên ngoài d thường được tiến
hành bởi các tín hiệu ước lượng để tạo thông tin ước lượng cho mạng nơ ron điều
18


chỉnh trọng số với hy vọng sự ước lượng đó mang lại sự chính xác trong quá trình tính
toán. Mô hình học củng cố được minh hoạ như hình 1.9
- Học không có giám sát (Unsupervied Learning).
Trong trường hợp này, hoàn toàn không có tín hiệu ở bên ngoài. Giá trị mục tiêu điều
khiển không được cung cấp và không được tăng cường. Mạng phải khám phá các mẫu,
các nét đặc trưng, tính cân đối, tính tương quan… Trong khi khám phá các đặc trưng
khác, mạng nơ ron đã chải qua việc tự thay đổi thông số, vấn đề đó được gọi tự tổ
chức (Self- Organizing).
Mô hình học không có giám sát được minh hoạ như hình 1.10:

Hình 1.10: Mô hình học không giám sát.
Cấu trúc chung của quá trình học được mô tả như hình 1.20.

Hình 1.11. Sơ đồ cấu trúc chung của quá trình học
Trong đó tín hiệu vào xj, j=1,2,3…,m, có thể được lấy từ đầu ra của các nơ ron khác
hoặc có thể được lấy từ bên ngoài. Tín hiệu mong muốn di có sẵn chỉ có trong phương
pháp học có giám sát hoặc củng cố. Từ hai phương pháp học trên, trọng số của nơ ron
thứ i được thay đổi tuỳ theo tín hiệu ở đầu vào mà nó thu nhận và giá trị đầu ra của nó.
19


Trong phương pháp học không có giám sát sự thay đổi của trọng số chỉ dựa trên cơ sở

các giá trị đầu vào và đầu ra. Dạng tổng quát của luật học trọng số của mạng nơ ron là
cho biết gia số của véc tơ ∆wi là wi tỷ lệ với tín hiệu học r và tín hiệu đầu vào x(t):
∆wi(t) =η.r.x(t)

(1.8)

∆: Là hằng số học, xác định tốc độ học và là một số dương
r: Là tín hiệu học r = fr(wi,x,di)

(1.9)

Biểu thức (1.8) là biểu thức chung để tính số gia của trọng số, ta thấy trọng số
wi = (wi1, wi2, …, wim)T
có gia số tỷ lệ với tín hiệu vào x và tín hiệu học r. Từ các
biểu thức trên ta có véc tơ trọng số ở thời điểm (t+1) được tính là:
w i(t+1) = wi(t) + η.fr{wi (t), x(t), di(t)}.x(t)

(1.10)

Vấn đề quan trọng trong việc phân biệt luật học cập nhật trọng số có giám sát hay
không có giám sát là tín hiệu học r như thế nào để thay đổi hoặc cập nhật trọng số có
trong mạng nơ ron.
Có 2 phương pháp cơ bản để huấn luyện mạng nơ ron: Huấn luyện gia tăng (tiến dần)
và huấn luyện theo gói. Sự huấn luyện theo gói của mạng nhận được bằng việc thay
đổi hàm trọng và độ dốc trong một tập (batch) của véc tơ đầu vào. Huấn luyện tiến dần
là thay đổi hàm trọng và độ dốc của mạng sau mỗi lần xuất hiện của một phần tử véc
tơ đầu vào. Huấn luyện tiến dần đôi khi được xem như huấn luyện trực tuyến hay huấn
luyện thích nghi.
Mạng nơ ron đã được huấn luyện để thực hiện những hàm phức tạp trong nhiều lĩnh
vực ứng dụng khác nhau như trong nhận dạng, phân loại sản phẩm, xử lý tiếng nói,

chữ viết và điều khiển hệ thống.
Thông thường để huấn luyện mạng nơron, người ta sử dụng phương pháp huấn luyện
có giám sát, nhưng cũng có mạng thu được từ sự huấn luyện không có giám sát. Mạng
huấn luỵện không giám sát có thể được sử dụng trong trường hợp riêng để xác định
nhóm dữ liệu.
2.3.3. Mô hình toán học mạng nơ ron truyền thẳng và mạng nơ ron hồi quy.

20


2.3.3.1.Mạng nơ ron truyền thẳng.
a/ Mạng nơ ron một lớp.
Một cấu trúc toán học mạng 1 lớp với
R đầu vào và S nơ ron được chỉ ra trên hình 1.12.
Trong đó:
-Véc tơ vào P có R phần tử PT = [p1 p2 … pR]
-Véc tơ vào n có S phần tử nT = [n1 n2 … nS]
-Véc tơ ra a có S phần tử aT = [a1 a2 … aS]
Hình1.12.Cấu trúc mạng nơ ron 1 lớp
Trong mạng này mỗi phần tử của véc tơ vào P liên hệ với đầu vào mỗi nơ ron thông
qua ma trận trọng lượng liên kết W. Bộ cộng của nơ ron thứ i thu thập các trọng liên
kết đầu vào và độ dốc để tạo thành một đầu ra vô hướng n i. Các ni tập hợp với nhau
tạo thành s phần tử của véc tơ vào n. Cuối cùng ở lớp ra nơ ron ta thu được véc tơ a
gồm s phần tử.
Ta có thể thiết lập lớp đơn của các nơ ron có các hàm chuyển khác nhau một cách dễ
dàng bởi lẽ hai mạng được đặt song song. Tất cả các mạng có thể có chung đầu vào và
mỗi mạng có thể thiết lập một vài đầu ra.
Các phần tử của véc tơ đầu vào được đưa vào mạng thông qua ma trận trọng W, với:

Trong đó: Chỉ số hàng trong các phần tử của ma trận W cho biết nơ ron nơi đến còn

chỉ số cột cho biết nơi xuất phát của trọng liên kết. Ví dụ: w12 nói lên sự có mặt của tín
hiệu vào từ phần tử thứ hai đến nơ ron thứ nhất với trong liên kết là w12.
Để đơn giản ta ký hiệu mạng một lớp gồm S nơ ron, R đầu vào như hình vẽ 1.13.

21


Trong đó: véc tơ vào P có kích thước R, ma trận trọng liên kết W có kích thước S x
R còn a và b là các véc tơ có kích thước S. Như chúng ta đã biết, một lớp mạng bao
gồm ma trận trọng liên kết, toán tử nhân, véc tơ độ dốc b, bộ tổng và hàm truyền.
a = f(WP+b)

(1.13)

Hình 1.13. Ký hiệu mạng một lớp R đầu vào và S nơ ron
b/. Mạng nơron nhiều lớp.
Để khảo sát mạng nhiều lớp trước hết chúng ta cần đưa ra các ký hiệu qui ước cho
một lớp mạng. Đặc biệt ta cần phải phân biệt sự khác nhau giữa ma trận trọng lượng
liên kết ở đầu vào và các ma trận trọng liên kết giữa các lớp.
Ta gọi ma trận trọng lượng liên kết nối với đầu vào là các trọng vào (input
weights) và các ma trận đến từ lớp ra là trọng liên kết lớp (layer weights). Ta sẽ dùng
các chỉ số viết bên trên để phân biệt nguồn (chỉ số thứ hai) và đích (chỉ số thứ nhất)
cho các trọng liên kết và các phần tử khác của mạng.

Hình 1.14: Ký hiệu một lớp mạng
Để minh hoạ, ta xét một lớp mạng có nhiều đầu vào như hình 1.14. Trong đó R là số
phần tử lớp vào và S1 là số nơron của lớp 1. Ta thấy ma trận trọng liên kết với véc tơ
vào P là ma trận trọng vào (IW1,1) có nguồn là 1 (chỉ số thứ 2) và đích là1 (chỉ số thứ
22



nhất). Đồng thời các phần tử của 1 lớp như độ dốc, tín hiệu vào hàm chuyển, đầu ra
có chỉ số viết trên là 1 để nói rằng chúng được liên kết với lớp thứ nhất (b 1, n1, a1).
Một mạng nơ ron có thể có một vài lớp. Mỗi lớp có ma trận trọng liên kết W, véc tơ
độ dốc b và đầu ra a. Để phân biệt các ma trận trọng liên kết véc tơ vào cho mỗi lớp
mạng trong sơ đồ, ta thêm con số chỉ lớp viết ở phía trên cho biến số quan tâm.
Hình 1.15 là ký hiệu sơ đồ mạng 3 lớp. Trong đó có R 1 đầu vào, S1 nơ ron ở lớp 1, S2
nơron ở lớp 2 … Thông thường, các lớp khác nhau có số nơ ron khác nhau.
Chú ý rằng đầu ra của mỗi lớp trung gian là đầu vào của lớp tiếp theo. Như vậy lớp 2
có thể được xem như mạng 1 lớp với S1 đầu vào, S2 nơ ron và S2 x S1 trọng liên kết
của ma trận W2. Đầu vào của lớp 2 là véc tơ a1, đầu ra là véc tơ a2.
Các lớp của mạng nhiều lớp đóng vai trò khác nhau. Lớp cuối cùng là kết quả ở đầu ra
của mạng, được gọi là lớp ra. Lớp đầu tiên thu thập tín hiệu vào được gọi là lớp vào,
các lớp khác được gọi là lớp ẩn. Mạng 3 lớp ở trên có 1 lớp ra (lớp3) có 1lớp vào
(lớp1) và 1lớp ẩn (lớp 2).
Đối với mạng 3 lớp ta cũng có thể sử dụng ký hiệu tắt để biểu diễn (hình 1.16). Mạng
nhiều lớp rất mạnh, ví dụ có mạng 2 lớp, trong đó lớp 1 có hàm chuyển sigmoid, lớp 2
có hàm chuyển linear có thể được huấn luyện để làm xấp xỉ một hàm bất kỳ (với số
điểm gián đoạn có hạn chế).
Trong đó a3 là đầu ra của mạng, ta ký hiệu đầu ra này là y. Ta sẽ sử dụng ký hiệu này
để định rõ đầu ra của mạng nhiều lớp.
a1 = f1(W1,1P+b1)

a1 = f1(W1,1P+b1)

(1.14)

a2 = f2(W2,1a1+b2)

a3 = f3(W3,2a2+b3) (1.15)


Hình 1.15. Cấu trúc mạng nơ ron 3 lớp
23


a1 = f1(IW1,1P+b1)

a2 = f2(LW2,1a1+b2) a3 = f3(LW3,2a2+b3)

a3 = f3[LW3,2f2(LW2,1f1(IW1,1P+b1)+b2]+b3 = y (1.16)
Hình 1.16. Ký hiệu tắt của mạng nơ ron 3 lớp.
2.3.3.2.Mạng nơ ron hồi quy.
Mạng hồi quy còn được gọi là mạng phản hồi là loại mạng tự liên kết thành các
vòng và liên kết hồi quy giữa các nơ ron. Mạng nơ ron hồi quy có trọng số liên kết đối
xứng như mạng Hopfield luôn hội tụ về trạng thái ổn định. Mạng liên kết hai chiều
(BAM) là mạng thuộc nhóm mạng nơ ron hồi quy hai lớp nơ ron liên kết tay đôi, trong
đó đảm bảo nơ ron của cùng một lớp không liên kết với nhau, cũng hội tụ về trạng thái
ổn định. Nghiên cứu mạng nơ ron hồi quy có trọng số liên kết khôngđối xứng sẽ gặp
nhiều phức tạp hơn so với mạng truyền thẳng và mạng hồi quy đối xứng. Mạng nơ
ron hồi quy có khả năng về nhận mẫu, nhận dạng các hàm phi tuyến, dự báo … Một
ưu điểm khác của mạng nơ ron hồi quy là chỉ cần mạng nhỏ hơn về cấu trúc cũng có
khả năng như mạng truyền thẳng có cấu trúc lớp hơn.
a/ Mạng nơ ron hồi quy không hoàn toàn (Partially Recrrent Networks).
Là mạng đó dựa trên cơ sở mạng lan truyền ngược vì cấu trúc hồi quy. Cấu trúc
của mạng hồi quy không hoàn toàn phần lớn là cấu trúc truyền thẳng nhưng có cả sự
lựa chọn cho một bộ phận có cấu trúc hồi quy.Trong nhiều trường hợp, trọng số của
cấu trúc hồi quy được duy trì không đổi, như vậy luật học truyền ngược có thể dễ
dàng được sử dụng. Trong các mạng loại này, sự truyền thẳng được xảy ra rất nhanh
hoặc không phụ thuộc vào thời gian, trong khi đó tín hiệu hồi quy được thực hiện có
tính thời gian. Mạng có thể nhận mẫu dãy dựa vào tình trạng cuối cùng của dãy và có

thể dự báo tiếp theo cho tín hiệu của dãy theo thời gian. Như vậy, mạng hồi quy không
hoàn toàn về cơ bản là mạng tryền thẳng , liên kết hồi quy có thể đi từ các nút ở các
lớp ra hoặc lớp ẩn.
b/ Mạng nơ ron hồi quy hoàn toàn (Fully Recrrent Networks).

24


Là một trong những loại mạng nơ ron hồi quy đầu tiên được Gossberg xây dựng để
học và biểu diễn các mẫu bất kỳ
loại mạng này được xây dựng theo
mẫu Instar- Outstar. Loại mạng hồi
quy hoàn toàn có tác dụng nhận số
lượng mẫu nhiều nhơn. Với mạng
hồi quy hoàn toàn đã hình thành
quan điểm thực hiện và luyện mạng
hồi quy từ mạng truyền thẳng nhiều
lớp được xây dựng từ một lớp cho
mỗi bước tính.
Hình 1.17. Ký hiệu một lớp mạng hồi quy

Khái niệm này được gọi là lan truyền ngược theo thời gian phù hợp khi quan tâm đến
các dãy với độ lớn T là nhỏ. Nó đã được sử dụng họccho máy ghi cho nhiệm vụ thực
hiện các dãy. Nó có khả năng áp dụng cho điều khiển thích nghi. Hình 1.17 là mạng
nơ ron một lớp hồi quy. Hình 1.18 là mạng nơ ron hiều lớp hồi quy.

Hình 1.18. Ký hiệu tắt của mạng nơron 3 lớp hồi quy
2.4.QUÁ TRÌNH HUẤN LUYỆN MẠNG NHIỀU LỚP.
Chúng ta đã biết, mạng nơ ron nhiều lớp có thể xấp xỉ gần đúng một hàm bất kỳ,
tiếp đó là thủ tục tính chọn các thông số của mạng (các hàm trọng lượng và độ dốc)

cho một đối tượng cụ thể được gọi là quá trình huấn luyện mạng. Trong phần này
chúng ta sẽ chỉ ra một phương pháp huấn luyện là phương pháp lan truyền ngược. Kỹ
thuật cơ bản của phương pháp lan truyền ngược là cập nhật trọng số theo hướng giảm
độ dốc.
Như đã nêu, mạng nhiều lớp có đầu ra của lớp trước là đầu vào của lớp tiếp theo.
Sơ đồ cấu trúc được cho như hình vẽ 1.13.
25


×