Ứng dụng mạng HTM và mạng ngữ nghĩa để nhận diện đối tượng phức trong ảnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (3.01 MB, 111 trang )

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM ANH PHƯƠNG

ỨNG DỤNG MẠNG HTM VÀ MẠNG
NGỮ NGHĨA ĐỂ NHẬN DIỆN ĐỐI
TƯỢNG PHỨC TRONG ẢNH

LUẬN VĂN THẠC SĨ
NGÀNH KHOA HỌC MÁY TÍNH

Thành phố Hồ Chí Minh - 2011

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

PHẠM ANH PHƯƠNG

ỨNG DỤNG MẠNG HTM VÀ MẠNG
NGỮ NGHĨA ĐỂ NHẬN DIỆN ĐỐI
TƯỢNG PHỨC TRONG ẢNH

Ngành: KHOA HỌC MÁY TÍNH
Mã số: 02 07 4801 29

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS. TS. LÊ HOÀI BẮC

Thành phố Hồ Chí Minh - 2011

i

Lời cảm ơn

Tôi xin chân thành cảm ơn Khoa Công Nghệ Thông Tin, trường Đại Học Khoa
Học Tự Nhiên, Đại học Quốc gia Tp. Hồ Chí Minh đã tạo điều kiện thuận lợi cho tôi
trong quá trình học tập, công tác và thực hiện đề tài tốt nghiệp.
Em xin nói lên lòng biết ơn sâu sắc đối với PGS. TS. Lê Hoài Bắc. Em xin chân
thành cảm ơn Thầy đã luôn quan tâm, tận tình hướng dẫn, truyền thụ cho em những
kiến thức, kinh nghiệm và giúp đỡ em trong quá trình học tập cũng như trong lúc thực
hiện đề tài này. Bên cạnh đó, em gửi lời cảm ơn đến anh Trần Thành Thắng đã giúp
đỡ và định hướng nghiên cứu trong việc hoàn thành luận văn này.
Em xin chân thành cảm ơn quý Thầy Cô trong Khoa Công Nghệ Thông Tin đã tận
tình giảng dạy, trang bị cho em những kiến thức quý báu trong quá trình học tập và
làm việc tại Khoa.
Con luôn nhớ mãi công ơn của Cha Mẹ đã luôn thương yêu, lo lắng, chăm sóc và
nuôi dạy con thành người.
Mặc dù đã cố gắng hoàn thành luận văn trong phạm vi và khả năng cho phép
nhưng chắc chắn sẽ không tránh khỏi những thiếu sót, kính mong nhận được sự tận
tình chỉ bảo của quý Thầy Cô và các bạn.

TP. Hồ Chí Minh, tháng 4 năm 2011.
Phạm Anh Phương
ii

DANH MỤC CÁC KÝ HIỆU, VIẾT TẮT

HTM Hierarchical Temporary Memory. Một hệ thống
học theo trí nhớ. Giả lập hoạt động của não bộ.

Intelligent machines Máy học thông minh.
AI Trí tuệ nhân tạo.
AGI Trí tuệ nhân tạo tổng quan.
HSBN Hierarchical Space-based Network; mạng phân
cấp hướng không gian, áp dụng cho mô hình top-
down control trong mô hình tập trung thị giác.
Object-based Tính hướng đối tượng.
Space-based Tính hướng không gian.
Artificial Neural Network Mạng nơron nhân tạo
Artificial General Intelligence Trí tuệ nhân tạo tổng quan
Memory-Prediction framework Nền tảng trí nhớ phán đoán

iii

Mục lục
Chương 1 Mở đầu 7
1.1 Tổng quan 7
1.2 Lý do thực hiện đề tài 8
1.3 Mục tiêu đề tài 8
1.4 Nội dung 9
Chương 2 Thành tựu nghiên cứu bộ não 10
2.1 Trí tuệ nhân tạo 10
2.1.1 Một số kết quả nghiên cứu 10
2.1.2 Mạng nơron nhân tạo 11
2.2 Trí tuệ nhân tạo tổng quan 15
2.2.1 Lý thuyết nền tảng trí nhớ phán đoán 15
2.2.2 Đề xuất lý thuyết 19
2.3 Kết luận 20
Chương 3 Mô hình tin học trí nhớ phân cấp thời gian 21
3.1 Tổng quan mạng trí nhớ phân cấp thời gian 21

3.2 Gom nhóm không gian 23
3.3 Gom nhóm theo thời gian 24
3.4 Bản đồ ánh xạ giám sát 25
3.5 Kết luận 25
Chương 4 Tập trung thị giác 26
4.1 Hệ thống thị giác con người 26
4.2 Tập trung thị giác 28
4.2.1 Định nghĩa 28
4.2.2 Tập trung hướng đối tượng và hướng không gian 28
4.2.3 Tập trung theo bottom-up và top-down 30
4.2.4 Lý thuyết tổng hợp đặc trưng 31
4.3 Các mô hình tập trung thị giác nhận dạng đối tượng 32
4.4 Kết luận 34
Chương 5 Đề xuất mô hình tập trung thị giác máy tính 35
5.1 Lý do đề xuất mô hình 35
5.2 Xây dựng tập ảnh, mạng HTM-SBN và HTM-OBN 38
5.2.1 Tạo tập ảnh huấn luyện và kiểm tra 38
5.2.2 Xây dựng mạng HTM-SBN và HTM-OBN 42
5.3 Mô hình OBN – SBN 44
5.3.1 Mô tả kiến trúc hệ thống 44
iv

5.3.2 Kết quả thực nghiệm 49
5.4 Mô hình OBN – HSBN 52
5.4.1 Mạng phân cấp hướng không gian 52
5.4.2 Mô tả kiến trúc hệ thống 54
5.4.3 Kết quả thực nghiệm 58
5.5 Phương pháp đánh giá thực nghiệm 61
5.6 Phân tích kết quả của các mô hình 62
5.7 So sánh chức năng các mô hình 63

5.8 Kết luận 63
Chương 6 Kết luận và hướng phát triển đề tài 64
6.1 Kết luận 64
6.2 Hướng phát triển 66
6.2.1 Mô hình OBN-SBN và OBN-HSBN 66
6.2.2 Chuyển đổi ảnh tự nhiên thành ảnh đa bộ phận đơn sắc 67
6.2.3 Cải tiến mô hình HTM 67
6.3 Bài báo công bố 69
Tài liệu tham khảo 71
Phụ lục 74
v

Danh sách hình
Hình 2-1: Một tế bào nơron cơ bản 12
Hình 2-2: Một tế bào nơron nhân tạo 13
Hình 2-3: Một sơ đồ mạng nơron đơn giản 13
Hình 2-4: Các phân vùng hoạt động trong bộ não 16
Hình 2-5: Hình thành mẫu bất biến của giác gian sờ, nghe và nhìn 18
Hình 2-6: Thông tin lan truyền lên và xuống hình thành các mẫu phán đoán. 19
Hình 3-1: Mô hình mạng HTM. 21
Hình 3-2: Mô hình gom nhóm không gian và thời gian của nút trong HTM. 22
Hình 4-1: Các vùng thị giác và các kết nối giữa các vùng trong bộ não 26
Hình 4-2: Luồn thông tin thị giác vào khu vực xử lý tín hiệu chính 27
Hình 4-3: Lược đồ mô hình chuẩn điều khiển sự tập trung bottom-up 32
Hình 4-4: Mô hình tập trung nhận dạng đối tượng bằng dịch chuyển không gian 34
Hình 5-1: Kiến trúc mô hình SBN-OBN 36
Hình 5-2: Một ví dụ về hướng đa và đơn bộ phận của đối tượng "Computer" 40
Hình 5-3: Phương pháp quay trọng tâm trong không gian 3D 40
Hình 5-4: Xoay đối tượng "Table" quanh trọng tâm. 41
Hình 5-5: Di chuyển bộ phận “Computer” về trọng tâm và đổi thành màu nhị phân 42

Hình 5-6: Huấn luyện và nhận dạng các kết hợp của “Computer” bằng HTM-SBN 43
Hình 5-7: Huấn luyện và nhận dạng các bộ phận của “Computer” bằng HTM-OBN 44
Hình 5-8: Kiến trúc mô hình OBN-SBN 46
Hình 5-9: Di chuyển bộ phận “Monitor” xung quanh trọng tâm trong bán kính
RADIUS_OBN=2 47
Hình 5-10: Một vài tấm ảnh “Chair” để thí nghiệm 50
Hình 5-11: Một số minh họa ảnh hai đối tượng không trùng lắp 51
Hình 5-13: Mạng HSBN của đối tượng “Table” 54
Hình 5-14: Vị dụ minh họa thông tin xác định vị trí (P1,P2:r1) tại nút B1 54
Hình 5-15: Kiến trúc hệ thống OBN-HSBN 55
Hình 5-16: Mạng HSBN của đối tượng “Computer” 58
Hình 5-17: Mạng HSBN của đối tượng “Telephone” 58
Hình 5-18: Mạng HSBN của đối tượng “Chair” 59
Hình 5-19: Tỉ lệ niềm tin của đối tượng giữa hệ thống SBN-OBN và OBN-SBN. 62
vi

Danh sách bảng
Bảng 5-1: Danh sách hướng đa ảnh và đơn ảnh của các đối tượng 39
Bảng 5-2: Danh sách các tham số dùng trong thí nghiệm OBN-SBN 49
Bảng 5-3: Danh sách các tham số dùng trong thí nghiệm OBN-HSBN 59

7

Chương 1
Mở đầu
1.1 Tổng quan
Làm sao xây dựng một máy tính thông minh? Cho đến ngày nay, đây vẫn là một câu
hỏi lớn và những nhà nghiên cứu trong lĩnh vực tin học vẫn đang cố gắng trả lời nó. Các

nhà khoa học máy tính tin rằng nếu hiểu rõ hoạt động của não bộ, chúng ta có thể xây
dựng ra những chiếc máy tính thông minh để giải quyết mọi vấn đề y như con người [1].
Trí tuệ nhân tạo đã tạo ra những sản phẩm hữu ích như hệ thống suy luận (Reasoning
Systems), hệ thống mạng nơron (Neural Network Based Systems), hệ thống câu hỏi
(Question Form Based Systems), hệ chuyên gia mờ (Fuzzy Expert Systems), khám phá
tri thức và khai thác dữ liệu (Knowledge Discovery and Data Mining). Tuy nhiên, những
sản phẩm do trí tuệ nhân tạo tạo ra chưa phải là những chiếc máy tính thông minh thật sự;
trong hầu hết các trường hợp, chúng chỉ hoạt động tốt cho một lĩnh vực được thiết kế chi
tiết sẵn. Hay nói một cách khác, chúng hoạt động chưa dựa trên nguyên tắc lý thuyết của
sự thông minh, của cách mà bộ não hoạt động.
Các ngành khoa học thần kinh, tâm lý học, sinh vật học và các ngành khoa học khác
đang cố gắng vén lên tấm màn bí mật về sự hoạt động của bộ não con người trong quá
trình học và thích nghi với môi trường sống. J. Hawkins đã nghiên cứu và đề xuất cấu
trúc và hoạt động của bộ não [2]. Sau đó, D. George đã phát triển lý thuyết toán học để có
thể cài đặt một cách tin học hóa cho mô hình [4].
HTM (Hierarchical Temporal Memory) là mô hình tin học hóa đầu tiên dựa vào lý
thuyết cấu trúc và hoạt động não bộ. Nó có thể giải quyết nhiều lớp bài toán như thị giác
máy tính (Machine Vision), dò lỗi (Fraud Detection), phân tích ngữ nghĩa văn bản
(Semantic Analysis of Text). Cụ thể, Hall và Poplin áp dụng trong việc phá mã kí tự
8

CAPTCHA [23]; Bobier và Wirth thí nghiệm trong rút trích ảnh dựa nội dung [24];
Kapuscinski and Wysocki kiểm tra nhận diện các kí tự tiếng Ba Lan [25].
Tóm lại, những ứng dụng hiện thời của HTM chỉ dừng ở việc sử dụng nó như một
nền tảng để huấn luyện và kiểm tra, mà chưa dùng nó để xây dựng các mô hình tin học sử
dụng các lý thuyết khác liên quan đến hoạt động của não bộ.
1.2 Lý do thực hiện đề tài
Chúng tôi tập trung tìm hiểu tập trung thị giác (Visual Attention) [14] như một lý

thuyết có liên quan đến hoạt động của bộ não và sử dụng HTM để mô hình tin học hóa lý
thuyết này. Các tác giả trong [3] đã áp dụng HTM thành công trong việc cài đặt mô hình
bottom-up của tập trung thị giác. Dựa vào kết quả này, chúng tôi tiếp tục kế thừa và sử
dụng HTM như một một công cụ cài đặt hoạt động bộ não để xây dựng các mô hình tin
học khác nhau của lý thuyết tập trung thị giác.
Thông qua kết quả thực nghiệm của các mô hình xây dựng, chúng tôi sẽ kiểm chứng
và đề xuất cải tiến mô hình HTM, cũng như các mô hình tin học hóa của tập trung thị
giác. Điều này sẽ mở ra một hướng tiếp cận mới trong nghiên cứu. Đó là nhận dạng ảnh
đối tượng thông qua hoạt động của bộ não, làm cho máy tính thông minh và giống người
hơn.
1.3 Mục tiêu đề tài
Trong luận văn này, chúng tôi tập trung vào các mục tiêu sau:
 Tìm hiểu lý thuyết hoạt động bộ não và mạng HTM.
 Tìm hiểu lý thuyết và xây dựng hai mô hình tập trung thị giác máy tính sử
dụng HTM; cụ thể là mô hình bottom-up và top-down. Với mô hình bottom-
up, chúng tôi tập trung tính hướng đối tượng xảy ra trước tính không gian. Với
mô hình top-down, chúng tôi tìm hiểu vai trò của sự phán đoán thông tin trong
quá trình nhận dạng đối tượng.
 Đưa ra kết luận và đề xuất cải tiến cho các mô hình tin học.
9

1.4 Nội dung
Luận văn bao gồm 6 chương với bố cục trình bày như sau:
Chương 1: Giới thiệu chung về đề tài.
Chương 2: Trình bày thành tựu nghiên cứu về bộ não. Cụ thể, chúng tôi giới thiệu
về trí tuệ nhân tạo, mạng nơron nhân tạo và lý thuyết hoạt động của bộ não được đề xuất.
Chương 3: Giới thiệu mô hình HTM mô phỏng cấu trúc và hoạt động của bộ não.
Chương 4: Tìm hiểu lý thuyết tập trung thị giác bao gồm sự kết hợp giữa tính

hướng không gian (space-based) và hướng đối tượng (object-based); mô hình bottom-up
và top-down; các mô hình tin học tập trung thị giác hiện tại.
Chương 5: Trình bày hai mô hình tin học hóa cho mô hình tập trung thị giác
bottom-up và top-down bằng cách áp dụng mạng HTM và HSBN (Hierarchical Space-
based Network).
Chương 6: Tổng kết các kết quả tìm hiểu, những cải tiến, đóng góp và giới thiệu
các bài báo mà chúng tôi công bố tại các hội nghị quốc tế về các mô hình tin học tập
trung thị giác ứng dụng mạng HTM.
10

Chương 2
Thành tựu nghiên cứu bộ não
2.1 Trí tuệ nhân tạo
Những nghiên cứu của trí tuệ nhân tạo tập trung vào những thành phần sau của sự
thông minh, bao gồm học, lập luận, giải quyết vấn đề, nhận thức và hiểu ngôn ngữ.
2.1.1 Một số kết quả nghiên cứu
Alan Turning đề xuất bài toán Turning Test vào năm 1951, để chứng minh sự thông
minh của con người. Với bài toán này, ông đã thúc đẩy việc nghiên cứu lĩnh vực trí tuệ
nhân tạo. Bài toán đã thể hiện lên một điều rằng: bộ não là một loại khác của máy tính;
bất chấp việc ta thiết kế một hệ thống thông minh nhân tạo thế nào, nó chỉ cần tạo ra
những hành vi giống con người. Cho đến 1991, hơn 40 năm sau, thí nghiệm lần đầu được
thực hiện bởi giáo sư Hugh Loebner. Từ đó, người ta đã tổ chức cuộc thi hằng năm để
tìm người thắng cuộc. Đến ngày nay vẫn chưa có chương trình nào vượt qua 50% thành
công của bài toán.
Block World là một trong những lĩnh vực lập kế hoạch (planning domain) nổi tiếng
trong trí tuệ nhân tạo. Chương trình được tạo ra bởi Terry Winograd và là hệ thống
chuyên xử lý ngôn ngữ; nó có thể hiểu những lệnh được gõ phím và thực hiện di chuyển
các khối có hình thù và màu sắc khác nhau trên một bề mặt. Ví dụ, ta có thể đặt câu hỏi

“Is there a green pyramid on top of the big red cube?” hay “Move the blue cube on top of
the little red cube”. Chương trình có thể trả lời câu hỏi ta đang yêu cầu. Nó hoàn toàn
hoạt động và giả lập được nhưng bị giới hạn trong thế giới những khối mà nó được định
nghĩa sẵn.
Người ta cho rằng đã có nhiều ứng dụng của trí tuệ nhân tạo tưởng chừng như đã
thành công và gây ấn tượng. Trong đó, có chương trình của Plato áp dụng trong chứng
11

minh các giả thuyết toán học bằng phương pháp phán đoán suy diễn nhiều bước. Nhưng
thực tế nó chỉ có thể chứng minh một số lý thuyết đơn giản đã biết từ trước. Bên cạnh đó
còn có các hệ thống chuyên gia sử dụng cơ sở dữ liệu để trả lời các câu hỏi bởi người sử
dụng. Ví dụ, hệ thống chuyên gia y tế có thể chuẩn đoán bệnh của bệnh nhân dựa vào
danh sách các triệu chứng; nhưng nó ít được áp dụng vì không thực tế và cho kết quả
không cao. Vào tháng 5/1997, siêu máy tính Deep Blue của IBM đã đánh bại nhà vô địch
đánh cờ vua thế giới Garry Kasparov. Nhưng sự thành công này là một điều vô nghĩa vì
Deep Blue đã không thắng bằng sự thông minh hơn một con người; nó dành chiến thắng
vì có khả năng tính toán nhanh gấp triệu lần con người. Deep Blue không có khả năng
nhận thức trực quan. Một người chuyên đánh cờ khi nhìn vào một vị trí thì có thể phán
đoán ngay lập tức vùng nào chắc chắn sẽ nguy hiểm, trong khi một máy tính không có
cảm nhận điều đó nào là quan trọng và khám phá nhiều sự lựa chọn khác. Deep Blue
không có cảm nhận về quá khứ của trò chơi, không biết gì về đối thủ. Nó chơi cờ nhưng
không hiểu về cờ, giống như một máy tính thực hiện các phép tính toán học mà không
cần hiểu về khái niệm bản chất của toán học.
Tóm lại, những chương trình thành công của trí tuệ nhân tạo chỉ hoạt động tốt trong
một phạm vi cụ thể được thiết kế sẵn từ trước. Chúng không thể tổng quát hóa hay thể
hiện sự phức tạp. Thực tế, Deep Blue, Medical Expert System, World Block và những
chương trình khác sử dụng yếu tố hành vi bên ngoài để đánh giá sự thông minh của ứng
dụng, đó chính là các kết quả đầu ra mà ứng dụng mang lại thay vì tập trung sử dụng các

yếu tố bên trong. Ngay cả những người tạo ra chúng cũng thú nhận rằng chúng không suy
nghĩ giống con người bởi lẽ chúng không hoạt động trên nguyên tắc của bộ não con
người.
2.1.2 Mạng nơron nhân tạo
Mạng nơron nhân tạo được xem là một bước tiến phát triển hơn so với trí tuệ nhân tạo
trong việc cố gắng xây dựng máy học thông minh. Nó thật chất là một hệ thống tự học và
không cần những kĩ năng lập trình truyền thống từ các nhà lập trình viên.
12

Mạng nơron nhân tạo được xây dựng dựa vào những nghiên cứu của các nhà sinh vật
học nghiên cứu về cấu trúc và hoạt động của tế bào nơron trong bộ não. Về cơ bản, tế bào
nơron nhận nhiều luồng thông tin từ các nguồn khác nhau, kết hợp chúng bằng một cách
nào đó, sau cùng thực hiện một phương pháp phi tuyến tính trên kết quả trả về. Hình 2-1
thể hiện chi tiết mối quan hệ của những thành phần trong tế bào nơron.

Hình 2-1: Một tế bào nơron cơ bản
Để giả lập được bốn thành phần cơ bản của tế bào nơron gồm: Dendrites, Soma,
Axon và Synapses, các nhà nghiên cứu đã đề xuất tế bào nơron nhân tạo như trong Hình
2-2. Những giá trị đầu vào thông tin được thể hiện bằng các kí hiệu toán học x(n). Mỗi
giá trị thông tin đầu vào sẽ nhận một trọng số, kí hiệu là w(n). Trong trường hợp đơn giản
nhất, các kết quả có được sẽ được xử lý bằng phương thức tổng (Sum) và truyền cho
phương thức chuyển đổi (Transfer) để tạo ra kết quả đầu ra của tế bào nơron.
 Phương thức Sum có thể là các phép toán Sum, Max, Min, Avg, Or,
 Phương thức Transfer có thể là các thuật toán Hyperbolic Tangent, Linear,
Sigmoid, Sine,
13

Thành phần xử lý
Kết quả đầu ra

Hình 2-2: Một tế bào nơron nhân tạo
Một trong những yếu tố quan trọng khi sử dụng mạng nơron là việc phân lớp các tế
bào nơron. Hiện nay, việc phân lớp này được làm bằng cách tạo ra những tầng, mỗi tầng
chứa nhiều tế bào nơron. Các tầng có mối liên kết với nhau. Cơ bản, tất cả các mạng
nơron đều có cấu trúc giống Hình 2-3 bao gồm tầng đầu vào, tầng kết quả và một hoặc
nhiều tầng ẩn ở giữa.
TẦNG ĐẦU
VÀO
TẦNG ẨN
TẦNG KẾT
QUẢ

Hình 2-3: Một sơ đồ mạng nơron đơn giản.
14

Sau khi mạng nơron được xây dựng xong thì sẽ được huấn luyện có giám sát hoặc
không giám sát. Trong đó, hầu hết các mạng đều chọn phương pháp huận luyện có giám
sát. Khi đó, giá trị đầu vào và đầu ra được cung cấp cho mạng. Mạng nơron tiến hành xử
lý giá trị đầu vào và so sánh kết quả có được với kết quả mong muốn. Nếu có sự chênh
lệch xảy ra thì lỗi được lan truyền ngược nhằm thực hiện điều chỉnh lại trọng số ở các
nút. Quá trình này được thực hiện lặp đi lặp lại cho đến khi trọng số thỏa mãn yêu cầu đặt
ra.
Mạng nơron nhân tạo có thể xem như là một bước tiến trong việc xây dựng và tiến
đến máy học thông minh nhưng thực tế nó vẫn chưa thông minh và chưa giả lập được

một cách đầy đủ và hoàn thiện về cấu trúc và chức năng hoạt động của bộ não. Những
sản phẩm của trí tuệ nhân tạo và mạng nơron vẫn chú trọng đến kết quả hành vi như Alan
Turning đề cập : “Sự thông minh đồng nghĩa với hành vi”. Hay nói cách khác, những kết
quả có được có vẻ giống như con người tạo ra nhưng không được tạo ra bằng cách con
người suy nghĩ thông qua hoạt động của bộ não.
Theo J. Hawkins, mạng nơron nhân tạo không thể thông minh vì nó chưa đảm bảo ba
yếu tố cơ bản sau của hoạt động bộ não:
 Yếu tố thời gian thực: Bộ não thường xử lý thông tin được thay đổi một cách
nhanh chóng theo thời gian. Không có thông tin tĩnh, đứt đoạn được truyền vào và
ra trong hoạt động của bộ não.
 Yếu tố lan truyền ngược: Các nhà thần kinh học trãi qua một thời gian dài nghiên
cứu đưa ra kết luận rằng bộ não thực thi lan truyền ngược thông tin xảy ra ở hầu
hết các kết nối. Nó giúp thông tin được xử lý một cách chính xác và giới hạn trong
phạm vi thông tin tế bào đã lưu trữ từ trước.
 Yếu tố cấu trúc phân tầng vật lý: Cấu trúc của bộ não vô cùng phức tạp, nó là cấu
trúc phân tầng lặp lại. Tầng trên tiếp nhận thông tin từ tầng dưới và kết quả được
truyền lên tầng trên. Khi đó, càng ở tầng cao thì thông tin được xử lý ở dạng tổng
quan dựa vào thông tin chi tiết bên dưới. Hay nói cách khác, mạng nơron chưa
15

tổng quát hóa đặc trưng dữ liệu huấn luyện mặc dù thông tin được xử lý ở nhiều
tầng.
2.2 Trí tuệ nhân tạo tổng quan
Hiện nay giới khoa học về trí tuệ nhân tạo đang cố gắng sử dụng các thành tựu của
nhiều ngành khoa học khác nhau để giải quyết bài toán ban đầu đã đặt ra cho trí tuệ nhân
tạo, đó là xây dựng máy học thông minh, với tên gọi mới là trí tuệ nhân tạo chung (AGI).
Trí tuệ nhân tạo tổng quan ra đời như là một bước kế tiếp của trí tuệ nhân tạo nhằm
giải quyết vấn đề về sự thông minh dựa vào kết quả nghiên cứu của ngành khác nhau như

triết học, sinh vật học và tâm lý học, Cụ thể, trí tuệ nhân tạo tổng quan tập trung giải
quyết ba vấn đề sau:
 Lý thuyết của sự thông minh.
 Mô hình lý thuyết sự thông minh.
 Mô hình tin học hóa lý thuyết sự thông minh.
Trí tuệ nhân tạo tổng quan đã có những kết quả nghiên cứu nổi bật, bao gồm:
 Eric Baum, What is Thought?, 2004.
 Jeff Hawkins, On Intelligence, 2004.
 Marcus Hutter, Universal Artificial Intelligence, 2005.
 Pei Wang, Rigid Flexibility: The Logic of Intelligence, 2006.
 Ben Goertzel & Cassio Pennachin (Editors), Artificial General Intelligence,
2007.
Trong phạm vi luận văn, chúng tôi tập trung vào lý thuyết về cấu trúc và hoạt động bộ
não do Jeff Hawkins đề xuất. Nó có tên gọi là lý thuyết nền tảng trí nhớ phán đoán và
được xem là lý thuyết đầu tiên về hoạt động của bộ não. Dựa vào lý thuyết này, D.
George đã xây dựng mô hình toán học và phát triển mô hình tin học hóa HTM.
2.2.1 Lý thuyết nền tảng trí nhớ phán đoán
Bộ não con người có chiều dày khoảng 2 milimet và có sáu khu vực phụ trách các
hoạt động khác nhau. Con người thông minh hơn các loài vật khác bởi vì bộ não nếu trải
16

rộng trên một mặt phẳng thì nó lớn hơn nhiều lần so với bộ não của các loài vật khác;
điều này chứng tỏ sự thông minh không phải do bộ não có kích thước dày hơn hoặc chứa
những tế bào được cho là “thông minh”.
Bộ não chứa đầy các tế bào thần kinh (nơron). Chúng được gói gọn sắp xếp đến nỗi
không ai biết thật sự có bao nhiêu tế bào thần kinh trong bộ não. Theo các nhà giải phẩu,
người ta ước lượng rằng có khoảng 30 tỷ tế bào thần kinh trong bộ não; nhưng con số này
cũng có thể có nhiều hoặc thấp hơn. Các tế bào thần kinh này chứa đựng bên trong bao

gồm trí nhớ, kiến thức, kĩ năng và kinh nghiệm cuộc sống. Các tế bào thần kinh được
phân bổ ở nhiều khu vực chức năng riêng biệt khác nhau như xử lý ngôn ngữ, ngữ pháp,
được minh họa trong Hình 2-4. Những khu vực này được sắp xếp một cách phân cấp và
liên kết với nhau theo hai chiều lên và xuống thông qua sự liên kết giữa các tế bào thần
kinh. Những khu vực bên dưới cung cấp thông tin cho những khu vực bên trên trong khi
khu vực bên trên thì gửi thông tin ngược cho vùng bên dưới.
CÁC KHU VỰC HOẠT
ĐỘNG CỦA BỘ NÃO

Hình 2-4: Các phân vùng hoạt động trong bộ não
Theo Vernon Mountcastle, một nhà thần kinh học cho rằng những vùng bộ não có cấu
trúc giống nhau. Ví dụ, những vùng não quản lý thông tin thính giác giống những vùng
17

xử lý thông tin sờ và những vùng này thì giống với vùng điều khiển cơ, giống vùng xử lý
ngôn ngữ Broca, và giống các vùng khác, Từ đó, Mountcastle cho rằng vì những vùng
này giống nhau nên chúng sử dụng cùng một cơ chế xử lý cơ bản giống nhau cho mọi
vùng hoạt động của bộ não. Hay nói cách khác, bộ não sử dụng một thuật toán tổng quát
chung áp dụng cho mọi khu vực chức năng khác nhau trong bộ não. Cụ thể, mặc dù các
giác quan thì rất khác nhau như nhìn liên quan đến màu sắc, kiểu, hình dạng, chiều sâu;
nghe liên quan đến cao độ, điệu hát, nhưng cách bộ não xử lý những tín hiệu từ tai để
nghe giống như tín hiệu được nhìn thấy từ mắt.
Tín hiệu được truyền vào bộ não từ các giác quan khác nhau đều giống nhau và được
xem là các mẫu tín hiệu theo thời gian. Sự nhận thức và tri thức về thế giới quan được
xây dựng từ những mẫu này. Không có ánh sáng trong đầu; cũng không có âm thanh, tất
cả thông tin đi vào bộ não đều là những mẫu không gian và thời gian được truyền thông
qua tế bào thần kinh. Tại mỗi tế bào thần kinh, các mẫu sẽ được lưu trữ dưới dạng bất
biến được rút trích từ các mẫu ở vùng thấp hơn. Hay nói cách khác, các mẫu ở vùng cao

được xây dựng từ các đặc trưng theo không gian và thời gian của các mẫu được truyền
lên từ vùng thấp.
Trong một vùng, các tế bào thần kinh lan truyền theo chiều ngang. Giữa các vùng
phân cấp, các tế bào thần kinh liên kết theo chiều dọc. Đối với quá trình học, mỗi tế bào
thần kinh ghi nhớ một tập mẫu bất biến từ tập dữ liệu huấn luyện; đó là dữ liệu theo
không gian và thời gian liên tục tiếp nhận từ thế giới thực. Các tế bào thần kinh ở tầng
cao tạo ra các nhóm mẫu bất biến dựa vào việc rút trích các đặc trưng bất biến theo không
gian và thời gian của các mẫu ở vùng liền dưới. Sau đó, các mẫu này sẽ được lưu trữ tại
các tế bào thần kinh bằng việc sử dụng trí nhớ. Quá trình học cứ thế lan truyền lên trên
cho đến vùng cao nhất. Khi đó tại vùng cao nhất sẽ chứa các mẫu học siêu bất biến. Đối
với quá trình hoạt động, các tế bào thần kinh lan truyền các mẫu học theo chiều lên và
xuống giữa các vùng khác nhau trong bộ não tạo thành mối liên kết trong bộ não như
Hình 2-5 .
18

Sờ Nghe
Nhìn
Chi tiết
không gian
Bất biến
không gian
Thay đổi
chậm
Thay đổi
nhanh
Đối tượng
Chi tiết
đặc trưng

Hình 2-5: Hình thành mẫu bất biến của giác gian sờ, nghe và nhìn
Khi thông tin được lan truyền lên, các mẫu được kiểm chứng dựa vào tập mẫu đã học;
khi thông tin lan truyền xuống các mẫu đã được học lại được dùng làm cơ sở để đưa ra
mẫu phán đoán kế tiếp. Các mẫu này khi lan truyền xuống sẽ lan truyền đến toàn bộ các
vùng hoạt động khác nhau trong bộ não dựa vào các mối liên kết phân cấp như Hình 2-6.
Ví dụ, trong một phòng tối khi ta dùng tay sờ mó để tìm cái bàn, nếu ta sờ vào được chân
bàn trái phía trước; thông tin về chân bàn sẽ được truyền lên não để thực hiện kiểm tra và
xác nhận đó thật sự là chân bàn. Vì thông tin về cái bàn đã được lưu trữ ở vùng cấp cao
nên nó biết được rằng sẽ có nhiều bộ phận khác của cái bàn đi kèm. Bằng việc lan truyền
thông tin ngược, bộ não đưa ra những phán đoán kế tiếp, cụ thể, chân bàn phải liền kề
nằm ở vị trí nào. Từ đó, các tín hiệu được lan truyền đến vùng điều khiển cơ thực hiện di
chuyển bàn tay đến vị trí của chân bàn kế tiếp để tiếp tục kiểm chứng.
19

SỜ
NGHE NHÌN

Hình 2-6: Thông tin lan truyền lên và xuống hình thành các mẫu phán đoán.
Tóm lại, quá trình nhận thức và hoạt động của bộ não (hay thuật toán hoạt động các
vùng của bộ não) là quá trình thông tin mẫu được lan truyền liên tục lên và xuống giữa
các vùng phân cấp của bộ não để kiểm chứng và phán đoán thông tin dựa vào tập mẫu
học bất biến được lưu trữ tại các tế bào thần kinh.
2.2.2 Đề xuất lý thuyết
Jeff Hawkins đã đề xuất lý thuyết hoạt động của bộ não và đặt tên là nền tảng trí nhớ
phán đoán (Memory-Prediction Framework). Nó bao gồm các ý chính sau:
 Bộ não chứa thông tin các mẫu học bất biến theo không gian và thời gian. Mục
đích sử dụng các mẫu này để thực hiện phán đoán mẫu kế tiếp cho thông tin đầu

vô kế tiếp.
 Bộ não được xây dựng thông qua mô hình phân cấp các vùng hoạt động. Nghĩa là
các nút được liên kết với nhau theo mô hình phân cấp dạng cây.
 Chức năng của bộ não là mô hình hóa thế giới thông qua mô hình phân cấp không
gian và thời gian bằng việc ghi nhớ các mẫu bất biến liên tục tại các nút.
20

 Bộ não xây dựng mô hình thế giới không giám sát.
 Thông tin được lan truyền lên và xuống dưới dạng phân cấp để nhận dạng và
phán đoán theo thời gian cho mẫu kế tiếp.
2.3 Kết luận
Trong chương này, chúng tôi giới thiệu những kết quả nghiên cứu về sự thông minh
trong lĩnh vực trí tuệ nhân tạo và trí tuệ nhân tạo tổng quan. Những thành tựu và ứng
dụng của trí tuệ nhân tạo đã không cho thấy được sự thông minh ngay cả mạng nơron
nhân tạo giả lập hoạt động của tế bào thần kinh.
Từ đó, lĩnh vực trí tuệ nhân tạo tổng quan ra đời nhằm tập trung nghiên cứu về sự
thông minh bao gồm lý thuyết, mô hình lý thuyết và mô hình tin học. Trong các lý thuyết
đề xuất về sự thông minh, chúng tôi quan tâm đến lý thuyết nền tảng trí nhớ phán đoán
do Jeff Hawkins đề xuất mô phỏng hoạt động của bộ não.
Trong chương kế tiếp chúng tôi trình bày về mô hình tin học hóa mô hình mạng trí
nhớ phân cấp thời gian (HTM) do D. George đề xuất dựa vào lý thuyết nền tảng trí nhớ
phán đoán.
21

Chương 3
Mô hình tin học trí nhớ

phân cấp thời gian
3.1 Tổng quan mạng trí nhớ phân cấp thời gian
Mạng HTM do D. George đề xuất dựa vào lý thuyết trí nhớ phán đoán do Hawkins đề
xuất. Mạng HTM có cấu trúc dạng cây phân cấp với mỗi cấp có một hoặc nhiều nút như
Hình 3-1. Mỗi nút tự thực hiện khám phá các nguyên nhân từ dữ liệu đầu vào bằng cách
xử lý tìm các mẫu bất biến dựa vào gom nhóm theo không gian và thời gian. Những nút
này được tổ chức dưới dạng phân tầng và không tương tác trực tiếp nhau trong cùng một
tầng. Đặc biệt, tầng cao trên cùng chỉ có duy nhất một nút. Những nút ở tầng dưới tiếp
nhận thông tin và đưa ra các phán đoán kết quả, là thể hiện bất biến của dữ liệu, lên tầng
trên. Bằng cách này, một mạng HTM có thể trừu tượng hóa dữ liệu khi thông tin càng
được truyền lên cao dần trong mô hình phân cấp.
Ảnh đầu vào
Tầng 1
Tầng 2
Tầng 3

Hình 3-1: Mô hình mạng HTM.
22

Trong hình minh họa trên, mạng HTM gồm có 3 tầng. Thông tin đi từ tầng cuối cùng.
Những nút trong mỗi tầng được phân bố thành hình chữ nhật. Tầng trên cùng chỉ có một
nút; tầng giữa có 16 nút và tầng cuối cùng có 64 nút. Ảnh đầu vào có kích thước 3232
pixels. Tấm hình được chia nhỏ thành những vùng con 44 pixels. Mỗi nút ở tầng dưới
sẽ đảm nhiệm nhận thông tin từ vùng con 44 pixel.
Mạng HTM hoạt động gồm hai giai đoạn: giai đoạn huấn luyện và giai đoạn phán
đoán. Trong giai đoạn học, mạng huấn luyện một tập mẫu theo thời gian và kết quả là nó
sẽ xây dựng thành bản đồ liên kết các trùng khớp trong không gian cho từng phân loại.
Trong giai đoạn phán đoán, kết quả trả về của mạng là sự phân bố niềm tin trên các phân

loại đầu ra này. Tất cả các nút ngoại trừ nút đỉnh ở tầng cao nhất đều có phương thức xử
lý thông tin giống nhau. Phương thức xử lý tại nút sẽ gồm 2 giai đoạn: gom nhóm theo
không gian và gom nhóm theo thời gian như Hình 3-2. Trong cả hai quá trình học và
phán đoán, chúng được xử lý theo cách thông tin được truyền lên và không lan truyền
xuống.
Nút 1 Nút 2 Nút N
Ánh xạ có giám sát
Nút đỉnh
Gom nhóm không gian
Gom nhóm không gian
Gom nhóm thời gian
Nút 1

Hình 3-2: Mô hình gom nhóm không gian và thời gian của nút trong HTM.
23

Trong hình trên thể hiện một tầng với các nút đầu vào và một nút trên cao cùng của
mạng HTM có 2 tầng. Gom nhóm theo không gian của nút 1 học được 4 đặc trưng
(c1,c2,c3,c4). Trong quá gom nhóm theo thời gian, nó sẽ gom các đặc trưng thành các
nhóm dựa vào sự phân bố niềm tin trên các đặc trưng. Kết quả đầu ra là sự phân bố niềm
tin trên những nhóm được gom theo thời gian. Tất cả những nút trong tầng này như nút 2,
, nút N đều hoạt động giống nhau. Kết quả của các nút này là đầu vào của nút trên cùng.
Tại nút đỉnh, gom nhóm theo không gian hình thành 3 đặc trưng và cho giá trị trả về là sự
phân bố niềm tin lên bản đồ ánh xạ có giám sát.
Trong những phần kế tiếp, chúng tôi sẽ trình bày sơ lược các thuật toán dưới góc độ
cài đặt của chương trình Numenta, một chương trình tin học hóa mô hình HTM.
3.2 Gom nhóm không gian
Trong quá trình học, gom nhóm không gian phân tích những vector đầu vào để tạo

thành ma trận trùng khớp (coincidence matrix). Ma trận trùng khớp này có vai trò trong
việc hội tụ không gian vô cùng lớn từ thông tin vector bên ngoài thành tập những thông
tin chuẩn đặc trưng thể hiện có giới hạn. Những vector chuẩn này được chọn thông qua
gom nhóm không gian được gọi là sự hội tụ trùng khớp bởi vì chúng thể hiện những mẫu
thông tin cùng xảy ra riêng biệt liền nhau mà có xu hướng xuất hiện nhiều hơn mong đợi
so với sự chọn lựa ngẫu nhiên.
Ma trận trùng khớp kí hiệu là W. Nó bao gồm một hàng W
j
tương ứng với mỗi trùng
khớp j. Mẫu thông tin đầu vào của một nút là một vector hình thành bằng cách kết nối
những vector đầu ra của các nút con bên dưới.
Ma trận hội tụ bắt đầu là rỗng. Khi gom nhóm không gian chọn một vector thông tin
đầu vào nào là một sự hội tụ trùng khớp, nó đơn giản gắn vector này vào ma trận W như
là một hàng mới.
Ngoài nhiệm vụ chính là xây dựng ma trận trùng khớp, gom nhóm không gian cũng
đếm số vector thông tin đầu vào được xem là cùng thuộc một sự trùng khớp. Số lần xuất
hiện này được lưu trữ trong một vector gọi là counts. Khi quá trình học xong, vector này
sẽ chứa một số nguyên ứng với mỗi sự trùng khớp trong W. Giá trị thành phần thứ j

Ứng dụng mạng HTM và mạng ngữ nghĩa để nhận diện đối tượng phức trong ảnh

Trích đoạn

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về