Tải bản đầy đủ (.pdf) (76 trang)

(Luận văn thạc sĩ) xây dựng hệ thống quản lý thông tin về khí hậu sử dụng vào mạng cảm biến

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.63 MB, 76 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CƠNG NGHỆ

HỒNG THỊ HUẾ

XÂY DỰNG HỆ THỐNG QUẢN LÝ THƠNG TIN VỀ
KHÍ HẬU SỬ DỤNG VÀO MẠNG CẢM BIẾN
Ngành: Công nghệ thông tin
Chuyên ngành: Kỹ thuật phần mềm
Mã số: 60480103

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. VŨ THỊ HỒNG NHẠN

Hà Nội, năm 2014


1

CAM ĐOAN
Tơi xin cam đoan đây là cơng trình nghiên cứu, tìm hiểu của riêng cá nhân tơi.
Trong tồn bộ nội dung của luận văn, những điểm được trình bày là của cá nhân tôi,
hoặc là được tổng hợp từ nhiều nguồn tài liệu, các luận điểm đưa ra rõ ràng, chính xác,
các tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp.
Tơi xin hồn tồn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định
cho lời cam đoan của mình.
Hà Nội, ngày 26 tháng 6 năm 2014
Tác giả luận văn

HOÀNG THỊ HUẾ




2

LỜI CẢM ƠN

Để hoàn thành luận văn tốt nghiệp là cả một q trình đầy khó khăn và
thử thách trong học tập và nghiên cứu của bản thân. Để có được những thành
quả như ngày hơm nay, ngồi những nỗ lực của bản thân, không thể không nhắc
tới là sự động viên, giúp đỡ của các thầy, cô giáo, bạn bè, đồng nghiệp và người
thân trong gia đình.
Tơi xin trân trọng cảm ơn TS. Vũ Thị Hồng Nhạn là giảng viên của
trường Đại học Công Nghệ đã hướng dẫn tận tình, chu đáo và giúp đỡ tơi hiểu
về chun mơn, nghiên cứu cũng như định hướng phát triển trong suốt q trình
làm luận văn.
Tơi cũng xin gửi lời cảm ơn tới các thầy cô giáo trong trường Đại học
Công Nghệ - Đại học Quốc Gia Hà Nội đã giảng dạy, truyền đạt những kiến
thức bổ ích về lĩnh vực cơng nghệ phần mềm mà tôi đã theo đuổi và đồng thời
đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập cũng như nghiên cứu
đề tài này.
Tơi xin cảm ơn tất cả các bạn bè cùng khóa đã cho tôi cơ hội được trao
đổi, chia sẻ kiến thức cũng như kinh nghiệm thực tế qua các môn học, giúp tơi
có thể tiếp thu được thêm nhiều vấn đề mới không chỉ trong lĩnh vực chuyên
ngành phần mềm của mình.
Cuối cùng, tơi xin gửi lời bày tỏ cảm ơn chân thành và sâu sắc tới gia đình
của tơi. Gia đình là chỗ dựa tinh thần đã ln ở bên tơi, ủng hộ tơi trong suốt q
trình học tập và nghiên cứu để tơi có thể hồn thành bản luận văn này.
Dù đã rất cố gắng song luận văn chắc chắn khơng tránh khỏi các thiếu sót,
tơi rất mong nhận được các ý kiến đóng góp quý báu của thầy cô và các bạn.
Xin chân thành cảm ơn!

Hà Nội, ngày 26 tháng 6 năm 2014
Tác giả luận văn

HOÀNG THỊ HUẾ


3

MỤC LỤC
CAM ĐOAN ........................................................................................................1
LỜI CẢM ƠN .....................................................................................................2
MỤC LỤC ...........................................................................................................3
DANH MỤC HÌNH VẼ ...................................................................................... 5
Chương 1 .............................................................................................................8
GIỚI THIỆU .......................................................................................................8
1.1 Bối cảnh chung ........................................................................................ 8
1.2 Động cơ và định nghĩa bài toán ............................................................. 10
1.3 Giới hạn và phạm vi nghiên cứu ............................................................ 12
1.4 Bố cục của luận văn ...............................................................................13
Chương 2 ...........................................................................................................14
TỔNG QUAN VỀ MẠNG CẢM BIẾN VÀ ỨNG DỤNG ............................ 14
2.1 Cơ sở dữ liệu mạng cảm biến ................................................................ 14
2.2 Mơ hình lưu trữ dữ liệu cảm biến .......................................................... 16
2.2.1 Lữu trữ tập trung và tìm kiếm .................................................... 17
2.2.2 Lưu trữ cục bộ và tìm kiếm địa lý ..............................................17
2.2.3 Lưu trữ cục bộ với chỉ mục phân tán .........................................18
2.2.4 Phương pháp lưu trữ cục bộ với đa độ phân giải ....................... 18
2.3 Các cách tiếp cận xử lý truy vấn cho ứng dụng với mạng cảm biến .....19
2.4 Quản lý hệ thống mạng cảm biến .......................................................... 23
2.4.1 Hệ thống xử lý tổng hợp dữ liệu bên trong mạng ...................... 23

2.4.2 Hệ thống dữ liệu lịch sử dài hạn ................................................26
Chương 3 ...........................................................................................................29
KHÁI NIỆM VÀ ĐỊNH NGHĨA .....................................................................29
3.1 Bối cảnh và giả thiết ..............................................................................29
3.2 Dữ liệu cảm biến và cách lưu trữ ........................................................... 31
3.3 Phân tích các loại truy vấn trong mạng cảm biến ..................................33
Chương 4 ...........................................................................................................36
PHƯƠNG PHÁP GIẢM DỮ LIỆU BA PHA CHO MẠNG CẢM BIẾN ...36
4.1 Giới thiệu ............................................................................................... 36
4.2 Loại bỏ các bản ghi trùng lặp ................................................................ 38
4.3 Khoảng cách giá trị dựa trên dữ liệu giảm.............................................40
Chương 5 ...........................................................................................................46


4

XỬ LÝ TRUY VẤN DỰA TRÊN PROXY .................................................... 46
5.1 Chức năng của Proxy .............................................................................46
5.2 Phân tích lịch sử của các truy vấn tại Proxy ..........................................48
5.3 Cơ sở dữ liệu siêu dữ liệu trong Proxy ..................................................50
Chương 6 ...........................................................................................................55
CÁC THÍ NGHIỆM VÀ PHÂN TÍNH HIỆU SUẤT ....................................55
6.1 Mơi trường thí nghiệm ...........................................................................55
6.2 Hiệu quả lưu trữ thông qua cơ chế giảm dữ liệu ...................................56
6.3 Độ chính xác của truy vấn .....................................................................64
6.4 Hiệu quả của xử lý truy vấn bằng cách sử dụng Proxy và hệ thống thử
nghiệm theo dõi khí hậu ............................................................................................ 68
Chương 7 ...........................................................................................................72
KẾT LUẬN .......................................................................................................72
TÀI LIỆU THAM KHẢO ................................................................................74



5

DANH MỤC HÌNH VẼ
Hình 1.1 Tổng quan về mạng cảm biến................................................................ 9
Hình 2.1 Hai cách tiếp cận trong cơ sở dữ liệu mạng cảm biến......................... 15
Hình 2.2 Tổng hợp đa độ phân giải ....................................................................19
Hình 2.3 Ví dụ về tập hợp đơn giản trong mạng ................................................20
Hình 2.4 Mạng cảm biến với một mạng (trái) và tổng hợp nhóm áp dụng cho nó
(phải) trong TAG ...........................................................................................................21
Hình 2.5 Giám sát mạng cảm biến khơng dây ...................................................22
Hình 2.6 Khái niệm về xử lý dữ liệu cho hệ thống cơ sở dữ liệu cảm biến của
TinyDB hoặc Cougar .....................................................................................................24
Hình 2.7 Kiến trúc tổng thể của Fjord ................................................................ 25
Hình 2.8 Kiến trúc mạng cảm biến hai lớp StonesDB .......................................27
Hình 2.9 Mơ hình cơ bản trong MauveDB......................................................... 28
Bảng 3.1 Dữ liệu yêu cầu ước tính cho các ứng dụng khoa học ........................ 30
Hình 4.1 Tổng quan lược đồ giảm dữ liệu ba pha ..............................................37
Hình 4.2 Ví dụ giảm dữ liệu của pha Nạve ....................................................... 39
Thuật tốn 4.1: Thủ tục so sánh các bản ghi nhân đơi ......................................40
Hình 4.3 Ví dụ về sơ đồ giảm dữ liệu dựa trên giá trị khoảng cách...................42
Thuật toán 4.2 Ước khoảng giá trị trên một khoảng dữ liệu dựa vào các thông
số về khoảng cách ..........................................................................................................44
Hình 4.4 Tác dụng của việc giảm dữ liệu........................................................... 45
Hình 5.1 Tổng quan về hệ thống ba tầng mạng cảm biến ..................................47
Hình 5.2 Các truy vấn có điều kiện tìm kiếm chồng chéo .................................49
Bảng 5.1 Mơ tả bảng siêu dữ liệu không gian .................................................... 51



6

Bảng 5.2 Mô tả bảng lịch sử truy vấn ............................................................... 52
Hình 5.3 Thủ tục đăng ký truy vấn .....................................................................53
Bảng 5.3 Lưu trữ dữ liệu trong bảng lịch sử truy vấn ........................................53
Bảng 5.4 Lưu trữ dữ liệu trong bảng lịch sử truy vấn theo thời gian .................53
Bảng 6.2 Tóm tắt các thơng số ...........................................................................55
Hình 6.3 Dữ liệu giảm theo cơ chế ba pha với tập 5 cảm biến và ngưỡng giá trị
khoảng cách của Level1 và Level2 là 1.........................................................................56
Hình 6.4 Thời gian thực hiện thuật toán giảm giữ liệu theo cơ chế ba pha với
tập 5 cảm biến và ngưỡng giá trị khoảng cách của Level1 và Level2 là 1 ...................57
Hình 6.5 Dữ liệu giảm theo cơ chế ba pha với tập 7 cảm biến và ngưỡng giá trị
khoảng cách của Level1 và Level2 là 1.........................................................................58
Hình 6.6 Thời gian thực hiện thuật toán giảm giữ liệu theo cơ chế ba pha với
tập 7 cảm biến và ngưỡng giá trị khoảng cách của Level1 và Level2 là 1 ...................59
Hình 6.7 Dữ liệu giảm theo cơ chế ba pha với tập 9 cảm biến và ngưỡng giá trị
khoảng cách của Level1 và Level2 là 0,5......................................................................61
Hình 6.8 Thời gian thực hiện thuật tốn giảm giữ liệu theo cơ chế ba pha với
tập 9 cảm biến và ngưỡng giá trị khoảng cách của Level1 và Level2 là 0.5 ................62
Hình 6.9 So sánh nhiệt độ trung bình của 2 cơ chế giảm dữ liệu giảm dữ liệu .65
so với nhiệt độ trung bình của dữ liệu thơ theo khoảng thời gian ...................... 65
Hình 6.10 So sánh nhiệt độ trung bình của 2 cơ chế giảm dữ liệu giảm dữ liệu
so với nhiệt độ trung bình của dữ liệu thơ theo từng Cảm biến ....................................66
Hình 6.11 Tỉ lệ lỗi trung bình của nhiệt độ theo khoảng thời gian .................... 67
Hình 6.12 Tỉ lệ lỗi trung bình của nhiệt độ theo từng cảm biến ........................ 67
Hình 6.13: Tổng quan về hệ thống sử dụng mạng cảm biến để giám sát môi
trường ............................................................................................................................ 69


7


Hình 6.14 Hệ thống thử nghiệm theo dõi thơng tin về khí hậu .......................... 70
Hình 6.15 Đăng ký truy vấn từ người dùng ....................................................... 70


8

Chương 1
GIỚI THIỆU

Mạng cảm biến không dây đang được sử dụng trong nhiều lĩnh vực ứng dụng
dân sự, bao gồm cả môi trường, giám sát môi trường sống, các ứng dụng chăm sóc sức
khỏe, nhà tự động hóa và điều khiển giao thơng,... Cho đến nay, có rất nhiều nghiên
cứu đã và đang thực hiện thiết kế những cấu trúc mạng cảm biến phù hợp có thể triển
khai trong các lĩnh vực ứng dụng đó. Bên cạnh đó, việc quản lý và xử lý thông tin thu
được từ mạng cảm biến cũng là một trong những yêu cầu cấp thiết vì dữ liệu dưới
dạng dịng (data stream) và được thu liên tục theo thời gian thực. Dữ liệu thu được
thường có nhiều nhiễu hoặc lặp lại trong một khoảng thời gian nào đó. Vì thế để tiết
kiệm tài ngun dung lượng nhớ khan hiếm và tăng tốc thời gian xử lý, chúng ta cần
có những biện pháp tiền xử lý trước khi đưa vào quản lý và sử dụng lâu dài trong các
ứng dụng hỗ trợ quyết định.
Nghiên cứu này sẽ tập trung tìm hiểu, giới thiệu một hệ thống theo dõi thông tin
về thời tiết và khảo sát các kiến trúc hệ thống ứng dụng công nghệ mạng cảm biến.
Một số kỹ thuật xử lý và lưu trữ các dòng dữ liệu cảm biến theo thời gian thực sẽ được
thiết kế để hỗ trợ các truy vấn liên quan tới dữ liệu biến đổi liên tục theo không gian và
thời gian. Đặc biệt nghiên cứu sẽ tìm hiểu và triển khai phương pháp xử lý dữ liệu cảm
biến thu được với mục tiêu giảm dung lượng lưu trữ đồng thời vẫn đảm bảo độ chính
xác về thơng tin. Hiệu năng của phương pháp sẽ được đánh giá trong các truy vấn dữ
liệu theo sự thay đổi về các điều kiện truy vấn liên quan tới không gian và thời gian.


1.1

Bối cảnh chung

Sự tiến bộ của các mạng cảm biến và các công nghệ phần cứng hiện đại đã đưa
tới sự ra đời của các khái niệm điện toán đến khắp mọi nơi cho các ứng dụng thế giới
thực như giám sát địa vật lý, theo dõi vi khí hậu, giám sát ơ nhiễm khơng khí, theo dõi
chuyển động, theo dõi cấu trúc sức khỏe, theo dõi bệnh nhân y tế,...
Mạng cảm biến được tạo nên bởi một số lượng lớn các cảm biến, chúng có khả
năng thu thập và giao tiếp dữ liệu liên tục với nhau (như hình 1.1). Những cảm biến


9

này được thiết kế để thu dữ liệu trong phạm vi một khu vực ứng dụng cụ thể (ví dụ:
nhiệt độ, ánh sáng, âm thanh và áp suất), dữ liệu sau đó được truyền về một máy chủ
bằng cách phối hợp với các trạm trung gian khác được đặt gần chúng. Các máy chủ
giám sát toàn hệ thống, quản lý các dữ liệu thu được và cung cấp một giao diện để xử
lý các truy vấn của người dùng và hiển thị kết quả truy vấn cho người dùng. Các cảm
biến có thể sẽ tiết kiệm năng lượng bằng các phương pháp truyền thơng tối ưu [Madd
2005].

Hình 1.1 Tổng quan về mạng cảm biến
Trong môi trường này, dữ liệu cảm biến được định nghĩa như là siêu dữ liệu (ví
dụ: dữ liệu được lưu trữ), trong đó bao gồm các thông tin không gian (địa điểm), các
chi tiết kỹ thuật và các dữ liệu đo (ví dụ: dữ liệu cảm biến) cùng với thời gian [Bonn
2001, Yao 2002]. Những dữ liệu này được sử dụng để trả lời không chỉ truy vấn khơng
gian và thời gian, mà cịn cả truy vấn khơng gian thời gian. Để có được các kết quả của
các truy vấn thì hệ thống ứng dụng thực hiện các hoạt động liên quan đến điều kiện
không gian, thời gian, hoặc cả khơng gian thời gian. Theo đó, một giải pháp tốt cho

vấn đề xử lý hiệu quả các truy vấn phức tạp liên quan đến không gian, thời gian hoặc
cả không gian thời gian là cần thiết. Các loại truy vấn lịch sử chủ yếu là phân tích định
kỳ hoặc thống kê các số liệu của luồng dữ liệu. Vì vậy, hiểu được các tính năng của dữ
liệu trong mạng cảm biến là rất quan trọng đối với xử lý hiệu quả các truy vấn và cung
cấp dịch vụ tối ưu theo các yêu cầu trong mỗi ứng dụng.
Cho đến nay, nhiều cơng trình nghiên cứu về xử lý truy vấn dữ liệu trong mạng


10

cảm biến và quản lý hệ thống mạng cảm biến đã được giới thiệu. Hầu hết trong số đó
chủ yếu quan tâm đến các phương pháp xử lý truy vấn liên tục và quản lý dữ liệu trong
mạng cảm biến theo hướng tiêu thụ năng lượng hiệu quả. Mạng cảm biến được coi như
là một cơ sở dữ liệu phân tán và cung cấp ngôn ngữ truy vấn khai báo. Để giảm tiêu
thụ năng lượng trong các nút cảm biến đã có nhiều đề xuất để thực hiên như: kế hoạch
truy vấn hiệu quả, giảm thiểu sử dụng tài nguyên trong hệ thống, tối ưu hóa truy vấn
trung tâm, sử dụng cách tiếp cận xử lý truy vấn ước khoảng thu khi dữ liệu từ đó dữ
liệu được yêu cầu tùy thuộc vào các truy vấn cụ thể. Mặt khác, một số nghiên cứu tập
trung xây dựng những hệ thống tích hợp mạng cảm biến với hệ thống quản lý dữ liệu
dịng (DSMS: Data Stream Management System), trong đó có xem xét hiệu quả của
việc sử dụng năng lượng. Các mơ hình hệ thống sử dụng kiến trúc proxy bao gồm cả
thiết bị chạy bằng pin không chỉ các chức năng xử lý truy vấn trong mạng mà cịn có
các chức năng xử lý truy vấn lịch sử trong hệ thống quản lý dữ liệu dòng.

1.2

Động cơ và định nghĩa bài tốn

Trong vài năm qua, những thách thức chính trong mạng cảm biến chủ yếu là
làm thế nào để dữ liệu đến từ mạng cảm biến phân tán với nguồn năng lượng hạn chế

trên các nút. Trong những ứng dụng mạng cảm biến, hầu hết các truy vấn có thể được
phân loại thành truy vấn trực tiếp thu dữ liệu và các truy vấn dữ liệu lịch sử đang được
lưu trữ [Diao 2007].
Các truy vấn trực tiếp thu dữ liệu hữu ích cho hầu hết các ứng dụng giám sát
phát hiện các sự kiện bất thường như cháy, giám sát theo dõi lở đất và giám sát môi
trường sống. TinyDB và Cougar [Yao 2002] cung cấp ngôn ngữ truy vấn giống như
ngôn ngữ truy vấn SQL, tập trung vào xử lý truy vấn liên tục cho các ứng dụng sử
dụng trong mạng tập hợp và lọc các phương pháp với mức tiêu thụ năng lượng hiệu
quả. Tuy nhiên, các phương pháp tiếp cận này có một số hạn chế liên quan đến mặt
ứng dụng như phát hiện mơ hình đặc biệt và phân tích xu hướng lịch sử. Ví dụ như các
ứng dụng quản lý hệ sinh thái, quản lý mơi trường khí hậu, ơ nhiễm khơng khí và quản
lý nhu cầu tích lũy dữ liệu thu thập từ mạng cảm biến vào một cơ sở dữ liệu để phân
tích dữ liệu sau đó,…
Trong khi đó, truy vấn dữ liệu lịch sử chủ yếu là khai thác trong một mạng cảm
biến với sự hỗ trợ của các thiết bị cảm biến dựa trên flash được gọi là mạng cảm biến
lưu trữ tập trung, nơi các nút cảm biến được trang bị dung lượng cao và tiết kiệm năng
lượng lưu trữ flash cục bộ [Diao 2007]. Các nút cảm biến flash đều có thể duy trì một
số lượng lớn dữ liệu lịch sử trong bộ nhớ của chúng. Ví dụ như xây dựng đa độ phân
giải tổng hợp sử dụng sóng lăn tăn, dữ liệu sau đó được gửi proxy được chạy pin (ví


11

dụ trạm cơ sở). Người dùng truy vấn dữ liệu đã được nén với khối lượng không gian
thời gian ban đầu rất lớn mà vẫn có thể có được kết quả gần đúng từ dữ liệu tổng hợp
đó. Theo [Aly 2008] trong mạng sự kiện có sử dụng lưu trữ dữ liệu tập trung có liên
quan đến việc nhận diện lưu trữ tại các điểm được xác định trong mạng. Mặc dù cơ
chế lưu trữ cho thao tác truy vấn lịch sử hiệu quả cao về năng lượng, nhưng liên quan
đến chi phí truyền dữ liệu tổng hợp tới proxy và duy trì việc xây dựng các cấu trúc
thực hiện truy vấn và phân phối các hoạt động truy vấn giữa proxy cũng như hệ thống

ứng dụng vẫn đang là mối quan tâm lớn. Khả năng duy trì dữ liệu thô trong bộ nhớ cục
bộ của mỗi nút cảm biến sao cho chúng được sử dụng càng lâu càng tốt.
Mục tiêu của nghiên cứu này là giải quyết các hạn chế của các nút cảm biến sao
cho vừa tiết kiệm bộ nhớ cục bộ mà vẫn đảm bảo mức mất mát tối thiểu nhất của dữ
liệu thô và hứa hẹn cung cấp đầy đủ thông tin để xử lý các truy vấn liên quan dữ liệu
lịch sử. Cụ thể, nghiên cứu này được bắt đầu bởi bốn động cơ nghiên cứu như sau:
 Làm thế nào để quản lý dữ liệu trong bộ nhớ cục bộ của mỗi nút cảm biến có
giới hạn về năng lượng một cách hiệu quả.
 Làm thế nào để duy trì dữ liệu lịch sử càng lâu càng tốt trong khi có thể tiết
kiệm dung lượng lưu trữ của mỗi nút cảm biến.
 Làm thế nào để xử lý các truy vấn liên quan tới dữ liệu lịch sử trong hệ thống
mạng cảm biến.
 Làm thế nào để phân tán các truy vấn cần phải xử lý ở trong mạng cảm biến
hoặc trong hệ thống ứng dụng một cách tối ưu.
Ví dụ để xử lý các truy vấn “Khu vực nào có nhiệt độ trung bình hơn 29 độ hơn
2 tuần qua?”, hoặc “Nhiệt độ trung bình mỗi ngày trong vùng A từ 01 tháng 03 năm
2014 đến 30 tháng 04 năm 2014 là gì?” Nút cảm biến nên có khả năng lưu trữ dữ liệu
lịch sử được tích lũy qua thời gian để lưu trữ cục bộ. Tuy nhiên, không giống như trên
ổ đĩa lưu trữ dữ liệu trong cơ sở dữ liệu truyền thống, mạng cảm biến hầu như không
quản lý một khối lượng lớn các dữ liệu tích lũy trong lưu trữ cục bộ bằng cách áp dụng
lưu trữ sao lưu hoặc cơ chế lưu trữ như cơ sở dữ liệu truyền thống. Làm thế nào để
khai thác dung lượng lưu trữ hạn chế của các nút cảm biến có hiệu quả trở thành một
vấn đề rất quan trọng. Ngoài ra tồn tại trường hợp truy vấn trùng lặp hoàn toàn, các nút
cảm biến phải thực hiện một số lần lặp đi lặp lại. Để giải quyết vấn đề này, với một tập
các truy vấn được gửi tới hệ thống, chúng ta cần phân tích điều kiện truy vấn xem điều
kiện đó có trùng lặp với các truy vấn trước đó khơng. Dựa trên phân tích điều kiện truy
vấn này, những thao tác truy vấn nào bị lặp sẽ không phải xử lý lại nữa.


12


1.3

Giới hạn và phạm vi nghiên cứu

Trong luận văn này sẽ tìm hiểu và triển khai kỹ thuật xử lý truy vấn lịch sử dựa
trên kiến trúc proxy cho truy vấn phổ biến và phương pháp lưu trữ dữ liệu gần đúng
tập trung đảm bảo việc tiêu thu năng lượng hiệu quả. Trong cách tiếp cận của luận văn,
dữ liệu thô thu được sẽ phải trải qua một bước tiền xử lý trước khi được lưu trữ vào bộ
nhớ của nút cảm biến. Cơ chế ba pha được áp dụng bằng cách tổng hợp một số bản ghi
mà thông tin liên tiếp có giá trị khác biệt tương đối nhỏ trong một khoảng thời gian
nào đó và thay thế chúng bằng một bản ghi có giá trị tương đối gần đúng nhất. Hoạt
động này không chỉ giúp loại bỏ các bản ghi trùng lặp, mà còn giữ lại bản ghi có giá trị
gần đúng trong các nút cảm biến, cung cấp đủ thơng tin để có độ chính xác cao của các
câu trả lời truy vấn.
Ngồi ra, luận văn có đưa ra cách sử dụng proxy để xử lý dữ liệu và các truy
vấn giữa mạng cảm biến và hệ thống ứng dụng. Proxy có nhiệm vụ phân tích những
truy vấn có điều kiện truy vấn trùng lặp. Nhiệm vụ này được thực hiện với sự hỗ trợ
của bảng lịch sử truy vấn trong đó có lưu siêu dữ liệu (metadata). Truy vấn nào chưa
xuất hiện trước đó thì truyền vào mạng cảm biến, nếu đã xuất hiện trước đó thì hệ
thống lấy kết quả từ hệ thống ứng dụng. Cơ chế hoạt động này không chỉ giải quyết
việc trùng lặp trong truy vấn, mà còn cung cấp hoạt động thực hiện truy vấn trong
mạng cảm biến và hệ thống ứng dụng một cách dễ dàng. Do đó, năng lượng tiêu thụ
trong mạng cảm biến sẽ được giảm.
Sơ lược luận văn có thể được tóm tắt như sau:
 Định nghĩa các khái niệm liên quan đến mạng cảm biến, lưu trữ cục bộ của
một nút cảm biến và siêu dữ liệu được sử dụng trong việc xử lý các truy vấn
lịch sử.
 Phương pháp giảm thiểu dữ liệu cảm biến được đề xuất để hỗ trợ việc quản
lý các dữ liệu lịch sử trong lưu trữ cục bộ với chi phí năng lượng thấp.

Nghiên cứu đề xuất thực hiện nén dữ liệu qua nhiều giai đoạn, dữ liệu gần
đúng cuối cùng được lưu giữ trong các nút cảm biến dựa trên khoảng cách
của các giá trị liên tục trong một số bản ghi đọc được từ cảm biến.
 Kỹ thuật xử lý truy vấn trùng lặp mang lại tính tối ưu trong việc truyền dữ
liệu giữa các mạng cảm biến và hệ thống ứng dụng, tránh xử lý nhiều lần một
thao tác truy vấn trùng lặp.
Hiệu quả của phương pháp đề xuất được đánh giá dựa trên một số yếu tố khác
nhau như: độ chính xác của các dữ liệu thơ được duy trì là bao nhiêu, khả năng lưu trữ
là bao nhiêu bằng cách sử dụng chiến lược giảm thiểu dữ liệu và ảnh hưởng của proxy


13

trong hệ thống mạng cảm biến như thế nào trong các xử lý truy vấn và tiêu thụ năng
lượng.

1.4

Bố cục của luận văn

Với mục tiêu như đã nêu ở trên, luận văn bao gồm bảy chương với nội dung
nghiên cứu như sau:
Chương 1: Giới thiệu tổng quan về đề tài.
Chương 2: Trình bày một số tài liệu nghiên cứu, các khái niệm trong cơ sở dữ
liệu mạng cảm biến, kỹ thuật xử lý truy vấn, đề án lưu trữ dữ liệu cảm biến và quản lý
hệ thống mạng cảm biến. Phân tích hạn chế của các phương pháp tiếp cận hiện có đối
với việc quản lý dữ liệu và thao tác truy vấn liên quan tới việc tiêu thụ năng lượng
trong mạng cảm biến.
Chương 3: Mô tả kiến trúc mạng cảm biến, các định nghĩa của mơ hình dữ liệu,
lược đồ lưu trữ, các mơ hình truy vấn khơng gian, thời gian và cả khơng gian thời gian.

Trình bày kịch bản sử dụng và một số hạn chế của môi trường mạng cảm.
Chương 4: Liên quan tới tính năng của tín hiệu nhận được, luận văn sẽ giới
thiệu một cơ chế giảm thiểu dữ liệu ba pha, trong đó giá trị của các bản ghi đọc được
từ cảm biến liên tục được việc kiểm tra, nếu sự khác biệt của chúng quá nhỏ, giá trị
mới có thể được loại bỏ. Cơ chế này dẫn đến sự mất mát một số thông tin tuy nhiên lại
không ảnh hưởng tới ứng dụng, ngược lại lưu trữ tại các nút cảm biến có thể được tăng
lên đáng kể.
Chương 5: Trình bày chi tiết kỹ thuật xử lý truy vấn cảm biến. Đặc biệt, giới
thiệu cơ chế giải quyết vấn đề trùng lặp ở các truy vấn mạng cảm biến. Tại proxy, truy
vấn lịch sử do người dùng phát hành sẽ được phân tích và khoảng thời gian của điều
kiện truy vấn được chia dọc theo vịng đời của truy vấn, nhờ đó các truy vấn trùng lặp
là duy nhất theo khoảng thời gian truy vấn. Các truy vấn này sau đó được gửi vào
mạng cảm biến hoặc hệ thống ứng dụng để xử lý.
Chương 6: Thực hiện kỹ thuật đề xuất, đánh giá và so sánh với các phương pháp
lấy mẫu dựa trên sự kiện được sử dụng trong TinyDB liên quan đến một số yếu tố như:
mức độ chính xác của dữ liệu sau khi đi qua các hoạt động xử lý dữ liệu gần đúng, hiệu
quả lưu trữ tại mỗi nút trong bộ cảm biến, số lượng bản ghi dữ liệu được thực hiện trong
truy vấn và hiệu quả của việc sử dụng proxy về quản lý dữ liệu cũng như xử lý truy vấn.
Chương 7: Tóm tắt nghiên cứu thực hiện được và trình bày một số vấn đề cần
thảo luận.


14

Chương 2
TỔNG QUAN VỀ MẠNG CẢM BIẾN VÀ ỨNG DỤNG

Trong mạng cảm biến, hầu hết các nghiên cứu quan trọng đều quan tâm đến
nguồn tài nguyên hạn chế như tuổi thọ pin, dung lượng bộ nhớ và không gian lưu trữ
của các nút cảm biến trong mạng. Vì vậy, xử lý các nút trong mạng như thế nào để

việc sử dụng năng lượng được hiệu quả. Trong chương này sẽ tổng quan và phân tích
các nghiên cứu trước đây trong mạng cảm biến với việc xem xét giảm chi phí năng
lượng.
2.1 Cơ sở dữ liệu mạng cảm biến
Từ một điểm lưu trữ dữ liệu, mạng cảm biến có thể được định nghĩa như là một
cơ sở dữ liệu phân tán, có nhiệm vụ thu thập các phép đo vật lý về môi trường, các chỉ
số và phục vụ truy vấn từ người dùng và các ứng dụng khác từ bên ngoài mạng hoặc
bên trong mạng [Bonn 2001, Madd 2005]. Cơ sở dữ liệu mạng cảm biến cho phép bất
kỳ người dùng nào cũng có thể phát đi một truy vấn đến mạng cảm biến như một hệ
thống cơ sở dữ liệu thông thường và nhận phản hồi từ truy vấn đó. Như vậy có thể coi
mạng cảm biến như một hệ thống định tuyến dữ liệu trung tâm [Ratn 2003].
Có ít nhất hai cách tiếp cận dễ nhận thấy của một cơ sở dữ liệu mạng cảm biến
như trong Hình 2.1:
 Hình 2.1(a) là cơ sở dữ liệu tập trung: Dữ liệu được chiết xuất từ mạng cảm
biến theo cách xác định trước và được lưu trữ trong cơ sở dữ liệu nằm trên
một máy chủ front-end duy nhất. Xử lý truy vấn trên cơ sở dữ liệu tập trung
rất phù hợp cho các truy vấn được xác định trước trên dữ liệu lịch sử [Gane
2005]. Tuy nhiên, các nút gần điểm truy cập trở thành điểm nóng, là điểm
trung tâm gây ra lỗi có nguy cơ cạn kiệt nguồn năng lượng rất nhanh. Để
giảm tải dữ liệu truyền thông thì phương pháp này khơng tận dụng được lợi
thế của dữ liệu tổng hợp, nhất là khi chỉ cần dữ liệu tổng hợp cho các thao tác
xử lý. Bất kỳ truy vấn nào thì việc thiết lập tỷ lệ lấy mẫu ở mức cao tuy nhiên
điều này lại là cản trở cho việc truyền thông trong mạng.


15

 Hình 2.1 (b) là cơ sở dữ liệu phân tán: Tiết kiệm năng lượng vì tỷ lệ truy vấn
ít hơn so với tốc độ dữ liệu được tạo ra. Lưu trữ dữ liệu trong từng nút mạng
và cho phép các truy vấn được lấy ra bất cứ nút nào trong mạng. Tuy nhiên,

cơ sở dữ liệu phân tán truyền thống khơng thích hợp cho mạng cảm biến quy
mơ lớn vì trong cơ sở dữ liệu phân tán truyền thống đã được giả thiết topo
mạng được duy trì tồn cục [Madd 2003].

(a) Cơ sở dữ liệu tập trung

(b) Cơ sở dữ liệu phân tán

Hình 2.1 Hai cách tiếp cận trong cơ sở dữ liệu mạng cảm biến
Cần thiết phải có kiến trúc để triển khai cơ sở dữ liệu mạng cảm biến. Kiến trúc
này dựa trên hai tính năng:
 Tính năng thứ nhất: Thực hiện khai thác cơ sở dữ liệu trong mạng cảm biến
khi người dùng hoặc một ứng dụng phát đi một truy vấn và truy vấn này được
lưu hành trên mạng hoặc để tất cả các nút sử dụng tràn lan, hoặc là một tập
các nút được hạn chế sử dụng trong một vùng địa lý. Để phản hồi lại truy vấn
thì mỗi nút sẽ tạo ra bộ dữ liệu phù hợp, bộ dữ liệu này được định tuyến qua
mạng và truyền tới đích đã phát truy vấn. Các công việc trong mạng xử lý dữ
liệu tại mạng cảm biến là nền tảng để đạt được mục tiêu tiết kiệm năng lượng
truyền thông trong mạng cảm biến.
 Tính năng thứ hai: Khơng giống như cơ sở dữ liệu truyền thống, cơ sở dữ
liệu mạng cảm biến sẽ cung cấp kết quả gần đúng. Trong mạng cảm biến,
tính khả dụng của dữ liệu có thể bị giảm do kết quả của sự mất mát thơng tin
khi có một thay đổi bất thường trong q trình truyền thơng hoặc bị lỗi nút.
Liên quan đến câu trả lời của kết quả gần đúng thì đây một tính năng rất quan


16

trọng trong mạng cảm biến được gọi là kết quả dòng, đặc biệt là sử dụng cho
ứng dụng giám sát mơi trường liên tục. Tính năng này sẽ cho phép hiển thị

kết quả truy vấn một phần trong thời gian thực và cho phép người dùng tự
động tinh chỉnh truy vấn trong mạng cảm biến. Tính năng này được gọi là
tổng hợp trực tuyến và đã được đề xuất trong các tài liệu cơ sở dữ liệu lớn
trên hệ thống hỗ trợ quyết định.
2.2 Mơ hình lưu trữ dữ liệu cảm biến
Một trong những thách thức chính trong mạng cảm biến không dây là việc lưu
trữ và truy vấn dữ liệu cảm biến hữu ích, được gọi là quản lý dữ liệu [Gane 2005]. Dữ
liệu cảm biến hữu ích phụ thuộc vào từng ứng dụng và có ý nghĩa khác nhau trong các
tình huống ứng dụng khác nhau.
Ví dụ trong một ứng dụng theo dõi mục tiêu, người dùng quan tâm đến việc
phát hiện và theo dõi các phương tiện di chuyển. Dữ liệu cảm biến hữu ích bao gồm
phát hiện mục tiêu (nhãn thời gian và địa điểm) và theo dõi.
Ví dụ trong một ứng dụng giám sát kết cấu, các nhà khoa học quan tâm đến
phân tích dữ liệu thu được từ cảm biến liên quan tới không gian thời gian như độ rung
đo được tại các điểm khác nhau của một tòa nhà. Để thực hiện nhiệm vụ này, dữ liệu
về độ rung tương ứng với khoảng thời gian yêu cầu được thu thập và xử lý đối với
phạm vi tịa nhà.
Có ba câu hỏi được đặt ra liên quan tới việc quản lý dữ liệu:
 Dữ liệu được lưu trữ ở đâu trong mạng? Nó được lưu trữ tại nút cảm biến cục
bộ (lưu trữ cục bộ) hay phân tán trong hệ thống (lưu trữ phân tán) hoặc ở
ngoài của mạng tại các trạm cơ sở (lưu trữ tập trung)?
 Làm thế nào để các truy vấn chuyển đến được lưu trữ? Có thể sử dụng các
thuộc tính tìm kiếm để tăng hiệu quả như thế nào?
 Làm thế nào để giải quyết vấn đề về giới hạn lưu trữ tại các nút cảm biến?


17

Để trả lời những câu hỏi này đã có bốn cách tiếp cận:
2.2.1 Lữu trữ tập trung và tìm kiếm

Phương pháp thông thường để lưu trữ dữ liệu theo chuỗi dữ liệu thời gian là
phải có các nút cảm biến nguồn cung cấp tất cả dữ liệu đến một kho lưu trữ trung tâm
bên ngồi tới mơi trường cảm biến [Lee 2008]. Với một mạng có n nút, chi phí dựa
trên thứ tự đường kính của mạng cho mỗi phần dữ liệu được gửi bằng O(√𝑛). Do dữ
liệu đã được lưu trữ bên ngoài mạng nên truy vấn trên dữ liệu này khơng bị mất thêm
bất kỳ chi phí nào khác.
Lưu trữ tập trung có thể phù hợp cho lưu trữ với tốc độ thấp, truy xuất dữ liệu
thấp và mạng cảm biến quy mơ nhỏ. Ví dụ như xem xét một hệ thống theo dõi mục
tiêu phát hiện mục tiêu không thường xuyên và tạo ra bộ dữ liệu sự kiện với các loại
sự kiện đánh nhãn thời gian và địa điểm dò. Dữ liệu là rất nhỏ và tỷ lệ sự kiện là thấp,
do đó lưu trữ tập trung có thể hợp lý cho một mạng hàng trăm nút truyền dữ liệu qua 2
- 3 chặng và một trạm phát. Lưu trữ tập trung không phải lúc nào cũng khả thi trong
mạng cảm biến do chi phí tổng hợp và chi phí thắt nút cổ chai, truyền tất cả dữ liệu
hướng tới một cổng mạng.
2.2.2 Lưu trữ cục bộ và tìm kiếm địa lý
Trong hình 2.1 ở phía dưới bên phải của quang phổ là một chương trình lưu trữ
đầy đủ của tất cả dữ liệu cảm biến hữu ích tại cục bộ mỗi nút, truy vấn được chuyển
đến nơi mà dữ liệu được lưu trữ. Khi dữ liệu được lưu trữ cục bộ tại mỗi nút cảm biến
thì sẽ khơng có bất kỳ chi phí nào liên quan đến truyền thông. Tuy nhiên, do dữ liệu
được lưu trữ bất cứ nút nào trong mạng, nên nếu trong mạng có xử lý tìm kiếm và truy
vấn thì sẽ phải chịu chi phí cao về năng lượng, một truy vấn mà khơng hạn chế rõ ràng
khơng gian tìm kiếm vật lý thì chi phí tìm kiếm lên tới O(n), với n là số nút trong
mạng. Phản hồi truy vấn sẽ có chi phí là O( √n) vì đường kính mạng là O( √n). Nếu
chỉ phát sinh một vài truy vấn được phát ra trong suốt vòng đời của một mạng, thì việc
phản hồi cho các truy vấn này có thể bao gồm một ít chi phí truyền thơng [Gola 2006].
Một số lượng lớn các truy vấn liên quan đến tất cả các nút trong mạng thì chi phí
truyền thơng là khơng ít, có thể tiêu hao cả năng lượng dự trữ của mạng.
Cơ chế này có ba nhược điểm:
 Thứ nhất: Các truy vấn không giới hạn về phạm vi địa lý, chi phí tìm kiếm là
O(√𝑛) do vậy có thể bị hạn chế cho các mạng lớn với các truy vấn thường

xuyên.


18

 Thứ hai: Việc xử lý vấn truy dữ liệu không gian thời gian điều quan trọng
nhất là cần phải thực hiện phân tán dữ liệu, mỗi lần xử lý một truy vấn được
phát ra có thể rất tốn kém.
 Thứ ba: Cần phải tăng cường những kỹ thuật giải quyết về giới hạn lưu trữ
tại mỗi nút cảm biến.
2.2.3 Lưu trữ cục bộ với chỉ mục phân tán
Có rất nhiều các kỹ thuật khác nhau trong cơ chế sử dụng tổng hợp dữ liệu dựa
trên ý tưởng của hàm băm địa lý và cấu trúc bản sao. Một chương trình lập chỉ mục
như lưu trữ dữ liệu trung tâm cung cấp một hàm băm để lập bản đồ từ tên sự kiện dựa
vào vị trí. Lưu trữ dữ liệu trung tâm xây dựng một cấu trúc lưu trữ phân tán các nhóm
sự kiện lại với nhau về mặt khơng gian theo tên [Suen 2008]. Tên được coi là khóa tùy
ý trong hàm băm và là đơn vị cơ bản của phân loại. Một nút có thể phát hiện sự kiện
lưu trữ dựa vào phản chiếu gần nhất với vị trí của nút đó. Tìm kiếm sử dụng cấu trúc
bản sao sẽ bắt đầu với nút gốc, xuống đến bốn nút con, xuống bốn mỗi nút con trong
bốn nút con,… lưu trữ dữ liệu này sử dụng cấu trúc bản sao để đăng ký sự tồn tại của
các sự kiện tại các nút tụ điểm bản sao. Chi phí thơng tin liên lạc để lưu trữ một dữ
kiện là O(√𝑛) và chi phí để gửi một truy vấn và lấy dữ liệu là O(√𝑛).
Trong cơ sở dữ liệu truyền thống, một bảng được lập chỉ mục để tăng tốc độ
truy vấn phổ biến. Tương tự như vậy, lưu trữ dữ liệu trung tâm chỉ mục là dữ liệu được
tối ưu hóa cho truyền thơng. Các tính năng của chỉ mục phân tán và các phạm vi truy
vấn đa chiều trong mạng cảm biến đã mở rộng cách tiếp cận lưu trữ dữ liệu trung tâm
nhằm cung cấp một hệ thống phân cấp phân tán về không gian của các chỉ mục dữ
liệu.
2.2.4 Phương pháp lưu trữ cục bộ với đa độ phân giải
DIMENSIONS [Gane 2003b] là một hệ thống xây dựng tổng hợp đa độ phân

giải, sử dụng kỹ thuật nén wavelet để xây dựng tổng hợp đa độ phân giải từ khơng
gian khác nhau có thể được truy vấn sử dụng hiệu quả kỹ thuật drill-down.
DIMENSIONS hướng đến mạng cảm biến với quy mô lớn và lưu trữ dữ liệu hạn chế
để cung cấp một cái nhìn thống nhất về xử lý dữ liệu trong mạng cảm biến, kết hợp lưu
trữ lâu dài, truy cập dữ liệu đa độ phân giải và khai thác mơ hình khơng gian thời gian.
Hình 2.2 cho thấy khái niệm về đa độ phân giải về lưu trữ dữ liệu trong
DIMENSIONS.


19

Hình 2.2 Tổng hợp đa độ phân giải
Mục tiêu cơ bản của thiết kế DIMENSIONS là khả năng trích xuất dữ liệu cảm
biến một cách đa độ phân giải từ mạng cảm biến. Cơ chế làm việc này cung cấp nhiều
lợi ích, cho phép người dùng nhìn vào dữ liệu có độ phân giải thấp từ một khu vực lớn
hơn với chi phí thấp. Dữ liệu cảm biến có độ phân giải thấp được nén từ số lượng lớn
từ các nút, có thể đủ để truy vấn và được ước tính thống kê trên một tổng thể dữ liệu
lớn.

2.3

Các cách tiếp cận xử lý truy vấn cho ứng dụng với mạng cảm biến

Kỹ thuật xử lý truy vấn trong mạng cảm biến, thường tập trung vào thu thập câu
trả lời của các truy vấn bằng cách xử lý các truy vấn trong mạng một cách phân tán
[Gane 2005]. Phương pháp này khác với phương pháp tiếp cận xử lý tập trung, thu
thập dữ liệu riêng lẻ ở một máy chủ mạnh và xử lý truy vấn bất kỳ ở trung tâm. Cách
tiếp cận này khá tốn kém trong một số ứng dụng khi mà dữ liệu thô riêng lẻ không
quan trọng. Các truy vấn ở đây được giả thiết là đơn giản giống như truy vấn trong cơ
sở dữ liệu truyền thống. Do đó, chúng khác nhau từ việc thực hiện tổng hợp các truy

vấn trong kỹ thuật xử lý dữ liệu trung tâm.
Truy vấn tổng hợp trong mạng tập hợp sử dụng hai giai đoạn: giai đoạn phân
tán và giai đoạn thu thập. Chỉ tập hợp phân tích được các hàm như giá trị nhỏ nhất, giá
trị lớn nhất, tổng, trung bình và đếm, được đánh giá bằng cách sử dụng như một
phương pháp tiếp cận phân tán [Madd 2002b].
Trong giai đoạn phân tán, các truy vấn được phân tán đến tất cả các nút trong
mạng. Một cây bắt nguồn tại trạm cơ sở được sử dụng để định tuyến dữ liệu, còn gọi là
cây định tuyến. Dữ liệu khơng liên quan sẽ bị loại bỏ và chỉ có dữ liệu liên quan được


20

kết hợp, do đó chi phí truyền thơng trong phương pháp này giảm so với việc thu thập
dữ liệu cảm biến thô. Xử lý tiếp tục cho đến khi kết quả cuối cùng được tính tốn và
trả ngược về phía người dùng. Xem xét ví dụ thể hiện trong hình 2.3, trong đó số
lượng các nút trong mạng được yêu cầu, số truy vấn chính là lần đầu tiên đến tất cả các
nút trong mạng, bắt đầu từ trạm cơ sở. Mỗi nút lá trong cây “1” đến nút cha của nó,
nút cha tổng hợp số lượng nút con của chúng và thêm “1” và sau đó báo cáo kết quả
với nút cha trên nó, cứ như vậy cho đến hết. Số lượng lan truyền lên cây định tuyến và
đến khi tới nút gốc thì dừng. Thời gian để đánh giá các truy vấn trong giai đoạn thu
thập được gọi là một thời kỳ và được chia nhỏ ra. Tại các khoảng thời gian cụ thể thì
các nút cha sẽ thu thập dữ liệu từ các nút con. Khoảng thời gian này được lựa chọn
đúng cho phép thu thập, kết hợp kết quả một phần và lan truyền lên mạng.

Hình 2.3 Ví dụ về tổng hợp đơn giản trong mạng
Cuối cùng là việc tổng hợp yêu cầu đến nút gốc. Đây chính là phương pháp tiếp
cận giống như được sử dụng để làm tập hợp với nhóm, là sự kết hợp nhóm nhiều “id”
để phân biệt các nhóm khác nhau.
Có hai cách tiếp cận chủ yếu trong mạng tập hợp đó là: dịch vụ tập hợp cho
mạng cảm biến ad-hoc theo Tiny và tổng hợp theo dõi các mạng cảm biến không dây

theo TAG [Madd 2002b]. Hai phương pháp cùng chia sẻ một kỹ thuật xử lý trong
mạng. Phương pháp đưa ra có sự khác nhau cơ bản về dữ liệu được định tuyến trong
mạng và câu trả lời cho các truy vấn được thu thập. Mặc dù các ứng dụng của mỗi
phương pháp có vẻ khác nhau nhưng mục tiêu chung gần như giống hệt nhau. Hình 2.4
là một ví dụ về tính tốn một truy vấn được nhóm theo nhiệt độ và chọn các bản ghi có


21

ánh sáng trung bình.

Hình 2.4 Mạng cảm biến với một mạng (trái) và tổng hợp nhóm áp dụng cho
nó (phải) trong TAG

Hình 2.4 Một mạng cảm biến (trái) với một mạng và tổng hợp nhóm áp dụng
cho nó (phải) trong TAG [Madd 2002a] thúc đẩy sự cần thiết phải xây dựng hệ thống
cung cấp tập hợp trong mạng cảm biến không dây. Đây như là một dịch vụ cốt lõi,
nhằm mục đích cung cấp một dịch vụ kết hợp chung trong mạng cảm biến, trong đó
người dùng thực hiện các truy vấn tổng hợp đơn giản từ trạm cơ sở và các truy vấn sau
đó được phân tán và xử lý trong mạng. Ngôn ngữ sử dụng giống như ngôn ngữ SQL
không sử dụng ‘join”. Giả thiết “join” thêm một bảng là “sensors” với một thuộc tính
cho mỗi cảm biến đầu vào.
TAG dùng cho các ứng dụng có liên quan đến khu vực xa, khó quản lý như
giám sát xây dựng trong động đất, giám sát môi trường sống, theo dõi nhiệt độ và năng
lượng sử dụng,… Cả Tiny và TAG cho rằng trong các ứng dụng như vậy chỉ tóm tắt
hoặc tập hợp được u cầu chứ khơng phải là dữ liệu cảm biến thô.
Mặt khác theo mục tiêu của [Zhao 2002] là xây dựng một cơ sở hạ tầng giám
sát cho biết nút thất bại và các bất thường khác của mạng cảm biến mà không được
triển khai trong mơi trường khắc nghiệt. Hình 2.5 là kiến trúc giám sát được đề xuất,
dữ liệu được thu thập liên tục, tổng hợp những thuộc tính mạng khác nhau: như số

lượng các nút hoạt động, năng lượng còn lại, tỷ lệ hao hụt, số lượng gói tin, mức năng
lượng,.. , một cách chính xác và hiệu quả bằng cách sử dụng phân tích tổng hợp từ
tồn bộ mạng.
Kiến trúc này phát hiện bất kỳ thay đổi đột ngột trong các đặc tính trên và xem
xét các nguyên nhân của sự thay đổi một cách chi tiết hơn. Trong trường hợp có sự


22

thay đổi đột ngột, các công cụ quét cung cấp cái nhìn tồn diện của trạng thái hệ thống
để hướng dẫn quản trị hệ thống đến vị trí bất thường. Cuối cùng, Dumps cho phép
người dùng thu thập trạng thái chi tiết của nút để chuẩn đốn theo u cầu.

Hình 2.5 Giám sát mạng cảm biến không dây
Do giới hạn không gian lưu trữ trong mạng cảm biến nên hầu hết các nghiên
cứu về kỹ thuật xử lý truy vấn lịch sử đã được đề xuất với các giải pháp lưu trữ khác
nhau. Trong [Desh 2006] các câu trả lời truy vấn được ước tính bằng cách sử dụng một
mơ hình thống kê cho dữ liệu cảm biến, nơi mà các mơ hình chụp dự phịng và tương
quan trong các phép đo cảm biến. Khi độ chắc chắn không cao thì các cảm biến sẽ
được kiểm tra, do vậy sẽ giảm đáng kể chi phí xử lý truy vấn. [Deli 2005], các tác giả
khai thác các mối tương quan và dự phòng thời gian giữa các bản ghi của mỗi cảm
biến để nén các phép đo lịch sử ngắn hạn. Sau khi nén, các phép đo được truyền tới
trạm cơ sở để lưu trữ lâu dài. Tính tương quan khơng gian trong dữ liệu cảm biến được
sử dụng để giảm chi phí xử lý các truy vấn tổng hợp.


23

2.4 Quản lý hệ thống mạng cảm biến
Trong lĩnh vực quản lý hệ thống mạng cảm biến, có hai khía cạnh về các vấn đề

thiết kế cơ bản của phương pháp tiếp cận. Khía cạnh đầu tiên tập trung vào các vấn đề
xử lý truy vấn trong mạng để giải quyết hạn chế của pin tại mỗi nút cảm biến. Giới
thiệu các phương pháp xử lý truy vấn thu dữ liệu thông qua việc tổng hợp dữ liệu tại
mỗi nút. Khía cạnh thứ hai liên quan đến quản lý dữ liệu lịch sử và xử lý truy vấn để
phân tích một số sự kiện hợp lý hoặc thống kê.
2.4.1 Hệ thống xử lý tổng hợp dữ liệu bên trong mạng
Phương pháp phổ biến nhất để truy vấn trong mạng cảm biến là cách tiếp cận
theo truy vấn lệnh SQL. Điều này cho phép kiểu khai báo đơn giản của truy vấn. Ví dụ
của các giải pháp áp dụng phương pháp này là Cougar. TinyDB [Madd 2005] và
Cougar [Yao 2002] là các hệ thống cơ sở dữ liệu cảm biến được thiết kế để sử dụng
cho các ứng dụng thu thập dữ liệu tương đối đơn giản, như ứng dụng giám sát mơi
trường. Các hình thức chính của xử lý dữ liệu được hỗ trợ trong hệ thống là lựa chọn
và tổng hợp dựa trên hàm số học như tính tổng và trung bình. Hình 2.6 thể hiện khái
niệm về xử lý dữ liệu trong hệ thống cơ sở dữ liệu cảm biến của TinyDB hoặc Cougar.
Hệ thống trong các nút cảm biến thực hiện truy vấn từ người dùng bị tràn từ trạm cơ sở
và dữ liệu tổng hợp được truyền tại mỗi nút.


24

Hình 2.6 Khái niệm về xử lý dữ liệu cho hệ thống cơ sở dữ liệu cảm biến của
TinyDB hoặc Cougar
Đến mức độ nào đó, cả hai phương pháp đều cần phải cân nhắc đến việc bảo tồn
năng lượng, cung cấp các chiến lược xử lý truy vấn nhằm mục đích để bảo tồn tài
nguyên. TinyDB đã xử lý phức tạp hơn Cougar, TinyDB hỗ trợ các truy vấn dựa trên
sự kiện và các truy vấn dựa trên tuổi thọ của pin, người dùng có thể gửi các truy vấn
để thu thập dữ liệu dựa trên các truy vấn này, việc tính tốn tần suất lấy mẫu là cần
thiết để kéo dài tuổi thọ pin tại mỗi nút. Phương pháp đã sử dụng cấu trúc định tuyến
hay còn gọi là cây tuyến ngữ nghĩa để giúp các nút cảm biến xác định chính xác các
truy vấn gửi tới cần được chuyển đến nút con của chúng trong cây định tuyến hay

khơng.
Hạn chế chính của hệ thống cơ sở dữ liệu cảm biến là các nút cảm biến chủ yếu
đồng nhất. Các nút cảm biến phải thống nhất trước về các loại dữ liệu hoặc các mối
quan hệ sẽ được sử dụng tại tất cả các nút. Trong TinyDB, mỗi nút có một bảng có cấu
trúc cảm biến giống nhau, có chứa dữ liệu cảm biến cục bộ, còn Cougar được giả định
rằng mỗi loại cảm biến có một kiểu dữ liệu trừu tượng (Abstract Data Type) là đại


×