Nghiên cứu, phát triển kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi tt

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.03 MB, 27 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO

BỘ KHOA HỌC VÀ CÔNG NGHỆ

VIỆN ỨNG DỤNG CÔNG NGHỆ

VŨ TRUNG KIÊN

NGHIÊN CỨU, PHÁT TRIỂN KỸ THUẬT ĐỊNH VỊ
TRONG NHÀ SỬ DỤNG TÍN HIỆU Wi-Fi

tãm t¾t luËn ¸n tiÕn sÜ kü thuËt

HÀ NỘI - 2019

Công trình được hoàn thành tại:
Viện Ứng dụng Công nghệ

Người hướng dẫn khoa học: GS. TS Lê Hùng Lân

Phản biện 1: PGS.TS Thái Quang Vinh
Phản biện 2: PGS.TS Hà Hải Nam
Phản biện 3: PGS.TS Hoàng Văn Phúc

Luận án sẽ được bảo vệ trước Hội đồng chấm luận án Tiến sĩ cấp Viện
họp tại Viện Ứng dụng Công nghệ vào hồi ... giờ ... ngày.... tháng ...
năm 20......

Có thể tìm hiểu luận án tại:
Thư viện Viện Ứng dụng Công nghệ.

Thư viện quốc gia.

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ
[CT1] Hoang Manh Kha, Duong Thi Hang, Vu Trung Kien, Trinh Anh
Vu (2017), Enhancing WiFi based Indoor Positioning by
Modeling measurement Data with GMM, IEEE International
Conference on Advanced Technologies for Communications,
IEEE, Quy Nhon, Vietnam, pp. 325-328
[CT2] Vu, T.K., Hoang, M.K., and Le, H.L. (2018), "WLAN
Fingerprinting based Indoor Positioning in the Precence of
Dropped Mixture Data", Journal of Military Science and
Technology. 57A(3), pp. 25-34.
/>EWZu6-/view
[CT3] Vu, Trung Kien and Le, Hung Lan (2018), "Gaussian Mixture
Modeling for Wi-Fi Fingerprinting based Indoor Positioning in
the Presence of Censored Data", Vietnam Journal of Science,
Technology and Engineering. 61(1), pp. 3-8,
DOI: />[CT4](ISI-Q2) Vu, Trung Kien, Hoang, Manh Kha, and Le, Hung Lan
(2019), "An EM algorithm for GMM parameter estimation in the
presence of censored and dropped data with potential application
for indoor positioning", ICT Express, 5(2), pp. 120-123,
DOI: 10.1016/j.icte.2018.08.001
Bài báo đã được chấp nhận:
[CT5](ISI-Q3) Vu, Trung Kien, Hoang, Manh Kha, and Le, Hung Lan
(2019), “Performance Enhancement of Wi-Fi Fingerprinting
based IPS by Accurate Parameter Estimation of Censored and
Dropped
Data”,
Radioengineering,

ISSN:
1805-9600.
Submission: 06/04/2019, Reviews Opened: 27/05/2019,
Accepted: 03/09/2019.

1

GIỚI THIỆU LUẬN ÁN
1.Tính cấp thiết của đề tài
Các hệ thống định vị dựa trên vệ tinh điển hình như GPS (Global
Positioning System) của Mỹ có thể định vị chính xác các đối tượng ở
môi trường ngoài trời. Tuy nhiên ở môi trường trong nhà, do tín hiệu từ
vệ tinh không được truyền thẳng tới thiết bị được định vị nên độ chính
xác của các hệ thống này giảm đi rất nhiều. Mặt khác, ngày càng xuất
hiện nhiều các nhu cầu định vị trong nhà, ví dụ như định vị cho người sử
dụng điện thoại thông minh di chuyển trong nhà ga, sân bay, trung tâm
thương mại; định vị cho hàng hóa trong kho; định vị cho ô tô trong bãi
đỗ xe...Vì những lý do này, trong những năm gần đây, hệ thống định vị
trong nhà (IPS: Indoor Positioning System) rất được quan tâm nghiên
cứu, phát triển.
Trong số các công nghệ định vị trong nhà hiện nay, công nghệ định vị
dựa trên tín hiệu Wi-Fi trong mạng nội bộ không dây (WLAN: Wireless
Local Area Network) được sử dụng phổ biến nhất do hầu hết các khu
vực trong nhà đều có sẵn WLAN, hầu hết các thiết bị di động như điện
thoại, máy tính đều được trang bị các bộ thu phát tín hiệu Wi-Fi.
Xuất phát từ những thực tế trên, tác giả đã chọn đề tài “Nghiên cứu,
phát triển kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi”, trong đó đi
sâu vào nghiên cứu kỹ thuật định vị dựa trên “dấu vân tay” RSSI
(RSSIF-IPT: Received Signal Strength Indication Fingerprinting based

Indoor Positioning Technique).
2. Đối tượng và phạm vi nghiên cứu
Nghiên cứu kỹ thuật định vị cho đối tượng tĩnh trong không gian 2
chiều ở môi trường trong nhà. Kỹ thuật định vị được tập trung nghiên
cứu là RSSIF-IPT, sử dụng tín hiệu Wi-Fi trong WLAN. Các vấn đề
được nghiên cứu bao gồm: Đặc điểm của Wi-Fi RSSI; mô hình xác suất
mô tả phân bố của Wi-Fi RSSI; thuật toán ước lượng các tham số, tối ưu
hóa các tham số của mô hình được sử dụng mô tả phân bố của Wi-Fi
RSSI; thuật toán định vị trực tuyến.

2

3. Mục tiêu nghiên cứu của đề tài
- Mục tiêu chung: Nghiên cứu phát triển kỹ thuật định vị trong nhà
dựa trên dấu vân tay RSSI sử dụng tín hiệu Wi-Fi trong WLAN nhằm
giảm thiểu sai số định vị, tối ưu thời gian định vị.
- Các mục tiêu cụ thể:
+ Xây dựng thuật toán ước lượng các tham số, số thành phần Gauss
trong GMM khi một phần dữ liệu không quan sát được;
+ Xây dựng thuật toán định vị với mục tiêu giảm thiểu sai số định vị,
tối ưu thời gian định vị;
4. Phương pháp nghiên cứu
Phương pháp thống kê (toán) để xác định xu hướng diễn biến của tập
dữ liệu (Wi-Fi RSSI) thu thập được từ đó đề xuất mô hình toán học mô
tả phân bố của dữ liệu; phương pháp giải tích để tính toán các tham số
của mô hình và vị trí của đối tượng cần định vị; phương pháp Monte
Carlo để đánh giá sai số của các tham số mô hình; cuối cùng, các
phương pháp thực nghiệm trên cả dữ liệu mô phỏng và dữ liệu thực tế để
kiểm chứng hiệu quả của các đề xuất khi áp dụng cho IPS.

5. Các đóng góp mới của luận án
- Đề xuất 03 thuật toán ước lượng các tham số của mô hình mô tả
phân bố của Wi-Fi RSSI (mô hình hỗn hợp Gauss - GMM) tương ứng
với các 03 trường hợp không quan sát được một phần dữ liệu [CT2CT4].
- Đề xuất thuật toán ước lượng số thành phần Gauss trong GMM mở
rộng [CT5].
- Đề xuất thuật toán định vị trong trường hợp không quan sát được
một phần dữ liệu (Wi-Fi RSSI) do đối tượng được định vị (OB: Object)
thu thập trong giai đoạn định vị trực tuyến [CT5].
6. Bố cục luận án
Bố cục của luận án gồm bốn chương, phần mở đầu, kết luận, danh
mục các công trình, bài báo khoa học đã được công bố, tài liệu tham

3

khảo và phụ lục. Chương 1: Tổng quan về kỹ thuật định vị trong nhà sử
dụng tín hiệu Wi-Fi. Chương 2: Ước lượng tham số của mô hình mô tả
phân bố Wi-Fi RSSI. Chương 3: Ước lượng số thành phần Gauss trong
mô hình mô tả phân bố Wi-Fi RSSI. Chương 4: Xây dựng thuật toán
định vị và các kết quả thực nghiệm IPS.
CHƯƠNG 1. TỔNG QUAN VỀ KỸ THUẬT ĐỊNH VỊ TRONG
NHÀ SỬ DỤNG TÍN HIỆU Wi-Fi
1.1. Các kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi
Các kỹ thuật định vị sử dụng tín hiệu Wi-Fi trong WLAN có thể chia
thành hai nhóm chính:
- Nhóm các kỹ thuật định vị dựa trên thuộc tính về không gian và thời
gian của tín hiệu thu được (TSARS: Time and Space Attributes of
Received Signal). TSARS có thể là thời gian tới (ToA: Time of Arrival),
chênh lệch về thời gian tới (TDoA: Time Difference of Arrival) hoặc

góc tới (AoA: Angle of Arrival).
- Nhóm các kỹ thuật định vị sử dụng chỉ số cường độ tín hiệu nhận
được (RSSI: Received Signal Strength Indication). Nhóm này bao gồm:
Kỹ thuật định vị tiệm cận; kỹ thuật định vị sử dụng mô hình suy hao
đường truyền và RSSIF-IPT.
RSSIF-IPT gồm hai giai đoạn: giai đoạn huấn luyện ngoại tuyến và
định vị trực tuyến. Ở giai đoạn huấn luyện, RSSI được thu thập tại các
điểm tham chiếu (RP: Reference Point) có vị trí xác định để xây dựng cơ
sở dữ liệu. Ở giai đoạn định vị trực tuyến, RSSI do OB thu thập được so
sánh với cơ sở dữ liệu, từ đó ước lượng ra vị trí của OB thông qua vị trí
của 1 hoặc một số RP. Trong số các kỹ thuật định vị, RSSIF-IPT có
nhiều ưu điểm nhất.
RSSIF-IPT có thể sử dụng phương pháp tất định (D-RSSIF-IPT:
Deterministic RSSIF-IPT) hoặc phương pháp xác suất (P-RSSIF-IPT:
Probabilistic RSSIF-IPT). So với D-RSSIF-IPT, P-RSSIF-IPT có sai số
định vị thấp hơn do cơ sở dữ liệu của phương pháp này thể hiện được sự

4

biến đổi của RSSI. P-RSSIF-IPT có thể sử dụng mô hình không tham số
(ví dụ biểu đồ tần suất) hoặc mô hình có tham số (ví dụ phân phối
Gauss, GMM) để mô tả phân bố của Wi-Fi RSSI. P-RSSIF-IPT dùng
mô hình có tham số cho ra kết quả định vị tốt hơn, cơ sở dữ liệu cần lưu
ít tham số hơn so với P-RSSIF-IPT dùng mô hình không có tham số.
1.2. Đặt vấn đề đã nghiên cứu
Phân bố của Wi-Fi RSSI có thể tuân theo phân phối Gauss hoặc bao
gồm nhiều thành phần Gauss khi được thu thập trong điều kiện môi
trường xung quanh thay đổi (cửa đóng/mở, người đi lại). Vì vậy so với
phân phối Gauss, GMM mô tả phân bố của Wi-Fi RSSI chính xác hơn.

Tuy nhiên trên thực tế một số mẫu dữ liệu có thể không quan sát được
do một trong hai nguyên nhân sau:
- Thiết bị thu thập Wi-Fi RSSI không đo được các giá trị nhỏ hơn
ngưỡng thu, khi đó sẽ trả về giá trị bằng với ngưỡng thu (thông thường
là – 100dBm với các điện thoại thông minh). Hiện tượng này được gọi
tắt là “censoring”.
- Đôi khi tín hiệu Wi-Fi đột ngột bị mất do AP ngừng hoạt động, khi
đó thiết bị thu thập Wi-Fi RSSI cũng trả về giá trị bằng với ngưỡng thu.
Hiện tượng này được gọi tắt là “dropping”.
Từ kết quả khảo sát Wi-Fi RSSI từ kết quả nghiên cứu trong các công
trình đã công bố, tập dữ liệu (Wi-Fi RSSI) thu thập tại một RP, từ một
AP có đặc điểm tương ứng với một trong số tám trường hợp sau:
(1) Dữ liệu có phân bố tuân theo phân phối Gauss, quan sát được toàn
bộ tập dữ liệu;
(2) Dữ liệu có phân bố tuân theo phân phối Gauss, một phần dữ liệu
không quan sát được do bị censoring;
(3) Dữ liệu có phân bố tuân theo phân phối Gauss, một phần dữ liệu
không quan sát được do bị dropping;
(4) Dữ liệu có phân bố tuân theo phân phối Gauss, một phân dữ liệu
không quan sát được do censoring và dropping;

5

(5) Dữ liệu có phân bố gồm đa thành phần Gauss, quan sát được toàn
bộ tập dữ liệu;
(6) Dữ liệu có phân bố gồm đa thành phần Gauss, một phần dữ liệu
không quan sát được do censoring (hình 1.10a);
(7) Dữ liệu có phân bố gồm đa thành phần Gauss, một phần dữ liệu
không quan sát được do dropping (hình 1.10b);

(8) Dữ liệu có phân bố gồm đa thành phần Gauss, một phần dữ liệu
không quan sát được do censoring và dropping (hình 1.10c).

a.

b.

c.

Hình 1.10. Biểu đồ tần suất của Wi-Fi RSSI thể hiện các vấn đề
censoring, dropping và đa thành phần Gauss
Các tác giả trong các bài báo khác nhau đã giải quyết được tập dữ liệu
có các đặc điểm như các trường hợp (1)-(5). Tuy nhiên chưa có nghiên
cứu nào giải quyết được tập dữ liệu có các đặc điểm như các trường hợp
(6)-(8). Vì lý do này, luận án tập trung nghiên cứu, đề xuất giải pháp
phát triển RSSIF-IPT để giải quyết đồng thời các vấn đề censoring,
dropping và đa thành phần Gauss (các trường hợp (6)-(8)) và vẫn đảm
bảo đúng khi dữ liệu có các đặc điểm như các trường hợp (1)-(5).
1.3. Kết luận chương 1
Trong chương này, luận án trình bày các kỹ thuật định vị trong nhà sử
dụng tín hiệu Wi-Fi. Chương 1 cũng tổng hợp và phân tích các công
trình nghiên cứu về RSSIF-IPT. Trên cơ sở nghiên cứu các vấn đề đã và
chưa được giải quyết đối với RSSIF-IPT, luận án đề ra định hướng
nghiên cứu.

6

CHƯƠNG 2. ƯỚC LƯỢNG THAM SỐ CỦA MÔ HÌNH MÔ TẢ
PHÂN BỐ Wi-Fi RSSI

2.1. Đặt vấn đề
Trong thực tế, tập dữ liệu bao gồm các phép đo chỉ số cường độ tín
hiệu nhận được của tín hiệu Wi-Fi (Wi-Fi RSSI) thu thập tại 1 điểm
tham chiếu (RP) từ 1 điểm truy cập (AP) có phân bố tuân theo GMM với
từ 1 đến J thành phần Gauss (J là một số hữu hạn). Gọi yn là giá trị RSSI
thu thập được ở lần thứ n từ một AP tại một RP ( yn  , n  1  N ), N

là số lần thu thập. Do các lần thu thập là độc lập với nhau nên các yn
độc lập với nhau. Nếu coi yn là các biến ngẫu nhiên có phân bố tuân
theo GMM khi đó hàm mật mật độ xác suất (PDF: Probability Density
Function) sẽ là:
J

p  yn ; Θ    w j  ( yn ; j ),

(2.1)

j 1

với Θ là bộ tham số của GMM, w j và  j là trọng số và tham số
của thành phần Gauss thứ j.
Gọi c là ngưỡng thu của thiết bị thu thập Wi-Fi RSSI, thay vì thu thập
được tập dữ liệu đầy đủ y   y1 ,y2 ,...,yN  , thiết bị thu thập Wi-Fi RSSI
chỉ thu thập được tập dữ liệu không đầy đủ x   x1 ,x2 ,...,xN  với:
 yn khi yn  c

xn  

 c khi yn  c

,n  1 N.

(2.4)

Đây chính là hiện tượng hiện tượng một phần dữ liệu không quan sát
được do censoring.
Gọi d   d1 ,d2 ,...,d N  là tập các biến nhị phân biểu thị khi một mẫu dữ
liệu ( yn ) không quan sát được do dropping (dn  1) hoặc quan sát được

(dn  0) . Khi đó, thay vì thu thập được tập dữ liệu đầy đủ (y) , ở một số

7

trng hp, thit b thu thp Wi-Fi RSSI ch thu thp c tp d liu
khụng y (x) vi:
y khi d n =0
xn n
, n 1 N.
c
khi
d
=1
n

(2.5)

Cỏc mu d liu cú giỏ tr bng c trong trng hp ny l cỏc mu d
liu khụng quan sỏt c do dropping.

Censoring v dropping hon ton cú th xy ra ng thi, khi ú:
y khi yn c vaứ d n =0
xn n
, n 1 N.
c
khi
y

c
hoaở
c
d
=1
n
n

(2.6)

Mc tiờu t ra ca chng 2 l c lng cỏc tham s () ca mụ
hỡnh mụ t phõn b ca tp d liu y (GMM) khi thu thp c tp d
liu

x.

2.2. Gii thiu thut toỏn EM
Thut toỏn EM c s dng gii bi toỏn tỡm hp lý cc i (ML:
Maximum Likelihood) hoc cc i xỏc sut hu nghim (MaP:
Maximum a Posteriori) ca mt mụ hỡnh thng kờ cú cỏc bin n
(unobservable variables) bng cỏch thc hin liờn tip cỏc vũng lp, mi

vũng lp gm 2 bc:
- Bc E (E-step): Tớnh giỏ tr k vng (expected value) ca hm hp
lý (LF: Likelihood Function).
- Bc M (M-step): c lng tham s ca mụ hỡnh cc i húa
giỏ tr k vng ca hm hp lý ó tớnh c bc E.
2.3. c lng cỏc tham s ca GMM khi mt phn d liu khụng
quan sỏt c do censoring
Thut toỏn EM c lng cỏc tham s ca GMM khi mt phn d liu
khụng quan sỏt c do censoring (EM-C-GMM) [CT3]:
Gi nj ( n 1 N, j 1 J ) l tp cỏc bin nh phõn tim n (latent
variables), nj 1 khi yn thuc thnh phn Gauss th j ; nj 0 vi cỏc

8

trường hợp khác. Khi đó, kỳ vọng của logarit hàm hợp lý cho trước bởi
tập dữ liệu quan sát được (x) và các tham số ở lần lặp thứ (k) được xác
định như sau:
Bước E:

 



Q Θ; Θ( k )   ln   Θ; y, Δ   x; Θ( k )
N

J 





(2.17)



    nj ln  w j p  yn ; j   p yn ,  nj | xn ; Θ( k ) dyn .


n 1 j 1 







Hàm Q Θ;Θ(k ) được tính cho trường hợp xn  yn và trường hợp xn  c
, kết quả như sau:
Q  Θ; Θ

(k )

   1  z    x ;   ln  w   ln    x ;  
N

J

n

n

(k )
j

j

n

j

n 1 j 1

c


  yn ; j( k ) 
(k ) 


 znβ   j  ln  w j    ln    yn ; j  
dy n  .
(k )
I

n 1 j 1

0 j 



N

J

(2.19)

Trong công thức (2.19), zn (n 1 N ) là các biến nhị phân thể hiện các
mẫu dữ liệu quan sát được hoặc không quan sát được. zn  0 khi xn  yn ,
khi đó yn  c ; zn  1 khi xn  c , khi đó yn  c . Ngoài ra ( xn ; (jk ) ) ,
β((jk ) ) và I0 ( (j k ) ) được xác định như sau:





 xn ; (jk ) 





β (jk ) 

c



w(jk )  xn ; (j k )
J


j 1

Bước M:

n



 x ; 
n

;

(2.20)

(k )
j

 ;
I  

w(jk ) I0  (j k )
J

w(jk )

j 1

      y ; 

I0 

(k )
j

w(jk ) 



(k )
j

0

(2.21)

(k )
j

 c   (j k ) 
1
.
dyn  erfc  

2
2 (jk ) 




(2.22)

9

Các tham số ước lượng được ở lần lặp thứ (k+1) được xác định bằng





cách lần lượt lấy đạo hàm riêng của Q Θ;Θ(k ) trong công thức (2.19)
theo  j , j , w j và gán bằng 0, kết quả như sau:
N

 1  z    x ;   x
n

n 1

 (j k 1) 

(k )
j

n

n

 β 

(k )
j

N

 1  zn    xn ; (jk )   β  (jk ) 
n 1

I1  (j k ) 

I

( k 1)



z


n 1

I1 

(k )
j

N

I0

(k )
j

n 1

N

 2j 

0



(k )
j

N

 1  zn    xn ; (jk )  xn   (jk ) 

 z
  

n

.

(2.23)

n

2

n1

N

N

 1  z    x ;    β     z
n

n 1

(k )
j

n

(k )
j

n 1

n

 I 2  (j k )  2 (j k ) I1  (j k ) 

 N
(k )
(k ) 2
β  j  

   j    zn
(k )
(k )
I

I

 0  j 
0 j 
 n1 .
+
N

N

 1  z    x ;    β     z
n

n1

n

N

( k 1)

j

w



(k )
j

(k )
j

n1

n1

n

n

(k )
j

n

N

 1  z    x ;    β     z
(k )
j

(2.24)

n 1

(2.25)

n

.
N
Trong các công thức (2.23)- (2.25), I1  (j k ) và I2  (j k ) được xác định

 

 

như sau:

 

 

I1  (j k )   (jk ) I0  (j k )

2
 
(k )  
c



1 (k )
j
 ;

 j exp  
(
k
)
 2 j  
2
 
 

       



1 (k )

I2  (j k )    (jk )   (jk )  I0  (j k ) 
 j c   (jk )
2


2

2



(2.26)

2
 
(k )  
c


j
 .
exp  
(
k
)
 2 j  
 
 

(2.27)

10

2.4. Ước lượng các tham số của GMM khi một phần dữ liệu không
quan sát được do dropping
Thuật toán EM ước lượng các tham số của GMM khi một phần dữ liệu
không quan sát được do dropping (EM-D-GMM) [CT2]:
Bước E:



(k )

Q Θ;Θ

N

J

  d w







n1 j 1

N J

(k ) 
j ln

n

 w   ln  
j





1  dn   xn ; (jk ) ln  w j   ln 1    ln   xn ; j   .
n1 j 1

(2.30)

Trong công thức (2.30),   P(dn 1) là xác suất xảy ra hiện tượng
dropping.
Bước M:

1  dn    xn ; (jk )  xn


n1
N

 (jk 1) 

1  dn    xn ; (jk ) 


n1
N



N

 
2
j

( k 1)







2

N

1  dn    xn ; (jk ) 

n 1

N

w(jk 1)



 1  dn   xn ; (jk ) xn   (jk )
n1

(2.31)

.





N

(2.32)

N

 1  dn   xn ; (jk )  dn w(jk )
n 1

.

n 1

.

(2.33)

N



( k 1)



dn

n1
N

.

(2.34)

2.5. Ước lượng các tham số của GMM khi một phần dữ liệu không
quan sát được do censoring và dropping
Thuật toán EM ước lượng các tham số của GMM khi một phần dữ liệu
không quan sát được do censoring và dropping (EM-CD-GMM) [CT4]:

11

Bước E:



Q Θ;Θ(k )
N



J









  1  vn   xn ; (jk ) ln  w j   ln 1    ln   xn ; j  
n 1 j 1
N

J

vnβ
n 1 j 1
N



(jk )

 α Θ

J

(k )

,

(k )



 

c



 ln  w 1    ln  y ; 

n
j 
  j

 





 yn ; (j k )

 

I0  (j k )

 dy

n



vn w(jk ) 1  α Θ( k ) , ( k )  ln   .


n 1 j 1

(2.52)
Trong công thức (2.52): vn (n 1  N ) là các biến nhị phân thể hiện các
mẫu dữ liệu quan sát được hoặc không quan sát được ( vn  0 khi yn  c
và dn  0, khi đó xn  yn ; vn  1 khi yn  c hoặc dn  1, khi đó xn  c);
J

1     w
(k )

α  Θ ( k ) , ( k )  

j 1

J

1     w
(k )

j 1

I  (j k ) 

(k )
j
0

I  (j k )    ( k )

(k )
j
0

Bước M:

  v
1

v

x

β
α
Θ
,












I  


.
 1  v    x ;    β    α Θ ,   v
 1  v    x ;   x   
  
 1  v    x ;    β    α Θ ,   v
I 

2 I  


β    α  Θ ,  

    v
I 

I  

 


+

.
 1  v    x ;    β    α Θ ,   v
N

( k 1)
j

xn ; (jk )

n

n1

(jk )

n

I1  (j k )

(k )

0

N

n

n1

(k )

j

n

N

2
j

(k )

( k 1)

n

n 1

N

n

n 1

(k )
j

n

(k )

(k )

(k )
j

N

n 1

n

(k )
j

n

(k )
j

(k )
j

n

(k )

(k )
j
N

n1

(k )
j

n

(k )

n

(2.53)

n

N

(k )

n 1

(k )
j

(k )
j
1

0

(k )
j

0

(k )
j

n1

2

2

(k )
j

(k )

N

n

(k )
j

(k )
j

(k )

j

(k )

(k )

2

n 1

N

n 1

N

n

n

(2.54)

12
N

w(jk 1)



1  vn   

n1



1  α Θ ( k ) , ( k )  v

 n 1 n

xn ; (jk )

 α Θ

(k )

,

(k )

N



N

( k 1)





N

v
n1

n

(2.55)

N





  β

(jk )

.
N



1  α Θ( k ) , ( k )  v

 n1 n

.

(2.56)

N
Từ các công thức (2.53) - (2.56) có thể nhận thấy:

- Nếu vn  0 (dữ liệu thu thập được đầy đủ), (2.52)- (2.55) rút gọn về
các công thức của thuật toán EM ước lượng tham số trong GMM (EMGMM, trường hợp 5);
- Nếu J 1, (2.52)- (2.56) rút gọn về các công thức của thuật toán EM
ước lượng tham số của phân phối Gauss khi một phần dữ liệu không
quan sát được do censoring và dropping (EM-CD-G, các trường hợp (1)(4));
Từ các lập luận trên có thể kết luận: EM-CD-GMM [CT4] ngoài việc
giải quyết được đồng thời cả 3 vấn đề, bao gồm đa thành phần Gauss
trong phân bố của Wi-Fi RSSI, censoring và dropping (các trường hợp
(5)-(8), mục 1.2) còn hoàn toàn đúng với khi dữ liệu có phân bố tuân
theo phân phối Gauss (các trường hợp (1)-(4), mục 1.2).
2.6. Đánh giá sai số của các tham số trong GMM ước lượng được
bằng các thuật toán EM
Trong mục này, thuật toán EM-CD-GMM sẽ được kiểm nghiệm và so
sánh với các thuật toán EM khác đã được công bố trên tập dữ liệu mô
phỏng, thông qua khoảng cách Kullback Leibler (KLD: Kullback
Leibler Divergence). Sau 1000 lần thực nghiệm, giá trị trung bình KLD
(KLD ) của các thuật toán được thể hiện như bảng 2.1 và độ lệch chuẩn (
 KLD ) được thể hiện như bảng 2.2 (khi c= – 90dBm).

Bảng 2.1.  KLD của các thuật toán EM sau 1000 lần thực nghiệm

13

c
(dBm)

Thuật toán

–90

EM-GMM
EM-CD-G
EM-CD-GMM


0
3.1491
0.0798
0.0098

0.075
3.2325
0.0864
0.0111

0.15
3.3142
0.1096
0.0229

0.225
3.5054

0.1329
0.0334

0.3
6.1253
0.1998
0.0364

Bảng 2.2.  KLD của các thuật toán EM sau 1000 lần thực nghiệm
c
(dBm)

Thuật toán

–90

EM-GMM
EM-CD-G
EM-CD-GMM


0
0.0351
0.1199
0.0227

0.075
0.3535
0.1364
0.0601

0.15
1.7911
0.1535
0.0857

0.225
2.202
0.1963
0.1005

0.3
2.4937
0.296
0.1302

Từ các kết quả thực nghiệm trong bảng 2.1 và bảng 2.2 có thể nhận
thấy:
- Với   0 và c  96 , dữ liệu quan sát được gần như đầy đủ. Khi đó
không có sự sai lệch lớn giữa các tham số được ước lượng bằng EMGMM và các tham số được ước lượng bằng EM-CD-GMM. EM-CD-G
có sai số lớn hơn do coi phân bố của dữ liệu tuân theo phân phối Gauss.
- Với các trường hợp khác,  KLD và  KLD của EM-CD-GMM luôn nhỏ
nhất. Bởi vậy EM-CD-GMM là thuật toán có thể ước lượng chính xác
nhất mô hình mô tả phân bố của Wi-Fi RSSI khi tập dữ liệu thu thập
được có phân bố gồm đa thành phần Gauss, một phần không quan sát
được do censoring và dropping.
2.7. Kết luận chương 2
Trong chương 2, tác giả đề xuất ba thuật toán ước lượng các tham số
của GMM trong các trường hợp: Một phần dữ liệu không quan sát được
do censoring; một phần dữ liệu không quan sát được do dropping; một

phần dữ liệu không quan sát được do censoring và dropping. Các kết
quả thực nghiệm đã chứng minh hiệu quả của thuật toán EM-CD-GMM
so với EM-GMM và EM-CD-G.

14

CHƯƠNG 3. ƯỚC LƯỢNG SỐ THÀNH PHẦN GAUSS TRONG
MÔ HÌNH MÔ TẢ PHÂN BỐ Wi-Fi RSSI
3.1. Đặt vấn đề
Trên thực tế, Wi-Fi RSSI thu thập tại từng RP khác nhau từ mỗi AP
khác nhau có phân bố khác nhau, có thể gồm một hoặc nhiều thành phần
Gauss. Nếu sử dụng GMM với J thành phần Gauss, số tham số của
GMM sẽ là NPs=3J-1. Điều này có nghĩa là số lượng tham số cần lưu
trong cơ sở dữ liệu và số phép toán của thuật toán định vị tỉ lệ thuận với
số thành phần Gauss được sử dụng mô tả phân bố của Wi-Fi RSSI. Vì
vậy cần có một giải pháp ước lượng số thành phần Gauss trong GMM
mô tả phân bố của Wi-Fi RSSI nhằm tối ưu cơ sở dữ liệu và làm giảm
mức độ phức tạp của các phép tính trong thuật toán định vị của IPS.
3.2. Các phương pháp ước lượng số thành phần Gauss trong GMM
3.2.1. Ước lượng số thành phần Gauss trong GMM bằng phương
pháp hàm phạt (PF: Penalty Function)

x là tập dữ liệu quan sát được, có phân bố tuân theo GMM; N là
ˆ là bộ tham số của GMM với J thành
số mẫu dữ liệu trong tập x ; Θ
J
phần Gauss mô tả phân bố của x ; N Ps là số tham số trong GMM;
Gọi

ˆ | x) là hàm hợp lý. PF của AIC, AIC3 và BIC được định nghĩa lần
(Θ
J

lượt như trong các công thức (3.3)-(3.5).

PFAIC (Θˆ J )  2ln[(Θˆ J | x)]  2NPs .

(3.3)

PFAIC3 (Θˆ J )  2ln[(Θˆ J | x)]  3NPs .

(3.4)

PFBIC (Θˆ J )  2ln [(Θˆ J | x)]  N Ps ln  N .

(3.5)

3.2.2. Ước lượng số thành phần Gauss trong GMM bằng phương
pháp hàm đặc trưng (CF: Characteristic Function)
Phương pháp CF sử dụng sự hội tụ của tổng có trọng số của các phần
thực trong logarit của hàm đặc trưng (SWRLCF: Sum of Weighted Real

15

parts of all Log-Characteristic Functions) để xác định số thành phần
Gauss như sau:
J

SWRLCF( J )   wˆ jˆ j .

(3.6)

j 1

3.3. Ước lượng số thành phần Gauss trong GMM khi một phần dữ
liệu không quan sát được do censoring và dropping [CT5]
Thành phần ln [(Θˆ J | x)] của PFBIC trong (3.5) được tính như sau:





ˆ ,ˆ | x  
ln  Θ
J




1  vn  ln  1 ˆ
n 1

N






 vn ln  1 ˆ
n 1

N





  wˆ j   xn ;ˆj 
J



j 1



 


wˆ j I0 ˆ j ˆ .
j 1

J



(3.7)

Gọi PFBICCD (Θˆ J ,ˆ ) là PF tương ứng với trường hợp một phần dữ liệu
không quan sát được do censoring và dropping, ta có:





N



J

n1



j 1







ˆ ,ˆ  2 1  vn  ln 1 ˆ  wˆ j  xn ;ˆj 
PFBICCD Θ



J

 2 vn ln  1 ˆ
n1

N





 


wˆ j I0 ˆj ˆ   3J ln  N .
j 1

J



(3.12)

Thuật toán ước lượng số thành phần Gauss và các tham số trong
GMM khi một phần dữ liệu không quan sát được do censoring và
dropping (EM-CD-GMM-PFBIC-CD) được đề xuất như sau (hình 3.4):
Các tham số đầu vào:Tập dữ liệu (x) với một phần không quan sát
được do censoring và dropping; ngưỡng hội tụ của thuật toán EM-CDGMM ( EM ) ; số thành phần Gauss tối đa ( Jmax ) được sử dụng để tính
các hàm PFBIC-CD .
Các tham số đầu ra: Các tham số ước lượng được, bao gồm số thành

ˆ ,ˆ ) mô tả phân bố của
phần Gauss ( Jˆ ) và các tham số trong GMM (Θ
ˆ
J

tập

x.

16
Bắt đầu
J 1

k  1; khởi tạo  j =   j , j , w j  , j =1  J và 

EM-CD-GMM

k  k 1

Bước E: Tính   xn ; (jk )  , I 0  j( k )  , β   (jk )  , α  ( k ) , ( k )  , I1  j( k )  và I 2  j( k ) 





theo EM-CD-GMM; tính ln   Θ (Jk ) , ( k ) | x  theo (3.11) ở vòng lặp thứ (k )

Bước M: Tính (jk 1) =   (j k 1) , j ( k 1) , w(j k 1)  , j =1  J và  ( k 1) theo EM-CD-GMM;
tính ln    Θ (Jk 1) , ( k 1) | x   theo (3.11) ở vòng lặp thứ (k +1)

ln  

( k 1)
ΘJ

,

( k 1)



| x   ln  



Θ(Jk )

,

(k )

Sai



| x    EM

Đúng

Lưu tạm thời các tham số trong GMM với J thành phần Gauss,
ước lượng bằng EM-CD-GMM:
( k 1)
( k 1)
ˆ  
ˆ
ˆ 
ˆ
ˆ
 ( k 1) ( k 1) ( k 1) 
Θ
J
 1 ,...,  J  ,với  j   j =   j , j , w j  , j =1  J và   





ˆ ,ˆ theo (3.12)
Tính PFBIC CD Θ
J

J=Jmax

Sai

J  J 1

Đúng

Chọn PFBIC CD nhỏ nhất trong số J max các PFBIC CD :













ˆ ,ˆ  min  PF
ˆ ,ˆ ,..., PF
ˆ
ˆ 
PFBIC CD Θ
Θ
BIC CD Θ J  J max ,
Jˆ
 BIC CD J 1

Lưu số thành phần Gauss ước lượng được (Jˆ ) và các tham số trong GMM





ˆ =  ˆ ,ˆ ,wˆ  ,...,  ˆ ,ˆ ,wˆ  ;ˆ
với Jˆ thành phần Gauss: Θ
1
1 1
Jˆ
 Jˆ Jˆ Jˆ 
Kết thúc

Hình 3.4. Thuật tốn EM-CD-GMM-PFBIC-CD

17

3.4. Đánh giá các thuật toán ước lượng số thành phần Gauss trong
GMM
Trong mục này, các thuật toán ước lượng số thành phần Gauss trong
GMM được đánh giá thông qua các lần thực nghiệm khác nhau trên các
tập dữ liệu mô phỏng. Các thuật toán được thực nghiệm bao gồm:
- Thuật toán ước lượng số thành phần Gauss sử dụng EM-GMM và
PFAIC (EM-GMM-PFAIC), các tham số đầu vào được khởi tạo gồm
 EM  106 , Jmax  6 ;
- Thuật toán ước lượng số thành phần Gauss sử dụng EM-GMM và
PFBIC (EM-GMM-PFBIC), các tham số đầu vào được khởi tạo gồm
 EM  106 , Jmax  6 ;
- Thuật toán ước lượng số thành phần Gauss sử dụng EM-GMM và
SWRLCF (EM-GMM-SWRLCF), các tham số đầu vào được khởi tạo
gồm  EM  106 , CF  0.02;
- Thuật toán EM-CD-GMM-PFBIC-CD được tác giả đề xuất, các tham số
đầu vào được khởi tạo gồm  EM  106 , Jmax  6 .
Sau 1000 lần thực nghiệm, kết quả thể hiện như trong bảng 3.2, với

P(J =Jˆ) , P(| J  Jˆ |1) và P(J  Jˆ | 2) lần lượt là xác suất số thành phần
Gauss ước lượng ( Jˆ ) được bằng số thành phần Gauss thực ( J ) , xác suất

Jˆ lệch so với J 1 thành phần Gauss và xác suất Jˆ lệch so với J từ 2
thành phần Gauss trở lên.
Từ các kết quả trong bảng 3.2. có thể thấy, trong mọi trường hợp, EMCD-GMM-PFBIC-CD đều có kết quả tốt hơn so với các thuật toán khác.
Cụ thể, tính trung bình xác suất ước lượng đúng số thành phần Gauss
trong GMM của EM-CD-GMM-PFBIC-CD cao hơn so với xác suất ước
lượng đúng số thành phần Gauss trong GMM của EM-GMM-PFAIC,
EM-GMM-PFBIC và EM-GMM-SWRLCF lần lượt là 76%, 69% và
67%.

18

Bảng 3.2. Thống kê xác suất ước lượng đúng, lệch 1 và lệch từ 2
thành phần Gauss trở lên của các thuật toán (khi c= 92 dBm)
c

Thuật
toán
Xác
suất
(dBm)
0
0.1
0.2
0.01 0.01 0.01
P(J=Jˆ)
EM-GMM-PFAIC

P(| J  Jˆ |1)
0.02 0.02 0.01
P(J  Jˆ | 2)
3.5. Kết luận chương 3
Khi một phần dữ liệu không quan sát được do dropping hoặc
censoring hoặc cả hai, các phương pháp ước lượng số thành phần Gauss
trong GMM được công bố trước đều có sai số lớn do chưa đề cập tới các
mẫu dữ liệu không quan sát được. Trong chương 3, PF của BIC được
tính trên cả các mẫu dữ liệu quan sát được  xn  c  và các mẫu dữ liệu
không quan sát được  xn  c  . Đây là những điểm mới trong các phương
pháp ước lượng số thành phần Gauss của GMM mô tả phân bố Wi-Fi
RSSI được đề xuất so với các phương pháp được giới thiệu trong các
công bố trên.

19

CHƯƠNG 4. XÂY DỰNG THUẬT TOÁN ĐỊNH VỊ VÀ CÁC KẾT
QUẢ THỰC NGHIỆM IPS
4.1. Đặt vấn đề
P-RSSIF-IPT bao gồm giai đoạn huấn luyện ngoại tuyến và giai đoạn
định vị trực tuyến. Trong giai đoạn huấn luyện ngoại tuyến, gọi NRP là
số điểm tham chiếu (RP) trong khu vực cần định vị; gọi NAP là số điểm
truy cập Wi-Fi (AP); gọi x q ,i  q  1  N RP , i  1  N AP  là tập dữ liệu thu
thập được tại RP thứ q từ AP thứ i , khi đó, giai đoạn huấn luyện ngoại
tuyến của IPS sử dụng P-RSSIF-IPT cần xây dựng cơ sở dữ liệu:

R  Θˆ q,i ; q  1  NRP , i  1  N AP ,

(4.1)

ˆ là bộ tham số của mô hình mô tả phân bố của x . Bộ tham số
với Θ
q,i
q ,i
này được ước lượng bằng thuật toán EM-CD-GMM-PFBIC-CD.
Trong giai đoạn định vị trực tuyến, gọi x on  ( x1on ... xNonAP ) là tập dữ
liệu do OB thu thập được, bài toán định vị tương đương với bài toán
phân lớp cho x on , với các lớp là các RP. Vị trí của OB sẽ tương ứng với
vị trí của một hoặc một số lớp (RP) “phù hợp” nhất với x on . Cực đại xác
xuất hậu nghiệm (MaP) là phương pháp được sử dụng phổ biên để ước
lượng vị trí của OB trong P-RSSIF-IPT sử dụng mô hình có tham số.
Tuy nhiên, ở môi trường trong nhà, Wi-Fi RSSI thường chịu ảnh hưởng
bởi các hiện tượng censoring, dropping. Bởi vậy trong chương này, thuật
toán định vị dựa trên phương pháp MaP được đề xuất để giải quyết vấn
đề một phần dữ liệu thu thập trong giai đoạn định vị trực tuyến không
quan sát được do censoring và dropping.
4.2. Thuật toán định vị dựa trên phương pháp MaP [CT5]
Gọi  q là vị trí của RP thứ q trong khu vực cần định vị, khi OB thu
thập trực tuyến tại một vị trí nào đó các mẫu dữ liệu
x on  [x1on , x2on ,..., xNonAP ] , xác suất hậu nghiệm (posterior) được xác định
như sau:

20
N AP

p  xion |  q  P   q 

i 1

p   q | xon   N RP N AP

  p

xion

q' 1 i 1

  

|  q' P  q'

(4.2)

Trong công thức (4.2), P( q ) là xác suất biên, nếu coi các RP là độc
1 N RP N AP
lập với nhau: P   q  
;   p xion |  q' P  q' là hằng số chuẩn hóa
N RP q' 1 i 1



  

(normalising constant); p  xion |  q  là hợp lý (likelihood) và được tính như
sau:
Jˆq ,i
 N AP


1 ˆ q ,i
wˆ q ,i, j  xion ;ˆq ,i , j
 i 1
j 1
on
khi
x
>c
N N
i
ˆ
J q ',i
AP
RP

1 ˆ q ',i
wˆ q ',i , j  xion ;ˆq ',i , j

j 1
 q '1 i 1
  N AP  Jˆq ,i


ˆ
 w
ˆ I 
1 ˆ q ,i  ˆ q ,i 
 i 1  j 1 q ,i , j 0 q ,i , j




 khi x on  c
i
 N RP N AP  Jˆq ,i


 w
ˆ q ,i , j I0 ˆq ,i , j 1 ˆ q ,i  ˆ q ,i 



 q '1 i 1  j 1




p   q | xon 

 



 













 

 

(4.9)





Sử dụng phương pháp K láng giềng gần nhất (KNN: K-nearest
neighbors), chọn KNN các RP có xác suất hậu nghiệm từ lớn nhất đến
lớn thứ KNN , vị trí của OB sẽ là:
 q p   q | x on 

q

K
ˆ  xon  
 qK p   q | xon 
NN

(4.10)

NN

4.3. Các kết quả thực nghiệm IPS
4.3.1. Sai số định vị
Sai số định vị là tiêu chí quan trọng nhất của IPS. Để đánh giá và so
sánh sai số của IPS áp dụng các đề xuất trong chương 2, 3 và mục 4.2

21

với sai số của IPS áp dụng các công trình khác đã công bố, tác giả tiến
hành các thực nghiệm IPS trên dữ liệu mô phỏng và dữ liệu thực.
4.3.1.1. Thực nghiệm IPS trên dữ liệu mô phỏng
Để thực nghiệm IPS trên dữ liệu mô phỏng, một mặt bằng có diện tích
45m x 45m với 10 AP và 100 RP được tạo ra trên Matlab. Dữ liệu trong
giai đoạn huấn luyện ngoại tuyến được thu thập theo trình tự sau:
(1) Thu thập dữ liệu tại mỗi RP từ mỗi AP theo mô hình suy hao
đường truyền:
r
yn[dBm]=RSSI 0[dBm]  10 log10     
(4.11)
r0
(2) Làm tròn yn .
(3) Tạo các mẫu dữ liệu không quan sát được do censoring, dropping
với   0.15 , c  100dBm .
Số lượng mẫu dữ liệu thu thập tại mỗi RP từ mỗi AP là 400 mẫu. Dữ
liệu thu thập được ở 50% RP có phân bố tuân theo phân phối Gauss; dữ
liệu thu thập được ở 17% RP khác có phân bố tuân theo GMM với 2
thành phần Gauss; dữ liệu thu thập được ở 17% RP khác có phân bố
tuân theo GMM với 3 thành phần Gauss; dữ liệu thu thập được ở 16%

RP còn lại có phân bố tuân theo GMM với 4 thành phần Gauss.
Trong giai đoạn định vị trực tuyến, 1000 bộ dữ liệu được thu thập tại
100 vị trí của 100 RP. Tại mỗi vị trí, 10 bộ dữ liệu được thu thập theo
trình tự tương tự như trình tự thu thập dữ liệu trong giai đoạn huấn luyện
ngoại tuyến. Bảng 4.2. thống kê giá trị trung bình (DE ) và phương sai
2
( DE
) của sai số định vị của IPS áp dụng 4 phương khác nhau, bao gồm:

- Phương pháp biểu đồ tần suất (histogram).
- EM-GMM-AIC-MaP. Trong phương pháp này, ở giai đoạn huấn
luyện, GMM được sử dụng để mô tả phân bố của dữ liệu và thuật toán
EM-GMM kết hợp tiêu chuẩn AIC được sử dụng ước lượng các tham số
của GMM. Ở giai đoạn định vị trực tuyến, thuật toán định vị dựa trên
phương pháp MaP được sử dụng.

22

- EM-CD-G-MaP. Trong phương pháp này, ở giai đoạn huấn luyện,
phân phối Gauss được sử dụng mô tả phân bố của dữ liệu và thuật toán
EM-CD-G áp dụng để ước lượng các tham số của mô hình. Ở giai đoạn
định vị trực tuyến, thuật toán định vị dựa trên phương pháp MaP được
sử dụng.
- EM-CD-GMM-BIC-MaP là phương pháp được tác giả đề xuất. Ở
giai đoạn huấn luyện, GMM được sử dụng mô tả phân bố của dữ liệu và
thuật toán EM-CD-GMM-PFBIC-CD được sử dụng để ước lượng các tham
số của GMM. Các tham số đầu vào của EM-CD-GMM-PFBIC-CD được
chọn bao gồm:  EM  106 , Jmax  6 . Ở giai đoạn định vị trực tuyến, thuật
toán định vị dựa trên phương pháp MaP (mục 4.2) được sử dụng.

Trong các thuật toán định vị dựa trên phương pháp MaP, số láng giềng
gần nhất được chọn: KNN  3. Giá trị trung bình và phương sai của sai số
định vị sau 1000 lần thực nghiệm được thể hiện trong bảng 4.1.
4.3.1.2. Thực nghiệm IPS trên dữ liệu thực
Để đánh giá, so sánh IPS áp dụng các phương pháp khác nhau trên dữ
liệu thực, tác giả tiến hành thực nghiệm trên một mặt bằng của một tầng
của tòa nhà có diện tích 360m2. Trong giai đoạn huấn luyện, thiết bị
Samsung Galaxy S7-SM-G930F với phần mềm thu thập Wi-Fi RSSI
được sử dụng thu thập dữ liệu ở 25 RP. Khoảng cách trung bình giữa
các RP là 2.7m. Tại mỗi RP, 400 mẫu dữ liệu được thu thập từ mỗi AP.
Thời gian giữa 2 lần thu thập là 3000ms. Sau khi tổng hợp tại 25 RP có
tổng số 72 AP khả dụng, 4 AP có trung bình RSSI lớn nhất được chọn
để xây dựng cơ sở dữ liệu của giai đoạn huấn luyện ngoại tuyến.
Trong giai đoạn định vị trực tuyến, 100 bộ dữ liệu được thu thập tại 25
vị trí của các RP. Tại mỗi vị trí thu thập 4 bộ dữ liệu. Thiết bị thu thập
và khoảng thời gian giữa hai lần thu thập dữ liệu tương tự giai đoạn
huấn luyện ngoại tuyến. Bảng 4.2 thể hiện giá trị trung bình và phương
sai của sai số định vị khi thực nghiệm IPS với dữ liệu thực sau 100 lần
thực nghiệm.

Nghiên cứu, phát triển kỹ thuật định vị trong nhà sử dụng tín hiệu Wi-Fi tt

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về