Tải bản đầy đủ (.ppt) (37 trang)

ĐỀ TÀI : CÁC GIẢI PHÁP XỬ LÝ SONG SONG TRONG WEB NGỮ NGHĨA. TS. Hoàng Hữu Hạnh

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.52 MB, 37 trang )

ĐẠI HỌC HUẾ
TRƯỜNG ĐẠI HỌC KHOA HỌC

ĐỀ TÀI :
CÁC GIẢI PHÁP XỬ LÝ SONG
SONG TRONG WEB NGỮ NGHĨA
Giáo viên hướng dẫn:
TS. Hồng Hữu Hạnh

NHĨM 4 – CAO HỌC KHMT B (2010 - 2012)

1


Nhóm thực hiện:
1. Nguyễn Thị Thanh Tâm
2. Lê Bá Minh Phong
3. Trần Thị Thành
4. Trần Như Đăng Tuyên
5. Nguyễn Vũ Cát Tường

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

2


NỘI DUNG TRÌNH BÀY
1. GIỚI THIỆU
2. XỬ LÝ SONG SONG
3. XỬ LÝ SONG SONG TRÊN WEB NGỮ NGHĨA
4. MỘT SỐ GIẢI PHÁP


5. REASEARCH VÀ SONG SONG HÓA
6. KẾT LUẬN

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

3


1.Giới thiệu
 Web có ngữ nghĩa là sự mở rộng của Web hiện tại mà trong
đó thơng tin được định nghĩa rõ ràng sao cho con người và máy
tính có thể cùng làm việc với nhau một cách hiệu quả hơn.
 Web ngữ nghĩa cung cấp dịch vụ để trao đổi và sử dụng dữ
liệu, thông tin và kiến thức trong các hình thức khác nhau trên
Web.
 Với dữ liệu nhỏ suy diễn trên Web ngữ nghĩa có thể triển
khai trên một PC. Nhưng trong một trang web, không thể thực
hiện được bởi vì kỹ thuật suy diễn chậm trên một bộ xử lý duy
nhất, đặc biệt là khi giao dịch với Web với tập dữ liệu RDF và
OWL.

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

4


 Trên Web với trang dữ liệu lớn chứa dữ liệu
giàu ngữ nghĩa được tìm thấy, đặt ra những
thách thức mới cho các kỹ thuật xử lý.
 Trên Web dữ liệu phát triển rất nhanh và động.

 Các quy tắc có thể được thể hiện dưới các
hình thức khác nhau
 Đối mặt với những yêu cầu trên, những
phương pháp xử lý tồn tại trước đó mất hiệu
lực.
Giải pháp: song song hóa q trình xử lý

NHĨM 4 – CAO HỌC KHMT B (2010 - 2012)

5


2. Xử lý song song
 Xử lý song song là q trình xử lý gồm nhiều
tiến trình được kích hoạt đồng thời và cùng
tham gia giải quyết một vấn đề, nói chung là
thực hiện trên những hệ thống đa bộ xử lý.
 Sự khác biệt giữa xử lý tuần tự và xử lý song
song:
+ Kiến trúc thượng tầng
+ Thuật tốn

NHĨM 4 – CAO HỌC KHMT B (2010 - 2012)

6


2.1 Kiến trúc thượng tầng
 Đối với các luồng lệnh và dữ liệu, ba loại kiến
trúc được xem xét:

+ SIMD (đơn luồng lệnh, đa luồng dữ liệu)
+ MISD (đa luồng lệnh, đơn luồng dữ liệu)
+ MIMD (đa luồng lệnh, đa luồng dữ liệu).
 Đối với bộ nhớ, ba loại kiến trúc được xem xét:
+ SMP (đa xử lý đối xứng)
+ DMP (song song hóa bộ nhớ phân tán)
+ HMS (hệ thống bộ nhớ phân cấp).

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

7


2.2 Thuật tốn
 Có rất nhiều thuật tốn xử lý song song phát
triển để đẩy nhanh tốc độ xử lý.
 Tuy nhiên khi số lượng máy tăng  tốc độ
xử lý tăng tuyến tính nhưng khơng sử dụng
hết cơng suất tối đa
 Vì vậy vấn đề quan trọng tìm ra thuật tốn xử
lý song song để giảm chi phí truyền thơng
vẫn duy trì trọng tải.

NHĨM 4 – CAO HỌC KHMT B (2010 - 2012)

8


3.Xử lý song song trên Web ngữ nghĩa
 Hai mục tiêu quan trọng trong xử lý của Web

ngữ nghĩa:
+ kiểm tra sự thống nhất của các trang web
dữ liệu để các dữ liệu từ các nguồn khác
nhau cũng được tích hợp.
+ Tìm thơng tin mới dựa trên những sự kiện
và các quy định hiện hành.

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

9


 So với xử lý song song truyền thống, Web ngữ nghĩa
có một số mối quan tâm mới:
 Có quá nhiều nút trong một tập dữ liệu RDF Web quy
mô, và mỗi nút có thể có các vị từ nhiều liên kết với nó.
 Dữ liệu phụ thuộc phức tạp và phân vùng dữ liệu
RDF không phải là dễ dàng.
 Dữ liệu được tự động thay đổi và phát triển rất nhanh,
chúng ta không thể giả định một môi trường tĩnh.
 Khơng có nhiều các thuật tốn xử lý song song để giải
quyết xử lý song song Web ngữ nghĩa.
 Cuối cùng, cân bằng tải trên mỗi máy vẫn là một vấn
đề khó giải quyết, do tính chất rất sai lệch về Web ngữ
nghĩa.

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

10



 Trong xử lý song song Web ngữ nghĩa, hai
xu hướng chính trong q trình xử lý song
song:
 phương pháp tiếp cận phân vùng
 phương pháp phân vùng quy tắc

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

11


4. Một số giải pháp
4. 1 LarKC
LarKC là kiến trúc mở và là một nền tảng chung cho
xử lý phân phối lớn. Hoạt động như một quy trình có thể
mở rộng cho các xử lý. Trong mỗi quy trình, một số thành
phần (plug-in) có nhiệm vụ xử lý đa dạng. Quy trình này
được giám sát bởi một plug-in quyết định. Khi một số plugin được gọi trong quy trình chúng có thể được phân phối
giữa các nút và làm việc song song.

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

12
12


 LarKC song song thực hiện theo những cách sau:
+ Hiển thị các plug-in để thực hiện song song.
+ Hiển thị các plug-in riêng biệt song song.

+ Thực hiện một số quy trình song song, hoặc thực hiện
các quy trình cùng đầu vào khác nhau song song.

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

13
13


4. 2 MaRVIN (Massive RDF Versatile Inference
Network)
Là một phần của dự án LarKC, là nền tảng song song
và phân phối để xử lý số lượng lớn dữ liệu RDF.
Mục đích làm việc của MaRVIN là việc quan sát
những các vấn đề khó khăn của Web ngữ nghĩa thơng qua
chiến lược divide-and-conquer truyền thống khi dữ liệu
của Web ngữ nghĩa là khó phân vùng.

NHĨM 4 – CAO HỌC KHMT B (2010 - 2012)

14
14


Các thuật tốn chính có thể được mơ tả trong các
bước sau:
Đầu tiên, nền tảng phân chia các dữ liệu đầu vào thành các
phân vùng độc lập và gán cho phân vùng này để tính tốn
các nút.
Thứ hai, mỗi nút tính tốn tính việc đóng cửa của phân

vùng của nó bằng cách sử dụng một reasoner thơng thường.
Sau đó, dữ liệu cũ và mới là hỗn hợp và phân vùng mới
được tạo ra trong một cách phân tán. Quá trình này được
lặp đi lặp lại cho đến khi khơng có bộ ba mới được suy ra.

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

15
15


4. 3 Reasoning-Hadoop
Reasoning-Hadoop là một hệ thống suy diễn
RDFS/OWL dựa trên nguyên tắc song song được xây dựng
trên của chương trình khung Hadoop. Hadoop là một
chương trình khung mã nguồn mở sử dụng chủ yếu cho các
dữ liệu lớn song song với xử lý ban đầu được phát triển
bởi Yahoo!

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

16
16


Hadoop thực hiện các mơ hình lập trình
MapReduce. Mơ hình lập trình MapReduce được phát triển
bởi Google và nó địi hỏi tất cả các thơng tin được mã hố
như một tập hợp các cặp hình thức <Key, Value>.
Một thuật tốn MapReduce điển hình như đầu vào

một tập hợp các cặp, xử lý chúng bằng cách sử dụng hai
chức năng bản đồ và rút gọn, trả về một số cặp mới như
đầu ra. Việc thực hiện chương trình được xử lý bởi các
chương trình khung là chia tách các đầu vào trong các tập
con và phân chia tính tốn cho các nút trong mạng.

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

17
17


Reasoning-Hadoop đã chỉ ra rằng có một số lợi thế
trong việc sử dụng MapReduce cho suy diễn trong Web
ngữ nhĩa:
• Suy diễn có thể được thực hiện có hiệu quả trên bộ dữ
liệu lớn bởi vì chương trình khung Hadoop có thể được
triển khai trong các mạng với hàng ngàn các nút.
• Thực hiện được xử lý hồn tồn bởi các chương trình
khung và những người lập trình có thể tập trung vào logic
của chương trình mà khơng cần lo lắng về các vấn đề kỹ
thuật được phổ biến trong hệ thống phân phối.
• Tuy nhiên phương pháp này giải quyết với logic phức tạp
hơn.
NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

18
18



5. ReaSearch và sự song song hóa của nó
5.1 Sự cần thiết song song hóa Reasearch
ReaSearch là viết tắt hợp nhất của suy diễn (Reasoning) và
tìm kiếm (Search) trên bề rộng Web Thể hiện một quá trình
chéo nhau của sự tìm kiếm một tập hợp con quan trọng từ
dữ liệu trang Web và suy diễn trên đó. Q trình chéo nhau sẽ
kết thúc khi người sử dụng thỏa mãn với kết quả suy diễn
(hình(a)).

NHĨM 4 – CAO HỌC KHMT B (2010 - 2012)

19
19


5.1. Sự cần thiết song song hóa Reasearch
Trên Semantic Web, cả tiến trình tìm kiếm và
suy diễn cần phải xử lý dữ liệu rất lớn.
Quá trình Reasearch cần được song song
hóa và chiến lược cụ thể làm thế nào để thực
hiện khung công việc này được phát triển
thông qua các chiến lược khác nhau.
Tập hợp các chiến lược bao gồm: hợp nhất
tìm kiếm và suy diễn thơng qua đa mức đầy
đủ, đa mức đặc biệt, đa quan điểm…

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

20
20



5.1. Sự cần thiết song song hóa Reasearch (tt)
• Đối với chiến lược đa mức đầy đủ  tiến
trình tìm kiếm cần hai tham số cho việc lựa
chọn số liệu phụ quan trọng.
– Tính tốn bậc của nút.
– Thống kê số nút cho toàn bộ các tập dữ liệu.
 Nhiệm vụ tính tốn số lượng nút cho chiến lược
đa mức đầy đủ có thể được song song hóa để tiết
kiệm thời gian.

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

21
21


5.1. Sự cần thiết song song hóa Reasearch (tt)
• Đối với chiến lược đa mức đặc biệt các nút được phân
phối ở các cấp độ khác nhau, đặc biệt có thể được giao
cho nhiều nút để tiết kiệm thời gian thực thi.
• Đối với chiến lược đa quan điểm thống nhất tìm kiếm
và suy diễn  thực hiện từ nhiều quan điểm để đáp ứng
nhu cầu đa dạng, quan điểm khác nhau của người sử
dụng có thể được xử lý song song để có được kết quả
suy diễn từ tất cả các quan điểm gần như cùng một lúc.

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)


22
22


5.1. Sự cần thiết song song hóa Reasearch (tt)

 
 Đối với tất cả các chiến lược, tất cả
các phần suy diễn có thể và nên được
song song hóa.
 

NHĨM 4 – CAO HỌC KHMT B (2010 - 2012)

23
23


5.2. Một thiết kế sơ bộ cho kiến trúc song song hóa Reasearch 
 Cho một kiến trúc song song hóa Reasearch, các nút với các chức năng khác nhau được phân phối vật lý, nhưng
thống nhất một cách hợp lý.

NHÓM 4 – CAO HỌC KHMT B (2010 - 2012)

24
24


5.2. Một thiết kế sơ bộ cho kiến trúc song song hóa Reasearch (tt)
• Đối với phần tìm kiếm bổ trợ tìm kiếm song song (hình (b), (c)).


NHĨM 4 – CAO HỌC KHMT B (2010 - 2012)

25
25


×