Tải bản đầy đủ (.pdf) (9 trang)

XÂY DỰNG KIẾN TRÚC KHO TÀI LIỆU DỰA TRÊN MỐI LIÊN HỆ GIỮA KHO DỮ LIỆU TRUYỀN THỐNG VÀ KHO TÀI LIỆU potx

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (476.65 KB, 9 trang )

TẠP CHÍ KHOA HỌC, Đại học Huế, Tập 74B, Số 5, (2012), 55-63

55




XÂY DỰNG KIẾN TRÚC KHO TÀI LIỆU DỰA TRÊN MỐI LIÊN HỆ GIỮA
KHO DỮ LIỆU TRUYỀN THỐNG VÀ KHO TÀI LIỆU
Lê Văn Hòa
Khoa Du lịch, Đại học Huế
Tóm tắt. Trong quá trình tìm hiểu về các thành phần, quy trình xây dựng kho tài liệu và vai
trò của kho tài liệu, từ đó thấy được sự cần thiết của kho tài liệu đối với các doanh nghiệp
và tổ chức cần thực hiện việc ra quyết định nhanh với độ chính xác cao. Dựa vào sự tương
đồng giữa các giai đoạn trong quy trình xây dựng kho dữ liệu truyền thống và kho tài liệu,
bài viết này đã đề xuất kiến trúc kho tài liệu. Kiến trúc kho tài liệu đề xuất có độ tin cậy và
độ chính xác cao nhờ việc tham khảo các công trình nghiên cứu, các công trình này đã
chứng minh sự tương đồng giữa các quy trình xây dựng kho dữ liệu truyền thống và kho tài
liệu.

1. Đặt vấn đề
Theo [3], người ta đã thống kê chỉ có 20% dữ liệu là dữ liệu có cấu trúc và được
lưu trữ trong cơ sở dữ liệu quan hệ, trong khi khoảng 80% là dữ liệu không có cấu trúc
văn bản và được lưu trữ trong các hình thức khác nhau của tài liệu như báo cáo, các bài
báo tin tức, e-mail, và các trang web là chủ yếu. Chính vì dữ liệu có cấu trúc trong các
tổ chức và doanh nghiệp chiếm tỉ lệ thấp do đó khi xây dựng kho dữ liệu truyền thống
sẽ ảnh hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định.
Chính vì những lý do đó, kho tài liệu được đề xuất để có thể đưa dữ liệu bán cấu trúc và
phi cấu trúc vào kho. Chính nhờ những khẳng định thuyết phục của Sullivan [5] về mối
tương đồng giữa các quy trình trong quá trình xây dựng kho dữ liệu truyền thống và kho
tài liệu, bài viết này đã đề xuất kiến trúc kho tài liệu dựa trên mối liên hệ giữa kho dữ


liệu truyền thống và kho tài liệu.
2. Kho dữ liệu truyền thống và những vấn đề tồn tại
Kho dữ liệu là tập hợp dữ liệu hướng chủ thể, tích hợp, biến thời gian và bền
vững hỗ trợ ra quyết định [2]. Theo [1], mục tiêu chính của kho dữ liệu là nhằm đáp ứng
các tiêu chuẩn cơ bản sau:
- Phải có khả năng đáp ứng mọi yêu cầu về thông tin của người sử dụng.
- Hỗ trợ để có thể thực hiện tốt và có hiệu quả công việc, như có những quyết
định hợp lý, nhanh giúp cho năng suất cao hơn, thu được lợi nhuận cao hơn,
v.v.
56 Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ…
- Giúp cho tổ chức xác định, quản lý và điều hành các dự án, các nghiệp vụ
một cách hiệu quả và chính xác.
- Tích hợp dữ liệu và các siêu dữ liệu từ nhiều nguồn khác nhau.
Theo [1], kiến trúc hệ thống kho dữ liệu truyền thống gồm 3 tầng:
- Tầng thu thập
- Tầng xử lý phân tích trực tuyến (OLAP)
- Tầng thể hiện

Hình 1. Kiến trúc hệ thống kho dữ liệu truyền thống
Kho dữ liệu truyền thống và những vấn đề đang tồn tại:
Theo [3], dữ liệu có cấu trúc được thể hiện trong một hình thức quan hệ và phi
cấu trúc trong văn bản. Theo thống kê chỉ có 20% các dữ liệu sẵn có được cấu trúc và
được lưu trữ trong cơ sở dữ liệu quan hệ, trong khi khoảng 80% là không có cấu trúc
văn bản và được lưu trữ trong các hình thức khác nhau của tài liệu như báo cáo, các bài
báo tin tức, e-mail, và các trang web. Chính vì dữ liệu có cấu trúc chiếm tỉ lệ thấp do đó
ảnh hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định.
Vì vậy, để có được thông tin tri thức nghiệp vụ hoàn chỉnh, kết hợp và phân tích
dữ liệu văn bản là rất cần thiết. Thông qua phân tích các dữ liệu có cấu trúc, chẳng hạn
thông tin ở đâu, khi nào, ai, và bằng cách nào để có thể được trích xuất. Thông qua phân
tích các thông tin để đưa ra lý do tại sao nó đã được thực hiện.

LÊ VĂN HÒA 57
3. Kiến trúc kho tài liệu
3.1. Các thành phần chính của kho tài liệu
Theo [5], thành phần của kho tài liệu bao gồm 5 thành phần chính:
- Nguồn tài liệu
- Máy chủ xử lý văn bản
- Văn bản cơ sở và các kho lưu trữ khác
- Kho siêu dữ liệu
- Hồ sơ người sử dụng.
3.1.1. Nguồn tài liệu
Nguồn tài liệu là các văn bản. Có ba kiểu nguồn tài liệu phân biệt bao gồm:
Nguồn bên trong, internet và các dịch vụ.
Nguồn bên trong: Trong một tổ chức, tài liệu và các loại văn bản khác như:
email, máy chủ file, trong kho tài liệu, và trong hệ thống quản lý tài liệu. Trong khi
những hệ thống quản lý file, chúng không thể cung cấp đặc trưng phân tích tổng hợp
văn bản trong khai phá văn bản và truy xuất thông tin thông minh.
Internet: Internet là nguồn văn bản tích hợp có khả năng lớn nhất cung cấp cho
chúng ta. Một vài kiểu khác nhau của kho văn bản trên internet, bao gồm: WWW, máy
chủ Gopher, và máy chủ FTP. Trong đó, dữ liệu tại WWW thật khó để phân loại toàn bộ
nội dung của WWW.
Các dịch vụ: Các dịch vụ cung cấp truy cập đến CSDL riêng cho những khách
hàng của các doanh nghiệp và các tổ chức.
3.1.2. Máy chủ xử lý văn bản
Trong môi trường kho tài liệu, có 4 kiểu máy chủ phân biệt: Máy chủ thu thập
tài liệu, máy chủ phân tích văn bản, máy chủ xuất bản và phân tán, máy chủ lưu trữ.
3.1.2.1. Thu thập tài liệu
Tập hợp máy chủ thu thập tài liệu và xử lý văn bản. Xử lý thu thập có thể xảy ra
theo 3 cách
Xử lý tập văn bản sử dụng danh sách tiền định nghĩa nguồn cho thu thập tự
động trực tiếp: Hầu hết các văn bản đưa vào kho tài liệu thông qua tiền định nghĩa thu

thập trực tiếp. Trong kịch bản này, một danh nguồn được duy trì trong CSDL, và
chương trình thu thập, hay tập hợp các chương trình, những file thật sự đưa vào kho tài
liệu.
Xử lý tập văn bản sử dụng tiền danh sách định nghĩa chủ đề cho tìm kiếm trực
tiếp: Chúng ta không thể biết trong kho tài liệu bao gồm những tài liệu gì. Nếu ứng
58 Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ…
dụng chính của kho tài liệu của chúng ta có khả năng cạnh tranh thông minh và phân
tích tài liệu thì chúng ta sẽ muốn để biết thông tin để đưa ra quyết định chính xác.
Tài liệu được tự động đưa vào: Một vài kiểu tài liệu, đặc biệt là phát hiện luật
bên trong, chiến lược đánh giá và các loại thông tin hạn chế, không nên được mở tự
động đưa vào kho tài liệu.
3.1.2.2. Máy chủ phân tích văn bản
Máy chủ phân tích văn bản cung cấp 2 thao tác: Tiền xử lý và xử lý chính.
Tiền xử lý: Công việc của máy chủ tiền xử lý là để chứng thực định dạng tài liệu
và nếu cần thì chuyển đổi tài liệu sang một định dạng có thể chấp nhận được cho công
cụ xử lý văn bản khác. Ngôn ngữ văn bản cũng được chứng thực và nếu cần thiết được
chuyển đổi vào trong đối tượng ngôn ngữ có thể chấp nhận được.
Xử lý chính: Mục đích của máy chủ xử lý chính là đưa văn bản vào hình thức
phù hợp cho việc tìm kiếm hiệu quả và khai phá văn bản. Quá trình thao tác bao gồm
lập chỉ mục, phân cụm, trích chọn đặc trưng và tổng hợp. Thao tác xử lý chính được
tính toán trong kho tài liệu.
3.1.2.3. Xuất bản và phân tán
Thông thường giá trị của thông tin tri thức nghiệp vụ bị mất nếu nó không được
phân tán đến đúng người hay không được xuất bản trong thời gian quản lý. Để bảo tồn
giá trị của thông tin văn bản gốc, nó phải trình diễn cho người sử dụng một cách phụ
thuộc vào nội dung.
3.1.3. Văn bản cơ sở và các kho lưu trữ khác
Chúng ta có một vài tùy chọn cho việc lưu trữ văn bản trong kho tài liệu. Chúng
bao gồm: Văn bản cơ sở, cơ sở dữ liệu hỗ trợ văn bản, file hệ thống, kết hợp file hệ
thống và CSDL.

3.1.4. Kho siêu văn bản
Siêu văn bản là tài liệu mô tả thông tin, những văn bản và là một phần then chốt
của môi trường kho tài liệu. Siêu dữ liệu thỏa mãn một vài mục đích:
- Tăng khả năng tìm kiếm rõ ràng và khả năng nhớ lại
- Cho phép mở rộng các tùy chọn tìm kiếm, như là: theo tác giả, ngày xuất
bản,
- Phân loại văn bản
- Cho biết mối quan hệ chất lượng giữa các mức, tính tin cậy, và đúng lúc.
3.1.5. Hồ sơ người sử dụng
Người sử dụng yêu cầu mục đích cụ thể về kế hoạch tiếp thị, sự thay đổi tốc độ
LÊ VĂN HÒA 59
và những ảnh hưởng về giá cả. Ngoài ra, người sử dụng quan tâm đến việc sử dụng dài
hạn và nhất quán. Ví dụ: người quản lý sản phẩm quan tâm đến giá cả hiện tại của sản
phẩm, kế hoạch tiếp thị và bán sản phẩm, thông tin về đối thủ cạnh tranh, điều kiện tiếp
thị và những nhân tố khác ảnh hưởng đến việc bán hàng.
3.2. So sánh kho tài liệu và kho dữ liệu truyền thống [6]
Kho tài liệu Kho dữ liệu truyền thống
Giống nhau
1. Cả hai cùng quy trình xây dựng và chúng có thể được triển khai theo giản đồ
hình sao hay bông tuyết để thiết kế quy trình mô hình
2. Cùng chung tài liệu nghiệp vụ hay dữ liệu từ nguồn hỗn tạp
3. Người sử dụng có thể xử lý phân tích trực tuyến thông qua kết quả được thiết
lập
Khác nhau
Có ý định đạt được tri thức nghiệp vụ
định hướng văn bản (text–oriented)
Có ý định đạt được tri thức nghiệp vụ
định hướng số (numeric–oriented)
Tài nguyên được thu thập từ báo cáo
điều tra thị trường, báo cáo trạng thái

dự án, lời phàn nàn của khác hàng, thư
điện tử, quảng cáo cạnh tranh
Tài nguyên được thu thập từ CSDL
bên trong các điểm bán hàng, hệ
thống ERP, hệ thống thanh toán, hay
hệ thống quản lý tài chính
Nó lọc những tài liệu không cần thiết
và định hướng giúp người sử dụng trả
lời câu hỏi vì sao
Nó tích hợp dữ liệu theo một vài
chiều và có khuynh hướng giúp
người sử dụng trả lời một số câu hỏi
ai, cái gì, khi nào, ở đâu và người nào
/ cái nào
Nâng cao chất lượng với công nghệ
khai phá văn bản cho việc tóm tắt tài
liệu hay phân loại tài liệu
Nâng cao chất lượng với công nghệ
khai phá dữ liệu cho việc tóm tắt,
phân lớp, phân cụm dữ liệu đã được
định dạng hay tìm sự kết hợp
Nguồn dữ liệu nên được tích hợp trong
file hệ thống hay CSDL XML
Nguồn dữ liệu có thể được tích hợp
trong CSDL quan hệ
3.3. Quy trình kho tài liệu
Kho tài liệu bao gồm 6 quy trình chính:
- Chứng thực nguồn tài liệu
- Truy xuất tài liệu
- Thao tác tiền xử lý

- Thao tác phân tích văn bản
60 Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ…
- Quản lý kho tài liệu
- Hỗ trợ thao tác người dùng cuối
Theo [5], ba bước truy xuất tài liệu, thao tác tiền xử lý, thao tác phân tích văn
bản tương ứng quá trình xử lý chiết, chuyển đổi và nạp trong kho dữ liệu truyền thống.
Trong khi 2 bước cuối, quản lý kho tài liệu và hỗ trợ thao tác người dùng cuối, giống
như duy trì kho dữ liệu.
3.3.1. Chứng thực nguồn tài liệu
Bước đầu tiên trong quy trình tài liệu là để chứng thực tài liệu được đưa vào kho.
Trước hết, chúng ta mô tả 3 cách để chứng thực tài liệu: danh sách nguồn, tìm theo từ
khóa, và tìm theo chủ đề.
Tìm tiềm năng nguồn tài liệu: Bắt đầu với tìm kiếm Web rộng là cách thông
dụng nhất của việc tìm kiếm tiềm năng nguồn tài liệu nhưng có những kỹ thuật khác
như là luật thông thường, sẽ được cung cấp kết quả chất lượng cao.
3.3.2. Truy xuất tài liệu
Quy trình truy xuất tài liệu là tương tự như giai đoạn chiết dữ liệu trong kho dữ
liệu truyền thống. Chúng ta đã chứng thực nguồn của tài liệu, chúng ta cần lập lịch truy
xuất chúng. Khi chúng ta nhìn thấy thảo luận về kiến trúc của kho tài liệu, máy chủ truy
xuất hoạt động như là một đại lý để thu thập tài liệu và nạp chúng vào kho. Không
giống như kho dữ liệu, chúng không có công cụ đặc biệt giống như những trình cung
cấp bởi Informatica, Sagent được thiết kế để đưa văn bản vào kho tài liệu. Có một vài
nhân tố để xem xét khi phát triển bộ lập lịch truy xuất tài liệu.
- Khả năng băng thông
- Tốc độ truy xuất của đối tượng trang Web
- Bản sao lập lịch của máy chủ file bên trong
- Quyền ưu tiên của đối tượng tài liệu
3.3.3. Các thao tác tiền xử lý
Tương tự bước chuyển đổi dữ liệu trong kho dữ liệu. Để xử lý toàn bộ tài liệu
trong kho, ba bước tiền xử lý cơ bản nên thực hiện:

Đặc tính tập chứng thực: Nhiều người trong chúng ta quen làm việc với bảng
mã ASCII. Có 2 tập đặc tính có phương pháp chiếm ưu thế cho miêu tả đặc tính trong
ứng dụng máy tính. Một tiêu chuẩn mới hơn, UNICODE nổi trội hơn về phối hợp giải
mã bởi vì nó có khả năng đưa ra nhiều đặc tính hơn ASCII.
Định dạng quá trình chuyển đổi: Tài liệu đến trong vô số định dạng. Có một
vài từ xử lý thông thường, bảng tính, sự trình diễn, và lấy ra định dạng. Quá trình này
phụ thuộc vào công cụ xử lý sẽ được sử dụng trong các bước sau, những tài liệu có thể
LÊ VĂN HÒA 61
cần để được chuyển đổi đến một định dạng đích có thể chấp nhận được trong các ứng
dụng.
Chứng thực ngôn ngữ và máy dịch: Một vài công cụ, như công cụ phân loại
phân tích, là ngôn ngữ đặc biệt, khi chứng thực ngôn ngữ được sử dụng trong một tài
liệu quan trọng. Tài liệu với thẻ đánh dấu một vài ngôn ngữ đặc biệt sử dụng thẻ siêu dữ
liệu. Chương trình chứng thực ngôn ngữ phải được xác định. Nếu một tài liệu có giá trị
cao nhưng không phải trong ngôn ngữ phù hợp cho công cụ xử lý văn bản, thì nó phải
được dịch.
3.3.4. Các thao tác phân tích văn bản
Thao tác phân tích văn bản giống như thao tác nạp dữ liệu vào kho tài liệu. Thao
tác tiền xử lý đã được hoàn tất, công việc thật sự bắt đầu. Thao tác này bao gồm: Lập
chỉ mục, trích chọn đặc trưng, phân loại, tóm tắt, phân cụm, máy dịch.
3.3.5. Quản lý kho tài liệu
Bây giờ chúng ta đã tạo ra một kho tài liệu và mở nó trên Web và phần còn lại là
của tổ chức, chúng ta phải quản lý và chăm sóc để nó hoạt động bình thường. Thêm vào
đó để xử lý những nhiệm vụ được mô tả ở trước, người quản trị kho tài liệu sẽ tìm
chúng với một vài nhiệm vụ cơ bản, bao gồm: Duy trì hệ thống, duy trì siêu dữ liệu, lưu
trữ, cắt tỉa và làm linh khiết
3.3.6. Thao tác hỗ trợ người dùng cuối
Thao tác người dùng cuối là thao tác quan trọng nhất của kho tài liệu. Tài liệu có
thể được tập hợp, chuyển đổi, và dịch khi cần thiết, đánh chỉ mục, gom vào vùng đơn
giản, tóm tắt, đưa đến người đọc, và cuối cùng lưu trữ trong kho tài liệu. Bây giờ người

dùng cuối, từ phân tích công việc trong siêu thị và kế hoạch để đưa ra chiến lược tìm
kiếm cạnh tranh thông minh đưa ra phía trước để giải quyết phàn nàn của khách hàng.
3.4. Kiến trúc kho tài liệu
Dựa trên Các thành phần chính của kho tài liệu, Quy trình kho tài liệu và mối
liên hệ giữa kho dữ liệu truyền thống và kho tài liệu, tôi xây dựng kiến trúc kho tài liệu
Các thành phần trong kiến trúc kho tài liệu:
Nguồn dữ liệu tác nghiệp là dữ liệu văn bản và dữ liệu từ các nguồn tài liệu
không có cấu trúc. Đây là dữ liệu chiếm phần lớn trong các doanh nghiệp và tổ chức.
Máy chủ thu thập tài liệu có nhiệm vụ chiết dữ liệu từ các nguồn dữ liệu tác
nghiệp thông qua việc truy xuất tài liệu từ nguồn dữ liệu tác nghiệp.
Dữ liệu sau khi chiết sẽ qua quá trình tiền xử lý để chuyển dữ liệu về định dạng
thích hợp trong kho dữ liệu, đồng thời trong quá trình này dữ liệu sẽ được làm sạch.
Máy chủ phân tích văn bản có nhiệm vụ đưa đữ liệu sau khi chuyển đổi vào kho
62 Xây dựng kiến trúc kho tài liệu dựa trên mối liên hệ…
tài liệu. Thao tác này bao gồm: Lập chỉ mục, trích chọn đặc trưng, phân loại, tóm tắt,
phân cụm, máy dịch. Sau quá trình này dữ liệu từ nguồn tác nghiệp sẽ được đưa vào kho
để phục vụ quá trình phân tích và trích rút tri thức. Kho tài liệu đặc trưng với 4 thuộc
tính:
- Văn bản không có cấu trúc đơn giản hay kiểu văn bản đơn giản
- Văn bản được trích rút từ nhiều nguồn
- Đặc trưng chủ yếu của văn bản được tự động chiết và lưu trữ rõ ràng
- Kho tài liệu được thiết kế để tích hợp ngữ nghĩa văn bản được quan hệ.

Hình 2. Kiến trúc kho tài liệu
4. Kết luận và hướng phát triển
Bài viết đã phân tích vai trò của kho dữ liệu, những vấn đề còn tồn tại ảnh
hưởng đến chất lượng kho dữ liệu và độ tin cậy của việc đưa ra quyết định. Đồng thời,
bài viết đã chỉ ra được mối liên hệ giữa kho dữ liệu truyền thống và kho tài liệu làm nền
tảng cho việc xây dựng kiến trúc kho tài liệu. Nhờ vào kiến trúc kho tài liệu chúng ta có
thể biết được quy trình để xây dựng kho dữ liệu từ nguồn dữ liệu là các văn bản và tài

liệu không có cấu trúc.
Bài viết chỉ dừng lại ở mức độ xây dựng kiến trúc kho tài liệu dựa vào các công
trình nghiên cứu của các tác giả. Hướng phát triển của đề tài sẽ xây dựng một kho dữ
liệu văn bản dựa vào kiến trúc đã xây dựng.

Truy xu

t
tài liệu
Văn
bản
Máy ch


thu
thập tài liệu
Tiền xử lý
Máy ch


phân tích
văn bản
Kho văn
bản
Kh

i văn
bản
Ngu


n
tài liệu
không có
cấu trúc



Ch


văn
bản


Tóm tắt
 Phân cụm
 Máy dịch



Lập chỉ mục
 Trích chọn đặc trưng
 Phân loại
LÊ VĂN HÒA 63
TÀI LIỆU THAM KHẢO
[1]. Nguyễn Thanh Bình, Trần Hiếu, Xây dựng hệ thống tích hợp thông tin hỗ trợ cho hệ
thống tư vấn học tập trực tuyến, Luận văn thạc sĩ khoa học, Đại học Khoa học – Đại
học Huế, Huế, 2007.
[2]. Nguyễn Thanh Bình, Lê Văn Hòa, Giải pháp Web cho dịch vụ xây dựng kho dữ liệu.
Luận văn thạc sĩ khoa học, Trường Đại học Khoa học – Đại học Huế, Huế, 2010.

[3]. Byung-Kwon Park, Il-Yeol Song, Toward Total Business Intelligence Incorporating
Structured and Unstructured Data, Uppsala – Sweden, 2011.
[4]. Frank S.C. Tseng, Design of a multi-dimensional query expression for document
warehouses, Department of Information Management, National Kaohsiung First
University of Science and Technology, Kaohsiung 811, Taiwan, ROC, 2004.
[5]. Sullivan, Dan, Document Warehousing and Text Mining, John Wiley, 2011.
[6]. Shufu, Wu, Document Warehousing, Dept. of Information Management, NTU, 2004.
[7]. Kalli Srinivasa Nageswara Prasad, Prof. S. Ramakrishna, Text Analytics to Data
Warehousing, International Journal on Computer Science and Engineering, 2010.

BUILDING AN ARCHITECTURE OF THE DOCUMENT WAREHOUSES
BASED ON THE RELATIONSHIPS BETWEEN TRADITIONAL DATA
WAREHOUSES AND DOCUMENT WAREHOUSES
Le Van Hoa
Faculty of Hospitality and Tourism, Hue University

Abstract. This paper represents the process of learning the components, the process of
building document warehouses and the role of document warehouses which lead to the
awareness toward the need document warehousing with businesses and organizations that
need quick decisions with high precision. Based on the similarity between the stages in the
process of building traditional data warehouses and document warehouses, the architecture
of the document warehouses is proposed. The reliability and high accuracy of proposed
architecture could be ensured by means of the researches that demonstrate the similarities
between the process of building a traditional data warehouses and document warehouses.

×