Báo cáo kỹ thuật text mining và ứng dụng

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.08 MB, 31 trang )

Kỹ thuật Text Mining và ứng dụng
GVHD :
Khoa: CNTT
© 2009 HVKTQS Corporation. All rights reserved
Nội dung

Giới thiệu

Data Mining

Text Mining

SQL Server Integration Services (SSIS)

Phân loại văn bản

Ứng dụng phân loại thư
Giới thiệu

Trong hệ thống các dạng Data Mining thì có một kiểu khai
phá dữ liệu rất đặc biệt chỉ thực hiện trên các dữ liệu định
dạng Text đó là Text Mining. Trong thời điểm hiện nay,
phân tích các tài liệu dạng Text trở nên rất quan trọng.

Và các dự án Textmining thực sự là một công cụ hổ trợ đắc
lực trong việc phân nhóm, phân loại và phân đoạn các dữ
liệu không cấu trúc này nhằm thực hiện các vấn đề thiết
thực trong cuộc sống cũng như hoạt động kinh doanh
thương mại.

SQL 2005, Data Mining nói chung và Text Mining nói riêng

thực sự đã trở thành các công cụ xây dựng các ứng dụng
thông minh, hổ trợ đắc lực và thiết thực cho mọi người
trong việc giải quyết các vấn đề thực tế.
Data Mining
1. Giới thiệu
2. Các bài toán của Data Mining trong kinh doanh
3. Nhiệm vụ của Data Mining
4. Kỹ thuật Data Mining
5. Các thuật toán Data Mining
Data Mining
Giới thiệu
1. Data Minning là một bộ phận quan trọng trong gia đình sản phẩm của
kinh tế tri thức Business Intelligence (BI), với xữ lý phân tích thông tin
trên mạng Online Analytical Processing (OLAP), cùng với báo cáo
kinh doanh và ETL (Extraction Transformation Loading).
2. Data Mining là phân tích dữ liệu và tự động tìm các phần mẫu còn ẩn
hoặc các tiềm lực chung quan trọng, có ý nghĩa thực tế trong việc giải
quyết một vấn đề thực tế.
3. Trong suốt hàng thập kỹ qua các dữ liệu đã làm giàu thêm và đã được
lưu trữ trong các cơ sở dữ liệu lớn. Phần lớn những dòng dữ liệu đó
là từ các phần mềm thương mại như là các ứng dụng về tài chính,viễn
thông, quản lý nguồn dự án (ERP), quản lý liên hệ khách hàng (CRM),
và các trang Web trợ giúp. Và kết quả của quá trình kết hợp dữ liệu đó
là một tổ chức giàu dữ liệu và nghèo tri thức.
4. Mục đích chính của Data Mining là khai phá các vấn đề từ các nguồn
dữ liệu có sẵn, tăng giá trị bên trong của nó, và chuyển nó thành tri
thức.
Data Mining
Giới thiệu
Dưới đây là lý do chúng ta quan tâm đến Data Mining:

•
Một số lượng lớn dữ liệu sẵn dùng
•
Sự cạnh tranh ngày càng tăng
•
Sẳn sàng về mặt công nghệ
Data Mining
Các bài toán của Data Mining
trong kinh doanh
1. Phân tích thị trường
2. Trao đổi mua bán
3. Phát hiện gian lận trong kinh doanh
4. Quản lý rủi ro trong kinh doanh
5. Phân loại khách hàng
6. Mục đích quảng cáo
7. Dự báo thị trường
Nhiệm vụ của Data Mining
1. Phép phân loại
2. Kỹ thuật Clustering (phân cụm)
3. Luật kết hợp
4. Hồi quy
5. Dự báo
6. Phép phân tích
7. Phân tích độ lệch
Trợ giúp tất cả các nhân
Trợ giúp tất cả các nhân
viên kinh doanh đưa ra
viên kinh doanh đưa ra
những quyết định xác đáng,
những quyết định xác đáng,

nhanh chóng và hiệu quả
nhanh chóng và hiệu quả
nhất.
nhất.

Huấn luyện mô hình và đưa ra kết
Huấn luyện mô hình và đưa ra kết
quả nhận định
quả nhận định

Khởi tạo các mô hình DATA MINING
Khởi tạo các mô hình DATA MINING
và sử dụng các thuật toán thích hợp
và sử dụng các thuật toán thích hợp

Chuẩn bị dữ liệu đúng định dạng,
Chuẩn bị dữ liệu đúng định dạng,
đúng thông tin và thời kỳ thực hiện
đúng thông tin và thời kỳ thực hiện
Tầm nhìn chiến lược cho hoạt động
kinh doanh
Kỹ thuật Data Mining
Thuật toán DATA MINING
Decision
Decision
Trees
Trees
Clustering
Clustering
Time Series

Time Series
Sequence
Sequence
Clustering
Clustering
Association
Association
Naïve
Naïve
Bayes
Bayes
Neural Net
Neural Net
Đã được giới thiệu trong SQL Server 2000
Đã được giới thiệu trong SQL Server 2000
Logistic
Logistic
Regression
Regression
Linear Regression
Linear Regression Text Mining
Text Mining

Khái niệm và vị trí của Text Mining

Nhiệm vụ của Data Mining

Thuật toán hỗ trợ và các bước tiến hành
TexT Mining
Khái niệm

Text mining là một sự chuyên môn hóa và mở rộng của Data
Mining, một dạng của khai phá tri thức (knowledge discovery).
Vị trí quan trọng của Text Mining
1. Quản lý nội dung, quản lý tri thức, và phân phối nội dung
2. Enterprise, Desktop, và Web Search
3. Business Intelligence
4. Visualization
5. Ứng dụng kinh doanh
Text Mining
Thuật toán hỗ trợ và các bước tiến hành
Kỹ thuật Text Mining được hỗ trợ hầu hết các thuật toán mà ta đã giới
thiệu trong phần Data Mining
SQL Server Integration Services (SSIS)
Thuật toán Naïve Bayes và phân loại văn bản

Sự cần thiết của phân loại văn bản

Định nghĩa và tiến trình phân loại văn bản

Thuật toán phân loại văn bản Naïve Bayes
Thuật toán Naïve Bayes và phân loại văn bản
Sự cần thiết phân loại văn bản
1. Thứ nhất: Những thông tin hữu ích ngày càng nhiều và ngày càng
có sẵn trên mạng. Đặc biệt trên WWW có thể truy cập một số lượng
lớn các thông tin và phân phối các thông tin đó cho mọi người (đây
là một lợi ích to lớn).
2. Thứ hai: Để phù hợp với sự phát triển như vũ bão của thông tin thì
việc lưu trữ “ở dạng số” các thông tin văn bản đang dẫn đến việc
quá tải thông tin. Mặt khác, lượng thông tin có sẵn và sự gia tăng
này lớn hơn rất nhiều so với khả năng mà con người có thể tìm ra

những thông tin có liên quan mà họ cần (đây là khó khăn lớn).
Việc bùng nổ thông tin đã làm cho vấn đề tổ chức, quản lí, phân loại
thông tin ngày càng có vai trò quan trọng. Chẳng hạn khi tìm kiếm
thông tin trên Internet, chương trình tìm kiếm phải lục soát tất cả các
tài nguyên sẵn có trên mạng sau đó tiến hành lọc thông tin để đưa ra
những thông tin cần thiết cho người dùng.
Thuật toán Naïve Bayes và phân loại văn bản
Định nghĩa và tiến trình phân loại văn bản
Định nghĩa: Phân loại văn bản là sự phân loại không cấu trúc các tài
liệu văn bản dựa trên một tập hợp của một hay nhiều loại văn bản đã
được định nghĩa trước. Quá trình này thường được thực thi bằng
một hệ thống tự động gán cho các tài liệu văn bản một loại nào đó.
Tiến trình phân loại văn bản
•
Lựa chọn các đặc trưng văn bản
•
Biểu diễn văn bản
•
Học một bộ phân loại văn bản
•
Tiến hành phân loại văn bản
Thuật toán Naïve Bayes và phân loại văn bản
Thuật toán phân loại văn bản Naïve Bayes
Xác suất P(c
k
|d
i
) gọi là xác suất mà tài liệu d
i
có khả năng thuộc vào lớp

văn bản c
k
được tính toán như sau:
)(
)|(*)(
)|(
i
kik
ik
dP
cdPcP
dcP
=
Tài liệu d
i
sẽ được gán cho loại văn bản nào có xác suất hậu nghiệm
cao nhất nên được biểu diễn bằng công thức:
{ }
)(
)|(*)(
max
)|(
max
1

1
d of Class
i
i
kik

Nk
ik
Nk
dP
cdPcP
dcP
≤≤
=
≤≤
=
Trong đó N là tổng số tài liệu.
Thuật toán Naïve Bayes và phân loại văn bản
Thuật toán phân loại văn bản Naïve Bayes
Với mỗi văn bản D (document), người ta sẽ tính cho mỗi loại một xác
suất mà tài liệu D có thể thuộc vào lớp tài liệu đó bằng việc sử dụng
luật Naïve Bayes:
Trong đó: D là tài liệu cần phân loại, C
i
là một tài liệu bất kì. Theo giả
định của Naive Bayes xác suất của mỗi từ trong tài liệu D là độc lập
với ngữ cảnh xuất hiện các từ đồng thời cũng độc lập với vị trí của
các từ trong tài liệu.
)(
)|(*)(
)|(
DP
CDPCP
DCP
ii
i

=
(1)
Thuật toán Naïve Bayes và phân loại văn bản
Thuật toán phân loại văn bản Naïve Bayes
Xác suất P(D|C
i
) được tính toán từ tần suất xuất hiện của các từ đơn w
j

(word) trong tài liệu D:
)|P(w )C|P(D
lj1
ji i
C
∏
<<
=
j là tổng số từ w trong tài liệu D:
Như vậy biểu thức (1) có thể được viết lại như sau:
)|P(w
)(
)(
)|(
lj1
j i
i
i
C
DP
CP

DCP
∏
<<
=
(2)
Ứng dụng Text Mining

Giới thiệu ứng dụng
1. Yêu cầu ứng dụng
2. Phương pháp giải quyết yêu cầu ứng dụng

Xây dựng ứng dụng
1. Xây dựng từ điển thuật ngữ
2. Xây dựng một bảng Vectors thuật ngữ
3. Xây dựng mô hình SSIS chuẩn bị Train/Test Samples
4. Xây dựng mô hình Data Mining
5. Xây dựng các bảng dữ liệu đặc trưng
6. Xây dựng ứng dụng phân loại thư yêu cầu
Yêu cầu ứng dụng
Phương pháp giải quyết yêu cầu ứng dụng

Phương pháp giải quyết ứng dụng
1. Tạo từ điển trích rút các thuật ngữ thông qua nội dung các bài báo và lưu vào
trong bảng Dictionnary trong CSDL SQL 2005 bằng Term Extraction
transformation
2. Tạo bảng cấu trúc các thuật ngữ dựa vào việc tham chiếu dữ liệu các thuật
ngữ trong bảng Dictionnary và trường nội dung bài báo trong bảng dữ liệu ba
n đầu và lưu vào bảng TermVectors với 3 cột là thuật ngữ, ID và tần số xuất
hiện
3. Thực hiện chuẩn bị mẫu cho mô hình mining bằng Percentage Sampling

transform và lưu vào 2 bảng là TrainArticles và TestArticles. Bước này là bước
chuẩn bị cuối cùng cho mô hình Data Mining sẽ xây dựng. TrainArticles dùng
để huấn luyện mô hình, và TestArticles để thực hiện kiểm tra mô hình
4. Thực hiện xây dựng mô hình Data Mining dựa vào các dữ liệu đã chuẩn bị ở
trên. Sử dụng ba thuật toán là Cây quyết định, Naïve Bayes và Neural Network.
5. Xây dựng các bảng đặc trưng văn bản theo từng nhóm dựa vào đầu ra của
bước 4
6. Xây dựng chương trình ứng dụng phân loại văn bản bằng thuật toán Naïve
Bayes.
Chuẩn bị dữ liệu Text Mining bằng SSIS
Xây dựng mô hình Data Text Mining
Xây dựng ứng dụng phân loại thư yêu cầu

Báo cáo kỹ thuật text mining và ứng dụng

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về