Tiểu luận môn học công nghệ tri thức Knowledge Discovery

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (549.12 KB, 32 trang )

BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
*
TIỂU LUẬN MÔN HỌC
ĐỀ TÀI
Lý thuyết:
Knowledge Discovery
Bài tập:
Xây dựng hệ chuyên gia lĩnh vực “Chăm sóc, bảo dưỡng sắc đẹp,
trí tuệ…từ sản phẩm thiên nhiên, sản phẩm thương mại, công
nghiệp, truyền thống dân gian…”
GVHD: PGS.TS PHAN HUY KHÁNH

NHÓM HỌC VIÊN: ĐẶNG NGỌC TUẤN
LÊ CÔNG VƯỢNG
TRẦN LƯƠNG VƯƠNG
LỚP: KHMT-K24-QUẢNG BÌNH

Quảng Bình, tháng 12 năm 2012
Tiểu luận môn học: Công nghệ tri thức
MỤC LỤC
BỘ GIÁO DỤC VÀ ĐÀO TẠO 1
ĐẠI HỌC ĐÀ NẴNG 1
MỤC LỤC 2
PHẦN I: MỞ ĐẦU 3
1.1. Giới thiệu đề tài: 3
1.2. Mục đích của đề tài: 3
1.3. Bố cục trình bày: 3
PHẦN II: CƠ SỞ LÝ THUYẾT 5
2.1. Giới thiệu hệ chuyên gia (Expert System): 5
2.1.1. Hệ chuyên gia là gì ? 5

2.1.2. Đặc trưng của hệ chuyên gia: 5
2.1.3. Kiến trúc tổng quát của hệ chuyên gia: 5
2.1.4. Biểu diễn tri thức trong các hệ chuyên gia: 6
2.2. Công nghệ tri thức: 6
2.2.1. Lịch sử công nghệ tri thức: 6
2.2.2 Dữ liệu đầu vào: 7
2.2.3. Dữ liệu đầu ra: 21
2.2.3.1. Data model: 21
2.2.3.2. Meta data: 21
2.2.3.3. Ontology: 22
2.2.3.4. Knowledge representation and reasoning: 22
2.2.3.5. Knowledge tags: 22
2.2.3.6. Business rule: 23
2.2.3.7. Knowledge Discovery Metamodel (KDM): 23
2.2.3.8. Business Process Modeling Notation (BPMN): 24
2.2.3.9. Intermediate representation: 24
2.2.3.10. Resource Description Framework (RDF): 25
2.2.3.11. Software metrics: 25
PHẦN III : BÀI TẬP HỆ CHUYÊN GIA 26
3.1. Phát biểu bài toán: 26
3.2. Các sự kiện: 27
3.3. Các luật liên quan: 27
3.4. Chuyển các sự kiện và luật trên thành công thức chỉnh theo vị từ bậc một: 28
PHẦN IV: THỰC HIỆN VÀ MỘT SỐ KẾT QUẢ 29
4.1. Thực hiện: 29
4.2. Một số kết quả khi chạy chương trình: 29
a. Chương trình chạy: 29
b. Các câu hỏi của chương trình đặt ra: 29
c. Kết quả chạy chương trình: 30
5.2. Nhược điểm: 31

5.3. Hướng phát triển của chương trình: 31
PHẦN VI: TÀI LIỆU THAM KHẢO 32
[2] PGS.TS. Phan Huy Khánh, Công nghệ tri thức, Tài liệu Đào tạo Sau đại học 32
Trang 2
Tiểu luận môn học: Công nghệ tri thức
PHẦN I: MỞ ĐẦU
1.1. Giới thiệu đề tài:
Công nghệ tri thức là một bộ môn của tin học có tính chất công nghệ, trong đó
đối tượng thông tin được xử lí là các tri thức trong một lĩnh vực chuyên môn nào đó và
quá trình xử lí bằng máy tính nhằm giải quyết những bài toán phức tạp thông thường
đòi hỏi một trình độ cao về trí tuệ chuyên gia trong lĩnh vực bằng các công cụ toán
học; phát triển các phương pháp lựa chọn và thu thập tri thức, các cơ chế lập luận trên
các thông tin tri thức và việc thực hiện các phương pháp đó trên máy tính. Mỗi lĩnh
vực hoạt động cần có một chuyên gia để hỗ trợ tư vấn trong quá trình hoạt động. Việc
áp dụng hệ chuyên gia là một việc rất quan trọng, chúng ta có thể tạo ra một chuyên
gia thật sự trên một lĩnh vực nào đó. Từ đó chúng ta có thể xây dựng nhiều chuyên gia
khác nhau trên tất cả các lĩnh vực để phục vụ đời sống xã hội.
Đề tài nghiên cứu của nhóm bao gồm 2 nội dung:
- Phần lý thuyết tìm hiều về khai thác tri thức Knowledge Discovery -
/>- Phần bài tập: Xây dựng hệ chuyên gia lĩnh vực “Chăm sóc, bảo dưỡng sắc đẹp,
trí tuệ…từ sản phẩm thiên nhiên, sản phẩm thương mại, công nghiệp, truyền
thống dân gian…”
1.2. Mục đích của đề tài:
Từ những kiến thức đã học được ta đi áp dụng vào bài toán thực tế. Thấy rõ
được tầm quan trọng của môn Công nghệ tri thức, nâng cao kỹ năng về lập trình
logic, biết cách sử dụng thao tác với ngôn ngữ lập trình prolog. Từ đề tài này chúng ta
có thể phát triển được hệ chuyên gia với những đề tài phức tạp và khó hơn.
1.3. Bố cục trình bày:
Báo cáo được trình bày thành 5 phần chính:
* Phần I : Giới thiệu về đề tài và nêu lên mục đích chính của đề tài.

* Phần II : Những cơ sở lý thuyết liên quan cần để thực hiện đề tài.
* Phần III : Phân tích các yêu cầu của chương trình từ đó đi đến thiết kế và
xây dựng chương trình.
* Phần IV : Thực hiện chương trình và một số kết quả đạt được.
* Phần V : Kết luận nêu lên những gì làm được và những gì chưa làm
được.
Nhóm học viên thực hiện xin gửi lời cảm ơn chân thành đến PGS.TS Phan
Huy Khánh. Thầy đã tận tình truyền đạt những kiến thức cần thiết cho chúng em
trong suốt thời gian môn học. Tuy đây là môn học mang tính trừu tượng cao nhưng
qua các bài giảng cụ thể và ví dụ thực tiễn sinh động của Thầy, chúng em đã nắm bắt
tốt nội dung môn học và đã có những định hướng chính xác hơn cho tương lai.
Do thời gian và trình độ còn nhiều hạn chế cũng như số lượng lớn các thuật
toán cần trình bày, chắc chắn đề tài còn có chỗ sai sót. Nhóm chúng em rất mong nhận
Trang 3
Tiểu luận môn học: Công nghệ tri thức
được ý kiến góp ý và động viên của Thầy cũng như tất cả các thành viên lớp Khoa học
máy tính k24 Quảng Bình.
Xin chân thành cảm ơn!
Nhóm thực hiện
Đặng Ngọc Tuấn
Lê Công Vượng
Trần Lương Vương
Trang 4
Tiểu luận môn học: Công nghệ tri thức
PHẦN II: CƠ SỞ LÝ THUYẾT
2.1. Giới thiệu hệ chuyên gia (Expert System):
2.1.1. Hệ chuyên gia là gì ?
Là một chương trình máy tính biểu diễn và lập luận dựa trên tri thức trong một chủ
đề thuộc lĩnh vực cụ thể nào đó nhằm giải quyết vấn đề hoặc đưa ra những lời khuyên.
Quá trình xây dựng một hệ chuyên gia thường được gọi là công nghệ hoá tri thức và

nó được xem là một ứng dụng của trí tuệ nhân tạo.
2.1.2. Đặc trưng của hệ chuyên gia:
Có 4 đặc trưng cơ bản của một hệ chuyên gia:
- Hiệu quả cao (high performance): khả năng trả lời với mức độ tinh thông bằng
hoặc cao hơn so với chuyên gia (người) trong cùng lĩnh vực.
- Thời gian trả lời thoả đáng (adequate response time): thời gian trả lời hợp lý,
bằng hoặc nhanh hơn so với chuyên gia (người) để đi đến cùng một quyết định. Hệ
chuyên gia là một hệ thống thời gian thực (real time system).
- Độ tin cậy cao (good reliability): không thể xảy ra sự cố hoặc giảm sút độ tin
cậy khi sử dụng.
- Dễ hiểu (understanable): hệ chuyên gia giải thích các bước suy luận một cách
dễ hiểu và nhất quán, không giống như cách trả lời bí ẩn của các hộp đen (black box).
2.1.3. Kiến trúc tổng quát của hệ chuyên gia:
Hình 1: Những thành phần cơ bản của một hệ chuyên gia.
* Cơ sở tri thức (knowledge dase): gồm các phần tử tri thức, thông thường được
gọi là luật (rule), được tổ chức như một cơ sở dữ liệu.
* Máy suy diễn (inference engine): công cụ tạo ra sự suy luận bằng cách quyết
định xem những luật nào sẽ làm thỏa mãn các sự kiện, các đối tượng, chọn ưu tiên các
luật thoả mãn, thực hiện các luật có tính ưu tiên cao nhất.
* Lịch công việc (agenda) : danh sách các luật ưu tiên cho máy suy diễn tạo ra
thỏa mãn các sự kiện, các đối tượng có mặt trong bộ nhớ làm việc.
Trang 5
Máy suy diễn
Lịch công việc
Cơ sở tri thức
Các luật
Bộ nhớ làm việc
Khả năng giải thích
Khả năng
thu nhận tri thức

Giao diện người sử dụng
Tiểu luận môn học: Công nghệ tri thức
* Bộ nhớ làm việc (working memory): cơ sở dữ liệu toàn cục chứa các sự kiện
phục vụ cho các luật.
* Khả năng giải thích (explanation facility): giải nghĩa cách lập luận của hệ
thống cho người sử dụng.
* Khả năng thu nhận tri thức (Knowleged Acquisition facility): cho phép người
sử dụng bổ sung các tri thức vào hệ thống một cách tự động thay vì tiếp nhận tri thức
bằng cách mã hoá tường minh. Khả năng thu nhận tri thức là yếu tố mặc nhiên của
nhiều hệ chuyên gia.
* Giao diện người sử dụng (user interface) là nơi người sử dụng và hệ chuyên
gia trao đổi với nhau .
2.1.4. Biểu diễn tri thức trong các hệ chuyên gia:
2.1.4.1. Logic mệnh đề:
Người ta sử dụng các ký hiệu để thể hiện tri thức và các phép toán logic tác
động lên các ký hiệu để thể hiện suy luận lôgic. Logic mệnh đề nghiên cứu cách xử lý
các phát biểu.
Một mệnh đề mô tả một sự kiện, quan hệ giữa các đối tượng của thế giới thực
trong một lĩnh vực hẹp nào đó. Sau khi diễn giải thì mệnh đề đúng hoặc sai.
Ví dụ:
- Trời hôm nay rét.
- Maskov là đàn ông.
2.1.4.2. Logic vị từ:
Khắc phục các hạn chế của logic mệnh đề: Logic vị từ không chỉ biểu diễn sự
kiện mà còn biểu diễn tính chất của các đối tượng. Logic vị từ là sự mở rộng của logic
mệnh đề.
Các vị từ thường chứa biến hằng hay hàm. Người ta gọi các vị từ không chứa
biến là mệnh đề. Mỗi vị từ có thể là một sự kiện hay một luật. Luật vị từ gồm hai vế
trái và phải được nối với nhau bằng dấu mũi tên (). Các vị từ không có chứa mũi tên
được gọi là sự kiện.

Ví dụ:
Man(Tom). : Tom là đàn ông.
Child(Mary). : Mary là đứa trẻ.
2.2. Công nghệ tri thức:
2.2.1. Lịch sử công nghệ tri thức:
Công nghệ tri thức phát hiện ra là một khái niệm về lĩnh vực khoa học máy tính
mà nó mô tả quá trình tự động tìm kiếm khối lượng lớn dữ liệu cho các mô hình có thể
Trang 6
Tiểu luận môn học: Công nghệ tri thức
được coi là kiến thức về dữ liệu. Nó thường được mô tả như là bắt nguồn tri thức từ dữ
liệu đầu vào. Chủ đề này phức tạp có thể được phân loại theo.
1). Loại dữ liệu được tìm kiếm
2).Trong cái hình thức là đại diện cho kết quả của tìm kiếm.
Phát triển nhất là công nghệ khám phá tri thức hay nó được biết như cơ sở dữ
liệu khám phá tri thức. Cũng giống như nhiều hình thức khác của việc khám phá công
nghệ tri thức, nó tạo ra một cách trừu tượng các dữ liệu đầu vào Những kiến thức thu
được qua quá trình này có thể trở thành dữ liệu bổ sung có thể được sử dụng cho việc
sử dụng dữ liệu trong tương lai.
Một ứng dụng khác đầy hứa hẹn của công nghệ tri thức thuộc về việc hiện đại
hoá phần mềm trong đó có những phần mềm đã thể hiện trước đó. Quá trình này liên
quan đến một khái niệm về kỹ thuật đảo ngược. Thông thường các kiến thức thu được
từ các phần mềm hiện tại được trình bày ở dạng các mô hình mà các truy vấn cụ thể có
thể được thực hiện khi cần thiết.
Một quan hệ thực thể là một định dạng thường xuyên đại diện cho kiến thức thu
được từ các phần mềm hiện có.
Object Management Group (OMG) được phát triển đặc điểm kỹ thuật Kiến thức
Discovery Metamodel (KDM) định nghĩa một ontology cho các tài sản phần mềm và
các mối quan hệ của họ với mục đích khám phá kiến thức thực hiện của các mã hiện
có. Kiến thức phát hiện từ các hệ thống phần mềm hiện có, còn được gọi là phần mềm
khai thác mà liên quan chặt chẽ đến khai thác dữ liệu, phần mềm đã có từ trước đố có

giá trị kinh doanh rất lớn, chìa khóa cho sự tiến triển của các hệ thống phần mềm.
Thay vì khai thác dữ liệu cá nhân tập hợp, phần mềm khai thác tập trung vấn đề siêu
dữ liệu, chẳng hạn như cơ sở dữ liệu schema.
2.2.2 Dữ liệu đầu vào:
2.2.2.1. Data mining:
Data mining là quá trình giải nén các mẫu từ dữ liệu. Data mining đang trở
thành một công cụ ngày càng quan trọng để biến đổi dữ liệu này thành thông tin. Nó
thường được sử dụng trong một loạt các hồ sơ thực hành, chẳng hạn như tiếp thị, giám
sát, phát hiện gian lận và phát hiện khoa học.
Data mining khai thác dạng dữ liệu có thể được sử dụng để phát hiện ra các
mẫu trong dữ liệu, nhưng thường được thực hiện chỉ trên mẫu dữ liệu. Quá trình khai
thác sẽ không có hiệu quả nếu các mẫu không phải là một đại diện tốt của tập thực thể
lớn hơn của dữ liệu. Data mining không thể phát hiện ra mẫu mà có thể có mặt trong
cơ thể lớn hơn nếu những mô hình dữ liệu không có mặt trong mẫu được "khai thác".
Trang 7
Tiểu luận môn học: Công nghệ tri thức
Không có khả năng tìm thấy các mô hình có thể trở thành một nguyên nhân cho một số
tranh chấp giữa khách hàng và nhà cung cấp dịch vụ.
Do đó khai thác dữ liệu là không đơn giản nhưng có thể hữu ích nếu đủ dữ liệu
được thu thập mẫu đại diện. Việc phát hiện ra một mô hình cụ thể trong một tập hợp
các dữ liệu không nhất thiết có nghĩa là một mô hình được tìm thấy ở nơi khác trong
dữ liệu lớn hơn từ đó mẫu được rút ra. Một phần quan trọng của quá trình này là việc
xác minh và xác nhận của các mô hình trên các mẫu khác của dữ liệu.
Các điều khoản liên quan đến dữ liệu nạo vét, khai thác dữ liệu và dữ liệu
snooping chỉ đến việc sử dụng các kỹ thuật khai thác dữ liệu cỡ mẫu được (hoặc có thể
được) quá nhỏ để suy luận thống kê được thực hiện về tính hợp lệ của bất kỳ các mẫu
phát hiện (xem thêm dữ liệu-snooping thiên vị). nạo vét luồng dữ liệu có thể, tuy
nhiên, được sử dụng để phát triển các giả thuyết mới, mà sau đó phải được xác nhận
với đầy đủ bộ mẫu lớn.
2.2.2.2. Background:

Con người đã được "thủ công" các mẫu chiết xuất từ dữ liệu trong nhiều thế kỷ,
nhưng khối lượng ngày càng tăng của dữ liệu trong thời hiện đại đã kêu gọi thêm các
cách tiếp cận tự động. Đầu phương pháp xác định các mẫu trong dữ liệu bao gồm định
lý Bayes (năm 1700) và phân tích hồi quy (năm 1800). Sự gia tăng, có mặt khắp nơi và
sức mạnh ngày càng tăng của công nghệ máy tính đã tăng thu thập dữ liệu và lưu trữ.
Khi tập hợp dữ liệu đã phát triển về quy mô và phức tạp, chỉ đạo thực hành phân tích
dữ liệu ngày càng được tăng cường với gián tiếp, xử lý dữ liệu tự động. Điều này đã
được hỗ trợ bởi những khám phá khác trong khoa học máy tính, chẳng hạn như các
mạng thần kinh, clustering, thuật toán di truyền (năm 1950), cây quyết định (năm
1960) và hỗ trợ máy vector (năm 1980). Khai thác dữ liệu là quá trình áp dụng những
phương pháp này vào dữ liệu với mục đích khám phá ra các mô hình ẩn [1] Nó đã
được sử dụng trong nhiều năm của các doanh nghiệp. Các nhà khoa học và các chính
phủ để sift thông qua khối lượng của dữ liệu như hồ sơ hãng hàng không của chuyến
đi hành khách, số liệu điều tra dân số và siêu thị máy quét dữ liệu để sản xuất các báo
cáo nghiên cứu thị trường. (Lưu ý, tuy nhiên, báo cáo đó không phải là luôn luôn được
coi là khai thác dữ liệu.)
Một lý do chính để sử dụng khai thác dữ liệu là hỗ trợ trong việc phân tích các
bộ sưu tập của các quan sát về hành vi Một thực tế không thể tránh khỏi của khai thác
dữ liệu là thiết lập của dữ liệu đang được phân tích có thể không được đại diện của
Trang 8
Tiểu luận môn học: Công nghệ tri thức
toàn bộ miền, và do đó không thể chứa một số ví dụ về các mối quan hệ quan trọng và
hành vi tồn tại trên các phần khác của tên miền. Để giải quyết vấn đề này loại phân
tích có thể được tăng cường bằng cách sử dụng phương pháp tiếp cận dựa trên thử
nghiệm và khác, chẳng hạn như lựa chọn mô hình cho dữ liệu do con người tạo ra.
Trong những tình huống này, tương quan cố hữu có thể kiểm soát được, hoặc cho,
hoặc gỡ bỏ hoàn toàn, trong khi xây dựng thiết kế thực nghiệm.
Đã có một số nỗ lực để xác định các tiêu chuẩn cho khai thác dữ liệu, ví dụ năm
1999 Công nghiệp châu Âu Cross trình chuẩn cho khai thác dữ liệu (CRISP-DM 1,0)
và Java 2.004 tiêu chuẩn dữ liệu Khai khoáng (JDM 1,0). Đây là những phát triển tiêu

chuẩn; các phiên bản sau này của các tiêu chuẩn này đang được phát triển. Độc lập của
những nỗ lực tiêu chuẩn hóa, tự do có sẵn hệ thống phần mềm mã nguồn mở như các
dự án R, Weka, KNIME, RapidMiner và những người khác đã trở thành một tiêu
chuẩn để xác định dữ liệu, quy trình khai thác mỏ. Ba tập đầu của các hệ thống này có
khả năng nhập khẩu và xuất khẩu các mô hình trong PMML (Predictive Model
Markup Language) mà cung cấp một cách tiêu chuẩn để đại diện cho các mô hình khai
thác dữ liệu để chúng có thể được chia sẻ giữa các ứng dụng khác nhau thống kê.
PMML là một ngôn ngữ dựa trên XML được phát triển bởi Tập đoàn Dữ liệu Khai
khoáng (DMG) [2], một nhóm độc lập gồm các công ty khai thác nhiều dữ liệu.
PMML phiên bản 4.0 được phát hành vào tháng 6 năm 2009.
2.2.2.3 Process:
a. Pre-process:
Trước khi thuật toán có thể được sử dụng, một dữ liệu mục tiêu phải được lắp
ráp. Khi khai thác dữ liệu chỉ có thể phát hiện ra các mẫu đã có trong dữ liệu, các số
liệu mục tiêu phải đủ lớn để chứa những mô hình trong khi vẫn ngắn gọn, đủ để được
khai thác trong một khoảng thời gian chấp nhận được. Một nguồn tin phổ biến cho các
dữ liệu là một datamart hoặc kho dữ liệu.
Các thiết lập mục tiêu sau đó được làm sạch loại bỏ các quan sát với tiếng ồn và
dữ liệu bị mất tích.
Các dữ liệu sạch sẽ được giảm vào vectơ tính năng, một vector cho mỗi quan
sát. Một tính năng vector là một phiên bản tóm tắt của các quan sát dữ liệu thô. Ví dụ,
một hình ảnh đen trắng của một khuôn mặt là 100px sẽ chứa 10.000 bit của dữ liệu
thô. Điều này có thể được biến thành một vector tính năng bằng cách định vị mắt và
miệng trong hình ảnh. Làm như vậy sẽ làm giảm các dữ liệu cho mỗi bit vector từ
10.000 đến ba mã số cho các vị trí, làm giảm đáng kể kích thước của tập dữ liệu để
Trang 9
Tiểu luận môn học: Công nghệ tri thức
được khai thác, và do đó làm giảm nỗ lực chế biến. Các tính năng được lựa chọn sẽ
phụ thuộc vào những gì mục tiêu cho là rõ ràng, chọn "đúng" tính năng là cơ bản để
khai thác dữ liệu thành công.

Các vectơ tính năng được chia thành hai bộ, các "đào tạo thiết lập" và tập "thử
nghiệm". Tập huấn luyện được sử dụng để "đào tạo" các thuật toán khai thác dữ liệu,
trong khi các thiết lập thử nghiệm được sử dụng để xác minh tính chính xác của bất kỳ
mô hình được tìm thấy.
b. Data mining:
Khai thác dữ liệu thường bao gồm bốn lớp học của nhiệm vụ:
* Phân loại - Giữ gìn các dữ liệu thành các nhóm được xác định trước. Ví dụ,
một chương trình email có thể cố gắng để phân loại một email được coi là hợp pháp
hay thư rác. thuật toán thường bao gồm cây quyết định học tập, phân loại Bayes và
mạng nơron.
* Clustering - Có như phân loại, nhưng các nhóm này không được xác định
trước, do đó, thuật toán sẽ cố gắng nhóm tương tự như các mục với nhau.
* Regression - Cố gắng tìm một chức năng mà các mô hình dữ liệu với các lỗi ít
nhất.
* Hiệp hội quy tắc học tập - tìm kiếm cho các mối quan hệ giữa các biến. Thí
dụ, một siêu thị có thể thu thập dữ liệu về thói quen mua sắm của khách hàng. Sử dụng
quy tắc hiệp hội học tập, các siêu thị có thể xác định sản phẩm được mua thường
xuyên với nhau và sử dụng thông tin này cho mục đích tiếp thị. Điều này đôi khi được
gọi là phân tích thị trường trong giỏ hàng.
c. Research and evolution
Ngoài các ngành công nghiệp định hướng nhu cầu về tiêu chuẩn và khả năng
tương tác, hoạt động chuyên nghiệp và học thuật cũng đã có những đóng góp đáng kể
vào việc phát triển và sự chặt chẽ trong các phương pháp và các mô hình, một bài báo
xuất bản trong một vấn đề năm 2008 của Tạp chí Quốc tế về Công nghệ thông tin và ra
quyết định tóm tắt kết quả của một cuộc khảo sát văn học mà dấu vết và phân tích sự
tiến hóa này.
Các cơ quan chuyên môn hàng đầu trong lĩnh vực này là Hiệp hội cho các
nhóm quan đặc biệt Computing Machinery về kiến thức khám phá và khai thác dữ liệu
(SIGKDD). [Cần dẫn nguồn] Kể từ năm 1989 họ đã tổ chức một hội nghị hàng năm
của quốc tế và công bố thủ tục tố tụng của mình, và từ năm 1999 đã xuất bản một tạp

chí định kỳ sáu tháng học tập mang tên "SIGKDD Những khám phá".Hội nghị Khoa
học máy tính khác về khai thác dữ liệu bao gồm:
* DMIN - Hội nghị quốc tế về khai thác dữ liệu;
Trang 10
Tiểu luận môn học: Công nghệ tri thức
* DMKD - Nghiên cứu Các vấn đề về khai thác dữ liệu và khám phá kiến thức;
* ECML-PKDD - Hội nghị châu Âu học tập trên máy và nguyên tắc và thực
hành của Discovery kiến thức trong cơ sở dữ liệu;
* ICDM - IEEE Hội nghị Quốc tế về khai thác dữ liệu;
* MLDM - Máy Học tập và Khai khoáng dữ liệu trong công nhận Hoa văn;
* SDM - SIAM Hội nghị Quốc tế về khai thác dữ liệu
* EDM - Hội nghị quốc tế về giáo dục Khai khoáng dữ liệu
2.2.2.4. Game:
Kể từ đầu những năm 1960, với sự sẵn có của sấm truyền cho các trò chơi tổ
hợp nhất định, còn được gọi là tablebases (ví dụ như cho cờ vua-3x3) với bất kỳ cấu
hình mới bắt đầu, hội đồng chấm nhỏ-và-box, nhỏ-Ban-hex, và endgames nhất định
trong cờ vua , dấu chấm-và-ô, và hex, một khu vực mới để khai thác dữ liệu đã được
mở lên. Đây là chiến lược khai thác của con người-có thể sử dụng từ những sấm
truyền. Hiện nay phương pháp tiếp cận mô hình công nhận dường như không có đầy
đủ các cấp độ yêu cầu cao trừu tượng để được áp dụng thành công. Thay vào đó, có
nhiều thử nghiệm với tablebases, kết hợp với một nghiên cứu chuyên sâu của
tablebase-câu trả lời cho vấn đề cũng được thiết kế và kiến thức về nghệ thuật trước,
tức là kiến thức trước tablebase, được sử dụng để sản lượng các mẫu sâu sắc.
2.2.2.5. Bussiness:
Doanh nghiệp sử dụng khai thác dữ liệu có thể thấy một lợi tức đầu tư, mà còn
họ nhận ra rằng số lượng các mô hình tiên đoán có thể nhanh chóng trở nên rất lớn.
Thay vì một mô hình để dự đoán mà khách hàng sẽ khuấy, một doanh nghiệp có thể
xây dựng một mô hình riêng cho từng khu vực và loại hình khách hàng. Sau đó, thay
vì gửi một cung cấp cho tất cả mọi người có khả năng khuấy, nó chỉ có thể muốn gửi
cung cấp cho khách hàng rằng sẽ có khả năng thực hiện để cung cấp. Và cuối cùng, nó

cũng có thể muốn xác định khách hàng sẽ được lợi nhuận trên một cửa sổ thời gian và
chỉ gửi cung cấp cho những người có khả năng được lợi nhuận. Để duy trì số lượng
của các mô hình này, họ cần để quản lý các phiên bản mô hình và chuyển sang khai
thác dữ liệu tự động.
Khai thác dữ liệu cũng có thể hữu ích cho con người-nguồn tài nguyên phòng
ban trong việc xác định các đặc tính của nhân viên của họ thành công nhất. Thông tin
thu được, chẳng hạn như các trường đại học tham dự của nhân viên rất thành công, có
thể giúp nhân sự tập trung nỗ lực tuyển dụng phù hợp. Ngoài ra, chiến lược Quản lý
doanh nghiệp ứng dụng giúp một công ty dịch của công ty mục tiêu cấp, chẳng hạn
Trang 11
Tiểu luận môn học: Công nghệ tri thức
như chia sẻ lợi nhuận và mục tiêu lợi nhuận, thành quyết định hoạt động, chẳng hạn
như kế hoạch sản xuất, các cấp lực lượng lao động.
Một ví dụ khác khai thác dữ liệu, thường được gọi là phân tích giỏ thị trường,
liên quan đến sử dụng của nó trong doanh số bán lẻ. Nếu một cửa hàng quần áo ghi lại
mua hàng của khách hàng, một hệ thống dữ liệu, khai thác có thể xác định được những
khách hàng đã ủng hộ áo sơ mi lụa trên những bông. Mặc dù một số giải thích về mối
quan hệ có thể khó khăn, lợi dụng nó được dễ dàng hơn. Ví dụ đề với nguyên tắc liên
kết trong giao dịch dựa trên dữ liệu. Không phải tất cả các dữ liệu được giao dịch dựa
trên các quy tắc và hợp lý hoặc không chính xác cũng có thể có mặt trong cơ sở dữ
liệu.
2.2.2.6. Science and engineering:
Trong những năm gần đây, khai thác dữ liệu đã được sử dụng rộng rãi trong
khu vực của khoa học và kỹ thuật, chẳng hạn như sinh học, di truyền học, y học, giáo
dục và kỹ thuật điện.
Trong lĩnh vực nghiên cứu về di truyền con người, mục đích quan trọng là phải
hiểu được mối quan hệ ánh xạ giữa các biến thể liên cá nhân trong chuỗi DNA của con
người và biến đổi trong tính nhạy cảm bệnh tật. Trong điều khoản đặt, nó là để tìm
hiểu cách thức thay đổi trong chuỗi DNA của một cá nhân ảnh hưởng đến nguy cơ
phát triển bệnh thông thường như ung thư. Điều này là rất quan trọng để giúp cải thiện

việc chẩn đoán, phòng ngừa và điều trị của bệnh. Việc khai thác dữ liệu kỹ thuật được
sử dụng để thực hiện nhiệm vụ này được biết đến như giảm đa chiều multifactor.
Trong khu vực của kỹ thuật điện, kỹ thuật khai thác dữ liệu đã được sử dụng
rộng rãi để theo dõi tình trạng của thiết bị điện điện áp cao. Mục đích của việc giám sát
điều kiện hiện có để có được thông tin giá trị về tình trạng sức khoẻ của vật liệu cách
nhiệt của thiết bị. Dữ liệu phân nhóm như bản đồ tự tổ chức (SOM) đã được áp dụng
vào việc theo dõi và phân tích độ rung của máy biến áp tải trên tap-đổi (OLTCS). Sử
dụng giám sát độ rung, nó có thể được quan sát thấy rằng mỗi thay đổi hoạt động khai
thác tạo ra một tín hiệu có chứa thông tin về các điều kiện của các địa chỉ liên lạc
changer khai thác, cơ chế ổ đĩa. Rõ ràng, vị trí khai thác khác nhau sẽ tạo ra các tín
hiệu khác nhau. Tuy nhiên, đã có nhiều thay đổi đáng kể giữa các tín hiệu điều kiện
bình thường cho vị trí chính xác cùng một vòi nước. SOM đã được áp dụng để phát
hiện các điều kiện bất thường và để ước tính bản chất của các bất thường.
Dữ liệu kỹ thuật khai thác mỏ cũng đã được áp dụng để phân tích khí hòa tan (DGA)
trên máy biến áp điện. DGA, như là một chẩn đoán cho máy biến áp điện, đã có sẵn
Trang 12
Tiểu luận môn học: Công nghệ tri thức
trong nhiều năm. Kỹ thuật khai thác dữ liệu như SOM đã được áp dụng để phân tích
dữ liệu và để xác định xu hướng không được rõ ràng cho các kỹ thuật DGA tỷ lệ chuẩn
như Duval Triangle.
Một khu vực thứ tư áp dụng cho khai thác dữ liệu khoa học / kỹ thuật hiện có
trong nghiên cứu giáo dục, nơi khai thác dữ liệu đã được sử dụng để nghiên cứu các
yếu tố hàng đầu để lựa chọn sinh viên tham gia vào các hành vi mà giảm học tập của
mình và để hiểu những yếu tố ảnh hưởng đến sinh viên đại học duy trì. Một ví dụ
tương tự của các ứng dụng xã hội của khai thác dữ liệu của nó là sử dụng trong các hệ
thống chuyên môn tìm kiếm, trong đó miêu tả chuyên môn của con người được trích
xuất, bình thường hóa và phân loại để tạo thuận lợi cho việc tìm kiếm của các chuyên
gia, đặc biệt là trong lĩnh vực khoa học và kỹ thuật. Bằng cách này, khai thác dữ liệu
có thể tạo điều kiện cho bộ nhớ thể chế.
Các ví dụ khác của việc áp dụng dữ liệu ứng dụng kỹ thuật khai thác được dữ

liệu y sinh tạo điều kiện của bản thể học miền, khai thác dữ liệu thử nghiệm lâm sàng,
phân tích lưu lượng bằng cách sử dụng SOM, v…v…
2.2.2.7. Spatial data mining:
Khai thác dữ liệu không gian là việc áp dụng các kỹ thuật khai thác dữ liệu để
dữ liệu không gian. Khai thác dữ liệu không gian sau cùng các chức năng tương tự
trong khai thác dữ liệu, với mục tiêu cuối cùng để tìm mô hình trong địa lý. Cho đến
nay, khai thác dữ liệu và Hệ thống thông tin địa lý (GIS) đã tồn tại như là hai công
nghệ riêng biệt, mỗi phương pháp riêng, truyền thống của nó và cách tiếp cận để hình
dung và phân tích dữ liệu. Đặc biệt, GIS hiện đại nhất chỉ có chức năng phân tích rất
cơ bản không gian. Sự bùng nổ to lớn trong dữ liệu địa lý tham chiếu occasioned bởi
sự phát triển của CNTT, lập bản đồ kỹ thuật số, viễn thám, và phổ biến toàn cầu của
GIS nhấn mạnh tầm quan trọng của phát triển phương pháp quy nạp dữ liệu hướng đến
những phân tích địa lý và mô hình hóa.
Khai thác dữ liệu, mà là việc tìm kiếm tự động từng phần cho các mô hình ẩn
trong cơ sở dữ liệu lớn, cung cấp các lợi ích tiềm năng lớn cho các ứng dụng GIS dựa
trên quyết định làm. Gần đây, nhiệm vụ của việc tích hợp hai công nghệ này đã trở
thành quan trọng, đặc biệt là các tổ chức khu vực công và tư nhân sở hữu cơ sở dữ liệu
rất lớn với các dữ liệu chuyên đề và tham chiếu địa lý bắt đầu nhận ra tiềm năng rất
lớn của các thông tin ẩn ở đó. Trong số những người tổ chức là:
Trang 13
Tiểu luận môn học: Công nghệ tri thức
* Văn phòng đòi hỏi phải phân tích, phổ biến của địa tham chiếu số liệu thống
kê
* Công cộng dịch vụ y tế tìm kiếm các giải thích của các cụm bệnh
* Môi trường các cơ quan đánh giá tác động của thay đổi mô hình sử dụng đất
vào biến đổi khí hậu
* Geo-tiếp thị các công ty làm phân khúc khách hàng dựa trên vị trí không gian.
2.2.2.8. Challenges:
Dữ liệu không gian địa lý kho có xu hướng được rất lớn. Hơn nữa, hiện GIS
datasets thường splintered vào tính năng và các thành phần thuộc tính, đó là quy ước

lưu trữ trong các hệ thống quản lý dữ liệu hybrid. Thuật toán yêu cầu khác nhau đáng
kể cho các thuộc tính (quan hệ) quản lý dữ liệu và cho tô pô (tính năng) quản lý dữ
liệu. Liên quan đến điều này là phạm vi và tính đa dạng của các định dạng dữ liệu địa
lý, mà cũng trình bày những thách thức duy nhất. Các cuộc cách mạng kỹ thuật số dữ
liệu địa lý đang tạo ra các kiểu mới của định dạng dữ liệu vượt ra ngoài vector “truyền
thống” và “raster” định dạng. Kho dữ liệu địa lý bao gồm dữ liệu ngày càng bị bệnh có
cấu trúc như hình ảnh và địa lý tham chiếu đa phương tiện truyền thông.
Có một số thách thức quan trọng trong nghiên cứu phát hiện kiến thức địa lý và
khai thác dữ liệu. Miller và Hán cung cấp danh sách sau đây của chủ đề nghiên cứu
mới nổi trong lĩnh vực này:
* Phát triển và hỗ trợ dữ liệu địa lý kho hàng - tài sản không gian thường được
giảm xuống thuộc tính đơn giản aspatial trong kho dữ liệu chính thống. Tạo một GDW
tích hợp đòi hỏi phải giải quyết các vấn đề trong khả năng tương tác dữ liệu không
gian và thời gian, bao gồm cả sự khác biệt về ngữ nghĩa, các hệ thống tham chiếu, hình
học, chính xác và vị trí.
* Đại diện tốt hơn không thời gian trong phát hiện kiến thức địa lý - hiện tại
kiến thức địa lý phát hiện (GKD) kỹ thuật thường sử dụng rất đơn giản đại diện của
các đối tượng địa lý và mối quan hệ không gian. Kỹ thuật khai thác dữ liệu địa lý nên
nhận ra phức tạp hơn các đối tượng địa lý (đường dây và đa giác) và các mối quan hệ
(khoảng cách phi Euclide, chỉ đạo, kết nối và tương tác thông qua do không gian địa lý
như địa hình). Thời gian cần phải được tích hợp đầy đủ hơn vào các đại diện địa lý và
mối quan hệ.
* Kiến thức địa lý phát hiện sử dụng dữ liệu đa dạng các loại - kỹ thuật GKD
nên được phát triển có thể xử lý dữ liệu đa dạng các loại hình vượt ra ngoài truyền
thống và mô hình raster vector, bao gồm cả hình ảnh và đa phương tiện tham chiếu địa
lý, cũng như các loại dữ liệu động (video suối, hoạt hình).
2.2.2.9. Surveillance:
Trước khai thác dữ liệu để ngăn chặn chương trình khủng bố thuộc chính phủ
Hoa Kỳ bao gồm các thông tin Tổng số Nhận thức (TIA) chương trình, an toàn chuyến
bay (trước đây gọi là hành khách Computer-Assisted Prescreening System (Capps II)),

Phân tích, phổ biến, trực quan, Insight, Semantic Enhancement, và các Multistate
chống khủng bố trao đổi thông tin (MATRIX). Những chương trình này đã bị ngưng
Trang 14
Tiểu luận môn học: Công nghệ tri thức
do tranh cãi về việc liệu họ có vi phạm sửa đổi thứ 4 Hiến pháp Hoa Kỳ, mặc dù nhiều
chương trình được thành lập theo họ tiếp tục được tài trợ của các tổ chức khác nhau,
hoặc theo tên gọi khác nhau.
Hai kỹ thuật khai thác dữ liệu do chính đáng trong bối cảnh chống khủng bố
bao gồm "mô hình khai thác" và "chủ đề dựa trên khai thác dữ liệu".
Trang 15
Tiểu luận môn học: Công nghệ tri thức
2.2.2.10. Pattern mining:
"Hoa văn khai thác mỏ" là một kỹ thuật khai thác dữ liệu có liên quan đến việc
tìm kiếm các mô hình hiện có trong dữ liệu. Trong bối cảnh mô hình này thường có
nghĩa là nguyên tắc liên kết. Các động lực ban đầu để tìm kiếm nguyên tắc liên kết đến
từ mong muốn phân tích dữ liệu giao dịch siêu thị, có nghĩa là, để xem xét hành vi của
khách hàng về các sản phẩm đã mua. Ví dụ, nguyên tắc một hiệp hội "bia ⇒ crisps
(80%)" nói rằng bốn trong số năm khách hàng mua bia cũng mua crisps.
Trong bối cảnh khai thác mô hình như một công cụ để xác định các hoạt động
khủng bố, Hội đồng nghiên cứu quốc gia cung cấp các định nghĩa sau đây: "Hoa văn
trên cơ sở khai thác dữ liệu tìm kiếm mô hình (bao gồm cả các mẫu dữ liệu bất
thường) mà có thể được liên kết với hoạt động khủng bố - những mô hình có thể được
coi là tín hiệu nhỏ trong một đại dương lớn của tiếng ồn. Hoa văn Khai khoáng bao
gồm các lĩnh vực mới như một nhạc Thông tin Retrieval (MIR) trong đó các mẫu được
thấy trong cả hai lĩnh vực thời và phi thời được nhập khẩu để kiến thức cổ điển phát
hiện các kỹ thuật tìm kiếm.
2.2.2.11. Subject-based data mining:
"Chủ đề dựa trên khai thác dữ liệu" là một kỹ thuật khai thác dữ liệu liên quan
đến việc tìm kiếm các hiệp hội giữa các cá nhân trong dữ liệu. Trong bối cảnh chiến
đấu chống khủng bố, Hội đồng nghiên cứu quốc gia cung cấp các định nghĩa sau đây:

"Chủ đề dựa trên dữ liệu khai thác sử dụng một dư kiện cá nhân hoặc khởi khác đó là
xem xét, dựa trên các thông tin khác, để được quan tâm cao, và mục tiêu là để xác định
những gì người khác hoặc giao dịch tài chính hoặc các phong trào, vv, có liên quan
đến mà dư kiện khởi ".
2.2.2.12. Privacy concerns and ethics:
Khai thác dữ liệu đòi hỏi phải chuẩn bị dữ liệu có thể phát hiện ra thông tin
hoặc các mẫu mà có thể thỏa hiệp và nghĩa vụ bảo mật riêng tư. Một cách phổ biến
cho điều này xảy ra là thông qua tập hợp dữ liệu. Tập hợp dữ liệu là khi dữ liệu được
tích luỹ, có thể từ nhiều nguồn khác nhau, và đặt lại với nhau để họ có thể được phân
tích. Đây không phải là khai thác dữ liệu cho mỗi gia nhập, nhưng một kết quả của
việc chuẩn bị dữ liệu trước và cho các mục đích của phân tích. Các mối đe dọa đến sự
riêng tư của một cá nhân đi vào chơi khi các dữ liệu, một khi biên dịch, gây ra các thợ
mỏ dữ liệu, hoặc bất cứ ai có quyền truy cập mới được thành dữ liệu biên soạn quy
Trang 16
Tiểu luận môn học: Công nghệ tri thức
định, để có thể nhận dạng cá nhân cụ thể, đặc biệt là khi ban đầu là dữ liệu được vô
danh.
Chúng tôi đề nghị một cá nhân nhận thức được thực hiện sau đây trước khi dữ
liệu được thu thập:
* Mục đích của việc thu thập và bất kỳ dự án khai thác dữ liệu,
* Làm thế nào dữ liệu sẽ được sử dụng,
* Những người sẽ có thể khai thác dữ liệu và sử dụng chúng,
* An ninh xung quanh truy cập vào các dữ liệu, và ngoài ra,
* Làm thế nào dữ liệu thu thập có thể được cập nhật.
2.2.2.13. Marketplace surveys:
Một số nhà nghiên cứu và các tổ chức đã tiến hành đánh giá của các công cụ
khai thác dữ liệu và các cuộc điều tra của thợ mỏ dữ liệu. Những xác định một số điểm
mạnh và điểm yếu của gói phần mềm. Họ cũng cung cấp một tổng quan về các hành
vi, sở thích và quan điểm của các thợ mỏ dữ liệu.
2.2.2.14. Software mining:

Phần mềm khai thác dữ liệu là một ứng dụng của khám phá kiến thức trong lĩnh
vực phần mềm hiện đại hoá hiện vật liên quan đến sự hiểu biết phần mềm hiện có. Quá
trình này liên quan đến một khái niệm về kỹ thuật đảo ngược. Thông thường các kiến
thức thu được từ các phần mềm hiện tại được trình bày ở dạng các mô hình mà các
truy vấn cụ thể có thể được thực hiện khi cần thiết. Một mối quan hệ thực thể là một
định dạng thường xuyên đại diện cho kiến thức thu được từ các phần mềm hiện có.
Object Management Group (OMG) được phát triển đặc điểm kỹ thuật Kiến thức
Discovery Metamodel (KDM) được định nghĩa một ontology đối với tài sản phần
mềm và các mối quan hệ của họ với mục đích khám phá kiến thức thực hiện của các
mã hiện có.
2.2.2.15. Software mining and data mining:
Phần mềm là khai thác mỏ liên quan chặt chẽ để khai thác dữ liệu, phần mềm
đã có từ các đồ tạo tác có giá trị kinh doanh rất lớn, chìa khóa cho sự tiến triển của các
hệ thống phần mềm. Kiến thức phát hiện từ cấu trúc phần mềm hệ thống địa chỉ, hành
vi cũng như các dữ liệu xử lý bởi hệ thống phần mềm. Thay vì khai thác dữ liệu cá
nhân tập hợp, phần mềm khai thác tập trung vào siêu dữ liệu, chẳng hạn như cơ sở dữ
liệu schema. OMG Kiến thức Discovery Metamodel cung cấp một đại diện để chụp
siêu dữ liệu tích hợp ứng dụng như là một phần của một hệ thống toàn diện metamodel
hiện có. Một đặc điểm kỹ thuật OMG, các kho hàng thường Metamodel tập trung hoàn
toàn vào siêu dữ liệu enterprize khai thác mỏ.
Trang 17
Tiểu luận môn học: Công nghệ tri thức
2.2.2.16. Levels of software mining:
Kiến thức trong phần mềm phát hiện có liên quan đến một khái niệm về kỹ
thuật đảo ngược. Phần mềm khai thác cấu trúc địa chỉ, hành vi cũng như các dữ liệu xử
lý bởi hệ thống phần mềm.
Khai thác hệ thống phần mềm có thể xảy ra ở các cấp độ khác nhau:
* Cấp độ chương trình (báo cáo cá nhân và các biến)
* Thiết kế mô hình cấp
* Gọi đồ thị cấp (thủ tục và các mối quan hệ cá nhân của họ)

* Kiến trúc cấp (hệ thống con và các giao diện của họ)
* Cấp dữ liệu (cột cá nhân và các thuộc tính của các cửa hàng dữ liệu)
* Cấp độ ứng dụng (các dữ liệu quan trọng và lưu lượng của họ thông qua các
ứng dụng)
* Kinh doanh cấp (khái niệm miền, các quy tắc kinh doanh và thực hiện trong
code)
2.2.2.17. Data model:
Một mô hình dữ liệu trong công nghệ phần mềm là một mô hình trừu tượng mà
mô tả cách dữ liệu được đại diện và truy cập. Các mô hình dữ liệu chính thức xác định
yếu tố dữ liệu và các mối quan hệ giữa các yếu tố dữ liệu cho một lĩnh vực quan tâm.
Theo Hoberman (2009), "Một mô hình dữ liệu là một công cụ wayfinding cho cả
doanh nghiệp và các chuyên gia CNTT, trong đó sử dụng một tập hợp các biểu tượng
và văn bản giải thích chính xác một tập hợp các thông tin thực tế để cải thiện giao tiếp
trong tổ chức và do đó dẫn đến một nhiều hơn ứng dụng linh hoạt và ổn định môi
trường.
Một mô hình dữ liệu xác định một cách rõ ràng ý nghĩa của dữ liệu, mà trong
trường hợp này được gọi là cấu trúc dữ liệu (như trái ngược với các dữ liệu phi cấu
trúc, ví dụ một hình ảnh, tập tin nhị phân hoặc một ngôn ngữ văn bản tự nhiên, nơi có
nghĩa là phải được xây dựng). ứng dụng tiêu biểu của các mô hình dữ liệu bao gồm
các mô hình cơ sở dữ liệu, thiết kế hệ thống thông tin, và cho phép trao đổi dữ liệu.
Thông thường, các mô hình dữ liệu được quy định bằng một ngôn ngữ mô hình hóa dữ
liệu.
Thông tin và có độ chính xác là hai lợi ích chính mà làm cho một mô hình dữ
liệu quan trọng để các ứng dụng mà sử dụng và trao đổi dữ liệu. Một mô hình dữ liệu
là phương tiện mà các thành viên tổ dự án có nguồn gốc khác nhau và với các mức độ
khác nhau của kinh nghiệm có thể giao tiếp với nhau. Độ chính xác có nghĩa là các
điều khoản và quy định về một mô hình dữ liệu có thể được hiểu chỉ có một cách và
không mơ hồ.
Trang 18
Tiểu luận môn học: Công nghệ tri thức

Một mô hình dữ liệu có thể đôi khi được gọi là một cấu trúc dữ liệu, đặc biệt là
trong bối cảnh của ngôn ngữ lập trình. các mô hình dữ liệu thường được bổ sung bởi
các mô hình chức năng, đặc biệt là trong bối cảnh của mô hình doanh nghiệp.
2.2.2.18. Metadata:
Siêu dữ liệu là một phương tiện để mô tả tập tin dữ liệu lấy chủ yếu bởi hình
thức điện tử. Nó cung cấp thông tin về nội dung một mục nào đó, chẳng hạn như:
phương tiện sáng tạo, mục đích của dữ liệu, thời gian và ngày tạo ra, tác giả hoặc tác
giả của dữ liệu, vị trí trên một mạng lưới (điện tử mẫu) nơi mà các dữ liệu đã được tạo
ra, những gì các tiêu chuẩn được sử dụng (ISO9000), vv
Ví dụ: Mục đích của một hình ảnh kỹ thuật số tạo ra có thể bao gồm siêu dữ
liệu mô tả cách hình ảnh là lớn, độ sâu màu, độ phân giải hình ảnh, khi ảnh được tạo
ra, và các dữ liệu khác. Một tài liệu văn bản của siêu dữ liệu có thể chứa thông tin về
tài liệu trong bao lâu là, những người tác giả là, khi tài liệu được viết, và một bản tóm
tắt ngắn của tài liệu.
Các trang Web thường bao gồm siêu dữ liệu ở dạng các thẻ meta. Mô tả và thẻ
meta từ khóa thường được sử dụng để mô tả nội dung các trang Web của. Hầu hết các
công cụ tìm kiếm sử dụng dữ liệu này khi thêm vào trang vào chỉ mục tìm kiếm của
họ.
2.2.2.19. Ontology:
Bản thể học (từ ὄν Hy Lạp, thuộc ὄντος: bị (trung lập động của εἶναι: được) và-
λογία,-logia: khoa học, nghiên cứu, lý thuyết) là nghiên cứu triết học về bản chất của
người, sự tồn tại hoặc thực tế nói chung, cũng như các loại cơ bản được và quan hệ của
họ. Theo truyền thống liệt kê như là một phần của chi nhánh lớn của triết học được gọi
là siêu hình học, những giao dịch với các câu hỏi liên quan đến Bản thể học những gì
thực thể tồn tại hoặc có thể nói để tồn tại, và làm thế nào các thực thể như vậy có thể
được nhóm lại, liên quan trong hệ thống cấp bậc một, và chia theo tương đồng và khác
biệt .
2.2.2.20. Knowledge representation and reasoning:
Kiến thức đại diện và lý luận là một khu vực trong trí tuệ nhân tạo đó là quan
tâm đến làm thế nào để chính thức "suy nghĩ", có nghĩa là, làm thế nào để sử dụng một

hệ thống biểu tượng đại diện cho "một miền của discourse" - đó có thể nói chuyện về,
cùng với các chức năng mà có thể hoặc không thể được trong miền của discourse cho
phép suy luận (lý luận chính thức) về các đối tượng trong các miền của discourse xảy
ra.
Trang 19
Tiểu luận môn học: Công nghệ tri thức
Nói chung, một số loại logic được sử dụng cả hai để cung cấp một ngữ nghĩa
chính thức như thế nào chức năng có lý áp dụng cho các biểu tượng trong lĩnh vực
giảng, cũng như cung cấp (tùy thuộc vào đặc thù của logic), nhà khai thác như
quantifiers, phương thức vận hành , v…v… rằng, cùng với một lý thuyết giải thích,
cung cấp ý nghĩa cho các câu trong logic này.
2.2.2.21. Business rule:
Quy tắc kinh doanh là một tuyên bố rằng định nghĩa hoặc ép một số khía cạnh
của doanh nghiệp. Nó được thiết kế để khẳng định cơ cấu kinh doanh hoặc để kiểm
soát hay ảnh hưởng đến hành vi của doanh nghiệp. các quy tắc kinh doanh cá thể mô tả
cùng một khía cạnh của doanh nghiệp thường được sắp xếp thành rulesets kinh doanh.
Kinh doanh các quy tắc mô tả các hoạt động, định nghĩa và hạn chế áp dụng cho một
tổ chức trong việc đạt được các mục tiêu của nó.
Ví dụ một quy tắc kinh doanh có thể nhà nước mà không có kiểm tra tín dụng là
để được thực hiện trên các khách hàng quay trở lại. Những người khác có thể xác định
một người thuê nhà về khả năng thanh toán hoặc danh sách ưa thích của các nhà cung
cấp và lịch trình cung cấp. Những quy định này sau đó được sử dụng để giúp các tổ
chức để đạt được mục tiêu tốt hơn, giao tiếp giữa các hiệu trưởng và các đại lý, giao
tiếp giữa tổ chức và các bên thứ ba quan tâm, thể hiện thực hiện nghĩa vụ pháp lý, hoạt
động hiệu quả hơn, hoạt động tự động hoá, thực hiện phân tích về thực tiễn hiện tại.
2.2.2.22. Knowledge Discovery Metamodel:
Kiến thức Discovery Metamodel (KDM) là công bố công khai đặc điểm kỹ
thuật từ đối tượng quản lý Group (OMG). KDM là một đại diện trung gian phổ biến
cho các hệ thống phần mềm hiện có và môi trường của họ điều hành, định nghĩa siêu
dữ liệu thông thường cần thiết cho việc hội nhập sâu ngữ nghĩa của ứng dụng các công

cụ quản lý vòng đời. KDM được thiết kế như là nền tảng của OMG hiện đại hoá phần
mềm, quản lý danh mục đầu tư CNTT và đảm bảo phần mềm. KDM OMG sử dụng
của Meta-Object Cơ sở để xác định một định dạng trao đổi XMI giữa các công cụ mà
làm việc với phần mềm hiện tại cũng như một giao diện trừu tượng (API) cho việc bảo
đảm thế hệ tiếp theo và các công cụ hiện đại hóa. KDM standardizes hiện phương
pháp tiếp cận để khám phá kiến thức trong các đồ tạo tác công nghệ phần mềm, cũng
gọi là khai thác phần mềm.
2.2.2.23. Business Process Modeling Notation:
Các quá trình kinh doanh mô hình hóa Ký hiệu (BPMN) là một tiêu chuẩn cho
mô hình hóa quá trình kinh doanh, và cung cấp một ký hiệu đồ họa cho các quy định
cụ thể quy trình kinh doanh trong một quá trình kinh doanh Sơ đồ (BPD), [3] dựa trên
Trang 20
Tiểu luận môn học: Công nghệ tri thức
một kỹ thuật flowcharting rất giống với sơ đồ hoạt động từ Unified Modeling
Language (UML). [4] Mục tiêu của BPMN là hỗ trợ quản lý quá trình kinh doanh cho
cả người dùng kỹ thuật và người dùng doanh nghiệp bằng cách cung cấp một ký hiệu
đó là trực quan để người dùng doanh nghiệp chưa có khả năng đại diện ngữ nghĩa quá
trình phức tạp. Các đặc tả BPMN cũng cung cấp một ánh xạ giữa các đồ họa của ký
hiệu để các bên trong cấu trúc của ngôn ngữ thực hiện, đặc biệt là quá trình kinh doanh
Thi Ngôn ngữ.
2.2.3. Dữ liệu đầu ra:
2.2.3.1. Data model:
Một mô hình dữ liệu trong công nghệ phần mềm là một mô hình trừu tượng mà
mô tả cách dữ liệu được đại diện và truy cập. Các mô hình dữ liệu chính thức xác định
yếu tố dữ liệu và các mối quan hệ giữa các yếu tố dữ liệu cho một lĩnh vực quan tâm.
Theo Hoberman (2009), "Một mô hình dữ liệu là một công cụ wayfinding cho cả
doanh nghiệp và các chuyên gia CNTT, trong đó sử dụng một tập hợp các biểu tượng
và văn bản giải thích chính xác một tập hợp các thông tin thực tế để cải thiện giao tiếp
trong tổ chức và do đó dẫn đến một nhiều hơn ứng dụng linh hoạt và ổn định môi
trường. " [2]

Một mô hình dữ liệu rõ ràng xác định cấu trúc của dữ liệu hoặc dữ liệu có cấu
trúc. ứng dụng tiêu biểu của các mô hình dữ liệu bao gồm các mô hình cơ sở dữ liệu,
thiết kế hệ thống thông tin, và cho phép trao đổi dữ liệu. Thông thường, các mô hình
dữ liệu được quy định bằng một ngôn ngữ mô hình hóa dữ liệu.
2.2.3.2. Meta data:
Metadata là lỏng lẻo định nghĩa, là dữ liệu về dữ liệu. Mặc dù định nghĩa này là
dễ nhớ, nó không phải là rất chính xác. Sức mạnh của định nghĩa này là trong nhận
thức rằng siêu dữ liệu là dữ liệu. Như vậy, siêu dữ liệu có thể được lưu trữ và quản lý
trong cơ sở dữ liệu, thường được gọi là một đăng ký hoặc kho. Tuy nhiên, nó không
xác định siêu dữ liệu chỉ bằng cách nhìn vào nó. Chúng tôi không biết khi nào dữ liệu
là siêu dữ liệu, hoặc chỉ dữ liệu [1] Metadata là một khái niệm áp dụng chủ yếu để lưu
trữ dữ liệu điện tử và được sử dụng để mô tả.
* Định nghĩa
* Cấu trúc
* Hành chính
của các tập tin dữ liệu với tất cả các nội dung trong ngữ cảnh để dễ dàng sử dụng các
dữ liệu bị bắt và lưu trữ để sử dụng thêm. Các trang Web thường bao gồm siêu dữ liệu
Trang 21
Tiểu luận môn học: Công nghệ tri thức
ở dạng các thẻ meta. Mô tả và thẻ meta từ khóa thường được sử dụng để mô tả nội
dung các trang Web của. Hầu hết các công cụ tìm kiếm sử dụng dữ liệu này khi thêm
vào trang vào chỉ mục tìm kiếm của họ.
2.2.3.3. Ontology:
Bản thể học là nghiên cứu triết học về bản chất của người, sự tồn tại hoặc thực
tế nói chung, cũng như các loại cơ bản được và quan hệ của họ. Theo truyền thống liệt
kê như là một phần của chi nhánh lớn của triết học được gọi là siêu hình học, những
giao dịch với các câu hỏi liên quan đến Bản thể học những gì thực thể tồn tại hoặc có
thể nói để tồn tại, và làm thế nào các thực thể như vậy có thể được nhóm lại, liên quan
trong hệ thống cấp bậc một, và chia theo tương đồng và khác biệt .
2.2.3.4. Knowledge representation and reasoning:

Kiến thức đại diện và lý luận là một khu vực trong trí tuệ nhân tạo đó là quan
tâm đến làm thế nào để chính thức "suy nghĩ", có nghĩa là, làm thế nào để sử dụng một
hệ thống biểu tượng đại diện cho "một miền của discourse" - đó có thể nói chuyện về,
cùng với các chức năng mà có thể hoặc không thể được trong miền của discourse cho
phép suy luận (lý luận chính thức) về các đối tượng trong các miền của discourse xảy
ra. Nói chung, một số loại logic được sử dụng cả hai để cung cấp một ngữ nghĩa chính
thức của chức năng lý luận làm thế nào áp dụng cho các biểu tượng trong lĩnh vực
giảng, cũng như cung cấp (tùy thuộc vào đặc thù của logic), nhà khai thác như
quantifiers, phương thức vận hành , vv rằng, cùng với một lý thuyết giải thích, cung
cấp ý nghĩa cho các câu trong logic này.
2.2.3.5. Knowledge tags:
Một thẻ kiến thức là một loại thông tin meta mô tả hoặc định nghĩa một số khía
cạnh của một tài nguyên thông tin (như một tài liệu, hình ảnh kỹ thuật số, bảng quan
hệ, hoặc trang web). Kiến thức thẻ nhiều hơn từ khóa truyền thống không phân cấp
hoặc các điều khoản. Họ là một loại siêu dữ liệu mà bắt kiến thức trong các hình thức
mô tả, Phân Loại, phân loại, ngữ nghĩa, ý kiến, ghi chú, chú thích, hyperdata, liên kết,
hoặc tham khảo đó được thu thập trong các cấu hình thẻ. Những từ khóa hồ sơ tham
khảo một tài nguyên thông tin mà cư trú trong phân phối và kho lưu trữ thường không
đồng nhất. Kiến thức quản lý thẻ là một kiến thức kỷ luật đó thúc đẩy doanh nghiệp.
Phương pháp luận cho người dùng nắm bắt kiến thức, chuyên môn, thuộc tính, phụ
Trang 22
Tiểu luận môn học: Công nghệ tri thức
thuộc, hoặc các mối quan hệ liên kết với một nguồn dữ liệu. Nó thường cho phép sự
linh hoạt lớn hơn các hệ thống phân loại kiến thức khác quản lý.
2.2.3.6. Business rule:
Quy tắc kinh doanh là một tuyên bố rằng định nghĩa hoặc ép một số khía cạnh
của doanh nghiệp. Nó được thiết kế để khẳng định cơ cấu kinh doanh hoặc để kiểm
soát hay ảnh hưởng đến hành vi của doanh nghiệp. các quy tắc kinh doanh cá thể mô tả
cùng một khía cạnh của doanh nghiệp thường được sắp xếp thành luật kinh doanh.
Kinh doanh các quy tắc mô tả các hoạt động, định nghĩa và hạn chế áp dụng cho một

tổ chức trong việc đạt được các mục tiêu của nó.
Ví dụ một quy tắc kinh doanh có thể nhà nước mà không có kiểm tra tín dụng là
để được thực hiện trên các khách hàng quay trở lại. Những người khác có thể xác định
một người thuê nhà về khả năng thanh toán hoặc danh sách ưa thích của các nhà cung
cấp và lịch trình cung cấp. Những quy định này sau đó được sử dụng để giúp các tổ
chức để đạt được mục tiêu tốt hơn, giao tiếp giữa các hiệu trưởng và các đại lý, giao
tiếp giữa tổ chức và các bên thứ ba quan tâm, thể hiện thực hiện nghĩa vụ pháp lý, hoạt
động hiệu quả hơn, hoạt động tự động hoá, thực hiện phân tích về thực tiễn hiện tại
2.2.3.7. Knowledge Discovery Metamodel (KDM):
Kiến thức Discovery Metamodel (KDM) là công bố công khai đặc điểm kỹ
thuật từ đối tượng quản lý Group (OMG). KDM là một đại diện trung gian phổ biến
cho các hệ thống phần mềm hiện có và môi trường của họ điều hành, định nghĩa siêu
dữ liệu thông thường cần thiết cho việc hội nhập sâu ngữ nghĩa của ứng dụng các công
cụ quản lý vòng đời. KDM được thiết kế như là nền tảng của OMG hiện đại hoá phần
mềm, quản lý danh mục đầu tư CNTT và đảm bảo phần mềm. KDM OMG sử dụng
của Meta-Object Cơ sở để xác định một định dạng trao đổi XMI giữa các công cụ mà
làm việc với phần mềm hiện tại cũng như một giao diện trừu tượng (API) cho việc bảo
đảm thế hệ tiếp theo và các công cụ hiện đại hóa. KDM standardizes hiện phương
pháp tiếp cận để khám phá kiến thức trong các đồ tạo tác công nghệ phần mềm, cũng
gọi là khai thác phần mềm.
Trang 23
Tiểu luận môn học: Công nghệ tri thức
2.2.3.8. Business Process Modeling Notation (BPMN):
Quy trình Kinh doanh Mô Hình Ký hiệu (BPMN) là một đại diện đồ họa cho
các quy định cụ thể quy trình kinh doanh trong công việc một.
BPMN được phát triển bởi Business Process Management Initiative (BPMI), và
hiện đang duy trì bởi Object Management Group kể từ khi hai tổ chức sáp nhập vào
năm 2005. Theo Tháng 1 năm 2009, phiên bản hiện hành của BPMN là 1.2, với một
quá trình sửa đổi lớn cho BPMN 2,0 trong tiến trình.
2.2.3.9. Intermediate representation:

n máy tính, một đại diện trung gian (IR) là một cấu trúc dữ liệu được xây dựng
từ dữ liệu đầu vào một chương trình, và từ đó một phần hoặc tất cả các dữ liệu đầu ra
của chương trình là xây dựng lần lượt.
Sử dụng thuật ngữ này thường ngụ ý rằng hầu hết các trình bày thông tin đầu
vào được giữ lại bởi các đại diện trung gian, với chú thích thêm hoặc các tính năng tra
cứu nhanh chóng.
Trang 24
Tiểu luận môn học: Công nghệ tri thức
Một ví dụ điển được tìm thấy trong các trình biên dịch hiện đại nhất, nơi mà
con người có thể đọc được văn bản tuyến tính đại diện cho một chương trình là chuyển
đổi thành một cấu trúc trung gian cho phép dữ liệu đồ thị phân tích dòng chảy và tái
sắp xếp trước khi bắt đầu để tạo ra danh sách các hướng dẫn thực tế CPU sẽ làm làm
việc.
2.2.3.10. Resource Description Framework (RDF):
Các mô tả Resource Framework (RDF) là một họ của World Wide Web
Consortium (W3C) thông số kỹ thuật ban đầu được thiết kế như là một mô hình dữ
liệu siêu dữ liệu. Nó đã đến để được sử dụng như một phương pháp chung cho mô tả
khái niệm hoặc mô hình của thông tin đó được thực hiện trong các nguồn tài nguyên
web, sử dụng một loạt các định dạng cú pháp.
2.2.3.11. Software metrics:
Một phần mềm metric là một thước đo của một số tài sản của một phần mềm
hoặc các chi tiết kỹ thuật của nó. Kể từ khi các phương pháp định lượng đã chứng
minh mạnh mẽ như vậy trong khoa học khác, máy tính thực hành và lý thuyết khoa
học đã làm việc hết sức để mang các cách tiếp cận tương tự như phát triển phần mềm.
Tom DeMarco nói, "Bạn không thể kiểm soát những gì bạn không thể đo lường" Hiện
đại học viên phát triển phần mềm. Có khả năng chỉ ra rằng các phép đo ngây thơ và
đơn giản có thể gây hại nhiều hơn lợi.
Trang 25

Tiểu luận môn học công nghệ tri thức Knowledge Discovery

Tài liệu liên quan

Tài liệu bạn tìm kiếm đã sẵn sàng tải về