Tải bản đầy đủ (.docx) (14 trang)

Tiểu luận môn khai phá dữ liệu Tổng quan về môn Khai phá dữ liệu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (171.66 KB, 14 trang )

PHÂN TÍCH DỮ LIỆU
MỤC LỤC
Đại học Công nghệ thông tin TP. Hồ Chí Minh 1
PHÂN TÍCH DỮ LIỆU
LỜI CẢM ƠN
Trước tiên, em muốn gửi lời cảm ơn sâu sắc
nhất đến Thầy Đỗ Phúc là người đã tận tình giảng
dạy, chỉ bảo, định hướng cho em trong suốt môn
học và cả trong những môn học trước.
Em xin bày tỏ lời cảm ơn sâu sắc đến những
thầy cô giáo đã giảng dạy em trong thời gian qua,
những kiến thức mà em nhận được trên giảng
đường vẫn luôn luôn giúp đỡ em trong học tập và
cuộc sống dù ít hay nhiều.
Em cũng muốn gửi lời cảm ơn đến các bạn
nhóm phát triển phần mềm weka của đại học
Waikato vì đã giúp đỡ, hướng dẫn và cho phép tôi
sử dụng các tài liệu, thông tin, phần mềm của các
bạn vào bài thu hoạch.
Cuối cùng, em muốn gửi lời cảm ơn sâu sắc
đến tất cả bạn bè, và đặc biệt là các bạn trong lớp
Cao học Công nghệ thông tin K6 vì đã giúp đỡ, gợi
ý cho tôi trong suốt quá trình học tập và nghiên cứu
từ trước tới nay.
Chân thành cảm ơn.
Đại học Công nghệ thông tin TP. Hồ Chí Minh 2
PHÂN TÍCH DỮ LIỆU
PHẦN I - Tổng quan về môn Khai phá dữ liệu
1 Khai phá dữ liệu là gì
Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ không
ngừng tăng lên. Để dễ hình dung, ta có thể nhìn lại khoảng 10 năm trước, dữ liệu


được lưu trữ trên các ổ cứng vài trăm MB, trao đổi dữ liệu được thực hiện thông
qua các đĩa mềm có dung lượng1,44MB hoặc các đĩa CD có dung lượng
700MB Thì đến nay các thiết bị lưu trữ di động đã chuyển thành những chiếc
USB có dung lượng vài GB hoặc lớn hơn là những thiết bị ổ cứng di động có
dung lượng hàng TB, các thiết bị lưu trữ cố định trở thành những hệ thống lưu
trữ SAN System có dung lượng lên đến vài chục thậm chí vài trăm TB. So sánh
với thời điểm hiện nay thì dung lượng dữ liệu lưu trữ của thế giới nói chung và
của nước ta nói riêng đã tăng lên đến hàng trăm, thậm chí hàng ngàn lần đủ để
thấy được lượng dữ liệu con người có được lớn và phát triển nhanh đến mức
nào. Hiện nay gần như tất cả mọi thứ đều có thể tìm thấy trên mạng, tất cả các
tài liệu, giấy tờ, thông tin, hình ảnh đều được đưa vào số hóa lưu trữ. Sự phát
triển này thường được đánh giá là xảy ra với một tốc độ bùng nổ. Trong một vài
tài liệu, bài báo các chuyên gia đã dự đoán, cảnh bảo rằng lượng thông tin trên
toàn cầu sẽ tăng gấp đôi trong 2 nưam. Tuy nhiên khi xem xét lại tình trạng hiện
nay thì ta thấy rằng nhận xét trên là chưa đúng, đủ với thực tế. Trong 10 năm,
dung lượng cần thiết để lưu trữ dữ liệu đã tăng lên 1000 lần trong khi với sự
phát triển của các giao thức file, các chuẩn nén thì dung lượng của các thông
tin ngày càng nhỏ lại. Mức phát triển của dữ liệu trên thế giới hiện nay khó có
thể dùng từ nào để diễn tả được, chỉ có thể nói chúng ta đang có một lượng dữ
liệu không thể nào đo đếm được và nó vẫn phát triển không ngừng với mỗi giây
trôi qua.
Tuy nhiên, theo cách nói của chính trị, dữ liệu của chúng ta vừa thừa, lại
vừa thiếu. Thừa dữ liệu thô, rác, chưa qua chọn lọc; thiếu dữ liệu tinh, cần thiết
phục vụ cho các nhu cầu của con người và xã hội.
“Necessity is the mother of invention” - Trước tình hình đó, ngành khai
phá dữ liệu đã ra đời theo nhu cầu thực tế của xã hội như một quy luật tất yếu.
Khai phá dữ liệu (datamining) được định nghĩa như là một quá trình chắt
lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng
là là việc khai thác vàng từ đá và cát, Datamining được ví như công việc "Đãi
cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước. Thuật ngữ

Datamining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn
các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với
từ Datamining như Knowledge Mining (khai phá tri thức), knowledge extraction
(chắt lọc tri thức), data/patern analysis(phân tích dữ liệu/mẫu), data
archaeoloogy (khảo cổ dữ liệu), datadredging(nạo vét dữ liệu)
Nói theo cách đơn giản, ta có thể hiểu khai phá dữ liệu là thao tác lấy ra
những dữ liệu cần thiết trong bộ dữ liệu thô ban đầu.
Đại học Công nghệ thông tin TP. Hồ Chí Minh 3
PHÂN TÍCH DỮ LIỆU
2 Các bước tiến hành khai phá dữ liệu
Khai phá dữ liệu thực chất là một bước của quá trình khai thác tri thức
(Knowledge Discovery Process), bao gồm:
- Xác định vấn đề và không gian dữ liệu để giải quyết vấn đề (Problem
understanding and data understanding).
- Chuẩn bị dữ liệu (Data preparation), bao gồm các quá trình làm sạch dữ
liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data
selection), biến đổi dữ liệu (data transformation).
- Khai thác dữ liệu (Data mining): xác định nhiệm vụ khai thác dữ liệu và
lựa chọn kỹ thuật khai thác dữ liệu. Kết quả cho ta một nguồn tri thức cần thiết.
- Đánh giá (Evaluation): dựa trên một số tiêu chí tiến hành kiểm tra và lọc
nguồn tri thức thu được.
- Triển khai (Deployment): sử dụng các tri thức, dữ liệu thu được vào các
mục đích riêng theo yêu cầu.
Quá trình khai thác tri thức không chỉ là một quá trình tuần tự từ bước đầu
tiên đến bước cuối cùng mà là một quá trình lặp và có quay trở lại các bước đã
qua.
3 Các phương pháp khai phá dữ liệu
Có nhiều phương pháp để tiến hành khai phá dữ liệu, mỗi phương pháp có
những ưu khuyết điểm và mục đích sử dụng khác nhau phục vụ cho những nhu
cầu khác nhau của con người. Có thể kể đến các phương pháp khai phá dữ liệu

sau:
- Phân lớp (Classification): một trong những vấn đề chính của khai phá dữ
liệu là bài toán phân lớp. Phân lớp nghĩa là nhận vào một dữ liệu đầu vào và
phân đối tượng vào những lớp khác nhau, có hai ứng dụng tiêu biểu cho bài toán
này:
+ Bài toán phân lớp tự động: phân một hay nhiều dữ liệu đầu vào vào
những lớp khác nhau theo đúng yêu cầu, ví dụ hỗ trợ phân các học viên có điểm
số, nơi cư trú, quá trình học tập khác nhau vào những lớp khác nhau phù hợp
với từng người.
+ Bài toán tìm ra các thông số ảnh hưởng đến kết quả: tìm ra những trường
dữ liệu ảnh hưởng đến quá trình phân lớp để cải tiến dữ liệu đầu vào nhằm đạt
được những mục tiêu nhất định. Ví dụ tìm ra những thông tin liên quan đến
doanh thu trong hoạt động bán hàng của siêu thị, sẽ có nhiều tiêu chuẩn có liên
quan như giá cả, vệ sinh siêu thị, thái độ của nhân viên nhưng qua phân lớp sẽ
biết được những mục nào quan trọng hơn, cần ưu tiên lên hàng đầu nhằm đạt
được doanh thu cao hơn với chi phí bỏ ra trong mức cho phép.
Hồi qui (Regression): Hồi qui là kỹ thuật thống kê trong lĩnh vực phân tích
dữ liệu và xây dựng các mô hình từ thực nghiệm, cho phép mô hình hồi qui vừa
Đại học Công nghệ thông tin TP. Hồ Chí Minh 4
PHÂN TÍCH DỮ LIỆU
được khám phá được dùng cho mục đích dự báo (prediction), điều khiển
(control), hay học (learn) cơ chế đã tạo ra dữ liệu
Gom cụm (Clustering): bài toán gom cụm hiểu theo cách đơn giản là đưa
những phần tử có một số tính chất chung về chung một nhóm nhằm phục vụ cho
mục đích khác nhau. Gom cụm dữ liệu làm cho các dữ liệu trong cùng một cụm
thì có tính chất tương tự nhau, các dữ liệu khác cụm thì có tính chất khác nhau
với tính chất gom cụm do người dùng định nghĩa theo yêu cầu thực tế. Gom cụm
thường được ứng dụng trong các bài toán nhận dạng, làm sạch dữ liệu
Mô tả khái niệm (Concept Description) hay còn gọi là tổng hợp
(Summarization): thiên về mô tả, tổng hợp và tóm tắt khái niệm, đưa ra các

thông tin chung về dữ liệu đầu vào, đây là một mảng riêng thường được dùng
trong lĩnh vực tóm tắt văn bản, thông tin trên web
Luật kết hợp (association rules): là phương pháp tìm ra những dữ liệu
thường xuyên xuất hiện cùng nhau nhằm tìm ra những mối liên kết của dữ liệu,
phục vụ cho nhu cầu hoạch định tương lai. Luật kết hợp được ứng dụng nhiều
trong lĩnh vực kinh doanh, y học, tin-sinh học, tài chính & thị trường chứng
khoán
Ngoài ra còn một vài phương pháp khai phá dữ liệu phát sinh thêm như
phương pháp khai phá chuỗi, phương pháp khai phá đồ thị nhưng đây là những
phương pháp khai phá dữ liệu có dạng đặc trưng nên sẽ không đề cập đến trong
bài thu hoạch này.
4 Thuật toán phân lớp dữ liệu
Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết
định tới sự thành công của mô hình phân lớp. Do vậy chìa khóa của vấn đề phân
lớp dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, có độ chính
xác cao và có khả năng mở rộng được. Trong đó khả năng mở rộng được của
thuật toán được đặc biệt chú trọng và phát triển.
Có thể liệt kê một số kỹ thuật phân lớp tiêu biểu:
- Bộ phân lớp Bayesian (Bayesian classifier)
- Mô hình phân lớp K-hàng xóm gần nhất (K-nearest neighbor classifier)
- Mạng nơron
- Phân tích thống kê
- Các thuật toán di truyền
- Phương pháp tập thô (Rough set Approach)
5 Thuật toán phân lớp dựa trên cây quyết định
Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhà
khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng nơron, mô hình
thông kê tuyến tính /bậc 2, cây quyết định, mô hình di truyền. Trong số những
Đại học Công nghệ thông tin TP. Hồ Chí Minh 5
PHÂN TÍCH DỮ LIỆU

mô hình đó, cây quyết định với những ưu điểm của mình được đánh giá là một
công cụ mạnh, phổ biến và đặc biệt thích hợp cho data mining nói chung và
phân lớp dữ liệu nói riêng. Có thể kể ra những ưu điểm của cây quyết định như:
xây dựng tương đối nhanh, đơn giản, dễ hiểu. Hơn nữa các cây có thể dễ dàng
được chuyển đổi sang các câu lệnh SQL để có thể được sử dụng để truy nhập cơ
sở dữ liệu một cách hiệu quả. Cuối cùng, việc phân lớp dựa trên cây quyết định
đạt được sự tương tự và đôi khi là chính xác hơn so với các phương pháp phân
lớp khác.
Cây quyết định là biểu đồ phát triển có cấu trúc dạng cây, như mô tả trong
hình vẽ sau:
Trong cây quyết định:
• Gốc: là node trên cùng của cây
• Node trong: biểu diễn một kiểm tra trên một thuộc tính đơn (hình chữ
nhật)
• Nhánh: biểu diễn các kết quả của kiểm tra trên node trong (mũi tên)
• Node lá: biểu diễn lớp hay sự phân phối lớp (hình tròn)
Để phân lớp mẫu dữ liệu chưa biết, giá trị các thuộc tính của mẫu được đưa
vào kiểm tra trên cây quyết định. Mỗi mẫu tương ứng có một đường đi từ gốc
đến lá và lá biểu diễn dự đoán giá trị phân lớp mẫu đó.
Đại học Công nghệ thông tin TP. Hồ Chí Minh 6
PHÂN TÍCH DỮ LIỆU
Đại học Công nghệ thông tin TP. Hồ Chí Minh 7
PHÂN TÍCH DỮ LIỆU
PHẦN II - BỘ DỮ LIỆU THỬ NGHIỆM, THUẬT
TOÁN VÀ PHẦN MỀM ỨNG DỤNG PHÂN TÍCH
1 Bộ dữ liệu phân tích
Bộ dữ liệu phân tích được cung cấp miễn phí bởi trang website
explore.data.gov - là website của chính phủ Mỹ nhằm phục vụ cho các công tác
học tập, nghiên cứu và được đảm bảo tính chính xác, xác thực bởi nhà cung cấp.
Bộ dữ liệu là thông tin của hơn 7000 trường đại học trên khắp thế giới mà

đơn vị tạo lập dữ liệu có thể thu thập được của năm 2010 chứa thông tin về
nhiều mặt khác nhau của trường như thông tin tuyển sinh, cơ sở vật chất
Bộ dữ liệu gồm 172 cột và trên 7000 dòng, các trường thông tin có hơn
phân nửa là các mã tham chiếu do công tác điều tra thông qua các hỏi câu trắc
nghiệm rất phù hợp với công tác phân tích nhưng tính chính xác, linh động, đa
dạng không cao. Tuy nhiên cũng sẽ đáp ứng được phần nào yêu cầu của bài thu
hoạch.
2 Thuật toán phân lớp C4.5
Thuật toán sẽ được dùng để phân tích dữ liệu trong bài thu hoạch là thuật
toán C4.5. Đây là sự kế thừa của của thuật toán học máy bằng cây quyết định
dựa trên nền tảng là kết quả nghiên cứu của HUNT và các cộng sự của ông trong
nửa cuối thập kỷ 50 và nửa đầu những năm 60 (Hunt 1962). Phiên bản đầu tiên
ra đời là ID3 (Quinlan, 1979)- 1 hệ thống đơn giản ban đầu chứa khoảng 600
dòng lệnh Pascal, và tiếp theo là C4 (Quinlan 1987). Năm 1993, J. Ross Quinlan
đã kế thừa các kết quả đó phát triển thành C4.5 với 9000 dòng lệnh C chứa trong
một đĩa mềm. Mặc dù đã có phiên bản phát triển từ C4.5 là C5.0 - một hệ thống
tạo ra lợi nhuận từ Rule Quest Research, nhưng nhiều tranh luận, nghiên cứu
vẫn tập trung vào C4.5 vì mã nguồn của nó là sẵn dùng.
Với những đặc điểm C4.5 là thuật toán phân lớp dữ liệu dựa trên cây quyết
định hiệu quả và phổ biến trong những ứng dụng khai phá cơ sở dữ liệu có kích
thước nhỏ. C4.5 sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chính
đặc điểm này làm C4.5 chỉ thích hợp với những cơ sở dữ liệu nhỏ, và cơ chế sắp
xếp lại dữ liệu tại mỗi node trong quá trình phát triển cây quyết định. C4.5 còn
chứa một kỹ thuật cho phép biểu diễn lại cây quyết định dưới dạng một danh
sách sắp thứ tự các luật if-then (một dạng quy tắc phân lớp dễ hiểu). Kỹ thuật
này cho phép làm giảm bớt kích thước tập luật và đơn giản hóa các luật mà độ
chính xác so với nhánh tương ứng cây quyết định là tương đương.
3 Phần mềm weka
Weka là phần mềm được phát triển bởi đại học Waikato (New Zealand).
Phần mềm hỗ trợ cho thao tác máy học (machine learning) và khai phá dữ liệu.

Phần mềm đặc biệt tập trung vào lĩnh vực phân lớp dữ liệu - lĩnh vực tiếp cận
của đa số các thuật toán máy học. Ngoài ra, các thuật toán gom cụm, tìm luật kết
hợp cũng được cài đặt và hỗ trợ trong phần mềm.
Đại học Công nghệ thông tin TP. Hồ Chí Minh 8
PHÂN TÍCH DỮ LIỆU
Phần mềm weka có thể không phải là phần mềm tốt nhất trong lĩnh vực
khai phá dữ liệu, tuy nhiên phần mềm cũng có những ưu thế vượt trội so với
những phần mềm khác:
- Phần mềm mã nguồn mở -> miễn phí, dễ nghiên cứu, ứng dụng
- Được viết theo quy tắc hướng đối tượng -> dễ hiểu
- Hỗ trợ nhiều thuật toán khác nhau -> dễ tìm hiểu, so sánh
- Hỗ trợ "vẽ" các mô hình, biểu đồ rất trực quan như vẽ cây quyết định, sơ
đồ phân bố giúp có một cái nhìn tổng quan hơn về dữ liệu đang phân tích.
Do có những tính chất trên, phần mềm thường xuyên được sử dụng trong
các bài nghiên cứu, tìm hiểu, ứng dụng khai phá dữ liệu và cả trong một số phần
mềm thương mại nhỏ.
Bài thu hoạch này sử dụng phần mềm weka phiên bản 3.6.8 để tiến hành
phân tích dữ liệu. Phiên bản này chưa phải là mới nhất nhưng là phiên bản đã
được kiểm lỗi hoàn chỉnh nhất của phần mềm.
Đại học Công nghệ thông tin TP. Hồ Chí Minh 9
PHÂN TÍCH DỮ LIỆU
PHẦN III - PHÂN TÍCH DỮ LIỆU
Quá trình phân tích dữ liệu cũng trải qua nhiều bước khác nhau, nhưng tóm
lại vẫn nhằm mục đích tìm ra những yếu tố ảnh hưởng đến chất lượng của
trường. Ở đây chất lượng của trường ta dùng tỉ lệ giữa số học viên đăng ký và số
học viên tuyển vào (ở nước ta thường gọi là tỷ lệ chọi), nếu tỷ lệ này lớn hơn
hoặc bằng 2 thì ta xếp trường đó vào nhóm trường tốt (good), nếu tỷ lệ này thấp
hơn 2 thì ta xếp trường vào nhóm kém (bad).
Tuy nhiên bước sắp xếp này chỉ thực hiện khi đã vào những bước sau, ở
các bước đầu ta chỉ cần biết mục tiêu để tránh bị lạc hướng khi phân tích.

1 Làm sạch dữ liệu
Dữ liệu đầu tiên khi nhận được là các trường thông tin bao gồm các mã
tham chiếu, dựa vào các bảng tham chiếu ta tiến hành điền thông tin vào để có
thể thực hiện phân tích (kết quả ta được file v3).
Dữ liệu thu được có quá nhiều trường thông tin bị thừa, do đó ta sẽ tiến
hành làm sạch dữ liệu để quá trình phân tích được tốt hơn, tránh bị loãng dữ
liệu. Dữ liệu được làm sạch thông qua 2 bước.
1.1 Làm sạch theo chiều dọc
Như đã trình bài ở mục II, dữ liệu bao gồm 172 cột chứa rất nhiều thông tin
của trường học. Trong số đó có nhiều thông tin dư thừa, không cần thiết cho
mục đích phân tích như ID, số lượng giáo viên nam, số giáo viên có tôn giáo
khác, các chính sách về tôn giáo, các đội nhóm thể thao trong trường Để tránh
bị loãng dữ liệu ta sẽ bỏ các trường thông tin trên ra khỏi bộ dữ liệu giảm lượng
dữ liệu từ 172 cột xuống còn 49 cột.
1.2 Làm sạch theo chiều ngang
Những trường dữ liệu có thông tin quan trọng nếu thiếu có thể được bỏ
qua, tuy nhiên những trường thông tin cần thiết để thực hiện phân tích như
trường số lượng tưởng sinh, số lượng đăng ký nhập học nếu bị thiếu thì không
thể sử dụng hàng thông tin đó được. Sau khi loại bỏ thì dữ liệu bị hao hụt rất
nhiều (từ 7367 dòng còn 2326 dòng) (kết quả ta được file v4).
2 Chuẩn bị dữ liệu
Dữ liệu đầu vào chỉ cung cấp các trường thông tin như số nam tuyển vào,
số nữ tuyến vào, số nam dự tuyển, số nữ dự tuyển để phù hợp hơn với quá
trình phân tích ta xây dựng thêm cột tỷ lệ nhận vào được tính từ các cột trên.
Đồng thời lấy cột kết quả là tốt hay kém dựa vào cột tỷ lệ nhận vào như đã đề
cập ở trên (kết quả được file v7).
3 Khai thác dữ liệu
Đưa dữ liệu vào phần mềm và tiến hành phân lớp theo thuật toán C4.5 (J48
trong weka) ta được kết quả cần phân tích:
Đại học Công nghệ thông tin TP. Hồ Chí Minh 10

PHÂN TÍCH DỮ LIỆU
Cây quyết định đưa ra có số nhánh khá nhỏ nên có thể vẽ lại như sau (do
chức năng vẽ cây quyết định của phần mềm chưa thể vẽ được các cây có số nút
trên 10):
Cây quyết định của dữ liệu sau khi đã phân tích
Cây quyết định sinh ra có độ lớn 23 nút với 12 nút lá, độ chính xác
80.1517%. Có một số mục sau đây gây ảnh hưởng nhiều đến kết quả phân loại
các trường, kết quả có nhiều mục tưởng chừng không ảnh hưởng nhưng vẫn có
mối liên kết nhất định với kết quả phân lớp:
TUITPL3: hỗ trợ trả học phí theo hình thức trả góp, các trường có hình
thức này lại có đặc điểm chung là bị đánh giá khá thấp, điều này có lẽ do các
trường áp dụng hình thức này thì đa số là những trường có mức học phí khá cao
không phù hợp với nhu cầu.
Đại học Công nghệ thông tin TP. Hồ Chí Minh 11
PHÂN TÍCH DỮ LIỆU
ADMSSNW: số lượng nữ tuyển đầu vào, các trường có số lượng tuyển nữ
vào cao thường có xu hướng tốt hơn có lẽ do thực hiện quan niệm bình đẳng
giới hoặc nữ quyền tốt hơn nên thường được quan tâm nhiều hơn.
STUSRV8: dịch vụ chăm sóc con cái của học viên
Ngoài ra còn các mục khác cũng được ghi chú trong file dữ liệu đính kèm.
Đại học Công nghệ thông tin TP. Hồ Chí Minh 12
PHÂN TÍCH DỮ LIỆU
PHẦN IV - KẾT LUẬN
Ngành khai phá dữ liệu thực sự là một ngành mới ở nước ta hiện nay nhưng
nếu so với thế giới thì đó là một ngành đã được phát triển từ khá lâu và có nhiều
thành tựu vượt bật. Tuy nhiên trước sự phát triển như vũ bão của dữ liệu trên thế
giới, ngành khai phá dữ liệu vẫn phải liên tực phát triển để đáp ứng được nhu
cầu của thế giới về việc xử lý lượng dữ liệu ngày càng lớn hơn với tốc độ nhanh
hơn, với những dữ liệu có cấu trúc phức tạp hơn
Tuy nhiên trong thực trạng của nước ta hiện nay còn thua kém thế giới về

nhiều mặt như công nghệ, hạ tầng , tri thức (tài liệu) thì bước đầu tiên để phát
triển là cố gắng sử dụng các công nghệ sẵn có của thế giới và cố gắng tìm hiểu
về các công nghệ có sẵn, biến công nghệ tiếp thu được thật sự trở thành công
nghệ của mình sau đó mới có thể tiếp tục phát triển kịp với trình độ phát triển
của thế giới.
Dữ liệu được dùng để phân tích là dữ liệu miễn phí, tính xác thực có thể
không cao lắm, còn nhiều dữ liệu lỗi. Tuy nhiên nó cũng phần nào thể hiện được
nhu cầu chung của các sinh viên các trường tại Mỹ nói riêng và của thế giới nói
chung. Hi vọng bài thu hoạch này có thể được làm tài liệu tham khảo áp dụng
cho các vấn đề trong tương lai của nước ta.
Các thông tin trong bài có nhiều thông tin lấy từ các diễn đàn, website
nghiên cứu, học tập trên mạng nên có nhiều thông tin không thể tìm ra được
nguồn gốc, nếu có sai sót về bản quyền mong tác giả, thầy cô và các bạn hỗ trợ,
nhắc nhở để kịp thời sửa chữa.
Đại học Công nghệ thông tin TP. Hồ Chí Minh 13
PHÂN TÍCH DỮ LIỆU
PHẦN V - TÀI LIỆU THAM KHẢO
[1] wikimedia.org
[2] www.answers.com
[3] explore.data.gov
[4] www.waikato.ac.nz
Đại học Công nghệ thông tin TP. Hồ Chí Minh 14

×