Tải bản đầy đủ (.pdf) (11 trang)

Hiểu dữ liệu kdd cup 2007 who rated what

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (389.87 KB, 11 trang )

BÁO CÁO MÔN HỌC

KHAI PHÁ DỮ LIỆU


NỘI DUNG KDD CUP 2007
I. HIỂU ĐỀ BÀI
1.Thách thức năm nay
2.Mô tả nhiệm vụ

II. HIỂU DỮ LIỆU
1.Tìm hiểu dữ liệu của Netflix Prize
2.Mô tả bộ dữ liệu
3.Đánh giá


I. HIỂU ĐỀ BÀI
1. Thách thức của năm nay
KDD Cup năm nay tập trung vào việc dự đoán các
khía cạnh của hành vi đánh giá phim. Có hai nhiệm vụ,
phát triển cùng với Netflix, đã được chọn để thu hút
người tham gia từ các học viện và ngành công nghiệp.
Người tham gia có thể chọn để cạnh tranh trong một
trong hai hoặc cả hai nhiệm vụ.


I. HIỂU ĐỀ BÀI
2. Mô tả nhiệm vụ
Cuộc thi năm nay bao gồm hai nhiệm vụ:
Task 1 (Who rated what in 2006): dự báo người dùng nào đánh giá
bộ phim nào trong năm 2006. Có 1 bộ 100000 cặp (user_id,


movie_id) trong đó users và movie được được lấy từ Netflix
Prize. Không cặp nào đã được đánh giá trong tập huấn luyện.
Nhiệm vụ task này là dự đoán xác suất mà mỗi cặp được đánh
giá vào năm 2006 (tức là, xác suất mà user_id đánh giá movie_id
vào năm 2006).
Task 2 (How many ratings in 2006): dự đoán các số xếp hạng thêm
user từ tập dữ liệu huấn luyện Netflix Prize cho một tập hợp con
của các movie trong tập dữ liệu huấn luyện. Có 8863 movie_ids
được rút ra từ tập dữ liệu huấn luyện Netflix Prize. Bạn cần phải
dự đoán các ratings tăng thêm mà tất cả users trong tập dữ liệu
huấn luyện Netflix Prize được cung cấp trong năm 2006 cho mỗi
tựa phim đó.


II. HIỂU DỮ LIỆU
1. Tìm hiểu dữ liệu của Netflix Prize
Netflix cung cấp một tập dữ liệu huấn luyện gồm
100.480.507 xếp hạng của 480.189 người dùng đánh giá 17.770
bộ phim. Mỗi rating huấn luyện là một bộ 4 thành phần dạng
<user, movie, date of grade, grade>. Các trường user
và movie là các IDs số nguyên, trường grade là 1-5 sao.
 Training set (99.072.112 ratings không bao gồm các tập thăm
dò, 100.480.507 bao gồm các tập thăm dò)
 Probe set (1.408.395 xếp hạng)
 Qualifying set (2.817.131 xếp hạng) gồm:
• Test set (1.408.789 xếp hạng), dùng để xác định người thắng
cuộc.
• Quiz set (1.408.342 xếp hạng), được sử dụng để tính điểm số
bảng xếp hạng



II. HIỂU DỮ LIỆU
2. Mô tả bộ dữ liệu
a. Training dataset file description (file “training_set.tar”)
File “training_set.tar” là một file tar chứa 17770 files, mỗi file
là 1 movie. Định dạng mỗi file như sau:
movieID:
CustomerID,Rating,Date


II. HIỂU DỮ LIỆU
2. Mô tả bộ dữ liệu

b.Movies file description (File “movies_titles.txt”)
Định dạng: MovieID,YearOfRelease,Title


II. HIỂU DỮ LIỆU
2. Mô tả bộ dữ liệu

c. Qualifying and prediction dataset file description

* File “qualifying.txt”
Định dạng:
MovieID1:
CustomerID11,Date11
CustomerID12,Date12
...
MovieID2:
CustomerID21,Date21

CustomerID22,Date22


II. HIỂU DỮ LIỆU
2. Mô tả bộ dữ liệu

c. Qualifying and prediction dataset file description

* Prediction file: định dạng file này phải dựa vào movie, customer
id và date của tập qualifying. Và, rating dự đoán phải tương ứng,
như sau:
Ví dụ, nếu tập dữ liệu
sát hạch giống như sau:
111:
3245,2005-12-19
5666,2005-12-23
6789,2005-03-14
225:
1234,2005-05-26
3456,2005-11-07

Thì một file dự đoán
giống như sau:
111:
3.0
3.0
4.0
225:
1.0
2.0



II. HIỂU DỮ LIỆU
2. Mô tả bộ dữ liệu
d. probe.txt
Định dạng:
MovieID1:
CustomerID11
CustomerID12
...
MovieID2:
CustomerID21
CustomerID22


II. HIỂU DỮ LIỆU
3. Đánh giá
Người trúng giải sẽ được xác định, cho cả hai nhiệm vụ, bằng
cách tính RMSE giữa dự đoán cá nhân của bạn và các câu trả lời
đúng. Đó là, nếu dự đoán của bạn cho một item là Y, câu trả lời chính
xác cho item đó là X và ta có n items, RMSE = sqrt ((sum (for
all items(X-Y)^2))/n). Đầu vào với RMSE nhỏ nhất sẽ được
đánh giá là người chiến thắng; trong trường hợp hòa, đầu vào với
ngày nộp sớm nhất sẽ được đánh giá là người chiến thắng.

Trong trường hợp của " Who rated what in 2006", câu trả lời
chính xác là 1 nếu movie được đánh giá cao bởi người dùng, 0 nếu
ngược lại.

Trong trường hợp của "How many ratings in 2006", câu trả lời

chính xác là số rating thực tế nhận được. Tuy nhiên, RMSE được tính
hơi khác so với task 1. Giả sử rằng số ratings thực tế nhận được là X,
để tính RMSE, chúng tôi sử dụng ln (1 + X), trong đó "ln" là logarit tự
nhiên. Điều này cũng áp dụng đối với số dự đoán của bạn. Đó là, giả
sử rằng con số dự đoán của bạn là Y, chúng tôi sử dụng ln (1 + Y).



×