使用MovieLens数据集
03 Dec 2012这节我们使用MovieLens的大数据集,一个涉及电影评价的真实数据集。
下载地址:http://www.grouplens.org/node/12
里边有很多文件,不过我们只需要u.item还有u.data。

格式为:用户ID,电影ID,评分,评价时间
我们便携一个函数来获取格式化的列表:
def loadMovieLens(path='/Users/Flowerowl/intelligence/lib/ml-100k'):
movies = {}
for line in open(path+'/u.item'):
(id, title) = line.split('|')[0:2]
movies[id] = title
prefs = {}
for line in open(path + '/u.data'):
(user, movieid, rating, ts) = line.split('\t')
prefs.setdefault(user,{})
prefs[user][movies[movieid]] = float(rating)
return prefs
转载请注明:于哲的博客 » 使用MovieLens数据集