吉吉于

free

使用MovieLens数据集

这节我们使用MovieLens的大数据集,一个涉及电影评价的真实数据集。

下载地址:http://www.grouplens.org/node/12

里边有很多文件,不过我们只需要u.item还有u.data。

Udata

格式为:用户ID,电影ID,评分,评价时间

我们便携一个函数来获取格式化的列表:

def loadMovieLens(path='/Users/Flowerowl/intelligence/lib/ml-100k'):
	movies = {}
	for line in open(path+'/u.item'):
		(id, title) = line.split('|')[0:2]
		movies[id] = title

	prefs = {}
	for line in open(path + '/u.data'):
		(user, movieid, rating, ts) = line.split('\t')
		prefs.setdefault(user,{})
		prefs[user][movies[movieid]] = float(rating)
	return prefs
	

转载请注明:于哲的博客 » 使用MovieLens数据集