使用MovieLens数据集
03 Dec 2012这节我们使用MovieLens的大数据集,一个涉及电影评价的真实数据集。
下载地址:http://www.grouplens.org/node/12
里边有很多文件,不过我们只需要u.item还有u.data。
格式为:用户ID,电影ID,评分,评价时间
我们便携一个函数来获取格式化的列表:
def loadMovieLens(path='/Users/Flowerowl/intelligence/lib/ml-100k'): movies = {} for line in open(path+'/u.item'): (id, title) = line.split('|')[0:2] movies[id] = title prefs = {} for line in open(path + '/u.data'): (user, movieid, rating, ts) = line.split('\t') prefs.setdefault(user,{}) prefs[user][movies[movieid]] = float(rating) return prefs
转载请注明:于哲的博客 » 使用MovieLens数据集