如何将我的数据集以与“mnist.pkl.gz”中使用的确切格式和数据结构放入.pkl文件中?

11
我正在尝试使用Python中的Theano库进行一些深度信念网络实验。我使用此地址中的代码:DBN完整代码。此代码使用MNIST手写数据库,该文件已经是pickle格式。该文件已被解析为以下三个集合:
  • train_set
  • valid_set
  • test_set
进一步解包如下:
  • train_set_x, train_set_y = train_set
  • valid_set_x, valid_set_y = valid_set
  • test_set_x, test_set_y = test_set
请问是否可以提供构建此数据集的代码以便我创建自己的数据集?我使用的DBN示例需要数据按照此格式排列,但我不知道该如何操作。如果有任何想法,请告诉我。
以下是我的代码:
from datetime import datetime
import time
import os
from pprint import pprint
import numpy as np
import gzip, cPickle
import theano.tensor as T
from theano import function


os.system("cls")

filename = "completeData.txt"


f = open(filename,"r")
X = []
Y = []

for line in f:
        line = line.strip('\n')  
        b = line.split(';')
        b[0] = float(b[0])
        b[1] = float(b[1])
        b[2] = float(b[2])
        b[3] = float(b[3])
        b[4] = float(b[4])
        b[5] = float(b[5])
        b[6] = float(b[6])
        b[7] = float(b[7])
        b[8] = float(b[8])
        b[9] = float(b[9])
        b[10] = float(b[10])
        b[11] = float(b[11])
        b[12] = float(b[12])
        b[13] = float(b[13])
        b[14] = float(b[14])
        b[15] = float(b[15])
        b[17] = int(b[17])
        X.append(b[:16])
        Y.append(b[17])

Len = len(X);
X = np.asmatrix(X)
Y = np.asarray(Y)

sizes = [0.8, 0.1, 0.1]
arr_index = int(sizes[0]*Len)
arr_index2_start = arr_index + 1
arr_index2_end = arr_index + int(sizes[1]*Len)
arr_index3_start = arr_index2_start + 1

"""
train_set_x = np.array(X[:arr_index])
train_set_y = np.array(Y[:arr_index])

val_set_x = np.array(X[arr_index2_start:arr_index2_end])
val_set_y = np.array(Y[arr_index2_start:arr_index2_end])

test_set_x = np.array(X[arr_index3_start:])
test_set_y = np.array(X[arr_index3_start:])

train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, test_set_y
"""
x = T.dmatrix('x')
z = x
t_mat = function([x],z)

y = T.dvector('y')
k = y
t_vec = function([y],k)

train_set_x = t_mat(X[:arr_index].T)
train_set_y = t_vec(Y[:arr_index])
val_set_x = t_mat(X[arr_index2_start:arr_index2_end].T)
val_set_y = t_vec(Y[arr_index2_start:arr_index2_end])
test_set_x = t_mat(X[arr_index3_start:].T)
test_set_y = t_vec(Y[arr_index3_start:])

train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, test_set_y

dataset = [train_set, val_set, test_set]

f = gzip.open('..\..\..\data\dex.pkl.gz','wb')
cPickle.dump(dataset, f, protocol=-1)
f.close()

pprint(train_set_x.shape)

print('Finished\n')

您可以根据以下描述简单实现Python。 - anh_ng8
3个回答

6

不需要使用.pkl文件就可以将Theano教程中的代码适应到您自己的数据上。您只需要模仿他们的数据结构即可。

快速修复

查找以下行。这是在DBN.py文件中的第303行。

datasets = load_data(dataset)
train_set_x, train_set_y = datasets[0]

用你自己的train_set_xtrain_set_y替换它们。

my_x = []
my_y = []
with open('path_to_file', 'r') as f:
    for line in f:
        my_list = line.split(' ') # replace with your own separator instead
        my_x.append(my_list[1:-1]) # omitting identifier in [0] and target in [-1]
        my_y.append(my_list[-1])
train_set_x = theano.shared(numpy.array(my_x, dtype='float64'))
train_set_y = theano.shared(numpy.array(my_y, dtype='float64'))

将此内容适应于您的输入数据和正在使用的代码。

对于cA.pydA.pySdA.py,同样的事情也适用,但它们只使用train_set_x

寻找像n_ins=28 * 28这样硬编码了mnist图像尺寸的地方。 将28 * 28替换为您自己的列数。

解释

这是您将数据放入Theano可以处理的格式的位置。

train_set_x = theano.shared(numpy.array(my_x, dtype='float64'))
train_set_y = theano.shared(numpy.array(my_y, dtype='float64'))

shared()将numpy数组转换为Theano格式,旨在提高GPU效率。

Theano数组中期望的dtype='float64'

有关基本张量功能的更多详细信息。

.pkl文件

.pkl文件是保存数据结构的一种方式。

您可以自己创建。

import cPickle
f = file('my_data.pkl', 'wb')
    cPickle.dump((train_set_x, train_set_y), f, protocol=cPickle.HIGHEST_PROTOCOL)
f.close()

更多关于加载和保存的详细信息。


5

这个被保存的文件表示了一个由3个列表组成的元组:训练集、验证集和测试集。(train, val, test)

  • 每个列表都是由图像列表和每个图像对应的类标签列表组成的一对。
  • 一个图像被表示为numpy的1维数组,包含784个(28 x 28)在0到1之间浮点值(0代表黑色,1代表白色)。
  • 标签是介于0到9之间的数字,表示图像所代表的数字。

3
这可以帮助您:
from PIL import Image
from numpy import genfromtxt
import gzip, cPickle
from glob import glob
import numpy as np
import pandas as pd
Data, y = dir_to_dataset("trainMNISTForm\\*.BMP","trainLabels.csv")
# Data and labels are read 

train_set_x = Data[:2093]
val_set_x = Data[2094:4187]
test_set_x = Data[4188:6281]
train_set_y = y[:2093]
val_set_y = y[2094:4187]
test_set_y = y[4188:6281]
# Divided dataset into 3 parts. I had 6281 images.

train_set = train_set_x, train_set_y
val_set = val_set_x, val_set_y
test_set = test_set_x, val_set_y

dataset = [train_set, val_set, test_set]

f = gzip.open('file.pkl.gz','wb')
cPickle.dump(dataset, f, protocol=2)
f.close()

这是我使用的函数。根据您的文件细节可能会有所变化。

def dir_to_dataset(glob_files, loc_train_labels=""):
    print("Gonna process:\n\t %s"%glob_files)
    dataset = []
    for file_count, file_name in enumerate( sorted(glob(glob_files),key=len) ):
        image = Image.open(file_name)
        img = Image.open(file_name).convert('LA') #tograyscale
        pixels = [f[0] for f in list(img.getdata())]
        dataset.append(pixels)
        if file_count % 1000 == 0:
            print("\t %s files processed"%file_count)
    # outfile = glob_files+"out"
    # np.save(outfile, dataset)
    if len(loc_train_labels) > 0:
        df = pd.read_csv(loc_train_labels)
        return np.array(dataset), np.array(df["Class"])
    else:
        return np.array(dataset)

网页内容由stack overflow 提供, 点击上面的
可以查看英文原文,
原文链接