添加链接
link之家
链接快照平台
  • 输入网页链接,自动生成快照
  • 标签化管理网页链接
相关文章推荐
无邪的打火机  ·  How Focusing on ...·  1 年前    · 
独立的松鼠  ·  Qt QMessageBox用法详解·  1 年前    · 

读取数据生成并构建Dataset子类

假设现在已经实现从数据文件中读取输入images和标记labels(列表),那么怎么根据images和labels定义自己的数据集类?答案是作为 torch.utils.data.Dataset 的子类。

torchvision.datasets中有几个已经定义好的数据集类,这些类都是torch.utils.data.Dataset抽象类的子类:

  • torchvision.datasets.MNIST类 :标签是一维的,不是one-hot稀疏标签。
  • torchvision.datasets.CIFAR10
  • torchvision.datasets.ImageFolder

    在定义torch.utils.data.Dataset的子类时,必须重载的两个函数是__len__和__getitem__。__len__返回数据集的大小,__getitem__实现数据集的下标索引,返回对应的图像和标记(不一定非得返回图像和标记,返回元组的长度可以是任意长,这由网络需要的数据决定)。
    在创建DataLoader时会判断__getitem__返回值的数据类型,然后用不同的if/else分支把数据转换成tensor,所以,_getitem_返回值的数据类型可选择范围很多,一种可以选择的数据类型是:图像为numpy.array,标记为int数据类型。

    from __future__ import print_function
    import torch.utils.data as data
    import torch
    class MyDataset(data.Dataset):
        def __init__(self, images, labels):
            self.images = images
            self.labels = labels
        def __getitem__(self, index):#返回的是tensor
            img, target = self.images[index], self.labels[index]
            return img, target
        def __len__(self):
            return len(self.images)
    dataset = MyDataset(images, labels)

    生成batch数据

    现在有了由数据文件生成的结构数据MyDataset,那么怎么在训练时提供batch数据呢?PyTorch提供了生成batch数据的类。

    PyTorch用类 torch.utils.data.DataLoader 加载数据,并对数据进行采样,生成batch迭代器。

    class torch.utils.data.DataLoader(dataset, batch_size=1, shuffle=False, sampler=None, num_workers=0, collate_fn=<function default_collate>, pin_memory=False, drop_last=False)

    dataset :Dataset类型,从其中加载数据
    batch_size :int,可选。每个batch加载多少样本
    shuffle :bool,可选。为True时表示每个epoch都对数据进行洗牌
    sampler :Sampler,可选。从数据集中采样样本的方法。
    num_workers :int,可选。加载数据时使用多少子进程。默认值为0,表示在主进程中加载数据。
    collate_fn :callable,可选。
    pin_memory :bool,可选
    drop_last :bool,可选。True表示如果最后剩下不完全的batch,丢弃。False表示不丢弃。

    kwargs = {'num_workers': 1, 'pin_memory': True} if args.cuda else {}
    train_loader = torch.utils.data.DataLoader(
        MyDataset(images, labels), batch_size=args.batch_size, shuffle=True, **kwargs)

    其他用法
    len(train_loader) :返回的是len(dataset)/batch_size

    DataLoader和Dataset构建模型的基本方法,我们了解了。接下来,我们就要弄明白怎么对数据进行预处理,然后加载数据,我们以前手动加载数据的方式,在数据量小的时候,并没有太大问题,但是到了大数... 来自: 嘿芝麻的树洞 Dataset(https://blog.csdn.net/TH_NUM/article/details/80877196)只负责数据的抽象,一次调用getitem只返回一个样本。前面提到过,在训练神... 来自: TH_NUM的博客 batch size 参数https://www.zhihu.com/question/32673260在合理范围内,增大 Batch_Size 有何好处?内存利用率提高了,大矩阵乘法的并行化效率提高... 来自: lemonaha的博客 这两天把DataLoader的源代码的主要内容进行了一些分析,基于版本0.4.1。当然,因为内容比较多,没有全部展开,这里的主要内容是DataLoader关于数据加载以及分析PyTorch是如何通过P... 来自: g11d111的博客 pytorch之DataLoader在训练神经网络时,最好是对一个batch的数据进行操作,同时还需要对数据进行shuffle和并行加速等。对此,PyTorch提供了DataLoader帮助实现这些功... 来自: 朴素.无恙的博客 参考:https://pytorch.org/tutorials/beginner/data_loading_tutorial.html数据集:https://download.pytorch.org... 来自: Shawn 本文讨论的是不使用dataloader的情况下,怎么解决batchsize不能整除训练数据大小的问题。方案1,寻找可以整除训练数据大小的batchsize比如训练数据一共50000万个,每个批次35个... 来自: york1996的博客 前言Pytorch中比较重要的是对数据的处理,其中,进行数据读取的一般有三个类:DatasetDataLoader其中,这是一个封装的关系:“Dataset被封装进DataLoaderDatasetD... 来自: PandaDreamer 之前讲的例子,程序都是调用的datasets方法,下载的torchvision本身就提供的数据,那么如果想导入自己的数据应该怎么办呢?本篇就讲解一下如何创建自己的数据集。还有第二篇……Pytorch打... 来自: 朝花&夕拾 实际上pytorch在定义dataloader的时候是需要传入很多参数的,比如,number_workers, pin_memory, 以及shuffle, dataset等,其中sampler参数算... 来自: u013517182的博客 lstm里,多层之间传递的是输出ht,同一层内传递的细胞状态(即隐层状态)看pytorch官网对应的参数nn.lstm(*args,**kwargs),默认传参就是官网文档的列出的列表传过去。对于后面... 来自: wangwangstone的博客 这篇里面没图片BatchNorm的affine=True的情况下,如果训练和测试的时候Batch_Size设置成不同的数字,比如训练的时候Batch_Size=16,测试的时候单张测试(Batch_S... 来自: danielr1106的博客 当数据集的数据过大时,采用生成器generator生成数据循环调用那么,如何设置一个batchsize的批生成器以供训练深度学习模型用呢?背景介绍:下面这个例子是HWDB手写体,单张图片小,分类任务... 来自: Snoopy_Dream 更正说明:时间2018/01/23现在我所测试得到的dataParallel只能有效的进行前向传播,不能后向传播。下面的关于后向传播的原因我没有在代码层面进行分析,所以下面的记录部分(前面传播)是正确... 来自: daniaokuye的专栏 pytorch input-pipelineinput-pipeline: 1. 图像预处理# 创建个transform用来处理图像数据transform = transforms.Compose([... 来自: Keith dataloader,会用__next()__反复调用FaceLandmarksDataset中__getitem__函数,而且是根据id来调用的,这个id的获取来源于len(self.landmar... 来自: zxyhhjs2017的博客 TensorFlow 中生成Batch数据Reference: https://www.tensorflow.org/programmers_guide/datasets#simple_batchin... 来自: aprilvkuo的专栏 在学习莫烦大神的pytorch视频的batch部分,由于pytorch版本更新,产生了一些不兼容的情况。源代码如下:import torchimport torch.utils.data as Dat... 来自: u012992177的博客 本文将原始的numpyarray数据在pytorch下封装为Dataset类的数据集,为后续深度网络训练提供数据。#加载并保存图像信息首先导入需要的库,定义各种路径。importosimportmat... 来自: sjtuxx_lee的博客 本文截取自《PyTorch模型训练实用教程》,获取全文pdf请点击:https://github.com/tensor-yu/PyTorch_Tutorial转载请注明出处:... 来自: TensorSense的博客 文章目录第一种方法:使用Pytorch的Dataset类来构建数据集,再使用Data.DataLoader()来加载数据集1.通过继承Dataset类来构建数据集2.先实例化,再使用Data.Data... 来自: 轮子去哪儿了 最近搞了搞minist手写数据集的神经网络搭建,一个数据集里面很多个数据,不能一次喂入,所以需要分成一小块一小块喂入搭建好的网络。pytorch中有很方便的dataloader函数来方便我们进行批处理... 来自: weixin_30262255的博客 Resnet18实现猫狗分类!本篇文章主要是本人入门Pytroch的一些笔记。注意事项记录在代码之后!importtorchtorch.backends.cudnn.benchmark=Trueimp... 来自: 古月的博客 机器学习的Github代码阅读总结以前写的代码太差,而代码的书写和可读性很重要,在此学习记录。阅读的代码是pytorch官方给的例子:https://github.com/pytorch/exampl... 来自: qq_42192910的博客 数据类数据集主要是torch.utils.data类要实现加载和预处理数据可分为以下两个步骤:1.加载数据集(Dateset)1.1 自带数据集(Mnist/FashionMnist等)加载时需要完成... 来自: disanda的专栏 Pytorch技巧1:DataLoader的collate_fn参数Pytorch技巧1:DataLoader的collate_fn参数DataLoader完整的参数表如下:一个测试的例子本文介绍Da... 来自: 年长的小白 前面一篇写创建数据集的博文--- Pytorch创建自己的数据集1 是介绍的应用于图像分类任务的数据集,即输入为一个图像和它的类别数字标签,本篇介绍输入的标签label亦为图像的数据集,并包含一... 来自: 朝花&夕拾 1.dataset:加载的数据集(Dataset对象)2.batch_size:batch size3.shuffle::是否将数据打乱4.sampler: 样本抽样,后续会详细介绍5.num_wor... 来自: baidu_40840693的博客 model.py:#!/usr/bin/python#-*-coding:utf-8-*-importtorchfromtorchimportnnimportnumpyasnpfromtorch.au... 来自: weixin_38241876的博客 [Pytorch]PyTorchDataloader自定义数据读取 整理一下看到的自定义数据读取的方法,较好的有一下三篇文章,其实自定义的方法就是把现有数据集的train和test分别... 来自: 急流勇进 在学习torch.utils.data.DataLoader的时候偶然发现这个Loader可传参数还蛮多,在PyTorch中文文档中未能搜索到这个Loader,故网上收集、翻译在此,仅做笔记之用。英文... 来自: 江南蜡笔小新 在这里介绍几种常用的的数据增强方法:标准数据增强以CIFAR10为例:论文中如下是对数据集的标准增强操作。对于训练集,padding=4为上下左右均填充4个pixel,由32×32的尺寸变为40×40... 来自: winycg的博客 参考:https://www.jianshu.com/p/b38e14c1f14dbatch_normalization可以使用batch_normalization对隐藏层的数据进行正态分布标准化,... 来自: winycg的博客 #文章源码来自:pytorch源码。一、DataLoader的源码:class DataLoader(object): r""" Data loader. Combines a datas... 来自: moshiyaofei的博客 Pytorch数据集准备阶段from PIL import Imagefrom torch.utils.data import Datasetclass MyDataset(Dataset): def... 来自: helloworld_Fly的博客 大学四年,看课本是不可能一直看课本的了,对于学习,特别是自学,善于搜索网上的一些资源来辅助,还是非常有必要的,下面我就把这几年私藏的各种资源,网站贡献出来给你们。主要有:电子书搜索、实用工具、在线视频... 来自: 帅地 今年,我也32了 ,为了不给大家误导,咨询了猎头、圈内好友,以及年过35岁的几位老程序员……舍了老脸去揭人家伤疤……希望能给大家以帮助,记得帮我点赞哦。目录:你以为的人生 一次又一次的伤害 猎头界的真... 来自: 启舰
  •