• 欢迎访问佰阅部落,本站为优质开源程序分享站,所有自研项目均开源免费,可在Github查看源码。 QQ群
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏吧
  • 欢迎积极参与讨论、反馈问题

尝鲜Activeloop_HUB-打造人工智能领域里的公共数据集仓库

人工智能 佰阅部落 8个月前 (02-20) 1129次浏览 0个评论
文章目录[隐藏]

对开发者而言,我们习惯各种各样的仓库,比如docker的hub.docker,再比如python的pypi库,nodejs的npm库等等。人工智能领域还没有比较集中且受众广泛的库,本篇就来尝鲜下Activeloop提供AI数据集库。

0. 为啥需要一个公共的数据集库

众所周知,公共库可以极大的方便我们找资源,在这之前,很多资源都是直接存储在GitHub或谷歌云、OneDrive。虽然在colab上使用也比较顺手,但是每个资源都需要人为预处理,其实是不易于推广的。

按照Activeloop的思路,认为“数据科学家和ML科学家应该专注于训练模型,但现在我们都在花大量时间管理和预处理数据。”,而Activeloop正是为了解决这些花样繁多的数据集而做的公共hub。

1. Activeloop设计的公共HUB有哪些优势?

  • 以版本控制工具储存/回复大型数据库。
  • 像 Google Docs 一样协作: 多个数据科学家同时处理一组数据,并且没有同步冲突
  • 同时从多个设备访问
  • 与您的 ML 工具整合, 比如 Numpy, Dask, Ray, PyTorch,TensorFlow
  • 可部署在 Google Cloud, S3, Azure,和 Activeloop (预设选择,并且是免费的!)
  • 随心所欲地创建任意大小的储存数组. 您甚至可以储存 100k x 100k 大小的图片!
  • 动态地保存样本的形状. 因此您可以把大数组和小数组储存为一条数组
  • 无需冗长的操作,用几秒种即可可视化数据中的片段

其中内容包括图像、文字、音频、 histograms、seq、tweet等。

2. 简易使用方法

安装:pip install hub

使用:

import hub
mnist = Dataset("activeloop/mnist")  # loading the MNIST data lazily

# 数据集展示
import matplotlib.pyplot as plt
plt.imshow(mnist['image', 10].compute())

# 直接训练
import torch
mnist = mnist.to_pytorch(lambda x: (x["image"], x["label"]))

train_loader = torch.utils.data.DataLoader(mnist, batch_size=1, num_workers=0)

for image, label in train_loader:
    # Training loop here

更多教程,可以参考hub的相关文档。基本上你能听说的数据库资源都包含了,没有的话还可以自己提交,一些图片类资源还支持线上预览。

3. 参考资源


佰阅部落 , 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权
转载请注明原文链接:尝鲜Activeloop_HUB-打造人工智能领域里的公共数据集仓库
喜欢 (2)
佰阅部落
关于作者:
爱折腾,爱学习,用心分享各种实用搭建教程,让优质web程序脱颖而出,欢迎订阅!

您必须 登录 才能发表评论!