七大Github机器学习热门项目
Pytorch-Transformers(NLP)
https://github.com/huggingface/pytorch-transformers
PyTorch-Transformers是最新的一系列最先进的NLP库。它打败了之前各种NLP任务的基准。我真正喜欢pytorch-transformers的是它包含PyTorch实现,预训练模型权重和其他重要组件,可以帮助你快速入门。
你可能会觉得运行复杂的模型需要巨大的计算能力。但是PyTorch-Transformers没有这个问题,使大多数人都可以建立最优秀的NLP模型。
NeuralClassifer(NLP)
https://github.com/Tencent/NeuralNLP-NeuralClassifier
文本数据的多标签分类是一个相当大的挑战。当我们处理早期的NLP问题时,我们通常会处理单一标签任务。该级别在实际数据上增加了几个级别。
在多标签分类问题中,实例或记录可以具有多个标签,并且每个实例的标签数量不固定。
NeuralClassifier使我们能够快速实现分层多标签分类任务的神经模型。NeuralClassifier提供了我们熟悉的各种文本编码器,如FastText,RCNN,Transformer编码器等。
我们可以使用NeuralClassifier执行以下分类任务:
- 二进制文本分类
- 多级文本分类
- 多标签文本分类
- 分层(多标签)文本分类
TDEngine(大数据)
https://github.com/taosdata/TDengine
TDengine
TDEngine在上个月的星星数超过了GitHub上所有其他的新项目。在不到一个月的时间内收到了将近10000颗星。
TDEngine是一个用于下列领域的开源大数据平台:
- 物联网(IoT)
- 联网汽车
- 工业物联网
- IT基础设施等等。
TDEngine提供了与数据工程相关的一整套任务。我们可以以超快的速度完成所有这些工作(处理查询速度提高10倍,计算使用率为1/5)。
有一点目前需要注意,TDEngine仅支持在Linux上执行。这个GitHub存储库包含了完整的文档和带有代码的入门指南。