【AI】机器学习索引 (ML Index)_北境の守卫的博客

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

相关文章推荐

文武双全的足球 · 七岁女童患异食癖 ...· 1 年前 ·

魁梧的小笼包 · 山东省教育厅最新文件 ...· 1 年前 ·

直爽的熊猫 · 厉害了！这个学生团队助力安防监控摄像头智能化升级· 1 年前 ·

刚分手的花生 · 【97荐影】《精灵旅社4：变身大冒险》：一起 ...· 1 年前 ·

大方的稀饭 · 从肖之东同志先进事迹谈共产党员的廉洁自律和担当作为· 1 年前 ·

机器学习简介：任务 T, 性能度量 P 和经验 E
容量、过拟合和欠拟合
估计、偏差和方差
模型的评价标准
最大似然估计
监督学习算法
1. 线性回归 Linear Regression
2. 逻辑回归 Logistic Regression
3. 支持向量机 SVM
4. 决策树 Decision tree
5. 随机森林 Random Forest
无监督学习算法
1. k 近邻算法 KNN
2. k 均值聚类
维度
1. 维数灾难
2. 线性降维方法
  1. 主成分分析 PCA
3. 非线性降维方法
  1. 流型学习
正则化 Regularization
1. 参数范数惩罚
贝叶斯学派视角下的机器学习
1. 最大后验(MAP)估计
2. 概率图模型
3. 朴素贝叶斯 Naive Bayes
损失函数 Loss Function
- 常用的损失函数
数据集 Dataset
1. 常用的数据集

下面这篇博客中分类别介绍了很多 机器学习 方法的评价指标，比较全面： http://www.cnblogs.com/zhaokui/p/ ml -metric.ht ml 一、聚类结果的评价指标 1、Rand index 或者 Rand measure（兰德指数）维基百科比较详细：https://en.wikipedia.org/wiki/Rand_ index 兰德指数需要给定实际类别信息C,假设K是聚... 文章目录一、 Index 编码二、 OneHot编码独热编码优缺点什么情况下(不)用独热编码？什么情况下(不)需要归一化？三、 Multiple编码如何使用Multiple编码呢？四、编码比较参考文献一、 Index 编码用来对离散的类型特征进行编码，如，不连续的数值、文本，将离散的特征转换成连续的数值型变量。基于索引的编码可以起到数据归一化的作用，如，id为1和10000，当id作为LR的特征... require_once 'vendor/autoload.php';use Php ml \Classification\KNearestNeighbors;use Php ml \Dataset\CsvDataset;use Php ml \Dataset\ArrayDataset;use Php ml \FeatureExtraction\TokenCountVectorizer;use Php ml \Tok... 其整体的思想是保留了 B+树的内部节点（作为导航），把叶子节点替换成学习模型，不存储实际数据，而是存储学习模型的参数。更多的工作是在如何组织这些训练出来的线性模型下功夫，抑或是将已有结构稍作变化或不做变化，应用在某个场景下，在查询性能或存储开销取得了优良的性能。PGM 的基本节点单元使用 Linear Model，采用 Bottom-Up 的构建方式，上一层对下一层的代表数据（每个 Segment 的起始点）递归地使用线性回归来构建索引树，其插入采用了类似 LSM 层次合并的思想来设计。关系数据库帝国已经独孤求败几十年了！自从1970年E.F.Codd 的《大型共享数据库的关系模型》论文横空出世，为关系型数据库奠定了坚实的理论基础，一众关系数据库System R，DB2 ，Oracle，MySQL，Postgres相继诞生，一举推翻了层次和网状数据库的统治。在过去的几十年中，对象数据库， NoSQL等相继挑战，但是依然无法撼动它的地位。当然关系数据库也不是停滞不前，它也在进化，统一的SQL标准，强大的事务支持，更加聪明的查询优化器… 但是帝国也有一个巨大的硬伤，数据都保存在硬盘上，这篇论文在两个月前刚被公布出来的时候，因为带着Jeff Dean的署名曾一度被热传，但直到今天才认真读完这篇论文。Learned Index 基于 机器学习 的方法，对传统数据库索引做了改造。本文先介绍Learned Index 的RM- Index 模型以及与B-Tree 索引的对比。如论文开篇所言，可以将传统的数据库索引 ( Index )视为一种模型(Model)：B-Tree 索引 B-Tree 索引模型将一个Ke... 本节介绍索引推荐的功能，共包含三个子功能：单query 索引推荐、虚拟索引和workload级别索引推荐。单query 索引推荐单query 索引推荐功能支持用户在数据库中直接进行操作，本功能基于查询语句的语义信息和数据库的统计信息，对用户输入的单条查询语句生成推荐的索引。本功能涉及的函数接口如下。表 1 单query 索引推荐功能的接口 3) GPU具有层次化的存储空间和独特的高效访存方式，因此需要考虑当前学习到的索引结构在GPU体系结构中的适应性。阅读者总结：这篇论文的核心是将GPU和PGM- index 结合起来，总体上更加偏向工程实现，在学习索引的设计上明显地没有看出什么新颖点，当然了GPU是适合并发线程的计算过程，加速查询，但是这学习索引问题本身的解决上没有什么多的贡献。根据近年来对学习索引的研究，提出了一种将GPU和学习索引的优势相结合的新思路，将学习索引放在GPU内存中，充分利用GPU的高并发和计算能力。... ## A C++11 implementation of the B-Tree part of "The Case for Learned Index Structures" A research **proof of concept** that implements the B-Tree section of [The Case for Learned Index Structures](https://arxiv.org/pdf/1712.01208.pdf) paper in C++. The general design is to have a single lookup structure that you can parameterize with a KeyType and a ValueType, and an overflow list that keeps new inserts until you retr ai n. There is a value in the constructor of the RMI that triggers a retr ai n when the overflow array reaches a cert ai n size. The basic API: ```c++ // [first/second]StageParams are network parameters int maxAllowedError = 256; int maxBufferBeforeRetr ai n = 10001; auto model Index = RecursiveModel Index recursiveModel Index (firstStageParams, secondStageParams, maxAllowedError, maxBufferBeforeRetr ai n); for (int ii = 0; ii < 10000; ++ii) { model Index .insert(ii, ii * 2); // Since we still have one more insert before retr ai ning, retr ai n before searching... model Index .tr ai n(); auto result = model Index .find(5); if (result) { std::cout << "Yay! We got: " << result.get().first << ", " << result.get().second << std::endl; } else { std::cout << "Value not found." << std::endl; // This shouldn't happen in the above usage... See [src/m ai n.cpp](src/m ai n.cpp) for a usage example where it stores scaled log normal data. ### Dependencies - [nn_cpp](https://github.com/bc ai ne/nn_cpp) - Eigen based minimalistic C++ Neural Network library - [cpp-btree](https://code.google.com/archive/p/cpp-btree/) - A fast C++ implementation of a B+ Tree ### TODO: - Lots of code cleanup - Profiling of where the slowdowns are. On small tests, the cpp_btree lib beats it by 10-100x - Eigen::TensorFixed in nn_cpp would definitel