fendouai的文章 第15页

sklearn

1.8. 交叉分解(Cross decomposition)

1

fendouai 发布于 2020-03-04

1.8. 交叉分解(Cross decomposition) 交叉分解模块包含两个主要的算法系列:偏最小二乘法(PLS)(the partial least squares)和典型相关分析(CCA)(the canonical correlation analysis). 这些算...

阅读(587)赞 (0)

sklearn

1.13. 特征选择(Feature selection)

fendouai 发布于 2020-03-04

1.13. 特征选择(Feature selection) sklearn.feature_selection模块中的类可用于样本集的特征选择/降维,既可以提高估计器的准确率,又可以提高估计器在超高维数据集上的性能。 1.13.1. 去除方差比较低的特征 VarianceThre...

阅读(656)赞 (0)

sklearn

1.16. 概率校准(Probability calibration)

7

fendouai 发布于 2020-03-04

1.16. 概率校准(Probability calibration) 在进行分类时,我们不仅想要预测出类的标签,而且还要获得对应标签的概率。这个概率给了我们一些关于预测的信心。有些模型可以给出类的概率估计,有些甚至不支持概率预测(probability prediction)。...

阅读(685)赞 (0)

sklearn

1.5. 随机梯度下降(Stochastic Gradient Descent)

4

fendouai 发布于 2020-03-04

1.5. 随机梯度下降(Stochastic Gradient Descent) 随机梯度下降法(SGD)是一种简单但非常有效的方法,主要用于凸损失函数下线性分类器的判别式学习(例如(线性)支持向量机和Logistic回归)。尽管SGD在机器学习社区中已经存在很长时间了,但最近在...

阅读(497)赞 (0)

sklearn

1.15. 等式回归

1

fendouai 发布于 2020-03-04

1.15. 等式回归 IsotonicRegression类将非递减函数拟合到数据。 它解决了以下问题: 最小化 \sum_i w_i (y_i – \hat{y}_i)^2 服从于 \hat{y}_{min} = \hat{y}_1 \le \hat{y}_2 &#...

阅读(505)赞 (0)

sklearn

1.11. 集成学习方法(Ensemble methods)

7

fendouai 发布于 2020-03-04

1.11. 集成学习方法(Ensemble methods) 集成方法的目标是把使用多个给定学习算法构建的基本估计器的预测结果结合起来,从而获得比单个基本估计器更好的泛化能力/鲁棒性。 集成学习方法分通常分为两种: 在平均方法(averaging methods)中,驱动原则是首...

阅读(575)赞 (0)

sklearn

1.1. 线性模型

20

fendouai 发布于 2020-03-04

1.1. 线性模型 以下是一组用于回归的方法,其中目标值被认为是输入变量的线性组合。用数学符号表示,假设 \hat{y} 是预测值,则有 \hat{y}(w, x) = w_0 + w_1 x_1 + … + w_p x_p 在整个模块中,我们把向量w=(w1,...

阅读(609)赞 (0)

sklearn

1.9. 朴素贝叶斯(Naive Bayes)

fendouai 发布于 2020-03-04

1.9. 朴素贝叶斯(Naive Bayes) 朴素贝叶斯方法是一组基于Bayes定理的有监督学习算法,在给定类变量(class variable)值的情况下,每对特征之间条件独立的“简单”假设。Bayes定理说明了如下关系,给定类别 y 和相关特征向量x_1到x_n,: \\P...

阅读(462)赞 (0)

sklearn

选择合适的估计器(estimator)

1

fendouai 发布于 2020-03-04

选择合适的估计器(estimator) 解决机器学习问题最困难的部分通常是为该问题找到合适的估计器(estimator)。 不同的估计器(estimator)适合于不同类型的数据和问题。 下面的流程图旨在为用户提供一些粗略的指导,指导他们如何根据问题选择相关的估计器(estima...

阅读(492)赞 (0)

sklearn

处理文本数据

fendouai 发布于 2020-03-04

处理文本数据 本教程的目的是探索scikit-learn 的一些重要的工具在实际任务:分析有关二十个不同主题的文本文档(新闻帖子)中的使用。 在本节中,我们将看到如何: 加载文件的内容和类别 提取适合机器学习的特征向量 训练线性模型来进行分类 使用网格搜索策略为特征提取器和分类器...

阅读(549)赞 (0)