本文主要介绍几种常用的用于分类的性能评估指标,同时介绍如何绘制ROC曲线以及计算AUC值的便捷方法。最后再附上一个绘制ROC曲线和计算AUC的Python源码实现。
PCA主成分分析Python实现
Github源码:https://github.com/csuldw/MachineLearning/tree/master/PCA
PCA(principle component analysis) ,主成分分析,主要是用来降低数据集的维度,然后挑选出主要的特征。原理简单,实现也简单。关于原理公式的推导,本文不会涉及,你可以参考下面的参考文献,也可以去Wikipedia,这里主要关注实现,算是锻炼一下自己,对PCA在理论的基础上画个圆满的句号。
机器学习算法比较
本文主要回顾下几个常用算法的适应场景及其优缺点!(提示:部分内容摘自网络)。
机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题,或者这里有些技巧可以参考,下面来分析下各个算法的优缺点,基于算法的优缺点,更易于我们去选择它。
机器学习数据集-MNIST
Python个人编码规范
接触Python已将近两年了,写过的代码也不少,每次对代码的编写都没有统一的规范,所以,根据自己以往的经验,专门为自己定制了一份用于编写Python代码时使用的代码规范。
机器学习-牛顿方法&指数分布族&GLM
用python模拟网页数据提交
背景
做实验的时候,需要将独立测试集的数据与别人server跑出来的结果进行比较,比如下面这个:http://bioinfo.ggc.org/bindn/ 。但是这个server一次性只能提交一个fasta文件,也就是说,我有很多数据的话,就要分多次提交。如果是人工的去操作,会比较耗时,而且工作量特别大,因此这里就需要模拟网页的数据提交。这就是本文的主要内容,
2015,稳稳地幸福
就用这首《稳稳地幸福》作为开场白吧,希望也有一种稳稳的幸福!
有一天,我发现自怜资格都已没有
只剩下不知疲倦的肩膀
担负着简单的满足
有一天,开始从平淡日子感受快乐
看到了明明白白的远方
我要的幸福……
25个Java机器学习工具&库(译)
本列表总结了25个Java机器学习工具&库:
LeetCode部分题解
本文是先前做LeetCode时的部分题解,有的题目既包含C++代码,也有Python代码,为方便查阅,决定将这些思路合并到一文之中。
Python笔记-几种取整方式
Python笔记-均值列表
EM-最大期望算法
对于EM算法,一直都是云里雾里。所以,今天索性就下个决定,不搞懂它,决不罢休。通过今天的学习,加上之前的基础,EM算法终于算是理清思绪了。回头想想,果真是如何做事不下定决心,真的很难有结果。下面,打算将EM算法的整个推导过程总结一遍,达到理解并掌握的目的。