本文主要介绍几种常用的用于分类的性能评估指标,同时介绍如何绘制ROC曲线以及计算AUC值的便捷方法。最后再附上一个绘制ROC曲线和计算AUC的Python源码实现。

Read More »

Github源码:https://github.com/csuldw/MachineLearning/tree/master/PCA

PCA(principle component analysis) ,主成分分析,主要是用来降低数据集的维度,然后挑选出主要的特征。原理简单,实现也简单。关于原理公式的推导,本文不会涉及,你可以参考下面的参考文献,也可以去Wikipedia,这里主要关注实现,算是锻炼一下自己,对PCA在理论的基础上画个圆满的句号。

Read More »

本文主要回顾下几个常用算法的适应场景及其优缺点!(提示:部分内容摘自网络)。

机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。假如你在乎精度(accuracy)的话,最好的方法就是通过交叉验证(cross-validation)对各个算法一个个地进行测试,进行比较,然后调整参数确保每个算法达到最优解,最后选择最好的一个。但是如果你只是在寻找一个“足够好”的算法来解决你的问题,或者这里有些技巧可以参考,下面来分析下各个算法的优缺点,基于算法的优缺点,更易于我们去选择它。

Read More »

介绍

在学习机器学习的时候,首当其冲的就是准备一份通用的数据集,方便与其他的算法进行比较。在这里,我写了一个用于加载MNIST数据集的方法,并将其进行封装,主要用于将MNIST数据集转换成numpy.array()格式的训练数据。直接下面看下面的代码吧(主要还是如何用python去读取binnary file)!

Read More »

接触Python已将近两年了,写过的代码也不少,每次对代码的编写都没有统一的规范,所以,根据自己以往的经验,专门为自己定制了一份用于编写Python代码时使用的代码规范。

Read More »

背景

做实验的时候,需要将独立测试集的数据与别人server跑出来的结果进行比较,比如下面这个:http://bioinfo.ggc.org/bindn/ 。但是这个server一次性只能提交一个fasta文件,也就是说,我有很多数据的话,就要分多次提交。如果是人工的去操作,会比较耗时,而且工作量特别大,因此这里就需要模拟网页的数据提交。这就是本文的主要内容,

Read More »

就用这首《稳稳地幸福》作为开场白吧,希望也有一种稳稳的幸福!

有一天,我发现自怜资格都已没有
只剩下不知疲倦的肩膀
担负着简单的满足
有一天,开始从平淡日子感受快乐
看到了明明白白的远方
我要的幸福……

Read More »

背景

  在处理数据的时候,碰到了一个问题,就是取整方式!比如给定一个数值型列表,我需要分别获取它位置为长度的0%,25%,50%,75%,100%处的几个数字。但Python自带的int是向下取整,如果数字长度是5,理论上这五个数字分别对应0%,25%,50%,75%,100%的位置,但使用int,结果却并不是入次。比如当5*0.75时,如果加上int(5*0.75),就等于3,而我想要的应该是4,显然不是我想要的,所以这里需要用到向上取整方式。因此,顺便总结了一下Python的几种取整方式。

Read More »

一个小小的实例,做个小笔记!

比如有三个列表,列表元素均为数值型,三个列表的长度都一样,现在我想要求这三个列表的均值,即求一个均值列表,对应元素为上述三个列表对应元素的均值。

Read More »

对于EM算法,一直都是云里雾里。所以,今天索性就下个决定,不搞懂它,决不罢休。通过今天的学习,加上之前的基础,EM算法终于算是理清思绪了。回头想想,果真是如何做事不下定决心,真的很难有结果。下面,打算将EM算法的整个推导过程总结一遍,达到理解并掌握的目的。

Read More »

提示:以下内容乃个人实验笔记!

功能描述

从格式化后的dssp文件DSSP(单一文件)中提取序列信息,要求输出的序列不含有X残基,并且序列最短长度minlen可人为指定,一般设置为40

Read More »