本文是笔者学习李航老师的经典教材《统计学习方法》第一章的学习笔记,分享在此,作为机器学习系列的开篇文章,在本系列中,将会逐一总结介绍主要的机器学习算法的基本原理、基于Python的具体实现、使用sklearn等第三方库的调用实践。...
阅读(30) 评论(0)
数据挖掘工程师并不是一直都在图形化界面中工作,并且随着大数据开源技术的发展,会有更多的任务需要在命令行环境下完成,比如在hadoop环境下进行数据文件的导入导出,在ubuntu环境下进行python库的安装与配置,因此就需要掌握一些基...
阅读(30) 评论(0)
在上一篇文章《数据准备<4>:变量筛选-理论篇》中,我们介绍了变量筛选的三种方法:基于经验的方法、基于统计的方法和基于机器学习的方法,本文将介绍后两种方法在Python(sklearn)环境下的具体实现。 1.环境介绍...
阅读(24) 评论(0)
在上一篇文章《数据准备<3>:数据预处理》中,我们提到降维主要包括两种方式:基于特征选择的降维和基于维度转换的降维,其中基于特征选择的降维通俗的讲就是特征筛选或者变量筛选,是指从多个特征(变量)中筛选出显著的特征(变量),...
阅读(27) 评论(0)
数据预处理是指因为算法或者分析需要,对经过数据质量检查后的数据进行转换、衍生、规约等操作的过程。整个数据预处理工作主要包括五个方面内容:简单函数变换、标准化、衍生虚拟变量、离散化、降维。本文将作展开介绍,并提供基于Python的代码实...
阅读(26) 评论(0)
上一篇文章:《数据质量检查-理论篇》主要介绍了数据质量检查的基本思路与方法,本文作为补充,从Python实战角度,提供具体的实现方法。 承接上文,仍然从重复值检查、缺失值检查、数据倾斜问题、异常值检查四方面进行描述。 1.环境介绍...
阅读(39) 评论(0)
数据行业有一句很经典的话——“垃圾进,垃圾出”(Garbage in, Garbage out, GIGO),意思就是,如果使用的基础数据有问题,那基于这些数据得到的任何产出都是没有价值的。而对于数据分析挖掘而言,只有一份高质量的基础...
阅读(26) 评论(0)
本文主要对Python如何读取数据进行总结梳理,涵盖从文本文件,尤其是excel文件(用于离线数据探索分析),以及结构化数据库(以Mysql为例)中读取数据等内容。 约定: import numpy as np import pan...
阅读(32) 评论(0)
1、基本介绍: python标准数据库接口为python DB-API,它为开发人员提供了数据库应用编程接口,可以支持mysql、Oracle、MSSQL、Sybase等多种数据库,不同的数据库需要下载不同的DB-API模块。 DB...
阅读(162) 评论(0)
1、open函数语法: python通过open函数打开文件,建立程序与文件之间的连接。 open函数语法:open(filename[,mode[,buffering]]) 其中filename是指要进行操作的文件名称,由文件名...
阅读(224) 评论(0)
1、使用逗号输出 使用逗号隔开,可以打印多个表达式。打印后,各项之间自动以一个空格隔开。 也可以同时输出文本和变量值。 可以和字符串连接符“+”一起使用。   2、从模块中导入函数...
阅读(190) 评论(0)
序列是python中的一种数据结构,映射是另一种。映射(mapping)通过名字来引用值。python内建的唯一一种映射结构是字典。字典中的值没有特殊的顺序,但都存储在一个特定的键中。键可以是数字、字符串甚至数元组。 1、字典的使用:...
阅读(159) 评论(0)
  1、在python中,最基本的数据结构是序列,序列中每一个元素被分配一个序号,即元素的位置,称为索引。索引从0开始,-1表示倒数第一个元素,-2表示倒数第二个元素,因此既可以是从前到后开始对元素进行访问,也可以从后往前对...
阅读(137) 评论(0)
1、两个整数相除,计算结果的小数部分被截除,结果仍然是一个整数; 如:1/2=0 2、整数和浮点数相除、或者浮点数之间相除,结果有小数部分,仍然是一个浮点数; 如:1/2.0=0.5  1.0/2=0.5&...
阅读(148) 评论(0)