自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

清平の居士馆

what we can do is keep moving

  • 博客(17)
  • 资源 (43)
  • 论坛 (6)
  • 收藏
  • 关注

原创 机器学习算法之_主成分分析(PCA)

一,引言降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。降维具有如下一些优点:(1)使得数据集更易使用(2)降低算法的计算开销(3)去除噪声(4)使得结果容易理解PCA(...

2018-12-19 17:38:03 195

原创 机器学习之---文本分析(jieba分词和词云绘制)

一、定义:文本挖掘:从大量文本数据中抽取出有价值的知识,并且利用这些知识重新组织信息的过程。二、语料库(Corpus)语料库是我们要分析的所有文档的集合。import osimport os.path filePaths = [] #定义一个数组变量#再用OS.walk的方法传入目录#文件所在的文件目录,命名为root#root下的所有子目录,命名为dirs#root下的...

2018-12-18 10:19:55 1206

原创 各个排序算法的时间复杂度和稳定性

一、插入排序每次将一个待排序的数据,跟前面已经有序的序列的数字一一比较找到自己合适的位置,插入到序列中,直到全部数据插入完成。二、希尔排序先将整个待排元素序列分割成若干个子序列(由相隔某个“增量”的元素组成的)分别进行直接插入排序,然后依次缩减增量再进行排序,待整个序列中的元素基本有序(增量足够小)时,再对全体元素进行一次直接插入排序。由于希尔排序是对相隔若干距离的数据进行直接插入排序,因...

2018-12-17 18:12:21 212

原创 Mysql面试题整理(一)

表名和字段–1.学生表Student(s_id,s_name,s_birth,s_sex) –学生编号,学生姓名, 出生年月,学生性别–2.课程表Course(c_id,c_name,t_id) – –课程编号, 课程名称, 教师编号–3.教师表Teacher(t_id,t_name) –教师编号,教师姓名–4.成绩表Score(s_id,c_id,s_score) –学生编号,课...

2018-12-17 17:50:43 134

原创 机器学习面试题整理(带答案详解,持续更新中。。。)

1.什么是机器学习机器学习是为了应对系统程序设计,属于计算机科学类的学科,它能根据经验进行自动学习和提高。例如:一个由程序操纵的机器人,它能根据从传感器搜集到的数据,完成一系列的任务和工作。它能根据数据自动地学习应用程序。2.机器学习和数据挖掘的区别机器学习是指在没有明确的程序指令的情况下,给予计算机学习能力,使它能自主的学习、设计和扩展相关算法。数据挖掘则是一种从非结构化数据里面提取知识或...

2018-12-15 16:02:53 1107

原创 numpy.random.randn()与rand()、random.random()的区别

一、random.randn()和random.rand()numpy中有一些常用的用来产生随机数的函数。randn()和rand()就属于其中一种numpy.random.randn(d0,d1,…,dn)是从标准正态分布中返回一个或多个样本值。numpy.random.rand(d0,d1,…,dn) 的随机样本位于[0,1) 中两个函数中两个参数是代表生成的矩阵的维度举例impo...

2018-12-15 11:31:24 4820

原创 机器学习十大算法

机器学习算法分为三类:有监督学习、无监督学习、增强学习。有监督学习需要标识数据(用于训练,即有正例又有负例),无监督学习不需要标识数据,增强学习介于两者之间(有部分标识数据)。下面我将向大家具体介绍机器学习中10大算法(只介绍有监督、无监督两类,暂不介绍增强学习)。一、有监督学习算法一:决策树决策树是一种树形结构,为人们提供决策依据,决策树可以用来回答yes和no问题,它通过树形结构将各种情...

2018-12-14 18:27:02 257

原创 Python应用的五大热门领域

一、人工智能---- 为Python火热增长动力借着人工智能的东风,Python在这两年逐渐火了起来,Python在编程语言排行中的不断攀升,不得不说有着人工智能的很大功劳。凭借Python简洁易于上手的语法和丰富的扩展,Python在人工领域的应用越来越广泛。越来越多的培训机构也以“Python”和“人工智能”作为旗号和噱头,打着“21天精通Python,3个月掌握人工智能”的口号,收割了一波...

2018-12-12 17:27:45 6196

原创 修改Jupyter的默认打开目录

Jupyter启动之后默认打开的是C盘目录,一般临时使用可以将文件建在桌面Desktop想要打开其他盘符的文件无法实现,如D、E、F盘目录下的文件。现有解决办法如下,无需修改Jupyter Notebook的默认打开路径。思路:进入CMD模式 win + R 切换盘符 目标盘+:进入文件...

2018-12-11 17:48:13 399

原创 中国人工智能领域企业分类(附未来企业排行)

人工智能企业可以在应用层、技术层、基础上进行区分。在应用层的中国人工智能公司按照领域划分包括:机器人:Geek+、 Rokid、图灵机器人、优必选。自动驾驶:百度、天瞳威视、地平线机器人、驭势科技。无人机:大疆、亿航、Hover Camera、零度智控。语音助手:百度、出门问问。商业智能:永洪科技、Data KM。消费者服务:AiKF。产业应用:碳云智能、Maxent、今日头条、学...

2018-12-11 17:15:44 8328 3

原创 人工智能、机器学习、深度学习、数据挖掘、数据分析区分

在开始学习python大数据之前,先要搞清楚人工智能、机器学习、深度学习、数据挖掘、数据分析都是什么意思。人工智能大家族包含着丰富的内容,分清楚了每一项都是做什么的,才能选对路线。一、人工智能AI人工智能分为强人工智能和弱人工智能。强人工智能是通过计算机来构造复杂的、拥有与人类智慧同样本质特性的机器,它有着我们所有的感知(甚至比人更多),我们所有的理性,可以像我们一样思考,也就是电影里面的...

2018-12-11 17:09:10 210

原创 解决matplotlib中文标签乱码问题

2018-12-11 11:26:01 211

原创 python基础复习01----dos命令和数据类型

1. 程序为了完成某种特定功能,以某种程序设计语言编写的有序指令的集合。程序是指挥cpu工作的“工作手册”。计算机只能执行二进制代码,程序设计语言一般类似英文,想要让计算机理解你写的程序,必须把程序代码“翻译”成计算机能理解的二进制代码,根据翻译形式的不同,可以分为:编译 将程序代码翻译成计算机能理解的二进制目标代码,会生成特定的可执行代码(在window上是exe文件),可执行代码是二...

2018-12-10 20:17:28 116

原创 Python经典面试题(公司面试题图片)

1.http和https的区别和优缺点。1. http 的URL 以http:// 开头,https以https:// 开头。2. http 标准端口是80 ,https是443。3.https 协议需要到ca申请证书,http不需要。4.http 是超文本传输协议,信息是明文传输,https 则是具有安全性的ssl加密传输协议。5.http 的连接很简单,是无状态的,https协议是由...

2018-12-10 18:05:45 184

原创 不忘初心,专注Python!

随着计算机语言的发展,Python也跻身于语言排行的常青树。要是说Python是最目前最火爆的语言,应该没有人反驳吧。在当下的人工智能浪潮中,Python可以说是C位出道,成功引起大家的注意的了。国内不少大企业都已经使用Python如豆瓣、搜狐、金山、腾讯、盛大、网易、百度、阿里、淘宝、热酷、土豆、新浪、果壳等,国外的谷歌、NASA、Facebook、工业光魔、红帽等都在应用Python完成各...

2018-12-08 15:58:02 161

原创 python数据分析09_pandas数据聚合与分组运算

python数据分析08——pandas数据聚合与分组运算在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表, pandas提供了一个灵活高效的groupby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。一、GroupBy机制分组运算"split-apply-combine"(拆分-应用-合并)。第一个阶段,pandas对象(无论是Series、Dat...

2018-12-08 15:41:28 307 1

原创 python数据分析12_matplotlib绘图和可视化

python数据分析07–matplotlib绘图和可视化一、简介​ 信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。​ matplotlib是一个用于创建出版质量量图表的桌面绘图包(主要是2D方面)。matplotlib支持各种操作系统...

2018-12-08 14:57:27 401 1

python英语词汇

自己整理的python常用英语词汇,熟练掌握对大家的开发会有很大帮助,希望下载的朋友多多支持博客哦

2018-08-29

数仓规范文档.rar

本文档整理数据仓库搭建过程中的分层结构和数据库、表名、字段命名规范,对数仓开发、大数据开发有重要帮助,欢迎下载。有问题随时博客留言或者私信我。

2020-05-30

大数据分析--数据清洗和准备

在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理理、转换以及重塑。这些工作会占到分析师时间的80%或更更多。

2018-10-09

机器学习03--sklearn手写数字识别

Scikit learn 也简称sklearn,是机器器学习领域的python模块,sklearn包含了了很多机器器学习的方式

2018-11-08

陀螺仪调度部署和使用(美云智数).rar

整理美云智数调度工具部署和使用。美云智数,源自于财富世界500强企业美的集团信息科技,基于先进企业的业务实践,把管理实践软件产品化,为大中型企业提供智能制造、大数据、数字营销、移动办公、身份管理、财务与人力、IT咨询等领域的云产品与解决方案。

2020-05-14

java常用英语词汇

自己整理的java常用英语词汇,记熟了对编程帮助很大!免费奉献给大家,希望大家多多关注博客

2018-08-29

大数据分析---数据规整:聚合和重塑

在许多应⽤用中,数据可能分散在许多文件或数据库中,存储的形式也不不利利于分析,应采用聚合、合并、重塑数据的⽅方法进⾏行行处理理。

2018-10-09

Day4-pandas-Ⅲ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day3-pandas-Ⅱ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day7-pandas-Ⅳ:数据加载与透视表.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day1-IPython与Numpy.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day2-pandas-Ⅰ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day5-Scipy.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Airflow安装配置和web端插件安装

网络中关于airflow的资料比较少,这里做了一下整理: 1.整理centos7中airflow的安装配置 2.原生airflow默认不支持web端的拖拽实现dag,需要写python脚本,这里我做了一个插件安装说明,可以从网页端实现dag的编写

2020-07-01

azkaban安装包(web+excutor)

zkaban是一个Hadoop workflow定时调度工具,它解决了多个Hadoop任务单元之间的前后依赖关系。它提供了十分友好的用户界面,使用简单,容易上手。这里为大家提供azkaban2.5调度工具的全套安装包,具体安装步骤可以参考我的博客

2020-03-27

数据分析1--认识大数据工具

数据分析是人工智能的必备知识,算法、数据结构都要很高的要求,这些文档由浅入深给大家提供数据分析的知识,总共10个文档,后续会陆续更新

2018-09-25

Navicat 绿色版().rar

nivicat for mysql 可以支持mysql,不用安装直接点击运行文件运行就可,里面有注册码,第一次运行时填写一下即可,其他的不需填写

2019-06-27

navicat 连接oracle 11g驱动包

我的Navicat 版本是Navicat Premium 12 ,最近在windows环境中远程连接新项目的Oracle(11g版本)连接报错。我在之前项目中连接Oracle12是不报错的,也不需要做任何配置,直接选择basic或者TNS连接方式都可以顺利连接,刚开始也很恼火,查了资料后,加载这个驱动就行,最终解决,这里面还有连接hive和mysql的,大家也可以存一下

2020-05-28

机器学习02--K近邻算法

k近邻法(k-nearest neighbor, k-NN)是1967年年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据 后,将新的数据的每个特征与样本集中数据对应的特征进⾏行行⽐比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

2018-11-08

python面试笔试题(现场应聘收集)

题目都是照片格式的,都是面试python的同事和朋友提供,我统一整理的,题目类型涉及多方面,因为是面试所以拍摄角度有的会有点偏差,有需要的可以下载希望对大家有用!

2018-10-18

Day10-决策树与贝叶斯.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机、决策树、贝叶斯等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

数据分析--matplotlib绘图和可视化

信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。matplotlib是一个用于创建出版质量量图表的桌⾯面绘图包(主要是2D方面)。

2018-11-08

大数据分析--数据加载、存储

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,其中read_csv和read_table用得最多

2018-10-09

Day9-LinearRegression线性回归与逻辑斯蒂回归.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

机器学习面试题目1

python高级的知识点,包括当下的机器学习见面试题,这里做了3份,分别上传给大家,基本涉及到了相关要点,希望对大家有用

2018-10-18

Diango从基础到高级

Django框架的基础回顾以及高级应用,共三个文档,上传了一个重要的,这里不能设置免费分数,另外两个下载的朋友免费邮箱发送不单独上传了

2018-09-19

大数据分析---Pandas使用

pandas和Numpy还是有区别,这里主要包括两个主要数据结构:Series和DataFrame

2018-10-09

115个Java面试题和答案——终极(上).pdf

资料包含115道java常考面试题,共分为两个文档分为上下两册,内容来自北京著名iT培训机构,实战性强,欢迎下载!

2019-06-29

MySQL数据库学习之DDL学习

简单整理的Mysql的基础用法,一共6个PPT基本覆盖了DDL、DQL等五项内容,查询最为重点内容进行了分类讲解,欢迎下载,关注我的博客有额外福利哟

2018-09-08

MySQL性能优化之参数配置

mysql性能优化的配置过程,back_log值指出在MySQL暂时停⽌止回答新请求之前的短时间内多少个请求可以被存在堆栈中。也就是说,如果MySql的连接数据达到max_connections时,新来的请求将会被存在堆栈中,以等待某一连接释放资源,该堆栈的数量量即back_log,如果等待连接的数量量超过back_log,将不不被授予连接资源。

2018-11-08

笨办法学python

《笨办法学 Python》(Learn Python The Hard Way,简称 LPTHW)是 Zed Shaw 编写的一本Python 入门书籍。适合对计算机了解不多,没有学过编程,但对编程感兴趣的朋友学习使用。这本书以习题的方式引导读者一步一步学习编程,从简单的打印一直讲到完整项目的实现。也许读完这本书并不意味着你已经学会了编程,但至少你会对编程语言以及编程这个行业有一个初步的了解。

2018-10-18

机器学习03--决策树01

决策树(decision tree)是⼀一种基本的分类与回归方法。流程图就是⼀一个决策树,长方形代表判断模块(decision block),椭圆形成代表终⽌止模块 (terminating block),表示已经得出结论,可以终止运行行。从判断模块引出的左右箭头称作为分支(branch),它可以达到另一个判断模块或者终⽌止模块。

2018-11-08

机器学习09--决策树02

ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征,递归地构建决策树。从根结点(root node)开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不不同取值建立子节点;再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为⽌止,最后得到一个决策树。

2018-11-08

机器学习06--线性回归

回归的目的是预测数值型的⽬目标值。最直接的办法是依据输入写出一个目标值的计算公式

2018-11-08

数据分析2--NumPy

由浅入深交给你如何用python实现大数据开发和人工智能

2018-09-25

TensorFlow.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机,TensorFlow等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day8-KNN.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

集群搭建手册_CDH5.13.1版.docx

整理企业级Hadoop_CDH集群的搭建步骤和常见问题解决方案,包括环境配置,安装步骤和使用方法,最后将搭建过程中的常见错误做了总结和解释

2020-03-11

Day6-matplotlib.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

机器学习01--机器学习入门知识(数据科学 5 机器学习介绍)

何谓机器器学习就是把无序的数据转换成有⽤用的信息,海海量量数据抽取有价值的信息。创建并使用那些由学习数据⽽而得出的模型,预测建模或数据挖掘。用已存在的数据来开发可⽤用来对新数据预测多种可能结果的模型。第一个文档让大家对机器学习有个初步认识

2018-11-08

HDFS文件中的表名变成了大写,是什么原因?

发表于 2020-10-14 最后回复 2020-10-14

Airflow请教

发表于 2020-06-03 最后回复 2020-06-03

跳槽除了薪资生无可恋

发表于 2020-05-26 最后回复 2020-05-28

kettle连接数据库报错:java.lang.StackOverflowError

发表于 2020-05-19 最后回复 2020-05-19

不撸代码继续写诗―《归途》

发表于 2020-05-09 最后回复 2020-05-10

五一了,不撸代码写首诗怎么样

发表于 2020-05-04 最后回复 2020-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除