自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

清平の居士馆

what we can do is keep moving

  • 博客(17)
  • 资源 (43)
  • 论坛 (6)
  • 收藏
  • 关注

原创 Python十大优雅代码

本文精心筛选了最能展现 Python 语法之精妙的十个知识点,并附上详细的实例代码。如能在实战中融会贯通、灵活使用,必将使代码更为精炼、高效,同时也会极大提升代码B格,使之看上去更老练,读起来更优雅。1. for - else什么?不是 if 和 else 才是原配吗?No,你可能不知道,else 是个脚踩两只船的家伙,for 和 else 也是一对,而且是合法的。>>> ...

2019-12-07 11:35:17 831 1

原创 MySQL将查询结果插入或者更新到表中

一、insert into 查询结果基础语法INSERT INTO 目标表 SELECT * FROM 来源表;1.全量  比如要将 articles 表插入到 newArticles 表中,则是:  INSERT INTO newArticles SELECT * FROM articles;2.指定字段  如果只希望导入指定字段,可以用这种方法:  INSERT ...

2019-12-31 16:17:45 772 2

原创 Hive函数05_细说CAST函数(数据类型转化)

一、Hive的隐式转换Hive内置数据类型由基本数据类型和复杂数据类型组成,基础类型例如下图所示的几种今天的话题是研究Hive数据类型之间的转换。hive同java一样,也包括隐式转换(implicit conversions)和显式转换(explicitly conversions)。我们举一个numeric类型的数隐式转换的例子,假如一个数据类型是INT型,另一个是SMALLINT类型...

2019-12-31 11:43:51 1448

原创 MySQL实现累计求和

思路:其实实现累计的核心就是将相同的表在做一次关联,让里面的值作为比较参数。一、按天累加需求1:合同表按天汇总ROW_ID数据库:mysql 5.7表名:lnk_agreement字段:created 创建时间;row_id 行IDSELECT DATE_FORMAT( created, '%Y-%m-%d' ) AS day1, count( row_id ) AS tota...

2019-12-11 17:58:14 1435

原创 数据预处理的步骤

数据清理–>数据集成 —>数据归约–>数据变换1.数据清理就是处理脏数据,包括填写缺失值、清除噪声数据(降噪)、纠正不一致数据、识别或删除离群点等。常用工具例如:ETL工具2.数据集成(data integration)集成多个数据库数据。将数据由多个数据源合并成一个一致数据存储,如:数据仓库。【注意】不同数据库相同字段可能具有不同的名字,导致不一致和冗余,所以在为数仓...

2019-12-08 13:26:54 239

原创 SQL实现多字段同时去重

首先创建一个表结构,其中数据如下:方法一:多次分组在去重查询时,distinct关键字只能返回它的目标字段,而无法同时返回其它字段,要想去重多字段,可以利用group by按照多列进行嵌套分组。根据去重的字段进行分组方法二:拼接说到去重,大家想到的肯定是distinct这个关键字,但这个关键字他只能对一个字段进行去重,那么如何同时根据这三个字段去重呢?办法就是把这三个字段拼接成一个字段...

2019-12-07 16:29:16 1516

原创 SQL中join连接查询时条件放在on后与where后的区别

数据库在通过连接两张或多张表来返回记录时,都会生成一张中间的临时表,然后再将这张临时表返回给用户。在使用left jion时,on和where条件的区别如下:1、 on条件是在生成临时表时使用的条件,它不管on中的条件是否为真,都会返回左边表中的记录。2、where条件是在临时表生成好后,再对临时表进行过滤的条件。这时已经没有left join的含义(必须返回左边表的记录)了,条件不为真的...

2019-12-07 13:44:27 108

原创 SqlServer中with(nolock)详解

所有Select加 With (NoLock)解决阻塞死锁,在查询语句中使用 NOLOCK 和 READPAST有关 NOLOCK 和 READPAST的一些技术知识点:对于非银行等严格要求事务的行业,搜索记录中出现或者不出现某条记录,都是在可容忍范围内,所以碰到死锁,应该首先考虑,我们业务逻辑是否能容忍出现或者不出现某些记录,而不是寻求对双方都加锁条件下如何解锁的问题。NOLOCK 和...

2019-12-05 15:54:24 123

原创 SqlServer时间函数总结

1.datepartDATEPART() 函数用于返回日期/时间的单独部分,比如年、月、日、小时、分钟等等。--2018select datepart(YEAR,GETDATE()) --8(年份)select datepart(MONTH,GETDATE()) --6(月份)select datepart(DAY,GETDATE())基本语法DATEPART(datep...

2019-12-05 15:20:08 144

原创 Hive函数04_字符串函数整理(拼接、截取、替换、转换、字符查找等)

1. 字符串长度函数:length语法: length(string A)返回值: int说明:返回字符串A的长度举例:hive> select length('abcedfg') from lxw_dual;7### 2. 字符串反转函数:reverse语法: reverse(string A)返回值: string说明:返回字符串A的反转结果举例:hive>...

2019-12-05 13:58:34 512

原创 Hive函数03_字符串分割切片截取函数

一、split首先要讲的是split函数,这个函数的作用是对字符窜进行分割,基本用法为:split(string str, string pat) ,返回值为一个数组array,因此要取值得话需要用到切片,即[数字],其中第一个str是要切分的字符串,第二个pat是以什么字符进行切割语法: split(string str, string pat) 返回值: array 说明: 按照pat...

2019-12-05 13:56:04 1757

原创 MySQL字符串截取总结:left()、right()、substring()、substring_index()

在实际的项目开发中有时会有对数据库某字段截取部分的需求,这种场景有时直接通过数据库操作来实现比通过代码实现要更方便快捷些,mysql有很多字符串函数可以用来处理这些需求,如Mysql字符串截取总结:left()、right()、substring()、substring_index()。一.从左开始截取字符串用法:left(str, length),即:left(被截取字符串, 截取长度)S...

2019-12-04 16:52:00 151

原创 SQL显示查询结果的前10条(4种数据库)

MYSQL:[sql] view plain copyselect * from tbl limit 10; ORACLE:[sql] view plain copyselect * from tbl where rownum<=10; SQL SERVER:[sql] view plain copyselect top 10 * from tbl SYBASE...

2019-12-04 14:54:19 3147

原创 SQL server 中的dbo、guest

最近新项目中接触SQL sever 数据库,可视化连接的过程中发现在数据库下存在两个特殊的类似数据库的层级dbo、guest查了一下资料这两者的具体含义:dbodatabase owner数据库的创建者,创建该对象的用户DBO是每个数据库的默认用户,具有所有者权限,即DbOwner ,通过用DBO作为所有者来定义对象,能够使数据库中的任何用户引用而不必提供所有者名称。比如:你以Use...

2019-12-04 14:19:14 799

原创 Pandas学习笔记01

Pandas学习笔记01一、简介1.基本概念pandas 是Python Data Analysis Library 的简称, pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具pandas提供了大量能使我们快速处理数据的函数和方法它使Python成为强大而高效的数据分...

2019-12-03 17:46:31 112

原创 机器学习算法几种常见步骤(附项目案例)

一、一般使用机器学习算法遵循的步骤摘自《机器学习实战》,感觉思路比较清晰1.收集数据。可以使用很多种方法收集样本数据,例如制作网络爬虫从网站上爬取数据,从RSS反馈或者API中得到信息,设备发送过来的实测数据(风速,血糖等)。2.准备输入数据。得到数据之后,还必须确保数据格式符合要求,使用标准数据格式后可以融合算法和数据源,方便匹配操作。此外还需要为机器学习准备特定的数据格式,如某些算...

2019-12-02 17:53:31 854

原创 Python列表推导式详解(优雅代码必会)

列表推导式提供了从序列创建列表的简单途径。通常应用程序将一些操作应用于某个序列的每个元素,用其获得的结果作为生成新列表的元素,或者根据确定的判定条件创建子序列。每个列表推导式都在 for 之后跟一个表达式,然后有零到多个 for 或 if 子句。返回结果是一个根据表达从其后的 for 和 if 上下文环境中生成出来的列表。如果希望表达式推导出一个元组,就必须使用括号。1.简单运用先定义一个简单...

2019-12-01 11:05:17 238

python英语词汇

自己整理的python常用英语词汇,熟练掌握对大家的开发会有很大帮助,希望下载的朋友多多支持博客哦

2018-08-29

数仓规范文档.rar

本文档整理数据仓库搭建过程中的分层结构和数据库、表名、字段命名规范,对数仓开发、大数据开发有重要帮助,欢迎下载。有问题随时博客留言或者私信我。

2020-05-30

大数据分析--数据清洗和准备

在数据分析和建模的过程中,相当多的时间要用在数据准备上:加载、清理理、转换以及重塑。这些工作会占到分析师时间的80%或更更多。

2018-10-09

机器学习03--sklearn手写数字识别

Scikit learn 也简称sklearn,是机器器学习领域的python模块,sklearn包含了了很多机器器学习的方式

2018-11-08

陀螺仪调度部署和使用(美云智数).rar

整理美云智数调度工具部署和使用。美云智数,源自于财富世界500强企业美的集团信息科技,基于先进企业的业务实践,把管理实践软件产品化,为大中型企业提供智能制造、大数据、数字营销、移动办公、身份管理、财务与人力、IT咨询等领域的云产品与解决方案。

2020-05-14

java常用英语词汇

自己整理的java常用英语词汇,记熟了对编程帮助很大!免费奉献给大家,希望大家多多关注博客

2018-08-29

大数据分析---数据规整:聚合和重塑

在许多应⽤用中,数据可能分散在许多文件或数据库中,存储的形式也不不利利于分析,应采用聚合、合并、重塑数据的⽅方法进⾏行行处理理。

2018-10-09

Day4-pandas-Ⅲ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day3-pandas-Ⅱ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day7-pandas-Ⅳ:数据加载与透视表.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day1-IPython与Numpy.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day2-pandas-Ⅰ.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day5-Scipy.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Airflow安装配置和web端插件安装

网络中关于airflow的资料比较少,这里做了一下整理: 1.整理centos7中airflow的安装配置 2.原生airflow默认不支持web端的拖拽实现dag,需要写python脚本,这里我做了一个插件安装说明,可以从网页端实现dag的编写

2020-07-01

azkaban安装包(web+excutor)

zkaban是一个Hadoop workflow定时调度工具,它解决了多个Hadoop任务单元之间的前后依赖关系。它提供了十分友好的用户界面,使用简单,容易上手。这里为大家提供azkaban2.5调度工具的全套安装包,具体安装步骤可以参考我的博客

2020-03-27

数据分析1--认识大数据工具

数据分析是人工智能的必备知识,算法、数据结构都要很高的要求,这些文档由浅入深给大家提供数据分析的知识,总共10个文档,后续会陆续更新

2018-09-25

Navicat 绿色版().rar

nivicat for mysql 可以支持mysql,不用安装直接点击运行文件运行就可,里面有注册码,第一次运行时填写一下即可,其他的不需填写

2019-06-27

navicat 连接oracle 11g驱动包

我的Navicat 版本是Navicat Premium 12 ,最近在windows环境中远程连接新项目的Oracle(11g版本)连接报错。我在之前项目中连接Oracle12是不报错的,也不需要做任何配置,直接选择basic或者TNS连接方式都可以顺利连接,刚开始也很恼火,查了资料后,加载这个驱动就行,最终解决,这里面还有连接hive和mysql的,大家也可以存一下

2020-05-28

机器学习02--K近邻算法

k近邻法(k-nearest neighbor, k-NN)是1967年年由Cover T和Hart P提出的一种基本分类与回归方法。它的工作原理理是:存在一个样本数据集合,也称作为训练样本集,并且样本集中每个数据都存在标签,即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据 后,将新的数据的每个特征与样本集中数据对应的特征进⾏行行⽐比较,然后算法提取样本最相似数据(最近邻)的分类标签。一般来说,我们只选择样本数据集中前k个最相似的数据,这就是k-近邻算法中k的出处,通常k是不大于20的整数。最后,选择k个最相似数据中出现次数最多的分类,作为新数据的分类。

2018-11-08

python面试笔试题(现场应聘收集)

题目都是照片格式的,都是面试python的同事和朋友提供,我统一整理的,题目类型涉及多方面,因为是面试所以拍摄角度有的会有点偏差,有需要的可以下载希望对大家有用!

2018-10-18

Day10-决策树与贝叶斯.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机、决策树、贝叶斯等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

数据分析--matplotlib绘图和可视化

信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。matplotlib是一个用于创建出版质量量图表的桌⾯面绘图包(主要是2D方面)。

2018-11-08

大数据分析--数据加载、存储

pandas提供了一些用于将表格型数据读取为DataFrame对象的函数,其中read_csv和read_table用得最多

2018-10-09

Day9-LinearRegression线性回归与逻辑斯蒂回归.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

机器学习面试题目1

python高级的知识点,包括当下的机器学习见面试题,这里做了3份,分别上传给大家,基本涉及到了相关要点,希望对大家有用

2018-10-18

Diango从基础到高级

Django框架的基础回顾以及高级应用,共三个文档,上传了一个重要的,这里不能设置免费分数,另外两个下载的朋友免费邮箱发送不单独上传了

2018-09-19

大数据分析---Pandas使用

pandas和Numpy还是有区别,这里主要包括两个主要数据结构:Series和DataFrame

2018-10-09

115个Java面试题和答案——终极(上).pdf

资料包含115道java常考面试题,共分为两个文档分为上下两册,内容来自北京著名iT培训机构,实战性强,欢迎下载!

2019-06-29

MySQL数据库学习之DDL学习

简单整理的Mysql的基础用法,一共6个PPT基本覆盖了DDL、DQL等五项内容,查询最为重点内容进行了分类讲解,欢迎下载,关注我的博客有额外福利哟

2018-09-08

MySQL性能优化之参数配置

mysql性能优化的配置过程,back_log值指出在MySQL暂时停⽌止回答新请求之前的短时间内多少个请求可以被存在堆栈中。也就是说,如果MySql的连接数据达到max_connections时,新来的请求将会被存在堆栈中,以等待某一连接释放资源,该堆栈的数量量即back_log,如果等待连接的数量量超过back_log,将不不被授予连接资源。

2018-11-08

笨办法学python

《笨办法学 Python》(Learn Python The Hard Way,简称 LPTHW)是 Zed Shaw 编写的一本Python 入门书籍。适合对计算机了解不多,没有学过编程,但对编程感兴趣的朋友学习使用。这本书以习题的方式引导读者一步一步学习编程,从简单的打印一直讲到完整项目的实现。也许读完这本书并不意味着你已经学会了编程,但至少你会对编程语言以及编程这个行业有一个初步的了解。

2018-10-18

机器学习03--决策树01

决策树(decision tree)是⼀一种基本的分类与回归方法。流程图就是⼀一个决策树,长方形代表判断模块(decision block),椭圆形成代表终⽌止模块 (terminating block),表示已经得出结论,可以终止运行行。从判断模块引出的左右箭头称作为分支(branch),它可以达到另一个判断模块或者终⽌止模块。

2018-11-08

机器学习09--决策树02

ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征,递归地构建决策树。从根结点(root node)开始,对结点计算所有可能的特征的信息增益,选择信息增益最大的特征作为结点的特征,由该特征的不不同取值建立子节点;再对子结点递归地调用以上方法,构建决策树;直到所有特征的信息增益均很小或没有特征可以选择为⽌止,最后得到一个决策树。

2018-11-08

机器学习06--线性回归

回归的目的是预测数值型的⽬目标值。最直接的办法是依据输入写出一个目标值的计算公式

2018-11-08

数据分析2--NumPy

由浅入深交给你如何用python实现大数据开发和人工智能

2018-09-25

TensorFlow.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机,TensorFlow等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

Day8-KNN.xmind

整理python机器学习常用算法,里面涵盖基础操作,案例解析和注意事项,包括knn算法、逻辑斯蒂回归、线性归回、岭回归、SVM支持向量机等,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

集群搭建手册_CDH5.13.1版.docx

整理企业级Hadoop_CDH集群的搭建步骤和常见问题解决方案,包括环境配置,安装步骤和使用方法,最后将搭建过程中的常见错误做了总结和解释

2020-03-11

Day6-matplotlib.xmind

整理python数据分析库的重要知识,包括ipython、numpy、pandas(重要,包括3个文档)、scipy包、matplotlib图形绘制,共计7个文档,里面涵盖基础操作,案例解析和注意事项,因不能同时上传多个文件,所以逐一上传,如果下载文档的博友有问题可以随时咨询我,保证物有所值

2020-01-13

机器学习01--机器学习入门知识(数据科学 5 机器学习介绍)

何谓机器器学习就是把无序的数据转换成有⽤用的信息,海海量量数据抽取有价值的信息。创建并使用那些由学习数据⽽而得出的模型,预测建模或数据挖掘。用已存在的数据来开发可⽤用来对新数据预测多种可能结果的模型。第一个文档让大家对机器学习有个初步认识

2018-11-08

HDFS文件中的表名变成了大写,是什么原因?

发表于 2020-10-14 最后回复 2020-10-14

Airflow请教

发表于 2020-06-03 最后回复 2020-06-03

跳槽除了薪资生无可恋

发表于 2020-05-26 最后回复 2020-05-28

kettle连接数据库报错:java.lang.StackOverflowError

发表于 2020-05-19 最后回复 2020-05-19

不撸代码继续写诗―《归途》

发表于 2020-05-09 最后回复 2020-05-10

五一了,不撸代码写首诗怎么样

发表于 2020-05-04 最后回复 2020-05-08

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除