DC学院学习笔记(二十四):养成数据分析的思维
最后三节课无关代码,所以也没有什么可以实践的。就直接用老师的课堂笔记了。 数据分析流程 问题定义是整个数据分析实施的前提,它甚至关系到了项目的成败,一个优秀的问题定义对于整个项目来说等于成功了一半。所以怎么去制定一个优秀的数据分析问题变成了至关重要的环节。 数据分析思维 确定数据分析的问题 一个优秀...
DC学院学习笔记(十五):验证型数据分析
一些概念 1.随机变量:是试验结果的函数,是定义在样本空间$\Omega$上的实值函数:$X=X(\omega)$,随机变量一般用大写拉丁字母或小写希腊字母来表示 2.概率分布 关于随机变量,有一个非常值得关心的特性就是概率分布 概率:是一个在0-1之间的实数,度量随机事件发生的可能性,通常用于来量...
DC学院学习笔记(十三):探索性数据分析实践
还是用iris数据集举例,一起来完成对它的探索性数据分析吧!(也就是画个图,瞅瞅长的啥样子) import pandas iris = pandas.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/iris/iri...
DC学院学习笔记(十二):数据分析—探索型数据分析
终于学习到课程的核心部分了——数据分析了! 数据分析三大类型 探索型数据分析 验证型数据分析 预测型数据分析 数据科学的流程: 探索型数据分析的作用 与数据清理相辅相成 支持验证型数据分析、预测型数据分析 探索型数据分析的常用图表 条形图、直方图 饼图(饼图在探索型数据分析中使用较少,原因是肉眼对于...
DC学院数据分析学习笔记(四):爬虫的一些高级技巧
继续爬虫之旅!做完整个爬虫过程之后,成就感爆棚<( ̄︶ ̄)↗[GO!] 三大爬虫技巧 1. 设定 程序休止的时间 n为想要实现的时间间隔 import time time.sleep(n) 2. 设定代理 #使用urllib.request的两个方法进行代理的设置 proxy = urlreq...
DC学院数据分析学习笔记(三):基于HTML的网页爬虫
终于可以用python实践一下html的爬虫了,之前零散的也学过一些,这次希望能通过在DC学院的学习慢慢深入的了解爬虫的理论知识。OK,来看今天的数据分析学习笔记! 希望能有所收获( ̄︶ ̄)↗ from bs4 import BeautifulSoup html_doc = """ <htm...
DC学院数据分析学习笔记(二):爬虫需要的HTML
关于html,之前也稍微了解过一些,又碰到了,那么就系统的学习一下 HTML 超文本标记语言(HyperText Markup Language,简称:HTML)是一种用于创建网页的标准标记语言。 什么是 HTML? HTML 是用来描述网页的一种语言。 HTML 指的是超文本标记语言 (Hyper...
DC学院数据分析学习笔记(一):获取数据
在DC学院上买了个数据分析的课程,OK!说干就干,记录下学习的笔记,希望能有所收获( ̄︶ ̄)↗ 数据获取的方式 开放数据集 网站爬虫 开放数据集 科研数据共享 数据算法竞赛:DC学院,天池,kaggle 政府公司分享 个人分享 这个没什么好说的,科学上网,国外网站多的是! 网站爬虫 建立网站连接 爬...
本页面内关键词为智能算法引擎基于机器学习所生成,如有任何问题,可在页面下方点击"联系我们"与我们沟通。