动手学数据分析task01 数据加载及探索性数据分析

news/2024/7/5 23:51:02

第一章第一节 数据加载——载入数据

  • 数据集下载 https://www.kaggle.com/c/titanic/overview
  • 数据集采用的是kaggle竞赛的官方数据集

在这里插入图片描述

把数据分块读取(chunksize)

在这里插入图片描述

更改列名

  • 可以选择直接全部更改,甚至可以制定某一行作为第一列的索引列

在这里插入图片描述

初步观察

查看前10行和后15行的数据

在这里插入图片描述
在这里插入图片描述

查看基本数据特征

在这里插入图片描述
在这里插入图片描述

数据最基础操作——判空

  • 以前五行为例:
    在这里插入图片描述

保存数据到新的csv

在这里插入图片描述

第一章第二节 数据加载——pandas基础

pandas中有两个数据类型DateFrame和Series

series如下:

在这里插入图片描述

dataframe如下:

在这里插入图片描述

查看全部列名

在这里插入图片描述

查看某一列的所有取值

在这里插入图片描述
在这里插入图片描述

删除某一列

del test_1['a']

在这里插入图片描述

选择性忽视某些列

  • 其中有一个属性为inplace,默认情况下是FALSE,如果设置为TRUE,表明进行对原来数据的覆盖

在这里插入图片描述

对列属性的条件筛选

年龄小于10岁的

df[df["Age"]<10].head(3)

在这里插入图片描述

以"Age"为条件,将年龄在10岁以上和50岁以下的乘客信息显示出来,并将这个数据命名为midage

midage = df[(df["Age"]>10)& (df["Age"]<50)]
midage.head(3)

在这里插入图片描述

reset_index

  • 数据清洗时,会将带空值的行删除,此时DataFrame或Series类型的数据不再是连续的索引,可以使用reset_index()重置索引。

选择多行多列数据

midage的数据中第100,105,108行的"Pclass","Name"和"Sex"的数据显示出来

  • ① 使用loc方法
midage.loc[[100,105,108],['Pclass','Name','Sex']] 

在这里插入图片描述

  • ② 使用iloc方法
midage.iloc[[100,105,108],[2,3,4]]

在这里插入图片描述

第一章第三节 数据加载——探索性数据分析

按照某一列进行升序、降序排列

frame.sort_values(by='c', ascending=True)
  • by参数指向要排列的列,ascending参数指向排序的方式(升序还是降序)

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.niftyadmin.cn/n/4115474.html

相关文章

想飞上天和xenserver肩并肩(一)

苦于坑爹的Mac硬盘虽然SSD但是容量也太小了&#xff0c;在平时需要同时开多台虚拟机&#xff0c;内存还勉强可以&#xff0c;但是硬盘是硬伤&#xff0c;于是把台式机做一下虚拟化成了我的首要选择。首先想到的是虚拟化里边的龙头老大VM&#xff0c;但是在认真研究过vm之后发现…

动手学数据分析task02:数据清洗及特征处理

数据清洗 为什么进行数据清洗&#xff1f; 我们拿到的数据通常是不干净的&#xff0c;所谓的不干净&#xff0c;就是数据中有缺失值&#xff0c;有一些异常点等&#xff0c;需要经过一定的处理才能继续做后面的分析或建模&#xff0c;所以拿到数据的第一步是进行数据清洗 缺…

Windows 10 部署Enterprise Solution 5.5

Windows 10正式版发布以后&#xff0c;新操作系统带来了许多的变化。现在新购买的电脑安装的系统应该是Windows 10。与当初用户不习惯Windows 7&#xff0c;购买新电脑后第一个想做的事情就是重装成XP&#xff0c;估计现在的Windows 10新用户也有这种冲动(安装Windows 7)。界面…

wordpress博客遇到的那些坑(一)xmlrpc漏洞

2019独角兽企业重金招聘Python工程师标准>>> 十一假期结束之后&#xff0c;发现自己的博客不时出现数据库连接失败&#xff0c;经检查是mysql停止运行了。之前出现过这样的情况&#xff0c;但是没有那么频繁&#xff0c;于是就写了一个检查mysql进程的脚本&#xff…

动手学数据分析task03:数据重构

数据重构 数据连接 数据重构方法一&#xff1a;concat pd.concat([text_left_up,text_right_up],axis1) axis1:按照行连接数据重构方法二&#xff1a;使用DataFrame自带的方法join方法和append 行用join&#xff0c;列用append; 数据重构方法三&#xff1a;使用Panads的mer…

谈线性变换

首先&#xff0c;先明确向量的基和坐标 当然&#xff0c;也可以表示成更简洁的形式 &#xff0c;其中&#xff0c;现在出现一个线性变换&#xff0c;线性变换一定满足两个条件&#xff1a; &#xff0c;那么&#xff0c;线性变换能不能用个矩阵来代替呢&#xff1f;大部分情况是…

java文件上传路径缺少\的解决办法

今天做一个文件上传&#xff0c;取路径&#xff0c;然后读取文件的时候&#xff0c;发现存储到MySQL的路径是这样的&#xff1a; 然后&#xff0c;发现&#xff0c;我的java文件显示的是正确的&#xff1a; 但是&#xff1a;放到path里面&#xff0c;存到MySQL里面就缺少分割线…

Ionic start 创建项目报错

ionic 2 创建项目的时候报错如上&#xff1b;本人试了好多方法&#xff0c;npm&#xff0c;cordova&#xff0c;ionic都尝试重装了。但是依旧无效&#xff0c;ionic start 的时候生成ionic1项目时没问题&#xff0c;但升ionic2 的时候有问题。我估计是以为网络问题&#xff0c;…