数据清洗1000字论文

数据清洗1000字论文

问:数据清洗的意义
  1. 答:数据清理也称为数据清理,用于检测和纠正(或删除)记录集,表或数据库中的不准确或损坏的记录。广义上讲,数据清除或清除是指识别不正确,不完整,不相关,不准确或其他有问题的数据部分,然后替换,修改或删除该派派租脏数据。
    的意义:简单来说,通常认为数据清理是无用途的部分(不完整,不影响结果的数据)。但这是一个有价值的过程,可以帮助企业节省时间并提高效率。
    数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
    数据清洗羡迅从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类。数据清洗是尘兆与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成。
问:数据清洗经验分享:什么是数据清洗 如何做好
  1. 答:如何去整理分析数据圆兄,其中一个很重要的工作就是数据清洗。数据清洗是指对“脏”数据进行对应方式的处理,脏在这里意味着数据的质量不够好,会掩盖数据的价值,更会对其后的数据分析带来不同程度的影响。有调查称,一个相关项目的进展,80%的时间都可能会花费在这个工作上面。因为清洗必然意味着要对数据有一定的理解,而这个工作是自动化或者说计算机所解决不了的难题,只能靠人脑对数据进行重新审查和校验,找到问题所在,并通过一些方法去对对应的槐如数据源进行重新整理。
    清洗数据的方式大概可以分为以下几类,筛选、清除、补充、纠正,例如:
    去除不需要的字段橘明袭:简单,直接删除即可。但要记得备份。
    填充缺失内容:以业务知识或经验推测填充缺失值;以同一指标的计算结果(均值、中位数、众数等)填充缺失值;以不同指标的计算结果填充缺失值。
    格式不一致:时间、日期、数值、全半角等显示格式不一致,这种问题通常与输入端有关,在整合多来源数据时也有可能遇到,将其处理成一致的某种格式即可。例如一列当中储存的是时间戳,某些跨国公司的不同部门在时间的格式上有可能存在差别,比如2019-01-12,2019/01/12等,这时候需要将其转换成统一格式。
    内容中有不需要的字符:某些情况使得有些数据中包含不需要的字符。例如从 爬到的数据会包含一些编码解码的字符如%22,这种情况下,需要以半自动校验半人工方式来找出可能存在的问题,并去除不需要的字符。
    数据提取:例如咱们只有用户身份证的信息,但是需要用户生日一列,这时候我们可以直接从身份证号中按照一定规律将生日信息提取出来。
  2. 答:1. 获取:主要来源包括——自有(关系数据库同步)、自采(探针/爬虫等手段)、外购(合法的白色数据、非法的灰色数据、违法的黑色数据);涉及的关键点:数据的维度定义;探针节点的选择及采集方式(依据具体业务而定,一般无非是部署在数据产生者随路式或者数据产生者必经路径上蹲点式两种,各有优劣);外购数据源的选择及价值识别(可信度等)。数据来源两种,移动式(某德地图、某度地图这一类)和定点式(测速摄像头、监控摄像头),假定都是未分析的原始数据。
    2. 清洗入库:对数据源进行清洗及其他所需的预处胡迟正理入库。本文的重点,见正文。
    3. 分析、给数据打标签以用于后续的挖掘:基于业务需求选择所需的字段并裤悔分旦扮析,比如哪些路段拥堵、拥堵程度如何。
    4. 挖掘:这就看开脑洞的程度了,比如红绿灯时长优化预测、车辆流向优化(禁左、禁右、单行等)效果预测这种相对简单的的以及未来突发交通热点预测等等各种复杂的。
问:数据仓库中的数据清洗
  1. 答:在原始数据层ODS层存放原始数据举咐,直接加载原始日志、数据,保留数据的本貌不进行处理
    操作主要在明细数据DWD层中进行
    清洗操作主要有:
    1.简单的,比如表和字段命名
    2.去除悉脊空值,默认值填充,比如性别为空的都补0
    3.超出范围的数正陆纯据再处理
数据清洗1000字论文
下载Doc文档

猜你喜欢