查看原文
其他

我在浙江大学的分享:《数据从业者的自我修养》

傅一平 与数据同行 2022-05-08

这是傅一平的第359篇原创



【与数据同行】已开通综合、数据仓库、数据分析、产品经理、数据治理及机器学习六大专业群,加微信号frank61822702 为好友后入群。新开招聘交流群,请关注【与数据同行】公众号,后台回复“招聘”后获得入群方法。


正文开始

有好友邀请我去做浙江大学数据“悦”读大赛的评委,顺便让我做一次大数据的主题演讲,我问分享啥呢,好友说那就讲讲数据职场相关的吧,然后就有了这次分享。


演讲PPT包括六大部分,包括引言、数据领域基本概念、数据的目标是什么、数据岗位如何理解、数据技术全景视图及进入职场前的准备,主要面向想进入大数据行业的大学生,也适合于对数据感兴趣的人士,PPT写得简单,权当抛砖引玉。



一、引言



这页PPT我主要想表达的是:工作思维和学生思维的区别。


网传有个例子也很形象。老板要在墙上挂副画,让你去买个电钻,你跑到楼下,发现店关门了,你跟老板说,店关门了,我没有买到,这是答案,不是结果。你找到物业让他打个洞,这是老板要的结果。


二、数据领域基本概念


1、数据


大数据这个词容易望文生义,其实在大数据的4V特征中,多样性才是最重要的特性,芝麻信用的价值就在于维度够多,比如身份特质中的就业类信息,如果知道你在哪个单位工作,这个单位显然可以为你的信用背书。


高速度也是很关键的特征,我们以前大量的分析都是截面分析,抛弃了时间要素,事实上,数据的时间维度代表了一种价值,比如高速路打高尔夫球是一种违规行为,实时预警和隔天预警产生的价值则完全不同。


2、计算


大数据相对于小数据有4V的特征,为了从大数据中挖掘出价值,需要针对大数据的4V特点给出适配的技术解决方案:


从大容量的角度看,需要从传统的小型机(Scale up)架构升级为分布式架构(Scale out)。


从多样性的角度看,需要突破传统关系型数据库的限制(比如ACID),采取NoSQL数据库来高效处理非结构化等数据。


从高速度的角度看,需要从原来的批处理架构升级到流处理架构,支撑实时查询、实时统计等应用场景。


从高价值的角度看,需要采取更低成本的软件解决方案,比如从传统的商用软件逐步过渡到开源软件。


3、组织



采集进来的原始数据是杂乱无章的,只有通过构建数据模型,将数据有序的组织和存储起来之后,这些数据才能得到高性能、低成本、高效率、高质量的使用,数据仓库建模的价值体现在四个方面:


质量:打造标准层,实现业务和数据的准确映射,提升应用的有效性。


效率:打造公共层,实现数据的高内聚,松耦合,提升应用支撑速度。


性能:打造精简层,实现数据的过滤和整合,提升应用查询效率。


鲁棒:打造中间层,实现应用和数据的解耦,提升应用的连续性。


4、算法


机器学习主要分为三大类:


监督学习:基于现有的经验(打标签)去发现规律,然后去预测未来,比如机器通过看很多猫的照片然后就会识别其它的猫


无监督学习:没有任何经验,自动发现规律,比如通过客户聚类自动发现一些特殊群体


强化学习:某个环境下的自主个体通过与环境的互动而不断改进它的行为以获得最大的累积回报,比如下棋,无人机


狭义的人工智能可以分为四大类别:


深度学习:将现实世界表示为嵌套的层次概念体系,由较简单概念间的联系定义复杂概念,从一般抽象概括到高级抽象表示,从而获得强大的性能与灵活性,比如图片的识别,先识别边缘,再识别耳朵,再识别脸


强化学习:通过对未知环境一边探索一边建立环境模型以及学得一个最优策略,无论是人类学走步、鹦鹉走钢丝还是无人驾驶汽车都应用到了强化学习


对抗学习:生成对抗网络通过生成网络与判别网络两个神经网络相互博弈的方式进行学习,生成网络生成真假难辨的数据,尽可能让判别网络无法识别真假,判别网络则尽可能将真相识别出来,直到判别网络无法判断生成网络的输出结果是否真实


迁移学习:迁移学习顾名思义就是就是把已学训练好的模型参数迁移到新的模型来帮助新模型训练,一个会打乒乓球的人比没有经验的人更容易接受网球;会骑自行车的人能更快学习骑电动车等等,迁移学习就在你身边


深度学习是一种特殊的机器学习,在机器学习中特征选择部分一般需要人的先验知识的介入来设计好的特征提取方法,比如判断一张图片是否是猫,首先要定义一些特征,比如该动物是否有胡须、耳朵;如果有耳朵,那么耳朵是否是尖的,然后让系统识别出在动物中是否有这些重要特征,而深度学习会一次性完成这些任务,深度学习会自动找到对分类任务重要的特征,而机器学习不得不人工指定。


5、思想


舍恩伯格所写的经典书籍《大数据时代》是一本大数据思想的启蒙书,它的全体数据、混杂性及相关关系思想是实用主义的一种代表,但也不是绝对的,需要辩证的去理解。



三、数据的目标是什么


数据的目标是驱动业务,需要经历从数据到信息、从信息到知识、再从知识到智慧的过程,拥有知识不代表拥有智慧,智慧是选择知识(多元模型)的能力。



四、数据岗位如何理解


将数据加工成智慧,依赖于数据开发、数据分析、数据产品经理等岗位人员,每类岗位人员有着自己使命,但也有着独特的挑战,功夫往往在诗外。









五、数据技术全景视图







六、进入职场前的准备




一张图看懂信息化和数字化的本质区别

我们有多少机会将数据、信息、知识转化为智慧?

有一种信息化的死敌,叫数据打通!

数据中的商机

大数据的过去、现在和未来:万字长文解读《大数据四十二条》

从吴军的“算法的油水就那么多”说起!

《长安十二时辰》的大案牍术可不是什么“穿越版”的大数据!

大数据在5G时代会有什么不同?

从计划到市场,精准营销也许到了该改变的时候了!

有了大数据这个工具,“社会科学”也许可以变得更让人信服!

如何进一步理解精准营销的内涵?

我如何用统计学指导自己的生活?

谈谈大数据时代的《别被算法困在“信息茧房”》

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存