很多人觉得大数据科学与技术就是一个敲代码的专业,其实这个理解太片面了。如果你真的打算进这个领域,你会发现它是一个数学、计算机科学和行业经验的混合体。简单来说,这个专业要学的东西可以拆成四块:怎么存数据、怎么算数据、怎么看数据,以及怎么用数学去解释这一切。
最底层的东西是数学。这不是在吓唬你,数学是大数据的地基。你得学高等数学、线性代数和概率论与数理统计。很多人问,我以后又不当数学家,学这些干嘛?举个例子,当你在做一个推荐算法,比如抖音怎么给你推视频时,后台其实是在处理一个巨大的矩阵。如果你不懂线性代数,你根本理解不了这个矩阵是怎么运算的。概率论更不用说了,数据分析的本质就是通过样本去推测总体,这全是概率论的东西。如果你数学底子薄,后期学机器学习算法时会非常痛苦,因为那些复杂的公式你一个也看不懂,只能机械地调包。
接下来是编程。大数据专业最核心的两门语言是 Java 和 Python。很多人觉得 Python 简单好用,确实,做数据分析和机器学习时 Python 是首选。但你要知道,大数据的很多底层架构,比如最出名的 Hadoop,是用 Java 写的。如果你想搞底层开发或者优化集群性能,Java 是绕不过去的坑。除了这两门,你还得学 SQL,也就是数据库查询语言。无论你是做数据仓库还是简单的业务分析,SQL 是你每天用得最勤的工具。别以为写几句 Select 就算会了,在处理海量数据时,怎么写出效率最高的查询语句,这才是真功夫。
有了数学和编程,你就要开始接触大数据真正的“重头戏”:分布式架构。大数据之所以叫大数据,是因为一台电脑存不下,也算不动。这时候你就得学分布式系统。最经典的是 Hadoop 生态系统,你要理解 HDFS 是怎么把一个巨大的文件拆开存在几十台机器上的,还要理解 MapReduce 是怎么把一个复杂的计算任务分发给这些机器同步做的。现在业内用得更多的是 Spark,它比 Hadoop 快得多,因为它是基于内存计算的。学这些东西的时候,你得亲手搭集群,感受几台虚拟机连在一起跑任务的过程,这比单纯看书要管用得多。
再往上走一步,就是数据挖掘和机器学习。这是目前最火的部分。你会学到各种算法,比如回归分析、决策树、聚类分析等等。你要做的不是去推导这些算法的证明过程,而是知道在什么场景下用什么算法。比如,你要给用户画像分类,是用 K-Means 还是用别的?你要预测明天的股价,是用线性回归还是神经网络?在这个阶段,你会接触到像 Scikit-learn、TensorFlow 这样成熟的工具包。你要学会怎么清洗数据,怎么特征提取,这些工作往往占了你 80% 的时间。
除了这些技术活,还有一个容易被忽略的环节:数据可视化。你算出了结果,总得展示给老板或者客户看吧?大家都不想看密密麻麻的数字表格,他们想看直观的图表。所以你会学到 Echarts、Tableau 或者是 Python 里的 Matplotlib。你要学会用数据讲故事。一张好的图表能让人一眼看出业务的趋势和问题,这比写几千字的报告要有力得多。
在实际的学习过程中,你还会碰到一个叫“ETL”的概念,就是抽取(Extract)、转换(Transform)、加载(Load)。这是数据处理的核心流程。你会发现,现实世界的数据是非常“脏”的,有重复的,有缺失的,还有格式错误的。你需要写各种脚本去把这些数据洗干净,存到数据仓库里。这个过程很枯燥,但它是所有数据分析的前提。如果输入的数据是垃圾,输出的结果也一定是垃圾。
说实话,这个专业压力不小。因为它更新换代非常快。可能你刚学会了 Hadoop,公司里就开始大规模转用 Flink 做实时流处理了。所以,除了学校教的内容,你还得具备极强的自学能力,去关注业界的动态。
大数据的就业方向其实挺广的。你可以去做大数据开发工程师,负责搭平台、写架构;也可以去做数据分析师,从海量数据里找规律,给业务提建议;或者去做算法工程师,钻研怎么让推荐更精准。
如果你真的想学好这个专业,我给你一个具体的步骤建议:先死磕 SQL,这是吃饭的家伙;然后练好 Python 基础,特别是 Pandas 库;接着去理解 Hadoop 和 Spark 的原理,最好能自己动手在云服务器上搭一套系统;最后再去钻研算法。不要一开始就去搞那些玄乎的深度学习,地基不牢,最后只会把自己搞晕。
这个专业不是靠死记硬背就能学好的,它非常看重实践。多去找一些公开的数据集,比如共享单车的骑行记录、电商的销售数据,自己提几个问题,然后尝试用你学到的技术去解决它。当你真正能从那一堆乱七八糟的数字里挖出有价值的信息时,你就真的入门了。不要被那些高大上的名词吓到,大数据其实就是一种更高效、更科学的解决问题的方法,仅此而已。

本站部分图片和内容来自网友上传和分享,版权归原作者所有,如有侵权,请联系删除!若转载,请注明出处:https://www.rzedutec.com/p/65253/