今天就给大家介绍一下大数据如何选择编程语言?
首先,如果有一个大数据项目,你知道问题域(problem domain),你知道使用什么基础设施,你甚至可能已经决定使用哪个框架来处理所有这些数据,但是有一个决定已延迟:
我应该选择哪种语言? (或者更确切地说,我应该强制我所有的开发人员和数据科学家使用哪种语言?这个问题不能拖太久,迟早要做出决定。
如何选择大数据的编程语言
当然,没有什么能阻止你使用其他机制(例如 XSLT 转换)来处理大数据作业。但总的来说,现在大数据有多种语言可以选择,比如Java、Python、R、Scala。那么,你应该选择哪种语言?为什么要选择它,或者什么时候应该选择它?下面我们就来介绍一下Python和Java这两种语言 。
Python
如果你的数据科学家不使用 R,他们可能对 Python 非常了解。 Python 在学术界流行了十多年,尤其是在自然语言处理 (NLP) 等领域。因此,如果你有一个需要 NLP 处理的项目,你将面临令人眼花缭乱的选择,包括经典的 NTLK、使用 GenSim 的主题建模,或者超快速和准确的 spaCy。同样,在神经网络方面,Python 也有能力,有 Theano 和 Tensorflow;其次是用于机器学习的 scikit-learn,以及用于数据分析的 NumPy 和 Pandas。
还有 Juypter/iPython —— 一个基于 Web 的笔记本服务器框架,它允许你以可共享的日志格式混合代码、图形和几乎任何对象。这一直是 Python 的杀手级功能之一,但如今,这个概念被证明非常有用,以至于它出现在几乎所有包含读取-读取-打印-循环 (REPL) 概念的语言中,包括 Scala 和 R。
Python在大数据处理框架中往往得到支持,但同时,它也往往不是“一等公民”。例如,Spark 中的新功能几乎总是出现在 Scala/Java 绑定的顶部,并且可能有必要在 PySpark 中针对这些较新版本编写几个次要版本(对于 SparkStreaming/MLLib 端尤其如此)开发工具)。
Java
Java 可能不是摇滚明星最喜欢的语言选择。但随着开发人员努力理清 Node.js 应用程序中的回调集,使用 Java 可以让你访问一个庞大的分析器、调试器、监控工具和库的生态系统,以实现企业安全和互操作性。 ),还有很多,其中大部分在过去的二十年里都经过了反复试验(遗憾的是,今年 Java 满 21 岁了,我们都老了)。
炮轰 Java 的主要原因之一是它非常繁琐和冗长,并且缺乏交互式开发所需的 REPL(R、Python 和 Scala)。我已经看到 10 行基于 Scala 的 Spark 代码很快变成了 200 行用 Java 编写的代码,巨大的类型语句占据了大部分屏幕。然而,Java 8 中新的 Lambda 支持功能大大改善了这种情况。 Java 从未像 Scala 那样紧凑,但 Java8 确实让使用 Java 进行开发变得不那么痛苦。
大数据项目应该使用哪种语言?恐怕要视情况而定。如果你正在跨 GPU 进行 NLP 或密集的神经网络处理,Python 是一个不错的选择。如果你想要一个具有所有基本操作工具的强化的、生产就绪的数据流解决方案,Java 是一个很好的选择。
本文为原创文章,版权归知行编程网所有,欢迎分享本文,转载请保留出处!
你可能也喜欢
- ♥ 如何使用python发送邮件12/01
- ♥ Python可以实现栈结构吗?12/16
- ♥ 为什么python打不开08/25
- ♥ 如何在linux中查看python的安装路径09/04
- ♥ python如何读写单词09/27
- ♥ Python100道练习题,建议收藏01/21
内容反馈