Spark简介
😀Spark最初由美国加州伯克利大学(UCBerkeley)的AMP实验室于2009年开发,是基于内存计算的大数据并行计算框架,可用于构建大型的、低延迟的数据分析应用程序。
特点:
高效性:Spark采用内存存储中间计算结果,这减少了迭代运算的磁盘I/O开销。此外,Spark通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。
易用性:支持使用Scala、Java、Python和R语言进行编程,可以通过Spark Shell进行交互式编程。
通用性:Spark提供了完整而强大的技术栈,包括SQL查询、流式计算、机器学习和图算法
组件。
兼容性:可运行于独立的集群模式中,可运行于Hadoop中,也可运行于Amazon EC2等云环境中,并且可以访问HDFS、Cassandra、HBase、Hive等多种数据源
数据表是数据库的重要对象
数据表是数据库的重要对象,是存储数据的基本单元,表结构创建完成后就涉及向表中插入新的数据,以及对已有数据进行修改与删除,这就是数据更新,数据更新可以使用“对象资源管理器”和T-SQL语句两种方式实现。也就是说,数据更新是以新数据项或记录、替换数据文件或数据库中与之相对应的旧数据项或记录的过程,通过删除、修改、再插入的操作来实现。
Copyright 2015-2022 财富赢家网版权所有 联系邮箱:920 891 263@qq.com