Spark的搜索结果_第4页-阿里云开发者社区

爱吃糖的范同学

|

1天前

|

博文

【Hive】所有的Hive任务都会有MapReduce的执行吗？

【4月更文挑战第17天】【Hive】所有的Hive任务都会有MapReduce的执行吗？

# SQL # 分布式计算 # 数据处理 # HIVE # Spark

程序员三木

|

1天前

|

博文

[AIGC大数据基础] Spark 入门

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 大数据 # 数据处理 # API # Spark

yuanzhengme

|

1天前

|

博文

Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

【4月更文挑战第13天】Spark【环境搭建 01】spark-3.0.0-without 单机版（安装+配置+测试案例）

# 分布式计算 # Hadoop # Scala # Spark # Java

爱吃糖的范同学

|

1天前

|

博文

【Flink】Flink跟Spark Streaming的区别？

【4月更文挑战第17天】【Flink】Flink跟Spark Streaming的区别？

# 实时计算 Flink版 # 分布式计算 # 大数据 # 数据处理 # 流计算 # Spark

拓端数据部落

|

1天前

|

博文

R语言进行相关矩阵分析及其可视化

# 分布式计算 # 数据可视化 # 数据库 # Spark # 数据库管理

桃李春风一杯酒

|

1天前

|

博文

大数据技术与Python：结合Spark和Hadoop进行分布式计算

【4月更文挑战第12天】本文介绍了大数据技术及其4V特性，阐述了Hadoop和Spark在大数据处理中的作用。Hadoop提供分布式文件系统和MapReduce，Spark则为内存计算提供快速处理能力。通过Python结合Spark和Hadoop，可在分布式环境中进行数据处理和分析。文章详细讲解了如何配置Python环境、安装Spark和Hadoop，以及使用Python编写和提交代码到集群进行计算。掌握这些技能有助于应对大数据挑战。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # Hadoop # 大数据 # Spark # Python

1941623231718325

|

1天前

|

博文

NumPy的并行与分布式计算实践

【4月更文挑战第17天】本文探讨了如何使用NumPy进行并行和分布式计算以提升效率。介绍了利用`numexpr`加速多核CPU计算，设置`NUMPY_NUM_THREADS`环境变量实现多线程，并通过Dask和PySpark进行分布式计算。Dask允许无缝集成NumPy，而PySpark则将NumPy数组转换为RDD进行并行处理。这些方法对处理大规模数据至关重要。

# 分布式计算 # 并行计算 # 数据处理 # Spark # Python

aliyun5297948689-49597

|

1天前

|

博文

|

来自：云原生

Spark核心原理与应用场景解析：面试经验与必备知识点解析

本文深入探讨Spark核心原理（RDD、DAG、内存计算、容错机制）和生态系统（Spark SQL、MLlib、Streaming），并分析其在大规模数据处理、机器学习及实时流处理中的应用。通过代码示例展示DataFrame操作，帮助读者准备面试，同时强调结合个人经验、行业趋势和技术发展以展现全面的技术实力。

# 云解析DNS # 机器学习/深度学习 # SQL # 分布式计算 # Spark # 流计算

长梦

|

1天前

|

博文

|

来自：大数据与机器学习

Apache Spark：提升大规模数据处理效率的秘籍

【4月更文挑战第7天】本文介绍了Apache Spark的大数据处理优势和核心特性，包括内存计算、RDD、一站式解决方案。分享了Spark实战技巧，如选择部署模式、优化作业执行流程、管理内存与磁盘、Spark SQL优化及监控调优工具的使用。通过这些秘籍，可以提升大规模数据处理效率，发挥Spark在实际项目中的潜力。

# 云原生大数据计算服务 MaxCompute # 分布式计算 # 大数据 # 数据处理 # Apache # Spark

阿里云瑶池数据库SelectDB

|

1天前

|

博文

|

来自：数据库

Apache Doirs 2.1.1 版本正式发布

# 分布式计算 # Java # Apache # 数据库 # Spark