-
pyspark-pycharm本地运行pyspark程序报错org.apache.spark.SparkException: Python worker failed to connect back.
新配置的本地pyspark环境,本地运行pyspark程序报错,org.apache.spark.SparkException: Python worker failed to connect back. 解决办法1: 在pycharm上运行时,Edit Configurations,配置环境变量 PYSPARK_PYTHON=${windows上安装的python路径}python.exe 解决…- 2
- 1
- 164
-
基于SQL的开源BI软件Poli 0.9.0 发布
Poli 0.9.0 发布 Poli是一个简单易用的开源BI软件,专为SQL用户设计。 v0.9.0更新亮点 用户自定义属性与动态查询语句连用,实现行级安全 组件现可使用方向键调整位置 新选项:点击过滤器,图表自动过滤 新选项:开关table组件分页 Bug修复 详情查看更新说明 自托管,安装部署简便,5分钟内便可运行 连接到任何支持JDBC驱动程序的数据库:PostgreSQL,Oracle,S…- 0
- 1
- 126
-
Linux安装Scala(小白版)
一、下载Scala安装包 从scala官方网站地址:http://www.scala-lang.org/download/下载scala二进制包,以2.12.6版本为例 二、安装 1、将下载的二进制包移动到/usr/local目录,解压缩文件包 tar zxvf scala-2.12.6.tgz mv scala-2.12.6 scala //重命名目录 2、设置环境变量 vi /etc/pro…- 0
- 1
- 69
-
启智平台发布联邦学习开源数据协作项目 OpenI 纵横
——新一代人工智能开源开放平台基础全面确立 2019年6月18日, OpenI启智新一代人工智能开源开放平台技术委员会2019年第二次会议在鹏城实验室举行,OpenI技术委员会主席黄铁军同鹏城实验室、国防科技大学、华为、百度、北京航空航天大学及微众银行等技术委员,讨论了OpenI的下一步技术发展方向,共同确立了OpenI基础平台的三层结构:基础设施、软件环境、算法框架,目前基础平台已经全面运行。 …- 0
- 0
- 110
-
Hadoop- Hadoop详解
首先所有知识以官网为准,所有的内容在官网上都有展示,所有的变动与改进,新增内容都以官网为准。hadoop.apache.org Hadoop是一个开源的可拓展的分布式并行处理计算平台,利用服务器集群根据用户的自定义业务逻辑,对海量数据进行分布式处理。Hadoop提供了一个可靠的共享存储和分析系统,Hadoop的核心三大组件有HDFS(分布式文件系统),MapReduce(分布式运算编程框架),YA…- 0
- 0
- 169
-
Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法
在SparkSQL中获取Row的值,而且Row的字段允许null时,在取值的时候取到null赋值给新的变量名会报NullPointerException错误, 可以先用row.isNullAt(index)去判断该字段的值是否为空 首先上错误 修改为先初始化变量,判断row.isNullAt(6) 如果不为空就将值赋值给变量- 0
- 0
- 117
-
RedisDesktopManager 2019.3_Redis桌面管理工具2019.3 发布
RedisDesktopManager 2019.3 版本已发布,Redis Desktop Manager(RedisDesktopManager,RDM)是一个快速、简单、支持跨平台的 Redis 桌面管理工具,基于 Qt 5 开发,支持通过 SSH Tunnel 连接。 该版本主要更新如下: 新特性 添加 hyperloglog 支持 (#3656) 修复 使 macOS 包与 10.15 …- 0
- 0
- 983
-
Spark- 优化后的 shuffle 操作原理剖析
在spark新版本中,引入了 consolidation 机制,也就是说提出了ShuffleGroup的概念。一个 ShuffleMapTask 将数据写入 ResultTask 数量的本地文本,这个不会变。但是,当下一个 ShuffleMapTask 运行的时候,可以直接将数据写入之前的 ShuffleMapTask 的本地文件。相当于是,对多个 ShuffleMapTask 输出…- 0
- 0
- 54
-
Spark-Spark setMaster & WordCount Demo
Spark setMaster源码 /** * The master URL to connect to, such as "local" to run locally with one thread, "local[4]" to * run locally with 4 cores, or "spark://master:7077&…- 0
- 0
- 149
-
Harbor 1.9,新增多项企业级功能
Harbor 1.9 版本新功能众多,包括 tag 保留和配额、可与 CI/CD 工具集成的 Webhook 通知、数据复制、Syslog 集成以及 CVE 例外策略等安全功能。Webhook如果您是项目管理员,可以通过 Webhook 的通知机制,将 Harbor 的项目与您技术栈的其余部分连接在一起。简言之,如果您配置了 Webhook,Harbor 会就把该项目中发生的某些事件(…- 0
- 0
- 145
-
Hadoop- MapReduce分布式计算框架原理
分布式计算:原则:移动计算而尽可能减少移动数据(减少网络开销)分布式计算其实就是将单台机器上的计算拓展到多台机器上并行计算。 MapReduce是一种编程模型。Hadoop MapReduce采用Master/slave 结构。只要按照其编程规范,只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。核心思想是:分而治之。Mapper负责分,把一个复杂的业务,任…- 0
- 0
- 109
-
Python- 列表内置方法
列表,元组 查 索引(下标) ,都是从0开始 切片 .count 查某个元素的出现次数 .index 根据内容找其对应的位置 "haidilao ge" in a 增加 a.append() 追加 a.insert(index, "内容") a.extend 扩展 修改 a[index] = "新的值" a[start:en…- 0
- 0
- 118
-
Springboot- Caused by: org.hibernate.AnnotationException: No identifier specified for entity:
错误与异常: Caused by: org.hibernate.AnnotationException: No identifier specified for entity: 原因:引用了不对的包,去掉import org.springframework.data.annotation.Id;即可 。- 0
- 0
- 63
-
谷歌开源量子机器学习框架TensorFlow Quantum
谷歌 TensorFlow Quantum(TFQ)是一个开源的量子机器学习库,可将量子计算与机器学习结合在一起,训练量子模型。谷歌表示,这种量子机器学习模型能够处理量子数据,并能够在量子计算机上执行。 根据谷歌 AI 博客的介绍,TFQ 允许研究人员在单个计算图中将量子数据集、量子模型和经典控制参数构造为张量。TensorFlow Ops 会获得导致经典概率事件的量子测量结果,然后可以使用标准 …- 0
- 0
- 85
-
华为发布 Volcano 开源项目,方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入
Volcano 是基于 Kubernetes 的批处理系统,源自于华为云 AI 容器。Volcano 方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入,提供高性能任务调度引擎,高性能异构芯片管理,高性能任务运行管理等能力。 授权协议: Apache 开发语言: Google Go 操作系统: Linux 开发厂商: 华为 整体架构 Volcano 提供一整套目前 K8S 在批量和弹性工作负…- 0
- 0
- 251
-
Hadoop- 分布式资源管理YARN架构讲解
YARN是分布式资源管理,每一台机器都要去管理该台计算机的资源,Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager,整个集群的管理者管理着整个集群的NodeManager,叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理系统最重要和最基础的两个功能。资源调度由 ResourceManager 完成,而资源…- 0
- 0
- 99
-
Kafka- Spark消费Kafka
在高版本的API中 val brokers = properties.getProperty("kafka.host.list") val topics = Set(properties.getProperty("kafka.application.topic")) val kafkaParams = Map[String, String]( …- 0
- 0
- 96
-
Spark- 求最受欢迎的TopN课程
数据库操作工具类 package com.rz.mobile_tag.utils import java.sql.{Connection, DriverManager, PreparedStatement} object MySQLUtils { /** * 获取数据库连接 * @return */ def getConnection()={ DriverManager.getCon…- 0
- 0
- 148
-
广州市数字经济高质量发展规划
来源:广州市人民政府网 广州市人民政府办公厅关于印发广州市数字经济高质量发展规划的通知 穗府办〔2024〕11号 各区人民政府,市政府各部门、各直属机构: 《广州市数字经济高质量发展规划》已经市政府同意,现印发给你们,请认真组织实施。实施中遇到问题,请径向市工业和信息化局反映。 广州市人民政府办公厅 2024年4月30日 广州市数字经济高质量…- 0
- 0
- 150
-
Hadoop- Hadoop环境搭建
Windows下Hadoop的安装 准备工具:64位的JDK,Hadoop安装包(我使用的是2.6.1) JDK下载地址 官网: http://www.oracle.com/technetwork/java/javase/downloads/index.html Hadoop下载地址 官网:http://hadoop.apache.org/ 1.安装JDK环境,配置系统环境变量. 选…- 0
- 0
- 80
-
Spark- Checkpoint原理剖析
Checkpoint,是Spark 提供的一个比较高级的功能。有的时候,比如说,我们的 Spark 应用程序,特别的复杂,然后从初始的RDD开始,到最后拯个应用程序完成,有非常多的步骤,比如超过20个transformation 操作。而且整个应用运行的时间也特别的长,比如通常要运行1-5小时。 在上述的情况下,就比较适合使用checkpoint 功能。因为,对于特别复杂的 Spar…- 0
- 0
- 93
-
Spark- Transformation实战
RDD的算子分为两类,是 Trans formation(Lazy),一类是 Action(触发任务执行 RDD不存在真正要计算的数据,而是记录了RDD的转换关系(调用了什么方法,传入什么函数) RDD的 Trans formation的特点 1. lazy 2.生成新的RDD package cn.rzlee.spark.core import org.…- 0
- 0
- 89
-
KarelDB:Kafka 支持的一款开源关系数据库
Java 开发者对 Apache Kafka 应该不会感到陌生,这是一个分布式的发布订阅消息系统,作为一个非常重要的开源项目,它已经被许多公司以及产品用作关键组件。Kafka 及其配套的 Key-Value 存储系统如今也越来越多地被用来为关系数据库提供持久性存储,大多数数据库也使用 Key-Value 存储系统作为基础。本文将要介绍的这款数据库正是由 Apache Kafk…- 0
- 0
- 104











































