全部标签

博客

最新随机最多浏览最多喜欢最多评论

pyspark-pycharm本地运行pyspark程序报错org.apache.spark.SparkException: Python worker failed to connect back.

新配置的本地pyspark环境，本地运行pyspark程序报错，org.apache.spark.SparkException: Python worker failed to connect back. 解决办法1：在pycharm上运行时，Edit Configurations，配置环境变量 PYSPARK_PYTHON=${windows上安装的python路径}python.exe 解决…
博客
- 2
- 1
- 193
牛肉丸没牛肉24年3月2日
启智平台发布联邦学习开源数据协作项目 OpenI 纵横

——新一代人工智能开源开放平台基础全面确立 2019年6月18日， OpenI启智新一代人工智能开源开放平台技术委员会2019年第二次会议在鹏城实验室举行，OpenI技术委员会主席黄铁军同鹏城实验室、国防科技大学、华为、百度、北京航空航天大学及微众银行等技术委员，讨论了OpenI的下一步技术发展方向，共同确立了OpenI基础平台的三层结构：基础设施、软件环境、算法框架，目前基础平台已经全面运行。 …
博客
- 0
- 0
- 118
hunterho19年6月29日
华为发布 Volcano 开源项目，方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入

Volcano 是基于 Kubernetes 的批处理系统，源自于华为云 AI 容器。Volcano 方便 AI、大数据、基因、渲染等诸多行业通用计算框架接入，提供高性能任务调度引擎，高性能异构芯片管理，高性能任务运行管理等能力。授权协议: Apache 开发语言: Google Go 操作系统: Linux 开发厂商: 华为整体架构 Volcano 提供一整套目前 K8S 在批量和弹性工作负…
博客
- 0
- 0
- 278
hunterho19年7月3日
RISC-V 基金会批准 RISC-V 基础指令集架构与特权架构规范

近日，RISC-V 基金会宣布批准 RISC-V 基础指令集架构与特权架构规范，为 RISC-V 的可扩展性进一步奠定了基础。开源指令集 RISC-V 相比其它指令集可以自由地用于任何目的，允许任何人设计、制造和销售 RISC-V 芯片和软件，因为这些特点，其相继吸引来 IBM、NXP、西部数据、英伟达、高通、三星、谷歌、华为与特斯拉等 100 多家科技公司加入其阵营，行业也不断在围绕它构建生态…
博客
- 0
- 0
- 126
summer19年7月12日
GitHub|正在移除与色情应用 DeepNude 相关的仓库

DeepNude 是一款付费应用程序，官方对其描述是“AI X 光”。通过使用类似 deepfakes 的深度学习技术，DeepNude 使用女性裸照训练之后可将图像中女性身上的衣服替换掉，创造出几可乱真的合成裸照，也就是大家所说的“一键脱衣”。但由于此项目产生的效果过于低俗且导致的负面影响巨大，在引起广泛的争议后，官方团队选择将该项目关闭。虽然团队下架了此项目，但有人根据已下载的程序进行了逆…
博客
- 0
- 0
- 203
summer19年7月12日
Apache Kudu 1.10.0 发布，Hadoop 生态数据存储系统

Apache Kudu 1.10.0 发布了，Kudu 是一个支持结构化数据的开源存储引擎，具有低延迟随机读取与高效分析读取模式。它基于 Apache Hadoop 生态系设计，并支持与 Apache 软件基金会其它数据分析项目集成。此版本带来的新特性包括： Kudu 现在通过使用 Apache Spark 实现的作业支持完整和增量表备份。此外，它还支持通过使用 Apache Spark 实现的…
博客
- 0
- 0
- 159
summer19年7月12日
基于SQL的开源BI软件Poli 0.9.0 发布

Poli 0.9.0 发布 Poli是一个简单易用的开源BI软件，专为SQL用户设计。 v0.9.0更新亮点用户自定义属性与动态查询语句连用，实现行级安全组件现可使用方向键调整位置新选项：点击过滤器，图表自动过滤新选项：开关table组件分页 Bug修复详情查看更新说明自托管，安装部署简便，5分钟内便可运行连接到任何支持JDBC驱动程序的数据库：PostgreSQL，Oracle，S…
博客
- 0
- 1
- 141
typhoon19年7月23日
Python好火啊，微软官方都上线 Python 教程了

微软近日上线了一套 Python 教程《Develop with Python on Windows》，文档内容包括设置 Python 开发环境、在 Windows 与 WSL 子系统中安装相应开发工具，以及集成 VS Code 与 Git 工具并进行开发等。具体来看，课程有以下几个章节：入门使用 Python 使用 Python 进行 Web 开发使用 Python 编写脚本与自动化使用…
Python
- 0
- 0
- 209
hunterho19年7月23日
YugaByte DB 将企业版100%开源还不收费

在越来越多的数据库选择变更开源协议以防止被“滥用”的时候，这款数据库为何反其道而行之，选择将包括企业版在内的功能 100% 完全开源？ YugaByte DB 是一个高性能、云原生的分布式 SQL 数据库，包括企业版和社区版两个版本。相较于社区版，企业版提供了更丰富的功能，不过这些功能收费且闭源。但就在前两天，YugaByte DB 创始人兼 CTO Karthik Ranganathan 宣布 …
博客
- 0
- 0
- 205
summer19年7月26日
Hadoop Shell命令

谁拥有数据，谁就是下个亿万富翁
博客
- 0
- 0
- 180
牛肉丸没牛肉19年7月30日
单机版Spark安装及PySpark环境配置

单机版Spark安装到官网http://archive.apache.org/dist/spark/ 下选择版本下载spark包，本次采用的是预编译版本选择spark-1.6.1-bin-hadoop2.6.tgz 解压到/opt/目录下 tar -xvzf spark-1.6.1-bin-hadoop2.6.tgz -C /opt/ [root@hdp spark-1.6.1-bin-had…
博客
- 0
- 0
- 197
牛肉丸没牛肉19年8月1日
Linux安装Scala(小白版)

一、下载Scala安装包从scala官方网站地址：http://www.scala-lang.org/download/下载scala二进制包，以2.12.6版本为例二、安装 1、将下载的二进制包移动到/usr/local目录，解压缩文件包 tar zxvf scala-2.12.6.tgz mv scala-2.12.6 scala //重命名目录 2、设置环境变量 vi /etc/pro…
博客
- 0
- 1
- 90
SparkGor19年8月1日
RedisDesktopManager 2019.3_Redis桌面管理工具2019.3 发布

RedisDesktopManager 2019.3 版本已发布，Redis Desktop Manager(RedisDesktopManager，RDM)是一个快速、简单、支持跨平台的 Redis 桌面管理工具，基于 Qt 5 开发，支持通过 SSH Tunnel 连接。该版本主要更新如下：新特性添加 hyperloglog 支持 (#3656) 修复使 macOS 包与 10.15 …
博客
- 0
- 0
- 1000
hunterho19年8月4日
Hadoop- Hadoop环境搭建

Windows下Hadoop的安装准备工具：64位的JDK,Hadoop安装包（我使用的是2.6.1） JDK下载地址官网： http://www.oracle.com/technetwork/java/javase/downloads/index.html Hadoop下载地址官网：http://hadoop.apache.org/ 1.安装JDK环境，配置系统环境变量. 选…
博客
- 0
- 0
- 92
牛肉丸没牛肉19年8月17日
大数据- 自定义Log4j日记

1.新建一个java project，在src下新建一个lib文件夹和 rescources 文件夹，resources文件夹不能命名错误。点击File——》project Structure...打开根据下图操作把相关jar包放进lib文件夹里并绑定。新建一个java文件 Log4jTest.java 和 HadoopLog4j.java 1 2 3 4 5 6…
博客
- 0
- 0
- 59
牛肉丸没牛肉19年8月17日
Zookeeper- Error contacting service. It is probably not running解决方案和原理

搭建启动Zookeeper集群出现Error contacting service. It is probably not running解决方案和原理 1.关闭防火墙 1 2 3 4 [root@srv01 bin]# zkServer.sh start JMX enabled by default Using config: /usr/zookeeper/bin/../con…
博客
- 0
- 0
- 167
牛肉丸没牛肉19年8月17日
Hadoop HA- zookeeper安装配置

安装集群 1.1 虚拟机： 3台安装好JDK的centos Linux虚拟机 1.2 安装包：把下载好的zookeeper安装包，官网：http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.8/ 上传到服务器。 1.3解压 tar –xvzf zookeeper-3.4.8.tar.gz ，解压后放进 /usr/ 即可 …
博客
- 0
- 0
- 80
牛肉丸没牛肉19年8月17日
大数据之路- Hadoop环境搭建（Linux）

前期部署 1.JDK 2.上传HADOOP安装包 2.1官网：http://hadoop.apache.org/ 2.2下载hadoop-2.6.1的这个tar.gz文件，官网： https://archive.apache.org/dist/hadoop/common/hadoop-2.6.1/ 下载成功后，把这个tar.gz包上传到服务器上，命令：通…
博客
- 0
- 0
- 113
牛肉丸没牛肉19年8月17日
Hadoop HA- hadoop集群部署

前期部署，至少准备3台服务器（可以是虚拟机） 1、linux系统环境准备 ip地址配置 hostname配置 hosts映射配置关闭防火墙 service iptables stop ,也可以设置防火墙不开机自启动 chkconfig iptables off init启动级别修改 2.java环境的配置上传jdk，解压，修改/etc/profile 3.zookeeper集群…
博客
- 0
- 0
- 135
牛肉丸没牛肉19年8月17日
Hive- Hive安装

Hive安装 1.1下载Hive安装包官网：http://hive.apache.org/downloads.html 个人建议到这里下载：http://apache.forsale.plus/ 1.2将hive文件上传到HADOOP集群，并解压将文件上传到 /usr ，解压 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/ 重命名:…
博客
- 0
- 0
- 112
牛肉丸没牛肉19年8月17日
Hive- Hive Web Interface

当我们安装好hive时候，我们启动hive的UI界面的时候，命令: hive –-service hwi ，报错，没有war包我们查看hive/conf/hive-default.xml.template，查找hwi 把这3台属性复制，添加到hive-site.xml里面， vim hive-site.xml <property> <name>hive.hw…
博客
- 0
- 0
- 137
牛肉丸没牛肉19年8月17日
Sqooop- 使用Sqoop进行数据的导入导出

Sqoop是Apache旗下的一个开源框架，专门用来做数据的导入和导出。官网:https://sqoop.apache.org/ Sqoop的安装非常简单，只需要把下载下来的tar包解压设置两个环境变量就可以了 1.安装部署下载版本：sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 官网：http://mirror.bit.edu.cn/apa…
博客
- 0
- 0
- 179
牛肉丸没牛肉19年8月17日
Hadoop- NameNode和Secondary NameNode元数据管理机制

元数据的存储机制A、内存中有一份完整的元数据(内存meta data)B、磁盘有一个“准完整”的元数据镜像（fsimage）文件(在namenode的工作目录中)C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志（edits文件）NameNode和Secondary NameNode元数据管理机制客户端每次对文件的操作，如果涉及到元数据的更新（读除外），比如…
博客
- 0
- 0
- 90
牛肉丸没牛肉19年8月17日
Hadoop- MapReduce分布式计算框架原理

分布式计算：原则：移动计算而尽可能减少移动数据（减少网络开销）分布式计算其实就是将单台机器上的计算拓展到多台机器上并行计算。 MapReduce是一种编程模型。Hadoop MapReduce采用Master/slave 结构。只要按照其编程规范，只需要编写少量的业务逻辑代码即可实现一个强大的海量数据并发处理程序。核心思想是：分而治之。Mapper负责分，把一个复杂的业务，任…
博客
- 0
- 0
- 125
牛肉丸没牛肉19年8月17日