-
分析结构化数据的工具集Pandas 1.0.0
Pandas 是一个强大的分析结构化数据的工具集;它的使用基础是 Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。 从 1.0.0 开始,Pandas 将采用 SemVer 的一种变体来发布版本,简单来讲,会依据以下几点规则: 将在次要版本中引入弃用(例如 1.1.0、1.2.0 与 2.1.0 等) 在主要版本中将强制弃用(例如 1.0.0、2.0.0 与 3…- 0
- 0
- 56
-
广州市数字经济高质量发展规划
来源:广州市人民政府网 广州市人民政府办公厅关于印发广州市数字经济高质量发展规划的通知 穗府办〔2024〕11号 各区人民政府,市政府各部门、各直属机构: 《广州市数字经济高质量发展规划》已经市政府同意,现印发给你们,请认真组织实施。实施中遇到问题,请径向市工业和信息化局反映。 广州市人民政府办公厅 2024年4月30日 广州市数字经济高质量…- 0
- 0
- 177
-
Hive- Hive 的基本操作
创建数据库 create database db_hive; use db_hive; create database if not exists db_hive_02; create database if not exists db_hive_01 location '/user/rz_lee/warehouse/db_hive_01.db'; //指定数据库…- 0
- 0
- 119
-
Hadoop- HDFS的Safemode
Hadoop- HDFS的Safemode hadoop启动时,NameNode启动完后就开始进入安全模式,等待DataNode向NameNode发送block report ,当datanode blocks / total blocks = 99.99%,此时安全模式才会退出 安全模式下的操作: 可以查看文件系统的文件 在安全模式期间我们有些操作是不能进行的,比如不能改变文件系统…- 0
- 0
- 117
-
YugaByte DB 将企业版100%开源还不收费
在越来越多的数据库选择变更开源协议以防止被“滥用”的时候,这款数据库为何反其道而行之,选择将包括企业版在内的功能 100% 完全开源? YugaByte DB 是一个高性能、云原生的分布式 SQL 数据库,包括企业版和社区版两个版本。相较于社区版,企业版提供了更丰富的功能,不过这些功能收费且闭源。但就在前两天,YugaByte DB 创始人兼 CTO Karthik Ranganathan 宣布 …- 0
- 0
- 193
-
JAVA- 数据库连接池原理
第一次Java程序要在MySQL中执行一条语句,那么就必须建立一个Connection对象,代表了与MySQL数据库的连接通过直接发送你要执行的SQL语句之后,就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢?因为数据库的连接是一种很重的资源,代表了网络连接、IO等资源。所以如果不是用的话就需要尽早关闭,以避免资源浪费。 JDBC的劣势与不足…- 0
- 0
- 99
-
Hadoop- Hadoop详解
首先所有知识以官网为准,所有的内容在官网上都有展示,所有的变动与改进,新增内容都以官网为准。hadoop.apache.org Hadoop是一个开源的可拓展的分布式并行处理计算平台,利用服务器集群根据用户的自定义业务逻辑,对海量数据进行分布式处理。Hadoop提供了一个可靠的共享存储和分析系统,Hadoop的核心三大组件有HDFS(分布式文件系统),MapReduce(分布式运算编程框架),YA…- 0
- 0
- 179
-
Zeppelin- Linux下安装Zeppelin
前期部署: 下载,解压,配置PATH环境(编辑/etc/profile文件,记得source一下该文件) zepplin配置参考文档:https://zeppelin.apache.org/docs/0.7.2/install/configuration.html 往conf/zeppelin-env.sh文件中添加端口号 往底部添加 export ZEPPLELIN_PORT=8090 修改配置…- 0
- 0
- 116
-
Harbor 1.9,新增多项企业级功能
Harbor 1.9 版本新功能众多,包括 tag 保留和配额、可与 CI/CD 工具集成的 Webhook 通知、数据复制、Syslog 集成以及 CVE 例外策略等安全功能。Webhook如果您是项目管理员,可以通过 Webhook 的通知机制,将 Harbor 的项目与您技术栈的其余部分连接在一起。简言之,如果您配置了 Webhook,Harbor 会就把该项目中发生的某些事件(…- 0
- 0
- 161
-
数据探查与可视化平台Superset 0.34.1 发布
Superset 0.34.1 发布了。Superset 是一个数据探查与可视化平台(曾用名 Panoramix、Caravel ),该工具在可视化、易用性和交互性上非常有特色,用户可以轻松对数据进行可视化分析,目前已进入 Apache 孵化器。此版本更新内容包括:修复 Durid 中缺失时间序列数据点并在线表中显示为怪异值的问题注解添加对过滤器框的支持修复 tox lint…- 0
- 0
- 116
-
Spark- 性能优化
由于Spark 的计算本质是基于内存的,所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据,那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张,不足以放下所有的数据(比如在针对10亿以上的数据量进行计算时),还是需要对内存的使用进行性能优化的,比如说使用一些手段来减少内存的消耗。 Spark性能优化,其…- 0
- 0
- 93
-
Python 科学计算包:NumPy 1.18.4
NumPy 是一个基础科学的计算包,包含: 一个强大的N维数组对象 sophisticated (broadcasting) functions tools for integrating C/C++ and Fortran code 有用的线性代数、傅立叶转换和随机数生成函数 NumPy 1.18.4 是 1.18.x 系列中的最后一个计划发行版。它还原了 1.18.3 中引入的 bool(&q…- 0
- 0
- 194
-
Spark- Spark内核架构原理和Spark架构深度剖析
Spark内核架构原理 1.Driver 选spark节点之一,提交我们编写的spark程序,开启一个Driver进程,执行我们的Application应用程序,也就是我们自己编写的代码。Driver会根据我们对RDD定义的操作,提交一大堆的task去Executor上。Driver注册了一些Executor之后,就可以开始正式执行我们的Spark应用程序了,首先第一步,创建初始RD…- 0
- 0
- 81
-
Linux安装Scala(小白版)
一、下载Scala安装包 从scala官方网站地址:http://www.scala-lang.org/download/下载scala二进制包,以2.12.6版本为例 二、安装 1、将下载的二进制包移动到/usr/local目录,解压缩文件包 tar zxvf scala-2.12.6.tgz mv scala-2.12.6 scala //重命名目录 2、设置环境变量 vi /etc/pro…- 0
- 1
- 81
-
流处理框架:Apache Flink 1.9.3
Apache Flink 是高效和分布式的通用数据处理平台。 Apache Flink 声明式的数据分析开源系统,结合了分布式 MapReduce 类平台的高效,灵活的编程和扩展性。同时在并行数据库发现查询优化方案。 要求 Unix 类环境(Linux, Mac OS X, Cygwin) git Maven (at least version 3.0.4) Java 6, 7 or 8 (Not…- 0
- 0
- 81
-
Hadoop 生态数据存储系统 Apache Kudu 1.11.0
资源简介:Apache Kudu 1.11.0 发布了,Kudu 是一个支持结构化数据的开源存储引擎,具有低延迟随机读取与高效分析读取模式。它基于 Apache Hadoop 生态系设计,并支持与 Apache 软件基金会其它数据分析项目集成。此版本带来的新特性包括:Kudu 现在支持维护平板电脑服务器。在此模式下,如果平板电脑服务器的副本失败,将不会重新复制它。仅在退出维护时,才会对任…- 0
- 0
- 78
-
分布式服务框架:Apache ZooKeeper 3.6.1
ZooKeeper是Hadoop的正式子项目,它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务,将简单易用的接口和性能高效、功能稳定的系统提供给用户。 Zookeeper是Google的Chubby一个开源的实现.是高有效和可靠的协同工作系统.Zookeeper能够用来leader选举,配置信…- 0
- 0
- 148
-
Hadoop- DistCp(分布式拷贝)
在实际的生产环境中,我们的企业都有测试集群和生产集群,有的比较大型的企业有多个版本的Hadoop 大数据集群,这时候有个这样的需求,各个集群上的资源需要进行迁移,比如说一些生产集群需要一些测试集群的数据,需要将测试集群的上的数据拷贝到生产集群,这时候就需要使用到分布式拷贝(Distributed Copy). 比较常见的有不同集群之间的数据迁移 hadoop distcp <s…- 0
- 0
- 114
-
Hadoop HA- zookeeper安装配置
安装集群 1.1 虚拟机: 3台安装好JDK的centos Linux虚拟机 1.2 安装包: 把下载好的zookeeper安装包,官网:http://mirror.bit.edu.cn/apache/zookeeper/zookeeper-3.4.8/ 上传到服务器。 1.3解压 tar –xvzf zookeeper-3.4.8.tar.gz ,解压后放进 /usr/ 即可 …- 0
- 0
- 74
-
-
可视化数据库管理平台:DBeaver 7.0.3
DBeaver 是一个可视化通用的数据库管理工具和 SQL 客户端,支持 MySQL, PostgreSQL, Oracle, DB2, MSSQL, Sybase, Mimer, HSQLDB, Derby, 以及其他兼容 JDBC 的数据库。 DBeaver 提供一个图形界面用来查看数据库结构、执行 SQL 查询和脚本,浏览和导出数据,处理 BLOB/CLOB 数据,修改数据库结构等等。 …- 0
- 0
- 170
-
谷歌开源量子机器学习框架TensorFlow Quantum
谷歌 TensorFlow Quantum(TFQ)是一个开源的量子机器学习库,可将量子计算与机器学习结合在一起,训练量子模型。谷歌表示,这种量子机器学习模型能够处理量子数据,并能够在量子计算机上执行。 根据谷歌 AI 博客的介绍,TFQ 允许研究人员在单个计算图中将量子数据集、量子模型和经典控制参数构造为张量。TensorFlow Ops 会获得导致经典概率事件的量子测量结果,然后可以使用标准 …- 0
- 0
- 95
-
Python 爬虫框架Scrapy 2.0.0
Scrapy 是一套基于 Twisted 的异步处理框架,纯 Python 实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片。 此版本主要更新亮点包括: 不再支持 Python 2 部分协程语法支持和实验性异步支持 新的 Response.follow_all 方法 FTP 对媒体管道的支持 新的 Response.certificate 属性 通过…- 0
- 0
- 131
-
Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法
在SparkSQL中获取Row的值,而且Row的字段允许null时,在取值的时候取到null赋值给新的变量名会报NullPointerException错误, 可以先用row.isNullAt(index)去判断该字段的值是否为空 首先上错误 修改为先初始化变量,判断row.isNullAt(6) 如果不为空就将值赋值给变量- 0
- 0
- 129










































