-
AntV 统计图表 G2Plot 1.0
G2Plot 是一个统计图表库,诞生于阿里经济体 BI 产品真实场景的业务诉求。动态、高度不确定是 BI 产品和中台系统业务数据的一个普遍特征,而这种特征对统计图表的功能和体验提出了巨大的挑战。如何能够帮助报表系统和一线前端在复杂数据条件下快速高效地创建统计图表,同时保证图表在各种显示空间和数据状态下的可读性和可用性? 为解决这两个痛点问题,AntV 与 DeepInsight、QuickBI 和…... summer- 0
- 0
- 196
-
Hadoop- 分布式资源管理YARN架构讲解
YARN是分布式资源管理,每一台机器都要去管理该台计算机的资源,Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager,整个集群的管理者管理着整个集群的NodeManager,叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理系统最重要和最基础的两个功能。资源调度由 ResourceManager 完成,而资源…... 牛肉丸没牛肉- 0
- 0
- 79
-
Hadoop- NameNode和Secondary NameNode元数据管理机制
元数据的存储机制A、内存中有一份完整的元数据(内存meta data)B、磁盘有一个“准完整”的元数据镜像(fsimage)文件(在namenode的工作目录中)C、用于衔接内存metadata和持久化元数据镜像fsimage之间的操作日志(edits文件)NameNode和Secondary NameNode元数据管理机制客户端每次对文件的操作,如果涉及到元数据的更新(读除外),比如…... 牛肉丸没牛肉- 0
- 0
- 37
-
Spark- SparkSQL中 Row.getLong 出现NullPointerException错误的处理方法
在SparkSQL中获取Row的值,而且Row的字段允许null时,在取值的时候取到null赋值给新的变量名会报NullPointerException错误, 可以先用row.isNullAt(index)去判断该字段的值是否为空 首先上错误 修改为先初始化变量,判断row.isNullAt(6) 如果不为空就将值赋值给变量 ... 牛肉丸没牛肉- 0
- 0
- 87
-
启智平台发布联邦学习开源数据协作项目 OpenI 纵横
——新一代人工智能开源开放平台基础全面确立 2019年6月18日, OpenI启智新一代人工智能开源开放平台技术委员会2019年第二次会议在鹏城实验室举行,OpenI技术委员会主席黄铁军同鹏城实验室、国防科技大学、华为、百度、北京航空航天大学及微众银行等技术委员,讨论了OpenI的下一步技术发展方向,共同确立了OpenI基础平台的三层结构:基础设施、软件环境、算法框架,目前基础平台已经全面运行。 …... hunterho- 0
- 0
- 92
-
可训练1000亿参数的模型:深度学习优化库DeepSpeed
人工智能的最新趋势是,更大的自然语言模型可以提供更好的准确性,但是由于成本、时间和代码集成的障碍,较大的模型难以训练。微软日前开源了一个深度学习优化库 DeepSpeed,通过提高规模、速度、可用性并降低成本,可以在当前一代的 GPU 集群上训练具有超过 1000 亿个参数的深度学习模型,极大促进大型模型的训练。同时,与最新技术相比,其系统性能可以提高 5 倍以上。 根据微软的介绍,DeepSpe…... summer- 0
- 0
- 94
-
Springboot- pagehelper使用
1.添加pagehelper依赖 <dependency> <groupId>org.github.pagehelper</groupId> <artifactId>pagehelper-spring-boot-starter</artifactId> <version>1.3.2</version>…... 牛肉丸没牛肉- 0
- 0
- 51
-
Python好火啊,微软官方都上线 Python 教程了
微软近日上线了一套 Python 教程《Develop with Python on Windows》,文档内容包括设置 Python 开发环境、在 Windows 与 WSL 子系统中安装相应开发工具,以及集成 VS Code 与 Git 工具并进行开发等。 具体来看,课程有以下几个章节: 入门使用 Python 使用 Python 进行 Web 开发 使用 Python 编写脚本与自动化 使用…... hunterho- 0
- 0
- 149
-
谷歌开源更快、更高效的 TensorFlow 运行时 TFRT
TensorFlow 官方博客宣布开源新的运行时 TFRT,该运行时提供了统一的、可扩展的基础结构层,并在各类硬件上均具有高性能。 TFRT 产品经理 Eric Johnson 表示,TFRT 将取代现有的 TensorFlow 运行时。原有的 TensorFlow 运行时最初是为图形执行和训练模型的工作负载而构建的。与之相比,新的运行时将急切的执行需求放在第一位,同时特别强调架构的可扩展性和模块…... summer- 0
- 0
- 69
-
数据仓库- 建模理念
数仓建模的目标 访问性能:能够快速查询所需的数据,减少数据I/O 数据成本:减少不必要的数据冗余,实现计算结果数据复用,降低大数据系统中的存储成本和计算成本。 使用效率:改善用户使用体验,提高使用数据的效率 数据质量:改善数据统计口径的不一致性,减少数据计算错误的可性,提供高质量的、一致的数据访问平台 大数据的数仓建模需要通过建模的方法更好的组织、存储数据、以便在性能、…... 牛肉丸没牛肉- 0
- 0
- 41
-
Springboot- Caused by: org.hibernate.AnnotationException: No identifier specified for entity:
错误与异常: Caused by: org.hibernate.AnnotationException: No identifier specified for entity: 原因:引用了不对的包,去掉import org.springframework.data.annotation.Id;即可 。 ... 牛肉丸没牛肉- 0
- 0
- 43
-
基于 Python 的开源量化交易平台开发框架 VN.PY 2.1.2
vn.py - 基于 Python 的开源交易平台开发框架 vn.py 项目起源于国内私募的自主交易系统,2015 年初启动时只是单纯的交易 API 接口的 Python 封装。随着业内关注度的上升和社区不断的贡献,目前已经一步步成长为一套全面的交易程序开发框架,用户群体也日渐多样化,包括私募基金、证券自营和资管、期货资管和子公司、高校研究机构、个人投资者等。 丰富的 Python 交易和数据 A…... summer- 0
- 0
- 153
-
SpringBoot- springboot集成Redis出现报错:No qualifying bean of type ‘org.springframework.data.redis.connection.RedisConnectionFactory’
Springboot将accessToke写入Redisk 缓存,springboot集成Redis出现报错 No qualifying bean of type 'org.springframework.data.redis.connection.RedisConnectionFactory' 原因:我们在pom.xml中引入了spring-boo…... 牛肉丸没牛肉- 0
- 0
- 356
-
分析结构化数据的工具集Pandas 1.0.0
Pandas 是一个强大的分析结构化数据的工具集;它的使用基础是 Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。 从 1.0.0 开始,Pandas 将采用 SemVer 的一种变体来发布版本,简单来讲,会依据以下几点规则: 将在次要版本中引入弃用(例如 1.1.0、1.2.0 与 2.1.0 等) 在主要版本中将强制弃用(例如 1.0.0、2.0.0 与 3…... summer- 0
- 0
- 37
-
Linux- AWS之EC2大数据集群定时开关机
众所周知,云计算就是在计算你的钱,每当ec2开起来就要开始计费。当用户购买了一个庞大的与服务器做一个集群,尤其是用来做大数据集群,这些服务器的配置相当高,每台服务器所需要的费用不菲。其实在很多时候没能够完全利用起其全部的资源,尤其在空闲时间,在夜间没有作业的情况下,这些服务器完全处于空闲的状态,却时刻在计费,这是相当不划算的。于是有这样一个方案,我们是不是可以在机器处于空闲的状态时将…... 牛肉丸没牛肉- 0
- 0
- 102
-
Hadoop- MR的shuffle过程
step1 input InputFormat读取数据,将数据转换成<key ,value>对,设置FileInputFormat,默认是文本格式(TextInputFormat) step2 map map<KEYIN, VALUEIN, KEYOUT, VALUEOUT> 默认情况下KEYIN:LongWritable,偏移量。VALUEIN:Text,K…... 牛肉丸没牛肉- 0
- 0
- 31
-
机器学习系统:TensorFlow 2.2.0
TensorFlow 是谷歌的第二代机器学习系统,按照谷歌所说,在某些基准测试中,TensorFlow的表现比第一代的DistBelief快了2倍。 TensorFlow 内建深度学习的扩展支持,任何能够用计算流图形来表达的计算,都可以使用TensorFlow。任何基于梯度的机器学习算法都能够受益于TensorFlow的自动分 化(auto-differentiation)。通过灵活的Python…... summer- 0
- 0
- 205
-
Hadoop 生态数据存储系统 Apache Kudu 1.11.0
资源简介:Apache Kudu 1.11.0 发布了,Kudu 是一个支持结构化数据的开源存储引擎,具有低延迟随机读取与高效分析读取模式。它基于 Apache Hadoop 生态系设计,并支持与 Apache 软件基金会其它数据分析项目集成。此版本带来的新特性包括:Kudu 现在支持维护平板电脑服务器。在此模式下,如果平板电脑服务器的副本失败,将不会重新复制它。仅在退出维护时,才会对任…... summer- 0
- 0
- 45
-
Python- NumPy
NumPy包括的内容 NumPy系统是 Python的一种开源的数值计算扩展,是一个用 python实现的科学计算包。包括: 一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组,称为 ndarray(N-dimensional array object ) 用于对整组数据进行快速运算的标准数学函数, func( universal function object) 用于整…... 牛肉丸没牛肉- 0
- 0
- 151
-
流处理框架:Apache Flink 1.9.3
Apache Flink 是高效和分布式的通用数据处理平台。 Apache Flink 声明式的数据分析开源系统,结合了分布式 MapReduce 类平台的高效,灵活的编程和扩展性。同时在并行数据库发现查询优化方案。 要求 Unix 类环境(Linux, Mac OS X, Cygwin) git Maven (at least version 3.0.4) Java 6, 7 or 8 (Not…... summer- 0
- 0
- 46
-
Storm- 使用Storm实现累积求和的操作
需求:1+2+3+... = ??? 实现方案: Spout发出数字作为input 使用Bolt来处理业务逻辑:求和 将结果输出到控制台 拓扑设计:DataSourceSpout -->SumBolt→输出 package com.imooc.bigdata; import org.apache.storm.Config; import org.apache.st…... 牛肉丸没牛肉- 0
- 0
- 64
-
广州市数字经济高质量发展规划
来源:广州市人民政府网 广州市人民政府办公厅关于印发广州市数字经济高质量发展规划的通知 穗府办〔2024〕11号 各区人民政府,市政府各部门、各直属机构: 《广州市数字经济高质量发展规划》已经市政府同意,现印发给你们,请认真组织实施。实施中遇到问题,请径向市工业和信息化局反映。 广州市人民政府办公厅 2024年4月30日 广州市数字经济高质量…... summer- 0
- 0
- 63
-
Sqoop- sqoop将mysql数据表导入到hive报错
sqoop将mysql数据表导入到hive报错 [root@ip-172-32-1-221 lib]# sqoop import --connect jdbc:mysql://54.223.175.12:3308/gxt3 --username guesttest --password guesttest --table ecomaccessv3 -m 1 --hive-import…... 牛肉丸没牛肉- 0
- 0
- 72
-
HIVE- 新建UDF范例
首先pom文件导入依赖,Hadoop和hive的依赖导入自己机器的版本,hive记得导jdbc <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>2.6.1</v…... 牛肉丸没牛肉- 0
- 0
- 52