Maven私服Nexus搭建

1. 环境及要求

unix系统
当前 CentOS6.5 64bit

JDK1.8
当前 1.8.0_25

2. 安装方式

2.1. 下载安装包

下载地址:https://www.sonatype.com/download-nexus-repo-oss?submissionGuid=b4735fd0-d4ed-43de-a9c9-894fe3ecabbc

选择: NEXUS REPOSITORY MANAGER OSS 3.X - UNIX
获得:nexus-3.17.0-01-unix.tar.gz

2.2. 安装

解压 nexus-3.17.0-01-u[......]

Read more

安装Nginx并配置TomcatHA

1. 环境

IP
系统版本
部署服务
端口

192.168.0.40
CentOS6.5_64
Nginx1.12.0
8088

192.168.0.41
CentOS6.5_64
apache-tomcat-7.0.64
18088

192.168.0.42
CentOS6.5_64
apache-tomcat-7.0.64
18088

准备安装包:

2. 安装依赖

yum -y install gcc automak[......]

Read more

置顶文章! 继续阅读?

安装KeepAlived并配置NginxHA

1. 环境

IP
系统版本
部署服务
端口

192.168.0.40
CentOS6.5_64
Nginx1.12.0
18089

192.168.0.41
CentOS6.5_64
Nginx1.12.0
18089

192.168.0.44
VIP
Keepalived
18089

准备安装包:

2. 安装依赖

yum -y install libnl libnl-devel
yum install -y libnf[......]

Read more

置顶文章! 继续阅读?

CentOS 7.2 静默安装Oracle 11gR2

1. 搭建本地源:

1.1. 加载 CentOS的ISO镜像并挂载:

1.2. 新建CentOS目录并把ISO上的文件复制到该目录下:

1.3. 修改yum配置文件:

1.4. 清除yum缓存及更新yum源

1.5. 卸载镜像并重启

2.[……]

Read more

置顶文章! 继续阅读?

Spark Task的调度——源码分析

参考Blog

Spark源码分析——Task的调度

DAGScheduler.submitMissingTasks(stage: Stage, jobId: Int)
方法中的最后几行,有一个
taskScheduler.submitTasks(new TaskSet(
tasks.toArray, stage.id, stage.latestInfo.attemptId, jobId, properties))

在 Standalone 模式下 taskScheduler 的实现类是 TaskSchedulerImpl
所以查看 TaskSchedulerImpl.su[……]

Read more

置顶文章! 继续阅读?

Spark资源调度算法——源码分析

描述

为了运行一个应用程序,Spark首先根据应用程序资源需求构建一个运行时环境,这是通过与资源管理器交互来完成的。通常而言,存在两种运行时环境构建方式:粗粒度和细粒度。

粗粒度

应用程序被提交到集群之后,它在正式运行任务之前,将根据应用程序资源需求一次性将这些资源凑齐,之后使用这些资源运行任务,整个运行过程中不再申请新资源。

细粒度

应用程序被提交到集群之后,动态向集群管理器申请资源,只要等到资源满足一个任务的运行,便开始运行该任务,而不必等到所有资源全部到位。目前,基于Hadoop的MapReduce就是基于细粒度运行时环境构建方式。

Spark On Yarn

对于Spar[……]

Read more

SparkContext——TaskScheduler源码分析

环境

Spark 1.6.3

SparkContext的初始化变量

从SparkContext从上一直阅读初始化成员变量,发现在这一段,开始给 SchedulerBackend、TaskScheduler、 DAGScheduler进行初始化。
而初始化方式是

createTaskScheduler 只是根据Spark运行模式而创建对应的TaskScheduler和SchedulerBackend

local模式

Standalone模式

咱们这里主要以Standalone模式为主,scheduler.i[……]

Read more

ElasticSearch 6.8.3 for CentOS6.5 安装

1. 集群环境及安装包

1.1. 集群环境

主机名
IP
系统版本
部署服务

hadoop32
192.168.0.32
CentOS6.5_64
ES Node

hadoop33
192.168.0.33
CentOS6.5_64
ES Node

hadoop34
192.168.0.34
CentOS6.5_64
ES Node

1.2. 准备安装包

包名
下载地址

elasticsearch-7.3.2-linux-x86_64.tar.gz
https:[……]

Read more

Yarn的内存超出指定的 yarn.nodemanager.resource.memory-mb 的解决过程

背景

集群背景:48Core,256GMem,24台节点的集群。每台节点给Nodemanager分配了128G。

问题

结果一次大型任务运行时,150亿的表和400亿的表做join时,每台节点的内存居然100%打满了。我这里的100%是整个节点的100%,而我们给所有大数据的组件内存才不到200G。
当时是懵的。
后面我们监控任务运行时,发现nodemanager的内存居然达到了180G左右,远远超出了我们设置的128G。后面查阅资料,诊断出问题,应该是Nodemanager中运行的Spark使用了大量的堆外内存,不在堆内,不可控。那么我们直接开启了 yarn.nodemanager.p[......]

Read more

置顶文章! 继续阅读?

Hive UDF、UDAF、UDTF使用

1. 目录

[TOC]

2. UDF

注:UDF只能实现一进一出的操作,如果需要实现多进一出,则需要实现UDAF

3. UDAF

4. UDTF

5. 使用方法

以UDF的HelloUDF为例将该java文件编译成HelloUDF.jar

5.1. 临时函数

1、在hive shell里面添加临时Jar
add jar /home/zhaomin/HelloUDF.jar;
2、创建临时函数,指定路径
create[......]

Read more