分享知识,分享快乐

0%

Windows Server安装参考 https://blog.51cto.com/professor/2411436

注意:如果先安装的ConEmu ,可能没有bash ,刷新一系default tasks,如下图:

image-20210518154415530

win10参考之前写的文档:

Win10 Subsystem Linux : Ubuntu 的root密码

每次开机都有一个新的root密码。我们可以在终端输入命令 sudo passwd,

然后输入当前用户的密码,enter,终端会提示我们输入新的密码并确认,

此时的密码就是root新密码。修改成功后,输入命令 su root,再输入新的密码就ok了。

win10 linux子系统设置默认用户

https://blog.csdn.net/ijiabao520/article/details/79285041

阅读全文 »

运维和发展的一个线路

  • 1.搭建服务(部署并运行起来)
  • 2.用好服务(监控、管理、优化)
  • 3.自动化(服务直接的关联和协同工作)
  • 4.产品设计(如何设计一个监控系统)

云计算的核心竞争力是运维!

系统架构师(偏管理):网络 系统 数据库 开发 云计算 自动化 运维管理 服务管理 项目管理 测试 业务
专注于某一领域
解决方案架构师

运维工作内容分类

  • 监控运维(7x24运维值班、故障处理)
  • 应用运维(业务熟悉、服务部署、业务部署、版本管理、灰度发布、应用监控)
  • 安全运维(整体的安全方案、规范、漏洞监测、安全防护等)
  • 系统运维(架构层面的分布式缓存、分布式文件系统、日志收集、环境规划(测试、开发、生产)、架构设计、性能优化)
  • 基础服务运维(包含运维开发)(内部DNS、负载均衡、系统监控、资产管理、运维平台)
  • 基础设施运维(系统初始化、网络维护)
  • 机房运维(负责设备上下架、巡检、报修、硬件监控)

阿里云:
SLB LVS + Tengine(Nginx)
ECS KVM

运维标准化

物理设备层面:
1.服务器标签化、设备负责人、设备采购详情、设备摆放标准
2.网络划分、远程控制卡、网卡端口
3.服务器机型、硬盘、内存统一,根据业务分类
4.资产命名规范、编号规范、类型规范
5.监控标准

操作系统层面
1.操作系统版本
2.系统初始化(配置DNS、NTP、内核参数调优)
3.基础Agent配备(Zabbix agent、logstash agent、salt minion)
4.系统监控标准(CPU、内存、硬盘、网络、进程)

阅读全文 »

CDH Disk Balancer 磁盘数据均衡

1.设置dfs.disk.balancer.enabled 为true , 可以单个datanode设置,重启单个datanode生效。

1
2
3
4
<property>
<name>dfs.disk.balancer.enabled</name>
<value>true</value>
</property>
image-20210429175922996

1.创建均衡任务并生成计划任务配置文件

sudo -u hdfs hdfs diskbalancer -plan cdh85-73

1
2
3
4
5
6
7
8
[root@cdh85-73 tmp]# sudo -u hdfs hdfs diskbalancer -plan cdh85-73
21/04/29 17:02:45 INFO planner.GreedyPlanner: Starting plan for Node : cdh85-73:9867
21/04/29 17:02:45 INFO planner.GreedyPlanner: Disk Volume set f4da1504-1dfc-42d0-ac61-020dd7b02620 Type : DISK plan completed.
21/04/29 17:02:45 INFO planner.GreedyPlanner: Compute Plan for Node : cdh85-73:9867 took 7 ms
21/04/29 17:02:46 INFO command.Command: Writing plan to:
21/04/29 17:02:46 INFO command.Command: /system/diskbalancer/2021-Apr-29-17-02-45/cdh85-73.plan.json
Writing plan to:
/system/diskbalancer/2021-Apr-29-17-02-45/cdh85-73.plan.json

注意: 这个路径是HDFS的路径,不是本地路径

2.查看配置文件

1
2
3
4
[root@cdh85-73 tmp]# hdfs dfs -ls  /system/diskbalancer/2021-Apr-29-16-45-51
Found 2 items
-rw-r--r-- 3 hdfs supergroup 192586 2021-04-29 16:45 /system/diskbalancer/2021-Apr-29-16-45-51/cdh85-73.before.json
-rw-r--r-- 3 hdfs supergroup 4546 2021-04-29 16:45 /system/diskbalancer/2021-Apr-29-16-45-51/cdh85-73.plan.json
阅读全文 »

用家里的老电脑做一个测试 ,p了一块k32的盘

矿池的具体接入教程描述得非常浅显易懂了,这里我就不做重复搬运了,直接参考 Chia挖矿教程

linux P盘

1
nohup /opt/chia-plotter/chia-plotter-linux-amd64 -action plotting -plotting-fpk 0x85f80829a93d960313a99ca5482703fea2caae1d07db589344e76eba135db14c8f70d08dadc991805ae917d61626fd8d -plotting-ppk 0x970214947045bd1c6fbb0b3b3499dafab837eb26b58356504aea4d8ee19e9c5c064a5dfdad0cb5f7f047e0030f088a65 -plotting-n 1 -b 8000 -t /data1/chia -d /opt/chia  >> plots2.log 2>&1 &

晒一下收益效果:

image-20210427101445602

相关资料:

谋杀SSD磁盘

https://www.expreview.com/78802.html

生成一个K=32文件大概需要6.5小时,生成三个K33两个K32文件总共占了829GB的硬盘空间,而HDD的写入量是840.1GB,但SSD的读写非常厉害,整个P盘过程,SSD读取11.8TB,写入12.06TB,因为SSD的写入次数是有限的,把这个6TB的红盘P满虽然不至于把SSD写死,但磨损也很厉害。

阅读全文 »

hadoop decommission 卡住

hadoop decommission一个节点Datanode,几万个block都同步过去了,但是唯独剩下2个block一直停留在哪,导致该节点几个小时也无法 下线。hadoop UI中显示在Under Replicated Blocks里面有2个块始终无法消除.

是一个hadoop的bug,https://issues.apache.org/jira/browse/HDFS-5579

根据blockid 查找文件

1
hdfs fsck -blockId blk_2050561344
阅读全文 »

hdfs 如何实现退役节点快速下线(也就是退役节点上的数据块快速迁移)

参考 https://www.cnblogs.com/jiangxiaoxian/p/9665588.html

进度可在HDFS的50070可视化界面的Decommissioning处查看**

Under replicated blocks : 有备份的blocks

Blocks with no live replicas : 没有存活备份的blocks(存备份的datanode下线了)

Under Replicated Blocks In files under construction : 备份数不够的blocks

可调整集群参数,对退服进行调优,注意,更改参数需要重启服务。需要修改的参数如下:

组件 实例 参数类别 参数名称 默认值 修改值 参数含义 调整场景 是否可以默认值调整
HDFS NameNode balance/退服性能参数 dfs.datanode.balance.bandwidthPerSec 20971520 209715200 【说明】每个DataNode可用于负载均衡的最大带宽量(每秒的字节数)。 balance-性能调优 不建议调整默认值
HDFS DataNode balance/退服性能参数 dfs.datanode.balance.max.concurrent.moves 5 30 允许在DataNode上进行负载均衡的最大线程数。 有必要调整
HDFS NameNode balance/退服性能参数 dfs.namenode.replication.max-streams 10 64 DataNode上复制线程的最大数。 C70默认值已调整为64,有必要继续调整
HDFS NameNode balance/退服性能参数 dfs.namenode.replication.max-streams-hard-limit 20 500 对DataNode上复制线程数的硬限制。 C70默认值已调整为128,有必要继续调整
HDFS NameNode balance/退服性能参数 dfs.namenode.replication.work.multiplier.per.iteration 10 500 高级属性。修改时需谨慎。该参数表示NameNode通过DataNode心跳发送这样一个命令列表时DataNode上并行开始的用于复制的块传输的总量。
HDFS NameNode 运行-性能调优 dfs.namenode.handler.count 64 192 NameNode处理线程数 大集群,性能调优 可以调整/更耗内存
HDFS DataNode 运行-性能调优 dfs.datanode.handler.count 8 24 DataNode处理线程数 大集群,性能调优 可以调整/更耗内存
HDFS NameNode 运行-性能调优 ipc.server.read.threadpool.size 1 10 NameNode处理请求线程池大小 大集群,性能调优 可以调整/更耗内存
阅读全文 »

1.现状

目前网上出现大量的主机输入输出错误,原因是由于主机文件系统损坏。一线人员大部分采用的是umont 和 mount的方式恢复,这种恢复方式不能真正修复已经损坏的文件系统,在后续使用过程中,仍然会再次出现主机端输入输出错误。

2.需要修复的场景

<1>.主机侧发现存在文件系统不可读写的情况,也可以通过查看主机端日志来确认是否有文件系统异常发生: xfs_force_shutdown 、I/O error 
<2>.出现异常停电,供电恢复正常,主机和阵列系统重起之后
<3>.存储介质故障:出现LUN失效、RAID失效、以及IO超时或者出现慢盘,对慢盘进行更换,系统恢复正常之后
<4>.传输介质故障:如光纤、网线等损坏等,数据传输链路断开后又恢复正常之后

3.检查文件系统

注:检查文件系统必须保证将文件系统umount成功。
在根目录下输入“xfs_check /dev/sdd(盘符);echo $?”(注意:在执行 此命令之前,必须将文件系统umount,否则会出现警告信 “xfs_check: /dev/sdd contains a mounted and writable filesystem ”)敲回车键,查看命令执行返回值:0表示正常,其他为不正常,说明文件系统 损坏,需要修复。

4.修复过程

注:修复时需要暂停主机侧的业务,umount 和 mount 无法修复文件系统 。

  1. 先umount要修复的文件系统的分区
  2. 然后输入 “xfs_repair /dev/sdd(盘符)”执行修复命令。
    xfs_check /dev/sdd; echo $?
    A)如果为0===》成功修复。
    B) 如果不为0===》没有成功:请执行 xfs_repair –L /dev/sdd 命令,再执 行xfs_repair(反复多修复几次)

5.xfs常用命令

阅读全文 »

官网部署文档

https://dolphinscheduler.apache.org/zh-cn/docs/latest/user_doc/cluster-deployment.html

1、基础软件安装(必装项请自行安装)

  • PostgreSQL (8.2.15+) or MySQL (5.7系列) : 两者任选其一即可, 如MySQL则需要JDBC Driver 5.1.47+
  • JDK (1.8+) : 必装,请安装好后在/etc/profile下配置 JAVA_HOME 及 PATH 变量
  • ZooKeeper (3.4.6+) :必装
  • Hadoop (2.6+) or MinIO :选装,如果需要用到资源上传功能,可以选择上传到Hadoop or MinIO上
1
注意:DolphinScheduler本身不依赖Hadoop、Hive、Spark,仅是会调用他们的Client,用于对应任务的提交。

2、下载二进制tar.gz包

  • 请下载最新版本的后端安装包至服务器部署目录,比如创建 /tmp/dolphinscheduler 做为安装部署目录,下载地址: 下载,下载后上传tar包到该目录中,并进行解压
1
2
3
4
5
6
7
# 创建部署目录,部署目录请不要创建在/root、/home等高权限目录 
mkdir -p /tmp/app/dolphinscheduler; #安装文件别放到/tmp/dolphinscheduler , 这是特殊路径 创建文件时会用到的临时路径
cd /tmp/app/dolphinscheduler;
# 解压缩
tar -zxvf apache-dolphinscheduler-incubating-1.3.5-dolphinscheduler-bin.tar.gz -C /opt/dolphinscheduler;

mv apache-dolphinscheduler-incubating-1.3.5-dolphinscheduler-bin dolphinscheduler-bin

3、创建部署用户和hosts映射

  • 所有部署调度的机器上创建部署用户,并且一定要配置sudo免密。假如我们计划在ds1,ds2,ds3,ds4这4台机器上部署调度,首先需要在每台机器上都创建部署用户
阅读全文 »

ClickHouse 部署

1
2
3
sudo yum install yum-utils
sudo rpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPG
sudo yum-config-manager --add-repo https://repo.clickhouse.tech/rpm/stable/x86_64

如果您想使用最新的版本,请用testing替代stable(我们只推荐您用于测试环境)。prestable有时也可用。

然后运行命令安装:

1
sudo yum install clickhouse-server clickhouse-client

启动服务

1
2
3
sudo systemctl start clickhouse-server
sudo systemctl stop clickhouse-server
sudo systemctl status clickhouse-server

快速开始

clickhouse-client -m

阅读全文 »

快速试用 DolphinScheduler

1、下载源码 zip 包
  • 请下载最新版本的源码包并进行解压
1
2
3
4
5
6
7
8
9
10
11
12
13
14
# 创建源码存放目录
mkdir -p /opt/soft/dolphinscheduler;
cd /opt/soft/dolphinscheduler;

# 通过wget下载源码包
wget https://mirrors.tuna.tsinghua.edu.cn/apache/incubator/dolphinscheduler/1.3.5/apache-dolphinscheduler-incubating-1.3.5-src.zip

# 通过curl下载源码包
curl -O https://mirrors.tuna.tsinghua.edu.cn/apache/incubator/dolphinscheduler/1.3.5/apache-dolphinscheduler-incubating-1.3.5-src.zip

# 解压缩
unzip apache-dolphinscheduler-incubating-1.3.5-src.zip

mv apache-dolphinscheduler-incubating-1.3.5-src-release dolphinscheduler-src
2、安装并启动服务
1
2
cd dolphinscheduler-src/docker/docker-swarm
docker-compose up -d
3、登录系统

访问前端页面: http://bigdata-3.baofoo.cn:12345/dolphinscheduler

默认的用户是admin,默认的密码是dolphinscheduler123

停止所有容器:

阅读全文 »