2025年2月27日,当概率的骰子掷向我的数据堡垒,我他妈的那台稳如老狗的服务器突然他妈的表演了个原地升天,RAID1的U2同时炸成了电子墓碑,我自建服务器5个9的稳定性实际上均到一年里的时间够我心肌梗塞3次!卖了我的肾也救不回这俩他妈表演量子纠缠式自杀的SSD(互为备份呢?硅晶圆是自闭了吗?)
故而我悟出了没有经历过数据火葬场的人生是不完整的,乐观主义是比中国的房地产更危险的泡沫。
本文诞生于我硬盘的骨灰中,我发誓要从数字难民进化为数据军阀。接下来我的数据生存指南包含但不限于:
- 数据克隆的"电子替身"
- 穷逼的异地容灾方案(甚至考虑过天台排风管藏硬盘)
- 泡面预算打造五常级数据保卫体系
谏言
存算分离,存储中心化,多端访问统一
- 符合“如非必要,勿增实体”的设计思想,终端与数据为多对一的关系。
- 依靠各终端进行数据存储,易造成文件存放琐碎难寻,存储冗余,不利于资料、文件检索且某个终端意外损坏或丢失后可能造成数据永久遗失。
- 不依靠终端存储数据,便于节省存储成本。
- 数据是信息系统的唯一核心。
冗余不等于备份
在我的数据管理方案中,冗余仅考虑RAID
- RAID相对多端备份,更为简单便捷,简单意味着不容易出错,但有其局限性。
- RAID不防误删,勒索病毒,对于此类风险,考虑备份与快照
- RAID应用于“避免停机”,例如将操作系统安装在U2组成的RAID1上。备份应用于“数据保全系统”。
不应相信设备的安全性
- 所有存储介质乃至内存、CPU、主板都有突然暴毙的风险。除存储介质外的硬件换新即可,无需过于严肃的考虑风险控制方案。此乃硬件风险,本地进行冗余或备份可削减风险,但无法防范环境风险。
- 环境风险考虑异地备份,包括远程服务器与云存储供应商,单一服务商可能产生供应商锁定风险,故而需考虑不同国家不同服务商,多端备份,如此最为稳妥。
环境风险年化发生率低于0.1%,但随统计时间增长,风险发生率显著增高,故而此风险需纳入考虑。
逻辑层的“动静分离”
存储不再是以“虚拟机/容器”为单位来划分的,而是以“数据的生命周期”来划分。
计算节点(本地存储)是“引擎”: 所有的操作系统(OS)、运行环境(Docker 引擎)、高速缓存、高频读写的数据库(如 Redis、跑在本地的 MySQL 索引)。这些东西对 IO 要求极高,但它们是“动态的、可再生的”。
NAS 是“车厢”: 所有的电影、照片、用户配置目录(
/config)、持久化产生的文件。这些东西对 IO 延迟不敏感,但它们是“静态的、不可再生的”。
配置文件要放到本机,不能把钥匙锁在要开的屋子里。服务应无NAS也能独自启动
故而shujuying
目标
重要数据随时可见,永不丢失。
很早之前的一张照片,仅记载在了胶片上,现在已经找不到了,当时的一切仅活在我的记忆当中,并随着时间延展,淡化篡改。总是有这种心里难以越过的坎。耗资多少也无法找回。
重要数据一旦丢失,价值超出我的全套硬件,以及数据管理体系建设运行的时间精力成本。需依据数据、资料的类型与重要等级,衡量数据丢失风险与成本及该类数据管理成本,采取不同级别管理措施。
自动化管理 - 减少人工操作
管理方案为“目标”服务,禁止自娱自乐式的折腾。
减少维护成本
版本保护 - 防止误删/误改
目前(2025年)SSD 400元/T HHD 160元/T 需要进行备份、快照与版本控制的数据价值远高于存储成本,应积极进行版本保护管理。
需对人为的操作失误或故意侵入、破坏数据的行为进行防范。
跨平台兼容 - 数据访问与备份方案尽量兼容Linux/Windows/Mac系统
应用层与硬件层、操作系统层解耦
减少维护成本
设备实况
- NAS(主存储)
- 家庭服务器(一级备份节点)
- MacBook、Windows主机/笔记本(二级备份节点)
如设备支持,则应将操作系统安装在RAID1阵列上。提前确定主板是否支持,准备RAID驱动(如Intel RST)并安装操作系统。
家庭服务器采用RAID1安装操作系统,实时同步系统盘到备份RAID1,当前系统盘出现问题时,选择备份盘进入系统,避免重装系统。
备份方案
为避免数据备份时进行抉择,浪费时间成本,数据备份/存储仅从下列方案中选择考虑。
云端备份(异地)
加密备份到数据存储服务商。
1.支持S3、WebDEV、FTP等规范之一,备份时进行加密传输,拥有客户隐私保护规范,考虑到使用场景为数据备份,目前选择服务商如下:
- Hetzner Storage Box(4$/t*mon)
- backblaze B2**(6$/t*mon)**
- 远程服务器存储空间备份
- 需注意,远程服务器的数据同时需要备份。
物理备份(本地冷备)
防火保险柜,物理存储冷备硬盘,硬盘放入减震硬盘盒内。
物理备份(本地热备)
将数据备份存储在SSD HHD两种介质或其中一种中。
快照
- 依据数据特性、类型,周期保存差异快照(最低应保留30天)主要针对重要数据与系统
- 也可考虑git提供的版本控制
冗余设计(RAID)
- 仅考虑RAID1 或RAID10,阵列重建工作负载大,RAID5、RAID6涉及数据翻转计算、校验等,需考虑重建阵列中失败的风险的风险。
- 重要数据必须存储在RAID中。
- 本方案为基础性常规方案,建议所有数据均存储在RAID阵列中。
系统版本历史保护
计算机系统依托于特定硬件,不具备数据的流动性,需单独考虑。
计算机系统不唯一存储核心数据,数据交由本存储方案统一管理,使用跨平台软件或网页,进行服务访问,需考虑风险:
1.服务端风险:服务端宕机,服务停止;服务器损坏,数据丢失;
2.系统重装:重装系统与软件重装的时间成本;
问题分析与解决方案:
服务器端:
- 个人服务器存在大量个人编译的软件和程序库,造成了平台依赖性,数据备份方案落实困难,建议进行程序迁移,使用docker提供服务,解决平台依赖性问题。
- 禁止在物理机中执行实验性质的操作;
- 服务器已接入UPS并将操作系统安装在RAID1中,宕机风险低,服务端恢复成本可接受;
终端:
- 终端系统不唯一存储核心数据,核心数据由本方案解决,不考虑数据丢失风险
- 将软件配置信息、软件安装包纳入本方案进行管理;
- 采用操作系统自身提供的快照功能进行时间轴防护。
数据备份/存储策略选择
风险判断逻辑
风险严重性:
- 极高:直接导致安全漏洞、账号失窃、重大财产损失、重要资源/不可再生数据丢失
- 高:修复成本极高,非核心数据丢失(通信数据、系统配置)。
- 中:可部分/全部恢复但耗时耗力(如文档资源)。
- 低:数据丢失无影响。
数据存储方案选择
依据数据类型,风险严重性,判断是否可接受数据丢失,选择数据保存方案
保存方案核心原则:
- 热数据:优先性能与实时访问(SSD/云同步),确保可及时恢复。
- 冷数据:侧重安全性与成本(机械硬盘/物理隔离),确保数据不丢失即可。
- 私密性≥3:强制加密或离线存储,数据备份越多,数据泄漏风险越大,云端存储选择可信服务商。
- 容量≥100G:分层存储减小存储成本(SSD + HHD多介质备份–> HHD备份 + 冷备 –> 冷备)注:核心数据体积不会过大,原则合理
- 风险严重性:高-极高风险,强制留存远程备份,需符合3-2-1原则

具体执行
- 当本方案实时运行时,新数据应可按类型分类,自动进行存储管理,并执行备份方案;
- 新类型数据按本方案进行分类,制定存储方案,并按方案进行管理;
- 数据中心仅用于数据中心化存储、备份中转,不建议提供其他任何服务;
- 数据中心核心核心性能指标为高速数据访问。
数据中心目录设计
1.数据中心目录设计旨规范备份数据存储;
2.所有需备份文件应备份至数据中心留档一份,并按目录规范进行存储。
数据结构规范示例如下:
.
└── NAS/
├── HHD-RAID1/
│ └── BACK-UP/
│ ├── PC
│ ├── WIN-LAPTOP
│ ├── MACBOOK
│ ├── HOME-SERVER/
│ │ ├── etc
│ │ └── root
│ └── SAAS/
│ │ └── Notion
│ │── CORE/
│ └──
├── SSD-RAID1/
│ ├── TMP
│ ├── ARCHIVE
│ ├── PROJECT
│ └── RESOURCE
└── HHD-BASIC/
├── PC_ISOs
├── WIN-LAPTOP_ISOs
├── MACBOOK_DMG
├── HOME-SERVER_Packages
├── Software
└── Media
远程服务器,全量备份,并下拉到本地。所有重要资产已使用git进行管理。
个人信息相关重要文件,使用b2存储,进行储存,且备份至本地
NAS静音方案
减震隔离
- 安装硅胶/橡胶减震支架、使用橡胶脚垫/隔音垫
- 台面平整
- 螺丝拧死
削弱反射
- 远离墙面,减少共振
- 加贴聚氨酯吸音棉(厚度≥5mm)
降低声源
- 软件、系统及日志记录使用SSD存储区
- 调低机箱风扇转速
- 摆放位置优化,距离人耳位置遵循平方反比定律:每增加1米距离,噪音降低约6dB
- 优化风道设计
减震隔离 > 削弱反射 > 降低声源
数据中心维护方案
- 放置在稳定平面,避免机械震动。使用UPS防止意外断电导致磁头损坏。确保NAS通风良好,硬盘温度≤45℃(通过QTS系统监控)。启用Qtier自动分层存储,将热点数据迁移至SSD;定期检查硬盘健康(SMART工具;始终将备份作为数据安全的核心策略;)
- 待机温度控制在40℃以下。
- 减少休眠次数
- 定期文件系统自检,异常则发送邮箱
年度维护计划
- 硬盘表面扫描
- 硬盘检测工具
- apt install smartmontools
- smartctl -H /dev/sda
- smartctl -a /dev/sda
- apt install nvme-cli
- nvme smart-log /dev/nvme0
- 硬盘检测工具
- 电容健康检测 万用表测量主板电容
- 散热系统除尘
- 固件换新
- 机箱风扇,3-5年更换或转速显著下降更换
- SSD缓存,剩余寿命<20%时更换
- HHD质保期内更换或SMART参数05/197≥1时更换
耗材更换周期
更换UPS电池-3年/次 或监控健康状态
定期对机箱清灰-1年/次,根据具体环境修改
2年内更换导热硅脂,防尘滤网
