DMIT圣何塞机房数据丢失,服务期延长30天,VPS流量永久性翻倍 无限流量套餐带宽翻倍

评论字数 1515阅读5分3秒阅读模式

DMIT圣何塞机房数据丢失,服务期延长30天,VPS流量永久性翻倍 无限流量套餐带宽翻倍

DMIT数据丢失事件:

由于一个OSD未能恢复,以及时间上的数据差异;有13/512(2.5390625%)的PG无法恢复。

我们很遗憾地通知你,某些Ceph PG对象的丢失可能会阻止你的虚拟机的文件系统在系统启动时挂载硬盘。

虽然这个问题可以手动解决,但在这个地方解决超过2000个虚拟机不属于我们非管理服务的范围。然而,我们想提供一个补偿方案,以示歉意。

==== 补偿包====
DMIT将提供一份更详细的故障报告,与此同时,我们将把您的服务期延长30天,并将您的虚拟机的传输容量永久性地增加一倍。(对于UNMETERED计划,我们也会将您的带宽增加一倍。)
====补偿包====

为了解决这个问题,我们将需要采取以下步骤。

1. DMIT将停止所有实例。

2. 客户端尝试逐一启动它们。

3. 如果不能进入系统:

a) 实例不能启动:重新安装系统,你的驱动器的主要(也许是头)对象已经永久丢失;需要重建。

b) 实例可以启动,但系统挂起: 文件系统失败;需要手动修复或重建。

请接受我们对造成的任何不便的歉意。在我们努力解决这个问题时,我们感谢您的耐心和理解。

在所有这些之后,DMIT将首先发布30天的服务延期。然后,增加一倍的资源。这不需要票据。

所有这些之后,故障报告就会准备好。

Best regards,

DMIT NOC

DMIT的解释:

~3月1日
在3月1日左右,DMIT圣何塞收到大量的虚拟机订单。(几乎是当时已经存在VM数量的两倍)。

~3月3日
DMIT已经注意到资源的紧张,并立即停止接受新的订单。
内存资源被释放到上个月新购买的两个新节点。
当时的可用存储资源已经低于30%。

~3月6日
3月6日,我们将OSD的set-full-ratio从90%提高到95%,以防止IO中断。

但这仍然不足以解决问题,我们在3月3日已经订购了足够数量的P5510 P5520 7.68TB。
联邦快递预计在3月7日交货,我们原定在3月8日安装这些固态硬盘。

由于加州的天气,交货时间被推迟到3月9日,我们计划在3月10日立即安装这些固态硬盘,以缓解压力。

~3月8日
3月8日晚,我们完成了网络维护,导致1x OSD重新启动。
同样由于OSD过载,BlueStore没有足够的空间来分配4% log空间,导致OSD拒绝启动。 这仍然只导致了IO性能的降低。

~3月9日
由于持续的写入,在3月9日上午,另一个OSD触发了故障并导致回填,这引起了连锁反应,导致第三个OSD被写满,然后无法启动。这最终导致了目前的状况。

我们立即安排到3月9日的现场安装,但这仍然造成一些PG的丢失。

===技术说明
- 圣何塞使用的是DMIT的最新技术栈。我们不知道bluestore会使用总OSD的4%作为log。我们认为应该把它包括在data中。一旦数据使用了所有的空间,日志就不能在启动时分配。这就导致了失败。
- 圣何塞没有像以前那样有那么多的虚拟机增加率,双倍的订单给了我们有限的时间来升级。

===管理说明
- 一旦资源超过60%,DMIT将准备对地点进行升级。
- 如果我们没有能力立即将资源保持在80%以下,DMIT将拒绝该订单。

总结

相对来说DMIT属于优化线路里的贵族了,价格非常贵,出现这种低级的数据丢失错误,实在让人无法理解,厂家心思可能都花在如何更大利益化方面了,对基础的备份也没有任何预案,实在令人大跌眼镜。

这也近一步提醒我们备份的重要性,不管是大厂小厂,数据是无价的,都要定期备份以免出现突发状况,心血毁于一旦。大家选择生产力VPS厂商时也尽量选择更有保障的大型主机厂商,像linode、digitalocean、vultr、hetznernetcup、ovh、scaleway等国际知名巨头相对来说更有保障。

 

 

本站QQ群:779684887,点击加入电报群:点击加入 广告合作请发邮箱:ptervip(at)gmail.com
vps
匿名

发表评论

匿名网友 填写信息

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

确定