丁先生
2024 年 8 月 16 日 02:42
GitHub 在 2024 年 7 月经历了四次重大服务中断,影响了 Webhooks、Copilot 和 Actions。详细了解事件和缓解措施。
据 GitHub 博客报道,GitHub 在 2024 年 7 月经历了充满挑战的一个月,发生了四起重大事件,导致其多项服务的性能下降。
事件分析
7月5日(时长97分钟)
7 月 5 日 16:31 至 18:08 UTC,GitHub 的 Webhooks 服务因配置更改而出现性能下降,该配置更改删除了后台作业请求中的身份验证,导致这些请求被拒绝。该事件导致 Webhooks 交付延迟,平均延迟时间为 24 分钟,最长延迟时间为 71 分钟。18:21 至 21:14 UTC 期间发生的次要问题进一步影响了 GitHub Actions 对拉取请求的运行,增加了作业交付的延迟。
为了防止将来再次发生此类事件,GitHub 更新了仪表板,改进了健康检查,并针对类似问题引入了新的警报。该公司还在努力实现更好的工作负载隔离,以最大限度地减少此类事件的影响。
7月13日(持续19小时26分钟)
7 月 13 日 00:01 至 19:27 UTC,GitHub Copilot 服务严重降级。Copilot 代码完成的错误率达到 1.16%,而 GitHub Copilot Chat 的错误率达到 63%。该问题追溯到合作伙伴服务执行的资源清理作业,该作业错误地针对了重要资源。GitHub 在恢复资源的同时设法减轻了影响。
GitHub 目前正在与合作伙伴服务机构合作,实施针对未来事件的保障措施,并加强流量重新路由流程,以更快地缓解事故。
7月16日(时长149分钟)
7 月 16 日 00:30 至 03:07 UTC,Copilot Chat 降级并拒绝所有请求,错误率接近 100%。该问题在例行维护期间触发,当时 GitHub 服务断开连接并在重新连接时使依赖服务不堪重负。
为了解决这个问题,GitHub 正在改进其重新连接和断路逻辑,以防止将来出现类似的中断。
7月18日(时长231分钟)
7 月 18 日,从 UTC 时间 22:38 开始,上游提供商的网络问题导致 Actions、Copilot 和 GitHub Pages 服务的体验下降。多达 50% 的 Actions 工作流作业卡在排队状态,用户在启用 Actions 或注册自托管运行器时遇到问题。该问题是由美国中部地区无法访问的后端资源引起的。
GitHub 通过更新复制配置缓解了这个问题,该配置允许在一个区域不可用时成功请求。该公司目前正在增强其复制和故障转移工作流程,以更好地处理此类情况并减少恢复时间。
未来的缓解措施
为了应对这些事件,GitHub 正在采取多项措施来提高其服务弹性。这些措施包括更新仪表板、增强健康检查、实施新警报、与合作伙伴服务合作以及改进重新连接和断路逻辑。该公司还专注于更好地隔离工作负载并增强复制和故障转移工作流程。
为了实时了解状态变化和事件后回顾,建议用户关注 GitHub 的状态页面和 GitHub 工程博客。
图片来源:Shutterstock
(标签翻译)人工智能(t)加密(t)区块链(t)新闻
关键词:AI,crypto,blockchain,news