中國第二大雲端「騰訊雲」因自身錯誤導致客戶網站所有資料遺失、連備份都沒有,僅願賠償13萬元人民幣 中國第二大雲端廠商「騰訊雲」最近遭到客戶「前沿數控」指控,表示他們在騰訊雲端伺服器上放的網站所有資料,全部被騰訊雲「搞丟」,而且騰訊連備份都沒有。等於公司的所有心血以及客戶資料全部毀於一旦,而騰訊表示他們會負責,賠償「13萬元人民幣」。

這間「前沿數控」是一間2014年成立的行銷公司,服務的對象鎖定於數位控制、模具與機械產業。像這種行銷公司最重要的就是累積的粉絲數量以及客戶資料,他們目前已經有40萬名粉絲,也從過去原本只在微信公眾號的經營,轉型到建立網站。而且因為流量持續成長,而在去年開始使用了騰訊雲端服務,將所有資料搬到騰訊上。

他們表示,騰訊雲宣稱公司的雲端虛擬機器(CVM)有99.9999999%的可靠性,資料遺失的可能性微乎其微,而且雲端硬碟裡頭還會有3個資料備份,簡直就是萬無一失。但是,結果今年七月中的時候,他們突然發現無法登入網站的伺服器,而且所有的功能都無法使用。經過聯繫,騰訊表示是部分的雲端硬碟出現故障,正在搶修中。不過,當搶修完畢之後,「前沿數控」發現他們的資料已經損毀,再也無法使用。

根據「前沿數控」表示,自從事情發生後,他們的平台已全部停止營運,而過去的活躍用戶在這種情況下也逐漸流失,客戶對平台的信任度降至冰點,廣告商也要求他們退款賠償,公司融資計劃也被中止,表示公司陷入了生存危機。而與騰訊討論賠償問題過了14天後,騰訊的答覆是132,900元人民幣的補償金額。

騰訊表示,全額退還前沿數控從去年12月到今年7月所消費的3,569元人民幣,再加上132,900元人民幣的現金或雲端資源。

 

資料救不回來是誰的責任?

根據中國媒體的瞭解,「前沿數控」跟騰訊申請的服務為單部CVM,只有系統硬碟沒有資料硬碟。如果拿我們比較熟悉的PC來解釋的話,就是他們只有一顆C槽,而沒有D槽。

有安裝過電腦的人都聽過「重要的資料不要放在C槽」這句話,意思就是資料與系統不要放在同一槽。這樣當系統出錯的時候,資料還可以救回來。而「前沿數控」就是把資料與系統放在同一顆雲端上。

另外,資料備份有所謂的「三二一原則」。簡單的說明就是,要備份資料應該依循以下的原則,才能確保資料萬無一失:

  • 至少備份三份
  • 使用兩種不同形式
  • 其中一份備份要存放異地

以「前沿數控」的例子來說,至少該在本地電腦要同步備份一份資料,才能確保萬無一失。而他們也沒有做到這點。

不過,「前沿數控」則向中國媒體表示:「騰訊雲宣稱這是10億份之一的概率,你想一個道理,人家的安全概率是這麼高了,還有3個備份,那還有甚麼風險?3備份都出問題了,那再來幾個備份又(怎麼)能保證安全?」

 

後續處理:獅子大開口?

根據「前沿數控」表示,由於公司等於已經全部停止營運,因此認為騰訊必須要賠償人民幣1,101.6萬元,而騰訊雲在事發後14天,提出的13萬元人民幣的方案他們完全不能接受。

不過,騰訊也跟媒體表示,對方要求遠遠高出騰訊雲能提供的方案。對方甚至提出了希望「獲得騰訊投資」、「騰訊官方引流」等補償方式,但騰訊表示,公司很難滿足這些要求。

不過,也有其他雲端業者質疑,騰訊的說法還是有問題,因為一個合格的雲端業者幫客戶做好備份是最基本的,騰訊還號稱有3個備份,而雲端硬碟出錯導致備份全都出錯,而且是3個備份都出錯,這實在是很難想像的事情。甚至懷疑騰訊雲端到底有沒有幫客戶備份?

 

而針對此事,騰訊也在昨天發表了公開信說明,以下為騰訊的全文。

======================

騰訊發表的公開信說明的真相

近日,騰訊雲客戶北京清博數控科技有限公司所屬「前沿數控」平台一塊操作系統雲盤發生故障,導致該客戶的文件系統數據損壞,我們對客戶業務所受影響表示誠摯歉意。同時,我們也對此次故障過程進行了深入的技術檢視。

檢視發現,該故障緣起於因磁碟預設錯誤導致的單副本數據錯誤,再加上數據遷移過程中的兩次不符合規範的操作,導致雲端的三副本安全機制失效,並最終導致客戶數據完整性受損。

痛定思痛,騰訊雲希望在盡力幫助客戶解決本次問題的同時,也通過相關機制的優化避免類似情況的再度發生。 

故障過程檢視

當天上午11:57,我們的運維人員收到倉庫Ⅰ空間使用率過高告警,準備發起搬遷擴容;在14:05時,運維人員從倉庫Ⅰ選擇了一批雲盤搬遷至新倉庫Ⅱ,為了加速搬遷,手動關閉了遷移過程中的數據校驗;在20:27 搬遷完成之後,運維人員將客戶的雲盤訪問切至倉庫Ⅱ,同時為了釋放空間,對倉庫Ⅰ中的源數據發起了回收操作;到20:30 監控發現倉庫Ⅱ部分雲盤出現IO異常。 

故障原因檢視

本次事故起源自因磁碟預設錯誤導致的單副本數據錯誤,再由於數據遷移過程中的不規範操作,導致異常數據擴散至三副本,進而導致客戶數據完整性受損。 

數據搬遷過程中的違規操作主要如下兩點:

  • 第一是正常數據搬遷流程默認開啟數據校驗,開啟之後可以有效發現並規避源端數據異常,保障搬遷數據正確性,但是運維人員為了加速完成搬遷任務,違規關閉了數據校驗;

  • 第二是正常數據搬遷完成之後,源倉庫數據應保留24小時,用於搬遷異常情況下的數據恢復,但是運維人員為了盡快降低倉庫使用率,違規對源倉庫進行了數據回收。 

因這些錯誤操作的連續影響,導致該客戶數據完整性受損,給客戶的正常業務運行造成影響,騰訊雲對此再次表示最誠懇的歉意。

 

改進措施:

經過技術復盤,騰訊雲技術團隊深入到每個環節,通過責任到人與流程閉環的雙管齊下,相應作出如下的加強和改進措施:

  • 首先,我們將全面審視所有的數據流程,涉及數據安全的流程自動化閉環,進一步提升我們常規運維自動化和流程化,降低人工干預。同時把全流程的數據安全校驗作為系統的常開功能,不允許被關閉。

  • 其次,針對物理硬盤靜默數據錯誤,在當前用戶訪問路徑數據校驗自癒的基礎上,我們優化現有巡檢機制,通過優先巡檢主副本數據塊、跳過近期用戶訪問過的正確數據塊等方法,加速發現該類錯誤,進行數據修復。

 

進一步建議:

騰訊雲自2016年3月以來一直在提供免費的快照功能,可以對重要數據進行定期備份。同時出於對客戶數據隱私性和安全性的考慮,客戶可以自由選擇開啟或者不開啟這一免費功能。騰訊雲在這裡也呼籲客戶開啟這一功能,進一步提升自身數據的安全性。 

未來,本著對客戶數據最大的敬畏,騰訊雲將繼續探索更科學的機制,避免類似事件再次發生。

 

想看小編精選的3C科技情報&實用評測文,快來加入《T客邦》LINE@

使用 Facebook 留言

發表回應

謹慎發言,尊重彼此。按此展開留言規則