[轉錄] Pixnet大改版卻演變成大混亂,突顯出哪些問題?
今天有人在網路上分析了一篇pixnet當機到現在出了哪些管理的問題
原文在這邊,推薦給大家
http://mmdays.com/2008/08/28/pixnet_migration_mass/
=================
Pixnet大改版卻演變成大混亂,突顯出哪些問題?
Aug 28th, 2008 by Mr. Friday
Posted by Mr. Friday
〈前言:本文很長,屬於探討性質,閱讀前請先有心理準備…〉
國內的部落格平台Pixnet一向在網路上的風評是很好的,長期下來也累積了許多死忠擁護者。不料,此次後台大改版卻招致超大聲浪的批評,還引發了一批出走潮,點解?〈圖片引用自四十八個德瑞克〉
先讓我們釐清一下這次改版的經過:
7/24:PIXNET官方發出改版預告:【服務】升級改版
8/11:PIXNET正式公告,將於8/19〈二〉凌晨2:00開始,先停機3小時,接著全站唯讀21小時。換句話說,8/20〈三〉凌晨2:00開始正式開放使用新版後台。
8/19:PIXNET準時停機
8/20:PIXNET並沒有準時回復,而且無法登入。PIXNET當日公告指出,PIXNET的資料需要全部倒入新版後台,但因為相簿資料庫內容過大,無法順利於24小時內全部匯入。預計21日早上7:00除了相簿外的服務都會先行上線,包括留言、迴響、引用以及小圈圈服務等。PIXNET同時提出會對VIP補償一天。
8/21:該日下午16:00的PIXNET公告指出,新舊後台已於早上8:00轉換完成。PIXNET勉強能夠登入,但而事實上只要登進去的人都會發現:這是我認識的PIXNET嗎?版面大亂、文章消失或被截斷、網址被改、速度變慢、許多個人設定消失,而且還有一大堆連結都是中看不中用,只會噴出暈狐狸500,就是上面那張圖;換句話說,PIXNET實際上還是幾乎不能用。網友抗議言論立刻塞爆了討論區,更有許多人問說能否改回舊版,等新版正常後再上線?但官方沒有正面回應。
8/22:該日晚上19:00的公告回答了該日的修復進度,也另外開了一篇公告說明新網址不會改變原部落格的PageRank,稍稍令人欣慰,但對於回復舊版的問題沒有正面回覆。該日最令人振奮的消息是Funp針對Pixnet網址格式進行修改,原有的推文連結都已經更新為新的網址。
8/25:基本上23、24的公告仍然只是bug的修復說明,但25日的公告總算是有一個公開的承諾:
*修復的狀況期限
我們預定最晚於下週一(9/1)修復到所有功能可正常使用,目前暫時沒有出現的原功能也會陸續補齊顯示出來,並持續於每日公告修正項目。
*舊版後台
之前沒有立即說明是否回復舊版後台,主要是在一邊修復錯誤一邊測試回復舊版後台所需要的時間,目前評估回復舊版後台,所需要的停機時間和修復目前新版bug相差時間相異不大,會需要再度停機至少48小時,切換回舊後台時,在新版後台新增加的功能上,在這幾天有變更調整的話會需要比對,另外在新版後台的功能如樣式設計精靈、好友短訊、影音、照片同時上傳、多檔影音上傳、單方加好友等新功能將無法使用…….,因此目前痞客邦目前評估後的方式是,會先將所有人力修正各位所使用不便的缺失,讓整體功能能正常使用為優先前提,痞客邦對造成各位會員如此大
的不便感到十二萬分的歉意……
*VIP補償
自19號停機開始,陸續已為VIP補上延長兩週,因為這次的影響,VIP部份我們也會在額外補償一個月,總共補償一個半月,非常抱歉並感謝各位會員的體諒,再次抱歉讓您感到不便…..
從上面的節錄,可以看出PIXNET已經定調為暫時不再換回舊版,要修新版修到9/1為止。
8/27:也就是昨天,在PIXNET新版許多功能正逐漸修復之際,早上卻又發生「登入後才能看到部落格」的問題。幸好下午已修復。與此同時,在官方討論區的bug回報列表也已經超過72項。
======================================
好。這幾天網友拉裡拉雜、斷斷續續的看了這麼多,整理以後大家應該開始有一些頭緒。這次我想探討的問題,就簡單化作底下幾點:
1. 根據系統更動的幅度,是否有相應足夠的測試環境與測試時間?壓力測試是否確認完整?
2. 8/20系統升級,當天是否有預備還原機制?還原的考量時機與著眼點為何?
3. 8/25公告9/1將會把所有新版功能修復,誰來保證?
首先就第一點來探討。關於系統更動的幅度,為了寫這篇文章我仔細研究了一下,我們可以在gslin的這次 PIXNET 前後台的一些整理可以一窺究竟。老實說不看還好,仔細一看差點昏倒,因為我發現這次PIXNET改版似乎是機器、作業系統、資料庫、應用伺服器、程式庫通通一起來,而且打算畢其功於一役,24小時後直接推上火線……。噢,我只能說PIXNET真的很勇,而且是神風特攻隊的那種勇,因為其中任何一項的升級,如果拿到網路銀行這種每日交易金額以百萬起跳的世界裡,絕對都是讓人膽顫心驚,因為不可預測的變數太多了,而沒有人敢隨便擔起系統當機的責任。
關於主機搬遷、作業系統升級、Middleware Migration等等,有人或許會覺得有什麼關係,何必一項一項慢慢升級,一次到位不是很好嗎?小弟不才,在這方面沒有什麼特別傑出的經驗,但是血淚爆肝的故事〈還有八卦〉倒是一籮筐。不過跟主題沒有關係,在這裡就先不提了;說真的,要做也不是不可以,但是我會先考量到幾個要素:
1. 一次到位所建置的環境是否經過完整測試?包括功能測試、整合測試、壓力測試?以PIXNET新版如此多臭蟲看來,事前功能測試似乎大有問題,更遑論壓力測試了,那PIXNET事前為何有信心這套系統上線後能禁得起考驗?
2. 與原先的系統切換方式為何?是屬於平行使用,還是一次直接切換?若為後者,如何說服讓習慣舊介面的使用者願意接受新介面?
3. 以成本、時程、風險而言,新舊版本的優缺點在哪?在這三方面,何者的重要性較高?
雖然我不曉得PIXNET這次改版有沒有考慮到這麼多,不過終歸已經是好幾個月以前就下了的決定,現在追悔也來不及。我們再來看這次8/20發生狀況之後,PIXNET的危機處理機制,也就是第二個問題:8/20系統升級,當天是否有預備還原機制?還原的考量時機與著眼點為何?
我想以PIXNET工程師高手如雲,預備還原機制是一定有的。我想問的真正問題在於後面那句:還原的考量時機與著眼點為何?其實我想這就是一個停損點的觀念,在SI產業裡面也適用,那就是主管事先預估:如果發生問題,到XX時間還沒辦法確知何時能修好,反正倒備份的時間是有限期的,頂多我就是損失這段停機時間的資料,趕快把系統救回來正常營運要緊。
然而以這套邏輯看來,PIXNET這次的決策相當反常。如果我是決策者,在8/21當天登入後,發現一大堆功能都不能用,這顯然不是兩天內可以修復完成的事〈網友的回報buglist都排到70+以上了,內部bug一定更多〉,如果倒備份照8/25公告所說要48小時,那我最多最多到8/22早上就會倒備份回來了。我的判斷點是:
1. 這麼多大大小小的bug,2天內絕對改不完
2. 損害控制。新版上線拖得太久,就會有越多網友進來想寫文章、改設定,晚一天切回舊版,切回舊版後的資料就會少一天,要修改的功夫就更多,這樣會變得騎虎難下。
3. 工程師熬夜了三四天,也該讓他們休息了。
然而我畢竟不是PIXNET的決策高層、也不是工程師、我什麼都不是,所以也許PIXNET有難言之隱,有必須要在短時間內升級完成的壓力,又或者是他們判斷問題很快就會解決,這就不是我能猜測到的了。
好吧。逝者已矣,來者可追。許多網友對PIXNET目前抱著的期望就是那則道歉再道歉的8/25公告:9/1將會把所有新版功能修復。理想上,這次升級噩夢應該到下星期一就會完結。不過我這裡還是要潑冷水問一下:
誰來保證?你們已經跳票過了耶?
對於這件事我個人比較消極啦,畢竟這次更動幅度太大,檯面上網友看得到的buglist就那麼多,檯面下那些機器、OS、Middleware需要調整的地方我猜應該更是「罄竹難書」。我是不曉得PIXNET的人怎麼這麼有guts,小弟我平常還算有一點寫程式的sense,但是熬夜了三天三夜之後我想任誰也辦法把程式寫得好到哪去。尤其以昨天突然要「登入才能看」的狀況,很明顯就是改完一個bug、沒想到觸發另外一個bug,然後沒時間驗證就丟上正式機,接著收到一堆抱怨信……。以這樣的品質、還有這樣多的bug〈先不管那些平常就要解的小問題、或是系統效能調教這種可以晚點研ꠊs的問題〉,如果 9/1真能趕得出來的話,那我也只能問PIXNET工程師們一句話:
請問,肝一斤怎麼賣?
--
※ 發信站: 批踢踢實業坊(ptt.cc)
◆ From: 59.112.55.123
推
08/28 21:47, , 1F
08/28 21:47, 1F
→
08/28 21:47, , 2F
08/28 21:47, 2F
→
08/28 21:48, , 3F
08/28 21:48, 3F
推
08/28 21:52, , 4F
08/28 21:52, 4F
→
08/28 21:52, , 5F
08/28 21:52, 5F
→
08/28 21:53, , 6F
08/28 21:53, 6F
推
08/28 22:37, , 7F
08/28 22:37, 7F
推
08/28 23:09, , 8F
08/28 23:09, 8F
推
08/29 02:08, , 9F
08/29 02:08, 9F
推
08/29 02:33, , 10F
08/29 02:33, 10F
→
09/01 01:34, , 11F
09/01 01:34, 11F