云原生的定義很復雜,但用過云的人都懂,它指的是可以只管應用而不用管理底層基礎設施的架構,不用費心思管別的,只關心應用的業(yè)務邏輯即可,具有這類特征的技術架構都是云原生。
經常與云原生一起出沒的是容器技術,容器可以幫助人們構建云原生技術架構。容器技術的理想是屏蔽底層的復雜性,它可以加速開發(fā)者的開發(fā)部署和迭代速度,但卻為運維帶來了“可觀測性”方面的難題。
“可觀測性”會導致看不到問題所在,看不到問題也就無從解決問題,最終表現(xiàn)為排除故障很難。
云原生的興起推動了微服務和分布式技術的發(fā)展,這些技術正常工作時一切都好,但當故障發(fā)生時,需要在錯綜復雜的調用關系中捋出問題所在。同時,由于容器化技術的環(huán)境動態(tài)性很強,運維排障時的環(huán)境經常已經發(fā)生了變化。
傳統(tǒng)監(jiān)控的可觀測性問題
在孫麗看來,傳統(tǒng)監(jiān)控技術很難幫用戶構建一套高效的排障體系,當前工具式的監(jiān)控體系已經無法滿足企業(yè)的運維需求,看不到或者看不清問題就無法解決問題。
結合Gartner相關報告的觀點,孫麗分享了目前IT監(jiān)控存在的五方面問題。
1、孤島式監(jiān)控。由于缺少規(guī)劃,企業(yè)中經常存在各種監(jiān)控平臺,有的是重復的,有的是相互獨立的,總之都無法組成一個有機的監(jiān)控系統(tǒng)。由于可觀測性比較差,當系統(tǒng)發(fā)生問題時,就很難找出原因。
2、IT建設與業(yè)務目標脫節(jié)。IT建設和運維關注的是如何提供資源,而業(yè)務人員關注的是業(yè)務發(fā)展和用戶體驗,兩者的目標是不一致的,當IT人員看不到用戶體驗的影響,IT部門就會與業(yè)務部門脫節(jié)。
3、智能運維不成熟。Gartner的報告中能看到,雖然智能運維說了很多,但實際落的效果非常差。孫麗認為,高質量的可觀測數據加上較強的AI能力引擎才能讓智能運維走向成熟。
4、新技術監(jiān)控可見性不足。Gartner的報告提到,當前的監(jiān)控手段在面對云原生、微服務、物聯(lián)網等新技術時存在一些可觀測性的問題,因為原來的底層資源層面的信息已經不可見了。
5、敏捷性不足。運維追求的是系統(tǒng)的穩(wěn)定運行,應用研發(fā)人員追求的是更快上線新業(yè)務。當缺少自動化能力時,敏捷性會明顯不足,兩者難免會產生許多矛盾。
許多運維監(jiān)控的專業(yè)廠商也都在關注這些問題,但大部分廠商的服務都存在一些局限性。孫麗將其總結為1.0時代的廠商和2.0時代的廠商。
在孫麗看來,市場上大概80%的廠商都屬于1.0時代,這類廠商一般只有監(jiān)控體系的一個或幾個產品,沒有組成有機的運維監(jiān)控體系,經常以單產品或者沒有關聯(lián)的產品去提供服務,這類產品提供的可觀測性是片面的。
2.0時代的廠商有相對完善的產品監(jiān)控體系,覆蓋了從用戶、到網絡、到應用、到基礎設施的不同層級,但由于缺少產品的有機整合,導致無法站在在運維的全局視角去組織數據,會缺少有機融合的能力。
1.0和2.0時代的核心問題就是可觀測性問題,也就是能否快速發(fā)現(xiàn)問題的問題。
博睿數據以ONE平臺三大特性提升可觀測性
博睿數據原本是2.0時代的典型代表,隨著一體化智能可觀測ONE平臺的發(fā)布,博睿數據已經邁向了3.0時代,強調運維監(jiān)控數智融合能力。

所謂數智融合,先要具備全局的數據采集能力,二是要以運維視角重塑產品,三是要對這些被采集的數據進行有機的關聯(lián)和融合,四是基于這些數據做深入挖掘。
一體化智能可觀測ONE平臺用三大特性詮釋了什么叫數智融合,詮釋了如何提升可觀測性。
第一點就是統(tǒng)一,通過一個平臺去滿足所有運維監(jiān)控需求,不需要再去重復建設或購買不同廠商產品來自行組裝,只需要一套ONE平臺即可實現(xiàn)任意能力的開箱即用。
想要實現(xiàn)這種統(tǒng)一,需要監(jiān)控能力覆蓋APP、WEB、PC、小程序等多種終端,可采集來自用戶端到網絡、到云端、中間件、基礎設施、設備、場景等等多個方面的數據,滿足企業(yè)在數字體驗、業(yè)務、網絡性能、應用性能、安全等等所有方面的監(jiān)控需求。

第二點就是關聯(lián)性,相互不關聯(lián)的數據對于提升可觀測性沒什么幫助。博睿數據ONE平臺在對Log、Trace、Metric數據做關聯(lián)的基礎上,還加入各種實體、事件以及元數據的關聯(lián),實現(xiàn)了更好的可觀測性。
具體做法上,ONE平臺對企業(yè)的數字化系統(tǒng)做了1:1的復刻,構建了數字系統(tǒng)各種實體的數字孿生,真實系統(tǒng)發(fā)生的一舉一動都會得到映射,從而大幅提升可觀測性。同時,ONE平臺還會基于這些數據來進行圖計算,從而更好地做根因定位。
第三點就是智能見解。ONE平臺可以像一個專業(yè)顧問一樣告訴用戶發(fā)生了什么問題,導致問題的原因是什么,從而緩解追查問題慢,解決問題慢的情況,幫助運維人員節(jié)省時間,讓專業(yè)人員把精力放在其它業(yè)務領域。
ONE平臺內置了博睿數據自研的Swift AI中臺,該平臺目前在事件關聯(lián)、異常檢測預測、智能告警、智能根因分析等等方面落地,博睿數據重視基于場景的、基于專業(yè)的知識庫的AI,認為只有這樣才能實現(xiàn)真正的智能運維。
從統(tǒng)一、關聯(lián)性和智能見解,博睿數據完成了從看得更多到看的更透徹的整個過程,最終提升可觀測性。
提升金融行業(yè)云原生架構可觀測性
博睿數據資深技術總監(jiān)常旭介紹了提升金融行業(yè)云原生架構可觀測性的實踐案例。
某銀行在嘗試容器化的過程中,對原來的單體應用進行了容器化改造,這對于運維工作帶來了不小變化。

單體應用時代,所有應用都運行在固定的幾臺物理服務器上,如果有問題就直接去這幾臺服務器上找,而現(xiàn)在的容器化應用將業(yè)務應用打散到了多臺云節(jié)點里,運維方式也發(fā)生了很大變化。
比如,要解決手機銀行App響應慢的問題,首先要考慮手機端性能數據,但比如查詢、轉帳等大部分業(yè)務都需要后臺服務來完成。由于這些業(yè)務都變成了微服務的狀態(tài),運維人員無法獲知微服務的調用關系及具體信息,想要優(yōu)化往往無從下手。
博睿數據的Smart?Agent技術能在業(yè)務被拉起的過程中自動實現(xiàn)探針的抓取,使用該技術之后,所有探針在業(yè)務生成的過程中都會自動加載、自動識別、并基于預定策略自動實現(xiàn)所有信息的采集。當采集到數據之后,即可基于數據進行分析、處理和縫合,最終可視化整個業(yè)務的調用鏈。
在這個案例中,當博睿數據把可視化業(yè)務鏈的數據展示出來時,部分研發(fā)人員認為展示的數據有問題,但隨后,在多位研發(fā)人員的反復確認的過程中發(fā)現(xiàn)許多開發(fā)人員對業(yè)務調用鏈過程的本身并不是非常清楚。
最后,在博睿數據的幫助下,開發(fā)人員驚奇地看到了應用的調用關系以及其背后的潛在風險,可觀測性有了大幅提升。不僅在整個應用性能表現(xiàn)上有大幅提升,還將排查效率提升了51.3%,這對于后續(xù)業(yè)務調優(yōu)、業(yè)務處理以及運維管理都提供了非常大的幫助。
結束語
隨著云化轉型,隨著企業(yè)IT架構構成越來越復雜,IT架構的“可觀測性”問題會越來越明顯,博睿一體化智能可觀測ONE平臺在提升可觀測性方面的努力非常有意義。