首頁 > 易卦

日誌易:可觀測性解決方案——觀察易

作者:由 金科課堂 發表于 易卦日期:2022-10-11

安全日誌能寫編寫嗎

日誌易:可觀測性解決方案——觀察易

獲獎單位:北京優特捷資訊科技有限公司

榮獲獎項:

運維創新優秀解決方案

一、解決方案簡介

觀察易是日誌易基於自研高效能資料搜尋分析引擎Beaver和低程式碼程式語言SPL(Search Processing Language)自主研發的針對單體應用架構、分散式應用架構的可觀測性平臺,用於收集、分析、聚合、視覺化來自於各類應用運維資料,具備鏈路追蹤、效能分析、日誌關聯、指標探索以及擴充套件化運維場景的定製能力。它功能強大,具備對Tracing、Metric以及Logging的統一管理以及關聯分析等,無論從應用的觀測、監控還是運維排障方面來看,皆具備較強的能力,觀察易關注的重點是“可觀測性、監控能力以及故障排查效率”。

日誌易:可觀測性解決方案——觀察易

二、應用場景痛點簡介

簡單地說,可觀測性就是從應用系統中收集儘可能多的遙測資料,以便您可以調查和解決新的複雜問題。目標是使您的團隊能夠開始主動觀察系統,以便您能夠:在影響客戶之前解決問題,安全地進行實驗並實施最佳化,更好地管理業務風險。我們可以將它視為系統的一個屬性,與功能性、安全性相似。

可觀測性是由日誌、指標和鏈路追蹤三大支柱去構建的,即遙測資料可以精簡為日誌,指標和鏈路追蹤。

日誌易:可觀測性解決方案——觀察易

日誌(Logging):日誌展現的是應用執行而產生的事件或者程式在執行的過程中產生的記錄,日誌可以詳細解釋系統的執行狀態,但是儲存和查詢需要消耗大量的資源。

指標(Metrics):指標是一種聚合數值,其儲存空間小,便於觀察系統的狀態和趨勢,但對於問題定位缺乏細節展示。這個時候使用多維資料結構能增強對於細節的表現力。例如統計一個服務的的平均耗時、請求量等。

鏈路跟蹤(Tracing):儘管日誌記錄了各個事件的細節,可在分散式系統中,日誌仍舊存在不足之處。日誌記錄的事件是孤立的,但是在實際的分散式系統中,不同元件中發生的事件往往存在因果關係。鏈路跟蹤解決了這一問題,透過SpanID等標記可重新構造出事件的完整事件鏈路以及因果關係。技術人員可以藉此瞭解網格內服務的依賴和呼叫流程,構建整個網格的服務拓撲並輕鬆分析出請求中出現的異常點。

三種形式的組合使用將會產生豐富的可觀測資料。

三、解決方案亮點介紹

日誌易:可觀測性解決方案——觀察易

技術架構圖

觀察易能夠從業務-服務-介面-裝置四層維度對應用系統狀態進行分析。

1、產品優勢

國產自研,安全可控

日誌易是國家級專精特新“小巨人”企業,已獲得14項技術發明專利、3項外觀專利,一直專注於機器大資料平臺、服務和解決方案的開發,致力於幫助各行業使用者挖掘和利用機器資料價值,提升數字化運營能力,輕鬆應對IT及業務挑戰。

日誌易自研的低程式碼程式語言SPL(Search Processing Language)已實現了300多個函式及指令,全面覆蓋日常運維分析和安全分析工作需求,對接了後臺多種機器學習演算法,實現了智慧運維AIOps。此外,日誌易還研發出了國內首個高效能高可用性的日誌搜尋引擎Beaver,每天可處理PB級海量日誌,相比國外通用開源搜尋引擎來說,Beaver效能提升了10倍且硬體成本降低了50%。

信創生態,行業引領

日誌易於2020年加入了資訊科技應用創新工作委員會,2021年成為了資訊科技應用創新工作委員會WG24大資料工作組副組長單位,已成為華為鯤鵬展翅夥伴計劃ISV級認證夥伴,完成了多家信創相關產品相容性測試並獲得互認證,並受邀參與編寫國內首個《企業級AIOps實施建議白皮書》與中國信通院牽頭制定的智慧運維(AIOps)能力成熟度模型系列標準。2021年4月,日誌易出版了首本由國內日誌分析專家撰寫的專業書籍《日誌管理與分析》,已經成為該領域的佼佼者。

資料接入模型

觀察易分為資料接入和功能使用兩部分。

觀察易可作為日誌易平臺上的擴充套件應用,支援接入全型別日誌以便定位故障原因,但是對於接入的鏈路追蹤日誌、效能指標需要滿足資料模型。只有滿足資料模型的資料接入觀察易,才可以直接在頁面上使用觀察易提供的功能。

鏈路追蹤和效能指標,如來自zipkin、jaeger、prometheus的資料,經處理後需要使特定的欄位寫入指定的索引,以便在觀察易頁面使用。詳細資訊如下圖所示。

日誌易:可觀測性解決方案——觀察易

2.應用場景

運維監控

在“業務至上”的網際網路時代,DevOps需要持續監控業務狀態,當故障發生時需要快速找到根因並進行修復。觀察易能夠從業務維度對業務的平均耗時、請求量、錯誤數、成功率四個黃金指標進行監控,也可以從服務和介面維度對業務的整體狀態進行分析。另外,觀察易也提供和業務無關的服務監控、介面分析和裝置監控,實現更全面的系統可觀測性。

鏈路追蹤

伴隨企業IT由傳統架構向分散式微服務架構轉型,複雜單體應用被拆分為多個輕量級服務。由於服務間的獨立性,一筆業務會涉及到多個微服務系統。觀察易可對接trace日誌,實現業務鏈路追蹤,透過觀察易的拓撲圖、歷史回溯和指標趨勢圖瞭解業務詳情,快速定位故障,讓IT運維人員更準確、高效地掌握微服務環境下業務的執行狀態。

指標探索

從業務、服務、裝置角度來說,側重的是黃金指標可觀測性,如果需要關聯黃金指標對比觀察或需要關注黃金指標以外的其他指標時,運維人員可以使用觀察易的指標探索功能對時序資料進行單指標多維度(平均值、最大值、最小值等)或多指標多維度查詢、分析並實現視覺化。

故障定位

觀察易能夠提供標準的起點或圖表來幫助運維人員查詢問題,分別從業務、服務、介面、裝置的概覽追蹤到其詳情,進而結合呼叫鏈的span資訊或其他日誌資訊定位到故障原因。

日誌易:可觀測性解決方案——觀察易

3.功能介紹

業務:

從業務維度梳理系統當前狀態,展示業務概況、業務詳情,使用者可以透過觀察到的異常趨勢深入探究業務詳情,並透過業務拓撲圖發現呼叫服務之間的關係與具體狀態。業務拓撲同時支援歷史回溯、服務詳情、接詳情、檢視具體異常請求等功能,幫助使用者快速完成溯源分析。

服務:

從服務維度梳理系統當前狀態,從指標趨勢和介面分析展示服務概況、服務詳情,同時支援下鑽到關聯裝置及呼叫鏈資訊。

裝置:

蜂窩狀檢視讓裝置關鍵資訊一目瞭然,點選詳情進一步瞭解裝置的相關資訊、效能指標和相關服務。

呼叫鏈:

提供鏈路追蹤查詢功能,使用者可以使用業務,服務,介面,Local IP,Remote IP,traceID,耗時,請求結果等多種欄位對呼叫鏈進行過濾。呼叫鏈詳情展示每個請求的耗時,並能快速跳轉至具體日誌。

指標探索:

使用者無需使用SPL程式語言,利用分析區即可完成對指標時序資料的分析與視覺化,支援聚合、時移及拆分,獲得更深入的分析圖表。

1.業務

1)業務總覽

業務總覽預設展示最近10分鐘的業務概況,使用者可以自定義時間範圍,檢視不同時間的業務概況,如業務名稱,成功率,請求量,錯誤數,請求耗時等。

業務查詢支援索引動態查詢,也支援手動輸入。使用者可以透過’曲線圖‘檢視時間範圍內的業務趨勢和最後值。

日誌易:可觀測性解決方案——觀察易

2)業務詳情

業務詳情包括業務拓撲圖、拓撲圖播放、業務指標趨勢圖、服務指標趨勢圖、介面指標趨勢圖等。

日誌易:可觀測性解決方案——觀察易

業務拓撲圖展示時間範圍內業務呼叫的服務、服務之間的關係以及服務狀態,預設展示服務層。當服務層節點異常時,我們可以透過左下角的數字(數字表示當前層級的節點數)切換到介面層,檢視介面狀態和指標趨勢。

節點使用顏色區分表示健康度,展示該節點狀態,支援使用者自定義節點狀態和成功率的對應關係。

日誌易:可觀測性解決方案——觀察易

歷史回溯:

歷史回溯提供更快捷的方式,播放展示不同時刻的具體鏈路狀態。使用者可以設定播放速度,也可以展示任意指定時刻的具體鏈路狀態。

業務指標:

業務指標展示使用者選定時間範圍內的業務趨勢。

節點詳情:

節點詳情展示節點指標在選定時間範圍趨勢圖。

2.異常請求

異常的定義來自配置→異常關鍵字。異常請求透過表格形式按時間降序展示選定時間範圍內的所有異常請求。點選traceID可檢視該請求詳情。

日誌易:可觀測性解決方案——觀察易

3.呼叫鏈

呼叫鏈即鏈路追蹤tracing,呼叫鏈頁面提供鏈路追蹤查詢功能,支援使用業務,服務,介面,Local IP,Remote IP,traceID,耗時,請求結果對tracing進行過濾。過濾項下拉框來自對接資料的索引動態查詢,也支援手動輸入。支援點選traceID檢視該tracing的詳細資訊。

日誌易:可觀測性解決方案——觀察易

1)呼叫鏈詳情

呼叫鏈詳情展示單個tracing的資訊,同時支援進一步檢視日誌原文,跳轉至搜尋頁。

日誌易:可觀測性解決方案——觀察易

4.服務

從服務維度梳理系統狀態。包含服務總覽和服務詳情。

1)服務總覽

服務總覽預設展示最近10分鐘的服務概況,支援自定義時間範圍,檢視不同時間的業務概況,卡片式展示服務資訊,如服務名稱,成功率,請求量,錯誤數,請求耗時等。支援過濾操作。

日誌易:可觀測性解決方案——觀察易

2)服務詳情

服務詳情包括服務指標趨勢圖:請求量,錯誤數,平均耗時,成功率。支援滑選功能。使用者可以選擇檢視某個業務的服務詳情,也可以檢視全部業務的服務詳情。

服務詳情還包括介面分析,預設展示’平均響應時間最慢TOP10’,還可以選擇’請求次數最多TOP10‘,’錯誤次數最多TOP10‘,’成功率最低TOP10‘,當選擇全部介面時,可以搜尋某個介面名。

日誌易:可觀測性解決方案——觀察易

同時服務頁面可跳轉至關聯的裝置、日誌及呼叫鏈資訊頁。

5.裝置

裝置資訊由蜂窩圖形式構建,不同的顏色代表該裝置的健康狀態。預設展示最近10分鐘的裝置使用率的最新值,支援對裝置及欄位資訊過濾篩選,或根據分組欄位對裝置進行分組。裝置型別支援:Hosts和Docker Containers,不同的裝置型別對應的展示指標不同。

日誌易:可觀測性解決方案——觀察易

單擊裝置卡片時,展示裝置詳情:相關資訊,相關指標和相關服務。

相關資訊展示裝置tag值、平均cpu使用率、平均記憶體使用率。使用者可以點選“檢視相關日誌”跳轉至搜尋頁面檢視更多資訊。

相關指標展示該裝置的效能指標,相關服務展示該裝置上執行的服務資訊。

6.指標探索

在指標探索頁面使用者無需使用spl檢索語句即可對o11y_metrics索引的時序資料進行分析和視覺化,僅僅需要選擇資料就可以建立互動式圖表,使用聚合、拆分、時移和過濾器深入分析資料。指標探索幫助使用者快速識別資料中的異常。

指標探索頁面包含三個區域。左側的“資料”區顯示了可用於分析的所有資料來源。中間的“資料展示”區是您看到圖表表示的資料的地方。右側的“分析”區列出了可以應用於資料的聚合和分析功能。

1)圖表與分析

指標探索頁支援使用者建立一個新圖表或向現有圖表新增資料。每個圖表都包含基於至少一項彙總的一個或多個時間序列。將滑鼠懸停在圖表上的任意點可以檢視相應的值。支援多個數據可以在同一個圖表中展示。

日誌易:可觀測性解決方案——觀察易

在“分析”區配置分析功能和操作,使用者藉此從圖表中獲得洞察力。所有分析功能都會在後臺生成SPL,可以點選圖表中的“在搜尋中開啟”圖示檢視對應的spl。

聚合

圖示展示中的圖表包含基於彙總資料的時間序列。為了計算聚合,將相同近似時間範圍內的資料點分類為儲存桶。彙總是根據同一儲存桶中的資料點計算得出的。儲存桶大小或跨度將根據使用者指定的時間範圍自動配置。增加時間範圍會導致跨度自動增加。

指標探索頁支援向圖表新增多個時間序列,以檢視資料的不同彙總。使用者可以為某一個數據選擇avg(預設聚合方式)、max、min、sum、count等多種聚合方式。

日誌易:可觀測性解決方案——觀察易

拆分

指標探索頁支援按維度拆分時間序列,以檢視每個維度值的單獨時間序列。按維度拆分時間序列會顯示所選時間範圍內的維度值。

日誌易:可觀測性解決方案——觀察易

時移

透過改變選取時間範圍來對比資料隨時間的變化情況。

日誌易:可觀測性解決方案——觀察易

實現價值

多維度服務分析

從指標趨勢和介面分析展示服務資訊;支援下鑽到關聯裝置及呼叫鏈資訊。

全域性裝置總覽

裝置關鍵資訊採用蜂窩狀檢視展示,效能指標和相關服務一目瞭然。

多功能指標探索

完成對指標時序資料的分析與視覺化;支援聚合、時移及拆分。

實時業務監控

透過異常趨勢深入探究業務詳情;憑藉業務拓撲圖發現服務之間的呼叫關係與具體狀態。

鏈路追蹤查詢

透過多種欄位對呼叫鏈進行過濾查詢;實時展示每個請求的耗時並快速跳轉至具體日誌。

四、客戶評價

日誌易的觀察易在聚合時可以細化到節點級別。叢集或微服務往往都是分佈部署的,觀察易拓撲圖能夠顯示3層,每層展示的顆粒度都可配置。例如我們,第一層是業務系統,第二層是各模組叢集,第三層就是模組節點,可以自定義設定層次,不斷放大。

——某大型股份制銀行IT負責人

使用觀察易,資料治理的問題能夠一起解決,大部分不需要修改日誌格式。我們引入了觀察易資料模型,只需要接入鏈路日誌,然後在日誌易資料工廠進行重新命名和聚合等操作,即可完成資料接入,方便快捷。一則資料工廠支援很多span相關的運算元,幫助梳理鏈路;二則資料工廠可以實現大資料量的實時處理,加快聚合得出指標的程序。

——某大型城商行IT負責人

更多金融科技案例和金融資料智慧優秀解決方案,請登入數字金融創新知識服務平臺-金科創新社官網案例庫、選型庫檢視。