胡冠楠
安科瑞電氣股份有限公司 上海嘉定
摘 要:國網江蘇省電力有限公司(以下簡稱江蘇公司)開展云平臺建設和應用,推進“千臺入云、系統上云"的專項工作,為泛在電力物聯網的建設提供可靠的云計算服務。為提高云平臺的運維能力,提出指標采集和存儲、指標分析和可視化以及實時告警技術方案,構建物理機、平臺、存儲、應用的體系化監控體系,實現國網云運行監控和異常事件的實時告警。
關鍵詞:泛在電力物聯網;云計算;監控系統
引言
國家電網公司(以下簡稱國網公司)于2019年3年部署開展泛在電力物聯網建設。國網江蘇省電力有限公司(以下簡稱江蘇公司)從2018年開展云平臺建設,按照“分級分域"的原則同時開展虛擬化平臺OpenStack和容器化平臺K8s建設,通過開展“千臺入云,系統入云"的國網云建設工作,取得了巨大的成效。截止2019年8月份,國網云平臺已納管851臺服務器,入云212套系統,穩定運行400余天。
江蘇公司的OpenStack 平臺采用Kolla 部署,Kubernetes(以下簡稱K8s)平臺采用Kuberspray方案部署,這兩個方案都將平臺組件部署在容器中,這種方式大幅提升了云平臺的部署效率,同時江蘇公司大力推進應用系統容器化改造工作,應用系統的整體技術架構往容器化、微服務化架構方向轉變。
為提升云平臺的運維能力,本文探索針對容器化平臺組件和容器化應用的云平臺監控系統建設。容器具有無固定IP地址、數量大、運行周期短等特點,采用Agent 或者Agentless 等方式采集數據的Zabbix、Naggio 等傳統監控工具不能滿足要求。為此,本文尋求其他技術解決方案。文獻[1]和文獻[2]提出傳統方式部署的OpenStack平臺監控工具,但是不適合容器化云平臺。文獻[3]和文獻[4]提出基于云原生開源監控軟件Prometheus構建云平臺監控系統,開源軟件Grafana展示平臺運行狀態,部署方式簡單,符合容器化部署云平臺的技術路線,但是沒有提出實時監控的技術方案。文獻[5]提出一種基于流式計算的監控技術,縮減指標數據采集的時延,適用于大規模云平臺環境,但是該技術方案部署復雜。
綜上所述,本文選擇符合容器化云平臺技術特點、部署簡單、開源技術主的技術方案,以Prometheus為采集服務、Grafana為監控展現服務、智能巡檢平臺為告警平臺的云平臺監控解決方案。
1、云平臺監控方案
1.1 技術架構
本文組合監控工具Prometheus、可視化工具Grafana以及智能巡檢平臺作為國網云的統一監控系統,實現了OpenStack和K8s平臺集群的監控全覆蓋,滿足了立體化監控需求,總體技術架構如圖1所示。
圖1 云平臺監控技術架構
(1) 指標采集及存儲:監控系統需要有可靠的監控后臺以及監控代理,滿足云平臺中設備、平臺以及應用等各個層面的指標采集和存儲需求,選擇Prometheus 以及配套使用的相關代理作為解決方案。Prometheus系統采用中心化的數據采集、分析和分布式的監控代理的設計理念,目前PrometheusG方認證有約600個代理,覆蓋服務器、中間件、數據庫、云平臺、應用等對象,滿足國網云統一監控的需求。
(2) 指標分析和展現:原始的指標展示的信息有限,無法展示平臺的運行情況,本文設計指標分析公式,更掌握物理節點資源使用情況、云平臺資源分配情況、云應用運行情況,同時利用Grafana等開源可視化工具,實現指標的可視化展現。
(3) 實時告警:除了通過指標分析掌握平臺運行狀態以及性能情況,本文還設計告警規則實現了重要異常事件的實時告警,將告警信息推送給調度運行監控平臺,實現國網云運行的7×24 h監控,保證故障的及時處置。
1.2 立體化監控
為采集OpenStack平臺宿主機以及集群運行數據,研究采用node?exporter代理采集宿主機的資源運行指標、OpenStack?exporter代理采集平臺的運行指標、ceph?exporter代理采集后端分布式存儲的運行指標,實現宿主機以及平臺兩個層面的主要運行指標的采集。幾種OpenStack實例監控代理的作用和部署方式如表1所示。
為采集K8s平臺宿主機、集群以及承載的物聯網應用容器運行數據,研究采用node?exporter采集宿主機的資源運行指標、cAdvisor采集所有容器運行指標、kube?state?metrics采集所有Pod容器運行狀態、kube?metrics 采集平臺等信息,實現宿主機、平臺、容器應用3個層面的主要運行指標的采集幾種K8s實例監控代理的作用和部署方式如表2所示。
1.3 運行分析
為掌握國網云的運行情況,本文基于監控系統采集的原始指標,結合業務實際需求,開展運行分析,設計指標分析公式,掌握OpenStack云平臺資源分配情況、K8s平臺資源分配情況、應用容器運行情況,通過可視化展示工具Grafana實現運行指標的可視化展示,提升了平臺運行分析的便捷性。以OpenStack平臺運行分析為例,OpenStack平臺主要通過整合硬件服務器資源,對外提供虛機計算資源,因此實時掌握已創建的虛機數量、分配的虛機CPU及內存資源占比等信息,對指導平臺資源分配以及資源擴容具有重要的幫助意義。CPU及內存資源分配占比分別為公式(1)和公式(2)
UsageCPU = (sum(hypervisor_vcpus_used) )/(sum(hypervisor_vcpus_total) )× 100% (1)
UsageMem = (sum(hypervisor_memory_mbs_used) )/(sum(hypervisor_memory_mbs_total) )× 100% (2)
1.4 實時告警
在實現監控全覆蓋、指標分析和可視化的基礎上,考慮實時告警的運維需求,研究告警規則的配置。以OpenStack 節點文件系統使用率異常為例,本文設計告警公式(3),當監控系統檢測到文件系統超過95%,將推送告警信息給告警平臺。
v100- (node_ filesystem_ free{mountpoint ="/"})/(node_ filesystem_size{mountpoint ="/"})×100)>95(3)
初步梳理出10個重要告警,這些告警直接影響到平臺或者宿主機的運行。目前配置的監控指標都是滿足可用性的指標,如表3所示。
表3 云平臺告警規則
2、平臺監控實踐
2.1 OpenStack平臺的監控實踐
江蘇公司部署有多個OpenStack集群,每個集群的設備、平臺以及服務有上百個運行指標采集。為保證指標數據采集的實時性以及監控系統的可靠性,江蘇按照“一集群、一監控"的原則,采用一個Prometheus 實例監控一個OpenStack集群的部署架構,保證每個國網云實例都有獨立的監控系統,降低監控系統對存儲空間的需求,同時將告警信息對接至智能巡檢平臺,整體架構如圖2。
圖2 OpenStack集群監控架構
考慮宿主機監控和OpenStack平臺監控不同的業務需求,定制宿主機和平臺兩個維度的Grafana監控頁面。平臺監控面板主要展現平臺規模、平臺服務狀態、資源使用情況等,如圖3所示。宿主機監控面板主要展現主機狀態、物理資源使用情況。不同于平臺面板統計的是分配資源占比,物理資源面板統計的是宿主機實際資源使用率。
圖3 OpenStack平臺資源監控面板
2.2 K8s平臺的監控實踐
江蘇公司部署有多個K8s集群,按照“一集群、一監控"的原則,采用一個Prometheus實例監控一個K8s集群的部署架構,保證每個國網云實例都有獨立的監控系統,告警信息對接至智能巡檢平臺,整體架構如圖4。
圖4 K8s集群監控架構
考慮宿主機監控、K8s平臺監控以及容器應用監控不同的業務需求,江蘇公司將Prometheus數據接入可視化平臺Grafana,并且配置個性化監控儀表盤,提供了宿主機、平臺、容器應用3個維度的監控頁面,容器應用監控面板如圖5所示。
圖5 K8s容器應用監控面板
通過實施本文的技術方案,江蘇公司OpenStack平臺監控系統實現了7套OpenStack、250余臺設備、2500余個虛機規模的云平臺的實時監控,K8s平臺監控系統實現了4套OpenStack、90余臺設備、700余個虛機規模的云平臺的實時監控,同時具備重要告警的實時告警能力,T補了江蘇公司云平臺監控的空白,為泛在電力物聯網應用的運行提供堅強的運行支撐保障。
3、安科瑞配電系統智能運維產品選型及介紹
近兩年來,安科瑞已經陸續參與各縣市電力公司的用戶端能源管理平臺、云南省網綜合能源服務平臺、上海嘉定區147所學校電力運維平臺等相關平臺的建設,提供了包括云平臺、智能網關、終端設備等產品,各類用戶端云平臺在全國各地運行案例700多套,并且根據用戶需求不斷完善產品功能,這些都是未來泛在電力物聯網的一部分。
綜合能源服務是以電為中心,把電力系統與天然氣網絡、供熱網絡、工業系統、交通系統、建筑系統等緊密結合起來,實現電、氣、冷、熱、可再生能源等多能互補和“源-網-荷-儲"各環節高度協調優化,生產和消費雙向互動,集中與分布相結合的能源服務。
3.1安科瑞智能網關、終端設備選型
3.2 安科瑞智能運維平臺介紹
平臺結構
變配電站通過安裝多溫濕度傳感器,水浸傳感器,煙霧傳感器,門磁開關等傳感器,通過網關經無線(3G/4G)或有線的方式將數據上傳云服務器上,并將數據進行集中存儲、統一管理。具有權限的用戶可通過PC、PAD、手機等各類終端設備訪問數據、接收報警信息,監控變配電站環境狀態。
運維平臺功能:
安科瑞變電所運維云平臺(AcrelCloud-1000)根據市場需求反饋,運用互聯網和大數據技術,為電力運維公司提供配套線上運維服務。該平臺作為連接運維單位和用電企業的紐帶,監視用戶配電系統的運行狀態和電量數據,為客戶提供更好的運維服務,平臺提供系統總覽、電力數據監測、電能質量分析、用電統計分析和日/月/年電能統計報表、異常預警、事故報警和事件記錄、運行環境監測、運維巡檢派單等功能,并支持多平臺、多終端數據訪問。
電力監測
通過矢量配電圖監測變電所用電情況,畫面響應遙信變位、遙測越限報警,點擊某個配電回路后可以查詢該配電回路的各類詳細用電參數,包括實時值、平均值;
實時監測變壓器運行情況,包括功率、負荷率、需量、繞組溫度等。
提供多種類型的查詢報表,可以查詢各配電回路的各類電力參數(電壓、電流、功率、頻率、諧波、三相不平衡度等),系統可以對某電力參數按照天、月進行統計。
可實現漏電監測、線纜及母排溫度監測。
故障報警
平臺可配置遙信變位報警(水浸、煙霧、門磁、開關跳閘等)、遙測越限報警(過壓、欠壓、過流、線纜溫度過高、繞組溫度過高等)、運行報警(儀表離線、網關離線等),并將接收到的報警通過短信、網頁推送,報警上下限可根據現場情況靈活配置。
能效分析
按照配電回路、區域、部門、分項(照明、空調、動力等)統計每時、每天、每月、每年用電數據,并進行同環比分析;
按尖、峰、平、谷統計各配電回路的用電量及用電金額;
統計四象限電能并計算每天、每月的平均功率因數;
按月統計每個回路的需量及發生值,為需量申報提供依據。
設備檔案
系統可配置每個變電所內變壓器、進線柜、出線柜、計量柜、高壓電纜等設備信息,記錄設備的廠家、型號、投運日期等,并可靈活定義設備的巡檢項、缺陷類別等信息。
巡檢消缺
通過系統編制巡檢計劃,并將計劃下發到巡檢人員手機上,巡檢人員在變電所現場根據巡檢要求執行巡檢任務,如果在巡檢過程中發現缺陷,可記錄缺陷并在系統中生成消缺任務。
?用戶報告
手機APP
通過手機APP實現配電圖查看、視頻監視及回放、電力參數查詢、需量統計、用能分析,并可通過手機接收報警、執行巡檢、記錄缺陷.
4、結語
本文實現江蘇公司國網云宿主機、OpenStack平臺服務、K8s平臺服務以及K8s容器應用等主要運維對象的監控,覆蓋了設備層、平臺層和應用層,并且實現了重要指標的采集和展示,幫助運維人員分析運行健康狀態,同時通過告警規則的配置,實現了重要運行指標的7×24 h監控,大大提升了云平臺故障處置效率,為泛在電力物聯網的大規模建設和應用提供可靠的、持續的計算、存儲和網絡資源服務。
本文設計的方案主要實現OpenStack和K8s云平臺資源使用和可用狀態的監控,暫不具備監控云平臺運行性能和判斷平臺故障點的能力。因此,對云平臺核心組件運行性能和運行日志的分析將是下一步研究的主要工作。
參考文獻
【1】董波,沈青,肖德寶. 云計算集群服務器系統監控方法的研究[J]計算機工程與科學.
【2】鄒昊東,丁正陽,滕愛國,韋健.省級泛在電力物聯網云平臺監控系統建設實踐.
【3】安科瑞企業微電網設計及應用手冊.2020.06版