【行業聚焦】提升規土行業數字化質量建設之道




在規土行業中,存在結構化數據與非結構化數據并存的情況。針對非結構化數據我們需要對數據進行規范命名、數據過濾等,針對結構化數據需要對數據進行數據接入、數據清洗、數據治理等步驟。數據的融合、合并、過濾是數據處理中經常會遇到的問題。在數據量比較少的時候,手動測試勉強可以。但數據量一旦增多,再靠手動、人工就不太合適。畢竟,長時間從事重復性的勞動,人難免會出錯,利用工具處理數據的重要性顯而易見。作為規土行業信息化建設商,南康科技從四個方面總結出如何不斷分析數據、反復處理保證提升數據質量的方法。

拿到數據之后,首先需要確認是否是全量數據,是否有遺漏、缺失。數據的完整,不僅要求其自身完整,還要保持整體的完整。自身完整是指數據的必填字段不為空,整體完整是指數據之間應連續、無遺漏。對于空間數據而言,數據應能完全覆蓋研究區域,沒有缺失。
對空間數據而言,準確性主要包括屬性信息與圖形信息的準確性。從空間上看,首先要檢查的是圖形的坐標系是否準確,其次是空間上有沒有拓撲問題、自相交等其他檢查項。從屬性上看,首先要檢查的是數據的表結構是否準確,然后檢查數據的內容是不是準確,比如數據是否規范、全角半角字符等問題。
一般,數據有自身的邏輯,可以是單個數據集本身的關系,也可是多個數據集之間的關系,甚至單條要素的單個字段,都會有一些邏輯關系。我們用一塊地的四至范圍為例,如果將宗地細分為地塊范圍和四至范圍,并將其分別存儲在數據庫里,地塊表與四至表之間的邏輯需要滿足一對四的關系。


某項目案例建設目的是為收集、梳理和規劃土地數據提供契機,彌補數據缺失和不完善的情況,同時保證數據的完整性和準確性。南康科技項目小組利用業務地塊空間位置上的層層串聯,以業務軸的形式展現了該地塊的全生命周期情況。其中涉及到的數據來源廣且處理過程繁雜,有6張圖形表和8張屬性表,總數據量15萬多條。項目小組采用搭建數據處理模型方式進行處理,實現了一鍵執行、多級檢測的基本目標。該處理方式調整便捷、復用率高、易于實施推廣。本項目共使用了9個數據處理模型,可以一鍵完成圖形碎步檢查、局部狹長檢查、密度檢查、圖形融合、屬性掛接等數據處理工作。項目模型的搭建為項目的順利完成及后續運維提供了重要支持與保障。

數字化背景下,面對紛繁復雜而又分散割裂的海量數據,搭建數據處理模型有助于在打破數據孤島的基礎上,解決數據處理運維難、成本高的問題。南康科技的解決方案以多視角控制數據質量,從業務角度出發,“明確需求,對癥下藥”,全面提升數據的完整性、一致性、準確性、邏輯性,提升規土行業數字化質量建設。未來,南康科技將一如既往,為客戶提供更精準、更快速、更滿意的解決方案,助力規土行業數字化轉型!