隨著數字化轉型深化,數據要素的流通、共享、分發頻次大幅提升,但與此同時,數據泄漏事件也是逐年增長。
根據《2024年中國政企機構數據安全風險研究報告》,互聯網、政府及事業單位是數據泄露的重災區。數據流通的“便利性”和“安全性”面臨嚴重的挑戰。
面對挑戰,國家和行業已明確“亮劍” 。從國家數據局、發改委等部門聯合印發的《關于完善數據流通安全治理更好促進數據要素市場化價值化的實施方案》(簡稱“方案”) ,到國家衛健委發布的《加強醫療機構電子病歷信息使用管理的通知》 ,再到各地方數據條例 ,均明確要求或鼓勵建設數據溯源技術。
其中,數據水印因其出色的溯源與取證能力,被明確列為關鍵技術措施 。例如,方案提出:“要融合數字水印、區塊鏈等技術,支撐數據流通過程中的取證定責。 ”衛健委的通知中也明確提到“支持通過數字水印等技術手段,確保使用過程留痕” 。
真實的數據流通場景遠比想象的復雜 。
· 數據類型多樣: 涉及結構化數據與非結構化數據 。
· 流轉形式多樣: 包含庫表交換、API接口交換、數據導出、頁面查看等 。
· 涉及角色多樣: 數據運維人員、數據使用人員、數據訂閱人員等 。
· 風險無處不在: 數據訂閱方在查看訂閱數據時,通過頁面截圖方式造成數據泄露 ;運維人員可批量導出數據庫造成泄露 ;用戶也可通過API接口調用造成數據泄漏 。
顯然,單一的數據水印手段難以實現全場景覆蓋 。市場真正需要的是一套能夠全方位綜合防護的整體方案,必須整合 API 水印、數據動態水印、數據靜態水印、文檔水印等多種技術工具 。
針對上述復雜場景,一套全場景的數據水印防護方案應運而生。

場景一:應用系統批量導出結構化數據
數據通過應用程序導出時,調用數據靜態水印溯源系統,自動對導出的數據嵌入水印信息。在此過程中,數據靜態水印溯源系統通過標準API接口與應用系統數據導出流程對接,自動執行水印嵌入任務,不會影響數據導出人員的操作方式,更無法知道水印信息具體嵌入在什么數據上,規范業務人員數據使用行為。
場景二:應用系統批量導出非結構化數據
如果導出的是 Word、PDF 這類非結構化文檔,可以利用文檔水印系統進行水印嵌入。文檔水印可以嵌入靜態可見水印,此種方式在文檔中固定顯示類似“內部機密”文字;動態可見水印,顯示的內容可以包含當前使用數據的人的用戶信息、終端信息等;不可見水印,通過修改文件本身特征,或者在文件里添加隱藏信息。
場景三:數據動態實時訪問
此類場景有兩種情況,一是前端通過API接口訪問應用系統中的數據,可利用應用/API水印,對傳輸的數據嵌入字符水印,或者利用無損水印技術,形成特征水印;一種是運維人員直連數據庫,實時訪問數據庫中的數據,可利用數據動態水印溯源系統,通過無損水印技術形成特征水印,便用事后追蹤溯源。
場景四:用戶通過數據應用平臺WEB頁面訪問數據
此類場景下,用戶可以通過截圖、拍照等方式泄漏數據,利用應用/API水印可以在訪問頁面嵌入頁面水印。頁面水印的關鍵信息包括:訪問者用戶信息、訪問時間、客戶端信息等,而且水印的顏色、透明度、旋轉角度、橫縱向間距等參數可根據實際需求靈活調整,能做到既不影響查看,又能對用戶形成威懾。
場景五:數據通過共享數據庫對外共享
利用數據靜態水印溯源系統從源數據庫抽取數據,嵌入相應的水印信息后再保存到共享庫中,對外共享時,從共享庫中提取數據。如此,所有共享數據都攜帶有水印信息,一旦出現數據泄露,即可快速溯源、定位。

(全場景數據水印防護方案部署示意圖)
真正的數據水印防護,絕非“頭痛醫頭”。本方案覆蓋了結構化數據、非結構化數據;針對結構化水印有嵌入式水印、無損水印方式,非結構化數據有可見水印、不可見水印方式;全面覆蓋了API接口調用、數據庫訪問、數據導出、數據查看等核心場景。我們的目標是數據流通的最終平衡—— “數據流得通、安全守得住”。

