安全数据分析平台的架构

[TODO]

本篇整合安全领域内各种大数据分析平台的架构，主要包含以下的几个方向：

分析商业化产品的技术架构思路
整合公开的技术架构

通用型大数据平台的技术架构

Fig. 通用的大数据平台技术架构[1]

综合性威胁分析平台

Fig. 详细版[1]

Fig. 设计思路[1]

基于日志的安全数据分析平台

图：日志处理架构[2]

参考资料

AiLPHA大数据智能安全平台

https://www.dbappsecurity.com.cn/show-56-5-1.html

功能简述

AiLPHA以“AI驱动安全”为核心理念，

集成超大规模存查、大数据实时智能分析、用户行为（UEBA）分析、多维态势安全视图、企业安全联动闭环等安全模块。

具备全网流量处理、异构日志集成、核心数据安全分析、办公应用安全威胁挖掘等前沿大数据智能安全威胁挖掘分析与预警管控能力。

AI驱动安全，其实更适合说是数据驱动安全。该平台主要提供：大数据量安全信息的存储和查询，进行实时的分析，具有用户行为分析模块，多种可视化视图、相关资产信息查询的功能。

可以做：内网流量抓取与处理、异构日志集成、核心数据安全分析、办公应用安全威胁挖掘（例如邮件、OA系统本身等），最后两者可能使用用户行为分析模型进行统一。

产品架构

数据采集：实时采集全流量，安全设备日志，应用日志等，为下游实时计算提供源源不断的数据。

ETL：提供强大的数据抽取、转换和加载能力，解析引擎支持超过300+厂商以及3000+种类日志。

数据分析与计算：搭建高可用集群HA以HDFS Federation和YARN为核心，集成了各种计算组件，包括HBase、Kafka、flink等.

应用服务：以个性化展示结果数据以及使用告警系统生成异常结果数据警报。

数据采集 —— ETL(Extract, Transform, Load) —— 数据分析与计算（注意分析、计算是不同的） —— 应用服务（个性化展示，权限管理）

产品优势

多源异构数据采集

采用多样的、异构的安全资产的数据采集，具备全流量7层协议深度解析技术、全网安全日志智能解析采集技术，实现可适配数据源的方式对各类安全设备、系统数据进行采集、清洗、标准化、存储，提供离线、实时、全文检索等多种数据订阅及分析等功能。

UEBA分析

UEBA提供画像及基于各种分析方法的异常检测，通常是基本分析方法来评估用户和其他实体(主机，应用程序，网络，数据库等)，来发现与用户或实体标准画像或行为相异常的活动所相关的潜在事件。这些活动包括内部或第三方人员对系统的异常访问(用户异常)，或者外部攻击者绕过防御性安全控制的入侵(异常用户)。通过对用户日常行为的聚类以及AiLPHA大数据分析平台安全域信息，将不同类别的使用者（User）区分出来。当这些用户实体有非职责内操作时，平台会将该用户标记较高异常评分（Anomaly Score）。

威胁智能溯源

高级网络安全事件隐蔽而复杂，安全运维人员难以进行溯源分析，对安全事件的判断、安全决策的制定带来了巨大的困难。平台通过利用威胁情报、大数据安全分析、建立情报共享，协同分析、全生命周期跟踪安全事件的溯源流程，极大程度的方便运维人员进行安全威胁排除、攻击链分析、事件溯源等，提升企业的整体安全事件分析能力。

模型智能编排

AiLPHA计算分析系统可实现对模型的智能编排，支持用户自定义实现数据挖掘和集群学习基础算法。通过使用有向连接线标书模型数据的流程，实现多个元素的链接。模型编排完成，可实时输出模型的计算结果，并且可直接调用已有模型作为下一个模型的输入。模型编排修改模型时，在完成界面显示模型指标的增删改情况。支持使用Python、Java等语言开发数据分析程序。

第1，进行多源、异构的数据采集、清洗、标准化、存储（并且提供离线、实时、全文检索的功能，我们平台暂时不需要）

第2，用户行为分析，发现与用户或实体标准画像或行为相异常的活动所相关的潜在事件

第3，高级威胁溯源，方便运维人员进行安全威胁排除、攻击链分析、事件溯源

第4，对模型的智能编排，简单地说，就是包装好了机器学习算法，自定义实现数据挖掘和集群学习基础算法

天池云安全管理平台

https://www.dbappsecurity.com.cn/show-55-7-1.html

References

[1] 数据驱动安全方法论浅谈, jeary, https://xz.aliyun.com/t/3695

[2] 海量日志采集、解析实践，邓小刚（奇安信网络安全部），在2020BCS上的分享