终端数据挖掘与威胁狩猎

本文资料整理自《Provenance Mining：终端溯源数据挖掘与威胁狩猎》一文，仅作学习与分享，如有侵权请告知，谢谢！

回顾

什么是威胁狩猎？

威胁狩猎（Threat Hunting, TH），通俗地讲，就是以系统会被攻破为假设，进行的一系列数据调查，进而能够识别隐蔽的未知威胁，从而对事件进行溯源和场景重建。最终强化规则、全面地提高安全防护knowledge的过程。

Fig. 威胁狩猎典型范式[1]

这么看似乎和渗透测试一样，也是通过模拟入侵的方式，进而XXXX。但是我们也需要先仔细地了解渗透测试：渗透测试除了定位漏洞外，还需要进一步尝试对漏洞进行攻击利用、提权以及维持对目标系统的控制权。

这样看的话，我们可以总结：

评估方法	以什么为驱动	以什么为假设	以什么为目的
威胁狩猎	数据	系统整体会被攻陷（侧重于数据系统、应用系统本身）	强化系统整体安全规则和安全知识
渗透测试	目标	系统某一些部分会被入侵（更全面，包括人员部分）	强化系统整体，加固系统某些具体部分

溯源数据（Provenance）

面向高级威胁分析场景终端大数据分析，如EDR、集成终端数据的分析平台等应运而生。

溯源数据（Provenance）是终端侧数据的关键组成，当前操作系统（如Linux、Windows等）已具备高线溯源数采集的能力。有效的溯源数据挖掘方法，能够支撑威胁狩猎的多种任务场景。

如下图所示，Provenance能够忠实记录终端上实体的行为逻辑依赖关系，自然形成溯源数据图（Provenance Graph，简称溯源图）。所记录的实体，包括文件（菱形）、网络（椭圆）、进程（矩形）等维度；根据实体对的类型，实体间关系又包括文件读写、进程创建、网络连接等等。在溯源数据完整有效采集的情况下，通过溯源图的后向追溯（backward-trace）和前向追溯（forward-trace），能够有效弥补网络侧的数据盲点，实现攻击事件的溯源与取证。

Fig. 溯源数据图

思考

这里的溯源与传统的应急响应溯源区别在哪里？
一般来说，威胁情报建设，这块的工作常常是在甲方发生，但是现在也有越来越多的甲方在做这一块的事情。
在企业的业务场景下，需要处理数据量是非常大的，传统的应急响应工作，大多需要人工进行分析。对于威胁情报这块的工作，始终明确一点：以数据为驱动。对这一块的研究，其实最终的目的就是实现一个自动化的过程。
相同点是：都针对攻击事件，进行一个完整的入侵手法复原与取证

Reference

[1] Provenance Mining：终端溯源数据挖掘与威胁狩猎，https://mp.weixin.qq.com/s/Te7c3HvCcxX3ci9HTn8lEQ