跳转至

论文日读:Enabling Efficient Cyber Threat Hunting With Cyber Threat Intelligence

概要

论文:Gao, Peng, Fei Shao, Xiaoyuan Liu, Xusheng Xiao, Zheng Qin, Fengyuan Xu, Prateek Mittal, Sanjeev R. Kulkarni和Dawn Song. Enabling Efficient Cyber Threat Hunting With Cyber Threat Intelligence. ArXiv:2010.13637 [Cs], 25/2/2021. http://arxiv.org/abs/2010.13637.

该论文主要提出一种基于NLP和搜索查询技术的威胁狩猎框架。主要包含以下几个部分:

  • 轻量级NLP管道
  • TBQL,一种特定领域查询语言(DSL)
  • 一查询合成机制,自动合成TBQL查询语句
  • 一个高效的查询执行引擎,适用于大规模日志数据

image-20220102105217457

图:框架组成

笔记

当前困境和挑战

在本文中,作者认为当前的威胁狩猎仍是需要大量人工参与的“劳动密集型”工作,也相对容易出错。另一方面,基于IOC指标的防御方案较容易被绕过,但从非结构化数据中能获取更多威胁相关信息。

在该项工作中,作者主要目标是在非结构化的开源网络威胁情报(OSCTI)报告中提取威胁行为(IOC及其关系),以及用提取的知识帮助威胁狩猎的过程。因此主要的挑战是:

  • 在自然语言为主的OSCTI报告中,较难精确提取威胁信息,例如IOC中的特殊字符,会混淆大部分NLP模块
  • 威胁狩猎是一个需要从海量数据中“大海捞针”的过程,因此对大数据的存储和查询机制也有更高的要求

框架

针对以上问题,作者提出以下基于开源威胁情报进行威胁狩猎的平台架构图:

image-20220102111907790

图:ThreatRaptor框架图

  • Part1: 用于威胁行为提取的无监督、轻量级和准确的NLP 管道
    • 为了处理细微差别并满足及时威胁搜寻的要求,该管道采用了一系列技术(例如,IOC 保护、基于依赖关系解析的IOC关系提取)来实现准确高效的威胁行为提取
    • 提取的威胁行为用结构化的威胁行为图表示,其中节点表示IOC,边表示IOC关系。与非结构化的 OSCTI 文本相比,这种结构化的威胁行为表示更适合自动化处理和集成
  • Part2: 特定领域查询语言(TBQL)和查询合成机制
    • 为了便于对海量的系统审计日志数据进行狩猎,该框架拥有一个高效的查询子系统,该子系统采用威胁行为查询语言 (TBQL) 查询存储在数据库后端的日志数据,TBQL 是一种声明性语言,它集成了计算机系统中用于威胁狩猎的关键原语集合
  • Part3: 查询合成机制

    • 为了将威胁行为图与查询子系统连接起来,该框架采用了一种查询合成机制,可以从构建的图形中自动合成 TBQL 查询。通过这种方式,可以将有关威胁行为的外部知识自动集成到威胁搜寻中。同时,该框架也支持查询编辑的人工编辑进行分析
    • TBQL和查询和查询合成机制主要考虑到威胁狩猎是一个迭代过程,涉及多轮查询编辑和执行
  • Part4: 高效查询执行引擎

    • 为了高效查询大数据,该框架对数据存储和查询执行引擎进行了专门的优化
    • 具体来说,THREATRAPTOR 采用数据缩减技术(Data Reduction Techniques)来合并过多的系统事件,同时保留足够的信息。为了执行 TBQL 查询,该框架将其分解为多个部分,并将每个部分编译为语义等效的数据查询:在PostgreSQL或Neo4j数据库中执行的小型 SQL或 Cypher查询
    • 然后,该框架使用调度算法根据它们估计的修剪能力和语义依赖性来调度这些数据查询的执行。该做法的好处是能避免SQL和Cypher查询语句的连接和编织导致查询性能下降,并利用查询语义来加快执行速度。另外,除了这种精确搜索模式之外,该框架通过扩展支持基于不精确图模式匹配的模糊搜索模式

示例场景

以下是一个针对数据泄漏攻击场景下进行威胁狩猎的完整流水线过程:

image-20220102112339154

图:示例场景下的处理过程

详细处理过程

详细梳理过程由于涉及较多数据和技术细节,用此不再展开,原文整理更加清晰

测试场景

  • 攻击 1:Shellshock 渗透后的密码破解
    • 攻击者利用 Shellshock 漏洞渗透到受害主机。渗透后,攻击者首先连接到云服务(Dropbox)并下载一个图像,其中C2服务器的 IP 地址被编码在 EXIF 元数据中。这种行为是 APT 攻击的一种常见做法,以逃避基于 DNS 黑名单的检测系统。攻击者使用该 IP 从 C2 服务器下载密码破解程序到受害主机,然后针对密码影子文件(password shadow files)运行密码破解程序以提取明文
  • 攻击 2:Shellshock 渗透后的数据泄漏

    • 侦察阶段后,攻击者试图从受害主机窃取所有有价值的资产。此阶段主要涉及本地和远程文件系统扫描活动、重要文件的复制和压缩以及将文件传输到C2服务器的行为。攻击者扫描文件系统,将文件刮成单个压缩文件,然后将其传输回 C2 服务器
  • 攻击3: VPNFilter

    • 攻击者试图从C2服务器保持与受害主机的直接连接。攻击者利用臭名昭著的VPNFilter恶意软件,该恶意软件通过利用一些已知或零日漏洞感染数百万物联网设备。在对受害主机进行初次渗透后,攻击者从C2服务器下载VPNFilter阶段1的恶意软件,该恶意软件访问公共映像存储库以获得映像。在映像的EXIF元数据中,stage 2服务器的IP地址被编码。阶段1的恶意软件然后下载VPNFilter阶段2的恶意软件