跳转至

开放安全数据集整理

整理、汇总网络安全方面的开放数据集,在awesome-ml-for-cybersecuritywstart师傅的文章[1]基础上进行补充和修改。

网络安全相关

  • Samples of Security Related Data
  • DARPA Intrusion Detection Data Sets [ 1998 / 1999 ]
  • Stratosphere IPS Data Sets
  • Open Data Sets
  • Data Capture from National Security Agency
  • The ADFA Intrusion Detection Data Sets
    • ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集。分为Linux(ADFA-LD)和Windows(ADFA-WD)
    • 内容类型:主机行为
    • 是否特征化:是
    • 使用范围:入侵检测
  • NSL-KDD Data Sets
  • Malicious URLs Data Sets
  • Multi-Source Cyber-Security Events
  • KDD Cup 1999 Data
    • KDD竞赛在1999年举行时采用的数据集。1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目收集而来的数据
    • 内容类型:网络流量、主机行为
    • 是否特征化:是
    • 适用范围:主机入侵检测、异常流量监控
  • Web Attack Payloads
  • WAF Malicious Queries Data Sets
  • Malware Training Data Sets
  • Aktaion Data Sets
  • CRIME Database from DeepEnd Research
  • Publicly available PCAP files
  • 2007 TREC Public Spam Corpus
  • Drebin Android Malware Dataset
  • PhishingCorpus Datset
  • EMBER
  • Vizsec Research
  • SHERLOCK
  • Probing / Port Scan - Dataset
  • Aegean Wireless Intrusion Dataset (AWID)
  • HTTP DATASET CSIC 2010
    • HTTP DATASET CSIC 2010 包含已经标注过的针对web服务的请求。数据量约5w条。下载地址已经为我们分类好了训练用的正常数据,测试用的正常数据,测试用的异常数据
    • 内容类型:网络流量
    • 是否特征化:否
    • 使用范围:WAF类产品、异常流量监控
  • honeypot.json
    • honeypot 是由多种类型的蜜罐采集回来的数据。主要是WEB请求。约99万条数据。由于没有分类和规整,需要自己数据清洗,也可以用作校验模型的数据
    • 内容类型:网络流量
    • 是否特征化:否
    • 使用范围:WAF类产品、异常流量监控
  • Masquerading User Data
    • Masquerading User Data(也被称为SEA数据集) 是Matthias Schonlau 教授通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集(内部攻击者分为两种,一种是内鬼[Traitor],一种是窃取了身份凭证的正常用户的伪装者[Masquerading User])由于是构造出来的数据,缺乏实际攻击的真实性,在一定程度上,训练出来的模型会存在一定的过拟
    • 内容类型:主机行为
    • 是否特征化:否
    • 使用范围:入侵检测类、用户异常行为识别
  • 360DGA
    • 360安全厂商提供的DGA数据集,用于DAG域名检测,可作为黑样本
    • 内容类型:文本样本
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • Gameover Zeus DGA sample 2014
    • Zeus P2P僵尸网络的DGA恶意样本数据
    • 内容类型:文本样本
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • auth.log
    • auth.log 主要是都是登录失败的日志 适合用作判断是爆破登录还是正常的输错密码
    • 内容类型:主机行为
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • malicious-URLs
    • malicious-URLs 在Github上面一个 使用机器学习去检测恶意URL的项目 ,里面有一个训练集,有做标记是正常的URL还是恶意的URL
    • 内容类型:文本样本
    • 是否特征化:否
    • 使用范围:入侵检测、异常流量、WAF
  • The Malware Capture Facility Project
    • MCFP 是捷克理工大学 (CTU)用于捕抓恶意软件的而抓去的网络流量。里面的数据非常多,有他们自己分析出来的恶意流量,也有所有的流量,包括网络文件、日志、DNS请求等
    • 内容类型:网络流量
    • 是否特征化:否
    • 使用范围:异常流量、WAF
  • MalwareDB
    • 恶意软件库,包含恶意软件列表hash、检测结果、所属域名等数据
    • 内容类型:文本样本
    • 使用范围::特征库、入侵检测
  • flightsim

    • 一个工具,可以生成数据恶意流量数据,模拟DNS隧道、DGA通信、对活跃的C2服务器请求和其他一些可疑的流量数据
    • 内容类型:网络流量(模拟)
    • 是否特征化:否
    • 使用范围:异常流量、WAF、入侵检测
  • mordor

    • 模拟攻防对抗生成的安全事件数据,以JSON格式提供,并且按照ATT&CK框架的定义。可以用于对攻防技术(TTPs)的检测。说明文档
    • 内容类型:文本样本
    • 是否特征化:否
    • 适用范围:入侵检测、行为识别

邮件相关

  • SpamBase

    • 一个入门级的垃圾邮件分类训练集,已被特征化处理。特征为统计的关键字、特殊符号的词频等,一共58个属性,最后一位是垃圾邮件标记位
    • 内容类型:文本样本、邮件文本(特征化)
    • 是否特征化:是
    • 适用范围:垃圾邮件检测
  • Enron-Spam

    • Enron(安然公司)破产后的归档邮件,有人工标注后和未标注的部分,使用文件夹进行区分
    • 内容类型:邮件文本
    • 是否特征化:是(部分)/否(全量)
    • 适用范围:垃圾邮件检测

综合

  • SecRepo.com - Samples of Security Related Data

    • 整理大量安全相关的数据集,包括网络、恶意软件、文件等
    • 官网GitHub
  • Security Data Analysis

    • 总共4个lab,包含http,连接记录,域名,host等
    • GitHub
  • webshell收集项目

References

[1] 机器学习之安全数据集,wstart,https://xz.aliyun.com/t/1879