开放安全数据集整理

整理、汇总网络安全方面的开放数据集，在awesome-ml-for-cybersecurity和wstart师傅的文章[1]基础上进行补充和修改。

网络安全相关

Samples of Security Related Data
DARPA Intrusion Detection Data Sets [ 1998 / 1999 ]
Stratosphere IPS Data Sets
Open Data Sets
Data Capture from National Security Agency
The ADFA Intrusion Detection Data Sets
- ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集。分为Linux（ADFA-LD）和Windows（ADFA-WD）
- 内容类型：主机行为
- 是否特征化：是
- 使用范围：入侵检测
NSL-KDD Data Sets
Malicious URLs Data Sets
Multi-Source Cyber-Security Events
KDD Cup 1999 Data
- KDD竞赛在1999年举行时采用的数据集。1998年美国国防部高级规划署（DARPA）在MIT林肯实验室进行了一项入侵检测评估项目收集而来的数据
- 内容类型：网络流量、主机行为
- 是否特征化：是
- 适用范围：主机入侵检测、异常流量监控
Web Attack Payloads
WAF Malicious Queries Data Sets
Malware Training Data Sets
Aktaion Data Sets
CRIME Database from DeepEnd Research
Publicly available PCAP files
2007 TREC Public Spam Corpus
Drebin Android Malware Dataset
PhishingCorpus Datset
EMBER
Vizsec Research
SHERLOCK
Probing / Port Scan - Dataset
Aegean Wireless Intrusion Dataset (AWID)
HTTP DATASET CSIC 2010
- HTTP DATASET CSIC 2010 包含已经标注过的针对web服务的请求。数据量约5w条。下载地址已经为我们分类好了训练用的正常数据，测试用的正常数据，测试用的异常数据
- 内容类型：网络流量
- 是否特征化：否
- 使用范围：WAF类产品、异常流量监控
honeypot.json
- honeypot 是由多种类型的蜜罐采集回来的数据。主要是WEB请求。约99万条数据。由于没有分类和规整，需要自己数据清洗，也可以用作校验模型的数据
- 内容类型：网络流量
- 是否特征化：否
- 使用范围：WAF类产品、异常流量监控
Masquerading User Data
- Masquerading User Data（也被称为SEA数据集）是Matthias Schonlau 教授通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集(内部攻击者分为两种，一种是内鬼[Traitor]，一种是窃取了身份凭证的正常用户的伪装者[Masquerading User]）由于是构造出来的数据，缺乏实际攻击的真实性，在一定程度上，训练出来的模型会存在一定的过拟
- 内容类型：主机行为
- 是否特征化：否
- 使用范围：入侵检测类、用户异常行为识别
360DGA
- 360安全厂商提供的DGA数据集，用于DAG域名检测，可作为黑样本
- 内容类型：文本样本
- 是否特征化：否
- 使用范围：入侵检测、异常流量、WAF
Gameover Zeus DGA sample 2014
- Zeus P2P僵尸网络的DGA恶意样本数据
- 内容类型：文本样本
- 是否特征化：否
- 使用范围：入侵检测、异常流量、WAF
auth.log
- auth.log 主要是都是登录失败的日志适合用作判断是爆破登录还是正常的输错密码
- 内容类型：主机行为
- 是否特征化：否
- 使用范围：入侵检测、异常流量、WAF
malicious-URLs
- malicious-URLs 在Github上面一个使用机器学习去检测恶意URL的项目，里面有一个训练集，有做标记是正常的URL还是恶意的URL
- 内容类型：文本样本
- 是否特征化：否
- 使用范围：入侵检测、异常流量、WAF
The Malware Capture Facility Project
- MCFP 是捷克理工大学 (CTU)用于捕抓恶意软件的而抓去的网络流量。里面的数据非常多，有他们自己分析出来的恶意流量，也有所有的流量，包括网络文件、日志、DNS请求等
- 内容类型：网络流量
- 是否特征化：否
- 使用范围：异常流量、WAF
MalwareDB
- 恶意软件库，包含恶意软件列表hash、检测结果、所属域名等数据
- 内容类型：文本样本
- 使用范围:：特征库、入侵检测
flightsim
- 一个工具，可以生成数据恶意流量数据，模拟DNS隧道、DGA通信、对活跃的C2服务器请求和其他一些可疑的流量数据
- 内容类型：网络流量（模拟）
- 是否特征化：否
- 使用范围：异常流量、WAF、入侵检测
mordor
- 模拟攻防对抗生成的安全事件数据，以JSON格式提供，并且按照ATT＆CK框架的定义。可以用于对攻防技术（TTPs）的检测。说明文档。
- 内容类型：文本样本
- 是否特征化：否
- 适用范围：入侵检测、行为识别

邮件相关

SpamBase
- 一个入门级的垃圾邮件分类训练集，已被特征化处理。特征为统计的关键字、特殊符号的词频等，一共58个属性，最后一位是垃圾邮件标记位
- 内容类型：文本样本、邮件文本（特征化）
- 是否特征化：是
- 适用范围：垃圾邮件检测
Enron-Spam
- Enron（安然公司）破产后的归档邮件，有人工标注后和未标注的部分，使用文件夹进行区分
- 内容类型：邮件文本
- 是否特征化：是（部分）/否（全量）
- 适用范围：垃圾邮件检测

综合

SecRepo.com - Samples of Security Related Data
- 整理大量安全相关的数据集，包括网络、恶意软件、文件等
- 官网、GitHub
Security Data Analysis
- 总共4个lab，包含http，连接记录，域名，host等
- GitHub
webshell收集项目
- GitHub

References

[1] 机器学习之安全数据集，wstart，https://xz.aliyun.com/t/1879