开放安全数据集整理
整理、汇总网络安全方面的开放数据集,在awesome-ml-for-cybersecurity和wstart师傅的文章[1]基础上进行补充和修改。
网络安全相关
- Samples of Security Related Data
- DARPA Intrusion Detection Data Sets [ 1998 / 1999 ]
- Stratosphere IPS Data Sets
- Open Data Sets
- Data Capture from National Security Agency
- The ADFA Intrusion Detection Data Sets
- ADFA IDS Datasets 是澳大利亚国防大学发布的一套关于HIDS的数据集。分为Linux(ADFA-LD)和Windows(ADFA-WD)
- 内容类型:主机行为
- 是否特征化:是
- 使用范围:入侵检测
- NSL-KDD Data Sets
- Malicious URLs Data Sets
- Multi-Source Cyber-Security Events
- KDD Cup 1999 Data
- KDD竞赛在1999年举行时采用的数据集。1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行了一项入侵检测评估项目收集而来的数据
- 内容类型:网络流量、主机行为
- 是否特征化:是
- 适用范围:主机入侵检测、异常流量监控
- Web Attack Payloads
- WAF Malicious Queries Data Sets
- Malware Training Data Sets
- Aktaion Data Sets
- CRIME Database from DeepEnd Research
- Publicly available PCAP files
- 2007 TREC Public Spam Corpus
- Drebin Android Malware Dataset
- PhishingCorpus Datset
- EMBER
- Vizsec Research
- SHERLOCK
- Probing / Port Scan - Dataset
- Aegean Wireless Intrusion Dataset (AWID)
- HTTP DATASET CSIC 2010
- HTTP DATASET CSIC 2010 包含已经标注过的针对web服务的请求。数据量约5w条。下载地址已经为我们分类好了训练用的正常数据,测试用的正常数据,测试用的异常数据
- 内容类型:网络流量
- 是否特征化:否
- 使用范围:WAF类产品、异常流量监控
- honeypot.json
- honeypot 是由多种类型的蜜罐采集回来的数据。主要是WEB请求。约99万条数据。由于没有分类和规整,需要自己数据清洗,也可以用作校验模型的数据
- 内容类型:网络流量
- 是否特征化:否
- 使用范围:WAF类产品、异常流量监控
- Masquerading User Data
- Masquerading User Data(也被称为SEA数据集) 是Matthias Schonlau 教授通过正常数据构造出来用于训练和检测 Masquerading User攻击的数据集(内部攻击者分为两种,一种是内鬼[Traitor],一种是窃取了身份凭证的正常用户的伪装者[Masquerading User])由于是构造出来的数据,缺乏实际攻击的真实性,在一定程度上,训练出来的模型会存在一定的过拟
- 内容类型:主机行为
- 是否特征化:否
- 使用范围:入侵检测类、用户异常行为识别
- 360DGA
- 360安全厂商提供的DGA数据集,用于DAG域名检测,可作为黑样本
- 内容类型:文本样本
- 是否特征化:否
- 使用范围:入侵检测、异常流量、WAF
- Gameover Zeus DGA sample 2014
- Zeus P2P僵尸网络的DGA恶意样本数据
- 内容类型:文本样本
- 是否特征化:否
- 使用范围:入侵检测、异常流量、WAF
- auth.log
- auth.log 主要是都是登录失败的日志 适合用作判断是爆破登录还是正常的输错密码
- 内容类型:主机行为
- 是否特征化:否
- 使用范围:入侵检测、异常流量、WAF
- malicious-URLs
- malicious-URLs 在Github上面一个 使用机器学习去检测恶意URL的项目 ,里面有一个训练集,有做标记是正常的URL还是恶意的URL
- 内容类型:文本样本
- 是否特征化:否
- 使用范围:入侵检测、异常流量、WAF
- The Malware Capture Facility Project
- MCFP 是捷克理工大学 (CTU)用于捕抓恶意软件的而抓去的网络流量。里面的数据非常多,有他们自己分析出来的恶意流量,也有所有的流量,包括网络文件、日志、DNS请求等
- 内容类型:网络流量
- 是否特征化:否
- 使用范围:异常流量、WAF
- MalwareDB
- 恶意软件库,包含恶意软件列表hash、检测结果、所属域名等数据
- 内容类型:文本样本
- 使用范围::特征库、入侵检测
-
- 一个工具,可以生成数据恶意流量数据,模拟DNS隧道、DGA通信、对活跃的C2服务器请求和其他一些可疑的流量数据
- 内容类型:网络流量(模拟)
- 是否特征化:否
- 使用范围:异常流量、WAF、入侵检测
邮件相关
-
- 一个入门级的垃圾邮件分类训练集,已被特征化处理。特征为统计的关键字、特殊符号的词频等,一共58个属性,最后一位是垃圾邮件标记位
- 内容类型:文本样本、邮件文本(特征化)
- 是否特征化:是
- 适用范围:垃圾邮件检测
-
- Enron(安然公司)破产后的归档邮件,有人工标注后和未标注的部分,使用文件夹进行区分
- 内容类型:邮件文本
- 是否特征化:是(部分)/否(全量)
- 适用范围:垃圾邮件检测
综合
-
SecRepo.com - Samples of Security Related Data
-
Security Data Analysis
- 总共4个lab,包含http,连接记录,域名,host等
- GitHub
-
webshell收集项目
References
[1] 机器学习之安全数据集,wstart,https://xz.aliyun.com/t/1879