中文恶意网页检测数据集与检测方法 网络安全 数据挖掘 自然语言处理 深度学习 文本分类 模式识别
若在科研论文、项目工程中使用了该数据集,欢迎引用我们的工作:
Yanting Jiang, Di Wu. A novel Chinese malicious webpages detection method based on the pre-trained language model[C]. The 19th International Conference of Web Information Systems and Applications(WISA 2022), 2022, 155--167, Springer, http://dx.doi.org/10.1007/978-3-031-20309-1_14.
针对中文恶意网页检测的数据稀缺,难以获取的问题。构建并发布了中文恶意网页检测数据集。
每一个样本包含网页URL、HTML网页文件、JavaScript代码文件。
包含521个中文恶意网页。恶意网页的种类涉及博彩类、钓鱼类(冒充正常页面)、色情类、违法交易类等。
中文恶意网页列表(含URL)的地址:见项目的“中文恶意网页列表+URL.xlsx”文件。
中文恶意网页HTML与JavaScript文件下载地址:请联系作者微信jyt629000,或qq:3225357264
(经人工检测,恶意网页绝不含木马病毒,可以放心下载)