基于AST和注意力机制的代码克隆检测
tree_sitter
sentence_transformers
主要使用的数据集为OJClone。
- 从 google drive 下载数据集
cd dataset/OJClone
pip install gdown
gdown https://drive.google.com/uc?id=0B2i-vWnOu7MxVlJwQXN6eVNONUU
tar -xvf programs.tar.gz
- 处理数据
python preprocess.py
cd ../..
会得到三个文件dataset/OJClone/train.jsonl
, dataset/OJClone/test.jsonl
, dataset/OJClone/valid.jsonl
mkdir build
cd build
git clone https://github.com/tree-sitter/tree-sitter-c
cd ..
python build_tree_sitter.py