-
Notifications
You must be signed in to change notification settings - Fork 624
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
关于查重 #14
Comments
这个issue留作后续讨论,已经pin到主页 |
发现在一些平台:例如paperpass、大雅查重时,公式会变成字符。最后在学院查重的时候也会是这样吗 |
我以前是计算机学院的,我们的毕业论文是会查重但我们并不知道具体结果,不知道现在是不是不太一样了 |
字体嵌入问题主要是 如果要兼容旧版本的 |
您好,请问您查重的时候遇到乱码问题了吗 |
没有,知网查重,以及最后学校查重都没有问题 |
我是mac+TexLive2021编译的,pdf可以正常显示但是汉字不能被复制下来,建议最后还是使用windows再编译一下,看看自己的pdf汉字部分能否复制下来。学校知网查重应该是直接复制pdf汉字进行的。 |
很多使用LaTeX模板的同学都碰到了查重的问题,这里简要总结一下,希望能帮到各位
已知的查重问题有这几种
1. pdf文字复制问题
有些查重系统会将pdf中的文字直接复制出来,然后作为plain text查重。
而TexLive 2018及以前的版本中,XeTeX的伪粗体会导致复制乱码,即复制pdf中的粗体文字会产生plain text乱码。
这种情况下查重系统无法识别关键字,比如‘参考文献’,从而错误地查重了‘参考文献’的内容,进而导致极高的重复率。(相关讨论见thuthesis)
解决方法很简单,升级到TexLive 2019似乎就可以了。如果你坚持要使用2018及以前的版本,请去掉伪粗体设置,并手动指定粗体字体,详情见README的FAQ。
2. 查重系统无法正确识别编码
XeTeX编译的pdf默认使用utf-8编码,但如果强行按照GBK编码读取,会产生大量乱码,以及重复字符,比如大量的‘路’字。
此时与其他同为utf-8的pdf比对的时候,系统会误认这些的‘路’字是抄袭,从而导致极高的正文重复率。
科大的LaTeX模板在2019年碰到过查重率高的问题,我和一位同学讨论后认为是查重系统编码问题。
当然这个是查重系统本身的问题,LaTeX模板不背锅……
3. 字体嵌入的问题
这个问题多见于MacOS与Linux下编译得到的pdf,请各位同学注意。
如果你的pdf没有正确嵌入字体,会导致有些阅读器打开后看不到正文(并非所有阅读器都会出错,建议使用多种阅读器打开pdf,看是否有问题)。
解决方法也很简单,用可以看到正文的阅读器打开->打印成pdf。这样阅读器会帮你嵌入字体,我建议所有使用LaTeX模板的同学,在发送或上传pdf之前都这样操作一下。
根据 #168 这样操作会导致 pdf 内的字符在查重时变成乱码,导致几乎为 0 的重复度。如出现这种情况,可使用原始 pdf 查重,而不是使用 pdf 软件转换过的文件。
The text was updated successfully, but these errors were encountered: