Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于查重 #14

Closed
TheNetAdmin opened this issue Jun 22, 2019 · 7 comments
Closed

关于查重 #14

TheNetAdmin opened this issue Jun 22, 2019 · 7 comments
Labels
tips Some usage tips

Comments

@TheNetAdmin
Copy link
Owner

TheNetAdmin commented Jun 22, 2019

很多使用LaTeX模板的同学都碰到了查重的问题,这里简要总结一下,希望能帮到各位

已知的查重问题有这几种

1. pdf文字复制问题

有些查重系统会将pdf中的文字直接复制出来,然后作为plain text查重。

而TexLive 2018及以前的版本中,XeTeX的伪粗体会导致复制乱码,即复制pdf中的粗体文字会产生plain text乱码。

这种情况下查重系统无法识别关键字,比如‘参考文献’,从而错误地查重了‘参考文献’的内容,进而导致极高的重复率。(相关讨论见thuthesis

解决方法很简单,升级到TexLive 2019似乎就可以了。如果你坚持要使用2018及以前的版本,请去掉伪粗体设置,并手动指定粗体字体,详情见README的FAQ

2. 查重系统无法正确识别编码

XeTeX编译的pdf默认使用utf-8编码,但如果强行按照GBK编码读取,会产生大量乱码,以及重复字符,比如大量的‘路’字。

此时与其他同为utf-8的pdf比对的时候,系统会误认这些的‘路’字是抄袭,从而导致极高的正文重复率

科大的LaTeX模板在2019年碰到过查重率高的问题,我和一位同学讨论后认为是查重系统编码问题。

当然这个是查重系统本身的问题,LaTeX模板不背锅……

3. 字体嵌入的问题

这个问题多见于MacOS与Linux下编译得到的pdf,请各位同学注意。

如果你的pdf没有正确嵌入字体,会导致有些阅读器打开后看不到正文(并非所有阅读器都会出错,建议使用多种阅读器打开pdf,看是否有问题)。

解决方法也很简单,用可以看到正文的阅读器打开->打印成pdf。这样阅读器会帮你嵌入字体,我建议所有使用LaTeX模板的同学,在发送或上传pdf之前都这样操作一下。

[2019年注] 目前尚不清楚这个是否真的影响查重,但2019年有同学反映因为字体没有嵌入,一审开题报告的时候产生了很多麻烦,所以建议大家重视这个问题。

根据 #168 这样操作会导致 pdf 内的字符在查重时变成乱码,导致几乎为 0 的重复度。如出现这种情况,可使用原始 pdf 查重,而不是使用 pdf 软件转换过的文件。

我发现用TravisCI编译得到的样例pdf文件(比如这里的样例文件)就有类似的问题,大家可以尝试将其打印为pdf,并查看文件大小的变化。我操作后,pdf大小从400KB变成了1.1MB。

@TheNetAdmin TheNetAdmin added the tips Some usage tips label Jun 22, 2019
@TheNetAdmin TheNetAdmin pinned this issue Jun 22, 2019
@TheNetAdmin
Copy link
Owner Author

这个issue留作后续讨论,已经pin到主页

@ZJUDestiny
Copy link

发现在一些平台:例如paperpass、大雅查重时,公式会变成字符。最后在学院查重的时候也会是这样吗

@TheNetAdmin
Copy link
Owner Author

我以前是计算机学院的,我们的毕业论文是会查重但我们并不知道具体结果,不知道现在是不是不太一样了

@zepinglee
Copy link

字体嵌入问题主要是 latexmk 的默认参数,见 https://liam.page/2019/02/12/default-flags-for-xDVIPDFMx/ ,在 4.69a 版本才修复(http://personal.psu.edu/~jcc8/software/latexmk/versions.html )。

如果要兼容旧版本的 latexmk,可以在 latexmkrc 中设置 $xdvipdfmx = "xdvipdfmx -q -E -o %D %O %S";

@Kyfafyd Kyfafyd mentioned this issue May 1, 2021
19 tasks
@Kyfafyd
Copy link

Kyfafyd commented May 1, 2021

发现在一些平台:例如paperpass、大雅查重时,公式会变成字符。最后在学院查重的时候也会是这样吗

您好,请问您查重的时候遇到乱码问题了吗

@ZJUDestiny
Copy link

发现在一些平台:例如paperpass、大雅查重时,公式会变成字符。最后在学院查重的时候也会是这样吗

您好,请问您查重的时候遇到乱码问题了吗

没有,知网查重,以及最后学校查重都没有问题

@xushiyi11
Copy link

我是mac+TexLive2021编译的,pdf可以正常显示但是汉字不能被复制下来,建议最后还是使用windows再编译一下,看看自己的pdf汉字部分能否复制下来。学校知网查重应该是直接复制pdf汉字进行的。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
tips Some usage tips
Projects
None yet
Development

No branches or pull requests

5 participants