Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

关于重建索引时卡在某个进度 #321

Open
HZJprince opened this issue Nov 27, 2024 · 41 comments
Open

关于重建索引时卡在某个进度 #321

HZJprince opened this issue Nov 27, 2024 · 41 comments
Labels
bug Something isn't working

Comments

@HZJprince
Copy link

HZJprince commented Nov 27, 2024

你好,上传文件以后,对某个文件夹进行重建索引时,会卡在某个进度,请问这个有什么好的解决?
screenshot-1732713477818

@jamebal jamebal added the bug Something isn't working label Nov 27, 2024
@jamebal
Copy link
Owner

jamebal commented Nov 27, 2024

有bug,下个版本修复

@jamebal
Copy link
Owner

jamebal commented Nov 27, 2024

目前的解决办法:如果一直在卡住,可以重启jmalcloud_server容器。

实际上是扫描完了,进度显示有问题

@HZJprince
Copy link
Author

主要是最近使用过程中,发现上传文件夹以后,有部分文件夹里面的文档使用关键字搜索,是搜索不出具有相应内容的文档(有docx格式,有pdf格式的),怀疑没有建索引,就用到重建索引,然后就很容易卡了,批量上传文件夹很容易出现索引建不成功的情况

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

单独上传那个搜不到的文档, 看看能搜索到吗

@HZJprince
Copy link
Author

单独上传是可以的

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

单独上传是可以的

放在文件夹里上传就搜索不到是吧

@HZJprince
Copy link
Author

嗯嗯,如果放在文件夹里,并且文件夹内文件量比较多时,就搜不到了

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

嗯嗯,如果放在文件夹里,并且文件夹内文件量比较多时,就搜不到了

文件夹内大概有多少个文件

@HZJprince
Copy link
Author

有的文件夹都是word文档的话,有100个以上,如果都是pdf的话,可能10个左右,也有混杂的,一个文件夹在20-50m大小不等

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

上传文件夹后搜索不到, 然后再重建索引还是搜索不到吗

@HZJprince
Copy link
Author

对,点重建索引就会卡在某个进度,就算重启server后也是一样的情况

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

看看server的日志:

docker logs jmalcloud_server

@HZJprince
Copy link
Author

new.txt
这是日志

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

new.txt 这是日志

这是重建索引后的日志吗

@HZJprince
Copy link
Author

是的

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

可是试试目前的测试版本吗?
jmalcloud和nginx的镜像换成test

  jmalcloud:
    container_name: jmalcloud_server
    image: jmal/jmalcloud:test
  nginx:
    container_name: jmalcloud_nginx
    image: jmal/jmalcloud-nginx:test

@HZJprince
Copy link
Author

这个镜像拉不下来,有阿里云镜像的吗请问

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

试试这个:

  jmalcloud:
    container_name: jmalcloud_server
    image: proxy.1panel.live/jmal/jmalcloud:test
  nginx:
    container_name: jmalcloud_nginx
    image: proxy.1panel.live/jmal/jmalcloud-nginx:test

@HZJprince
Copy link
Author

_jmalcloud_server_logs.txt
这是启用test镜像后,进系统重新构建索引的日志

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

测试版,重建索引还会卡住吗

@HZJprince
Copy link
Author

会啊,还是卡的

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

server中加入参数LOG_LEVEL: info, 再看看卡住后的日志

  jmalcloud:
    container_name: jmalcloud_server
    image: proxy.1panel.live/jmal/jmalcloud:test
    environment:
      LOG_LEVEL: info
...

@HZJprince
Copy link
Author

_jmalcloud_server_logs_1.txt
这是卡住后的日志

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

server中加入参数JVM_OPTS: -Xms512m -Xmx2048m, 再试试

  jmalcloud:
    container_name: jmalcloud_server
    image: proxy.1panel.live/jmal/jmalcloud:test
    environment:
      LOG_LEVEL: info
      JVM_OPTS: -Xms512m -Xmx2048m
...

@HZJprince
Copy link
Author

image
我前面在启动的时候,已经是有给JVM配置了高内存

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

image 我前面在启动的时候,已经是有给JVM配置了高内存

好的, 更新下test镜像, 再重建索引后看看日志

@HZJprince
Copy link
Author

_jmalcloud_server_logs_2.txt
这是重新拉取仓库test镜像后,做重建索引的日志,目前还是卡住的

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

请问有没有卡住后1小时的日志? 还有卡住后任务进度里面有没有内容?

@HZJprince
Copy link
Author

_jmalcloud_server_logs_3.txt
这是截止目前为止的所有日志,12点03分后就应该是卡住以后的日志了,卡住以后就跟前面最开始的截图一样,是卡在某个进度就没动过了,卡住以后后面不管上传任何文档都是不会建索引的。

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

去掉文件夹中的pdf, 只保留word文档, 再重建索引试试,看看会不会卡住

@HZJprince
Copy link
Author

已经把文件夹内的pdf都删掉了,然后重启了一下服务,再做一个重建索引,现在卡在86%,截图和日志:
_jmalcloud_server_logs_4.txt
卡住

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

请问可以上传这些文档以供测试吗, 挑一些没有敏感数据的。我这里测试上传几千个文档, 也无法复现😂

@HZJprince
Copy link
Author

前面测试的文档主要是一些简历,有比较多个人信息,可能不太好提供,我这边重复再尝试了几遍,如果文件夹里是纯word类的文档,重启一次服务以后是可以正常重建索引的,如果文件内是纯pdf文档,存在一种情况就是任务先执行到某个需要处理时间比较长的PDF文档处以后,重建的任务就会卡住,而这个PDF文档的内容我看了是比较复杂的,但是单个上传处理这种复杂内容的PDF文件是能正常建索引的,附件这是其中一个
IBM 弹性运维服务手册.pdf

@jamebal
Copy link
Owner

jamebal commented Nov 28, 2024

前面测试的文档主要是一些简历,有比较多个人信息,可能不太好提供,我这边重复再尝试了几遍,如果文件夹里是纯word类的文档,重启一次服务以后是可以正常重建索引的,如果文件内是纯pdf文档,存在一种情况就是任务先执行到某个需要处理时间比较长的PDF文档处以后,重建的任务就会卡住,而这个PDF文档的内容我看了是比较复杂的,但是单个上传处理这种复杂内容的PDF文件是能正常建索引的,附件这是其中一个

IBM 弹性运维服务手册.pdf

感谢

@HZJprince
Copy link
Author

这个请问可以优化不?有时候文档多,很难逐个去分辨哪个PDF是有问题的,尤其是卡住以后每次都需要重启去排哪个文档有问题

@jamebal
Copy link
Owner

jamebal commented Nov 29, 2024

我把这个pdf复制了100份还是无法重现😂, 请问重建索引卡住的时候,任务进度界面有内容吗?

最后一个方法:
请在重建索引卡住半小时后,执行以下命令,再上传日志

docker exec -it jmalcloud_server kill -3 1

@HZJprince
Copy link
Author

HZJprince commented Nov 29, 2024

您测试的也是在docker进行的不?卡住以后,任务进度那里是没有内容的,看截图,这是半小时后执行命令后的日志:
_jmalcloud_server_logs_5.txt

任务进度

@jamebal
Copy link
Owner

jamebal commented Nov 29, 2024

感谢您提供的日志,找到问题了,我等会更新下镜像

@jamebal
Copy link
Owner

jamebal commented Nov 29, 2024

现在可以更新test镜像试试,看会不会卡住

@HZJprince
Copy link
Author

已经测试了,之前会卡的文件问题,都可以顺利完成重建索引,这个修复会合并到正式镜像嘛?

@jamebal
Copy link
Owner

jamebal commented Nov 29, 2024

已经测试了,之前会卡的文件问题,都可以顺利完成重建索引,这个修复会合并到正式镜像嘛?

下个版本发布时会合并到正式镜像

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
bug Something isn't working
Projects
None yet
Development

No branches or pull requests

2 participants