Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[14.0.58 & 57...] L'interrogation d'OpenAlex par saisie libre ne fonctionne pas pour de "gros volumes" #2114

Closed
AnaelKremer opened this issue Jul 24, 2024 · 4 comments · Fixed by #2118
Labels
⚠️ Minor defect Le problème ne permet pas d'optimiser le processus standard ou concerne un cas d'usage spécifique

Comments

@AnaelKremer
Copy link
Collaborator

A partir d'un certain nombre de documents requêtés, la limite étant difficile à estimer mais au delà de 40 000 en général, l'import des données dans lodex tourne indéfiniment et reste bloqué au même nombre. Il faut alors annuler l'import.

On peut tester des requêtes sur cette instance http://192.168.42.34:50086/instance/champsopenalex/
avec la requête suivante par exemple qui devrait renvoyer 61 000 documents : authorships.institutions.lineage:i1294671590,type:types/article,publication_year:2021

Les logs indiquent entre autres le problème suivant
RangeError: Maximum call stack size exceeded
logs_openalex_bug.txt

@AnaelKremer AnaelKremer added the Triage Nouveau problème ou besoin à étudier et à classer label Jul 24, 2024
@touv
Copy link
Contributor

touv commented Jul 25, 2024

La méthode d'interrogation est très basique, elle est donc forcement limitée.
Je ne crois pas que l'on puisse corriger ce problème définitivement sauf à créer une instruction spécifique (comme pour istex, ou corhal) néanmoins on peut essayer de récupérer plus de documents par page, ce qui diminuera le nombre de requête nécessaire avant d'atteindre la limite.
je vais proposer une PR qui augmente ce nombre

@touv touv added ⚠️ Minor defect Le problème ne permet pas d'optimiser le processus standard ou concerne un cas d'usage spécifique and removed Triage Nouveau problème ou besoin à étudier et à classer labels Jul 25, 2024
@touv touv linked a pull request Jul 25, 2024 that will close this issue
@touv
Copy link
Contributor

touv commented Jul 25, 2024

@AnaelKremer
Copy link
Collaborator Author

j'ai essayé de mettre 200 sans utiliser mettre d'email, ça a échoué à 28 600, je réessairai demain avec la clé si je la retrouve

@touv
Copy link
Contributor

touv commented Jul 26, 2024

avec une petite correction et en précisant un mail enregistré chez eux, j'ai réussi à télécharger plus de 64 000 documents.
ça devrait passer pour ce cas d'usage.
après je pense que ce loader finira toujours par bloquer si il y a trop de documents

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
⚠️ Minor defect Le problème ne permet pas d'optimiser le processus standard ou concerne un cas d'usage spécifique
Projects
None yet
Development

Successfully merging a pull request may close this issue.

2 participants