[14.0.58 & 57...] L'interrogation d'OpenAlex par saisie libre ne fonctionne pas pour de "gros volumes" #2114

AnaelKremer · 2024-07-24T10:02:52Z

A partir d'un certain nombre de documents requêtés, la limite étant difficile à estimer mais au delà de 40 000 en général, l'import des données dans lodex tourne indéfiniment et reste bloqué au même nombre. Il faut alors annuler l'import.

On peut tester des requêtes sur cette instance http://192.168.42.34:50086/instance/champsopenalex/
avec la requête suivante par exemple qui devrait renvoyer 61 000 documents : authorships.institutions.lineage:i1294671590,type:types/article,publication_year:2021

Les logs indiquent entre autres le problème suivant
RangeError: Maximum call stack size exceeded
logs_openalex_bug.txt

The text was updated successfully, but these errors were encountered:

touv · 2024-07-25T12:34:09Z

La méthode d'interrogation est très basique, elle est donc forcement limitée.
Je ne crois pas que l'on puisse corriger ce problème définitivement sauf à créer une instruction spécifique (comme pour istex, ou corhal) néanmoins on peut essayer de récupérer plus de documents par page, ce qui diminuera le nombre de requête nécessaire avant d'atteindre la limite.
je vais proposer une PR qui augmente ce nombre

touv · 2024-07-25T12:58:25Z

@AnaelKremer peut-être faudrait-il tester la modif directement en modifiant le loader : https://github.com/Inist-CNRS/lodex/pull/2118/files#diff-063567923ce11a1d852aabbb0dcab5376612d87b0be89b76eb5340d336e860d8R39-R41

AnaelKremer · 2024-07-25T13:59:07Z

j'ai essayé de mettre 200 sans utiliser mettre d'email, ça a échoué à 28 600, je réessairai demain avec la clé si je la retrouve

touv · 2024-07-26T14:21:55Z

avec une petite correction et en précisant un mail enregistré chez eux, j'ai réussi à télécharger plus de 64 000 documents.
ça devrait passer pour ce cas d'usage.
après je pense que ce loader finira toujours par bloquer si il y a trop de documents

AnaelKremer added the Triage Nouveau problème ou besoin à étudier et à classer label Jul 24, 2024

touv added ⚠️ Minor defect Le problème ne permet pas d'optimiser le processus standard ou concerne un cas d'usage spécifique and removed Triage Nouveau problème ou besoin à étudier et à classer labels Jul 25, 2024

touv linked a pull request Jul 25, 2024 that will close this issue

add new parameters #2118

Merged

touv closed this as completed in #2118 Jul 26, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[14.0.58 & 57...] L'interrogation d'OpenAlex par saisie libre ne fonctionne pas pour de "gros volumes" #2114

[14.0.58 & 57...] L'interrogation d'OpenAlex par saisie libre ne fonctionne pas pour de "gros volumes" #2114

AnaelKremer commented Jul 24, 2024

touv commented Jul 25, 2024

touv commented Jul 25, 2024

AnaelKremer commented Jul 25, 2024

touv commented Jul 26, 2024

[14.0.58 & 57...] L'interrogation d'OpenAlex par saisie libre ne fonctionne pas pour de "gros volumes" #2114

[14.0.58 & 57...] L'interrogation d'OpenAlex par saisie libre ne fonctionne pas pour de "gros volumes" #2114

Comments

AnaelKremer commented Jul 24, 2024

touv commented Jul 25, 2024

touv commented Jul 25, 2024

AnaelKremer commented Jul 25, 2024

touv commented Jul 26, 2024