Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Erreur import gros fichiers #2136

Closed
camilledesalabert opened this issue Aug 12, 2024 · 9 comments · Fixed by #2153
Closed

Erreur import gros fichiers #2136

camilledesalabert opened this issue Aug 12, 2024 · 9 comments · Fixed by #2153
Labels
🔥Critical defect Le problème bloque le processus standard de traitement 👷‍♂️ Ready to go Le besoin ou le problème est validé, il prêt à être développé..

Comments

@camilledesalabert
Copy link
Collaborator

camilledesalabert commented Aug 12, 2024

Décrire le bogue
A partir de la version 14.0.40, l'import de gros fichiers (plus de 400 000 lignes) ne s'achève jamais

  • étape "chargement des données" qui tourne sans fin)
  • ou import qui stoppe au-delà de 100 00 lignes sans charger la totalité du fichier.
    Parfois un message d'erreur apparait (versions les plus récentes) : voir capture plus bas.

Testé en versions 14.0.59, 56, 51, 45, 41, 40 et 39.

Reproduire
Étapes pour reproduire le comportement :

  1. Sélectionnez le fichier revue de sommaire (ancienne version ici par exemple : revue-sommaire_big_file/revue-sommaire_374321lignes.zip)
  2. Cliquez sur 'importer'

Comportement attendu
Import complet du fichier (opérationnel jusqu'à la version 14.0.39)

Captures d'écran
erreur-import-rs-lodex14059

Environnement (veuillez compléter les informations suivantes) :

  • Navigateur Chrome
  • Version du navigateur (optionnel) [par ex. 100]
  • Version de LODEX : indiqué dans descriptif

Contexte supplémentaire
Ajoutez ici tout autre contexte relatif au problème.

@camilledesalabert camilledesalabert added the Triage Nouveau problème ou besoin à étudier et à classer label Aug 12, 2024
@yannguillemin
Copy link
Collaborator

yannguillemin commented Sep 10, 2024

Je confirme, je viens d'essayer avec un csv de de plus de 456 245 lignes (revue de sommaire ISTEX) sur Chrome avec la v14.0.60 et le chargement s'est arrêté à 112 500 lignes avec la même erreur.
Aujourd'hui, blocage du chargement à 294 500 lignes.
Idem avec la v14.0.61.

@yannguillemin yannguillemin added 🔥Critical defect Le problème bloque le processus standard de traitement 👷‍♂️ Ready to go Le besoin ou le problème est validé, il prêt à être développé.. and removed Triage Nouveau problème ou besoin à étudier et à classer labels Sep 12, 2024
@AnaelKremer
Copy link
Collaborator

Je vais compléter cette issue plutôt que d'en ouvrir une nouvelle car les problèmes que j'ai rencontré sont sans doute liés.

Pour pallier à ce problème d'import de gros fichiers j'ai segmenté les opérations ou les fichiers à charger et un autre problème apparaît.

  • en 14.0.60 & 59 sur chrome comme firefox :

Chargement d'un corpus via requetage d'openalex. J'importe un 1er lot de 57 000 notices sans problème. Je veux le compléter avec 50 000 autres notices, tout se déroule bien, on peut voir dans l'instance au cours du chargement que j'ai effectivement plus de 57 000 notices et lorsque l'on arrive à la fin du processus toute les données disparaissent (107 000 donc ) avec le message suivant !
import annulé

  • Autre cas de figure en 14.0.48, autre machine, firefox et chrome également

Chargement d'un corpus via plusieurs fichiers json-l. 1er upload de 20 000 lignes environ chargé. 2ème upload de 25 000 chargé également. L'instance comporte bien le contenu des 2 fichiers. 3 ème upload de 25 000 aussi le processus va à son terme et au moment où la page se rafraîchit pour normalement afficher le total des 3 fichiers j'ai 0 lignes, instance vide avec toujours le message "l'import a été annulé avec succès"

les logs de l'instance :
logsBugsInsbConditor.txt

@AnaelKremer
Copy link
Collaborator

AnaelKremer commented Sep 12, 2024

Logs d'un 3eme test

Error: ENOENT: no such file or directory, open 'upload/conditor-insb20172022v1_235793460-insb_2020_juinjsonl.1'
2024-09-12T18:39:30: PM2 log: App [lodex:0] exited with code [0] via signal [SIGINT]
2024-09-12T18:39:30: PM2 log: App [lodex:0] starting in -cluster mode-
WARNING (@babel/preset-env): We noticed you're using the `useBuiltIns` option without declaring a core-js version. Currently, we assume version 2.x when no version is passed. Since this default version will likely change in future versions of Babel, we recommend explicitly setting the core-js version you are using via the `corejs` option.
You should also be sure that the version you pass to the `corejs` option matches the version specified in your `package.json`'s `dependencies` section. If it doesn't, you need to run one of the following commands:
  npm install --save core-js@2    npm install --save core-js@3
  yarn add core-js@2              yarn add core-js@3
More info about useBuiltIns: https://babeljs.io/docs/en/babel-preset-env#usebuiltins
More info about core-js: https://babeljs.io/docs/en/babel-preset-env#corejs
WARNING: NODE_APP_INSTANCE value of '0' did not match any instance config file names.
WARNING: See https://github.com/lorenwest/node-config/wiki/Strict-Mode

@parmentf
Copy link
Contributor

Dans le log du 2e test, on a les mêmes erreurs:

 [conditor-insb20172022v1] 2024-09-12T13:19:01.299Z info: /api/parsing {"authorization":"Bearer eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJ1c2VybmFtZSI6ImFkbWluIiwicm9sZSI6ImFkbWluIiwiZXhwIjoxNzI2MTgxMTA4LCJpYXQiOjE3MjYxNDUxMDd9.oeePZXFnwrWNueKnJFaB8DRARc5_95xFAixTXKjfRQo","method":"GET","remoteIP":"::ffff:172.17.1.3","status":200,"timestamp":"2024-09-12T13:19:01.299Z","userAgent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/128.0.0.0 Safari/537.36"}
Error: ENOENT: no such file or directory, open 'upload/conditor-insb20172022v1_224675413-insb_2019_juinjsonl.2'
2024-09-12T13:19:06: PM2 log: App name:lodex id:0 disconnected
2024-09-12T13:19:06.236Z ezs Connection closed 1726147083393-939767
2024-09-12T13:19:06: PM2 log: App [lodex:0] exited with code [0] via signal [SIGINT]
2024-09-12T13:19:06: PM2 log: App [lodex:0] starting in -cluster mode-

Y-a-t-il encore assez de place disque sur la machine ?

@AnaelKremer
Copy link
Collaborator

AnaelKremer commented Sep 13, 2024

114 go libre sur la machine, et sur le container je ne peux pas dire j'ai une page "Maintenance en cours" mais il restait largement assez de place de mémoire

@touv
Copy link
Contributor

touv commented Sep 13, 2024

Ce problème visiblement fait planter le serveur qui redémarre automatiquement. Du coup pendant le temps du redémarrage, il n'est plus joignable, ce qui pourrait expliquer l'erreur ECONNECT

@touv
Copy link
Contributor

touv commented Sep 13, 2024

voici une autre erreur
image
qui semble afficher l'erreur ECONNECT

@touv
Copy link
Contributor

touv commented Sep 13, 2024

Pour info, en local, l'import de revue de sommaire ne pose aucun pb

@touv
Copy link
Contributor

touv commented Sep 18, 2024

erreur identifiée
image

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
🔥Critical defect Le problème bloque le processus standard de traitement 👷‍♂️ Ready to go Le besoin ou le problème est validé, il prêt à être développé..
Projects
None yet
Development

Successfully merging a pull request may close this issue.

5 participants