Skip to content

Sfgangloff/chatgpt-databases

Repository files navigation

# GENERAL AN PHILOSOPHICAL GOAL 
The purpose of this project is to explore the possibility to transfer the knowledge of a large language 
model, which is hidden in the parameters of the model, into an explicit and structured knowledge, 
understand what the model knows and how it explores a knowledge subject.

# THOUGHTS STEPS
At first I wanted to build a set of concepts related to a certain subject and rank them 
according to their relations and their generality, in order to be able to construct pedagogical 
content. I have constructed an algorithm which builds a tree of concepts. However: this tree diverges
rather quickly from the initial subject. Note that the more the field is narrow and technical, the slower
it diverges.


Ce que l'on a essayé jusqu'à présent consiste essentiellement à trouver des relations entre des concepts 
au sein d'un domaine, selon plusieurs méthode: demander un lien direct, demander des dépendences pour comprendre, demander l'explication d'un concept. Il semble que la dernière méthode permette: de garder un certain niveau de généralité; de ne pas dériver en dehors du domaine.

Noter que l'on peut aussi demander de faire des lecons, ce qui permet de structurer en amont la réponse.
Dans le même esprit, demander de faire le sommaire d'un livre. Ensuite avec des agents, compléter les 
parties une par une. PLAN: demander d'abord la table des matières. Ensuite remplir l'index puis 
attribuer chaque terme à une partie. Ensuite utiliser ces termes pour écrire chaque partie.

Note: une fois le livre construit, cela nous donne un ordre naturel pour le classement des contextes. 
Cela peut servir de support également pour l'introduction de nouveaux termes et l'élaboration 
d'un document plus complet.

Lors de la construction du livre, écriture des parties.

# APPLICATIONS 

On trouve des applications en principe dans le technical language processing. La possibilité des llm de reconnaitre des liens thématiques entre des termes qu'ils ne comprennent cependant pas nécessairement 
se reflète dans la même capacité des humains.

# NEXT STEPS 

    1. Ajouter progressivement de la structure et du contenu.
        - Draft des parties
        - Index des mots contenus pour chaque partie
        - Garder mots spécifiques
        - Réécrire en utilisant l'index, sans montrer d'émotions quant au contenu.
        - Découper en parties.
        - ? Structurer en ajoutant des sections définitions, exemples, transitions, etc.
        - Structure code avec SequencialChain
        - Voir comment passer la table of contents pour que le modèle comprenne.
        - Faire un match entre parties et index ?
        - Mettre du pydantic un peu partout pour éviter les erreurs de format ? Ou alors faire des parsers ad hoc.
        - Il faut faire passer une concatenation des noms des sections pour avoir des parties plus spécifiques.
    2. Produire un pdf à partir d'un fichier json.
    3. Construire une petite application sujet -> pdf.
    4. Etudes sur la structure de la connaissance des LLM: index ordonné des mots du domaine ?

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published