GitHub - Sfgangloff/chatgpt-databases

Branches Tags

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
data		data
old		old
convert_to_html.py		convert_to_html.py
decompose_subsections.ipynb		decompose_subsections.ipynb
output.html		output.html
output_types.py		output_types.py
part.py		part.py
part_index.py		part_index.py
prompt_templates.py		prompt_templates.py
readme		readme
section_decomposer.py		section_decomposer.py
table_of_contents.py		table_of_contents.py
total_index.ipynb		total_index.ipynb
write_indexes.ipynb		write_indexes.ipynb
write_parts.ipynb		write_parts.ipynb
write_table_of_contents.ipynb		write_table_of_contents.ipynb

Repository files navigation

# GENERAL AN PHILOSOPHICAL GOAL
The purpose of this project is to explore the possibility to transfer the knowledge of a large language
model, which is hidden in the parameters of the model, into an explicit and structured knowledge,
understand what the model knows and how it explores a knowledge subject.

# THOUGHTS STEPS
At first I wanted to build a set of concepts related to a certain subject and rank them
according to their relations and their generality, in order to be able to construct pedagogical
content. I have constructed an algorithm which builds a tree of concepts. However: this tree diverges
rather quickly from the initial subject. Note that the more the field is narrow and technical, the slower
it diverges.

Ce que l'on a essayé jusqu'à présent consiste essentiellement à trouver des relations entre des concepts
au sein d'un domaine, selon plusieurs méthode: demander un lien direct, demander des dépendences pour comprendre, demander l'explication d'un concept. Il semble que la dernière méthode permette: de garder un certain niveau de généralité; de ne pas dériver en dehors du domaine.

Noter que l'on peut aussi demander de faire des lecons, ce qui permet de structurer en amont la réponse.
Dans le même esprit, demander de faire le sommaire d'un livre. Ensuite avec des agents, compléter les
parties une par une. PLAN: demander d'abord la table des matières. Ensuite remplir l'index puis
attribuer chaque terme à une partie. Ensuite utiliser ces termes pour écrire chaque partie.

Note: une fois le livre construit, cela nous donne un ordre naturel pour le classement des contextes.
Cela peut servir de support également pour l'introduction de nouveaux termes et l'élaboration
d'un document plus complet.

Lors de la construction du livre, écriture des parties.

# APPLICATIONS

On trouve des applications en principe dans le technical language processing. La possibilité des llm de reconnaitre des liens thématiques entre des termes qu'ils ne comprennent cependant pas nécessairement
se reflète dans la même capacité des humains.

# NEXT STEPS

1. Ajouter progressivement de la structure et du contenu.
- Draft des parties
- Index des mots contenus pour chaque partie
- Garder mots spécifiques
- Réécrire en utilisant l'index, sans montrer d'émotions quant au contenu.
- Découper en parties.
- ? Structurer en ajoutant des sections définitions, exemples, transitions, etc.
- Structure code avec SequencialChain
- Voir comment passer la table of contents pour que le modèle comprenne.
- Faire un match entre parties et index ?
- Mettre du pydantic un peu partout pour éviter les erreurs de format ? Ou alors faire des parsers ad hoc.
- Il faut faire passer une concatenation des noms des sections pour avoir des parties plus spécifiques.
2. Produire un pdf à partir d'un fichier json.
3. Construire une petite application sujet -> pdf.
4. Etudes sur la structure de la connaissance des LLM: index ordonné des mots du domaine ?