GitHub - maxtli/plausibleablation

Branches Tags

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
__pycache__		__pycache__
data		data
ioi/simple		ioi/simple
old_code		old_code
outputs		outputs
.gitignore		.gitignore
compute_means.py		compute_means.py
data.py		data.py
data_filtering.py		data_filtering.py
data_preprocessing.py		data_preprocessing.py
env.yml		env.yml
inference.py		inference.py
ioi.py		ioi.py
ioi_analysis.py		ioi_analysis.py
model.py		model.py
nanda_utils.py		nanda_utils.py
plausibility.py		plausibility.py
plausibility_utils.py		plausibility_utils.py
readme		readme
results_analysis.py		results_analysis.py
results_analysis_2.py		results_analysis_2.py
transformer.py		transformer.py

Repository files navigation

# # perform inference with batched toxic samples 
# # perform inference with untoxic samples
# # perform inference with ablated untoxic samples
# # take specific untoxic examples from the finetuned model, and perform inference
# # do this 144x, once for each attention head. do i need to save the indices? (also, ???)
# # (i guess this is just activation patching)

# # do some arithmetic on the output logits
# # check the ablated loss on the toxic samples