- parse_framebank.py - обрабатывает Фреймбанк (совмещает примеры и разметку ролей) и переводит его в табличную форму. Этот скрипт использует файлы exampleindex.csv и framebank_anno_ex_items_fixed.txt.
- create_features.py - превращает данные фреймбанка в таблички с фичами для классификаторов. Можно генерировать таблички для распознавания предикатов и их аргументов, а также для классификации уже распознанных аргументов по ролям. Фичи такие: * морфология (часть речи, грамматические признаки текущего и предыдущего слова) * лексическая информация (лемма слова, лемма предыдущего слова) * синтаксическая информация (длина пути от корня до текущего слова, синтО между текущим словом и его родителем, лемма предиката). Синтаксическая информация берётся из модели, обученной на UD for Russian
- classify.py - классифицирует данные при помощи SGDClassifier.
- parser.py - полный пайплайн, от текста, введенного пользователем, к ролям. Использует натренированные модели, которые создаются скриптом classify.py (frame_parser.pkl и feature_transformer.pkl)
Результаты распознавания предикатов и аргументов:
Результаты по ролям: