-
Notifications
You must be signed in to change notification settings - Fork 29
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Имена распознаются как ORG #9
Comments
Ну, модель NER в ru2 вообще не тренирована... Вы ловите рандомные значения необученной нейросети. |
ner_rus отсюда: http://docs.deeppavlov.ai/en/master/components/ner.html не то, что надо? |
В каком формате нужен датасет и сколько там должно быть элементов в идеале? |
Если брать имеющиеся русские датасеты, как у Deep Pavlov, то будет высокая точность только на тех данных, что содержатся в датасетах, поскольку обобщение на ненатренированных специально эмбеддингах не очень хорошее. У решения со словарями имён, гео-названий и организаций точность будет сравнимой ( т.е. решение с PhraseMatcher из Spacy, которому просто дают словарь из всех известных организаций -- кстати, можете попробовать ). У меня есть идеи, как процесс улучшения качества автоматизировать без специализированного датасета, примерно это будет выглядеть так:
|
@Silverlay да, можете попробовать решение от Deep Pavlov по ссылке выше, напишите, пожалуйста, насколько вам оно подошло. |
Я готов помочь. У меня есть часа два в день, которые можно провести с пользой для общего дела. Весь вопрос только в том, что делать? :) я в ML, как обезьяна в CS GO |
Я его смотрел до вашей модели, оно работает - бесспорно, но выглядит черезвычайно монструозно и порог входа по сравнению со spacy гораздо выше. |
@Silverlay там с ML всё уже подготовлено -- даже ничего настраивать не надо, надо только данные в нужном формате ему скормить командой |
Итак, сузим до более конкретных задач.
|
Добрый день,
По какой-то причине имена, отчества определяются как ORG, вместо PERS. Например в
`import spacy
text = "Елена Владимировна, покажите мне монету, которую нашел Александр!"
if name == 'main':
nlp = spacy.load('ru2')
nlp.add_pipe(nlp.create_pipe('sentencizer'), first=True)
doc = nlp(text)
Результат:
Елена Владимировна ORG Александр ORG
Как это можно победить? В словарях pymorphy2 указаны как PERS
The text was updated successfully, but these errors were encountered: