Имена распознаются как ORG #9

Silverlay · 2019-04-05T12:10:20Z

Добрый день,

По какой-то причине имена, отчества определяются как ORG, вместо PERS. Например в

`import spacy

text = "Елена Владимировна, покажите мне монету, которую нашел Александр!"

if name == 'main':
nlp = spacy.load('ru2')
nlp.add_pipe(nlp.create_pipe('sentencizer'), first=True)
doc = nlp(text)

for e in doc.ents:
    print(e, e.label_)`

Результат:

Елена Владимировна ORG Александр ORG

Как это можно победить? В словарях pymorphy2 указаны как PERS

The text was updated successfully, but these errors were encountered:

buriy · 2019-04-05T14:43:19Z

Ну, модель NER в ru2 вообще не тренирована... Вы ловите рандомные значения необученной нейросети.
P.S. Если вдруг найдёте большой датасет NER на русском, дайте мне знать, потому что на маленьком датасете будет конечно получше этого работать, но тоже фигня получится.

rominf · 2019-04-06T06:14:32Z

ner_rus отсюда: http://docs.deeppavlov.ai/en/master/components/ner.html не то, что надо?

Silverlay · 2019-04-06T06:33:37Z

В каком формате нужен датасет и сколько там должно быть элементов в идеале?

buriy · 2019-04-06T13:53:48Z

Если брать имеющиеся русские датасеты, как у Deep Pavlov, то будет высокая точность только на тех данных, что содержатся в датасетах, поскольку обобщение на ненатренированных специально эмбеддингах не очень хорошее. У решения со словарями имён, гео-названий и организаций точность будет сравнимой ( т.е. решение с PhraseMatcher из Spacy, которому просто дают словарь из всех известных организаций -- кстати, можете попробовать ).

У меня есть идеи, как процесс улучшения качества автоматизировать без специализированного датасета, примерно это будет выглядеть так:

сделаю модель для spacy 2.1
использую обычные известные 3 датасета ( Gareev corpus, FactRuEval 2016, Persons-1000), на которых тренировали DeepPavlov NER, в т.ч. для проверки качества в дальнейшем.
использую дообучение на эмбеддингах и словаре от opencorpora / pymorphy2 (там есть имена, пометки гео, название, аббревиатуры).
использую гео-датасет ( https://www.geonames.org )
использую датасет от https://www.kaggle.com/c/text-normalization-challenge-russian-language для других классов (MONEY, DATE, TIME, всякие разные другие).
нагенерю контр-примеры для hard negative mining.
Если есть желающие помочь -- могу вас огранизовать, чтобы вы помогли мне это всё сделать, потому что у меня пока что со временем очень тяжело.
Так что если есть большие словари NER по интересующим вас темам с лицензией, разрешающей использование в коммерческих проектах без полного раскрытия исходников и всех обновлений (MIT, BSD, Apachе, часть видов Creative Commons..., но не GPL ) , то добавляйте ссылки на них сюда в комментариях. Ну а тем более, если вдруг знаете про русский датасет, который крупнее перечисленных выше.

buriy · 2019-04-06T14:03:41Z

@Silverlay да, можете попробовать решение от Deep Pavlov по ссылке выше, напишите, пожалуйста, насколько вам оно подошло.

Silverlay · 2019-04-06T21:30:02Z

Я готов помочь. У меня есть часа два в день, которые можно провести с пользой для общего дела. Весь вопрос только в том, что делать? :) я в ML, как обезьяна в CS GO

Silverlay · 2019-04-06T21:34:32Z

@Silverlay да, можете попробовать решение от Deep Pavlov по ссылке выше, напишите, пожалуйста, насколько вам оно подошло.

Я его смотрел до вашей модели, оно работает - бесспорно, но выглядит черезвычайно монструозно и порог входа по сравнению со spacy гораздо выше.

buriy · 2019-04-07T09:20:22Z

@Silverlay там с ML всё уже подготовлено -- даже ничего настраивать не надо, надо только данные в нужном формате ему скормить командой spacy train. (Версию будем использовать 2.1)
А для этого данные нужно подготовить.
Вот тут есть описание нескольких вариантов конверсии:
explosion/spaCy#1966 (comment)
Имеющиеся 3 датасета нам нужно привести в JSONL формат для обучения.
Ну а остальные данные будем в виде текстовых списков слов и фраз собирать.
Данные из pymorphy2 я переведу сам, сделав разметку произвольного текста.

buriy · 2019-07-30T09:08:09Z

Итак, сузим до более конкретных задач.
Итерация 1:

Подготовить версию для spacy 2.1
Загрузить датасет(ы) из nerus и kaggle_ru и преобразовать их в формат spacy
Натренировать spacy с полученным трейнсетом.
Побенчмаркать.

buriy pinned this issue Apr 7, 2019

buriy mentioned this issue Jun 22, 2019

Обновить spacy до последней версии #6

Closed

ex00 mentioned this issue Jan 9, 2020

Тренировка spacy-ru на NER корпусах #14

Open

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Имена распознаются как ORG #9

Имена распознаются как ORG #9

Silverlay commented Apr 5, 2019

buriy commented Apr 5, 2019

rominf commented Apr 6, 2019

Silverlay commented Apr 6, 2019

buriy commented Apr 6, 2019 •

edited

Loading

buriy commented Apr 6, 2019

Silverlay commented Apr 6, 2019

Silverlay commented Apr 6, 2019

buriy commented Apr 7, 2019

buriy commented Jul 30, 2019 •

edited

Loading

Имена распознаются как ORG #9

Имена распознаются как ORG #9

Comments

Silverlay commented Apr 5, 2019

buriy commented Apr 5, 2019

rominf commented Apr 6, 2019

Silverlay commented Apr 6, 2019

buriy commented Apr 6, 2019 • edited Loading

buriy commented Apr 6, 2019

Silverlay commented Apr 6, 2019

Silverlay commented Apr 6, 2019

buriy commented Apr 7, 2019

buriy commented Jul 30, 2019 • edited Loading

buriy commented Apr 6, 2019 •

edited

Loading

buriy commented Jul 30, 2019 •

edited

Loading