Цель этого практикума - ознакомиться с языком запросов и типами лингвистической информации, доступными при поиске по Основному корпусу.
примеры запросов: подыми, надо же было, расти, опал и др. (скриншот)
Статистика вхождений - сколько раз слово встречается в корпусе. Количество документов - в скольких текстах встречается слово. В блоке ниже после двоеточия запишите статистику по документам и вхождениям для слова подыми, а также ответьте на вопрос 1.3.
# 1.1 Количество документов:
# 1.2 Количество вхождений:
# 1.3 Почему количество документов меньше количества вхождений? Ответ:
Кликнув мышкой на любом слове, вы откроете всплывающее окошко с его характеристиками: начальной формой (леммой), грамматическими показателями, семантическими признаками и т.д.
# 2.1 К какой части речи принадлежит форма _подыми_ в первом предложении выдачи? Запишите ее помету:
В поле Слово введите лемму слова (например, "поднять" для всех форм типа "поднял", "поднимет" и т. д.). Обратите внимание, у лексико-грамматического поиска своя кнопка Искать.
*
: нач*
задаст поиск всех лемм типа начало, начать, начинать, начинить. *ча
задаст поиск всех лемм типа чукча, буча, молча
-
(НЕ) : минус перед словом исключает его из запроса. Пример: *вед -швед
(все слова на *вед, кроме швед)
Неправильно: "*вед - швед" (никогда не ставьте пробел после минуса)
|
: сидя | лежа | стоя
найдет все три наречия (но только в тех текстах, где они размечены, как наречия)
&
или просто пробел (И) : достичь достигнуть
найдет в корпусе все формы, размеченные двумя леммами
"словоформа"
: в поле Слово строка без кавычек задает поиск по всем формам слова (задается начальная форма), строка в кавычках задает поиск по точной словоформе)
Другие примеры запросов: посол -"после"
, трудно* -трудно -трудност*
.
Задание 3.1 Впишите количество вхождений слов, начинающихся на цы-, но не цыган, цыпочки, цыпленок, цыц
# 3.1 Ответ:
Задание 3.2-3.3 Укажите год создания самого раннего текста Основного корпуса, включающего слова из запроса 3.1, а также лемму первого по времени вхождения.
# 3.2 Первое вхождение (год):
# 3.3 Первое вхождение (лемма):
Задание 3.4 Мы уже предлагали поискать словосочетание баба с возу
с помощью точного поиска. Почему строка баба с возу
(набранная вместе в поле Слово лексико-грам. поиска) не будет найдена в корпусе?
# 3.4 Ответ:
См. всплывающее окно по ссылке "выбрать" над полем Грамм. признаки.
Найдите все употребления аномальных форм повелительного наклонения глагола в ед. числе, отсортируйте по найденным формам по алфавиту.
Подсказка: задать грамматические признаки глагол, повелительное наклонение, ед. число, аномальная форма
; отсортировать по правому или левому контексту с учетом найденного слова
# 4.1 Самая последняя по алфавитному порядку словоформа:
В этом корпусе ("снятнике") у грамматически неоднозначных форм (типа стали, белка) были удалены нерелевантные грамматические разборы. Запишите объем этого корпуса на момент поиска:
# 5.1 Объем снятника:
См. пометы падежей в разделе Морфология
Примеры запросов: словоформа "лесу" как предложный2, "сахару" как родительный 2, все формы императива2.
Задание 6.1 Сколько уникальных лемм имеют счетную форму?
# 6.1 Лемм со счетной формой:
7. Поиск по нескольким словам: добавление 3-го и т.д. слов стрелочкой справа. Расстояние между словами. Поиск по дополнительным признакам.
Найдите (в подкорпусе со снятой омонимией) все предложения, похожие по структуре на "Мама мыла раму". Сравните число вхождений с общим количеством предложений в подкорпусе.
Подсказка:
Слово1, грам.признаки: сущ., одуш., ед. ч., им. падеж
Слово2, грам.признаки: глагол, прош. вр., ед. число
Слово3: грам.признаки: сущ., неодуш., ед. ч., вин. падеж
Дополнительные признаки:
Слово1 - в начале предложения, с заглавной буквы
Слово3 - в конце предложения, перед точкой
Чтобы исключить шум: Слово2 - выбрать доп. признаки перед любым знаком препинания
+ после любого знака препинания
, затем перед каждым поставить "минус": -amark -bmark
# 7.1 Число вхождений:
через "Задать подкорпус" -> Очистить подкорпус (кнопка внизу страницы)
Примеры запросов:
(подсказка) Запишите фамилию самого юного автора, в тексте которого встречается имя лица с уменьшительно-ласкательным значением, но не на -чка, -нька
# 8.1 Фамилия автора:
Если примеров много, будут выданы в случайно отсортированном порядке примеры из первых нескольких тысяч результатов поиска.
Для выгрузки результатов перейдите по ссылке Скачать несколько первых результатов выдачи в формате Excel. Откройте файл в редакторе таблиц, изучите содержание столбцов.
Примеры заданий: найти слова с приставкой вс-. Сравнить с результатами простого запроса со звездочкой вс*
, без учета словообразовательных признаков.
Подсказка: Откройте всплывающее окно выбора словообр. признаков.
__Текст___: вс
__статус__: префикс
Выполните задания "Практикум по НКРЯ. Часть 1":
вариант 1 - если ваша фамилия начинается на А-Г
вариант 2 - если ваша фамилия начинается на Д-Л
вариант 3 - если ваша фамилия начинается на М-С
вариант 4 - если ваша фамилия начинается на Т-Я
Чтобы справиться с заданием, внимательно читайте подсказки и инструкции.
-
На сайте корпуса изучите основную информацию о составе корпуса и включенных в него материалах:
- что такое корпус?
- состав и структура корпуса
-
Откройте раздел "поиск в корпусе"
-
Инструкция по работе с корпусом
- ссылка "Инструкция" на страницах поиска
- см. также всплывающие подсказки (?) на странице поиска
- На страницах Морфология, Семантика и др. (в меню главной страницы корпуса) можно узнать расшифровку корпусных помет
- Этот файл записан в формате markdown. Это продвинутая версия вики-разметки, которая позволяет вставлять в веб-страницы фрагменты исполняемых скриптов. Впрочем, сегодня мы будем всего лишь редактировать ее текст в github.
Скопируйте файл по ссылке к себе в папку
Day03_class
. Переименуйте файл так, чтобы названием файла была ваша фамилия (кириллицей, с заглавной буквы), а расширение оставалось.md
. Убедившись, что файл оказался в вашем удаленном репозитории, воспользуйтесь кнопкой для его редактирования онлайн.
В выделенных блоках не стирайте строчки, номера ответов и не пользуйтесь переносом строки. Ответы должны быть краткими.