author | title | abstract |
---|---|---|
К. А. Маслинский |
Библиография детской книги 1918—1984 |
Машиночитаемая библиографическая база данных по русской детской книге XX века. База основана на 18-томном библиографическом указателе «Детская литература», составленном И. И. Старцевым и его продолжателями. В библиографию включались все книжные издания за 1918–1984 гг. на русском языке, выходившие в СССР и адресованные детям и юношеству. Для удобства обработки и анализа данных библиографические записи из указателей были разделены на отдельные поля (автор, заглавие, место издания, издательство, год, тираж и т.д.) с помощью автоматического анализатора. Данные представлены в табличной форме. |
Формат цитирования датасета:
Маслинский К. А. Библиография детской книги 1918—1984 // Репозиторий открытых данных по русской литературе и фольклору. 2024. V3. DOI: https://doi.org/10.31860/openlit-2022.12-B010
Машиночитаемая библиографическая база данных по русской детской книге XX века. База основана на 18-томном библиографическом указателе «Детская литература», составленном И. И. Старцевым и его продолжателями. В библиографию включались все книжные издания за 1918—1984 гг. на русском языке, выходившие в СССР и адресованные детям и юношеству. Для удобства обработки и анализа данных библиографические записи из указателей были разделены на отдельные поля (автор, заглавие, место издания, издательство, год, тираж и т.д.) с помощью автоматического анализатора. Данные представлены в табличной форме.
Многотомный библиографический указатель «Детская литература», издававшийся с 1933 по 1989 гг., представляет собой наиболее полный библиографический справочник по русскоязычной детской книге XX в., издававшейся в Советской России и затем в СССР. И. И. Старцев и последующие составители включали в указатель все издания, так или иначе адресованные детям (художественная литература, в том числе переводная, сборники фольклора, научно-популярные, просветительские и инструктивно-методические издания, а также другие категории детских книг, включая альбомы для вырезания и раскрашивания). Важная категория, которая не включена в эту библиографию, — школьные учебники и другая учебная литература.
База данных основана на исходных текстах указателей (отсканированных и распознанных участниками авторского коллектива), но не является их буквальным воспроизведением. В процессе работы над данными были исправлены замеченные опечатки и ошибки в указателе, в ряде случаев восстановлены или представлены в более эксплицитной форме библиографические данные. К каждому авторскому изданию добавлено проверенное вручную унифицированное указание на автора (в этих указаниях устранен разнобой в написании имен авторов и разведены авторы-однофамильцы).
Данные были получены в результате автоматизированного парсинга отсканированных указателей. Работа велась итеративно: по результатам парсинга проводилась проверка и правка ошибок в исходных текстовых файлах указателей, корректировка алгоритмов парсера и запуск парсера по откорректированным данным. Поэтому результат ограничен, с одной стороны, качеством распознавания исходных текстов, а с другой — корректностью работы парсера в разных нестандартных случаях. Несмотря на то, что данные многократно проверялись, в ряде текстовых колонок еще остается значительное количество ошибок и неточностей, вызванных ошибками оптического распознавания текста (OCR). Особенно этому подвержены поля с большим объемом текста — заглавия и роспись содержания. Кроме того, указатели создавались в доцифровую эпоху, и библиографические записи, несмотря на относительную стандартизацию, адресованы прежде всего человеку. Поэтому в указателях наблюдается некоторый разнобой в структуре и последовательности полей в библиографических записях, а также встречаются нестандартные указания, которые могут сказываться на корректности результатов парсинга. Часть таких случаев исправлена в данных, но возможны и пропущенные ошибки.
В настоящее время работа над базой продолжается. Текущая версия всех исходных файлов и код, на основании которых составлена база, находится в гит-репозитории по адресу: https://github.com/maslinych/childlit-rus. Автор датасета будет признателен за сообщения о замеченных ошибках и неточностях. Для связи можно воспользоваться контактами, указанными в метаданных датасета. По мере исправления ошибок и дополнения данных будут публиковаться новые версии данных.
Эта база — результат совместной работы многих участников на протяжении нескольких лет работы над проектом. К. А. Маслинский предложил идею проекта, написал код парсера, сверил и откорректировал унифицированные идентификаторы авторов и подготовил датасет к публикации. Е. В. Лекаревич подготовила исходные текстовые файлы указателей (сканирование и распознавание), и выступала координатором для студентов-участников проекта. Е. О. Казакова подготовила данные об иллюстраторах. Огромный вклад в проверку данных и корректировку ошибок сделали студенты образовательных программ «Социология и социальная информатика» и «Филология» НИУ Высшая школа экономики — Санкт-Петербург, работавшие над базой в рамках студенческих проектов и летних практик. Мы очень благодарны всем участникам: Кристина Астарян, Дари Батожаргалова, Мария Борисова, Лиана Валиахметова, Ася Веревкина, Анастасия Власова, Любовь Вуличенко, Екатерина Додонова, Мария Еремута, Юлия Карпикова, Наталья Карцева, Юлия Кожевникова, Олеся Кузьмич, Александра Кульбаева, Роман Лисюков, Диана Лунгу, Ирина Медведева, Никита Никифоров, Надежда Одушко, Дмитрий Помогаев, Анна Поскребышева, Виктория Рудич, Злата Рыбакова, Мария Стародубцева, Арина Сысоева, Екатерина Тулубенская, Юлия Утран, Елизавета Щербакова, Полина Эйлон, Ирина Юшкова. Светлана Рябова, Александра Митюкова, Анна Арбузова и Валерия Сидненко, студентки магистерской программы «Цифровые методы в гуманитарных науках» НИУ ВШЭ внесли огромный вклад в подготовку второй версии датасета.
bibliography.csv
— библиографический список источников (томов указателя).editions.csv
— основной библиографический список изданий.authors.csv
— список авторов.README.md
— этот файл.
Колонки в таблице данных:
vol
— идентификатор тома (используется в таблицеeditions.csv
);author
— автор(ы) тома;year
— год публикации тома;citation
— библиографическое описание.
Колонки в таблице данных:
-
vol
— идентификатор тома (соответствует идентификаторам из таблицыbibliography.csv
). -
num
— номер библиографической записи в рамках тома. В каждом томе указателя все записи пронумерованы последовательно (сквозная нумерация в рамках тома). Однако в указателе есть отклонения от последовательной нумерации — пропущенные номера или номера с буквенными суффиксами. Эти отклонения отражены и в базе данных. В ряде случаев сложные библиографические записи в указателе, объединяющие описания нескольких изданий в рамках одной записи (например, многотомные издания), были разбиты на несколько отдельных записей при обработке данных. В этом случае записи получили новые номера с буквенными суффиксами (отсутствующие в исходном указателе).Номер записи вместе с идентификатором тома представляют собой уникальный идентификатор записи в базе.
-
author
— автор(ы). Фамилия и имя/инициалы автора приведены в той форме, в которой они представлены в указателе. Указание авторов приведено к следующему формату:Фамилия, И. О. [доп. сведения]
Авторы, не имеющие фамилии (например, Фирдоуси) указаны в простой форме. Если у издания несколько авторов, они указаны через точку с запятой. Если в библиографической записи не указан автор, поле содержит метку
NOAUTHOR
. Если в указателе в списке авторов указано «и др.» в список авторов включается меткаOTHERS
(например,Автор, И. О.; OTHERS
). -
author_std
— уникальный строковый идентификатор автора. Представляет собой запись в форматеФамилияИО
(без пробелов). Для иностранных авторов, авторов со сложными фамилиями и не имеющих фамилий формат идентификатора может отличаться. Для авторов-однофамильцев вместо инициалов могут указываться полные или сокращенные имена и отчества. Если в указателе присутствуют разные варианты написания имени автора, для уникального идентификатора выбран один из вариантов, обычно более полный/современный. Если у издания несколько авторов, идентификаторы авторов указаны через точку с запятой в том же порядке, что и в колонкеauthor
. Для обозначения «и др.» используется та же меткаOTHERS
, что и в колонкеauthor
. -
title
— заглавие издания. -
subtitle
— подзаголовок, чаще всего жанровый. Подзаголовок в указателях выделяется либо скобками, либо двоеточием (в указателях 1970-х, следующих ГОСТу). -
genre
— нормализованное жанровое определение для художественных произведений. Жанр указывается на основании сведений в подзаголовке или заглавии. Поскольку некоторые издания содержат произведения разных жанров, в этом поле может быть указано более одного значения, в этом случае значения разделяются точкой с запятой. Допустимые значения: Рассказ; Стихи; Повесть; Сказка; Роман; Пьеса; Поэма; Очерк; Загадки; Басня; Комедия; Легенда; Быль; Драма; Былина; Потешки; Баллада; Пословицы; Трагедия; Новелла; Предание; Миф; Поговорки; Притча. -
editorial
— дополнительные сведения об издании: дополнительные сведения об ответственности (художники, оформители, иллюстраторы, составители, комментаторы, переводчики и т.п.), номер издания и т.п. -
orig_lang
— язык оригинала, если произведения является переводом или переработкой с иноязычного оригинала. -
transformed
— если в описании переводного произведения имеется указание на существенную переработку текста, в этом поле указаноTRANSFORM
. -
city
— город издания. Если указано более одного города, они приведены через точку с запятой. Стандартные сокращения (М., Л., Пг., и т.п.) приведены в неизменной форме. -
publisher
— издательство. -
year
— год издания. -
series
— серия. Если серия не указана —NA
. -
pages
— количество страниц. Если не указано —NA
. -
printrun
— тираж. Если не указан —NA
. -
price
— цена. Приведена к формату числа с плавающей точкой, например 0.45 — 45 коп., 1.20 — 1 руб. 20 коп. Если цена не указана —NA
. -
addressee
— возрастная категория адресата издания. Информация о возрасте, которому адресовано издание, не всегда эксплицитно маркируется в выходных данных и в библиографической записи, однако в ряде случаев присутствует в подзаголовке издания. В этих случаях такая информация автоматически изъята из текста заглавия и перенесена в колонку addressee. Если адресат не указан (и не определен автоматически), колонка остается пустой. -
contents
— роспись содержания издания. Росписи содержания более последовательно приводятся в более поздних томах указателя. -
tail
— часть библиографической записи, которая в результате автоматического разделения записи на поля оказалась не востребованной. В норме эта колонка остается пустой. -
bibaddon
— дополнительные библиографические сведения (могут присутствовать в записях из томов 1970-х годов). -
section
— раздел указателя, в котором находится запись. Ранние тома не были структурированы тематически и содержали один основной раздел (Алфавит изданий). В более поздних томах библиографический список разделен на разделы и подразделы по типу, жанру и иногда тематике изданий. Поле содержит иерархический список всех разделов и подразделов, внутрь которых попадает запись. Уровень вложенности раздела обозначен символами#
(# — верхний уровень, ## — второй и т.п.). Пример:# Художественная литература ## Литература народов СССР ### Русская литература #### Советская литература
-
thesame
— служебное поле. Если в указателе запись содержала сокращенные библиографические данные (запись типа «То же»), в этой колонке указывается меткаTHESAME
. -
start
— служебное поле. Номер строки в исходном txt-файле отсканированного указателя, на которой начинается библиографическая запись. -
end
— служебное поле. Номер строки в исходном txt-файле отсканированного указателя, на которой заканчивается библиографическая запись.
-
author_std
— уникальный строковый идентификатор автора в форматеФамилияИО
, соответствует аналогичному полю в файлеeditions.csv
. -
fullname
— полное имя автора. В некоторых случаях приведены несколько вариантов полного имени, разделенные точкой с запятой. -
qid
— идентификатор автора в базе Wikidata. -
birth_year
— год рождения автора. В случае расхождения датировок в разных источниках варианты приведены списком через точку с запятой. -
death_year
— год смерти автора. В случае расхождения датировок варианты приведены списком через точку с запятой. -
gender
— пол автора. Допустимые значения:m
,f
,NA
(пол не определен). -
author
— формы указания имени автора в библиографии. Список значений, разделенных точкой с запятой. Включает в том числе расшифрованные псевдонимы.
-
декабрь 2024, V3 — Дополненная и исправленная версия. Основные изменения:
- Добавлена таблица
authors.csv
со сведениями об авторах. - В таблице
editions.csv
удалена колонкаauthor_gender
(её заменяет колонкаgender
в таблицеauthors.csv
). - Внесено большое количество исправлений в уникальных идентификаторах авторов и их распределении по изданиям: исправлены ошибки в дезамбигуизации авторов-однофамильцев, расшифрован ряд псевдонимов.
- Добавлена таблица
-
декабрь 2023, V2 — Дополненная и исправленная версия. Измерения:
- В таблице
editions.csv
добавлены колонкиauthor_gender
,genre
,orig_lang
,transformed
. - Урегулированы (нормализованы) значения в колонках
publisher
,addressee
. - Исправлены замеченные ошибки и опечатки в данных.
- В таблице
-
декабрь 2022, V1 — Первая опубликованная версия данных.