Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Составление единого набора данных #24

Open
Tottoro932 opened this issue Oct 11, 2024 · 4 comments
Open

Составление единого набора данных #24

Tottoro932 opened this issue Oct 11, 2024 · 4 comments
Assignees
Labels
task New feature or request

Comments

@Tottoro932
Copy link
Collaborator

Из трех выбранных на встрече наборов данных (TBX11K Simplified - TB X-rays with bounding boxes; NIH Chest X-rays и VinBigData Chest X-ray Abnormalities Detection) необходимо составить единый набор.

Важно:

  • стандартизировать наборы (чтобы изображения и описания рамок были в едином формате)
  • при сборе данных выписывать, сколько изображений с какой патологией, чтобы при необходимости смогли бороться с дисбалансом классов
  • разбить большой набор на части (не очень большие по весу), включающие в себя как test, так и train
  • предоставить доступ к данным для всех разработчиков

P.S. возможно будет удобнее для каждого набора данных организовать отдельную папку, внутри которой уже разбить сам набор на небольшие фрагменты для скачивания

@Tottoro932 Tottoro932 added the task New feature or request label Oct 11, 2024
@Tottoro932
Copy link
Collaborator Author

Tottoro932 commented Oct 18, 2024

Upd (18.10.24):

  • подготовить в виде файла маленький кусочек данных (~500 изображений)
  • посмотреть, можно ли подгружать данные с сервера напрямую в коллаб (+ туториал, как это делать)

@BulatVakhitov
Copy link
Collaborator

  • Маленький датасет собран и доступен через jupyter lab.

  • Данные напрямую в коллаб подгружать нельзя, колаб ругается на запросы к другим серверам через !scp. Альтернатива это загружать архив руками и распаковывать. Туториал, как начать работу с данными подготовлен, и в дальнейшем будет дополняться. Планирую добавить гайд для работы с dicom файлами, после этого планирую загрузить его в репозиторий и закрыть этот issue.

@Tottoro932
Copy link
Collaborator Author

15.11.24
Набор данных побольше собран и доступен через jupyter lab.

@Tottoro932
Copy link
Collaborator Author

22.11.24
Найдены некоторые особенности текущего набора данных, например, на одном изображении могут рядом находится три рамочки одного и того же заболевания. Также набор данных является не сбалансированным и в нем отсутствуют данные по туберкулезу.

Приняты следующая стратегия действий:

  1. составление набора данных с туберкулезом (2 класса: здоров\ болен туберкулезом) - на одной картинке только одна рамочка
  2. расширение предыдущего варианта, на одном изображении несколько рамочек
  3. расширение первого варианта на несколько патологий

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
task New feature or request
Projects
None yet
Development

No branches or pull requests

2 participants