23 мая 2018

Обзор открытых источников данных медицинских изображений для машинного обучения

19 294

Гусев Александр,
Директор по развитию бизнеса

Наличие качественного источника размеченных медицинских данных – ключевое условие успешного создания решений в области искусственного интеллекта для медицины. На это указываю серьезные аналитические исследования вроде опубликованных нами переводных документов «Искусственный интеллект в национальной системе здравоохранения Великобритании: что мы об этом думаем» http://www.kmis.ru/blog/iskusstvennyi-intellekt-v-natsionalnoi-sisteme-zdravookhraneniia-velikobritanii-chto-my-ob-etom-dumaem или «Искусственный интеллект для здоровья и здравоохранения: отчет исследователей из США» http://www.kmis.ru/blog/iskusstvennyi-intellekt-dlia-zdorovia-i-zdravookhraneniia-otchet-issledovatelei-iz-ssha. Об этом же говорят и многочисленные популярные публикации в СМИ и блогосфере.

Фактически, хорошая посильная идея и подготовленные данные – вот 2 главных обязательных условия в создании системы искусственного интеллекта. А их отсутствует, пожалуй, это основные причины провала такого проекта.

Как известно, анализ медицинских изображений и создание систем поддержки принятия врачебных решений в диагностике – это одно из самых популярных и развиваемых в настоящее время направлений применения искусственного интеллекта. Для поддержки таких разработок мы публикуем краткий обзор наиболее известных открытых источников данных (data set) медицинских изображений, которые можно найти в Интернет. При этом сразу оговоримся, что этот список приведен только в информационных целях. Прежде чем использовать эти базы данных, убедитесь, что вы изучили и соблюдаете предусмотренные их владельцами ограничения.


База данных «OmniMedicalSearh». Огромная база данных из различных тематических источников данных, таких как интерактивный анатомический атлас, разнообразные коллекции медицинских изображений, результаты дерматологических исследований, библиотека эндоскопических видеороликов. Доступ: http://www.omnimedicalsearch.com/image_databases.html

Национальная медицинская библиотека MedPix (The National Library of Medicine MedPix). База данных содержит 53 тыс. медицинских изображений 13 тыс. пациентов с аннотациями. Требуется регистрация. Ссылка: https://medpix.nlm.nih.gov/home

База данных рентгенологических исследований MURA (musculoskeletal radiographs). Представляет собой набор данных скелетно-мышечных рентгенограмм, состоящих из 14 863 исследований от 12173 пациентов, в общей сложности 40 561 многоразовых рентгенографических изображений. Каждое из них относится к одному из 7 стандартных типов рентгенологического исследования верхней конечности: локоть, палец, предплечье, рука, плечевая кость, плечо и запястье. Каждое исследование было вручную помечено как нормальное или ненормальное со стороны сертифицированных по радиологии специалистов из Стэнфордской больницы в период с 2001 по 2012 год. Описание: https://stanfordmlgroup.github.io/competitions/mura/

Система обмена изображениями мозга при аутизме ABIDE (The Autism Brain Imaging Data Exchange). Содержит МРТ-изображений 539 лиц, страдающих от аутизма и 573 типичных элементов управления. Эти 1112 наборов данных состоят из структурных и функциональных данных МРТ, а также обширного массива фенотипической информации. Требуется регистрация. Описание: http://www.ncbi.nlm.nih.gov/pubmed/23774715. Предварительно обработанная версия: http://preprocessed-connectomes-project.org/abide/

Инициатива по накоплению МРТ-изображений в болезни Альцгеймера (Alzheimer's Disease Neuroimaging Initiative - ADNI). База данных МРТ пациентов с болезнью Альцгеймера. Включает клинические, геномные и биомакерные данные. Требуется регистрация. Описание: http://www.neurology.org/content/74/3/201.short. Доступ: http://adni.loni.usc.edu/data-samples/access-data/

Цифровые изображения сетчатки глаза в экстракции сосудов (Digital Retinal Images for Vessel Extraction - DRIVE). База данных DRIVE предназначена для сравнительных исследований по сегментации кровеносных сосудов в изображениях сетчатки. Она состоит из фотографий, на которых показаны признаки легкой ранней диабетической ретинопатии. Описание: http://www.isi.uu.nl/Research/Publications/publicationview/id=855.html. Доступ: http://www.isi.uu.nl/Research/Databases/DRIVE/download.php

Открытая библиотека серий изображений МРТ (The Open Access Series of Imaging Studies - OASIS). Включает 2 набора данных: поперечное сечение и продольный набор. Доступ: http://www.oasis-brains.org/

Консенсусные данные SCMR (SCMR Consensus Data). Представляет собой набор данных 15 исследований сердечно-сосудистых заболеваний смешанных патологий (5 здоровых, 6 инфарктов миокарда, 2 сердечной недостаточности и 2 гипертрофии), которые были получены у разных МР-аппаратов (4 GE, 5 Siemens, 6 Philips). Доступ: http://www.cardiacatlas.org/studies/

Консорциум базы данных изображений легких (Lung Image Database Consortium - LIDC). Предварительные клинические исследования показали, что спиральное КТ-сканирование легких может улучшить раннее выявление рака легких у лиц с высоким риском. Алгоритмы обработки изображений могут помочь в обнаружении повреждений на спиральных КТ-исследованиях и оценить стабильность или изменение размера поражения при серийных исследованиях КТ. Использование таких компьютерных алгоритмов могло бы значительно повысить чувствительность и специфичность скрининга спирального КТ легких, а также снизить затраты за счет сокращения времени врача, необходимого для интерпретации. Доступ: http://imaging.cancer.gov/programsandresources/informationsystems/lidc

Набор цифровых снимков грудной клетки (NIH Chest X-ray Dataset of 14 Common Thorax Disease Categories). Набор данных содержит 112 тыс. изображений 30 тыс. уникальных пациентов с фронтальным обзором и примерами 14 торакальных патологий. Доступ: http://academictorrents.com/details/557481faacd824c83fbf57dcf7b6da9383b3235a

Коллекции TCIA (The Cancer Imaging Archive (TCIA) Collections). Содержит данные по различным типам рака (например, карцинома, рак легких, миелома) и различные методы визуализации. Данные TCIA организованы в целенаправленные коллекции предметов. У субъектов обычно есть тип рака и / или анатомическая карта (легкие, мозг и т. д.). Каждая ссылка в приведенной таблице содержит информацию о научной ценности коллекции, информацию о том, как получить любые поддерживающие данные без изображения, которые могут быть доступны, и ссылки для просмотра или загрузки данных изображения. Для поддержки воспроизводимости научных исследований TCIA поддерживает идентификаторы цифровых объектов (DOI), которые позволяют пользователям делиться подмножествами данных TCIA, на которые ссылается исследование. Доступ: http://www.cancerimagingarchive.net/

Белорусский туберкулезный портал (Belarus tuberculosis portal). Туберкулез является серьезной проблемой системы здравоохранения Беларуси. Многие тяжелые формы распространены по всей стране и наблюдаются в различных противотуберкулезных диспансерах. Ожидается, что способность ведущих белорусских специалистов по туберкулезу следить за такими пациентами может быть значительно улучшена за счет использования общей базы данных, содержащей радиологические изображения пациентов, лабораторные работы и клинические данные. Это также значительно улучшит соблюдение стандартов лечения и приведет к лучшим результатам лечения. В наборе данных есть рентгенографии грудной клетки и компьютерная томография одного и того же пациента. Доступ: http://tuberculosis.by/

Цифровая база данных скрининга маммографии (Digital Database for Screening Mammography – DDSM). Этот ресурс создан сообществом исследований маммографических изображений. Первичная поддержка этого проекта была обеспечена грантом Программы исследований рака молочной железы (Breast Cancer Research Program) в США. Проект DDSM - это совместные усилия, связанные с исследованиями в больнице Массачусетса (D. Kopans, R. Moore), Университете Южной Флориды (K. Bowyer) и Sandia National Laboratories (P. Kegelmeyer). Дополнительные случаи включены Школой медицины Вашингтонского университета. В число дополнительных сотрудничающих учреждений входят Школа медицины Университета Уэйк Форест (Отделения медицинской инженерии и радиологии), Госпиталь Святого Сердца. Основная цель базы данных - облегчить обоснованные исследования в разработке компьютерных алгоритмов, помогающих в скрининге. Еще одной целью ведения базы является поддержка в разработке алгоритмов помощи в диагностике и развитии учебных пособий. База данных содержит около 2500 исследований. Каждое исследование включает в себя два изображения каждой груди, а также некоторую связанную с этим информацию о пациенте (возраст во время исследования, рейтинг плотности сердечной деятельности ACR и т.д.) и информацию об изображении (сканер, пространственное разрешение и т.д.). Изображения, содержащие подозрительные области, имеют связанную с «пикселем» информацию о местах и типах подозрительных областей. Также предоставляются программное обеспечение как для доступа к изображениям маммограммы, а также для расчета показателей эффективности для автоматизированных алгоритмов анализа изображений. Доступ: http://marathon.csee.usf.edu/Mammography/Database.html

База данных МРТ-изображений рака предстательной железы. Магнитно-резонансная томография (МРТ) обеспечивает методы визуализации, позволяющие диагностировать и локализовать рак предстательной железы. Предоставляет многопараметрический набор данных МРТ, предназначенный для помощи в разработке систем автоматизированного обнаружения и диагностики этих заболеваний. Доступ: http://i2cvb.github.io/

База данных «Сегментация в рентгенограммах грудной клетки» (Segmentation in Chest Radiographs – SCR). Автоматическая сегментация анатомических структур в рентгенограммах грудной клетки имеет большое значение для компьютерной диагностики. База данных SCR была создана для облегчения сравнительных исследований по сегментации легочных полей, сердца и ключиц в стандартных рентгенограммах грудной клетки. Доступ: http://www.isi.uu.nl/Research/Databases/SCR/

Публичные базы данных VIA Group (VIA Group Public Databases). Включает документированные базы данных изображений, пригодные для разработки инструментов количественного анализа изображений, особенно в системах поддержки принятия врачебных решений (ССПВР). Создана в сотрудничестве с группой I-ELCAP. Содержат легкие КТ-изображения в формате DICOM вместе с описанными радиологами аномалиями. Доступ: http://www.via.cornell.edu/databases/

База данных изображений USC-SIPI (The USC-SIPI Image Database). Представляет собой набор оцифрованных изображений. Предназначен в основном для поддержки исследований в области обработки изображений, анализа и машинного зрения. Первое издание базы данных изображений USC-SIPI было распространено в 1977 году, и с тех пор было добавлено много новых изображений. База данных разделена на тома, основанные на основном характере изображений. Изображения в каждом томе имеют различные размеры, такие как 256x256 пикселей, 512x512 пикселей или 1024x1024 пикселей. Все изображения имеют 8 бит / пиксель для черно-белых изображений, 24 бит / пиксель для цветных изображений.  Доступ: http://sipi.usc.edu/database/

Визуальная концепция извлечения данных в радиологии (Visual Concept Extraction Challenge in Radiology). Включает вручную аннотированные радиологические данные нескольких анатомических структур (например, почек, легких, мочевого пузыря и т. Д.) Из нескольких различных методов визуализации (например, КТ и МР). Можно использовать для разработки и оценки моделей по сравнению с эталонами. Доступ: http://www.visceral.eu/

Изображения диабетической ретинопатии (diabetic retinopathy). База данных включает изображения сетчатки высокого разрешения, которые клиницисты аннотируют по шкале тяжести 0-4, для выявления диабетической ретинопатии. Этот набор данных является частью завершившегося конкурса Kaggle, который, как правило, является отличным источником общедоступных наборов данных. Доступ: https://www.kaggle.com/c/diabetic-retinopathy-detection

Скрининг рака шейки матки (Cervical Cancer Screening). Еще один источник данных конкурсов kaggle, на этот раз использовался при разработке алгоритмов для правильной классификации типов шейки матки на основе соответствующих изображений. Набор данных включает различные типы шейки матки, которые считаются нормальными (не раковыми), но поскольку зоны трансформации не всегда видны, некоторые пациенты нуждаются в дополнительном тестировании, а некоторые нет. Доступ: https://www.kaggle.com/c/intel-mobileodt-cervical-cancer-screening/data

База данных сегментации мозговых опухолей (Multimodal Brain Tumor Segmentation Challenge). Включает большой набор данных магнитно-резонансного сканирования опухолей головного мозга. Авторы постоянно расширяют этот набор данных с 2012 года. Доступ: http://braintumorsegmentation.org/

При подготовке материала использовался ресурс https://github.com/beamandrew/medical-data

 

Пожалуйста, оцените эту статью
( 4,27 из 5,
оценили: 26)
Ваша оценка: Не ставилась

Еще по этой теме

Обратите внимание на похожие статьи

14 Май 2018

Практические рекомендации к созданию искусственного интеллекта для здравоохранения

Статья написана в соавторстве с Михаилом Плиссом, заместителем директора по экспертно-аналитической работе Национального исследовательского университета Высшей школы экономики (ВШЭ). Введение …

07 Апр 2018

Искусственный интеллект для здоровья и здравоохранения: отчет исследователей из США

В декабре 2017 г. группа ведущих американских технологических ученых JASON опубликовала отчет «Искусственный интеллект для здоровья и здравоохранения» («Artificial Intelligence …

15 Фев 2018

Искусственный интеллект в национальной системе здравоохранения Великобритании: что мы об этом думаем

В январе 2018 года исследовательская организация "Reform" выпустила отчет "Thinking on its own: AI in the NHS", что можно в …

Подпишитесь на нашу рассылку

Хотите получать интересную и полезную информацию о цифровом здравоохранении и искусственном интеллекте для медицины?
Включайтесь в нашу рассылку!

Мы рекомендуем

Нормативно-правовое регулирование искусственного интеллекта в здравоохранении России

Просмотров 16 036 1 месяц, 1 неделя назад

Применение AutoML и MLflow при создании прогнозных моделей в медицине: опыт Webiomed

Просмотров 1 610 11 месяцев, 1 неделя назад

Стандартизованная отчетность в разработках систем искусственного интеллекта

Просмотров 1 155 1 год назад

Калибровка моделей: зачем и как?

Просмотров 2 678 1 год, 1 месяц назад

Присоединяйтесь

Наши группы в соц сетях