- Глобалната здравна система ежедневно произвежда огромни количества медицински данни, които имат потенциала да бъдат използвани за приложения за машинно обучение. Във всички индустрии данните се считат за ценен актив, който позволява на компаниите да придобият конкурентно предимство, и секторът на здравеопазването не е по-различен.
Тази статия ще разгледа накратко препятствията, срещани при работа с медицински данни, и ще предостави обобщение на публично достъпни набори от данни за здравеопазването.
Значение на наборите от данни в здравеопазването
Наборите от данни за здравеопазване са колекции от информация за пациенти, като например медицински досиета, диагнози, лечения, генетични данни и подробности за начина на живот. Те са много важни в днешния свят, където AI се използва все повече и повече. Ето защо:
Разбиране на здравето на пациента:
Наборите от здравни данни дават на лекарите пълна картина на здравето на пациента. Например данните за медицинската история на пациента, лекарствата и начина на живот могат да помогнат да се предвиди дали пациентът може да получи хронично заболяване. Това позволява на лекарите да се намесят рано и да направят план за лечение само за този пациент.
Подпомагане на медицински изследвания:
Чрез изучаване на набори от данни за здравеопазването, медицински изследователи могат да видят как се лекуват пациенти с рак и как се възстановяват. Те могат да намерят леченията, които работят най-добре в реалния свят. Например, като разглеждат туморни проби в биобанки и истории на лечение на пациенти, изследователите могат да научат как специфични мутации и ракови протеини реагират на различни лечения. Този основан на данни подход помага да се намерят тенденции, които водят до по-добри резултати за пациентите.
По-добра диагностика и лечение:
Лекарите използват AI инструменти, за да разглеждат набори от данни в здравеопазването и да откриват важни модели. Това им помага да диагностицират и лекуват по-добре заболяванията. В радиологията AI може да открие проблеми при сканиране по-бързо и по-точно от хората. Това означава, че лекарите могат да открият болестите по-рано и да започнат правилното лечение по-рано. Анотацията на медицински изображения може да доведе до по-бърза и по-добра диагностика, което подобрява здравето на пациента.
Подпомагане на инициативи за обществено здраве:
Представете си малък град, в който здравни експерти използват масиви от данни, за да проследят избухване на грип. Те разгледаха моделите и откриха областите, които бяха засегнати. С тези данни те започнаха целенасочени кампании за ваксиниране и здравно-образователни кампании. Този основан на данни подход помогна за ограничаване на грипа. Той показва как наборите от здравни данни могат активно да насочват и подобряват инициативите за обществено здраве.
Овластяване на медицински прозрения: 19 медицински набора от данни, които трябва да се изследват за машинно обучение
Отворените набори от данни са от съществено значение, за да работи добре всеки модел на машинно обучение. Машинното обучение вече се използва в науките за живота, здравеопазването и медицината и показва страхотни резултати. Помага да се предскажат болести и да се разбере как се разпространяват. Машинното обучение също така дава идеи как можем правилно да се грижим за болни, възрастни и неразположени хора в дадена общност. Без добри набори от данни тези модели на машинно обучение не биха били възможни.
Общо и обществено здраве:
- data.gov: Фокусира се върху ориентирани към САЩ здравни данни, които могат лесно да се търсят с помощта на множество параметри. Наборите от данни са предназначени да подобрят благосъстоянието на хората, пребиваващи в САЩ; информацията обаче може да се окаже полезна и за други комплекти за обучение в научни изследвания или допълнителни области на общественото здраве.
- СЗО: Предлага набори от данни, съсредоточени около глобалните здравни приоритети. Платформата включва удобна за потребителя функция за търсене и предоставя ценна информация заедно с наборите от данни за цялостно разбиране на разглежданите теми.
- Re3Data: Предлага данни, обхващащи повече от 2,000 изследователски обекта, категоризирани в няколко широки области. Въпреки че не всички набори от данни са свободно достъпни, платформата ясно показва структурата и позволява лесно търсене въз основа на фактори като такси, изисквания за членство и ограничения на авторските права.
- База данни за човешката смъртност предлага достъп до данни за нивата на смъртност, данни за населението и различни здравни и демографски статистики за 35 нации.
- CHDS: Наборите от данни за изследване на детското здраве и развитие имат за цел да изследват предаването на болести и здраве между поколенията. Той включва масиви от данни за изследване не само на геномната експресия, но и влиянието на социални, екологични и културни фактори върху болестта и здравето.
- Merck Molecular Activity Challenge: Представя набори от данни, предназначени да насърчават приложението на машинно обучение при откриване на лекарства чрез симулиране на потенциалните взаимодействия между различни комбинации от молекули.
- 1000 геноми Project: Съдържа данни за секвениране от 2,500 индивида в 26 различни популации, което го прави едно от най-големите достъпни хранилища на геноми. Това международно сътрудничество може да бъде достъпно чрез AWS. (Имайте предвид, че се предлагат грантове за геномни проекти.)
Набори от данни за изображения за науки за живота, здравеопазване и медицина:
- Отворете Neuro: Като безплатна и отворена платформа, OpenNeuro споделя широк набор от медицински изображения, включително MRI, MEG, EEG, iEEG, ECoG, ASL и PET данни. С 563 набора от медицински данни, обхващащи 19,187 XNUMX участници, той служи като безценен ресурс за изследователи и здравни специалисти.
- Оазис: Произхождащ от Серията за изображения с отворен достъп (OASIS), този набор от данни се стреми да предостави на обществеността безплатно данни за невроизображения в полза на научната общност. Той обхваща 1,098 субекта в 2,168 MR сесии и 1,608 PET сесии, като предлага изобилие от информация за изследователите.
- Инициатива за невроизобразяване на болестта на Алцхаймер: Инициативата за невроизобразяване на болестта на Алцхаймер (ADNI) показва данни, събрани от изследователи по целия свят, посветени на определянето на прогресията на болестта на Алцхаймер. Наборът от данни включва цялостна колекция от MRI и PET изображения, генетична информация, когнитивни тестове и биомаркери за CSF и кръв, улеснявайки многостранен подход към разбирането на това сложно състояние.
Болнични набори от данни:
- Каталог с данни на доставчика: Достъп до и изтегляне на изчерпателни набори от данни на доставчици в области, включително съоръжения за диализа, лекарски практики, домашни здравни услуги, хосписни грижи, болници, стационарна рехабилитация, болници за дългосрочни грижи, старчески домове с рехабилитационни услуги, разходи за посещения на лекарски кабинети и указатели на доставчици.
- Проект за разходи и използване на здравеопазването (HCUP): Тази изчерпателна национална база данни е създадена, за да идентифицира, проследи и анализира националните тенденции в използването, достъпа, таксите, качеството и резултатите от здравеопазването. Всеки набор от медицински данни в рамките на HCUP съдържа информация на ниво среща за всички престои на пациенти, посещения в спешни отделения и амбулаторни операции в болници в САЩ, предоставяйки изобилие от данни за изследователи и политици.
- База данни за критични грижи MIMIC: Разработен от Масачузетския технологичен институт за целите на компютърната физиология, този публично достъпен набор от медицински данни включва деидентифицирани здравни данни от над 40,000 XNUMX пациенти в интензивно лечение. Наборът от данни MIMIC служи като ценен ресурс за изследователи, изучаващи интензивни грижи и разработващи нови изчислителни методи.
Набори от данни за рака:
- CT медицински изображения: Проектиран да улесни алтернативни методи за изследване на тенденциите в данните от CT изображения, този набор от данни включва CT сканирания на пациенти с рак, като се фокусира върху фактори като контраст, модалност и възраст на пациента. Изследователите могат да използват тези данни, за да разработят нови техники за изобразяване и да анализират моделите в диагностиката и лечението на рака.
- Международно сътрудничество за докладване на рака (ICCR): Наборите от медицински данни в рамките на ICCR са разработени и предоставени за насърчаване на основан на доказателства подход за докладване на рак в световен мащаб. Чрез стандартизиране на докладването на рака, ICCR има за цел да подобри качеството и сравнимостта на данните за рака в институциите и страните.
- SEER заболеваемост от рак: Предоставени от правителството на САЩ, тези данни за рака са сегментирани с помощта на основни демографски разграничения като раса, пол и възраст. Наборът от данни SEER позволява на изследователите да изследват заболеваемостта от рак и нивата на преживяемост сред различни подгрупи от населението, информирайки инициативите за обществено здраве и изследователските приоритети.
- Набор от данни за рак на белия дроб: Този безплатен набор от данни включва информация за случаи на рак на белия дроб, датиращи от 1995 г. Изследователите могат да използват тези данни, за да проучат дългосрочните тенденции в заболеваемостта от рак на белия дроб, лечението и резултатите, както и да разработят нови диагностични и прогностични инструменти.
Допълнителни ресурси за здравни данни:
- Kaggle: Многофункционално хранилище за набори от данни – Kaggle остава изключителна платформа за широк набор от набори от данни, без да се ограничава само до сектора на здравеопазването. Идеален за тези, които се разклоняват в различни теми или се нуждаят от разнообразни набори от данни за обучение по модели, Kaggle е ресурс, който трябва да използвате.
- Subreddit: Съкровищница, управлявана от общността – Правилните дискусии в subreddit могат да бъдат златна мина за отворени набори от данни. За нишови или специфични заявки, които не са адресирани от публични набори от данни, общността на Reddit може да съдържа отговора.
Ускорете вашите здравни AI проекти с премиум, готови за използване набори от медицински данни на Shaip
Набор от данни за разговори между лекар и пациент
Нашият набор от данни съдържа аудио файлове с разговори между лекари и пациенти относно тяхното здраве и планове за лечение. Досиетата обхващат 31 различни медицински специалности.
Какво е включено?
- 257,977 XNUMX часа аудио диктовка от реални лекари за обучение на модели на здравна реч
- Аудио от различни устройства като телефони, цифрови записващи устройства, микрофони за реч и смартфони
- Аудио и преписи с премахната лична информация за спазване на законите за поверителност
CT SCAN набор от данни за изображения
Ние предлагаме първокласни набори от данни за CT сканиране за изследвания и медицинска диагностика. Разполагаме с хиляди висококачествени изображения от реални пациенти, обработени с помощта на най-новите техники. Нашите набори от данни помагат на лекарите и изследователите да разберат по-добре различни здравословни проблеми, като рак, мозъчни нарушения и сърдечни заболявания.
Данните сочат, че най-честите компютърни томографии са на гръден кош (6000) и глава (4350), като значителен брой сканирания са направени и на корем, таз и други части на тялото. Таблицата също така разкрива, че някои специализирани сканирания, като CT Covid HRCT и ангиопулмонална диагностика, се извършват предимно в Индия, Азия, Европа и други.
Набор от данни за електронни здравни досиета (EHR).
Електронните здравни досиета (EHR) са цифрови версии на медицинската история на пациента. Те включват информация като диагнози, лекарства, планове за лечение, дати на имунизация, алергии, медицински изображения (като компютърна томография, ядрено-магнитен резонанс и рентгенови лъчи), лабораторни тестове и др.
Функциите на нашия готов набор от данни за EHR:
- Над 5.1 милиона записи и аудио файлове на лекари, обхващащи 31 медицински специалности
- Автентични медицински досиета, идеални за обучение по клинично НЛП и други модели на AI за документи
- Метаданни, включително анонимизирани MRN, дати на прием и изписване, продължителност на престоя, пол, клас на пациента, платец, финансов клас, състояние, разпореждане за изписване, възраст, DRG, описание на DRG, възстановяване на разходите, AMLOS, GMLOS, риск от смъртност, тежест на заболяването, групер и пощенски код на болницата
- Записи, обхващащи всички класове пациенти: болнични, извънболнични (клинични, рехабилитационни, повтарящи се, хирургични дневни грижи) и спешни случаи
- Документи с информация, разкриваща самоличността (PII), редактирана, спазвайки указанията на HIPAA за безопасно пристанище
Набор от данни за ЯМР изображения
Ние доставяме първокласни набори от данни за ЯМР изображения в подкрепа на медицински изследвания и диагностика. Нашата обширна колекция включва хиляди изображения с висока разделителна способност от действителни пациенти, всички обработени с помощта на най-съвременни методи. Използвайки нашите набори от данни, здравните специалисти и изследователите могат да задълбочат разбирането си за широк спектър от медицински състояния, което в крайна сметка води до подобрени резултати за пациентите.
Набор от данни за изображения с ядрено-магнитен резонанс на различни части на тялото, като гръбначният стълб и мозъкът имат най-висок брой по 5000 всяка. Данните се разпространяват в Индия, Централна Азия и Европа и регионите на Централна Азия.
Набор от данни за рентгеново изображение
Набори от данни с рентгенови изображения с най-добро качество за изследвания и медицинска диагностика. Имаме хиляди изображения с висока разделителна способност от реални пациенти, обработени с помощта на най-новите техники. С Shaip можете да получите достъп до надеждни медицински данни, за да подобрите вашите изследвания и резултатите от пациентите.
Разпределение на набора от рентгенови данни в различни части на тялото, като гърдите имат най-висок брой от 1000 в Централна Азия. Долните и горните крайници имат общ брой от 850 всеки, разпределени между регионите на Централна Азия и Централна Азия и Европа.