Синтетични данни в здравеопазването

Синтетични данни в здравеопазването: дефиниция, ползи и предизвикателства

Представете си сценарий, при който изследователи разработват ново лекарство. Те се нуждаят от обширни данни за пациентите за тестване, но има значителни опасения относно поверителността и наличността на данните.

Тук синтетичните данни предлагат решение. Той предоставя реалистични, но напълно изкуствени набори от данни, които имитират статистическите свойства на реални данни за пациенти. Този подход позволява цялостно изследване, без да се нарушава поверителността на пациента.

Доналд Рубин е пионер в концепцията за синтетични данни в началото на 90-те години. Той генерира анонимен набор от данни от отговорите от преброяването в САЩ, отразявайки статистическите свойства на действителните данни от преброяването. Това отбеляза създаване на един от първите синтетични набори от данни което е в тясно съответствие с реалната статистика на населението от преброяването.

Прилагането на синтетични данни бързо набира скорост. Accenture го разпознава като ключова тенденция в науките за живота и медицинските технологии. По същия начин, Прогнози на Gartner че до 2024 г. синтетичните данни ще представляват 60% от използването на данни.

В тази статия ще говорим за синтетичните данни в здравеопазването. Ще проучим неговото определение, как се генерира и възможните му приложения.

Какво представляват синтетичните данни в здравеопазването?

Оригинални данни:

ID на пациента: 987654321
Възраст: 35
Пол: Мъжки
раса: Бял
Етническа принадлежност: Испанци
Медицинска история: Хипертония, диабет
Текущи лекарства: лизиноприл, метформин
Лабораторни резултати: Кръвно налягане 140/90 mmHg, кръвна захар 200 mg/dL
Диагноза: Диабет тип 2

Синтетични данни:

ID на пациента: 123456789
Възраст: 38
Пол: Женски
раса: черно
Етническа принадлежност: Неиспанец
Медицинска история: Астма, депресия
Текущи лекарства: Албутерол, флуоксетин
Лабораторни резултати: Кръвно налягане 120/80 mmHg, кръвна захар 100 mg/dL
Диагноза: Астма

Синтетични данни в здравеопазването се отнася до изкуствено генерирани данни, които симулират реални данни за здравето на пациента. Този тип данни се създават с помощта на алгоритми и статистически модели. Той е проектиран да отразява сложните модели и характеристики на действителните здравни данни. Въпреки това, той не съответства на реални лица, като по този начин защитава поверителността на пациентите.

Създаването на синтетични данни включва анализиране на реални набори от данни за пациенти, за да се разберат техните статистически свойства. След това, като се използват тези прозрения, се генерират нови точки от данни. Те имитират статистическото поведение на оригиналните данни, но не възпроизвеждат конкретна информация на индивида.

Синтетичните данни стават все по-важни в здравеопазването. Той балансира между използването на мощта на големите данни и зачитането на поверителността на пациентите.

[Прочетете също: 22 безплатни и отворени набора от данни за здравеопазване за машинно обучение]

Текущо състояние на данните в здравеопазването

Здравеопазването непрекъснато се бори с балансирането на ползите от данните и опасенията за поверителността на пациентите. Получаването на здравни данни за търговски или академични цели е изключително предизвикателство и скъпо.

Например получаването на одобрение за използване на данни от здравната система може да отнеме до две години. Достъпът до данни на ниво пациент често води до разходи в стотици хиляди, ако не и повече, в зависимост от мащаба на проекта. Тези пречки значително възпрепятстват напредъка в областта.

Секторът на здравеопазването е в ранните етапи на усъвършенстване и прилагане на данни. Няколко фактора, включително опасения за поверителността, липсата на стандартизирани формати на данни и съществуването на силози за данни, възпрепятстваха иновациите и напредъка. Този сценарий обаче се променя бързо, особено с възхода на генеративните AI технологии.

Въпреки тези препятствия използването на данни в здравеопазването нараства. Платформи като Snowflake и AWS се надпреварват да предложат инструменти, които използват потенциала на тези данни. Растежът на облачните изчисления улеснява по-напредналите анализи на данни и ускорява разработването на продукти.

В този контекст синтетичните данни се очертават като обещаващо решение за предизвикателствата на достъпността на данните в здравеопазването.

Как се използват синтетичните данни в здравеопазването?

Синтетичните данни са днешната революция в здравеопазването, позволявайки на организациите да правят иновации, като същевременно спазват границите, определени от безопасността и поверителността. Тъй като приличат на данни от реалния свят, синтетичните набори от данни позволяват на изследователи, клиницисти и разработчици да настояват за иновации, без да бъдат възпрепятствани от поверителността на пациентите.

Ето само няколко прости случая от реалния свят за това как синтетичните данни трансформират здравеопазването:

1. Тестване на нови лечения без риск за поверителността

Представете си екип от изследователи, разработващи лечение на диабет. Вместо да имат достъп до поверителни досиета на пациентите, те използват синтетични данни, които имитират чертите на реални пациенти, като възраст, нива на кръвната захар и медицинска история. Те могат да разработят хипотези и да ги прецизират в протоколи за това как да приспособят лечението, като същевременно запазват поверителността на пациента.

2. Обучаващ AI за по-бързи диагностики

Помислете за инструмент за машинно обучение, предназначен да открива рак на белия дроб от рентгенови лъчи. Синтетичните медицински изображения могат да включват много сценарии - подреждането на форми, размери и местоположения на тумори по какъвто и да е забавен начин може да помогне на машината да се научи точно при идентифицирането на случай с живачен рецидив на рак. Това улеснява диагностицирането, като същевременно напълно заобикаля етичните опасения около използването на действителни сканирания на пациенти.

3. Практикуване на операции във виртуална реалност

Много студенти по медицина изискват истинска практическа практика, преди да могат да лекуват реални пациенти. Синтетичните данни създават цялостно интерактивно транспониране, при което виртуален пациент, базиран на данни, се симулира с различни медицински истории и състояния, като по този начин позволява на студентите да преживеят операции или диагностични процедури многократно и много безопасно.

4. Позволяване на планирането на общественото здраве

Симулирането на хода на заболявания като COVID-19 или грип със синтетични данни е важно, за да се позволи на изследователите в епицентъра да моделират епидемичното разпространение на вирус в градските райони спрямо селските райони, докато оценяват и тестват стратегии за ваксиниране, като по този начин заобикалят невежеството на чувствителните данни за населението.

5. Безопасно тестване на медицински изделия

Помислете за компания, която разработва ново носимо устройство за следене на сърдечната честота. Синтетичните набори от данни, имитиращи различни кардиопатии, позволяват на фирмите да тестват своите устройства при множество сценарии, преди да навлязат в икономиката.

Как трябва да се създават синтетични данни за здравеопазването

Създаването на синтетични данни в здравеопазването наистина е дълъг процес, който чертае тънката граница между техническия опит и доброто разбиране на системите за здравеопазване. За да се опростят концепциите, това е най-общо начинът, по който може да се тълкува създаването на синтетични данни в здравни заведения.

1. Разберете реалните данни

Здравните организации проучват реални данни за пациенти, започвайки с болнични досиета, лабораторни резултати или подробности от клинични изпитвания. Например, една болница може да анализира демографията на своите пациенти, историята на лечението и резултатите, за да постигне известна представа за основните тенденции или модели.

2. Спиране на излагането на данни на пациента чрез премахване на PII

След това, от съображения за поверителност, наборът от данни вече не съдържа лична информация (PII) - имена, адреси или номера на социално осигуряване. Може да свържете това с процеса на анонимизиране на някои медицински бележки, които, ако бъдат отпечатани сега, няма да могат да бъдат проследени до дадено лице.

3. Идентифициране на ключови модели

Учен по данни прелива върху изчистен набор от данни и открива моделите и взаимовръзките, съставляващи още един основен градивен елемент за успешно изследване. Например, те могат да открият, че определени лекарства се използват често от възрастни хора с диабет или че определени възрастови групи са склонни да проявяват определени симптоми.

4. Изграждане на модели с помощта на шаблоните

След като тези модели бъдат определени, прозренията позволяват изграждането на математически модели, които емулират статистическите асоциации, открити в реалните данни. Например, ако 30% от пациентите в набора от данни имат високо кръвно налягане, можем да предположим, че синтетичните данни ще отразяват приблизително тези състояния в подобни пропорции.

6. Валидиране на синтетичните данни

След това синтетичният набор от данни се сравнява с оригиналните данни, така че да запази същата статистика, определяща свойствата и връзките. Например, ако има зависима корелация между затлъстяването и сърдечните заболявания в оригиналния набор от данни, същото трябва да съществува и за този синтетичен набор от данни.

7. Тестване за използване в реални условия

Накрая, синтетичните данни се изваждат за тестване в различни сценарии, за да се направи претенция, че могат да бъдат използвани за тогавашните предвидени цели. Те включват използването му, за да позволи на изследователите да обучат AI модел за диагностициране на заболявания или симулиране на вариации на оперативните ресурси в спешното отделение, свързани с грипния сезон.

Синтетични медицински разговори

Как да валидирате синтетичните данни за здравеопазването

Вземащите решения в организациите трябва да проучат внимателно валидността на синтетичните данни преди прилагането им в здравеопазването. Тази парадигма се прилага за всички и всички данни, използвани съгласно протоколи за поверителност. Следват начини за оценка на валидността на синтетичните данни:

  • Сравнение с реални данни: Синтетичните данни се сравняват с реални данни, за да се потвърди, че основните тенденции, които определят, напр. връзката между възрастта и заболяването, са правилно огледални. Например, ако 20 процента от реалните пациенти имат диабет, тогава подобна част трябва да се прояви при синтетични пациенти.
  • Провеждане на статистически тестове: Статистическите тестове ни позволяват да тестваме дали синтетичните данни са в съответствие с оригинала по отношение на разпределенията и корелацията, като по този начин потвърждават, че са разумни и надеждни за анализ.
  • Валидиране на реални задачи: Задачите от реалния свят, като тренировъчното упражнение върху AI модели, ще бъдат използвани, за да се сравни дали резултатите, получени от обучението на синтетични данни, също ще доведат до резултат, подобен на обучението върху реални данни.
  • Експертен преглед: Синтетичните набори от данни се преглеждат за автентични атрибути от клиницисти и здравни експерти, като например стандартни истории и лечения, които трябва да бъдат изпълнени от реалистично изследователско проучване.
  • Налични контроли за поверителност: Тази оценка ще гарантира, че синтетичните данни не могат да бъдат проследени до реални пациенти и ще запази поверителността на реалните пациенти непокътната, като същевременно ще избегне загубата на използваемост на набора от данни.

[Прочетете също: Защо наборите от данни за здравеопазването са важни за оформянето на бъдещето на медицинския изкуствен интелект]

Потенциалът на синтетичните данни в здравеопазването и фармацевтиката

Потенциалът на синтетичните данни в здравеопазването

Интегрирането на синтетични данни в здравеопазването и фармацевтиката разкрива свят от възможности. Този иновативен подход променя различни аспекти на индустрията. Способността на синтетичните данни да отразяват набори от данни от реалния свят, като същевременно запазват поверителността, революционизира множество сектори.

  1. Подобрете достъпността на данните, като запазите поверителността

    Едно от най-значимите препятствия в здравеопазването и фармацевтиката е достъпът до огромни данни при спазване на законите за поверителност. Синтетичните данни предлагат революционно решение. Той предоставя набори от данни, които запазват статистическите характеристики на реалните данни, без да разкриват частна информация. Този напредък позволява по-задълбочено изследване и обучение на модели за машинно обучение. Той насърчава напредъка в лечението и разработването на лекарства.

  2. По-добра грижа за пациентите чрез предсказуем анализ

    Синтетичните данни могат значително да подобрят грижите за пациентите. Моделите за машинно обучение, обучени на синтетични данни, помагат на здравните специалисти да предскажат реакциите на пациентите към лечението. Този напредък води до по-персонализирани и ефективни стратегии за грижа. Прецизната медицина става по-постижима за подобряване на ефикасността на лечението и резултатите за пациентите.

  3. Рационализирайте разходите с разширено използване на данни

    Прилагането на синтетични данни в здравеопазването и фармацевтиката също води до значително намаляване на разходите. Той минимизира рисковете и разходите, свързани с нарушенията на данните. Освен това, подобрените възможности за прогнозиране на моделите за машинно обучение помагат за оптимизиране на ресурсите. Тази ефективност се превръща в намалени разходи за здравеопазване и по-рационализирани операции.

  4. Тестване и валидиране

    Синтетичните данни позволяват безопасно и практично тестване на нови технологии, включително системи за електронни здравни досиета и инструменти за диагностика. Доставчиците на здравни услуги могат стриктно да оценяват иновациите, използвайки синтетични данни, без да рискуват поверителността на пациентите или сигурността на данните. Той гарантира, че новите решения са ефективни и надеждни, преди да бъдат внедрени в сценарии от реалния свят.

  5. Насърчаване на съвместни иновации в здравеопазването

    Синтетичните данни отварят нови врати за сътрудничество в здравеопазването и фармацевтичните изследвания. Организациите могат да споделят синтетични набори от данни с партньори. Той позволява съвместни проучвания, без да се нарушава поверителността на пациента. Този подход проправя пътя за иновативни партньорства. Тези сътрудничества ускоряват медицинските пробиви и създават по-динамична изследователска среда.

Предизвикателства със синтетичните данни

Докато синтетичните данни притежават огромен потенциал, те също имат предизвикателства, които трябва да решите.

Осигуряване на точност и представителност на данните

Синтетичните набори от данни трябва точно да отразяват статистическите свойства на данните от реалния свят. Постигането на това ниво на точност обаче е сложно и често изисква сложни алгоритми. Това може да доведе до подвеждащи прозрения и неверни заключения, ако не се направи правилно.

Управление на пристрастията и разнообразието на данните

Тъй като синтетичните набори от данни се генерират въз основа на съществуващи данни, всички присъщи отклонения в оригиналните данни могат да бъдат възпроизведени. Осигуряването на разнообразие и елиминирането на отклоненията е от решаващо значение, за да станат синтетичните данни надеждни и универсално приложими.

Балансиране на поверителността и полезността

Докато синтетичните данни са възхвалявани за способността си да защитават поверителността, постигането на правилния баланс между поверителността на данните и полезността е деликатна задача. Необходимо е да се гарантира, че синтетичните данни, макар и анонимни, запазват достатъчно подробности и специфичност за смислен анализ.

Етични и правни съображения

Въпросите относно съгласието и етичната употреба на синтетични данни, особено когато са извлечени от чувствителна здравна информация, остават области на активно обсъждане и регулиране.

Поверителност и сигурност със синтетични данни в здравеопазването

Въпреки че е известно, че синтетичните данни защитават поверителността на пациентите чрез подстанция на реални данни с изкуствена, макар и реалистична алтернатива, дилемите относно поверителността и сигурността все още са много. Един от основните свързани рискове е повторната идентификация, при която синтетичните данни неволно разкриват модели, които биха могли да помогнат за дешифрирането на реални изследвани пациенти. Спазването на правилата и разпоредбите поставя допълнително ниво на пречка за смекчаване на такива проблеми – съображения при работа със синтетични данни: HIPAA и GDPR.

За да отстранят тези опасения, здравните организации трябва да приемат по-стабилни техники за запазване на поверителността - като диференцирана поверителност и сигурни алгоритми - за предотвратяване на такова използване. Ако такива развиващи се и сложни мениджъри на риска бъдат включени в превантивни мерки, синтетичните данни ще продължат да се обновяват, като същевременно зачитат всички принципи на поверителност около пациента и здравия разум за етика.

Заключение

Синтетичните данни трансформират здравеопазването и фармацевтиката чрез балансиране на поверителността с практическата употреба. Въпреки че е изправен пред предизвикателства, способността му да подобрява изследванията, грижите за пациентите и сътрудничеството е значителна. Това прави синтетичните данни ключова иновация за бъдещето на здравеопазването.

Социален дял