Вземането на решения, основано на данни, е мантрата за успех и съвършенство на предприятията днес. От финансовите технологии и производството до търговията на дребно и веригата за доставки, всяка индустрия се движи на вълната от големи данни и постига базирано на статистика вземане на решения със своите усъвършенствани аналитични модели и алгоритми. В областта на здравеопазването това става още по-възнаграждаващо и животоспасяващо, служейки като основа на иновациите и научния напредък.
С такъв огромен обхват идват и предизвикателствата. Тъй като търсенето на здравни данни нараства за различни цели, шансовете за нарушения на данните и злоупотреба с чувствителна информация също нарастват. А Докладът за 2023 г. разкрива че над 133 милиона медицински досиета и данни са били откраднати, поставяйки нов рекорд за нарушения на данните в здравеопазването.
Приемането на регламента HIPAA беше успокояващ ход в оптимизирането поверителност на здравните данни, което еднолично и значително намалени нарушения на данните с 48%. Докладите също така разкриват, че 61% от всички нарушения на данните сочат небрежност от служители и професионалисти в това пространство.
За по-нататъшно ограничаване на подобни атаки идва масовото излагане на уязвимости синтетични данни за пациенти. Както се казва, „Съвременните проблеми изискват модерни решения“, началото на здравеопазване със синтетични данни позволява на здравните специалисти да обогатяват данните за пациентите и да използват AI модели, за да им помогнат при генерирането на нови данни.
В тази статия ще се потопим дълбоко в разбирането на какво генериране на синтетични данни е всичко и неговите безброй аспекти.
Синтетични данни за пациенти: какво е това?
Синтезът е процес на създаване на нещо ново чрез комбиниране на съществуващи елементи. В същия контекст синтетичните данни за пациенти се отнасят до изкуствено генерирани данни от вече съществуващи реални данни за пациенти.
В този процес статистическите модели и алгоритми изучават масови обеми данни за пациенти, наблюдават модели и характеристики и генерират набори от данни, които емулират реални данни. Някои от често срещаните техники, използвани за генериране на изкуствени данни за пациенти, включват:
- Генеративни състезателни мрежи (GNN)
- Статистически модели
- Методи за анонимизиране на данни и др
Синтетичните данни са отлична и херметична техника за преодоляване на опасенията за поверителност, свързани с шансовете за разкриване на информация за пациента, която може да бъде идентифицирана повторно. За да разберем ползите от такива данни, нека разгледаме някои от най-известните случаи на употреба.
Случаи на използване на синтетични данни
Развойна дейност на нови лекарства и лекарства
Генериране на данни от клинични изпитвания е дискретно и организациите често крият критична информация. Въпреки това, за целите на научноизследователската и развойна дейност, оперативната съвместимост на данните е от ключово значение за осигуряване на пробив. Генерирането на синтетични данни може да помогне на изследователите да използват това, за да скрият жизненоважни части от повторно проследима информация и данни за де-силозиране, за да изучават съвместно лекарствените реакции и противниците, формулировките, резултатите от корелациите и др.
Поверителност и съответствие с нормативните изисквания
Въпреки че има разговори около необходимостта от централизирани базирани в облака системи за ЕЗД, има и регулаторни предизвикателства, свързани с поверителността и опасенията за безопасност. Въпреки че оперативната съвместимост на данните е неизбежна, заинтересованите страни от целия спектър на здравеопазването трябва да бъдат изключително бдителни относно споделянето на данни за пациентите. Синтетичните данни могат да помогнат за прикриване на чувствителни аспекти, като същевременно запазват ключови допирни точки и служат като идеални представителни набори от данни.
Смекчаване на пристрастията в здравеопазването
В здравеопазването въвеждането на пристрастия е вродено и неизбежно. Например, ако има избухване на епидемия в географско местоположение, засягащо мъже на възраст между 35 и 50 години, пристрастието се въвежда по подразбиране за тази конкретна личност. Докато жените и децата все още са уязвими към този пробив, изследователите се нуждаят от обективна основа, за да обосноват своите открития. Синтетичните данни могат да помогнат за премахване на пристрастията и предоставяне на балансирани представяния.
Мащабируеми набори от данни за обучение по здравеопазване
Поради регулации като GDPR, HIPAA и други, наличността на набори от данни за обучение на усъвършенствани модели за машинно обучение в здравеопазването остава пестелива. Системите с изкуствен интелект (AI) и моделите за машинно обучение изискват огромни обеми данни за обучение, за да стават непрекъснато по-добри в предоставянето на точни резултати.
Синтетично генериране на данни е благословия в това пространство, позволявайки на организациите да генерират изкуствени данни, съобразени с техните изисквания за обем, спецификации и резултати и същевременно да насърчават етично използване на синтетични данни.
Недостатъци и капани на синтетичните здравни данни
Фактът, че съществуват системи и модули за изкуствено генериране на данни за пациенти и здравни грижи от съществуващи набори от данни, е успокояващ. Тази техника обаче не е лишена от недостатъци. Нека разберем какви са те.
Няма стандартна практика - или техники за стандартизация - за генериране, споделяне и оценка на синтетични данни. Това затруднява сътрудничеството и оперативната съвместимост.
В далечния край на спектъра съществуват еднакво мощни и усъвършенствани системи за обратен инженер синтетични данни и излагане на реални данни за пациенти.
Няма модериране или проверка на място, за да се гарантира етичното използване на синтетични данни.
Въпреки че е автономен процес, трябва да има a човек в цикъла за да се гарантира, че критичните елементи, необходими за задача или изследване, са уловени от модел. Например, ако даден модел замени синусите с мигрена в колона за критично състояние, целият изследователски процес се насочва в нова посока.
Shaip и неговата роля в демократизирането на данните за обучение в здравеопазването
В Shaip ние не само почитаме чудото на синтетични здравни данни но бъдете бдителни и за неговите тесни места и непредвидени резултати. Ето защо нашият процес на генериране на синтетични здравни данни изисква систематична и строга процедура, за да осигури мащабируеми и надеждни набори от данни за обучение.
Нашите протоколи за работа с човек в цикъла и интервенции за осигуряване на качеството допълнително гарантират качествени синтетични набори от данни за нуждите на вашия проект. Основната стойност на синтетичните данни се крие в насърчаването на научния напредък, но не за сметка на поверителността на индивида. Нашата визия е съобразена с тази философия и нашите процедури за постигане на това.