Деидентифициране на неструктурирани здравни данни

Пълното ръководство Деидентифициране на неструктурирани здравни данни

Анализирането на структурирани данни може да помогне за по-добра диагностика и грижа за пациентите. Въпреки това, анализирането на неструктурирани данни може да подхранва революционни медицински пробиви и открития.

Това е същината на темата, която ще обсъдим днес. Много е интересно да се наблюдава, че толкова много радикални постижения в областта на здравните технологии са се случили само с 10-20% от използваемите здравни данни.

Статистиката разкрива, че над 90% от данните в този спектър са неструктурирани, което означава данни, които са по-малко използваеми и по-трудни за разбиране, тълкуване и прилагане. От аналогови данни като лекарска рецепта до цифрови данни под формата на медицински изображения и аудиовизуални данни, неструктурираните данни са от различни типове.

Такива масивни парчета от неструктурирани данни са дом на невероятни прозрения, които могат да ускорят напредъка на здравеопазването с десетилетия. Независимо дали става дума за подпомагане на откриването на лекарства за критични животоемки автоимунни заболявания до данни, които могат да помогнат на здравноосигурителните компании при оценка на риска, неструктурираните данни могат да проправят пътя за неизвестни възможности.

Когато има такива амбиции, интерпретируемостта и оперативната съвместимост на данните в здравеопазването стават решаващи. Със строги насоки и прилагане на спазване на нормативната уредба като GDPR и HIPAA, това, което става неизбежно, е деидентификация на здравни данни.

Вече разгледахме обширна статия за демистифицирането структурирани здравни данни намлява неструктурирани здравни данни. Има специална (прочетете обширна) статия за деидентификация на здравни данни както добре. Призоваваме ви да ги прочетете за цялостна информация, тъй като ще имаме тази статия за специален материал деидентификация на неструктурирани данни

Предизвикателства при деидентифицирането на неструктурирани данни

Както подсказва името, неструктурираните данни не са организирани. Той е разпръснат по отношение на формати, типове файлове, размери, контекст и др. Самият факт, че съществуват неструктурирани данни под формата на аудио, текст, медицински изображения, аналогови записи и други, прави още по-предизвикателно разбирането на идентификаторите за лична информация (PII), което е от съществено значение в деидентификация на неструктурирани данни.

За да ви дам представа за основните предизвикателства, ето бърз списък:

Предизвикателства при деидентифицирането на неструктурирани данни

  • Контекстуално разбиране – когато е трудно за заинтересованата страна с ИИ да разбере специфичния контекст зад определена част или аспект от неструктурирани данни. Например разбирането дали дадено име е име на фирма, име на човек или име на продукт може да доведе до дилема дали то трябва да бъде деидентифицирано.  
  • Нетекстови данни – където идентифицирането на слухови или визуални сигнали за имена или PII може да бъде обезсърчаваща задача, тъй като заинтересованата страна може да трябва да прекара часове и часове на кадри или записи, опитвайки се да деидентифицира критични аспекти. 
  • неяснота – това е особено вярно в контекста на аналогови данни като лекарска рецепта или болничен запис в регистър. От почерка до ограниченията на изразяването на естествен език, това може да направи деидентификацията на данните сложна задача. 

Най-добри практики за деидентификация на неструктурирани данни

Процесът на премахване на PII от неструктурирани данни е доста различен от деидентификация на структурирани данни но не и невъзможно. Чрез систематичен и контекстуален подход потенциалът на неструктурираните данни може да се използва безпроблемно. Нека да разгледаме различните начини, по които може да се постигне това. 

Най-добри практики за деидентификация на неструктурирани данни

Редакция на изображението: Това е по отношение на данните за медицински образи и включва премахване на идентификатори на пациенти и замъгляване на анатомични препратки и части от изображения. Те се заменят със специални знаци, за да се запази диагностичната функционалност и полезността на данните за изображения. 

Съвпадащ модел: Някои от най-често срещаните PII, като имена, данни за контакт и адреси, могат да бъдат открити и премахнати с помощта на мъдростта на изучаване на предварително дефинирани модели. 

Диференциална поверителност или смущение на данните: Това включва включването на контролиран шум за прикриване на данни или атрибути, които могат да бъдат проследени до дадено лице. Този идеален метод не само гарантира деидентификация на данните, но и запазването на статистическите свойства на набора от данни за анализи. 

Деидентификация на данните: Това е един от най-надеждните и ефективни начини за премахване на PII от неструктурирани данни. Това може да се приложи по един от двата начина:

  • Контролирано обучение – където моделът е обучен да класифицира текст или данни като PII или не-PII
  • Неуправляемо обучение – където моделът е обучен да се учи автономно да открива модели при идентифицирането на PII

Този метод гарантира защитата на поверителност на пациента като същевременно запазвате човешката намеса за най-излишните аспекти на задачата. Заинтересованите страни и доставчиците на здравни данни, които прилагат техники за машинно обучение за деидентифициране на неструктурирани данни, могат просто да имат активиран от човека процес за осигуряване на качество, за да осигурят справедливост, уместност и точност на резултатите. 

Маскиране на данни: Маскирането на данни е дигитална игра на думи за деидентифициране на здравни данни, където специфичните идентификатори се правят общи или неясни чрез нишови техники като:

  • Токенизация – включващи замяната на PII със знаци или токени
  • Обобщение – чрез замяна на специфични PII стойности с общи/неясни такива
  • Разбъркване – чрез смесване на PII, за да ги направи двусмислени

Този метод обаче идва с ограничение, че със сложен модел или подход данните могат да бъдат повторно идентифицирани

Аутсорсинг за играчи на пазара

Единственият правилен подход за осигуряване на процеса на деидентификация на неструктурирани данни е херметичен, безупречен и съобразен с указанията на HIPAA е да възложите задачите на надежден доставчик на услуги като Сайп. С авангардни модели и строги протоколи за осигуряване на качеството ние гарантираме човешки надзор върху поверителността на данните се смекчава през цялото време.

Тъй като от години сме доминиращо предприятие на пазара, ние разбираме критичността на вашите проекти. Така че, свържете се с нас днес, за да оптимизирате вашите здравни амбиции със здравни данни, деидентифицирани от Shaip.

Социален дял