Ключът към преодоляването на пречките при развитието на ИИ
По-надеждни данни
Въведение
Изкуственият интелект започва да пленява въображението, когато Тенекиеният човек от „Магьосникът от Оз“ се появява на екран през 1939 г. и оттогава едва се налага по-здраво в духа на времето. При прилагането си обаче продуктите с изкуствен интелект преминаха през редовни цикли на възход и спад, които досега спъваха най-влиятелните осиновявания.
По време на бума инженерите и изследователите са направили огромен напредък, но когато техните стремежи неизбежно надхвърлят наличните изчислителни възможности по това време, е последвал период на латентност. За щастие, експоненциалното увеличение на изчислителната мощност, пророкувано от закона на Мур през 1965 г., в по-голямата си част се оказа точно и значението на това увеличение е трудно да се надценява.
Прочетете електронната книга: Ключът към преодоляването на препятствията при развитието на ИИ или изтеглете PDF версия на електронната книга.
Ключът към преодоляване на препятствията при развитието на AI: По-надеждни данни
Днес средностатистическият човек разполага с милиони пъти повече изчислителна мощност в джоба си, отколкото НАСА трябваше да осъществи кацането на Луната през 1969 г. Същото това вездесъщо устройство, което удобно демонстрира изобилие от изчислителна мощност, също така изпълнява друга предпоставка за златната ера на AI: изобилие от данни. Според прозрения на Information Overload Research Group, 90% от данните в света са създадени през последните две години. Сега, когато експоненциалният ръст на изчислителната мощ най-накрая се сближи със също толкова метеоритен ръст в генерирането на данни, иновациите в AI данните експлодират толкова много, че някои експерти смятат, че ще дадат тласък на Четвъртата индустриална революция.
Данни от Националната асоциация за рисков капитал показват, че секторът на изкуствения интелект е отбелязал рекордни $6.9 милиарда инвестиции през първото тримесечие на 2020 г. Не е трудно да се види потенциалът на инструментите за изкуствен интелект, защото той вече се използва навсякъде около нас. Някои от по-видимите случаи на използване на AI продукти са двигателите за препоръки зад любимите ни приложения като Spotify и Netflix. Въпреки че е забавно да откриете нов изпълнител, който да слушате, или ново телевизионно предаване, което да гледате безпроблемно, тези реализации са доста ниски. Други алгоритми оценяват резултатите от тестовете – отчасти определящи къде студентите се приемат в колеж – а трети преглеждат автобиографиите на кандидатите, решавайки кои кандидати да получат определена работа. Някои AI инструменти могат дори да имат последици за живота или смъртта, като модела AI, който проверява за рак на гърдата (който превъзхожда лекарите).
Въпреки стабилния растеж както в реалните примери за развитие на ИИ, така и в броя на стартиращите фирми, които се състезават да създадат следващото поколение инструменти за трансформация, остават предизвикателства пред ефективното развитие и внедряване. По-специално, изходът от AI е толкова точен, колкото входът позволява, което означава, че качеството е от първостепенно значение.
Предизвикателството на непоследователното качество на данните в AI решенията
Наистина всеки ден се генерира невероятно количество данни: 2.5 квинтилиона байта, според Social Media Today. Но това не означава, че всичко това е достойно за обучение на вашия алгоритъм. Някои данни са непълни, други са с ниско качество, а други са просто неточни, така че използването на която и да е от тази грешна информация ще доведе до същите черти от вашата (скъпа) иновация за данни с ИИ. Според изследване на Gartner, около 85% от проектите за ИИ, създадени до 2022 г., ще дадат неточни резултати поради пристрастни или неточни данни. Докато можете лесно да пропуснете препоръка за песен, която не отговаря на вкуса ви, други неточни алгоритми имат значителни финансови и репутационни разходи.
През 2018 г. Amazon започна да използва базиран на изкуствен интелект инструмент за наемане, в производство от 2014 г., който имаше силно и безпогрешно пристрастие към жените. Оказва се, че компютърните модели в основата на инструмента са били обучени с помощта на резюмета, изпращани на компанията в продължение на десетилетие. Тъй като повечето кандидати за технологии бяха мъже (и все още са, може би благодарение на тази технология), алгоритъмът реши да накаже автобиографиите с включени „жени“ навсякъде – капитан на женски футбол или женска бизнес група, например. Дори реши да санкционира кандидатите от два женски колежа. Amazon твърди, че инструментът никога не е бил използван като единствен критерий за оценка на потенциални кандидати, но специалистите по подбор на персонал са гледали на механизма за препоръки, когато са търсили нови служители.
Инструментът за наемане на Amazon в крайна сметка беше бракуван след години работа, но урокът остава, подчертавайки важността на качеството на данните при обучение на алгоритми и инструменти за изкуствен интелект. Как изглеждат „висококачествените“ данни? Накратко, той проверява тези пет квадратчета:
1. Съответно
За да бъдат считани за висококачествени, данните трябва да внесат нещо ценно в процеса на вземане на решения. Има ли връзка между статута на кандидата за работа като държавен шампион по скок с прът и представянето му на работа? Възможно е, но изглежда много малко вероятно. Чрез отстраняване на данни, които не са подходящи, алгоритъмът може да се съсредоточи върху сортирането на информацията, която действително влияе върху резултатите.
2. Точен
Тези данни, които използвате, трябва точно да представят идеите, които тествате. Ако не, не си струва. Например, Amazon обучи алгоритъма си за наемане, използвайки 10-годишни автобиографии на кандидати, но не е ясно дали компанията първо е потвърдила информацията, предоставена в тези автобиографии. Изследване на компанията за проверка на справки Checkster показва, че 78% от кандидатите лъжат или биха помислили да излъжат при кандидатстване за работа. Ако алгоритъм взема препоръчителни решения, използвайки GPA на кандидат, например, добра идея е първо да потвърдите автентичността на тези числа. Този процес би отнел време и пари, но също така безспорно би подобрил точността на вашите резултати.
3. Правилно организирани и анотирани
В случай на модел за наемане, базиран на автобиографии, анотацията е относително лесна. В известен смисъл резюмето идва предварително анотирано, въпреки че без съмнение ще има изключения. Повечето кандидати посочват трудовия си опит под заглавие „Опит“ и съответните умения под „Умения“. Въпреки това, в други ситуации, като скрининг за рак, данните ще бъдат много по-разнообразни. Информацията може да дойде под формата на медицински изображения, резултати от физически скрининг или дори разговор между лекаря и пациента относно семейната здравна история и случаи на рак, наред с други форми на данни. За да може тази информация да допринесе за точен алгоритъм за откриване, тя трябва да бъде внимателно организирана и анотирана, за да се гарантира, че AI моделът се учи да прави точни прогнози въз основа на правилните изводи.
4. Актуално
Amazon се опитваше да създаде инструмент, който да спести време и пари чрез възпроизвеждане на същите решения за наемане, които хората вземат за много по-малко време. За да бъдат препоръките възможно най-точни, данните трябва да се поддържат актуални. Ако една компания някога е демонстрирала предпочитание към кандидати, които могат да ремонтират пишещи машини, например, тези исторически служители вероятно няма да имат голямо значение за пригодността на днешните кандидати за работа за каквато и да е роля. В резултат на това би било разумно да ги премахнете.
5. Подходящо разнообразен
Инженерите на Amazon избраха да обучат алгоритъм с набор от кандидати, който беше преобладаващо мъже. Това решение беше критична грешка и стана не по-малко ужасно от факта, че това бяха автобиографиите, които компанията имаше на разположение по това време. Инженерите на Amazon биха могли да си партнират с уважавани организации с подобни свободни позиции, които са получили повече кандидати за работа от жени, за да компенсират липсата, или е възможно изкуствено намали броя на автобиографиите на мъжете, за да съответства на броя на жените и обучените и ръководи алгоритъма с по-точно представяне на населението. Въпросът е, че данните разнообразието е от ключово значение и освен ако не се положат съгласувани усилия за премахване на пристрастията във входящите данни, пристрастните изходи ще надделее.
Ясно е, че висококачествените данни не се появяват от нищото. Вместо това, той трябва да бъде внимателно подбран, като се имат предвид очакваните резултати. В областта на изкуствения интелект често се казва, че „боклук вътре означава боклук навън“. Това твърдение е вярно, но донякъде подценява значението на качеството. AI може да обработва невероятни количества информация и да я превръща в каквото и да е, от избор на акции до препоръки за наемане на работа до медицински диагнози. Този капацитет далеч надхвърля способностите на хората, което също означава, че увеличава резултатите. Един предубеден специалист по подбор на хора може да пренебрегне само толкова много жени, но предубеден специалист по подбор на персонал може да пренебрегне всички. В този смисъл вкарването на боклука не означава просто изхвърляне на боклука — това означава, че малко количество данни „боклук“ може да се превърне в цяло депо.
Навигиране в сложни изисквания за съответствие
Сякаш намирането на качествени данни не е достатъчно трудно, някои от индустриите, които могат да спечелят най-много от иновациите в данните с изкуствен интелект, също са най-строго регулирани. Здравеопазването е може би най-добрият пример и докато проучване на HIT Infrastructure установи, че 91% от хората в индустрията смятат, че технологията може да подобри достъпа до грижи, този оптимизъм се смекчава от факта, че 75% я виждат като заплаха за сигурността и поверителността на пациентите — и пациентите не са единствените изложени на риск.
Обширните разпоредби, въведени чрез Закона за преносимост и отчетност на здравното осигуряване, сега се пресичат с различни местни пречки за спазване на данните, като Общия регламент за защита на данните в Европа, Калифорнийския закон за поверителността на потребителите в Съединените щати и Закона за защита на личните данни в Сингапур. Към тези местни разпоредби ще се присъединят много други и тъй като телездравеопазването се очертава като по-значим източник на здравни данни, вероятно е регулациите да придобият още по-строг контрол върху транзитните данни на пациентите. В резултат на това защитената и съвместима облачна платформа на Shaip ще се окаже още по-ценно средство за натрупване и достъп до здравни данни за обучение на AI продукти.
Личната информация може да бъде значителна заплаха за вашето развитие на AI, но дори напълно съвместимото внедряване е изложено на риск, ако не може да осигури точни резултати, които идват само с разнообразни данни за обучение. Проучване от 2020 г. в Journal of the American Medical Association показа, че алгоритмите за машинно обучение в областта на медицината най-често се обучават с данни от пациенти в Калифорния, Ню Йорк и Масачузетс. Като се има предвид, че тези пациенти представляват по-малко от една пета от населението на САЩ, да не говорим за останалия свят, трудно е да си представим как тези модели биха могли да дадат нещо друго, освен пристрастни резултати.
Признавайки трудността при осигуряването на съвместима, географски разнообразна информация, Shaip предлага лицензирани здравни данни от голямо разнообразие от региони, специално подбрани с цел изграждане на точни алгоритми. Тези данни идват под формата на текст, като например медицински досиета или информация за искове, медицински диагностични образи като компютърна томография, аудио като устни бележки от лекари или разговори между лекари и пациенти и дори видео от резултатите от ЯМР. Освен това е напълно деидентифициран и анонимизиран, защитавайки вашата организация както от етичните, така и от финансовите последици, които могат да последват нарушение на което и да е от увеличаващия се брой разпоредби, които управляват данни както от вътрешен, така и от международен произход.
Преодоляване на препятствията при развитието на ИИ
Усилията за разработване на AI включват значителни пречки, независимо в коя индустрия се извършват, и процесът на преминаване от осъществима идея до успешен продукт е изпълнен с трудности. Между предизвикателствата на придобиването на правилните данни и необходимостта те да бъдат анонимизирани, за да отговарят на всички съответни разпоредби, може да се почувства, че всъщност конструирането и обучението на алгоритъм е лесната част.
За да дадете на вашата организация всички необходими предимства в усилията за проектиране на новаторска нова разработка на AI, ще искате да обмислите партньорство с компания като Shaip. Chetan Parikh и Vatsal Ghiya основаха Shaip, за да помогнат на компаниите да разработят видовете решения, които биха могли да трансформират здравеопазването в САЩ След повече от 16 години в бизнеса, нашата компания се разрасна до повече от 600 членове на екипа и работихме със стотици клиентите да превърнат завладяващи идеи в AI решения.
С нашите хора, процеси и платформа, работещи за вашата организация, можете незабавно да отключите следните четири предимства и да катапултирате проекта си към успешен край:
1. Капацитетът да освободите вашите учени за данни
Няма как да заобиколите факта, че процесът на разработване на AI отнема значителна инвестиция от време, но винаги можете да оптимизирате функциите, за чието изпълнение вашият екип отделя най-много време. Наехте вашите специалисти по данни, защото те са експерти в разработването на усъвършенствани алгоритми и модели за машинно обучение, но изследването последователно демонстрира, че тези работници всъщност прекарват 80% от времето си в търсене, почистване и организиране на данните, които ще захранват проекта. Повече от три четвърти (76%) от специалистите по данни съобщават, че тези светски процеси за събиране на данни също са най-малко любимите им части от работата, но нуждата от качествени данни оставя само 20% от времето им за действително развитие, което е най-интересната и интелектуално стимулираща работа за много учени по данни. Чрез извличане на данни чрез доставчик трета страна като Shaip, една компания може да позволи на своите скъпи и талантливи инженери по данни да изнесат работата си като чистачи на данни и вместо това да прекарват времето си в частите от AI решенията, където могат да произведат най-голяма стойност.
2. Способността да се постигат по-добри резултати
Много лидери в разработката на AI решават да използват данни с отворен код или краудсорсинг, за да намалят разходите, но това решение почти винаги в крайна сметка струва повече в дългосрочен план. Тези типове данни са лесно достъпни, но не могат да отговарят на качеството на внимателно подбраните набори от данни. Данните, събрани от тълпа, са пълни с грешки, пропуски и неточности и докато тези проблеми понякога могат да бъдат решени по време на процеса на разработка под зоркия поглед на вашите инженери, това изисква допълнителни итерации, които не биха били необходими, ако започнете с по-високи -качествени данни от самото начало.
Разчитането на данни с отворен код е друг често срещан пряк път, който идва със собствен набор от клопки. Липсата на диференциация е един от най-големите проблеми, тъй като алгоритъм, обучен с помощта на данни с отворен код, се възпроизвежда по-лесно от този, изграден върху лицензирани набори от данни. Тръгвайки по този път, вие каните конкуренция от други участници в пространството, които биха могли да подбият цените ви и да вземат пазарен дял по всяко време. Когато разчитате на Shaip, имате достъп до най-висококачествените данни, събрани от умело управлявана работна сила, и ние можем да ви предоставим изключителен лиценз за персонализиран набор от данни, който не позволява на конкурентите лесно да пресъздадат вашата трудно спечелена интелектуална собственост.
3. Достъп до опитни професионалисти
Дори ако вашият вътрешен списък включва квалифицирани инженери и талантливи специалисти по данни, вашите AI инструменти могат да се възползват от мъдростта, която идва само чрез опит. Нашите експерти по темата са оглавили многобройни внедрявания на AI в своите области и са научили ценни уроци по пътя, и тяхната единствена цел е да ви помогнат да постигнете вашите.
С експерти по домейни, които идентифицират, организират, категоризират и етикетират данни вместо вас, вие знаете, че информацията, използвана за обучение на вашия алгоритъм, може да доведе до най-добрите възможни резултати. Ние също така извършваме редовно осигуряване на качеството, за да сме сигурни, че данните отговарят на най-високите стандарти и ще работят по предназначение не само в лаборатория, но и в реална ситуация.
4. График за ускорено развитие
Развитието на AI не се случва за една нощ, но може да се случи по-бързо, когато си партнирате с Shaip. Вътрешното събиране на данни и анотация създава значително оперативно затруднение, което задържа останалата част от процеса на разработка. Работата с Shaip ви дава незабавен достъп до нашата огромна библиотека от готови за използване данни и нашите експерти ще могат да осигурят всякакъв вид допълнителни входни данни, от които се нуждаете, с нашите дълбоки познания в индустрията и глобална мрежа. Без тежестта на търсенето на източници и поясненията, вашият екип може да започне работа по действителното развитие веднага, а нашият модел на обучение може да помогне за идентифициране на ранни неточности, за да се намалят повторенията, необходими за постигане на целите за точност.
Ако не сте готови да възложите на външни изпълнители всички аспекти на вашето управление на данни, Shaip предлага и облачна платформа, която помага на екипите да произвеждат, променят и анотират различни типове данни по-ефективно, включително поддръжка за изображения, видео, текст и аудио . ShaipCloud включва разнообразие от интуитивни инструменти за валидиране и работен процес, като например патентовано решение за проследяване и наблюдение на натоварванията, инструмент за транскрипция за транскрибиране на сложни и трудни аудио записи и компонент за контрол на качеството, за да се гарантира безкомпромисно качество. Най-доброто от всичко е, че той е мащабируем, така че може да расте с нарастването на различните изисквания на вашия проект.
Ерата на иновациите в ИИ едва сега започва и през следващите години ще видим невероятен напредък и иновации, които имат потенциала да прекроят цели индустрии или дори да променят обществото като цяло. В Shaip искаме да използваме нашия опит, за да служим като трансформираща сила, помагайки на най-революционните компании в света да впрегнат силата на AI решенията за постигане на амбициозни цели.
Имаме богат опит в приложенията за здравеопазване и разговорния AI, но също така имаме необходимите умения да обучаваме модели за почти всякакъв вид приложения. За повече информация относно това как Shaip може да ви помогне да пренесете проекта си от идея до реализация, разгледайте многото налични ресурси на нашия уебсайт или се свържете с нас днес.