Данни за обучение на AI

Колко данни са достатъчни? Дълбоко потапяне в нуждите от машинно обучение

Работещият AI модел е изграден върху солидни, надеждни и динамични набори от данни. Без богато и подробно Данни за обучение на AI на ръка, със сигурност не е възможно да се изгради ценно и успешно AI решение. Знаем, че сложността на проекта диктува и определя необходимото качество на данните. Но не сме съвсем сигурни колко данни за обучение са ни необходими, за да изградим персонализирания модел.

Няма ясен отговор какво точно количество данни за обучение за машинно обучение е необходимо. Вместо да работим с приблизителна цифра, ние вярваме, че набор от методи могат да ви дадат точна представа за размера на данните, който може да ви е необходим. Но преди това, нека разберем защо данните за обучение са от решаващо значение за успеха на вашия AI проект.

Значението на данните за обучение

Говорейки на фестивала Future of Everything на Wall Street Journal, Арвинд Кришна, главен изпълнителен директор на IBM, каза, че почти 80% от работата в AI проект е за събиране, почистване и подготовка на данни. И също така той беше на мнение, че бизнесите се отказват от начинанията си с ИИ, защото не могат да се справят с разходите, работата и времето, необходими за събиране на ценни данни за обучение.

Определяне на данните размер на пробата помага при проектирането на решението. Той също така помага за точната оценка на разходите, времето и уменията, необходими за проекта.

Ако се използват неточни или ненадеждни набори от данни за обучение на ML модели, полученото приложение няма да предостави добри прогнози.

7 фактора, които определят обема на необходимите данни за обучение

Въпреки че изискванията за данни по отношение на обема за обучение на AI модели са напълно субективни и трябва да се разглеждат за всеки отделен случай, има няколко универсални фактора, които влияят обективно. Нека да разгледаме най-често срещаните.

Модел на машинно обучение

Обемът на данните за обучението зависи от това дали обучението на вашия модел се провежда на контролирано или неконтролирано обучение. Докато първото изисква повече данни за обучение, второто не изисква.

Контролирано обучение

Това включва използването на етикетирани данни, което от своя страна добавя сложност към обучението. Задачи като класифициране на изображения или групиране изискват етикети или атрибути, които машините да дешифрират и диференцират, което води до търсенето на повече данни.

Неуправляемо обучение

Използването на етикетирани данни не е мандат при неконтролирано обучение, като по този начин сравнително намалява необходимостта от огромни обеми данни. С това казано, обемът на данните все още ще бъде голям за моделите да откриват модели и да идентифицират вродени структури и да ги корелират.

Променливост и разнообразие

За да бъде един модел възможно най-честен и обективен, вроденото пристрастие трябва да бъде напълно премахнато. Това означава само факта, че са необходими повече обеми от различни набори от данни. Това гарантира, че моделът научава множество съществуващи вероятности, което му позволява да стои далеч от генерирането на едностранни отговори.

Обучение за увеличаване и трансфер на данни

Извличането на качествени данни за различни случаи на употреба в индустрии и домейни не винаги е безпроблемно. В чувствителни сектори като здравеопазването или финансите качествените данни са малко налични. В такива случаи увеличаването на данните, включващо използването на синтезирани данни, се превръща в единствения път напред в моделите за обучение.

Експериментиране и валидиране

Итеративното обучение е балансът, при който обемът на необходимите данни за обучение се изчислява след последователно експериментиране и валидиране на резултатите. Чрез многократно тестване и наблюдение

производителност на модела, заинтересованите страни могат да преценят дали са необходими повече данни за обучение за оптимизиране на реакцията.

Как да намалим изискванията за обем на данните за обучение

Независимо дали става дума за бюджетно ограничение, краен срок за пускане на пазара или липса на различни данни, има някои опции, които предприятията могат да използват, за да намалят зависимостта си от огромни обеми данни за обучение.

Увеличаване на данни

когато нови данни се генерират или синтезират от съществуващи набори от данни, е идеален за използване като данни за обучение. Тези данни произтичат от и имитират родителски данни, които са 100% реални данни.

Прехвърляне на обучение

Това включва модифициране на параметрите на съществуващ модел за изпълнение и изпълнение на нова задача. Например, ако вашият модел се е научил да идентифицира ябълки, можете да използвате същия модел и да промените съществуващите му параметри за обучение, за да идентифицирате и портокали.

Предварително обучени модели

Къде съществуващите знания могат да се използват като мъдрост за вашия нов проект. Това може да бъде ResNet за задачи, свързани с идентификация на изображения или BERT за случаи на използване на NLP.

Примери от реалния свят на проекти за машинно обучение с минимални набори от данни

Въпреки че може да звучи невъзможно някои амбициозни проекти за машинно обучение да могат да бъдат изпълнени с минимални суровини, някои случаи са удивително верни. Пригответе се да бъдете изумени.

Доклад на KaggleЗдравеопазванеКлинична онкология
Проучване на Kaggle разкрива, че над 70% от проектите за машинно обучение са завършени с по-малко от 10,000 XNUMX проби.Само с 500 изображения екип от MIT обучи модел да открива диабетна невропатия в медицински изображения от сканиране на очите.Продължавайки примера със здравеопазването, екип от Станфордския университет успя да разработи модел за откриване на рак на кожата само с 1000 изображения.

Правене на обосновани предположения

Оценяване на изискването за данни за обучение

Няма магическо число по отношение на минималното количество необходими данни, но има няколко практически правила, които можете да използвате, за да стигнете до рационално число.

Правилото на 10

Като правило, за да се разработи ефективен AI модел, броят на необходимите набори от данни за обучение трябва да бъде десет пъти повече от всеки параметър на модела, наричан още степени на свобода. Правилата за „10“ пъти имат за цел да ограничат променливостта и да увеличат разнообразието от данни. Като такова, това основно правило може да ви помогне да започнете проекта си, като ви даде основна представа за необходимото количество набори от данни.  

Дълбоко обучение

Методите за дълбоко обучение помагат за разработването на висококачествени модели, ако на системата се предоставят повече данни. Общоприето е, че наличието на 5000 етикетирани изображения на категория трябва да е достатъчно за създаване на алгоритъм за дълбоко обучение, който може да работи наравно с хората. За да се разработят изключително сложни модели, са необходими най-малко 10 милиона етикетирани артикула.

Компютърно зрение

Ако използвате задълбочено обучение за класифициране на изображения, има консенсус, че набор от данни от 1000 етикетирани изображения за всеки клас е справедливо число. 

Криви на обучение

Кривите на обучение се използват за демонстриране на ефективността на алгоритъма за машинно обучение спрямо количеството данни. Като разполагате с умението за моделиране по оста Y и набора от данни за обучение по оста X, е възможно да разберете как размерът на данните влияе върху резултата от проекта.

Недостатъците на твърде малкото данни 

Може би си мислите, че е доста очевидно, че даден проект се нуждае от големи количества данни, но понякога дори големи предприятия с достъп до структурирани данни не успяват да ги осигурят. Обучението върху ограничени или тесни количества данни може да спре модели за машинно обучение от постигане на пълния им потенциал и увеличават риска от предоставяне на грешни прогнози.

Въпреки че няма златно правило и обикновено се прави грубо обобщение, за да се предвидят нуждите от данни за обучение, винаги е по-добре да имате големи набори от данни, отколкото да страдате от ограничения. Ограничението на данните, от което страда вашият модел, би било ограниченията на вашия проект.  

Какво да направите, ако имате нужда от повече набори от данни

Техники/източници на събиране на данни

Въпреки че всеки иска да има достъп до големи масиви от данни, е по-лесно да се каже, отколкото да се направи. Получаването на достъп до големи количества набори от данни с качество и разнообразие е от съществено значение за успеха на проекта. Тук ви предоставяме стратегически стъпки, за да направите събирането на данни много по-лесно.

Отворете набор от данни 

Отворените набори от данни обикновено се считат за „добър източник“ на безплатни данни. Въпреки че това може да е вярно, отворените набори от данни не са това, от което се нуждае проектът в повечето случаи. Има много места, от които могат да бъдат получени данни, като правителствени източници, отворени портали за данни на ЕС, Google Public Data Explorers и други. Има обаче много недостатъци при използването на отворени масиви от данни за сложни проекти.

Когато използвате такива набори от данни, вие рискувате обучение и тестване вашият модел на неправилни или липсващи данни. Методите за събиране на данни обикновено не са известни, което може да повлияе на резултата от проекта. Поверителността, съгласието и кражбата на самоличност са значителни недостатъци на използването на отворени източници на данни.

Разширен набор от данни 

Когато имате малко количество данни за обучение но не достатъчно, за да отговори на всичките ви изисквания на проекта, трябва да приложите техники за увеличаване на данните. Наличният набор от данни е преназначен, за да отговори на нуждите на модела.

Извадките от данни ще претърпят различни трансформации, които правят набора от данни богат, разнообразен и динамичен. Един прост пример за увеличаване на данните може да се види при работа с изображения. Едно изображение може да бъде увеличено по много начини – може да бъде изрязано, преоразмерено, огледално, превърнато в различни ъгли и настройките на цвета могат да се променят.

Синтетични данни

Когато няма достатъчно данни, можем да се обърнем към генератори на синтетични данни. Синтетичните данни са полезни по отношение на трансферното обучение, тъй като моделът може първо да бъде обучен на синтетични данни и по-късно на набор от данни от реалния свят. Например, базирано на AI самоуправляващо се превозно средство може първо да бъде обучено да разпознава и анализира обекти компютърно зрение видео игри.

Синтетичните данни са от полза, когато липсва реален живот данни за обучение и тествайте вашите обучени модели. Освен това се използва и при работа с поверителността и чувствителността на данните.

Персонализирано събиране на данни 

Персонализираното събиране на данни е може би идеално за генериране на набори от данни, когато други форми не дават необходимите резултати. Висококачествените набори от данни могат да бъдат генерирани с помощта на инструменти за уеб скрапиране, сензори, камери и други инструменти. Когато имате нужда от персонализирани набори от данни, които подобряват производителността на вашите модели, закупуването на персонализирани набори от данни може да е правилният ход. Няколко доставчици на услуги от трети страни предлагат своя опит.

За да се разработят високоефективни AI решения, моделите трябва да бъдат обучени на качествени надеждни набори от данни. Въпреки това не е лесно да се сдобиете с богати и подробни набори от данни, които оказват положително влияние върху резултатите. Но когато си партнирате с надеждни доставчици на данни, можете да изградите мощен AI модел със стабилна основа за данни.

Имате страхотен проект в ума си, но чакате персонализирани набори от данни, за да обучите вашите модели, или се борите да получите правилния резултат от вашия проект? Ние предлагаме обширни набори от данни за обучение за различни нужди на проекти. Използвайте потенциала на Сайп като говорите с един от нашите учени по данни днес и разбирането как сме доставяли високоефективни и качествени набори от данни за клиенти в миналото.

Социален дял