Данни за обучение на AI

Войни за данни 2024: Етичните и практическите борби на обучението с изкуствен интелект

Ако помолите модел от Gen AI да напише текст на песен, каквато биха направили Бийтълс, и ако е свършил впечатляваща работа, има причина за това. Или, ако сте помолили модел да напише проза в стила на любимия ви автор и той точно повтори стила, има причина за това.

Дори просто вие сте в друга държава и когато искате да преведете името на интересна закуска, която намирате на пътеката в супермаркета, вашият смартфон открива етикети и превежда текста безпроблемно.

AI стои в основата на всички подобни възможности и това е основно защото AI моделите биха били обучени на огромни обеми от такива данни – в нашия случай стотици песни на The Beatles и вероятно книги от любимия ви писател.

С възхода на Generative AI всеки е музикант, писател, художник или всичко това. Gen AI моделите създават произведения на изкуството по поръчка за секунди в зависимост от подканите на потребителя. Те могат да създават Ван Гог произведения на изкуството и дори да накарате Ал Пачино да прочете Общите условия, без той да присъства.

Очарованието настрана, важният аспект тук е етиката. Справедливо ли е подобни творчески произведения да се използват за обучение на AI модели, които постепенно се опитват да изместят артистите? Получено ли е съгласие от собствениците на такава интелектуална собственост? Бяха ли компенсирани справедливо?

Добре дошли в 2024: Годината на войните за данни

През последните няколко години данните се превърнаха в магнит за привличане на вниманието на фирмите да обучават своите модели Gen AI. Подобно на бебе, AI моделите са наивни. Те трябва да бъдат научени и след това обучени. Ето защо компаниите се нуждаят от милиарди, ако не и милиони, данни, за да обучат изкуствено модели да имитират хора.

Например, GPT-3 беше обучен на милиарди (стотици от тях) токени, което свободно се превежда като думи. Източници обаче разкриват, че трилиони такива токени са били използвани за обучение на по-новите модели.

С такива огромни обеми необходими набори от данни за обучение, къде отиват големите технологични фирми?

Остър недостиг на данни за обучение

Амбицията и обемът вървят ръка за ръка. Тъй като предприятията разширяват своите модели и ги оптимизират, те се нуждаят от още повече данни за обучение. Това може да произтича от искания за разкриване на успешни модели на GPT или просто за предоставяне на подобрени и точни резултати.

Независимо от случая, изискването за изобилие от данни за обучение е неизбежно.

Това е мястото, където предприятията се сблъскват с първата си пречка. Казано по-просто, интернет става твърде малък, за да могат да тренират AI модели. Това означава, че компаниите изчерпват съществуващите набори от данни, за да захранват и обучават своите модели.

Този изчерпващ се ресурс плаши заинтересованите страни и технологичните ентусиасти, тъй като потенциално може да ограничи развитието и еволюцията на AI моделите, които са най-вече тясно свързани с това как марките позиционират продуктите си и как някои мъчителни проблеми в света се възприемат като решени с AI, управляван решения.

В същото време има и надежда под формата на синтетични данни или цифров инбридинг, както го наричаме. От гледна точка на неспециалист, синтетичните данни са данните за обучение, генерирани от AI, които отново се използват за обучение на модели.

Въпреки че звучи обещаващо, технически експерти смятат, че синтезът на такива данни за обучение ще доведе до това, което се нарича Habsburg AI. Това е основна загриженост за предприятията, тъй като такива вродени набори от данни могат да съдържат фактически грешки, пристрастия или просто да са безсмислици, влияещи отрицателно върху резултатите от моделите на ИИ.

Приемете това като игра на китайски шепот, но единственият обрат е, че първата дума, която се предава, също може да бъде безсмислена.

Надпреварата за получаване на данни за обучение на AI

Извличане на данни за AI обучение Лицензирането е идеален начин за получаване на данни за обучение. Макар и мощни, библиотеките и хранилищата са ограничени източници. Което означава, че те не могат да задоволят изискванията за обем на мащабните модели. Една интересна статистика споделя, че може да ни свършат висококачествените данни за обучение на модели до 2026 г., претегляйки наличността на данни наравно с други физически ресурси в реалния свят.

Едно от най-големите фото хранилища – Shutterstock има 300 милиона изображения. Въпреки че това е достатъчно, за да започнете с обучението, тестването, валидирането и оптимизирането отново ще се нуждаят от изобилие от данни.

Съществуват обаче и други източници. Единствената уловка тук е, че са цветно кодирани в сиво. Говорим за публично достъпни данни от интернет. Ето някои интригуващи факти:

  • Над 7.5 милиона публикации в блогове се записват на живо всеки ден
  • Има над 5.4 милиарда души в социални медийни платформи като Instagram, X, Snapchat, TikTok и др.
  • В интернет съществуват над 1.8 милиарда уебсайта.
  • Над 3.7 милиона видеоклипа се качват само в YouTube всеки ден.

Освен това хората споделят публично текстове, видеоклипове, снимки и дори експертен опит по темата чрез подкасти само с аудио.

Това са изрично налични части от съдържание.

Така че използването им за обучение на AI модели трябва да е справедливо, нали?

Това е сивата зона, която споменахме по-рано. Няма категорично мнение по този въпрос, тъй като технологичните компании с достъп до такива изобилни обеми от данни предлагат нови инструменти и промени в политиката, за да отговорят на тази нужда.

Някои инструменти превръщат аудио от видеоклипове в YouTube в текст и след това ги използват като токени за целите на обучението. Предприятията преразглеждат политиките за поверителност и дори стигат до степен да използват публични данни, за да обучават модели с предварително определено намерение да се изправят пред съдебни дела.

Противоположни механизми

В същото време компаниите също разработват това, което се нарича синтетични данни, където AI моделите генерират текстове, които могат да бъдат използвани отново за обучение на моделите като цикъл.

От друга страна, за да се противопоставят на бракуването на данни и да попречат на предприятията да се възползват от законови вратички, уебсайтовете внедряват плъгини и кодове за смекчаване на ботовете за сканиране на данни.

Какво е най-доброто решение?

Влиянието на AI при решаването на проблеми от реалния свят винаги е било подкрепяно от благородни намерения. Тогава защо извличането на набори от данни за обучение на такива модели трябва да разчита на сиви модели?

Тъй като разговорите и дебатите относно отговорния, етичен и отговорен AI придобиват известност и сила, зависи от компании от всякакъв мащаб да преминат към алтернативни източници, които разполагат с техники за бели шапки за предоставяне на данни за обучение.

Това е където Сайп превъзхожда в. Разбирайки преобладаващите опасения около източника на данни, Shaip винаги се е застъпвал за етични техники и последователно е практикувал усъвършенствани и оптимизирани методи за събиране и компилиране на данни от различни източници.

Методологии за извличане на набори от данни с бяла шапка

Методологии за извличане на набори от данни за шапки Нашият патентован инструмент за събиране на данни поставя хората в центъра на циклите на идентификация и доставка на данни. Разбираме чувствителността на случаите на употреба, върху които работят нашите клиенти, и въздействието, което нашите набори от данни биха имали върху резултатите от техните модели. Например наборите от данни за здравеопазването имат своята чувствителност в сравнение с наборите от данни за компютърно зрение за автономни автомобили.

Точно затова нашият начин на действие включва щателни проверки на качеството и техники за идентифициране и компилиране на съответните набори от данни. Това ни позволи да дадем възможност на компаниите с ексклузивни набори от данни за обучение на Gen AI в множество формати като изображения, видеоклипове, аудио, текст и други нишови изисквания.

Нашата философия

Работим върху основни философии като съгласие, поверителност и справедливост при събирането на набори от данни. Нашият подход също така гарантира разнообразие в данните, така че да няма въвеждане на несъзнателни пристрастия.

Тъй като сферата на ИИ се подготвя за зората на нова ера, белязана от справедливи практики, ние от Shaip възнамеряваме да бъдем знаменосци и предшественици на такива идеологии. Ако безспорно справедливи и качествени набори от данни са това, което търсите, за да обучите вашите AI модели, свържете се с нас днес.

Социален дял