Shaip вече е част от екосистемата Ubiquity: Същият екип - сега подкрепен от разширени ресурси за поддръжка на клиенти в голям мащаб. |
Компютърно зрение

31 безплатни набора от данни за изображения за компютърно зрение, които да подобрят вашия проект [Актуализирано 2025 г.]

Един AI алгоритъм е толкова добър, колкото и данните, които му подавате.

Това не е нито смело, нито нестандартно твърдение. AI можеше да изглежда доста пресилено преди няколко десетилетия, но оттогава изкуственият интелект и машинното обучение са изминали наистина дълъг път.

Компютърното зрение помага на компютрите да разбират и интерпретират етикети и изображения. Когато обучите компютъра си, използвайки правилния вид набори от данни с изображения, той може да придобие способността да открива, разбира и идентифицира различни черти на лицето, да открива заболявания, да управлява автономни превозни средства и също така да спасява животи, използвайки многоизмерно сканиране на органи.

Предвижда се пазарът за компютърно зрение да достигне $ 144.46 милиарда от 2028 от скромен $ 7.04 милиарда през 2020 г., растящ при а CAGR от 45.64% между 2021 г. и 2028 г.

Наборът от изображения, с който захранвате и обучавате задачите си за машинно обучение и компютърно зрение, е от решаващо значение за успеха на вашия проект с изкуствен интелект. Доста трудно е да се получи качествен набор от данни. Използването на разнообразна колекция от изображения е от съществено значение, за да се осигури надеждно обучение на модела и да се отрази по-добре сложността на реалния свят.

В зависимост от сложността на вашия проект, може да отнеме от няколко дни до няколко седмици, за да получите надеждни и подходящи набори от данни за целите на компютърното зрение. Необходим е разнообразен набор от набори от данни, за да се обхванат различни задачи, свързани с компютърното зрение, и реални сценарии. Изследователите често търсят значителен набор от данни за изследователски цели, за да осигурят цялостна оценка на модела и да поддържат широк спектър от приложения.

Тук ви предоставяме набор (категоризиран за ваше улеснение) набори от данни за изображения с отворен код, които можете да използвате веднага.

Задачи за набор от данни за изображения: Класификация, сегментиране, откриване и други

Набори от данни за изображения са гръбнакът на съвременното компютърно зрение, захранвайки широк спектър от задачи, които позволяват на машините да интерпретират и разбират визуална информация. Независимо дали изграждате модел за автономни превозни средства, разработвате технология за разпознаване на лица или работите върху анализ на медицински изображения, правилният набор от данни за изображения е основен инструмент за успех.

Класификация на изображенията е една от най-фундаменталните задачи на компютърното зрение. В този процес моделът се научава да присвоява етикет на цяло изображение въз основа на неговото съдържание. Например, набор от данни за класификация на изображения може да помогне на модела да прави разлика между изображения на котки и кучета или да идентифицира различни видове растения. Тази задача е от решаващо значение за приложения като автоматизирано маркиране на снимки, диагностика на заболявания от медицински изображения и бенчмаркове за категоризация на сцени.

Откриване на обект отива една крачка напред, като не само идентифицира наличието на обекти в изображението, но и определя точно тяхното местоположение с помощта на ограничителни рамки. Наборите от данни за откриване на обекти, като например тези, съдържащи анотирани изображения с ограничителни рамки, са жизненоважни за приложения като откриване на пешеходци в автономни превозни средства, наблюдение на сигурността и анализи в търговията на дребно. Откриването на обекти е и ключов компонент при разработването на надеждни алгоритми за компютърно зрение за реални сценарии.

Семантична сегментация включва класифициране на всеки пиксел в изображението в специфична категория, предоставяйки подробно разбиране на сцената. Тази сегментация на ниво пиксел с trimap е особено важна в задачи като медицинско изобразяване, където се изисква прецизно очертаване на органи или тумори, и в градска среда за автономно шофиране, където разграничаването между пътища, тротоари и превозни средства е от решаващо значение.

Освен тези основни задачи, наборите от данни за изображения поддържат и сегментиране на екземпляри (разграничаване между отделни обекти от един и същи клас), надписване на изображения (генериране на описателен текст за изображения) и разпознаване на лица (идентифициране или проверка на човешки лица в изображения). Всяка от тези задачи за компютърно зрение разчита на висококачествени, анотирани изображения за обучение и валидиране на модели за машинно обучение.

Чрез използването на разнообразни и добре анотирани набори от данни с изображения, специалистите по данни и специалистите по машинно обучение могат да се справят с различни предизвикателства, свързани с компютърното зрение, от задачи за разпознаване и класифициране на изображения до сложни проблеми със сегментирането и откриването. Правилният набор от данни не само ускорява научноизследователската и развойна дейност, но и гарантира, че системите за компютърно зрение работят точно в реални приложения.

Изчерпателен списък с набори от данни за изображения за обучение на вашия модел на компютърно зрение

Обща:

  1. ImageNet

    ImageNet е широко използван набор от данни и идва с удивителните 1.2 милиона изображения, категоризирани в 1000 категории. Този набор от данни е организиран според йерархията на WorldNet и е категоризиран в три части – данни за обучение, етикети на изображения и данни за валидиране.

  2. Кинетика 700

    Kinetics 700 е огромен висококачествен набор от данни с повече от 650,000 700 клипа от 700 различни класа човешки действия. Всеки от колективните искове има около XNUMX видеоклипа. Клиповете в набора от данни имат взаимодействия човек-обект и човек-човек, които се оказват доста полезни при разпознаване на човешки действия във видеоклипове.

  3. ЦИФАР-10

    CIFAR 10 е един от най-големите набори от данни за компютърно зрение, разполагащ с 60000 32 цветни изображения 32 x 6000, представляващи десет различни класа. Всеки клас има около XNUMX изображения, използвани за обучение на алгоритми за компютърно зрение и машинно обучение.

  4. Набор от данни за изображения на домашни любимци Oxford-IIIT

    Наборът от данни за изображения на домашни любимци се състои от 37 категории с 200 изображения на клас. Тези изображения се различават по мащаб, поза и осветление и са придружени от анотации за порода, възвръщаемост на инвестициите на главата и сегментиране на трикартата на ниво пиксел.

  5. Отворени изображения на Google

    С впечатляващите 9 милиона URL адреса, това е един от най-големите набори от данни за изображения в списъка, съдържащ милиони изображения, етикетирани в 6,000 категории.

  6. Изображения на растения

    Тази компилация включва множество набори от данни с изображения, включващи впечатляващите 1 милион изображения на растения, обхващащи приблизително 11 вида.

  7. LSUN

    LSUN е мащабен набор от изображения с милиони етикетирани изображения в различни категории сцени и обекти. Наборът от данни включва специален набор от тестове за оценка на модела.

Лицево разпознаване:

разпознаване на лица

  1. Обозначени лица в дивата природа

    Labeled Faced in the Wild е огромен набор от данни, съдържащ повече от 13,230 5,750 изображения на близо XNUMX XNUMX души, открити от интернет. Този набор от данни за лица е предназначен да улесни изучаването на неограничено разпознаване на лица.

  2. CASIA WebFace

    CASIA Web face е добре проектиран набор от данни, който помага на машинното обучение и научните изследвания за неограничено разпознаване на лица. С повече от 494,000 10,000 изображения на почти XNUMX XNUMX реални самоличности, той е идеален за задачи за идентификация и проверка на лица.

  3. UMD набор от данни за лица

    UMD е изправен пред добре анотиран набор от данни, който съдържа две части – неподвижни изображения и видео кадри. Наборът от данни съдържа повече от 367,800 3.7 анотации на лица и XNUMX милиона анотирани видеокадъра на субекти.

  4. Откриване на маска за лице

    Този набор от данни включва 853 изображения, категоризирани в три класа: „с маска“, „без маска“ и „маска, носена неправилно“, заедно с техните ограничаващи полета във формат PASCAL VOC.

  5. ФЕРЕТ

    FERET (Facial Recognition Technology Database) е изчерпателен набор от данни за изображения, съдържащ над 14,000 XNUMX анотирани изображения на човешки лица.

Разпознаване на ръкописен текст:

  1. База данни MNIST

    MNIST е база данни, съдържаща проби от ръкописни цифри от 0 до 9 и има 60,000 10,000 и 1999 XNUMX изображения за обучение и тестване. Издаден през XNUMX г., MNIST улеснява тестването на системи за обработка на изображения в Deep Learning.

  2. Набор от данни за изкуствени знаци

    Наборът от данни за изкуствени знаци е, както подсказва името, изкуствено генерирани данни, които описват структурата на английски език с десет главни букви. Предлага се с повече от 6000 изображения.

Откриване на обекти:

  1. MS COCO

    MS COCO или Common Objects in Context е набор от данни за откриване на обекти и надписи.

    Той има повече от 328,000 80 изображения с откриване на ключови точки, откриване на множество обекти, надписи и анотации за маска за сегментиране. Предлага се с XNUMX категории обекти и пет надписа на изображение.

  2. LSUN

    LSUN, съкращение от Large-scale Scene Understanding, има повече от милион етикетирани изображения в 20 категории обекти и 10 сцени. Някои категории имат близо 300,000 300 изображения, с 1000 изображения специално за валидиране и XNUMX изображения за тестови данни.

  3. Домашни предмети

    Наборът от данни Home Objects съдържа анотирани изображения на произволни обекти от цялата къща – кухня, всекидневна и баня. Този набор от данни също има няколко анотирани видеоклипа и 398 неанотирани снимки, предназначени за тестване.

  4. Визуален геном

    Visual Genome е изчерпателна визуална база знания с над 108,000 XNUMX изображения с надписи. Тя предоставя обширни анотации за обекти, атрибути и взаимоотношения, което я прави ценна за разпознаване на обекти, надписване на изображения и мултимодални обучителни задачи.

Автомобили:

  1. Набор от данни за градски пейзаж

    Cityscape е наборът от данни, към който трябва да отидете, когато търсите различни видео поредици, записани от улични сцени в няколко града. Тези изображения са заснети за дълго време и при различно време и светлинни условия. Анотациите са за 30 класа изображения, разделени в осем различни категории.

  2. Barkley Deep Drive

    Barkley DeepDrive е специално проектиран за обучение на автономни превозни средства и има повече от 100 хиляди анотирани видео поредици. Това е една от най-полезните данни за обучение на автономни превозни средства при променящите се пътища и условия на шофиране.

  3. Капилярен

    Mapillary има над 750 милиона улични сцени и пътни знаци по целия свят, което е много полезно при обучението на модели за визуално възприятие в машинно обучение и AI алгоритми. Позволява ви да разработвате автономни превозни средства, които се грижат за различно осветление и метеорологични условия и гледни точки.

Медицински изображения:

  1. Covid-19 Open Research Dataset

    Този оригинален набор от данни има около 6500 пикселни многоъгълни белодробни сегментации за AP/PA рентгенови снимки на гръдния кош. Освен това са налични 517 изображения на рентгенови снимки на пациент с Covid-19 с етикети, съдържащи име, местоположение, подробности за приемане, резултат и др.

  2. База данни на NIH от 100,000 XNUMX рентгенови снимки на гръдния кош

    Базата данни на NIH е един от най-обширните публично достъпни масиви от данни, съдържащ 100,000 XNUMX рентгенови снимки на гръдния кош и свързани с тях данни, полезни за научната и изследователска общност. Има дори изображения на пациенти с напреднали белодробни заболявания.

  3. Атлас на дигиталната патология

    Атласът на дигиталната патология предлага няколко хистопатологични изображения на пластири, общо повече от 17,000 100, от близо XNUMX анотирани слайда на различни органи. Този набор от данни е полезен при разработването на компютърно зрение и софтуер за разпознаване на образи.

Разпознаване на сцени:

Разпознаване на сцена

  1. Разпознаване на вътрешна сцена

    Indoor Scene Recognition е силно категоризиран набор от данни с близо 15620 изображения на обекти и пейзажи на закрито, които да се използват при машинно обучение и обучение за данни. Предлага се с над 65 категории, като всяка категория има минимум 100 изображения.

  2. xView

    Като един от най-известните публично достъпни набори от данни, xView съдържа тонове анотирани горни изображения от различни сложни и големи сцени. Имайки около 60 класа и повече от един милион екземпляра на обекти, целта на този набор от данни е да осигури по-добро облекчаване на бедствия с помощта на сателитни изображения.

  3. места

    Places, набор от данни, предоставен от MIT, съдържа над 1.8 милиона изображения от 365 различни категории сцени. Във всяка от тези категории има около 50 изображения за валидиране и 900 изображения за тестване. Възможно е изучаването на функции на дълбока сцена за установяване на задачи за разпознаване на сцена или визуално разпознаване.

  4. База данни SUN

    Базата данни SUN е всеобхватен бенчмарк за категоризация на сцени, широко използван в компютърното зрение. Тя съдържа хиляди изображения, обхващащи широк диапазон от вътрешни и външни среди, с подробни анотации за всяка сцена. Базата данни SUN е призната за покритието си на различни сцени и служи като стандартен справочник за оценка на алгоритми за разбиране на сцени.

Развлечения:

  1. IMDB WIKI набор от данни

    IMDB – Wiki е една от най-популярните публични бази данни с лица, обозначени адекватно с възраст, пол и имена. Освен това има около 20 хиляди лица на известни личности и 62 хиляди от Wikipedia.

  2. Лица на знаменитости

    Celeb Faces е мащабна база данни с 200,000 XNUMX анотирани изображения на знаменитости. Изображенията идват с фонов шум и вариации на пози, което ги прави ценни за тестови комплекти за обучение при задачи за компютърно зрение. Той е много полезен за постигане на по-висока точност при разпознаване на лица, редактиране, локализиране на частите на лицето и др.

  3. Набор от данни YouTube-8M

    YouTube-8M е широкомащабен набор от етикетирани видео данни, който съдържа милиони идентификатори на видеоклипове в YouTube с висококачествени машинно генерирани анотации на визуални обекти. Този набор от данни се използва широко за мащабно разбиране на видеоклипове и за обучение на алгоритми за визуално разпознаване, тъй като свързва видео съдържание с метаданни чрез идентификатори на видеоклипове в YouTube, което позволява мащабируемо събиране и анотиране на видео данни.

След като вече разполагате с огромен списък от набори от данни с отворен код, с които да захранвате машините си за изкуствен интелект, резултатът от вашите модели с изкуствен интелект и машинно обучение зависи предимно от качеството на наборите от данни, с които ги захранвате и обучавате. Ако искате вашият модел с изкуствен интелект да дава точни прогнози, той се нуждае от качествени набори от данни, които са агрегирани, маркирани и етикетирани до съвършенство. Работата с тези набори от данни е отличен начин да развиете и подобрите уменията си за машинно обучение чрез практически проекти от реалния свят. За да увеличите успеха на вашата система за компютърно зрение, трябва да използвате качествени бази данни с изображения, съответстващи на визията на вашия проект.

Социален дял