Един AI алгоритъм е толкова добър, колкото и данните, които му подавате.
Това не е нито смело, нито нестандартно твърдение. AI можеше да изглежда доста пресилено преди няколко десетилетия, но оттогава изкуственият интелект и машинното обучение са изминали наистина дълъг път.
Компютърно зрение помага на компютрите да разберат и интерпретират етикети и изображения. Когато обучите компютъра си да използва правилния тип набори от данни за изображения, той може да придобие способността да открива, разбира и идентифицира различни черти на лицето, да открива болести, да управлява автономни превозни средства и също така да спасява животи с помощта на многоизмерно сканиране на органи.
Предвижда се пазарът за компютърно зрение да достигне $ 144.46 милиард до 2028 г. от скромните $7.04 милиарда през 2020 г., нараствайки с CAGR от 45.64% между 2021 и 2028 г.
- набор от данни за изображения вие подхранвате и обучавате вашите задачи за машинно обучение и компютърно зрение са от решаващо значение за успеха на вашия AI проект. Доста трудно се получава качествен набор от данни. В зависимост от сложността на вашия проект може да отнеме някъде между няколко дни до няколко седмици, за да получите надеждни и подходящи набори от данни за целите на компютърното зрение.
Тук ви предоставяме набор (категоризиран за ваше улеснение) набори от данни за изображения с отворен код, които можете да използвате веднага.
Изчерпателен списък с набори от данни за изображения за обучение на вашия модел на компютърно зрение
Обща:
ImageNet
ImageNet е широко използван набор от данни и идва с удивителните 1.2 милиона изображения, категоризирани в 1000 категории. Този набор от данни е организиран според йерархията на WorldNet и е категоризиран в три части – данни за обучение, етикети на изображения и данни за валидиране.
Кинетика 700
Kinetics 700 е огромен висококачествен набор от данни с повече от 650,000 700 клипа от 700 различни класа човешки действия. Всеки от колективните искове има около XNUMX видеоклипа. Клиповете в набора от данни имат взаимодействия човек-обект и човек-човек, които се оказват доста полезни при разпознаване на човешки действия във видеоклипове.
ЦИФАР-10
CIFAR 10 е един от най-големите набори от данни за компютърно зрение, разполагащ с 60000 32 цветни изображения 32 x 6000, представляващи десет различни класа. Всеки клас има около XNUMX изображения, използвани за обучение на алгоритми за компютърно зрение и машинно обучение.
Набор от данни за изображения на домашни любимци Oxford-IIIT
Наборът от данни за изображения на домашни любимци се състои от 37 категории с 200 изображения на клас. Тези изображения се различават по мащаб, поза и осветление и са придружени от анотации за порода, възвръщаемост на инвестициите на главата и сегментиране на трикартата на ниво пиксел.
Отворени изображения на Google
С впечатляващите 9 милиона URL адреса, това е един от най-големите набори от данни за изображения в списъка, съдържащ милиони изображения, етикетирани в 6,000 категории.
Изображения на растения
Тази компилация включва множество набори от данни с изображения, включващи впечатляващите 1 милион изображения на растения, обхващащи приблизително 11 вида.
Лицево разпознаване:
Обозначени лица в дивата природа
Labeled Faced in the Wild е огромен набор от данни, съдържащ повече от 13,230 5,750 изображения на близо XNUMX XNUMX души, открити от интернет. Този набор от данни за лица е предназначен да улесни изучаването на неограничено разпознаване на лица.
CASIA WebFace
CASIA Web face е добре проектиран набор от данни, който помага на машинното обучение и научните изследвания за неограничено разпознаване на лица. С повече от 494,000 10,000 изображения на почти XNUMX XNUMX реални самоличности, той е идеален за задачи за идентификация и проверка на лица.
UMD набор от данни за лица
UMD е изправен пред добре анотиран набор от данни, който съдържа две части – неподвижни изображения и видео кадри. Наборът от данни съдържа повече от 367,800 3.7 анотации на лица и XNUMX милиона анотирани видеокадъра на субекти.
Откриване на маска за лице
Този набор от данни включва 853 изображения, категоризирани в три класа: „с маска“, „без маска“ и „маска, носена неправилно“, заедно с техните ограничаващи полета във формат PASCAL VOC.
ФЕРЕТ
FERET (Facial Recognition Technology Database) е изчерпателен набор от данни за изображения, съдържащ над 14,000 XNUMX анотирани изображения на човешки лица.
Разпознаване на ръкописен текст:
База данни MNIST
MNIST е база данни, съдържаща проби от ръкописни цифри от 0 до 9 и има 60,000 10,000 и 1999 XNUMX изображения за обучение и тестване. Издаден през XNUMX г., MNIST улеснява тестването на системи за обработка на изображения в Deep Learning.
Набор от данни за изкуствени знаци
Наборът от данни за изкуствени знаци е, както подсказва името, изкуствено генерирани данни, които описват структурата на английски език с десет главни букви. Предлага се с повече от 6000 изображения.
Откриване на обекти:
MS COCO
MS COCO или Common Objects in Context е набор от данни за откриване на обекти и надписи.
Той има повече от 328,000 80 изображения с откриване на ключови точки, откриване на множество обекти, надписи и анотации за маска за сегментиране. Предлага се с XNUMX категории обекти и пет надписа на изображение.
LSUN
LSUN, съкращение от Large-scale Scene Understanding, има повече от милион етикетирани изображения в 20 категории обекти и 10 сцени. Някои категории имат близо 300,000 300 изображения, с 1000 изображения специално за валидиране и XNUMX изображения за тестови данни.
Домашни предмети
Наборът от данни Home Objects съдържа анотирани изображения на произволни обекти от цялата къща – кухня, всекидневна и баня. Този набор от данни също има няколко анотирани видеоклипа и 398 неанотирани снимки, предназначени за тестване.
Автомобили:
Набор от данни за градски пейзаж
Cityscape е наборът от данни, към който трябва да отидете, когато търсите различни видео поредици, записани от улични сцени в няколко града. Тези изображения са заснети за дълго време и при различно време и светлинни условия. Анотациите са за 30 класа изображения, разделени в осем различни категории.
Barkley Deep Drive
Barkley DeepDrive е специално проектиран за обучение на автономни превозни средства и има повече от 100 хиляди анотирани видео поредици. Това е една от най-полезните данни за обучение на автономни превозни средства при променящите се пътища и условия на шофиране.
Капилярен
Mapillary има над 750 милиона улични сцени и пътни знаци по целия свят, което е много полезно при обучението на модели за визуално възприятие в машинно обучение и AI алгоритми. Позволява ви да разработвате автономни превозни средства, които се грижат за различно осветление и метеорологични условия и гледни точки.
Медицински изображения:
Covid-19 Open Research Dataset
Този оригинален набор от данни има около 6500 пикселни многоъгълни белодробни сегментации за AP/PA рентгенови снимки на гръдния кош. Освен това са налични 517 изображения на рентгенови снимки на пациент с Covid-19 с етикети, съдържащи име, местоположение, подробности за приемане, резултат и др.
База данни на NIH от 100,000 XNUMX рентгенови снимки на гръдния кош
Базата данни на NIH е един от най-обширните публично достъпни масиви от данни, съдържащ 100,000 XNUMX рентгенови снимки на гръдния кош и свързани с тях данни, полезни за научната и изследователска общност. Има дори изображения на пациенти с напреднали белодробни заболявания.
Атлас на дигиталната патология
Атласът на дигиталната патология предлага няколко хистопатологични изображения на пластири, общо повече от 17,000 100, от близо XNUMX анотирани слайда на различни органи. Този набор от данни е полезен при разработването на компютърно зрение и софтуер за разпознаване на образи.
Разпознаване на сцени:
Разпознаване на вътрешна сцена
Indoor Scene Recognition е силно категоризиран набор от данни с близо 15620 изображения на обекти и пейзажи на закрито, които да се използват при машинно обучение и обучение за данни. Предлага се с над 65 категории, като всяка категория има минимум 100 изображения.
xView
Като един от най-известните публично достъпни набори от данни, xView съдържа тонове анотирани горни изображения от различни сложни и големи сцени. Имайки около 60 класа и повече от един милион екземпляра на обекти, целта на този набор от данни е да осигури по-добро облекчаване на бедствия с помощта на сателитни изображения.
места
Places, набор от данни, предоставен от MIT, съдържа над 1.8 милиона изображения от 365 различни категории сцени. Във всяка от тези категории има около 50 изображения за валидиране и 900 изображения за тестване. Възможно е изучаването на функции на дълбока сцена за установяване на задачи за разпознаване на сцена или визуално разпознаване.
Развлечения:
IMDB WIKI набор от данни
IMDB – Wiki е една от най-популярните публични бази данни с лица, обозначени адекватно с възраст, пол и имена. Освен това има около 20 хиляди лица на известни личности и 62 хиляди от Wikipedia.
Лица на знаменитости
Celeb Faces е мащабна база данни с 200,000 XNUMX анотирани изображения на знаменитости. Изображенията идват с фонов шум и вариации на пози, което ги прави ценни за тестови комплекти за обучение при задачи за компютърно зрение. Той е много полезен за постигане на по-висока точност при разпознаване на лица, редактиране, локализиране на частите на лицето и др.
Сега, когато разполагате с огромен списък от набори от изображения с отворен код, за да подхранвате вашата машина за изкуствен интелект. Резултатът от вашите AI и модели за машинно обучение зависи преди всичко от качеството на наборите от данни, които подавате и ги обучавате. Ако искате вашият AI модел да дава точни прогнози, той се нуждае от качествени набори от данни, които са обобщени, маркирани и етикетирани до съвършенство. За да увеличите успеха на вашата система за компютърно зрение, трябва да използвате качествени бази данни с изображения, подходящи за визията на вашия проект. Ако търсите повече такива набори от данни Натисни тук