Набори от данни за почерк

22 най-добри набора от данни за OCR и ръкопис с отворен код за обучение на вашите ML модели

Увеличаването на използването на оптично разпознаване на знаци може да се дължи основно на увеличаването на производството на системи за автоматично разпознаване. В резултат на това глобалната пазарна стойност на OCR технологията, фиксирана към 8.93 млрд. долара през 2021 г. се предвижда да нарасне с CAGR от 15.4% между 2022 г. и 2030 г.

Но какво точно представлява OCR технологията? И защо променя правилата за бизнеса, разработващ ефективни AI модели? Нека разберем.

Какво е OCR (оптично разпознаване на символи)?

OCR е технология, която преобразува различни видове документи, като сканирани хартиени документи, PDF файлове или изображения на текст, в данни с възможност за редактиране и търсене. Действа чрез:

  • Анализиране на структурата на текст в изображение
  • Разчленяване на текста на редове и знаци
  • Преобразуване на тези визуални знаци в машинно четим текст

Обичайните употреби включват:

  • Преобразуване на сканирани документи в редактируеми текстови файлове
  • Дигитализиране на печатни книги
  • Извличане на текст от снимки
  • Преобразуване на ръкописни рецепти в цифров текст
  • Разпознаване на регистрационен номер

Предимства и предизвикателства на наборите от данни с отворен код

Предприятията трябва да противопоставят предимствата и предизвикателствата един срещу друг, за да разберат дали трябва да изберат безплатни за използване данни за своите ML приложения.

Ползи

  • Данните са лесно достъпни за достъп. Поради наличието на данни, разходите за разработване на приложението са значително намалени.
  • Времето и усилията, изразходвани за събиране на данни за приложението, са значително намалени, тъй като наборът от данни е лесно достъпен.
  • Има изобилие от форуми на общността или помощни групи, които помагат за изучаване, адаптиране и оптимизиране на набора от данни.
  • Едно от основните предимства на набора от данни с отворен код е, че той не налага никакви ограничения върху персонализирането.
  •   Данните с отворен код са достъпни за голяма част от населението, което прави анализите и иновациите възможни без финансови бариери.

Предизвикателства

  • Данните, специфични за проекта, са трудни за получаване. Освен това съществува възможност за липсваща информация и неправилно използване на наличните данни.
  • Получаването на частни данни отнема време и усилия и е скъпо
  • Въпреки че може да е по-лесно да се придобият данни, знанието и разходите за анализ може да надхвърлят първоначалното предимство.
  • Други разработчици също използват същите данни за разработване на приложения.
  • Тези набори от данни са силно уязвими към пробиви в сигурността, поверителността и съгласието.

22 най-добри набора от данни за ръкопис и OCR за машинно обучение

OCR набори от данни с отворен код

Налични са много набори от данни с отворен код за разработка на приложения за разпознаване на текст. Някои от най-добрите 22 са

  1. NIST база данни

    NIST или Националният научен институт предлага безплатна за използване колекция от над 3600 примера на почерк с повече от 810,000 XNUMX изображения на знаци

  2. База данни MNIST

    Извлечена от специалната база данни 1 и 3 на NSIT, базата данни MNIST е компилирана колекция от 60,000 10,000 ръкописни номера за набора за обучение и XNUMX XNUMX примера за набора от тестове. Тази база данни с отворен код помага на моделите да се обучават да разпознават модели, като същевременно отделя по-малко време за предварителна обработка.

  3. Откриване на текст

    База данни с отворен код, наборът от данни за разпознаване на текст съдържа около 500 изображения на закрито и на открито на табели, табели на вратите, предупредителни табели и др.

  4. Станфорд OCR

    Публикуван от Станфорд, този безплатен за използване набор от данни е ръкописна колекция от думи от MIT Spoken Language Systems Group.

  5. Текст на Street View

    Събран от изображения на Google Street View, този набор от данни съдържа изображения за откриване на текст главно на табла и знаци на нивото на улицата.

  6. База данни на документи

    Базата данни с документи е колекция от 941 ръкописни документа, включително таблици, формули, чертежи, диаграми, списъци и други, от 189 писатели.

  7. Математически изрази

    The Mathematics Expressions е база данни, която съдържа 101 математически символа и 10,000 XNUMX израза.

  8. Street View номера на къщи

    Събрани от Google Street View, тези номера на къщи в Street View са база данни, съдържаща 73257 XNUMX цифри на номерата на къщи.

  9. Естествена среда OCR

    OCR за естествена среда е набор от данни от близо 660 изображения по целия свят и 5238 текстови анотации.

  10. Математически изрази

    Над 10,000 101 израза със XNUMX+ математически символа.

  11. Ръкописни китайски йероглифи

    Набор от данни от 909,818 10 ръкописни изображения на китайски йероглифи, еквивалентни на около XNUMX новинарски статии.

  12. Печатен текст на арабски

    Лексикон от 113,284 10 думи, използващи XNUMX арабски шрифта.

  13. Ръкописен английски текст

    Ръкописен текст на английски на бяла дъска с над 1700 записа.

  14. 3000 среди Изображения

    3000 изображения от различни среди, включително сцени на открито и закрито при различно осветление.

  15. Chars74K данни

    74,000 XNUMX изображения на английски и канадски цифри.

  16. IAM (IAM почерк)

    Базата данни IAM съдържа 13,353 657 ръкописни текстови изображения от XNUMX писатели от Lancaster-Oslo/Bergen Corpus на британски английски.

  17. FUNSD (разбиране на формуляри в шумни сканирани документи)

    FUNSD включва 199 анотирани, сканирани формуляра с разнообразни и шумни изяви, предизвикателство за разбиране на формата.

  18. OCR на текст

    TextOCR сравнява разпознаването на текст върху сцена-текст с произволна форма в естествени изображения.

  19. Twitter 100 хиляди

    Twitter100k е голям набор от данни за слабо контролирано кръстосано извличане на медии.

  20. SSIG-SegPlate – Сегментиране на символите на регистрационния номер (LPCS)

    Този набор от данни оценява сегментирането на символите на регистрационния номер (LPCS) със 101 изображения на превозни средства през деня.

  21. 105,941 12 изображения естествени сцени OCR данни на XNUMX езика

    Данните включват 12 езика (6 азиатски, 6 европейски) и различни природни сцени и ъгли. Той разполага с ограничителни полета на ниво ред и текстови транскрипции. Полезно е за многоезични OCR задачи.

  22. Набор от данни за изображения на индийски табели

    Наборът от данни съдържа изображения на индийски пътни знаци за класифициране и откриване, направени при различни метеорологични условия през деня, вечерта и нощта.

Това бяха някои от най-добрите набори от данни с отворен код за обучение на ML модели за приложения за откриване на текст. Изборът на този, който е в съответствие с нуждите на вашия бизнес и приложение, може да отнеме време и усилия. Трябва обаче да експериментирате с тези набори от данни, преди да изберете подходящия.

За да ви помогне да напреднете към надеждно и ефективно приложение за откриване на текст, е Shaip – ​​високопоставеният доставчик на технологични решения. Ние използваме нашия технологичен опит, за да създадем адаптивни, оптимизирани и ефективни набори от данни за OCR обучение за различни клиентски проекти. За да разберете напълно нашите възможности, свържете се с нас днес.

Социален дял