Най-добри научни статии за технологията OCR (AI) част 1

Откриване на текст върху технически чертежи за цифровизация на процеси в кафяви полета (arXiv)

Автор: Тобиас Шлагенхауф, Маркус Нетцер, Ян Хилингер

Резюме:Този документ разглежда проблема с автономното откриване на текст върху технически чертежи. Откриването на текст върху техническите чертежи е критична стъпка към автономни производствени машини, особено за процеси в изоставени промишлени условия, където все още няма налични затворени CAD-CAM решения. Автоматизирането на процеса на четене и откриване на текст на технически чертежи намалява усилието за справяне с неефективни медийни прекъсвания, дължащи се на процеси, базирани на хартиен носител, които често са днешни квазистандарти в процесите на изоставени полета. Все още обаче няма налични надеждни методи за решаване на проблема с автоматичното откриване на текст върху технически чертежи. Ненадеждното откриване на съдържанието на технически чертежи с помощта на класически инструменти за откриване и разпознаване на символи на обекти (OCR) се дължи главно на ограничения брой технически чертежи и структурата на съдържанието, подобна на captcha. Текстът често е комбиниран с непознати символи и прекъсвания от редове. Освен това, поради права на интелектуална собственост и проблеми с техническото ноу-хау, в литературата няма готови набори от данни за обучение за обучение на такива модели. Този документ съчетава генератор, базиран на знания за домейн, за генериране на реалистични технически чертежи с най-съвременен модел за откриване на обекти, за да реши проблема с откриването на текст върху технически чертежи. Генераторът дава изкуствени технически чертежи в голямо разнообразие и може да се счита за генератор за увеличаване на данни. Тези изкуствени рисунки се използват за обучение, докато моделът се тества върху реални данни. Авторите показват, че изкуствено генерираните данни от технически чертежи подобряват качеството на откриване с нарастващ брой чертежи.

2. OCR синтетичен сравнителен набор от данни за индийски езици (arXiv)

Автор :Naresh Saini, Promodh Pinto, Aravinth Bheemaraj, Deepak Kumar, Dhiraj Daga, Saurabh Yadav, Srihari Nagaraj

Резюме:Представяме най-големия общодостъпен набор от сравнителни данни за синтетичен OCR за индийски езици. Колекцията съдържа общо 90 000 изображения и тяхната основна истина за 23 индийски езика. Валидирането на OCR модел на индийски езици изисква голямо количество разнообразни данни, които да бъдат обработени, за да се създаде стабилен и надежден модел. Генерирането на такова огромно количество данни би било трудно иначе, но със синтетичните данни става много по-лесно. Може да бъде от голямо значение за области като компютърно зрение или обработка на изображения, където след като се разработят първоначални синтетични данни, създаването на модел става по-лесно. Генерирането на синтетични данни идва с гъвкавостта за коригиране на тяхното естество и среда, както и когато е необходимо, за да се подобри производителността на модела. Точността на етикетираните данни в реално време понякога е доста скъпа, докато точността на синтетичните данни може лесно да бъде постигната с добър резултат.

3. Германски парламентарен корпус (GerParCor)(arXiv)

Автор :Джузепе Абрами, Мевлют Багчи, Леон Хамерла, Александър Мелер

Резюме:Парламентарните дебати представляват голяма и частично неизползвана съкровищница от публично достъпни текстове. В немскоговорящото пространство има известен дефицит на еднакво достъпни и анотирани корпуси, обхващащи всички немскоговорящи парламенти на национално и федерално ниво. За да се справим с тази празнина, представяме Корпуса на германския парламент (GerParCor). GerParCor е специфичен за жанра сборник от (предимно исторически) парламентарни протоколи на немски език от три века и четири държави, включително данни на щатско и федерално ниво. Освен това GerParCor съдържа преобразувания на сканирани протоколи и по-специално на протоколи във Fraktur, преобразувани чрез OCR процес, базиран на Tesseract. Всички протоколи бяха предварително обработени с помощта на NLP тръбопровода на spaCy3 и автоматично анотирани с метаданни относно датата на тяхната сесия. GerParCor се предлага във формат XMI на проекта UIMA. По този начин GerParCor може да се използва като голям корпус от исторически текстове в областта на политическата комуникация за различни задачи в НЛП

4. Дигитализиране на исторически балансови данни: Ръководство за практик (arXiv)

Автор: Sergio Correia, Stephan Luck

Резюме: Този документ обсъжда как успешно да се дигитализират мащабни исторически микроданни чрез разширяване на механизмите за оптично разпознаване на символи (OCR) с методи за предварителна и последваща обработка. Въпреки че софтуерът за OCR се подобри драстично през последните години поради подобрения в машинното обучение, готовите приложения за OCR все още показват висок процент грешки, което ограничава техните приложения за точно извличане на структурирана информация. Допълването на OCR с допълнителни методи обаче може драстично да увеличи степента на успех, което го прави мощен и рентабилен инструмент за икономически историци. Тази статия показва тези методи и обяснява защо са полезни. Ние ги прилагаме срещу два големи набора от данни за баланса и въвеждаме „quipucamayoc“, пакет на Python, съдържащ тези методи в унифицирана рамка

5. Откриване на плагиатство в бенгалски език: Подход, базиран на подобие на текст (arXiv)

Автор: Satyajit Ghosh, Aniruddha Ghosh, Bittaswer Ghosh, Abhishek Roy

Резюме: Плагиатството означава вземане на работа на друг човек и без да му се признава заслугата за това. Плагиатството е един от най-сериозните проблеми в академичните среди и сред изследователите. Въпреки че има множество налични инструменти за откриване на плагиатство в документ, повечето от тях са специфични за домейн и са проектирани да работят в английски текстове, но плагиатството не се ограничава само до един език. Бенгалският е най-разпространеният език в Бангладеш и вторият най-говорен език в Индия с 300 милиона носители на роден език и 37 милиона говорещи втори език. Откриването на плагиатство изисква голям корпус за сравнение. Бенгалската литература има история от 1300 години. Следователно повечето книги за бенгалска литература все още не са дигитализирани правилно. Тъй като нямаше такъв корпус за нашата цел, ние събрахме книги за бенгалска литература от Националната дигитална библиотека на Индия и с цялостна методология извлякохме текстове от него и конструирахме нашия корпус. Нашите експериментални резултати установяват средна точност между 72,10 % — 79,89 % при извличане на текст с помощта на OCR. Алгоритъмът Levenshtein Distance се използва за определяне на плагиатството. Създадохме уеб приложение за краен потребител и го тествахме успешно за откриване на плагиатство в текстове на бенгалски. В бъдеще се стремим да създадем корпус с повече книги за по-точно откриване.

Вижте също:

Нови материали

За да научите нов език за програмиране, започнете отначало

Първоначално публикувано на http://www.mberlove.com/blog/a-new-programming-language-starting-over/ Програмистите се гордеят със способността си да усвояват лесно нови умения , разчитайки..

5 Youtubers на Data Science, които трябва да следвате

Защото всички можем да се справим с малко продуктивно отлагане Всички сме падали в заешката дупка на Youtube, така че защо да не я направим продуктивна?! Като непрекъснато нарастващ източник..

Бих казал, че точно това е проблемът с Twitter — това е инструмент на суперпотребител.

Бих казал, че точно това е проблемът с Twitter — това е инструмент на суперпотребител. По същия начин, по който суперкодерът сочи vim като единствения начин за кодиране, но останалите от нас..

Основи на Gradio

Gradio е най-ефективният метод за демонстриране на вашия модел на машинно обучение и разполага с удобен за потребителя онлайн интерфейс, който го прави достъпен от всяко място. Какво прави..

Илюстрация (GIF) за обяснение на дълбоки конволюционни мрежи (DCNN)

В света на компютърното зрение най-основният и често срещан алгоритъм за разпознаване на изображения е конволюционната мрежа. С популярността на рамки като tensorflow и pytorch, стана по-лесно да..

Python Bootcamp — Data Science Day 165

Python Bootcamp от Giles McMullen-Klein беше абсолютно невероятно. Джайлс има този уникален начин да улови аудиторията си, като същевременно прави съдържанието на курса много интересно...

Сравняване на модели на машинно обучение в R за прогнозиране на смърт поради сърдечна недостатъчност и диабет

Част 1: Използвайте машинно обучение за прогнозиране на смъртно събитие поради сърдечна недостатъчност Целта на този анализ е да се сравнят методите за машинно обучение при прогнозиране на..

Етикети

Machine Learning JavaScript Data Science Artificial Intelligence Software Development Web Development Coding Python Deep Learning AI React Java Software Engineering Computer Science Algorithms Typescript Nodejs Data Development Programming Languages Computer Vision Neural Networks Productivity Learning To Code Reactjs Front End Development NLP Tech Angular Tutorial Mathematics ChatGPT Javascript Tips CSS Towards Data Science DevOps Golang Business