1. Откриване на текст върху технически чертежи за цифровизация на процеси в кафяви полета (arXiv)

Автор: Тобиас Шлагенхауф, Маркус Нетцер, Ян Хилингер

Резюме:Този документ разглежда проблема с автономното откриване на текст върху технически чертежи. Откриването на текст върху техническите чертежи е критична стъпка към автономни производствени машини, особено за процеси в изоставени промишлени условия, където все още няма налични затворени CAD-CAM решения. Автоматизирането на процеса на четене и откриване на текст на технически чертежи намалява усилието за справяне с неефективни медийни прекъсвания, дължащи се на процеси, базирани на хартиен носител, които често са днешни квазистандарти в процесите на изоставени полета. Все още обаче няма налични надеждни методи за решаване на проблема с автоматичното откриване на текст върху технически чертежи. Ненадеждното откриване на съдържанието на технически чертежи с помощта на класически инструменти за откриване и разпознаване на символи на обекти (OCR) се дължи главно на ограничения брой технически чертежи и структурата на съдържанието, подобна на captcha. Текстът често е комбиниран с непознати символи и прекъсвания от редове. Освен това, поради права на интелектуална собственост и проблеми с техническото ноу-хау, в литературата няма готови набори от данни за обучение за обучение на такива модели. Този документ съчетава генератор, базиран на знания за домейн, за генериране на реалистични технически чертежи с най-съвременен модел за откриване на обекти, за да реши проблема с откриването на текст върху технически чертежи. Генераторът дава изкуствени технически чертежи в голямо разнообразие и може да се счита за генератор за увеличаване на данни. Тези изкуствени рисунки се използват за обучение, докато моделът се тества върху реални данни. Авторите показват, че изкуствено генерираните данни от технически чертежи подобряват качеството на откриване с нарастващ брой чертежи.

2. OCR синтетичен сравнителен набор от данни за индийски езици (arXiv)

Автор :Naresh Saini, Promodh Pinto, Aravinth Bheemaraj, Deepak Kumar, Dhiraj Daga, Saurabh Yadav, Srihari Nagaraj

Резюме:Представяме най-големия общодостъпен набор от сравнителни данни за синтетичен OCR за индийски езици. Колекцията съдържа общо 90 000 изображения и тяхната основна истина за 23 индийски езика. Валидирането на OCR модел на индийски езици изисква голямо количество разнообразни данни, които да бъдат обработени, за да се създаде стабилен и надежден модел. Генерирането на такова огромно количество данни би било трудно иначе, но със синтетичните данни става много по-лесно. Може да бъде от голямо значение за области като компютърно зрение или обработка на изображения, където след като се разработят първоначални синтетични данни, създаването на модел става по-лесно. Генерирането на синтетични данни идва с гъвкавостта за коригиране на тяхното естество и среда, както и когато е необходимо, за да се подобри производителността на модела. Точността на етикетираните данни в реално време понякога е доста скъпа, докато точността на синтетичните данни може лесно да бъде постигната с добър резултат.

3. Германски парламентарен корпус (GerParCor)(arXiv)

Автор :Джузепе Абрами, Мевлют Багчи, Леон Хамерла, Александър Мелер

Резюме:Парламентарните дебати представляват голяма и частично неизползвана съкровищница от публично достъпни текстове. В немскоговорящото пространство има известен дефицит на еднакво достъпни и анотирани корпуси, обхващащи всички немскоговорящи парламенти на национално и федерално ниво. За да се справим с тази празнина, представяме Корпуса на германския парламент (GerParCor). GerParCor е специфичен за жанра сборник от (предимно исторически) парламентарни протоколи на немски език от три века и четири държави, включително данни на щатско и федерално ниво. Освен това GerParCor съдържа преобразувания на сканирани протоколи и по-специално на протоколи във Fraktur, преобразувани чрез OCR процес, базиран на Tesseract. Всички протоколи бяха предварително обработени с помощта на NLP тръбопровода на spaCy3 и автоматично анотирани с метаданни относно датата на тяхната сесия. GerParCor се предлага във формат XMI на проекта UIMA. По този начин GerParCor може да се използва като голям корпус от исторически текстове в областта на политическата комуникация за различни задачи в НЛП

4. Дигитализиране на исторически балансови данни: Ръководство за практик (arXiv)

Автор: Sergio Correia, Stephan Luck

Резюме: Този документ обсъжда как успешно да се дигитализират мащабни исторически микроданни чрез разширяване на механизмите за оптично разпознаване на символи (OCR) с методи за предварителна и последваща обработка. Въпреки че софтуерът за OCR се подобри драстично през последните години поради подобрения в машинното обучение, готовите приложения за OCR все още показват висок процент грешки, което ограничава техните приложения за точно извличане на структурирана информация. Допълването на OCR с допълнителни методи обаче може драстично да увеличи степента на успех, което го прави мощен и рентабилен инструмент за икономически историци. Тази статия показва тези методи и обяснява защо са полезни. Ние ги прилагаме срещу два големи набора от данни за баланса и въвеждаме „quipucamayoc“, пакет на Python, съдържащ тези методи в унифицирана рамка

5. Откриване на плагиатство в бенгалски език: Подход, базиран на подобие на текст (arXiv)

Автор: Satyajit Ghosh, Aniruddha Ghosh, Bittaswer Ghosh, Abhishek Roy

Резюме: Плагиатството означава вземане на работа на друг човек и без да му се признава заслугата за това. Плагиатството е един от най-сериозните проблеми в академичните среди и сред изследователите. Въпреки че има множество налични инструменти за откриване на плагиатство в документ, повечето от тях са специфични за домейн и са проектирани да работят в английски текстове, но плагиатството не се ограничава само до един език. Бенгалският е най-разпространеният език в Бангладеш и вторият най-говорен език в Индия с 300 милиона носители на роден език и 37 милиона говорещи втори език. Откриването на плагиатство изисква голям корпус за сравнение. Бенгалската литература има история от 1300 години. Следователно повечето книги за бенгалска литература все още не са дигитализирани правилно. Тъй като нямаше такъв корпус за нашата цел, ние събрахме книги за бенгалска литература от Националната дигитална библиотека на Индия и с цялостна методология извлякохме текстове от него и конструирахме нашия корпус. Нашите експериментални резултати установяват средна точност между 72,10 % — 79,89 % при извличане на текст с помощта на OCR. Алгоритъмът Levenshtein Distance се използва за определяне на плагиатството. Създадохме уеб приложение за краен потребител и го тествахме успешно за откриване на плагиатство в текстове на бенгалски. В бъдеще се стремим да създадем корпус с повече книги за по-точно откриване.