Yandex научи невронните мрежи да дешифрират архивни записи със сложен правопис
разни / / April 03, 2023
Историческите ръкописи, които са трудни за анализиране от човек, почти моментално се преобразуват от изкуствения интелект в печатен текст.
Yandex стартира нова услуга, наречена Archive Search, която използва невронни мрежи за дешифриране на архивни записи със сложен предреволюционен правопис.
Услугата предоставя достъп до повече от 2,5 милиона страници исторически документи с текстови преписи. Неговият алгоритъм, изграден на базата на система за оптично разпознаване на знаци, отчита особеностите на почерка, разпознава букви, които са загубили своята релевантност, и разбира специалната структура на архивните документи.
Специалистите на компанията обучиха невронната мрежа върху масив от данни от стотици хиляди ръкописни редове от реални текстове от 18-19 век и десетки милиони генерирани примери.
Ръкописи, които е трудно да анализира неподготвен човек, технологията Yandex почти моментално превръща в печатен текст. Благодарение на това в базата данни на услугата можете бързо да намерите документи със споменаване на фамилно име, населено място или всякакви други думи.
„Търсене в архивите“ ще повиши ефективността на работата на историци, социолози, демографи, генеалози и ще помогне на тези, които търсят информация за своя род.
Първият фонд, представен в услугата, беше Главният архив на Москва - именно върху неговите материали разработчиците обучиха невронната мрежа. Базата данни съдържа и документи от архивите на Оренбургска и Новгородска области. С течение на времето броят на хранилищата и наличните сканирани файлове ще се увеличи.
Можете да търсите материали от 18-ти - началото на 20-ти век, които са най-популярни сред потребителите. Това са енорийски регистри, изповедни листове и ревизионни сказки с резултатите от преброяването на населението. Документите могат да бъдат намерени в каталога или чрез лентата за търсене. Има филтри по години, архиви, фондове и описи.
До сканирането на всяка страница се показва декодиране ред по ред, направено от невронни мрежи. Ако задържите курсора на мишката върху желания фрагмент, той незабавно ще бъде маркиран върху цифровото копие.