Wyodrębnij tekst ze zdjęć za pomocą tych najlepszych programów OCR

2019

W dzisiejszych czasach prawie wszystko (np. Zdjęcia, muzyka, wideo) stało się cyfrowe (i ma to sens, ponieważ treści cyfrowe można wygodnie zarządzać, edytować i udostępniać). W jaki sposób dokumenty tekstowe mogą pozostać w tyle. Dzięki zaawansowanym technikom optycznego rozpoznawania znaków (OCR) digitalizacja materii tekstowej w drukowanych / odręcznych dokumentach jest teraz łatwiejsza niż kiedykolwiek wcześniej, dzięki czemu można ją edytować za pomocą edytorów tekstu.

Teraz, aby to zrobić, potrzebujesz naprawdę dobrych aplikacji OCR i właśnie o to chodzi w tym artykule. Te programy mogą albo pobierać wydrukowane dokumenty źródłowe jako obrazy z urządzeń skanujących, albo można wprowadzić własne obrazy dokumentów, które mają zostać przekształcone w edytowalny tekst. Zaintrygowany? Cóż, nie tnijmy w bawełnę i przejdź do 5 najlepszych programów OCR .

1. ABBYY FineReader

Jeśli chodzi o Optyczne Rozpoznawanie Znaków, prawie nic nie zbliża się do ABBYY FineReader. Załadowany po brzegi z obłędną ilością funkcji zasilania, ABBYY FineReader sprawia, że wydobywanie tekstu z wszelkiego rodzaju obrazów jest proste.

Pomimo pełnej i obszernej listy funkcji program ABBYY FineReader jest bardzo prosty w użyciu. Może wyodrębnić tekst z niemal wszystkich popularnych formatów graficznych, takich jak PNG, JPG, BMP i TIFF. I to nie wszystko. ABBYY FineReader może również wyodrębnić tekst z plików PDF i DJVU. Po załadowaniu pliku źródłowego lub obrazu (który powinien mieć rozdzielczość co najmniej 300 dpi, dla optymalnego skanowania), program analizuje go i automatycznie określa różne sekcje pliku posiadającego tekst do pobrania. Możesz wyodrębnić cały tekst lub wybrać tylko niektóre określone sekcje. Po tym wszystkim, co musisz zrobić, to użyć opcji Zapisz, aby wybrać format wyjściowy, a ABBYY FIneReader zajmie się resztą. Obsługiwanych jest wiele formatów wyjściowych, takich jak TXT, PDF, RTF, a nawet EPUB.

Tekst wyjściowy jest doskonale edytowalny, a tekst z najbardziej nawet wymagających treści dokumentów (np. Zawierających wiele kolumn i złożone układy) jest usuwany bezbłędnie. Inne funkcje obejmują rozbudowaną obsługę języków, liczne style / rozmiary czcionek i narzędzia do korekcji obrazu dla plików pochodzących ze skanerów i aparatów fotograficznych.

Krótko mówiąc, jeśli chcesz mieć absolutnie najlepsze oprogramowanie OCR, wraz z obszernym formatem wejścia / wyjścia i obsługą przetwarzania, przejdź do ABBYY FineReader.

Dostępność platformy: Windows 10, 8, 7, Vista i XP; Mac OS X 10.6 i nowsze

Cena: wersje płatne zaczynają się od 169, 99 USD, dostępny jest 30-dniowy bezpłatny okres próbny

Ściągnij

2. Readiris

Poszukując niezwykle wydajnego oprogramowania do rozpoznawania OCR, które ma wiele funkcji, ale nie wymaga dużego wysiłku, aby zacząć? Spójrz na Readiris, ponieważ może to być właśnie to, czego potrzebujesz.

Profesjonalna aplikacja Readiris posiada rozbudowany zestaw funkcji, który jest w dużej mierze identyczny z wcześniej omówionym programem ABBYY FineReader. Od BMP do PNG i od PCX do TIFF, Readiris obsługuje wiele formatów graficznych. Poza tym pliki PDF i DJVU mogą być przetwarzane równie dobrze. Obrazy mogą pochodzić z urządzeń skanujących, a aplikacja umożliwia również ustawienie niestandardowych parametrów przetwarzania na źródło plików / obrazów, takich jak wygładzanie i dostosowanie DPI, przed ich analizą. Mimo że Readiris może przetwarzać obrazy o niskiej rozdzielczości, optymalna rozdzielczość powinna wynosić co najmniej 300 dpi. Po zakończeniu analizy Readiris określa sekcje tekstu (lub strefy), a tekst można wyodrębnić z określonych stref lub z całego pliku. Wyodrębniony tekst jest edytowalny i można go zapisać w wielu formatach, takich jak PDF, DOCX, TXT, CSV i HTM.

Co więcej, funkcja zapisywania chmur w Readiris Pro pozwala bezpośrednio zapisywać wyodrębniony tekst w różnych usługach przechowywania w chmurze, takich jak Dropbox, OneDrive, GoogleDrive, a także w kilku innych. Dostępnych jest również wiele funkcji edycji i przetwarzania tekstu, a nawet skanowanie kodów paskowych.

Podsumowując, powinieneś używać Readiris, jeśli potrzebujesz solidnych funkcji ekstrakcji / edycji tekstu w prostym pakiecie, wraz z rozbudowaną obsługą formatu wejścia / wyjścia. Jednak Readiris trochę zawodzi, jeśli chodzi o przetwarzanie dokumentów o złożonych układach, takich jak wiele kolumn, tabel itp.

Dostępność platformy: Windows 10, 8, 7, Vista i XP; Mac OS X 10.7 i nowsze wersje

Cena: wersje płatne zaczynają się od 99 USD, 10 dni bezpłatnej wersji próbnej

Ściągnij

3. FreeOCR

Jeśli szukasz prostego i bez problemu oprogramowania OCR z przyzwoitymi możliwościami rozpoznawania tekstu, nie szukaj dalej niż FreeOCR . Chociaż nie może być przeciążony wszystkimi dodatkowymi funkcjami, nadal działa bardzo dobrze, na to, co to jest.

Oparty na niezwykle popularnym silniku OCR z obsługą Tesseract, FreeOCR jest niezwykle łatwy w użyciu. Umożliwia uzyskanie wydrukowanych dokumentów zeskanowanych za pomocą skanera, a także pozwala przesyłać obrazy zawierające tekst. Co więcej, może również wyodrębnić tekst z mocno sformatowanych dokumentów wielostronicowych. Możesz poprosić aplikację o wyodrębnienie całego tekstu z wejściowego pliku PDF / obrazu lub zdefiniowanie określonego fragmentu tekstu. Szybkość konwersji jest całkiem dobra, a przekonwertowany tekst może być zapisany w formatach takich jak TXT i RTF lub wyeksportowany bezpośrednio do Microsoft Word. FreeOCR obsługuje wszystkie główne formaty obrazów, takie jak PNG, JPG i TIFF.

Mając to na uwadze, FreeOCR ma pewne wady. Jest to zbyt proste i nie ma żadnych funkcji przetwarzania końcowego tekstu. Co więcej, układ wyodrębnionego tekstu jest często pomieszany, z nakładającymi się liniami i kolumnami. Używaj go tylko, jeśli potrzebujesz sporych funkcji OCR do sporadycznego użytkowania.

Dostępność platformy: Windows 10, 8, 7, Vista i XP

Cena: za darmo

Ściągnij

4. Microsoft OneNote

OneNote to imponująco funkcjonalna aplikacja do robienia notatek, z której łatwo jest zacząć. Jednak notowanie nie jest jedyną rzeczą, w której jest dobra. Jeśli korzystasz z OneNote jako części swojego przepływu pracy, możesz użyć go do wykonania podstawowej ekstrakcji tekstu dzięki wbudowanej w niego dobroci OCR.

Używanie OneNote do wyodrębniania tekstu z obrazów jest śmiesznie proste. Jeśli używasz aplikacji komputerowej, wszystko co musisz zrobić, to użyć opcji Wstaw, aby wstawić obraz do dowolnego zeszytów lub sekcji. Po zakończeniu kliknij prawym przyciskiem myszy obraz i wybierz opcję Kopiuj tekst z obrazu . Cała treść tekstowa z obrazu zostanie skopiowana do schowka i może być wklejona (i tym samym poddana edycji) w dowolnym miejscu, zgodnie z wymaganiami. Niezależnie od tego, czy jest to plik PNG, JPG, BMP czy TIFF, program OneNote obsługuje prawie wszystkie główne formaty obrazów.

Jednak możliwości wyodrębniania tekstu przez program OneNote są dość ograniczone i nie mogą zajmować się obrazami o skomplikowanych układach treści tekstowych, takich jak tabele i podsekcje. Jest to coś, o czym powinieneś pamiętać.

Dostępność platformy: Windows 10, 8, 7 i Vista; Mac OS X 10.10 i nowsze

Cena: za darmo

Ściągnij

5. GOCR

Uwaga: Zanim zaczniesz, ważne jest, aby wiedzieć, że chociaż GOCR obsługuje zwykłe formaty obrazu, takie jak PNG i JPG, nie rozpoznał ich podczas naszych testów (wykonywanych na komputerze z systemem Windows 10). Jest bardzo prawdopodobne, że może działać z tymi formatami na komputerach z systemem Linux, ale jeśli używasz systemu Windows, musisz przekonwertować obrazy źródłowe na format PNM. Można to zrobić za pomocą licznych narzędzi do konwersji plików online, takich jak ten.

Co odróżnia GOCR od partii, to tak naprawdę nie ma interfejsu graficznego interfejsu użytkownika (GUI). Jest to narzędzie oparte na linii poleceń i jako takie nie jest najłatwiejsze w użyciu. Ale gdy już opanujesz podstawy, GOCR może okazać się bardzo pomocny w ekstrakcji tekstu z obrazów. Warto również zauważyć, że aby GOCR działał poprawnie, obrazy źródłowe powinny mieć wyraźnie widoczną treść tekstową, a najlepiej białe tło, ponieważ narzędzie to nie działa z złożonymi plikami źródłowymi. GOCR wyodrębnia tekst z obrazów i zapisuje je w formacie TXT. Chociaż obsługuje kilka argumentów i funkcji, tylko kilka musi być znane, aby zacząć. Na przykład, aby wyodrębnić tekst z przykładowego obrazu PNM, należy wprowadzić następujące polecenie w wierszu polecenia.

X: \ sample folder \ gocr049 -i file.pnm -o plik.txt

Tutaj folder X: \ sample jest lokalizacją, w której znajduje się narzędzie wiersza poleceń GOCR, a file.pnm i file.txt są odpowiednio plikami wejściowymi i wyjściowymi (zarówno w tej samej lokalizacji co GOCR, jak i jeśli lokalizacja jest inna, należy podać pełną ścieżkę). Również jeśli chcesz zmienić poziomy skali szarości dla obrazu, możesz określić wartość liczbową jako argument wraz z -l. Kliknij tutaj, aby przeczytać szczegółowe informacje na temat użytkowania.

Podsumowując, GOCR jest dość dobrym narzędziem OCR, a jeśli chodzi o ekstrakcję tekstu z prostych obrazów, działa wyjątkowo dobrze. Jednak ma on bardzo ograniczone możliwości i wymaga sporo wysiłku, aby pracować.

Dostępność platformy: Windows 10, 8, 7, Vista i XP; Linux; OS / 2

Cena: za darmo

Ściągnij

Wszystko gotowe do konwersji obrazów na tekst?

Digitalizacja drukowanych (i ręcznie pisanych) treści tekstowych jest niezwykle przydatna, ponieważ niezwykle ułatwia przechowywanie, edytowanie i udostępnianie tekstu. Omówione powyżej oprogramowanie OCR umożliwia szybką pracę, bez względu na to, jak podstawowe lub zaawansowane są potrzeby ekstrakcji tekstu. Potrzebujesz profesjonalnych funkcji ekstrakcji tekstu z najlepszymi narzędziami do przetwarzania końcowego? Przejdź do ABBYY FineReader lub Readiris. Czy wolałbyś prostsze oprogramowanie OCR, które po prostu robi podstawowe kroki? Użyj OneNote lub FreeOCR. Wypróbuj je i sprawdź, jak one działają. Znasz jakieś inne oprogramowanie OCR, które mogło być zawarte w powyższym wykazie? Krzycz w komentarzach poniżej.