If-Koubou

Wyodrębnij tekst z plików PDF i plików obrazów

Wyodrębnij tekst z plików PDF i plików obrazów (Pobieranie bezpłatnego oprogramowania)

Masz dokument PDF, z którego chcesz wyodrębnić cały tekst? A co z plikami obrazów zeskanowanego dokumentu, który chcesz przekonwertować na tekst edytowalny? Oto niektóre z najczęstszych problemów, które widziałem w miejscu pracy podczas pracy z plikami.

W tym artykule omówię kilka sposobów, w jakie można próbować wyodrębnić tekst z pliku PDF lub obrazu. Wyniki ekstrakcji będą się różnić w zależności od rodzaju i jakości tekstu w pliku PDF lub obrazie. Ponadto wyniki będą się różnić w zależności od używanego narzędzia, dlatego najlepiej wypróbować jak najwięcej opcji poniżej, aby uzyskać najlepsze wyniki.

Wyodrębnij tekst z obrazu lub PDF

Najprostszym i najszybszym sposobem na rozpoczęcie jest wypróbowanie usługi ekstrakcji tekstu PDF online. Zwykle są one bezpłatne i mogą zapewnić dokładnie to, czego szukasz, bez konieczności instalowania czegokolwiek na komputerze. Oto dwa, których użyłem z bardzo dobrymi i doskonałymi wynikami:

ExtractPDF

ExtractPDF to darmowe narzędzie do przechwytywania obrazów, tekstu i czcionek z pliku PDF. Jedynym ograniczeniem jest to, że maksymalny rozmiar pliku PDF to 10 MB. To trochę małe; więc jeśli masz większy plik, wypróbuj inne metody poniżej. Wybierz swój plik, a następnie kliknij przycisk Wyślij plik przycisk. Wyniki są zwykle bardzo szybkie i powinieneś zobaczyć podgląd tekstu po kliknięciu karty Tekst.

Dodatkową korzyścią jest to, że wyodrębnia obrazy również z pliku PDF, na wszelki wypadek, gdy tego potrzebujesz! Ogólnie rzecz biorąc, narzędzie online działa świetnie, ale mam do czynienia z kilkoma dokumentami PDF, które dają mi zabawne wyniki. Tekst jest wydobywany w porządku, ale z jakiegoś powodu po każdym słowie będzie miał podział wiersza! Nie jest to duży problem dla krótkiego pliku PDF, ale z pewnością problem dla plików z dużą ilością tekstu. Jeśli tak się stanie, wypróbuj następne narzędzie.

Online OCR

Online OCR zazwyczaj pracowało dla dokumentów, które nie zostały poprawnie przekonwertowane z ExtractPDF, więc dobrze jest wypróbować obie usługi, aby zobaczyć, które z nich dają lepsze wyniki. Online OCR ma również kilka ładniejszych funkcji, które mogą okazać się przydatne dla każdego, kto ma duży plik PDF, który potrzebuje tylko konwertować tekst na kilka stron, a nie cały dokument.

Pierwszą rzeczą, którą chcesz zrobić, jest utworzenie bezpłatnego konta. To trochę denerwujące, ale jeśli nie stworzysz darmowego konta, to tylko częściowo przekonwertujesz plik PDF, a nie cały dokument. Oprócz tego, że nie tylko można przesłać tylko dokument o wielkości 5 MB, można przesłać maksymalnie 100 MB na plik za pomocą konta.

Najpierw wybierz język, a następnie wybierz typ formatów wyjściowych, które chcesz przekonwertować. Masz kilka opcji i możesz wybrać więcej niż jeden, jeśli chcesz. Pod Dokument wielostronicowy, możesz wybrać Numery stron a następnie wybierz tylko strony, które chcesz przekonwertować. Następnie wybierz plik i kliknij Konwertować!

Po konwersji zostaniesz przeniesiony do sekcji Dokumenty (jeśli jesteś zalogowany), gdzie możesz zobaczyć, ile dostępnych wolnych stron zostało ci pozostawionych oraz linki do pobierania skonwertowanych plików. Wygląda na to, że masz tylko 25 stron za darmo dziennie, więc jeśli potrzebujesz więcej, musisz albo poczekać albo kupić więcej stron.

Online OCR wykonało doskonałą robotę konwersji moich plików PDF, ponieważ było w stanie utrzymać rzeczywisty układ tekstu. W moim teście wziąłem dokument Word, który używał pocisków, różnych rozmiarów czcionek, itp. I przekonwertował go do pliku PDF. Potem użyłem Online OCR, aby przekonwertować go z powrotem do formatu Word i było w przybliżeniu w 95% takie samo jak oryginał. To dla mnie imponujące.

Dodatkowo, jeśli szukasz konwersji obrazu na tekst, Online OCR może to zrobić równie łatwo, jak wyodrębnianie tekstu z plików PDF.

Bezpłatne Online OCR

Odkąd rozmawialiśmy o obrazowo-tekstowym OCR, wspomnę o innej dobrej stronie internetowej, która działa bardzo dobrze na zdjęciach. Bezpłatne OCR online było bardzo dobre i bardzo dokładne przy wydobywaniu tekstu z moich obrazów testowych. Zrobiłem kilka zdjęć z mojego iPhone'a ze stron z książek, broszur itp. I byłem zaskoczony tym, jak dobrze udało mu się przekonwertować tekst.

Wybierz swój plik, a następnie kliknij przycisk Prześlij. Na następnym ekranie dostępnych jest kilka opcji i podgląd obrazu. Możesz przyciąć go, jeśli nie chcesz, aby OCR to wszystko. Następnie kliknij przycisk OCR, a przekonwertowany tekst pojawi się pod podglądem obrazu. Nie ma też żadnych ograniczeń, co jest naprawdę miłe.

Oprócz usług online, istnieją dwa bezpłatne konwertery plików PDF, o których chcę wspomnieć, jeśli potrzebujesz oprogramowania działającego lokalnie na komputerze do przeprowadzania konwersji. Dzięki usługom online zawsze będziesz potrzebować połączenia z Internetem, co może nie być możliwe dla wszystkich. Zauważyłem jednak, że jakość konwersji z bezpłatnych programów była znacznie gorsza niż na stronach internetowych.

Ekstraktor tekstu A-PDF

A-PDF Text Extractor to darmowy program do usuwania tekstu z plików PDF. Po pobraniu i zainstalowaniu kliknij przycisk Otwórz, aby wybrać plik PDF. Następnie kliknij Wyodrębnij tekst, aby rozpocząć proces.

Poprosi Cię o zapisanie pliku wyjściowego tekstu, a następnie rozpocznie rozpakowywanie. Możesz także kliknąć przycisk Opcja przycisk, który pozwala wybrać tylko niektóre strony do wyodrębnienia i typ ekstrakcji. Druga opcja jest interesująca, ponieważ wyodrębnia tekst w różnych układach i warto wypróbować wszystkie trzy, aby zobaczyć, które z nich dają najlepszy wynik.

PDF2Text Pilot

PDF2Text Pilot wykonuje zadanie ekstrakcji tekstu. Nie ma żadnych opcji; po prostu dodajesz pliki lub foldery, konwertujesz i masz nadzieję na najlepsze. Sprawdzało się dobrze w niektórych plikach PDF, ale w przypadku większości z nich wystąpiły liczne problemy.

Wystarczy kliknąć Dodaj pliki, a następnie kliknąć Konwertować. Po zakończeniu konwersji kliknij przycisk Przeglądaj, aby otworzyć plik. Twój przebieg będzie się różnił w zależności od tego programu, więc nie oczekuj zbyt wiele.

Warto również wspomnieć, że jeśli jesteś w środowisku korporacyjnym lub masz dostęp do kopii Adobe Acrobat z pracy, możesz uzyskać znacznie lepsze wyniki. Acrobat oczywiście nie jest darmowy, ale ma opcje konwersji plików PDF na format Word, Excel i HTML. Zajmuje się także utrzymaniem struktury oryginalnego dokumentu i konwertowaniem skomplikowanego tekstu.