Masz dokument PDF lub obraz, który chciałbyś przekonwertować na tekst? Niedawno ktoś wysłał mi dokument w poczcie, który musiałam edytować i odesłać wraz z poprawkami. Osoba nie mogła zlokalizować kopii cyfrowej, więc zlecono mi przeniesienie całego tekstu do formatu cyfrowego.
Nie było mowy, żebym spędzał wiele godzin na pisaniu wszystkiego z powrotem, więc skończyłem na zrobieniu niezłego obrazu wysokiej jakości dokumentu, a następnie przepuściłem drogę przez garść internetowych usług OCR, aby zobaczyć, który z nich da mi najlepszy wynik. wyniki.
W tym artykule omówię kilka moich ulubionych witryn do rozpoznawania OCR, które są bezpłatne. Warto zauważyć, że większość tych witryn zapewnia podstawową bezpłatną usługę, a następnie oferuje płatne opcje, jeśli potrzebujesz dodatkowych funkcji, takich jak większe obrazy, wielostronicowe dokumenty PDF, różne języki wprowadzania itp.
Dobrze jest również wiedzieć wcześniej, że większość tych usług nie będzie w stanie dopasować formatowania oryginalnego dokumentu. Są to głównie do wyodrębniania tekstu i to wszystko. Jeśli potrzebujesz, aby wszystko było w określonym układzie lub formacie, musisz to zrobić ręcznie, gdy tylko uzyskasz cały tekst z OCR.
Ponadto najlepsze wyniki uzyskiwania tekstu będą pochodzić z dokumentów o rozdzielczości od 200 do 400 DPI. Jeśli masz obraz o niskiej rozdzielczości, wyniki nie będą tak dobre.
Wreszcie, było wiele stron, które testowałem, które po prostu nie działały. Jeśli korzystasz z bezpłatnej usługi OCR w Internecie, zobaczysz kilka witryn, ale kilka witryn z 10 najlepszych wyników nie ukończyło nawet konwersji. Niektórzy mogliby przestać, inni dawali błędy, a niektórzy po prostu utknęli na stronie "konwertującej", więc nawet nie wspomniałem o tych stronach.
Dla każdej witryny przetestowałem dwa dokumenty, aby zobaczyć, jak dobrze będą dane wyjściowe. Do moich testów użyłem po prostu mojego iPhone'a 5S do zrobienia zdjęcia obu dokumentów, a następnie przesłałem je bezpośrednio na strony internetowe w celu konwersji.
Jeśli chcesz zobaczyć, jak wyglądały obrazy, które użyłem do mojego testu, dodałem je tutaj: Test1 i Test2. Zauważ, że nie są to pełne wersje zdjęć zrobionych telefonem. Podczas przesyłania do witryn użyłem obrazu w pełnej rozdzielczości.
OnlineOCR.net to czysta i prosta strona, która przyniosła bardzo dobre wyniki w moim teście. Najważniejsze, że podoba mi się to, że nie ma mnóstwo reklam w każdym miejscu, co zwykle ma miejsce w przypadku tego rodzaju niszowych serwisów.
Aby rozpocząć, wybierz plik i poczekaj, aż zakończy się przesyłanie. Maksymalny rozmiar przesyłanej strony wynosi 100 MB. Jeśli zarejestrujesz się na darmowe konto, dostaniesz kilka dodatkowych funkcji, takich jak większy rozmiar wysyłania, wielostronicowe pliki PDF, różne języki wprowadzania, więcej konwersji na godzinę itp.
Następnie wybierz język wprowadzania, a następnie wybierz format wyjściowy. Możesz wybrać Word, Excel lub zwykły tekst. Kliknij Konwertować i zobaczysz tekst wyświetlany na dole w ramce wraz z linkiem do pobierania.
Jeśli chcesz tylko tekst, po prostu skopiuj go i wklej z pudełka. Sugeruję jednak pobranie dokumentu programu Word, ponieważ działa zaskakująco dobrze, zachowując układ oryginalnego dokumentu.
Na przykład, gdy otworzyłem dokument Worda dla mojego drugiego testu, zdziwiłem się, że dokument zawiera tabelę z trzema kolumnami, tak jak na obrazku.
Ze wszystkich stron ten był zdecydowanie najlepszy. Całkowicie warto się zarejestrować, jeśli potrzebujesz dużo konwersji.
Dla kompletności, mam również link do plików wyjściowych utworzonych przez każdą usługę, abyś mógł zobaczyć wyniki dla siebie. Oto wyniki z OnlineOCR: Test1 Doc i Test2 Doc.
Zwróć uwagę, że po otwarciu tych dokumentów Word na komputerze otrzymasz wiadomość w Wordzie informującą, że jest z Internetu i że edycja została wyłączona. Jest to całkowicie OK, ponieważ program Word nie ufa dokumentom z Internetu i naprawdę nie trzeba włączać edycji, jeśli chcesz tylko wyświetlić dokument.
Kolejną stroną, która dała całkiem dobre wyniki, był i2OCR. Proces jest bardzo podobny: wybierz swój język, plik, a następnie naciśnij Wyodrębnij tekst.
Będziesz musiał poczekać minutę lub dwie, ponieważ ta strona trwa nieco dłużej. Ponadto, w kroku 2 upewnij się, że obraz jest wyświetlany z prawej strony w podglądzie, w przeciwnym razie dostaniesz garść bełkotu jako wynik. Z jakiegoś powodu obrazy z mojego iPhone'a wyświetlały się w trybie portretu na moim komputerze, ale krajobraz, gdy przesyłałem do tej witryny.
Musiałem ręcznie otworzyć obraz w aplikacji do edycji zdjęć, obrócić go o 90 stopni, a następnie obrócić z powrotem do portretu, a następnie zapisać go ponownie. Po zakończeniu przewiń w dół, aby wyświetlić podgląd tekstu wraz z przyciskiem pobierania.
Ta strona wypadła całkiem nieźle z wynikami pierwszego testu, ale nie zrobiła tak dobrze z drugim testem, który miał układ kolumn. Oto wyniki z i2OCR: Test1 Doc i Test2 Doc.
Free-OCR.com zrobi twoje zdjęcia i zamieni je na zwykły tekst. Nie ma opcji eksportu do formatu Word. Wybierz swój plik, wybierz język, a następnie kliknij Początek.
Strona jest szybka, a otrzymasz dość szybko. Wystarczy kliknąć link, aby pobrać plik tekstowy na swój komputer.
Tak jak w przypadku niżej wymienionego NewOCR, ta strona używa wszystkich liter w dokumencie. Nie mam pojęcia, dlaczego tak się stało, ale z jakiegoś dziwnego powodu ta strona i NewOCR zrobiły to. Zmiana nie jest wielka, ale jest to żmudny proces, którego naprawdę nie powinno się robić.
Oto wyniki FreeOCR: Test1 Doc i Test2 Doc.
Aby korzystać z FineReader Online, musisz założyć konto, dzięki któremu otrzymasz 15-dniowy darmowy okres próbny do OCR do 10 stron za darmo. Jeśli potrzebujesz tylko jednorazowego OCR dla kilku stron, możesz skorzystać z tej usługi. Po zarejestrowaniu się kliknij link weryfikacyjny w e-mailu potwierdzającym.
Kliknij Rozpoznać u góry, a następnie kliknij Przekazać plik aby wybrać swój plik. Wybierz język, format wyjściowy, a następnie kliknij Rozpoznać na dnie. Ta strona ma przejrzysty interfejs i nie ma też reklam.
W moich testach ta strona była w stanie pobrać tekst z pierwszego dokumentu testowego, ale była absolutnie ogromna, gdy otworzyłem dokument Worda, więc skończyło się na zrobieniu tego ponownie i wybraniu Plain Text jako formatu wyjściowego.
W drugim teście z kolumnami dokument programu Word był pusty i nie mogłem nawet znaleźć tekstu. Nie jestem pewna, co się tam stało, ale wydaje się, że nie poradzi sobie z niczym innym niż prostymi akapitami. Oto wyniki z FineReader: Test1 Doc i Test2 Doc.
Następna strona, NewOCR.com, była OK, ale nie tak dobra, jak pierwsza strona. Po pierwsze, ma reklamy, ale na szczęście nie za tonę. Najpierw wybierz plik, a następnie kliknij przycisk Zapowiedź przycisk.
Następnie możesz obrócić obraz i dostosować obszar, w którym chcesz skanować tekst. To trochę tak, jak proces skanowania działa na komputerze z podłączonym skanerem.
Jeśli dokument ma wiele kolumn, możesz sprawdzić Analiza układu strony i spróbuje podzielić tekst na kolumny. Kliknij przycisk OCR, poczekaj kilka sekund, aż się zakończy, a następnie przewiń w dół, gdy strona zostanie odświeżona.
W pierwszym teście poprawnie przeczytał cały tekst, ale z jakiegoś powodu pisał wszystkie litery T w dokumencie! Nie mam pojęcia, dlaczego tak się stało, ale tak się stało. W drugim teście z włączoną analizą strony uzyskał większość tekstu, ale układ był całkowicie wyłączony.
Oto wyniki z NewOCR: Test1 Doc i Test2 Doc.
Jak widać, darmowe niestety nie daje bardzo dobrych rezultatów przez większość czasu. Pierwsza wspomniana strona jest zdecydowanie najlepsza, ponieważ nie tylko świetnie spisała się w rozpoznawaniu całego tekstu, ale także zachowała format oryginalnego dokumentu.
Jeśli jednak potrzebujesz tylko tekstu, większość z powyższych stron powinna być w stanie to dla ciebie zrobić. Jeśli masz jakieś pytania, możesz je skomentować. Cieszyć się!