Jak mogę skopiować tekst z pliku PDF, zachowując formatowanie?

PDF, wszechobecny format dokumentu, doskonale nadaje się do udostępniania dokumentów przy jednoczesnym zachowaniu czcionek, obrazów i ogólnego układu na różnych platformach. Czy istnieje jednak prosty sposób na zachowanie tego samego formatowania podczas kopiowania i wklejania tekstu z dokumentu?

Dzisiejsza sesja pytań i odpowiedzi przychodzi do nas dzięki uprzejmości SuperUser - poddziału Stack Exchange, społecznościowego forum z pytaniami i odpowiedziami.

Pytanie

Czytnik SuperUser Colen szuka sposobu na wyodrębnienie tekstu z plików PDF z zachowaniem formatowania:

Kiedy kopiuję tekst z pliku PDF i do edytora tekstowego, kończy się to myleniem na wiele sposobów. Formatowanie takie jak pogrubienie i kursywa zostanie utracone; łagodne łamania linii w akapicie tekstu są konwertowane na twarde podziały wierszy; kreski, aby złamać słowo na dwóch liniach, są zachowane nawet wtedy, gdy nie powinny; a pojedyncze i podwójne cudzysłowy są zastępowane? znaki.

Idealnie chciałbym móc kopiować tekst z pliku PDF i mieć formatowanie przekonwertowane na kody HTML, "inteligentne cytaty" przekonwertowane na "i", a podziały wierszy wykonane prawidłowo. Czy jest jakiś sposób to zrobić?

Czy Colen (i reszta z nas) może szybko i łatwo uzyskać tekst do pobrania bez poświęcania formatowania?

Odpowiedź

Pomocnik SuperUser Frabjous oferuje rozwiązanie połączone z dużą dozą ostrożności:

Po pierwsze musisz zrozumieć, co to jest plik PDF. Pliki PDF mają naśladować wydrukowaną stronę i są zaprojektowane wyłącznie jako format wyjściowy, a nie format wejściowy. PDF to w zasadzie mapa zawierająca dokładną lokalizację znaków (pojedyncze litery lub znaki interpunkcyjne itp.) lub obrazy. W większości przypadków plik PDF nie przechowuje nawet informacji o tym, gdzie kończy się jedno słowo, a inny zaczyna, a tym bardziej rzeczy takie, jak miękkie przerwy w stosunku do twardych przerw dla końcówek akapitu.

(Kilka ostatnich plików PDF przechowuje pewne informacje na ten temat, ale jest to nowa technologia i możesz mieć szczęście, aby znaleźć takie pliki PDF. Nawet gdyby tak było, Twoja przeglądarka plików PDF może o tym nie wiedzieć).

W każdym razie, to do twojego oprogramowania należy implementacja jakiejś "sztucznej inteligencji", aby wyodrębnić tylko z lokalizacji poszczególnych znaków, co to jest słowo, co to jest akapit i tak dalej. Różne oprogramowanie zrobi to lepiej niż inne, a także zależy od tego, w jaki sposób powstał plik PDF. W każdym razie nigdy nie powinieneś oczekiwać doskonałych rezultatów. Posiadanie wyjściowego pliku PDF nie jest tym samym, co dokument źródłowy. O wiele lepiej jest spróbować to zdobyć, jeśli możesz.

Standardowym rozwiązaniem twojego problemu jest użycie programu Adobe Acrobat Professional (drogi, a nie darmowy czytnik) do przekonwertowania pliku PDF na format HTML. Nawet to nie przyniesie doskonałych rezultatów.

Istnieje bezpłatne oprogramowanie, które może być użyte do wyodrębnienia tekstu z plików PDF z nietkniętym formatowaniem, ale znowu nie oczekuj doskonałych wyników. Zobacz np. Kaliber (który może konwertować do formatu RTF), pdftohtml / pdfreflow lub edytor tekstu AbiWord (z włączonymi wszystkimi wtyczkami importu / eksportu). Istnieje również wtyczka do importowania PDF dla OpenOffice.

Ale proszę nie oczekiwać doskonałości z żadnym z tych wyników. Idziecie tutaj przeciwko ziarnu. PDF nie jest po prostu edytowalnym formatem wejściowym.

Jeśli masz problem z wyborem narzędzia, od którego zaczynasz, Calibre jest prawdziwym dokumentem szwajcarskiego scyzoryka. Możesz także użyć go do konwersji plików PDF do użytku w czytniku e-booków i uporządkowania biblioteki ebook / dokumentów.

Czy masz coś do dodania do wyjaśnienia? Dźwięk w komentarzach. Chcesz przeczytać więcej odpowiedzi od innych użytkowników Stack Exchange, którzy znają się na technologii? Sprawdź cały wątek dyskusji tutaj.

« Następny artykuł

Jak mogę wyłączyć lub zmienić przypisanie klucza Windows? (Jak)

Jak

Poprzedni artykuł »

Jak mogę połączyć się z lokalnym serwerem internetowym bez wysyłania ruchu do Internetu iz powrotem? (Jak)

Jak

Najpopularniejsze artykuły

Jak mogę sprawdzić konfigurację pamięci mojego komputera bez otwierania obudowy?

Jak

Jak mogę wyłączyć ostrzeżenia o wydajności Aero systemu Windows 7?

Jak

Jak wyłączyć gesty Windows 8 na laptopie?

Jak