PDF, wszechobecny format dokumentu, doskonale nadaje się do udostępniania dokumentów przy jednoczesnym zachowaniu czcionek, obrazów i ogólnego układu na różnych platformach. Czy istnieje jednak prosty sposób na zachowanie tego samego formatowania podczas kopiowania i wklejania tekstu z dokumentu?
Dzisiejsza sesja pytań i odpowiedzi przychodzi do nas dzięki uprzejmości SuperUser - poddziału Stack Exchange, społecznościowego forum z pytaniami i odpowiedziami.
Czytnik SuperUser Colen szuka sposobu na wyodrębnienie tekstu z plików PDF z zachowaniem formatowania:
Kiedy kopiuję tekst z pliku PDF i do edytora tekstowego, kończy się to myleniem na wiele sposobów. Formatowanie takie jak pogrubienie i kursywa zostanie utracone; łagodne łamania linii w akapicie tekstu są konwertowane na twarde podziały wierszy; kreski, aby złamać słowo na dwóch liniach, są zachowane nawet wtedy, gdy nie powinny; a pojedyncze i podwójne cudzysłowy są zastępowane? znaki.
Idealnie chciałbym móc kopiować tekst z pliku PDF i mieć formatowanie przekonwertowane na kody HTML, "inteligentne cytaty" przekonwertowane na "i", a podziały wierszy wykonane prawidłowo. Czy jest jakiś sposób to zrobić?
Czy Colen (i reszta z nas) może szybko i łatwo uzyskać tekst do pobrania bez poświęcania formatowania?
Pomocnik SuperUser Frabjous oferuje rozwiązanie połączone z dużą dozą ostrożności:
Po pierwsze musisz zrozumieć, co to jest plik PDF. Pliki PDF mają naśladować wydrukowaną stronę i są zaprojektowane wyłącznie jako format wyjściowy, a nie format wejściowy. PDF to w zasadzie mapa zawierająca dokładną lokalizację znaków (pojedyncze litery lub znaki interpunkcyjne itp.) lub obrazy. W większości przypadków plik PDF nie przechowuje nawet informacji o tym, gdzie kończy się jedno słowo, a inny zaczyna, a tym bardziej rzeczy takie, jak miękkie przerwy w stosunku do twardych przerw dla końcówek akapitu.
(Kilka ostatnich plików PDF przechowuje pewne informacje na ten temat, ale jest to nowa technologia i możesz mieć szczęście, aby znaleźć takie pliki PDF. Nawet gdyby tak było, Twoja przeglądarka plików PDF może o tym nie wiedzieć).
W każdym razie, to do twojego oprogramowania należy implementacja jakiejś "sztucznej inteligencji", aby wyodrębnić tylko z lokalizacji poszczególnych znaków, co to jest słowo, co to jest akapit i tak dalej. Różne oprogramowanie zrobi to lepiej niż inne, a także zależy od tego, w jaki sposób powstał plik PDF. W każdym razie nigdy nie powinieneś oczekiwać doskonałych rezultatów. Posiadanie wyjściowego pliku PDF nie jest tym samym, co dokument źródłowy. O wiele lepiej jest spróbować to zdobyć, jeśli możesz.
Standardowym rozwiązaniem twojego problemu jest użycie programu Adobe Acrobat Professional (drogi, a nie darmowy czytnik) do przekonwertowania pliku PDF na format HTML. Nawet to nie przyniesie doskonałych rezultatów.
Istnieje bezpłatne oprogramowanie, które może być użyte do wyodrębnienia tekstu z plików PDF z nietkniętym formatowaniem, ale znowu nie oczekuj doskonałych wyników. Zobacz np. Kaliber (który może konwertować do formatu RTF), pdftohtml / pdfreflow lub edytor tekstu AbiWord (z włączonymi wszystkimi wtyczkami importu / eksportu). Istnieje również wtyczka do importowania PDF dla OpenOffice.
Ale proszę nie oczekiwać doskonałości z żadnym z tych wyników. Idziecie tutaj przeciwko ziarnu. PDF nie jest po prostu edytowalnym formatem wejściowym.
Jeśli masz problem z wyborem narzędzia, od którego zaczynasz, Calibre jest prawdziwym dokumentem szwajcarskiego scyzoryka. Możesz także użyć go do konwersji plików PDF do użytku w czytniku e-booków i uporządkowania biblioteki ebook / dokumentów.
Czy masz coś do dodania do wyjaśnienia? Dźwięk w komentarzach. Chcesz przeczytać więcej odpowiedzi od innych użytkowników Stack Exchange, którzy znają się na technologii? Sprawdź cały wątek dyskusji tutaj.