Tekst extraheren uit PDF- en afbeeldingsbestanden

Heeft u een pdf -document waaruit u alle tekst wilt halen? Hoe zit het met afbeeldingsbestanden van een gescand document die u wilt converteren naar bewerkbare tekst? Dit zijn enkele van de meest voorkomende problemen die ik op de werkplek heb gezien bij het werken met bestanden.

In dit artikel zal ik het hebben over verschillende manieren waarop u kunt proberen tekst uit een PDF of uit een afbeelding te extraheren. Uw extractieresultaten zijn afhankelijk van het type en de kwaliteit van de tekst in de PDF of afbeelding. Uw resultaten zijn ook afhankelijk van de tool die u gebruikt, dus u kunt het beste zoveel mogelijk van de onderstaande opties uitproberen om de beste resultaten te krijgen.

Tekst extraheren uit afbeelding of pdf

De eenvoudigste en snelste manier om te beginnen, is door een online PDF -tekstextractieservice te proberen. Deze zijn normaal gesproken gratis en kunnen u precies geven wat u zoekt zonder dat u iets op uw computer hoeft te installeren. Hier zijn er twee die ik heb gebruikt met zeer goede tot uitstekende resultaten:

PDF uitpakken

uittrekselpdf

ExtractPDF is een gratis tool om afbeeldingen, tekst en lettertypen uit een PDF -bestand te halen. De enige beperking is dat de maximale grootte voor het PDF -bestand 10 MB is. Dat is een beetje klein; dus als je een groter bestand hebt, probeer dan een van de andere methoden hieronder. Kies uw bestand en klik vervolgens op de knop Bestand verzenden(Send file) . De resultaten zijn normaal gesproken erg snel en u zou een voorbeeld van de tekst moeten zien wanneer u op het tabblad Tekst klikt.(Text)

tekst downloaden

Het is ook een leuk bijkomend voordeel dat het ook afbeeldingen uit het PDF -bestand haalt, voor het geval je die nodig hebt! Over het algemeen werkt de online tool geweldig, maar ik ben een aantal PDF -documenten tegengekomen die me grappige output geven. De tekst wordt prima geëxtraheerd, maar om de een of andere reden zal er een regeleinde achter elk woord staan! Geen groot probleem voor een kort PDF -bestand, maar zeker een probleem voor bestanden met veel tekst. Als dat je overkomt, probeer dan de volgende tool.

Online OCR

Online OCR werkte meestal voor de documenten die niet goed werden geconverteerd met ExtractPDF , dus het is een goed idee om beide diensten te proberen om te zien welke u betere uitvoer geeft. Online OCR heeft ook een aantal leukere functies die handig kunnen zijn voor iedereen met een groot PDF -bestand dat alleen tekst op een paar pagina's hoeft te converteren in plaats van het hele document.

Het eerste dat u wilt doen, is doorgaan en een gratis account maken. Het is een beetje vervelend, maar als je het gratis account niet aanmaakt, zal het je PDF slechts gedeeltelijk converteren in plaats van het hele document. In plaats van alleen een document van 5 MB te kunnen uploaden, kunt u met een account tot 100 MB per bestand uploaden.

online ocr

Kies eerst een taal en kies vervolgens het type uitvoerformaten dat u voor het geconverteerde bestand wilt. Je hebt een aantal opties en je kunt er meer dan één kiezen als je wilt. Onder Document(Multipage document) met meerdere pagina's kunt u Paginanummers(Page numbers) selecteren en vervolgens alleen de pagina's kiezen die u wilt converteren. Vervolgens selecteert u het bestand en klikt u op Converteren(Convert) !

online ocr-documenten

Na de conversie wordt u naar het gedeelte Documenten(Documents) geleid (als u bent ingelogd) waar u kunt zien hoeveel vrije pagina's u nog heeft en links om uw geconverteerde bestanden te downloaden. Het lijkt alsof je maar 25 gratis pagina's per dag hebt, dus als je meer nodig hebt, moet je ofwel even wachten of meer pagina's kopen.

Online OCR heeft mijn (Online OCR)PDF 's uitstekend geconverteerd omdat het in staat was de eigenlijke lay-out van de tekst te behouden. In mijn test heb ik een Word - document genomen dat opsommingstekens, verschillende lettergroottes, enz. Gebruikte en dit naar een PDF geconverteerd . Daarna gebruikte ik Online OCR om het terug te converteren naar Word -formaat en het was ongeveer 95% hetzelfde als het origineel. Dat is behoorlijk indrukwekkend voor mij.

En als u een afbeelding naar tekst wilt converteren, kan Online OCR dat net zo gemakkelijk doen als tekst uit PDF - bestanden extraheren.

Gratis online OCR

Aangezien we het hadden over OCR van afbeelding naar tekst , wil ik nog een goede website noemen die heel goed werkt op afbeeldingen. Gratis online OCR(Free Online OCR) was erg goed en zeer nauwkeurig bij het extraheren van tekst uit mijn testafbeeldingen. Ik nam een ​​paar foto's van mijn iPhone van pagina's uit boeken, pamfletten, enz. en ik was verbaasd over hoe goed het in staat was om de tekst om te zetten.

gratis online ocr

Kies uw bestand en klik vervolgens op de knop Uploaden(Upload) . Op het volgende scherm zijn er een aantal opties en een voorbeeld van de afbeelding. Je kunt het bijsnijden als je niet alles wilt OCRen(OCR) . Klik vervolgens op de OCR -knop en uw geconverteerde tekst verschijnt onder het afbeeldingsvoorbeeld. Het heeft ook geen beperkingen, wat erg fijn is.

Naast de online services zijn er twee freeware PDF -converters die ik wil noemen voor het geval je software nodig hebt die lokaal op je computer draait om de conversies uit te voeren. Met online diensten heb je altijd een internetverbinding(Internet) nodig en dat is misschien niet voor iedereen mogelijk. Ik merkte echter dat de kwaliteit van de conversies van de freeware-programma's aanzienlijk slechter was dan die van de websites.

A-PDF-tekstextractor

A-PDF Text Extractor is freeware die redelijk goed tekst uit PDF - bestanden extraheert. Nadat u het hebt gedownload en geïnstalleerd, klikt u op de knop Openen(Open) om uw PDF -bestand te kiezen. Klik vervolgens op Tekst extraheren(Extract) om het proces te starten.

apdf extractor

Het zal u een locatie vragen om het tekstuitvoerbestand op te slaan en dan zal het beginnen met uitpakken. U kunt ook op de optieknop(Option) klikken, waarmee u alleen bepaalde pagina's kunt kiezen om uit te pakken en het extractietype. De tweede optie is interessant omdat het de tekst in verschillende lay-outs extraheert en het de moeite waard is om ze alle drie te proberen om te zien welke je de beste output geeft.

PDF2Text-piloot

PDF2Text Pilot  is goed in het extraheren van tekst. Het heeft geen opties; je voegt gewoon bestanden of mappen toe, converteert en hoopt op het beste. Het werkte goed op sommige pdf's , maar voor de meeste waren er tal van problemen.

pdf2text

Klik gewoon op Bestanden toevoegen(Add Files) en klik vervolgens op Converteren(Convert) . Zodra de conversie is voltooid, klikt u op Bladeren(Browse) om het bestand te openen. Je kilometers zullen variëren met dit programma, dus verwacht niet te veel.

Het is ook vermeldenswaard dat als u zich in een zakelijke omgeving bevindt of een exemplaar van Adobe Acrobat van uw werk kunt bemachtigen, u echt veel betere resultaten kunt krijgen. Acrobat is natuurlijk niet gratis, maar het heeft opties om PDF naar Word- , Excel- en HTML -formaat te converteren. Het is ook de beste manier om de structuur van het originele document te behouden en gecompliceerde tekst om te zetten.



About the author

Ik ben een professionele audio- en toetsenbordtechnicus met meer dan 10 jaar ervaring. Ik heb in het bedrijfsleven gewerkt, als consultant en productmanager, en meest recentelijk als software-engineer. Door mijn vaardigheden en ervaring kan ik aan verschillende soorten projecten werken, van kleine bedrijven tot grote bedrijven. Ik ben ook een expert in Windows 11 en werk nu ruim twee jaar aan het nieuwe besturingssysteem.



Related posts