Tekst extraheren uit PDF- en afbeeldingsbestanden
Heeft u een pdf -document waaruit u alle tekst wilt halen? Hoe zit het met afbeeldingsbestanden van een gescand document die u wilt converteren naar bewerkbare tekst? Dit zijn enkele van de meest voorkomende problemen die ik op de werkplek heb gezien bij het werken met bestanden.
In dit artikel zal ik het hebben over verschillende manieren waarop u kunt proberen tekst uit een PDF of uit een afbeelding te extraheren. Uw extractieresultaten zijn afhankelijk van het type en de kwaliteit van de tekst in de PDF of afbeelding. Uw resultaten zijn ook afhankelijk van de tool die u gebruikt, dus u kunt het beste zoveel mogelijk van de onderstaande opties uitproberen om de beste resultaten te krijgen.
Tekst extraheren uit afbeelding of pdf
De eenvoudigste en snelste manier om te beginnen, is door een online PDF -tekstextractieservice te proberen. Deze zijn normaal gesproken gratis en kunnen u precies geven wat u zoekt zonder dat u iets op uw computer hoeft te installeren. Hier zijn er twee die ik heb gebruikt met zeer goede tot uitstekende resultaten:
PDF uitpakken
ExtractPDF is een gratis tool om afbeeldingen, tekst en lettertypen uit een PDF -bestand te halen. De enige beperking is dat de maximale grootte voor het PDF -bestand 10 MB is. Dat is een beetje klein; dus als je een groter bestand hebt, probeer dan een van de andere methoden hieronder. Kies uw bestand en klik vervolgens op de knop Bestand verzenden(Send file) . De resultaten zijn normaal gesproken erg snel en u zou een voorbeeld van de tekst moeten zien wanneer u op het tabblad Tekst klikt.(Text)
Het is ook een leuk bijkomend voordeel dat het ook afbeeldingen uit het PDF -bestand haalt, voor het geval je die nodig hebt! Over het algemeen werkt de online tool geweldig, maar ik ben een aantal PDF -documenten tegengekomen die me grappige output geven. De tekst wordt prima geëxtraheerd, maar om de een of andere reden zal er een regeleinde achter elk woord staan! Geen groot probleem voor een kort PDF -bestand, maar zeker een probleem voor bestanden met veel tekst. Als dat je overkomt, probeer dan de volgende tool.
Online OCR
Online OCR werkte meestal voor de documenten die niet goed werden geconverteerd met ExtractPDF , dus het is een goed idee om beide diensten te proberen om te zien welke u betere uitvoer geeft. Online OCR heeft ook een aantal leukere functies die handig kunnen zijn voor iedereen met een groot PDF -bestand dat alleen tekst op een paar pagina's hoeft te converteren in plaats van het hele document.
Het eerste dat u wilt doen, is doorgaan en een gratis account maken. Het is een beetje vervelend, maar als je het gratis account niet aanmaakt, zal het je PDF slechts gedeeltelijk converteren in plaats van het hele document. In plaats van alleen een document van 5 MB te kunnen uploaden, kunt u met een account tot 100 MB per bestand uploaden.
Kies eerst een taal en kies vervolgens het type uitvoerformaten dat u voor het geconverteerde bestand wilt. Je hebt een aantal opties en je kunt er meer dan één kiezen als je wilt. Onder Document(Multipage document) met meerdere pagina's kunt u Paginanummers(Page numbers) selecteren en vervolgens alleen de pagina's kiezen die u wilt converteren. Vervolgens selecteert u het bestand en klikt u op Converteren(Convert) !
Na de conversie wordt u naar het gedeelte Documenten(Documents) geleid (als u bent ingelogd) waar u kunt zien hoeveel vrije pagina's u nog heeft en links om uw geconverteerde bestanden te downloaden. Het lijkt alsof je maar 25 gratis pagina's per dag hebt, dus als je meer nodig hebt, moet je ofwel even wachten of meer pagina's kopen.
Online OCR heeft mijn (Online OCR)PDF 's uitstekend geconverteerd omdat het in staat was de eigenlijke lay-out van de tekst te behouden. In mijn test heb ik een Word - document genomen dat opsommingstekens, verschillende lettergroottes, enz. Gebruikte en dit naar een PDF geconverteerd . Daarna gebruikte ik Online OCR om het terug te converteren naar Word -formaat en het was ongeveer 95% hetzelfde als het origineel. Dat is behoorlijk indrukwekkend voor mij.
En als u een afbeelding naar tekst wilt converteren, kan Online OCR dat net zo gemakkelijk doen als tekst uit PDF - bestanden extraheren.
Gratis online OCR
Aangezien we het hadden over OCR van afbeelding naar tekst , wil ik nog een goede website noemen die heel goed werkt op afbeeldingen. Gratis online OCR(Free Online OCR) was erg goed en zeer nauwkeurig bij het extraheren van tekst uit mijn testafbeeldingen. Ik nam een paar foto's van mijn iPhone van pagina's uit boeken, pamfletten, enz. en ik was verbaasd over hoe goed het in staat was om de tekst om te zetten.
Kies uw bestand en klik vervolgens op de knop Uploaden(Upload) . Op het volgende scherm zijn er een aantal opties en een voorbeeld van de afbeelding. Je kunt het bijsnijden als je niet alles wilt OCRen(OCR) . Klik vervolgens op de OCR -knop en uw geconverteerde tekst verschijnt onder het afbeeldingsvoorbeeld. Het heeft ook geen beperkingen, wat erg fijn is.
Naast de online services zijn er twee freeware PDF -converters die ik wil noemen voor het geval je software nodig hebt die lokaal op je computer draait om de conversies uit te voeren. Met online diensten heb je altijd een internetverbinding(Internet) nodig en dat is misschien niet voor iedereen mogelijk. Ik merkte echter dat de kwaliteit van de conversies van de freeware-programma's aanzienlijk slechter was dan die van de websites.
A-PDF-tekstextractor
A-PDF Text Extractor is freeware die redelijk goed tekst uit PDF - bestanden extraheert. Nadat u het hebt gedownload en geïnstalleerd, klikt u op de knop Openen(Open) om uw PDF -bestand te kiezen. Klik vervolgens op Tekst extraheren(Extract) om het proces te starten.
Het zal u een locatie vragen om het tekstuitvoerbestand op te slaan en dan zal het beginnen met uitpakken. U kunt ook op de optieknop(Option) klikken, waarmee u alleen bepaalde pagina's kunt kiezen om uit te pakken en het extractietype. De tweede optie is interessant omdat het de tekst in verschillende lay-outs extraheert en het de moeite waard is om ze alle drie te proberen om te zien welke je de beste output geeft.
PDF2Text-piloot
PDF2Text Pilot is goed in het extraheren van tekst. Het heeft geen opties; je voegt gewoon bestanden of mappen toe, converteert en hoopt op het beste. Het werkte goed op sommige pdf's , maar voor de meeste waren er tal van problemen.
Klik gewoon op Bestanden toevoegen(Add Files) en klik vervolgens op Converteren(Convert) . Zodra de conversie is voltooid, klikt u op Bladeren(Browse) om het bestand te openen. Je kilometers zullen variëren met dit programma, dus verwacht niet te veel.
Het is ook vermeldenswaard dat als u zich in een zakelijke omgeving bevindt of een exemplaar van Adobe Acrobat van uw werk kunt bemachtigen, u echt veel betere resultaten kunt krijgen. Acrobat is natuurlijk niet gratis, maar het heeft opties om PDF naar Word- , Excel- en HTML -formaat te converteren. Het is ook de beste manier om de structuur van het originele document te behouden en gecompliceerde tekst om te zetten.
Related posts
Meerdere tekstbestanden combineren of samenvoegen
Beste gratis alternatieve PDF-viewer voor Adobe Reader
Converteer een Windows-pc naar een virtuele machine met behulp van Hyper-V
De kleur van het mappictogram wijzigen in Windows
De beste gratis defrag-tool voor Windows is zichzelf
Schaduw toevoegen aan tekst of afbeelding in GIMP
Een cd of dvd branden, kopiëren en back-uppen
HoneyView Review: gratis snelle Image Viewer-software voor Windows 10
Beste gratis klembordmanagers voor Windows
Gratis beeldbewerkingssoftware en -editors voor Windows 11/10
Beste gratis Windows-registeropruimer
Gratis tools om het contextmenu met de rechtermuisknop aan te passen
Splits of verdeel uw bureaubladscherm in meerdere delen
Meerdere PowerPoint-presentaties combineren
De beste bronnen voor rechtenvrije muziek om te gebruiken voor YouTube-video's
ImBatch is een gratis Batch Image Processing Software voor Windows PC
10 beste tools om MP3's te taggen en metadata te bewerken
Hoe tekst en afbeelding vast te pinnen op de geschiedenis van het klembord in Windows 11/10
Een map toewijzen aan een stationsletter in Windows
Automatisch screenshots maken met gedefinieerde tijdsintervallen in Windows