Tabellen uit PDF-documenten extraheren

In dit artikel wordt uitgelegd hoe u tabellen uit PDF-documenten extraheert(extract tables from PDF documents) . Mogelijk hebt u veel PDF- bestanden die meerdere tabellen bevatten die u afzonderlijk wilt gebruiken. Het kopiëren(Copying) en plakken van die tabellen is geen goede optie omdat het mogelijk niet de verwachte uitvoer oplevert, daarom hebt u een aantal andere eenvoudige opties nodig die tabellen uit een PDF -bestand kunnen extraheren en die tabellen als afzonderlijke bestanden kunnen opslaan.

De meeste van deze hulpprogramma's voor het uitpakken van PDF-tabellen(PDF table extractor tools) kunnen niet helpen als de PDF- tabel is gescand. Maak in zo'n geval eerst de PDF doorzoekbaar(make the PDF searchable)  en probeer dan deze opties.

Tabellen uit PDF-documenten extraheren

In dit bericht hebben we 2 gratis online services en 3 gratis software toegevoegd om tabellen uit een PDF -bestand te extraheren:

  1. PDF naar XLS
  2. PDFnaarExcel.com
  3. Tabula
  4. ByteScout PDF-multitool
  5. Sejda pdf-bureaublad.

1] PDF naar XLS

PDF naar XLS-service

PDF naar XLS is een van de beste opties voor het extraheren van tabellen uit PDF . Het heeft twee functies die het handig maken. U kunt tabellen uit 20 PDF- documenten samen ophalen. Ook is de extractie van de PDF- tabel automatisch. Het genereert de uitvoer als een XLSX -bestand. Als een PDF meerdere tabellen heeft, wordt elke tabel afzonderlijk opgeslagen in verschillende vellen van het XLSX -uitvoerbestand .

Open de startpagina(Open the homepage) van deze service. Sleep daarna PDF(PDF) - bestanden met slepen en neerzetten of gebruik de knop BESTANDEN UPLOADEN(UPLOAD FILES) . Elke geüploade PDF wordt automatisch geconverteerd naar XLSX-formaat. Wanneer de uitvoerbestanden klaar zijn, kunt u ze één voor één downloaden of een ZIP -bestand downloaden dat alle uitvoerbestanden zal bevatten.

2] PDFnaarExcel.com

Tabellen uit PDF-documenten extraheren

De service PDFtoExcel.com(PDFtoExcel.com) kan tabellen uit één PDF tegelijk extraheren, maar het ondersteunt meerdere platforms om PDF te uploaden . Het ondersteunt OneDrive- , desktop- , Google Drive- en Dropbox- platforms om een (Dropbox)​​PDF te uploaden . Het conversieproces is ook automatisch.

Deze service-homepage is hier(here) . Selecteer daar een uploadoptie om PDF toe te voegen . Daarna uploadt en converteert het automatisch PDF naar Excel ( XLSX ) bestand. Wanneer de uitvoer gereed is, krijgt u de downloadlink om het uitvoerbestand met PDF - tabel(len) op te slaan.

Opmerking:(Note: ) hoewel deze service vermeldt dat het ook tabellen uit gescande PDF - bestanden kan extraheren, werkte het niet voor mij. U kunt het nog steeds proberen voor gescande PDF .

3] Tabula

Tabula PDF-extractorsoftware

Tabula is krachtige software die automatisch tabellen in een PDF kan detecteren en u die tabellen vervolgens laat opslaan als TSV- , JSON- of CSV -bestand. U kunt de optie selecteren om afzonderlijke CSV - bestanden voor elke PDF - tabel op te slaan of alle tabellen in één CSV -bestand op te slaan.

Klik hier(click here) om deze open-source PDF-tabelextractor te downloaden . Het vereist ook Java(requires Java) om het met succes uit te voeren en te gebruiken.

Pak het ZIP -bestand uit dat u hebt gedownload en voer het bestand tabula.exe uit(tabula.exe) . Het opent een pagina in uw standaardbrowser. Als de pagina niet wordt geopend, voeg dan http://localhost:8080 toe in uw browser en druk op Enter .

Nu ziet u de interface waar u de optie Bladeren(Browse) kunt gebruiken om een ​​PDF toe te voegen . Druk daarna op de knop Importeren(Import) . Wanneer de PDF is toegevoegd, kunt u de PDF -pagina's op de interface zien.

Gebruik de knop Tabellen(Autodetect Tables) automatisch detecteren en alle tabellen in die PDF worden automatisch gemarkeerd. U kunt een tafel ook handmatig markeren door een bepaalde tafel te selecteren. Als u wilt, kunt u ook geselecteerde tabellen(remove selected tables) van uw keuze verwijderen.

Dit zal u helpen alleen die tabellen op te slaan die u wilt. Wanneer PDF -tabellen zijn gemarkeerd, klikt u op de knop Voorbeeld en geëxtraheerde gegevens exporteren(Preview & Export Extracted Data) .

Gebruik ten slotte het vervolgkeuzemenu bovenaan om een ​​uitvoerformaat te selecteren en druk op de knop Exporteren(Export) . Hiermee worden PDF -tabellen opgeslagen in het door u geselecteerde uitvoerformaat.

4] ByteScout PDF-multitool

ByteScout PDF Multitool- pdf toevoegen en tabellen detecteren

Zoals de naam al doet vermoeden, wordt deze software geleverd met meerdere tools. Het heeft tools zoals het converteren van PDF naar TIFF met meerdere pagina(convert PDF to multipage TIFF) 's , het roteren van PDF-documenten(rotate PDF document) , het ondoorzoekbaar maken van PDF(make PDF unsearchable) , het optimaliseren van PDF(optimize PDF) , het toevoegen van een afbeelding aan PDF(add an image to PDF) en meer. De functie PDF(PDF) -tabeldetector is er ook, wat best geweldig is. Het voordeel van deze tool is dat u ook tabellen uit gescande PDF(extract tables from scanned PDF) kunt extraheren . U kunt tabellen op meerdere pagina's detecteren en die tabellen vervolgens extraheren als CSV- , XLS- , XML- , TXT- of JSON -bestand. Voor extractie kun je ook een paginabereik instellen(page range)om tabellen alleen van gespecificeerde pagina's te extraheren.

Je kunt deze software hier(here) pakken . Het is alleen gratis voor niet-commercieel gebruik(free for non-commercial use) . Voer na de installatie deze software uit en gebruik de optie Document(Open Document) openen om een ​​PDF toe te voegen . Klik daarna op het hulpmiddel Tabellen detecteren(Detect tables) , zoals gemarkeerd in de bovenstaande afbeelding. Deze tool is aanwezig onder de categorie Gegevensextractie(Data Extraction) .

Er wordt een venster geopend waarin u voorwaarden kunt instellen om tabellen te detecteren. U kunt bijvoorbeeld een minimum aantal kolommen, rijen, minimum regeleinden tussen tabellen instellen, tabeldetectiemodus instellen op begrensde of randloze tabel, enz. Gebruik opties of behoud de standaardinstellingen.

Druk daarna op de knop Volgende tafel detecteren(Detect next table) in dat vak. Het zal een tabel op de huidige pagina identificeren en selecteren. Op die manier kunt u naar een andere pagina gaan en meer tabellen detecteren.

tabellen detecteren en pdf-tabellen opslaan met geselecteerde uitvoer

Als u klaar bent, gebruikt u de knop Doorgaan naar extractie(Proceed to extraction) en selecteert u het uitvoerformaat. Ten slotte kunt u opties gebruiken om de tabellen van de huidige pagina op te slaan of een paginabereik te definiëren en de uitvoer op te slaan.

De tool geeft een bevredigend resultaat. Maar soms kan het andere inhoud in PDF detecteren en is het mogelijk niet in staat om tabellen van meerdere pagina's te extraheren. In dat geval moet u het gebruiken om tabellen één voor één op te halen en op te slaan.

5] Sejda PDF-bureaublad

Sejda PDF Desktop met pdf naar Excel-converter

Sejda PDF Desktop is ook een multifunctionele software. Het kan PDF optimaliseren of comprimeren(compress PDF) , watermerk aan PDF toevoegen, beperkingen uit PDF verwijderen , (remove restrictions from PDF)PDF -document bewerken , enz. Het gratis abonnement heeft echter beperkingen. In het gratis abonnement kunnen slechts 3 taken per dag worden gedaan. De limiet voor de PDF- grootte is ook 50 MB of 10 pagina's(10 pages) .

U kunt de PDF naar Excel(PDF to Excel) -conversietool gebruiken om PDF - tabellen te extraheren. Het detecteert automatisch de tabellen in PDF- pagina's en laat u die tabellen opslaan als XLSX of CSV .

De downloadlink is hier(here) . Gebruik na de installatie de tool PDF naar Excel vanuit de hoofdinterface. Gebruik na het selecteren van die tool de knop PDF-bestanden kiezen(Choose PDF files) . Er kan slechts één PDF aan het gratis abonnement worden toegevoegd.

Wanneer de PDF is toegevoegd, biedt deze de knoppen PDF converteren naar CSV(Convert PDF to CSV) en PDF converteren naar Excel . (Convert PDF to Excel)Gebruik een knop en vervolgens kunt u de uitvoer opslaan op de gewenste locatie op uw pc.

converteer pdf-tabel naar Excel of csv

De tool voor het detecteren van PDF -tabellen is goed. (PDF)U hoeft tabellen niet handmatig te detecteren. Toch kan het soms andere tekstinhoud als een PDF -tabel bevatten en opslaan in de uitvoer. Maar over het algemeen zijn de resultaten goed.

Dat is alles.

Dit zijn enkele goede hulpmiddelen om tabellen uit PDF te extraheren . Tabula -software is effectiever dan andere tools. Toch kun je alle tools uitproberen en kijken welke helpt.

Vergelijkbare leest:(Similar reads:)



About the author

Ik ben een ervaren software-engineer met meer dan 10 jaar ervaring in het Windows-ecosysteem voor app- en bestandsbeheer. Ik ben ook een veteraan in het ontwikkelen van systemen en beveiligingsoplossingen voor bedrijven en overheden. Mijn ervaringen in beide arena's geven me een uniek perspectief op wat goede software, systemen en beveiliging maakt en hoe deze efficiënt te bouwen.



Related posts