Excel gebruiken als hulpmiddel om gegevens van internet te kopiëren

Webscraping(Web) is het extraheren van gegevens, informatie of afbeeldingen van een website met behulp van een geautomatiseerde methode. Zie(Think) het als kopiëren en plakken op volautomatisch.

We schrijven of gebruiken een app om naar de websites te gaan die we willen en maken een kopie van de specifieke dingen die we van die websites willen. Het is veel nauwkeuriger dan het downloaden van een hele website(downloading an entire website) .

Zoals elke tool kan webscraping ten goede of ten kwade worden gebruikt. Enkele van de betere redenen om websites te schrapen, zijn het in een zoekmachine rangschikken op basis van de inhoud, prijsvergelijkingen of het volgen van beursinformatie. Je zou het zelfs als een soort onderzoekstool kunnen gebruiken.

Hoe kan ik websites schrapen met Excel ?

Geloof het of niet, Excel heeft al heel lang de mogelijkheid om gegevens van websites te extraheren, in ieder geval sinds Excel 2003 . Het is gewoon dat webscraping iets is waar de meeste mensen niet aan denken, laat staan ​​dat ze denken aan het gebruik van een spreadsheetprogramma om het werk te doen. Maar het is verrassend eenvoudig en krachtig. Laten we eens kijken hoe het werkt door een verzameling Microsoft Office - sneltoetsen te maken.

Vind de sites die u wilt schrapen

Het eerste dat we gaan doen, is de specifieke webpagina's vinden waarvan we informatie willen krijgen. Laten we naar de bron gaan en zoeken op https://support.office.com/ . We gaan de zoekterm 'veelgebruikte sneltoetsen' gebruiken. We kunnen het specifieker maken door de naam van de specifieke app te gebruiken, zoals Outlook , Excel , Word , enzovoort. Het kan een goed idee zijn om de resultatenpagina van een bladwijzer te voorzien, zodat we daar gemakkelijk terug kunnen komen.

Klik(Click) op het zoekresultaat, "Sneltoetsen in Excel voor Windows". Zoek op die pagina de lijst met Excel - versies en klik op Nieuwere versies(Newer Versions) . Nu werken we met de nieuwste en beste.

We zouden terug kunnen gaan naar onze pagina met zoekresultaten en de resultaten voor alle andere Office - apps op hun eigen tabbladen openen en er een bladwijzer voor maken. Het is een goed idee, zelfs voor deze oefening. Dit is waar de meeste mensen stoppen met het verzamelen van Office(Office) -snelkoppelingen, maar wij niet. We gaan ze in Excel zetten, zodat we ermee kunnen doen wat we willen, wanneer we maar willen.

Excel openen en schrapen

Open Excel en start een nieuwe werkmap. Sla de werkmap op als Office-snelkoppelingen(Office Shortcuts) . Als je OneDrive hebt, sla het daar dan op zodat de AutoSave -functie werkt.

Nadat de werkmap is opgeslagen, klikt u op het tabblad Gegevens .(Data)

Klik in het lint van het tabblad Gegevens op (Data)Van web(From Web) .

Het venster Van de wizard Van web wordt geopend. (From Web )Hier plaatsen we het webadres of de URL van de website waarvan we gegevens willen schrapen. Schakel over naar uw webbrowser en kopieer(copy) de URL.

Plak de URL in het URL -veld van de Van web(From Web) - wizard. We kunnen ervoor kiezen om dit in de basis-(Basic) of geavanceerde(Advanced) modus te gebruiken. De geavanceerde(Advanced) modus geeft ons veel meer opties om toegang te krijgen tot de gegevens van de website. Voor deze oefening hebben we alleen de basismodus nodig. Klik (Click) op OK(OK) .

Excel zal nu proberen verbinding te maken met de website. Dit kan enkele seconden duren. Als dat zo is, zien we een voortgangsvenster.

Het Navigator- venster wordt geopend en we zien aan de linkerkant een lijst met tabellen van de website. Wanneer we er een selecteren, zien we aan de rechterkant een tabelvoorbeeld. Laten we de tabel Veelgebruikte sneltoetsen(Frequently used shortcuts ) selecteren .

We kunnen op het tabblad Webweergave(Web View) klikken om de eigenlijke website te zien, als we rond moeten kijken naar de gewenste tabel. Wanneer we het vinden, kunnen we erop klikken en het wordt geselecteerd voor import.

Nu klikken we op de knop Laden(Load) onderaan dit venster. Er zijn andere opties die we kunnen kiezen, die complexer zijn en buiten het bestek van onze eerste scrap vallen. Houd er rekening mee dat ze er zijn. De webscraping-mogelijkheden van Excel zijn zeer krachtig.

De webtabel wordt na enkele seconden in Excel geladen . We zien de gegevens aan de linkerkant, waar het nummer 1 in de onderstaande afbeelding staat. Nummer 2 markeert de query die is gebruikt om de gegevens van de website te krijgen. Wanneer we meerdere query's in een werkboek hebben, selecteren we hier degene die we moeten gebruiken.

Merk(Notice) op dat de gegevens in de spreadsheet komen als een Excel - tabel. Het is al zo ingesteld dat we de gegevens kunnen filteren of sorteren.

We kunnen dit proces herhalen voor alle andere webpagina's die de Office - snelkoppelingen hebben die we willen voor Outlook , Word , Access , PowerPoint en elke andere Office - app.

Geschraapte gegevens actueel(Scraped Data Current) houden in Excel

Als bonus voor jou gaan we leren hoe we onze geschraapte gegevens vers kunnen houden in Excel . Dit is een geweldige manier om te illustreren hoe krachtig Excel is voor het schrapen van gegevens. Zelfs hiermee doen we alleen de meest elementaire scraping die Excel kan doen.

Laten we voor dit voorbeeld een webpagina met aandeleninformatie gebruiken, zoals https://www.cnbc.com/stocks/ .

Ga door wat we eerder hebben gedaan en kopieer en plak de nieuwe URL uit de adresbalk.

U komt in het Navigator- venster en ziet de beschikbare tabellen. Laten we de belangrijkste Amerikaanse aandelenindices(Major U.S. Stock Indices) selecteren .

Zodra de gegevens zijn geschraapt, zien we de volgende spreadsheet.

Aan de rechterkant zien we de zoekopdracht voor Major US Stock Indexes . Selecteer(Select) dat zodat het wordt gemarkeerd. Zorg(Make) ervoor dat we ons op het tabblad Hulpmiddelen voor tabellen en in het (Table Tools)ontwerpgebied(Design) bevinden. Klik vervolgens op het pijltje naar beneden onder Vernieuwen(Refresh) . Klik vervolgens op Verbindingseigenschappen(Connection Properties) .

In het venster Query-eigenschappen(Query Properties ) , onder het tabblad Gebruik(Usage) , kunnen we bepalen hoe deze informatie wordt vernieuwd. We kunnen een specifieke tijdsperiode instellen om te vernieuwen, of om te vernieuwen wanneer we de werkmap de volgende keer openen, of om op de achtergrond te vernieuwen, of een combinatie hiervan. Zodra we hebben gekozen wat we nodig hebben, klikt u op OK om het venster te sluiten en door te gaan.

Dat is het! Nu kunt u vanuit een Excel(Excel) - spreadsheet aandelenkoersen, sportuitslagen of andere gegevens volgen die regelmatig veranderen . Als je goed bent met vergelijkingen en functies in Excel(Excel equations and functions) , kun je bijna alles doen met de gegevens.

Probeer misschien aandelentrends te identificeren, een fantasiesportpool op het werk te runnen of misschien gewoon het weer in de gaten te houden. Wie weet? Uw fantasie en de gegevens die op internet beschikbaar zijn, zijn de enige beperkingen.



About the author

Ik ben een webontwikkelaar met meer dan 10 jaar ervaring in het werken met de browsers Firefox en Google Docs. Ik ben een specialist in het maken van eenvoudige maar krachtige online applicaties en heb webgebaseerde oplossingen ontwikkeld voor zowel kleine bedrijven als grote organisaties. Mijn klantenbestand omvat enkele van de grootste namen in het bedrijfsleven, waaronder FedEx, Coca Cola en Macy's. Mijn vaardigheden als ontwikkelaar maken mij de ideale kandidaat voor elk project dat snel en efficiënt moet worden voltooid - van het ontwikkelen van aangepaste websites tot het maken van robuuste e-mailmarketingcampagnes.



Related posts