Python: Συλλογή links από μια ιστοσελίδα


nc
Δημοσίευση: • Share Article:

@Ο πιο κάτω κώδικας μας δίνει τη δυνατότητα να αποθηκεύσουμε όλα τα links που έχει μια ιστοσελίδα. Χρησιμοποιεί τη βιβλιοθήκη bs4 (BeautifulSoup). Αν δεν την έχετε εγκατεστημένη:
pip install bs4
Αφού κάνει parsing τον κώδικα, αποθηκεύει τα links σε αρχείο κειμένου (myLinks.txt), αντί να τα εμφανίζει στην οθόνη. Μπορείτε να αλλάξετε την παράμετρο 'a' σε 'w', ώστε το αρχείο να δημιουργείται κάθε φορά με τα links της νέας ιστοσελίδας. Εξ' ορισμού η παράμετρος είναι 'a', δηλαδή κάθε φορά που τρέχουμε το script, τα δεδομένα προστίθενται στο αρχείο κειμένου.


import requests as rq
from bs4 import BeautifulSoup

url = input("Enter Link: ")
if ("https" or "http") in url:
    data = rq.get(url)
else:
    data = rq.get("https://" + url)
soup = BeautifulSoup(data.text, "html.parser")
links = []
for link in soup.find_all("a"):
    links.append(link.get("href"))

with open("myLinks.txt", 'a') as saved:
    print(links[:10], file=saved)
    

Foreach programming

Εγγραφείτε για να βλέπετε τα εξειδικευμένα άρθρα.