Curso Web Scraping para SEO – Clase 4

Decodificar enlaces y ver acentos

 

En este paso vamos a sustituir los caracteres especiales decodificando los enlaces

 

# -*- coding: iso-8859-15 -*-

# Proyecto Web Scraping para SEO con Python
# Clase 4: Decodificar enlaces y ver acentos
# webscrap4


import urllib
import re

url = «https://evginformatica.blogspot.com/»

htmluni = urllib.urlopen(url).read()
html=urllib.unquote(htmluni).decode(«utf-8»)

busqueda = «href='»+url+«.+?'»

enlaces = re.findall(busqueda, html)
for enlace in enlaces:
   print enlace

la linea 

html=urllib.unquote(htmluni).decode(«utf-8»)

 

unquote es para sustituir los códigos especiales (pej %20 por espacio) y decode(«utf-8») es para poner los caracteres en español (pej acentos)

 

Con estos cambios ya veremos bien los enlaces

 

pej.

href=’https://evginformatica.blogspot.com/search/label/Curso Online’

href=’https://evginformatica.blogspot.com/search/label/Lenguajes de programación’

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *