Decodificar enlaces y ver acentos
En este paso vamos a sustituir los caracteres especiales decodificando los enlaces
# -*- coding: iso-8859-15 -*-
# Proyecto Web Scraping para SEO con Python
# Clase 4: Decodificar enlaces y ver acentos
# webscrap4
import urllib
import re
url = «https://evginformatica.blogspot.com/»
htmluni = urllib.urlopen(url).read()
html=urllib.unquote(htmluni).decode(«utf-8»)
busqueda = «href='»+url+«.+?'»
enlaces = re.findall(busqueda, html)
for enlace in enlaces:
print enlace
# Proyecto Web Scraping para SEO con Python
# Clase 4: Decodificar enlaces y ver acentos
# webscrap4
import urllib
import re
url = «https://evginformatica.blogspot.com/»
htmluni = urllib.urlopen(url).read()
html=urllib.unquote(htmluni).decode(«utf-8»)
busqueda = «href='»+url+«.+?'»
enlaces = re.findall(busqueda, html)
for enlace in enlaces:
print enlace
la linea
html=urllib.unquote(htmluni).decode(«utf-8»)
unquote es para sustituir los códigos especiales (pej %20 por espacio) y decode(«utf-8») es para poner los caracteres en español (pej acentos)
Con estos cambios ya veremos bien los enlaces
pej.
href=’https://evginformatica.blogspot.com/search/label/Curso Online’
href=’https://evginformatica.blogspot.com/search/label/Lenguajes de programación’