Leer contenido de una página web con urllib
El primer paso del proyecto sería encontrar una manera de conectarnos a una página web y leer su contenido.
En python existen numerosos módulos para realizar varias funcionalidades.
Para conectarnos a una página web por internet y leer su contenido existen varios módulos que podríamos usar
. sockets
. urllib
. beautiful soap
Vamos a escoger el módulo urllib que nos permitirá ver algunos conceptos interesantes de Python.
Para leer el contenido de una página web podríamos usar el siguiente programa
Vamos a usar el sitio de mi blog en internet a modo de ejemplo, vosotros podríais probar con cualquier otro sitio de web.
# -*- coding: iso-8859-15 -*-
# Proyecto Web Scraping para SEO con Python
# Clase 2: Leer contenido de una página web con urllib
# webscrap2
import urllib
url = «https://evginformatica.blogspot.com/»
html = urllib.urlopen(url).read()
print html
La línea
# -*- coding: iso-8859-15 -*-
nos indica el tipo de codificación del código, sino se pone no podremos poner acentos ni siquiera en los comentarios
con urllib.urlopen(url) nos conectamos a la dirección indicada y con .read leemos todo el contenido de la página web.
Copiaremos el código anterior en nuestro proyecto webscrap y lo ejecutamos.
Veréis cómo en pantalla se muestra el código HTML de la página.