Curso Web Scraping para SEO – Clase 2

Leer contenido de una página web con urllib

 

El primer paso del proyecto sería encontrar una manera de conectarnos a una página web y leer su contenido.

 

En python existen numerosos módulos para realizar varias funcionalidades.

Para conectarnos a una página web por internet y leer su contenido existen varios módulos que podríamos usar

     . sockets

     . urllib

     . beautiful soap

 

Vamos a escoger el módulo urllib que nos permitirá ver algunos conceptos interesantes de Python.

 

Para leer el contenido de una página web podríamos usar el siguiente programa

Vamos a usar el sitio de mi blog en internet a modo de ejemplo, vosotros podríais probar con cualquier otro sitio de web.

 

# -*- coding: iso-8859-15 -*-

# Proyecto Web Scraping para SEO con Python
# Clase 2: Leer contenido de una página web con urllib
# webscrap2

import urllib
url = «https://evginformatica.blogspot.com/»

html = urllib.urlopen(url).read()
print html

La línea

# -*- coding: iso-8859-15 -*-
nos indica el tipo de codificación del código, sino se pone no podremos poner acentos ni siquiera en los comentarios

con  urllib.urlopen(url) nos conectamos a la dirección indicada y con .read leemos todo el contenido de la página web.

 

Copiaremos el código anterior en nuestro proyecto webscrap y lo ejecutamos.

Veréis cómo en pantalla se muestra el código HTML de la página.

 

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *