Scraping, HTML

Los componentes de una página web, archivo html, css y javascript (en su forma más sencilla)


 <p >
Parrafo 1
<p >
Parrafo 2



import re
import requests
from bs4 import BeautifulSoup
link = ""
pagina = requests.get(link)
b'<!DOCTYPE html>\n<html lang="en" class="no-js">\n\t<head>\n\t\t<meta charset="UTF-8" />\n\t\t<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1"> \n\t\t<meta name="viewport" content="width=device-width, initial-scale=1.0"> \n\t\t<title>Se\xc3\xb1ales y sistemas: Una perspectiva</title>\n        <!--<link rel="stylesheet" href="css/letras1.css">-->\n\t\t<meta name="description" content="Libro en Linea" />\n\t\t<meta name="keywords" content="Se\xc3\xb1ales, sistemas, apuntes, libro" />\n\t\t<meta name="author" content="Rafa'
['<p><a rel="license" href=""><img alt="Licencia Creative Commons" style="border-width:0" src="" width="15%" height="15%" /></a><br /><span xmlns:dct="" property="dct:title">Señales y sistemas: una perspectiva</span> por <a xmlns:cc="" href="" property="cc:attributionName" rel="cc:attributionURL">Rafael Martínez-Martínez</a> se distribuye bajo una <a rel="license" href="">Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional</a>.</p>',
 '<p>Los autores han hecho su mejor esfuerzo en la preparación de este material. Se distribuye gratuitamente con la esperanza de que sea útil, pero sin ninguna garantía expresa o implícita respecto a la exactitud o completitud del contenido.</p>',
 '<p>Este prefacio (así como todo el documento electrónico) es variante respecto al tiempo, lo que consultes dependerá de la fecha y hora en que lo hagas. Creo (no tengo una referencia que confirme lo que escribiré) que los libros usuales han sido parte de la educación por tradición, es claro que hace décadas (por no decir siglos) una de las formas de almacenar los conocimientos era escribiendo libros y claro que la experiencia de interactuar con un libro es inigualable. En la actualidad tenemos herramientas tecnológicas (tantas que no sabemos que elegir) para almacenar información, transmitir y enseña, simular situaciones, etc. Por tal motivo este ""libro"" (le llamaremos documento electrónico) es un poco diferente a lo usual. Se presenta de manera escrita la teoría, pero muchas de las explicaciones son mediante video, lo cual acota a que la consulta sea mediante un dispositivo digital (por tal motivo lo definimos como un documento electrónico).</p>']
soup = BeautifulSoup(pagina.content, 'html.parser')
[<p><br/>La licencia es lo siguiente:
 Permite a otros copiar, distribuir, exhibir y ejecutar públicamente el trabajo, así como hacer y distribuir trabajos derivados con fines no comerciales pero reconociendo la autoría y sólo bajo la misma licencia o una compatible.</p>,
 <p><a href="" rel="license"><img alt="Licencia Creative Commons" height="15%" src="" style="border-width:0" width="15%"/></a><br><span property="dct:title" xmlns:dct="">Señales y sistemas: una perspectiva</span> por <a href="" property="cc:attributionName" rel="cc:attributionURL" xmlns:cc="">Rafael Martínez-Martínez</a> se distribuye bajo una <a href="" rel="license">Licencia Creative Commons Atribución-NoComercial-CompartirIgual 4.0 Internacional</a>.</br></p>,
 <p>Los autores han hecho su mejor esfuerzo en la preparación de este material. Se distribuye gratuitamente con la esperanza de que sea útil, pero sin ninguna garantía expresa o implícita respecto a la exactitud o completitud del contenido.</p>]
a=soup.findAll("p", class_ = "justo")
[<p class="justo">
                     Si \( \mathbb{R}e(a)&gt;0\) la evalución
                     \({ \left. t{ e }^{ -(a+j\omega )t } \right|  }_{ 0 }^{ \infty  }=0\),
                     se tiene que:</p>,
 <p class="justo">
                       de acuerdo a la definición de valor absoluto
 <p class="justo">
                     Si \( \mathbb{R}e(a)&gt;0\) las evaluciones son \(1\) y \(-1\)
             repectivamente, al operar el signo en el denominador de la 
             primera expresión se tiene que:</p>]
" ".join(texto)
'de  acuerdo  a  la  definición  de  valor  absoluto'
link = ""
pagina = requests.get(link)
