Consejos de raspado de sitios web

Un usuario Pregunto ✅

nynni

Estoy tratando de raspar un sitio web con una tabla HTML bastante simple, pero usa Javascript para la paginación y solo puedo obtener los primeros 25 resultados cuando uso el conector web. he intentado usar

 [WaitFor = [Timeout = #duration(0,0,0,0)]])

para ver si Power BI podría recoger la tabla antes de que se cargue el javascript; no estoy seguro de si funciona así, pero aún no me ha dado ningún resultado.

¿Hay algo que pueda hacer? Este es el sitio web y los datos en cuestión:

http://www.onequestionshootout.xyz/episodes/series_all.htm

En respuesta a nynni

@nynni,

Le sugiero que use el script python en power bi para raspar el sitio web. Acerca de cómo configurar el entorno de python e implementar el script de python en el escritorio de power bi, le sugiero que consulte el documento a continuación:

https://docs.microsoft.com/en-us/power-bi/desktop-python-scripts

Equipo de apoyo comunitario _ Jimmy Tao

Si esta publicación le ayuda, considere aceptarla como la solución para ayudar a los otros miembros a encontrarla más rápidamente.

nynni

Me temo que mis habilidades en este momento no permitirán la creación de secuencias de comandos de python, por lo que, mientras tanto, descargué la página como .html y usé el conector de datos Text/CSV para obtener la tabla en HTML sin formato. La desventaja, por supuesto, es que no puedo obtener las últimas actualizaciones de mi informe a través de Internet.

pablodbrown

En respuesta a nynni

@nynni

¡Guau! ¡Gracias por compartir la idea de descargar la página como HTML! Estaba teniendo el mismo problema que tú y estaba completamente atascado. Con su solución, al menos he logrado extraer una «instantánea» de los datos tal como están actualmente, lo cual es mejor que no tener ningún dato…

¡Nunca hubiera pensado en descargar la página real!

¡¡Gracias!!

En respuesta a nynni

@nynni,

Power query solo admite el scraping web simple. Si el sitio web necesita raspado dinámico, me temo que la consulta de energía no funcionará.

Equipo de apoyo comunitario _ Jimmy Tao

Si esta publicación le ayuda, considere aceptarla como la solución para ayudar a los otros miembros a encontrarla más rápidamente.

cantor

@nynni

Quizás este recurso te ayude.

https://datachant.com/2017/03/30/web-scraping-power-bi-excel-power-query/

nynni

En respuesta a cantor

Comenzó siendo prometedor, pero desafortunadamente no puedo obtener ningún parámetro de la URL ya que no produce ninguno cuando navegas por las páginas… ¡Difícil!

En respuesta a nynni

@nynni,

Le sugiero que use el script python en power bi para raspar el sitio web. Acerca de cómo configurar el entorno de python e implementar el script de python en el escritorio de power bi, le sugiero que consulte el documento a continuación:

https://docs.microsoft.com/en-us/power-bi/desktop-python-scripts

Equipo de apoyo comunitario _ Jimmy Tao

Si esta publicación le ayuda, considere aceptarla como la solución para ayudar a los otros miembros a encontrarla más rápidamente.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *