[Python] Hilo general

refresco #1861 2d

sigo con mis peleas. Estoy intentando conectarme a mi propia base de datos desde pyspark, si lo hago desde window lo ago sin problemas pero si lo hago desde wsl no puedo, me sale que no esta el driver cuando se lo estoy pasando a la hopra de iniciar la sesion.
Si conecto a la base de datos desde wsl directamente sin pasar por pyspark si puedo conectar,
alguien ha hecho algo aprecio? llevo toa la mañana con esto y he probado ya todo lo posible descargandome 0349853 conectores distintos

1 respuesta

Dr_Manhattan #1862 2d

#1861 A ver, no sé qué es lo que estás intentando ni de qué forma ya que no lo indicas, pero por hablar de uno de los problemas más comunes:

las librerías se instalan cuando se arranca el cluster, por mucho que le pases el driver cuando haces el spark.read.jdbc si el jar de postgres por ejemplo no está instalado no te va a funcionar. Tendrás que tener la librería disponible para cuando arranque la sesión de spark, por ejemplo usando spark.jars.packages

1 respuesta

refresco #1863 2d

#1862 no estoy probando en el cluster solo en wsl.
Me he bajado el conector y al cargar la sesión de pyspark le pongo spark.jars y le indico donde está el conector.

Luego al leer el csv en opciones le indico el driver com.mysql.jc o algo así pero no hay manera. Creo que no me falta ninguna librería

1 respuesta

Dr_Manhattan #1864 2d

#1863 pero para leer un csv no necesitas ningún conector, simplemente haces spark.read.csv + las opciones del header etc la librería estándar ya trae el csv

1 respuesta

refresco #1865 2d

#1864 perdon, quiero decir leer la base de datos

spark = SparkSession.builder \
    .appName("test") \
    .config("spark.driver.extraClassPath", "mysql-connector-j-8.4.0.jar") \
    .getOrCreate()
df = spark.read.format("jdbc").option("url","jdbc:mysql://ip:port/test").option("driver","com.mysql.jdbc.Driver").option("dbtable",'tabla_1').option("user",'user').option("password",'pass').load()
df.show()

en window me funciona pero en ubuntu no, alguna libreria me tiene que faltar porque no hay manera pero no lo veo

3 respuestas

Kaiserlau #1866 2d Penitente

#1865 te debe de estar sacando algun código de error la sesión al no conseguir la conexión. Estaría bien que lo miraras a ver si te da alguna pista.

1 respuesta

Dr_Manhattan #1867 2d

#1865 yo creo que el problema es la ruta del conector, mira la ruta absoluta, y asegúrate de que el jar está en esa ruta mediante la terminal de ubuntu

1 1 respuesta

refresco #1868 2d

#1866 el error que me escupe es que no me encuentra el conector

spoiler

Py4JJavaError: An error occurred while calling o2672.load.
: java.lang.ClassNotFoundException: com.microsoft.sqlserver.jdbc.SQLServerDriver
	at java.net.URLClassLoader.findClass(URLClassLoader.java:387)
	at java.lang.ClassLoader.loadClass(ClassLoader.java:418)
	at java.lang.ClassLoader.loadClass(ClassLoader.java:351)
	at org.apache.spark.sql.execution.datasources.jdbc.DriverRegistry$.register(DriverRegistry.scala:46)
	at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions.$anonfun$driverClass$1(JDBCOptions.scala:103)
	at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions.$anonfun$driverClass$1$adapted(JDBCOptions.scala:103)
	at scala.Option.foreach(Option.scala:407)
	at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions.<init>(JDBCOptions.scala:103)
	at org.apache.spark.sql.execution.datasources.jdbc.JDBCOptions.<init>(JDBCOptions.scala:41)
	at org.apache.spark.sql.execution.datasources.jdbc.JdbcRelationProvider.createRelation(JdbcRelationProvider.scala:34)
	at org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:346)
	at org.apache.spark.sql.DataFrameReader.loadV1Source(DataFrameReader.scala:229)
	at org.apache.spark.sql.DataFrameReader.$anonfun$load$2(DataFrameReader.scala:211)
	at scala.Option.getOrElse(Option.scala:189)
	at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:211)
	at org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:172)
	at sun.reflect.GeneratedMethodAccessor60.invoke(Unknown Source)
	at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43)
	at java.lang.reflect.Method.invoke(Method.java:498)
	at py4j.reflection.MethodInvoker.invoke(MethodInvoker.java:244)
	at py4j.reflection.ReflectionEngine.invoke(ReflectionEngine.java:374)
	at py4j.Gateway.invoke(Gateway.java:282)
	at py4j.commands.AbstractCommand.invokeMethod(AbstractCommand.java:132)
	at py4j.commands.CallCommand.execute(CallCommand.java:79)
	at py4j.ClientServerConnection.waitForCommands(ClientServerConnection.java:182)
	at py4j.ClientServerConnection.run(ClientServerConnection.java:106)
	at java.lang.Thread.run(Thread.java:750)

#1867 como se hace eso? perdon por el retraso

1 respuesta

Slowbro #1869 2d

#1868 Creo que se refiere a esto,

...
.config("spark.driver.extraClassPath", "/ruta/en/wsl/al/archivo/mysql-connector-j-8.4.0.jar") 
...

Si no lo tienes en /home/refresco, prueba en lo que tengas montado en /mnt y su ubicacion en Windows.

1 respuesta

refresco #1870 2d

#1869 nada, sigue tirando como si no lo encontrara

W

wixrd #1871 2d

#1865 Pon spark.jars:

spark = SparkSession.builder \
    .appName("test") \
    .config("spark.jars", "mysql-connector-j-8.4.0.jar") \
    .getOrCreate()

Y prueba ejecutando este comando:

spark-submit --jars mysql-connector-j-8.4.0.jar archivo_pyspark.py

refresco #1872 2d

bueno anoche de madruga consegui arreglarlo. Parece que era un problemas de versiones que no encontraba el connector por mas que se lo pasara.

Tenia una version de pyspark en la carpeta de spark y otra como libreria de python, lo que hice fue borrar la de la libreria de python y borrar todo spark.

Volver a instalar spark y comprobar que tenia solo una version de pyspark en el ordenador y era la de spark

whereis pyspark

. Finalmente meter el conector en la carpeta jar de spark y listo.

curl -O https://archive.apache.org/dist/spark/spark-3.5.1/spark-3.5.1-bin-hadoop3.tgz
sudo tar xvf spark-3.5.1-bin-hadoop3.tgz
sudo mkdir /opt/spark
sudo mv spark-3.5.1-bin-hadoop3/* /opt/spark
sudo chmod -R 777 /opt/spark
sudo apt-get install openjdk-8-jdk -y

Una vez meter este connector(https://dev.mysql.com/downloads/connector/j/5.1.html) mysql-connector-j-8.4.0.jar en la carpeta /opt/spark/jar/.

import pyspark
from pyspark.sql import SparkSession
print(pyspark.__version__)
spark = SparkSession.builder \
    .appName("PySpark MySQL Connection").getOrCreate()

df = spark.read.format("jdbc").option("url","jdbc:mysql://ip:port/nombre_base_datos").option("driver","com.mysql.cj.jdbc.Driver").option("dbtable",'tabla').option("user",'usuario').option("password",'pass').load()

Y asi os deberia ir si alguien tiene un problema parecio, si no pues mala suerte

1 respuesta

Dr_Manhattan #1873 2d

#1872 te juro que estuve a punto de comentarte lo de las versiones xddd me alegro de que lo hayas solucionado

1 respuesta

refresco #1874 1d

#1873 bueno asi no se me olvida, la proxma vez sedra lo primero que mire xd

2

Usuarios habituales

Tags