Trabajo Software.

biluses #1 Ene '10

Buenas.

Estoy estudiando una Fp de grado superior de desarrollo de aplicaciones informaticas, y tengo que hacer un trabajo para el 1 de marzo de investigación sobre Software.

El profesor nos ha dado algunos temas, pero no me convencen mucho.
¿Me podríais decir sobre qué tema haríais un trabajo de este tipo que tenga una extensión amplia (30-40 folios sin contar indice etc...)?

El profesor nos ha dicho que le gustaría mucho uno sobre la información, codigos de programación y funcionamiento de los buscadores de noticia de Google. ¿Cómo funcionan?, ¿Cómo buscan las noticias..? pero me da a mi que esos datos por parte de Google como empresa no los va a tener asi a la vista de cualquiera.

Si alguno me dice algnu tema de trabajo o me ayuda para buscar sobre ese de google se lo agradecería mucho.

Dependiendo del trabajo que escoga iré informando sobre como va, y sobre si necesito algun tipo de información que yo no encuentre.

RPV: Necesito ideas para hacer un trabajo sobre Software.

erdanblo #2 Ene '10 Inocente

Los buscadores de noticias como Google funcionan rastreando la web e indexando toda la información, otro ejemplo de buscador (porque es un proyecto de investigación que conozco) es TDG Scholar

B

[Borrado] #3 Ene '10

Google busca las noticias igual que las paginas? Porque si es asi de eso si que tienes un monton de informacion en internet. Supongo que no sera igual porque si no tendria mas que ver con el algebra lineal que con programacion.

biluses #4 Ene '10

ok, gracias. No encuentro nada de informacion.

Si me pudierais dar alguna idea sobre algun trabajo?

JuAn4k4 #5 Ene '10

No se mucho del tema.

Google busca como todos, con arañas software, un posible trabajo de investigación... podrias hacerlo sobre Nutch

http://lucene.apache.org/nutch/

En mi clase ha hecho un chaval un trabajo de esto y parecia interesante.

Lo que google hace bien no es buscar con arañas, sino el trabajo que hay despues con toda esa información (sobretodo el ranking) a parte de LO RAPIDO que lo hace, pero eso es otra historia.

El ranking de google esta basado en los clicks que hace la gente,
· cuando busca una cosa a donde le dá
· cuando navega por una página a donde le dá
· como relaciona unas páginas con otras (grados de interrelación entre webs)

Cuando tu buscas Autobuses Zaragoza, el ranking lo formara con webs que esten relacionadas entre si en un mayor % y que tengan que ver con autobuses, con zaragoza, a partir de la información que una o muchas "arañas software"..

Existen multiples formas de tratamiento de información, Lucene.

http://lucene.apache.org/

Lo que hacen es recopilar información de las url ( siguiendo alguna politica ) indexarla y quedarse con lo importante (existe software que hace esto a partir de textos).

Dependiendo de la extensión del trabajo, puedes ampliar con más cosas.

biluses #6 Ene '10

muchas gracias #5

JuAn4k4 #7 Ene '10

Como me has preguntado por MP lo pongo aquí también que me parece interesante por si alguien busca algo sobre Nutch y sale esta página..

Toda la información de Nutch la tienes en la web de Nutch, en el apartado Documentación.
http://lucene.apache.org/nutch/index.html

Tienes una BREVE descripción en la wikipedia:
http://es.wikipedia.org/wiki/Nutch

Tienes en la pagina principal de Nutch (Welcome to Nutch) una wiki:
http://wiki.apache.org/nutch/

Un FAQ que suele ser interesante leerlo:
http://wiki.apache.org/nutch/FAQ

Nutch no deja de ser un motor de busqueda de software libre, utiliza Lucene (recuperador de información) que también es software libre.

El trabajo en si es muy interesante realizarlo por uno mismo para enterarse bien de como funcionan estas cosas, google funciona de una forma muy parecida, básicamente todos los buscadores, los pasos importantes y por los que google se ha llevado al mercado es por realizar un ranking decente y hacerlo en un tiempo record.

La principal orientación que te puedo dar ( ya que no soy ningun guru ), es que :

Nutch es un motor de busqueda
· Utiliza arañas (Crawlers) para obtener información
· Utiliza Lucene para a partir de esos Documentos (texto html) con campos de texto (Documents y fields para Lucene) extraiga la información IMPORTANTE. (Es lo que hace Lucene).
· Utiliza unos metodos de Indexación / Cacheado ( se lo guarda vamos), para poder acceder a ello rapidamente y además tener la información relevante.
· Posteriormente genera el Ranking

Existen muchos metodos / formas, y aqui es donde esta la miga , al ser software libre (nutch) el metodo es conocido y por lo tanto no está sesgado a determinadas empresas que paguen a un buscador privado ( google ) para que salgan los primeros. Si te fijas en google si pagas sales por delante del primer resultado cuando tiene algo que ver, aunque luego salga en la página 8 del ranking normal.

Aqui te digo presentaciones que han hecho en clase que me parecen interesantes para tu trabajo

JADE - Agentes, agentes moviles
Persitencia de objetos : JPA con sus implementaciones ( hibernate, toplink, openlink, etc..)
Bases de Datos: Espaciales, Moviles, Distribuidas, Orientadas a objetos, Deductivas, etc..
Sistemas de interpretación del lenguaje natural ( Dypar )

Otros temas:

Lo que esta muy de moda ahora del Cloud, es algo así como que tu utilizas algo, sin saber donde esta, ya sea almacenamiento, procesamiento, etc.. y que se adapta a lo que necesitas. ( Pagando claro)
La web 3.0 y todo el aspecto de la semantica, aqui es un meter mierda a todo y aciertas, lo unico que hay es todo de investigación y hacer un trabajo de esto puede llevar a confusiones.

Usuarios habituales