@ agnasg

Apartarse de la manada

08-04-2013 10:43 AM

The man who follows the crowd will usually get no further than the crowd. The
man who walks alone is likely to find himself in places no one has ever been.
— Alan Ashley-Pitt

(“Cuando sigues a la manada llegas tan lejos como la manada,
pero cuando sigues tu propio camino puedes llegar a sitios donde nadie ha estado.”)

Estoy escribiendo un parser de html porque necesito hacer un despliegue básico del contenido de cualquier página web (en forma rudimentaria, solamente el texto). Llegó a mi vista este enlace en linkedin.com que contiene algunas ideas sobre cómo hacerlo.  Por ejemplo usar IHTMLDocument2 que permite obtener los elementos  HTML, los  tags, etc. O utilizar alguna librería como libxml2, HTML Tidy, etc. O, quizás, la sugerencia más descabellada “I just suggest you write parser using tools like lex and yacc in person. It can be time consuming…” (“Te voy a sugerir escribir un parser utilizando herramientas como lex y yacc en persona. Puede ser largo en tiempo…”) ¿Puede ser largo en tiempo? Eso es lo que yo llamo un eufemismo. Cualquiera de las soluciones utilizando librerías o mi propio desarrollo (ya he hecho algún avance programando a mano la solución) implica un tiempo de desarrollo de unos días. Quizás una semana y pico. Utilizar lex y yacc, que son las herramientas que se utilizaban hace años para producir compiladores puede requerir meses. Sí, ciertamente puede ser una solución poderosa pero, puede tomar algún tiempo. Eso es lo que yo llamo apartarse de la manada. Pero no estoy particularmente interesado en eso en estos días.