Tu compañero de investigación que transforma hemerotecas digitales en redes de conocimiento
Versión 1.5.0 - 2 de enero de 2026
¿Qué es hesiOX?
hesiOX es un software de escritorio de código abierto diseñado para trasladar a una base de datos la información extraída de hemerotecas digitales, facilitando su incorporación, edición y consulta de forma sencilla y práctica para el desarrollo de estudios históricos, científicos y académicos en general.
Propósito fundamental
El núcleo del proyecto es la extracción automática de textos mediante OCR integrado, transformando hemerotecas digitales en bases de datos consultables. hesiOX ayuda a realizar estudios automatizando tareas como:
- Extracción OCR ultra-rápida: Digitalización de prensa histórica (2-3 seg/imagen)
- Estadísticas avanzadas: Frecuencias, distribuciones temporales, patrones que revelan información oculta
- Visualizaciones interactivas: Mapas geográficos, grafos de redes, timeline
- Análisis semántico: Descubrimiento de relaciones entre documentos
- Referencias bibliográficas/hemerográficas: Generación automática en 7 formatos académicos
¿Qué hace especial a hesiOX?
Diferencias clave respecto a otros gestores bibliográficos:
- OCR integrado y optimizado: Digitalización automática de prensa histórica sin software externo
- Análisis estadístico avanzado: No solo gestiona, sino que analiza y revela patrones en grandes corpus
- Visualizaciones geográficas y temporales: Mapas interactivos, grafos de redes, timeline cronológico
- Búsqueda semántica con NLP: Encuentra relaciones conceptuales, no solo palabras clave
- Multi-proyecto independiente: Organiza diferentes investigaciones sin mezclar datos
- Software libre y gratuito: Sin suscripciones, sin límites de documentos, código abierto
- Desktop-first: Control total de tus datos localmente, con opción web opcional
- Especializado en hemerografía: Diseñado para historiadores e investigadores de prensa
Modalidades de uso
Actualmente en desarrollo como aplicación web (fase de pruebas), hesiOX estará disponible en:
- Descarga e instalación local: Software de escritorio independiente (versión principal)
- Acceso web mediante registro: Aplicación en línea para usuarios que prefieran trabajar en la nube
El sistema permite organizar múltiples proyectos independientes, cada uno con sus propias fuentes documentales, facilitando la investigación paralela en diferentes corpus hemerográficos.
Funcionalidades Principales
0. Sistema de Usuarios y Autenticación 🔐
- Registro seguro de nuevos usuarios
- Login/Logout con Flask-Login
- Passwords hasheadas (nunca en texto plano)
- Proyectos aislados por cuenta de usuario
- Sesiones cifradas y protección de rutas
- Visualización personalizada según usuario autenticado
1. Extracción OCR (NÚCLEO)
- OCR automático ultra-rápido (2-3 seg/imagen)
- Tesseract.js optimizado para prensa histórica
- Idiomas: Español, Italiano, Multilingüe
- Gestión de imágenes y recortes múltiples
- Preservación del texto original digitalizado
2. Base de Datos Consultable
- Incorporación sencilla de artículos extraídos
- Edición y actualización de registros
- Consulta práctica y rápida de información
- Sistema multi-proyecto independiente
- Gestión de grandes volúmenes documentales
3. Análisis y Descubrimiento
- Revela datos significativos ocultos
- Estadísticas de frecuencias y distribuciones
- Mapas geográficos interactivos (Leaflet)
- Grafos de redes y relaciones
- Timeline cronológico visual
- Nubes de palabras y co-ocurrencias
4. Búsqueda Inteligente
- Motor de búsqueda semántica con NLP
- Búsqueda por múltiples campos simultáneos
- Análisis de similitud entre documentos
- Filtros avanzados por fecha, ciudad, idioma
- + 1000 documentos indexados en <1 segundo
5. Referencias Bibliográficas
- Apoyo a la redacción de textos científicos
- 7 formatos académicos (ISO, APA, MLA, Chicago...)
- Exportación a BibTeX, RIS, CSV, JSON
- Generación automática de citas
- Editor de texto enriquecido (TinyMCE)
6. Desarrollo de Estudios
- Investigación histórica con fuentes primarias
- Estudios científicos basados en corpus
- Trabajos académicos interdisciplinares
- Análisis diacrónico de prensa
- Humanidades digitales aplicadas
Tecnologías Utilizadas
Backend
- Python 3.x
- Flask (framework web)
- SQLAlchemy (ORM)
- PostgreSQL (base de datos)
Frontend
- Bootstrap 5.3
- JavaScript vanilla
- TinyMCE (editor)
- Chart.js (gráficos)
Procesamiento
- Tesseract.js (OCR)
- spaCy (NLP)
- Leaflet (mapas)
Desarrollo
Desarrollado por: David García Pascual
Institución: Proyecto de Investigación en Humanidades Digitales
Año: 2025
Tipo: Software de escritorio (en desarrollo como aplicación web)
hesiOX es software libre desarrollado para la comunidad académica.
Disponible para descarga local y acceso web mediante registro.
Para más información, consulta el blog del proyecto o la documentación técnica.
Estado del Desarrollo
FASE 3: Consolidación y Refinamiento
El sistema se encuentra operativo y en proceso de optimización avanzada.
✅ Completado Recientemente
- Unificación de arquitectura CSS (app.css + web.css)
- Rediseño Desktop "Proyecto Sirio"
- Autocompletado de publicaciones
- Sistema de usuarios y autenticación (Flask-Login, seguridad robusta)
- Proyectos multi-usuario con aislamiento total de datos
- Hemerotecas consolidadas con trazabilidad completa
- Optimización OCR (3x más rápido: 2-3 segundos)
- Generador de citas con 7 formatos académicos
🔄 En Desarrollo
- Navbar secundario para navegación interna del proyecto
- Verificación de filtrado en todas las rutas
- Página de ayuda y documentación de usuario
- Sistema de backups automáticos programados
- Importador masivo de artículos (CSV, JSON)
📋 Roadmap Futuro
Datos Técnicos del Sistema
Arquitectura: Python + Flask
Base de Datos: PostgreSQL
Líneas de Código: ~10,500+
Rutas: 60+ endpoints
Templates: 42 archivos
JavaScript: 3,000+ líneas
NLP: spaCy
Gráficos: Chart.js 4.x