hesiOX

Tu compañero de investigación que transforma hemerotecas digitales en redes de conocimiento

Versión 1.5.0 - 2 de enero de 2026

? ¿Qué es hesiOX?

hesiOX es un software de escritorio de código abierto diseñado para trasladar a una base de datos la información extraída de hemerotecas digitales, facilitando su incorporación, edición y consulta de forma sencilla y práctica para el desarrollo de estudios históricos, científicos y académicos en general.

Propósito fundamental

El núcleo del proyecto es la extracción automática de textos mediante OCR integrado, transformando hemerotecas digitales en bases de datos consultables. hesiOX ayuda a realizar estudios automatizando tareas como:

  • Extracción OCR ultra-rápida: Digitalización de prensa histórica (2-3 seg/imagen)
  • Estadísticas avanzadas: Frecuencias, distribuciones temporales, patrones que revelan información oculta
  • Visualizaciones interactivas: Mapas geográficos, grafos de redes, timeline
  • Análisis semántico: Descubrimiento de relaciones entre documentos
  • Referencias bibliográficas/hemerográficas: Generación automática en 7 formatos académicos
¿Qué hace especial a hesiOX?

Diferencias clave respecto a otros gestores bibliográficos:

  • OCR integrado y optimizado: Digitalización automática de prensa histórica sin software externo
  • Análisis estadístico avanzado: No solo gestiona, sino que analiza y revela patrones en grandes corpus
  • Visualizaciones geográficas y temporales: Mapas interactivos, grafos de redes, timeline cronológico
  • Búsqueda semántica con NLP: Encuentra relaciones conceptuales, no solo palabras clave
  • Multi-proyecto independiente: Organiza diferentes investigaciones sin mezclar datos
  • Software libre y gratuito: Sin suscripciones, sin límites de documentos, código abierto
  • Desktop-first: Control total de tus datos localmente, con opción web opcional
  • Especializado en hemerografía: Diseñado para historiadores e investigadores de prensa
Modalidades de uso

Actualmente en desarrollo como aplicación web (fase de pruebas), hesiOX estará disponible en:

  • Descarga e instalación local: Software de escritorio independiente (versión principal)
  • Acceso web mediante registro: Aplicación en línea para usuarios que prefieran trabajar en la nube

El sistema permite organizar múltiples proyectos independientes, cada uno con sus propias fuentes documentales, facilitando la investigación paralela en diferentes corpus hemerográficos.

Funcionalidades Principales

NÚCLEO DEL PROYECTO: Transformar hemerotecas digitales en bases de datos consultables y analizables, para ayuda en proyectos de investigación.
0. Sistema de Usuarios y Autenticación 🔐
  • Registro seguro de nuevos usuarios
  • Login/Logout con Flask-Login
  • Passwords hasheadas (nunca en texto plano)
  • Proyectos aislados por cuenta de usuario
  • Sesiones cifradas y protección de rutas
  • Visualización personalizada según usuario autenticado
1. Extracción OCR (NÚCLEO)
  • OCR automático ultra-rápido (2-3 seg/imagen)
  • Tesseract.js optimizado para prensa histórica
  • Idiomas: Español, Italiano, Multilingüe
  • Gestión de imágenes y recortes múltiples
  • Preservación del texto original digitalizado
2. Base de Datos Consultable
  • Incorporación sencilla de artículos extraídos
  • Edición y actualización de registros
  • Consulta práctica y rápida de información
  • Sistema multi-proyecto independiente
  • Gestión de grandes volúmenes documentales
3. Análisis y Descubrimiento
  • Revela datos significativos ocultos
  • Estadísticas de frecuencias y distribuciones
  • Mapas geográficos interactivos (Leaflet)
  • Grafos de redes y relaciones
  • Timeline cronológico visual
  • Nubes de palabras y co-ocurrencias
4. Búsqueda Inteligente
  • Motor de búsqueda semántica con NLP
  • Búsqueda por múltiples campos simultáneos
  • Análisis de similitud entre documentos
  • Filtros avanzados por fecha, ciudad, idioma
  • + 1000 documentos indexados en <1 segundo
5. Referencias Bibliográficas
  • Apoyo a la redacción de textos científicos
  • 7 formatos académicos (ISO, APA, MLA, Chicago...)
  • Exportación a BibTeX, RIS, CSV, JSON
  • Generación automática de citas
  • Editor de texto enriquecido (TinyMCE)
6. Desarrollo de Estudios
  • Investigación histórica con fuentes primarias
  • Estudios científicos basados en corpus
  • Trabajos académicos interdisciplinares
  • Análisis diacrónico de prensa
  • Humanidades digitales aplicadas

Tecnologías Utilizadas

Backend
  • Python 3.x
  • Flask (framework web)
  • SQLAlchemy (ORM)
  • PostgreSQL (base de datos)
Frontend
  • Bootstrap 5.3
  • JavaScript vanilla
  • TinyMCE (editor)
  • Chart.js (gráficos)
Procesamiento
  • Tesseract.js (OCR)
  • spaCy (NLP)
  • Leaflet (mapas)

Desarrollo

Desarrollado por: David García Pascual
Institución: Proyecto de Investigación en Humanidades Digitales
Año: 2025
Tipo: Software de escritorio (en desarrollo como aplicación web)


hesiOX es software libre desarrollado para la comunidad académica.
Disponible para descarga local y acceso web mediante registro.
Para más información, consulta el blog del proyecto o la documentación técnica.

Estado del Desarrollo

FASE 3: Consolidación y Refinamiento

El sistema se encuentra operativo y en proceso de optimización avanzada.

100%
Core Funcional
90%
Features Avanzados
60%
Documentación
50%
Testing
✅ Completado Recientemente
  • Unificación de arquitectura CSS (app.css + web.css)
  • Rediseño Desktop "Proyecto Sirio"
  • Autocompletado de publicaciones
  • Sistema de usuarios y autenticación (Flask-Login, seguridad robusta)
  • Proyectos multi-usuario con aislamiento total de datos
  • Hemerotecas consolidadas con trazabilidad completa
  • Optimización OCR (3x más rápido: 2-3 segundos)
  • Generador de citas con 7 formatos académicos
🔄 En Desarrollo
  • Navbar secundario para navegación interna del proyecto
  • Verificación de filtrado en todas las rutas
  • Página de ayuda y documentación de usuario
  • Sistema de backups automáticos programados
  • Importador masivo de artículos (CSV, JSON)
📋 Roadmap Futuro
Corto Plazo Testing exhaustivo, Ayuda, Navbar interno, Packaging escritorio
Medio Plazo Sistema de usuarios/registro, Análisis de redes, Dashboard personalizable
Largo Plazo Versión descargable estable, API REST, Integración Zotero, App móvil

Datos Técnicos del Sistema

Versión: v2.0.0
Arquitectura: Python + Flask
Base de Datos: PostgreSQL
Líneas de Código: ~10,500+
Modelos: 6 principales
Rutas: 60+ endpoints
Templates: 42 archivos
JavaScript: 3,000+ líneas
OCR: Tesseract.js 4.1.1
NLP: spaCy
Gráficos: Chart.js 4.x