Persistencia a lo largo plazo

Para archivar datos digitales a lo largo plazo, se diferencia entre la preservación de bits digitales en un medio para guardar y la interpretabilidad  de estos bits (lo que representan por ejemplo una carpeta video de un cierto format o un document de textos de un cierto format). Estos son diferentes problemas que hay que superar por diferentes soluciones o tácticas.

Preservación del flujo de bits

En cuanto a la preservación del flujo de bits se trata de preservar los bits digitales en un soporte de datos (medio de memoria).

Toda la tecnología de memoria de hoy en día tiene una durabilidad limitada, los dos, el medio mismo y también la tecnología specífica en general. Por ejemplo discos duros típicamente solo duran aproximadamete cinco años antes de que se rompen. Los tipos de discos duros y como se conectan al ordenador cambian con el paso de tiempo también y es bastante probable que la tecnología de discos duros como la conocemos será reemplazada por altra tecnología de memoria. Debido a la durabilidad breve de los medios y la tecnología, hay que tomar dos medidas:

  • Hay que transferir los datos a nuevos medios de memoria al día en intervalos regulares.
  • Hay que crear copias de seguridad, lo mejor muchos en lugares de diferentes ubicaciones geograficas.

En el MPI de psycholinguistica, en donde todos los datos de DOBES están archivados, la tecnología de memoria es típicamente reemplazada por tecnología más al día todos los cinco años. Por el momento se usa un sistema de gestión de memoria jerárquico que guarda los datos en discos duros y también en Cintas de datos (LTO5). Data se puedo avanzar y retroceder de las Cintas a los discos duros dinámicamente, dependiente del número de parámetros como por ejemplo cuantas veces una carpeta es accesada.

Existen 7 copias para todos los datos de DOBES archivados por el momento:

  • En el MPI dos copias han sido creados dinámicamente en diferentes medios de memoria y diferentes lugares en el edificio
  • Una copia ha sido distribuida dinámicamente al GWDG en Göttingen (Germany), que es uno de los grandes centros de ordenadores de la Max-Planck-Associación y que tiene una propia estrategía de doble-archivar.
  • Otra copia ha sido distribuida dinámicamente al RZG en Garching-Munich, que es el otro grande centro de ordenadores de la  Max-Planck- Associación  y que tiene una estrategía de doble-archivar también (intercambio de todos los datos con el Leibniz Computer Center)
  • Otra copia es distribuida dinámicamente al MPI para anthropología de evolución en Leipzig.

Para los datos archivados en los dos centros de ordinadores de la Max-Planck-Associación el presidente ha garantizado institutcionalmente 50 años al proyecto de preservación de bits.

Interpretabilidad

La parte más difícil de preservar datos digitales a lo largo playo es la interpretabilidad de los formatos. Formatos de carpetas y codificación normalmente tienen una durabilidad limitada también y puede ser difícil de leer un formato despues de que ha quedado obsolete. Un ejemplo es el formato WordPerfect, que estaba muy popular hasta la metad de los años 90, pero que ya casi no se usa más hoy en día. Si un día ya no hay un software capable de leer estos formatos obsoletos, los datos estarán prácticamente perdidos – aunque las carpetas estén perfectamente intactos. Para disminuir este riesgo, los demás de los archivos tratan de usar formatos estandarizados, abiertos, no-proprietarios lo más posible. Para material textual formatos basados en XML son preferidos, ya que contienen los dos, el contenido y también la estructura del format en el mismo document  preferred since they contain both the content as well as the structure of the format in one and the same document como texto puro (Unicode).

Formatos de carpeta, que estan acceptados para el archivo del DOBES son estandarizados, abiertos, no-propietarios lo más posible, Sin embargo hay que hacer compromisos si ciertos formatos son ya estandarizados y no hay alternativas mejores. El catálogo de formatos acceptados se encuentra en el appendix A del manual del sistema de cargo del archivo en Internet LAMUS.