Recopilación de datos, procesamiento de datos y publicación. La recopilación de datos es el primer paso para crear una colección digital. Los datos recopilados pueden provenir de varios lugares, incluidos Internet, libros, periódicos, artículos, archivos y más. Los datos recopilados deben gestionarse y organizarse de manera uniforme para facilitar el procesamiento posterior de los datos.
El procesamiento de datos es el segundo paso en la creación de colecciones digitales. El proceso de procesamiento incluye principalmente dos partes: limpieza de datos y anotación de datos. La limpieza de datos es el proceso de filtrar, deduplicar y formatear uniformemente los datos recopilados. El propósito es reducir la información redundante y la información errónea en los datos y hacer que los datos sean más unificados y precisos.
La anotación de datos se basa en la limpieza de datos, mediante el uso de aprendizaje manual o automático para anotar datos y hacerlos más fáciles de entender y usar.