Dividir y unir ficheros largos

Hay ocasiones en que es necesario dividir un archivo demasiado largo en archivos más pequeños, sobre todo cuando se trata de las copias de seguridad y se usa un pendrive para almacenarlas.
Un pendrive suele tener FAT16 o FAT32 como sistema de ficheros, con la limitación del tamaño de archivo que eso conlleva. Por ejemplo, para FAT16 el tamaño máximo de un archivo es de 2 Gigabytes y para FAT32 de 4 Gigabytes.
Aunque existen programas de compresión que permiten la división del archivo resultante en trozos de un tamaño determinado; por ejemplo, los archivos RAR, en GNU/Linux existe la posibilidad de dividir un archivo de gran tamaño utilizando comandos en una terminal. Explicaré la secuencia de acciones que se ha de seguir tanto para dividir como para unir los archivos, además de verificar la integridad del archivo restaurado.

Obtener la suma de verificación
Antes de dividir el archivo es conveniente realizar la suma de verificación md5 del mismo con el fin de comprobar la integridad del archivo una vez que lo hayamos vuelto a unir. Una suma de verificación es una función hash que tienen como propósito principal detectar cambios accidentales en una secuencia de datos para proteger la integridad de datos, verificando que no haya discrepancias. La idea es que se transmita el dato junto con su valor hash, de esta forma el receptor puede calcular el valor hash de la secuencia recibida y la puede comparar con el valor hash recibido. Si hay una discrepancia se pueden rechazar los datos o pedir una retransmisión (Wikipedia:Suma de verificación).
Para obtener la suma de verificación de un archivo ejecutamos la siguiente orden en la línea de comandos:

md5sum -b [nombre_de_archivo] >> [nombre_fichero_md5]

Al terminar de ejecutarse obtendremos un fichero con la suma de verificación md5. Yo, personalmente, suelo poner el mismo nombre del archivo del que voy a obtener la suma de verificación con extensión .md5, por ejemplo:

md5sum -b copia.tar.gz >> copia.tar.gz.md5

Dividir el archivo en partes más pequeñas
Ahora llegó el momento de dividir el archivo en otros más pequeños. En GNU/Linux disponemos de la orden split, por lo que pondremos en la línea de comandos:

split -b [tamaño] -d [nombre_del_archivo] [nombre_archivo_dividido]

El tamaño se ha de especificar en bytes o usando sufijos con un multiplicador. Estos sufijos pueden ser: K, M, G, T... O sea, para especificar el tamaño de 4 Gigabytes podríamos 4G.
La opción -d hace que el sufijo de los archivos divididos sea numérico y no alfanumérico como es por defecto.

Siguiendo el ejemplo del punto anterior pondríamos lo siguiente:

split -b 3G -d copia.tar.gz copia.tar.gz-

Nos crearía archivos con los nombres:

copia.tar.gz-00
copia.tar.gz-01
...
copia.tar.gz-??

Donde las interrogaciones serían el último número asignado tras la división.

Unir los archivos en uno solo
Para realizar la unión de los archivos divididos se utiliza la orden cat, para nuestro caso de las copias de seguridad utilizaremos el siguiente procedimiento:

Copiar todos los archivos a un mismo directorio.
En la línea de comandos poner la siguiente orden:

cat copia.tar.gz-* >> copia.tar.gz

Si se va a unir el archivo generado anteriormente en el sistema operativo Windows, el procedimiento para hacerlo es muy parecido. Seguiremos los siguientes pasos:
- En primer lugar abriremos una ventana para acceder al Símbolo del sistema: Menú inicio/Ejecutar, en el cuadro de diálogo escribiremos cmd y daremos en el botón Aceptar.
- No posicionaremos en la carpeta que contiene los archivos divididos con el comando cd. Suponiendo que hemos copiado los archivos divididos en C:\TMP:
```
cd c:\tmp
```
- Uniremos los archivos con el siguiente comando:
```
copy /b copia.tar.gz-01+copia.tar.gz-02+...+copia.tar.gz-?? copia.tar.gz
```
  Donde las interrogaciones serían el último número asignado tras la división.
  Utilizamos la opción /b para indicar que el archivo que se va a copiar es binario. Tras unos momentos ya tendremos nuestro archivo unido de nuevo. He hecho pruebas poniendo copia.tar.gz-* en vez de concatenarlos usando el operador +, pero el resultado ha sido incorrecto, ya que no se ordenan los archivos de la forma correcta, por lo que mi recomendación es que utilicen el comando tal y como yo he especificado en el párrafo anterior.

Comprobar la suma de verificación del archivo restaurado
Una vez que hemos restaurado el archivo reuniendo sus partes en uno solo, debemos proceder a verificar que el archivo restaurado sea correcto. Para realizar esto volvemos a utilizar el comando md5sum, con la opción -c (del inglés, check), es necesario que el archivo con la suma de verificación esté en el mismo directorio que el archivo que se va a comprobar:

md5sum -c [nombre_fichero_md5]

Al terminar la ejecución del comando, éste indicará si la suma coincide (fichero correcto) o no (fichero incorrecto).

NOTA PARA USUARIOS DE WINDOWS
En el sistema operativo Windows, la verificación se la suma pasa por instalar un programa, como por ejemplo, el md5summer que pueden obtener en la siguiente dirección: http://www.md5summer.org/download.html. El funcionamiento no lo voy a explicar ya que este es un blog dedicado al Ubuntu.

Como podemos comprobar el proceso es muy sencillo de realizar y, a su vez, muy útil. Espero que esto le pueda servir a alguno de ustedes. Por supuesto, les recuerdo que pueden ver todas las opciones de cada comando utilizando el manual de GNU/Linux usando la orden:

#man [nombre de comando]

Bitácora de Ubuntu

Buscar este blog

Dividir y unir ficheros largos

Etiquetas

Comentarios

Publicar un comentario

Entradas populares de este blog

Atom ha muerto, viva Zed

Gestión de la red usando la línea de comandos (III): gestión DNS

Gestión de la red usando la línea de comandos (IV): monitorización de conexiones