Red de conocimiento de divisas - Preguntas y respuestas sobre contabilidad - Después de digitalizar los archivos en papel, ¿se puede destruir el software?

Después de digitalizar los archivos en papel, ¿se puede destruir el software?

Habilidad (A) Procesamiento digital de documentos en papel Existen dos métodos principales de procesamiento digital de documentos en papel: el método de escaneo directo y el método de microfilmación. 1. Método de escaneo directo El llamado método de escaneo directo utiliza un escáner para escanear ópticamente el documento en papel original, transmitir la información de la imagen a un convertidor fotoeléctrico y convertirla en una señal eléctrica analógica, y luego convertir la señal eléctrica analógica en una. Señal eléctrica digital transferida a la memoria de la computadora a través de la interfaz de la computadora. El escaneo directo se puede dividir en dos métodos: (1) Después de escanear el documento en papel, utilice el software de reconocimiento de caracteres (OCR) para identificarlo y finalmente generar un archivo de texto. Las ventajas de este tipo de archivo digital son: ocupa poco espacio, es conveniente para la recuperación de texto completo por computadora y es fácil de extraer y editar cuando se usa el archivo. Sus desventajas son: no puede conservar el formato de diseño del documento original, así como la información original, como firmas y sellos, a veces la precisión del reconocimiento de caracteres OCR es baja, la inspección y modificación son difíciles y la eficiencia de la digitalización es muy baja. lo que de hecho ha destruido la autenticidad del documento original. (2) Escanee documentos en papel para formar archivos de imágenes digitales. Las ventajas de este tipo de archivo de imagen son: puede mantener la apariencia original del contenido y el diseño del archivo y se puede digitalizar rápidamente. Las desventajas son: no se puede realizar la búsqueda de texto completo, el contenido del texto no se puede editar y ocupa mucho espacio de almacenamiento. Las ventajas y desventajas de los dos métodos anteriores se complementan entre sí. Ahora existe una manera de combinar las ventajas de ambos métodos en un solo archivo: crear un PDF de doble capa. El método de producción es: escanear el documento en papel original en un archivo de imagen digital y luego convertirlo en un archivo de texto, y luego colocar los dos archivos con el mismo contenido en el mismo archivo PDF. El archivo de imagen se coloca encima del texto. archivo, y el archivo de texto está oculto en la capa inferior del archivo de imagen. Al consultar este archivo, no solo podemos ver el archivo de imagen original en la capa superior, sino también buscar el archivo de texto oculto en texto completo. 2. Método de microfilm: El llamado método de conversión de microfilm es un método que utiliza un equipo de escaneo especial (es decir, un escáner de microfilm) para convertir imágenes analógicas en microfilm en imágenes digitales para documentos que han sido microfilmados. En comparación con el método de escaneo directo, el método de microescaneo es más económico, simple y eficiente. Sin embargo, este método debe basarse en el microprocesamiento de documentos en papel. Vale la pena señalar que después de escanear el microfilm, el microfilm original debe conservarse junto con el archivo en papel y no debe destruirse sin autorización. De esta manera, los archivos forman un estado de almacenamiento de "tres episodios". Aunque los microfilmes no son tan fáciles de guardar, copiar, consultar y difundir como los archivos digitales, como la información analógica, los archivos de microfilmes tienen ventajas que los archivos digitales no tienen, como legibilidad humana, buena estabilidad, tamaño pequeño, etc., que son las ventajas de los archivos en papel. Lo que no está disponible debería convertirse en una forma complementaria importante de recursos de información de archivo. (B) Flujo de trabajo digital de archivos en papel La digitalización de archivos en papel es un proceso complejo. Sus vínculos básicos incluyen principalmente: clasificación de archivos, escaneo de archivos, procesamiento de imágenes, almacenamiento de imágenes, catalogación y creación de bases de datos, conexión de datos, aceptación de datos y copia de seguridad de datos. , gestión de resultados. Disposición de archivos Antes de escanear archivos en papel, de acuerdo con la situación de administración de archivos, siga los siguientes pasos para organizar correctamente los archivos y marcarlos según sea necesario para garantizar la calidad digital de los archivos. (1) Documentos fuera del almacén En términos generales, para digitalizar una gran cantidad de archivos en papel, los archivos que se van a digitalizar primero deben trasladarse del almacén de archivos al almacén de rotación temporal y luego, el personal de procesamiento digital recibe los archivos del almacén; Almacén para digitalización. Independientemente de lo primero o lo segundo, el personal de procesamiento digital debe presentar una solicitud de acuerdo con el plan predeterminado. Luego de la aprobación, entregarán los archivos a ambas partes, se registrarán y completarán los procedimientos de entrega. (2) Preparación de datos del catálogo: estandarizar el contenido de los archivos de acuerdo con los requisitos de las "Reglas para la descripción de archivos" (DA/T18-1999), incluida la determinación de los elementos de descripción, la longitud de los campos y los requisitos de contenido de los archivos. Luego, se crea una base de datos de catálogo para la recuperación de documentos digitales. La construcción de bases de datos puede utilizar la base de catalogación de archivos originales en papel. Si existen errores o irregularidades en el directorio del documento original en papel, como título, nombre del archivo, responsable, números de página inicial y final y número de páginas, etc. , debe modificarse. Si no se ha establecido una base de datos de catálogo legible por máquina para archivos en papel, se debe volver a ingresar de acuerdo con las reglas de descripción de archivos. (3) A los archivos desagregados se les pueden colocar códigos de barras uno por uno antes de desagregarlos, de modo que los archivos escaneados puedan controlarse de manera precisa y eficiente identificando los códigos de barras en el proceso posterior. Los códigos de barras también pueden facilitar la gestión futura del préstamo y utilización de archivos. Luego, el personal revisó los archivos, rollo por rollo y página por página. Registre el contenido faltante, el contenido faltante, los números de página invertidos y los valiosos archivos dañados, y entréguelos a la agencia de almacenamiento de archivos para su manejo adecuado. Para los archivos que afectarán el trabajo de escaneo si no se desvinculan, debe desvincularlos.

Al quitar la encuadernación, se debe tener cuidado para proteger el documento contra daños. Después de quitar la encuadernación, los documentos originales deben ordenarse y sujetarse con clips para evitar que se deshagan. Para documentos con una larga historia, mala calidad del papel y apertura incómoda, puede utilizar un escáner de margen cero para escanearlos. (4) Distinga entre documentos escaneados y no escaneados. Según sea necesario, separe los documentos escaneados y los no escaneados en el mismo archivo y elimine los documentos irrelevantes y duplicados. (5) La calidad del papel de recorte de páginas está relacionada con la elección del escáner y el efecto de escaneo. Por lo tanto, los expedientes que se encuentren gravemente dañados, arrugados o con escritura ilegible deberán registrarse y tramitarse por separado. Por ejemplo, los documentos doblados se pueden planchar; el papel contaminado, el polvo flotante, la suciedad o el moho se pueden quitar suavemente con un cepillo suave en un ambiente ventilado y los documentos dañados deben repararse; (6) Presentación y registro: entregue los documentos originales clasificados al personal de escaneo, prepare y complete el formulario de registro de entrega para el procesamiento digital de documentos en papel y registre en detalle el número de página inicial y el número de página de cada documento después de la clasificación. (7) Una vez completado el trabajo de encuadernación, restauración y escaneo de devolución, los archivos desmantelados deben volver a encuadernarse de acuerdo con los requisitos de almacenamiento de archivos. Al restaurar la encuadernación, preste atención a mantener el orden de los documentos sin cambios, garantizando la seguridad, la precisión y la ausencia de omisiones. Reemplace los rodillos y cajas gravemente dañados. El personal encuadernador estampará un sello especial y un sello digital especial en los documentos encuadernados. Una vez finalizado el procesamiento digital y la reencuadernación de los documentos, se debe realizar un inventario. Una vez que el inventario sea correcto, devuélvalo al departamento de gestión de archivos y siga los procedimientos de devolución de archivos. 2. Escaneo de archivos (1) La selección del equipo de escaneo se basa en el tamaño del formato del archivo (A4, A3, A0, etc.) y se selecciona un escáner con las especificaciones correspondientes. Los documentos de gran formato se pueden escanear con un escáner de gran formato, luego escanear con un dispositivo de conversión de película a digital después de microfilmarlos, y se puede utilizar la unión de imágenes después de escanear documentos de pequeño formato. Los documentos con papel en mal estado, demasiado fino, demasiado blando o demasiado grueso, así como documentos con páginas multicolores, se pueden escanear con un escáner plano normal. Los documentos A4 y A3 con papel en buenas condiciones se pueden escanear con escáneres de alta velocidad para mejorar la eficiencia del trabajo. Los documentos que no sean aptos para desembalar se pueden escanear con un escáner de margen cero. (2) Selección del modo de color de escaneo Generalmente, hay dos modos de color de escaneo: uno es escanear para formar una imagen binaria en blanco y negro. Este tipo de imagen sólo tiene dos niveles de blanco y negro, sin escala de grises de transición. Se caracteriza por un blanco y negro claro, una escritura clara y una capacidad de archivo pequeña. Es adecuado para escanear archivos de texto o gráficos con escritura y líneas claras. El segundo es escanear para formar una imagen estática de tono continuo. Estas imágenes se dividen en imágenes en escala de grises e imágenes en color. Las imágenes en escala de grises se componen de diferentes tonos de gris, desde el negro más oscuro hasta el blanco más claro. La escala de grises representa el nivel de una imagen de claro a oscuro, también llamada escala de color. Cuanto mayor sea la escala de grises, más ricos serán los niveles y mayor será la capacidad del archivo. El modo gris es adecuado para escanear fotografías y archivos de imágenes en blanco y negro. El nivel de color debe seleccionarse moderadamente, siempre que no afecte la calidad de la imagen. El número de colores en un modo de color representa la gama de colores. Cuantos más colores, más vívida y realista será la imagen y mayor será el tamaño del archivo. Del mismo modo, la elección de los números de color debe ser moderada, no más es mejor. El modo de color es adecuado para escanear documentos o documentos fotográficos en color con encabezados y sellos rojos en la página. Los archivos que deben conservarse permanentemente o durante mucho tiempo, o transferirse a los Archivos Nacionales, generalmente deben escanearse en modo color. (3) Resolución de escaneo La selección de los parámetros de resolución de escaneo se basa en principio en la claridad e integridad de la imagen escaneada y no afectará la utilización de la imagen. Al escanear archivos en modo binario, escala de grises y color en blanco y negro, generalmente se recomienda que la resolución sea mayor o igual a 200 ppp. En circunstancias especiales, como texto pequeño, texto denso, poca claridad, etc. , la resolución se puede aumentar adecuadamente. Para documentos que requieren reconocimiento de caracteres chinos OCR, se recomienda seleccionar 300 ppp como resolución de escaneo. (4) Procesamiento de reconocimiento óptico de caracteres En la actualidad, la tecnología OCR está bastante madura. Generalmente, los escáneres tienen su propio software OCR, que también es muy conveniente de usar. Sin embargo, la precisión del reconocimiento del OCR suele ser insatisfactoria, lo que afecta el efecto de recuperación. Corregir manualmente errores tipográficos en los manuscritos es engorroso. Por lo tanto, mejorar la tasa de reconocimiento de OCR es una cuestión importante en la digitalización de archivos. De hecho, siempre que preste atención a los siguientes puntos, puede mejorar significativamente la tasa de reconocimiento OCR: Primero, elija la resolución de escaneo adecuada. Una resolución de escaneo demasiado baja a menudo provocará una disminución en la tasa de reconocimiento OCR, mientras que una resolución demasiado alta hará que el archivo de imagen sea demasiado grande y reducirá la velocidad de reconocimiento. En la operación real, el operador puede juzgar la aceptabilidad verificando la cantidad de errores tipográficos rojos en el texto generado después del reconocimiento OCR (como menos del 3%) y decidir si escanear con esta resolución para el reconocimiento OCR. El segundo es escanear en modo binario en blanco y negro tanto como sea posible. Al escanear documentos con un escáner, el OCR generalmente acepta modos binarios de gris o blanco y negro, pero no modos de color.

Si la calidad de impresión del manuscrito es buena, se puede utilizar el modo gris; de lo contrario, se debe utilizar el modo binario blanco y negro. Al escanear, puede ajustar manualmente el tamaño del umbral de blanco y negro. Si el contorno del texto de la imagen binaria en blanco y negro está incompleto, aumente el umbral de forma adecuada. Si el contorno del texto es demasiado grueso, significa que hay más redundancia de información y el umbral se puede reducir adecuadamente. La imagen de escaneo binario en blanco y negro formada después de dicho ajuste puede lograr un mejor efecto de reconocimiento OCR. En tercer lugar, preste atención a la corrección de la inclinación de los caracteres al realizar el reconocimiento OCR. El reconocimiento OCR permite que los documentos estén ligeramente inclinados, pero una inclinación excesiva afectará la tasa de reconocimiento. El método de corrección consiste en hacer clic en el botón de corrección de inclinación del software de escaneo y el software de reconocimiento corregirá automáticamente la imagen antes del reconocimiento OCR. El cuarto es el preprocesamiento antes de la identificación del manuscrito. Elimine el desorden y las imágenes del manuscrito, porque el desorden interferirá con el reconocimiento del texto, las imágenes no se podrán reconocer y afectará la segmentación del texto OCR. Para las columnas del manuscrito, se recomienda configurar manualmente el área de la columna, es decir, utilizar varios cuadros para seleccionar el texto que se reconocerá y luego realizar el reconocimiento OCR. El quinto es adoptar métodos de identificación adecuados. Los manuscritos simplificados y tradicionales se mezclan y la tasa de reconocimiento de los manuscritos en chino e inglés suele ser baja. Si el chino simplificado y tradicional y el inglés se distribuyen en bloques, puede usar software de procesamiento de imágenes para editar diferentes bloques de texto en archivos con bloques de texto similares y luego usar OCR para identificar diferentes caracteres. (5) El registro de escaneo completa cuidadosamente el formulario de registro de transferencia del proceso de conversión digital de documentos en papel, registra el número de páginas escaneadas y verifica si el número real de páginas escaneadas de cada documento coincide con el número de páginas del documento completadas al presentarlo. Si hay alguna inconsistencia, se deben anotar las razones específicas y los métodos de manejo. 3. Procesamiento de imágenes Una vez completado el escaneo, la imagen obtenida debe procesarse técnicamente según sea necesario para corregir la desviación entre el archivo escaneado y el archivo original, haciendo que el archivo escaneado sea más claro y estandarizado. El procesamiento de imágenes generalmente incluye lo siguiente: (1) La inspección de la calidad de los datos de la imagen verifica la desviación, claridad y distorsión de la imagen. Si se descubre que no se cumplen los requisitos de calidad, se debe reprocesar la imagen. Cuando el archivo de imagen escaneado está incompleto o no se puede identificar claramente debido a una operación incorrecta, se debe escanear nuevamente. Si faltan archivos escaneados, escanéelos a tiempo e inserte la imagen correctamente cuando se encuentre en el orden del escaneo; Las imágenes no coinciden con el archivo original, se deben ajustar a tiempo. Complete cuidadosamente los formularios relevantes y registre los resultados de la inspección de calidad y las opiniones de procesamiento. (2) La rectificación debe corregir la imagen de la desviación de modo que la desviación no se sienta visualmente. Las imágenes con orientación incorrecta deben rotarse y restaurarse para ajustarse a los hábitos de lectura. (3) Descontaminación Se deben eliminar las impurezas que afectan la calidad de la imagen, como puntos negros, líneas negras, marcos negros y bordes negros. Durante el procesamiento se debe tener cuidado de no destruir la información original del archivo. (4) Unión de imágenes Se deben unir y fusionar varias imágenes formadas al escanear documentos de gran formato en diferentes áreas en una imagen completa para garantizar la integridad de la imagen digital del documento. (5) Recorte Las imágenes escaneadas en modo de color deben recortarse para eliminar el exceso de bordes blancos para reducir efectivamente el tamaño de los archivos de imagen y ahorrar espacio de almacenamiento. Los procesos anteriores de rectificación, descontaminación, recorte y otros se pueden completar manualmente a simple vista. También puede utilizar un software especialmente diseñado para realizar ciertas configuraciones con anticipación y luego la computadora las procesará automáticamente. El procesamiento por computadora es ciertamente eficiente, pero no tan flexible como el procesamiento manual. Por ejemplo, una vez que el tamaño de la mancha se diseña para que sea demasiado pequeño, la computadora eliminará automáticamente algunos signos de puntuación como manchas. Por tanto, el procesamiento de imágenes escaneadas también requiere una combinación de procesamiento manual y automático. 4. Almacenamiento de imágenes (1) Formato de almacenamiento Los archivos de imágenes escaneados en modo binario en blanco y negro generalmente se almacenan en formato TIFF (G4). Los archivos de imágenes escaneados en modo gris y en color generalmente se almacenan en formato JPEG. La elección de la relación de compresión durante el almacenamiento debe basarse en minimizar la capacidad de almacenamiento y al mismo tiempo garantizar la legibilidad de las imágenes escaneadas. Las imágenes escaneadas se proporcionan para consultas en la red y también se pueden almacenar como archivos en CEB, PDF u otros formatos. (2) Denominación de archivos de imágenes Los recursos de archivos digitales deben denominarse con números de archivo o identificadores únicos. Si los recursos del archivo digital se nombran por número de archivo y se ordenan por volumen, el número de archivo debe compilarse de acuerdo con las "Reglas para la preparación de números de archivo" (DA/T 13-1994). Se recomienda agregar el código de categoría de archivo. como subelemento del número de categoría, si se clasifica por pieza, el número de expediente puede adoptar la estructura de "número de caso completo-código de categoría de expediente de caso-año-período de almacenamiento-código de institución (emisión)-número de pieza-número de partición"; . 5. Construcción de la base de datos del directorio (1) Selección del formato de datos: se debe seleccionar un formato de datos común para la construcción de la base de datos del directorio, y el formato de datos seleccionado debe poder intercambiar datos directa o indirectamente a través de documentos XML. El establecimiento de esta base de datos se puede ingresar a través de un sistema de administración de archivos especial o un software de administración de procesamiento de escaneo, o se puede ingresar a través de una tabla de directorio de archivos de EXCEL especialmente diseñada, y luego los datos se pueden importar al sistema de administración de archivos.

(2) Descripción del archivo De acuerdo con los requisitos de las "Reglas de descripción de archivos" (DA/T18-1999), establezca una base de datos del catálogo de archivos e ingrese los datos del catálogo de archivos. (3) Inspección de calidad de los datos del catálogo Para garantizar la exactitud de los datos, se puede utilizar el método de "corrección manual de entrada con una sola máquina" o "corrección automática por computadora con entrada doble". Ya sea que se trate de revisión manual o revisión por computadora, es necesario verificar si los elementos de la descripción están completos y si el contenido de la descripción está estandarizado y es preciso. Si se encuentran datos no calificados, deben modificarse o volverse a registrar. 6. Enlace de datos (1) Resuma la base de datos de catalogación y los archivos de imágenes formados durante el proceso de conversión digital de los archivos enlazados. Después de pasar la inspección de calidad, se cargan en el servidor de datos de manera oportuna a través de la red para su resumen. Evite el montaje manual lento y propenso a errores de bases de datos de directorios y archivos de imágenes, e intente utilizar el montaje automático por computadora en lotes. Siempre que los archivos digitales escaneados tengan el nombre de acuerdo con el número de archivo del documento en papel, la búsqueda automática de imágenes digitales relacionadas y la adición de la información de dirección electrónica correspondiente se puede lograr compilando un programa de enlace o utilizando el software correspondiente, logrando así lotes. y enganche rápido. (2) La asociación de datos se basa en la base de datos del catálogo de documentos en papel y una o más imágenes escaneadas de cada documento en papel se almacenan como archivos de imagen. Al almacenar archivos de imagen en las carpetas correspondientes, debe verificar cuidadosamente si el nombre de cada archivo de imagen es el mismo que el número de archivo en la base de datos del directorio de archivos y si el número de página del archivo de imagen es el mismo que la página del archivo. número en la base de datos del directorio de archivos Si el número total de archivos es el mismo que el número de archivos en la base de datos del catálogo de archivos. El nombre de archivo de cada archivo de imagen se utiliza para establecer una correspondencia uno a uno con el número de archivo del archivo en la base de datos del directorio de archivo, lo que proporciona las condiciones para la conexión automática por lotes de la base de datos del directorio de archivo y los archivos de imagen. (3) Registro de entrega Complete cuidadosamente el formulario de registro de entrega para el proceso de conversión digital de documentos en papel, registre el número de páginas después de la asociación de datos y verifique si el número de páginas después de cada asociación de archivos es consistente con el número de páginas completadas. durante la clasificación y escaneo de documentos. Si hay alguna inconsistencia, se deben anotar las razones específicas y los métodos de manejo. 7. La aceptación de datos verifica la calidad general de todos los datos digitalizados muestreados, incluidas las bases de datos de catálogos, archivos de imágenes y enlaces de datos. Cuando hay un error en el enlace entre la base de datos del catálogo y el archivo de imagen, o cuando uno de la base de datos del catálogo y el archivo de imagen está incompleto, no está claro o tiene errores, la inspección aleatoria se marcará como "no calificada". Un documento completo se aceptará como "aprobado" cuando la tasa de aprobación de la inspección de muestreo de calidad de conversión digital alcance más del 95% (inclusive). Tasa de calificación = número de documentos que pasan la inspección por muestreo/número total de documentos que pasan la inspección por muestreo × 100%. Complete cuidadosamente el formulario de registro de aceptación digital para archivos en papel. La conclusión de aceptación "aprobada" debe revisarse y firmarse antes de que pueda entrar en vigor. 8. Copia de seguridad de datos Se debe realizar una copia de seguridad de los datos completos y calificados de manera oportuna. Para garantizar la seguridad de los datos, se debe diversificar la elección de los proveedores de respaldo. Se pueden lograr múltiples conjuntos de respaldos utilizando una combinación de métodos en línea y fuera de línea, y se debe prestar atención al almacenamiento remoto. También se deben verificar los datos de la copia de seguridad. El contenido de la inspección de los datos de la copia de seguridad incluye principalmente si los datos de la copia de seguridad se pueden abrir, si la información de los datos está completa y si la cantidad de archivos es precisa. Una vez realizada la copia de seguridad de los datos, se deben marcar los medios de copia de seguridad correspondientes para facilitar la búsqueda y administración. Complete el formulario de registro de gestión de respaldo digital para documentos en papel. 9. La gestión de resultados digitales debería fortalecer la gestión de resultados digitales de archivos en papel para garantizar su seguridad, integridad y disponibilidad a largo plazo. Al proporcionar recuperación y utilización en línea de resultados digitales de archivos en papel, debe haber una identificación electrónica de la unidad de producción y se debe utilizar un formato de datos descargable o no descargable según la situación específica.

上篇: 下篇: ¿Por qué el Qiuguo Hotel es tan barato?
Artículos populares