Red de conocimientos sobre prescripción popular - Enciclopedia de Medicina Tradicional China - Consejos de reconocimiento de caracteres Ocr para reconocimiento y visualización

Consejos de reconocimiento de caracteres Ocr para reconocimiento y visualización

En los últimos años, con la popularidad de los escáneres, la tecnología de reconocimiento OCR se ha desarrollado rápidamente y el rendimiento del software de reconocimiento de escaneo se ha vuelto cada vez más potente e inteligente. Pero si desea obtener resultados de escaneo correctos rápidamente y obtener una entrada de texto eficiente, debe estudiar detenidamente los conocimientos relevantes, combinarlos con experiencia práctica y encontrar su propio conjunto completo de soluciones. A veces, cuando hacemos reconocimiento de caracteres, la tasa de reconocimiento es muy baja, menos del 95% como indica el software. Por favor, no culpe todavía al hardware o al software. De hecho, esta es la razón por la que aún no dominamos las habilidades de escaneo y reconocimiento OCR.

Los siguientes son algunos métodos y técnicas comúnmente utilizados en operaciones de reconocimiento de caracteres.

1. La configuración de la resolución es un requisito previo importante para el reconocimiento de caracteres. En términos generales, los escáneres proporcionan más información de imagen y el software de reconocimiento puede obtener resultados de reconocimiento fácilmente. Pero eso no significa que cuanto mayor sea la resolución de escaneo, mayor será la precisión del reconocimiento. Elija una resolución de 300 ppp o 400 ppp, adecuada para escanear la mayoría de los documentos. Preste atención al escaneo y reconocimiento del texto original. Al configurar la resolución de escaneo, no exceda la resolución óptica del escáner; de lo contrario, la ganancia superará la pérdida. A continuación se muestran algunas configuraciones típicas solo como referencia.

(1)Se recomienda 1, 2, 3, 200 ppp.

(2)Se recomienda 300 dpl para los párrafos pequeños 4 y 5.

(3) Se recomienda 400 dpl para los segmentos 5 y 6 con números más pequeños.

Tarde (4) Se recomienda 600 ppp para los párrafos con las palabras 7 y 8.

2. Al escanear, ajuste los valores de brillo y contraste de forma adecuada para que los documentos escaneados estén en blanco y negro. Ésta es la clave para la tasa de reconocimiento. La configuración de los valores de brillo y contraste del escaneo se basa en el principio de observar los finos trazos de los caracteres chinos en la imagen escaneada sin detenerse. Antes del reconocimiento, observe la calidad del texto en la imagen escaneada. Si hay puntos negros o puntos oscuros en la imagen o las líneas de los caracteres son gruesas y oscuras y los trazos no se pueden distinguir, significa que el valor de brillo es demasiado pequeño y debe aumentar el valor de brillo e intentarlo nuevamente. Si las líneas de texto en la imagen son desiguales, rotas o incluso el contorno de los caracteres chinos está muy incompleto, significa que el valor de brillo es demasiado alto y debe reducirlo e intentarlo nuevamente.

3. Seleccione el software de escaneo. Elegir un buen software de OCR que se adapte a sus necesidades es la base para un buen reconocimiento de texto. Generalmente, no debería utilizar el software OEM que viene con su escáner. El software OCR de los OEM tiene pocas funciones y efectos deficientes, y algunos incluso no tienen reconocimiento chino. Después de la comparación, creo que las capacidades de reconocimiento y las funciones de uso del sistema de entrada de reconocimiento de texto automático Unisoc OCR2003 Professional Edition y Shangshu OCR6.0 son más sobresalientes. Elija otro software de imágenes. ¿El software OCR no tiene interfaz de escaneo? ¿Por qué buscar software de imágenes? En primer lugar, el software OCR no puede reconocer todos los escáneres; en segundo lugar, y lo más importante, las imágenes escaneadas mediante la interfaz de escaneo del software de imágenes generalmente son fáciles de procesar;

4. Si es necesario formatear el texto, como negrita, cursiva, sangría en la primera línea, etc. , algún software de OCR no lo reconocerá y el formato se perderá o se distorsionará. Si debe escanear texto formateado, asegúrese de que el software de reconocimiento que utilice tenga soporte preexistente para el escaneo de formato de texto. También puede desactivar el sistema de reconocimiento de patrones para que el software pueda concentrarse en encontrar los caracteres correctos, independientemente de las fuentes y el formato de las fuentes.

5. Al escanear y reconocer periódicos u otros manuscritos translúcidos, los caracteres del reverso penetrarán en el papel y confundirán las fuentes, provocando grandes obstáculos en el reconocimiento. Para este tipo de escaneo, simplemente péguelo en la parte posterior del documento escaneado. Al escanear, cúbralo con una hoja de papel negro para aumentar el contraste del escaneo, lo que puede reducir el impacto de las fuentes borrosas en la parte posterior y mejorar la precisión del reconocimiento.

6. Generalmente, los escaneos de texto se realizan en blanco y negro, pero al configurar el escaneo, el modo de escaneo a menudo se configura en modo gris. Especialmente cuando la calidad del original es deficiente, escanear en modo de escala de grises y continuar con el reconocimiento después del procesamiento mediante el software de escaneo puede lograr una mayor precisión del reconocimiento. Vale la pena señalar que el software de reconocimiento OCR puede determinar el umbral por sí solo y una diferencia de unos pocos puntos porcentuales en el umbral puede afectar el reconocimiento normal. Por supuesto, el tamaño del archivo de imagen resultante será mucho mayor que el del archivo en blanco y negro. Al escanear una gran cantidad de manuscritos, es necesario probarlos para encontrar el porcentaje umbral óptimo.

7. Cuando encuentre un manuscrito escaneado con imágenes y texto mezclados, primero debe determinar si el software de reconocimiento que utiliza admite la función de analizar imágenes y texto automáticamente. Si es compatible, el software OCR calculará automáticamente el contenido, la posición y el orden del texto durante este proceso de reconocimiento de escaneo. La parte del texto se puede reconocer normalmente según el orden de anotación.

8. Seleccionar manualmente el área de escaneo tendrá mejores resultados de reconocimiento.

Después de configurar los parámetros, primero obtenga una vista previa y luego comience a seleccionar el área de escaneo. No elija utilizar el artículo en un área, porque para lograr mejores efectos visuales, el diseño actual del artículo utiliza más imágenes y textos. El escaneo en una imagen afectará el reconocimiento de OCR. Por lo tanto, el diseño debe dividirse en n áreas según la situación real. ¿Cómo se dividen las regiones? La fuente del texto y el tamaño de cada área deben ser consistentes, no debe haber gráficos ni imágenes y el ancho de cada línea debe ser consistente. Si las longitudes son diferentes, se deben subdividir. Generalmente, se pueden escanear hasta 10 selecciones a la vez. Según diferentes situaciones, establezca razonablemente el orden de las áreas de identificación. No creas que este proceso es demasiado molesto, es un medio eficaz para mejorar la tasa de reconocimiento. Tenga en cuenta que no debe haber ningún cruce entre las áreas de reconocimiento y no reconozca hasta que todo se sienta intacto. De esta forma, la tasa de reconocimiento general será superior al 95%. Después de corregir las palabras reconocidas incorrectamente, puede ingresar al software de procesamiento de textos correspondiente para realizar el procesamiento requerido.

9. Al colocar el manuscrito escaneado, el material de texto escaneado debe colocarse en el centro de la línea de inicio del escaneo para minimizar la distorsión causada por la lente óptica. Al mismo tiempo, se debe proteger el cristal del escáner contra daños.

Si el texto está inclinado en un cierto ángulo, o el diseño del texto original es irregular, se debe corregir con la herramienta de rotación después del escaneo; de lo contrario, el software de reconocimiento OCR considerará los trazos horizontales como trazos oblicuos, y la precisión del reconocimiento disminuirá mucho. Se recomienda que los usuarios mantengan los originales escaneados lo más rectos posible. El uso de herramientas para rotarlos y corregirlos reducirá la calidad de la imagen y aumentará la dificultad del reconocimiento de caracteres.

10. Primero obtenga una vista previa del diseño completo, seleccione el área a escanear y luego use la herramienta "Ampliar vista previa" para seleccionar un área pequeña para ampliarla y mostrarla en pantalla completa. Observe el contraste y la profundidad. y densidad del texto, y ajústelo según el tamaño del umbral de la situación. Finalmente, se requiere que el texto sea claro, no grueso (el texto está agrupado) ni liviano (el texto está roto).

11. Utilice herramientas para borrar manchas de la imagen, incluidas ilustraciones y líneas divisorias que no necesitan ser reconocidas en la página original, de modo que no haya nada superfluo excepto texto en la imagen del texto, esto puede mejorar enormemente; la tasa de reconocimiento y reducir el número de imágenes después del trabajo de modificación.

12. Si desea escanear un artículo con mala calidad de impresión, como un periódico, el resultado del escaneo no será blanco y negro, habrá muchos puntos negros y habrá adherencia en el papel. trazos de la fuente. Estos dos elementos son tabúes en el reconocimiento de caracteres chinos y afectarán seriamente la precisión del reconocimiento de caracteres chinos. Para obtener mejores resultados de reconocimiento, es necesario ajustar cuidadosamente el tono del color y escanear repetidamente para obtener los resultados ideales. Además, debido a que los periódicos son muy finos y la mayor parte del papel es de baja calidad, la cubierta del escáner no puede presionar completamente el periódico (hay espacios), por lo que el efecto de reconocimiento de escaneo de los periódicos generalmente no es tan bueno como el de las revistas. . La solución es imprimir una o dos revistas de 16k en periódicos y el efecto es bastante bueno.