Red de conocimientos sobre prescripción popular - Recetas de medicina tradicional china - Elementos comunes en la segmentación de palabras chinas

Elementos comunes en la segmentación de palabras chinas

Descripción de la función: 1. Reconocimiento automático de nuevas palabras.

Las palabras que no existen en el diccionario se pueden identificar automáticamente, con poca dependencia del diccionario;

2. los resultados de la segmentación de palabras son ricos en partes del discurso;

3. Salida dinámica de la parte del discurso

La parte del discurso en el resultado de la segmentación de palabras no es fija, y se le asignarán diferentes partes del discurso según los diferentes contextos;

4. Reconocimiento especial de palabras

p>

Por ejemplo, vocabulario de la industria química, farmacéutica y de otras industrias, nombres de lugares, marcas, nombres de medios, etc. ;

5. Resolución difusa inteligente

Resuelve de forma inteligente ambigüedades comunes en la segmentación de palabras de acuerdo con reglas internas;

6. >Identifica automáticamente varios códigos únicos y admite códigos mixtos;

7. Optimización de cuantificadores

Reconocimiento automático de cuantificadores; Introducción de rendimiento: Procesador: AMD Athlon II x2 250 3GHZ.

Un solo subproceso es superior a 833 KB/s y es seguro para múltiples subprocesos. Una función PHP implementa la segmentación de palabras chinas. Para facilitar la segmentación de palabras, utilice la siguiente imagen:

Paoding, un componente de segmentación de palabras chinas de código abierto basado en Java, proporciona interfaces lucene y solr y es eficiente y escalable. Introduzca metáforas, adopte un diseño completamente orientado a objetos y el concepto avanzará.

Alta eficiencia: en una máquina personal con memoria PIII 1G, se pueden segmentar con precisión 10.000 caracteres chinos en un segundo.

Se utiliza una cantidad ilimitada de archivos de diccionario para segmentar artículos de manera eficiente para que las palabras puedan clasificarse y definirse.

Ser capaz de analizar palabras nuevas de forma razonable.

Solo se admite el lenguaje Java. MMSEG4J es un componente de segmentación de palabras chinas de código abierto basado en Java, que proporciona interfaces lucene y solr:

1. MMSeg4J utiliza el algoritmo MMSeg de Cai Zhihao para implementar la segmentación de palabras chinas e implementa el analizador de lucene y TokenizerFactory de solr para facilitar su implementación. uso en Lucene y solr Usado en Solr.

2. El algoritmo MMSEG tiene dos métodos de segmentación de palabras, simple y complejo, ambos basados ​​en la coincidencia máxima positiva. Complex agrega cuatro reglas de las que preocuparse. Los funcionarios afirmaron que la tasa de reconocimiento de palabras correctas alcanzó 98,41. Mmseg4j implementa estos dos algoritmos de segmentación de palabras. La segmentación de palabras Pangu es un componente de segmentación de palabras chinas de código abierto. plataforma net, que proporciona lucene (versión net) y HubbleDotNet.

Alta eficiencia: Core Duo 1,8 GHz, velocidad de segmentación de palabras de un solo hilo, 390.000 caracteres/segundo.

Tasa de precisión: la segmentación de palabras de Pangu adopta un algoritmo de segmentación de palabras que combina diccionario y estadísticas, y tiene una alta precisión de segmentación de palabras.

Función: la segmentación de palabras Pangu proporciona una serie de funciones como reconocimiento de nombres chinos, segmentación de palabras simplificada y tradicional, segmentación de varias palabras, raíz de palabras en inglés, segmentación unaria forzada, segmentación de prioridad de frecuencia de palabras y filtrado de palabras de parada. y extracción de nombres propios en inglés. Jcseg es un segmentador de palabras chinas desarrollado en Java e implementado utilizando el popular algoritmo mmseg.

1. Los cuatro algoritmos de filtrado de Mmseg tienen una precisión de segmentación de palabras superior al 98,4.

2. Admite léxico personalizado. En la carpeta del tesauro, puede agregar/eliminar/cambiar el tesauro y su contenido a voluntad, clasificar el tesauro e integrar el diccionario chino moderno y el diccionario cc-cedict.

3. Entrada pinyin y soporte de sinónimos, jcseg usa pinyin para marcar todas las entradas, la entrada puede agregar un conjunto de sinónimos, jcseg agregará automáticamente pinyin y sinónimos a los resultados de la segmentación de palabras.

4. Números chinos y reconocimiento de fracciones, como: "Cuarenta o cincuenta personas están aquí, una trigésima parte", "40-50" y "30 días", jcseg los convertirá automáticamente en los números arábigos correspondientes.

5. Admite el reconocimiento de palabras mixtas en chino e inglés. Por ejemplo: ecografía B, rayos X.

6. Admite el reconocimiento de unidades de palabras básicas, como 2012.

7. Buen soporte en inglés, reconocimiento automático de correos electrónicos, sitios web, fracciones, decimales y porcentajes.

8.

Procesamiento inteligente de conversión de filete y medio ángulo.

9. Reconocimiento de letras especiales: Por ejemplo: I, II.

10. Identificación de número especial: Por ejemplo: ①, ⑩.

11. Extracción de contenido de signos de puntuación coincidentes: por ejemplo, los mejores libros de Java "Java Programming Thoughts" y "Imagination Cup Hacking Technology Competition", el contenido marcado con signos de puntuación.

12. Reconocimiento inteligente de nombres chinos. La tasa de precisión del reconocimiento de nombres chinos supera el 94%.

Jcseg lleva el documento de configuración jcseg.properties. Puede utilizar un editor de texto para editar sus opciones y configurar aplicaciones de segmentación de palabras adecuadas para diferentes aplicaciones. Por ejemplo, el número máximo de palabras coincidentes, si se habilita el reconocimiento de nombres chinos, si se carga el pinyin de la entrada y si se cargan los sinónimos de la entrada. Friso es un segmentador de palabras chino desarrollado en lenguaje C e implementado utilizando el popular algoritmo mmseg. Completamente basado en diseño e implementación modular, se puede trasplantar fácilmente a otros programas, como MySQL, PHP, etc. Y proporciona Robbe, la extensión de segmentación de palabras chinas en PHP.

1. Solo se admite la codificación UTF-8. El código fuente se puede compilar y utilizar en varias plataformas sin modificaciones. Después de cargar 200.000 entradas, el uso de la memoria se estabilizó en 14 M. .

2. Los cuatro algoritmos de filtrado de Mmseg logran una precisión de segmentación de palabras de 98,41.

3. Admite léxico personalizado. En la carpeta dict, puede agregar/eliminar/cambiar tesauros y entradas de tesauro a voluntad, y clasificar tesauros.

4. El léxico utiliza el léxico simplificado de jcseg, que es la versión Java de friso.

5. Admite el reconocimiento de palabras mixtas en chino e inglés. Por ejemplo: lenguaje C, tarjeta IC.

7. Buen soporte en inglés, correo electrónico, sitio web, decimales, fracciones, porcentajes.

8. Admite el reconocimiento de unidades individuales básicas en números arábigos, como 2012, 5 toneladas y 120 kilogramos.

9. Conversión automática de esquinas redondeadas en inglés/ancho medio, mayúsculas/minúsculas.

Y tiene una velocidad de segmentación de palabras muy alta: modo simple: 3,7M/s, modo complejo: 1,8M/s.