Introducción al modo PDX

El modelo de xenoinjerto derivado de paciente (PDX) es un modelo en el que el tejido tumoral de pacientes con tumores se trasplanta a ratones con inmunodeficiencia grave (NSG), lo que permite que el tejido tumoral crezca en los ratones para formar la primera generación de tumores trasplantados (Figura 1). .

Cuando alcanza un tamaño determinado, el tejido tumoral trasplantado se extrae y se trasplanta a un nuevo grupo de ratones en condiciones operativas estériles para formar la segunda generación de tumores trasplantados. Esta operación se repite para formar la tercera y cuarta generación de tumores trasplantados.

Este modelo conserva el microambiente de crecimiento del tumor original tanto como sea posible, lo que favorece una mejor expresión de las características del tumor original y el mantenimiento de la heterogeneidad del tumor.

Pero también hay dos problemas principales. En primer lugar, los fragmentos de ADN extraídos por este modelo no sólo contienen genes humanos, sino que también contienen una cierta proporción de fragmentos de ratón. Otro problema es que el modelo carece de muestras normales coincidentes.

Hoy quiero resolver principalmente el primer problema: cómo eliminar las lecturas del mouse en el modelo PDX.

Actualmente, muchos artículos han utilizado diversas herramientas para eliminar las lecturas del mouse en los modelos PDX. Entre ellas, las herramientas utilizadas son (Tabla 1):

En 2020, Yvonne A Evrard et al. compararon la eficacia de cinco herramientas para eliminar lecturas de ratón mediante la simulación de conjuntos de datos WES y RNA-Seq.

El método de simulación mezcla diferentes proporciones de lecturas de genoma de ratón con datos de lectura de secuenciación de muestras humanas.

Los resultados muestran que la precisión de todas las herramientas en los datos de las pruebas WES y RNA-Seq llega a 99 (Figura 2).

XenofilterR tiene la tasa de recuperación más baja (96,60 y 89,63 en WES y RNA-seq, respectivamente).

BBSplit tiene el mejor rendimiento general, es decir, la mayor precisión sin pérdida de recuperación (99,87 y 99,64 en datos WES y RNA-seq respectivamente).

Además, utilizamos los datos proporcionados por el autor para mostrar la tasa de verdaderos positivos y la tasa de falsos positivos de cada herramienta bajo diferentes umbrales se (de un solo extremo) (Figura 3).

Como se puede ver en la imagen de la izquierda, bajo diferentes umbrales SE y PE (de doble extremo), las tasas de verdaderos positivos de Bamcmp y Xenome están por encima de 99.

Pero como se puede ver en la imagen de la derecha, los falsos positivos de Bamcmp son inestables bajo diferentes umbrales SE/PE, a veces incluso tan altos como 0,2, mientras que Xenome es relativamente estable, inferior a 0,05 en diferentes circunstancias. .

Según los resultados anteriores, creemos que Xenome es una herramienta relativamente buena para eliminar lecturas del mouse.

Xenome fue propuesto por Thomas Conway1 y otros en 2012. La herramienta ha sido citada todos los años desde su desarrollo (Figura 4) y contiene muchos artículos con puntuaciones altas (Tabla 2).

Xenome utiliza secuencias de referencia del huésped y secuencias de referencia de especies trasplantadas. ¿Todos los k-mers posibles tienen las siguientes características para caracterizar su clase?

Dada una lectura o un par de lecturas, xenome calculará a cuál de las clases anteriores pertenecen sus k-mers y le asignará la clasificación. : injerto, huésped, ambos, siguiente o poco claro (Figura 5).

Xenome tiene dos bloques de funciones diferentes, llamados mediante dos comandos independientes: indexar y clasificar.

Lista de parámetros

Antes de poder clasificar las lecturas, se debe construir un índice basado en las secuencias de referencia del injerto y del huésped. La secuencia del genoma de referencia debe estar en formato FASTA y su formato comprimido (gzip).

El archivo de índice que creamos es

Como puede ver, estos índices tienen el prefijo idx que especificamos.

Con el índice podemos clasificar la lectura.

Lista de parámetros

Podemos ingresar una muestra a clasificar, la cual puede estar en formato FASTA, FASTQ o el formato de compresión correspondiente (gzip). También admite un archivo de texto, cada uno. La línea representa una secuencia.

Después de ejecutar este paso, se generará un archivo separado para cada lectura y el archivo de salida puede contener lo siguiente:

El archivo de lectura de salida tiene el mismo formato que el archivo de entrada .

También puedes especificar varios archivos de entrada al mismo tiempo, pero todas las entradas con el mismo formato se escribirán en el mismo archivo de salida. Por ejemplo

Se generarán los siguientes archivos:

Cada archivo FASTQ contiene resultados mixtos leídos de inA.fastq e inB.fastq.

Si no desea mezclar los resultados de lectura de entrada de diferentes archivos, solo puede ejecutarlos por separado. Al configurar diferentes prefijos de archivos de salida, puede distinguir lecturas de diferentes muestras. Por ejemplo

Ejecutar el comando anterior producirá los siguientes resultados:

Xenome también puede procesar archivos de entrada para secuenciación de extremos emparejados, por ejemplo

Esto generará para cada lectura El nombre del archivo resultante tiene los sufijos _1 y _2 coincidentes agregados para diferenciarlo.

Si es necesario, puede especificar otros nombres en lugar de huésped e injerto. Por ejemplo

producirá los siguientes resultados

Después de clasificar las lecturas, el comando de clasificación también imprimirá estadísticas para cada tipo de lectura en la pantalla.

En la sección de estadísticas, las 16 líneas debajo de B (Ambos), G (Borrador), H (Anfitrión) y M (Borde) representan las combinaciones de estas categorías (4×4), y 1 representa En esta categoría, 0 significa que no pertenece.

El recuento representa el número de lecturas para cada subcategoría y el siguiente porcentaje representa la proporción de lecturas. La última categoría indica la última categoría a la que pertenece esta subcategoría.

Los datos anteriores se resumen en la información del apartado Resumen. En la última categoría de salida, el número y la proporción de lecturas en cada categoría.