De qué forma traducirían un PDF escaneado? Con qué proceso?
De qué forma traducirían un PDF escaneado? Con qué proceso?
Dependería de la calidad y de cuanto puede extraerse. Habría que ver cual es el OCR indicado. Yo siempre me inclino por el Abby Fine Reader. En caso que la extracción no sea óptima optaría por una transcripción para luego puedo utilizar una herramienta de traducción asistida. Facilitando la labor de traducción y edición. En otros casos ya guardando el PDF como Word (función muy util en el Adobe Acrobat Professional) alcanza.
A decir verdad, la más directa es la de traducir mentalmente y transcribir directamente la traducción. Obviamente que pierdes la posibilidad de usar un CAT Tool y apalancarte en el uso de una memoria y un glosario.
Otra solución de mas alta tecnología es la que utiliza una aplicación para reconocimiento de voz. En ese caso, puedes traducir mentalmente y grabar el texto en un procesador mientras le hablas al micrófono. Esta técnica puede llegar a hacerse transcribiendo el source y luego utilizando un CAT Tool para la traducción. Lamentablemente, estas aplicaciones son mas efectivas luego de crear tu propio "perfil", por lo que su uso conlleva ciertas restricciones.
Yo me inclino por la primera opción de gentle, es decir, traducir mentalmente y transcribir la traducción. Sí recomiendo, en caso de que el documento presente tablas, cuadros, etc., pedirle ayuda a un experto en DTP para que nos recree las tablas y cuadros, ello ayudaría a agilizar el trabajo del traductor y obtener un documento final prolijo y lo más fiel posible al documento original.
Estoy de acuerdo con FedericoP. Obviamente depende del caso. En primer lugar, intentaría convertirlo con algún OCR como el Abby. En caso de que la conversión salga bien, se puede hacer un pre - DTP y pre-Editing para poder traducirlo directamente usando una CAT Tool y de esta manera, nos beneficiaríamos de la memoria. En muchos casos, realizando el pre DTP y el pre Edigting, no hace falta realizar un DTP final ya que el archivo queda prolijo.
En caso de que el PDF tenga muchas partes escritas a mano o mal escaneadas, siempre es mejor transcribir de cero en un Word en texto plano y luego darle formato en DTP.
Aclaro que, para mi primera opción, tienen que haber evaluado lo suficientemente el contenido como para determinar que no va a existir tanta ventaja en el hecho de crear y trabajar con una memoria.
Me han tocado proyectos que eran contratos escaneados, muy similares y en los que claramente convenía convertirlos con un OCR (tipo Abbyy) y aprovechar el "leverage" que provee un CAT Tool.
Dicho sea de paso, la delicia de estos proyectos legales la constituye los millares de sellos (frecuentemente ilegibles), firmas, fragmentos manuscritos y...¡marcas de agua de las hojas! que obstaculizan el trabajo del mejor de los OCRs.
Claro, creo que lo que definiría el proceso serían algunas de estas variantes:
- driver del cliente: costo? tiempo?
- complejidad del escaneo: si se convierte más o menos bien en un OCR, bien, se puede emprolijar la conversión de manera tal que el traductor pueda usar una herramienta de traducción. Se convierte espantoso? Creo que en estos casos, es mejor "a la vieja usanza", como comentaban gentle y barbaram, traducir directamente en un documento nuevo de cero, porque costo beneficio, si el cliente no va a volver a mandar más documentos con contenido similiar, o si este es el único documento que manda (es decir que no hay otro documento muy similar) no tiene sentido incurrir en costos y tiempo extra para preparar un archivo editable. Se traduce de cero y listo. Se ahorra tiempo y costos.
También coincido con barbaram, que cuando hay tablas (por ejemplo, analíticos, o facturas, etc) suelo hacer el cuadro vacío, para que el traductor ya tenga facilitada esa tarea y vaya insertando la traducción en la tabla ya hecha de antemano.
Todo esto hay que evaluarlo en el momento que nos llega el material, y ahí entonces decidir el proceso a trabajar.
FedericoP, recordá que para guardarlo directamente a Word desde el PDF el archivo debió ser creado en algún programa (por ejemplo Word, Illustrator, etc.) y no escaneado como imagen. En esos casos guardarlo como Word sólo nos daría una imagen insertada en una página de Word.
Sí, para los scaneados, lo mejor es usar un OCR, y hasta incluso a veces es mejor ir convirtiendo en páginas separadas, por ejemplo, todas las de texto plano juntas, las tablas por separado, etc. Y de más está decir que siempre es mejor setear el OCR en el idioma del escaneado, así lo levanta mejor.
Alguien conoce algún otro tip? así vamos mejorando estos tortuosos proyectos?
There are currently 1 users browsing this thread. (0 members and 1 guests)