Publicación:
Creación de una herramienta de voz a texto utilizando un motor de software libre para facilitar la inclución digital en educacion telepresencial a la comunidad no oyente de la Universidad ECCI

dc.contributor.advisorSabogal Rueda, Alexander
dc.contributor.authorDuarte Cortes, Luis Alberto
dc.contributor.researchgroupSigesteccispa
dc.date.accessioned2023-08-15T14:45:22Z
dc.date.available2023-08-15T14:45:22Z
dc.date.issued2022
dc.description.abstractThe purpose of this project is to develop a free software prototype tool for assisting hearing-impaired students that struggle with virtual academic environments. This comes from direct experience of the needs of this community using this platform during the Covid-19 restrictions where captions were unavailable during classes so hearing-impaired students required a full-time sign interpreter during classes to communicate accurately with the teacher. The main motivation for this development is to achieve easier adoption of new virtuality use cases, and solve the evident absence of this service since it is not provided by the university. This proposal is born from the Free Software Research hotbed from the ECCI University to dig deeply into voice-to-text technologies as a primary source to conduct a state-of-the-art analysis using different voice-to-text engines in search of the one most suitable for developing a functional prototype of a voice-to-text based web application that allows students and the university free access to a subtitle generation service that can be provided during conferences, speeches, and extracurricular activities. In this document, you will be able to visualize the different proposed phases: analysis, design, implementation, execution, and testing made to the web application in the last part of the document. The conclusions and contributions on further implementation will be reviewed, as well as recommendations for upgrading and scaling up this platform to be widely used by the community.eng
dc.description.abstractEn este documento se muestra el desarrollo de un prototipo de Software Libre para asistir a los estudiantes de la comunidad de discapacidad auditiva en ambientes virtuales, esto a partir de la observación directa de las necesidades especiales de esta población en estas plataformas durante las restricciones de COVID-19 donde los subtítulos de apoyo no estaban disponibles para ellos ya que dependen de un intérprete de lengua de señas para comunicarse adecuadamente con un docente. La motivación principal para desarrollarlo es lograr que los estudiantes sordos se adapten fácilmente a los nuevos usos de la virtualidad, y solucionar la evidente ausencia de este servicio por parte de la Universidad, Para esto se realizó desde el semillero de Software Libre de la Universidad ECCI una investigación a fondo sobre estas tecnologías de reconocimiento de voz como una investigación primaria a partir de la cual se elaboró un estado del arte analizando los diferentes motores de voz en busca del motor más adecuado para desarrollar un prototipo funcional de una herramienta de voz a texto basada en una aplicación web que le permita a los estudiantes y a la Universidad acceder a este servicio como apoyo visual de subtítulos en conferencias charlas y actividades académicas extracurriculares. En este documento se visualizan las diferentes fases planteadas: análisis, diseño, implementación, ejecución y pruebas realizadas a la aplicación web y en la parte final del documento, se evidencian las conclusiones y aportes sobre la investigación, así como recomendaciones para actualizar y escalar esta plataforma, para que sea ampliamente utilizada por la comunidad.spa
dc.description.degreelevelPregradospa
dc.description.degreenameIngeniero en Sistemasspa
dc.description.methodsModelo Gavilánspa
dc.description.programIngeniería de Sistemasspa
dc.description.researchareaSoftware Libre - Desarollospa
dc.description.tableofcontents1. Título de la Investigación 15 2. Problema de la Investigación 16 2.1 Descripción del Problema 16 2.2 Formulación del Problema 20 3. Objetivos de la Investigación 21 3.1 Objetivo General 21 3.2 Objetivos Específicos 21 4. Justificación y Delimitaciones de la Investigación 22 4.1 Justificación 22 4.2 Delimitaciones 22 5. Marco de referencia 23 5.1 Marco Teórico 23 5.1.1 Reconocimiento de voz a texto. 23 5.1.2 Ambientes de ejecución 51 5.1.3 Infraestructura TI web 53 5.2 Marco Conceptual 60 5.2.1 Reconocimiento automático de voz 60 5.2.2 ASR 60 5.2.3 Plataforma 61 5.2.4 Web Socket 61 5.2.5 API 61 5.2.6 Bit-Rate 62 5.2.7 Características de voz 62 5.2.8 Características del lenguaje 64 Marco Legal 66 5.2.9 Leyes 66 5.2.10 Decretos 66 5.2.11 Circulares 67 5.2.12 Licencias de Software Libre 67 6. Ingeniería de Requerimientos 68 6.1 Acta Inicio del Proyecto 68 6.2 Fases de implementación 68 6.2.1 Metodología 68 6.3 Identificación de necesidades 73 6.4 Investigación Preliminar estado del arte 75 6.4.1 Modelo gavilán 75 6.4.2 Problema de investigación 78 6.4.3 Búsqueda y recolección de información 79 6.4.4 Análisis de la información obtenida 92 6.5 Selección del motor de Software 93 6.6 Especificación de requisitos de la infraestructura 96 6.6.1 Sistema Operativo 96 6.7 Especificación de requisitos del servicio 96 6.7.1 Servidores 96 6.7.2 Navegadores WEB 97 6.8 Diseño y elaboración de la propuesta 98 6.8.1 Diagramas y diseño 98 6.8.2 Infraestructura 105 6.8.3 Planimetría de Red 105 6.8.4 Descripción de servicio 108 7. Solución propuesta 109 7.1 Descripción de la propuesta 109 7.2 Desarrollo de la propuesta 110 7.3 Instalación de Software principal 110 7.4 Pruebas Realizadas a la propuesta 111 7.4.1 Entorno de pruebas locales 111 7.4.2 Entorno de despliegue 113 7.4.3 Pruebas 115 7.5 Análisis de Resultados Obtenidos 119 7.6 Acta Cierre del Proyecto 119 8. Recursos 120 8.1 Recursos Humanos 120 8.1.1 Líder de proyecto 120 8.1.2 Director de proyecto (Universidad ECCI) 120 8.1.3 Asesor de proyecto (Universidad ECCI) 120 8.2 Recursos Físicos 120 8.3 Recursos Tecnológicos 120 8.3.1 Servidor de pruebas 120 8.3.2 Servidor de despliegue 121 9. Cronograma de Actividades 121 10. Conclusiones 121 11. Bibliografía 123spa
dc.description.technicalinfose incluye documentacion configuracion y ejecucion de la plataforma en el ANEXO 10 junto con la plataforma y el producto de desarollo en el ANEXO 11spa
dc.format.extent137 p.spa
dc.format.mimetypeapplication/pdfspa
dc.identifier.urihttps://repositorio.ecci.edu.co/handle/001/3546
dc.language.isospaspa
dc.publisherUniversidad ECCIspa
dc.publisher.facultyFacultad de Ingenieríasspa
dc.publisher.placeColombiaspa
dc.relation.referencesAlpha Cephei. (15 de Marzo de 2022). Vosk. Obtenido de https://alphacephei.com/vosk/spa
dc.relation.referencesAmazon. (15 de Agosto de 2022). ASR AWS. Obtenido de Pricing: https://aws.amazon.com/transcribe/pricing/?nc=sn&loc=3spa
dc.relation.referencesappareo. (29 de abril de 2021). AVIATION SPEECH RECOGNITION SYSTEM. Obtenido de Aviation Speech Recognition System Using Artificial Intelligence: https://appareo.com/aviation/aviation-speech-recognition-system/spa
dc.relation.referencesBeazley, D. M. (2009). Python Essential Reference. Addison-Wesley Professional.spa
dc.relation.referencesBermuth, D. a. (2021). Scribosermo: Fast Speech-to-Text models for German and other Languages. arXiv preprint arXiv:2110.07982.spa
dc.relation.referencesBloch, J. (2018). A Brief, Opinionated History of the API. QCon (pág. 1). San Francisco: Enterprise Software Development Community. Obtenido de https://www.infoq.com/presentations/history-api/spa
dc.relation.referencesBolaños Araya, C., Camacho Lozano, A., & Urrutia, X. d. (2017). USO DE LA ENTONACIÓN PARA IDENTIFICAR CUÁNDO USAR LA TILDE DIACRÍTICA EN EL RECONOCIMIENTO AUTOMÁTICO DEL HABLA. Káñina, 40(4), 13. Obtenido de https://doi.org/10.15517/rk.v40i4.30222spa
dc.relation.referencesBotti, V., & Serra, J. M. (2001). Aplicación de una red neuronal para la predicción de la reacción catalítica isomerización del n-Octano. Valencia: Universitat Politècnica de València.spa
dc.relation.referencesCasado-Mancebo, M. (2021). Una aproximación a la lingüística computacional. Revista de Filosofía, Letras y Humanidades,, 746–761.spa
dc.relation.referencesCasanova, E., Gölge, E., Meyer, J., davis, k., & Morais, R. (29 de septiembre de 2022). Coqui. Obtenido de Make the impossible possible and the painful painless with Coqui: https://coqui.ai/spa
dc.relation.referencesCelis Nuñez, J. D. (2017). Modelo Acústico y de Lenguaje del Idioma Español para el dialecto Cucuteño, Orientado al Reconocimiento Automático del Habla. Ingeniería, 22(3), 362.spa
dc.relation.referencesChurbanov, A., & Winters-Hilt, S. (2008). Implementing EM and Viterbi algorithms for Hidden Markov Model in linear memory. BMC Bioinformatics 9, 224.spa
dc.relation.referencesColompar, B. C. (2018). Desarrollo de un sistema de Reconocimiento Automático del Habla en Rumano para el subtitulado de vídeos educativos. Valencia: Escola Tècnica Superior d’Enginyeria Informàtica Universitat Politècnica de Valencia.spa
dc.relation.referencesCuomo, J. (2013). Mobile app development, JavaScript. IBM Software.spa
dc.relation.referencesde Luna, E. B., & Expósito López, J. (2011). UNIDAD 3. EL PROCESO DE INVESTIGACIÓN EDUCATIVA II: INVESTIGACIÓN-ACCIÓN. FACULTAD DE CIENCIAS DE LA EDUCACIÓN - UNIVERSIDAD DE GRANADA, 35-50.spa
dc.relation.referencesDeng, L., & Yu, D. (2014). Deep Learning: Methods and Applications. En M. d. Jongh, Foundations and Trends R© in Signal Processing Vol. 7 (págs. 197-387).spa
dc.relation.referencesDoshi, K. (25 de Mar de 2021). Audio Deep Learning Made Simple: Automatic Speech Recognition (ASR), How it Works. Obtenido de Speech-to-Text algorithm and architecture, including Mel Spectrograms, MFCCs, CTC Loss and Decoder, in Plain English: https://towardsdatascience.com/audio-deep-learning-made-simple-automatic-speech-recognition-asr-how-it-works-716cfce4c706spa
dc.relation.referencesEmilio, M. D. (2015). Embedded Systems Design for High-Speed Data Acquisition and Contro. Springer.spa
dc.relation.referencesEnciclopedia de Ejemplos. (29 de Septiembre de 2022). Tipos de acentos. Obtenido de Cuáles son los Tipos de acentos: https://www.ejemplos.co/tipos-de-acentos/spa
dc.relation.referencesFerrucci, D., Levas, A., Bagchi, S., Gondek, D., & Mueller, E. T. (2013). Watson: Beyond Jeopardy! Science Direct, 93-105.spa
dc.relation.referencesField, C. (31 de Agosto de 2021). Towards Data Science. Obtenido de Hidden Markov Models: an Overview: https://towardsdatascience.com/hidden-markov-models-an-overview-98926404da0espa
dc.relation.referencesGemmeke, J. F., Ellis, D., Freedman, D., Jansen, A., Lawrence, W., Moore, R. C., . . . Ritter, M. (2017). Audio Set: An ontology and human-labeled dataset for audio events. 2017 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (págs. 776 - 780). New Orleans: IEEE.spa
dc.relation.referencesGoogle. (15 de 07 de 2022). Google Kubernetes Engine. Obtenido de GKE: https://Cloud.Google.com/kubernetes-enginespa
dc.relation.referencesGoogle Cloud. (3 de Mayo de 2022). Pricing | Cloud speech-to-text | Google Cloud. Obtenido de https://Cloud.Google.com/speech-to-text/pricingspa
dc.relation.referencesGoogle Cloud. (26 de abril de 2022). Speech-to-Text: Automatic Speech Recognition. Obtenido de https://Cloud.Google.com/speech-to-textspa
dc.relation.referencesHannun, A., Case, C., Caspe, J., Catanzaro, B., Diamos, G., Elsen, E., . . . Ng, A. Y. (2014). Deep Speech: Scaling up end-to-end speech recognition. Baidu Research Silicon Valley AI Lab, 12. Obtenido de arXiv:1412.5567.spa
dc.relation.referencesHashemnia, S. &. (2021). Human EEG and Recurrent Neural Networks Exhibit Common Temporal Dynamics During Speech Recognition. Frontiers in Systems Neuroscience, 617605.spa
dc.relation.referencesHaubold, A., & Kender, J. (2007). Alignment of Speech to Highly Imperfect Text Transcriptions. 2007 IEEE International Conference on Multimedia and Expo (págs. 224 - 227). Beijing: IEEE.spa
dc.relation.referencesHerzog, O. (2005). Applied Wearable Computing, IFAWC. 2nd International Forum on Applied Wearable Computing, IFAWC: Proceedings, March 17-18, 2005 in Zurich, Switzerland (pág. 188). Zurich, Switzerland: VDE Verlag.spa
dc.relation.referencesIBM. (26 de Abril de 2022). Watson Speech to Text. Obtenido de Convert speech into text using AI-powered speech recognition and transcription: https://www.ibm.com/Cloud/watson-speech-to-textspa
dc.relation.referencesInternet Engineering Task Force. (9 de 12 de 2011). The WebSocket Protocol. Obtenido de Internet Engineering Task Force: https://datatracker.ietf.org/doc/html/rfc6455spa
dc.relation.referencesLecorvé, G. (25 de Jul de 2022). Automatic speech recognition. Obtenido de Vocal and Acoustic Interactions - Automatic Speech Recognition : http://people.irisa.fr/Gwenole.Lecorve/lectures/ASR.pdfspa
dc.relation.referencesLee, A., Kawahara, T., & Shikano, K. (2001). Julius — an Open Source Real-Time Large Vocabulary Recognition Engine. 7th European Conference on Speech Communication and Technology (págs. 1-4). Scandinavia: INTERSPEECH.spa
dc.relation.referencesLi, X., Sun, J., Lei, X., Zou, W., & Zhao, S. (22 de septiembre de 2022). Athena. Obtenido de What is Athena?: https://athena-team.readthedocs.io/en/latest/introduction/introduction.htmlspa
dc.relation.referencesLunden, I. (24 de Enero de 2013). techcrunch. Obtenido de Amazon Gets Into Voice Recognition: https://techcrunch.com/2013/01/24/amazon-gets-into-voice-recognition-buys-ivona-software-to-compete-against-apples-siri/spa
dc.relation.referencesMahmood, A., & Köse, U. (15 de Enero de 2021). Speech recognition based on Convolutional neural networks and MFCC algorithm. Advances in Artificial Intelligence Research (AAIR), 6-12.spa
dc.relation.referencesMateus, E. O. (2008). HIDDEN MAKROV MODELS (HMM'S) Y APLICACIONES. Cartagena de indias D.T y C: Universidad Tecnologica de Bolivar.spa
dc.relation.referencesMing, Z., Nan, D., Shujie, L., & Heung-Yeung, S. (Marzo de 2020). Progress in Neural NLP: Modeling, Learning, and Reasoning. (M. R. Asia, Ed.) Engineering Volume 6, Issue 3, 275-290.spa
dc.relation.referencesMinisterio de Educación. (23 de Marzo de 2020). Decreto 457 mediante el cual se imparten instrucciones para el cumplimiento del Aislamiento Preventivo Obligatorio. Obtenido de mineducacion.gov.co: https://www.mineducacion.gov.co/1759/w3-printer-394357.htmlspa
dc.relation.referencesMohamed, A. r. (2014). Deep Neural Network acoustic models for ASR. Toronto: Department of Computer Science University of Toronto.spa
dc.relation.referencesMozilla. (15 de 08 de 2022). Discourse Mozilla. Obtenido de Deep Speech forum: https://discourse.mozilla.org/c/deepspeech/247spa
dc.relation.referencesMozilla. (10 de febrero de 2022). Mozilla Voice. Obtenido de How we're making Common Voice even more linguistically inclusive: https://foundation.mozilla.org/en/blog/how-we-are-making-common-voice-even-more-linguistically-inclusive/spa
dc.relation.referencesMozilla Corporation. (21 de Septiembre de 2022). Mozilla Common Voice. Obtenido de Common Voice: https://commonvoice.mozilla.org/es/criteriaspa
dc.relation.referencesNaik, S., Naik, N., Prabhu, G., Bhayje, A., Naik, V. P., & Aswale, S. (9 de junio de 2021). A Survey on different approaches for Speech to Text and Text to Speech in Email System for Visually Impaired People. International Journal of Computer Applications (volume 183 – No. 9), 20-23.spa
dc.relation.referencesOrtega, S. V. (1999). Sobre las relaciones de la morfologia con la sintaxis. Revista Española de Lingüistica, 257-2781.spa
dc.relation.referencesPovey, D. (10 de Mayo de 2022). Kaldi. Obtenido de https://kaldi-asr.org/doc/spa
dc.relation.referencesPratap, V., Hannun, A., Xu, Q., Cai, J., Kahn, J., Synnaeve, G., . . . Collobert, R. (2019). wav2letter++: The Fastest Open-source Speech Recognition System. ICASSP 2019 (págs. 6460-6464). Brighton, UK : IEEE.spa
dc.relation.referencesReactjs. (15 de Septiembre de 2022). Refs and the DOM. Obtenido de Refs provide a way to access DOM nodes or React elements created in the render method.: https://reactjs.org/docs/refs-and-the-dom.htmlspa
dc.relation.referencesReyzábal Manso, M. I. (2005). Modelos de lenguaje y tecnología del habla. Recuperado el 15 de Septiembre de 2022, de Educación XX1 2005, 8 ( ): https://www.redalyc.org/articulo.oa?id=70600806spa
dc.relation.referencesSadeen , A., Muna, A., Alanoud, A., Turkiayh, A., Raghad, A., Rimah, A., . . . Maha, A. (14 de september de 2021). Automatic Speech Recognition: Systematic Literature Review. IEEE Access, 131858 - 131876.spa
dc.relation.referencesSean, W. (29 de noviembre de 2017). Mozilla Press Center. Obtenido de Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset: https://blog.mozilla.org/press/2017/11/announcing-the-initial-release-of-mozillas-open-source-speech-recognition-model-and-voice-dataset/spa
dc.relation.referencesShivangi, N., & Ashika, J. (2020). A REVIEW ON METHODS FOR SPEECH-TO-TEXT AND TEXT-TO-SPEECH. International Research Journal of Engineering and Technology, 6.spa
dc.relation.referencesSignificados. (16 de Enero de 2020). Obtenido de https://www.significados.com/marco-conceptual/spa
dc.relation.referencesSmith, D. R. (2003). Digital Transmission Systems. Springer.spa
dc.relation.referencesThe International Phonetic Association. (25 de Septiembre de 2022). Reproduction of The International Phonetic Alphabet. Obtenido de https://web.archive.org/web/20121010121927/http://www.langsci.ucl.ac.uk/ipa/ipachart.htmlspa
dc.relation.referencesThe World Wide Web Consortium (W3C). (15 de 05 de 2006). Understanding the New Language Tags. Obtenido de WC3 Internationalization: https://www.w3.org/International/articles/bcp47/spa
dc.relation.referencesTrivedi, A., Pant, N., Shah, P., & Sonik, S. (2018). Speech to text and text to speech recognition systems-Areview. En N. Pant, IOSR Journal of Computer Engineering (IOSR-JCE) Volume 20, Issue 2, Ver. I (págs. 38-39). Mumbai: NMIMS University.spa
dc.relation.referencesTrmal, J. ". (8 de mayo de 2022). openslr. Obtenido de About OpenSLR: https://www.openslr.org/spa
dc.relation.referencesVivek, B., Sashi, B., Virender, K., & Vinay, K. (2020). Development of Robust Automatic Speech Recognition System for Children's using Kaldi Toolkit. 2020 Second International Conference on Inventive Research in Computing Applications (ICIRCA) (págs. 10-13). Coimbatore,India: IEEE.spa
dc.relation.referencesVivek, C. V. (18 de Agosto de 2020). Markov and Hidden Markov Model. Obtenido de Elaborated with examples: https://towardsdatascience.com/markov-and-hidden-markov-model-3eec42298d75spa
dc.relation.referencesVu, T. N. (2014). Automatic Speech Recognition for Low-resource Languages and Accents Using Multilingual and Crosslingual Information. Karlsruhe Germany: Karlsruhe Institute of Technology KIT.spa
dc.relation.referencesWikipedia. (18 de mayo de 2022). Wikcionario . Obtenido de https://es.wikipedia.org/wiki/Wikcionariospa
dc.relation.referencesYalta, N., Hayashi, T., & Yalta, N. (10 de septiembre de 2022). ESPnet: . Obtenido de end-to-end speech processing toolkit: https://github.com/espnet/espnetspa
dc.rightsAttribution-NonCommercial 4.0 Internationaleng
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.coarhttp://purl.org/coar/access_right/c_abf2spa
dc.subject.proposalVoz a textospa
dc.subject.proposalSoftware Librespa
dc.subject.proposalEducación Telepresencialspa
dc.subject.proposalDiscapacidad auditivaspa
dc.subject.proposalInteligencia Artificialspa
dc.subject.proposalVoice to texteng
dc.subject.proposalOpen Source Softwareeng
dc.subject.proposalVirtual Educationeng
dc.subject.proposalHearing Impairedeng
dc.subject.proposalMarkov Chainseng
dc.subject.proposalRedes neuronales convulsionadasspa
dc.subject.proposalCadenas de Markovspa
dc.subject.proposalAutomated Subtitleseng
dc.subject.proposalSubtitulos Automatizadosspa
dc.subject.proposalConvolutional neural networkspa
dc.titleCreación de una herramienta de voz a texto utilizando un motor de software libre para facilitar la inclución digital en educacion telepresencial a la comunidad no oyente de la Universidad ECCIspa
dc.typeTrabajo de grado - Pregradospa
dc.type.coarhttp://purl.org/coar/resource_type/c_7a1fspa
dc.type.coarversionhttp://purl.org/coar/version/c_970fb48d4fbd8a85spa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/bachelorThesisspa
dc.type.redcolhttps://purl.org/redcol/resource_type/TPspa
dc.type.versioninfo:eu-repo/semantics/updatedVersionspa
dspace.entity.typePublication

Archivos

Bloque original

Mostrando 1 - 4 de 4
Cargando...
Miniatura
Nombre:
Trabajo de grado.pdf
Tamaño:
2.4 MB
Formato:
Adobe Portable Document Format
Descripción:
Cargando...
Miniatura
Nombre:
Acta de opción de grado.pdf
Tamaño:
215.1 KB
Formato:
Adobe Portable Document Format
Descripción:
Cargando...
Miniatura
Nombre:
Cesión de derechos.pdf
Tamaño:
976.09 KB
Formato:
Adobe Portable Document Format
Descripción:
Cargando...
Miniatura
Nombre:
Anexos.rar
Tamaño:
10.34 MB
Formato:
Unknown data format
Descripción:

Bloque de licencias

Mostrando 1 - 1 de 1
Cargando...
Miniatura
Nombre:
license.txt
Tamaño:
14.45 KB
Formato:
Item-specific license agreed upon to submission
Descripción:

Colecciones

Universidad ECCI | Vigilada Mineducación

Reconocimiento como Universidad: Resolución No. 13370 de 19 de Agosto de 2014.

© – Derechos Reservados Universidad ECCI – Fundada en 1977

Correo Electrónico Notificaciones judiciales

notificaciones.judiciales@ecci.edu.co

Correo Electrónico de Atención al ciudadano

info@ecci.edu.co