5.3. Percepciones vocales

El lenguaje humano puede definirse como una sucesión de movimientos de apertura y cierre de la boca. Las aperturas corresponden a las vocales, y los cierres, a las consonantes.

En las vocales el sonido se produce sin dificultad, con una restricción mucho más suave.

Las vocales forman el núcleo de las sílabas, y pueden existir sílabas formadas sólo por una vocal, lo cual no sucede con las consonantes.

Las vocales más extremas, que ocupan los vértices del triángulo vocálico, son las más comunes: /i/, /a/, /u/, probablemente porque son las más distinguibles entre sí desde el punto de vista perceptivo.

De acuerdo con el eje horizontal, las vocales pueden ser anteriores (lengua en posición delantera), como la /i/ y la /e/; centrales, como la /a/, y posteriores (lengua en posición trasera), como la /o/ y la /u/.

Según el eje vertical, la lengua puede estar en una posición alta, media o baja. Además, determina el grado de apertura de la boca, siendo /a/ la vocal más abierta, /e/ y /o/ semiabiertas, y las vocales /i/ y /u/, cerradas.

Para interpretar los distintos sonidos debe darse un proceso de estandarización o normalización que transforme los valores formándolos a una escala común que admita la comparación entre sí.

Según la teoría de la razón entre formantes, la identificación de las vocales no depende de los valores absolutos, de los formantes, sino de la razón o proporción entre ellos. Así, las vocales anteriores y cerradas, como la /i/ o la /e/, tienen un F1 muy bajo y un F2 muy alto, por lo que la proporción F2/F1 es grande. Esta teoría explica la mayoría de los casos pero no todos.

De esta forma, y aunque la proporción entre F2 y F1 podría tener un papel importante en la percepción de las vocales, debe haber información adicional que los oyentes usan para el proceso de normalización.

Existen otras hipótesis adicionales sobre la normalización vocálica, que se dividen en:

  • Modelos de normalización intrínseca que consideran que cada vocal porta suficiente información acústica en sí misma para permitir la normalización. Los formantes superiores (particularmente F3) y la frecuencia fundamental de la voz, o Fo permiten resolver la ambigüedad. Johnson entiende que la frecuencia fundamental es una pista perceptiva importante para identificar al hablante, su edad, su sexo, etc., y así hacer inferencias acerca del tamaño del tracto vocal necesarias para una correcta interpretación de los formantes.
  • Modelos de normalización extrínseca que defienden que los oyentes necesitan información externa a la vocal para establecer un marco de referencia sobre las características del hablante (edad, sexo, tamaño de su tracto vocal, etc.).

En los experimentos de Ladefoged y Broadbent se pone de manifiesto que las consonantes oclusivas son percibidas de forma categórica y no continua.

Contenido relacionado