Dowód z głosu, nie z kontekstu

Wtorek, 28 maja 2013 (02:08)

Z Bogdanem Rozborskim, ekspertem w dziedzinie fonoskopii, biegłym przy Sądzie Okręgowym w Warszawie, rozmawia Piotr Falkowski

Ile trzeba się uczyć, żeby zostać dobrym fonoskopem?

– Najpierw najlepiej jest ukończyć studia filologiczne albo techniczne związane z akustyką, a jeszcze lepiej oba kierunki równocześnie. Najważniejsze są jednak predyspozycje słuchowe (tzw. słuch fonematyczny) i psychiczne (cierpliwość, zdolność do długotrwałej koncentracji, szybkie kojarzenie faktów). Potem trzeba nad tym pracować. Żeby osiągnąć dobry poziom, potrzeba przynajmniej dziesięciu lat doświadczenia i stałego praktykowania. Fonoskopia jest dziedziną bardzo interdyscyplinarną, dlatego inżynier musi się dokształcać w językoznawstwie, a językoznawca w inżynierii. Do tego dochodzą zagadnienia informatyczne wiążące się z tym, że obecnie mamy do czynienia z nagraniami cyfrowymi. Trzeba się bardzo dużo uczyć przez cały czas praktyki zawodowej.

Czym różni się identyfikacja osoby na podstawie głosu od innych metod, np. badania odcisków palców?

– W przypadku analizy daktyloskopijnej najczęściej mamy do czynienia z raczej niezmiennym w czasie śladem. Jeżeli materiał dowodowy nie jest uszkodzony lub zniekształcony, to powtarzalność i wewnętrzne zróżnicowanie śladu są stosunkowo niskie, chociaż nie jest to też takie proste i oczywiste, jak można zobaczyć na filmach kryminalnych. W przypadku głosu sprawa jest o wiele bardziej złożona. Głos jest sam w sobie zjawiskiem bardzo zróżnicowanym. Po pierwsze, zmienia się wraz z wiekiem. Po drugie, wpływa na niego stan fizyczny, fizjologiczny i emocjonalny wypowiadającej się osoby. Po trzecie, odczyt utrudniają różnego rodzaj zakłócenia czy szumy z nagrania. Głos ludzki ma wiele cech. Są nimi m.in. intonacja, artykulacja czy barwa głosu. Na barwę składa się też wiele czynników, w tym rozkład harmoniczny, podobnie jak w przypadku barwy instrumentów muzycznych, ale jest też wiele innych, jak np. składniki aperiodyczne.

Niektóre firmy oferują programy komputerowe dokonujące identyfikacji głosu.

– O ile odciski palców mogą już dość precyzyjnie porównywać komputery, o tyle w przypadku głosu jeszcze się takich metod nie dopracowaliśmy i myślę, że upłyną jeszcze długie dekady różnego rodzaju badań i prac. Wdrażane gdzieniegdzie systemy identyfikujące obok innych parametrów biomedycznych, również głos, są bardzo mało efektywne. To na razie raczej ciekawostka.

Łatwiej jest odczytać treść wypowiedzi czy zidentyfikować autora?

– Jeśli chodzi o algorytmy komputerowe, to okazuje się, że łatwiej jest odczytać treść. Ale tylko wtedy, gdy mamy do czynienia z wypowiedzią bezpośrednią, niezakłóconą. W przypadku mowy zakłóconej i spontanicznej automaty sprawdzają się bardzo słabo. W przypadku wypowiedzi wyrazistej, takiej jak głos czytanego z kartki przemówienia czy spikera radiowego, automaty mają pewne zastosowanie. Jednak w praktyce fonoskopijnej jest odwrotnie. Wynika to z tego, że zazwyczaj nagrania są złej jakości. Zarówno od strony metodologicznej, jak i nakładu pracy okazuje się, że znacznie trudniejsze jest pozyskanie treści wypowiedzi. Co więcej, pozyskanie treści wypowiedzi z nagrania w standardzie fonoskopijnym, a więc mowy spontanicznej i zakłóconej, jest pierwszym etapem do identyfikacji. Bez treści nagrania identyfikowanie jest ryzykowne lub wręcz niemożliwe, jeżeli zniekształceniu uległy cechy głosu mówcy.

Nie da się zidentyfikować głosu, którego nie rozumie prowadzący badanie ekspert?

– Może to prowadzić do błędów. Są dwie szkoły prowadzenia tych badań. W USA i krajach azjatyckich dominuje identyfikacja wyłącznie na podstawie parametrów fizycznych głosu, niezależnych od treści wypowiedzi. W Europie uważa się, że to zła droga. Zresztą w Polsce powstała metoda pomiarowo-lingwistyczna identyfikacji mówców zaproponowana przez Stanisława Błasikiewicza, która nie bez racji każe analizować cechy indywidualne mówcy przy uwzględnieniu faktów lingwistycznych (w tym treści wypowiedzi). Sposób mówienia ma wpływ na parametry fizyczne głosu. Można je dość dokładnie zmierzyć, ale ich interpretacja to nie proste porównanie liczb. Głos jest niejako „sterowany” przez ogólnie pojętą gramatykę języka, więc bez uwzględnienia opisu językoznawczego nie jesteśmy w stanie w sposób właściwy tego dokonać. Na przykład jednym z podstawowych parametrów fizycznych głosu jest częstotliwość podstawowa tonu krtaniowego fo – intonacja. Częstym błędem ekspertów jest wrzucanie do jednego worka wszystkich pomiarów fo bez względu na wypowiedź, z której dany pomiar pochodzi, a potem wyznaczanie średniej i porównywanie jej z fo materiału porównawczego. Tak się nie da niczego zidentyfikować. Dlatego że fo jest uwikłana w różne funkcje prozodyczne, wynikające z wyższych funkcji gramatycznych języka, takich jak akcent, emfaza czy rodzaj frazy (pytająca, oznajmująca). W intonacji wyrażają się także przeżywane przez mówcę emocje. Badanie fo jest z jednej strony przydatne i potrzebne (pozwala na powiedzenie wielu rzeczy o emocjach mówcy), ale może być użyteczne tylko wtedy, gdy porównujemy odpowiadające sobie kategorie gramatyczne, na przykład pytanie z pytaniem. Stąd potrzebna jest znajomość treści wypowiedzi.

A co z pójściem dalej, czyli identyfikacją na podstawie wyinterpretowanego z przebiegu rozmowy kontekstu? Komisja Millera stwierdziła, że skoro członkowie załogi wypowiadają się w pewnych momentach tak, jakby coś raportowali, to zapewne mówią do swojego przełożonego i zidentyfikowali gen. Błasika.

– W identyfikacji możemy brać pod uwagę pewne cechy lingwistyczne, na przykład skłonność do określonego sposobu budowania zdań, używania wyrażeń gwarowych, nawykowych itp. Istnieje też w ramach badań fonoskopijnych wnioskowanie o emocjach, a także o relacjach między rozmówcami (analiza zachowań werbalnych). Można stwierdzić na podstawie sposobu mówienia, że ktoś na przykład „odnosi się władczo” lub „przejawia podległość” w stosunku do swojego rozmówcy. Identyfikowanie mówcy na podstawie treści wypowiedzi, kontekstu itp. wchodzi już w skład tzw. analizy pragmatycznej wypowiedzi, która jest bardziej narzędziem interpretacyjnym niż identyfikacyjnym. Należy więc stosować daleko idącą ostrożność przy użyciu tego narzędzia, ponieważ interpretacja treści wypowiedzi oraz kontekstu ich występowania należą do zadań śledczego, a nie do badań fonoskopijnych, chyba że analizowane wypowiedzi określają konkretne zachowania werbalne identyfikowanego mówcy. Wspomniane „raportowanie” może być co najwyżej jedną z wielu przesłanek do takiego, a nie innego zidentyfikowania rozpatrywanego mówcy. Twierdzenie, że podwładni „raportowali” swojemu przełożonemu, czyli generałowi Błasikowi, jest bardzo ryzykowne i bez poparcia badaniami identyfikacyjnymi z bezpośrednim użyciem próbek głosu identyfikowanego „przełożonego” teza ta będzie trudna do utrzymania.

Dziękuję za rozmowę.

Piotr Falkowski