Nicht nur für Baustellenbegehungen
Spracherkennung mit Netzwerk-SystembetreuungFünf Minuten werden benötigt, dann ist das sprachliche Profil eines Menschen erfasst. Fünf Minuten, die das Fachvokabular, seinen beruflichen „Wortschatz“ abbilden helfen – etwa den eines Architekten, Gutachters, Sachverständigen oder Projektleiters. Danach wird, verknüpft mit einer Spracherkennungssoftware „Diktieren zur Zeitersparnis“.
Anforderungen
Spracherkennung muss intuitiv unkompliziert, verlässlich sein – und sie muss die Sprache des Benutzers kompetent abbilden können. Seinen eigenen Wortschatz, seine Lautbildung, sein individuelles Sprechen. Von möglichst überall.
Andreas Mohr erklärt dies so: „Wir nennen das Prosodie. Damit sind die Artikulation gemeint, das Frequenzband, die Sprechpausen, die Intonation. Jeder Sprecher hat sein eigenes Profil; das ist wie ein Fingerabdruck.“ Die Spracherkennungssoftware vermag diesen Fingerabdruck zu erkennen.
Notwendig ist ein bloß wenige Minuten dauernder Trainings-text, eine „Anlernphase“, in der die Software die Prosodie des Sprechers analysiert und mit einem Algorithmensystem erfasst. Die branchenunabhängige Software erkennt automatisch den individuellen Wortschatz (Lexeme und Phoneme) und schließt per Wahrscheinlichkeitsalgorithmus ähnlich lautende aus. Je mehr das System im Vorfeld „gelernt“ hat, umso eindeutiger erkennt es das verwendete Vokabular.
Eine Beispiel-Textdatei wird erstellt
Kommen dann noch mehrere dutzend Seiten fachsprachlicher Basistexte hinzu, werden diese (mit den typischen Redewendungen) mit der jeweiligen Prosodie verknüpft. Fertig!
„Wir erzeugen als erstes aus dem Fundus vorhandener Arbeitstexte eine anonymisierte, zuweilen riesige Datendatei. Je größer am Anfang, desto besser. Diese Riesendatei vermittelt quasi dem System das Vokabular bzw. den Wortschatz. Und fortan“, erklärt Andreas Mohr weiter, „erkennt unsere Software zu 97 % die diktierten Sätze. Korrekturen sind so gut wie keine mehr nötig.“
Dies trifft z. B. für Diktate im Bausektor zu. Denn es gilt die Erkenntnis: „Jeder Berufsstand benutzt im Alltag fast immer dieselben Begriffe und Redewendungen.“ Ein Korrekturprogramm überläuft den diktierten Text und konvertiert Erkennungsdefizite zusätzlich. Diese Fehler wiederum „merkt“ sich die Software für die Zukunft in der eigenen Datenbank. All diese vorbereitenden Erkennungsmaßnahmen sind notwendig, damit eine Spracherkennung auf diesem Niveau überhaupt funktioniert. Eine günstige Software aus dem Elektromarkt wird dieses Niveau nicht erreichen und daher zum Misserfolg werden.
„Dennoch muss man beraten werden, dass ein PC nicht gleich ein PC ist, auch wenn er die gleichen technischen Features aufweist. Spracherkennung basiert auf einem Algorithmus, dem sogenannten ,Hidden Markov Model‘ (HMM). Der benötigt je PC enorme Rechnerkapazitäten“, erklärt Andreas Mohr (und damit auch Unzulänglichkeiten im Computermarkt, wo solches, eben notwendiges Detailwissen kaum einer zu kennen scheint). Oft enttäusche die ungeeignete Technik die hochgesteckten Diktiererwartungen; und meist genüge die Umstellung auf Server- statt auf Einzelplatztechnologie.
Viele Anwender kauften sich anfangs lieber drei neue Einzel-PC, anstatt dasselbe Geld in einen qualitätsbesseren und daher in der Folge nachhaltig günstigeren Server zu investieren. Auf einem solchen werden dann auch die jeweiligen Berechtigungen für die Anwender festgelegt. Es können mehrere Personen gleichzeitig(!) auf die Spracherkennung zugreifen (also z. B. ein Sprecher sowie dessen Korrekturkraft), zugleich an einem Dokument arbeiten und es aktualisieren.
Funktionsweise im Baustellenalltag
Die Software von indocma schafft durch die individuelle Vokabelanalyse einen stabilen Workflow −, samt Computermikrophon, Headset oder kleinem Diktiergerät. Möglich ist dies auch per App auf einem iPhone oder Android-Handy für unterwegs. Die App ist „nur“ ein praktisches, simples Vehikel, allerdings ein sehr effizientes Hilfsmittel für den Alltag. Ziel ist es letztlich, erklärt der Geschäftsführer, „zeitaufwendige und nervige Korrekturen langer Diktattexte zu vermeiden. Solche Dauerschleifen sind unnötig. Ein Handy, etwa mit unserer automatischen Verschriftungssoftware, überträgt sogar die gesprochenen Infos direkt in die firmeneigene CRM-Datenbank, ins Outlook oder z. B. in ein Projektmanagementsystem. Verschlüsselt. Was diktiert wird, ist also sofort in die betrieblichen Abläufe eingebunden.“
Heute werde die gesamte Spracherkennungstechnologie daher nicht mehr – wie oben geschildert − auf einem Einzelrechner, sondern auf einer Cloud installiert. Über den Cloud-Server (entweder in der eigenen Firma oder in einem Rechenzentrum außerhalb) hat jeder Berechtigte im Betrieb darauf Zugriff.
Keine Investition in teure Hardware
Das Besondere der anfangs erwähnten Firmenkooperation von indocma und Comforts ist, dass erstens beim Kundenunternehmen inhouse und/ oder zweitens auch in den Comforts-Rechenzentren in Friedrichshafen, Nürnberg oder Reutlingen dem Kunden ein Cloud-Server zur Verfügung gestellt wird. Andreas Mohr ist zuversichtlich: „Spracherkennung mittels Server ist bislang in Deutschland einmalig. Es ist also nicht mehr nötig, dass unser Auftraggeber wie früher die eigene PC-Hardware gegebenenfalls teuer aufrüstet, oder gar einen eigenen Server anschafft. Das nehmen wir ihm ab.“
Jan Würzebesser, Geschäftsführer der comforts GmbH, ergänzt: „Aufgrund der Synergie unserer unterschiedlichen Geschäftsfelder IT-Netzwerke und Spracherkennung ergibt sich: Wir sind imstande, Unternehmen mit einem Spracherkennungsserver auszustatten. Teure neue Hardware oder fehlende Serverstrukturen sind für Unternehmen kein Hinderungsgrund mehr.“
Der Sprach-Datentransfer wird via Server somit im gesamten Firmennetzwerk des Kunden verankert – und dient der Geschäftsleitung ebenso wie dem Vertrieb, der Materialbeschaffung, dem Bauleiter, dem CRM-Marketing oder dem Außendienst. Der Cloud-Server steht global zur Verfügung. Egal, ob der Mitarbeiter gerade auf einer Baustelle in Asien mit einem Laptop oder in Deutschland mit seinem iPad arbeitet. Eine schnelle Kommunikation allein durch Spracherkennung via Diktat ist möglich. Zeit- und Wegeersparnis sind groß, Kommunikationsfehler werden minimiert. Damit ist diese Lösung nicht nur für Baustellenbegehungen geeignet, sondern erleichtert auch Baubesprechungen und Bauabnahmen.
Fazit
Ein System wie „Voice2Process“ kann „lernen“ und individuell angepasst werden, ist also keine Lösung von der Stange. Viele Anwender waren bislang der Meinung, ein billiges Sprachprogramm genüge völlig, aber der Berufsalltag beweist das Gegenteil. Leider glauben sie dann oft, Spracherkennung insgesamt tauge nichts. Das ist falsch. In der vierstelligen Investitionssumme, die pro Lizenz fällig ist, sind allerdings Spracherkennung, die aufwendige Vokabularerfassung, die Client- und die Serverlizenz sowie die Netzwerkfähigkeit enthalten.
Jetzt Artikel freischalten:
tab DIGITAL
14 Tage kostenlos testen
2,49 € / Woche*
Fachwissen jederzeit und überall.
Greifen Sie auf exklusive PLUS-Artikel und das komplette Online-Archiv zu und lesen Sie tab bequem im E-Paper-Format. Das digitale Abo für alle, die flexibel bleiben möchten.
Ihre Vorteile:
- Exklusive tab-PLUS-Artikel
- 6 E-Paper für mobiles Lesen
- Online-Archivzugang
*129,48 € bei jährlicher Abrechnung inkl. MwSt.
tab KOMBI
4,99 € / Woche*
Das komplette tab-Erlebnis – digital & gedruckt.
Für alle, die Fachinformationen auf allen Kanälen nutzen möchten: Kombinieren Sie Print und Digital, profitieren Sie von unseren Fachforen und präsentieren Sie Ihr eigenes Projekt.
Ihre Vorteile:
- Exklusive tab-PLUS-Artikel
- 6 Print-Ausgaben pro Jahr
- E-Paper für mobiles lesen
- Teilnahme an einem Fachforum
- Online-Archivzugang
- Veröffentlichen eines Projekts
*259,48 € bei jährlicher Zahlung inkl. MwSt. & Versand
