Voice-to-Text: 제오마의 음성 인식 지능형 모듈

제오마 영상 감시 소프트웨어의 AI 기반 Voice-to-Text 모듈은 카메라나 별도 마이크의 오디오 스트림을 '청취'하여 음성을 인식한 후, 그 내용을 CSV 보고서로 저장하거나 미리보기 화면에 텍스트로 오버레이합니다. 또한 특정 단어나 문구에 반응하도록 설정할 수도 있으며, 대화 녹음이나 교육 영상 등 .mp3 오디오 파일을 처리하여 음성을 텍스트로 변환해 제공하기도 합니다.
제오마의 Voice-to-Text는 특수 장비가 필요하지 않습니다. 일반 시중의 컴퓨터나 그래픽 카드, 그리고 모든 카메라 또는 별도 마이크의 오디오 스트림만으로도 충분합니다.
![]() |
주의: 이 모듈은 Xeoma 24.8.12 버전부터 제공되며 현재 베타 상태이므로 단어 누락이나 반복 현상이 발생할 수 있습니다. |
Voice-to-Text 모듈은 다음과 같이 다양한 목적으로 활용 가능한 유연한 도구입니다
- 콜센터: 실시간 통화 또는 통화 녹음을 텍스트로 변환하여 회사 정책 및 상담 스크립트 준수 여부 모니터링
- 노인 돌봄: 도움 요청 외침에 즉각적으로 대응
- 도시 감시: 대테러 보안 체계 내에서 위험을 시사하는 단어 인식
- 자녀 보호: 자녀의 안전 확보, 학교 폭력 방지 및 사기꾼이나 성범죄자와의 접촉 차단 지원
- 경찰: 바디캠을 통해 경찰관과 피의자 간의 대화를 텍스트로 변환하고 위험 상황 감지
- 은행 및 전당포: 물리적 조작이 필요 없는 음성 패닉 버튼
- 연구 및 분석: 특정 단어 사용 빈도 통계 수집 및 기타 음성 관련 연구 수행
- 마케팅: 고객의 프로모션 캠페인 언급 여부나 배너 및 광고에 대한 반응 등 분석
- 모든 비즈니스: 고객 서비스 품질 자동 관리 (예: 비속어 감지)
- 필터링 및 자동화: 대화 중 원치 않는 금지어 또는 문구를 감지하여 전체 통화를 듣지 않고도 해당 구간만 정밀 검토하도록 유도
이처럼 제오마 Xeoma 영상 감시 프로그램의 “Voice-to-Text” 도구는 매우 폭넓은 시나리오에 적용 가능합니다. 개인의 삶과 도시 및 시민의 보안을 강화할 뿐만 아니라, 상업 영역의 비즈니스 운영 최적화에도 기여합니다.

특수 장비 불필요:
일반 보급형 PC와 거의 모든 카메라를 그대로 사용할 수 있습니다.

뛰어난 유연성:
다양한 반응 설정 및 외부 시스템과의 통합이 가능합니다.

실시간 처리:
지연 시간 없는 실시간 모드로 즉시 작동하며, 모든 처리는 사용자 PC 내에서만 이루어집니다.

경제적인 솔루션:
해당 모듈은 Xeoma Pro 라이선스에 이미 포함되어 있습니다!
우선, 이 모듈은 제오마 서버가 적합한 하드웨어에서 실행될 때만 모듈 목록에 표시됩니다. 목록에 모듈이 없다면 적절한 프로세서를 사용 중인지, 그리고 적절한 제오마 에디션(이 모듈은 Xeoma Pro 에디션에서만 사용 가능)인지 확인하십시오. 오디오 스트림을 처리하므로 카메라 내장 마이크, 별도 USB 마이크 또는 IP 마이크 등 사운드 소스가 체인에 포함되어 있어야 합니다.
예를 들어, IP 카메라 자체에서 사운드 스트림이 들어오는 경우, 제오마 Xeoma에서 “Universal Camera” – “Voice-to-Text” – “Preview and Archive” 순으로 모듈 체인을 구성하십시오

체인에서 Voice-to-Text 아이콘을 클릭하여 모듈 설정을 엽니다. Voice-to-Text 모듈을 사용하려면 먼저 작동에 필요한 추가 리소스를 다운로드해야 합니다. 모듈 설정을 처음 열면 다운로드 프로세스가 자동으로 시작됩니다. 추가 리소스 다운로드가 완료되면 “Downloading in progress” 메시지가 사라집니다.

![]() |
추가 리소스에는 Voice-to-Text의 기반이 되는 인공지능(AI) 데이터 배열이 포함되어 있으며, 페레나소프트 Felenasoft 서버에서 요청 시 다운로드됩니다. 모든 CCTV 시스템에 필요한 것이 아니므로, 프로그램 크기를 최소화하기 위해 소프트웨어에 기본 포함되지 않습니다. |
추가 리소스 다운로드가 완료되면 활성화되는 새 옵션에서 음성 인식에 사용할 여러 AI 기반 음성 인식 모델을 선택할 수 있습니다. 각 모델은 인식 정확도와 프로세서 부하 수준에 따라 서로 다른 장단점을 가집니다. 일반적으로 모델 크기, 인식 품질 및 하드웨어 부하가 증가하는 순서에 따라 tiny, base, small, medium, large로 구분합니다.

“Language” 필드에서 음성 전사(transcript) 결과로 제공될 언어를 선택하십시오 (참고: 음성 자체의 언어는 지정할 필요가 없습니다).
모든 가청 대화를 전사해야 하는 경우, “Save data in CSV report” 체크박스를 선택하십시오. 이렇게 하면 대화 전사 내용이 지정한 디렉토리의 스프레드시트 파일로 저장되며, 이를 통계 시스템 등 다른 시스템과 통합할 수 있습니다.
또한 Voice-to-Text는 특정 문구나 단어를 감지(detect)할 수 있습니다. “Keywords for recognition” 필드에 검색할 단어나 문구를 지정하십시오. 설정 후 모듈은 카메라나 마이크 주변의 모든 음성을 계속 청취하지만, 지정한 키워드가 들릴 때만 반응합니다. 알림 수신, 녹화 시작 또는 명령 전송이 필요한 경우 Voice-to-Text 모듈 뒤에 원하는 반응 모듈을 연결하십시오.
본 예시에서는 “Preview and Archive” 모듈을 대상 모듈로 연결했으므로, 설정한 키워드가 감지되면 카메라 스트림 녹화를 시작하며 지정한 키워드가 포함된 장면을 검색할 수 있습니다. 이 옵션은 CSV 리포트 저장 옵션과 쉽게 결합할 수 있으며, 하단의 해당 체크박스를 선택하면 됩니다.
Voice-to-Text에는 전용 매크로인 %VOICE%가 있습니다. 음성 전사 내용을 전송하려는 경우 “Email Sending”, “Application Runner” 또는 “HTTP Request Sender”와 같은 대상 모듈에서 이 매크로를 사용할 수 있습니다.
제오마 Xeoma의 Voice-to-Text는 VoIP 대화 전사 등 외부 프로그램에서도 사용할 수 있습니다. 아래 지침에 따라 .mp3 파일을 Voice-to-Text에 전달하여 디코딩하고 텍스트 결과를 얻을 수 있습니다. 따라서 이 모듈은 제오마 Xeoma나 카메라가 없는 상담원 워크스테이션 작업에도 활용 가능합니다. 이는 제오마 Xeoma API 사용 또는 콘솔 명령 실행의 두 가지 방법으로 수행할 수 있습니다. 중요: .mp3 파일만 지원됩니다.
1. API. 첫 번째 방법은 제오마 Xeoma API를 통해 JSON 요청을 사용하는 것입니다. 명령어를 통해 원격 또는 로컬 제오마 Xeoma 서버에 .mp3 파일을 텍스트로 전사하도록 요청할 수 있습니다.
예시:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"
여기서
“speech.mp3”는 컴퓨터에 저장된 오디오 파일 경로로 대체하십시오
“192.168.0.135:10090”은 Voice-to-Text를 실행할 수 있는 제오마 Xeoma 서버의 IP 주소와 포트(보통 10090)로 대체하십시오
“Administrator”는 제오마 Xeoma의 관리자 프로필에서만 사용할 수 있으므로 그대로 유지하십시오
"123"을 제오마의 관리자 프로필 비밀번호로 대체하십시오
"model=large"는 인식 모델을 선택하는 매개변수입니다. 옵션에 대한 자세한 내용은 위를 참조하십시오
경우에 따라 인식 정확도를 높이는 데 도움이 되는 노이즈 제거 기능을 활성화하려면 "denoise=true"를 포함하십시오
"en"을 전사 텍스트를 출력할 언어의 2~3자리 코드(아래 참조)로 교체하십시오. Voice-to-Text 가 감지하는 실제 음성 언어와 다를 경우, 지정한 언어로 자동 번역됩니다.
참고: 이 요청을 실행하면 콘솔이나 요청 전송 도구에서 파일의 텍스트 전사 결과를 직접 확인할 수 있습니다. 전사 내용을 텍스트 파일로 저장하려면 명령어 뒤에 ">filename.txt"를 추가하십시오
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
여기서
savetext.txt를 원하는 전사 파일 이름으로 대체하십시오.
2. 명령 실행. 두 번째 옵션은 API 를 통하지 않고 콘솔에서 실행 가능한 명령을 통해 PC 로컬 환경에서 인식을 수행하는 방법입니다.
예:
{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise
여기서
"file.mp3"를 컴퓨터에 저장된 오디오 파일의 경로로 대체하십시오
"out.log"를 생성될 전사 텍스트 파일의 경로와 파일 이름으로 대체하십시오
"large"는 인식 모델을 선택하는 매개변수입니다. 옵션에 대한 자세한 내용은 위를 참조하십시오
“en”을 전사 텍스트로 출력받고자 하는 언어의 2~3자리 코드(아래 참조)로 대체하십시오. Voice-to-Text가 인식하는 실제 음성 언어와 다른 경우, 지정한 언어로 자동 번역됩니다.
경우에 따라 인식 정확도를 높이는 데 도움이 되는 노이즈 제거 기능을 활성화하려면 "denoise"를 포함하십시오.
언어 코드 목록:
“en”: “영어”,
“zh”: “중국어”,
“de”: “독일어”,
“es”: “스페인어”,
“ru”: “러시아어”,
“ko”: “한국어”,
“fr”: “프랑스어”,
“ja”: “일본어”,
“pt”: “포르투갈어”,
“tr”: “터키어”,
“pl”: “폴란드어”,
“ca”: “카탈루냐어”,
“nl”: “네덜란드어”,
“ar”: “아랍어”,
“sv”: “스웨덴어”,
“it”: “이탈리아어”,
“id”: “인도네시아어”,
“hi”: “힌디어”,
“fi”: “핀란드어”,
“vi”: “베트남어”,
“he”: “히브리어”,
“uk”: “우크라이나어”,
“el”: “그리스어”,
“ms”: “말레이어”,
“cs”: “체코어”,
“ro”: “루마니아어”,
“da”: “덴마크어”,
“hu”: “헝가리어”,
“ta”: “타밀어”,
“no”: “노르웨이어”,
“th”: “태국어”,
“ur”: “우르두어”,
“hr”: “크로아티아어”,
“bg”: “불가리아어”,
“lt”: “리투아니아어”,
“la”: “라틴어”,
“mi”: “마오리어”,
“ml”: “말라얄람어”,
“cy”: “웨일스어”,
“sk”: “슬로바키아어”,
“te”: “텔루구어”,
“fa”: “페르시아어”,
“lv”: “라트비아어”,
"bn": "벵골어",
“sr”: “세르비아어”,
“az”: “아제르바이잔어”,
“sl”: “슬로베니아어”,
“kn”: “칸나다어”,
“et”: “에스토니아어”,
“mk”: “마케도니아어”,
“br”: “브르타뉴어”,
“eu”: “바스크어”,
“is”: “아이슬란드어”,
“hy”: “아르메니아어”,
“ne”: “네팔어”,
“mn”: “몽골어”,
“bs”: “보스니아어”,
“kk”: “카자흐어”,
“sq”: “알바니아어”,
“sw”: “스와힐리어”,
“gl”: “갈리시아어”,
“mr”: “마라티어”,
“pa”: “펀자브어”,
“si”: “싱할라어”,
“km”: “크메르어”,
“sn”: “쇼나어”,
“yo”: “요루바어”,
“so”: “소말리어”,
“af”: “아프리칸스어”,
“oc”: “오크시탄어”,
“ka”: “조지아어”,
“be”: “벨라루스어”,
“tg”: “타지크어”,
“sd”: “신디어”,
“gu”: “구자라트어”,
“am”: “암하라어”,
“yi”: “이디시어”,
“lo”: “라오어”,
“uz”: “우즈베크어”,
“fo”: “페로어”,
“ht”: “아이티 크레올어”,
“ps”: “파슈토어”,
“tk”: “투르크멘어”,
“nn”: “니노르스크어”,
“mt”: “몰타어”,
“sa”: “산스크리트어”,
“lb”: “룩셈부르크어”,
“my”: “미얀마어”,
“bo”: “티베트어”,
“tl”: “타갈로그어”,
“mg”: “마다가스카르어”,
“as”: “아삼어”,
“tt”: “타타르어”,
“haw”: “하와이어”,
“ln”: “린갈라어”,
“ha”: “하우사어”,
“ba”: “바시키르어”,
“jw”: “자바어”,
“su”: “순다어”,
“yue”: “광둥어”.
1. 저희 웹사이트에서 제오마를 다운로드하여 실행하십시오. 제오마 서버가 필수 프로세서를 갖춘 머신에서 실행 중인지 확인하십시오.
또한 이 모듈을 사용하려면 제오마가 Trial 에디션으로 실행 중이거나 Xeoma Pro 라이선스가 활성화되어 있어야 합니다.
2. 카메라를 추가하거나 제오마 Xeoma 가 네트워크에서 카메라를 자동으로 검색하여 추가할 때까지 기다리십시오. 카메라 내장 마이크 외에 별도 마이크를 사용해야 한다면 '마이크' 모듈을 연결하고 적절한 오디오 소스를 선택하십시오.
3. 체인에 “음성-텍스트 변환” 모듈을 추가하고 설정하십시오.
4. 필요한 경우 아카이브 녹화, 이메일 전송 또는 사용자 정의 반응 등 필요한 동작을 설정하기 위해 다른 모듈을 추가하십시오.
5. 완료되었습니다! 이제 제오마 Xeoma의 탁월한 지능형 음성 인식 기능을 사용할 수 있습니다.
![]() |
*음성-텍스트 변환 모듈은 다음 프로세서에서만 표시되고 작동합니다:
다음 시리즈의 Intel 64 비트 프로세서: 이 모듈은 CPU 성능만으로도 작동 가능하나, 서버 머신에 전용 그래픽 카드를 장착할 것을 권장합니다. |
제오마 Xeoma에는 더 많은 기능이 있습니다!
제오마 Xeoma는 오디오 스트림을 처리하는 다른 모듈도 제공합니다:
• 마이크: USB 마이크나 별도 IP 마이크를 오디오 소스로 선택할 수 있는 모듈입니다.
• 사운드 감지기: 오디오 스트림을 분석하여 사운드 레벨이 지정된 임계값을 초과할 때 작동하는 모듈입니다.
• 사운드 이벤트 감지기: 자동차 경보, 아이 울음소리, 총성, 비명, 유리 파손음 등 특정 소리를 인식하는 지능형 모듈입니다.
![]() |
다른 기능이 필요하십니까? 유료 커스텀 개발을 통해 제오마 Xeoma에 추가 구현이 가능합니다. 상세 내용 보기 |
제오마 Xeoma를 무료로 체험해 보십시오! 아래 필드에 이름과 라이선스를 수신할 이메일 주소를 입력한 후, ‘이메일로 제오마 무료 데모 라이선스 받기’ 버튼을 클릭하십시오.
개인정보가 포함된 이메일 사용 및 기타 방식으로 개인정보를 전송하는 것을 자제해 주시기 바랍니다. 그럼에도 불구하고 본 양식을 제출함으로써, 귀하는 개인정보 처리에 동의함을 확인합니다
질문이 있거나 도움이 필요하신가요? 문의하기 기꺼이 도와드리겠습니다!
2024년 8월 14일
