Voice-to-Text: Xeoma

Voice-to-Text: Module Trí tuệ Nhận dạng Giọng nói của Xeoma

Voice-to-Text: Module thông minh nhận dạng giọng nói của Xeoma

Module Voice-to-Text tích hợp AI của phần mềm giám sát video Xeoma sẽ 'lắng nghe' luồng âm thanh từ camera hoặc micro rời, nhận diện lời nói và lưu bản ghi dưới dạng báo cáo CSV hoặc hiển thị trực tiếp dưới dạng văn bản trên màn hình xem trước. Ngoài ra, bạn có thể cấu hình để hệ thống phản hồi khi phát hiện các từ hoặc cụm từ cụ thể. Module này cũng xử lý được các tệp âm thanh .mp3 – như bản ghi cuộc hội thoại, video đào tạo, v.v. – bằng cách chuyển đổi giọng nói thành văn bản.

Việc vận hành Voice-to-Text của Xeoma không yêu cầu thiết bị chuyên dụng: hệ thống tương thích với luồng âm thanh từ bất kỳ camera hay micro nào, cũng như các máy tính và card đồ họa phổ thông.

Cảnh báo: module này khả dụng từ phiên bản Xeoma 24.8.12 và đang ở trạng thái beta, nên có thể bỏ sót từ hoặc gặp hiện tượng lặp từ.

Dùng thử

Mua ngay

Chi tiết

KỊCH BẢN ỨNG DỤNG

Module Voice-to-Text là công cụ linh hoạt, đáp ứng nhiều mục đích sử dụng khác nhau:

Trung tâm cuộc gọi: chuyển đổi nội dung các cuộc gọi đang diễn ra hoặc bản ghi âm nhằm giám sát việc tuân thủ chính sách công ty và kịch bản hội thoại
Chăm sóc người cao tuổi: khả năng phản ứng tức thì với tiếng kêu cứu
Giám sát đô thị: nhận dạng các từ ngữ báo hiệu nguy hiểm phục vụ công tác an ninh chống khủng bố
Kiểm soát của cha mẹ: hỗ trợ đảm bảo an toàn cho trẻ em, bảo vệ trẻ khỏi nạn bắt nạt hoặc các cuộc giao tiếp với kẻ lừa đảo, kẻ quấy rối
Cảnh sát: tích hợp vào camera đeo người để chuyển đổi hội thoại giữa cảnh sát và nghi phạm thành văn bản, đồng thời phát hiện các tình huống nguy hiểm
Ngân hàng, tiệm cầm đồ: nút báo động khẩn cấp không cần tác động vật lý
Nghiên cứu, phân tích: thu thập thống kê ngầm về tần suất sử dụng các từ ngữ và thực hiện các nghiên cứu khác liên quan đến giọng nói
Marketing: xác định xem khách hàng có đang thảo luận về chiến dịch quảng bá, phản ứng của họ đối với banner hoặc quảng cáo, v.v. hay không.
Mọi doanh nghiệp: kiểm soát tự động chất lượng dịch vụ khách hàng (ví dụ: phát hiện từ ngữ thô tục)
Lọc và tự động hóa: phát hiện các từ hoặc cụm từ không mong muốn, bị cấm trong hội thoại, và chuyển các phân đoạn này để kiểm tra kỹ hơn mà không cần nghe toàn bộ cuộc gọi

Như vậy, công cụ "Voice-to-Text" của phần mềm giám sát video Xeoma có thể ứng dụng trong rất nhiều kịch bản! Không chỉ nâng cao an ninh cho đời sống cá nhân, quản lý đô thị và công dân, mà còn tối ưu hóa hoạt động doanh nghiệp.

ƯU ĐIỂM CỦA MODULE VOICE-TO-TEXT:

Không yêu cầu thiết bị chuyên dụng:
Tương thích với các máy tính phổ thông và hầu hết mọi loại camera.

Ưu điểm của module Voice-to-Text: linh hoạt và đa năng

Linh hoạt tối đa:
Đa dạng tùy chọn phản hồi, tích hợp liền mạch với các hệ thống bên thứ ba.

Ưu điểm của module Voice-to-Text: xử lý thời gian thực

Xử lý thời gian thực:
Xử lý tức thì ở chế độ thời gian thực, không độ trễ. Hoạt động hoàn toàn trên máy tính của bạn.

Ưu điểm của module Voice-to-Text: chi phí hợp lý

Giải pháp chi phí tối ưu:

Module đã được tích hợp sẵn trong các gói license Xeoma Pro!

NGUYÊN LÝ HOẠT ĐỘNG:

Lưu ý rằng module này chỉ hiển thị trong danh sách khi phần server của Xeoma chạy trên phần cứng tương thích. Nếu không tìm thấy module, hãy đảm bảo bạn đang sử dụng bộ vi xử lý phù hợp và đúng phiên bản Xeoma (module chỉ khả dụng trong phiên bản Xeoma Pro). Vì module xử lý luồng âm thanh, hệ thống cần có nguồn âm thanh trong chuỗi kết nối: micro tích hợp sẵn trong camera hoặc micro USB/IP rời.

Ví dụ, giả sử luồng âm thanh đến từ chính camera IP. Trong trường hợp này, hãy thiết lập chuỗi module trong Xeoma theo thứ tự: "Universal Camera" – "Voice-to-Text" – "Preview and Archive":

Mẫu chuỗi xử lý với module thông minh Voice-to-Text

Nhấp vào biểu tượng Voice-to-Text trong chuỗi để mở cài đặt mô-đun. Bước đầu tiên khi vận hành mô-đun Voice-to-Text là tải xuống các tài nguyên bổ sung cần thiết. Quá trình tải sẽ tự động bắt đầu khi bạn mở cài đặt mô-đun lần đầu. Khi quá trình tải hoàn tất, thông báo “Downloading in progress” sẽ biến mất.

Cài đặt module thông minh Voice-to-Text

Tài nguyên bổ sung chứa các mảng dữ liệu cho AI mà Voice-to-Text vận hành, được tải theo yêu cầu từ máy chủ của FelenaSoft. Các dữ liệu này không đi kèm phần mềm để tối ưu dung lượng cài đặt, vì không phải hệ thống CCTV nào cũng cần sử dụng.

Các tùy chọn mới xuất hiện sau khi hoàn tất tải tài nguyên bổ sung cho phép bạn chọn giữa nhiều mô hình nhận dạng giọng nói dựa trên AI. Mỗi mô hình có ưu và nhược điểm riêng – thông thường khác nhau về độ chính xác nhận dạng và mức độ tải lên bộ xử lý. Theo quy ước, chúng được gọi là tiny, base, small, medium, large theo thứ tự tăng dần về kích thước mô hình, chất lượng nhận dạng và tải trọng phần cứng khi sử dụng.

Cài đặt module thông minh Voice-to-Text

Tại trường “Language”, chọn ngôn ngữ hiển thị cho bản ghi chép (lưu ý không cần chỉ định ngôn ngữ của lời nói).

Để chuyển soạn toàn bộ các cuộc hội thoại nghe được, hãy tích chọn “Save data in CSV report”. Bản ghi chép hội thoại sẽ được lưu vào tệp bảng tính trong thư mục bạn chỉ định trên ổ đĩa, hỗ trợ tích hợp vào các hệ thống khác, ví dụ như hệ thống thống kê.

Ngoài ra, “Voice-to-Text” có thể phát hiện các từ hoặc cụm từ cụ thể. Nhập các từ hoặc cụm từ cần tìm trong trường “Keywords for recognition”. Khi đó, mô-đun vẫn lắng nghe mọi âm thanh quanh camera hoặc micro nhưng chỉ phản hồi khi nghe thấy từ khóa. Hãy kết nối mô-đun phản hồi mong muốn sau mô-đun “Voice-to-Text” để nhận thông báo, bắt đầu ghi hình hoặc gửi lệnh.

Trong ví dụ này, chúng tôi kết nối mô-đun “Preview and Archive” làm mô-đun đích, nên khi phát hiện từ khóa, hệ thống sẽ bắt đầu ghi lại luồng camera và cho phép tìm kiếm các đoạn video chứa từ khóa đó. Tùy chọn này dễ dàng kết hợp với tính năng lưu báo cáo CSV bằng cách tích vào ô tương ứng bên dưới.

“Voice-to-Text” có macro riêng – %VOICE% – dùng cho các mô-đun đích như “Email Sending”, “Application Runner” hoặc “HTTP Request Sender” nếu bạn muốn gửi nội dung chuyển soạn giọng nói đến các mô-đun này.

TÍCH HỢP VỚI PHẦN MỀM BÊN NGOÀI

Voice-to-Text của Xeoma còn có khả năng vận hành từ các chương trình bên ngoài, ví dụ như chuyển soạn các cuộc hội thoại VoIP. Theo hướng dẫn dưới đây, bạn có thể gửi tệp .mp3 cho Voice-to-Text để giải mã thành văn bản. Nhờ đó, mô-đun này có thể ứng dụng cho cả các trạm vận hành không cài đặt Xeoma hoặc không có camera. Có hai cách thực hiện: thông qua Xeoma API hoặc chạy lệnh console. Quan trọng: chỉ hỗ trợ tệp .mp3.

1. API. Đối với tùy chọn đầu tiên, bạn cần sử dụng Xeoma API kết hợp với JSON requests. Thông qua các lệnh, bạn có thể gửi yêu cầu đến máy chủ Xeoma (cục bộ hoặc từ xa) để thực hiện chép lời tệp .mp3 thành văn bản.

Ví dụ:
curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true"

trong đó
thay thế "speech.mp3" bằng đường dẫn đến tệp âm thanh trên máy tính của bạn;

thay thế "192.168.0.135:10090" bằng địa chỉ IP của máy chủ Xeoma đang chạy Voice-to-Text cùng cổng tương ứng (thường là 10090);

giữ nguyên "Administrator" vì tính năng này chỉ khả dụng cho tài khoản Administrator của Xeoma;

Thay “123” bằng mật khẩu của tài khoản Quản trị viên Xeoma;

"model=large" là tham số để chọn mô hình nhận diện. Xem thêm các tùy chọn ở trên;

"denoise=true" được dùng nếu bạn muốn bật khử nhiễu, giúp tăng độ chính xác nhận diện trong một số trường hợp;

Thay "en" bằng mã ngôn ngữ gồm 2-3 ký tự (xem bên dưới) cho văn bản chuyển lời thành chữ. Nếu mã này khác với ngôn ngữ thực tế của âm thanh đầu vào, nội dung sẽ tự động được dịch sang ngôn ngữ bạn chỉ định.

Lưu ý: Yêu cầu này sẽ trả về kết quả chuyển lời thành chữ trực tiếp trong console hoặc công cụ bạn dùng để gửi yêu cầu. Nếu muốn lưu kết quả vào một tệp văn bản, hãy thêm ">filename.txt" sau lệnh:

curl -F "audio_file=@speech.mp3" "http://192.168.0.135:10090/api?login=Administrator&password=123&speech_recognition=recognition&model=large&language=en&denoise=true">savetext.txt
trong đó
Thay savetext.txt bằng tên bạn muốn đặt cho tệp chuyển soạn.

2. Thực thi lệnh. Tùy chọn thứ hai cho phép thực hiện nhận diện cục bộ trên PC thông qua lệnh trong console, thay vì qua API.

Ví dụ:

{Path to Xeoma executable file} -speech2text file.mp3;out.log;large;en;denoise

trong đó
Thay “file.mp3” bằng đường dẫn đến tệp âm thanh trên máy tính của bạn;

Thay “out.log” bằng tên và đường dẫn đến tệp văn bản chuyển ký kết quả;

“large” là nơi bạn chọn mô hình nhận dạng. Xem chi tiết các tùy chọn ở trên;

Thay “en” bằng mã 2-3 ký tự (xem bên dưới) của ngôn ngữ bạn muốn nhận văn bản chuyển ký. Nếu ngôn ngữ này khác với ngôn ngữ nói thực tế mà Voice-to-Text ghi nhận, nội dung sẽ tự động được dịch sang ngôn ngữ bạn đã chỉ định.

“denoise” được thêm vào nếu bạn muốn kích hoạt khử nhiễu, giúp tăng độ chính xác nhận dạng trong một số trường hợp.

Danh sách mã ngôn ngữ:

“en”: “tiếng Anh”,
“zh”: “tiếng Trung”,
“de”: “tiếng Đức”,
“es”: “tiếng Tây Ban Nha”,
“ru”: “tiếng Nga”,
“ko”: “tiếng Hàn”,
“fr”: “tiếng Pháp”,
“ja”: “tiếng Nhật”,
“pt”: “tiếng Bồ Đào Nha”,
“tr”: “tiếng Thổ Nhĩ Kỳ”,
“pl”: “tiếng Ba Lan”,
“ca”: “tiếng Catalan”,
“nl”: “tiếng Hà Lan”,
“ar”: “tiếng Ả Rập”,
“sv”: “tiếng Thụy Điển”,
“it”: “tiếng Ý”,
“id”: “tiếng Indonesia”,
“hi”: “tiếng Hindi”,
“fi”: “tiếng Phần Lan”,
“vi”: “tiếng Việt”,
“he”: “tiếng Do Thái”,
“uk”: “tiếng Ukraine”,
“el”: “tiếng Hy Lạp”,
“ms”: “tiếng Mã Lai”,
“cs”: “tiếng Séc”,
“ro”: “tiếng Romania”,
“da”: “tiếng Đan Mạch”,
“hu”: “tiếng Hungary”,
“ta”: “tiếng Tamil”,
“no”: “tiếng Na Uy”,
“th”: “tiếng Thái”,
“ur”: “tiếng Urdu”,
“hr”: “tiếng Croatia”,
“bg”: “tiếng Bulgaria”,
“lt”: “tiếng Litva”,
“la”: “tiếng Latinh”,
“mi”: “tiếng Maori”,
“ml”: “tiếng Malayalam”,
“cy”: “tiếng Wales”,
“sk”: “tiếng Slovakia”,
“te”: “tiếng Telugu”,
“fa”: “tiếng Ba Tư”,
“lv”: “tiếng Latvia”,
“bn”: “tiếng Bengal”,
“sr”: “tiếng Serbia”,
“az”: “tiếng Azerbaijan”,
“sl”: “tiếng Slovenia”,
“kn”: “tiếng Kannada”,
“et”: “tiếng Estonia”,
“mk”: “tiếng Macedonia”,
“br”: “tiếng Breton”,
“eu”: “tiếng Basque”,
“is”: “tiếng Iceland”,
“hy”: “tiếng Armenia”,
“ne”: “tiếng Nepal”,
“mn”: “tiếng Mông Cổ”,
“bs”: “tiếng Bosnia”,
“kk”: “tiếng Kazakh”,
“sq”: “tiếng Albania”,
“sw”: “tiếng Swahili”,
“gl”: “tiếng Galicia”,
“mr”: “tiếng Marathi”,
“pa”: “tiếng Punjabi”,
“si”: “tiếng Sinhala”,
“km”: “tiếng Khmer”,
“sn”: “tiếng Shona”,
“yo”: “tiếng Yoruba”,
“so”: “tiếng Somali”,
“af”: “tiếng Afrikaans”,
“oc”: “tiếng Occitan”,
“ka”: “tiếng Georgia”,
“be”: “tiếng Belarus”,
“tg”: “tiếng Tajikistan”,
“sd”: “tiếng Sindhi”,
“gu”: “tiếng Gujarati”,
“am”: “tiếng Amharic”,
“yi”: “tiếng Yiddish”,
“lo”: “tiếng Lào”,
“uz”: “tiếng Uzbek”,
“fo”: “tiếng Faroe”,
“ht”: “tiếng Creole Haiti”,
“ps”: “tiếng Pashto”,
“tk”: “tiếng Turkmen”,
“nn”: “tiếng Nynorsk”,
“mt”: “tiếng Malta”,
“sa”: “tiếng Phạn”,
“lb”: “tiếng Luxembourg”,
“my”: “tiếng Myanmar”,
“bo”: “tiếng Tây Tạng”,
“tl”: “tiếng Tagalog”,
“mg”: “tiếng Malagasy”,
“as”: “tiếng Assamese”,
“tt”: “tiếng Tatar”,
“haw”: “tiếng Hawaii”,
“ln”: “tiếng Lingala”,
“ha”: “tiếng Hausa”,
“ba”: “tiếng Bashkir”,
“jw”: “tiếng Java”,
“su”: “tiếng Sundanese”,
“yue”: “tiếng Quảng Đông”.

CÁCH KIỂM TRA

1. Tải Xeoma từ website của chúng tôi và khởi chạy. Đảm bảo server Xeoma được vận hành trên máy tính có bộ vi xử lý tương thích.
Đồng thời, đảm bảo Xeoma đang chạy phiên bản Trial edition hoặc kích hoạt bản quyền Xeoma Pro để sử dụng module này.
2. Thêm camera hoặc đợi Xeoma tự động phát hiện và thêm các camera trong mạng. Nếu cần sử dụng micrô rời không tích hợp sẵn trong camera, hãy kết nối module "Microphone" và chọn nguồn âm thanh tương ứng.
3. Thêm module "Voice-to-Text" vào chuỗi và cấu hình.
4. Nếu cần, hãy thêm các module khác để thiết lập phản hồi mong muốn, chẳng hạn: ghi hình lưu trữ, gửi email hoặc phản hồi tùy chỉnh.
5. Hoàn tất! Giờ đây bạn có thể khai thác khả năng nhận dạng giọng nói thông minh vượt trội của Xeoma.

*Module Voice-to-Text chỉ hiển thị và hoạt động trên các bộ xử lý sau:

Bộ xử lý Intel 64-bit thuộc các dòng sau:
-Bộ xử lý Intel Core từ thế hệ thứ 4 trở lên (bao gồm cả các thế hệ 10+);
-Bộ xử lý XEON từ thế hệ thứ 6 trở lên;
-Bộ xử lý Atom thuộc các dòng "C23", "C25", "C27", "C33", "C35", "C37", "C38", "C39", "P59", "Z34", "Z35", "x5-E39" hoặc "x5-E8000";
-Các bộ xử lý Intel Xeon dòng E5-24, i5-2450M hoặc i7-2600.

Mặc dù module này có thể vận hành bằng sức mạnh CPU, chúng tôi khuyến nghị máy chủ nên được trang bị card đồ họa.

Xeoma còn nhiều hơn thế!
Xeoma còn cung cấp các module khác để xử lý luồng âm thanh:
• Microphone là module cho phép bạn chọn micrô USB hoặc micrô IP rời làm nguồn âm thanh.
• Sound Detector là module phân tích luồng âm thanh và kích hoạt khi mức âm thanh vượt quá ngưỡng quy định.
• Sound Events Detector là module thông minh có khả năng nhận diện các âm thanh cụ thể: báo động xe, tiếng trẻ khóc, tiếng súng, tiếng hét, tiếng kính vỡ.

Xem video về tính năng Voice-to-Text của Xeoma

Bạn cần thêm tính năng khác? Chúng tôi có thể phát triển và tích hợp vào Xeoma dưới dạng dịch vụ phát triển tùy chỉnh có phí. Xem chi tiết

DÙNG THỬ XEOMA MIỄN PHÍ

Trải nghiệm Xeoma miễn phí! Nhập tên và địa chỉ email nhận license vào các ô bên dưới, sau đó nhấp vào nút 'Get Xeoma free demo licenses to email'.

Chúng tôi khuyến nghị bạn không sử dụng email chứa dữ liệu cá nhân và không gửi dữ liệu cá nhân cho chúng tôi dưới bất kỳ hình thức nào khác. Nếu bạn vẫn thực hiện, việc gửi biểu mẫu này đồng nghĩa với việc bạn xác nhận đồng ý cho phép xử lý dữ liệu cá nhân của mình

Bạn có thắc mắc? Cần hỗ trợ? Hãy liên hệ ngay! Chúng tôi luôn sẵn sàng hỗ trợ!

Ngày 14 tháng 8 năm 2024

Xem thêm:
Các module bổ sung trong Xeoma
Bảng giá các module ứng dụng AI trong Xeoma