go to news

detail

* 它已被翻译通过 NAVER
papago logo
WON Hoseob
输入 : 
2025-03-25 16:10:19
盖蒂形象银行
盖蒂形象银行
语音识别技术正在深入日常生活。 在会议记录制作、讲座总结、采访整理等多个领域得到应用,相关市场也在快速增长。

在世界市场上,美国的"Otter"独占鳌头,动作力量的"Daglo"、The Playto的"Tiro"、Naver的"Clova Note"等具备技术实力的国内企业也加入了竞争。 特别是,Daglo、Tiro等创业公司以强大的语音识别技术为基础,推出了利用时提供便利性的多种功能,抓住了顾客的心。

为了比较各应用程序的性能,进行了简单的实验。 在产生适当噪音的会议室里放置笔记本电脑,启动各应用程序后,播放包括韩文、英语、方言(韩文)对话在内的5~10分钟左右的YouTube视频。 实验中使用了1962年美国总统约翰·F·肯尼迪的著名演讲《我们选择去月球》、多人登场发表事业模式、决定是否投资的美国电视系列片《鲨鱼坦克》花絮等视频。

四种应用程序都具有将视频中的语言转换成文本的能力。 Daglo、Tiro、Autter以脚本为基础,提供人工智能(AI)概括内容的功能(Clovanote只支持韩文),得出了完全相同的结论。 听了很多人登场谈论的鲨鱼坦克视频后,整理了说明什么事业模式、投资者的意见是什么、接受投资与否等。 以1.2倍的速度播放视频时也没有太大差异。 Daglo、Tiro将英语脚本翻译成韩语,还提供了要点整理。

要说差异的话,奥特特根据英语特化,区分了鲨鱼坦克中出现的说话者数(5名)。 Daglo虽然对英语视频说话者的区分有所差异,但准确地区分了3人以上登场的韩国视频说话者。



사진설명
奥特、达格洛、Clovanote为了原封不动地传达声音而努力。 例如"我"、"所以说"等"填充物"一词被转换成文本。

Otter、Daglo、Clovanote将语音保存为文件,点击脚本后重新播放相关部分,这在重新找会议或讲座时可能会非常有用。

Tiro以AI为基础,提炼文本。 例如,在录制说明"LLM"的韩文讲座时,Clovanote、Daglo会将其视为其他语言,而Tiro则将AI在相关视频中登场的LLM或"大语言模型"、"巨大语言模型"等语音全部统一为"LLM"进行整理。 另外,在将书面语转换成口语语方面,也显示出其优势。

因此,在讲方言时,Tiro的识别能力有所下降,但Daglo、Clovanote将相关语音转换成文本,可以大致理解。

Daglo、Tiro的优点是以完成度高的语音识别技术为基础,提供多种功能。 特别是,Daglo提供了只要输入YouTube地址,就可以将该视频的声音转换成文本并进行整理的功能。 放入包含"量子力学讲座"、"NVIDIA的历史"的15~30分钟的YouTube视频地址,将视频内容整理成文本,连摘要都整理得非常干净利落。

Daglo内的"聊天机器人"还以用户从Daglo转换的听写内容为基础,提供与AI进行提问和回答的功能。 随着这种便利功能吸引顾客,Daglo在国内语音识别应用程序中确保了最多的150万名订阅者。 Action Power代表赵洪植(音)解释说:"Daglo将模板细分为会议、采访、营业会议等22种类型,将听写结果整理成符合目的的形态。" Daglo付费会员可以不受限制地使用GPT4o、Cload Sonnet、Perflex City等每月支付3万韩元左右的订阅费才能使用的付费聊天服务。

Tiro的优点是,不仅可以实时展示语音转换成文本的过程,而且一段结束后还可以进行概括。 也就是说,在录制会议或讲座的过程中,暂时离开座位后回来时,可以确认进行了什么样的对话。 因为外语可以快速转换成韩文,所以在与外国人见面时也可以灵活运用。

The Playto代表林恩成(音)表示:"Tiro在国内首次提供实时语音识别服务,在对话中可以像Perflex City一样询问对话记录,这也是差别化的部分。" Tiro今年3月累计用户超过1万500名,订阅更新率超过90%。 通过实验,可以直接确认最近上市的语音识别应用程序的技术发展。 Outter、Clovanote、Daglo、Tiro等主要应用程序只要加入就可以免费提供300~600分钟,因此,如果正在考虑使用语音识别应用程序,最好亲自使用后选择适合自己的应用程序。

[元虎燮 记者]

热门新闻