翻译手语的人工智能

学生开发实时翻译手语的人工智能

亚历山大·马克斯头像
Gabriel Sales 是 UFF 的程序员和统计学学生,他承诺通过 Libras 彻底改变听障人士的沟通方式。理解!

在当前的技术场景中,没有哪个学科像人工智能那样对新的创新进行猜测。正是在这种竞争环境中,里约热内卢 UFF 的统计学学生加布里埃尔·赛尔斯 (Gabriel Sales) 通过领导一个翻译手语的人工智能项目而脱颖而出,成为一位有远见的人。他的项目旨在克服聋哑人和正常人之间的沟通障碍,提供一种将手语实时转录为葡萄牙语的有效方法。

加布里埃尔表示,这种人工智能的主要目标是彻底改变聋人的沟通方式,为社区提供可访问性、独立性和机会。该项目仍在开发中,表明它能够解读视频中聋人的手势,并立即将其翻译成葡萄牙语。

聋人人工智能如何运作?

该项目使用三种不同的人工智能来实现其目标。第一个人工智能负责捕捉身体上的关键点,并将它们映射到视频的帧上。然后,该数据被发送到第二个人工智能,这是一个识别正在发出的特定信号的分类器。最新的人工智能开始行动,将识别的信号置于上下文中,将预测信号列表转换为可读且可理解的葡萄牙语消息。

该项目潜力巨大。一般来说,聋哑人和天秤座翻译有困难的人之间的所有交流都会被简化为同声翻译,以解决对话中的噪音。据 IBGE 称,如果有效,该技术可以解决影响巴西约 10 万聋人公民(约占巴西人口的 5%)的多个通信问题。

然而,Gabriel Sales 在其项目中面临挑战,例如收集基本数据的硬件和资源限制。他寻求捐款以获取更强大的计算机、高质量相机和资源,以通过以下方式推进该项目的研究和开发: 瓦金哈在线.

该项目由 Gabriel Sales 单独领导,不仅体现了他对技术的热情,还凸显了人工智能创造具有重大社会影响的创新解决方案的力量。在 Instagram 上发布有关 AI 更新的视频, @projeto_ia_libras,加布里埃尔已经获得了超过 86,1 名关注者,此外,他的帖子还获得了数千次浏览。

专访人工智能创始人

为了更好地了解该人工智能在实时转录涉及手语的对话中的功能,我们采访了该项目的程序员和创建者、统计学学生 Gabriel Sales。

该项目背后的程序员和 UFF 统计学学生是谁?您是如何想到这个想法的?

加布里埃尔销售: 我叫加布里埃尔,来自里约热内卢。我是一名对技术充满热情的学生。我十岁时拥有了第一台计算机,从那时起,我就进入了计算领域。我从 12 岁起就开始学习编程,并不断进步,直到最终进入数据科学领域。当我发现这个领域时,我觉得它真的很酷,尤其是人工智能部分,机器人以几乎人类的方式思考,所以这让我非常着迷。所以我开始研究这些东西。我进入佛罗里达大学统计学系,因为统计学是数据科学的重要基础。而我也开始了我在人工智能这个领域的旅程。

我开始深入研究人工智能,开始做几个小项目。去年第一学期,我在大学开设了天秤座课程,我对老师的故事非常着迷,因为她是聋哑人,尽管她在故事中提到了所有困难,但还是成功成为了一名医生。

所以我开始思考我能做些什么对这个社区来说有趣且具有包容性的事情来帮助他们。然后我开始有了一个可以对 Libra 字母进行分类的人工智能的想法。类型:字母a、字母b、字母c等。这一切都通过视频实现。这是我的第一个想法,我的第一次测试,看看这有多困难,有多复杂,然后我不断发展,开始添加强大的信号并提高人工智能的知识。

您如何定义您的项目?您打算用它来改变当前的现实,特别是对于听力受损的人来说?

加布里埃尔销售: 主要目标是彻底改变聋哑人与听力正常人之间的沟通,因为这些人之间存在巨大的障碍。因为,你必然需要了解天秤座才能与聋人沟通,所以通过拥有这个人工智能系统,你可以稍微打破这个障碍。我们可以将其应用到公司、客户服务和数字可访问性中。聋子客户到那里可以清楚地说出他想要什么。如果他想买东西,如果他需要任何特殊帮助,无需依赖 Libra 翻译,一切都可以通过人工智能以数字方式完成。

同样在医院,在紧急情况下,需要快速护理的人,有时你没有会说天秤座语言的人,对吗?有时你需要知道她的血型,你需要知道她是否有任何疾病,或者类似的东西,有了这个系统,这也是可能的。

在教育方面也是如此,为了教导天秤座,这个教育系统将非常有效地测试学生的准确性,如果他们正确地做出手势,如果他们学习得很好。即使对于聋哑教师来说,并非所有人都有说话的能力,因为有些聋哑人可以发展说话的能力,但并非所有人都可以,该系统在这种情况下也很有用。因此可以进行多种应用。

翻译手语的人工智能
人工智能项目旨在改变听障人士的沟通方式。照片:免费图片。

您如何描述这个人工智能的工作原理?

加布里埃尔销售: 一共有三个AI。一个捕捉身体的关键点,所以它将映射人的整个身体,脸部,肩膀,肘部,手,手指,并且在帧的过程中进行这一点,因为我们需要在视频 。所以这个映射将在帧的过程中完成。之后,它将被传递给分类器。它会根据正文的关键点对这些数据进行分类,并告诉您它是哪个选项。

最后一个人工智能是创建信号的上下文。因此,在她绘制了身体图之后,在她对它是什么标志进行了分类之后,她会将预测的标志列表放在一起,并将其转换成一条消息,一条可读且可理解的自然消息。然后这个人工智能将组装第二个人工智能已经预测的信号上下文。

总体而言,您的项目是否独特,或者您是否有类似的涉及人工智能的项目来以这种方式帮助聋人?

加布里埃尔销售: 肯定有类似的项目。但他们都没有继续进行,可能是因为巴西缺乏投资。人们最终会出国,尤其是因为技术很容易获得。但不知道有没有开发出来(其他项目),可能有原型。

2023 年 2024 月,Showmetech 报道称,联想计划在 XNUMX 年推出能够解释和翻译手语的人工智能。

那么对于您来说,您的项目最大的不同是什么?

加布里埃尔销售: 可扩展性能力,它可以通过投资轻松扩展并更快地开发......主要区别在于我们克服了聋人的沟通障碍,因为这将有助于教育、经济、文化和政治。

为了使项目规模化,你需要什么?

加布里埃尔销售: 我需要数据,因为AI需要视频来训练……这就像教孩子一样,我们需要展示信号是什么,并重复几次直到它理解为止。还有处理所有这些的设备,因为我们将创建一个 大数据 那样。

Gabriel 在 2023 年底推出了 Vakinha,以便其他人可以支持该项目的开发。

您对该项目的下一步计划是什么?

加布里埃尔销售: 我一直在寻找合作伙伴公司一段时间,有一家公司一直在帮助我建立我的网站。现在,我正在寻找与这个市场上一些有影响力的人士建立合作伙伴关系,也许可以开设一家初创公司,吸引投资者,然后能够更轻松地扩大规模。这个想法是卖给那些希望拥有数字可访问性的公司,以便为客户提供这种服务。

如何保护你的人工智能不被“抄袭”?

加布里埃尔销售: 说到人工智能,抄袭是很难的。你可以做类似的事情,但同样,这是非常困难的。这就像埃隆·马斯克(Elon Musk)制作一个类似于ChatGPT的AI,他可以做到,但两者都会有不同的答案。因为干扰这一点的是可用数据,而以英镑为单位的数据却很少。需要对数据收集进行投资。

您进行了哪些测试来了解人工智能是否正确解释了以磅为单位的信号?

加布里埃尔销售: 我正在实时进行测试,发出不同的信号来检查准确性。我在大学期间学到的一点点知识,我应用并在互联网上观看视频来开发人工智能培训。

另请参阅:

丰特斯: 米尔恩, “福布斯” e 智能点击.

评论者 格劳孔生命力 在18/1/24。


了解更多关于秀美科技

注册以通过电子邮件接收我们的最新消息。

相关文章