2022-03-22 09:57:12
来源:摄星智能
本次课程中,张侨结合摄星智能研发的多项产品与技术,详细介绍了开源数据概况、人工智能现状、开源数据结合人工智能解决的问题、开源数据智能系统、未来应用展望与挑战等相关内容进行专题授课。来自学校近百位师生参加了课程学习。
张侨(图右一),摄星智能CAO,主要研究方向为NLP和强化学习,专长于分布式人工智能与多智能体系统、自主无人系统与集群控制等。
课程伊始,张侨以美国法典第50卷《战争和国防》中开源数据(Open Source Intelligence,OSINT)的定义为引(定义:面向一定的用户群体,以获取情报为目的,从公开各类型信息中及时采集、分析和分发情报),为广大师生讲解了开源数据的系列内容,让大家充分认识到开源数据工作的重要性。
开源数据典型案例分析
随着来源和应用类型的增加,开源数据的数据量也成倍增长,难以充分利用其隐含的巨大信息价值。而人工智能(AI)在计算机视觉、图像识别、自然语言处理、语音处理等方面的应用,生动地动体现在开源数据的典型案例中。
针对开源数据的应用案例,张侨地结合摄星智能科研能力,向大家展示了开源数据的星河搜索产品,有效助力开源数据支撑下的人物与装备分析工作。
星河搜索产品
张侨分别从产品架构、解决的问题及产品能力等方面详细介绍了星河搜索平台。
其中,猎户星数据采集平台基于分布式数据采集技术,目前采集完成近14亿的文本、图片、视频、音频等多模态数据以及千亿级海空目标数据,来源超过40多个国家和地区,覆盖中文、英文、日文、阿拉伯文等80多种语言,具备全面性、专业性、多样性、完整性、扩展性等特点,为开源信息智能分析与应用提供数据支撑。
“猎户星”数据采集平台
在开源信息的采集、抽取、融合、检测、识别、应用等过程中,共计积累500w+标注数据,约80余种专用算法模型。
基于多模态知识图谱、联合推理、计算机视觉、自然语言处理等技术,实现从数据到知识的“智变”,从基础知识、静态知识、动态知识三个层次,实现知识的生成、更新、积累、应用为一体的知识体系,有效实现情报挖掘分析、支撑战略态势研判、辅助战场指挥决策等军事场景应用服务。
基于情报要素本体模型,通过跨语言文本的多源语言实体识别、视频数据的关键帧提取、图像数据的目标检测和识别等过程,形成结构化的情报要素;利用军事知识图谱实现情报要素的关联、消歧和融合,完成情报槽位的补全和验证,形成更全面、更准确、价值更高的的融合情报。
张侨结合当前军事热点,以乌克兰情报人员为例的人物追踪案例、俄乌冲突中的情报鉴伪案例,充分展示了星河搜索在开源数据萃取、人物追踪、事件追踪、目标监视等方面的能力。
开源数据的挑战案例
最后,张侨分析了开源数据也面临着严峻的挑战,现实生活中,我们也会被多种多样的虚假情报迷惑,如人为杜撰、歪曲事实、合成影像、深度伪造等技术制造的虚假情报。我们看到的某一事件可能不会完全准确或真实。如何在海量的信息中获取有效有价值的情报信息,并且有效甄别,这就需要新兴技术的赋能,特别是人工智能技术、生物技术和量子计算等,以及它们在外交政策、经济竞争力、军事和情报行动领域的应用。
摄星智能作为开源数据分析的领军企业,将持续加强在开源数据的探索与实践,在开源数据专业人才培养、军事科技与军事装备的自主创新等方面贡献更多力量。