科技情报人员通常通过两种方式获取互联网信息:一是通过搜索引擎对某一主题相关的信息进行全面搜索;二是对所关注的领域积累大量有价值的网络信息源,通过对这些信息源持续跟踪而获得领域动态。第二种方式是一个长期而持续的工作,是进行技术预警、技术热点发现与跟踪、技术发展趋势预测等重要工作的基础。因此,全面掌握所关注领域相关的互联网信息源,对科技情报人员来说至关重要。
现状
互联网信息源是指互联网上能够提供信息的各类媒体,各种机构、院校、企业几乎都拥有自己的网站甚至社交媒体账号,大量科技工作者通过各种社交媒体向外界发布着科技类消息,因此这些网站和社交媒体账号都是科技工作人员潜在的信息源。随着互联网的发展,互联网信息源的数量也不断增长。传统人工积累搜集互联网信息源的方式已经不能满足大数据时代对科技情报工作的要求,因此必须对互联网信息源的自动发现技术开展研究。
互联网信息源是互联网数据的生产者,信息源种类和数量的增加以及活跃度的提高,导致了数据的爆炸式增长。全世界数据总量以每两年翻一番的速度递增,而近十年来增长最快的当属互联网数据。未来的任务主要不是获取越来越多的数据,而是数据的去冗分类、去粗取精,提高知识发现的产出率。要在不明显增加采集成本的条件下尽可能地提高数据的质量。这就要求在采集互联网信息时尽量选择与研究领域紧密相关的信息源,减少不必要的数据采集。如何获取相关性强、权威性高、时效性强的信息源,并能够及时有效地把信息源提供给科技情报研究人员,是一个重要的研究课题。
易海聚信息自动发现技术应用
相比人工搜集方法,易海聚方案中提出的信息源自动发现方法具有自动高效、覆盖面全、对新产生信息源反应快等明显优势。为了提供完善的应用服务,需要进一步对信息源进行标注和分类,建立国别地区、技术领域、应用范围、所有者性质(如个人、政府机构、大学院所)等维度的分类体系。然后根据信息源对应网站和微博的标题、关键词、摘要等描述信息,利用机器学习方法实现对信息源的分类和组织,最后形成完备的信息源库。结合大数据时代对科技情报工作提出的新要求,易海聚信息源自动发现技术具有如下应用场景。
(1)构建信息源地图,系统掌控全球科技信息资源
信息源地图指的是用可视化手段对信息源的综合展示,利用地图、热图和网络图等多种形式来展现科技领域信息源的地理位置、活跃度、统计分布、类别、信息源间关联交互等情况。通过一个全面、准确、动态的互联网信息源地图,决策人员和情报研究人员可以对科技信息资源进行全局把控和分析,从更高层次上挖掘发现其特点和规律,预测其变化趋势,具有重要战略意义。
(2)实现信息源检索服务,为情报研究工作提供保障
提供完善、灵活的信息源检索服务,为情报研究人员实现对科技领域互联网信息的持续跟踪和完成各项应急任务提供有力保障。其检索形式主要有以下3种。
目录式检索:用户通过分类层次目录方式检索库中已存在的信息源。
关键字检索:通过匹配信息源对应的描述性信息,检索库中已存在的信息源。
种子检索:当利用以上两种方式无法检索到所需要的信息源时,说明库中可能不存在该类信息源,这时用户可以输入已有信息源作为种子,通过服务系统在线挖掘获得新信息源。
除提供以上3种基本检索服务外,还可以开发个性订制和相关推荐等多种形式的智能服务。
(3)全面、深度挖掘科技信息源,为科技情报大数据提供数据来源
自动、高效、全面发现科技领域的信息源,建立标准的访问接口,实现与互联网海量信息采集平台无缝连接,为成规模的互联网信息资源获取提供必要前提。依据具有高度领域相关性的信息源采集数据,能够提高互联网数据采集的精准性和针对性,减少噪声数据的干扰,降低带宽、存储和计算成本。
结束语
互联网信息源自动发现技术能够高效发现大量新信息源,但较大的数量可能会使科技情报人员应接不暇,同时无法保证每个新信息源都是真正需要的,对新信息源的二次甄别也会影响其有效利用。值得庆幸的是,易海聚大数据相关技术已经广泛用于互联网信息的海量采集、处理和分析,大大提高了科技情报工作的效率,本文技术的直接用户更倾向于机器,而非情报人员本身。