2020年4月14日 博客, academico, governo

TDM工作室今天成立。了解它如何已经激发了职业生涯定义的发现

从预测CEO的行为到理解莎士比亚的写作风格,ProQuest的新的文本和数据挖掘解决方案帮助研究人员发现新的见解,挑战之前的发现。

今天,它发射TDM工作室,这是一种强大的新解决方案,将文本和数据挖掘的力量直接交到研究人员手中。

TDM Studio为文本和数据挖掘(TDM)解锁了大量当前和历史ProQuest内容,包括新闻、期刊、论文和论文、原始资源等。用户还可以上传自己的内容,并将其与ProQuest内容结合起来,形成一个真正全面的数据集。

揭示与文本和数据挖掘的新联系

新的COVID-19数据集:ProQuest建立了一个包含50万篇最近关于COVID-19的文章的数据集,其中大部分来自报纸。通过TDM Studio的分析,这些数据可以帮助研究人员更好地理解当地和国家新闻报道的趋势。TDM Studio的任何用户都可以访问这些数据。注册一个演示。

约翰·狄龙TDM工作室的产品经理说,他看到该产品为跨学科研究注入了新的活力。

“研究人员现在有了这些新方法来回答以前没有好的方法来回答的问题,”他说。“当你仔细想想的时候,你会觉得很兴奋。多年来,许多研究人员需要在适当的计算环境中使用分析工具以机器可读的格式访问这些内容,以执行TDM,但并不总是能够同时将所有这些元素放在一起。通过TDM Studio,我们能够解决这些挑战。”

在加入ProQuest之前,Dillon是其中一名研究人员。拥有英国文学博士学位的他在早期的职业生涯中,一直试图找出有争议或匿名文本的作者。他需要大量的统计方法来使用所需的编码知识,所以他参加了编码和数据科学的课程。然后,作为一名博士后,他与IBM研究院合作,根据学生在在线学习平台上的评论和行为预测他们的情绪。

但许多可以从TDM中受益的人并不精通计算机或数据科学。这就是为什么TDM工作室是为所有技术水平的研究人员设计的。

Dillon说:“懂编码的人可以使用预定义的数据分析方法,也可以使用开源编程语言(如R和Python)创建的自己的方法。”“而且,在未来的版本中,非编码人员将能够使用嵌入分析方法的界面,并引导用户可视化和部分操作结果。”

随着产品的不断发展,它的目标是在整个大学范围内提供TDM解决方案,而不管用户对TDM或编码有多熟悉。

为产品增加灵活性的是实时协作和“随时随地”访问。“在如今校园关闭、大多数研究人员都在远程工作的环境下,这一点尤其重要,”他说明迪PozenelTDM工作室产品管理总监。“使用TDM Studio,他们可以在项目上与同事进行‘实时’合作,他们也可以在家里登录,而不用在学校的网络上。”

TDM通过学术图书馆

已经拥有丰富研究内容的学术图书馆可以使用TDM Studio从他们现有的馆藏中创造更多的价值,为与研究团队的合作创造新的机会,并增强教学和学习。

“图书馆已经订阅了这类内容的很大一部分,”Pozenel说。“但即使你有一个高度使用的数据库,也没有人能阅读100万篇文章,重要的价值仍然未被开发。当你可以使用时分复用从大量的这些内容中获取价值时,它就增强了图书馆作为服务中心的作用——传播知识,为研究工作流程创造更多价值。”

TDM工作室是如何“拯救”一个研究人员的

虽然TDM Studio是市场上的新产品,但一些研究人员已经在使用它。在过去的一年里,ProQuest已经与开发伙伴和早期访问研究人员合作了50多个不同的研究项目。

Rawson迦勒他是阿肯色大学会计学助理教授,也是这些发展伙伴之一。罗森一直在进行一个研究项目,以确定CEO的自信如何有助于公司未来的成功。他试图理解,为什么有些公司的领导会自信地谈论他们的商业秘密,而有些则不然,以及这两种行为的后果。

罗森在接受ProQuest采访时表示:“比如,特斯拉的首席执行官埃隆•马斯克喜欢谈论特斯拉正在做的每一件事。但是为什么呢?这给了他的竞争对手一个机会,让他们在竞争产品上投入更多资金。这就是我们所说的专有成本——披露你的商业秘密的成本,因为竞争对手现在知道你在做什么了。”

为了确定这种行为的结果,罗森需要对多年来的媒体报道进行广泛分析:CEO简介、采访、特写、新闻和其他细节。但答案可能只能来自罗森做不到的事情:亲自阅读数十万篇文章。于是他向ProQuest和TDM Studio寻求帮助。

有了TDM Studio,学者们花在创建内容集上的时间减少到几个小时,而不是传统方法所需的几个月。

Rawson表示,他为ProQuest提供了2,500对公司和首席执行官(ceo)的配对,从而启动了TDM试点项目。特斯拉而且麝香,例如),他想出版的出版物的清单,以及一系列日期。他最初的搜索结果达到了323000多个,这——说得轻松一点——“比我预期的要多,”他说。“如果没有必要,我不想花6个月的时间阅读数十万篇关于首席执行官的文章。这时TDM介入并为我扭转了局面。”

Rawson采取了几个步骤来使用TDM Studio缩小他的数据集。首先,他删除了所有在广告中提到公司或CEO名字的文章。然后,他只保留含有特定短语的文章,比如自信,谨慎,乐观,悲观而且保守的。他继续使用额外的文本挖掘措施来完善他的数据集,直到他达到了大约22000篇文章。

“现在,对于每一篇文章,我都可以使用一种算法,它会研究出现在CEO名字周围、以自信或谨慎的方式描述他们的词汇。TDM工作室为我节省了数月的手工收集和阅读文章的时间。”Rawson说道。

最终,罗森了解到,过度自信的首席执行官会透露更多的内部信息和商业秘密。这会给竞争对手带来优势,也会阻碍过于自信的CEO所在公司的研究效率。这项研究目前正在等待同行评议的发表。

罗森断言,会计研究并不像大多数人想象的那样无聊,到目前为止,他所做的只是揭开可能性的冰山一角。Rawson说道:“我对TDM Studio感到非常兴奋。“我认为它在我正在做的研究中有很多应用。”

了解更多关于TDM Studio,包括它如何不仅应用于研究,而且应用于教学。

新的COVID-19数据集

ProQuest建立了一个包含50万篇最近关于COVID-19的文章的数据集,其中大部分来自报纸。通过TDM Studio的分析,这些数据可以帮助研究人员更好地理解当地和国家新闻报道的趋势。TDM Studio的任何用户都可以访问这些数据。注册一个演示