2020年四月14日 博客,

TDM Studio今天发布。了解它是如何鼓舞职业定义的发现

从预测CEO的行为到理解莎士比亚的写作风格,ProQuest的新文本和数据挖掘解决方案帮助研究人员发现新的见解,并挑战之前的发现。

今天,它发射TDM工作室,一个强大的新解决方案,将文本和数据挖掘的力量直接放在研究人员的手中。

TDM Studio为文本和数据挖掘(TDM)解锁大量当前和历史ProQuest内容,包括新闻、期刊、论文和论文、主要来源等。用户也可以上传自己的内容,并将其与ProQuest内容结合起来,形成真正全面的数据集。

用文本和数据挖掘发现新的连接

新的COVID-19数据集:ProQuest建立了一个包含50万篇最新文章的数据集,其中大部分来自报纸,内容与COVID-19有关。通过TDM Studio的分析,这些数据可以帮助研究人员更好地了解当地和全国新闻报道的趋势。TDM Studio的任何用户都可以访问该数据。注册一个演示。

约翰·狄龙, TDM Studio的产品经理说,他看到这个产品为跨学科的研究注入了新的活力。

他说:“研究人员现在有了这些新的方法来回答他们以前没有很好的方法来回答的问题。”“当你想到这一点时,你会感到震惊。多年来,许多研究人员需要在适当的计算环境中,使用分析工具来执行TDM,以机器可读的格式访问这些内容,但并不总是能够同时将所有这些元素放在一起。通过TDM Studio,我们能够解决这些挑战。”

在加入ProQuest之前,Dillon就是这些研究人员之一。拥有英国文学博士学位的他,在他的早期职业生涯中,试图将有争议的或匿名的文本归为作者。他需要使用大量的统计方法所需的编码知识,所以他参加了编码和数据科学的课程。之后,作为一名博士后,他与IBM研究中心合作,研究如何根据学生在在线学习平台上的评论和行动来预测他们的情绪。

但是许多能够从TDM中受益的人并不精通计算机或数据科学。这就是为什么TDM Studio是为所有技能水平的研究人员设计的。

Dillon说:“懂编码的人可以使用预定义的数据分析方法,也可以使用开源编程语言(如R和Python)创建的方法。”“在未来的版本中,非编码人员将能够使用嵌入分析方法的界面,并指导用户可视化和部分操作结果。”

随着产品的不断发展,其目标是在整个大学提供TDM解决方案,无论用户对TDM或编码有多熟悉。

为产品增加灵活性的是实时协作和“随时随地”访问。“这在当今的环境中尤其重要,校园关闭,大多数研究人员都在远程工作,”他说明迪Pozenel, TDM工作室产品管理总监。“使用TDM Studio,他们可以与同事在项目上进行‘实时’合作,他们也可以在家里登录,而不用登录学校的网络。”

TDM通过学术图书馆

已经拥有丰富研究内容的学术图书馆可以利用TDM Studio从现有的馆藏中创造更多价值,为与研究团队的合作和加强教学创造新的机会。

“图书馆已经订阅了相当一部分内容,”Pozenel说。“但即使你有一个被大量使用的数据库,也没有人能阅读100万篇文章,巨大的价值仍未得到开发。当你可以使用TDM从大量的内容中获得价值时,它就扩大了图书馆作为服务中心的作用——传播知识,为研究工作流程创造更多的价值。”

TDM工作室如何“拯救”一位研究者

虽然TDM Studio是市场上的新产品,但一些研究人员已经在使用它了。在过去的一年中,ProQuest已经与开发伙伴和早期访问研究人员合作了50多个不同的研究项目。

Rawson迦勒他是阿肯色大学会计学助理教授,也是这些发展合作伙伴之一。罗森一直在从事一个研究项目,以确定CEO的自信如何有助于公司未来的成功。他试图了解为什么有些公司的领导会自信地谈论他们的商业秘密,而其他人则不会,以及这两种行为的后果。

罗森在接受ProQuest采访时说:“例如,特斯拉的首席执行官埃隆·马斯克喜欢谈论特斯拉正在做的一切。但是为什么呢?这给了他的对手一个机会,花更多的钱在竞争产品上。这就是我们所说的专有成本——披露你的商业机密的成本,因为竞争对手现在知道你在做什么。”

为了确定这种行为的结果,罗森需要对多年来的媒体报道进行广泛的分析:CEO简介、采访、特写、新闻和其他细节。但答案可能只会来自罗森做不到的事情:阅读数十万篇文章。于是他向ProQuest和TDM Studio寻求帮助。

使用TDM Studio,学者们创建内容集的时间减少到几个小时,而传统方法需要几个月。

Rawson表示,他的TDM试点项目是通过向ProQuest提供2,500对公司和ceo (特斯拉而且麝香例如)、他希望发表的出版物清单以及一系列的日期。他最初的搜索结果超过了32.3万,说得轻一点,“比我预期的要多,”他说。“如果没有必要,我不想花六个月的时间阅读成千上万篇关于ceo的文章。这就是TDM介入并拯救我的地方。”

Rawson采取了几个步骤来使用TDM Studio缩小他的数据集。首先,他删除了所有在广告中提到公司或首席执行官名字的文章。然后,他只保留含有某些短语的冠词,比如自信,谨慎,乐观,悲观而且保守的。他继续使用额外的文本挖掘方法来改进他的数据集,直到他写了大约22000篇文章。

“现在,对于每一篇文章,我都能够使用一种算法,查看出现在CEO名字周围的词语,以自信或谨慎的方式描述他们。TDM工作室为我节省了几个月的时间,而我原本需要手工收集和阅读文章。”Rawson说。

最终,罗森认识到,过度自信的ceo会泄露更多内幕信息和商业秘密。这可能会给竞争对手的公司带来优势,也可能会阻碍过于自信的CEO所在公司的研究效率。这项研究目前正在等待同行评议发表。

Rawson声称,会计研究并不像大多数人认为的那样无聊,他目前所做的只是揭开了各种可能性的冰山一角。Rawson说道:“我对TDM Studio感到非常兴奋。“我看到它在我正在做的研究中有很多应用。”

了解更多关于TDM Studio,包括如何将其应用于研究及教与学。

新的COVID-19数据集

ProQuest建立了一个包含50万篇最新文章的数据集,其中大部分来自报纸,内容与COVID-19有关。通过TDM Studio的分析,这些数据可以帮助研究人员更好地了解当地和全国新闻报道的趋势。TDM Studio的任何用户都可以访问该数据。注册一个演示