文献检索的技巧
检索关键词(Search Keywords)
在 IEEE Xplore 中进行搜索时,输入的检索关键词(Search Keywords)遵循以下几个规则1,
-
大小写不敏感(Capitalization insensitive),
检索
PolSAR
和检索polsar
效果相同。 -
精确匹配词或短语(phrases)需要使用双引号,
关键词
Polarimetric SAR
会匹配Polarimetric
,SAR
以及Polarimetric SAR
,要想仅仅只匹配整个短语需要加上双引号,写成"Polarimetric SAR"
的形式;而仅仅只是SAR
这个词如果不加引号的话,可能会匹配PolSAR
,PolInSAR
等等,想要精确匹配SAR
这个词需要加上引号,写成"SAR"
的形式。 -
忽略大多数的标点符号(Punctuation),
检索
"Pol-SAR"
,可能会匹配"Pol-SAR"
,"Pol SAR"
以及"Pol_SAR"
等等结果,以及任何其他在这两个单词之间带有标点符号的情况。所以如果检索关键词包含标点符号,建议将每个标点符号替换为空格。比如:作者名S. Haykin
,可以改写为S Haykin
。 -
忽略大多数特殊字符(Special characters),
被忽略的字符包括非字母数字字符,如
%
,-
,@
等,但其中唯一被识别的特殊字符是&
,+
和/
。比如:搜索AT&T
将找到AT&T
以及单独的单词AT
和T
。 -
星号 (
*
) 和问号(?
)被视为通配符,无法被作为字符进行检索。 -
在搜索中,停用词会被忽略。停用词通常是过于通用或在数据库中出现频率过高而无用的词。
其中,需要特别说明的是,在使用引号(""
)搜索特定短语时,词干提取将被禁用2。例如,system on chip
不会返回 systems on chip
,而 color image
也不会返回 "colour image"
。如果想在短语搜索中查找词干变体可以使用通配符。例如:"comput* program"
。类似的,如果停用词包含在短语中,则可以针对停用词进行搜索。例如,"Designing the Digital"
将包含停用词 "the"
。
注意,只有当检索结果中包含检索关键词作为完整单词或一系列完整单词时才匹配,它不匹配单词中的文本。比如:对于关键词
Polarimetric
,不会匹配metric
或Polar
等检索结果。
搜索运算符(Search Operators)
布尔运算符(Boolean Operators) AND
、OR
、NOT
以及邻近运算符(Proximity Operators) NEAR
和 ONEAR
可用于组合搜索词,以扩大或缩小检索范围3,
-
x AND y
:匹配表达式x
和y
查找同时包含
x
和y
的文章。 -
x OR y
:匹配表达式x
或y
或两者查找包含
x
或y
或x
和y
的文章。 -
NOT x
,x NOT y
:前者表示不匹配表达式x
,后者表示匹配表达式x
,但不匹配y
-
x NEAR/# y
(无序邻近搜索)在
y
的#
个词范围内匹配表达式x
(x
可以出现在y
之前或之后)。适用于宽泛检索,避免遗漏词序颠倒的情况。比如:检索"AI" NEAR/3 "ethics"
,匹配的文本"AI and ethics"
,"ethics of AI"
等,不匹配的文本"AI and its complex ethics"
(间隔 > 3)。 -
x ONEAR /# y
(有序邻近搜索)查找
x
必须在y
前面,且两者相距不超过#
个单词。适用于精准检索,排除词序不符的结果。比如:检索"AI" ONEAR/3 "ethics"
,匹配的文本"AI and ethics"
,不匹配的文本"ethics of AI"
(词序反),"AI and its complex ethics"
(间隔 > 3)。
其中,布尔运算符可以与邻近运算符结合使用,比如:(A OR B) NEAR/5 (C OR D)
。
注意:邻近运算符
NEAR
和ONEAR
只能在全局搜索(Global Search)栏和命令搜索(Command Search)页面中使用。高级搜索(Advanced Search)页面不支持邻近运算符。
运算符的优先级(Operators Precedence)
如果使用不同的运算符,则搜索将按照以下优先级进行处理:
NEAR
/ONEAR
NOT
AND
OR
举个例子,通过关键词 "artificial intelligence" OR "machine learning" AND diseases
进行检索的结果是,会找到所有包含 "machine learning"
这个短语并且包含 diseases
这个术语的文档,以及所有包含 "artificial intelligence"
这个短语的文档。即:搜索的处理方式为 "artificial intelligence" OR (machine learning" AND diseases)
。
注意,使用括号可以覆盖运算符优先级的顺序。 括号内的表达式将首先执行。比如:
("artificial intelligence" OR "machine learning") AND diseases
将仅查找包含diseases
一词以及"artificial intelligence"
或"machine learning"
的文档。
在结构化高级搜索中(Structured Advanced Search)
在结构化高级搜索中,运算符的优先级由在搜索查询框中出现的先后顺序决定。比如:如果使用三个搜索查询框,则前两个框形成的表达式优先于第三个框中的表达式(换句话说,第一个运算符优先于第二个运算符),
例如,如果想查找由 S. Haykin
和 K. Huber
两位作者撰写的所有关于 MIMO
的文章,需要输入以下搜索选项:
而不是,
因为第二种输入方式,会找到 Haykin
撰写的关于 MIMO
的文章,以及 Huber
撰写的所有文章,无论主题是什么。即:在结构化高级搜索中,会首先处理 AND
运算符。而要优先处理 OR
运算符,需要在 AND
条件之前指定 OR
条件。
在命令搜索中(Command Search)
使用括号可以覆盖运算符优先级的顺序。在命令搜索中这点尤其适用,使用括号将元素分组为运算符,并指定哪些运算符先执行。
例如,同样检索由 S. Haykin
和 K. Huber
两位作者撰写的所有关于 MIMO
的文章,只不过由检索的方式由结构化高级搜索换成了命令搜索,
mimo AND ("Authors":"Haykin S" OR "Authors":"Huber K")
果没有括号,
mimo AND "Authors":"Haykin S" OR "Authors":"Huber K"
搜索的结果会变成 Haykin
撰写的关于 MIMO
的文献,以及 Huber
的所有文献,而不管主题是什么。
使用通配符搜索(Wildcard Characters)
要搜索具有拼写变体(spelling variations)或包含指定字符模式(specified pattern)的单词,可以使用通配符。以 IEEE Xplore 其支持 10 个通配符。其中,
- 星号 (
*
) 通配符表示它所占位置中的 0 个、1 个或多个字母数字字符; - 问号 (
?
) 通配符表示一个字符。
关于前面提到的第一点拼写变体(spelling variations), *
通配符可以匹配词干变体,这些变体是 IEEE Xplore 正常搜索中的自动词干变体无法找到的。例如,computer
只会匹配 computers
,但 computer*
也会匹配 computerize
。
而对于搜索包含指定字符模式(specified pattern)的单词,可以在引号内使用通配符。例如,"health inform*"
将检索确切的短语"health inform"
,"health informatics"
、"health information"
等。
注意,通常情况下,每次搜索最多可以使用 10 个通配符,而使用通配符必须至少有 3 个字符。当然凡是总有例外,在检索结果的基础上进行 Refine 时可以额外再使用一个通配符,同时在关于 author 进行 Refine 时可以使用带有两个字符的通配符。
不同的搜索形式
在 IEEE Xplore 中有几种不同的搜索形式,分别适用于不同的场景,
-
全局搜索(Global Search)
最常用的搜索形式,使用 IEEE Xplore 时一进入数据库出现在在顶部的搜索框就是全局搜索4。
-
高级搜索(Advanced Search)
高级搜索就是在搜索时引入了更多的搜索条件进行更有针对性的搜索,可以显著减少初始搜索结果集5。
-
命令搜索(Command Search)
命令搜索和高级搜索类似,命令搜索同样可以进行更有针对性的搜索,但与高级搜索不同的是命令搜索可以进行以更自由的格式进行搜索3。
-
图像搜索(Image Search)
顾名思义,可以搜索嵌入在期刊和会议文档中的图像。但是需要进行 IEL 订阅验证。
简单总结一下上面的搜索方式,个人觉得,
全局搜索(Global Search)就是大家日常在频繁使用的一种搜索形式,比如:各种搜索引擎(Google,Bing 等)提供的就是这种搜索形式,属于一种比较泛的搜索形式,适用于对要检索的目标仅仅只有比较模糊的一个概念;
而命令搜索(Command Search)就是一种更有目标性的搜索,虽然在搜索时看上去全局搜索麻烦不少,但是其搜索结果更有针对性,用户能够更快的从搜索结果中找到自己想要的信息,适用于对要检索的目标有一个比较清楚的认识;
高级搜索(Command Search)更像是在全局搜索和命令搜索之间做了一个权衡,在降低命令搜索门槛的同时,提高了全局搜索结果的针对性,使用于既对搜索结果有一定要求,又觉得命令搜索太过复杂的用户;
最后是图像搜索(Image Search),完全是另一种模态的搜索,比起前三种文本搜索来说,提供了图像检索的能力。
下面针对上面提到的四种不同的搜索形式,挑其中两种重点介绍一下,一个是比较常用的全局搜索(Global Search)以及比较通用的命令搜索(Command Search)。
全局搜索(Global Search)
全局搜索(Global Search)支持进行关键词(keywords)、短语(phrases)、作者姓名(author names)和出版物详细信息(publication details)的搜索,这很自然的将全局搜索分为了下面 3 类4,
-
基本搜索(Basic Search)
对于基本搜索需要注意以下几点,
- 在基本检索中会自动对所有输入的词语进行
AND
运算。要完全匹配的短语需要使用引号(""
); - 检索运算符(
AND
、OR
、NOT
、NEAR
、ONEAR
)可以在基本检索中使用; - 在特定字段中检索,可以在引号中输入字段名称,后跟一个冒号(例如,
"Authors":
)。
- 在基本检索中会自动对所有输入的词语进行
-
作者搜索(Author Search)
作者搜索功能可用于帮助查找特定作者的文章。在 IEEE Xplore 中的作者姓名现在已经过消除歧义处理,可以更轻松地查找由同一作者以多种姓名格式撰写的文章。在按作者姓名进行搜索时,有以下一些注意事项,
-
包含连字符将会导致对整个字符串的搜索,
例如,搜索
Shane-Cloude
将会精确匹配"Shane Cloude"
这一结果。搜索Shane Cloude
(没有连字符)将会返回"Shane Cloude"
的所有变体,包括"Shane-Cloude"
、"Shane Cloude"
和"Cloude Shane"
。 -
在全局作者搜索中,只会考虑连字符和引号。所有其他标点符号都会被忽略;
搜索首字母缩写时,字母后的句点不是必需的,因为在运行搜索时,这些句点将被替换为空格。
-
点击搜索结果(或摘要或目录页)中的作者姓名后,只会检索到包含该特定作者身份记录的完全匹配的文章,
可能存在例外情况,即某个作者拥有尚未消除歧义的多个身份记录。当通过点击该作者姓名返回搜索结果时,可能无法捕获所有身份记录。如果是这种情况,可以通过在作者搜索中输入名字和姓氏来搜索作者,以确保搜索结果的完整性。
-
-
出版物检索(Publication Search)
在搜索下拉菜单中选择五种内容类型之一来进行出版物搜索,即书籍(Books)、会议(Conferences)、课程(Courses)、期刊(Journals)与杂志(Magazines)和标准(Authors)。
命令搜索(Command Search)
通过命令搜索,可以更为自由的进行搜索查询。每个搜索子句最多可以输入 25 个搜索词,可以使用邻近运算符,并可以更好地控制表达式的运算顺序3。
观察下图(命令搜索的基本界面)可以发现命令搜索的基本组成以及相应的逻辑,大致由两部分组成,
- 两个下拉选项框:数据字段(Data Fields)和运算符(Operators)
- 一个文本输入框:填写用于搜索的命令
其中,通过数据字段和运算符的下拉选项框,可以很方便在命令搜索的文本框中插入字段和运算符。这其实也道出了,所谓的命令其实主要是由三个部分组成的:关键词(Keywords),数据字段(Data Fields)和运算符(Operators)。
对于关键词(Keywords)没什么好说的,只要记得如果想要进行词或短语的精确匹配,需要加上引号(""
)即可,而有关运算符(Operators)的知识文章的前面部分已经介绍过了,所以下面重点介绍数据字段(Data Fields)6。
所谓的数据字段就是用来标识一个文档的特定部分。通过数据字段可以将搜索限制在特定字段(或元数据)中,可以减少处理搜索所需的时间,并产生更有针对性的结果。下面展示了一些常用的数据字段,
-
Authors(作者)
-
Document Title(文档标题)
-
Publication Title(出版物标题)
-
Abstract(摘要)
-
DOI(数字对象标识符)
用于标识单个对象(如期刊文章或会议论文)的唯一字符串。
-
Full Text & Metadata(全文和元数据)
全文(Full Text)指的是论文的正文内容(PDF/HTML 全文),而元数据(Metadata)是仅包含文献的描述性信息,如标题、作者、摘要、关键词、出版日期、DOI、ISSN/ISBN 等。
在使用数据字段进行检索时需要注意,运算符 OR
在数据字段中进行搜索时,不能使用括号来嵌套搜索词。比如:
下面的表达式不是一个有效的搜索,
"Document Title":("radio frequency identification" OR rfid)
真正有效的搜索是
"Document Title":"radio frequency identification" OR "Document Title":rfid
然后,可以使用括号来嵌套此搜索字符串,
("Document Title":"radio frequency identification" OR "Document Title":rfid) AND scheduling
认真比较全局搜索和命令搜索不难发现,其实,在全局搜索中同样可以使用命令搜索中的那些数据字段和运算符,只要足够的熟悉可以直接在全局搜索中使用命令搜索,而所谓的命令搜索不过是提供了两个下拉选项框,更方便插入数据字段和运算符罢了。
比较其它常用数据库
除了前面用作演示示例的 IEEE Xplore 数据库之外,还有以下几个常用的文献数据库,
-
跨学科引文数据库,核心为
SCI
(科学引文索引)、SSCI
(社会科学引文索引)等。 -
多学科摘要与引文数据库,覆盖更广,包含非英语文献。
-
工程领域专用,核心为
Compendex
(工程索引)和Inspec
(物理/电气工程)。
但是不管 Web of Science 数据库7,还是 Scopus 数据库8,亦或是 Engineering Village 数据库,它们在进行检索时的基本逻辑都与 IEEE Xplore 数据库类似,包括:关键词所遵循的基本规则,以及构建表达式时用到的运算符和通配符等等。所以只要掌握了IEEE Xplore 数据库检索的基本逻辑,在使用其他数据库进行搜索时也能游刃有余。
写在最后
之所以会写这篇文章是因为自己在进行文献追踪时并没有取得太好的成效,反思了一下发现,不管是文献数据库本身提供的文献订阅的功能,还是被很多人在文献追踪时反复提及的文献鸟,都需要用户提供足够好的领域关键词,所以如何构建一个属于自己研究领域的搜索表达式就成为了能否对领域前沿有效追踪的关键。
而一个好的搜索表达式,在笔者看来需要,
-
关键词内容本身足够准确
这就需要了解关键词遵循的基本规范,比如:如何精确匹配词/短语,各种标点符号、特殊字符如何处理等等。
-
合理的运用运算符、通配符去组合关键词
通常一个领域的关键词不太可能只有一个,那如何去组合这些关键词以达到更好的搜索结果,就需要用到运算符和通配符。
简单理解,把搜索表达式比喻成一个人的话,运算符和通配符就是一个人的血肉,而关键词就是一个人的灵魂。
参考资料
-
Search Tips: https://ieeexplore.ieee.org/Xplorehelp/searching-ieee-xplore/search-tips ↩
-
Phrased Searching: https://ieeexplore.ieee.org/Xplorehelp/searching-ieee-xplore/search-engine#field-searching:~:text=Processing%20(Hardware/Software).-,Phrased%20Searching,-Phrased%20searching%20allows ↩
-
Command Search: https://ieeexplore.ieee.org/Xplorehelp/searching-ieee-xplore/command-search ↩ ↩2 ↩3
-
Global Search: https://ieeexplore.ieee.org/Xplorehelp/searching-ieee-xplore/global-search ↩ ↩2
-
Advanced Search: https://ieeexplore.ieee.org/Xplorehelp/searching-ieee-xplore/advanced-search ↩
-
Field Searching: https://ieeexplore.ieee.org/Xplorehelp/searching-ieee-xplore/search-engine#:~:text=using%20search%20operators-,Field%20Searching,-You%20can%20now ↩
-
Search Rules: https://webofscience.help.clarivate.com/en-us/Content/search-rules.htm ↩
-
How do I search in Scopus: https://cn.service.elsevier.com/app/answers/detail/a_id/34325/ ↩
留下评论