命名实体是文本中具有唯一指代意义的专有名称,如“张伟”“北京市”“腾讯公司”“2025年12月3日”,需满足三个条件:有明确边界、属于预定义类型(如PER、LOC、ORG、TIME等)、具有唯一指称性;例如“上海虹桥站”为完整地名,“苹果公司”为机构名,而“
命名实体指的是文本中带有明确指代意义的专有名称,比如“张伟”“北京市”“腾讯公司”“2025年12月3日”这类能唯一指向某个人、地点、组织或时间点的词或短语。“命名”强调它不是泛指(如“一个程序员”),而是像身份证号一样具有刚性指称作用。
它必须满足三个条件:
它们不是NER里的概念,而是网页编码中用来安全显示特殊符号的写法:
表示小于号 ,避免被浏览器误认为HTML标签的开头(比如把 当成标签解析)
-
& 表示英文符号 &,因为&在HTML中用于引入字符实体(如©),直接写&会导致解析错误
简单说:它们是“转义符”,让浏览器按字面意思渲染,而不是当作语法结构处理。
为什么容易混淆这两个“&”?
因为NER任务的输入常来自网页文本,而原始HTML里就含&这类编码。如果没先解码就送进NER模型,可能把 识别成“组织名”,或把
当成乱码实体——所以实际处理前通常要先做HTML解码。
基本上就这些。