开源自动标注工具Doccano,项目地址https://github.com/doccano/doccano
官方教程:https://doccano.github.io/doccano/
支持jsonl格式文件导入导出,支持REST API自动标注
自动标注api参考:
https://blog.csdn.net/weixin_44826203/article/details/125719480
遇到的问题:
无法正确设置自动标注api
原因是当前版本accano前端有bug,参考https://github.com/doccano/doccano/issues/2281
可通过访问http://x.x.x.x:8000/admin/进入Django管理界面手动配置
Model attrs:{"url": "http://x.x.x.x:5739", "body": {"text": "{{ text }}"}, "method": "POST", "params": {}, "headers": {}}
Template:[
{% for entity in input %}
{
"start_offset": {{ entity.start_offset }},
"end_offset": {{ entity.end_offset}},
"label": "{{ entity.label }}"
}{% if not loop.last %},{% endif %}
{% endfor %}
]
Label mapping:{"label1":"match label","label2":"match label2"}
# lable1: you config labels_span name
# match label: interface return entity class name
正确配置后,api后台可以收到数据并正常处理,但是accanno前台不能自动标注,原因不明,要么是相关参数没有正确配置(由于accano前端写得真不太行,难以在web界面上排查),要么是accano没有收到返回的数据