ChatGPT背后的知识产权风险:是剽窃还是创作?

文章标签:知识产权风险, ChatGPT, 自然语言处理, 人工智能创作作品

  ChatGPT背后的知识产权风险【剽窃还是创作】

自去年11月,OpenAI公司发布的聊天机器人ChatGPT引起了人们的广泛关注。这款人工智能程序以其强大的信息检索和文本生成能力令人惊叹,但与此同时,关于其知识产权的问题也引发了讨论。

国际著名语言学家乔姆斯基曾经公开指出,ChatGPT是一种高级的剽窃系统,它能够从大量的数据中发掘出规律,并根据这些规律将这些数据串连起来,生成类似于人类所写的文章和内容。然而,这一观点也遭到了一些人的反驳。他们认为,人类的学习过程实际上也是一种从已有知识中继承、分析和规律化的过程,因此,真正对人类构成威胁的是让人类失去思考的能力。

近年来,随着人工智能技术的飞速发展,有关人工智能创作作品是否涉嫌剽窃、其生成的内容是否受到版权保护以及是否存在法律风险等问题逐渐引起公众的关注。尤其是 ChatGPT 等人工智能产品的风靡程度,使得这些问题的探讨更加深入。

  AIGC是否存在侵权风险

作为一款先进的自然语言处理系统,ChatGPT的智能程度在很大程度上取决于其训练数据的丰富性。它通过海量的文本语料库进行学习,从而掌握语言规律,解答问题和生成文本。因此,ChatGPT的学习能力与数据量密切相关,拥有越多的数据,它的表现就越出色。

在2020年5月,OpenAI发布了一篇题为《Language Models Are Few-Shot Learners》的研究论文,该论文阐述了公司在训练语言模型时所采用的主要数据来源。根据论文内容,OpenAI主要依赖CommonCrawl、WebText、维基百科以及书籍语料库来训练其语言模型。

在探讨使用这些数据是否涉及侵权风险的问题时,中国信息通信研究院云计算与大数据研究所的所长何宝宏表示,无限制地运用ChatGPT可能导致知识产权争端。由于ChatGPT的开发者并未公开其生成的合成运行机制和训练数据来源,因此,在用户引导下的问答过程中,ChatGPT的回答可能存在未能引用来源的情况。这种情况下,若用户在使用未标明来源的内容时未意识到剽窃问题,就可能导致侵权行为的发生。

北京盈科(杭州)律师事务所的律师方超强指出,在AI训练过程中,无法避免对他人的著作权作品进行复制和使用,这也就带来了潜在的著作权侵权风险。然而,这种风险并非无法预防,我们可以选择采用一些策略来规避,比如使用那些不涉及著作权的公共资源,或者获取已经获得授权的文字作品等。

他强调,当AI生成的文本与其现有文本存在实质性的相似性时,无论是AI的创作过程还是后续对AI文本作品的运用,都可能涉及到对已有文字作品的侵权风险。

  公开报道显示,目前已有国外新闻媒体指责OpenAI在不支付任何费用的情况下使用他们的文章来训练ChatGPT。

  此前,《华尔街日报》记者Francesco Marconi在网上公开表示,他向ChatGPT索取了一份用来训练它的新闻来源清单,收到的回复列出了包括路透社、《纽约时报》、《卫报》、BBC新闻等20家媒体,但并不清楚OpenAI是否与所列出版商都达成了协议。

  全球最大的媒体集团之一新闻集团(News Corp。)旗下道琼斯公司的法律总顾问Jason Conti日前也在提供给媒体的一份声明中称,任何想使用《华尔街日报》记者的作品来训练人工智能的人,都应该从道琼斯获得适当的授权,但“道琼斯没有与OpenAI达成相关的协议”。他表示,道琼斯公司正在对该情况进行审查,并将严肃对待滥用记者作品的行为。

  在北京大成律师事务所合伙人肖飒看来,这其实涉及“文本数据挖掘”是否需要相应的知识产权授权的问题。ChatGPT需要对语料库中的数据进行挖掘和训练,将语料库中的内容复制到自己的数据库中,相应的行为通常在自然语言处理领域被称为“文本数据挖掘”。“当相应的文本数据可能构成作品的前提下,文本数据挖掘行为是否侵犯‘复制权’当前仍存在争议。”肖飒说。

  她指出,在比较法领域,日本和欧盟在其著作权立法中均对合理使用的范围进行了扩大,将AI中的“文本数据挖掘”增列为一项新的合理使用的情形。“目前我国著作权法依旧保持了合理使用制度的封闭式规定,仅著作权法第二十四条规定的十三种情形可以被认定为合理使用,也就是说,目前我国著作权法并未将AI中的‘文本数据挖掘’纳入到合理适用的范围内,文本数据挖掘在我国依然需要相应的知识产权授权。”

  AIGC可以受到版权保护吗

  公开报道显示,ChatGPT可以编写代码、撰写诗歌,甚至还能通过一定提示完成短篇小说的写作,令人不禁提出疑问:AIGC是否属于创作?人工智能能替代人类作者吗?

  人工智能研究专家田涛源对中青报·中青网记者表示,目前ChatGPT本质上还是在做词条的排列组合,会根据人类表达的需求给出最接近人类喜好的答案。“当它的力度到达‘词’这个级别的时候会给人感觉好像是在创作,但实际上它无法跳出训练文本库的归纳范围,即无法创造人类不知道的新知识。”

  方超强也指出,AI创作在本质上,是人类创作的衍生;需要明确的是,是人类设计了程序,训练了程序,进而达到AI软件能够相对智能地输出一些符合人类要求的作品。归根结底,本质上还是人在主导。

  事实上,当被问及“你生成的内容是作品吗”,ChatGPT也承认,“我可以根据输入的提示来生成文本,但是这些生成的文本并不算是作品,因为它们并没有蕴含创造性、独创性、艺术性等元素,仅仅是根据预先训练好的模型对输入的提示进行生成而已。因此,我生成的内容更类似于工具或辅助工具,可以帮助人们自动生成一些文本,但是它们不算是创意作品或原创作品。”

  此前,已有多篇学术论文将ChatGPT列为作者。据《自然》网站报道,至少有4份已发表和预印本上的论文使用了ChatGPT作为论文的“合著者”。

  针对这种情况,日前已有多家学术期刊发表声明,完全禁止或严格限制使用ChatGPT等人工智能机器人撰写学术论文。《科学》杂志表示不接受使用ChatGPT生成的投稿论文,同时不允许ChatGPT作为论文合著者。《细胞》和《柳叶刀》则表示论文作者不能使用人工智能工具取代自己完成关键性任务,作者还必须在论文中详细解释他们是如何使用这些人工智能工具的。

  北京云嘉律师事务所副主任、中国政法大学知识产权研究中心特约研究员赵占领在接受中青报·中青网记者采访时表示,按照目前绝大部分国家的著作权法,使用人工智能软件产生的内容不属于法律意义上的作品,人工智能软件本身不能视为法律意义上的作者,使用者也并非著作权人。

  “但从商业角度而言,AI智能公司花了大量金钱和技术资本打造了高度智能的AI程序,对该程序衍生的‘作品’完全不予保护,也有违公平。”方超强指出,此前国内司法实践中,对于字库软件生成的具有独创性和艺术美感的“字体”给予著作权保护,也是对AI作品进行保护的一种体现。他认为,如何对现有知识产权理论和法律体系进行调整,为AI文本或其他AI作品,包括AI美术作品、音乐作品等,提供合理且必要的权利保护体系,已经是目前较为迫切的命题。

  “个人认为,对于具有独创性兼具一定艺术高度的AIGC作品,应当受到知识产权的保护,反之则不予保护;相应的知识产权权属应当归属于AI公司;至于这一类的AIGC作品保护、使用规则,是否需要比对人类创作作品进行缩减或限制,仍有待进一步的探讨。”方超强还建议,“应对AIGC内容进行有限度的保护,如果不加以限制,未来可能会出现AI公司手握‘创作霸权’的局面,影响甚至抑制人类创作者的创作热情,长远来说,会影响人类的知识产权创作。”

  但就目前ChatGPT的表现来看,它的“创作”所体现出来的观点通常并不鲜明,更缺乏原创性,表达方式虽未必与其他人作品构成实质相似,但也经常借鉴一个或多个主体的表达方式。目前也只能在部分领域、部分方面替代人类的工作。但也带来一定的弊端,容易给某些群体带来思维惰性,在一定程度上可能反而抑制了创新。

  (应受访者要求,田涛源为化名)

  中青报·中青网见习记者 李若一 记者 王林 见习记者 贾骥业 来源:中国青年报

知识产权风险, ChatGPT, 自然语言处理, 人工智能创作作品

Leave a Reply