Типовые различия естественных и сгенерированных нейронной сетью текстов в квантитативном аспекте
https://doi.org/10.24224/2227-1295-2023-12-7-47-65
Аннотация
Авторы статьи выявляют отличительные черты в текстах, написанных людьми, и в текстах, созданных нейросетью GPT-3. Тексты, сгенерированные GPT-3, еще не становились предметом систематического углубленного изучения. Рассмотрено 160 текстов, распределенных по четырем темам («Высшее образование в моих глазах», «Как оставаться человеком в нечеловеческих условиях?», «Как я провёл лето?», «Педагог года»), 80 из которых созданы нейросетью, а 80 — людьми. Тексты проанализированы с использованием методов квантитативной лингвистики. К каждому из текстов при помощи программы AntConc составлен конкорданс, из которого были получены количественные значения, используемые для дальнейшего анализа. Сделаны следующие выводы: (1) в сгенерированных текстах слова, включённые в заголовок, встречаются с наибольшей частотностью; (2) относительная частота употребления слов, включённых в заголовок, нецелесообразно завышена; (3) в список 20-ти самых частотных слов во всех сгенерированных текстах входит наибольшее количество полнозначных слов; (4) коэффициент лексического разнообразия в естественных текстах значительно выше, нежели у сгенерированных. Результаты исследования могут быть полезны как преподавателям, так и специалистам в области машинного обучения.
Об авторах
Р. Е. ТельповРоссия
Тельпов Роман Евгеньевич, кандидат филологических наук, доцент кафедры общего и русского языкознания
Москва
С. В. Ларцина
Россия
Ларцина Станислава Витальевна, магистрант, кафедра общего и русского языкознания
Москва
Список литературы
1. Борунов, А. Б. Разнообразие речи и методы его измерения в тексте (лингвостатистический подход) / А. Б. Борунов // Litera. — 2017. — № 4. — С. 81—86.
2. Бурнашев Р. Ф. Роль нейронных сетей в лингвистических исследованиях / Р. Ф Бурнашев, А. С. Аламова // Science and Education. — 2023. — № 3. — С. 258—269.
3. Бурнашев Р. Ф. Квантитативная лингвистика и искусственный интеллект / Р. Ф. Бурнашев, А. С. Аламова // Science and Education. — 2022. — Т. 3, № 2. — С. 1390—1402.
4. Галушкин А. И. Нейронные сети [Электронный ресурс] / А. И. Галушкин // Большая российская энциклопедия. — 2022. — 16 ноября. — Режим доступа : https://old.bigenc.ru/technology_and_technique/text/4114009 (дата обращения: 20.06.2023).
5. Головин Б. Н. Язык и статистика / Б. Н. Головин. — Москва : Просвещение, 1971. — 190 с.
6. Захарова Е. Ю. Лексическое разнообразие текста и способы его измерения / Е. Ю. Захарова, О. Ю. Савина // Вестник Тюменского государственного университета. Гуманитарные исследования. Humanitates. — 2020. — Т. 6, № 1 (21). — С. 20—34. — DOI: 10.21684/2411-197X-2020-6-1-20-34.
7. Насырова Г. Н. Обзор современных сервисов и программного обеспечения квантитативной лингвистики / Г. Н. Насырова, Ш. Х. Амонова, Р. Ф. Бурнашев // Science and Education. — 2022. — Т. 3, №. 12. — С. 450—462.
8. «Речевое творчество» искусственного интеллекта : какие тексты пишет машина и чем они отличаются от людских / А. Ю. Краснояров, М. А. Аргузова, Ж. А. Хужамурадов, С. Р. Рахимов // Социальные и гуманитарные науки. Отечественная и зарубежная литература. Серия 6: Языкознание. Реферативный журнал. — 2022. — № 2. — С. 41— 49. — DOI: 10.31249/ling/2022.02.02.
9. Юхан Т. Проблемы и методы квантитативно-системного исследования лексики / Т. Юхан. — Таллин : Валгус, 1987. — 204 с.
10. Cohen A. Numerical Analysis of Word Frequencies in Artificial and Natural Language Texts / A. Cohen, R. Mantegna, S. Havlin // Fractals. — 2011. — Vol. 5, no. 01. — Pp. 1—19. — DOI: 10.1142/S0218348X97000103.
11. Dale R. GPT-3: What’s it good for? / R. Dale // Natural Language Engineering. — 2021. — Vol. 27, no. 1. — Pp. 113—118. — DOI: 10.1017/S1351324920000601.
12. Dinesh K. Study and Analysis of Chat GPT and its Impact on Different Fields of Study / K. Dinesh, S. Nathan // International Journal of Innovative Science and Research Technology (IJISRT). — 2023. — Vol. 8, no. 3. — Pp. 827—833. — DOI: 10.5281/zenodo.7767675.
13. Floridi L. GPT-3: Its Nature, Scope, Limits, and Consequences / L. Floridi, M. Chiriatt // Minds and Machines. — 2020. — Vol. 30, no. 2. — Pp. 1—14. — DOI: 10.1007/s11023-020-09548-1.
14. Kettunen K. Can Type-Token Ratio be Used to Show Morphological Complexity of Languages? / K. Kettunen // Journal of Quantitative Linguistics. — 2014. — Vol. 21, no. 3. — Pp. 223—245. — DOI: 10.1080/09296174.2014.911506.
15. Klee T. Utterance length and lexical diversity in American and British–English speaking children: What is the evidence for a clinical marker of SLI? / T. Klee, W. J. Gavin, S. F. Stokes // Language Disorders From a Developmental Perspective. — New York, 2017. — Pp. 103—140. — DOI: 10.4324/9781315092041-4.
16. McCarthy P. M. Voc-D: a theoretical and empirical evaluation / P. M. McCarthy, S. Jarvis // Language Testing. — 2007. — Vol. 24, no. 4. — Pp. 459—488. — DOI: 10.1177/0265532207080767.
17. McCarthy P. M. MTLD, vocd-D, and HD-D: a validation study of sophisticated approaches to lexical diversity assessment / P. M. McCarthy, S. Jarvis // Behavior Research Methods. — 2010. — Vol. 42, no. 2. — Pp. 381—392.
18. Qaiser S. Text Mining: Use of TF-IDF to Examine the Relevance of Words to Documents / S. Qaiser, R. Ali // International Journal of Computer Applications. — 2018. — 181 (1). — Pp. 25—29.
19. Somers H. H. Statistical methods in literary analysis / H. H. Somers // The Computer and Literary Style / J. Leeds (еd.). — Kent, OH : Kent State University. — 1966. — Рр. 128—140.
20. Tweedie F. J. How variable may a constant be? Measures of lexical richness in perspective / F. J. Tweedie, R. H. Baayen // Computers and the Humanities. — 1998. — Vol. 32. — Pp. 323—352.
21. Zenker F. Investigating minimum text lengths for lexical diversity indices / F. Zenker, K. Kyle // Assessing Writing. — 2021. — Vol. 47, no. 2. — DOI: 10.1016/j.asw.2020.100505.
Рецензия
Для цитирования:
Тельпов Р.Е., Ларцина С.В. Типовые различия естественных и сгенерированных нейронной сетью текстов в квантитативном аспекте. Научный диалог. 2023;12(7):47-65. https://doi.org/10.24224/2227-1295-2023-12-7-47-65
For citation:
Telpov R.E., Lartsina S.V. Typological Differences of Natural and Neural Network-Generated Texts in a Quantitative Aspect. Nauchnyi dialog. 2023;12(7):47-65. (In Russ.) https://doi.org/10.24224/2227-1295-2023-12-7-47-65