767_count_domens#788

Open

vovanbravin wants to merge 3 commits intodevfrom

767_count_domens

Collaborator

vovanbravin commented Jan 30, 2026

No description provided.


          767_count_domens

c2e0e67

vovanbravin linked an issue

that may be closed by this pull request

Критерий Проверка источников в списке литературы: Н источников не должны ссылатся на один домен / URL + запрещенные домены #767

Open

Collaborator Author

vovanbravin commented Feb 13, 2026

Запрещенные домены не добавлял проверку, так как есть уже критерий banned_words_in_lit, который уже проверяет это момент (тестировал).

HadronCollider requested changes

View reviewed changes

Collaborator

HadronCollider left a comment

Исправьте логику в #776 и подтяните изменения
После поставьте лейбл "need_review"

github-actions bot added the has conflicts label


          Merge branch '762_duplicate_literature_references' into 767_count_domens

6ba3326

vovanbravin added need_review and removed has conflicts labels


          Merge branch 'dev' into 767_count_domens

8c9ae65

HadronCollider changed the base branch from 762_duplicate_literature_references to dev

March 16, 2026 18:04

vovanbravin requested a review from HadronCollider

March 17, 2026 11:29

HadronCollider requested changes

View reviewed changes

app/main/checks/report_checks/literature_references.py

                       return start_index
+                  def find_domains(self, sources: str):
+                      pattern = r'(?:https?|ftp)?://([^/\s?#]+)'

Collaborator

HadronCollider Mar 17, 2026

Вынесите в поле класса

app/main/checks/report_checks/literature_references.py

Comment on lines +185 to +188

+                      if match and match.group(1):
+                          self.literature_domains.append(match.group(1))
+                      else:
+                          self.literature_domains.append('') #чтобы можно было определить номер

Collaborator

HadronCollider Mar 17, 2026

Сократите до 1 строки (тернарный оператор)

app/main/checks/report_checks/literature_references.py

                               break
                       return start_index
+                  def find_domains(self, sources: str):

Collaborator

HadronCollider Mar 17, 2026

смысла в этой функции как методе класса - 0 (он ещё и меняет состояние объекта, хотя вроде как должен просто найти домены) - проще regexp использовать в count_sources_*, и self.literature_domains.append делать там же (там будет и доступ к индексу)

app/main/checks/report_checks/literature_references.py

+                      if match and match.group(1):
+                          self.literature_domains.append(match.group(1))
+                      else:
+                          self.literature_domains.append('') #чтобы можно было определить номер

Collaborator

HadronCollider Mar 17, 2026

Чтобы определить номер, достаточно хранить его - вместе с доменом, иначе у вас есть список из 100 пустых строк (=много источников), потому что доменов среди нет нет

app/main/checks/report_checks/literature_references.py

    
                      counter = Counter([text.lower() for text in self.literature_reference_text])

                  def checking_duplicate_sources(self, sources: list[str], max_count: int) -> list:

                      """Функция нахождения дубликатов в определенных позициях"""

                      counter = Counter([text.lower() for text in sources])

Collaborator

HadronCollider Mar 17, 2026

замените лист на генератор - он будет работать быстрее и меньше займет памяти

app/main/checks/report_checks/literature_references.py

Comment on lines 160 to +161

    
                      for text, count in counter.items():

                          if count >= 2:

                              positions_duplicates = [i + 1 for i, text_in_ref in enumerate(self.literature_reference_text) if text == text_in_ref.lower()]

                          if count >= max_count and text != '':

Collaborator

HadronCollider Mar 17, 2026

Чтобы не делать на каждом шаге итерации сравнение text != '' - можно ещё на этапе формирования Counter не добавлять эти строки (например, фильтруя text.lower() for text in sources if text.strip())

app/main/checks/report_checks/literature_references.py

    
                  def checking_duplicate_sources(self) -> list:

                      """Функция нахождения дубликатов в источниках"""

                      counter = Counter([text.lower() for text in self.literature_reference_text])

                  def checking_duplicate_sources(self, sources: list[str], max_count: int) -> list:

Collaborator

HadronCollider Mar 17, 2026

добавьте для max_count значение по умолчанию (= исходная логика с дубликатами источников)

HadronCollider added Changes requested and removed need_review labels

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment